JPH0944602A

JPH0944602A - 近傍点検出方法及びパターン認識装置

Info

Publication number: JPH0944602A
Application number: JP7190414A
Authority: JP
Inventors: Hiroyasu Takahashi; 弘晏高橋
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-07-26
Filing date: 1995-07-26
Publication date: 1997-02-14
Anticipated expiration: 2015-07-26
Also published as: US5937093A; JP2986074B2

Abstract

(57)【要約】【課題】最近傍点を高速かつ高精度に検出する。【解決手段】特長空間を１又は２以上の特長毎にグル
ーピングし、各グループまで計算された距離値が、各グ
ループ毎のしきい値ＴＨＲ＿ＭＩＸを越えているか否か
を判定する。ここで、ＴＨＲ＿ＭＩＸは、累積特長量に
基づいて設定されたしきい値及び次元数に基づいて設定
されたしきい値との平均値に設定される。各グループ毎
の距離値がしきい値ＴＨＲ＿ＭＩＸを越えている場合、
この距離値を与えたプロトタイプを以降の距離計算から
除外する１フェーズ目のスクリーニングを行う。そし
て、さらに１フェーズ目のスクリーニングの対象となっ
たグループに関し、該グループまでの距離値の最小値か
らしきい値ＴＨＲ＿ＲＡＴＥを計算し、２フェーズ目の
スクリーニングを行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、Ｎ次元の特長空間
に多数の標本点が分布している時、該特長空間における
新しい入力点がどの標本点に最も近いかを、距離計算の
途中で最近傍となる可能性のきわめて低い標本点を除外
することによって、高速に検出する高速最近傍点検出方
法及び該検出方法を応用したパターン認識装置に関す
る。

【０００２】

【従来の技術】従来、Ｎ次元（Ｎは自然数）の特長空間
に多数の標本点が存在する時、ある入力点（Ｎ次元の特
長を持つ）が、どの標本点に最も近いかを高速に計算す
る問題は、非常に多くの応用があり、古くから研究され
てきた。この応用の一例としてパターン認識が挙げられ
る。このパターン認識への応用の場合、標本点は認識対
象となる各カテゴリーのプロトタイプの集合であり、入
力点は認識されるべきサンプルである。また、Ｎ次元特
長空間の各次元の値は所謂ＯＣＲ（optical character
reading ）のような文字認識装置の場合、文字パターン
から抽出された各々の特長値に相当する。最も簡単な認
識方法は、入力点に最も近い標本点（最近傍点）が属す
るカテゴリーを認識結果とするものである。

【０００３】ここで、次元数Ｎの値がかなり小さい場合
（数次元程度）は、理論的な高速検出方法が存在する。
しかし、Ｎが大きくなると（例えば数十次元以上）、入
力点と多数の標本点との距離計算量が急激に増大し、高
速で最近傍を厳密に保証する理論的な方法は存在しない
と言われている。従って、現実的な応用では、最近傍の
保証よりも高速性と認識率の最小限の低下とのトレード
オフが重要になってくる。

【０００４】そこで、従来から、認識率の低下が最小限
に抑えられる範囲の高確率で高速に最近傍点を検出する
ための色々な検出方法が考えられている。これらの検出
方法では、距離計算の前若しくは途中で最近傍となる可
能性の極めて低い標本点を計算対象から除外（スクリー
ニング）することにより演算量を軽減させて高速化を図
っている。例えばＯＣＲで２００次元の特長を主なもの
として使う場合、その前に２００次元を２０次元に圧縮
した特長でスクリーニングする方法、別のもっと簡単な
特長で予めスクリーニングを行う方法などがある。ま
た、「階層的パターンマッチングにおける簡易高速識別
方法」（情報処理学会第３３回全国大会、ｐｐ１６４３
（１９８６）；曽根、加藤、高橋）には、２００次元の
距離計算の途中で切り捨て用の単純なしきい値と比較し
て最近傍である可能性の極めて低い標本点を次々とスク
リーニングする方法が開示されている。勿論、これらの
方法の組み合わせも有効である。

【０００５】

【発明が解決しようとする課題】しかしながら、上記従
来の最近傍検出方法では、一定のしきい値や単純化した
特長量を用いてスクリーニングを行うため、十分な高速
化を図ろうとすると最近傍点である標本点をスクリーニ
ングする可能性がかなり高まり、逆に最近傍点の検出率
を向上させようとしてスクリーニングを緩和すると、十
分な高速化が図れなくなる、という問題が生じる。すな
わち、従来技術では、高速性と認識率の最小限の低下と
のトレードオフで決定される処理効率が満足のいくもの
ではなかった。

【０００６】本発明は上記事実を考慮し、距離計算の過
程でスクリーニングのしきい値を動的に変化させること
によって大幅に処理効率を向上させた高速最近傍点検出
方法及び該方法を応用した高速かつ高認識率のパターン
認識装置を提供することを目的とする。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、請求項１の発明は、パターンの属性を示す複数の特
長を各々の次元として構成される特長空間で、入力され
た入力パターンと、該特長空間に分布する複数のパター
ンとの全特長空間における距離値を各々計算し、少なく
とも該距離値が最も小さい最近傍のパターンを検出する
高速最近傍点検出方法において、前記複数の特長を、各
々１又は２以上の特長毎に複数のグループに分類し、前
記複数のグループの各々に所定の順序を割当て、各グル
ープまでの特長に関連した情報量に基づいて、距離値に
関する第１のしきい値を前記複数のグループ毎に設定
し、前記所定の順序に従って、各グループまでの特長空
間における距離値を前記複数のパターンの各々について
計算していくと共に、あるグループまでの特長空間にお
ける距離値が、該グループにおける前記第１のしきい値
を越えた場合には、前記距離値を与えたパターンを、こ
れより後の距離計算の対象から除外することを特徴とす
る。

【０００８】請求項１の発明では、例えば、特長空間が
１９２次元ある場合に１６次元毎１２グループに均等に
分類し、各グループまでの特長空間、すなわち１６次
元、３２次元、．．．、１９２次元の各場合について、
順番に入力パターンと複数のパターンとの部分特長空間
における距離値を計算していく（最後のグループまでの
距離値は、全特長空間における真の距離値となる）。従
って、各グループまでの特長に関連した情報量、例えば
距離計算の対象となった特長数等の増加につれて、距離
値は大きく、また距離値の信頼度等が向上する。そこ
で、この変化に応じて各グループまでの特長に関連した
情報量に基づきグループ毎に第１のしきい値を更新し
て、これを越える距離値を与えるパターンを以降の計算
から除外（スクリーニング）する。これによって、一定
のしきい値を用いてスクリーニングする従来の方法と比
べて、真の最近傍点を途中でスクリーニングするおそれ
を回避して最近傍点の検出率を高めることと、高速化と
を両立できる。すなわち、最近傍点の検出率と高速化の
トレードオフで決定される処理効率を高めることができ
る。なお、グループ毎の第１のしきい値を、入力パター
ンが属するサンプル集団における各グループまでの特長
に応じた統計的性質等に基づいて設定すれば良い。ま
た、最近傍点のみならず、２、３、．．．番目に近いパ
ターンを検出しても良い。

【０００９】また、請求項２の発明は、パターンの属性
を示す複数の特長を各々の次元として構成される特長空
間において、入力された入力パターンと、該特長空間に
分布する複数のパターンとの全特長空間における距離値
を各々計算し、少なくとも該距離値が最も小さい最近傍
のパターンを検出する高速最近傍点検出方法であって、
前記複数の特長を、各々１又は２以上の特長毎に複数の
グループに分類し、前記複数のグループの各々に所定の
順序を割当て、各グループまでの特長に関連した情報量
に基づいて、距離値に関する第１のしきい値を前記複数
のグループ毎に設定し、前記所定の順序に従って、各グ
ループまでの特長空間における距離値を前記複数のパタ
ーンの各々について計算していくと共に、前記複数のパ
ターンの各グループまでの特長空間における距離値の最
小値を各グループ毎に求め、あるグループまでの特長空
間における距離値が、該グループにおける前記第１のし
きい値を越えた場合には、前記距離値を与えたパターン
を、これより後の処理の対象から除外し、前記第１のし
きい値によるパターンの除外を行ったグループについ
て、該グループにおける前記最小値に基づいて第２のし
きい値を設定し、前記グループまでの特長空間における
距離値が、前記第２のしきい値を越えた場合には、前記
距離値を与えたパターンを、これより後の距離計算の対
象から除外することを特徴とする。

【００１０】請求項２の発明は、請求項１の発明が１段
階のスクリーニングを行っていたのに対し、２段階のス
クリーニングを行うようにしたものである。すなわち、
各グループまでの特長空間における距離値が、第１のし
きい値を越えるパターンをスクリーニングし、さらにこ
の第１のスクリーニング処理を受けたグループに対し、
当該グループまでの複数のパターンとの距離値の最小値
に基づいた第２のしきい値を設定する。そして、当該グ
ループまでの距離値が第２のしきい値を越えるようなパ
ターンをさらにスクリーニングする。なお、第２のスク
リーニングにおいて、第１のスクリーニングによって除
外されたパターンは、当然処理の対象とはならない。こ
のようにスクリーニングを１度行った後で、同じグルー
プに関し、１回目のスクリーニングで既に計算された結
果を用いて２回目のスクリーニングを行うようにしたの
で、スクリーニング処理の追加によっては処理時間はほ
とんど増加せず、２つのスクリーニングの効果が相乗し
て全体的な処理時間をさらに高速化できる、また、第２
のしきい値を最小値に基づいて設定する際に、距離計算
される順序が最後のグループに近くなるにつれて距離値
の信頼性が増えるので、最小値に対する第２のしきい値
の比を小さくするように設定すれば、スクリーニングが
より効果的になる。この第２のしきい値も、入力パター
ンが属するサンプル集団における各グループの特長に応
じた統計的性質等に基づいて設定すれば良い。

【００１１】また、請求項３の発明は、請求項１及び請
求項２の発明において、前記所定の順序に従って前記入
力パターンの特長量を各グループの特長まで加算した累
積特長量を前記情報量として、各々の前記第１のしきい
値を設定することを特徴とする。

【００１２】請求項３の発明では、第１のしきい値を各
グループまでの特長に関連した情報量として、計算途中
の次元数とは直接には無関係な累積特長量の関数として
設定する。例えば入力パターンの各グループまでの累積
特長量が小さい場合は、第１のしきい値を小さく設定
し、累積特長量が大きい場合は、第１のしきい値を大き
く設定する。これによって、累積特長量が大きい場合に
は、最近傍のものでも距離が大きくなってスクリーニン
グされてしまう、という不公平が防止され、処理効率を
向上させることができる。

【００１３】請求項４の発明は、請求項１及び請求項２
の発明において、前記所定の順序に従って各グループま
での特長の数を加算した各々の累積特長数を前記情報量
として、各グループの前記第１のしきい値を設定するこ
とを特徴とする。

【００１４】請求項４の発明は、各グループまでの特長
次元数の関数として第１のしきい値を設定する。これに
よって、計算された次元数の増加と共に、各グループま
での距離値が単調増加し、計算された次元数が少ないほ
ど距離値の信頼性が低い、という不公平が防止されて処
理効率を向上させることができる。

【００１５】請求項５の発明は、請求項１及び請求項２
の発明において、前記入力パターンの特長量を前記所定
の順序に従って各グループの特長まで加算した各々の累
積特長量と、前記所定の順序に従って各グループまでの
特長の数を加算した各々の累積特長数とを前記情報量と
して、各グループの前記第１のしきい値を設定すること
を特徴とする。

【００１６】請求項５の発明では、請求項３及び請求項
４の発明において設定される２種類のしきい値の関数と
して第１のしきい値を設定する。このようなしきい値の
混合によって、しきい値の信頼性が大幅に向上し、処理
効率をさらに向上させることができる。なお、２種類の
しきい値の関数として、例えば非線形関数や重み付き平
均値等がある。

【００１７】請求項６の発明は、請求項５の発明におい
て、各グループの前記累積特長量及び前記累積特長数の
平均値を、各グループの前記第１のしきい値として設定
することを特徴とする。

【００１８】請求項６の発明では、最も簡単な平均値で
請求項５の第１のしきい値を求めることによって、計算
量の増加を最小限に抑えると共に、処理効率をさらに向
上させることができる。

【００１９】請求項７の発明は、請求項１〜請求項６の
発明において、各グループに割り当てられた前記所定の
順序は、各グループの特長における特長量の分散が大き
い順序であることを特徴とする。

【００２０】請求項７の発明では、最も分類計算に寄与
する重要な特長を有するグループから順番に計算すると
いうものであり、重要度の尺度として特長量の分散値を
用いたものである。これによって、スクリーニングの効
果が高まり、距離計算をさらに高速化できる。

【００２１】以上の最近傍点検出方法をパターン認識に
それぞれ応用したものが、次の請求項８〜請求項１４の
パターン認識装置に係る発明である。

【００２２】請求項８の発明は、入力パターンが入力さ
れる入力手段と、前記入力手段により入力された入力パ
ターンから複数の特長を抽出する特長抽出手段と、認識
カテゴリー毎に予め用意された前記複数の特長により表
現されたプロトタイプを格納しておく記憶手段と、前記
複数の特長を各々１又は２以上の特長毎に複数のグルー
プに区分すると共に、各グループに割り当てられた所定
の順序に従って、各グループまでの特長空間における距
離値を前記複数のパターンの各々について求めていく距
離計算手段と、各グループまでの特長に関連した情報量
に基づいて、距離値に関する第１のしきい値を前記複数
のグループ毎に設定する第１のしきい値設定手段と、前
記距離計算手段によって、あるグループまでの特長空間
における距離値が、該グループにおける前記第１のしき
い値を越えた場合には、前記距離値を与えたプロトタイ
プを、これより後の距離計算の対象から除外する第１の
スクリーニング手段と、前記距離計算手段により最後の
グループの特長まで計算された全特長空間における距離
値の少なくとも最小値を与えるプロトタイプを検出する
最近傍点検出手段と、前記最近傍点検出手段によって検
出されたプロトタイプが属する認識カテゴリーに基づい
て前記入力パターンが属する認識カテゴリーを判定する
認識手段と、を含んで構成したものである。

【００２３】請求項９の発明は、入力パターンが入力さ
れる入力手段と、前記入力手段により入力された入力パ
ターンから複数の特長を抽出する特長抽出手段と、認識
カテゴリー毎に予め用意された前記複数の特長により表
現されたプロトタイプを格納しておく記憶手段と、前記
複数の特長を各々１又は２以上の特長毎に複数のグルー
プに区分すると共に、各グループに割り当てられた所定
の順序に従って、各グループまでの特長空間における距
離値を前記複数のパターンの各々について求めていく距
離計算手段と、各グループまでの特長に関連した情報量
に基づいて、距離値に関する第１のしきい値を前記複数
のグループ毎に設定する第１のしきい値設定手段と、前
記距離計算手段によって、あるグループまでの特長空間
における距離値が、該グループにおける前記第１のしき
い値を越えた場合には、前記距離値を与えたプロトタイ
プを、これより後の距離計算の対象から除外する第１の
スクリーニング手段と、前記複数のプロトタイプの各グ
ループまでの特長空間における距離値の最小値をグルー
プ毎に算出する最小値算出手段と、前記最小値算出手段
によって算出された各グループの最小値に基づいて各グ
ループの第２のしきい値を各々設定する第２のしきい値
設定手段と、前記第１のスクリーニング手段によるプロ
トタイプのスクリーニングが行われたグループに関し、
次のグループの距離計算に移行する前に、該グループま
での特長空間における距離値が前記グループにおける前
記第２のしきい値を越えるプロトタイプを、これより後
の距離計算の対象から除外する第２のスクリーニング手
段と、前記距離計算手段により最後のグループの特長ま
で計算された全特長空間における距離値の少なくとも最
小値を与えるプロトタイプを検出する最近傍点検出手段
と、前記最近傍点検出手段によって検出されたプロトタ
イプが属する認識カテゴリーに基づいて前記入力パター
ンが属する認識カテゴリーを判定する認識手段と、を含
んで構成したものである。

【００２４】請求項１０の発明は、請求項８又は請求項
９の前記第１のしきい値設定手段が、前記入力パターン
の特長量を前記所定の順序に従って各グループの特長ま
で加算した各々の累積特長量を前記情報量として、各グ
ループの前記第１のしきい値を設定することを特徴とす
る。

【００２５】請求項１１の発明は、請求項８又は請求項
９の前記第１のしきい値設定手段が、前記所定の順序に
従って各グループまでの特長の数を加算した各々の累積
特長数を前記情報量として、各グループの前記第１のし
きい値を設定することを特徴とする。

【００２６】請求項１２の発明は、請求項８又は請求項
９の前記第１のしきい値設定手段が、前記入力パターン
の特長量を前記所定の順序に従って各グループの特長ま
で加算した各々の累積特長量と、前記所定の順序に従っ
て各グループまでの特長の数を加算した各々の累積特長
数とを前記情報量として、各グループの前記第１のしき
い値を設定することを特徴とする。

【００２７】請求項１３の発明は、請求項１２の前記第
１のしきい値設定手段が、各グループの前記累積特長量
及び前記累積特長数の平均値を、各グループの前記第１
のしきい値として設定することを特徴とする。

【００２８】請求項１４の発明は、請求項８乃至請求項
１３のいずれか１項において、各グループに割り当てら
れた前記所定の順序が、各グループの特長における特長
量の分散が大きい順序であることを特徴とする。

【００２９】以上、請求項８乃至請求項１４の発明によ
れば、請求項１乃至請求項７の各々の発明と同様に高速
かつ高精度に最近傍点が検出されるので、高速で入力パ
ターンを認識できると共に、最近傍点の検出率と相関の
高い認識率が向上する。

【００３０】

【発明の実施の形態】以下、本発明をＯＣＲに適用した
実施の形態について図面を参照して説明する。

【００３１】本実施の形態に係るＯＣＲのシステム構成
例を図１に示す。図１に示すように、本実施の形態に係
るＯＣＲシステムは、文字認識に必要な処理を実行する
パーソナルコンピュータ本体１０と、文字認識結果等を
表示するＣＲＴ１２と、オペレータの入力手段であるキ
ーボード１４と、画像入力用のスキャナ１６とから構成
されている。すなわち、本ＯＣＲシステムは、パーソナ
ルコンピュータが文字認識用プログラムによって文字認
識を行うようになっている。スキャナ１６は、ＯＣＲ帳
票１８に光を照射しながら走査し、その反射光を２値に
量子化することによってＯＣＲ帳票１８のデジタル画像
データを出力する装置であり、パーソナルコンピュータ
本体１０とケーブル２０を介して接続されている。

【００３２】次に、本ＯＣＲシステムの構成ブロックを
図２に示す。図２に示すように、本ＯＣＲシステムは、
所定のプログラムに従って後述する各構成部を制御する
ＣＰＵ２２と、ＣＰＵ２２の制御用のプログラムを格納
するためのプログラムＲＯＭ２４と、ＣＰＵ２２の作業
域及びデジタル画像データの格納用として使用されるＲ
ＡＭ２６と、を含んで構成され、データや命令を伝達す
るためのバス３０に各々接続されている。

【００３３】また、バス３０には、文字認識の対象とな
るカテゴリー毎に各々複数個用意された典型的な文字パ
ターン（プロトタイプ）の特長量を格納しておく辞書メ
モリ２８が接続されており、ＣＰＵ２２がアクセスでき
るようになっている。このプロトタイプは、極めて多数
の文字パターンの後述する特長ベクトルをカテゴリー毎
にクラスタリングすることによって求められる。また、
この辞書メモリ２８は、パーソナルコンピュータ本体１
０に内蔵された磁気ディスク装置等によって構成され
る。なお、外付けの磁気ディスク装置や光磁気ディスク
装置等によって構成しても良い。

【００３４】また、バス３０には、挿入されたフロッピ
ーディスク３６にアクセスし、データのリード／ライト
が可能なフロッピーディスクドライブ３２、ＣＲＴ１
２、キーボード１４、及びスキャナ１６とのインターフ
ェイスを制御するスキャナインターフェイス制御回路３
４が接続されている。

【００３５】上記のように構成されたＯＣＲシステムに
文字認識を実行させる場合、オペレータはパーソナルコ
ンピュータを立ち上げ、スキャナ１６に文字認識の対象
となる文字が書かれたＯＣＲ帳票１８をセットする。そ
して、文字認識プログラムを格納したフロッピディスク
３６を挿入してキーボード１４によって認識動作を命令
する。そして、フロッピーディスクドライブ３２がフロ
ッピーディスク３６に格納された文字認識用のプログラ
ムを読み取ってバス３０を介してＣＰＵ２２に伝達し、
このＣＰＵ２２が、文字認識用プログラムに従い各構成
部を制御することによって文字認識処理を実行する。

【００３６】次に、上記文字認識処理について図３のフ
ローチャートによって説明する。図３に示すように、先
ずスキャナ１６がＯＣＲ帳票１８の画像を走査しデジタ
ル画像データへの変換を行う（ステップ１００）。この
デジタル画像データは、ケーブル２０を介してスキャナ
インターフェイス制御部３４によってバス３０へ転送さ
れてＲＡＭ２６に格納される。

【００３７】次に、ＲＡＭ２６に格納されているデジタ
ル画像データの文字領域を抽出し、さらに個々の文字パ
ターンを他の画像領域から切り出す（ステップ１０
２）。文字領域の切り出し処理では、文字認識用プログ
ラムにＯＣＲ帳票１８の文字枠領域の位置を予め与えて
おき、その位置をＣＰＵ２２が認識して切り出し処理を
行う、というものである。また、文字パターンの切り出
しでは、例えば文字パターンの上下左右の端を検出し、
これらの端点を通過する上下左右の辺よりなる外接枠を
求め、その内部のデータを入力パターンとして抽出す
る。

【００３８】次に、切り出された入力パターンの特長量
を抽出し、入力パターンの特長を十分に反映した情報圧
縮された特長ベクトルを作成する（ステップ１０４）。
この特長量抽出では、例えば次のような処理を行う。

【００３９】先ず入力パターンを縦横に一定の大きさ、
例えば６０ドット×６０ドットに正規化する。次に、正
規化された入力パターンの細線化を行う。この細線化の
方法として例えばHilditchの方法等がある。そして、こ
の細線化パターンを例えば４つのルック（射影）方角に
関し、１２の区画に分割し、各々の領域毎に、連結素の
数を４方向毎に計数し、各々の計数結果を各次元の特長
値として多次元のベクトルを作成する。ここで、４つの
ルック方角とは、縦、横、右斜め４５度、左斜め４５度
の４つの射影方角をいい、これらの方角の各々に沿って
細線化パターンの１２区画内の連結素の数を各々計数す
る。また、連結素とは、細線化パターンを構成する各黒
点に関し、例えば右隣、下隣、右斜め下、左斜め下の隣
接点をいい、各々の隣接点が黒点である場合に、それぞ
れの方向量に１を加算する。また、連結素方向とルック
方角によって計数に重みを付け、各特長量の寄与を平滑
化するようにしている。なお、上述の特長抽出方法で
は、４（連結素方向の数）×１２（区画数）×４（ルッ
ク方角）＝１９２次元の特長ベクトルが作成される。以
下では、１９２次元の特長ベクトルを前提として説明す
る。

【００４０】次に、入力パターンの特長ベクトルと、辞
書メモリ２８に格納されているプロトタイプの文字パタ
ーンとの距離計算を実行し、距離の最も小さいプロトタ
イプ（最近傍点）を検出し、当該プロトタイプの属する
カテゴリーを認識候補として抽出する（ステップ１０
６）。なお、認識率を向上させるために、最近傍点だけ
ではなく、距離の小さい順に幾つかのプロトタイプのカ
テゴリーを認識候補として抽出するようにしても良い。

【００４１】ステップ１０６では、入力パターンとプロ
トタイプとの距離は、最も簡単な市街地距離（City Blo
ck Distance ）Ｄ_cbの場合、次式のように計算される。

【００４２】但し、Ｐ_iは、あるプロトタイプのｉ番目の特長値、Ｆ
_iは入力パターンのｉ番目の特長値を示す。なお、以下
ではこの市街地距離を例として説明するが、入力パター
ンとプロトタイプとの類似度を反映できればこの例に限
られず、例えば所謂ユークリッド距離等でも良い。

【００４３】ここで、例えば、手書き漢字、ひらがな、
カタカナ、数字、英字、特殊文字等に渡って約２８００
個のカテゴリーを認識対象とし、各カテゴリーに平均３
個程度の計８２８３個のプロトタイプを用意した場合、
真の最近傍点を検出するためには、入力パターンとすべ
てのプロトタイプとの各々の特長ベクトル同士で（１）
式の計算を行わなければならず、きわめて大量の計算量
が必要となる。そこで、本実施の形態では、ステップ１
０６で、高速最近傍点検出処理を実行し、最近傍点の検
出率をほとんど落とすことなく高速化を図っている。こ
の高速最近傍点検出処理は、１９２次元の特長を複数の
グループに分類し、この各々のグループ毎に順に計算さ
れる途中結果としての距離値が、計算過程で動的に変化
させて設定されたしきい値より小さい場合、その距離値
を与えたプロトタイプを次々とスクリーニングして以降
の距離計算を行うというものである。詳細については以
下に後述する。

【００４４】次に、ステップ１０６で抽出された認識候
補から最終的な認識結果を選ぶ認識処理を実行する（ス
テップ１０８）。この認識処理では、例えば認識候補の
コード列を予め用意された単語辞書と照合し、また前後
の単語の文脈情報等に基づいてあり得ない認識候補を排
除することなどによって、最適な認識候補を認識結果と
して選択するというものである。これにより、単に最近
傍点の属するカテゴリーを認識結果とする方法よりも認
識率を向上させることができる。なお、最終目標である
認識率を低下させないことと、最近傍点の検出率を落と
さないこととは高い相関があり、ステップ１０６の高速
最近傍点検出処理によって高速かつ高精度の認識率が達
成できる。

【００４５】最終的な認識結果が得られると、認識結果
を出力して（ステップ１１０）、文字認識処理を終了す
る。例えば、磁気ディスク装置等の記憶装置に認識結果
を出力し、データベース化する。また、ＣＲＴ１２に認
識結果を表示して、オペレータに認識結果の正誤を判断
修正させるようにしても良い。

【００４６】次に、上記ステップ１０６の高速最近傍点
検出処理について、以下に詳細に説明する。

【００４７】まず、距離計算を行う前に、１９２次元の
特長量をスクリーニング効果の大きい順に予め並べ替え
ておくことが処理の高速化の点で好ましい。本実施の形
態では、例えば辞書メモリ２８に格納されている８２８
３個のプロトタイプから１９２次元の特長量の各々の分
散値を計算し、その分散値の大きい順に特長量を並べ替
え、この順に距離計算を行う。このように並べ替えたの
は、分散の大きいものは分類計算に対する寄与率が高い
ので、その順で計算した方が早めに収束（スクリーニン
グ）するからである。

【００４８】そして、分散値の大きい順に並べ替えた１
９２次元の特長量を、順番に１６次元ずつ、計１２個の
グループに分類しておく。なお、このグループ内次元数
やグループ数は、この例に限られず、例えば８次元ずつ
２４グループに分類しても良い。

【００４９】この高速最近傍点検出処理では、スクリー
ニング用のしきい値を各グループ毎に動的に変化させる
が、しきい値を如何に設定するか、設定されたしきい値
を如何にスクリーニングに適用するか、によって様々な
態様がある。そこで、本実施の形態では、高速最近傍点
検出処理として第１〜第４の例を挙げ、それぞれ図４〜
図７によって説明する。

【００５０】図４に示すように、高速最近傍点検出処理
の第１の例では、まず初めにグループ１〜１２の各々に
ついてのしきい値ＴＨＲ１（１）〜ＴＨＲ１（１２）
（ＴＨＲ１（１−１２））を計算する（ステップ１２
０）。これらのしきい値ＴＨＲ１（１−１２）は、各グ
ループまでの入力パターンの累積特長量に基づいて設定
される。例えば、累積特長量がまだ小さい場合にはしき
い値ＴＨＲ１（１−１２）を小さく設定し、大きくなる
に従い、ＴＨＲ１（１−１２）を大きくしていく。すな
わち、各しきい値ＴＨＲ１（１−１２）は、累積特長量
の関数となっている。ここで、各グループまでの累積特
長量とは、当該パターンの１９２次元の特長値を各グル
ープにおける最後の次元（１６、３２、．．．、１９
２）まで総和したものをいう。なお、後述するように、
各グループ毎に計算された距離が各々のしきい値ＴＨＲ
１（１−１２）を越えるようなプロトタイプは、次々と
スクリーニングされ、それ以降の距離計算から除外され
る。

【００５１】このようにＴＨＲ１（１−１２）を、距離
計算の途中での次元数とは直接には無関係な累積特長量
に基づいて設定したのは、次のような理由による。すな
わち、図３のステップ１０４で抽出された特長は、文字
のストローク量を正規化していないため、ストローク量
の少ない異なる字種の文字同士の距離は大きくならない
が、逆にストローク量の多い文字では、同一の字種のサ
ンプル同士でも距離が大きくなる、という不公平が生じ
るからである。

【００５２】具体的なしきい値ＴＨＲ１（１−１２）の
設定方法として例えば実際の実験データをプロットした
図８のグラフに基づく次のような方法がある。図８で
は、Ｘ軸は、あるグループまでの累積特長量、Ｙ軸は、
入力パターンと、入力パターンが属するカテゴリーのプ
ロトタイプの中で入力パターンに最短のものとのその時
点での距離値を各々示し、多数の文字パターンに対して
プロットされている。さらに図８では、しきい値ＴＨＲ
１（１−１２）を累積特長量Ｘに基づいて定める関数式
として次式で与えられる直線が示されている。

【００５３】ＴＨＲ１（ｎ）＝ａ・Ｘ（ｎ）＋ｂ・・・・（２）但し、ａ、ｂは正の定数、ｎはグループ番号、Ｘ（ｎ）
はグループｎまでの累積距離値である。図８に示すよう
に、（２）式の直線は、大部分の散布点が、その下側に
くるようにａとｂとが設定されている。もし、この直線
がすべての散布点より上にあれば、この実験に使われた
データに関し、スクリーニングにより認識率が下がるこ
とはない。

【００５４】また、（２）式のｂは必ず正の値で一定値
以上でなければならない。何故なら、累積特長量Ｘの小
さいものには、まだ途中の１６次元や３２次元程度まで
しか計算されていないものが多い上、分散値の大きい特
長からソートされているので、ｂが０近傍の値の場合、
正しいカテゴリーのプロトタイプがスクリーニングされ
る危険性が高いからである。なお、（２）式のような簡
単な線形関数の他に、散布点の分布をもっと正確に反映
した非線形関数等を用いても良い。次に、１から１９２
までの次元を指定するための次元番号ｉ、１６次元毎に
１２個に分類されたグループを指定するためのグループ
番号ｊ、１からＮ（８２８３）までのすべてのプロトタ
イプを指定するためのプロトタイプ番号ｋを各々１に設
定する（ステップ１３０）。また、入力パターンと１か
らＮまでのプロトタイプとの（１）式に基づく各々の市
街地距離をＤ_cb（１）〜Ｄ_cb（Ｎ）とし、これらをすべ
て０に、さらに最小距離Ｄ_minを最大値（例えば６５５
３６）に設定する（ステップ１３０）。

【００５５】次に、入力パターンと各プロトタイプとの
距離計算を次式によって実行する（ステップ１３２）。

【００５６】Ｄ_cb（ｋ）＝Ｄ_cb（ｋ）＋｜Ｆ_k（ｉ） − Ｐ（ｉ）｜・・・・・（３）但し、Ｆ_k（ｉ）は、ｋ番目のプロトタイプ（プロトタ
イプｋ）のｉ番目の次元（次元ｉ）の特長値であり、Ｐ
（ｉ）は、入力パターンの次元ｉにおける特長値であ
る。ここで、最初はｉ＝１、ｋ＝１であるから、１番目
のプロトタイプと入力パターンとの各々１番目の特長値
の市街地距離が算出されてＤ_cb（ｋ）に加算される。

【００５７】次に、次元番号ｉを１だけ加算し（ステッ
プ１３４）、ｉがｊ番目のグループ（グループｊ）にお
いて最後の次元番号を越えているか否かを判定する（ス
テップ１３６）。なお、本実施の形態においては、グル
ープ１、２、．．．１２の最後の次元番号は各々１６、
３２、．．．．１９２となる。

【００５８】ｉがグループｊの最後の次元番号を越えて
いない場合（ステップ１３６否定判定）、ステップ１３
２に戻って同様の処理を繰り返す。すなわち、ステップ
１３２〜ステップ１３６では、グループｊの特長値に関
する市街地距離をＤ_cb（ｋ）に加算する。

【００５９】ｉがグループｊの最後の次元番号を越えて
いる場合（ステップ１３６肯定判定）、グループｊにお
ける最後の次元まで計算された市街地距離Ｄ_cb（ｋ）が
グループｊに関するしきい値ＴＨＲ１（ｊ）を越えてい
るか否かを次式のように判定する（ステップ１３７）。

【００６０】Ｄ_cb（ｋ）＞ＴＨＲ１（ｊ）・・・・・（４）（４）式が成立すると判定した場合（ステップ１３７肯
定判定）、プロトタイプｋのスクリーニングを行い（ス
テップ１４０）、次の処理（ステップ１４８）に移行す
る。すなわち、これ以降の距離計算においてプロトタイ
プｋは除外される。ここで（４）式が成立するというこ
とは、図８によれば、当該プロトタイプｋが（２）式の
直線の上側で散布点がほとんどない領域にあるというこ
とを意味する。従って、このようなプロトタイプが正解
を与える可能性は極めて少なく、これをスクリーニング
しても認識率をほとんで低下させることなく、これ以降
の距離計算を高速化することができる。

【００６１】（４）式が成立しないと判定した場合（ス
テップ１３７否定判定）、次のような最小距離と最近傍
プロトタイプを求める処理を行う。まずグループ番号ｊ
が最後のグループ番号１２であるか否かを判定し（ステ
ップ１４２）、最後のグループ番号１２であった場合の
み（ステップ１４２肯定判定）、市街地距離Ｄ_cb（ｋ）
がこれまでに求められた最小距離Ｄ_minより小さいか否
かを次式のように判定する（ステップ１４４）。

【００６２】Ｄ_cb（ｋ）＜Ｄ_min ・・・・・（５）（５）式が成立すると判定した場合（ステップ１４４肯
定判定）、Ｄ_minの値をＤ_cb（ｋ）の値に変更し、最近
傍点のプロトタイプ番号を指定するための最近傍点番号
ｍｉｎにｋを代入する（ステップ１４６）。

【００６３】ｊが最後のグループ番号１２でなかった場
合（ステップ１４２否定判定）、直ちに次の処理（ステ
ップ１４８）に移行する。途中経過の距離計算では、真
の最近傍点が検出できないためである。また、（５）式
が成立しないと判定した場合にも（ステップ１４４否定
判定）、直ちに次の処理（ステップ１４８）に移行す
る。

【００６４】以上のようにしてプロトタイプｋに関しグ
ループｊまでの処理が終了したら、スクリーニングされ
ていない次のプロトタイプが有るか否かを判定する（ス
テップ１４８）。

【００６５】スクリーニングされていない次のプロトタ
イプが有る場合（ステップ１４８肯定判定）、スクリー
ニングされていない次のプロトタイプ番号にｋを更新す
る（ステップ１５０）。そして、ステップ１３２に戻
り、同様にこの更新されたプロトタイプについての距離
計算、スクリーニング判定等を行う。なお、最初のグル
ープ１の処理の場合、プロトタイプｋの直後のプロトタ
イプは、まだステップ１３７のスクリーニング判定の対
象ともなっていないので、単純にｋが１だけ更新されて
ｋ＋１となる。しかし、グループ２以降の処理では、プ
ロトタイプｋ＋１がスクリーニングされている可能性が
あり、かかる場合には、スクリーニングされたプロトタ
イプの番号を飛び越えて最初のスクリーニングされてい
ないプロトタイプの番号が選択される。

【００６６】スクリーニングされていない次のプロトタ
イプが無い場合（ステップ１４８否定判定）、グループ
ｊの処理を終了し、次のグループに関する処理に移行す
るためグループ番号ｊを１だけ加算する（ステップ１６
２）。

【００６７】次に、グループ番号ｊが最後のグループ番
号１２を越えているか否かを判定する（ステップ１６
４）。グループ番号１２を越えていない場合には（ステ
ップ１６４否定判定）、スクリーニングされていない最
初のプロトタイプ番号にｋを戻し（ステップ１６６）、
ステップ１３２に戻って同様の処理を繰り返す。すなわ
ち、更新されたグループｊのスクリーニングされていな
い最初のプロトタイプから、距離計算、スクリーニング
等を実行する。

【００６８】グループ番号１２を越えている場合は（ス
テップ１６４肯定判定）、最後の１９２次元まで距離計
算、スクリーニング等が完了しているので、高速最近傍
点検出処理を終了する。

【００６９】以上のように、スクリーニング途中での次
元数とは直接には無関係な累積特長量の関数でしきい値
がグループ毎に動的に設定されていくので、文字種によ
ってストローク長が違うことからくる距離値の不公平が
是正され、認識率の低下を最小限に抑えられると共に、
スクリーニングによって高速に最近傍点を検出すること
ができる。なお、図４の処理では、ステップ１４２〜ス
テップ１４６で最近傍のプロトタイプ（第１位の認識候
補）のみを求めているが、２、３、．．．番目に近い各
々異なるカテゴリーのプロトタイプ（第２位、第３
位、．．．の認識候補）を求めても良い。

【００７０】図４の例では、次元数とは直接には無関係
な累積特長量の関数でしきい値を求めていたが、次元数
の関数でしきい値を求めることにより、次元数が少ない
ほど距離値の信頼性が低い、という不公平を軽減するこ
とができる。これを第２の高速最近傍点検出処理として
図５に示す。なお、図５では、図４と同一内容のステッ
プに同一の番号を付して説明を省略する。

【００７１】図５に示すように、まずグループ１〜１２
のしきい値ＴＨＲ２（１）〜ＴＨＲ２（１２）（ＴＨＲ
２（１−１２））を各グループの最後の次元数に基づい
て設定する（ステップ１２１）。例えば、次元数がまだ
小さい場合にはしきい値ＴＨＲ２（１−１２）を小さ
く、距離計算が進んで次元数が大きくなるに従い、ＴＨ
Ｒ２（１−１２）を大きくしていく。すなわち、各しき
い値ＴＨＲ２（１−１２）は、入力パターンの累積特長
量とは無関係に次元数の関数となっている。なお、第１
の高速最近傍点検出処理と同様に、各グループ毎に計算
された距離が各々のしきい値ＴＨＲ２（１−１２）を越
えるようなプロトタイプは、次々とスクリーニングさ
れ、それ以降の距離計算から除外される。

【００７２】具体的なしきい値ＴＨＲ２（１−１２）の
設定方法として例えば実際の実験データをプロットした
図９のグラフに基づく次のような方法がある。図９で
は、Ｘ軸はグループ番号Ｘで、縦の罫線がグループ１〜
グループ１２までをそれぞれ示している。また、Ｙ軸
は、入力パターンと、入力パターンが属するカテゴリー
のプロトタイプの中で入力パターンに最短のものとのそ
のグループの最後の次元までの距離値を示し、多数の入
力パターンに関してプロットされている。なお、図９で
は、離散的なグループ番号で直接プロットすると、個々
のグループを示す縦の罫線上に散布点が集中し、分布状
況が分かりにくくなるため、散布点をＸ軸方向に乱数で
分布させて広がりを付けるようにしている。すなわち、
最も左端にある１番目の罫線から２番目の罫線までの間
にグループ１に関するデータを、２番目から３番目の罫
線の間に、グループ２に関するデータ、というように、
最後のグループ１２に関するデータまで各々横に広がっ
た領域にプロットされている。

【００７３】この図９のような実験データに基づいて、
しきい値ＴＨＲ２（１−１２）を設定するためには、大
部分の散布点が下側にくるように、図示のように次式の
直線を設定する。

【００７４】ＴＨＲ２（Ｘ）＝ｃ・Ｘ＋ｄ・・・・（６）但し、ｃ、ｄは正の定数である。もし、この直線がすべ
ての散布点より上にあれば、この実験に使われたデータ
に関し、スクリーニングにより認識率が下がることはな
い。

【００７５】また、（６）式のｄは必ず正の値で一定値
以上でなければならない。まだ途中の１６次元や３２次
元程度までしか計算されていない段階では、分散値の大
きい特長からソートされていることもあり、正しいカテ
ゴリーを与えるプロトタイプでも、ｄが０近傍の値の場
合、当該プロトタイプがスクリーニングされる危険性が
高いからである。

【００７６】また、分類に寄与する分散値の大きい順序
で特長を並べているため、図９の分布が示すように、次
元数が増えるにつれて距離値の増加率は減少していくこ
とがわかる。そこで、（６）式のような簡単な線形関数
の他に、散布点の分布をもっと正確に反映した非線形関
数等を用いても良い。

【００７７】次に、図４と同様に距離計算等を行う（ス
テップ１３０〜ステップ１３６）が、グループｊの最後
の次元まで計算された市街地距離Ｄ_cb（ｋ）を次式のよ
うにＴＨＲ２（ｊ）と比較する（ステップ１３８）。

【００７８】Ｄ_cb（ｋ）＞ＴＨＲ２（ｊ）・・・・・（７）（７）式が成立すると判定した場合（ステップ１３８肯
定判定）、プロトタイプｋのスクリーニングを行い（ス
テップ１４０）、次の処理（ステップ１４８）に移行す
る。そして、図４と同様にグループ１〜１２までプロト
タイプをスクリーニングしながら距離計算を行い最近傍
点を検出する。

【００７９】この第２の例のように、次元数の関数とし
て設定されたしきい値を用いてスクリーニングを行うこ
とによって、距離計算の途中の次元数が小さいほど、距
離の信頼性が低いという不公平を減らし、認識率の低下
を最小限に抑えられると共に、プロトタイプのスクリー
ニングによって高速に最近傍点を検出することができ
る。

【００８０】高速最近傍点検出処理の第１の例と第２の
例で設定されるしきい値の関数は、直線で近似されてい
るため、ばらつきが大きいサンプル集団では、単に
（２）式や（６）式の各定数を調節しただけでは、処理
効率が一定以上には上がらない場合がある。そこで、本
実施の形態では、これらのしきい値を混合させた新たな
しきい値を設けることによって、しきい値の信頼性をさ
らに高めた高速最近傍点検出処理を用意した。これを第
３の例として図６に示す。なお、図６では、図４及び図
５と同様の処理内容のステップには、同一の番号を付し
て詳細な説明を省略する。

【００８１】図６では、ＴＨＲ１（１−１２）を計算し
（ステップ１２０）、次にＴＨＲ２（１−１２）を設定
する（ステップ１２１）。そして、これら２種類のしき
い値を混合させて新たなしきい値ＴＨＲ＿ＭＩＸ（１−
１２）を計算する（ステップ１２２）。この混合計算は
次式に従って行われる。

【００８２】ＴＨＲ＿ＭＩＸ（１−１２）＝ｆ（ＴＨＲ１（１−１２）、ＴＨＲ２（１−１２））・・・（８）但し、ｆ（ｘ、ｙ）はｘとｙの関数である。

【００８３】本実施の形態では、例えば関数ｆをｘとｙ
の平均値を取る関数として与える。この場合、（８）式
は、ＴＨＲ＿ＭＩＸ（１−１２）＝（ＴＨＲ１（１−１２）＋ＴＨＲ２（１−１２））／２・・・（９）となる。なお、（８）式の関数ｆは、平均値を求める関
数に限られず、例えば重み付き平均や非線形関数等でも
良い。

【００８４】以下、図４及び図５と同様に、入力パター
ンとあるプロトタイプｋとの途中の次元まで計算された
市街地距離Ｄ_cb（ｋ）がＴＨＲ＿ＭＩＸ（１−１２）を
越えた場合には、そのプロトタイプｋを次々にスクリー
ニングして最近傍プロトタイプ検出の高速化を図る。

【００８５】このように、累積特長量及び次元数に応じ
て増加する距離値の２つの特性を同時に反映したしきい
値でスクリーニングすることによって、認識対象となる
集団のばらつきを反映したしきい値の信頼性が高まり、
処理効率をさらに向上させることができる。なお、この
第３の例では、ステップ１２０〜ステップ１２２でＴＨ
Ｒ＿ＭＩＸ（１−１２）を求める計算を行うが、全体の
計算量と比較して無視しうる量であり、高速化の妨げと
はならない。

【００８６】以上の高速最近傍点検出処理の第１〜第３
の例では、各グループ毎に１種類のしきい値で１フェー
ズのスクリーニングを行っていたが、各グループで２種
類のしきい値を用いて２フェーズのスクリーニングを行
っても良い。これを第４の例として図７のフローチャー
トによって説明する。なお、図７でも、図４〜図６と同
様のステップには同一の番号を付して詳細な説明を省略
する。

【００８７】図７に示すように、まず、図６のステップ
１２０〜ステップ１２２と同様に、ＴＨＲ＿ＭＩＸ（１
−１２）の計算を行う（ステップ１２４）。次に、次元
番号ｉ、グループ番号ｊ、プロトタイプ番号、及び市街
地距離Ｄ_cb（１）〜Ｄ_cb（Ｎ）の初期値設定を行い（ス
テップ１２９）、最小距離Ｄ_minに最大値を代入する
（ステップ１３１）。なお、第４の例においては、Ｄ
_minは各グループの距離計算毎に求められる。

【００８８】次に、グループｊに関し、入力パターンと
各プロトタイプｋとの市街地距離Ｄ _bc（ｋ）の計算を行
い（ステップ１３２〜ステップ１３６）、ＴＨＲ＿ＭＩ
Ｘ（ｊ）より大きい場合（ステップ１３９肯定判定）に
は、そのプロトタイプｋをスクリーニングする（ステッ
プ１４０）。すなわち、これが図６においても説明した
グループｊに関する１フェーズ目のスクリーニングであ
る。上記処理を未だスクリーニングされていない生き残
っているすべてのプロトタイプに関し実行する（ステッ
プ１４８、ステップ１５０）。また、この処理の間に、
当該グループｊにおける最小距離Ｄ_minと最近傍のプロ
トタイプ番号ｍｉｎを求める（ステップ１４４、ステッ
プ１４６）。

【００８９】グループｊに関し、ＴＨＲ＿ＭＩＸ（ｊ）
による１フェーズ目のスクリーニングが終了したら（ス
テップ１４８）、次のグループに移行する前に、以下の
ような２フェーズ目のスクリーニング処理を行う。

【００９０】まず、グループｊに関する２フェーズ目の
しきい値ＴＨＲ＿ＲＡＴＥ（ｊ）を設定する（ステップ
１５０）。このしきい値ＴＨＲ＿ＲＡＴＥ（ｊ）は、実
験データから求められた経験的な比率として認識用プロ
グラム等で与えられ、例えばグループ１では２．５、グ
ループ２では１．７、．．．、グループ１１では１．２
などである。詳細については後述する。

【００９１】次に、スクリーニングされていない最初の
プロトタイプ番号にｋを戻す（ステップ１５２）。そし
て、ステップ１３２〜ステップ１３６で計算された入力
パターンとプロトタイプｋとの市街地距離Ｄ_bc（ｋ）と
グループｊにおける最小距離Ｄ_minとの比が、しきい値
ＴＨＲ＿ＲＡＴＥ（ｊ）を越えているか否かを次式によ
って判定する（ステップ１５４）。

【００９２】（Ｄ_bc（ｋ）＋α）／（Ｄ_min＋α）＞ＴＨＲ＿ＲＡＴＥ（ｊ）・・・・（１０）ここで、αは、特にグループ１でＤ_minが０若しくは０
近傍の値の時に、（１０）式の左辺が極端に大きくなる
のを防止するための鈍化係数であり、特長量の大きさに
基づいて定められる定数である。なお、（１０）式で用
いられる市街地距離Ｄ_bc（ｋ）と最小距離Ｄ_minとは、
既に、１フェーズ目のステップ１３２、〜ステップ１４
４で計算済の値をそのまま用いるので、フェーズ２によ
る処理時間の増加は無視できる。

【００９３】（１０）式が成立すると判定した場合（ス
テップ１５４肯定判定）、２フェーズ目のプロトタイプ
ｋのスクリーニングを行い（ステップ１５６）、次の処
理（ステップ１５８）に移行する。また、（１０）式が
成立しないと判定した場合には（ステップ１５４否定判
定）、直ちに次の処理（ステップ１５８）に移行する。

【００９４】次に、スクリーニングされていない次のプ
ロトタイプが有るか否かを判定する（ステップ１５
８）。次のプロトタイプが有る場合には（ステップ１５
８肯定判定）、スクリーニングされていない次のプロト
タイプ番号にｋを更新し（ステップ１６０）、入力パタ
ーンと次のプロトタイプとの市街地距離に関して（１
０）式に基づく判定を行い、同様の処理をスクリーニン
グされていない次のプロトタイプが無くなるまで繰り返
す（ステップ１５８否定判定）。

【００９５】このようにしてフェーズ２では、グループ
ｊのフェーズ１までの処理で生き残ったプロトタイプを
新たなしきい値ＴＨＲ＿ＲＡＴＥ（ｊ）に基づいて、さ
らにスクリーニングする。

【００９６】２フェーズ目のスクリーニング処理が、す
べての生き残ったプロトタイプに対して終了したら（ス
テップ１５８否定判定）、次のグループ番号に処理を移
行するため、グループ番号ｊに１を加算する（ステップ
１６２）。ｊが最後のグループ番号１２を越えていない
場合（ステップ１６６否定判定）、スクリーニングされ
ていない最初のプロトタイプ番号にｋを戻し、最小距離
Ｄ_minに最大値を代入し（ステップ１３１）、次のグル
ープに関し同様にフェーズ１及びフェーズ２のスクリー
ニングを実行する。

【００９７】更新したグループ番号が１２を越えた場合
（ステップ１６４肯定判定）、第４の高速最近傍点検出
処理を終了する。

【００９８】以上のように、同じグループに関し、ＴＨ
Ｒ＿ＭＩＸ（１−１２）とＴＨＲ＿ＲＡＴＥ（１−１
２）という２種類のしきい値で２フェーズのスクリーニ
ングを行う。特に、上述したようにフェーズ２は、既に
計算済のフェーズ１の結果をチェックするだけであり極
めて高速である。これによって、フェーズ２を新たに追
加したことによる処理時間の増加は僅かであり、２フェ
ーズによるスクリーニングの効果が相乗して全体的な最
近傍点検出処理をさらに高速化することができる。

【００９９】ところで、具体的なしきい値ＴＨＲ＿ＲＡ
ＴＥ（１−１２）の設定方法として例えば実際の実験デ
ータをプロットした図１０のグラフに基づく次のような
方法がある。

【０１００】図１０では、Ｘ軸はグループ番号Ｘで、縦
の罫線がグループ１〜グループ１２までをそれぞれ示し
ている。また、Ｙ軸は、入力パターンが属する正解カテ
ゴリーのプロトタイプの中で入力パターンに最短のもの
と該入力パターンとの当該次元までの距離値と、すべて
のプロトタイプの中で最短のものとの当該次元までの距
離値とにそれぞれ（１０）式の鈍化係数を加算し、両者
の比をとったものを示している。

【０１０１】なお、図１０では、離散的なグループ番号
で直接プロットすると、個々のグループを示す縦の罫線
上に散布点が集中し、分布状況が分かりにくくなるた
め、図９と同様に散布点をＸ軸方向に乱数で分布させて
広がりを付けるようにしている。

【０１０２】図１０が示すように、１グループ目では比
率２．５付近、２グループ目では１．７５付近まで散布
点が分布し、最後から２番目の１１グループ目では、
１．１より小さいほとんど１．０近傍で散布点が分布し
ている。これより、これらの比率と同程度にＴＨＲ＿Ｒ
ＡＴＥ（１−１２）を設定すれば、この実験データに関
し、フェーズ２のスクリーニングによっては認識率の低
下は無いと考えられる。

【０１０３】実際には、上記したように例えばグループ
１１におけるＴＨＲ＿ＲＡＴＥ（１１）＝１．２として
実験データより若干の余裕を与えるようにしている。グ
ループ１１までの計算で最短のものより１．２倍の距離
があるものが最後のグループ１２の計算で逆転して１位
になる確率はほぼ皆無であるが、図３のステップ１０８
の認識処理でさらに詳細な認識を行うとか、複数の認識
候補に単語処理を使って後処理を加えるとか、或いは画
面上でのオペレータによる認識エラー修正用などの場合
等に認識候補を残すため、余裕を持ったしきい値でスク
リーニングした方が好ましいからである。

【０１０４】なお、図７に示された第４の例を実際のプ
ログラム上で実現する場合、一度スクリーニングされた
プロトタイプを除外して計算を行う方法として例えば図
１１に示された方法がある。この方法は、次の有効なプ
ロトタイプをポイントするポインター配列（NEXT＿PTR
）を用意し、まず、ポインターSTART ＿PTR が最初の
有効なプロトタイプを、最後の有効なプロトタイプでは
−１（LAST＿PTR ）というポインター値を入れて最後で
あることを示す、というものである。

【０１０５】図１１の左欄が示すように、距離計算が始
まる前のプロトタイプが全くスクリーニングされていな
いポインターの初期状態では、NEXT＿PTR は最後のプロ
トタイプを除いてすぐ次のプロトタイプをポイントする
ようになっている。

【０１０６】図１１のグループ１におけるフェーズ１の
ポインターの状態は、初期状態と同じ状態になっている
が、フェーズ１であるプロトタイプをスクリーニングす
ると、該プロトタイプを指定するポインターを飛び越え
てその次のプロトタイプをポイントするように書き換え
る。この場合、図示のようにポインターの流れは、当該
プロトタイプをスキップして次にスクリーニングしてい
ないプロトタイプを指定するようになる。

【０１０７】グループ２になると、さらにスキップされ
るプロトタイプが増え、グループ１２のフェーズ２まで
終了した段階では、ポインターの最終状態は、図１１の
右欄のようにほとんどのプロトタイプがスキップされる
ようになっている。これより、計算量が大幅に減少する
ことがわかる。

【０１０８】以上のように、図４〜図７に高速最近傍点
検出処理の第１〜第４の例を示したが、具体的条件の下
で各々の処理効率の相違を一覧にすると、下記の表１の
ようになる。

【０１０９】

【表１】表１において、速度は１秒間に認識できる文字数（Char
acter/sec ）、RECO＿RATEは認識率（（正解数／認識
数）＊１００％）、NN＿RATEは最近傍点の検出率（％）
である。なお、RECO＿RATEやNN＿RATEは、手書きの漢
字、ひらがな、カタカナ、数字、英字、特殊文字のカテ
ゴリー数約２８００個の約２６０００個のテスト文字
（入力パターン；１カテゴリー当たり約９個）と、約１
００万個の学習文字から作成した８２８３個のプロトタ
イプ（１カテゴリー当たり約３個）との距離計算を行っ
た結果に関するものである。

【０１１０】また、Ａは入力パターンとすべてのプロト
タイプとの距離計算を実行するスクリーニング無しの場
合、Ｂは、しきい値ＴＨＲ１のみを用いた第１の高速最
近傍点検出処理（図４）の場合、Ｃは、しきい値ＴＨＲ
２のみを用いた第２の高速最近傍点検出処理（図５）の
場合である。また、Ｄ及びＥは、しきい値ＴＨＲ＿ＭＩ
Ｘを用いた第３の高速最近傍点検出処理（図６）の場合
であるが、しきい値を混合させることによる効果か単に
しきい値が変わったことによる効果かを識別するために
各々パラメータ（ｂ＋ｄ）を換えて設定したものであ
る。そして、Ｆは、ＴＨＲ＿ＭＩＸとＴＨＲ＿ＲＡＴＥ
という２種類のしきい値による２フェーズのスクリーニ
ングを行う第４の高速最近傍点検出処理の場合（図７）
である。

【０１１１】表１に示すように、スクリーニング無しの
Ａの場合には、最近傍点の定義より当然、最近傍点検出
率は１００％であり、これによって認識率も他のスクリ
ーニングを行う場合と比較して最も高い値を示してい
る。しかし、速度に関しては、最も遅く、Ｂ〜Ｆの場合
と比べて約１／２〜１／４．５となっている。

【０１１２】Ｂの場合には、Ａと比較した認識率及び最
近傍点検出率の低下はそれぞれ０．１％、０．１４％と
なるが、速度は約１．９４倍となる。Ｃの場合には、認
識率及び最近傍点検出率の低下はそれぞれ０．３４％、
０．４９％となり、Ｂに比較して大きくなるものの、速
度は約３．１２倍とかなり高速化が図れる。このよう
に、ＴＨＲ１又はＴＨＲ２単独でもある程度の処理効率
の向上が図れることがわかる。

【０１１３】一方、しきい値を混合させたＴＨＲ＿ＭＩ
Ｘを用いる場合には、速度、認識率、最近傍点検出率の
いずれもＢ及びＣと比較して顕著に向上する。例えばＤ
の場合には、Ａと比較した認識率及び最近傍点検出率の
低下はそれぞれ０．０４％、０．０５％と大幅に小さく
なり、速度に関しても約３．５５倍となってＢ及びＣよ
りさらに向上する。また、混合されたしきい値の定数を
Ｄとは異なるように設定したＥの場合、速度に関しては
約３．７６倍とさらに高速化されるが、認識率及び最近
傍点検出率の低下は、それぞれ約０．０７％、約０．０
９％とＤより大きくなり、全体の処理効率という点では
Ｄと比較して大差が無いということになる。従って、し
きい値を変えて偶然に処理効率が良くなったということ
ではなく、明らかにしきい値を混合させたことによる効
果が顕著であったということができる。

【０１１４】また、混合させたしきい値を用いたスクリ
ーニングに加えて、さらに２フェーズ目のクリーニング
をするＦの場合には、Ａと比較した速度が最高の約４．
５倍となり、さらに高速化が図れる。一方、Ａと比較し
た認識率及び最近傍点検出率の低下は、それぞれ約０．
０６％、約０．０８％となり、すべてに関し、Ｅより良
い値が得られる。

【０１１５】表１は手書き文字に関する結果であるが、
例えば印刷文字などのように、特長量のばらつきの小さ
いものを認識対象とした場合、Ｂ〜Ｆの各場合でさらに
良い処理効率が得られる。特に、Ｆの方法を用いた印刷
文字認識の場合には、認識率をほとんど低下させること
なく、Ａの速度と比較して手書き文字認識の場合の４．
５倍を遙に上回る高速化が図れる。

【０１１６】以上が、本発明をＯＣＲに適用した実施の
形態の例であるが、上記例にのみ限定されるものではな
い。例えば、入力パターンの最近傍プロトタイプを検出
し、該プロトタイプが属するカテゴリーに基づいて認識
結果を出力する他のすべてのパターン認識装置に適用可
能である。このようなパターン認識装置として、例えば
音声認識装置、画像認識装置等がある。また、認識用プ
ログラムでＯＣＲを実現する場合のみならず、文字認識
用の独自のハードウエアを持つ文字認識装置として構成
しても良い。

【０１１７】また、パターン認識装置としてではなく、
図４〜図７に示された方法に基づいて最近傍点を検出す
る最近傍点検出装置としても構成可能である。この最近
傍点検出方法又は最近傍点検出装置の場合、多数の実験
サンプルに基づくしきい値の決定の際に次のことに留意
する必要がある。例えば、図８では、真の最近傍点を検
出できなくても最終的にカテゴリーが一致すれば良いた
め、Ｙ軸に、入力パターンと、その入力パターンが属す
るカテゴリーのプロトタイプの中で入力パターンに最短
のものとのその時点での距離値を各々示すようにしてい
た。しかし，最近傍検出方法等では、Ｙ軸に、入力パタ
ーンと、その真に最近傍のプロトタイプとのその時点ま
での距離値を示し、多数のサンプルに対してプロットし
て、その分布からしきい値を決定しなければならない。
図９及び図１０についても同様である。この場合におい
ても、最近傍点検出率を最低限に抑えつつ、処理の高速
化を図ることができるのはいうまでもない。

【０１１８】また、複数の特長次元毎に１グループとす
る場合を扱ったが、１つの特長次元を１グループとする
場合にも本発明に係る高速最近傍検出処理を適用するこ
とができる。すなわち、各次元の特長毎に計算された距
離値に基づいてスクリーニングを行うようにしても良
い。

【０１１９】また、第４の高速最近傍検出処理の例（図
７）では、ＴＨＲ＿ＭＩＸとＴＨＲ＿ＲＡＴＥに基づく
スクリーニングを組み合わせたが、ＴＨＲ１及びＴＨＲ
２のいずれかとＴＨＲ＿ＲＡＴＥとを組み合わせたスク
リーニングを行っても良い。

【０１２０】さらに、ステップ１０４で抽出される特長
の種類や次元数、ステップ１０６で用いられる距離の種
類、図４〜図７の処理の流れ、図２の各構成等に関して
任意好適に変更可能である。

【０１２１】

【発明の効果】以上説明したように、請求項１の発明に
よれば、距離計算の過程でスクリーニングのしきい値を
動的に変化させるようにしたので、高速かつ高精度に最
近傍点を検出できる、という効果が得られる。

【０１２２】請求項２の発明によれば、スクリーニング
を１度行った後で、同じグループに関し、１回目のスク
リーニングで既に計算された結果を用いて２回目のスク
リーニングを行うようにしたので、スクリーニング処理
の追加によっては処理時間はほとんど増加せず、２つの
スクリーニングの効果が相乗して全体的な処理時間をさ
らに高速化できる、という効果が得られる。

【０１２３】請求項３の発明によれば、各グループまで
の累積特長量に基づいて第１のしきい値を設定するよう
にしたので、累積特長量が大きい場合には、最近傍のも
のでも距離が大きくなってスクリーニングされてしまう
おそれを回避でき、処理効率を向上させることができ
る、という効果が得られる。

【０１２４】請求項４の発明によれば、各グループまで
計算された特長の数に基づいて、各々の第１のしきい値
を設定するようにしたので、計算された次元数の増加と
共に、各グループまでの距離値が単調増加し、計算され
た次元数が少ないほど距離値の信頼性が低いという不公
平を回避でき、処理効率を向上させることができる、と
いう効果が得られる。

【０１２５】請求項５の発明によれば、入力パターンの
特長量を各グループまでの累積特長量と特長の数の両者
に基づいて各々の第１のしきい値を設定するようにした
ので、しきい値の信頼性が大幅に向上し、処理効率をさ
らに向上させることができる、という効果が得られる。

【０１２６】請求項６の発明によれば、累積特長量に基
づいて設定された第１の設定値と、特長の数に基づいて
設定された第２の設定値との平均値としてグループ毎の
第１のしきい値を設定するようにしたので、計算量の増
加を最小限に抑えつつ、処理効率をさらに向上させるこ
とができる、という効果が得られる。

【０１２７】請求項７の発明は、各グループの特長にお
ける特長量の分散が大きい順序で距離計算を行うように
したので、スクリーニングの効果が高まり、距離計算を
さらに高速化できる、という効果が得られる。

【０１２８】請求項８の発明によれば、距離計算の過程
でスクリーニングのしきい値を動的に変化させるように
したので、高い認識率と高速化を実現できる、という効
果が得られる。

【０１２９】請求項９の発明によれば、スクリーニング
を１度行った後で、同じグループに関し、１回目のスク
リーニングで既に計算された結果を用いて２回目のスク
リーニングを行うようにしたので、スクリーニング処理
の追加によっては処理時間はほとんど増加せず、２つの
スクリーニングの効果が相乗して全体的な認識に要する
処理時間をさらに高速化できる、という効果が得られ
る。

【０１３０】請求項１０の発明によれば、各グループま
での累積特長量に基づいて第１のしきい値を設定するよ
うにしたので、累積特長量が大きい場合には、最近傍の
ものでも距離が大きくなってスクリーニングされてしま
うおそれを回避でき、高い認識率と高速化を実現でき
る、という効果が得られる。

【０１３１】請求項１１の発明によれば、各グループま
で計算された特長の数に基づいて、各々の第１のしきい
値を設定するようにしたので、計算された次元数の増加
と共に、各グループまでの距離値が単調増加し、計算さ
れた次元数が少ないほど距離値の信頼性が低いという不
公平を回避でき、高い認識率と高速化を実現できる、と
いう効果が得られる。

【０１３２】請求項１２の発明によれば、入力パターン
の特長量を各グループまでの累積特長量と特長の数の両
者に基づいて各々の第１のしきい値を設定するようにし
たので、しきい値の信頼性が大幅に向上し、高い認識率
と高速化をさらに高いレベルで実現できる、という効果
が得られる。

【０１３３】請求項１３の発明によれば、累積特長量に
基づいて設定された第１の設定値と、特長の数に基づい
て設定された第２の設定値との平均値としてグループ毎
の第１のしきい値を設定するようにしたので、計算量の
増加を最小限に抑えつつ、高い認識率と高速化をさらに
高いレベルで実現できる、という効果が得られる。

【０１３４】請求項１４の発明は、各グループの特長に
おける特長量の分散が大きい順序で距離計算を行うよう
にしたので、スクリーニングの効果が高まり、認識処理
をさらに高速化できる、という効果が得られる。

【図面の簡単な説明】

【図１】本実施の形態に係るＯＣＲのシステム構成例を
示す図である。

【図２】本実施の形態に係るＯＣＲの構成ブロック図で
ある。

【図３】本実施の形態に係るＯＣＲの文字認識処理の流
れを示すフローチャートである。

【図４】本実施の形態に係るＯＣＲの高速最近傍点検出
処理の第１の例を示すフローチャートである。

【図５】本実施の形態に係るＯＣＲの高速最近傍点検出
処理の第２の例を示すフローチャートである。

【図６】本実施の形態に係るＯＣＲの高速最近傍点検出
処理の第３の例を示すフローチャートである。

【図７】本実施の形態に係るＯＣＲの高速最近傍点検出
処理の第４の例を示すフローチャートである。

【図８】入力パターンの当該グループ数までの累積特長
量と正解カテゴリーのプロトタイプとの市街地距離との
関係を多数の実験サンプルについてプロットし、しきい
値ＴＨＲ１を決定するための図である。

【図９】グループ数と正解カテゴリーのプロトタイプと
の市街地距離との関係を多数の実験サンプルについてプ
ロットし、しきい値ＴＨＲ２を決定するための図であ
る。

【図１０】グループ数と、当該グループ数で最短となっ
たプロトタイプとの市街地距離に対する正解カテゴリー
のプロトタイプとの市街地距離との関係を多数の実験サ
ンプルについてプロットし、しきい値ＴＨＲ＿ＲＡＴＥ
を決定するための図である。

【図１１】次の有効なプロトタイプを指定するポインタ
ーの初期状態、各グループ毎の状態、及び最終状態を示
す図である。

【符号の説明】

１６スキャナ２２ＣＰＵ２８辞書メモリ

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成８年５月２３日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正内容】

【書類名】明細書

【発明の名称】近傍点検出方法及びパターン認識装
置

【特許請求の範囲】

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、Ｎ次元の特長空間
に多数の標本点が分布している時、該特長空間における
新しい入力点がどの標本点に最も近いかを、距離計算の
途中で最近傍となる可能性のきわめて低い標本点を除外
することによって、高速に検出する近傍点検出方法及び
該検出方法を応用したパターン認識装置に関する。

【０００２】

【０００５】

【０００６】本発明は上記事実を考慮し、距離計算の過
程でスクリーニングのしきい値を動的に変化させること
によって大幅に処理効率を向上させた近傍点検出方法及
び該方法を応用した高速かつ高認識率のパターン認識装
置を提供することを目的とする。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、請求項１の発明は、複数の特長が各々の次元として
構成された特長空間において、該特長空間に分布する複
数の標本点と入力点との距離値を各々計算し、該距離値
に基づいて前記入力点近傍の標本点を検出する近傍点検
出方法において、前記複数の特長を、各々１又は２以上
の特長毎に所定の順序が割り当てられた複数のグループ
に予め分類しておき、各グループまでの特長に関連した
情報量に基づいて、少なくとも２つのグループにおいて
各々異なる第１のしきい値を各グループ毎に設定し、前
記所定の順序に従って、各々のグループに属する特長次
元から構成される部分特長空間における前記入力点と前
記複数の標本点との部分距離値を計算し、該部分距離値
を累積的に加算することにより、前記複数の標本点と入
力点との累積距離値を各々求めていくと共に、あるグル
ープまで計算された累積距離値が、該グループで設定さ
れた前記第１のしきい値を越えた場合には、前記累積距
離値を与えた標本点を、これより後のグループにおける
距離計算の対象から除外することを特徴とする。

【０００８】請求項１の発明では、例えば、特長空間が
１９２次元ある場合に１６次元毎１２グループに均等に
分類しておき、各々のグループに属する特長次元から構
成される部分特長空間における複数の標本点と入力点と
の部分距離値を計算し、該部分距離値を累積的に加算す
ることにより、１６次元、３２次元、．．．、１９２次
元までの複数の標本点と入力点との累積距離値を各々求
めていく（最後のグループまでの累積距離値は、全特長
空間における真の距離値となる）。従って、各グループ
までの特長に関連した情報量、例えば距離計算の対象と
なった特長数等の増加につれて、累積距離値は大きく、
また該累積距離値の信頼度等が向上する。そこで、この
変化に応じて各グループまでの特長に関連した情報量に
基づきグループ毎に第１のしきい値を更新して（少なく
とも２つのグループで異なれば良い）、該しきい値を越
える累積距離値を与えた標本点を以降の計算から除外
（スクリーニング）する。これによって、一定のしきい
値を用いてスクリーニングする従来の方法と比べて、真
の最近傍点を途中でスクリーニングするおそれを回避し
て最近傍点の検出率を高めることと、高速化とを両立で
きる。すなわち、最近傍点の検出率と高速化のトレード
オフで決定される処理効率を高めることができる。な
お、グループ毎の第１のしきい値を、入力点が属するサ
ンプル集団における各グループまでの特長に応じた統計
的性質等に基づいて設定すれば良い。また、最近傍点の
みならず、２、３、．．．番目に近い標本点を検出して
も良い。

【０００９】また、請求項２の発明は、複数の特長が各
々の次元として構成された特長空間において、該特長空
間に分布する複数の標本点と入力点との距離値を各々計
算し、該距離値に基づいて前記入力点近傍の標本点を検
出する近傍点検出方法において、前記複数の特長を、各
々１又は２以上の特長毎に所定の順序が割り当てられた
複数のグループに予め分類しておき、各グループまでの
特長に関連した情報量に基づいて、少なくとも２つのグ
ループにおいて各々異なる第１のしきい値を各グループ
毎に設定し、前記所定の順序に従って、各々のグループ
に属する特長次元から構成される部分特長空間における
前記入力点と前記複数の標本点との部分距離値を計算
し、該部分距離値を累積的に加算することにより、前記
複数の標本点と入力点との累積距離値を各々求め、さら
に該累積距離値の最小値を各グループ毎に求めていくと
共に、あるグループまで計算された累積距離値が該グル
ープで設定された前記第１のしきい値を越えた場合に
は、前記累積距離値を与えた標本点を、これより後のグ
ループにおける距離計算の対象から除外し、前記第１の
しきい値による標本点の除外を行ったグループにおい
て、前記最小値に基づいて第２のしきい値を設定し、前
記第２のしきい値を越える累積距離値を与えた標本点
を、これより後のグループにおける距離計算の対象から
除外することを特徴とする。

【００１０】請求項２の発明は、請求項１の発明が１段
階のスクリーニングを行っていたのに対し、２段階のス
クリーニングを行うようにしたものである。すなわち、
各グループまでの累積距離値が、第１のしきい値を越え
る標本点をスクリーニングし、さらにこの第１のスクリ
ーニング処理を受けたグループに対し、当該グループま
での累積距離値の最小値に基づいた第２のしきい値を設
定する。そして、このグループまでの累積距離値が第２
のしきい値を越えるような標本点をさらにスクリーニン
グする。なお、第２のスクリーニングにおいて、第１の
スクリーニングによって除外された標本点は、当然、処
理の対象とはならない。このようにスクリーニングを１
度行った後で、同じグループに関し、１回目のスクリー
ニングで既に計算された結果を用いて２回目のスクリー
ニングを行うようにしたので、スクリーニング処理の追
加によっては処理時間はほとんど増加せず、２つのスク
リーニングの効果が相乗して全体的な処理時間をさらに
高速化できる、また、第２のしきい値を最小値に基づい
て設定する際に、距離計算される順序が最後のグループ
に近くなるにつれて距離値の信頼性が増えるので、最小
値に対する第２のしきい値の比を小さくするように設定
すれば、スクリーニングがより効果的になる。この第２
のしきい値も、入力点が属するサンプル集団における各
グループの特長に応じた統計的性質等に基づいて設定す
れば良い。

【００１１】また、請求項３の発明は、請求項１又は請
求項２の発明において、前記入力点の特長量を前記所定
の順序に従って各グループに属する特長まで累積的に加
算した各々の累積特長量に基づいて、各グループの前記
第１のしきい値を設定することを特徴とする。

【００１２】請求項３の発明では、第１のしきい値を、
計算途中の次元数とは直接には無関係な累積特長量に基
づいて設定する。例えば入力点の各グループまでの累積
特長量が小さい場合は、第１のしきい値を小さく設定
し、累積特長量が大きい場合は、第１のしきい値を大き
く設定する。これによって、累積特長量が大きい場合に
は、最近傍のものでも距離が大きくなってスクリーニン
グされてしまう、という不公平が防止され、処理効率を
向上させることができる。

【００１３】請求項４の発明は、請求項１又は請求項２
の発明において、前記所定の順序に従って各グループま
での特長の数を累積的に加算した各々の累積特長数に基
づいて、各グループの前記第１のしきい値を設定するこ
とを特徴とする。

【００１４】請求項４の発明は、所定の順序に従って各
グループまでの特長の数を累積的に加算した各々の累積
特長数に基づいて第１のしきい値を設定する。これによ
って、計算された次元数の増加と共に、各グループまで
の距離値が単調増加し、計算された次元数が少ないほど
距離値の信頼性が低い、という不公平が防止されて処理
効率を向上させることができる。

【００１５】請求項５の発明は、請求項１又は請求項２
の発明において、前記入力点の特長量を前記所定の順序
に従って各グループに属する特長まで累積的に加算した
各々の累積特長量と、前記所定の順序に従って各グルー
プまでの特長の数を累積的に加算した各々の累積特長数
とに基づいて、各グループの前記第１のしきい値を設定
することを特徴とする。

【００１６】請求項５の発明では、累積特長量と累積特
長数とに基づいて第１のしきい値を設定する。例えば、
累積特長量に基づいて得られるしきい値と累積特長数に
基づいて得られるしきい値の両者の関数として、第１の
しきい値を設定する。このような２種類のしきい値の混
合によって、第１のしきい値の信頼性が大幅に向上し、
処理効率をさらに向上させることができる。なお、２種
類のしきい値の関数として、例えば非線形関数や重み付
き平均値等がある。

【００１７】請求項６の発明は、請求項５の発明におい
て、各グループの前記累積特長量に基づいて得られたし
きい値と前記累積特長数に基づいて得られたしきい値と
の平均値を、各グループの前記第１のしきい値として設
定することを特徴とする。

【００１８】請求項６の発明では、上記２種類のしきい
値の関数として最も簡単な平均値をとる関数を用いるこ
とにより第１のしきい値を求める。これにより、計算量
の増加を最小限に抑えると共に、処理効率をさらに向上
させることができる。

【００２２】請求項８の発明は、入力パターンが入力さ
れる入力手段と、前記入力手段に入力した入力パターン
から複数の特長量を抽出し、複数の特長が各々の次元と
して構成された特長空間の入力点として表現する特長抽
出手段と、前記特長空間に分布する複数の標本点を認識
カテゴリー毎に予め格納しておく記憶手段と、前記複数
の特長を、各々１又は２以上の特長毎に所定の順序が割
り当てられた複数のグループに予め区分しておくと共
に、各グループまでの特長に関連した情報量に基づい
て、少なくとも２つのグループにおいて各々異なる第１
のしきい値を各グループ毎に設定する第１のしきい値設
定手段と、前記所定の順序に従って、各々のグループに
属する特長次元から構成される部分特長空間における前
記入力点と前記複数の標本点との部分距離値を計算し、
該部分距離値を累積的に加算することにより、前記複数
の標本点と入力点との累積距離値を各々求めていく距離
計算手段と、前記距離計算手段によって、あるグループ
まで計算された累積距離値が、該グループで設定された
前記第１のしきい値を越えた場合には、前記累積距離値
を与えた標本点を、これより後のグループにおける距離
計算の対象から除外する第１のスクリーニング手段と、
前記距離計算手段により最後のグループの特長まで計算
された全特長空間における距離値の少なくとも最小値を
与える標本点を検出する近傍点検出手段と、前記近傍点
検出手段によって検出された標本点が属する認識カテゴ
リーに基づいて前記入力パターンが属する認識カテゴリ
ーを判定する認識手段と、を含んで構成したものであ
る。

【００２３】請求項９の発明は、入力パターンが入力さ
れる入力手段と、前記入力手段に入力した入力パターン
から複数の特長量を抽出し、複数の特長が各々の次元と
して構成された特長空間の入力点として表現する特長抽
出手段と、前記特長空間に分布する複数の標本点を認識
カテゴリー毎に予め格納しておく記憶手段と、前記複数
の特長を、各々１又は２以上の特長毎に所定の順序が割
り当てられた複数のグループに予め区分しておくと共
に、各グループまでの特長に関連した情報量に基づい
て、少なくとも２つのグループにおいて各々異なる第１
のしきい値を各グループ毎に設定する第１のしきい値設
定手段と、前記所定の順序に従って、各々のグループに
属する特長次元から構成される部分特長空間における前
記入力点と前記複数の標本点との部分距離値を計算し、
該部分距離値を累積的に加算することにより、前記複数
の標本点と入力点との累積距離値を各々求めていく距離
計算手段と、前記距離計算手段によって、あるグループ
まで計算された累積距離値が、該グループで設定された
前記第１のしきい値を越えた場合には、前記累積距離値
を与えた標本点を、これより後のグループにおける距離
計算の対象から除外する第１のスクリーニング手段と、
前記距離計算手段により求められた累積距離値の最小値
を各グループ毎に算出する最小値算出手段と、前記最小
値算出手段によって算出された各グループの最小値に基
づいて各グループの第２のしきい値を各々設定する第２
のしきい値設定手段と、前記第１のスクリーニング手段
による標本点のスクリーニングが行われたグループに関
し、次のグループの距離計算に移行する前に、前記第２
のしきい値を越える累積距離値を与えた標本点を、これ
より後のグループにおける距離計算の対象から除外する
第２のスクリーニング手段と、前記距離計算手段により
最後のグループの特長まで計算された全特長空間におけ
る距離値の少なくとも最小値を与える標本点を検出する
近傍点検出手段と、前記近傍点検出手段によって検出さ
れた標本点が属する認識カテゴリーに基づいて前記入力
パターンが属する認識カテゴリーを判定する認識手段
と、を含んで構成したものである。

【００２４】請求項１０の発明は、請求項８又は請求項
９の前記第１のしきい値設定手段が、前記入力点の特長
量を前記所定の順序に従って各グループに属する特長ま
で累積的に加算した各々の累積特長量に基づいて、各グ
ループの前記第１のしきい値を設定することを特徴とす
る。

【００２５】請求項１１の発明は、請求項８又は請求項
９の前記第１のしきい値設定手段が、前記所定の順序に
従って各グループまでの特長の数を累積的に加算した各
々の累積特長数に基づいて、各グループの前記第１のし
きい値を設定することを特徴とする。

【００２６】請求項１２の発明は、請求項８又は請求項
９の前記第１のしきい値設定手段が、前記入力点の特長
量を前記所定の順序に従って各グループに属する特長ま
で累積的に加算した各々の累積特長量と、前記所定の順
序に従って各グループまでの特長の数を累積的に加算し
た各々の累積特長数とに基づいて、各グループの前記第
１のしきい値を設定することを特徴とする。

【００２７】請求項１３の発明は、請求項１２の前記第
１のしきい値設定手段が、各グループの前記累積特長量
に基づいて得られたしきい値と前記累積特長数に基づい
て得られたしきい値との平均値を、各グループの前記第
１のしきい値として設定することを特徴とする。

【００３０】

【００５４】また、（２）式のｂは必ず正の値で一定値
以上でなければならない。何故なら、累積特長量Ｘの小
さいものには、まだ途中の１６次元や３２次元程度まで
しか計算されていないものが多い上、分散値の大きい特
長からソートされているので、ｂが０近傍の値の場合、
正しいカテゴリーのプロトタイプがスクリーニングされ
る危険性が高いからである。なお、（２）式のような簡
単な線形関数の他に、散布点の分布をもっと正確に反映
した非線形関数等を用いても良い。次に、１から１９２
までの次元を指定するための次元番号ｉ、１６次元毎に
１２個に分類されたグループを指定するためのグループ
番号ｊ、１からＮ（８２８３）までのすべてのプロトタ
イプを指定するためのプロトタイプ番号ｋを各々１に設
定する（ステップ１３０）。また、入力パターンと１か
らＮまでのプロトタイプとの（１）式に基づく各々の市
街地距離をＤ_cb（１）〜Ｄ_cb（Ｎ）とし、これらをすべ
て０に、さらに最小距離Ｄ_mi _nを最大値（例えば６５５
３６）に設定する（ステップ１３０）。

【００６２】Ｄ_cb（ｋ）＜Ｄ_min ・・・・・（５）（５）式が成立すると判定した場合（ステップ１４４肯
定判定）、Ｄ_mi _nの値をＤ_cb（ｋ）の値に変更し、最近
傍点のプロトタイプ番号を指定するための最近傍点番号
ｍｉｎにｋを代入する（ステップ１４６）。

【００８８】次に、グループｊに関し、入力パターンと
各プロトタイプｋとの市街地距離Ｄ_bc（ｋ）の計算を行
い（ステップ１３２〜ステップ１３６）、ＴＨＲ＿ＭＩ
Ｘ（ｊ）より大きい場合（ステップ１３９肯定判定）に
は、そのプロトタイプｋをスクリーニングする（ステッ
プ１４０）。すなわち、これが図６においても説明した
グループｊに関する１フェーズ目のスクリーニングであ
る。上記処理を未だスクリーニングされていない生き残
っているすべてのプロトタイプに関し実行する（ステッ
プ１４８、ステップ１５０）。また、この処理の間に、
当該グループｊにおける最小距離Ｄ_minと最近傍のプロ
トタイプ番号ｍｉｎを求める（ステップ１４４、ステッ
プ１４６）。

【００９８】以上のように、同じグループに関し、ＴＨ
Ｒ＿ＭＩＸ（１−１２）とＴＨＲ＿ＲＡＴＥ（１−１
２）という２種類のしきい値で２フェーズのスクリーニ
ングを行う。特に、上述したようにフェーズ２は、既に
計算済のフェーズ１の結果をチェックするだけであり極
めて高速である。これにより、フェーズ２を新たに追加
したことによる処理時間の増加は僅かであり、２フェー
ズによるスクリーニングの効果が相乗して全体的な最近
傍点検出処理をさらに高速化することができる。

【０１０１】なお、図１０では、離散的なグループ番号
で直接プロットすると、個々のグループを示す縦の罫線
上に散布点が集中し分布状況が分かりにくくなるため、
図９と同様に散布点をＸ軸方向に乱数で分布させて広が
りを付けるようにしている。

【０１０９】

【０１２１】

【発明の効果】以上説明したように、請求項１の発明に
よれば、距離計算の過程でスクリーニングのしきい値を
動的に変化させるようにしたので、高速かつ高精度に最
近傍点又は入力点近傍の標本点を検出できる、という効
果が得られる。

【０１２２】請求項２の発明によれば、スクリーニング
を１度行った後で、同じグループに関し、１回目のスク
リーニングで既に計算された累積距離値の最小値を用い
て２回目のスクリーニングを行うようにしたので、スク
リーニング処理の追加によっては処理時間はほとんど増
加せず、２つのスクリーニングの効果が相乗して全体的
な処理時間をさらに高速化できる、という効果が得られ
る。

【０１２４】請求項４の発明によれば、各グループまで
の特長数を累積的に加算した累積特長数に基づいて、各
々の第１のしきい値を設定するようにしたので、計算さ
れた次元数の増加と共に、各グループまでの距離値が単
調増加し、計算された次元数が少ないほど距離値の信頼
性が低いという不公平を回避でき、処理効率を向上させ
ることができる、という効果が得られる。

【０１２５】請求項５の発明によれば、各グループ毎
に、各々の累積特長量と累積特長数との両者に基づいて
第１のしきい値を設定するようにしたので、第１のしき
い値の信頼性が大幅に向上し、処理効率をさらに向上さ
せることができる、という効果が得られる。

【０１２６】請求項６の発明によれば、累積特長量に基
づいて得られたしきい値と累積特長数に基づいて得られ
たしきい値の平均値を第１のしきい値として設定するよ
うにしたので、計算量の増加を最小限に抑えつつ、処理
効率をさらに向上させることができる、という効果が得
られる。

【０１２８】請求項８の発明によれば、距離計算の過程
でスクリーニングのしきい値を動的に変化させるように
したので、高速かつ高認識率を実現できる、という効果
が得られる。

【０１２９】請求項９の発明によれば、スクリーニング
を１度行った後で、同じグループに関し、１回目のスク
リーニングで既に計算された累積距離値の最小値を用い
て２回目のスクリーニングを行うようにしたので、スク
リーニング処理の追加によっては処理時間はほとんど増
加せず、２つのスクリーニングの効果が相乗して全体的
な認識に要する処理時間をさらに高速化できる、という
効果が得られる。

【０１３０】請求項１０の発明によれば、各グループま
での累積特長量に基づいて第１のしきい値を設定するよ
うにしたので、累積特長量が大きい場合には、最近傍の
ものでも距離が大きくなってスクリーニングされてしま
うおそれを回避でき、高速かつ高認識率を実現できる、
という効果が得られる。

【０１３１】請求項１１の発明によれば、各グループま
での特長数を累積的に加算した累積特長数に基づいて、
各々の第１のしきい値を設定するようにしたので、計算
された次元数の増加と共に、各グループまでの距離値が
単調増加し、計算された次元数が少ないほど距離値の信
頼性が低いという不公平を回避でき、高速かつ高認識率
を実現できる、という効果が得られる。

【０１３２】請求項１２の発明によれば、各グループ毎
に、各々の累積特長量と累積特長数との両者に基づいて
各々の第１のしきい値を設定するようにしたので、第１
のしきい値の信頼性が大幅に向上し、高速かつ高認識率
をさらに高いレベルで実現できる、という効果が得られ
る。

【０１３３】請求項１３の発明によれば、累積特長量に
基づいて得られたしきい値と累積特長数に基づいて得ら
れたしきい値の平均値を第１のしきい値として設定する
ようにしたので、計算量の増加を最小限に抑えつつ、高
速かつ高認識率をさらに高いレベルで実現できる、とい
う効果が得られる。

【図面の簡単な説明】

【符号の説明】１６スキャナ２２ＣＰＵ２８辞書メモリ

Claims

【特許請求の範囲】

【請求項１】パターンの属性を示す複数の特長を各々
の次元として構成される特長空間において、入力された
入力パターンと、該特長空間に分布する複数のパターン
との全特長空間における距離値を各々計算し、少なくと
も該距離値が最も小さい最近傍のパターンを検出する高
速最近傍点検出方法であって、前記複数の特長を、各々１又は２以上の特長毎に複数の
グループに分類し、前記複数のグループの各々に所定の順序を割当て、各グループまでの特長に関連した情報量に基づいて、距
離値に関する第１のしきい値を前記複数のグループ毎に
設定し、前記所定の順序に従って、各グループまでの特長空間に
おける距離値を前記複数のパターンの各々について計算
していくと共に、あるグループまでの特長空間における距離値が、該グル
ープにおける前記第１のしきい値を越えた場合には、前
記距離値を与えたパターンを、これより後の距離計算の
対象から除外することを特徴とする高速最近傍点検出方
法。
【請求項２】パターンの属性を示す複数の特長を各々
の次元として構成される特長空間において、入力された
入力パターンと、該特長空間に分布する複数のパターン
との全特長空間における距離値を各々計算し、少なくと
も該距離値が最も小さい最近傍のパターンを検出する高
速最近傍点検出方法であって、前記複数の特長を、各々１又は２以上の特長毎に複数の
グループに分類し、前記複数のグループの各々に所定の順序を割当て、各グループまでの特長に関連した情報量に基づいて、距
離値に関する第１のしきい値を前記複数のグループ毎に
設定し、前記所定の順序に従って、各グループまでの特長空間に
おける距離値を前記複数のパターンの各々について計算
していくと共に、前記複数のパターンの各グループまでの特長空間におけ
る距離値の最小値を各グループ毎に求め、あるグループまでの特長空間における距離値が、該グル
ープにおける前記第１のしきい値を越えた場合には、前
記距離値を与えたパターンを、これより後の処理の対象
から除外し、前記第１のしきい値によるパターンの除外を行ったグル
ープについて、該グループにおける前記最小値に基づい
て第２のしきい値を設定し、前記グループまでの特長空
間における距離値が、前記第２のしきい値を越えた場合
には、前記距離値を与えたパターンを、これより後の距
離計算の対象から除外することを特徴とする高速最近傍
点検出方法。
【請求項３】前記入力パターンの特長量を前記所定の
順序に従って各グループの特長まで加算した各々の累積
特長量を前記情報量として、各グループの前記第１のし
きい値を設定することを特徴とする請求項１又は請求項
２の高速最近傍点検出方法。
【請求項４】前記所定の順序に従って各グループまで
の特長の数を加算した各々の累積特長数を前記情報量と
して、各グループの前記第１のしきい値を設定すること
を特徴とする請求項１又は請求項２の高速最近傍点検出
方法。
【請求項５】前記入力パターンの特長量を前記所定の
順序に従って各グループの特長まで加算した各々の累積
特長量と、前記所定の順序に従って各グループまでの特
長の数を加算した各々の累積特長数とを前記情報量とし
て、各グループの前記第１のしきい値を設定することを
特徴とする請求項１又は請求項２の高速最近傍点検出方
法。
【請求項６】各グループの前記累積特長量及び前記累
積特長数の平均値を、各グループの前記第１のしきい値
として設定することを特徴とする請求項５の高速最近傍
点検出方法。
【請求項７】各グループに割り当てられた前記所定の
順序は、各グループの特長における特長量の分散が大き
い順序であることを特徴とする請求項１乃至請求項６の
いずれか１項の高速最近傍点検出方法。
【請求項８】入力パターンが入力される入力手段と、前記入力手段により入力された入力パターンから複数の
特長を抽出する特長抽出手段と、認識カテゴリー毎に予め用意された前記複数の特長によ
り表現されたプロトタイプを格納しておく記憶手段と、前記複数の特長を各々１又は２以上の特長毎に複数のグ
ループに区分すると共に、各グループに割り当てられた
所定の順序に従って、各グループまでの特長空間におけ
る距離値を前記複数のパターンの各々について求めてい
く距離計算手段と、各グループまでの特長に関連した情報量に基づいて、距
離値に関する第１のしきい値を前記複数のグループ毎に
設定する第１のしきい値設定手段と、前記距離計算手段によって、あるグループまでの特長空
間における距離値が、該グループにおける前記第１のし
きい値を越えた場合には、前記距離値を与えたプロトタ
イプを、これより後の距離計算の対象から除外する第１
のスクリーニング手段と、前記距離計算手段により最後のグループの特長まで計算
された全特長空間における距離値の少なくとも最小値を
与えるプロトタイプを検出する最近傍点検出手段と、前記最近傍点検出手段によって検出されたプロトタイプ
が属する認識カテゴリーに基づいて前記入力パターンが
属する認識カテゴリーを判定する認識手段と、を含むパターン認識装置。
【請求項９】入力パターンが入力される入力手段と、前記入力手段により入力された入力パターンから複数の
特長を抽出する特長抽出手段と、認識カテゴリー毎に予め用意された前記複数の特長によ
り表現されたプロトタイプを格納しておく記憶手段と、前記複数の特長を各々１又は２以上の特長毎に複数のグ
ループに区分すると共に、各グループに割り当てられた
所定の順序に従って、各グループまでの特長空間におけ
る距離値を前記複数のパターンの各々について求めてい
く距離計算手段と、各グループまでの特長に関連した情報量に基づいて、距
離値に関する第１のしきい値を前記複数のグループ毎に
設定する第１のしきい値設定手段と、前記距離計算手段によって、あるグループまでの特長空
間における距離値が、該グループにおける前記第１のし
きい値を越えた場合には、前記距離値を与えたプロトタ
イプを、これより後の距離計算の対象から除外する第１
のスクリーニング手段と、前記複数のプロトタイプの各グループまでの特長空間に
おける距離値の最小値をグループ毎に算出する最小値算
出手段と、前記最小値算出手段によって算出された各グループの最
小値に基づいて各グループの第２のしきい値を各々設定
する第２のしきい値設定手段と、前記第１のスクリーニング手段によるプロトタイプのス
クリーニングが行われたグループに関し、次のグループ
の距離計算に移行する前に、該グループまでの特長空間
における距離値が前記グループにおける前記第２のしき
い値を越えるプロトタイプを、これより後の距離計算の
対象から除外する第２のスクリーニング手段と、前記距離計算手段により最後のグループの特長まで計算
された全特長空間における距離値の少なくとも最小値を
与えるプロトタイプを検出する最近傍点検出手段と、前記最近傍点検出手段によって検出されたプロトタイプ
が属する認識カテゴリーに基づいて前記入力パターンが
属する認識カテゴリーを判定する認識手段と、を含むパターン認識装置。
【請求項１０】前記第１のしきい値設定手段は、前記
入力パターンの特長量を前記所定の順序に従って各グル
ープの特長まで加算した各々の累積特長量を前記情報量
として、各グループの前記第１のしきい値を設定するこ
とを特徴とする請求項８又は請求項９のパターン認識装
置。
【請求項１１】前記第１のしきい値設定手段は、前記
所定の順序に従って各グループまでの特長の数を加算し
た各々の累積特長数を前記情報量として、各グループの
前記第１のしきい値を設定することを特徴とする請求項
８又は請求項９のパターン認識装置。
【請求項１２】前記第１のしきい値設定手段は、前記
入力パターンの特長量を前記所定の順序に従って各グル
ープの特長まで加算した各々の累積特長量と、前記所定
の順序に従って各グループまでの特長の数を加算した各
々の累積特長数とを前記情報量として、各グループの前
記第１のしきい値を設定することを特徴とする請求項８
又は請求項９のパターン認識装置。
【請求項１３】前記第１のしきい値設定手段は、各グ
ループの前記累積特長量及び前記累積特長数の平均値
を、各グループの前記第１のしきい値として設定するこ
とを特徴とする請求項１２のパターン認識装置。
【請求項１４】各グループに割り当てられた前記所定
の順序は、各グループの特長における特長量の分散が大
きい順序であることを特徴とする請求項８乃至請求項１
３のいずれか１項のパターン認識装置。