JP5683287B2

JP5683287B2 - パターン認識装置及びパターン認識方法

Info

Publication number: JP5683287B2
Application number: JP2011009360A
Authority: JP
Inventors: 利昇三好; 新庄　広; 広新庄; 永崎　健; 健永崎; 和樹中島
Original assignee: Hitachi Information and Telecommunication Engineering Ltd
Current assignee: Hitachi Information and Telecommunication Engineering Ltd
Priority date: 2011-01-20
Filing date: 2011-01-20
Publication date: 2015-03-11
Anticipated expiration: 2031-01-20
Also published as: JP2012150681A

Description

本発明は、パターン認識装置及びパターン認識方法に関し、特に、パターン認識処理の特徴選択における特徴空間の次元削減技術に関する。

パターン認識装置とは、入力パターンを認識し、その所属カテゴリを判定する装置である。ここでいうパターンとしては、画像や音声などが挙げられる。例えば、文字認識の場合には、パターンは画像であり、所属カテゴリは、識別対象となるパターンの類別である。例えば、文字認識装置においてカテゴリは、数字認識の場合に０〜９の１０字種、漢字認識の場合に数千字種となる。文字認識装置の場合には、入力画像中の文字が予め定めておいた字種（カテゴリ）のうちのどの字種（カテゴリ）に該当するか判定され、その判定結果が出力される。パターン認識装置により実行される処理は、学習フェーズと認識フェーズから構成される。

学習フェーズでは、あらかじめ用意された学習用のパターン情報を用い、その学習用のパターン情報の特徴を表す情報であるｎ次元ベクトル情報（以下、これをｎ次元特徴と呼ぶ）が抽出される。次に、抽出されたｎ次元特徴をｍ次元特徴（ｍ≦ｎ）に変換するための変換行列が生成されて特徴選択用辞書に記憶され、特徴用辞書が作成される。変換行列を求めるには、主成分分析法や線型判別法などが広く用いられている。さらに、生成された変換行列を用いて抽出されたｎ次元特徴がｍ次元特徴に変換され、このｍ次元特徴と学習用のパターン情報とから生成された識別関数を識別用辞書に記憶することで、識別用辞書が作成される。識別関数の生成には、たとえば、非特許文献１、非特許文献２に開示された技術を用いることができる。識別関数は、先に述べたカテゴリごとに生成される。

認識フェーズでは、まず、入力されたパターン情報からｎ次元特徴を抽出し、特徴選択用辞書に記憶された変換行列を用いてｍ次元特徴が取得される。さらに、取得されたｍ次元特徴と認識用辞書に記憶された識別関数とにより、入力されたパターン情報の各カテゴリに対する類似度を求め、最も類似度の高いカテゴリが認識結果として出力される。

上述したように、パターン認識においては、入力パターンから抽出されるｎ次元の特徴情報をより次元の低いｍ次元の特徴情報として認識処理を行うことにより、認識の高速化、高精度化が図られている。

Mohammed Cheriet, Nawwaf Kharma, Cheng lin Liu, and Ching Suen. Character Recognition Systems: "A Guide for Students and Practitioners" Wiley-Interscience, 2007。

石井健一郎、上田修功、前田英作、村瀬洋、「パターン認識」オーム社出版局。

変換行列を求める際に用いられる主成分分析法では、分布の分散が大きい成分を選択するような変換行列が生成される。また、線型判別法では、（カテゴリ同士の中心間距離）÷（各カテゴリの分散値の和）が最大となる成分が選択されるような変換行列が生成される。

主成分分析法では、分布の分散が大きい成分が特徴軸として選択されるため、識別に必要な成分方向における分散値が小さい場合に、その成分方向が特徴軸として残らない場合が生じ得る。また、線型判別法では、正規分布を仮定しているため、ある成分方向に複数の正規分布が生じるようなカテゴリについて有効な特徴軸を選択することができない場合がある。

このように、上述した従来技術においては、特徴情報の削減の段階において必ずしも有効な成分を含む特徴軸を必ずしも適切に選択することができず、認識の対象とするパターンによっては認識精度が低下してしまう恐れがあるという問題があった。

本発明の目的は、上述したような従来技術における課題に鑑み、特徴抽出時に識別への寄与が小さい特徴成分を効率よく削減し、高速で精度の高いパターン認識装置を実現することにある。

上述した目的を達成するために、本発明のパターン認識装置及びパターン認識方法では、その一つの態様において、予め用意された学習用パターンＤＢから学習用パターンを入力して学習用パターンの各々についてｎ次元特徴を抽出し、学習用パターンから選定される複数のパターン対の各々について、抽出されたｎ次元特徴の差分特徴を算出するとともに、算出した差分特徴の各々に対して重要度を設定する。複数のパターン対とその差分特徴の各々について設定された重要度とに基づいて、差分特徴の射影長を保存するような特徴成分を重要度の順に導出し、導出された複数の特徴成分が生成する部分空間（差分主空間）へｎ次元特徴を射影する射影行列を生成して差分主空間辞書に記録する。さらに、学習用パターンから生成された前記ｎ次元特徴の各々を、射影行列を用いて差分主空間へ射影することで、ｎ次元特徴より次元数の低いｍ次元特徴に変換し、当該ｍ次元特徴を用いて学習用パターンを識別するための識別関数を生成して差分空間内識別辞書に記録する。

また、与えられたパターンの認識時には、認識対象となるパターン情報を取得し、記認識対象となるパターン情報から当該認識対象となるパターン情報のｎ次元特徴を抽出する。抽出されたｎ次元特徴を差分主空間辞書に記録された射影行列を用いて差分主空間へ射影することで認識対象となるパターンに対応したｍ次元特徴を取得し、取得されたｍ次元特徴及び差分主空間内識別辞書に記録された識別関数を用いて、各々のカテゴリに対するパターンの類似度を算出し、当該類似度に基づき認識結果が出力される。

本発明によれば、入力パターンから得られる特徴成分の中から、識別への寄与が少ない特徴成分を効率よく削減し、入力されたパターンの認識を高速、高精度に行うことができる。

本発明が適用されるパターン認識装置の一実施形態における構成を示すブロック図。パターン認識装置１０１によって実施されるパターン認識処理の流れを示すフローチャートである。文字認識における特徴抽出処理２０２の一例を示すフローチャートである。パターン可視化処理のフローチャートである。本発明の第２の実施形態におけるパターン認識処理のフローチャートである。主成分分析法（ＰＣＡ）におけるパターン認識の特徴を示す図である。線型判別法（ＬＤＡ）によるパターン認識の特徴を示す図である。図６に対応する本実施形態のパターン認識の特徴を示す図である。図７に対応する本実施形態のパターン認識の特徴を示す図である。

図１は、本発明が適用されるパターン認識装置の一実施形態における簡略化された構成を示すブロック図である。

パターン認識装置１０１は、画像や音声などの入力情報について、そのパターンを認識し、所属カテゴリを判定する装置である。例えば、文字認識の場合には、入力されるパターンは画像であり、カテゴリは、識別対象となるパターンの類別である。例えば、認識対象が数字の場合、カテゴリとしては、０〜９の１０字種、漢字の場合には数千字種となる。文字認識を行うパターン認識装置（文字認識装置）の場合、パターン認識装置は、入力画像中の文字が予め定めておいた字種（カテゴリ）のうちのどの字種（カテゴリ）に該当するかを判定し、判定結果を出力する。

図１に示すように、本実施形態におけるパターン認識装置１０１は、入力装置１０２、表示装置１０３、パターン取得装置１０４、通信装置１０５、演算装置（ＣＰＵ）１０６、外部記憶装置１０７を備える。

入力装置１０２は、ユーザがパターン認識装置１０１を操作するために用いる装置であり、入力装置１０２を介して、演算装置（ＣＰＵ）１０６でのプログラムの実行の制御や、その他、接続機器の制御のためのコマンド等が入力される。入力装置１０２としては、コマンド等を入力するためのキーボードやマウス等のポインティングデバイスが用いられる。

表示装置１０３は、処理内容を適宜表示するディスプレイ等の装置である。

パターン取得装置１０４は、スキャナやマイク等、画像や音声等のパターン情報を取得するために用いられる装置である。本実施形態において、パターン取得装置１０４で取得されたパターン情報は、後述するように、外部記憶装置１０７に記憶される。

通信装置１０５は、図示しないパーソナルコンピュータ（ＰＣ）やサーバ等の外部機器との間で、図示しないローカルエリアネットワーク（ＬＡＮ）などの通信回線を介してデータのやりとりを行うために用いられる。具体的に通信装置１０５は、外部機器からのユーザによる実行コマンドの取得、画像、音声などのパターン情報の外部機器からの取得、あるいは、パターン認識装置１０１での処理内容の外部機器への送信等のために用いることができる。

演算装置（ＣＰＵ）１０６は、あらかじめ与えられたプログラムに従って、後述する、学習用パターンＤＢを用いた特徴選択用辞書、識別用辞書の作成、特徴選択用辞書と識別用辞書を用いた入力されたパターン情報の認識等、パターン認識装置１０１の各種機能を実現する。

外部記憶装置１０７は、ハードディスク装置（ＨＤＤ）、メモリ等の外部記憶装置である。外部記憶装置１０７には、パターン取得装置１０４で取得されたパターン情報を記憶する認識対象パターンＤＢ、学習用のパターン情報を記憶する学習用パターンＤＢ、特徴選択用辞書、識別用辞書が保存されている。また、外部記憶装置１０７は、演算装置１０６による処理の途中で生成されるデータ等を一時的に記憶するためにも用いられる。

入力装置１０２、表示装置１０３、パターン取得装置１０４、通信装置１０５は、必ずしも必要とはされない。たとえば、ユーザがパターン認識装置１０１をその外部に接続される外部機器から操作する場合、入力装置１０２は不要である。また、パターン情報を図示しない外部機器から入力し、あるいは、パターン認識の結果を外部記憶装置１０７に記憶しておいたり、図示しない外部機器において出力したりする場合、表示装置１０３やパターン取得装置１０４は必要とされない。

図２は、本実施形態においてパターン認識装置１０１によって実施される処理の流れを示すフローチャートである。

パターン認識装置１０１により実施される処理には、大きく分けて、学習フェーズと認識フェーズとが含まれる。学習フェーズでは、学習用パターンＤＢ４０１を用いて、従来技術における特徴選択用辞書に相当する差分主空間辞書４０２と、従来技術における識別用辞書に相当する差分主空間内識別辞書４０３が作成される。また、認識フェーズでは、差分空間辞書４０２と差分主空間内識別辞書４０３を用いて、入力パターンが逐次認識される。

学習フェーズ、認識フェーズの処理は、それぞれ演算装置１０６により実行されるプログラムとして実現される。本実施形態においては、学習フェーズの処理を実現するプログラム（以下、認識辞書生成プログラムという）と認識フェーズの処理を実現するプログラム（以下、認識プログラムという）とはそれぞれ独立したプログラムとして実現される。

認識辞書生成プログラムは、パターン入力処理２０１、特徴抽出処理２０２、差分特徴サンプリング処理２０３、差分特徴重み設定処理２０４、差分主特徴導出処理２０５、差分主空間生成処理２０６、差分主空間射影処理２０７、及び差分主空間内識別学習処理２０８を含む。また、認識プログラムは、パターン入力処理３０１、特徴抽出処理３０２、差分主空間射影処理３０３、差分主空間内識別処理３０４、及び認識結果出力処理３０５を含む。これら各処理は、認識辞書生成プログラム、認識プログラムを構成する独立したプログラムモジュールとして構成されてよい。

学習フェーズでは、まず、パターン入力処理２０１により学習用パターンＤＢ４０１から学習に用いるパターン情報が読み込まれる。学習用パターンＤＢ２０６は、学習用に作成され、所属カテゴリを示す正解ラベルが付与されたパターン情報の集合である。個々の学習用パターン情報は、パターン取得装置１０４などを用いて予め作成される。学習用パターン情報の個数は、通常数十個以上であり、数千万個となる場合もある。例えば、パターン認識装置１０１が漢字認識に用いられる場合、数千万個以上の学習用パターン情報が学習用パターンＤＢ４０１に格納される。正解ラベルは、例えば、認識対象のカテゴリの各々に番号を対応させて表現することができる。たとえば、文字認識の場合には、ＥＵＣコード、ＪＩＳコード、ＳＪＩＳコードなどの文字コードを用いてよい。以降の処理では、処理中のパターンの正解ラベルが分かるように、パターンと正解ラベルとの対応関係が失われないようにしておく。このために本実施形態では、パターンのヘッダ部分に、その所属カテゴリを示すラベルを記録しておく。

特徴抽出処理２０２では、パターン入力処理１０１によって読みだされた各パターン情報から認識に有効な成分の情報としてｎ次元ベクトルが抽出される。このとき生成されるｎ次元ベクトルをｎ次元特徴とよぶ。各パターン情報は、ｎ次元特徴として表現される。この処理によって、パターン情報は、元の情報が音声情報であっても画像情報であっても、ｎ次元ベクトル値として表現されるため、以降の処理では、パターン情報の種類に関わらず同じ処理を適用することができる。ここでは、一例として、認識対象が文字情報である場合の特徴抽出処理２０２について説明する。この場合、認識対象となる文字情報は、画像情報からなるパターン情報として与えられ、学習用のパターン情報も画像情報となる。

図３は、文字認識における特徴抽出処理２０２の一例を示すフローチャートである。

特徴抽出処理２０２では、まず、入力ステップ８０１において、パターン入力処理２０１で読みだされた画像情報を取得する。取得された画像情報は、前処理ステップ８０２において、ノイズ除去、ぼかし処理などが施される。例えば、ノイズ除去処理では、ある閾値以下の大きさの孤立点が除去される。この処理は、ノイズやかすれなどの文字認識に障害となる要因をできる限り除去するために行われる。

正規化ステップ８０３では、入力された画像情報の各々を正規化し、予め指定された固定サイズの画像情報に変換される。入力される画像の大きさを揃えることで、以降の処理を画像サイズに依存することなく統一することができる。正規化の方法には、非特許文献１に記載されるような、線型正規化法、非線型正規化法、モーメント正規化法などを用いることができる。例えば、入力画像が２値画像の場合、線型正規化法では、文字部分を示す黒画素を囲む最小の矩形によって囲まれる部分画像を固定サイズの画像に拡大または縮小することで正規化画像が生成される。

文字特徴抽出ステップ８０４では、入力画像をｎ次元特徴に変換する。たとえば、最も簡単な文字特徴抽出では、正規化された画像情報の各画素の画素値が特徴として用いられる。処理対象の画像情報が縦横２０×２０画素のグレー画像で、各画素の画素値が０〜２５５の整数値で表現されている場合、画素数は４００となり、抽出される特徴は４００次元特徴となる。４００次元特徴の各成分は、入力画像の０〜２５５の画素値で表される。

出力ステップ８０５では、文字特徴抽出ステップで得られたｎ次元特徴が次の処理のために出力される。

以降、差分特徴サンプリング処理２０３、差分特徴重み設定処理２０４、差分主特徴導出処理２０５、差分主空間生成処理２０６では、識別したいパターン同士の差分特徴がなるべく保存されるような、ｎ次元特徴空間の部分空間であるｍ次元特徴空間が生成される。

ここで、ｎ次元特徴からｍ次元特徴を抽出するのは、以下の理由による。

学習や認識の際の統計計算に要する計算量は、少なくとも次元数のべき乗のオーダーとなる。例えば、共分散行列はｎ×ｎ行列であるから、これを用いる計算には二乗のオーダーの計算量を要する。また、識別関数の次数がｓの場合には、識別関数の計算にｓ乗のオーダーの計算量を要する。このため、計算量を抑えるには、識別への寄与が低い特徴成分を削減し、次元数を削減することが必要となる。また、次元数が大きくなると、互いに相関の高い特徴が混入する割合が大きくなり、計算量に見合った効果が得られない。このため、相関が高い特徴を統合することにより、計算量を削減するのが好ましい。

高次元空間で、有限個の学習パターンから識別関数を生成する場合、次元数を高くすると精度の低下を招く。これは、次元数の増加に応じて識別関数の推定パラメータ数が増大し、有限個の学習パターンを用いたパラメータの推定が、統計的に信頼性の低いものとなるためである。このため、識別への寄与が小さい特徴成分を取り除き、特徴の次元数を適度に小さくする方が、認識の高精度化のためにも有利となる。

差分特徴サンプリング処理２０３は、Ｍ個のベクトルの組ξ_ｉ、η_ｉ（ｉは、１≦ｉ≦Ｍの自然数）を選定し、数１に示すような、それらを結ぶ単位方向ベクトルｄ_iを算出して出力する。

ｄ_ｉ＝（ξ_ｉ―η_ｉ）÷｜ξ_ｉ―η_ｉ｜（数１）

ここで、ｉは、１≦ｉ≦Ｍの自然数であり、ξ_ｉ＝η_ｉのときｄ_ｉ＝０とする。なお、本明細書では、ｄ_ｉを特徴ξ_ｉ、η_ｉの差分特徴と呼ぶ。サンプルの組ξ_ｉ、η_ｉの選定方法には様々な方法がある。以下にいくつかの例を示す。
例１：
Ｋ個のカテゴリの中心ｍ_ｉを代表点として用いて、異なるカテゴリ間の中心同士の全ての組み合わせの組ｍ_ｉ、ｍ_ｊ（ｉ≠ｊ）をとる（ｉ、ｊはそれぞれ、１≦ｉ≦Ｋ、１≦ｊ≦Ｋの自然数）。
例２：
Ｋ個のカテゴリの各々からＬ個のサンプルｍ_ｉｊ（ｉ、ｊはそれぞれ、１≦ｉ≦Ｋ、１≦ｊ≦Ｌの自然数）をとる。このとき、カテゴリ内のサンプルは、例えば、数２に示されるように、予め定められた任意の距離Ｄ以上となるものをとる。

｜ｍ_ｉｋ―ｍ_ｉｌ｜≧Ｄ（ｋ≠ｌ）（数２）

その後、これら異なるカテゴリ同士の全ての組み合わせｍ_ｉｋ、ｍ_ｊｌ（ｉ≠ｊ）を組としてとる。
例３：
Ｋ個のカテゴリの各々からランダムにＬ個のサンプルｍ_ｉｊ（ｉ、ｊはそれぞれ、１≦ｉ≦Ｋ、１≦ｊ≦Ｌの自然数）をとる。その後、異なるカテゴリ同士の全ての組み合わせｍ_ｉｋ、ｍ_ｊｌ（ｉ≠ｊ）を組としてとる。

差分特徴サンプリング処理２０３では、上述した例のように、複数のパターンのｎ次元特徴が必要となる場合がある。このような場合、ｎ次元特徴が必要となるたびにパターン入力処理２０１、特徴抽出処理２０２を繰り返し実行し、必要なｎ次元特徴を取得すればよい。また、パターン入力処理２０１、特徴抽出処理２０２により、一度、全ての学習用パターンをｎ次元特徴に変換して外部記憶装置１０７に記憶しておき、差分特徴サンプリング処理３０１において必要とするときに、外部記憶装置１０７から必要なｎ次元特徴を取得するようにしてもよい。

差分特徴重み設定処理２０４は、差分特徴サンプリング処理２０３により得られた差分特徴ｄ_ｉそれぞれの重み（重要度）ｈ_ｉを設定し、重要度ｈ_ｉと差分特徴ｄ_ｉを出力する。重要度ｈ_ｉの設定方法には様々な方法が考えられるが、以下にいくつかの例を挙げる。
例１：
全ての差分特徴ｄ_ｉの重要度は等しいとして、その重要度ｈ_ｉをｈ_ｉ＝１とおく。
例２：
特徴ξ_ｉ、η_ｉが近いほど、これらのサンプルの分離は難しくなるため、ｇを正の値をとる単調減少関数として、数３によりｈ_iを得る。

ｈ_ｉ＝ｇ（｜ξ_ｉ―η_ｉ｜）（数３）

ここでは、単調減少関数ｇ（｜ξ_ｉ―η_ｉ｜）の一例として、

ｇ（｜ξ_ｉ―η_ｉ｜）＝１÷｜ξ_ｉ―η_ｉ｜（数４）

を用いるものとする。
例３：
特徴ξ_ｉ、η_ｉの所属カテゴリの中心をそれぞれｍ_１、ｍ_２としたとき、ｇを正の値をとる単調減少関数として、数５によりｈ_ｉを得る。

ｈ_ｉ＝ｇ（｜ｍ_１−ｍ_２｜）（数５）

ここでは、単調減少関数ｇ（｜ｍ_１−ｍ_２｜）の一例として、

ｇ（｜ξ_ｉ―η_ｉ｜）＝１÷｜ｍ_１―ｍ_２｜（数６）

を用いるものとする。

差分主特徴導出処理２０５では、まず、差分特徴重み設定処理で得られた重要度ｈ_ｉと差分特徴ｄ_ｉとを用いて、数７に示すｎ×ｎ対称行列Ｑが計算される。

次に、Ｑの固有値が大きい順にｎ個の固有値に対応する固有ベクトルｕ_１、ｕ_２、・・・ｕ_ｎが算出される。

差分主空間生成処理２０６は、差分主特徴導出処理２０５で導出されたｎ個の固有ベクトルｕ_１、ｕ_２、…ｕ_ｎから、上位ｍ個の固有ベクトルｕ_１、ｕ_２、…ｕ_ｍを選定し、固有ベクトルｕ_１、ｕ_２、…ｕ_ｍで生成されるｍ次元部分空間を差分主空間として、ｎ次元空間から、前記ｍ次元部分空間への射影行列を生成する。射影行列は、数８で与えられるＵ_ｍである。

差分特徴重み設定処理２０４における方向ベクトルの重要度の設定方法には、以下の例に示すような方法ある。

差分主空間射影処理２０７では、差分主空間辞書４０２に保存されている差分主空間への射影行列を用いて、特徴抽出処理２０２で得られたｎ次元特徴がｍ次元特徴に変換されて出力される。ｎ次元特徴をｘ＝（ｘ_１、ｘ_２、・・・、ｘ_ｎ）とおくと、変換後のｍ次元特徴ｙ＝（ｙ_１、ｙ_２、・・・、ｙ_ｍ）は、変換行列Ｕ_ｍを用いてｙ＝Ｕ_ｍｘにより算出される。

差分主空間内識別学習処理２０８では、学習用パターンから生成されたｍ次元特徴を用いて、カテゴリｋに対する類似度を計算するための識別関数ｕ_ｋ（ｙ）または識別関数ｕ_ｋ（ｙ_ｋ）が学習により生成される。パターンのカテゴリｋに対する類似度は、差分主空間射影処理２０７により出力されるｍ次元特徴ｙを用いてｕ_ｋ（ｙ）を計算することにより得られる。差分主空間射影処理２０７で、カテゴリごとに異なるｍ次元特徴ｙ_ｋを生成した場合には、ｕ_ｋ（ｙ_ｋ）が、カテゴリｋに対する類似度となる。識別関数の学習に用いるアルゴリズムには、最近傍法、パーセプトロン、改良投影距離法、修正二次識別、一般学習ベクトル量子化、多項式ネットワーク、サポートベクトルマシンなどがある。生成した識別関数は、差分主空間内識別辞書４０３に記憶される。

差分主空間内識別学習処理２０８では、識別関数を生成するために学習用パターンのｍ次元特徴が複数必要となる。学習用パターンのｍ次元特徴を必要となるその都度差分主空間射影処理２０７により取得してもよいが、差分特徴サンプリング処理２０３の場合と同様に、差分主空間射影処理３０５により、全ての学習用パターンのｍ次元特徴を取得して、外部記憶装置１０７に記憶しておき、必要に応じて外部記憶装置１０７から読み出すようにすると効率的である。

以上、学習フェーズの処理について説明した。次に、認識フェーズについて説明する。認識フェーズでは、図２における認識プログラムによる処理が実行される。

認識フェーズでは、まず、パターン入力処理３０１により、パターン取得装置１０４を用いて認識対象パターンが取り込まれる。認識対象パターンは、予め外部記憶装置１０７に記憶されているものを読み出してもよく、あるいは、通信装置１０５を介して、図示しない外部機器から取り込むこともできる。

特徴抽出処理３０２では、パターン入力処理３０１によって取り込まれた認識対象パターンからｎ次元特徴が抽出される。特徴抽出処理３０２において認識対象パターンからｎ次元特徴を抽出する処理は、認識辞書生成プログラムのパターン入力処理２０２と同様にして行われる。

差分主空間射影処理３０３は、認識辞書生成プログラムの差分主空間射影処理２０７と同様、差分主空間辞書４０２に保存されている射影行列Ｕ_ｍを用いて、特徴抽出処理３０２により抽出されたｎ次元特徴をｍ次元特徴に変換する。

差分主空間内識別処理３０４では、各々のカテゴリに対する類似度を計算することにより、認識対象パターンの各カテゴリに対する類似度が算出される。差分主空間内識別処理３０４で算出された類似度は、認識結果出力処理２１０に入力され、各カテゴリに対する類似度から最終的な認識結果が出力される。

認識結果出力処理２１０は、通常、最も類似度が高いカテゴリを認識結果として出力する。類似度が二番目以降のカテゴリについても、二位候補、三位候補、などとして出力されるようにしてもよい。また、類似度が予め指定された閾値よりも小さい場合、例えば、数字認識の場合に、漢字が入力された場合など、いずれのカテゴリにも該当しないものとして、棄却するようにしてもよい。さらに、類似度の第一位と第二位との差が予め指定された閾値よりも小さい場合、例えば、アルファベットのＩやｌと数字の１は、フォントによっては、識別し難い場合があり、そのような場合いずれのカテゴリに該当するか判定し難いとして、棄却するようにしてもよい。

認識結果は、表示装置１０３に表示、または、外部記憶装置１０７に出力される。また、これらとともに、あるいはこれらに代えて、通信装置１０５を用いて図示しない外部機器に認識結果を送信するようにしてもよい。

図４は、本実施形態において、パターン認識装置により実施されるパターン可視化処理のフローチャートである。パターン可視化処理では、ユーザの指定した条件に従って、パターンＤＢ５１０に保存されているパターンから、パターンの組を複数選定する。そして、これら複数のパターンの組について、それらのベクトルの差分がなるべく縮退しないような二次元、または三次元ベクトル空間を生成し、ベクトル空間上にパターンを射影することによって、パターンの分布を可視化する。パターンＤＢ５１０は、学習用パターンＤＢ４０１と同じものを用いてもよく、または、パターン分布を可視化したいパターンを格納したものを学習用パターンＤＢ４０１とは別に用意してもよい。

パターン可視化処理では、まず、条件設定処理５０１により、ユーザから可視化するパターン、差分を計算するための複数のベクトル組を選定するための条件、および選定されたベクトル組の各々に対する重みの指定を受け付ける。以下の説明では、便宜上、選定されるパターンの組をＭ個として説明する。

具体的に、ユーザは、二次元、または三次元平面上で分離して表現したい種類のサンプル対をＭ個のパターン対として選定する。例えば、文字パターンの場合の三種の類似文字カテゴリ“７”、 “ク”、 “ワ”をなるべく分離した形で表現したい場合、ユーザは、互いに異なるカテゴリに属するサンプル対をＭ個選定する。選定の仕方は、例えば、パターンＤＢ５０４にあるサンプルの中から、“７”、 “ク”、 “ワ”の中の互いに異なるカテゴリに属するサンプルをランダムにＭ個選定すればよい。サンプル対の重みは、分離したい重みに応じて設定すればよい。例えば、“７”と“ク”より、“ク”と“ワ”を分離して表現したい場合には、サンプル対に含まれるそれぞれのサンプルが“７”と“ク”のカテゴリに属するサンプル対よりも、“ク”と“ワ”のカテゴリに属するサンプル対の重みを大きくすればよい。可視化対象パターンは、二次元または三次元空間に射影してプロットしたい全サンプルをパターンＤＢ５０４の中から選定する。例えば、“７”、 “ク”、 “ワ”に属する全サンプルなどである。

パターン読込処理５０２では、条件設定処理５０１において指定された条件にしたがって、パターンＤＢ５０４から可視化の対象となる全パターンと、差分を計算するための複数のパターン対が読込まれる。パターン読込処理５０２で読み込まれたパターンの各々は、特徴抽出処理５０３によりｎ次元ベクトルに変換される。

差分特徴サンプリング処理５０４では、差分を計算するためのＭ個のパターン対から生成されたＭ個のベクトル対ξ_ｉ、η_ｉ（ｉ＝１、２、・・・、Ｍ）について、それらを結ぶ単位方向ベクトルｄ_ｉ＝（ξ_ｉ―η_ｉ）÷｜ξ_ｉ―η_ｉ｜を差分特徴として算出する。

差分特徴重み設定処理５０５では、条件設定処理５０１において指定された条件に基づいて、各々のベクトルｄ_ｉの重み（重要度）ｈ_ｉを設定する。

差分主特徴導出処理５０６と差分主空間生成処理５０７では、差分主特徴導出処理２０５、差分主空間生成処理２０６と同様の処理によって、差分特徴ｄ_ｉの射影長がなるべく長くなるような部分空間を導出し、この部分空間への射影行列Ｕ_ｍ（二次元空間での可視化の場合にはｍ＝２、三次元空間での可視化の場合にはｍ＝３）を導く。

可視化制御処理５０８では、条件設定処理５０１における条件により指定される可視化対象パターンを二次元空間、または三次元空間に射影し、可視化画像を生成する。具体的には、特徴抽出処理５０３によりｎ次元ベクトルｘに変換された各パターンを、差分主特徴導出処理５０７において生成された射影行列Ｕ_ｍを用いて、二次元、または三次元ベクトルに変換する。このようにして、二次元、または三次元ベクトルに変換されたパターンを二次元、または三次元状にプロットすることにより可視化画像を生成する。画像は、表示装置などに表示、あるいは外部記憶装置に保存する。

図５は、本発明の第２の実施形態において、パターン認識装置により実施される処理のフローチャートである。なお、本実施形態におけるパターン認識装置の構成も第１の実施形態におけるパターン認識装置１０１と同様、図１に示す構成を有する。また、本実施形態においても、パターン認識装置により実施される処理は、認識辞書生成プログラムにより実現される学習フェーズと、認識プログラムにより実現される認識フェーズとを含む。なお、本実施形態では、認識フェーズにおいて、差分主空間辞書４０２、差分主空間内識別辞書４０３の他、従来技術においても用いられる特徴選択用辞書４１０、識別用辞書４２０を用いて認識処理が行われる。

本実施形態における認識辞書生成プログラムは、基本的に、第１の実施形態における認識辞書生成プログラムと同様の処理により構成される。なお、本実施形態では、予めユーザより相互に類似するカテゴリの指定を受け付けておき、指定された類似カテゴリについて差分主空間辞書４０２、差分主空間内識別辞書４０３が生成される。類似カテゴリとしては、例えば文字認識の場合、誤読しやすい傾向にある“７”、“フ”、“ワ”、及び“ク”、“１”と“Ｉ”、あるいは、“Ｂ”と“８”などが該当する。

また、本実施形態では、差分特徴サンプリング処理２０３において、ユーザによる類似カテゴリの指定に基づいて、互いに類似の関係にあるパターンがサンプル組として選定される。このようにして選定されたサンプル組を用いて差分特徴重み設定処理２０４から差分種空間生成処理２０６の処理が実施することで、サンプル組を結ぶ線分が、射影によりなるべく縮退しないように選定されるｍ次元部分空間となり、類似パターンの判別に適した差分主空間を生成することができる。その他、認識辞書生成プログラムの各処理は第１の実施形態と同様の処理を行うものであるため、ここではそれらの説明を省略する。

特徴選択用辞書２０７は、従来と同様に、例えば、認識辞書生成プログラムの特徴抽出処理２０２により抽出された学習用パターンのｎ次元特徴を用いて、それをｍ次元特徴（ｍ≦ｎ）に変換するための変換行列Ｙを生成、特徴選択用辞書４１０に記憶することで生成される（この処理を特徴選択用辞書処理と呼ぶ）。一般に、ｎ次元特徴をｍ次元特徴に変換するための変換行列Ｙは、ｍ×ｎ行列となる。また、変換行列は、カテゴリｋごとに異なる変換行列Ｙ_ｋとなる場合もある。変換行列ＹまたはＹ_ｋを算出するには、主成分分析法や線型判別法などが広く用いられる。

識別用辞書４１１は、生成された特徴選択用辞書４１０に記憶されている変換行列を用いて、学習用パターンから抽出されたｎ次元特徴をｍ次元特徴に変換し（この処理を特徴選択処理と呼ぶ）、得られたｍ次元特徴から識別関数を生成して作成される（この処理を識別学習処理と呼ぶ）。ｎ次元特徴をｘ、ｍ次元特徴をｙと表すと、特徴選択処理では、ｍ次元特徴ｙが、変換行列Ｙを用いて、ｙ＝Ｙｘにより求められる。カテゴリｋごとに異なる変換行列Ｙ_ｋが用いられる場合、カテゴリｋごとのｍ次元特徴ｙ_ｋが、カテゴリｋの変換行列Ｙ_ｋを用いて、ｙ_ｋ＝Ｙ_ｋｘにより求められる。また、識別学習処理では、ｍ次元特徴から最近傍法、パーセプトロン、改良投影距離法、修正二次識別、一般学習ベクトル量子化、多項式ネットワーク、サポートベクトルマシンなどのアルゴリズムを用いてカテゴリｋごとに、識別関数ｕ_ｋが求められ、識別用辞書４１１に記憶される。

図４には図示されていないが、認識辞書生成プログラムは、特徴選択用辞書処理、特徴選択処理、及び識別学習処理を含んでいてもよい。この場合、これらの処理は、特徴抽出処理２０２の出力を用いて実施されるように構成すればよい。

本実施形態における認識プログラムは、第１の実施形態における認識プログラムの各処理に加え、特徴選択用辞書４１０を用いた特徴選択処理３１０、識別用辞書４１１を用いる識別処理３１１、及び類似判定処理３１２を含んでいる。これら以外の処理については、第１の実施形態における各処理と同様にして実施される。以下、第１の実施形態と重複する部分については説明を省略し、第１の実施形態と異なる部分について説明する。

特徴選択処理３１０では、特徴選択用辞書４１０に記憶されている変換行列を用いて、特徴抽出処理３０２で抽出された認識対象パターンのｎ次元特徴ｘがｍ次元特徴ｙに変換される。ｍ次元特徴ｙは、変換行列Ｙを用いてｙ＝Ｙｘとして算出される。変換行列がカテゴリごとに異なる変換行列Ｙ_ｋである場合は、カテゴリｋについてのｍ次元特徴ｙ_ｋが、変換行列Ｙ_ｋを用いてｙ_ｋ＝Ｙ_ｋｘとして算出される。

次に、識別処理３１１では、識別用辞書４１１に記憶されている識別関数ｕ_ｋを用いて、各カテゴリに対する認識対象パターンの類似度が算出される。認識対象パターンのカテゴリｋに対する類似度は、ｕ_ｋ（ｙ）を計算することによって得られる。カテゴリｋごとに変換行列があり、カテゴリごと異なるｍ次元特徴ｙ_ｋが得られる場合、ｕ_ｋ（ｙ_ｋ）を計算することにより、カテゴリｋに対する認識対象パターンの類似度が得られる。

類似判定処理３１２では、識別処理３１１で得られた類似度が最大となるカテゴリが、ユーザより指定されている類似カテゴリに属するか否か判定される。類似度が最大となるカテゴリが類似カテゴリに属する場合には、差分主空間射影処理３０３、差分主空間内識別処理３０４を実施し、類似するカテゴリ間での詳細な識別を行う。

以上説明した実施形態におけるパターン認識方法の特徴について、従来一般に用いられている主成分分析法（ＰＣＡ）、線型判別法（ＬＤＡ）と比較して簡単に説明する。

図６は、主成分分析法（ＰＣＡ）におけるパターン認識の特徴を示す図、図７は、線型判別法（ＬＤＡ）によるパターン認識の特徴を示す図である。図８は、図６に対応する本実施形態のパターン認識の特徴を示す図、図９は、図７に対応する本実施形態のパターン認識の特徴を示す図である。

図９に示すように、ＡとＢの２つのカテゴリの分布６０１、６０２がある場合、ＰＣＡでは軸６１０が選択される。カテゴリＡ、Ｂ共にｙ軸方向成分について、分布の分散値が小さいため、ＰＣＡでは、特徴選択後に識別に必要なｙ軸が切り捨てられてしまい残らない。また、ＬＤＡは正規分布を仮定しているため、図１０に示すように、カテゴリＣ６０３のように、分布が複数の正規分布から成る場合、有効な特徴軸を選択することに失敗する場合がある。

一方、上述した実施形態におけるパターン認識方法では、異なるカテゴリ同士を結ぶベクトル成分が失われないように特徴選択が行われるため、図８、９に示すように、識別に必要な軸成分６２０、６２１を選択することができる。たとえば、図８に示すケースでは、カテゴリＡのサンプルを起点としてカテゴリＢのサンプル方向を向いたベクトルやＢのサンプルを起点としてＡのサンプル方向を向いたベクトルは、識別に必要な成分であるとして選択される。また、図１２も同様に、カテゴリＡのサンプルを起点としてカテゴリＣのサンプル方向を向いたベクトルが識別に必要な成分であるとして選択される。

以上説明した実施形態によれば、パターン認識において、異なるカテゴリ同士を結ぶベクトル方向の特徴成分をなるべく保持するように特徴選択を行なうことが可能となり、識別への寄与が少ない特徴成分を効率よく削減することができる。

１０１・・・パターン認識装置
１０２・・・入力装置
１０３・・・表示装置
１０４・・・パターン取得装置
１０５・・・通信装置
１０６・・・演算装置（ＣＰＵ）
１０７・・・外部記憶装置（ＨＤＤ，メモリ）
２０１、３０１・・・パターン入力処理
２０２、３０２・・・特徴抽出処理
２０３・・・差分特徴サンプリング処理
２０４・・・差分特徴重み設定処理
２０５・・・差分主特徴導出処理
２０６・・・差分主空間生成処理
２０７、３０３・・・差分主空間射影処理
２０８・・・差分主空間内識別学習処理
３０４・・・差分主空間内識別処理
３０５・・・認識結果出力処理
４０１・・・学習用パターンＤＢ
４０２・・・差分主空間辞書
４０３・・・差分主空間内識別辞書

Claims

学習用パターンＤＢから学習用パターンを入力する第１のパターン入力部と、
前記第１のパターン入力部より入力された学習用パターンの各々からｎ次元特徴を抽出する第１の特徴抽出部と、
前記学習用パターンから複数のパターン対を選定し、各々のパターン対について、前記第１の特徴抽出部により抽出されたｎ次元特徴の差分特徴を算出する差分特徴サンプリング部と、
前記複数のパターン対の各々について得られた前記差分特徴の各々に対して重要度を設定する差分特徴重み設定部と、
前記複数のパターン対とその差分特徴の各々について設定された前記重要度とに基づいて、前記差分特徴の射影長を保存するような特徴成分を重要度の順に導出する差分主特徴導出部と、
前記特徴成分を重要度が高い順に複数選定し、前記選定された複数の特徴成分が生成する部分空間（差分主空間）への射影行列を生成し、当該射影行列を差分主空間辞書に記録する差分主空間生成部と、
前記学習用パターンから生成された前記ｎ次元特徴の各々を、前記射影行列を用いて前記差分主空間へ射影する第１の差分主空間射影部と、
前記差分主空間上において、前記学習用パターンを識別するための識別関数を生成する差分主空間内識別学習部と、
認識対象パターンを入力する第２のパターン入力部と、
前記第２のパターン入力部より入力された前記認識対象パターンのｎ次元特徴を抽出する第２の特徴抽出部と、
前記第２の特徴抽出部で抽出された前記認識対象パターンのｎ次元特徴を、前記差分主空間辞書に記録された射影行列を用いて、記差分主空間へ射影する第２の差分主空間射影部と、
前記差分主空間内識別辞書に記録された前記識別関数を用いて、各々のカテゴリに対するパターンの類似度を算出する差分主空間内識別部と、
前記差分主空間内識別部により算出された前記類似度を用いて認識結果を出力する認識結果出力部と、を有するパターン認識装置であって、
前記差分特徴サンプリング部は、前記複数のパターン対として、異なるカテゴリ間の中心同士の全ての組み合わせをとることを特徴とするパターン認識装置。
前記差分特徴サンプリング部は、前記複数のパターン対として、異なるカテゴリからランダムに複数のサンプルを取得し、異なるカテゴリから取得したサンプル同士のすべての組み合わせをとることを特徴とする請求項１に記載のパターン認識装置。
前記差分特徴サンプリング部は、各カテゴリから同一カテゴリ内で所定の距離以上離れた複数の点をサンプルとして取得し、異カテゴリから取得したサンプル同士の全ての組み合わせをとることを特徴とする請求項1に記載のパターン認識装置。
前記差分特徴重み設定部は、前記差分特徴の重要度を差分特徴を求めたｎ次元ベクトル間の距離が小さいほど大きな値に設定することを特徴とする請求項１に記載のパターン認識装置。
入力されたパターンを認識し、その所属カテゴリを判定して出力するパターン認識装置における認識処理方法であって、
予め用意された学習用パターンＤＢから学習用パターンを入力し、
前記学習用パターンの各々についてｎ次元特徴を抽出し、
前記学習用パターンから複数のパターン対を選定し、各々のパターン対について、抽出された前記ｎ次元特徴の差分特徴を算出するとともに、算出した前記差分特徴の各々に対して重要度を設定し、
前記複数のパターン対とその差分特徴の各々について設定された前記重要度とに基づいて、前記差分特徴の射影長を保存するような特徴成分を重要度の順に導出し、
導出された複数の特徴成分が生成する部分空間（差分主空間）へ前記ｎ次元特徴を射影する射影行列を生成して差分主空間辞書に記録し、
前記学習用パターンから生成された前記ｎ次元特徴の各々を、前記射影行列を用いて前記差分主空間へ射影することで、前記ｎ次元特徴より次元数の低いｍ次元特徴に変換し、
当該ｍ次元特徴を用いて前記学習用パターンを識別するための識別関数を生成して差分空間内識別辞書に記録する第１のフェーズと、
認識対象となるパターン情報を取得し、
前記認識対象となるパターン情報から当該認識対象となるパターン情報のｎ次元特徴を抽出し、
抽出された前記ｎ次元特徴を、前記差分主空間辞書に記録された射影行列を用いて差分主空間へ射影することで前記認識対象となるパターンに対応したｍ次元特徴を取得し、
取得された前記ｍ次元特徴及び前記差分主空間内識別辞書に記録された前記識別関数を用いて、各々のカテゴリに対するパターンの類似度を算出し、当該類似度に基づき認識結果を出力する第２のフェーズとを有するパターン認識方法であって、
前記ｎ次元特徴の差分特徴を算出する際に、前記複数のパターン対として、異なるカテゴリ間の中心同士の全ての組み合わせをとることを特徴とするパターン認識方法。