JP5683287B2 - パターン認識装置及びパターン認識方法 - Google Patents

パターン認識装置及びパターン認識方法 Download PDF

Info

Publication number
JP5683287B2
JP5683287B2 JP2011009360A JP2011009360A JP5683287B2 JP 5683287 B2 JP5683287 B2 JP 5683287B2 JP 2011009360 A JP2011009360 A JP 2011009360A JP 2011009360 A JP2011009360 A JP 2011009360A JP 5683287 B2 JP5683287 B2 JP 5683287B2
Authority
JP
Japan
Prior art keywords
pattern
feature
difference
dimensional
main space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011009360A
Other languages
English (en)
Other versions
JP2012150681A (ja
Inventor
利昇 三好
利昇 三好
新庄 広
広 新庄
永崎 健
健 永崎
和樹 中島
和樹 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Information and Telecommunication Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information and Telecommunication Engineering Ltd filed Critical Hitachi Information and Telecommunication Engineering Ltd
Priority to JP2011009360A priority Critical patent/JP5683287B2/ja
Publication of JP2012150681A publication Critical patent/JP2012150681A/ja
Application granted granted Critical
Publication of JP5683287B2 publication Critical patent/JP5683287B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、パターン認識装置及びパターン認識方法に関し、特に、パターン認識処理の特徴選択における特徴空間の次元削減技術に関する。
パターン認識装置とは、入力パターンを認識し、その所属カテゴリを判定する装置である。ここでいうパターンとしては、画像や音声などが挙げられる。例えば、文字認識の場合には、パターンは画像であり、所属カテゴリは、識別対象となるパターンの類別である。例えば、文字認識装置においてカテゴリは、数字認識の場合に0〜9の10字種、漢字認識の場合に数千字種となる。文字認識装置の場合には、入力画像中の文字が予め定めておいた字種(カテゴリ)のうちのどの字種(カテゴリ)に該当するか判定され、その判定結果が出力される。パターン認識装置により実行される処理は、学習フェーズと認識フェーズから構成される。
学習フェーズでは、あらかじめ用意された学習用のパターン情報を用い、その学習用のパターン情報の特徴を表す情報であるn次元ベクトル情報(以下、これをn次元特徴と呼ぶ)が抽出される。次に、抽出されたn次元特徴をm次元特徴(m≦n)に変換するための変換行列が生成されて特徴選択用辞書に記憶され、特徴用辞書が作成される。変換行列を求めるには、主成分分析法や線型判別法などが広く用いられている。さらに、生成された変換行列を用いて抽出されたn次元特徴がm次元特徴に変換され、このm次元特徴と学習用のパターン情報とから生成された識別関数を識別用辞書に記憶することで、識別用辞書が作成される。識別関数の生成には、たとえば、非特許文献1、非特許文献2に開示された技術を用いることができる。識別関数は、先に述べたカテゴリごとに生成される。
認識フェーズでは、まず、入力されたパターン情報からn次元特徴を抽出し、特徴選択用辞書に記憶された変換行列を用いてm次元特徴が取得される。さらに、取得されたm次元特徴と認識用辞書に記憶された識別関数とにより、入力されたパターン情報の各カテゴリに対する類似度を求め、最も類似度の高いカテゴリが認識結果として出力される。
上述したように、パターン認識においては、入力パターンから抽出されるn次元の特徴情報をより次元の低いm次元の特徴情報として認識処理を行うことにより、認識の高速化、高精度化が図られている。
Mohammed Cheriet, Nawwaf Kharma, Cheng lin Liu, and Ching Suen. Character Recognition Systems: "A Guide for Students and Practitioners" Wiley-Interscience, 2007。
石井健一郎、 上田修功、 前田英作、 村瀬洋、「パターン認識」 オーム社出版局。
変換行列を求める際に用いられる主成分分析法では、分布の分散が大きい成分を選択するような変換行列が生成される。また、線型判別法では、(カテゴリ同士の中心間距離)÷(各カテゴリの分散値の和)が最大となる成分が選択されるような変換行列が生成される。
主成分分析法では、分布の分散が大きい成分が特徴軸として選択されるため、識別に必要な成分方向における分散値が小さい場合に、その成分方向が特徴軸として残らない場合が生じ得る。また、線型判別法では、正規分布を仮定しているため、ある成分方向に複数の正規分布が生じるようなカテゴリについて有効な特徴軸を選択することができない場合がある。
このように、上述した従来技術においては、特徴情報の削減の段階において必ずしも有効な成分を含む特徴軸を必ずしも適切に選択することができず、認識の対象とするパターンによっては認識精度が低下してしまう恐れがあるという問題があった。
本発明の目的は、上述したような従来技術における課題に鑑み、特徴抽出時に識別への寄与が小さい特徴成分を効率よく削減し、高速で精度の高いパターン認識装置を実現することにある。
上述した目的を達成するために、本発明のパターン認識装置及びパターン認識方法では、その一つの態様において、予め用意された学習用パターンDBから学習用パターンを入力して学習用パターンの各々についてn次元特徴を抽出し、学習用パターンから選定される複数のパターン対の各々について、抽出されたn次元特徴の差分特徴を算出するとともに、算出した差分特徴の各々に対して重要度を設定する。複数のパターン対とその差分特徴の各々について設定された重要度とに基づいて、差分特徴の射影長を保存するような特徴成分を重要度の順に導出し、導出された複数の特徴成分が生成する部分空間(差分主空間)へn次元特徴を射影する射影行列を生成して差分主空間辞書に記録する。さらに、学習用パターンから生成された前記n次元特徴の各々を、射影行列を用いて差分主空間へ射影することで、n次元特徴より次元数の低いm次元特徴に変換し、当該m次元特徴を用いて学習用パターンを識別するための識別関数を生成して差分空間内識別辞書に記録する。
また、与えられたパターンの認識時には、認識対象となるパターン情報を取得し、記認識対象となるパターン情報から当該認識対象となるパターン情報のn次元特徴を抽出する。抽出されたn次元特徴を差分主空間辞書に記録された射影行列を用いて差分主空間へ射影することで認識対象となるパターンに対応したm次元特徴を取得し、取得されたm次元特徴及び差分主空間内識別辞書に記録された識別関数を用いて、各々のカテゴリに対するパターンの類似度を算出し、当該類似度に基づき認識結果が出力される。
本発明によれば、入力パターンから得られる特徴成分の中から、識別への寄与が少ない特徴成分を効率よく削減し、入力されたパターンの認識を高速、高精度に行うことができる。
本発明が適用されるパターン認識装置の一実施形態における構成を示すブロック図。 パターン認識装置101によって実施されるパターン認識処理の流れを示すフローチャートである。 文字認識における特徴抽出処理202の一例を示すフローチャートである。 パターン可視化処理のフローチャートである。 本発明の第2の実施形態におけるパターン認識処理のフローチャートである。 主成分分析法(PCA)におけるパターン認識の特徴を示す図である。 線型判別法(LDA)によるパターン認識の特徴を示す図である。 図6に対応する本実施形態のパターン認識の特徴を示す図である。 図7に対応する本実施形態のパターン認識の特徴を示す図である。
図1は、本発明が適用されるパターン認識装置の一実施形態における簡略化された構成を示すブロック図である。
パターン認識装置101は、画像や音声などの入力情報について、そのパターンを認識し、所属カテゴリを判定する装置である。例えば、文字認識の場合には、入力されるパターンは画像であり、カテゴリは、識別対象となるパターンの類別である。例えば、認識対象が数字の場合、カテゴリとしては、0〜9の10字種、漢字の場合には数千字種となる。文字認識を行うパターン認識装置(文字認識装置)の場合、パターン認識装置は、入力画像中の文字が予め定めておいた字種(カテゴリ)のうちのどの字種(カテゴリ)に該当するかを判定し、判定結果を出力する。
図1に示すように、本実施形態におけるパターン認識装置101は、入力装置102、表示装置103、パターン取得装置104、通信装置105、演算装置(CPU)106、外部記憶装置107を備える。
入力装置102は、ユーザがパターン認識装置101を操作するために用いる装置であり、入力装置102を介して、演算装置(CPU)106でのプログラムの実行の制御や、その他、接続機器の制御のためのコマンド等が入力される。入力装置102としては、コマンド等を入力するためのキーボードやマウス等のポインティングデバイスが用いられる。
表示装置103は、処理内容を適宜表示するディスプレイ等の装置である。
パターン取得装置104は、スキャナやマイク等、画像や音声等のパターン情報を取得するために用いられる装置である。本実施形態において、パターン取得装置104で取得されたパターン情報は、後述するように、外部記憶装置107に記憶される。
通信装置105は、図示しないパーソナルコンピュータ(PC)やサーバ等の外部機器との間で、図示しないローカルエリアネットワーク(LAN)などの通信回線を介してデータのやりとりを行うために用いられる。具体的に通信装置105は、外部機器からのユーザによる実行コマンドの取得、画像、音声などのパターン情報の外部機器からの取得、あるいは、パターン認識装置101での処理内容の外部機器への送信等のために用いることができる。
演算装置(CPU)106は、あらかじめ与えられたプログラムに従って、後述する、学習用パターンDBを用いた特徴選択用辞書、識別用辞書の作成、特徴選択用辞書と識別用辞書を用いた入力されたパターン情報の認識等、パターン認識装置101の各種機能を実現する。
外部記憶装置107は、ハードディスク装置(HDD)、メモリ等の外部記憶装置である。外部記憶装置107には、パターン取得装置104で取得されたパターン情報を記憶する認識対象パターンDB、学習用のパターン情報を記憶する学習用パターンDB、特徴選択用辞書、識別用辞書が保存されている。また、外部記憶装置107は、演算装置106による処理の途中で生成されるデータ等を一時的に記憶するためにも用いられる。
入力装置102、表示装置103、パターン取得装置104、通信装置105は、必ずしも必要とはされない。たとえば、ユーザがパターン認識装置101をその外部に接続される外部機器から操作する場合、入力装置102は不要である。また、パターン情報を図示しない外部機器から入力し、あるいは、パターン認識の結果を外部記憶装置107に記憶しておいたり、図示しない外部機器において出力したりする場合、表示装置103やパターン取得装置104は必要とされない。
図2は、本実施形態においてパターン認識装置101によって実施される処理の流れを示すフローチャートである。
パターン認識装置101により実施される処理には、大きく分けて、学習フェーズと認識フェーズとが含まれる。学習フェーズでは、学習用パターンDB401を用いて、従来技術における特徴選択用辞書に相当する差分主空間辞書402と、従来技術における識別用辞書に相当する差分主空間内識別辞書403が作成される。また、認識フェーズでは、差分空間辞書402と差分主空間内識別辞書403を用いて、入力パターンが逐次認識される。
学習フェーズ、認識フェーズの処理は、それぞれ演算装置106により実行されるプログラムとして実現される。本実施形態においては、学習フェーズの処理を実現するプログラム(以下、認識辞書生成プログラムという)と認識フェーズの処理を実現するプログラム(以下、認識プログラムという)とはそれぞれ独立したプログラムとして実現される。
認識辞書生成プログラムは、パターン入力処理201、特徴抽出処理202、差分特徴サンプリング処理203、差分特徴重み設定処理204、差分主特徴導出処理205、差分主空間生成処理206、差分主空間射影処理207、及び差分主空間内識別学習処理208を含む。また、認識プログラムは、パターン入力処理301、特徴抽出処理302、差分主空間射影処理303、差分主空間内識別処理304、及び認識結果出力処理305を含む。これら各処理は、認識辞書生成プログラム、認識プログラムを構成する独立したプログラムモジュールとして構成されてよい。
学習フェーズでは、まず、パターン入力処理201により学習用パターンDB401から学習に用いるパターン情報が読み込まれる。学習用パターンDB206は、学習用に作成され、所属カテゴリを示す正解ラベルが付与されたパターン情報の集合である。個々の学習用パターン情報は、パターン取得装置104などを用いて予め作成される。学習用パターン情報の個数は、通常数十個以上であり、数千万個となる場合もある。例えば、パターン認識装置101が漢字認識に用いられる場合、数千万個以上の学習用パターン情報が学習用パターンDB401に格納される。正解ラベルは、例えば、認識対象のカテゴリの各々に番号を対応させて表現することができる。たとえば、文字認識の場合には、EUCコード、JISコード、SJISコードなどの文字コードを用いてよい。以降の処理では、処理中のパターンの正解ラベルが分かるように、パターンと正解ラベルとの対応関係が失われないようにしておく。このために本実施形態では、パターンのヘッダ部分に、その所属カテゴリを示すラベルを記録しておく。
特徴抽出処理202では、パターン入力処理101によって読みだされた各パターン情報から認識に有効な成分の情報としてn次元ベクトルが抽出される。このとき生成されるn次元ベクトルをn次元特徴とよぶ。各パターン情報は、n次元特徴として表現される。この処理によって、パターン情報は、元の情報が音声情報であっても画像情報であっても、n次元ベクトル値として表現されるため、以降の処理では、パターン情報の種類に関わらず同じ処理を適用することができる。ここでは、一例として、認識対象が文字情報である場合の特徴抽出処理202について説明する。この場合、認識対象となる文字情報は、画像情報からなるパターン情報として与えられ、学習用のパターン情報も画像情報となる。
図3は、文字認識における特徴抽出処理202の一例を示すフローチャートである。
特徴抽出処理202では、まず、入力ステップ801において、パターン入力処理201で読みだされた画像情報を取得する。取得された画像情報は、前処理ステップ802において、ノイズ除去、ぼかし処理などが施される。例えば、ノイズ除去処理では、ある閾値以下の大きさの孤立点が除去される。この処理は、ノイズやかすれなどの文字認識に障害となる要因をできる限り除去するために行われる。
正規化ステップ803では、入力された画像情報の各々を正規化し、予め指定された固定サイズの画像情報に変換される。入力される画像の大きさを揃えることで、以降の処理を画像サイズに依存することなく統一することができる。正規化の方法には、非特許文献1に記載されるような、線型正規化法、非線型正規化法、モーメント正規化法などを用いることができる。例えば、入力画像が2値画像の場合、線型正規化法では、文字部分を示す黒画素を囲む最小の矩形によって囲まれる部分画像を固定サイズの画像に拡大または縮小することで正規化画像が生成される。
文字特徴抽出ステップ804では、入力画像をn次元特徴に変換する。たとえば、最も簡単な文字特徴抽出では、正規化された画像情報の各画素の画素値が特徴として用いられる。処理対象の画像情報が縦横20×20画素のグレー画像で、各画素の画素値が0〜255の整数値で表現されている場合、画素数は400となり、抽出される特徴は400次元特徴となる。400次元特徴の各成分は、入力画像の0〜255の画素値で表される。
出力ステップ805では、文字特徴抽出ステップで得られたn次元特徴が次の処理のために出力される。
以降、差分特徴サンプリング処理203、差分特徴重み設定処理204、差分主特徴導出処理205、差分主空間生成処理206では、識別したいパターン同士の差分特徴がなるべく保存されるような、n次元特徴空間の部分空間であるm次元特徴空間が生成される。
ここで、n次元特徴からm次元特徴を抽出するのは、以下の理由による。
学習や認識の際の統計計算に要する計算量は、少なくとも次元数のべき乗のオーダーとなる。例えば、共分散行列はn×n行列であるから、これを用いる計算には二乗のオーダーの計算量を要する。また、識別関数の次数がsの場合には、識別関数の計算にs乗のオーダーの計算量を要する。このため、計算量を抑えるには、識別への寄与が低い特徴成分を削減し、次元数を削減することが必要となる。また、次元数が大きくなると、互いに相関の高い特徴が混入する割合が大きくなり、計算量に見合った効果が得られない。このため、相関が高い特徴を統合することにより、計算量を削減するのが好ましい。
高次元空間で、有限個の学習パターンから識別関数を生成する場合、次元数を高くすると精度の低下を招く。これは、次元数の増加に応じて識別関数の推定パラメータ数が増大し、有限個の学習パターンを用いたパラメータの推定が、統計的に信頼性の低いものとなるためである。このため、識別への寄与が小さい特徴成分を取り除き、特徴の次元数を適度に小さくする方が、認識の高精度化のためにも有利となる。
差分特徴サンプリング処理203は、M個のベクトルの組ξ、η(iは、1≦i≦Mの自然数)を選定し、数1に示すような、それらを結ぶ単位方向ベクトルdiを算出して出力する。
=(ξ―η)÷|ξ―η| (数1)

ここで、iは、1≦i≦Mの自然数であり、ξ=ηのときd=0とする。なお、本明細書では、dを特徴ξ、ηの差分特徴と呼ぶ。サンプルの組ξ、ηの選定方法には様々な方法がある。以下にいくつかの例を示す。
例1:
K個のカテゴリの中心mを代表点として用いて、異なるカテゴリ間の中心同士の全ての組み合わせの組m、m(i≠j)をとる(i、jはそれぞれ、1≦i≦K、1≦j≦Kの自然数)。
例2:
K個のカテゴリの各々からL個のサンプルmij(i、jはそれぞれ、1≦i≦K、1≦j≦Lの自然数)をとる。このとき、カテゴリ内のサンプルは、例えば、数2に示されるように、予め定められた任意の距離D以上となるものをとる。
|mik―mil|≧D(k≠l) (数2)

その後、これら異なるカテゴリ同士の全ての組み合わせmik、mjl(i≠j)を組としてとる。
例3:
K個のカテゴリの各々からランダムにL個のサンプルmij(i、jはそれぞれ、1≦i≦K、1≦j≦Lの自然数)をとる。その後、異なるカテゴリ同士の全ての組み合わせmik、mjl(i≠j)を組としてとる。
差分特徴サンプリング処理203では、上述した例のように、複数のパターンのn次元特徴が必要となる場合がある。このような場合、n次元特徴が必要となるたびにパターン入力処理201、特徴抽出処理202を繰り返し実行し、必要なn次元特徴を取得すればよい。また、パターン入力処理201、特徴抽出処理202により、一度、全ての学習用パターンをn次元特徴に変換して外部記憶装置107に記憶しておき、差分特徴サンプリング処理301において必要とするときに、外部記憶装置107から必要なn次元特徴を取得するようにしてもよい。
差分特徴重み設定処理204は、差分特徴サンプリング処理203により得られた差分特徴dそれぞれの重み(重要度)hを設定し、重要度hと差分特徴dを出力する。重要度hの設定方法には様々な方法が考えられるが、以下にいくつかの例を挙げる。
例1:
全ての差分特徴dの重要度は等しいとして、その重要度hをh=1とおく。
例2:
特徴ξ、ηが近いほど、これらのサンプルの分離は難しくなるため、gを正の値をとる単調減少関数として、数3によりhiを得る。
=g(|ξ―η|) (数3)

ここでは、単調減少関数g(|ξ―η|)の一例として、

g(|ξ―η|)=1÷|ξ―η| (数4)

を用いるものとする。
例3:
特徴ξ、ηの所属カテゴリの中心をそれぞれm、mとしたとき、gを正の値をとる単調減少関数として、数5によりhを得る。
=g(|m−m|) (数5)

ここでは、単調減少関数g(|m−m|)の一例として、

g(|ξ―η|)=1÷|m―m| (数6)

を用いるものとする。
差分主特徴導出処理205では、まず、差分特徴重み設定処理で得られた重要度hと差分特徴dとを用いて、数7に示すn×n対称行列Qが計算される。
Figure 0005683287
次に、Qの固有値が大きい順にn個の固有値に対応する固有ベクトルu、u、・・・uが算出される。
差分主空間生成処理206は、差分主特徴導出処理205で導出されたn個の固有ベクトルu、u、…uから、上位m個の固有ベクトルu、u、…uを選定し、固有ベクトルu、u、…uで生成されるm次元部分空間を差分主空間として、n次元空間から、前記m次元部分空間への射影行列を生成する。射影行列は、数8で与えられるUである。
Figure 0005683287
差分特徴重み設定処理204における方向ベクトルの重要度の設定方法には、以下の例に示すような方法ある。
差分主空間射影処理207では、差分主空間辞書402に保存されている差分主空間への射影行列を用いて、特徴抽出処理202で得られたn次元特徴がm次元特徴に変換されて出力される。n次元特徴をx=(x、x、・・・、x)とおくと、変換後のm次元特徴y=(y、y、・・・、y)は、変換行列Uを用いてy=Uxにより算出される。
差分主空間内識別学習処理208では、学習用パターンから生成されたm次元特徴を用いて、カテゴリkに対する類似度を計算するための識別関数u(y)または識別関数u(y)が学習により生成される。パターンのカテゴリkに対する類似度は、差分主空間射影処理207により出力されるm次元特徴yを用いてu(y)を計算することにより得られる。差分主空間射影処理207で、カテゴリごとに異なるm次元特徴yを生成した場合には、u(y)が、カテゴリkに対する類似度となる。識別関数の学習に用いるアルゴリズムには、最近傍法、パーセプトロン、改良投影距離法、修正二次識別、一般学習ベクトル量子化、多項式ネットワーク、サポートベクトルマシンなどがある。生成した識別関数は、差分主空間内識別辞書403に記憶される。
差分主空間内識別学習処理208では、識別関数を生成するために学習用パターンのm次元特徴が複数必要となる。学習用パターンのm次元特徴を必要となるその都度差分主空間射影処理207により取得してもよいが、差分特徴サンプリング処理203の場合と同様に、差分主空間射影処理305により、全ての学習用パターンのm次元特徴を取得して、外部記憶装置107に記憶しておき、必要に応じて外部記憶装置107から読み出すようにすると効率的である。
以上、学習フェーズの処理について説明した。次に、認識フェーズについて説明する。認識フェーズでは、図2における認識プログラムによる処理が実行される。
認識フェーズでは、まず、パターン入力処理301により、パターン取得装置104を用いて認識対象パターンが取り込まれる。認識対象パターンは、予め外部記憶装置107に記憶されているものを読み出してもよく、あるいは、通信装置105を介して、図示しない外部機器から取り込むこともできる。
特徴抽出処理302では、パターン入力処理301によって取り込まれた認識対象パターンからn次元特徴が抽出される。特徴抽出処理302において認識対象パターンからn次元特徴を抽出する処理は、認識辞書生成プログラムのパターン入力処理202と同様にして行われる。
差分主空間射影処理303は、認識辞書生成プログラムの差分主空間射影処理207と同様、差分主空間辞書402に保存されている射影行列Uを用いて、特徴抽出処理302により抽出されたn次元特徴をm次元特徴に変換する。
差分主空間内識別処理304では、各々のカテゴリに対する類似度を計算することにより、認識対象パターンの各カテゴリに対する類似度が算出される。差分主空間内識別処理304で算出された類似度は、認識結果出力処理210に入力され、各カテゴリに対する類似度から最終的な認識結果が出力される。
認識結果出力処理210は、通常、最も類似度が高いカテゴリを認識結果として出力する。類似度が二番目以降のカテゴリについても、二位候補、三位候補、などとして出力されるようにしてもよい。また、類似度が予め指定された閾値よりも小さい場合、例えば、数字認識の場合に、漢字が入力された場合など、いずれのカテゴリにも該当しないものとして、棄却するようにしてもよい。さらに、類似度の第一位と第二位との差が予め指定された閾値よりも小さい場合、例えば、アルファベットのIやlと数字の1は、フォントによっては、識別し難い場合があり、そのような場合いずれのカテゴリに該当するか判定し難いとして、棄却するようにしてもよい。
認識結果は、表示装置103に表示、または、外部記憶装置107に出力される。また、これらとともに、あるいはこれらに代えて、通信装置105を用いて図示しない外部機器に認識結果を送信するようにしてもよい。
図4は、本実施形態において、パターン認識装置により実施されるパターン可視化処理のフローチャートである。パターン可視化処理では、ユーザの指定した条件に従って、パターンDB510に保存されているパターンから、パターンの組を複数選定する。そして、これら複数のパターンの組について、それらのベクトルの差分がなるべく縮退しないような二次元、または三次元ベクトル空間を生成し、ベクトル空間上にパターンを射影することによって、パターンの分布を可視化する。パターンDB510は、学習用パターンDB401と同じものを用いてもよく、または、パターン分布を可視化したいパターンを格納したものを学習用パターンDB401とは別に用意してもよい。
パターン可視化処理では、まず、条件設定処理501により、ユーザから可視化するパターン、差分を計算するための複数のベクトル組を選定するための条件、および選定されたベクトル組の各々に対する重みの指定を受け付ける。以下の説明では、便宜上、選定されるパターンの組をM個として説明する。
具体的に、ユーザは、二次元、または三次元平面上で分離して表現したい種類のサンプル対をM個のパターン対として選定する。例えば、文字パターンの場合の三種の類似文字カテゴリ“7”、 “ク”、 “ワ”をなるべく分離した形で表現したい場合、ユーザは、互いに異なるカテゴリに属するサンプル対をM個選定する。選定の仕方は、例えば、パターンDB504にあるサンプルの中から、“7”、 “ク”、 “ワ”の中の互いに異なるカテゴリに属するサンプルをランダムにM個選定すればよい。サンプル対の重みは、分離したい重みに応じて設定すればよい。例えば、“7”と“ク”より、“ク”と“ワ”を分離して表現したい場合には、サンプル対に含まれるそれぞれのサンプルが“7”と“ク”のカテゴリに属するサンプル対よりも、“ク”と“ワ”のカテゴリに属するサンプル対の重みを大きくすればよい。可視化対象パターンは、二次元または三次元空間に射影してプロットしたい全サンプルをパターンDB504の中から選定する。例えば、“7”、 “ク”、 “ワ”に属する全サンプルなどである。
パターン読込処理502では、条件設定処理501において指定された条件にしたがって、パターンDB504から可視化の対象となる全パターンと、差分を計算するための複数のパターン対が読込まれる。パターン読込処理502で読み込まれたパターンの各々は、特徴抽出処理503によりn次元ベクトルに変換される。
差分特徴サンプリング処理504では、差分を計算するためのM個のパターン対から生成されたM個のベクトル対ξ、η(i=1、2、・・・、M)について、それらを結ぶ単位方向ベクトルd=(ξ―η)÷|ξ―η|を差分特徴として算出する。
差分特徴重み設定処理505では、条件設定処理501において指定された条件に基づいて、各々のベクトルdの重み(重要度)hを設定する。
差分主特徴導出処理506と差分主空間生成処理507では、差分主特徴導出処理205、差分主空間生成処理206と同様の処理によって、差分特徴dの射影長がなるべく長くなるような部分空間を導出し、この部分空間への射影行列U(二次元空間での可視化の場合にはm=2、三次元空間での可視化の場合にはm=3)を導く。
可視化制御処理508では、条件設定処理501における条件により指定される可視化対象パターンを二次元空間、または三次元空間に射影し、可視化画像を生成する。具体的には、特徴抽出処理503によりn次元ベクトルxに変換された各パターンを、差分主特徴導出処理507において生成された射影行列Uを用いて、二次元、または三次元ベクトルに変換する。このようにして、二次元、または三次元ベクトルに変換されたパターンを二次元、または三次元状にプロットすることにより可視化画像を生成する。画像は、表示装置などに表示、あるいは外部記憶装置に保存する。
図5は、本発明の第2の実施形態において、パターン認識装置により実施される処理のフローチャートである。なお、本実施形態におけるパターン認識装置の構成も第1の実施形態におけるパターン認識装置101と同様、図1に示す構成を有する。また、本実施形態においても、パターン認識装置により実施される処理は、認識辞書生成プログラムにより実現される学習フェーズと、認識プログラムにより実現される認識フェーズとを含む。なお、本実施形態では、認識フェーズにおいて、差分主空間辞書402、差分主空間内識別辞書403の他、従来技術においても用いられる特徴選択用辞書410、識別用辞書420を用いて認識処理が行われる。
本実施形態における認識辞書生成プログラムは、基本的に、第1の実施形態における認識辞書生成プログラムと同様の処理により構成される。なお、本実施形態では、予めユーザより相互に類似するカテゴリの指定を受け付けておき、指定された類似カテゴリについて差分主空間辞書402、差分主空間内識別辞書403が生成される。類似カテゴリとしては、例えば文字認識の場合、誤読しやすい傾向にある“7”、“フ”、“ワ”、及び“ク”、“1”と“I”、あるいは、“B”と“8”などが該当する。
また、本実施形態では、差分特徴サンプリング処理203において、ユーザによる類似カテゴリの指定に基づいて、互いに類似の関係にあるパターンがサンプル組として選定される。このようにして選定されたサンプル組を用いて差分特徴重み設定処理204から差分種空間生成処理206の処理が実施することで、サンプル組を結ぶ線分が、射影によりなるべく縮退しないように選定されるm次元部分空間となり、類似パターンの判別に適した差分主空間を生成することができる。その他、認識辞書生成プログラムの各処理は第1の実施形態と同様の処理を行うものであるため、ここではそれらの説明を省略する。
特徴選択用辞書207は、従来と同様に、例えば、認識辞書生成プログラムの特徴抽出処理202により抽出された学習用パターンのn次元特徴を用いて、それをm次元特徴(m≦n)に変換するための変換行列Yを生成、特徴選択用辞書410に記憶することで生成される(この処理を特徴選択用辞書処理と呼ぶ)。一般に、n次元特徴をm次元特徴に変換するための変換行列Yは、m×n行列となる。また、変換行列は、カテゴリkごとに異なる変換行列Yとなる場合もある。変換行列YまたはYを算出するには、主成分分析法や線型判別法などが広く用いられる。
識別用辞書411は、生成された特徴選択用辞書410に記憶されている変換行列を用いて、学習用パターンから抽出されたn次元特徴をm次元特徴に変換し(この処理を特徴選択処理と呼ぶ)、得られたm次元特徴から識別関数を生成して作成される(この処理を識別学習処理と呼ぶ)。n次元特徴をx、m次元特徴をyと表すと、特徴選択処理では、m次元特徴yが、変換行列Yを用いて、y=Yxにより求められる。カテゴリkごとに異なる変換行列Yが用いられる場合、カテゴリkごとのm次元特徴yが、カテゴリkの変換行列Yを用いて、y=Yxにより求められる。また、識別学習処理では、m次元特徴から最近傍法、パーセプトロン、改良投影距離法、修正二次識別、一般学習ベクトル量子化、多項式ネットワーク、サポートベクトルマシンなどのアルゴリズムを用いてカテゴリkごとに、識別関数uが求められ、識別用辞書411に記憶される。
図4には図示されていないが、認識辞書生成プログラムは、特徴選択用辞書処理、特徴選択処理、及び識別学習処理を含んでいてもよい。この場合、これらの処理は、特徴抽出処理202の出力を用いて実施されるように構成すればよい。
本実施形態における認識プログラムは、第1の実施形態における認識プログラムの各処理に加え、特徴選択用辞書410を用いた特徴選択処理310、識別用辞書411を用いる識別処理311、及び類似判定処理312を含んでいる。これら以外の処理については、第1の実施形態における各処理と同様にして実施される。以下、第1の実施形態と重複する部分については説明を省略し、第1の実施形態と異なる部分について説明する。
特徴選択処理310では、特徴選択用辞書410に記憶されている変換行列を用いて、特徴抽出処理302で抽出された認識対象パターンのn次元特徴xがm次元特徴yに変換される。m次元特徴yは、変換行列Yを用いてy=Yxとして算出される。変換行列がカテゴリごとに異なる変換行列Yである場合は、カテゴリkについてのm次元特徴yが、変換行列Yを用いてy=Yxとして算出される。
次に、識別処理311では、識別用辞書411に記憶されている識別関数uを用いて、各カテゴリに対する認識対象パターンの類似度が算出される。認識対象パターンのカテゴリkに対する類似度は、u(y)を計算することによって得られる。カテゴリkごとに変換行列があり、カテゴリごと異なるm次元特徴yが得られる場合、u(y)を計算することにより、カテゴリkに対する認識対象パターンの類似度が得られる。
類似判定処理312では、識別処理311で得られた類似度が最大となるカテゴリが、ユーザより指定されている類似カテゴリに属するか否か判定される。類似度が最大となるカテゴリが類似カテゴリに属する場合には、差分主空間射影処理303、差分主空間内識別処理304を実施し、類似するカテゴリ間での詳細な識別を行う。
以上説明した実施形態におけるパターン認識方法の特徴について、従来一般に用いられている主成分分析法(PCA)、線型判別法(LDA)と比較して簡単に説明する。
図6は、主成分分析法(PCA)におけるパターン認識の特徴を示す図、図7は、線型判別法(LDA)によるパターン認識の特徴を示す図である。図8は、図6に対応する本実施形態のパターン認識の特徴を示す図、図9は、図7に対応する本実施形態のパターン認識の特徴を示す図である。
図9に示すように、AとBの2つのカテゴリの分布601、602がある場合、PCAでは軸610が選択される。カテゴリA、B共にy軸方向成分について、分布の分散値が小さいため、PCAでは、特徴選択後に識別に必要なy軸が切り捨てられてしまい残らない。また、LDAは正規分布を仮定しているため、図10に示すように、カテゴリC603のように、分布が複数の正規分布から成る場合、有効な特徴軸を選択することに失敗する場合がある。
一方、上述した実施形態におけるパターン認識方法では、異なるカテゴリ同士を結ぶベクトル成分が失われないように特徴選択が行われるため、図8、9に示すように、識別に必要な軸成分620、621を選択することができる。たとえば、図8に示すケースでは、カテゴリAのサンプルを起点としてカテゴリBのサンプル方向を向いたベクトルやBのサンプルを起点としてAのサンプル方向を向いたベクトルは、識別に必要な成分であるとして選択される。また、図12も同様に、カテゴリAのサンプルを起点としてカテゴリCのサンプル方向を向いたベクトルが識別に必要な成分であるとして選択される。
以上説明した実施形態によれば、パターン認識において、異なるカテゴリ同士を結ぶベクトル方向の特徴成分をなるべく保持するように特徴選択を行なうことが可能となり、識別への寄与が少ない特徴成分を効率よく削減することができる。
101・・・ パターン認識装置
102・・・ 入力装置
103・・・ 表示装置
104・・・ パターン取得装置
105・・・ 通信装置
106・・・ 演算装置(CPU)
107・・・ 外部記憶装置(HDD,メモリ)
201、301・・・ パターン入力処理
202、302・・・ 特徴抽出処理
203・・・ 差分特徴サンプリング処理
204・・・ 差分特徴重み設定処理
205・・・ 差分主特徴導出処理
206・・・ 差分主空間生成処理
207、303・・・ 差分主空間射影処理
208・・・ 差分主空間内識別学習処理
304・・・ 差分主空間内識別処理
305・・・ 認識結果出力処理
401・・・ 学習用パターンDB
402・・・ 差分主空間辞書
403・・・ 差分主空間内識別辞書

Claims (5)

  1. 学習用パターンDBから学習用パターンを入力する第1のパターン入力部と、
    前記第1のパターン入力部より入力された学習用パターンの各々からn次元特徴を抽出する第1の特徴抽出部と、
    前記学習用パターンから複数のパターン対を選定し、各々のパターン対について、前記第1の特徴抽出部により抽出されたn次元特徴の差分特徴を算出する差分特徴サンプリング部と、
    前記複数のパターン対の各々について得られた前記差分特徴の各々に対して重要度を設定する差分特徴重み設定部と、
    前記複数のパターン対とその差分特徴の各々について設定された前記重要度とに基づいて、前記差分特徴の射影長を保存するような特徴成分を重要度の順に導出する差分主特徴導出部と、
    前記特徴成分を重要度が高い順に複数選定し、前記選定された複数の特徴成分が生成する部分空間(差分主空間)への射影行列を生成し、当該射影行列を差分主空間辞書に記録する差分主空間生成部と、
    前記学習用パターンから生成された前記n次元特徴の各々を、前記射影行列を用いて前記差分主空間へ射影する第1の差分主空間射影部と、
    前記差分主空間上において、前記学習用パターンを識別するための識別関数を生成する差分主空間内識別学習部と、
    認識対象パターンを入力する第2のパターン入力部と、
    前記第2のパターン入力部より入力された前記認識対象パターンのn次元特徴を抽出する第2の特徴抽出部と、
    前記第2の特徴抽出部で抽出された前記認識対象パターンのn次元特徴を、前記差分主空間辞書に記録された射影行列を用いて、記差分主空間へ射影する第2の差分主空間射影部と、
    前記差分主空間内識別辞書に記録された前記識別関数を用いて、各々のカテゴリに対するパターンの類似度を算出する差分主空間内識別部と、
    前記差分主空間内識別部により算出された前記類似度を用いて認識結果を出力する認識結果出力部と、を有するパターン認識装置であって、
    前記差分特徴サンプリング部は、前記複数のパターン対として、異なるカテゴリ間の中心同士の全ての組み合わせをとることを特徴とするパターン認識装置。
  2. 前記差分特徴サンプリング部は、前記複数のパターン対として、異なるカテゴリからランダムに複数のサンプルを取得し、異なるカテゴリから取得したサンプル同士のすべての組み合わせをとることを特徴とする請求項1に記載のパターン認識装置。
  3. 前記差分特徴サンプリング部は、各カテゴリから同一カテゴリ内で所定の距離以上離れた複数の点をサンプルとして取得し、異カテゴリから取得したサンプル同士の全ての組み合わせをとることを特徴とする請求項1に記載のパターン認識装置。
  4. 前記差分特徴重み設定部は、前記差分特徴の重要度を差分特徴を求めたn次元ベクトル間の距離が小さいほど大きな値に設定することを特徴とする請求項1に記載のパターン認識装置。
  5. 入力されたパターンを認識し、その所属カテゴリを判定して出力するパターン認識装置における認識処理方法であって、
    予め用意された学習用パターンDBから学習用パターンを入力し、
    前記学習用パターンの各々についてn次元特徴を抽出し、
    前記学習用パターンから複数のパターン対を選定し、各々のパターン対について、抽出された前記n次元特徴の差分特徴を算出するとともに、算出した前記差分特徴の各々に対して重要度を設定し、
    前記複数のパターン対とその差分特徴の各々について設定された前記重要度とに基づいて、前記差分特徴の射影長を保存するような特徴成分を重要度の順に導出し、
    導出された複数の特徴成分が生成する部分空間(差分主空間)へ前記n次元特徴を射影する射影行列を生成して差分主空間辞書に記録し、
    前記学習用パターンから生成された前記n次元特徴の各々を、前記射影行列を用いて前記差分主空間へ射影することで、前記n次元特徴より次元数の低いm次元特徴に変換し、
    当該m次元特徴を用いて前記学習用パターンを識別するための識別関数を生成して差分空間内識別辞書に記録する第1のフェーズと、
    認識対象となるパターン情報を取得し、
    前記認識対象となるパターン情報から当該認識対象となるパターン情報のn次元特徴を抽出し、
    抽出された前記n次元特徴を、前記差分主空間辞書に記録された射影行列を用いて差分主空間へ射影することで前記認識対象となるパターンに対応したm次元特徴を取得し、
    取得された前記m次元特徴及び前記差分主空間内識別辞書に記録された前記識別関数を用いて、各々のカテゴリに対するパターンの類似度を算出し、当該類似度に基づき認識結果を出力する第2のフェーズとを有するパターン認識方法であって、
    前記n次元特徴の差分特徴を算出する際に、前記複数のパターン対として、異なるカテゴリ間の中心同士の全ての組み合わせをとることを特徴とするパターン認識方法。
JP2011009360A 2011-01-20 2011-01-20 パターン認識装置及びパターン認識方法 Active JP5683287B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011009360A JP5683287B2 (ja) 2011-01-20 2011-01-20 パターン認識装置及びパターン認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011009360A JP5683287B2 (ja) 2011-01-20 2011-01-20 パターン認識装置及びパターン認識方法

Publications (2)

Publication Number Publication Date
JP2012150681A JP2012150681A (ja) 2012-08-09
JP5683287B2 true JP5683287B2 (ja) 2015-03-11

Family

ID=46792865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011009360A Active JP5683287B2 (ja) 2011-01-20 2011-01-20 パターン認識装置及びパターン認識方法

Country Status (1)

Country Link
JP (1) JP5683287B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104903957A (zh) * 2013-01-10 2015-09-09 富士通株式会社 控制方法、控制程序以及控制装置
JP6282711B2 (ja) * 2016-10-25 2018-02-21 株式会社東芝 パターン認識装置、パターン認識方法、及びパターン認識プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0496885A (ja) * 1990-08-13 1992-03-30 Nippon Telegr & Teleph Corp <Ntt> 類似文字識別方式
JP3442223B2 (ja) * 1996-06-26 2003-09-02 株式会社リコー 文字認識方法

Also Published As

Publication number Publication date
JP2012150681A (ja) 2012-08-09

Similar Documents

Publication Publication Date Title
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
EP2808827B1 (en) System and method for OCR output verification
WO2018167900A1 (ja) ニューラルネットワーク学習装置、方法、およびプログラム
CN104205126B (zh) 对手写字符的无旋转识别
JP5207870B2 (ja) 次元削減方法、パターン認識用辞書生成装置、及びパターン認識装置
JP5214679B2 (ja) 学習装置、方法及びプログラム
WO2012032889A1 (ja) 物体識別向けの学習装置、学習システム、学習方法、及び学習プログラム
JP5683287B2 (ja) パターン認識装置及びパターン認識方法
JP5365065B2 (ja) 辞書作成装置
Eskander et al. Adaptation of writer-independent systems for offline signature verification
JP2011008634A (ja) パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法
JP2004178569A (ja) データ分類装置、物体認識装置、データ分類方法及び物体認識方法
JP7031686B2 (ja) 画像認識システム、方法およびプログラム、並びにパラメータ学習システム、方法およびプログラム
WO2010134539A1 (ja) 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム
Shekar et al. Blockwise binary pattern: a robust and an efficient approach for offline signature verification
Halder et al. Individuality of Bangla numerals
Rezende et al. An approach for Brazilian Sign Language (BSL) recognition based on facial expression and k-NN classifier
Talreja Stochastically optimized handwritten character recognition system using Hidden Markov Model
Kamal et al. A Robust Authentication System Handwritten Documents using Local Features for Writer Identification.
Loo et al. The influence of ethnicity in facial gender estimation
Halder et al. Comparison of the classifiers in Bangla handwritten numeral recognition
Alamri et al. A new approach for segmentation and recognition of Arabic handwritten touching numeral pairs
Tripathi et al. Character recognition: a neural network approach
Pal et al. Handwritten Character Recognition
JP4199594B2 (ja) オブジェクト識別装置およびそのプログラムとそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130809

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20130823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150113

R150 Certificate of patent or registration of utility model

Ref document number: 5683287

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250