JP2011008634A - パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法 - Google Patents

パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法 Download PDF

Info

Publication number
JP2011008634A
JP2011008634A JP2009152887A JP2009152887A JP2011008634A JP 2011008634 A JP2011008634 A JP 2011008634A JP 2009152887 A JP2009152887 A JP 2009152887A JP 2009152887 A JP2009152887 A JP 2009152887A JP 2011008634 A JP2011008634 A JP 2011008634A
Authority
JP
Japan
Prior art keywords
function
feature
pattern
axis
dimensional feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009152887A
Other languages
English (en)
Other versions
JP5353482B2 (ja
Inventor
Toshinori Miyoshi
利昇 三好
Takeshi Eisaki
健 永崎
Hiroshi Shinjo
広 新庄
Shoichi Ishii
正一 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Computer Peripherals Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Computer Peripherals Co Ltd filed Critical Hitachi Computer Peripherals Co Ltd
Priority to JP2009152887A priority Critical patent/JP5353482B2/ja
Publication of JP2011008634A publication Critical patent/JP2011008634A/ja
Application granted granted Critical
Publication of JP5353482B2 publication Critical patent/JP5353482B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

【課題】パターン認識処理において、認識処理の精度を保ち、かつ、高速化することを目的とする。
【解決手段】パターン認識用辞書生成装置は、パターン入力部と、n次元特徴を抽出する特徴抽出部と、m次元特徴にn次元特徴を変換する特徴選択関数を生成し、特徴選択用辞書として記憶媒体に格納する特徴選択辞書生成部と、パターンの類似度を算出するための詳細識別関数を生成し、識別用辞書として記憶媒体に格納する識別関数生成部と、n次元特徴空間の部分空間で、かつ、m次元特徴空間の部分空間であるL次元特徴空間上のL次元特徴にm次元特徴を変換する大分類特徴選択関数を生成し、詳細識別関数をL次元特徴空間上の関数として変換することによって大分類識別関数を生成し、大分類特徴選択関数を特徴選択用辞書として記憶媒体に格納し、大分類識別関数を識別用辞書として記憶媒体に格納する識別関数主要部分抽出部と、を備える。
【選択図】図4

Description

本発明は、パターン認識装置に関し、特に認識の高速化のための大分類手法に関する。
パターン認識装置は、入力パターンを認識し、その所属カテゴリを判定する装置である。パターンとしては、画像データや音声データなどが挙げられる。例えば、文字認識の場合には、パターンは画像である。カテゴリは、識別対象となるパターンの類別である。例えば、文字認識において、数字認識の場合のカテゴリは「0」〜「9」の10字種、漢字認識の場合のカテゴリは数千字種となる。
パターン認識装置が文字認識装置の場合、文字認識装置は、入力画像中の文字が予め設定された字種(カテゴリ)のうち、どの字種(カテゴリ)に該当するかを判定し、判定結果を出力する。
パターン認識装置が実行する処理は、学習フェーズと認識フェーズとから構成される。
学習フェーズでは、パターン認識装置が、学習用パターンDB(データベース)を用いて特徴選択用辞書と識別用辞書とを作成する。
具体的には、学習フェーズでは、大分類識別関数と詳細識別関数とが生成され、生成された詳細識別関数と大分類識別関数とが識別用辞書に格納される。大分類識別関数は、正解候補を大雑把に絞るために用いる関数である。詳細識別関数は、絞り込まれた正解候補の類似度を算出するための関数である。
詳細識別関数の生成アルゴリズムとしては、最近傍法、パーセプトロン、改良投影距離法、修正二次識別、一般学習ベクトル量子化、多項式ネットワーク、及びサポートベクトルマシンなどがある(例えば、非特許文献1、非特許文献2参照)。
大分類識別関数を生成するアルゴリズムとしては、詳細識別関数よりも精度は劣るが高速な識別関数を用いる方法と、識別するカテゴリの数を減らして大分類を行う方法とがある。
高速な識別関数を用いる方法としては、例えば、線型識別関数などの計算量が少ない識別関数を大分類用に用いる方法である。前述した方法は、計算量が少ない識別関数を用いる点を除いて、詳細識別関数を生成するアルゴリズムと同様である。
識別するカテゴリの数を減らして大分類を行う方法は、認識対象のカテゴリをいくつかにまとめたり、分布をクラスタ化したりすることで行われる。例えば、アルファベットの認識で、特徴空間上で近い文字種(「I」と「l」、又は「K」と「k」など)を同一カテゴリとして扱うなどの方法がある。
より具体的には、大分類識別関数を生成するアルゴリズムとして、線型判別関数を用いた手法(例えば、非特許文献1参照)や、一般学習ベクトル量子化を用いたクラスタリング手法(例えば、特許文献1参照)などが使われる。
認識フェーズでは、パターン認識装置が、作成された特徴選択用辞書と識別用辞書とを用いて、入力パターンを認識する。認識フェーズでは、大分類識別処理と詳細識別処理とが実行される。
まず、大分類識別処理が実行される目的について説明する。
大分類識別処理は、詳細識別関数を用いた詳細識別処理よりも粗い識別処理を高速に行い、全カテゴリの中から正解カテゴリとなる候補を絞るための処理である。
詳細識別処理のみが実行される場合、パターン認識装置は、全カテゴリに対して処理を実行する必要がある。しかし、前述の方法では、例えば、数千カテゴリ以上を認識対象とする漢字認識などでは、処理時間が莫大となる。そのため、パターン認識装置は、大分類識別処理と、詳細識別処理との二段階の識別処理を実行することによって処理を高速化する。
大分類識別処理では、正解候補が大雑把に絞り込まれる。例えば、漢字認識では、大分類識別処理を実行することによって、正解候補が数十個から数百個程度に絞られる。詳細分類では、絞られた正解候補カテゴリの各々に対する類似度が、詳細識別関数を用いて算出される。
パターン認識では、認識処理の高速化のため、まず、高速に計算できる大分類識別関数を用いて、正解候補カテゴリを絞る粗い識別処理が実行される。その後、正解候補カテゴリに対して詳細識別関数を用いて、正解候補カテゴリの各々に対する入力パターンの類似度が算出され、最終的な認識結果が出力される。
従来の大分類識別処理及び詳細識別処理の方法として、テンプレート方式を用いた大分類方法がある。
前述の方法では大分類識別処理のために、予め学習用パターンDBを用いた学習によって、特徴空間上に1個又は複数個のカテゴリを代表する代表ベクトルを複数個用意しておく。
認識フェーズ時には、パターン認識装置が、代表ベクトルと入力パターンとの距離を算出し、入力パターンとの距離が近い代表ベクトルが代表するカテゴリ群に含まれるカテゴリを正解候補カテゴリとする。パターン認識装置は、前述のようにして算出された正解候補カテゴリの各々に対して、詳細識別処理を実行する。前述の場合、通常、詳細識別処理にもテンプレート方式の方法が用いられる。すなわち、予め、各カテゴリを代表する代表ベクトルを学習によって作成しておき、認識フェーズ時には、パターン認識装置が、入力パターンと代表ベクトルとの距離から入力パターンと各々のカテゴリとの類似度を算出する。
特許第3475886号明細書
Mohammed Cheriet, Nawwaf Kharma, Cheng lin Liu, and Ching Suen. Character Recognition Systems: A Guide for Students and Practitioners. Wiley-Interscience, 2007. 石井健一郎, 上田修功, 前田英作, 村瀬洋. パターン認識. オーム社出版局. Liu, C. L., Sako, H., Fujisawa, H. Performance evaluation of pattern classifier for handwritten character recognition, International Journal of Document Analysis and Recognition, Vol.4, No.3, pp.191-204.
しかし、テンプレート方式を用いた大分類識別処理は、精度上の問題がある。特に、手書き文字認識においてテンプレート方式を用いた大分類識別処理が実行された場合、テンプレート方式を用いた認識精度は、ニューラルネットワークやサポートベクトルマシンを用いた認識精度よりも低いことが実験によって確認されている(例えば、非特許文献3参照)。
また、大分類識別処理のみにテンプレート方式を用い、詳細識別処理は他の学習アルゴリズムを用いる場合、学習アルゴリズム及び認識アルゴリズムが大分類識別処理と詳細識別処理とで異なることになるため、構成が煩雑になるという実装上の問題がある。
また、従来の大分類識別処理及び詳細識別処理の方法として、大分類識別処理では線型関数などの精度は劣るが計算量が少ない大分類識別関数を用い、詳細識別処理は精度が高い識別関数を用いる方法がある。前述の方法を用いた場合も、同様に、大分類識別関数の精度上の問題と、大分類識別処理及び詳細識別処理で学習アルゴリズムが二重になるという構成上の煩雑さの問題とがある。
本発明の代表的な一例を示せば、以下の通りである。プロセッサと、前記プロセッサに接続された記憶媒体とを備えるパターン認識用辞書生成装置であって、前記記憶媒体には、複数の学習用のパターンから構成される学習用パターンデータベースが格納され、前記パターン認識用辞書生成装置は、前記学習用パターンデータベースから、各々の前記学習用のパターンを一つのカテゴリとして取得するパターン入力部と、前記取得されたカテゴリ毎にn次元特徴を抽出する特徴抽出部と、前記抽出されたn次元特徴を用いて、前記n次元以下の次元であるm次元特徴に前記n次元特徴を変換する特徴選択関数を生成し、前記生成された特徴選択関数を特徴選択用辞書として前記記憶媒体に格納する特徴選択辞書生成部と、前記特徴選択関数を用いて、前記抽出されたn次元特徴を前記m次元特徴に変換する特徴選択部と、前記変換されたm次元特徴を用いて、各カテゴリに対する認識対象のパターンの類似度を算出するためのm次元特徴空間上の詳細識別関数を生成し、前記生成された詳細識別関数を識別用辞書として前記記憶媒体に格納する識別関数生成部と、前記m次元以下の次元であり、前記n次元特徴空間の部分空間で、かつ、前記m次元特徴空間の部分空間であるL次元特徴空間上のL次元特徴に前記m次元特徴を変換する大分類特徴選択関数を生成し、前記詳細識別関数を前記L次元特徴空間上の関数として変換することによって前記L次元特徴空間上で各カテゴリに対する前記認証対象のパターンの類似度を算出するための大分類識別関数を生成し、前記生成された大分類特徴選択関数を前記特徴選択用辞書として前記記憶媒体に格納し、前記生成された大分類識別関数を前記識別用辞書として前記記憶媒体に格納する識別関数主要部分抽出部と、を備えることを特徴とする。
L次元特徴空間上の関数として算出された大分類識別関数を詳細識別関数に用いることによって、パターン認識の処理の精度を保ち、かつ、高速化することができる。また、大分類識別関数は、詳細識別関数から生成されるため、大分類処理と詳細分類処理との学習アルゴリズムの構成を容易にすることができる。
本発明の第1の実施形態のパターン認識装置の構成の一例を示すブロック図である。 本発明の第1の実施形態のパターン認識装置における学習フェーズの処理を実行するモジュールとDB(データベース)の構成を説明するフローチャートである。 本発明の第1の実施形態のパターン認識装置における認識フェーズの処理を実行するモジュールとDB(データベース)の構成を説明するフローチャートである。 本発明の第1の実施形態の識別関数主要部分抽出部が実行する処理を説明するフローチャートである。 本発明の第1の実施形態の文字認識における特徴抽出部が実行する処理の一例を説明するフローチャートである。 従来のパターン認識装置における学習フェーズの処理を説明するフローチャートである。 従来のパターン認識装置における認識フェーズの処理を説明するフローチャートである。 従来のパターン認識装置の一連の処理の流れを示すフローチャートである。
まず従来技術について説明する。
従来の学習フェーズにおける処理を実行するモジュールとDB(データベース)の構成図を図6に示し、従来の認識フェーズにおける処理を実行するモジュールとDBの構成図を図7に示す。学習フェーズと認識フェーズとをまとめると、図8に示す構成となる。
図6は、従来のパターン認識装置における学習フェーズの処理を説明するフローチャートである。
パターン入力部201は、学習用パターンDB207からパターンを取得し、取得されたパターンを特徴抽出部202に出力する。
特徴抽出部202は、入力されたパターンからn次元ベクトルを抽出する。以下、特徴抽出部202で抽出されるn次元ベクトルをn次元特徴とよぶ。
抽出されたn次元特徴は、特徴選択辞書生成部203と特徴選択部204とに出力される。
特徴抽出部202が実行する処理によって、パターン認識の対象のデータが音声又は画像であっても、入力されたパターンはn次元ベクトルとして表現される。したがってパターン認識装置は、パターンの種類に関わらず同一の処理を適用することができる。
以降の特徴選択辞書生成部203は、特徴選択用辞書208を生成するために複数のパターンのn次元特徴を必要とする場合がある。この場合、n次元特徴が必要となるたびにパターン入力部201及び特徴抽出部202が処理を実行し、必要なn次元特徴を抽出してもよい。
また、パターン入力部201及び特徴抽出部202が予め全ての学習用パターンについて処理を実行してn次元特徴に変換し、当該n次元特徴を外部記憶装置107(図1参照)などに格納しておき、特徴選択辞書生成部203が必要となるたびに外部記憶装置107からn次元特徴を取得する方法でもよい。
特徴選択辞書生成部203は、n次元特徴をm次元特徴(m≦n)に変換するための変換関数を生成し、生成された変換関数を特徴選択用辞書208に格納する。
例えば、n次元特徴をx、m次元特徴をyと表すと、変換関数fは、y=f(x)と表される。変換を線型変換に限定した場合、m×n行列Yを用いて、y=Yxと表すことができる。また、カテゴリ毎に異なる変換関数を用いてn次元特徴をm次元特徴に変換する場合もある。この場合、カテゴリkのm次元特徴ykは、カテゴリkの変換関数fkを用いて、yk=fk(x)と表される。この場合、特徴選択辞書生成部203は、変換関数f又はカテゴリ毎の変換関数fkを生成し、生成された変換関数f又はfkを特徴選択用辞書208に格納する。
変換関数を生成する方法としては、主成分分析法や線型判別法などを用いる方法が考えられる。特徴選択の目的は、n次元特徴から識別処理において有効な成分を抽出し、n次元特徴の次元数を削減することによって、認識処理の高速化と高精度化とを実現するためである。
特徴選択部204は、特徴選択用辞書208に格納されている変換関数を用いて、n次元特徴をm次元特徴に変換する。変換関数をfとすると、n次元特徴xに対してm次元特徴yは、y=f(x)と表される。また、カテゴリ毎に異なる変換を行う場合、カテゴリ毎のm次元特徴ykは、yk=fk(x)と表される。変換されたm次元特徴は、識別用辞書生成部205に出力される。
以降の識別用辞書生成部205は、識別用辞書209を生成するために複数のパターンのm次元特徴を必要とする場合がある。この場合、m次元特徴が必要となるたびにパターン入力部201、特徴抽出部202及び特徴選択部204が処理を実行し、識別用辞書生成部205が必要なm次元特徴を取得してもよい。
また、パターン入力部201、特徴抽出部202及び特徴選択部204が予め全ての学習用パターンについて処理を実行してm次元特徴に変換し、当該m次元特徴を外部記憶装置107(図1参照)などに格納しておき、識別用辞書生成部205は必要となるたびに外部記憶装置107からm次元特徴を取得する方法であってもよい。
識別用辞書生成部205は、詳細識別関数を生成する処理と大分類識別関数を生成する処理との2つの処理から構成される。
詳細識別関数を生成する処理では、学習用パターンDB207に格納されたパターンから生成されたm次元特徴と、当該m次元特徴が所属カテゴリを示すラベルの集合とを用いて、詳細識別関数が生成される。
また、大分類識別関数を生成する処理では、同様に、学習用パターンDB207に格納されたパターンから生成されたm次元特徴と、当該m次元特徴が所属カテゴリを示すラベルの集合とを用いて、詳細識別関数が生成される。生成された詳細識別関数と大分類識別関数とは識別用辞書209に記憶される。
まず、詳細識別関数を生成する処理について説明する。当該処理では、学習用パターンDB207を用いて詳細識別関数が生成され、生成された詳細識別関数は識別用辞書209に格納される。
詳細識別関数はカテゴリ毎に存在する。カテゴリkの詳細識別関数ukは、パターンのカテゴリkに対する類似度を算出するための関数である。パターンのカテゴリkに対する類似度は、uk(y)で算出される。また、カテゴリ毎に異なるm次元特徴ykが抽出された場合、パターンのカテゴリkに対する類似度は、uk(yk)で算出される。
詳細識別関数の生成アルゴリズムは、最近傍法、パーセプトロン、改良投影距離法、修正二次識別、一般学習ベクトル量子化、多項式ネットワーク、及びサポートベクトルマシンなどがある(例えば、非特許文献1、非特許文献2参照)。
次に、大分類識別関数を生成する処理について説明する。当該処理では、学習用パターンDB207を用いて大分類識別関数が生成され、生成された大分類識別関数は識別用辞書209に格納される。
まず、大分類識別処理を実行する目的について説明する。
大分類識別関数は、詳細識別関数を用いた詳細識別処理よりも粗い識別処理を高速に行い、全カテゴリの中から正解カテゴリとなる候補を絞るためのものである。
詳細識別関数のみが実行される場合、パターン認識装置は、全カテゴリに対してパターンの各々のカテゴリに対する類似度を、詳細識別関数uk(y)又はuk(yk)を用いて算出しなければならない。
しかし、前述した方法では、例えば、数千カテゴリ以上を認識対象とする漢字認識などでは、処理時間が莫大となる。そのため、大分類識別処理及び詳細識別処理の二段階の処理によって識別処理を高速化する。大分類識別処理では、正解候補が大雑把に絞り込まれる。
大分類識別関数を生成するアルゴリズムとしては、詳細識別関数よりも精度は劣るが高速な識別関数を用いる方法と、識別するカテゴリの数を減らして大分類を行う方法とがある。
高速な識別関数を用いる方法としては、例えば、線型識別関数などの計算量が少ない識別関数を大分類用に用いる方法である。前述した方法は、計算量が少ない識別関数を用いる点を除いて、詳細識別関数の生成アルゴリズムと同様である。
識別するカテゴリの数を減らして大分類を行う方法は、複数のカテゴリをまとめて一つのカテゴリとして扱い識別対象となるカテゴリ数を減らしたり、分布をクラスタ化したりすることで行われる。例えば、アルファベットの認識で、特徴空間上で近い文字種(「I」と「l」、又は「K」と「k」など)を同一カテゴリとして扱うなどの方法がある。
大分類識別関数には、詳細識別関数とは異なる特徴空間が用いられる場合がある。前述の場合、大分類識別処理用の特徴選択関数が生成され、生成された大分類識別処理用の特徴選択関数が特徴選択用辞書208に格納される。大分類識別処理に用いられる特徴をz、変換関数をgと表すと、大分類識別処理に用いられる特徴はz=g(x)と算出される。大分類カテゴリcの大分類識別関数をvcと表すと、カテゴリcに対する類似度は、大分類識別関数vc(z)によって算出される。
図7は、従来のパターン認識装置における認識フェーズの処理を説明するフローチャートである。
パターン入力部201は、認識対象パターンDB304からパターンを取得し、取得されたパターンを特徴抽出部202に出力する。
特徴抽出部202は、入力されたパターンからn次元特徴を抽出し、抽出されたn次元特徴を特徴選択部204に出力する。
特徴選択部204は、特徴選択用辞書208に格納されている変換関数を用いて、n次元特徴をm次元特徴に変換する。m次元特徴yは、変換関数fを用いてy=f(x)と表される。カテゴリ毎に異なる変換が行われる場合、カテゴリkのm次元特徴ykは、変換関数fkを用いてyk=fk(x)と表される。変換されたm次元特徴は、大分類識別部301に出力される。
また、大分類識別処理において、詳細識別処理とは異なる特徴zが用いられる場合、大分類用の特徴選択関数gを用いてz=g(x)が算出され、大分類識別部301に出力される。カテゴリ毎に異なる特徴が用られる場合、大分類カテゴリc毎に特徴zc=gc(x)が算出され、算出された特徴zcが大分類識別部301に出力される。
大分類識別部301は、識別用辞書209に格納されている大分類識別関数を用いて、入力されたパターンが所属する正解カテゴリの候補を算出し、m次元特徴と正解カテゴリ候補とを詳細識別部302に出力する。
詳細識別部302は、識別用辞書209に格納されている詳細識別関数を用いて、正解候補カテゴリに対する、入力されたパターンの類似度を算出し、算出された類似度を認識結果出力部303に出力する。
認識結果出力部303は、正解候補カテゴリに対する類似度を用いて、最終的な認識結果を出力する。
通常、最も類似度が高いカテゴリを認識結果として出力する。なお、類似度が二番目以降のカテゴリも、二位候補、三位候補、などとして出力する場合もある。
また、類似度が指定閾値よりも小さい場合、どのカテゴリにも該当しないとして、棄却する場合がある。例えば、数字認識の場合に、漢字が入力された場合などが該当する。また、類似度の第一位と第二位との差が指定閾値よりも小さい場合には、どちらのカテゴリであるかを判定することが難しいとして、棄却する場合がある。例えば、アルファベットの「I」や「l」と数字の「1」など、フォントによっては識別し難いため、棄却する。
ここで、「棄却する」は、入力されたパターンに対して該当するカテゴリが無い旨を示す情報を出力する等が考えられる。
大分類識別部301と詳細識別部302とにおいて、大分類識別処理と詳細識別処理との二段階の識別処理を実行する目的は、識別処理の高速化である。まず、粗い識別処理によって大雑把に正解候補を絞り、絞られた正解候補に対して詳細な識別処理を実行する。
大分類識別処理に用いられる大分類識別関数は、高速に計算できること、及び大分類識別関数によって算出される正解候補カテゴリの中に正解カテゴリが高精度で含まれることが要求される。
大分類識別処理に用いられる大分類識別関数の作成には、線型判別関数を用いたもの(例えば、非特許文献1参照)や、一般学習ベクトル量子化を用いたクラスタリング手法(例えば、特許文献1参照)などが使われる。
パターン認識では、認識処理の高速化のため、まず、高速に計算できる大分類識別関数によって、正解候補カテゴリを絞る粗い識別処理が実行される。その後、正解候補カテゴリに対して詳細識別関数を用いて、正解候補カテゴリの各々に対する入力パターンの類似度が算出され、最終的な認識結果が出力される。
従来の大分類識別処理及び詳細識別処理の方法として、テンプレート方式を用いた大分類方法がある。
前述の方法では大分類識別処理のために、予め学習用パターンDBを用いた学習によって、特徴空間上に1個又は複数個のカテゴリを代表する代表ベクトルを複数個用意しておく。
認識フェーズ時には、パターン認識装置は、代表ベクトルと入力パターンとの距離を算出し、入力パターンとの距離が近い代表ベクトルが代表するカテゴリ群に含まれるカテゴリを正解候補カテゴリとする。前述のようにして算出された正解候補カテゴリの各々に対して詳細識別処理が実行される。この場合、通常、詳細識別処理にもテンプレート方式の方法が用いられる。すなわち、予め、各カテゴリを代表する代表ベクトルを学習によって作成しておき、認識フェーズ時には、パターン認識装置が、入力パターンと代表ベクトルとの距離から入力パターンと各々のカテゴリとの類似度を算出する。
図8は、従来のパターン認識装置の一連の処理の流れを示すフローチャートである。各モジュールが実行する処理は、図6及び図7と同一であるため説明を省略する。
(第1の実施形態)
本発明のパターン認識装置の実施例について、図表を参照しながら説明する。
図1は、本発明の第1の実施形態のパターン認識装置の構成の一例を示すブロック図である。
パターン認識装置101は、入力装置102、表示装置103、パターン取得装置104、通信装置105、演算装置(CPU)106、及び外部記憶装置107を備える。
入力装置102は、演算装置(CPU)106で実行されるプログラムの制御、その他接続機器の制御のために実行されるコマンド等を入力するための装置である。入力装置102は、例えば、コマンド等を入力するためのキーボードやマウス等である。
表示装置103は、処理内容を表示するディスプレイ等の装置である。
パターン取得装置104は、スキャナやマイク等のパターンを取得するための装置である。取得されたパターンは、外部記憶装置107等に格納されてもよい。
通信装置105は、PCやサーバ等の外部機器との間でデータのやりとりを行うために用いられる装置である。通信装置105は、外部機器から送信される実行コマンドの取得、外部機器から画像や音声などのパターンを取得する。また、通信装置105は、パターン認識装置101において実行される処理の内容を外部機器に送信する。
演算装置(CPU)106は、外部記憶装置107に格納されるプログラム等を実行し、認識処理を実行する装置である。例えば、演算装置(CPU)106は、学習用パターンDB207(図2参照)を用いて特徴選択用辞書503(図2参照)及び識別用辞書504(図2参照)を作成し、また、特徴選択用辞書503(図2参照)と識別用辞書504(図2参照)を用いての認識対象パターンの認識処理等を実行する。
外部記憶装置107は、HDD及びメモリ等の外部記憶装置である。外部記憶装置107には、学習用パターンDB207(図2参照)、認識対象パターンDB304(図3参照)、特徴選択用辞書503(図2参照)及び識別用辞書504(図2参照)が格納される。また、外部記憶装置107は、演算装置(CPU)106が処理を実行するためのプログラム(モジュール)を格納し、また、演算装置(CPU)106が実行する処理の処理結果等を一時的に格納する。
なお、パターン認識装置101は、入力装置102、表示装置103、パターン取得装置104、又は通信装置105を備えていなくてもよい。
パターン認識装置101が入力装置102を備えていない場合、通信装置105を用いて外部機器から処理の開始を指示する方法、又は、時刻指定等によって処理を自動的に実行する方法を用いることが考えられる。
パターン認識装置101が表示装置103を備えていない場合、通信装置105を用いて外部機器に処理結果を送信する方法、又は、外部記憶装置107に処理結果を格納する方法が考えられる。
処理を実行するモジュールへの出力及び入力は、外部記憶装置107を介して行ってもよい。例えば、処理を実行するモジュールを処理部1及び処理部2とする場合、処理部1で実行された処理結果を処理部2が入力として受け取る場合、処理部1が処理結果を外部記憶装置107に格納しておき、処理部2が外部記憶装置107に格納されている処理結果を入力として取得してもよい。
ユーザは、入力装置102を用いて処理を実行するモジュールを制御する。また、処理の実行結果は、表示装置103を介して表示される。
次に、本発明の実施形態におけるパターン認識装置101が実行する処理について説明する。
パターン認識装置101が実行する処理は、学習フェーズと認識フェーズから構成される。学習フェーズでは、学習用パターンDB207(図2参照)を用いて特徴選択用辞書503(図2参照)と識別用辞書504(図2参照)とが作成される。認識フェーズでは、特徴選択用辞書503(図2参照)と識別用辞書504(図2参照)とを用いて、入力パターンが認識される。
図2は、本発明の第1の実施形態のパターン認識装置101における学習フェーズの処理を実行するモジュールとDB(データベース)の構成を説明するフローチャートである。図3は、本発明の第1の実施形態のパターン認識装置101における認識フェーズの処理を実行するモジュールとDB(データベース)の構成を説明するフローチャートである。
なお、パターン認識装置101は、学習フェーズにおける処理を実行する装置(認識辞書生成装置)と認識フェーズにおける処理を実行する装置(認識装置)とから構成されていてもよい。その場合、認識辞書生成装置は、図2に示すモジュールを備え、学習用パターンDB207を用いて特徴選択用辞書503と識別用辞書504とを生成する。また、認識装置は、図3に示すモジュールを備え、認識辞書生成装置によって生成された特徴選択辞書503と識別用辞書504とを用いて、入力パターンを認識する。
本発明では、従来の課題を解決するため、学習フェーズにおいて、大分類用特徴変換関数と大分類識別関数とをそれぞれ特徴選択用辞書503と識別用辞書504とに出力する識別関数主要部分抽出部502を、パターン認識装置101が備えることに特徴がある。
また、本発明は、認識フェーズにおいて、学習フェーズで生成された特徴選択用辞書503を用いて大分類用の特徴を生成する大分類特徴選択部601、識別用辞書504を用いて大分類識別処理を実行する大分類識別部602、大分類識別処理で取得された正解候補カテゴリに対して、詳細な識別処理を実行する詳細識別部603を、パターン認識装置101が備えることに特徴がある。
より具体的には、本発明では、詳細分類識別関数を低次元の部分特徴空間に制限して生成された関数が大分類識別関数として用いられる。当該低次元の部分特徴空間は、詳細分類用の識別関数の振る舞いをよく記述するように選択される。したがって、本発明における大分類識別関数は、詳細分類識別関数を近似したものとみなすことができる。
本発明では、任意の学習アルゴリズムによって作成された詳細分類用の識別関数から大分類識別関数が作成されるため、パターン認識装置101は、精度が高い識別関数を用いることで、認識精度を向上させることができる。また、本発明における大分類識別関数は、詳細分類用の識別関数を部分特徴空間に制限したものであるため、大分類識別処理と詳細識別処理とで学習アルゴリズムが異なるという構成の煩雑さも回避できる。
以下では、各フェーズの処理について図2を用いて説明する。まず、学習フェーズについて説明する。
パターン認識装置101は、学習フェーズのモジュール及びDBとして、パターン入力部201、特徴抽出部202、特徴選択辞書生成部203、特徴選択部204、識別関数生成部501、識別関数主要部分抽出部502、学習用パターンDB207、特徴選択用辞書503、及び識別用辞書504を備える。
学習フェーズでは、パターン認識装置101は、学習用パターンDB207を用いて、認識フェーズで用いる特徴選択用辞書503と識別用辞書504とを生成する。
学習用パターンDB207は、学習用に予め作成され、所属カテゴリを示す正解ラベルが付与されたパターンをの集合である。学習用のパターンは、パターン取得装置104などを用いて作成される。
パターンは、例えば、画像データや音声データなどである。パターンの個数は、通常数十個以上であり、数千万個となる場合もある。例えば、漢字認識の場合、数千万個以上のパターンが格納される学習用パターンDB207が学習用に用いられる。
正解ラベルは、例えば、認識対象のカテゴリの各々に番号を対応させて表現してもよいし、文字認識の場合には、EUCコード、JISコード又はSJISコードなどの文字コードを用いてもよい。後述する処理では、処理中のパターンの正解ラベルが分かるように、パターンと正解ラベルとの対応関係が失われないようにしておく。例えば、パターンのヘッダ部分に、当該パターンが所属カテゴリを示すラベルを記録しておくなどとすればよい。
なお、学習用パターンDB207、特徴選択用辞書503及び識別用辞書504は、外部記憶装置107によって実現される。
パターン入力部201は、学習用パターンDB207から学習用に用いるパターンを取得し、取得されたパターンを特徴抽出部202に出力する。
特徴抽出部202は、パターン入力部201から入力された各パターンから認識に有効な成分としてn次元ベクトルを抽出する。このとき生成されるn次元ベクトルをn次元特徴とよぶ。これによって、各パターンは、n次元特徴として表現される。抽出されたn次元特徴は、特徴選択辞書生成部203及び特徴選択部204に出力される。
以降の特徴選択辞書生成部203は、特徴選択用辞書503を生成するために複数のパターンのn次元特徴を必要とする場合がある。この場合、n次元特徴が必要となるたびにパターン入力部201及び特徴抽出部202が処理を実行し、特徴選択辞書生成部203が必要なn次元特徴を取得してもよい。
また、パターン入力部201及び特徴抽出部202が予め全ての学習用パターンについて処理してn次元特徴に変換し、当該n次元特徴を外部記憶装置107などに格納しておき、特徴選択辞書生成部203が必要となるたびに外部記憶装置107からn次元特徴を取得する方法であってもよい。
特徴抽出部202が処理を実行することによってパターンは、n次元特徴として表現される。この処理によって、入力されたデータが音声であっても画像であっても、パターンはn次元ベクトル値として表現されるため、パターン認識装置101は、パターンの種類に関わらず同一の処理を適用することができる。
ここで、例として、文字認識における特徴抽出部202の処理について説明する。
図5は、本発明の第1の実施形態の文字認識における特徴抽出部202が実行する処理の一例を説明するフローチャートである。
入力ステップ801では、特徴抽出部202が、パターン入力部201から出力された画像を取り込む。
前処理ステップ802では、特徴抽出部202が、取り込まれた入力画像に対してノイズ除去及びぼかし処理等を実行し、文字認識に障害となる要因となるノイズ及びかすれ等を除去する。例えば、ノイズ除去処理では、ある閾値以下の大きさの孤立点が除去される。
正規化ステップ803では、特徴抽出部202が、前処理が実行された画像の各々を予め指定された固定サイズの画像に変換する。当該処理によって、様々なサイズの入力画像の大きさを揃えることができ、画像サイズに依存する処理を統一することができる。
正規化法には、線型正規化法、非線型正規化法、又はモーメント正規化法などがある(非特許文献1参照)。例えば、入力画像が2値画像の場合、線型正規化法では、文字部分を示す黒画素を囲む最小の矩形によって囲まれる部分画像を固定サイズの画像に拡大又は縮小することで正規化画像が生成される。
文字特徴抽出ステップ804では、特徴抽出部202が、正規化によって生成された画像をn次元特徴に変換する。
一例として、最も簡単な画素特徴抽出について説明する。画素特徴抽出では、各画素の画素値を特徴として用いる。例えば、入力画像が縦横20×20のグレー画像で、各画素の画素値が0〜255の整数値で表現されている場合、画素数は400となり、抽出される特徴は400次元特徴となる。400次元特徴の各成分は、入力画像の0〜255の画素値である。
出力ステップ805では、特徴抽出部202が、変換されたn次元特徴を特徴選択辞書生成部203及び特徴選択部204に出力する。
以上が、文字認識における特徴抽出部202の処理の一例である。
図2の説明に戻る。
特徴選択辞書生成部203は、後述する特徴選択部204がn次元特徴からm次元特徴を抽出するために用いられる特徴選択用辞書を生成する。
ここで、まず、n次元特徴からm次元特徴を抽出する理由について説明する。
特徴抽出部202が抽出したn次元特徴からm次元特徴を抽出する目的は、認識処理の高精度化と高速化とを実現するためである。
まず、高速化について説明する。パターン認識装置101が学習又は認識するの時に要する計算量は、少なくとも次元数のべき乗のオーダーとなる。
例えば、n×nの共分散行列が用いられる計算においては、nの二乗のオーダーの計算量を要する。また、識別関数の次数がsの場合、識別関数の計算にs乗のオーダーの計算量を要する。
したがって、計算量を抑えるためには、識別処理への寄与が低い特徴成分を削減し、次元数を削減することが必要となる。また、次元数が大きくなると、互いに相関の高い特徴が混入する割合が大きくなり、計算量に見合った効果が得られない。そのため、相関が高い特徴を統合することによって、計算量を削減することが有効である。
次に、高精度化について説明する。パターン認識装置101が高次元空間において有限個の学習パターンから識別関数を生成する場合、次元数を高くすると精度の低下を招く。これは、次元数の増加に応じて識別関数の推定パラメータ数が増大し、有限個の学習パターンを用いたパラメータの推定が、統計的に信頼性の低くなるためである。したがって、識別処理への寄与が小さい特徴を取り除き、特徴の次元数を適度に小さくする方が、認識処理の高精度化に有効である。
前述した理由によって、n次元特徴がm次元特徴に変換される。
特徴選択辞書生成部203は、特徴抽出部202によって生成された学習パターンのn次元特徴を用いて、n次元特徴をm次元特徴に変換する変換関数を生成する。生成された変換関数は、特徴選択用辞書503に格納される。線型変換である場合変換関数は行列で表される。
変換関数の生成には、例えば、主成分分析や線型判別法などが用いられる。m次元特徴への変換は、カテゴリ毎に異なる関数で行われる場合もある。その場合、カテゴリ毎に変換関数が作成される。
ここで、一例として、主成分分析による特徴選択関数の生成について説明する。主成分分析では、まず、特徴選択辞書生成部203が学習パターンの分布の共分散行列を算出する。次に、特徴選択辞書生成部203は、共分散行列の固有値の大きい順にm個の固有ベクトルを選択し、n次元特徴を各々の固有ベクトルに射影したm個の特徴を成分とするm次元特徴を選択する。m個の固有ベクトルをpi(i=1、…m)とおくと、m次元特徴yの第i成分yiは、xとpiとの内積yi=x・piによって与えられる。したがって、主成分分析を用いて生成される変換関数は、m個の固有ベクトルを行ベクトルとするm×n行列Yで表される。具体的には、n次元特徴をx、m次元特徴をyと表すと、変換行列Yはy=Yxと表される。
特徴選択部204は、特徴選択用辞書503に格納される変換関数を用いて、n次元特徴をm次元特徴に変換する。変換後のm次元特徴は、識別関数生成部501に出力される。n次元特徴をx=(x1,x2,…,xn)、変換後のm次元特徴をy=(y1,y2,…,ym)とおくと、変換関数は、以下のように表される。
y1=f1(x1,x2,…,xn)
y2=f2(x1,x2,…,xn)
・・・・・・・・・・・・・・・・・
ym=fm(x1,x2,…,xn)
また、線型変換である場合、m×nの変換行列Yを用いてy=Yxと表される。
また、カテゴリ毎に異なる変換が実行される場合、特徴選択部204は、カテゴリ毎に作成された変換関数を用いて、カテゴリkのm次元特徴yk=(yk1,yk2,…,ykm)を算出する。カテゴリkの変換関数は、以下のように表される。
yk1=fk1(x1,x2,…,xn)
yk2=fk2(x1,x2,…,xn)
・・・・・・・・・・・・・・・・・
ykm=fkm(x1,x2,…,xn)
線型変換である場合、m×nの変換行列Ykを用いてyk=Ykxと表される。
以降の識別関数生成部501及び識別関数主要部分抽出部502は、詳細識別関数及び大分類識別関数を生成するために複数のパターンのm次元特徴を必要とする場合がある。
この場合、m次元特徴が必要となるたびにパターン入力部201、特徴抽出部202及び特徴選択部204が処理を実行して、識別関数生成部501及び識別関数主要部分抽出部502が必要なm次元特徴を取得してもよい。
また、パターン入力部201、特徴抽出部202及び特徴選択部204が予め全ての学習用パターンについて処理を実行してm次元特徴に変換し、当該m次元特徴を外部記憶装置107などに格納しておき、識別関数生成部501及び識別関数主要部分抽出部502が必要となるたびに外部記憶装置107から取得する方法であってもよい。
識別関数生成部501は、m次元特徴を取得し、カテゴリkに対する認識対象のパターンの類似度を計算するための詳細識別関数uk(x)を生成する。生成された詳細識別関数は、識別関数主要部分抽出部502に出力され、また、識別用辞書504に格納される。
詳細識別関数uk(x)は、表記を統一するためにxの関数として表記したが、実際には、m次元特徴y又はykに依存する関数である。すなわち、任意の関数hを用いて詳細識別関数は、uk(x)=hk(y)=hk(f(x))、又は、uk(x)=hk(yk)=hk(fk(x))と表すことができる。パターンのカテゴリkに対する詳細識別関数は、m次元特徴yを用いて、uk(x)=hk(y)と表される。
特徴選択部204がカテゴリ毎に異なるm次元特徴ykを生成した場合、識別関数生成部501は、詳細識別関数は、uk(x)=hk(yk)と表される。
詳細識別関数の生成に用いられるアルゴリズムには、最近傍法、パーセプトロン、改良投影距離法、修正二次識別、一般学習ベクトル量子化、多項式ネットワーク、又はサポートベクトルマシンなどがある。
識別関数主要部分抽出部502は、詳細識別関数をL次元部分特徴空間に制限した大分類識別関数vkを生成し、生成された大分類識別関数vkを識別用辞書504に格納する。また、識別関数主要部分抽出部502は、n次元特徴をL次元部分特徴空間上のL次元特徴zに変換するための大分類用特徴変換関数gを生成し、生成された大分類用特徴変換関数gを特徴選択用辞書503に出力する。
なお、L次元部分空間は、n次元特徴空間の部分空間でもあり、かつ、m次元特徴空間の部分空間でもある。
本発明は、識別関数主要部分抽出部502に特徴がある。識別関数主要部分抽出部502での処理の詳細は、後述する。
以上が、学習フェーズの処理の説明である。次に、認識フェーズについて図3を用いて説明する。
パターン認識装置101は、認識フェーズのモジュールとDBとして、パターン入力部201、特徴抽出部202、大分類特徴選択部601、大分類識別部602、特徴選択部204、詳細識別部603、認識結果出力部303、認識対象パターンDB304、特徴選択用辞書503、及び識別用辞書504を備える。
パターン入力部201は、認識対象パターンを取得し、取得された認識対象パターンを特徴抽出部202に出力する。認識対象パターンは、予め認識対象パターンDB304に格納しておき、認識対象パターンDB304から取り込んでもよいし、パターン取得装置104又は通信装置105から直接取り込んでもよい。なお、認識対象パターンDB304は、例えば、外部記憶装置107等が考えられる。
特徴抽出部202は、パターン入力部201によって入力されたパターンからn次元特徴を抽出する。特徴抽出部202がパターンからn次元特徴を抽出する処理は、学習フェーズと同一である。抽出されたn次元特徴は、大分類特徴選択部601と特徴選択部204とに出力される。
大分類特徴選択部601は、特徴選択用辞書503に格納されている大分類用変換関数gを用いて、n次元特徴をL次元特徴zに変換する。ここで、n次元特徴xと大分類用変換関数gとを用いると、L次元特徴zはz=g(x)と表される。変換されたL次元特徴は、大分類識別部602に出力される。
大分類識別部602は、識別用辞書504に格納されている大分類識別関数vkを用いてパターンの各カテゴリに対する粗い類似度を算出する。さらに、大分類識別部602は、算出された類似度を用いて、類似度が高いカテゴリを正解候補カテゴリとして算出する。なお、正解候補カテゴリは、ユーザによって指定された数だけ算出される。例えば、数千カテゴリの字種を認識対象とする漢字認識の場合、正解候補は数十カテゴリ程度に絞られる。
大分類識別部602は、正解候補カテゴリを特徴選択部204に出力する。なお、大分類識別部602が実行する処理の詳細は、後述する。
特徴選択部204は、特徴選択用辞書503に格納されている変換関数fを用いて、n次元特徴をm次元特徴に変換する。n次元特徴をm次元特徴に変換する処理は、学習フェーズと同一である。カテゴリ毎に異なるm次元特徴が抽出される場合、大分類識別部602が実行した処理で得られた正解候補カテゴリ毎にm次元特徴に変換される。変換されたm次元特徴は、詳細識別部603に出力される。また、正解候補カテゴリも詳細識別部603に出力される。
詳細識別部603は、詳細識別関数を用いて、正解候補カテゴリに対する認証対象パターンの類似度を算出する。算出された正解候補カテゴリに対する類似度は、認識結果出力部303に出力される。詳細識別部603が実行する処理の詳細は、後述する。
認識結果出力部303は、算出された正解候補カテゴリに対する認証対象パターンの類似度を用いて、最終的な認識結果を出力する。通常、認識結果出力部303は、最も類似度が高いカテゴリを認識結果として出力する。
また、認識結果出力部303は、類似度が二番目以降のカテゴリも、二位候補、三位候補、などとして出力する場合もある。
また、類似度が指定閾値よりも小さい場合、認識結果出力部303は、どのカテゴリにも該当しないとして、棄却する場合がある。例えば、数字認識の場合に、漢字が入力された場合などが該当する。
また、類似度の第一位と第二位との差が指定閾値よりも小さい場合、認識結果出力部303は、どちらのカテゴリであるか判定することが難しいとして、棄却する場合がある。例えば、アルファベットの「I」や「l」と数字の「1」など、フォントによっては識別することが難しいため、どのカテゴリであるかが判定できない。
認識結果は、表示装置103に表示され、通信装置105を用いて外部に送信され、又は、外部記憶装置107に出力される。
以下では、本発明の特徴である、識別関数主要部分抽出部502と、大分類特徴選択部601、大分類識別部602、及び詳細識別部603が実行する処理の詳細について説明する。
まず、識別関数主要部分抽出部502が大分類識別関数vkと大分類用特徴変換関数とを生成する方法について説明する。
以下の説明では、特徴選択部204がカテゴリ毎に異なるm次元特徴ykを抽出した場合について説明する。なお、特徴選択部204がカテゴリに依存しないm次元特徴yを抽出した場合、識別関数主要部分抽出部502は、ykをyに置き換えて同一の処理を実行すればよい。
また、本実施形態における条件として、特徴選択部204は、線型関数による変換yk=Ykxによりn次元特徴をm次元特徴に変換するものとし、詳細識別関数は[数1]に示すような二次以下の関数とする。
Figure 2011008634
まず、識別関数主要部分抽出部502が実行する処理の概要を説明した後に、図4に示す各々の処理について説明する。
識別関数主要部分抽出部502は、詳細識別関数uk(x)をL次元部分特徴空間に制限した大分類識別関数vk(x)を生成する。本実施形態では、大分類識別関数vk(x)として、詳細識別関数uk(x)をよく近似し、高速に計算できるものが生成される。
識別関数主要部分抽出部502は、まず、各々のカテゴリの詳細識別関数uk(x)を特徴づける特徴軸を選定し、次に、それぞれの選定された特徴軸の重要度を設定する。
次に、識別関数主要部分抽出部502は、重要度に基づいて特徴軸を統合する主要軸を算出する。最後に、識別関数主要部分抽出部502は、詳細識別関数uk(x)を主要軸に制限した関数を生成し、当該関数を大分類識別関数vkとして出力する。
[数1]に示した詳細識別関数から分かるように、二次の識別関数の計算量は、特徴空間の次元数mの二乗のオーダーである([数1]の項数は次元数mの二乗のオーダーである)。したがって、特徴空間の次元数を制限することによって、詳細識別関数の計算量を抑えることができる。
詳細分類識別関数の依存領域をL次元部分特徴空間に制限された大分類識別関数は、詳細分類識別関数よりも高速に計算することができる。本実施形態では、詳細分類識別関数をm次元特徴空間のL次元部分特徴空間に制限された関数を大分類識別関数とする方法について説明する。
まず、[数1]に示す詳細識別関数を変形する。ここで、行列Wk及びベクトルwkを、それぞれ[数2]及び[数3]で定義する。
Figure 2011008634
Figure 2011008634
[数2]、[数3]及び[数4]を用いて、[数1]は[数5]のように変形される。
Figure 2011008634
Figure 2011008634
Wkは対称行列であるため、任意のユニタリ行列Pkが存在し、WkはPkを用いて[数6]に示すように対角化することができる。ここで、対角成分は、[数7]に示すように、対角成分の絶対値が大きい順に並ぶようなPkが用いられる。
Figure 2011008634
Figure 2011008634
Pkはユニタリ行列であるため、[数5]は[数8]のように変形できる。
Figure 2011008634
さらに、変換関数yk=Ykxを用いると、uk(yk)をxの関数として表現しなおすことができ、[数8]は[数9]に示すように表現される。
Figure 2011008634
行列PkYkの行ベクトルを[数10]に示すようにqki(i=1、…、m)の転置とおき、また、Pkwkを[数11]のようにおくと、識別関数主要部分抽出部502は、[数9]は[数12]のように変形される。
Figure 2011008634
Figure 2011008634
Figure 2011008634
すなわち、Wkを対角化する行列Pkを求めることができれば、[数1]は、[数6]、[数10]及び[数11]を用いて、[数12]のように変形される。なお、Wkから行列Pkを求めるには、対称行列Wkの固有値問題を解けばよい。
本実施形態では、詳細識別関数ukを特徴づける特徴軸としてqkiが用いられる。
次に、各特徴軸qkiの重要度hkiが設定される。重要度の決め方には様々な方法が考えられるが、最も簡単な方法は、[数17]に示すように特徴軸qkiを含む項の係数の大きさを重要度として決定する方法が考えられる。
Figure 2011008634
次に、選定された特徴軸を統合する主要軸の算出方法について説明する。
ここでは、統合軸としてn次元ベクトルaが選択された場合を考える。このとき、特徴軸qkiのベクトルaへの射影長は、内積a・qkiで与えられる。
内積の値が大きいほど、ベクトルaへの統合によって失われる特徴軸qkiの情報量が少ないと考えられる。したがって、[数18]に示すように、内積の値に特徴軸の重要度をかけたものの合計が大きいほど、ベクトルaへの統合によって失われる特徴軸方向の情報量が少ないといえる。
Figure 2011008634
ここで、Kはカテゴリ数である。本実施形態では、[数18]に示すような量が大きいベクトルaが主要軸として選択される。
さらに、[数18]は、[数19]のように変形される。
Figure 2011008634
ここで、[数19]の式変形の結果の括弧内を[数20]のような行列Qと定義する。
Figure 2011008634
行列Qは、n×nの対称行列である。したがって、行列Qの固有値を大きい順にd1≧d2≧…dnとし、各々の固有値に対応する正規化された固有ベクトルをu1、u2、…unとした場合、ユニタリ行列Uを[数22]のようにおくと、行列Qは[数21]のように対角化できる。
Figure 2011008634
Figure 2011008634
[数19]は、[数21]を用いて[数23]のように変形される。
Figure 2011008634
ここで、diは、複数の特徴軸を一つの主要軸に統合した場合の評価値となる。diの値が大きいほど、複数の特徴軸をより統合していることを示す。
u1、u2、…unは正規直交系であるから、[数23]から、[数18]の値が最も大きくなる主要軸は、最大固有値に対応する固有ベクトルa=u1となる。以下、二番目の主要軸は二番目の固有値に対応する固有ベクトルa=u2となり、三番目の主要軸は三番目の固有値に対応する固有ベクトルa=u3となり、また、L番目の主要軸は行列QのL番目に大きい固有値に対応する固有ベクトルuLとなる。
最後に、詳細識別関数を主要軸に制限した大分類識別関数を求める。n次元特徴xをj番目の主要軸ujに制限したベクトルは、[数24]に示すように変形される。
Figure 2011008634
[数12]に示す詳細識別関数のベクトルxを[数24]に示す制限ベクトルで置き換えると、[数25]のように変形される。
Figure 2011008634
ここで、[数26]、[数27]、[数28]及び[数29]のようにおくと、[数25]は、[数30]のように変形される。
Figure 2011008634
Figure 2011008634
Figure 2011008634
Figure 2011008634
Figure 2011008634
したがって、大分類識別関数は[数30]のようになり、[数31]を用いるとz=UL(x)と表される。
Figure 2011008634
したがって、大分類用の特徴選択に用いられる変換関数は、[数31]となる。
以上で説明した式を用いて、識別関数主要部分抽出部502は、[数30]に示すような大分類識別関数vkと、[数31]に示すような大分類用特徴変換関数ULとを生成することができる。
以下、識別関数主要部分抽出部502が実行する処理の詳細を説明する。
図4は、本発明の第1の実施形態の識別関数主要部分抽出部502が実行する処理を説明するフローチャートである。
識別関数入力ステップ701では、識別関数主要部分抽出部502が、識別関数生成部501から詳細識別関数を取得する。
特徴軸選定ステップ702では、識別関数主要部分抽出部502が、主要軸算出の基準となる特徴軸を選択する。
具体的には、識別関数主要部分抽出部502は、[数1]に示す詳細識別関数を[数12]のようにに変形する。当該変形は、対称行列Wkを[数2]のように定義し、Wkの固有ベクトルを行ベクトルとする行列Pkを求め、[数6]、[数10]及び[数11]を用いて得られる。
識別関数主要部分抽出部502は、qkiを特徴軸として選択する。
軸重要度設定ステップ703では、識別関数主要部分抽出部502が、特徴軸と詳細識別関数とを用いて各特徴軸の重要度を算出する。
最も簡単な特徴軸の重要度を算出方法としては、特徴軸qkiの重要度hkiを[数17]のように定義する方法である。重要度の定義方法は様々考えられ、他のいくつかの例について後述する。
主要軸算出ステップ704では、識別関数主要部分抽出部502が、算出された重要度及び特徴軸を用いて特徴軸を統合し、L個の主要軸を算出する。
具体的には、L個の主要軸は、[数20]に示すn×n行列Qの固有値が大きい上位L個の正規化された固有ベクトルu1、u2、…、uLとして算出される。
大分類識別関数生成ステップ705では、識別関数主要部分抽出部502が、主要軸と詳細識別関数とを用いて、L個の固有ベクトルu1、u2、…、uLによって生成されるL次元特徴空間に詳細識別関数を制限した大分類識別関数を生成する。
具体的には、大分類識別関数は、[数26]、[数27]、[数28]及び[数29]を用いて[数30]のように与えられる。また、大分類用の特徴選択関数は、[数31]のように与えられる。
出力ステップ706では、識別関数主要部分抽出部502が、大分類識別関数用の特徴選択関数[数31]を特徴選択用辞書503に格納し、また、大分類識別関数[数30]を識別用辞書504に格納する。
以上が、識別関数主要部分抽出部502が実行する処理の詳細の説明である。
次に、認識フェーズの大分類特徴選択部601、大分類識別部602、及び詳細識別部603が実行する処理について説明する。
大分類特徴選択部601は、特徴選択用辞書503に格納されている大分類識別関数用の特徴選択関数[数31]を用いてL次元特徴z[数29]を抽出し、大分類識別部602に出力する。
大分類識別部602は、識別用辞書504に格納されている大分類識別関数[数30]を用いて類似度を算出する。大分類識別部602は、算出された類似度に基づいて、類似度が高い順にユーザによって指定された個数分の正解候補カテゴリを算出する。算出された正解候補カテゴリは、特徴選択部204に出力される。
詳細識別部603は、特徴選択用辞書503に格納されている詳細識別関数uk(x)を用いて、正解候補カテゴリに対する類似度を算出し、算出された正解候補カテゴリに対する類似度を認識結果出力部303に出力する。
以下、軸重要度設定ステップ703において、特徴軸の重要度を設定する方法の例について説明する。
例1
特徴軸qkiの重要度を、[数12]の係数λkiiとζkiの絶対値の大きさであるとして、[数17]のように定義する。
例2
[数12]において、係数λkiiと係数ζkiとの次数の違いを考慮して、[数32]のように特徴軸qkiの重要度を定義する。
Figure 2011008634
例3
特徴軸qkiの重要度を決める場合に、係数λkiiとζkiだけでなく、qki方向のxの変動量qki・xの大きさのスケールも考慮に入れる。変動量のスケールは、qki方向のxの分散値によって算出される。
学習パターンをN個とし、平均ベクトルmを[数33]とすると、xi(i=1、…、N)の分布の共分散行列Σは、[数34]で与えられる。
Figure 2011008634
Figure 2011008634
qki方向のxの分散値vkiは、[数35]によって算出できる。
Figure 2011008634
これよって、特徴軸qkiの重要度は、例えば、[数36]で定義する。また、[数37]又は[数38]等で、特徴軸qkiの重要度を定義する方法も考えられる。
Figure 2011008634
Figure 2011008634
Figure 2011008634
例4
識別関数[数12]を、[数39]に示すように特徴軸qkiに制限した部分の値の分散値を重要度として定義する方法が考えられる。分散値σkiは、[数40]を用いて[数41]のように与えられる。重要度は、hki=σkiと定義する。
Figure 2011008634
Figure 2011008634
Figure 2011008634
(第2の実施形態)
第1の実施形態では、[数12]に示すように識別関数を二次以下の関数と仮定し、また、特徴選択関数を線型関数と仮定した。第2の実施形態では、特徴選択関数f(x)又はfk(x)は、線型関数に限定されない。なお、第2の実施形態についても、識別関数は二次以下の関数と仮定する。
第2の実施形態におけるパターン認識装置101の構成、及び、各モジュールが実行する処理は、第1の実施形態と同一であるため説明を省略する。以下、第1の実施形態との差異を中心に説明する。
第2の実施形態では、学習フェーズにおける識別関数主要部分抽出部502が実行する処理、並びに、認識フェーズにおける大分類特徴選択部601、大分類識別部602及び詳細識別部603のそれぞれが実行する処理が異なる。
以下、第2の実施形態における識別関数主要部分抽出部502、大分類特徴選択部601、大分類識別部602及び詳細識別部603について説明する。
まず、学習フェーズにおける識別関数主要部分抽出部502の処理について説明する。
識別関数主要部分抽出部502が実行する処理は、図4と同一であるが、具体的な処理が異なる。
識別関数入力ステップ701では、識別関数主要部分抽出部502が、識別関数生成部501から詳細識別関数を取得する。
特徴軸選定ステップ702では、識別関数主要部分抽出部502が、主要軸選択の基準となる特徴軸を選択する。
具体的には、識別関数主要部分抽出部502は、[数1]に示す詳細識別関数を[数45]のようにに変形する。
Figure 2011008634
当該変形は、対称行列Wkを[数2]のように定義し、Wkの固有ベクトルを行ベクトルとする行列Pkを求め、[数6]、[数44]及び[数11]を用いて得られる。
Figure 2011008634
識別関数主要部分抽出部502は、qkiを特徴軸として選択する。第1の実施形態では、qkiはn次元ベクトルであったが、第2の実施形態ではm次元ベクトルである。
軸重要度設定ステップ703では、識別関数主要部分抽出部502が、特徴軸と詳細識別関数とを用いて、各特徴軸の重要度を算出する。
重要度の算出方法は様々考えられるが、例えば、第1の実施形態で示した方法を用いることができる。この場合、xはyで置き換えられる。
主要軸算出ステップ704では、識別関数主要部分抽出部502が、算出された重要度及び特徴軸を用いて特徴軸を統合し、L個の主要軸を算出する。
具体的には、L個の主要軸は、[数20]に示すm×m行列の固有値が大きい上位L個の正規化された固有ベクトルu1、u2、…、uLとして得られる。なお、第1の実施形態では、[数20]に示す行列はn×n行列であり、uiはn次元ベクトルであったのに対し、第2の実施形態では、[数20]に示す行列はm×m行列であり、uiはm次元ベクトルである。
大分類識別関数生成ステップ705では、識別関数主要部分抽出部502が、主要軸と詳細識別関数とを用いて、L個の固有ベクトルu1、u2、…、uLによって生成されるL次元特徴空間に詳細識別関数を制限した大分類識別関数を生成する。
具体的には、大分類識別関数は、[数26]、[数27]、[数28]及び[数46]を用いて[数30]のように与えられる。また、大分類識別関数用の特徴選択関数は、[数31]のように与えられる。
Figure 2011008634
出力ステップ706では、識別関数主要部分抽出部502が、大分類用の特徴選択関数[数31]を特徴選択用辞書503に格納し、また、大分類識別関数[数30]を識別用辞書504に格納する。
次に、認識フェーズの大分類特徴選択部601、大分類識別部602及び詳細識別部603が実行する処理について説明する。
大分類特徴選択部601は、特徴選択用辞書503に格納されている大分類用の特徴選択関数[数31]を用いてL次元特徴z[数46]を抽出し、大分類識別部602に出力する。
Figure 2011008634
大分類識別部602は、識別用辞書504に格納されている大分類識別関数[数30]を用いて類似度を算出する。大分類識別部602は、算出された類似度vk(x)に基づいて、類似度が高い順にユーザによって指定された個数分の正解候補カテゴリを算出する。算出された正解候補カテゴリは、特徴選択部204に出力される。
詳細識別部603は、特徴選択用辞書503に格納されている詳細識別関数uk(x)を用いて正解候補カテゴリに対する類似度を算出し、算出された正解候補カテゴリに対する類似度を認識結果出力部303に出力する。
(第3の実施形態)
第1の実施形態では、[数12]に示すように識別関数を二次以下の関数と仮定し、また、特徴選択関数を線型関数と仮定した。第3の実施形態では、識別関数が二次以下の関数に限定されない場合について説明する。なお、第3の実施形態についても、特徴選択関数は線型関数と仮定する。
第3の実施形態におけるパターン認識装置101の構成、及び、各モジュールが実行する処理は、第1の実施形態と同一であるため説明を省略する。以下、第1の実施形態との差異を中心に説明する。
第3の実施形態では、学習フェーズにおける識別関数主要部分抽出部502が実行する処理、並びに、認識フェーズにおける大分類特徴選択部601、大分類識別部602及び詳細識別部603のそれぞれが実行する処理が異なる。
以下、第3の実施形態における識別関数主要部分抽出部502、大分類特徴選択部601、大分類識別部602及び詳細識別部603について説明する。
まず、学習フェーズにおける識別関数主要部分抽出部502の処理について説明する。
識別関数主要部分抽出部502が実行する処理は、図4と同一であるが、具体的な処理が異なる。
識別関数入力ステップ701では、識別関数主要部分抽出部502が、識別関数生成部501から詳細識別関数を取得する。
特徴軸選定ステップ702では、識別関数主要部分抽出部502が、主要軸選択の基準となる特徴軸を選択する。
具体的には、識別関数主要部分抽出部502は、ユーザによって指定される個数だけランダムなm次元ベクトルを特徴軸として選択する。ここでは、特徴軸は、M個選択されるベクトルとし、aki(i=1、…、M)と表す。
軸重要度設定ステップ703では、識別関数主要部分抽出部502が、特徴軸と詳細識別関数とを用いて、各特徴軸の重要度を算出する。
重要度の算出方法は、次のようなものが考えられる。以下、m次元特徴がカテゴリkに依存しない場合、m次元特徴yk、及び変換関数Yの添え字を省いたものを考えればよい。
まず、m次元ベクトルakiをn次元特徴空間での表現に直す。Akを[数47]のように定義し、AkYkを[数48]のようにおく。
Figure 2011008634
Figure 2011008634
このとき、ベクトルqkiがakiのn次元特徴空間での表現である。
特徴軸qki方向の識別関数の値の分散値を重要度とする。[数47]に示す関数ukiは、詳細識別関数をqki軸に制限したものである。具体的には、N個の学習パターンをxiとおくと、この関数の値の分散値σkiは、[数40]を用いて[数41]によって算出される。これを重要度としてhki=σkiとすればよい。
主要軸算出ステップ704では、識別関数主要部分抽出部502が、算出された重要度及び特徴軸を用いて特徴軸を統合し、L個の主要軸を算出する。
具体的には、L個の主要軸は、[数20]に示すn×n行列の固有値が大きい上位L個の固有ベクトルu1、u2、…、uLとして得られる。
大分類識別関数生成ステップ705では、識別関数主要部分抽出部502が、主要軸と詳細識別関数とを用いて、L個の固有ベクトルu1、u2、…、uLによって生成されるL次元特徴空間に詳細識別関数を制限した大分類識別関数として生成する。
具体的には、大分類識別関数は、[数50]に示すように生成される。
Figure 2011008634
また、大分類識別関数用の特徴選択関数は、[数31]の行列ULを用いて、[数53]に示すような行列によって与えられる。
Figure 2011008634
出力ステップ706では、識別関数主要部分抽出部502が、大分類用の特徴選択関数[数53]を特徴選択用辞書503に格納し、また、大分類識別関数[数50]を識別用辞書504に格納する。
次に、認識フェーズの大分類特徴選択部601、大分類識別部602及び詳細識別部603が実行する処理について説明する。
大分類特徴選択部601は、特徴選択用辞書503に格納されている大分類用の特徴選択関数[数53]を用いてL次元特徴z[数46]を抽出し、大分類識別部602に出力する。
大分類識別部602は、識別用辞書504に格納されている大分類識別関数[数50]を用いて類似度を算出する。大分類識別部602は、算出された類似度vk(x)に基づいて、類似度が高い順にユーザによって指定された個数分の正解候補カテゴリを算出する。算出された正解候補カテゴリは、特徴選択部204に出力される。
詳細識別部603は、特徴選択用辞書503に格納されている識別関数uk(x)を用いて正解候補カテゴリに対する類似度を算出し、算出された正解候補カテゴリに対する類似度を認識結果出力部303に出力する。
(第4の実施形態)
第1の実施形態では、[数12]に示すように識別関数を二次以下の関数と仮定し、また、特徴選択関数を線型関数と仮定した。第4の実施形態では、識別関数が二次以下の関数に限定されない場合について説明する。さらに、第4の実施形態では、特徴選択関数は線型関数に限定されない。
第4の実施形態におけるパターン認識装置101の構成、及び、各モジュールが実行する処理は、第1の実施形態と同一であるため説明を省略する。以下、第1の実施形態との差異を中心に説明する。
第4の実施形態では、学習フェーズにおける識別関数主要部分抽出部502が実行する処理、並びに、認識フェーズにおける大分類特徴選択部601、大分類識別部602及び詳細識別部603のそれぞれが実行する処理が異なる。
以下、第4の実施形態における識別関数主要部分抽出部502、大分類特徴選択部601、大分類識別部602及び詳細識別部603について説明する。
まず、学習フェーズにおける識別関数主要部分抽出部502の処理について説明する。
識別関数主要部分抽出部502が実行する処理は、図4と同一であるが、具体的な処理が異なる。
識別関数入力ステップ701では、識別関数主要部分抽出部502が、識別関数生成部501から詳細識別関数を取得する。
特徴軸選定ステップ702では、識別関数主要部分抽出部502が、主要軸選択の基準となる特徴軸を選択する。
具体的には、識別関数主要部分抽出部502が、ユーザによって指定される個数だけランダムなm次元ベクトルを特徴軸としてに選択する。ここでは、盗聴軸は、M個選択されるベクトルとし、aki(i=1、…、M)と表す。
軸重要度設定ステップ703では、識別関数主要部分抽出部502が、特徴軸と詳細識別関数とを用いて、各特徴軸の重要度を算出する。
重要度の算出方法は次のようなものが考えられる。以下、m次元特徴がカテゴリkに依存しない場合、m次元特徴yk、及び変換関数Yの添え字を省いたものを考えればよい。
特徴軸qki方向の識別関数の値の分散値を重要度にとる。[数51]に示す関数ukiは、詳細識別関数をqki軸に制限したものである。
Figure 2011008634
具体的には、N個の学習パターンをxiとおくと、この関数の値の分散値σkiは、[数51]を用いて[数52]によって算出される。これを重要度としてhki=σkiとすればよい。
Figure 2011008634
主要軸算出ステップ704では、識別関数主要部分抽出部502が、算出された重要度及び特徴軸を用いて特徴軸を統合し、L個の主要軸を選定する。
具体的には、L個の主要軸は、[数20]に示すm×m行列の固有値が大きい上位L個の固有ベクトルu1、u2、…、uLとして得られる。
その後、識別関数主要部分抽出部502は大分類識別関数生成ステップ705に進む。
大分類識別関数生成ステップ705では、識別関数主要部分抽出部502が、主要軸と詳細識別関数とを用いて、L個の固有ベクトルu1、u2、…、uLによって生成されるL次元特徴空間に詳細識別関数を制限した大分類識別関数として生成する。
具体的には、大分類識別関数は、[数52]のように与えられる。また、大分類識別関数用の特徴選択関数は、[数31]の行列によって与えられる。
出力ステップ706では、識別関数主要部分抽出部502が、大分類用の特徴選択関数[数31]を特徴選択用辞書503に格納し、また、大分類識別関数[数52]を識別用辞書504に格納する。
次に、認識フェーズの大分類特徴選択部601、大分類識別部602及び詳細識別部603が実行する処理について説明する。
大分類特徴選択部601は、特徴選択用辞書503に格納されている大分類用の特徴選択関数[数31]を用いてL次元特徴z[数46]を抽出し、大分類識別部602に出力する。
大分類識別部602は、識別用辞書504に格納されている大分類識別関数[数52]用いて類似度を算出する。大分類識別部602は、算出された類似度vk(x)に基づいて、類似度が高い順にユーザによって指定された個数分の正解候補カテゴリを算出する。算出された正解候補カテゴリは、特徴選択部204に出力される。
詳細識別部603は、特徴選択用辞書503に格納されている識別関数uk(x)を用いて正解候補カテゴリに対する類似度を算出し、算出された正解候補カテゴリに対する類似度を認識結果出力部に出力する。
本発明の一形態によれば、大分類識別関数が詳細識別関数の制限関数として生成されるため、認識処理の精度を保ち、かつ、高速化できる。
また、本発明における大分類識別関数は、詳細識別関数の制限関数として生成されるため、大分類識別処理と詳細識別処理とで別々の学習アルゴリズムを用いる必要がない。したがって、構成の煩雑さを回避できる。
また、本発明の一形態によれば、任意の学習アルゴリズムによって作成された詳細識別関数から大分類識別関数が生成されるため、精度が高い詳細識別関数を用いることで、認識精度を向上させることができる。
101 パターン認識装置
102 入力装置
103 表示装置
104 パターン取得装置
105 通信装置
106 演算装置(CPU)
107 外部記憶装置(HDD、メモリ)
201 パターン入力部
202 特徴抽出部
203 特徴選択辞書生成部
204 特徴選択部
205 識別用辞書生成部
207 学習用パターンDB
208 特徴選択用辞書
209 識別用辞書
301 大分類識別部
302 詳細識別部
303 認識結果出力部
304 認識対象パターンDB
501 識別関数生成部
502 識別関数主要部分抽出部
503 特徴選択用辞書
504 識別用辞書
601 大分類特徴選択部
602 大分類識別部
603 詳細識別部
701 識別関数入力ステップ
702 特徴軸選定ステップ
703 軸重要度設定ステップ
704 主要軸算出ステップ
705 大分類識別関数生成ステップ
706 出力ステップ
801 入力ステップ
802 前処理ステップ
803 正規化ステップ
804 文字特徴抽出ステップ
805 出力ステップ

Claims (24)

  1. プロセッサと、前記プロセッサに接続された記憶媒体とを備えるパターン認識用辞書生成装置であって、
    前記記憶媒体には、複数の学習用のパターンから構成される学習用パターンデータベースが格納され、
    前記パターン認識用辞書生成装置は、
    前記学習用パターンデータベースから、各々の前記学習用のパターンを一つのカテゴリとして取得するパターン入力部と、
    前記取得されたカテゴリ毎にn次元特徴を抽出する特徴抽出部と、
    前記抽出されたn次元特徴を用いて、前記n次元以下の次元であるm次元特徴に前記n次元特徴を変換する特徴選択関数を生成し、前記生成された特徴選択関数を特徴選択用辞書として前記記憶媒体に格納する特徴選択辞書生成部と、
    前記特徴選択関数を用いて、前記抽出されたn次元特徴を前記m次元特徴に変換する特徴選択部と、
    前記変換されたm次元特徴を用いて、各カテゴリに対する認識対象のパターンの類似度を算出するためのm次元特徴空間上の詳細識別関数を生成し、前記生成された詳細識別関数を識別用辞書として前記記憶媒体に格納する識別関数生成部と、
    前記m次元以下の次元であり、前記n次元特徴空間の部分空間で、かつ、前記m次元特徴空間の部分空間であるL次元特徴空間上のL次元特徴に前記m次元特徴を変換する大分類特徴選択関数を生成し、前記詳細識別関数を前記L次元特徴空間上の関数として変換することによって前記L次元特徴空間上で各カテゴリに対する前記認証対象のパターンの類似度を算出するための大分類識別関数を生成し、前記生成された大分類特徴選択関数を前記特徴選択用辞書として前記記憶媒体に格納し、前記生成された大分類識別関数を前記識別用辞書として前記記憶媒体に格納する識別関数主要部分抽出部と、
    を備えることを特徴とするパターン認識用辞書生成装置。
  2. 前記識別関数主要部分抽出部は、
    前記詳細関数を取得する詳細識別関数取得ステップを実行し、
    前記取得された詳細識別関数を用いて、前記n次元特徴空間から特徴軸をM個選択する特徴軸選定ステップを実行し、
    前記特徴軸の重要度を算出する軸重要度決定ステップを実行し、
    前記特徴軸を統合して、L個の主要軸を算出する主要軸算出ステップを実行し、
    前記主要軸が生成する前記L次元特徴空間上の関数として前記詳細識別関数を変換することによって前記大分類識別関数を生成する大分類識別関数生成ステップを実行することを特徴とする請求項1に記載のパターン認識用辞書生成装置。
  3. 前記特徴選択関数は線形関数であり、前記n次元特徴xに対する前記詳細識別関数uk(x)は数1に示す2次以下の多項式関数であって、
    前記特徴軸選定ステップは、
    前記識別関数主要部分抽出部が、前記n次元特徴又は前記m次元特徴yを用いて、前記詳細識別関数uk(x)を数2又は数3に示すように変形して得られるベクトルqkiを特徴軸として選択するステップを含み、
    軸重要度決定ステップは、
    前記識別関数主要部分抽出部が、数2又は数3における係数λkii及び係数ζkiの関数hkiを用いて特徴軸qkiの重要度を設定するステップを含むことを特徴とする請求項2に記載のパターン認識用辞書生成装置。
    Figure 2011008634
    Figure 2011008634
    Figure 2011008634
  4. 前記主要軸算出ステップは、
    前記識別関数主要部分抽出部が、前記特徴軸qkiと前記軸重要度hkiとから生成される数4に示す行列Qの固有値を算出するステップと、
    前記識別関数主要部分抽出部が、前記行列Qの固有ベクトルのうち、前記算出された固有値が大きいものから順に前記固有ベクトルをL個選択し、前記選択された固有ベクトルを主要軸として算出するステップと、を含むことを特徴とする請求項3に記載のパターン認識用辞書生成装置。
    Figure 2011008634
  5. パターン認識用辞書生成装置は、ユーザがパターン認識用辞書生成装置を操作するための入力部を備え、
    前記特徴軸選定ステップは、前記識別関数主要部分抽出部が、ランダムにM個の任意ベクトルを前記特徴軸として選択するステップ、又は、前記ユーザからの指示に基づいてM個のベクトルを前記特徴軸として選択するステップ、を含むことを特徴とする請求項2に記載のパターン認識用辞書生成装置。
  6. 前記軸重要度決定ステップは、前記識別関数主要部分抽出部が、N個の前記学習用のパターンxiに対する前記詳細識別関数を、前記特徴軸qkiが生成するM次元空間上の関数として変形された関数d(xi)を算出し、前記算出された関数d(xi)の分散値σの関数として前記軸重要度hを算出することを特徴とする請求項2に記載のパターン認識用辞書生成装置。
  7. プロセッサと、前記プロセッサに接続された記憶媒体とを備えるパターン認識装置であって、
    前記記憶媒体は、
    複数の認識対象のパターンから構成される認識対象パターンデータベースと、
    前記認識対象パターンから抽出されたn次元特徴を、前記n次元以下の次元であるm次元特徴に変換する特徴選択関数、及び、前記m次元以下の次元であり、前記n次元特徴空間の部分空間で、かつ、前記m次元特徴空間の部分空間であるL次元特徴空間上のL次元特徴に前記m次元特徴を変換する大分類特徴選択関数を格納する特徴選択用辞書と、
    正解候補パターンに対する前記認識対象のパターンの類似度を算出するためのm次元特徴空間上の詳細識別関数、及び、前記詳細識別関数を前記L次元特徴空間上の関数として変換され、前記L次元特徴空間上で各正解候補に対する前記認識対象のパターンの類似度を算出するための大分類識別関数を格納する識別用辞書と、
    を格納し、
    前記パターン認識装置は、
    前記認識対象パターンデータベースから前記認識対象のパターンを取得するパターン入力部と、
    前記取得された認識対象のパターンのn次元特徴を抽出する特徴抽出部と、
    前記大分類特徴選択関数を用いて、前記抽出されたn次元特徴を前記L次元特徴に変換する大分類特徴選択部と、
    前記変換されたL次元特徴と前記大分類識別関数とを用いて、前記正解候補パターンに対する前記認識対象のパターンの類似度を算出し、一以上の前記正解候補パターンを選択する大分類識別部と、
    前記特徴選択関数を用いて、前記n次元特徴を前記m次元特徴に変換する特徴選択部と、
    前記詳細識別関数と前記変換されたm次元特徴とを用いて、前記選択された正解候補パターンに対する前記認識対象のパターンの類似度を算出する詳細識別部と、
    前記算出された類似度に基づいて、前記認識対象パターンに対する認識結果を出力する認識結果出力部と、
    を備えることを特徴とするパターン認識装置。
  8. 前記大分類識別関数は、
    前記詳細関数を取得する詳細識別関数取得ステップを実行し、
    前記取得された詳細識別関数を用いて、前記n次元特徴空間から特徴軸をM個選択する特徴軸選定ステップを実行し、
    前記特徴軸の重要度を算出する軸重要度決定ステップを実行し、
    前記特徴軸を統合して、L個の主要軸を算出する主要軸算出ステップを実行し、
    前記主要軸が生成する前記L次元特徴空間上の関数として前記詳細識別関数を変換することによって前記大分類識別関数を生成する大分類識別関数生成ステップを実行することによって生成されることを特徴とする請求項7に記載のパターン認識装置。
  9. 前記特徴選択関数は線形関数であり、前記n次元特徴xに対する前記詳細識別関数uk(x)は数5に示す2次以下の多項式関数であって、
    前記特徴軸選定ステップでは、前記n次元特徴又は前記m次元特徴yを用いて、前記詳細識別関数uk(x)を数6又は数7に示すように変形して得られるベクトルqkiを特徴軸として選択され、
    軸重要度決定ステップでは、数6又は数7における係数λkii及び係数ζkiの関数hkiを用いて特徴軸qkiの重要度が設定されることを特徴とする請求項8に記載のパターン認識装置。
    Figure 2011008634
    Figure 2011008634
    Figure 2011008634
  10. 前記主要軸算出ステップでは、前記特徴軸qkiと前記軸重要度hkiとから生成される数8に示す行列Qの固有値が算出され、前記行列Qの固有ベクトルのうち、前記算出された固有値が大きいものから順に前記固有ベクトルがL個選択され、前記選択された固有ベクトルが主要軸として算出されることを特徴とする請求項9に記載のパターン認識装置。
    Figure 2011008634
  11. 前記特徴軸選定ステップでは、前記特徴軸としてM個の任意ベクトルがランダムに選択され、又は、予め設定された指示に基づいてM個のベクトルが前記特徴軸として選択されることを特徴とする請求項8に記載のパターン認識装置。
  12. 前記軸重要度決定ステップでは、N個の前記パターンxiに対する前記詳細識別関数が、前記特徴軸qkiが生成するM次元空間上の関数として変形された関数d(xi)として算出され、前記算出された関数d(xi)の分散値σの関数として前記軸重要度hが算出されることを特徴とする請求項8に記載のパターン認識装置。
  13. プロセッサと、前記プロセッサに接続された記憶媒体とを備えるパターン認識装置であって、
    前記記憶媒体には、複数の学習用のパターンから構成される学習用パターンデータベースと、複数の認識対象のパターンから構成される認識対象パターンデータベースとが格納され、
    前記パターン認識用辞書生成装置は、
    前記学習用パターンデータベースから、各々の前記学習用のパターンを一つのカテゴリとして取得し、又は、前記認識対象パターンデータベースから前記認識対象のパターンを取得するパターン入力部と、
    前記取得されたカテゴリ毎にn次元特徴を抽出し、前記取得された認識対象のパターンのn次元特徴を抽出する特徴抽出部と、
    前記抽出されたn次元特徴を用いて、前記n次元特徴を、前記n次元以下の次元であるm次元特徴に変換する特徴選択関数を生成し、前記生成された特徴選択関数を特徴選択用辞書として前記記憶媒体に格納する特徴選択辞書生成部と、
    前記特徴選択関数を用いて、前記n次元特徴を前記m次元特徴に変換する特徴選択部と、
    前記変換されたm次元特徴を用いて、各カテゴリに対するパターンの類似度を算出するためのm次元特徴空間上の詳細識別関数を生成し、前記生成された詳細識別関数を識別用辞書として前記記憶媒体に格納する識別関数生成部と、
    前記m次元特徴を、前記m次元以下の次元であり、前記n次元特徴空間の部分空間で、かつ、前記m次元特徴空間の部分空間であるL次元特徴空間上のL次元特徴に変換する大分類特徴選択関数を生成し、前記詳細識別関数を前記L次元特徴空間上の関数として変換され、前記L次元特徴空間上で各カテゴリに対する前記パターンの類似度を算出するための大分類識別関数を生成し、前記生成された大分類特徴選択関数を前記特徴選択用辞書として前記記憶媒体に格納し、前記生成された大分類識別関数を前記識別用辞書として前記記憶媒体に格納する識別関数主要部分抽出部と、
    前記大分類特徴選択関数を用いて、前記抽出されたn次元特徴を前記L次元特徴に変換する大分類特徴選択部と、
    前記変換されたL次元特徴と前記大分類識別関数とを用いて、前記各カテゴリに対する前記認識対象のパターンの類似度を算出し、一以上の正解候補パターンを選択する大分類識別部と、
    前記特徴選択関数を用いて、前記n次元特徴を前記m次元特徴に変換する特徴選択部と、
    前記詳細識別関数と前記変換されたm次元特徴とを用いて、前記選択させた正解候補パターンに対する前記認識対象のパターンの類似度を算出する詳細識別部と、
    前記算出された類似度に基づいて、前記認識対象パターンに対する認識結果を出力する認識結果出力部と、
    を備えることを特徴とするパターン認識装置。
  14. 前記識別関数主要部分抽出部は、
    前記詳細関数を取得する詳細識別関数取得ステップを実行し、
    前記取得された詳細識別関数を用いて、前記n次元特徴空間から特徴軸をM個選択する特徴軸選定ステップを実行し、
    前記特徴軸の重要度を算出する軸重要度決定ステップを実行し、
    前記特徴軸を統合して、L個の主要軸を算出する主要軸算出ステップを実行し、
    前記主要軸が生成する前記L次元特徴空間上の関数として前記詳細識別関数を変換することによって前記大分類識別関数を生成する大分類識別関数生成ステップを実行することを特徴とする請求項13に記載のパターン認識用辞書生成装置。
  15. 前記特徴選択関数は線形関数であり、前記n次元特徴xに対する前記詳細識別関数uk(x)は数9に示す2次以下の多項式関数であって、
    前記特徴軸選定ステップは、
    前記識別関数主要部分抽出部が、前記n次元特徴又は前記m次元特徴yを用いて、前記詳細識別関数uk(x)を数10又は数11に示すように変形して得られるベクトルqkiを特徴軸として選択するステップを含み、
    軸重要度決定ステップは、
    前記識別関数主要部分抽出部が、数10又は数11における係数λkii及び係数ζkiの関数hkiを用いて特徴軸qkiの重要度を設定するステップを含むことを特徴とする請求項14に記載のパターン認識装置。
    Figure 2011008634
    Figure 2011008634
    Figure 2011008634
  16. 前記主要軸算出ステップは、
    前記識別関数主要部分抽出部が、前記特徴軸qkiと前記軸重要度hkiとから生成される数12に示す行列Qの固有値を算出するステップと、
    前記識別関数主要部分抽出部が、前記行列Qの固有ベクトルのうち、前記算出された固有値が大きいものから順に、前記固有ベクトルをL個選択し、前記選択された固有ベクトルを主要軸として算出するステップと、を含むことを特徴とする請求項15に記載のパターン認識装置。
    Figure 2011008634
  17. パターン認識用辞書生成装置は、ユーザがパターン認識用辞書生成装置を操作するための入力部を備え、
    前記特徴軸選定ステップは、前記識別関数主要部分抽出部が、ランダムにM個の任意ベクトルを前記特徴軸として選択するステップ、又は、前記ユーザから指示に基づいてM個のベクトルを前記特徴軸として選択するステップ、を含むことを特徴とする請求項14に記載のパターン認識装置。
  18. 前記軸重要度決定ステップは、前記識別関数主要部分抽出部が、N個の前記学習用のパターンxiに対する前記詳細識別関数を、前記特徴軸qkiが生成するM次元空間上の関数として変形された関数d(xi)を算出し、前記算出された関数d(xi)の分散値σの関数として前記軸重要度hを算出することを特徴とする請求項2に記載のパターン認識用辞書生成装置。
  19. プロセッサと、前記プロセッサに接続された記憶媒体とを備えるパターン認識用辞書生成装置におけるパターン認識用辞書生成方法であって、
    前記記憶媒体には、複数の学習用のパターンから構成される学習用パターンデータベースが格納され、
    前記方法は、
    前記パターン認識用辞書生成装置が、前記学習用パターンデータベースから、各々の前記学習用のパターンを一つのカテゴリとして取得する第1のステップと、
    前記パターン認識用辞書生成装置が、前記取得されたカテゴリ毎にn次元特徴を抽出する第2のステップと、
    前記パターン認識用辞書生成装置が、前記抽出されたn次元特徴を用いて、前記n次元以下の次元であるm次元特徴に前記n次元特徴を変換する特徴選択関数を生成し、前記生成された特徴選択関数を特徴選択用辞書として前記記憶媒体に格納する第3のステップと、
    前記パターン認識用辞書生成装置が、前記特徴選択関数を用いて、前記抽出されたn次元特徴を前記m次元特徴に変換する第4のステップと、
    前記パターン認識用辞書生成装置が、前記変換されたm次元特徴を用いて、各カテゴリに対する認識対象のパターンの類似度を算出するためのm次元特徴空間上の詳細識別関数を生成し、前記生成された詳細識別関数を識別用辞書として前記記憶媒体に格納する第5のステップと、
    前記パターン認識用辞書生成装置が、前記m次元以下の次元であり、前記n次元特徴空間の部分空間で、かつ、前記m次元特徴空間の部分空間であるL次元特徴空間上のL次元特徴に前記m次元特徴を変換する大分類特徴選択関数を生成し、前記詳細識別関数を前記L次元特徴空間上の関数として変換することによって前記L次元特徴空間上で各カテゴリに対する前記パターンの類似度を算出するための大分類識別関数を生成し、前記生成された大分類特徴選択関数を前記特徴選択用辞書として前記記憶媒体に格納し、前記生成された大分類識別関数を前記識別用辞書として前記記憶媒体に格納する第6のステップと、
    を含むことを特徴とするパターン認識用辞書生成方法。
  20. 前記第6のステップは、
    前記パターン認識用辞書生成装置が、前記詳細関数を取得する詳細識別関数取得ステップと、
    前記パターン認識用辞書生成装置が、前記取得された詳細識別関数を用いて、前記n次元特徴空間から特徴軸をM個選択する特徴軸選定ステップと、
    前記パターン認識用辞書生成装置が、前記特徴軸の重要度を算出する軸重要度決定ステップと、
    前記パターン認識用辞書生成装置が、前記特徴軸を統合して、L個の主要軸を算出する主要軸算出ステップと、
    前記パターン認識用辞書生成装置が、前記主要軸が生成する前記L次元特徴空間上の関数として前記詳細識別関数を変換することによって前記大分類識別関数を生成する大分類識別関数生成ステップと、
    を含むことを特徴とする請求項19に記載のパターン認識用辞書生成方法。
  21. 前記特徴選択関数は線形関数であり、前記n次元特徴xに対する前記詳細識別関数uk(x)は数13に示す2次以下の多項式関数であって、
    前記特徴軸選定ステップは、
    パターン認識用辞書生成装置が、前記n次元特徴又は前記m次元特徴yを用いて、前記詳細識別関数uk(x)を数14又は数15に示すように変形して得られるベクトルqkiを特徴軸として選択するステップを含み、
    軸重要度決定ステップは、
    パターン認識用辞書生成装置が、数14又は数15における係数λkii及び係数ζkiの関数hkiを用いて特徴軸qkiの重要度を設定するステップを含むことを特徴とする請求項20に記載のパターン認識用辞書生成方法。
    Figure 2011008634
    Figure 2011008634
    Figure 2011008634
  22. 前記主要軸算出ステップは、
    前記識別関数主要部分抽出部が、前記特徴軸qkiと前記軸重要度hkiとから生成される数16に示す行列Qの固有値を算出するステップと、
    前記識別関数主要部分抽出部が、前記行列Qの固有ベクトルのうち、前記算出された固有値が大きいものから順に前記固有ベクトルをL個選択し、前記選択された固有ベクトルを主要軸として算出するステップと、を含むことを特徴とする請求項21に記載のパターン認識用辞書生成方法。
    Figure 2011008634
  23. パターン認識用辞書生成装置は、ユーザがパターン認識用辞書生成装置を操作するための入力部を備え、
    前記特徴軸選定ステップは、パターン認識用辞書生成装置が、ランダムにM個の任意ベクトルを前記特徴軸として選択するステップ、又は、前記ユーザから指示に基づいてM個のベクトルを前記特徴軸として選択するステップ、を含むことを特徴とする請求項20に記載のパターン認識用辞書生成方法。
  24. 前記軸重要度決定ステップは、前記識別関数主要部分抽出部が、N個の前記学習用のパターンxiに対する前記詳細識別関数を、前記特徴軸qkiが生成するM次元空間上の関数として変形された関数d(xi)を算出するステップと、前記算出された関数d(xi)の分散値σの関数として前記軸重要度hを算出するステップと、含むをことを特徴とする請求項20に記載のパターン認識用辞書生成方法。
JP2009152887A 2009-06-26 2009-06-26 パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法 Active JP5353482B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009152887A JP5353482B2 (ja) 2009-06-26 2009-06-26 パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009152887A JP5353482B2 (ja) 2009-06-26 2009-06-26 パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法

Publications (2)

Publication Number Publication Date
JP2011008634A true JP2011008634A (ja) 2011-01-13
JP5353482B2 JP5353482B2 (ja) 2013-11-27

Family

ID=43565185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009152887A Active JP5353482B2 (ja) 2009-06-26 2009-06-26 パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法

Country Status (1)

Country Link
JP (1) JP5353482B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013114596A (ja) * 2011-11-30 2013-06-10 Kddi Corp 画像認識装置及び方法
US10891516B2 (en) 2018-03-13 2021-01-12 Fujitsu Limited Non-transitory computer-readable recording medium, learning method, and learning apparatus
US11580383B2 (en) 2017-03-16 2023-02-14 Nec Corporation Neural network learning device, method, and program
CN116048478A (zh) * 2023-03-07 2023-05-02 智慧眼科技股份有限公司 一种字典转义方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184509A (ja) * 1999-12-24 2001-07-06 Nec Corp パターン認識装置及び方法並びに記録媒体
JP2006059284A (ja) * 2004-08-24 2006-03-02 Nippon Telegr & Teleph Corp <Ntt> 物体識別装置、物体識別方法、およびこの方法のプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184509A (ja) * 1999-12-24 2001-07-06 Nec Corp パターン認識装置及び方法並びに記録媒体
JP2006059284A (ja) * 2004-08-24 2006-03-02 Nippon Telegr & Teleph Corp <Ntt> 物体識別装置、物体識別方法、およびこの方法のプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013114596A (ja) * 2011-11-30 2013-06-10 Kddi Corp 画像認識装置及び方法
US11580383B2 (en) 2017-03-16 2023-02-14 Nec Corporation Neural network learning device, method, and program
US10891516B2 (en) 2018-03-13 2021-01-12 Fujitsu Limited Non-transitory computer-readable recording medium, learning method, and learning apparatus
CN116048478A (zh) * 2023-03-07 2023-05-02 智慧眼科技股份有限公司 一种字典转义方法、装置、设备及计算机可读存储介质
CN116048478B (zh) * 2023-03-07 2023-05-30 智慧眼科技股份有限公司 一种字典转义方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
JP5353482B2 (ja) 2013-11-27

Similar Documents

Publication Publication Date Title
WO2018167900A1 (ja) ニューラルネットワーク学習装置、方法、およびプログラム
JP5207870B2 (ja) 次元削減方法、パターン認識用辞書生成装置、及びパターン認識装置
Justino et al. The interpersonal and intrapersonal variability influences on off-line signature verification using HMM
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
Haque et al. Two-handed bangla sign language recognition using principal component analysis (PCA) and KNN algorithm
US20200293807A1 (en) Adaptive image cropping for face recognition
Dixit et al. Object based scene representations using fisher scores of local subspace projections
JP5353482B2 (ja) パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法
Wan et al. Cost-sensitive label propagation for semi-supervised face recognition
Jena et al. Implementation of linear discriminant analysis for Odia numeral recognition
JPH0520442A (ja) 顔画像照合装置
JP2009134466A (ja) 認識処理装置、方法及びコンピュータプログラム
JP5683287B2 (ja) パターン認識装置及びパターン認識方法
Kishan et al. Handwritten character recognition using CNN
WO2011058605A1 (ja) 計量空間学習装置
CN113011163A (zh) 基于深度学习模型的复合文本多分类方法及系统
ALtememe et al. Gesture Interpreting of Alphabet Arabic Sign Language Based on Machine Learning algorithms
Aliakbarzadeh et al. Online Persian/Arabic writer identification using gated recurrent unit neural networks
Vinodini et al. Face detection and recognition system based on hybrid statistical, machine learning and nature-based computing
Sridharamurthy et al. PCA based feature vector for handwritten kannada characters recognition
Chen et al. Learning pattern generation for handwritten Chinese character using pattern transform method with cosine function
Eko Bonferroni Mean Fuzzy K-Nearest Neighbors Based Handwritten Chinese Character Recognition
Park A method to convert non-numeric characters into numerical values in dynamic time warping for string matching
Bhopi et al. Review on optical character recognition of Devanagari script using neural network
Okediran et al. A Comparative Analysis of Selected Fisher Linear Discriminant Based Algorithms in Human Faces

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130723

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20130809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130812

R150 Certificate of patent or registration of utility model

Ref document number: 5353482

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250