JP2015175859A

JP2015175859A - パターン認識装置、パターン認識方法及びパターン認識プログラム

Info

Publication number: JP2015175859A
Application number: JP2014049544A
Authority: JP
Inventors: 恒雄新田; Tsuneo Nitta
Original assignee: Waseda University
Current assignee: Waseda University
Priority date: 2014-03-12
Filing date: 2014-03-12
Publication date: 2015-10-05

Abstract

【課題】パターン（音声、文字、顔等のベクトルデータ）からその特徴部分を正確に抽出し、かつ性能良くパターンを認識することができ、パターン認識に要する演算量を低減させることができるパターン認識装置を提供すること。【解決手段】入力パターンのパワースペクトルを算出するための分析部と入力パターンの特徴を双対空間に写像してクラス共通特徴ベクトル系列に変換するパターン特徴抽出部と、テンソル空間において、入力パターンの素性クラス別の固有ベクトルを埋め込んだ関連性行列を形成し、関連性行列を特異値分解することにより左特異ベクトルと右特異ベクトルを生成し、入力パターンの素性共通特徴ベクトルを左特異ベクトルへ写像した後、右特異ベクトルとの間で素性毎の類似度ベクトル系列を生成する素性識別部と、素性類似度ベクトル系列を後段の特徴識別部(多層パーセプション)を介してパターン認識部へ送り認識結果を得ることを特徴とする。【選択図】図１

Description

本発明は、パターンに対して、主成分分析とテンソル解析の二つを組み合わせてクラス分類を行うことにより、パターンの特徴を高い精度で識別し得るパターン認識装置、パターン認識方法及びパターン認識プログラムに関する。更に、詳しくは双対空間とテンソル空間における直交化ベクトル系列生成の手法を用いて、高い精度にてパターンを認識し得るパターン認識装置、パターン認識方法及びパターン認識プログラムに関する。

人間は、日常生活において、音・音声、文字・画像・映像を通じて入力される膨大なマルチモーダル情報データからなるパターンを処理している。処理には、パターンを認識し、パターンを分類し、パターンを理解する機能が含まれる。例えば、本や新聞等を読むとき、人間は視覚を通じて入力された文字パターンと、学習しているパターンとを照合して、文字や単語の意味を理解する。また音声を聴くときは、聴覚を通じて入力された音声パターンと、学習しているパターンとを照合して、発話の意味を理解する。さらに人間が人の顔を観るときは、視覚を通じて入力された画像パターンと、学習しているパターンとを照合して他人を識別したり、情動を理解したりすることができる。

近年、人間にとって最も自然なコミュニケーション手段である音声を利用した多くのシステムが登場し、音声認識技術はスマートフォンやＷＥＢブラウザなどにも導入されている。一方、音声認識システムの普及に伴い、基盤技術として音声認識エンジンの一層の性能向上が求められている。

現在の音声認識システムは、音響分析から求められるメル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficients; ＭＦＣＣと略することがある。）を特徴パラメータとし、ＭＦＣＣ時系列を隠れマルコフ(Hidden Markov Model; ＨＭＭと略することがある。) の確率過程として扱う手法が主流になっている。

一方、多層パーセプトロン(Multi- Layer- Perceptron; ＭＬＰと略することがある。) を数段重ねるディープニューラルネットワーク (Deep Neural Network；ＤＮＮと略することがある。) を用いて、音素や調音などの素性を抽出し、これらの系列をＨＭＭ確率モデルとして表現する音声認識システムの研究が盛んになっている（例えば、非特許文献１及び図７)。

図７に一例として、従来のこのような音声認識システムを示した。図７に示すように、この音声認識システムは、多段からなるＭＬＰを備えており(各3層のＭＬＰを５〜７段連ねたものが利用される)、かつ、音素素性や調音素性を抽出するに際しては、ＭＬＰ毎に重み係数を設定しなければならないものとなっている。

いわゆる調音素性（Articulatory Feature; 以下、「ＡＦ」と略する。）は、調音様式（有声、無声、破裂音、摩擦音など）と調音部位（前舌、後舌、半狭、半広など）からなる。ＡＦは，話者に依存しない特徴であるため，精度よく抽出できるなら高い音声認識性能を期待できる。また，多言語を対象とする音声認識システムの構築にも適している。

しかしながら、現在のＡＦ素性抽出あるいは音素素性抽出はＭＬＰを数段重ねて抽出するため、ＭＬＰにおける抽出精度向上と共に、高い計算コストが課題になっている（例えば、非特許文献２）。

また、音声、文字、画像、映像信号等のデータからなるパターンを認識するシステムとしては、以下のシステムがある。例えば、パターン（音声、文字、画像、映像信号等のデータ）から、離散的な部分クラス（音素、調音素性、ストローク、顔部品等）を抽出し、それらのパターン素性の類似度系列として出力することができる特徴抽出器が提案されている。かかる特徴抽出器は、主成分分析法（ＰＣＡ）等の分析方法を採用している。主成分分析法（ＰＣＡ）は、パターン素性のクラス内の情報のみを対象としており、パターン素性のクラス間の情報を対象としていないためパターン認識の性能に限界があった。

一方、パターン素性のクラス間の情報を対象とする特徴抽出器として、線形判別分析法（Linear Discriminant Analysis; ＬＤＡと略することがある。）の分析方法を採用した特徴抽出器が提案されている。線形判別分析法は、クラス間の情報を良く識別する特徴を選択する方法である。グループ分けの境界が直線、又は超直面であり、線形関数を用いてグループの所属の判別を行なう方法である。線形判別分析法（ＬＤＡ）の分析方法を採用した特徴抽出器においては、線形関数を用いてグループ間の所属の判別を行っているため、パターン認識の性能に限界があった。

さらに、音声データを認識するシステムとしては、音素の弁別特徴ベクトルをＭＬＰと主成分分析法（ＰＣＡ）により抽出し、音素認識をする方法が提案されている（例えば、非特許文献３）。また、音素ベクトルを主成分分析（ＰＣＡ）から抽出し、認識性能を向上させた音素認識をする方法が提案されている（例えば、非特許文献４）。

しかしながら、上記いずれの方法を採用した特徴抽出器を用いても、膨大な情報量として、パターン（音声、文字、画像、映像信号等のデータ）からその特徴部分を正確に抽出し、かつ性能よくパターンを認識することができないという問題点があった。

特に、近年においては、ブログ、動画サイト、フェイスブック（登録商標）、Twitter（登録商標）といったＳＮＳの利用者の増加、パソコン、スマートフォン等の端末から文字のみならず、音声、写真、動画等のデジタルデータがインターネット上の様々なサーバーコンピューターに蓄積されており、パターンから構成される「ビッグデータ」は数百兆バイト以上と云われている。このような状況の中、音声データ、文字データ、画像データ等から構成される膨大なデータから構成されるパターンの特徴を高い精度で識別し得るパターン認識装置が必要不可欠となっている。なお、本件特許出願人は、上記文献公知発明が記載された刊行物として、以下の刊行物を提示する。

[x] Chin-Hui Lee, Mark A. Clements, Sorin Dusan, Eric Fosler-Lussier, Keith Johnson, Biing-Hwang Juang, and Lawrence R.Rabiner, "An Overview on Automatic Speech Attribute Transcription (ASAT), " Proc. Interspeech, Antwerp, Belgium, August 2007. [y] Mohammad Nurul Huda, Hiroaki Kawashima, and Tsuneo Nitta, "Distinctive Phonetic Feature (DPF) extraction based on MLPs and Inhibition/ Enhancement Network, " IEICE Trans. Inf. & Syst., Vol.E92-D, No. 4, pp.671-680 (2009). 福田、新田「頑健な音声認識のための音素特徴ベクトル直行化方式の検討」情報処理学会研究報告、２００３年−ＳＬＰ−４９，２００３．朴、溝口、有木「ＰＣＡを用いた音素ベクトルによる音声特徴量の抽出の検討」日本音響学会秋季研究発表会１−ｐ−２６，２００７

本発明は、かかる技術的事情に鑑みなされたものであって、膨大なデータから構成されるパターン（音声、文字、画像、映像信号、顔等）からその特徴部分を正確に抽出し、かつ性能よくパターンを認識することができ、しかもその演算量を低減させることができるパターン認識装置、パターン認識方法及びパターン認識プログラムを提供することを課題とする。具体的には、パターンが音声である場合には、音素や調音素性などの素性抽出精度を高め、かつ演算量が多段ＭＬＰ（近年はＤＮＮと総称される。）と比較して、格段に少ない音声認識装置、音声認識方法及び音声認識プログラムを提供することを課題とする。

本件発明者は、鋭意技術的検討を行った結果、パターン（音声、文字、画像、映像信号、顔等のベクトルデータ）に対して、主成分分析とテンソル解析の二つを組み合わせてクラス分類を行うことにより、パターンの特徴を高い精度で識別することができ、しかも演算量が多段ＭＬＰに比較して格段に減少できることを見出し、本発明を完成するに至った。より具体的には、本発明は以下の技術的事項から構成される。

（１）パターン素性類似度ベクトルを抽出することにより入力パターンを認識することができるパターン認識装置であって、入力パターンから特徴を算出する前処理部と、前記入力パターンの特徴を素性共通の双対空間に写像して素性共通特徴ベクトル系列に変換するパターン特徴抽出部と、予め前記素性共通特徴ベクトル系列から求めた素性別固有ベクトルを埋め込んだ関連性行列(2階のテンソル)を形成し、前記関連性行列を特異値分解することにより左特異ベクトルと右特異ベクトルを生成し、前記パターン特徴抽出部から出力される入力パターンの素性共通特徴ベクトル系列を前記左特異ベクトルへ写像した後、右特異ベクトルとの間で素性毎の類似度ベクトル系列を生成する素性識別部と、前記素性類似度ベクトル系列を多層パーセプトロン（ＭＬＰ）により個別素性に分類する後段の特徴識別部を備えたことを特徴とするパターン認識装置。

（２）前記パターン特徴抽出部は、予め前記入力パターンの集合から固有値問題を解いて素性別の固有ベクトルφ（ｋ，ｍ）を求め、以下の数式に基づいて前記入力パターン集合に関する素性共通の相関行列Ｒを算出した後、固有値問題を解いて素性共通の固有ベクトルφ（ｍ）を設計することを特徴とする（１）記載のパターン認識装置。

（上記式中、Ｒ：クラス共通の相関行列、Ｋ：クラス数、Ｍ：固有ベクトルの数、ｋ：クラス番号、ｍ：固有ベクトル番号、φ（ｋ，ｍ）：素性別固有ベクトル、Ｔは転置を表す。）

（３）パターン素性類似度ベクトルを抽出することにより入力パターンを認識することができるパターン認識方法であって、入力パターンから特徴を算出する前処理ステップと、前記入力パターンの特徴を素性共通の双対空間に写像してクラス共通特徴ベクトル系列に変換するパターン特徴抽出ステップと、予め前記素性共特徴ベクトルから求めた素性別の固有ベクトルを埋め込んだ関連性行列(２階テンソル)を形成し、前記関連性行列を特異値分解することにより左特異ベクトルと右特異ベクトルを生成し、前記パターン特徴抽出部から出力される入力パターンの素性共通特徴ベクトル系列を前記左特異ベクトルへ写像した後、右特異ベクトルとの間で素性毎の類似度ベクトル系列を生成する素性識別部と、前記素性類似度ベクトル系列を多層パーセプトロン（ＭＬＰ）により個別素性に分類する後段の特徴識別部を備えたことを特徴とするパターン認識方法。

（４）前記パターン特徴抽出ステップは、予め前記入力パターンの集合から固有値問題を解いて素性別の固有ベクトルφ（ｋ，ｍ）を求め、以下の数式に基づいて前記入力パターン集合に関する素性共通の相関行列Ｒを算出した後、固有値問題を解いて素性共通の固有ベクトルφ（ｍ）を設計することを特徴とする（３）記載のパターン認識方法。

（上記式中、Ｒ：クラス別共通の相関行列、Ｋ：クラス数、Ｍ：固有ベクトルの数、ｋ：クラス番号、ｍ：固有ベクトル番号、φ（ｋ，ｍ）：素性別固有ベクトル、Ｔは転置を表す。）

（５） (３)（４）に記載のパターン認識方法を、コンピュータに実行させるためのパターン認識プログラム。

本発明によれば、パターン（音声、文字、画像、映像信号、顔等）に対して主成分分析とテンソル解析の二つを組み合わせてクラス分類を行うことにより、パターンの特徴を高い精度で認識することができ、しかも演算量をＭＬＰに比較して格段に減少することができるパターン認識装置が提供される。すなわち、本発明のパターン認識装置は、入力パターンをその素性（音声、文字、画像、映像信号、顔等）を表現するベクトルに精度良くかつ効率的に変換したことにより、従来のパターン認識装置のようにニューラルネットワーク等の多段ＭＬＰの非線形処理等の計算付加を大きく削減することができ、同時にパターン認識の性能限界も解消することができる。

本発明の音素（もしくは調音）素性に基づくパターン（音素）認識装置を示した図である。音素固有ベクトルの例を示した図である。音声特徴ベクトル系列から素性類似度ベクトル系列への変換システムを示した図である。関連性行列Ａ（二階テンソル）への固有ベクトルセット（ｋ，ｍ，ｎ）の埋め込みと特異値分解を利用した音素素性類似度ベクトルＳ（ｋ）の生成システムを示した図である。パターン認識装置の動作手順を示したフローチャートである。パターン（音素）認識性能を比較したグラフである。従来の音素（もしくは調音）素性の多層パーセプトロン(Multi-Layer Perceptron; ＭＬＰ)変換によるパターン認識装置を示した図である。

図１は、パターン（音素）認識装置１の構成を示したモデル図である。図１を参照して、パターン認識装置１の電気的構成を説明する。パターン認識装置１は、図示しないマイク等の音声入力装置から入力されるパターン（音声）にＢＰＦ（Band Path Filter）を適用するＢＰＦ分析部２と、パターンの特徴を抽出し、パターン特徴ベクトル系列を生成する特徴抽出部３と(以上が音声認識での前処理に相当)、パターン特徴ベクトル系列に基づいて関連性行列に固有ベクトルセットを埋め込み、特異値分解を利用したパターン素性類似度ベクトル系列を生成するための音素/もしくは調音素性変換器４と、特徴ベクトル系列を学習する特徴ベクトル学習ＤＢ（Database: 以下、「ＤＢ」と略する。）５と、素性類似度ベクトル系列をＭＬＰ（Multi-Layer-Perceptron）変換するＭＬＰ変換器６と、ＭＬＰ変換されたパターン素性類似度ベクトル系列をＨＭＭ学習する学習ＤＢ７と、認識部８とにより構成される。

パターン認識装置１において、ＢＰＦ分析部２、特徴抽出部３、ベクトル変換器４、ＭＬＰ変換器６及び認識部８は、コンピュータの中央演算処理装置１１が、以下に説明する処理手順に従い、数値演算や制御などの処理を実行することで構成される。また、特徴ベクトル学習ＤＢ５及び類似度ベクトル学習ＤＢ７は、何れも前記中央演算処理装置１１と電気的に接続するコンピュータの記憶装置１２に設けられる。記憶装置１２はその他に、中央演算処理装置１１によって実行される処理手順に対応した音声認識プログラムを格納している。

中央演算処理装置１１は、例えば入出力インターフェースを備えたＣＰＵなどが使用可能である。また記憶装置１２は、例えばＲＯＭ（リード・オンリー・メモリ）や、ＲＡＭ（ランダム・アクセス・メモリ）や、ＨＤＤ（ハードディスクドライブ）などが使用可能である。ここには図示しないが、話者音声の入力を可能にするにマイクロホンなどの入力装置や、例えば認識部８で得られた認識結果などの出力を可能にするディスプレイやスピーカなどの出力装置を、中央演算処理装置１１の入出力インターフェースと電気的に接続してもよい。

なお、本発明におけるパターン認識装置１のハードウェア構成は、図１に示すものに限定されない。従って、インターネットなどの通信ネットワークを介して、パターン認識装置１の一部の構成を電気的に接続しても構わない。

また、本実施形態のパターン認識装置１とパターン認識プログラムは、他のシステムから独立して設けられているが、本発明はこの構成に限定されない。従って、他の装置の一部として組込まれた構成や，他のプログラムの一部として組込まれた構成とすることも可能である。また、その場合における入出力は、上述の他の装置やプログラムを介して間接的に行われることになる。

入力装置を利用する場合、多数のパターン（音声、文字、画像、映像信号、顔等）を入力装置に入力する毎に、そのパターンが入力装置でアナログ電気信号に変換され、コンピュータに備えたＡ／Ｄ変換部（図示せず）に出力される。これを受けて、Ａ／Ｄ変換部で変換されたデジタル電気信号を中央演算処理装置１１に取り込むことで、中央演算処理装置１１が取り込まれたパターンを処理し得るように構成されている。

ＢＰＦ分析部２は、例えば、２４チャンネル程度の帯域フィルタ(BPF)群を有し、中心周波数がメル尺度間隔で設定されている。音声信号は、帯域フィルタ(BPF)群に入力され、音響特徴ベクトル系列としてスペクトルパターンが出力される。この音響特徴ベクトル系列は、特徴抽出部３に送信される。

特徴抽出部３は、ＢＰＦ分析部２から送信された音響特徴ベクトル系列から、一般的に離散コサイン変換（Discrete cosine Transform; ＤＣＴ）によりメル周波数ケプストラム係数（Mel-frequency Cepstrum Coefficient; ＭＦＣＣ）が抽出される。ここでは、音響特徴ベクトル系列からＤＣＴによりＭＦＣＣを抽出したが、これに限らず、音響特徴ベクトル系列に対して二次元の畳み込み演算を施したり、局所特徴（Local Feature）の抽出を行ったりしてもよい。

これらの処理により、音響特徴ベクトル系列は音声が持つ構造的な特徴を表す音声特徴ベクトル系列に変換される。音声特徴ベクトル系列は、１音声サンプル等のパターンにおいて、１フレームにつきｍ次元の特徴ベクトルを持つような複数フレームからなる。特徴抽出部３は、得られたパターン（音声）特徴ベクトル系列をベクトル変換器４に送信する。また、特徴抽出部３は、オフライン処理による学習時に特徴ベクトル学習ＤＢ５にパターン（音声）特徴ベクトル系列を送信するように構成されている。

また、周波数遷移では、「ｂａ」が低周波から母音「ａ」の第二フォルマントに向けて高周波に遷移している。「ｄａ」及び「ｇａ」では、高周波から母音「ａ」の第二フォルマントに向けて低周波に遷移する。なお、「ｄａ」及び「ｇａ」では後者の方が高い周波数から遷移しており、以上に述べたスペクトル上の特徴は、これまで音声学で指摘されてきた知見に合致している。

ＢＰＦ分析部２で得られる固有ベクトルφ（ｋ，ｍ）(図の例ではｋ＝「ｂ」、「ｄ」及び「ｇ」、ｍ＝固有ベクトルの軸数)は、音素を素性としているが、調音素性として抽出することも可能である。

特徴抽出部３は、ＢＰＦ分析部２から送信される音響特徴ベクトル系列を音響分析することにより求められるメル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficients; ＭＦＣＣ）を特徴パラメータとして取得する。例えば、図２には、各音声における特徴的なスペクトルパターンが楕円で囲まれて示されており、ここで取得する特徴パラメータが可視化されている。なお、特徴パラメータを取得する方法は、ＭＦＣＣに限らず、音響特徴ベクトル系列から特徴パラメータが得られる方法であればよく、他にＬＰＣを用いてもよい。

このＭＦＣＣの特徴パラメータは、１音声サンプル等のパターンにおいて、１フレームにつきｎ次元の特徴ベクトルを持つような複数フレームからなるパターン（音声）特徴ベクトル系列である。特徴抽出部３は、入力されたパターン（音声）の特徴が抽出されたパターン（音声）特徴ベクトル系列をベクトル変換器４に送信するとともに、学習用ＤＢ５に送信する。学習用ＤＢ５は、得られた音声特徴ベクトル系列を保存する。

図３は、パターン（音声）特徴ベクトル系列からパターン素性類似度ベクトル系列への変換システムを示した図である。ベクトル変換器４は、特徴抽出部３からベクトル変換器４に送信されたパターン（音声）特徴ベクトル系列を基礎として、双対空間において、パターン素性クラス別自己相関行列Ｒ（ｋ）からパターン素性クラス共通固有ベクトルΦ（ｍ）を算出するパターン素性共通固有ベクトル手段３１と、テンソル空間において、パターン素性クラス共通固有ベクトルΦ（ｍ）でパターン（音声）特徴ベクトル系列を正規化し、この正規化されたパターン（音声）特徴ベクトル系列のパターン素性クラス別自己相関行列Ｒ’（ｋ）から左特異ベクトルＵ（ｎ，ｋ）及び右特異ベクトルＶ（ｒ，ｋ）を算出する特異ベクトル算出手段３２と、特異ベクトル算出手段３２によって算出した特異ベクトルを用いてパターン素性類似度ベクトルを算出するパターン素性類似度ベクトル算出手段３３と、を備えている。ここで、ｋはクラスを表し、ｍは固有ベクトルの軸数を表す。

パターン素性共通固有ベクトル手段３１は、ベクトル変換器４に送信されたパターン（音声）特徴ベクトル系列から得られるパターン素性クラス別自己相関行列Ｒ（ｋ）を用いて、パターン素性クラス別固有ベクトルΦ（ｋ，ｍ）を算出する。パターン素性クラス別固有ベクトルΦ（ｋ，ｍ）の算出はパターン素性クラス別自己相関行列Ｒ（ｋ）の固有方程式を解くことにより行う。

さらに、パターン素性共通固有ベクトル手段３１は、双対空間において、得られたパターン素性クラス別固有ベクトルΦ（ｋ，ｍ）からクラス共通のパターン素性クラス共通相関行列Ｒを次式により求める。

（上記式中、Ｒ：クラス共通の相関行列、Ｋ：クラス数、Ｍ：固有ベクトルの数、ｋ：クラス番号、ｍ：固有ベクトルの番号、φ（ｋ，ｍ）：素性別の固有ベクトル、Ｔは転置を表す。）

ここで得られるパターン素性クラス共通相関行列Ｒに対して、パターン素性クラス別固有ベクトルΦ（ｋ，ｍ）の算出と同様にして、固有値問題｛Ｒ−λ（ｍ）・Ｉ｝φ（ｍ）＝０を解くことで、パターン素性クラス共通固有ベクトルΦ（ｍ）を算出する。このパターン素性クラス共通固有ベクトルΦ（ｍ）と、ベクトル変換器４に送信されたパターン（音声）特徴ベクトル系列とで内積計算することで、素性線形写像が行われパターン素性クラス共通固有ベクトル系列が得られる。

このような操作により、パターン素性共通固有ベクトル手段３１では、クラス毎に直交していないパターン素性クラス共通固有ベクトルΦ（ｍ）を有していたパターン（音声）特徴ベクトル系列が、全てのクラスで直交する基底であるパターン素性クラス共通固有ベクトルΦ（ｍ）で正規化されたパターン素性クラス共通固有ベクトル系列が得られたことになる。即ち、このクラス全体は、冗長性のない(正規)直交空間で形成することができる。

パターン素性共通固有ベクトル手段３１は、このパターン素性クラス共通固有ベクトル系列パターンを特異ベクトル算出手段３２に送信する。学習用ＤＢ５は、得られたパターンの素性線形写像を保存する。

特異ベクトル算出手段３２は、テンソル空間において、パターン素性共通固有ベクトル手段３１から送信されたパターン素性クラス共通固有ベクトル系列を用いて、左特異ベクトルＵ（ｎ，ｋ）及び右特異ベクトルＶ（ｒ，ｋ）を算出する。

特異ベクトル算出手段３２は、パターン素性共通固有ベクトル手段３１から送信されたパターン素性クラス共通固有ベクトル系列を用いて、パターン素性クラス別自己相関行列Ｒ’（ｋ）を取得する。このパターン素性クラス別自己相関行列Ｒ'（ｋ）は、パターン素性クラス別固有ベクトルΦ（ｋ，ｍ）の算出と同様にして、固有値問題を解くことで、パターン素性クラス別固有ベクトルψ（ｋ，ｍ，ｎ）を算出する。

図４は、関連性行列Ａ（二階テンソル）への固有ベクトルセット（ｋ，ｍ，ｎ）の埋め込みと特異値分解を利用した音素素性類似度ベクトルＳ（ｋ）の生成システムを示した図である。ここで、関連性行列とは、主成分分析で用いる正方行列かつ対称行列とは異なり、長方形かつ非対象行列として表現される。この行列は、パターン素性クラス間の関連性を表すため、関連性行列と呼ぶ。すなわち、関連性行列は、パターン素性が音声である場合に分野ごとに使われる語彙セットの集合の類似性と特異性を表している。

ここで、関連性行列Ａは、特異値分解により、Ａ・Ａ^TとＡ^T・Ａの２通りの相関行列表現を基に固有値（重み係数）に相当するＳ（ｒ，ｒ）と２通りの固有ベクトルに相当する左特異ベクトルＵ（ｎ，ｒ）と、右特異ベクトルＶ（ｒ，ｋ）に分解される。すなわち、関連性行列Ａは、以下の数式にて表される。

上記数式において、左特異ベクトルＵ（ｎ，ｒ）は、関連性行列Ａの縦方向のベクトル属性に対する主成分を表し、一方、右特異ベクトルＶ（ｒ，ｋ）は、関連性行列Ａの横方向のベクトル（クラスごとの偏りを表現するベクトル）に対する主成分と表す。Ｓ（ｒ，ｒ）は、固有値（重み係数）である。主成分分析同様、左特異ベクトルＵ（ｎ，ｒ）の軸数を抑えることにより、情報圧縮することも可能である。パターン素性のクラスを分類する際には、入力パターンである入力ベクトルｘから、まず、上位の特異値に相当する左特異ベクトルＵ（ｎ，ｒ）へ写像する。

具体的には、入力ベクトルｘと左特異ベクトルＵ（ｎ，ｒ）との内積を計算した結果であるｒ個の要素を繋いだベクトルを得る。このとき、固有値（重み係数）に相当するＳ（ｒ，ｒ）を考慮する場合と、Ｓ（ｒ，ｒ）を省いて写像する場合がある。続いて、右特異ベクトルＶ（ｒ，ｋ）との間でパターン素性のクラスｋごとに類似度を計算し、最大値を与えるクラスを入力パターンである入力ベクトルｘが属する分野（スポーツ、料理・・・等）とする。

以上説明したように、テンソル表現としての関連性行列Ａを形成することができるなら，特異値分解(Singular Value Decomposition; ＳＶＤ)により所属のクラスを特定することが可能である。しかし、パターン素性のクラス毎の属性がベクトルで与えられ、かつ大量の入力ベクトルｘが変動するような場合，これを関連性行列Ａ上に如何に表現すればよいかが問題となる。

本発明の主眼は，関連性行列Ａにクラス毎の固有ベクトルセットを埋め込むことで、大量の学習ベクトルデータの変動を効果的に表現したことである。またその際に、クラス共通双対空間φ（ｍ）に入力データを一旦通し(内積計算による)、その結果から再度クラス別の固有ベクトルψ（ｋ,ｍ,ｎ)を求め，関連性行列Ａに埋め込むことで，クラス毎の固有ベクトルセットを効率よく表現できる。これにより発明の効果を一層高めることができる。

ここで，本発明のパターン認識装置が採用する関連性行列の構成を図４を参照して説明する。学習データＸのパターン素性共通特徴ベクトル系列から、パターン素性別固有ベクトルψ（ｋ,ｍ,ｎ)を主成分分析（ＰＣＡ）により計算しておく。パターン素性別の固有ベクトルψ（ｋ,ｍ,ｎ)には、パターン素性のクラスｋの全学習データに関する有効な特徴が抽出され表現されている。

このパターン素性別固有ベクトルψ（ｋ,ｍ,ｎ)をパターン素性クラスごとに縦方向に第１固有ベクトルから順にＭ個並べる。全てのクラスｋについてパターン素性別固有ベクトルψ（ｋ,ｍ,ｎ)を配置した後、特異値分解(Singular Value Decomposition ; ＳＶＤ）を適用すると，異なる素性クラスの固有ベクトルψ（ｋ,ｍ,ｎ) 同士の関連性を含めた，二種類の固有ベクトル，すなわち左特異ベクトルＵ（ｎ，ｒ）と右特異ベクトルＶ（ｒ，ｋ）が得られる。

具体的に、特異ベクトル算出手段３２は、得られたパターン素性クラス別固有ベクトルψ（ｋ，ｍ，ｎ）を用いて、関連性行列Ａへの埋め込みを行う。具体的には、パターン（音声、文字、画像、映像信号、顔等）に応じて、パターン素性のジャンル別にそれぞれＰＡ（１），ＰＡ（２），ＰＡ（３）・・・ＰＡ（Ｋ）と設定する。

例えば、パターンが音声である場合には、ＰＡ（１），ＰＡ（２），ＰＡ（３）・・・ＰＡ（Ｋ）を母音である音素とし、ＰＡ（１）「あ（ａ）」、ＰＡ（２）「い（ｉ）」、ＰＡ（３）「う（ｕ）」、ＰＡ（４）「え（ｅ）」、ＰＡ（５）「お（ｏ）」として設定することができる。また、パターンが書籍である場合には、ＰＡ（１），ＰＡ（２），ＰＡ（３）・・・ＰＡ（Ｋ）を書籍内容であるジャンルとして設定し、ＰＡ（１）「政治」、ＰＡ（２）「経済」、ＰＡ（３）「科学・技術」、ＰＡ（４）「社会」、ＰＡ（５）「ロボット」、・・・ＰＡ（Ｋ）「知的財産」等に設定することができる。さらに、パターンが人の顔である場合には、ＰＡ（１）「目」、ＰＡ（２）「鼻」、ＰＡ（３）「口）」、ＰＡ（４）「眉」、ＰＡ（５）「輪郭」、・・・・ＰＡ（Ｋ）「肌」等に設定することができる。

関連性行列Ａへの埋め込みは、テンソル空間において２階テンソルを採用する。関連性行列Ａは、非対称の形状を有しており、３成分（ｘ，ｙ，ｚ）からなるＭ行Ｎ列の行列である。関連性行列Ａを構成するジャンルＰＡ（１）の固有ベクトルψ（ｋ，ｍ，ｎ）は、固有ベクトルψ（１，１，１）から始まって、順番にψ（１，１，２）、ψ（１，１，３）・・・ψ（１，１，Ｎ）となる埋め込みをする。さらにψ（１，２，１）から始まって、ψ（１，２，２）、ψ（１，２，３）・・・ψ（１，２，Ｎ）となる埋め込みをする。続いて、ψ（１，Ｍ，１））から始まって、順番にψ（１，Ｍ，２）、ψ（１，Ｍ，３）・・・ψ（１，Ｍ，Ｎ）となる埋め込みをして、ジャンルＰＡ（１）の固有ベクトルψ（ｘ，ｙ，ｚ）の埋め込みを完了する。

次に関連性行列Ａを構成するジャンルＰＡ（２）の固有ベクトルψ（ｋ，ｍ，ｎ）は、
上記と同様にして、固有ベクトルψ（２，１，１）から始まって、ψ（２，Ｍ，Ｎ）となる埋め込みをして、ジャンルＰＡ（２）の固有ベクトルψ（ｘ，ｙ，ｚ）の埋め込みを完了する。

最後に関連性行列Ａを構成するジャンルＰＡ（Ｋ）の固有ベクトルψ（ｋ，ｍ，ｎ）は、
固有ベクトルψ（Ｋ，１，１）から始まって、ψ（Ｋ，Ｍ，Ｎ）となる埋め込みをして、ジャンルＰＡ（Ｋ）の固有ベクトルψ（ｘ，ｙ，ｚ）の埋め込みを完了する。これにて、得られたパターン素性のクラス別固有ベクトルψ（ｋ，ｍ，ｎ）を用いて、関連性行列Ａへの埋め込みを完了する。以下の数式に関連性行列Ａを示した。

このように本発明のパターン認識装置においては、パターン素性クラス間の関連性を正方行列ではなく、非対象の長方形の形状を有する関連性行列を採用しているので、パターン素性クラス別の要素を３成分固有ベクトルψ（ｘ，ｙ，ｚ）にて表現することができる。このように本発明のパターン認識装置においては、関連性行列を用いることにより、ベクトル量で構成されるパターン素性別のクラスごとをコンパクトに表現することができる点に技術的特徴を有している。

本発明のパターン認識装置は、パターン素性クラス別固有ベクトルが埋め込まれた関連性行列を用いているので、パターン素性クラス間の関連性を正確に表現することができる。従来のパターン認識装置が採用している線形判別分析法（ＬＤＡ）の分析方法は、パターン素性クラス間の差異を平均ベクトルによって表し、共分散はパターン素性クラス間としているのでパターン認識装置が採用する分析方法としては物足りない。

しかも、従来のパターン認識装置が採用している線形判別分析法（ＬＤＡ）の分析方法は、パターン素性クラスごとの部分空間が直交しない。このため、パターン素性クラスごとの要素が直交しないことにより、パターンの演算量としては、冗長性が大きい。また、線形判別分析法（ＬＤＡ）の分析方法は、特異値分解法を用いて、特異値分解をしている。この場合に行列を形成する列方向にパターン素性クラスを表現し、行方向にパターン素性クラスごとのデータを表現する要素を埋め込む。しかしながら、パターン素性クラスごとのデータを表現する要素は、確率値、尤度等のスカラー量となっている。

一方、本発明のパターン認識装置は、非対称の関連性行列を用いているので、パターン素性クラスごとのデータをベクトル量によってコンパクトに表現することができ、パターン素性クラス間の部分空間を直交させることができる。このため、本発明のパターン認識装置は、パターン素性を精度良く認識することができ、パターン認識の処理速度も向上する。

次に、特異ベクトル算出手段３２は、関連性行列Ａを用いて特異値分解(Singular Value Decomposition ; ＳＶＤ)を行うことにより、左特異ベクトルＵ（ｎ，ｋ）及び右特異ベクトルＶ（ｒ，ｋ）を算出する。なお、特異値分解は、以下の数式に従って行う。

（上記式中、Ａは関連性行列、Ｕ（ｎ，ｒ）は左特異ベクトル、Ｓ（ｒ，ｒ）は固有値（重み係数）、Ｖ（ｒ，ｋ）は右特異ベクトルを表す。）

上記数式により、Ｓ（ｒ，ｒ）を算出し、さらにＳ（ｒ，ｒ）からその逆行列Ｓ^-1（ｒ，ｒ）を算出する。逆行列Ｓ^-1（ｒ，ｒ）及び左特異ベクトルＵ（ｎ，ｒ）の転置行列Ｕ^T（ｎ，ｒ）を用いて、以下の数式に従って入力パターンｘを左特異ベクトルＵ（ｎ，ｒ）へ写像する。以下、ｘ＾は「エックスハット」を表す。

（上記式中、Ｓ^-1（ｒ，ｒ）は、Ｓ（ｒ，ｒ）の逆行列を表し、Ｕ^T（ｎ，ｒ）は、左特異ベクトルＵ（ｎ，ｒ）の転置行列を表し、ｘは、入力パターンを表す。ｘ＾は、入力パターンｘのＸ方向の単位ベクトルを表す。）

（上記式中、Ｕ^T（ｎ，ｒ）は、左特異ベクトルＵ（ｎ，ｒ）の転置行列を表し、ｘは、入力パターン素性を表す。ｘ＾は、入力パターンｘ素性のＸ方向の単位ベクトルを表す。）

パターン素性類似度ベクトル算出手段３３は、特異ベクトル算出手段３２によって算出された右特異ベクトルＶ（ｒ，ｋ）と入力パターンｘ素性のＸ方向の単位ベクトルｘ＾を用いてパターン素性類似度ベクトルＳｉｍ１（ｋ）を生成する。パターン素性類似度ベクトルＳ（ｋ）であるＳｉｍ１（ｋ）は、以下の数式によって算出することができる。

（上記式中、入力パターンｘ素性のＸ方向の単位ベクトル、Ｖ（ｒ，ｋ）は右特異ベクトル、｜ｘ｜は、xの大きさ、｜Ｖ（ｒ，ｋ）｜は、Ｖ（ｒ，ｋ）の大きさを表す。）

具体的には、パターン素性類似度ベクトル算出手段３３は、左特異ベクトルＵ（ｎ，ｒ）への写像（内積演算）後、右特異ベクトルＶ（ｒ，ｋ）との間で音素／調音素性の類似度ベクトル系列Ｓｉｍ１（ｋ）を計算する。その後、Ｓｉｍ１（ｋ）は、ＭＬＰ変換部６に入力され、パターン素性（音素／調音素性）への第二の変換が実行される。

パターン素性類似度ベクトル算出手段３３は、出力として、音素／調音素性の類似度ベクトル系列Ｓｉｍ２（ｋ）を算出する。類似度ベクトル系列Ｓｉｍ２（ｋ）は，ＨＭＭ（隠れマルコフ）への入力特徴ベクトルとして利用される。

類似度ベクトル学習ＤＢ７は、ＭＬＰ変換器６で変換された類似度ベクトル系列に基づいて生成される音響モデル、言語モデル等のパターン素性のモデルを記憶保持する。音響モデルとしては、例えば一般的に知られるＨＭＭなどを用いることができる。ＨＭＭの音響モデル学習では、通常のForward-Backward学習が使用され音素毎、状態毎に混合分布(平均と分散)が求められる。認識部８では、音素/ 調音素性の類似度ベクトル系列Ｓｉｍ２（ｋ）と音響モデルとの間で距離計算(マハラノビス距離)が計算され、最大尤度を与える音素が正解とされる。

なお、音素単位の尤度計算には言語モデル(あるいはサブワード言語モデル)による尤度加算など、通常のＨＭＭによる音声認識と同様の処理を行うことになる。

また、認識部８は、類似度ベクトル学習ＤＢ７に格納した音響モデル及び言語モデルと類似度ベクトル系列とを比較して、類似度ベクトル系列に対する比較結果を、出力装置に認識結果として送出するものである。認識部８として、通信ネットワークを介して入手可能な各種の音声認識ソフトウェアを用いてもよい。

続いて、上記構成のパターン認識装置１における学習について、その動作手順を図５（Ａ）のフローチャートに沿って説明する。

同図において、パターン認識装置１の学習を開始させる。するとステップＴ１の手順に移行し、入力装置から音声（パターン）が帯域フィルタ（ＢＰＦ）群に入力され、音響特徴ベクトル系列としてスペクトルパターンが出力される。

ステップＴ２では、音響特徴ベクトル系列にクラス毎にＤＣＴを適用してＭＦＣＣを抽出し、クラス毎に取得したＭＦＣＣを要素とするベクトルを作成し、各クラスのベクトルを系列化した音声特徴ベクトル系列が出力される。ステップＴ３では、音声特徴ベクトル系列の各クラスのベクトルに対して自己相関行列を求め、この自己相関行列の固有値問題を解いてクラス別の固有値及び固有ベクトルを算出する。

ステップＴ４では、このクラス別の固有値及び固有ベクトルを累積加算して、クラスで共通する相関行列を求める。ステップＴ５では、ステップＴ３と同様の方法で、相関行列の固有値及び固有ベクトルを算出する。ステップＴ６では、算出したクラス共通の固有ベクトルで、ステップＴ２の音声特徴ベクトル系列に対して内積計算を行うことで、クラス共通音声特徴ベクトル系列を取得する。

ステップＴ７では、クラス共通音声特徴ベクトル系列から各クラス同士が直交する（正規化）自己相関行列を求め、この正規化された自己相関行列の固有値問題を解いてクラス別の固有値及び固有ベクトルを算出する。ステップＴ８では、この正規化されたクラス別の固有ベクトルをクラス別に列方向に第一固有ベクトルから順に並べて関連性行列を作成する。ステップＴ９では、この関連性行列を特異値分解して、左特異値ベクトルと右特異値ベクトルとを算出して、学習を終了する。

上記構成のパターン認識装置１における認識について、その動作手順を図５（Ｂ）のフローチャートに沿って説明する。ステップＴ１０〜ステップＴ１１では、学習におけるステップＴ１〜ステップＴ２と同様の手順で音声特徴ベクトル系列を取得する。ステップＴ１２では、音声特徴ベクトル系列をクラス共通の固有ベクトルで写像して、クラス共通音声特徴ベクトル系列を算出する。ステップＴ１３では、左特異値ベクトルで、クラス共通音声特徴ベクトル系列に対して写像し、右特異値ベクトルを用いて類似度ベクトルを算出する。

ステップＴ１４では、この類似度ベクトルに対して多層パーセプトロン（ＭＬＰ）で変換を施す。ステップＴ１５では、ＭＬＰ変換された類似度ベクトルにＨＭＭを実施する。ステップＴ１６では、求めた類似度ベクトルを学習ＤＢ内の音響モデルと言語モデルと比較演算を行い、認識結果を出力する。

図６は、日本音響学会が提供する連続音声コーパス(新聞記事読み上げ)を使用した時の音素認識性能比較を示す。左側のグラフであるＭＦＣＣ／ＨＭＭは、ＭＦＣＣ特徴を使用した標準的な音声認識方式である。また、中央のグラフであるＭＦＣＣ／ＭＬＰ−３段／ＨＭＭは、４層ＭＬＰを３段使用した計１２層のＭＬＰから音素類似度ベクトルを抽出してＨＭＭに加えた音声認識方式である。さらに、右側のグラフであるＭＦＣＣ／双対空間＋テンソル空間／ＭＬＰ−１段／ＨＭＭは、本発明になるパターン認識方式を用いた音素正解率を示している。これらのグラフからから，ＭＬＰを多段適用した方式は，従来のＭＦＣＣ／ＨＭＭと比較して、音素認識誤りを３０％程度改善すること、また本発明による双対空間とテンソル空間を通した音素素性の類似度ベクトル系列をＨＭＭの入力とした場合、更に性能を改善できることを示すことが分かる。また、本発明になるパターン認識方式は、ＭＬＰを３段重ねる方式と比べて演算量の点でも内積のみ使用するため有利と言える。

このように、本発明のパターン認識装置は、パターン（音声、文字、顔等のベクトルデータ）、例えば音声である場合には、音素や調音素性などの素性抽出精度を高め、かつ演算量を低減することができ、高い音声認識率を有する。本発明のパターン認識装置は、音声のみを対象とするものではなく、文字、画像、顔等のベクトルデータをパターンとする認識にも有効である。このため、本発明のパターン認識装置は、音声データ、文字データ、画像データ等から構成される膨大なデータから構成されるビックデータに含まれるパターンの特徴を高い精度で認識（recognition）、分類（classification）及び識別（discrimination）することができる。

さらに本実施形態では、上述したパターン認識方法を、コンピュータの中央演算処理装置１１に実行させるためのパターン認識プログラムを記憶装置１２に格納している。

この場合、上述したパターン認識方法としての作用効果を、記憶装置１２に格納した音声認識プログラムにそのまま適用することが可能になる。

以上、本発明の実施形態について説明したが、当該実施形態はあくまでも例として提示したに過ぎず、発明の範囲を限定することを意図していない。ここに提示したれ実施形態は、その他の様々な形態で実施可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置換、変更が可能である。例えば、図１では次単語予測用の言語モデルの構成を省略しているが、この言語モデルをパターン認識装置１に付加することで、認識部９の認識結果として文字列を適宜出力することができる。また本発明を、文音声認識など他のタスクに適用してもよい。

本発明のパターン認識装置は、多くのパターン（音声、文字、顔等のベクトルデータ）の中から、例えば音素、調音素性を精度良く抽出することができ、しかもパターンを構成するデータを処理する演算量を格段に減少させることができる。このため、本発明のパターン認識装置は、多くのパターン（音声、文字、顔等のベクトルデータ）を処理することが不可欠な情報処理産業の発展に寄与することができる。また、本発明のパターン認識装置は、多くのパターン（音声、文字、顔等のベクトルデータ）を精度良く認識（recognition）、分類（classification）及び識別（discrimination）することができるので、これを適用することによりロボット関連技術産業の発展に大きく寄与するものと考えらえる。

１パターン認識装置
２ＢＰＦ分析部
３特徴抽出部
４ベクトル変換器
５特徴ベクトル学習ＤＢ
６マルチレイヤーパーセプション（ＭＬＰ）変換器
７パターン素性類似度ベクトル学習ＤＢ
８認識部

Claims

パターン素性類似度ベクトルを抽出することにより入力パターンを認識することができるパターン認識装置であって、入力パターンから特徴を算出する前処理部と、前記入力パターンの特徴を素性共通の双対空間に写像して素性共通特徴ベクトル系列に変換するパターン特徴抽出部と、予め前記素性共通特徴ベクトル系列から求めた素性別固有ベクトルを埋め込んだ関連性行列を形成し、前記関連性行列を特異値分解することにより左特異ベクトルと右特異ベクトルを生成し、前記パターン特徴抽出部から出力される入力パターンの素性共通特徴ベクトル系列を前記左特異ベクトルへ写像した後、右特異ベクトルとの間で素性毎の類似度ベクトル系列を生成する素性識別部と、前記素性類似度ベクトル系列を後段の特徴識別部を介してもしくは直接、パターン認識部へ送り認識結果を得ることを特徴とするパターン認識装置。
前記パターン特徴抽出部は、予め前記入力パターンの集合から固有値問題を解いて素性別の固有ベクトルφ（ｋ，ｍ）を求め、以下の数式に基づいて前記入力パターン集合に関する素性共通の相関行列Ｒを算出した後、固有値問題を解いて素性共通の固有ベクトルφ（ｍ）を設計することを特徴とする請求項１記載のパターン認識装置。

（上記式中、Ｒ：クラス共通の相関行列、Ｋ：クラス数、Ｍ：固有ベクトルの数、ｋ：クラス番号、ｍ：固有ベクトル番号、φ（ｋ，ｍ）：素性別固有ベクトル、Ｔは転置を表す。）
パターン素性類似度ベクトルを抽出することにより入力パターンを認識することができるパターン認識方法であって、入力パターンから特徴を算出する前処理ステップと、前記入力パターンの特徴を素性共通の双対空間に写像して素性共通特徴ベクトル系列に変換するパターン特徴抽出ステップと、予め前記素性共特徴ベクトルから求めた素性別の固有ベクトルを埋め込んだ関連性行列を形成し、前記関連性行列を特異値分解することにより左特異ベクトルと右特異ベクトルを生成し、前記パターン特徴ステップから送られる入力パターンの素性共通特徴ベクトルを前記左特異ベクトルへ写像した後、右特異ベクトルとの間で素性毎の類似度ベクトル系列を生成する素性識別ステップと、前記素性類似度ベクトル系列を後段の特徴識別ステップを介してもしくは直接、パターン識別ステップへ送り認識結果を得ることを特徴とするパターン認識方法。
前記パターン特徴抽出ステップは、予め前記入力パターンの集合から固有値問題を解いて素性別の固有ベクトルφ（ｋ，ｍ）を求め、以下の数式に基づいて前記入力パターン集合に関する素性共通の相関行列Ｒを算出した後、固有値問題を解いて素性共通の固有ベクトルφ（ｍ）を設計することを特徴とする請求項３記載のパターン認識方法。

（上記式中、Ｒ：クラス別共通の相関行列、Ｋ：クラス数、Ｍ：固有ベクトルの数、ｋ：クラス番号、ｍ：固有ベクトル番号、φ（ｋ，ｍ）：素性別固有ベクトル、Ｔは転置を表す。）
請求項３又は４に記載のパターン認識方法を、コンピュータに実行させるためのパターン認識プログラム。