JP2015175859A - パターン認識装置、パターン認識方法及びパターン認識プログラム - Google Patents
パターン認識装置、パターン認識方法及びパターン認識プログラム Download PDFInfo
- Publication number
- JP2015175859A JP2015175859A JP2014049544A JP2014049544A JP2015175859A JP 2015175859 A JP2015175859 A JP 2015175859A JP 2014049544 A JP2014049544 A JP 2014049544A JP 2014049544 A JP2014049544 A JP 2014049544A JP 2015175859 A JP2015175859 A JP 2015175859A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- pattern
- vector
- common
- eigenvector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】パターン(音声、文字、顔等のベクトルデータ)からその特徴部分を正確に抽出し、かつ性能良くパターンを認識することができ、パターン認識に要する演算量を低減させることができるパターン認識装置を提供すること。【解決手段】入力パターンのパワースペクトルを算出するための分析部と入力パターンの特徴を双対空間に写像してクラス共通特徴ベクトル系列に変換するパターン特徴抽出部と、テンソル空間において、入力パターンの素性クラス別の固有ベクトルを埋め込んだ関連性行列を形成し、関連性行列を特異値分解することにより左特異ベクトルと右特異ベクトルを生成し、入力パターンの素性共通特徴ベクトルを左特異ベクトルへ写像した後、右特異ベクトルとの間で素性毎の類似度ベクトル系列を生成する素性識別部と、素性類似度ベクトル系列を後段の特徴識別部(多層パーセプション)を介してパターン認識部へ送り認識結果を得ることを特徴とする。【選択図】図1
Description
本発明は、パターンに対して、主成分分析とテンソル解析の二つを組み合わせてクラス分類を行うことにより、パターンの特徴を高い精度で識別し得るパターン認識装置、パターン認識方法及びパターン認識プログラムに関する。更に、詳しくは双対空間とテンソル空間における直交化ベクトル系列生成の手法を用いて、高い精度にてパターンを認識し得るパターン認識装置、パターン認識方法及びパターン認識プログラムに関する。
人間は、日常生活において、音・音声、文字・画像・映像を通じて入力される膨大なマルチモーダル情報データからなるパターンを処理している。処理には、パターンを認識し、パターンを分類し、パターンを理解する機能が含まれる。例えば、本や新聞等を読むとき、人間は視覚を通じて入力された文字パターンと、学習しているパターンとを照合して、文字や単語の意味を理解する。また音声を聴くときは、聴覚を通じて入力された音声パターンと、学習しているパターンとを照合して、発話の意味を理解する。さらに人間が人の顔を観るときは、視覚を通じて入力された画像パターンと、学習しているパターンとを照合して他人を識別したり、情動を理解したりすることができる。
近年、人間にとって最も自然なコミュニケーション手段である音声を利用した多くのシステムが登場し、音声認識技術はスマートフォンやWEBブラウザなどにも導入されている。一方、音声認識システムの普及に伴い、基盤技術として音声認識エンジンの一層の性能向上が求められている。
現在の音声認識システムは、音響分析から求められるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients; MFCCと略することがある。)を特徴パラメータとし、MFCC時系列を隠れマルコフ(Hidden Markov Model; HMMと略することがある。) の確率過程として扱う手法が主流になっている。
一方、多層パーセプトロン(Multi- Layer- Perceptron; MLPと略することがある。) を数段重ねるディープ ニューラル ネットワーク (Deep Neural Network;DNNと略することがある。) を用いて、音素や調音などの素性を抽出し、これらの系列をHMM確率モデルとして表現する音声認識システムの研究が盛んになっている(例えば、非特許文献1及び図7)。
図7に一例として、従来のこのような音声認識システムを示した。図7に示すように、この音声認識システムは、多段からなるMLPを備えており(各3層のMLPを5〜7段連ねたものが利用される)、かつ、音素素性や調音素性を抽出するに際しては、MLP毎に重み係数を設定しなければならないものとなっている。
いわゆる調音素性(Articulatory Feature; 以下、「AF」と略する。)は、調音様式(有声、無声、破裂音、摩擦音など)と調音部位(前舌、後舌、半狭、半広など)からなる。AFは,話者に依存しない特徴であるため,精度よく抽出できるなら高い音声認識性能を期待できる。また,多言語を対象とする音声認識システムの構築にも適している。
しかしながら、現在のAF素性抽出あるいは音素素性抽出はMLPを数段重ねて抽出するため、MLPにおける抽出精度向上と共に、高い計算コストが課題になっている(例えば、非特許文献2)。
また、音声、文字、画像、映像信号等のデータからなるパターンを認識するシステムとしては、以下のシステムがある。例えば、パターン(音声、文字、画像、映像信号等のデータ)から、離散的な部分クラス(音素、調音素性、ストローク、顔部品等)を抽出し、それらのパターン素性の類似度系列として出力することができる特徴抽出器が提案されている。かかる特徴抽出器は、主成分分析法(PCA)等の分析方法を採用している。主成分分析法(PCA)は、パターン素性のクラス内の情報のみを対象としており、パターン素性のクラス間の情報を対象としていないためパターン認識の性能に限界があった。
一方、パターン素性のクラス間の情報を対象とする特徴抽出器として、線形判別分析法(Linear Discriminant Analysis; LDAと略することがある。)の分析方法を採用した特徴抽出器が提案されている。線形判別分析法は、クラス間の情報を良く識別する特徴を選択する方法である。グループ分けの境界が直線、又は超直面であり、線形関数を用いてグループの所属の判別を行なう方法である。線形判別分析法(LDA)の分析方法を採用した特徴抽出器においては、線形関数を用いてグループ間の所属の判別を行っているため、パターン認識の性能に限界があった。
さらに、音声データを認識するシステムとしては、音素の弁別特徴ベクトルをMLPと主成分分析法(PCA)により抽出し、音素認識をする方法が提案されている(例えば、非特許文献3)。また、音素ベクトルを主成分分析(PCA)から抽出し、認識性能を向上させた音素認識をする方法が提案されている(例えば、非特許文献4)。
しかしながら、上記いずれの方法を採用した特徴抽出器を用いても、膨大な情報量として、パターン(音声、文字、画像、映像信号等のデータ)からその特徴部分を正確に抽出し、かつ性能よくパターンを認識することができないという問題点があった。
特に、近年においては、ブログ、動画サイト、フェイスブック(登録商標)、Twitter(登録商標)といったSNSの利用者の増加、パソコン、スマートフォン等の端末から文字のみならず、音声、写真、動画等のデジタルデータがインターネット上の様々なサーバーコンピューターに蓄積されており、パターンから構成される「ビッグデータ」は数百兆バイト以上と云われている。このような状況の中、音声データ、文字データ、画像データ等から構成される膨大なデータから構成されるパターンの特徴を高い精度で識別し得るパターン認識装置が必要不可欠となっている。なお、本件特許出願人は、上記文献公知発明が記載された刊行物として、以下の刊行物を提示する。
[x] Chin-Hui Lee, Mark A. Clements, Sorin Dusan, Eric Fosler-Lussier, Keith Johnson, Biing-Hwang Juang, and Lawrence R.Rabiner, "An Overview on Automatic Speech Attribute Transcription (ASAT), " Proc. Interspeech, Antwerp, Belgium, August 2007.
[y] Mohammad Nurul Huda, Hiroaki Kawashima, and Tsuneo Nitta, "Distinctive Phonetic Feature (DPF) extraction based on MLPs and Inhibition/ Enhancement Network, " IEICE Trans. Inf. & Syst., Vol.E92-D, No. 4, pp.671-680 (2009).
福田、新田「頑健な音声認識のための音素特徴ベクトル直行化方式の検討」情報処理学会研究報告、2003年−SLP−49,2003.
朴、溝口、有木「PCAを用いた音素ベクトルによる音声特徴量の抽出の検討」日本音響学会秋季研究発表会1−p−26,2007
本発明は、かかる技術的事情に鑑みなされたものであって、膨大なデータから構成されるパターン(音声、文字、画像、映像信号、顔等)からその特徴部分を正確に抽出し、かつ性能よくパターンを認識することができ、しかもその演算量を低減させることができるパターン認識装置、パターン認識方法及びパターン認識プログラムを提供することを課題とする。具体的には、パターンが音声である場合には、音素や調音素性などの素性抽出精度を高め、かつ演算量が多段MLP(近年はDNNと総称される。)と比較して、格段に少ない音声認識装置、音声認識方法及び音声認識プログラムを提供することを課題とする。
本件発明者は、鋭意技術的検討を行った結果、パターン(音声、文字、画像、映像信号、顔等のベクトルデータ)に対して、主成分分析とテンソル解析の二つを組み合わせてクラス分類を行うことにより、パターンの特徴を高い精度で識別することができ、しかも演算量が多段MLPに比較して格段に減少できることを見出し、本発明を完成するに至った。より具体的には、本発明は以下の技術的事項から構成される。
(1) パターン素性類似度ベクトルを抽出することにより入力パターンを認識することができるパターン認識装置であって、入力パターンから特徴を算出する前処理部と、前記入力パターンの特徴を素性共通の双対空間に写像して素性共通特徴ベクトル系列に変換するパターン特徴抽出部と、予め前記素性共通特徴ベクトル系列から求めた素性別固有ベクトルを埋め込んだ関連性行列(2階のテンソル)を形成し、前記関連性行列を特異値分解することにより左特異ベクトルと右特異ベクトルを生成し、前記パターン特徴抽出部から出力される入力パターンの素性共通特徴ベクトル系列を前記左特異ベクトルへ写像した後、右特異ベクトルとの間で素性毎の類似度ベクトル系列を生成する素性識別部と、前記素性類似度ベクトル系列を多層パーセプトロン(MLP)により個別素性に分類する後段の特徴識別部を備えたことを特徴とするパターン認識装置。
(2) 前記パターン特徴抽出部は、予め前記入力パターンの集合から固有値問題を解いて素性別の固有ベクトルφ(k,m)を求め、以下の数式に基づいて前記入力パターン集合に関する素性共通の相関行列Rを算出した後、固有値問題を解いて素性共通の固有ベクトルφ(m)を設計することを特徴とする(1)記載のパターン認識装置。
(上記式中、R:クラス共通の相関行列、K:クラス数、M:固有ベクトルの数、k:クラス番号、m:固有ベクトル番号、φ(k,m):素性別固有ベクトル、Tは転置を表す。)
(3) パターン素性類似度ベクトルを抽出することにより入力パターンを認識することができるパターン認識方法であって、入力パターンから特徴を算出する前処理ステップと、前記入力パターンの特徴を素性共通の双対空間に写像してクラス共通特徴ベクトル系列に変換するパターン特徴抽出ステップと、予め前記素性共特徴ベクトルから求めた素性別の固有ベクトルを埋め込んだ関連性行列(2階テンソル)を形成し、前記関連性行列を特異値分解することにより左特異ベクトルと右特異ベクトルを生成し、前記パターン特徴抽出部から出力される入力パターンの素性共通特徴ベクトル系列を前記左特異ベクトルへ写像した後、右特異ベクトルとの間で素性毎の類似度ベクトル系列を生成する素性識別部と、前記素性類似度ベクトル系列を多層パーセプトロン(MLP)により個別素性に分類する後段の特徴識別部を備えたことを特徴とするパターン認識方法。
(4) 前記パターン特徴抽出ステップは、予め前記入力パターンの集合から固有値問題を解いて素性別の固有ベクトルφ(k,m)を求め、以下の数式に基づいて前記入力パターン集合に関する素性共通の相関行列Rを算出した後、固有値問題を解いて素性共通の固有ベクトルφ(m)を設計することを特徴とする(3)記載のパターン認識方法。
(上記式中、R:クラス別共通の相関行列、K:クラス数、M:固有ベクトルの数、k:クラス番号、m:固有ベクトル番号、φ(k,m):素性別固有ベクトル、Tは転置を表す。)
(5) (3)(4)に記載のパターン認識方法を、コンピュータに実行させるためのパターン認識プログラム。
本発明によれば、パターン(音声、文字、画像、映像信号、顔等)に対して主成分分析とテンソル解析の二つを組み合わせてクラス分類を行うことにより、パターンの特徴を高い精度で認識することができ、しかも演算量をMLPに比較して格段に減少することができるパターン認識装置が提供される。すなわち、本発明のパターン認識装置は、入力パターンをその素性(音声、文字、画像、映像信号、顔等)を表現するベクトルに精度良くかつ効率的に変換したことにより、従来のパターン認識装置のようにニューラルネットワーク等の多段MLPの非線形処理等の計算付加を大きく削減することができ、同時にパターン認識の性能限界も解消することができる。
図1は、パターン(音素)認識装置1の構成を示したモデル図である。図1を参照して、パターン認識装置1の電気的構成を説明する。パターン認識装置1は、図示しないマイク等の音声入力装置から入力されるパターン(音声)にBPF(Band Path Filter)を適用するBPF分析部2と、パターンの特徴を抽出し、パターン特徴ベクトル系列を生成する特徴抽出部3と(以上が音声認識での前処理に相当)、パターン特徴ベクトル系列に基づいて関連性行列に固有ベクトルセットを埋め込み、特異値分解を利用したパターン素性類似度ベクトル系列を生成するための音素/もしくは調音素性変換器4と、特徴ベクトル系列を学習する特徴ベクトル学習DB(Database: 以下、「DB」と略する。)5と、素性類似度ベクトル系列をMLP(Multi-Layer-Perceptron)変換するMLP変換器6と、MLP変換されたパターン素性類似度ベクトル系列をHMM学習する学習DB7と、認識部8とにより構成される。
パターン認識装置1において、BPF分析部2、特徴抽出部3、ベクトル変換器4、MLP変換器6及び認識部8は、コンピュータの中央演算処理装置11が、以下に説明する処理手順に従い、数値演算や制御などの処理を実行することで構成される。また、特徴ベクトル学習DB5及び類似度ベクトル学習DB7は、何れも前記中央演算処理装置11と電気的に接続するコンピュータの記憶装置12に設けられる。記憶装置12はその他に、中央演算処理装置11によって実行される処理手順に対応した音声認識プログラムを格納している。
中央演算処理装置11は、例えば入出力インターフェースを備えたCPUなどが使用可能である。また記憶装置12は、例えばROM(リード・オンリー・メモリ)や、RAM(ランダム・アクセス・メモリ)や、HDD(ハードディスクドライブ)などが使用可能である。ここには図示しないが、話者音声の入力を可能にするにマイクロホンなどの入力装置や、例えば認識部8で得られた認識結果などの出力を可能にするディスプレイやスピーカなどの出力装置を、中央演算処理装置11の入出力インターフェースと電気的に接続してもよい。
なお、本発明におけるパターン認識装置1のハードウェア構成は、図1に示すものに限定されない。従って、インターネットなどの通信ネットワークを介して、パターン認識装置1の一部の構成を電気的に接続しても構わない。
また、本実施形態のパターン認識装置1とパターン認識プログラムは、他のシステムから独立して設けられているが、本発明はこの構成に限定されない。従って、他の装置の一部として組込まれた構成や,他のプログラムの一部として組込まれた構成とすることも可能である。また、その場合における入出力は、上述の他の装置やプログラムを介して間接的に行われることになる。
入力装置を利用する場合、多数のパターン(音声、文字、画像、映像信号、顔等)を入力装置に入力する毎に、そのパターンが入力装置でアナログ電気信号に変換され、コンピュータに備えたA/D変換部(図示せず)に出力される。これを受けて、A/D変換部で変換されたデジタル電気信号を中央演算処理装置11に取り込むことで、中央演算処理装置11が取り込まれたパターンを処理し得るように構成されている。
BPF分析部2は、例えば、24チャンネル程度の帯域フィルタ(BPF)群を有し、中心周波数がメル尺度間隔で設定されている。音声信号は、帯域フィルタ(BPF)群に入力され、音響特徴ベクトル系列としてスペクトルパターンが出力される。この音響特徴ベクトル系列は、特徴抽出部3に送信される。
特徴抽出部3は、BPF分析部2から送信された音響特徴ベクトル系列から、一般的に離散コサイン変換(Discrete cosine Transform; DCT)によりメル周波数ケプストラム係数(Mel-frequency Cepstrum Coefficient; MFCC)が抽出される。ここでは、音響特徴ベクトル系列からDCTによりMFCCを抽出したが、これに限らず、音響特徴ベクトル系列に対して二次元の畳み込み演算を施したり、局所特徴(Local Feature)の抽出を行ったりしてもよい。
これらの処理により、音響特徴ベクトル系列は音声が持つ構造的な特徴を表す音声特徴ベクトル系列に変換される。音声特徴ベクトル系列は、1音声サンプル等のパターンにおいて、1フレームにつきm次元の特徴ベクトルを持つような複数フレームからなる。特徴抽出部3は、得られたパターン(音声)特徴ベクトル系列をベクトル変換器4に送信する。また、特徴抽出部3は、オフライン処理による学習時に特徴ベクトル学習DB5にパターン(音声)特徴ベクトル系列を送信するように構成されている。
また、周波数遷移では、「ba」が低周波から母音「a」の第二フォルマントに向けて高周波に遷移している。「da」及び「ga」では、高周波から母音「a」の第二フォルマントに向けて低周波に遷移する。なお、「da」及び「ga」では後者の方が高い周波数から遷移しており、以上に述べたスペクトル上の特徴は、これまで音声学で指摘されてきた知見に合致している。
BPF分析部2で得られる固有ベクトルφ(k,m)(図の例ではk=「b」、「d」及び「g」、m=固有ベクトルの軸数)は、音素を素性としているが、調音素性として抽出することも可能である。
特徴抽出部3は、BPF分析部2から送信される音響特徴ベクトル系列を音響分析することにより求められるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients; MFCC)を特徴パラメータとして取得する。例えば、図2には、各音声における特徴的なスペクトルパターンが楕円で囲まれて示されており、ここで取得する特徴パラメータが可視化されている。なお、特徴パラメータを取得する方法は、MFCCに限らず、音響特徴ベクトル系列から特徴パラメータが得られる方法であればよく、他にLPCを用いてもよい。
このMFCCの特徴パラメータは、1音声サンプル等のパターンにおいて、1フレームにつきn次元の特徴ベクトルを持つような複数フレームからなるパターン(音声)特徴ベクトル系列である。特徴抽出部3は、入力されたパターン(音声)の特徴が抽出されたパターン(音声)特徴ベクトル系列をベクトル変換器4に送信するとともに、学習用DB5に送信する。学習用DB5は、得られた音声特徴ベクトル系列を保存する。
図3は、パターン(音声)特徴ベクトル系列からパターン素性類似度ベクトル系列への変換システムを示した図である。ベクトル変換器4は、特徴抽出部3からベクトル変換器4に送信されたパターン(音声)特徴ベクトル系列を基礎として、双対空間において、パターン素性クラス別自己相関行列R(k)からパターン素性クラス共通固有ベクトルΦ(m)を算出するパターン素性共通固有ベクトル手段31と、テンソル空間において、パターン素性クラス共通固有ベクトルΦ(m)でパターン(音声)特徴ベクトル系列を正規化し、この正規化されたパターン(音声)特徴ベクトル系列のパターン素性クラス別自己相関行列R’(k)から左特異ベクトルU(n,k)及び右特異ベクトルV(r,k)を算出する特異ベクトル算出手段32と、特異ベクトル算出手段32によって算出した特異ベクトルを用いてパターン素性類似度ベクトルを算出するパターン素性類似度ベクトル算出手段33と、を備えている。ここで、kはクラスを表し、mは固有ベクトルの軸数を表す。
パターン素性共通固有ベクトル手段31は、ベクトル変換器4に送信されたパターン(音声)特徴ベクトル系列から得られるパターン素性クラス別自己相関行列R(k)を用いて、パターン素性クラス別固有ベクトルΦ(k,m)を算出する。パターン素性クラス別固有ベクトルΦ(k,m)の算出はパターン素性クラス別自己相関行列R(k)の固有方程式を解くことにより行う。
さらに、パターン素性共通固有ベクトル手段31は、双対空間において、得られたパターン素性クラス別固有ベクトルΦ(k,m)からクラス共通のパターン素性クラス共通相関行列Rを次式により求める。
ここで得られるパターン素性クラス共通相関行列Rに対して、パターン素性クラス別固有ベクトルΦ(k,m)の算出と同様にして、固有値問題{R−λ(m)・I}φ(m)=0を解くことで、パターン素性クラス共通固有ベクトルΦ(m)を算出する。このパターン素性クラス共通固有ベクトルΦ(m)と、ベクトル変換器4に送信されたパターン(音声)特徴ベクトル系列とで内積計算することで、素性線形写像が行われパターン素性クラス共通固有ベクトル系列が得られる。
このような操作により、パターン素性共通固有ベクトル手段31では、クラス毎に直交していないパターン素性クラス共通固有ベクトルΦ(m)を有していたパターン(音声)特徴ベクトル系列が、全てのクラスで直交する基底であるパターン素性クラス共通固有ベクトルΦ(m)で正規化されたパターン素性クラス共通固有ベクトル系列が得られたことになる。即ち、このクラス全体は、冗長性のない(正規)直交空間で形成することができる。
パターン素性共通固有ベクトル手段31は、このパターン素性クラス共通固有ベクトル系列パターンを特異ベクトル算出手段32に送信する。学習用DB5は、得られたパターンの素性線形写像を保存する。
特異ベクトル算出手段32は、テンソル空間において、パターン素性共通固有ベクトル手段31から送信されたパターン素性クラス共通固有ベクトル系列を用いて、左特異ベクトルU(n,k)及び右特異ベクトルV(r,k)を算出する。
特異ベクトル算出手段32は、パターン素性共通固有ベクトル手段31から送信されたパターン素性クラス共通固有ベクトル系列を用いて、パターン素性クラス別自己相関行列R’(k)を取得する。このパターン素性クラス別自己相関行列R'(k)は、パターン素性クラス別固有ベクトルΦ(k,m)の算出と同様にして、固有値問題を解くことで、パターン素性クラス別固有ベクトルψ(k,m,n)を算出する。
図4は、関連性行列A(二階テンソル)への固有ベクトルセット(k,m,n)の埋め込みと特異値分解を利用した音素素性類似度ベクトルS(k)の生成システムを示した図である。ここで、関連性行列とは、主成分分析で用いる正方行列かつ対称行列とは異なり、長方形かつ非対象行列として表現される。この行列は、パターン素性クラス間の関連性を表すため、関連性行列と呼ぶ。すなわち、関連性行列は、パターン素性が音声である場合に分野ごとに使われる語彙セットの集合の類似性と特異性を表している。
ここで、関連性行列Aは、特異値分解により、A・ATとAT・Aの2通りの相関行列表現を基に固有値(重み係数)に相当するS(r,r)と2通りの固有ベクトルに相当する左特異ベクトルU(n,r)と、右特異ベクトルV(r,k)に分解される。すなわち、関連性行列Aは、以下の数式にて表される。
上記数式において、左特異ベクトルU(n,r)は、関連性行列Aの縦方向のベクトル属性に対する主成分を表し、一方、右特異ベクトルV(r,k)は、関連性行列Aの横方向のベクトル(クラスごとの偏りを表現するベクトル)に対する主成分と表す。S(r,r)は、固有値(重み係数)である。主成分分析同様、左特異ベクトルU(n,r)の軸数を抑えることにより、情報圧縮することも可能である。パターン素性のクラスを分類する際には、入力パターンである入力ベクトルxから、まず、上位の特異値に相当する左特異ベクトルU(n,r)へ写像する。
具体的には、入力ベクトルxと左特異ベクトルU(n,r)との内積を計算した結果であるr個の要素を繋いだベクトルを得る。このとき、固有値(重み係数)に相当するS(r,r)を考慮する場合と、S(r,r)を省いて写像する場合がある。続いて、右特異ベクトルV(r,k)との間でパターン素性のクラスkごとに類似度を計算し、最大値を与えるクラスを入力パターンである入力ベクトルxが属する分野(スポーツ、料理・・・等)とする。
以上説明したように、テンソル表現としての関連性行列Aを形成することができるなら,特異値分解(Singular Value Decomposition; SVD)により所属のクラスを特定することが可能である。しかし、パターン素性のクラス毎の属性がベクトルで与えられ、かつ大量の入力ベクトルxが変動するような場合,これを関連性行列A上に如何に表現すればよいかが問題となる。
本発明の主眼は,関連性行列Aにクラス毎の固有ベクトルセットを埋め込むことで、大量の学習ベクトルデータの変動を効果的に表現したことである。またその際に、クラス共通双対空間φ(m)に入力データを一旦通し(内積計算による)、その結果から再度クラス別の固有ベクトルψ(k,m,n)を求め,関連性行列Aに埋め込むことで,クラス毎の固有ベクトルセットを効率よく表現できる。これにより発明の効果を一層高めることができる。
ここで,本発明のパターン認識装置が採用する関連性行列の構成を図4を参照して説明する。学習データXのパターン素性共通特徴ベクトル系列から、パターン素性別固有ベクトルψ(k,m,n)を主成分分析(PCA)により計算しておく。パターン素性別の固有ベクトルψ(k,m,n)には、パターン素性のクラスkの全学習データに関する有効な特徴が抽出され表現されている。
このパターン素性別固有ベクトルψ(k,m,n)をパターン素性クラスごとに縦方向に第1固有ベクトルから順にM個並べる。全てのクラスkについてパターン素性別固有ベクトルψ(k,m,n)を配置した後、特異値分解(Singular Value Decomposition ; SVD)を適用すると,異なる素性クラスの固有ベクトルψ(k,m,n) 同士の関連性を含めた,二種類の固有ベクトル,すなわち左特異ベクトルU(n,r)と右特異ベクトルV(r,k)が得られる。
具体的に、特異ベクトル算出手段32は、得られたパターン素性クラス別固有ベクトルψ(k,m,n)を用いて、関連性行列Aへの埋め込みを行う。具体的には、パターン(音声、文字、画像、映像信号、顔等)に応じて、パターン素性のジャンル別にそれぞれPA(1),PA(2),PA(3)・・・PA(K)と設定する。
例えば、パターンが音声である場合には、PA(1),PA(2),PA(3)・・・PA(K)を母音である音素とし、PA(1)「あ(a)」、PA(2)「い(i)」、PA(3)「う(u)」、PA(4)「え(e)」、PA(5)「お(o)」として設定することができる。また、パターンが書籍である場合には、PA(1),PA(2),PA(3)・・・PA(K)を書籍内容であるジャンルとして設定し、PA(1)「政治」、PA(2)「経済」、PA(3)「科学・技術」、PA(4)「社会」、PA(5)「ロボット」、・・・PA(K)「知的財産」等に設定することができる。さらに、パターンが人の顔である場合には、PA(1)「目」、PA(2)「鼻」、PA(3)「口)」、PA(4)「眉」、PA(5)「輪郭」、・・・・PA(K)「肌」等に設定することができる。
関連性行列Aへの埋め込みは、テンソル空間において2階テンソルを採用する。関連性行列Aは、非対称の形状を有しており、3成分(x,y,z)からなるM行N列の行列である。関連性行列Aを構成するジャンルPA(1)の固有ベクトルψ(k,m,n)は、固有ベクトルψ(1,1,1)から始まって、順番にψ(1,1,2)、ψ(1,1,3)・・・ψ(1,1,N)となる埋め込みをする。さらにψ(1,2,1)から始まって、ψ(1,2,2)、ψ(1,2,3)・・・ψ(1,2,N)となる埋め込みをする。続いて、ψ(1,M,1))から始まって、順番にψ(1,M,2)、ψ(1,M,3)・・・ψ(1,M,N)となる埋め込みをして、ジャンルPA(1)の固有ベクトルψ(x,y,z)の埋め込みを完了する。
次に関連性行列Aを構成するジャンルPA(2)の固有ベクトルψ(k,m,n)は、
上記と同様にして、固有ベクトルψ(2,1,1)から始まって、ψ(2,M,N)となる埋め込みをして、ジャンルPA(2)の固有ベクトルψ(x,y,z)の埋め込みを完了する。
上記と同様にして、固有ベクトルψ(2,1,1)から始まって、ψ(2,M,N)となる埋め込みをして、ジャンルPA(2)の固有ベクトルψ(x,y,z)の埋め込みを完了する。
最後に関連性行列Aを構成するジャンルPA(K)の固有ベクトルψ(k,m,n)は、
固有ベクトルψ(K,1,1)から始まって、ψ(K,M,N)となる埋め込みをして、ジャンルPA(K)の固有ベクトルψ(x,y,z)の埋め込みを完了する。これにて、得られたパターン素性のクラス別固有ベクトルψ(k,m,n)を用いて、関連性行列Aへの埋め込みを完了する。以下の数式に関連性行列Aを示した。
固有ベクトルψ(K,1,1)から始まって、ψ(K,M,N)となる埋め込みをして、ジャンルPA(K)の固有ベクトルψ(x,y,z)の埋め込みを完了する。これにて、得られたパターン素性のクラス別固有ベクトルψ(k,m,n)を用いて、関連性行列Aへの埋め込みを完了する。以下の数式に関連性行列Aを示した。
このように本発明のパターン認識装置においては、パターン素性クラス間の関連性を正方行列ではなく、非対象の長方形の形状を有する関連性行列を採用しているので、パターン素性クラス別の要素を3成分固有ベクトルψ(x,y,z)にて表現することができる。このように本発明のパターン認識装置においては、関連性行列を用いることにより、ベクトル量で構成されるパターン素性別のクラスごとをコンパクトに表現することができる点に技術的特徴を有している。
本発明のパターン認識装置は、パターン素性クラス別固有ベクトルが埋め込まれた関連性行列を用いているので、パターン素性クラス間の関連性を正確に表現することができる。従来のパターン認識装置が採用している線形判別分析法(LDA)の分析方法は、パターン素性クラス間の差異を平均ベクトルによって表し、共分散はパターン素性クラス間としているのでパターン認識装置が採用する分析方法としては物足りない。
しかも、従来のパターン認識装置が採用している線形判別分析法(LDA)の分析方法は、パターン素性クラスごとの部分空間が直交しない。このため、パターン素性クラスごとの要素が直交しないことにより、パターンの演算量としては、冗長性が大きい。また、線形判別分析法(LDA)の分析方法は、特異値分解法を用いて、特異値分解をしている。この場合に行列を形成する列方向にパターン素性クラスを表現し、行方向にパターン素性クラスごとのデータを表現する要素を埋め込む。しかしながら、パターン素性クラスごとのデータを表現する要素は、確率値、尤度等のスカラー量となっている。
一方、本発明のパターン認識装置は、非対称の関連性行列を用いているので、パターン素性クラスごとのデータをベクトル量によってコンパクトに表現することができ、パターン素性クラス間の部分空間を直交させることができる。このため、本発明のパターン認識装置は、パターン素性を精度良く認識することができ、パターン認識の処理速度も向上する。
次に、特異ベクトル算出手段32は、関連性行列Aを用いて特異値分解(Singular Value Decomposition ; SVD)を行うことにより、左特異ベクトルU(n,k)及び右特異ベクトルV(r,k)を算出する。なお、特異値分解は、以下の数式に従って行う。
(上記式中、Aは関連性行列、 U(n,r)は左特異ベクトル、S(r,r)は固有値(重み係数)、V(r,k)は右特異ベクトルを表す。)
上記数式により、S(r,r)を算出し、さらにS(r,r)からその逆行列S-1(r,r)を算出する。逆行列S-1(r,r)及び左特異ベクトルU(n,r)の転置行列UT(n,r)を用いて、以下の数式に従って入力パターンxを左特異ベクトルU(n,r)へ写像する。以下、x^は「エックスハット」を表す。
パターン素性類似度ベクトル算出手段33は、特異ベクトル算出手段32によって算出された右特異ベクトルV(r,k)と入力パターンx素性のX方向の単位ベクトルx^を用いてパターン素性類似度ベクトルSim1(k)を生成する。パターン素性類似度ベクトルS(k)であるSim1(k)は、以下の数式によって算出することができる。
具体的には、パターン素性類似度ベクトル算出手段33は、左特異ベクトルU(n,r)への写像(内積演算)後、右特異ベクトルV(r,k)との間で音素/調音素性の類似度ベクトル系列Sim1(k)を計算する。その後、Sim1(k)は、MLP変換部6に入力され、パターン素性(音素/調音素性)への第二の変換が実行される。
パターン素性類似度ベクトル算出手段33は、出力として、音素/調音素性の類似度ベクトル系列Sim2(k)を算出する。類似度ベクトル系列Sim2(k)は,HMM(隠れマルコフ)への入力特徴ベクトルとして利用される。
類似度ベクトル学習DB7は、MLP変換器6で変換された類似度ベクトル系列に基づいて生成される音響モデル、言語モデル等のパターン素性のモデルを記憶保持する。音響モデルとしては、例えば一般的に知られるHMMなどを用いることができる。HMMの音響モデル学習では、通常のForward-Backward学習が使用され音素毎、状態毎に混合分布(平均と分散)が求められる。認識部8では、音素/ 調音素性の類似度ベクトル系列Sim2(k)と音響モデルとの間で距離計算(マハラノビス距離)が計算され、最大尤度を与える音素が正解とされる。
なお、音素単位の尤度計算には言語モデル(あるいはサブワード言語モデル)による尤度加算など、通常のHMMによる音声認識と同様の処理を行うことになる。
また、認識部8は、類似度ベクトル学習DB7に格納した音響モデル及び言語モデルと類似度ベクトル系列とを比較して、類似度ベクトル系列に対する比較結果を、出力装置に認識結果として送出するものである。認識部8として、通信ネットワークを介して入手可能な各種の音声認識ソフトウェアを用いてもよい。
続いて、上記構成のパターン認識装置1における学習について、その動作手順を図5(A)のフローチャートに沿って説明する。
同図において、パターン認識装置1の学習を開始させる。するとステップT1の手順に移行し、入力装置から音声(パターン)が帯域フィルタ(BPF)群に入力され、音響特徴ベクトル系列としてスペクトルパターンが出力される。
ステップT2では、音響特徴ベクトル系列にクラス毎にDCTを適用してMFCCを抽出し、クラス毎に取得したMFCCを要素とするベクトルを作成し、各クラスのベクトルを系列化した音声特徴ベクトル系列が出力される。ステップT3では、音声特徴ベクトル系列の各クラスのベクトルに対して自己相関行列を求め、この自己相関行列の固有値問題を解いてクラス別の固有値及び固有ベクトルを算出する。
ステップT4では、このクラス別の固有値及び固有ベクトルを累積加算して、クラスで共通する相関行列を求める。ステップT5では、ステップT3と同様の方法で、相関行列の固有値及び固有ベクトルを算出する。ステップT6では、算出したクラス共通の固有ベクトルで、ステップT2の音声特徴ベクトル系列に対して内積計算を行うことで、クラス共通音声特徴ベクトル系列を取得する。
ステップT7では、クラス共通音声特徴ベクトル系列から各クラス同士が直交する(正規化)自己相関行列を求め、この正規化された自己相関行列の固有値問題を解いてクラス別の固有値及び固有ベクトルを算出する。ステップT8では、この正規化されたクラス別の固有ベクトルをクラス別に列方向に第一固有ベクトルから順に並べて関連性行列を作成する。ステップT9では、この関連性行列を特異値分解して、左特異値ベクトルと右特異値ベクトルとを算出して、学習を終了する。
上記構成のパターン認識装置1における認識について、その動作手順を図5(B)のフローチャートに沿って説明する。ステップT10〜ステップT11では、学習におけるステップT1〜ステップT2と同様の手順で音声特徴ベクトル系列を取得する。ステップT12では、音声特徴ベクトル系列をクラス共通の固有ベクトルで写像して、クラス共通音声特徴ベクトル系列を算出する。ステップT13では、左特異値ベクトルで、クラス共通音声特徴ベクトル系列に対して写像し、右特異値ベクトルを用いて類似度ベクトルを算出する。
ステップT14では、この類似度ベクトルに対して多層パーセプトロン(MLP)で変換を施す。ステップT15では、MLP変換された類似度ベクトルにHMMを実施する。ステップT16では、求めた類似度ベクトルを学習DB内の音響モデルと言語モデルと比較演算を行い、認識結果を出力する。
図6は、日本音響学会が提供する連続音声コーパス(新聞記事読み上げ)を使用した時の音素認識性能比較を示す。左側のグラフであるMFCC/HMMは、MFCC特徴を使用した標準的な音声認識方式である。また、中央のグラフであるMFCC/MLP−3段/HMMは、4層MLPを3段使用した計12層のMLPから音素類似度ベクトルを抽出してHMMに加えた音声認識方式である。さらに、右側のグラフであるMFCC/双対空間+テンソル空間/MLP−1段/HMMは、本発明になるパターン認識方式を用いた音素正解率を示している。これらのグラフからから,MLPを多段適用した方式は,従来のMFCC/HMMと比較して、音素認識誤りを30%程度改善すること、また本発明による双対空間とテンソル空間を通した音素素性の類似度ベクトル系列をHMMの入力とした場合、更に性能を改善できることを示すことが分かる。また、本発明になるパターン認識方式は、MLPを3段重ねる方式と比べて演算量の点でも内積のみ使用するため有利と言える。
このように、本発明のパターン認識装置は、パターン(音声、文字、顔等のベクトルデータ)、例えば音声である場合には、音素や調音素性などの素性抽出精度を高め、かつ演算量を低減することができ、高い音声認識率を有する。本発明のパターン認識装置は、音声のみを対象とするものではなく、文字、画像、顔等のベクトルデータをパターンとする認識にも有効である。このため、本発明のパターン認識装置は、音声データ、文字データ、画像データ等から構成される膨大なデータから構成されるビックデータに含まれるパターンの特徴を高い精度で認識(recognition)、分類(classification)及び識別(discrimination)することができる。
さらに本実施形態では、上述したパターン認識方法を、コンピュータの中央演算処理装置11に実行させるためのパターン認識プログラムを記憶装置12に格納している。
この場合、上述したパターン認識方法としての作用効果を、記憶装置12に格納した音声認識プログラムにそのまま適用することが可能になる。
以上、本発明の実施形態について説明したが、当該実施形態はあくまでも例として提示したに過ぎず、発明の範囲を限定することを意図していない。ここに提示したれ実施形態は、その他の様々な形態で実施可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置換、変更が可能である。例えば、図1では次単語予測用の言語モデルの構成を省略しているが、この言語モデルをパターン認識装置1に付加することで、認識部9の認識結果として文字列を適宜出力することができる。また本発明を、文音声認識など他のタスクに適用してもよい。
本発明のパターン認識装置は、多くのパターン(音声、文字、顔等のベクトルデータ)の中から、例えば音素、調音素性を精度良く抽出することができ、しかもパターンを構成するデータを処理する演算量を格段に減少させることができる。このため、本発明のパターン認識装置は、多くのパターン(音声、文字、顔等のベクトルデータ)を処理することが不可欠な情報処理産業の発展に寄与することができる。また、本発明のパターン認識装置は、多くのパターン(音声、文字、顔等のベクトルデータ)を精度良く認識(recognition)、分類(classification)及び識別(discrimination)することができるので、これを適用することによりロボット関連技術産業の発展に大きく寄与するものと考えらえる。
1 パターン認識装置
2 BPF分析部
3 特徴抽出部
4 ベクトル変換器
5 特徴ベクトル学習DB
6 マルチレイヤーパーセプション(MLP)変換器
7 パターン素性類似度ベクトル学習DB
8 認識部
2 BPF分析部
3 特徴抽出部
4 ベクトル変換器
5 特徴ベクトル学習DB
6 マルチレイヤーパーセプション(MLP)変換器
7 パターン素性類似度ベクトル学習DB
8 認識部
Claims (5)
- パターン素性類似度ベクトルを抽出することにより入力パターンを認識することができるパターン認識装置であって、入力パターンから特徴を算出する前処理部と、前記入力パターンの特徴を素性共通の双対空間に写像して素性共通特徴ベクトル系列に変換するパターン特徴抽出部と、予め前記素性共通特徴ベクトル系列から求めた素性別固有ベクトルを埋め込んだ関連性行列を形成し、前記関連性行列を特異値分解することにより左特異ベクトルと右特異ベクトルを生成し、前記パターン特徴抽出部から出力される入力パターンの素性共通特徴ベクトル系列を前記左特異ベクトルへ写像した後、右特異ベクトルとの間で素性毎の類似度ベクトル系列を生成する素性識別部と、前記素性類似度ベクトル系列を後段の特徴識別部を介してもしくは直接、パターン認識部へ送り認識結果を得ることを特徴とするパターン認識装置。
- パターン素性類似度ベクトルを抽出することにより入力パターンを認識することができるパターン認識方法であって、入力パターンから特徴を算出する前処理ステップと、前記入力パターンの特徴を素性共通の双対空間に写像して素性共通特徴ベクトル系列に変換するパターン特徴抽出ステップと、予め前記素性共特徴ベクトルから求めた素性別の固有ベクトルを埋め込んだ関連性行列を形成し、前記関連性行列を特異値分解することにより左特異ベクトルと右特異ベクトルを生成し、前記パターン特徴ステップから送られる入力パターンの素性共通特徴ベクトルを前記左特異ベクトルへ写像した後、右特異ベクトルとの間で素性毎の類似度ベクトル系列を生成する素性識別ステップと、前記素性類似度ベクトル系列を後段の特徴識別ステップを介してもしくは直接、パターン識別ステップへ送り認識結果を得ることを特徴とするパターン認識方法。
- 請求項3又は4に記載のパターン認識方法を、コンピュータに実行させるためのパターン認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014049544A JP2015175859A (ja) | 2014-03-12 | 2014-03-12 | パターン認識装置、パターン認識方法及びパターン認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014049544A JP2015175859A (ja) | 2014-03-12 | 2014-03-12 | パターン認識装置、パターン認識方法及びパターン認識プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015175859A true JP2015175859A (ja) | 2015-10-05 |
Family
ID=54255143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014049544A Pending JP2015175859A (ja) | 2014-03-12 | 2014-03-12 | パターン認識装置、パターン認識方法及びパターン認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015175859A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944556A (zh) * | 2017-12-12 | 2018-04-20 | 电子科技大学 | 基于块项张量分解的深度神经网络压缩方法 |
CN112101058A (zh) * | 2020-08-17 | 2020-12-18 | 武汉诺必答科技有限公司 | 一种试卷条码自动识别方法及装置 |
CN112800256A (zh) * | 2021-01-25 | 2021-05-14 | 深圳力维智联技术有限公司 | 图像的查询方法、装置、系统及计算机可读存储介质 |
JP7330521B2 (ja) | 2019-01-25 | 2023-08-22 | 国立大学法人東北大学 | 信号処理方法,信号処理装置および信号処理プログラム |
CN116819482A (zh) * | 2023-08-28 | 2023-09-29 | 四川省石棉县恒达粉体材料有限责任公司 | 一种基于雷达数据的方解石探测方法 |
-
2014
- 2014-03-12 JP JP2014049544A patent/JP2015175859A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944556A (zh) * | 2017-12-12 | 2018-04-20 | 电子科技大学 | 基于块项张量分解的深度神经网络压缩方法 |
CN107944556B (zh) * | 2017-12-12 | 2020-09-08 | 电子科技大学 | 基于块项张量分解的深度神经网络压缩方法 |
JP7330521B2 (ja) | 2019-01-25 | 2023-08-22 | 国立大学法人東北大学 | 信号処理方法,信号処理装置および信号処理プログラム |
CN112101058A (zh) * | 2020-08-17 | 2020-12-18 | 武汉诺必答科技有限公司 | 一种试卷条码自动识别方法及装置 |
CN112101058B (zh) * | 2020-08-17 | 2023-05-09 | 武汉诺必答科技有限公司 | 一种试卷条码自动识别方法及装置 |
CN112800256A (zh) * | 2021-01-25 | 2021-05-14 | 深圳力维智联技术有限公司 | 图像的查询方法、装置、系统及计算机可读存储介质 |
CN112800256B (zh) * | 2021-01-25 | 2024-05-14 | 深圳力维智联技术有限公司 | 图像的查询方法、装置、系统及计算机可读存储介质 |
CN116819482A (zh) * | 2023-08-28 | 2023-09-29 | 四川省石棉县恒达粉体材料有限责任公司 | 一种基于雷达数据的方解石探测方法 |
CN116819482B (zh) * | 2023-08-28 | 2023-11-10 | 四川省石棉县恒达粉体材料有限责任公司 | 一种基于雷达数据的方解石探测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lokesh et al. | An automatic tamil speech recognition system by using bidirectional recurrent neural network with self-organizing map | |
Villalba et al. | State-of-the-art speaker recognition with neural network embeddings in NIST SRE18 and speakers in the wild evaluations | |
US11170788B2 (en) | Speaker recognition | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
US8935167B2 (en) | Exemplar-based latent perceptual modeling for automatic speech recognition | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
CN111833845B (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
EP3469582A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
Kumar et al. | Multilayer Neural Network Based Speech Emotion Recognition for Smart Assistance. | |
Mansour et al. | Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
Sarkar et al. | Time-contrastive learning based deep bottleneck features for text-dependent speaker verification | |
CN113851136A (zh) | 基于聚类的说话人识别方法、装置、设备及存储介质 | |
Pao et al. | A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition | |
Kadyrov et al. | Speaker recognition from spectrogram images | |
Mackova et al. | A study of acoustic features for emotional speaker recognition in I-vector representation | |
Guo et al. | Robust speaker identification via fusion of subglottal resonances and cepstral features | |
Mansour et al. | Voice recognition Using back propagation algorithm in neural networks | |
Guo et al. | Speaker Verification Using Short Utterances with DNN-Based Estimation of Subglottal Acoustic Features. | |
Gupta et al. | A study on speech recognition system: a literature review | |
Nijhawan et al. | Speaker recognition using support vector machine | |
JP2016162437A (ja) | パターン分類装置、パターン分類方法およびパターン分類プログラム | |
Zhang et al. | Multimodal emotion recognition integrating affective speech with facial expression | |
Egas-López et al. | Predicting a cold from speech using fisher vectors; svm and xgboost as classifiers |