JP2021524973A

JP2021524973A - パタン認識装置、パタン認識方法、及びプログラム

Info

Publication number: JP2021524973A
Application number: JP2020565912A
Authority: JP
Inventors: シワンギマハト
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2021-09-16
Anticipated expiration: 2038-06-29
Also published as: US20210117733A1; WO2020003533A1; JP7028345B2

Abstract

パタン認識装置は、ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、生成器と、ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、識別器と、ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成されたオリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、生成器及び識別器の損失を計算する、目的関数計算器と、損失が最小化されるように、生成器及び識別器のパラメータを更新する、パラメータ更新器と、を備える。生成器の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失を構成し、識別器の損失は、１．ＧＡＮベースの損失、及び２．分類損失を構成する。ＧＡＮベースの損失は、入力特徴ベクトルについて、識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算される。クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定される。分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。【選択図】図１

Description

本発明は、例えば、顔認識、話者認識のためのパタン認識システムの精度を向上させる、パタン認識装置、及びパタン認識方法に関し、更には、パタン認識装置及びパタン認識方法を実現するためのパタン認識プログラムを記録したコンピュータ読み取り可能な記録媒体に関する。

パタン認識は、セキュリティ、監視、ｅコマースなどの日常的なアプリケーションだけでなく、農業、工学、科学などの技術アプリケーション、更には、軍事及び国家安全保障などの注目を集める問題などで広く利用されている。

パタン認識システムのプロセスは、大きく２つのステップに分類できる。１つ目のプロセスは、入力信号の特徴を抽出する特徴抽出であり、２つ目のプロセスは、抽出された特徴を、入力信号に対応したクラス（クラス）へと分類するクラス分類である。

パタン認識システムは、クラスに対応する特徴を学習し、学習した特徴を使用して分類器を訓練する。パタン認識の精度の向上のため、１つのクラスに対応する特徴は、クラスに関連した類似性を有し、異なるクラスに対応する特徴は、可能な限り非類似であるべきである。技術的には、同じクラスに対応する特徴は、分散が小さく、クラス内共分散と呼ばれ、異なるパタンに属する特徴は、分散が大きく、クラス間共分散と呼ばれる。また、特徴は、分類目的のため、分類器によって想定される統計的分布に従う必要がある。例えば、線形判別分析分類器では、各クラスに属する特徴がガウス分布に従うことが前提とされる。

現実においては、ノイズ、例えばバックグラウンドノイズ、信号の持続時間の短さ、チャネルの歪みは、特徴抽出、及び分類プロセスのパフォーマンスに度々影響を与える。ノイズの多様性により、特徴は破壊される可能性があり、特徴の特性が期待されるものとならない可能性もある。期待される特徴の特性とは、事前分布に従うだけでなく、クラス内共分散とクラス間共分散との比率が小さい、ということである。

パタン認識装置において上述の期待される特徴の特性を維持するための、１つのアプローチは、特徴変換ブロックの適用によって、ノイズ又は他の外的要因によって導入される、特徴の望ましくない変動の発生を解決することである。このブロックは、特徴を別の特徴空間に変換することにより、クラス内共分散又は多次元の場合の共分散を、クラス間共分散に比べてできるだけ小さくしようとする。変換後の特徴の統計的分布を明示的に保存するとともに、同じクラスの特徴にクラス関連の統計的類似性を浸透させることが期待される。

ノイズによって引き起こされた入力信号の歪みによる、特徴空間における、クラス内共分散の増加および/またはクラス間共分散の減少の問題を解決するために、特徴変換が、分類前において、抽出された特徴に適用される。変換には次の特性がある。
１．変換された特徴において、クラスに関連する類似度が高くなる。
２．変換された空間において、特徴の統計的分布が明示的に保持される。
３．クラス間共分散と比較してクラス内共分散が小さい特徴の識別能力が維持される。
４．広範囲の望ましくない変動に適用できるように設計されている。

線形判別分析は、よく知られた古典的なアプローチであり、特徴変換によってクラス内共分散を小さくする。特徴変換のための幾つかの新しい手法は、ニューラルネットワークを使用した、クラス内共分散の最小化とクラス間共分散間の最大化とのいずれかに焦点を当てる。

この方法の先行技術は、図１１に示されるように、特許文献１に開示されている。特許文献１には、特徴の補償を扱う先行技術が開示されている。

図１１に示すように、特徴変換器９１は、ノイズを除去するオートエンコーダであり、ノイズの多い特徴ベクトル（ｙ）を入力として受け取り、それらをノイズが除去された特徴ベクトル（ｚ）に変換し、特徴ベクトル（ｚ）のクラスラベル（ｌ）を推定する。
目的関数計算器９２は、クリーンな特徴ベクトル（ｘ）、ノイズが除去された特徴ベクトル（ｚ）、入力された特徴ベクトルのオリジナルのラベル（ｏ）、及び分類器によって推定されたクラスラベル（ｌ）を読み取る。目的関数計算器９２は、変換のコスト９２３を、ノイズが除去された特徴ベクトル（ｚ）とクリーンな特徴ベクトル（ｘ）との間の平均二乗誤差９２１と、オリジナルのラベル（ｌ）と推定されたクラスラベル（ｏ）との間の分類誤差９２２と、を荷重平均として計算する。

パラメータ更新器９４は、コスト関数が最小化されるように、識別ノイズ除去オートエンコーダのパラメータを更新する。このプロセスは、収束するまで継続される。アルゴリズムの収束後、パラメータ更新器は、識別ノイズ除去オートエンコーダのパラメータ及び構造を、ストレージ９５に格納する。テスト段階では、特徴変換器９１は、訓練後のノイズ除去オートエンコーダの構造及びパラメータを読み取り、更に、入力対象となるテストベクトルを読み取り、それらによる処理を行って、ノイズ除去された特徴ベクトルを出力する。

特許文献１に開示されている方法は、ノイズ除去オートエンコーダを用いた、平均二乗誤差を使用した特徴ベクトルのクラス内共分散の最小化による、特徴ベクトルの識別的ノイズ除去に焦点を当てており、更に、分類誤差を最小化することによる識別可能性の教え込みにも焦点を当てている。

上述の方法は、ノイズが除去された特徴ベクトルとクリーンな特徴ベクトルとの間の平均二乗誤差を最小化することにより、クラス内共分散を最小化することを目的としている。このような学習は、特徴ベクトルの全ての次元にわたる全体的な平均誤差にのみ重点を置き、特徴ベクトルの１つの次元であるかもしれない事実が、分類器によって異なるクラスを区別するために、他よりも重みが大きくなるであろうということを、無視する。ＭＳＥベースの類似度を使用した学習は、特徴変換器ネットワークを制限して、ユークリッド空間の非類似度を学習するだけであるが、コサイン類似度などの類似性尺度としてユークリッド距離を直接使用する分類器に役立つ場合がある。

しかしながら、このような、特徴ベクトルの潜在的なクラス依存の要因に重点をおいた分類器においては、最適な特徴ベクトルを取得できない場合がある。このため、特徴ベクトルの学習が最適化されず、分類の精度が低下してしまう。続いて、本発明の技術によって提供される技術的課題及び解決手段の要約が示される。

国際公開第２０１８／０７８７１２号

入力信号の歪みを解決するには、ノイズに強いパタン認識システムが非常に重要である。ノイズ及び他の要因による入力信号の歪みは、特徴空間において、クラス間共分散に比べてクラス内共分散を大きくし、パタン認識の精度を低下させる。優れたパタン認識のための特徴ベクトルの重要な特性の１つは、クラス間共分散に比べてクラス内共分散が小さいことである。同じクラスに属する特徴ベクトルは、決定論的に類似しているだけでなく、統計的なクラスベースでも高い類似性を持つ必要がある。

ノイズが多い入力信号において、クラス間共分散に比べてクラス内共分散が小さくなるようにするという問題を解決するため、クラス内共分散内の最小化とクラス間共分散の最大化とを同時に実行することに重点を置きながら、抽出されたノイズの多い特徴ベクトルを別の空間へと変換することが行われる。

特徴変換についての文献（特許文献１）には、問題を解決しようとするアプローチが開示されているが、次のようないくつかの問題も存在している。この文献では、変換されたノイズの多い特徴ベクトルと対応するクリーンな特徴ベクトルとの間の平均二乗誤差を最小化することによって、クラス内の共分散を最小化する試みが行われている。このような最小化は、特徴ベクトルの全ての次元にわたってエラーを平均化するため、変換された特徴ベクトルのクラスベースの類似性を最適化することに重点をおいている訳ではない。このような学習は、変換された特徴ベクトルに高い統計的クラスベースの類似度を付加することに欠けており、結果的に最適ではない特徴学習となる。

上記の問題点に加えて、本発明が克服することができる他の明白で明らかな問題点は、詳細な仕様および図面から明らかにされるであろう。

本発明の目的は、例えば、クラス内共分散を最小化し、クラス間共分散を最大化するために、変換後の特徴ベクトルにおいてクラス指向の類似度を維持し得る、パタン認識システムにおける特徴変換ブロックを提供することにある。

上記目的を達成するため、本発明の一例におけるパタン認識装置は、
ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、生成器と、
ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、識別器と、
ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記生成器及び前記識別器の損失を計算する、目的関数計算器と、
損失が最小化されるように、前記生成器及び前記識別器のパラメータを更新する、パラメータ更新器と、
を備える。
この場合において、前記生成器の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、前記識別器の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。

上記目的を達成するため、本発明の一例におけるパタン認識方法は、
（ａ）ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
（ｂ）ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
（ｃ）ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ（ａ）及び前記ステップ（ｂ）の損失を計算する、ステップと、
（ｄ）損失が最小化されるように、前記ステップ（ａ）及び前記ステップ（ｂ）のパラメータを更新する、ステップと、
を有する。
この場合において、前記ステップ（ａ）の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、前記ステップ（ｂ）の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。

上記目的を達成するため、本発明の一例におけるコンピュータ読み取り可能な記録媒体は、
コンピュータに、
（ａ）ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
（ｂ）ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
（ｃ）ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ（ａ）及び前記ステップ（ｂ）の損失を計算する、ステップと、
（ｄ）損失が最小化されるように、前記ステップ（ａ）及び前記ステップ（ｂ）のパラメータを更新する、ステップと、
を実行させる命令を含むプログラムを記録している。
この場合において、前記ステップ（ａ）の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、前記ステップ（ｂ）の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。

以上のように、本発明によれば、例えば、クラス内共分散を最小化し、クラス間共分散を最大化するために、変換後の特徴においてクラス指向の類似度を維持し得る、パタン認識システムにおける特徴変換ブロックを提供することができる。

図面は、詳細な説明とともに、本発明の手法の原理を説明するために用いられる。図面は説明のために用いられ、技術の応用を制限するものではない。
図１は、本発明の実施の形態１におけるパタン認識装置の概略構成を示すブロック図である。図２は、本発明の実施の形態１におけるパタン認識装置の具体的構成を示すブロック図である。図３は、生成器と識別器とを訓練するための訓練フェーズにおいて、本発明の実施の形態１の具体例を示す、ニューラルネットワークの表現図である。図４は、本発明の実施の形態１におけるパタン認識装置によって実行される動作を示すフロー図である。図５（ａ）及び図５（ｂ）は、本発明の実施形態１におけるパタン認識装置によって実行される動作を示す他のフロー図である。図６は、本発明の実施形態２におけるパタン認識装置の具体的構成を示すブロック図である。図７は、生成器と識別器とを訓練するための訓練フェーズにおいて、本発明の実施の形態２の具体例を示す、ニューラルネットワークの表現図である。図８は、本発明の実施の形態２におけるパタン認識装置によって実行される動作を示すフロー図である。図９（ａ）及び図９（ｂ）は、本発明の実施の形態２におけるパタン認識装置によって実行される動作を示す他のフロー図である。図１０は、本発明の実施の形態１又は２におけるパタン認識装置を実現するコンピュータの一例を示すブロック図である。図１１は、従来技術１（識別可能なノイズ除去オートエンコーダを使用した特徴ベクトルのノイズ除去）を示すブロック図である。

（発明の原理）
次に、上述の全ての問題に対する解決策の概要を示す。ここで、上述の技術的な問題を解決するために、全体的なアプローチについて要約する。このアプローチには、訓練段階とテスト段階との２つの段階がある。

訓練段階では、まず、訓練データが用いられて、パタン認識システムの訓練が行われる。テスト段階では、訓練済みのシステムの特徴変換ブロックが使用されて、対象となるテストデータが変換され、ロバストな特徴ベクトルが抽出される。訓練段階では、生成器と識別器とで構成されるＧＡＮ（Generative Adversarial Network）が、ノイズの多い特徴ベクトル、対応するクリーンな特徴ベクトル、及びそれらのクラスラベルを使用して、訓練される。生成器と識別器とは、互いにだまされるように交互に訓練される。

生成器はノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する。識別器は、生成器の出力を入力として読み取り、出力が特定のオリジナルでクリーンな特徴ベクトルである確率を予測し、更に、そのクラスラベルも予測する。

次に、識別器は、対応するオリジナルでクリーンな特徴ベクトルを入力として読み取り、それが特定のオリジナルでクリーンな特徴ベクトルである確率を予測し、更に、そのクラスラベルも予測する。目的関数計算器は、識別器の出力と、入力された特徴ベクトルの実際の真のクラスラベルとを、読み取り、識別器の損失を計算する。

次に、パラメータ更新器は、識別器のパラメータを更新して、目的関数を最適化する。識別器のパラメータの更新は、十分な回数だけ反復して実行される。その後、目的関数計算器は、識別器と実際の真のクラスラベルとの出力を読み取り、そして、入力された特徴ベクトルに対応する特徴をクリーンにして、生成器の損失を計算する。

次に、パラメータ更新器は生成器のパラメータを更新して、目的関数を最適化する。識別器と生成器とを交互に訓練するループは、生成器の損失が収束するまで続けられる。収束の後、パラメータ更新器は、評価目的で使用される生成器のパラメータを格納する。

本発明の主な特徴は、生成器の損失を設計することにある。通常の対抗的なＧＡＮ損失と分類損失とは異なり、本発明の手法における生成器は、同じクラスに属する特徴ベクトル間のＰＬＤＡに基づいた負の対数尤度比である、クラス指向の非類似度を最小化し、異なるクラスに属する特徴ベクトルにおける非類似度を最大化することに重点をおく。ＰＬＤＡは、クリーンなデータについて事前に訓練された確率的線形判別分析である。

実施の形態２においては、ＰＬＤＡベースの非類似度の測定と共に、生成器のボトルネックな特徴の確率分布を明示的に保存するため、ＫＬＫＬダイバージェンス正則化を適用することによって、生成器損失に別のコスト関数も付加する。

実施の形態１においては、テスト段階において、生成器は、格納されている訓練済の構造及びそのパラメータを読み取る。生成器は、テスされる特徴ベクトルを受け取ると、対応するノイズが除去された特徴ベクトルを出力する。実施の形態２の訓練段階では、生成器のボトルネックな特徴は、入力されてテスト対象となる特徴ベクトルにおいて、変換後のノイズが除去された特徴ベクトルとみなされる。

本発明の利点は、以下のように、特徴ベクトルが所望の特性を備え、且つ訓練された特徴変換ブロックが取得されることである。
１．変換された特徴は、クラス指向の類似度を有し、それは分類の精度を高めるのに役立つ。
２．ブロックが様々なノイズを除去するようにトレーニングされているので、変換された特徴は、広くノイズに強くなる。

クラス指向の非類似度である生成器損失に新しく導入された関数持つ、ＧＡＮのトレーニングは、クラス内の共分散を小さく、クラス間の共分散を同時に大きくするので、分類に役立つ。

従って、本発明は、いくつかのステップ、これらのステップの１つ又は複数と他のステップそれぞれとの関係、及びそのようなステップに影響を与えるように最適化された構造、構成要素の組み合わせ、および部品の配置の特徴を具体化する装置、全てからなる。全ては、以下の詳細な開示、即ち、図面の説明、及び詳細な説明に例示される。本発明の範囲は、特許請求の範囲に示される。

以下、本発明の実施の形態について詳細に説明する。以下では、発明の実装が完全に詳細に説明されている。例示的な図面とともに、ここで提供される説明は、本発明を実施するための当業者に確固たるガイドを提供するためのものである。

（実施の形態１）
最初に、本発明の実施形態１における、パタン認識装置、パタン認識方法、及びパタン認識プログラムについて、図１〜図５を参照して説明する。

［装置構成］
まず、実施の形態１におけるパタン認識装置について図１を用いて説明する。図１は、本発明の実施の形態１におけるパタン認識装置の概略構成を示すブロック図である。

図１に示す実施の形態１におけるパタン認識装置１００は、ニューラルネットワークベースの特徴変換を用いて、パタン認識を行うための装置である。図１に示すように、実施の形態１におけるパタン認識装置１００は、生成器１０１と、識別器１０２と、目的関数計算器１０３と、パラメータ更新器１０４とを備えている。生成器１０１は、ノイズの多い特徴ベクトルをノイズが除去された特徴ベクトルに変換する。

識別器１０２は、ノイズが除去された特徴ベクトルと、ノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルとを、入力として取得する。識別器１０２は、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測する。識別器１０２は、入力された特徴ベクトルを、対応するクラスに分類する。

目的関数計算器１０３は、ノイズが除去された特徴ベクトル、ノイズの多い特徴ベクトルから生成されたクリーンな特徴ベクトル、推定されたクラス、及びそれらの真のクラスを使用して、生成器及び識別器の損失を計算する。
生成器の損失は、１．ＧＡＮベースの損失と、２．分類損失と、３．クラス指向の非類似度の損失とで、構成される。識別器の損失は、１．ＧＡＮベースの損失と、２．分類損失とで、構成される。

ＧＡＮベースの損失は、入力特徴ベクトルについて、識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算される。クラス指向の非類似度の損失は、生成器によって生成された、ノイズが除去された特徴ベクトルと、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定された、対応するクリーンな特徴ベクトルとの間の非類似度である。分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。

パラメータ更新器１０４は、最小の損失に基づいて、生成器と識別器とのパラメータを更新する。

このようにして、パタン認識装置１００により、生成器の損失及び識別器の損失が計算され、生成器のパラメータ及び識別器のパラメータが更新されて、損失が最小化される。このため、特徴変換ブロックは、クラス指向の類似度によって、クラス内共分散を最小化しクラス間共分散を最大化するように特徴ベクトルを変換する特性を持ち、この特徴変換ブロックをパタン認識システムに提供することができる。

次に、図２〜図７を用いて、実施の形態１におけるパタン認識装置１００の構成について、詳細に説明する。

図２は、本発明の実施の形態１におけるパタン認識装置の具体的構成を示すブロック図である。図２に示すように、目的関数計算器１０３は、生成器１０１を訓練しながら、生成器の損失１０３１を計算し、識別器を訓練しながら、識別器の損失を計算する。パタン認識装置は、生成器１０１、識別器１０２、目的関数計算器１０３、およびパラメータ更新器１０４に加えて、ストレージ１０５を備えている。ストレージ１０５は、生成器及び変換フェーズで訓練された生成器１０１のパラメータ及び構造を格納する。

訓練フェーズでは、生成器１０１はノイズの多い特徴ベクトル（ｙ）を読み取り、ノイズが除去された特徴ベクトル（ｚ）を推定する。次に、識別器１０２は、ノイズが除去された特徴ベクトル（ｚ）を読み取り、それが特定のオリジナルのクリーンな特徴ベクトル（Ｄｒ（ｚ））である確率を予測し、更に、そのクラスラベル（Ｄｄ（ｚ））を推定する。

目的関数計算器１０３は、識別器の出力（Ｄｒ（ｘ）、Ｄｒ（ｚ））及び（Ｄｄ（ｘ）、Ｄｄ（ｚ））と、入力特徴ベクトルの実際の真のクラスラベル（ｌ）とを読み取り、識別器の損失１０３２を計算する。実施の形態１における識別器の損失の数学的構成は、数１に示す通りである。

パラメータ更新器１０４は、識別器のパラメータを更新して、目的関数を最適化する。この識別器の訓練は、十分な回数となるまで反復して実行される。識別器の訓練後、生成器１０１は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する。次に、識別器１０２は、ノイズが除去された特徴ベクトル（ｙ）を読み取り、それが特定のオリジナルのクリーンな特徴ベクトル（Ｄｒ（ｚ））となる確率を予測し、更に、そのクラスラベル（Ｄｄ（ｚ））を推定する。

目的関数計算器１０３は、識別器の出力（Ｄｒ（ｚ））及び（Ｄｄ（ｚ））と入力特徴ベクトルの実際の真のクラスラベル（ｌ、ｘ）と読み取り、生成器の損失１０３３を計算する。実施の形態１における生成器の損失の数学的構成は、数２に示す通りである。

数２において、ＰＬＤＡは、クリーンなデータ上で訓練されたＰＬＤＡを表し、ＰＬＤＡ（ｘ，ｚ）は、テストペア（ｘ，ｚ）におけるＰＤＬＡの出力スコアを表す。パラメータ更新器１０４は、目的関数を最適化するために、生成器のパラメータを更新する。生成器と識別器との訓練は、生成器の損失が収束するまで行われる。

収束後、パラメータ更新器１０４は、訓練された特徴変換器のパラメータをストレージ１０５に格納する。訓練フェーズでは、生成器１０１は、記憶された構造及びパラメータをストレージ１０５から読み取る。生成器１０１は、テストする特徴を入力として読み取り、ノイズが除去された特徴ベクトルを生成し、それを出力する。

顔認識の場合、クラスは個人ＩＤであり、特徴ベクトルは目、鼻などの座標である。認識システムがクリーンな画像によって訓練されている場合に、認識対象となる画像がぼやけていると、これらの画像は正しく認識されない事態となる。これらのぼやけた画像は、パタン認識システムの訓練に使用されたクリーンな画像から抽出された特徴ベクトルと比較して、ノイズの多い特徴ベクトルを特徴空間に生成する。生成器１０１は、ぼやけた画像に対応するノイズの多い特徴ベクトルを読み取ると、ノイズが除去された特徴ベクトルを生成する。

話者認識の場合、クラスは話者の個人ＩＤでもあり、特徴ベクトルは、次の参照文献に示すように、音声信号に含まれる音素から抽出されたｉベクトルである。パタン認識システムが、ノイズの多い環境で録音されたオーディオに適用されると、パタン認識システムは、ノイズの多いｉベクトルを話者の特徴として読み取る。一方、パタン認識システムは、クリーンなオーディオ信号から抽出されたクリーンなｉベクトルで訓練されている。生成器１０１は、ノイズの多いｉベクトルをクリーンなｉベクトルに変換する。クリーンなｉベクトルは、話者を認識するために標準のパタン認識システムでさらに使用される。

参照文献：Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798.

図３は、生成器と識別器とを訓練するための訓練フェーズにおいて、本発明の実施の形態１の具体例を示す、ニューラルネットワークの表現図である。図３に示すように、生成器１０１は、エンコーダ（Ｇ_ｅｎｃ）及びデコーダ（Ｇ_ｄｅｃ）として２つのニューラルネットワーク（ＮＮ）を有している。訓練段階では、エンコーダ（Ｇ_ｅｎｃ）はノイズの多い特徴ベクトルを入力として読み取り、それらをクラス依存の特徴ベクトル（ｆ）にエンコードする。次に、デコーダ（Ｇ_ｄｅｃ）は、エンコードされた特徴ベクトル（ｆ）とランダムノイズベクトル（Ｎ）とを読み取り、ノイズが除去された特徴ベクトル（Ａ’）を生成して出力する。

識別器１０２は、１つのニューラルネットワーク（ＮＮ）を有する。識別器１０２は、ノイズ除去された特徴ベクトル（Ａ’）及び対応するクリーンな特徴ベクトル（Ａ）を読み取り、そして、それぞれが特定のクリーンな特徴ベクトルである確率を予測し、入力された各特徴ベクトルのクラスを推定する。また、ＰＬＤＡの類似度は、ノイズが除去された特徴ベクトル（Ａ’）と、それに対応するクリーンな特徴ベクトル（Ａ）との間において、２つの特徴ベクトル間のクラス指向の類似度を見つけるための尺度として、計算される。

生成器と識別器との両方のニューラルネットワーク（ＮＮ）は、生成器と識別器との損失を最適化するように交互に訓練される。そして、訓練の後、識別器は、ノイズが除去された特徴ベクトルを、それらのクラスに正しく分類し、オリジナルのクリーンな特徴ベクトル（Ａ）とノイズが除去された特徴ベクトル（Ａ’）とは区別しない。

また、訓練後、全ての訓練ペア（Ａ，Ａ’）間のＰＬＤＡの類似度は、最大となる。このことは、ノイズが除去された特徴ベクトルがクラス指向の特性を持つようになることを意味する。生成器１０１と識別器１０２との両方の訓練損失の収束後、識別器と生成器との両方の訓練された重みパラメータは、実施の形態１におけるブロック図に示すように、ストレージ１０５に格納される。

テスト段階中に、生成器１０１は、その訓練されたパラメータをストレージ１０５から読み取る。エンコーダ（Ｇ_ｅｎｃ）は、与えられたテスト用の特徴ベクトルを入力として読み取り、それを符号化された特徴ベクトルに変換する。次に、エンコーダ（Ｇ_ｅｎｃ）は、エンコードされた特徴ベクトルを入力として読み取り、入力された特徴ベクトルを、ノイズが除去された状態とする。

実施の形態１における有効な効果の１つは、以下の通りとなる。つまり、訓練中において、ノイズは、エンコードされた特徴ベクトルにランダムに追加されるため、生成器は変換によって様々なノイズを除去することを学習する。

［装置動作］
次に、図４及び図５を用いて、実施の形態１におけるパタン認識装置１００の動作について説明する。以下の説明においては、必要に応じて図１〜図３が参照される。また、実施の形態１において、パタン認識方法は、パタン認識装置を動作させることによって実施される。従って、以下においては、パタン認識装置１００によって実行される動作の説明によって、実施の形態１におけるパタン認識方法の説明に代える。

図４は、実施の形態１におけるパタン認識装置によって実行される動作を示すフロー図である。図４は、実施の形態１における訓練の部分を示している。まず、図４に示すように、訓練フェーズにおいては、生成器１０１は、ノイズの多い特徴ベクトルを読み取り、ノイズ除去された特徴ベクトルを推定する（ステップＡ０１）。次に、識別器１０２は、ノイズが除去された特徴ベクトルを読み取り、それが特定のクリーンな特徴ベクトルである確率を予測し、そして、そのクラスラベルを推定する（ステップＡ０２）。

次に、識別器１０２は、オリジナルのクリーンな特徴ベクトルを読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率を予測し、そして、そのクラスラベルを推定する（ステップＡ０３）。次に、目的関数計算器１０３は、識別器の出力及び入力特徴ベクトルの実際の真のラベルを読み取り、識別器の損失を計算する（ステップＡ０４）。

次に、パラメータ更新器１０４は、識別器のパラメータを更新して、目的関数を最適化する（ステップＡ０５）。次に、パラメータ更新器１０４は、反復回数がＮよりも小さいかどうかを判定する（ステップＡ０６）。この識別器の訓練は、十分な回数となるまで反復して実行される。

ステップＡ０６での判定の結果、反復回数がＮ以上である場合は、ステップＡ０２が再度実行される。一方、ステップＡ０６での判定の結果、反復回数がＮより少ない場合は、ステップＡ０７が実行される。

識別器１０２の訓練の後、生成器１０１は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する（ステップＡ０７）。次に、識別器１０２は、ノイズが除去された特徴ベクトルを読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率を予測し、更に、そのクラスラベルを推定する（ステップＡ０８）。

次に、目的関数計算器１０３は、識別器の出力、実際の真のクラスラベル、及び入力特徴ベクトルに対応するクリーンな特徴ベクトルを読み取り、生成器の損失を計算する（ステップＡ０９）。次に、パラメータ更新器１０４は、目的関数を最適化するために生成器のパラメータを更新する（ステップＡ１０）。

次に、パラメータ更新器１０４は、生成器の損失が収束したかどうかを判定する（ステップＡ１１）。生成器と識別器との訓練は、生成器の損失が収束するまで行われる。ステップＡ１１の判定の結果、生成器の損失が収束していない場合は、ステップＡ０１が再度実行される。一方、ステップＡ１１の判定の結果、生成器の損失が収束している場合は、パラメータ更新器１０４は、訓練された特徴変換器（生成器）のパラメータを、ストレージ１０５に格納する（ステップＡ１２）。

図５（ａ）及び図５（ｂ）は、本発明の実施の形態１におけるパタン認識装置によって実行される動作を示す他のフロー図である。図５（ａ）及び図５（ｂ）は、実施の形態１における２種類の可能なテスト段階を示している。

第１段階では、訓練済みの生成器を使用した特徴変換が行われる。まず、図５（ａ）に示すように、生成器１０１は、その格納されている構造及びパラメータをストレージ１０５から読み取る（ステップＣ０１）。次に、テスト対象となる特徴ベクトルを入力として読み取り、それらを変換してノイズが除去された特徴ベクトルを生成し、出力する（ステップＣ０２）。次に、ノイズが除去された特徴ベクトルは、幾つかの分類器に与えられ、適切なクラスに分類される。

第２段階では、訓練された生成器と識別器とが用いられて、特徴変換とそれらの分類とが行われる。まず、図５（ｂ）に示すように、生成器１０１及び識別器１０２は、それらの格納された構造及びパラメータをストレージ１０５から読み取る（ステップＤ０１）。次に、生成器１０１は、テスト対象となる特徴ベクトルを入力として読み取り、それらを変換して、ノイズが除去された特徴ベクトルを生成し、出力する（ステップＤ０２）。次に、識別器１０２は、生成器の出力を読み取り、出力された特徴ベクトルのクラスラベルを推定する（Ｄ０３）。

［プログラム］
実施の形態１におけるプログラムは、コンピュータに、図４に示すステップＡ０１からＡ１２、図５（ａ）に示すステップＣ０１からＣ０２、及び図５（ｂ）に示すステップＤ０１からＤ０３を実行させる、プログラムであれば良い。実施の形態１におけるパタン認識装置１００及びパタン認識方法は、プログラムをコンピュータにインストールして実行することによって実現することができる。この場合、コンピュータのプロセッサは、生成器１０１、識別器１０２、目的関数計算器１０３、及びパラメータ更新器１０４として機能して処理を実行する。

なお、実施の形態１におけるプログラムは、複数のコンピュータで構成されるコンピュータシステムによって実行されても良い。この場合、コンピュータは、例えば、生成器１０１、識別器１０２、目的関数計算器１０３、及びパラメータ更新器１０４として、それぞれ機能することができる。

（実施の形態２）
次に、本発明の実施の形態２における、パタン認識装置、パタン認識方法、及びパタン認識プログラムについて、図６〜図９を用いて説明する。

［装置構成］
最初に、実施の形態２におけるパタン認識装置について図６を用いて説明する。図６は、本発明の実施の形態２におけるパタン認識装置の具体的構成を示すブロック図である。図６に示すように、実施の形態２におけるパタン認識装置２００は、生成器２０１と、識別器２０２と、生成器を訓練しながら生成器の損失２０３１を計算し、識別器を訓練しながら識別器の損失を計算する、目的関数計算器２０３と、パラメータ更新器２０４と、生成器及び訓練された生成器２０１の変換フェーズにおけるパラメータおよび構造を格納する、ストレージ２０５とを備えている。

訓練フェーズでは、生成器２０１は、ノイズの多い特徴ベクトル（ｙ）を読み取り、ノイズが除去された特徴ベクトル（ｚ）を推定する。次に、識別器２０２は、ノイズが除去された特徴ベクトル（ｚ）を読み取り、それが特定のオリジナルのクリーンな特徴ベクトルとなる確率（Ｄ_ｒ（ｚ））を予測し、そして、そのクラスラベル（Ｄ_ｄ（ｚ））を推定する。次に、識別器１０２は、オリジナルのクリーンな特徴ベクトル（ｘ）を読み取り、それが特定のオリジナルのクリーンな特徴ベクトル（Ｄｒ（ｘ））となる確率を予測し、更に、そのクラスラベル（Ｄｄ（ｘ））も推定する。

目的関数計算器１０３は、識別器の出力（Ｄｒ（ｘ）、（Ｄｒ（ｚ））及び（Ｄｄ（ｘ）、Ｄｄ（ｚ））と、入力された特徴ベクトルの実際の真のクラスラベル（ｌ）とを読み取り、識別器の損失１０３２を計算する。実施の形態１における識別器の損失の数学的構成は、数３に示す通りである。

パラメータ更新器１０４は、識別器のパラメータを更新して、目的関数を最適化する。この識別器の訓練は、十分な回数となるまで反復して実行される。識別器の訓練後、生成器１０１は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する。次に、識別器１０２は、ノイズが除去された特徴ベクトル（ｙ）を読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率（Ｄ_ｒ（ｚ））を予測し、更に、そのクラスラベル（Ｄ_ｄ（ｚ））も推定する。

目的関数計算器１０３は、識別器の出力（Ｄ_ｒ（ｚ））及び（Ｄ_ｄ（ｚ））と、入力された特徴ベクトルの実際の真のクラスラベル（ｌ，ｘ）とを、読み取り、生成器の損失１０３３を計算する。実施の形態１における生成器の損失の数学的構成は、数４に示す通りである。

数４において、ＰＬＤＡは、クリーンなデータで訓練されたＰＬＤＡを表し、ＰＬＤＡ（ｘ，ｚ）は、テストペア（ｘ，ｚ）におけるＰＤＬＡの出力スコアを表し、ＫＬ＿ｄｉｖ（ｈ，ｎ）は、生成器（ｈ）のボトルネックとなる特徴ベクトルと事前に定義された確率分布を持つ確率変数（ｎ）との間のＫＬダイバージェンスを表している。

実施の形態２では、ガウス分布は、事前に定義された確率分布として想定されている。パラメータ更新器１０４は、生成器のパラメータを更新して、目的関数を最適化する。生成器と識別器との訓練は、生成器の損失が収束するまで行われる。収束後、パラメータ更新器は、訓練された特徴変換器（生成器）のパラメータをストレージ１０５に格納する。

テストフェーズでは、生成器１０１は、ストレージ１０５から、格納されている構造及びパラメータを読み取る。生成器１０１は、入力としてテスト対象となる特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを生成し、これを出力する。

実施の形態２における有効な効果として、実施の形態１で示された効果に加えて、以下に示すものがある。つまり、実施の形態２によれば、変換された特徴ベクトルは、ＫＬダイバージェンスの最小化によって、事前に定義された確率分布に従って訓練されることになる。

図７は、生成器と識別器とを訓練するための訓練フェーズにおいて、本発明の実施の形態２の具体例を示す、ニューラルネットワークの表現図である。図７に示すように、生成器２０１は、エンコーダ（Ｇ_ｅｎｃ）及びデコーダ（Ｇ_ｄｅｃ）として、２つのニューラルネットワーク（ＮＮ）を有する。訓練段階では、エンコーダ（Ｇ_ｅｎｃ）は、ノイズの多い特徴を入力として読み取り、それらをクラス依存の特徴ベクトル（ｆ）にエンコードする。次に、デコーダ（Ｇ_ｄｅｃ）は、エンコードされた特徴ベクトル（ｆ）とランダムノイズベクトル（Ｎ）とを読み取り、ノイズが除去された特徴ベクトルベクトル（Ａ’）を生成し、それを出力する。

識別器２０２は、１つのニューラルネットワーク（ＮＮ）を有する。識別器２０２は、ノイズ除去された特徴ベクトル（Ａ’）及び対応するクリーンな特徴ベクトル（Ａ）を読み取り、それぞれが特定のオリジナルなクリーンな特徴ベクトルである確率を予測し、更に、入力された各特徴ベクトルのクラスを推定する。また、各訓練の反復において、２つの特徴ベクトル間のクラス指向の類似度を見つけるための尺度として、ＰＬＤＡの類似度が、ノイズが除去された特徴ベクトル（Ａ’）とクリーンな特徴ベクトル（Ａ）との間で計算される。更に、ＫＬダイバージェンス計算器が、正規分布〜Ｎ（０，１）といった事前定義された分布から、エンコードされた特徴（ｆ）の分布の発散を計算する。

生成器及び識別器の両方のニューラルネットワーク（ＮＮ）は、生成器と識別器との損失を最適化するために、交互に訓練される。訓練後、識別器はノイズが除去された特徴ベクトルをクラスに正しく分類し、オリジナルのクリーンな特徴ベクトル（Ａ）とノイズが除去された特徴ベクトル（Ａ’）とを区別することができなくなる。

また、訓練の後、全ての訓練ペア（Ａ，Ａ’）間のＰＬＤＡの類似度は最大となる。このことは、ノイズが除去された特徴ベクトルがクラス関連の特性を有し、エンコードされた特徴の分布が以前に定義された分布に近似する、ことを意味する。生成器２０１及び識別器２０２両方の訓練損失の収束後、識別器２０１及び生成器２０２両方における訓練された重みパラメータは、実施の形態１のブロック図に示されるように、ストレージ２０５に格納される。

訓練されたニューラルネットワークでは、２つのタイプの特徴変換が行われる。テスト段階の第１のタイプでは、生成器２０１のニューラルネットワークは、訓練されたパラメータをストレージ２０５から読み取り、そして、エンコーダ（Ｇ_ｅｎｃ）は、与えられたテスト対象の特徴ベクトルを入力として読み取り、それを、エンコードされた特徴ベクトルに変換して、出力する。テスト段階の第２のタイプでは、デコーダ（Ｇ_ｄｅｃ）は、エンコーダ（Ｇ_ｅｎｃ）の出力（エンコードされた特徴ベクトル）を入力として読み取り、入力された特徴ベクトルのノイズが除去された状態を生成する。

［装置動作］
次に、図８及び図９を用いて実施の形態２におけるパタン認識装置２００の動作について説明する。以下の説明においては、必要に応じて、図１〜図３が参照される。また、実施の形態２において、パタン認識方法は、パタン認識装置を動作させることによって実施される。従って、以下においては、パタン認識装置２００によって実行される動作の説明によって、実施の形態２におけるパタン認識方法の説明に代える。

図８は、本発明の実施の形態２におけるパタン認識装置によって実行される動作を示すフロー図である。図８は、実施の形態２における訓練の部分を示している。最初に、図８に示すように、訓練フェーズにおいて、生成器２０１は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する（ステップＢ０１）。次に、識別器２０２は、ノイズが除去された特徴ベクトルを読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率を予測し、そのクラスラベルも推定する（ステップＢ０２）。

次に、識別器２０２は、オリジナルのクリーンな特徴ベクトルを読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率を予測し、更に、そのクラスラベルを推定する（ステップＢ０３）。次に、目的関数計算器１０３は、識別器の出力及び入力された特徴ベクトルの実際の真のクラスラベルを読み取り、識別器の損失を計算する（ステップＢ０４）。

次に、パラメータ更新器２０４は、識別器のパラメータを更新して、目的関数を最適化する（ステップＢ０５）。次に、パラメータ更新器２０４は、反復回数がＮよりも小さいかどうかを判定する（ステップＢ０６）。この識別器の訓練は、十分な回数となるまで反復して行われる。

ステップＢ０６の判定の結果、反復回数がＮ以上である場合は、ステップＢ０２が再度実行される。一方、ステップＢ０６の判定の結果、反復回数がＮより少ない場合は、ステップＢ０７が実行される。

識別器２０２の訓練の後、生成器２０１は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する（ステップＢ０７）。次に、識別器１０２は、ノイズが除去された特徴ベクトルを読み取り、それが特定のクリーンな特徴ベクトルである確率を予測し、そして、そのクラスラベルを推定する（ステップＢ０８）。

次に、目的関数計算器２０３は、識別器の出力、実際の真のクラスラベル、入力された特徴ベクトルに対応するクリーンな特徴ベクトルを読み取り、生成器の損失を計算する（ステップＢ０９）。次に、パラメータ更新器２０４は、生成器のパラメータを更新して、目的関数を最適化する（ステップＢ１０）。

次に、パラメータ更新器２０４は、生成器の損失が収束したかどうかを判定する（ステップＢ１１）。生成器及び識別器の訓練は、生成器の損失が収束するまで行われる。ステップＢ１１での判定の結果、生成器の損失が収束していない場合は、ステップＢ０１が再度実行される。一方、ステップＢ１１での判定の結果、生成器の損失が収束している場合は、パラメータ更新器２０４は、訓練された特徴ベクトル変換器（生成器）のパラメータをストレージ２０５に格納する（ステップＢ１２）。

図９（ａ）及び図９（ｂ）は、本発明の実施の形態２におけるパタン認識装置によって実行される動作を示す他のフロー図である。図９（ａ）及び図９（ｂ）は、実施の形態２における２種類の可能なテスト段階を示している。

第１段階では、訓練済の生成器のボトルネックな特徴ベクトルを用いた特徴変換が行われる。最初に、図９（ａ）に示すように、生成器２０１は、ストレージ２０５から、そこに格納されている生成器の構造及びパラメータを読み取る（ステップＥ０１）。次に、テスト対象となる特徴ベクトルを入力として読み取り、それらを変換する（ステップＥ０２）。次に、生成器のボトルネックな特徴ベクトルが、ノイズが除去された特徴ベクトルとして取り出され、出力される（ステップＥ０３）。次に、ノイズが除去された特徴ベクトルは、幾つかの分類器に適用されて、適切なクラスに分類される。

第２段階では、訓練された生成器と識別器とが用いられて、特徴変換とそれらの分類とが行われる。最初に、図９（ｂ）に示すように、生成器２０１及び識別器２０２は、ストレージ２０５から、そこに格納されている、それらの構造及びパラメータを読み取る（ステップＦ０１）。次に、生成器２０１は、テスト対象となる特徴ベクトルを入力として読み取り、それらを変換して、ノイズが除去された特徴ベクトルを生成し、出力する（ステップＦ０２）。次に、識別器は、生成器の出力を読み取り、出力された特徴ベクトルのクラスラベルを推定する（ステップＦ０３）。

（プログラム）
実施の形態２におけるプログラムは、コンピュータに、図８に示すステップＢ０１からＢ１２、図９（ａ）に示すステップＥ０１からＥ０３、及び図９（ｂ）に示すステップＦ０１からＦ０３を実行させるためのプログラムであれば良い。実施の形態１におけるパタン認識装置１００及びパタン認識方法は、プログラムをコンピュータにインストールして実行することによって実現することができる。この場合、コンピュータのプロセッサは、生成器２０１、識別器２０２、目的関数計算器２０３、及びパラメータ更新器２０４として機能して処理を実行する。

なお、実施の形態２におけるプログラムは、複数のコンピュータで構成されるコンピュータシステムによって実行されても良い。この場合、コンピュータは、例えば、生成器２０１、識別器２０２、目的関数計算器２０３、及びパラメータ更新器２０４として、それぞれ機能することができる。

（物理構成）
以下、実施の形態１及び２におけるプログラムを実行することによって、パタン認識装置を実現するコンピュータについて、図１０を用いて説明する。図１０は、本発明の実施の形態１又は２におけるパタン認識装置を実現するコンピュータの一例を示すブロック図である。

図１０に示すように、コンピュータ１０は、ＣＰＵ（Central Processing Unit）１１と、メインメモリ１２と、記憶装置１３と、入力インターフェース１４と、表示コントローラ１５と、データリーダー／ライター１６と、通信インターフェース１７とを備える。これらの各部は、バス２１によって相互に通信可能に接続される。

ＣＰＵ１１は、記憶装置１３に格納された本実施の形態のプログラム（コード）をメインメモリ１２に展開し、所定の順序でプログラムを実行することにより、各種計算を実行する。メインメモリ１２は、典型的には、ＤＲＡＭ（Dynamic Random-Access Memory）などの揮発性の記憶装置である。実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体２０に格納された状態で提供される。実施の形態におけるプログラムは、通信インターフェース１７を介して接続されるインターネット上で流通するものであっても良い。

記憶装置１３の具体例としては、ハードディスク、更には、フラッシュメモリなどの半導体記憶装置が挙げられる。入力インターフェース１４は、ＣＰＵ１１と、キーボードまたはマウスなどの入力装置１８との間のデータの伝送を仲介する。表示コントローラ１５は、ディスプレイ装置１９に接続され、ディスプレイ装置１９によって表示される画面を制御する。

データリーダー／ライター１１６は、ＣＰＵ１１と記録媒体２０との間のデータ伝送を仲介し、記録媒体２０からのプログラムの読み取り、及びコンピュータ１０によって得られた処理結果の記録媒体２０への書き込みを実行する。通信インターフェース１７は、ＣＰＵ１１と、他のコンピュータとの間のデータの転送を仲介する。

記録媒体２０の具体例としては、ＣＦ（Compact Flash（登録商標））カード、ＳＤ（Secure Digital）カード等の汎用的な半導体記憶装置、フレキシブルディスクなどの磁気記憶媒体、及びＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などの光学記憶媒体が挙げられる。

なお、上記の実施の形態におけるパタン認識装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、パタン認識装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていても良い。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記２７）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
ニューラルネットワークによる特徴変換を用いてパタン認識を行うための装置であって、
ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、生成器と、
ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、識別器と、
ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記生成器及び前記識別器の損失を計算する、目的関数計算器と、
損失が最小化されるように、前記生成器及び前記識別器のパラメータを更新する、パラメータ更新器と、
を備え、
前記生成器の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、
前記識別器の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするパタン認識装置。

（付記２）
付記１に記載のパタン認識装置であって、
生成器の損失は、ＫＬダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、生成器においてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするパタン認識装置。

（付記３）
付記１に記載のパタン認識装置であって、
訓練データは、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、生成器の損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識装置。

（付記４）
付記２に記載のパタン認識装置であって、
訓練データは、更に、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、生成器の損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識装置。

（付記５）
付記１に記載のパタン認識装置であって、
前記生成器は、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識装置。

（付記６）
付記２に記載のパタン認識装置であって、
訓練された前記生成器のエンコーダ部分が、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識装置。

（付記７）
付記１に記載のパタン認識装置であって、
前記識別器の分類器部分が、分類器として機能し、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識装置。

（付記８）
付記１に記載のパタン認識装置であって、
前記生成器は、ノイズを除去するオートエンコーダ又はシャムネットワークである、
ことを特徴とするパタン認識装置。

（付記９）
付記１に記載のパタン認識装置であって、
前記分類器は、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかである、
ことを特徴とするパタン認識装置。

（付記１０）
ニューラルネットワークによる特徴変換を用いてパタン認識を行うための方法であって、
（ａ）ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
（ｂ）ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
（ｃ）ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ（ａ）及び前記ステップ（ｂ）の損失を計算する、ステップと、
（ｄ）損失が最小化されるように、前記ステップ（ａ）及び前記ステップ（ｂ）のパラメータを更新する、ステップと、
を有し、
前記ステップ（ａ）の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、
前記ステップ（ｂ）の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記ステップ（ｂ）によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするパタン認識方法。

（付記１１）
付記１０に記載のパタン認識方法であって、
前記（ａ）のステップの損失は、ＫＬダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記（ａ）のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするパタン認識方法。

（付記１２）
付記１０に記載のパタン認識方法であって、
訓練データは、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記（ａ）のステップの損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識方法。

（付記１３）
付記１１に記載のパタン認識方法であって、
訓練データは、更に、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記（ａ）のステップの損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識方法。

（付記１４）
付記１０に記載のパタン認識方法であって、
前記（ａ）のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。

（付記１５）
付記１１に記載のパタン認識方法であって、
前記（ａ）のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。

（付記１６）
付記１０に記載のパタン認識方法であって、
前記（ｂ）のステップにおいて、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識方法。

（付記１７）
付記１０に記載のパタン認識方法であって、
前記（ａ）のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。

（付記１８）
付記１０に記載のパタン認識方法であって、
前記（ｂ）のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするパタン認識方法。

（付記１９）
コンピュータによって、ニューラルネットワークによる特徴変換を用いたパタン認識を行うためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記プログラムは、前記コンピュータに、
（ａ）ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
（ｂ）ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
（ｃ）ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ（ａ）及び前記ステップ（ｂ）の損失を計算する、ステップと、
（ｄ）損失が最小化されるように、前記ステップ（ａ）及び前記ステップ（ｂ）のパラメータを更新する、ステップと、
を実行させる命令を含み、
前記ステップ（ａ）の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、
前記ステップ（ｂ）の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記ステップ（ｂ）によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２０）
付記１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ａ）のステップの損失は、ＫＬダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記（ａ）のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２１）
付記１９に記載のコンピュータ読み取り可能な記録媒体であって、
訓練データは、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記（ａ）のステップの損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２２）
付記２０に記載のコンピュータ読み取り可能な記録媒体であって、
訓練データは、更に、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記（ａ）のステップの損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２３）
付記１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ａ）のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２４）
付記２０に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ａ）のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２５）
付記１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２６）
付記１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ａ）のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２７）
付記１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

最後のポイントとして、ここで説明および図示されている、プロセス、技術、および方法論は、特定の装置に限定または関連していないことは明確である。構成要素の組み合わせによって実装が行われる。また、本明細書の指示に従って、様々なタイプの汎用装置を使用することができる。本発明は特定の具体例に基づいて説明されている。但し、これらは単なる例示であり、本発明を制限するものではない。例えば、記載されたソフトウェアは、Ｃ＋＋、Ｊａｖａ、Ｐｙｔｈｏｎ、及びＰｅｒｌ等の多種多様な言語によって実装できる。更に、本発明の技術の他の実装は、当業者において明確である。

本発明によれば、パタン認識システムにおける特徴変換ブロックとして、変換された特徴ベクトルにおけるクラス指向の類似度を維持する特徴変換ブロックを提供できるため、クラス内共分散を最小化し、クラス間共分散を最大化できる。本発明は、例えば、顔認識、話者認証といった分野において有用である。

１０コンピュータ
１１ＣＰＵ
１２メインメモリ
１３記憶装置
１４入力インターフェース
１５表示コントローラ
１６データリーダー／ライター
１７通信インターフェース
１８入力装置
１９表示装置
２０記録媒体
２１バス
１００パタン認識装置（実施の形態１）
１０１生成器
１０２識別器
１０３目的関数計算器
１０４パラメータ更新器
１０５ストレージ
２００パタン認識装置（実施の形態２）
２０１生成器
２０２識別器
２０３目的関数計算器
２０４パラメータ更新器
２０５ストレージ

本発明は、例えば、顔認識、話者認識のためのパタン認識システムの精度を向上させる、パタン認識装置、及びパタン認識方法に関し、更には、パタン認識装置及びパタン認識方法を実現するためのパタン認識プログラムに関する。

上記目的を達成するため、本発明の一例におけるパタン認識方法は、
（ａ）ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
（ｂ）ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
（ｃ）ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ（ａ）及び前記ステップ（ｂ）の損失を計算する、ステップと、
（ｄ）損失が最小化されるように、前記ステップ（ａ）及び前記ステップ（ｂ）のパラメータを更新する、ステップと、
を有する。
この場合において、前記ステップ（ａ）の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、前記ステップ（ｂ）の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記ステップ（ｂ）によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記ステップ（ａ）によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。

上記目的を達成するため、本発明の一例におけるプログラムは、
コンピュータに、
（ａ）ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
（ｂ）ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
（ｃ）ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ（ａ）及び前記ステップ（ｂ）の損失を計算する、ステップと、
（ｄ）損失が最小化されるように、前記ステップ（ａ）及び前記ステップ（ｂ）のパラメータを更新する、ステップと、
を実行させる。
この場合において、前記ステップ（ａ）の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、前記ステップ（ｂ）の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記ステップ（ｂ）によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記ステップ（ａ）によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。

次に、図２〜図５を用いて、実施の形態１におけるパタン認識装置１００の構成について、詳細に説明する。

訓練フェーズでは、生成器２０１は、ノイズの多い特徴ベクトル（ｙ）を読み取り、ノイズが除去された特徴ベクトル（ｚ）を推定する。次に、識別器２０２は、ノイズが除去された特徴ベクトル（ｚ）を読み取り、それが特定のオリジナルのクリーンな特徴ベクトルとなる確率（Ｄ_ｒ（ｚ））を予測し、そして、そのクラスラベル（Ｄ_ｄ（ｚ））を推定する。次に、識別器２０２は、オリジナルのクリーンな特徴ベクトル（ｘ）を読み取り、それが特定のオリジナルのクリーンな特徴ベクトル（Ｄｒ（ｘ））となる確率を予測し、更に、そのクラスラベル（Ｄｄ（ｘ））も推定する。

目的関数計算器２０３は、識別器の出力（Ｄｒ（ｘ）、Ｄｒ（ｚ））及び（Ｄｄ（ｘ）、Ｄｄ（ｚ））と、入力された特徴ベクトルの実際の真のクラスラベル（ｌ）とを読み取り、識別器の損失２０３２を計算する。実施の形態２における識別器の損失の数学的構成は、数３に示す通りである。

パラメータ更新器２０４は、識別器のパラメータを更新して、目的関数を最適化する。この識別器の訓練は、十分な回数となるまで反復して実行される。識別器の訓練後、生成器２０１は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する。次に、識別器２０２は、ノイズが除去された特徴ベクトル（ｙ）を読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率（Ｄ_ｒ（ｚ））を予測し、更に、そのクラスラベル（Ｄ_ｄ（ｚ））も推定する。

目的関数計算器２０３は、識別器の出力（Ｄ_ｒ（ｚ））及び（Ｄ_ｄ（ｚ））と、入力された特徴ベクトルの実際の真のクラスラベル（ｌ，ｘ）とを、読み取り、生成器の損失２０３１を計算する。実施の形態２における生成器の損失の数学的構成は、数４に示す通りである。

実施の形態２では、ガウス分布は、事前に定義された確率分布として想定されている。パラメータ更新器２０４は、生成器のパラメータを更新して、目的関数を最適化する。生成器と識別器との訓練は、生成器の損失が収束するまで行われる。収束後、パラメータ更新器２０４は、訓練された特徴変換器（生成器）のパラメータをストレージ２０５に格納する。

テストフェーズでは、生成器２０１は、ストレージ２０５から、格納されている構造及びパラメータを読み取る。生成器２０１は、入力としてテスト対象となる特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを生成し、これを出力する。

生成器及び識別器の両方のニューラルネットワーク（ＮＮ）は、生成器と識別器との損失を最適化するために、交互に訓練される。訓練後、識別器２０２はノイズが除去された特徴ベクトルをクラスに正しく分類し、オリジナルのクリーンな特徴ベクトル（Ａ）とノイズが除去された特徴ベクトル（Ａ’）とを区別することができなくなる。

また、訓練の後、全ての訓練ペア（Ａ，Ａ’）間のＰＬＤＡの類似度は最大となる。このことは、ノイズが除去された特徴ベクトルがクラス関連の特性を有し、エンコードされた特徴の分布が以前に定義された分布に近似する、ことを意味する。生成器２０１及び識別器２０２両方の訓練損失の収束後、生成器２０１及び識別器２０２両方における訓練された重みパラメータは、実施の形態２のブロック図に示されるように、ストレージ２０５に格納される。

［装置動作］
次に、図８及び図９を用いて実施の形態２におけるパタン認識装置２００の動作について説明する。以下の説明においては、必要に応じて、図６〜図７が参照される。また、実施の形態２において、パタン認識方法は、パタン認識装置を動作させることによって実施される。従って、以下においては、パタン認識装置２００によって実行される動作の説明によって、実施の形態２におけるパタン認識方法の説明に代える。

次に、識別器２０２は、オリジナルのクリーンな特徴ベクトルを読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率を予測し、更に、そのクラスラベルを推定する（ステップＢ０３）。次に、目的関数計算器２０３は、識別器の出力及び入力された特徴ベクトルの実際の真のクラスラベルを読み取り、識別器の損失を計算する（ステップＢ０４）。

識別器２０２の訓練の後、生成器２０１は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する（ステップＢ０７）。次に、識別器２０２は、ノイズが除去された特徴ベクトルを読み取り、それが特定のクリーンな特徴ベクトルである確率を予測し、そして、そのクラスラベルを推定する（ステップＢ０８）。

第２段階では、訓練された生成器と識別器とが用いられて、特徴変換とそれらの分類とが行われる。最初に、図９（ｂ）に示すように、生成器２０１及び識別器２０２は、ストレージ２０５から、そこに格納されている、それらの構造及びパラメータを読み取る（ステップＦ０１）。次に、生成器２０１は、テスト対象となる特徴ベクトルを入力として読み取り、それらを変換して、ノイズが除去された特徴ベクトルを生成し、出力する（ステップＦ０２）。次に、識別器２０２は、生成器の出力を読み取り、出力された特徴ベクトルのクラスラベルを推定する（ステップＦ０３）。

（プログラム）
実施の形態２におけるプログラムは、コンピュータに、図８に示すステップＢ０１からＢ１２、図９（ａ）に示すステップＥ０１からＥ０３、及び図９（ｂ）に示すステップＦ０１からＦ０３を実行させるためのプログラムであれば良い。実施の形態２におけるパタン認識装置２００及びパタン認識方法は、プログラムをコンピュータにインストールして実行することによって実現することができる。この場合、コンピュータのプロセッサは、生成器２０１、識別器２０２、目的関数計算器２０３、及びパラメータ更新器２０４として機能して処理を実行する。

（付記９）
付記７に記載のパタン認識装置であって、
前記分類器は、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかである、
ことを特徴とするパタン認識装置。

（付記１６）
付記１０に記載のパタン認識方法であって、
前記（ｂ）のステップにおいて、前記（ｂ）のステップにおけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識方法。

（付記１８）
付記１６に記載のパタン認識方法であって、
前記（ｂ）のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするパタン認識方法。

（付記１９）
コンピュータによって、ニューラルネットワークによる特徴変換を用いたパタン認識を行うためのプログラムであって、
前記コンピュータに、
（ａ）ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
（ｂ）ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
（ｃ）ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ（ａ）及び前記ステップ（ｂ）の損失を計算する、ステップと、
（ｄ）損失が最小化されるように、前記ステップ（ａ）及び前記ステップ（ｂ）のパラメータを更新する、ステップと、
を実行させ、
前記ステップ（ａ）の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、
前記ステップ（ｂ）の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記ステップ（ｂ）によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするプログラム。

（付記２０）
付記１９に記載のプログラムであって、
前記（ａ）のステップの損失は、ＫＬダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記（ａ）のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするプログラム。

（付記２１）
付記１９に記載のプログラムであって、
訓練データは、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記（ａ）のステップの損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするプログラム。

（付記２２）
付記２０に記載のプログラムであって、
訓練データは、更に、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記（ａ）のステップの損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするプログラム。

（付記２３）
付記１９に記載のプログラムであって、
前記（ａ）のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするプログラム。

（付記２４）
付記２０に記載のプログラムであって、
前記（ａ）のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするプログラム。

（付記２５）
付記１９に記載のプログラムであって、
前記（ｂ）のステップにおいて、前記（ｂ）のステップにおけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするプログラム。

（付記２６）
付記１９に記載のプログラムであって、
前記（ａ）のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするプログラム。

（付記２７）
付記２５に記載のプログラムであって、
前記（ｂ）のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするプログラム。

Claims

ニューラルネットワークによる特徴変換を用いてパタン認識を行うための装置であって、
ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、生成器と、
ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、識別器と、
ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記生成器及び前記識別器の損失を計算する、目的関数計算器と、
損失が最小化されるように、前記生成器及び前記識別器のパラメータを更新する、パラメータ更新器と、
を備え、
前記生成器の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、
前記識別器の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするパタン認識装置。
請求項１に記載のパタン認識装置であって、
生成器の損失は、ＫＬダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、生成器においてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするパタン認識装置。
請求項１に記載のパタン認識装置であって、
訓練データは、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、生成器の損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識装置。
請求項２に記載のパタン認識装置であって、
訓練データは、更に、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、生成器の損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識装置。
請求項１に記載のパタン認識装置であって、
前記生成器は、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識装置。
請求項２に記載のパタン認識装置であって、
訓練された前記生成器のエンコーダ部分が、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識装置。
請求項１に記載のパタン認識装置であって、
前記識別器の分類器部分が、分類器として機能し、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識装置。
請求項１に記載のパタン認識装置であって、
前記生成器は、ノイズを除去するオートエンコーダ又はシャムネットワークである、
ことを特徴とするパタン認識装置。
請求項１に記載のパタン認識装置であって、
前記分類器は、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかである、
ことを特徴とするパタン認識装置。
ニューラルネットワークによる特徴変換を用いてパタン認識を行うための方法であって、
（ａ）ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
（ｂ）ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
（ｃ）ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ（ａ）及び前記ステップ（ｂ）の損失を計算する、ステップと、
（ｄ）損失が最小化されるように、前記ステップ（ａ）及び前記ステップ（ｂ）のパラメータを更新する、ステップと、
を有し、
前記ステップ（ａ）の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、
前記ステップ（ｂ）の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記ステップ（ｂ）によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするパタン認識方法。
請求項１０に記載のパタン認識方法であって、
前記（ａ）のステップの損失は、ＫＬダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記（ａ）のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするパタン認識方法。
請求項１０に記載のパタン認識方法であって、
訓練データは、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記（ａ）のステップの損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識方法。
請求項１１に記載のパタン認識方法であって、
訓練データは、更に、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記（ａ）のステップの損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識方法。
請求項１０に記載のパタン認識方法であって、
前記（ａ）のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。
請求項１１に記載のパタン認識方法であって、
前記（ａ）のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。
請求項１０に記載のパタン認識方法であって、
前記（ｂ）のステップにおいて、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識方法。
請求項１０に記載のパタン認識方法であって、
前記（ａ）のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。
請求項１０に記載のパタン認識方法であって、
前記（ｂ）のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするパタン認識方法。
コンピュータによって、ニューラルネットワークによる特徴変換を用いたパタン認識を行うためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記プログラムは、前記コンピュータに、
（ａ）ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
（ｂ）ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
（ｃ）ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ（ａ）及び前記ステップ（ｂ）の損失を計算する、ステップと、
（ｄ）損失が最小化されるように、前記ステップ（ａ）及び前記ステップ（ｂ）のパラメータを更新する、ステップと、
を実行させる命令を含み、
前記ステップ（ａ）の損失は、１．ＧＡＮベースの損失、２．分類損失、及び３．クラス指向の非類似度の損失で構成され、
前記ステップ（ｂ）の損失は、１．ＧＡＮベースの損失、及び２．分類損失で構成され、
ＧＡＮベースの損失は、入力特徴ベクトルについて、前記ステップ（ｂ）によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたＰＬＤＡベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ａ）のステップの損失は、ＫＬダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記（ａ）のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１９に記載のコンピュータ読み取り可能な記録媒体であって、
訓練データは、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記（ａ）のステップの損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項２０に記載のコンピュータ読み取り可能な記録媒体であって、
訓練データは、更に、２つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記（ａ）のステップの損失の３番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ａ）のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項２０に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ａ）のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ａ）のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。