JP7028345B2 - パタン認識装置、パタン認識方法、及びプログラム - Google Patents

パタン認識装置、パタン認識方法、及びプログラム Download PDF

Info

Publication number
JP7028345B2
JP7028345B2 JP2020565912A JP2020565912A JP7028345B2 JP 7028345 B2 JP7028345 B2 JP 7028345B2 JP 2020565912 A JP2020565912 A JP 2020565912A JP 2020565912 A JP2020565912 A JP 2020565912A JP 7028345 B2 JP7028345 B2 JP 7028345B2
Authority
JP
Japan
Prior art keywords
feature vector
loss
pattern recognition
class
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020565912A
Other languages
English (en)
Other versions
JP2021524973A (ja
Inventor
シワンギ マハト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2021524973A publication Critical patent/JP2021524973A/ja
Application granted granted Critical
Publication of JP7028345B2 publication Critical patent/JP7028345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21343Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using decorrelation or non-stationarity, e.g. minimising lagged cross-correlations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Description

本発明は、例えば、顔認識、話者認識のためのパタン認識システムの精度を向上させる、パタン認識装置、及びパタン認識方法に関し、更には、パタン認識装置及びパタン認識方法を実現するためのパタン認識プログラムに関する。
パタン認識は、セキュリティ、監視、eコマースなどの日常的なアプリケーションだけでなく、農業、工学、科学などの技術アプリケーション、更には、軍事及び国家安全保障などの注目を集める問題などで広く利用されている。
パタン認識システムのプロセスは、大きく2つのステップに分類できる。1つ目のプロセスは、入力信号の特徴を抽出する特徴抽出であり、2つ目のプロセスは、抽出された特徴を、入力信号に対応したクラス(クラス)へと分類するクラス分類である。
パタン認識システムは、クラスに対応する特徴を学習し、学習した特徴を使用して分類器を訓練する。パタン認識の精度の向上のため、1つのクラスに対応する特徴は、クラスに関連した類似性を有し、異なるクラスに対応する特徴は、可能な限り非類似であるべきである。技術的には、同じクラスに対応する特徴は、分散が小さく、クラス内共分散と呼ばれ、異なるパタンに属する特徴は、分散が大きく、クラス間共分散と呼ばれる。また、特徴は、分類目的のため、分類器によって想定される統計的分布に従う必要がある。例えば、線形判別分析分類器では、各クラスに属する特徴がガウス分布に従うことが前提とされる。
現実においては、ノイズ、例えばバックグラウンドノイズ、信号の持続時間の短さ、チャネルの歪みは、特徴抽出、及び分類プロセスのパフォーマンスに度々影響を与える。ノイズの多様性により、特徴は破壊される可能性があり、特徴の特性が期待されるものとならない可能性もある。期待される特徴の特性とは、事前分布に従うだけでなく、クラス内共分散とクラス間共分散との比率が小さい、ということである。
パタン認識装置において上述の期待される特徴の特性を維持するための、1つのアプローチは、特徴変換ブロックの適用によって、ノイズ又は他の外的要因によって導入される、特徴の望ましくない変動の発生を解決することである。このブロックは、特徴を別の特徴空間に変換することにより、クラス内共分散又は多次元の場合の共分散を、クラス間共分散に比べてできるだけ小さくしようとする。変換後の特徴の統計的分布を明示的に保存するとともに、同じクラスの特徴にクラス関連の統計的類似性を浸透させることが期待される。
ノイズによって引き起こされた入力信号の歪みによる、特徴空間における、クラス内共分散の増加および/またはクラス間共分散の減少の問題を解決するために、特徴変換が、分類前において、抽出された特徴に適用される。変換には次の特性がある。
1.変換された特徴において、クラスに関連する類似度が高くなる。
2.変換された空間において、特徴の統計的分布が明示的に保持される。
3.クラス間共分散と比較してクラス内共分散が小さい特徴の識別能力が維持される。
4.広範囲の望ましくない変動に適用できるように設計されている。
線形判別分析は、よく知られた古典的なアプローチであり、特徴変換によってクラス内共分散を小さくする。特徴変換のための幾つかの新しい手法は、ニューラルネットワークを使用した、クラス内共分散の最小化とクラス間共分散間の最大化とのいずれかに焦点を当てる。
この方法の先行技術は、図11に示されるように、特許文献1に開示されている。特許文献1には、特徴の補償を扱う先行技術が開示されている。
図11に示すように、特徴変換器91は、ノイズを除去するオートエンコーダであり、ノイズの多い特徴ベクトル(y)を入力として受け取り、それらをノイズが除去された特徴ベクトル(z)に変換し、特徴ベクトル(z)のクラスラベル(l)を推定する。
目的関数計算器92は、クリーンな特徴ベクトル(x)、ノイズが除去された特徴ベクトル(z)、入力された特徴ベクトルのオリジナルのラベル(o)、及び分類器によって推定されたクラスラベル(l)を読み取る。目的関数計算器92は、変換のコスト923を、ノイズが除去された特徴ベクトル(z)とクリーンな特徴ベクトル(x)との間の平均二乗誤差921と、オリジナルのラベル(l)と推定されたクラスラベル(o)との間の分類誤差922と、を荷重平均として計算する。
パラメータ更新器94は、コスト関数が最小化されるように、識別ノイズ除去オートエンコーダのパラメータを更新する。このプロセスは、収束するまで継続される。アルゴリズムの収束後、パラメータ更新器は、識別ノイズ除去オートエンコーダのパラメータ及び構造を、ストレージ95に格納する。テスト段階では、特徴変換器91は、訓練後のノイズ除去オートエンコーダの構造及びパラメータを読み取り、更に、入力対象となるテストベクトルを読み取り、それらによる処理を行って、ノイズ除去された特徴ベクトルを出力する。
特許文献1に開示されている方法は、ノイズ除去オートエンコーダを用いた、平均二乗誤差を使用した特徴ベクトルのクラス内共分散の最小化による、特徴ベクトルの識別的ノイズ除去に焦点を当てており、更に、分類誤差を最小化することによる識別可能性の教え込みにも焦点を当てている。
上述の方法は、ノイズが除去された特徴ベクトルとクリーンな特徴ベクトルとの間の平均二乗誤差を最小化することにより、クラス内共分散を最小化することを目的としている。このような学習は、特徴ベクトルの全ての次元にわたる全体的な平均誤差にのみ重点を置き、特徴ベクトルの1つの次元であるかもしれない事実が、分類器によって異なるクラスを区別するために、他よりも重みが大きくなるであろうということを、無視する。MSEベースの類似度を使用した学習は、特徴変換器ネットワークを制限して、ユークリッド空間の非類似度を学習するだけであるが、コサイン類似度などの類似性尺度としてユークリッド距離を直接使用する分類器に役立つ場合がある。
しかしながら、このような、特徴ベクトルの潜在的なクラス依存の要因に重点をおいた分類器においては、最適な特徴ベクトルを取得できない場合がある。このため、特徴ベクトルの学習が最適化されず、分類の精度が低下してしまう。続いて、本発明の技術によって提供される技術的課題及び解決手段の要約が示される。
国際公開第2018/078712号
入力信号の歪みを解決するには、ノイズに強いパタン認識システムが非常に重要である。ノイズ及び他の要因による入力信号の歪みは、特徴空間において、クラス間共分散に比べてクラス内共分散を大きくし、パタン認識の精度を低下させる。優れたパタン認識のための特徴ベクトルの重要な特性の1つは、クラス間共分散に比べてクラス内共分散が小さいことである。同じクラスに属する特徴ベクトルは、決定論的に類似しているだけでなく、統計的なクラスベースでも高い類似性を持つ必要がある。
ノイズが多い入力信号において、クラス間共分散に比べてクラス内共分散が小さくなるようにするという問題を解決するため、クラス内共分散内の最小化とクラス間共分散の最大化とを同時に実行することに重点を置きながら、抽出されたノイズの多い特徴ベクトルを別の空間へと変換することが行われる。
特徴変換についての文献(特許文献1)には、問題を解決しようとするアプローチが開示されているが、次のようないくつかの問題も存在している。この文献では、変換されたノイズの多い特徴ベクトルと対応するクリーンな特徴ベクトルとの間の平均二乗誤差を最小化することによって、クラス内の共分散を最小化する試みが行われている。このような最小化は、特徴ベクトルの全ての次元にわたってエラーを平均化するため、変換された特徴ベクトルのクラスベースの類似性を最適化することに重点をおいている訳ではない。このような学習は、変換された特徴ベクトルに高い統計的クラスベースの類似度を付加することに欠けており、結果的に最適ではない特徴学習となる。
上記の問題点に加えて、本発明が克服することができる他の明白で明らかな問題点は、詳細な仕様および図面から明らかにされるであろう。
本発明の目的は、例えば、クラス内共分散を最小化し、クラス間共分散を最大化するために、変換後の特徴ベクトルにおいてクラス指向の類似度を維持し得る、パタン認識システムにおける特徴変換ブロックを提供することにある。
上記目的を達成するため、本発明の一例におけるパタン認識装置は、
ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、生成器と、
ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、識別器と、
ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記生成器及び前記識別器の損失を計算する、目的関数計算器と、
損失が最小化されるように、前記生成器及び前記識別器のパラメータを更新する、パラメータ更新器と、
を備える。
この場合において、前記生成器の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、前記識別器の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。
上記目的を達成するため、本発明の一例におけるパタン認識方法は、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を有する。
この場合において、前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記ステップ(a)によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。
上記目的を達成するため、本発明の一例におけるプログラムは、
コンピュータに、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を実行させる。
この場合において、前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記ステップ(a)によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。
以上のように、本発明によれば、例えば、クラス内共分散を最小化し、クラス間共分散を最大化するために、変換後の特徴においてクラス指向の類似度を維持し得る、パタン認識システムにおける特徴変換ブロックを提供することができる。
図面は、詳細な説明とともに、本発明の手法の原理を説明するために用いられる。図面は説明のために用いられ、技術の応用を制限するものではない。
図1は、本発明の実施の形態1におけるパタン認識装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態1におけるパタン認識装置の具体的構成を示すブロック図である。 図3は、生成器と識別器とを訓練するための訓練フェーズにおいて、本発明の実施の形態1の具体例を示す、ニューラルネットワークの表現図である。 図4は、本発明の実施の形態1におけるパタン認識装置によって実行される動作を示すフロー図である。 図5(a)及び図5(b)は、本発明の実施形態1におけるパタン認識装置によって実行される動作を示す他のフロー図である。 図6は、本発明の実施形態2におけるパタン認識装置の具体的構成を示すブロック図である。 図7は、生成器と識別器とを訓練するための訓練フェーズにおいて、本発明の実施の形態2の具体例を示す、ニューラルネットワークの表現図である。 図8は、本発明の実施の形態2におけるパタン認識装置によって実行される動作を示すフロー図である。 図9(a)及び図9(b)は、本発明の実施の形態2におけるパタン認識装置によって実行される動作を示す他のフロー図である。 図10は、本発明の実施の形態1又は2におけるパタン認識装置を実現するコンピュータの一例を示すブロック図である。 図11は、従来技術1(識別可能なノイズ除去オートエンコーダを使用した特徴ベクトルのノイズ除去)を示すブロック図である。
(発明の原理)
次に、上述の全ての問題に対する解決策の概要を示す。ここで、上述の技術的な問題を解決するために、全体的なアプローチについて要約する。このアプローチには、訓練段階とテスト段階との2つの段階がある。
訓練段階では、まず、訓練データが用いられて、パタン認識システムの訓練が行われる。テスト段階では、訓練済みのシステムの特徴変換ブロックが使用されて、対象となるテストデータが変換され、ロバストな特徴ベクトルが抽出される。訓練段階では、生成器と識別器とで構成されるGAN(Generative Adversarial Network)が、ノイズの多い特徴ベクトル、対応するクリーンな特徴ベクトル、及びそれらのクラスラベルを使用して、訓練される。生成器と識別器とは、互いにだまされるように交互に訓練される。
生成器はノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する。識別器は、生成器の出力を入力として読み取り、出力が特定のオリジナルでクリーンな特徴ベクトルである確率を予測し、更に、そのクラスラベルも予測する。
次に、識別器は、対応するオリジナルでクリーンな特徴ベクトルを入力として読み取り、それが特定のオリジナルでクリーンな特徴ベクトルである確率を予測し、更に、そのクラスラベルも予測する。目的関数計算器は、識別器の出力と、入力された特徴ベクトルの実際の真のクラスラベルとを、読み取り、識別器の損失を計算する。
次に、パラメータ更新器は、識別器のパラメータを更新して、目的関数を最適化する。識別器のパラメータの更新は、十分な回数だけ反復して実行される。その後、目的関数計算器は、識別器と実際の真のクラスラベルとの出力を読み取り、そして、入力された特徴ベクトルに対応する特徴をクリーンにして、生成器の損失を計算する。
次に、パラメータ更新器は生成器のパラメータを更新して、目的関数を最適化する。識別器と生成器とを交互に訓練するループは、生成器の損失が収束するまで続けられる。収束の後、パラメータ更新器は、評価目的で使用される生成器のパラメータを格納する。
本発明の主な特徴は、生成器の損失を設計することにある。通常の対抗的なGAN損失と分類損失とは異なり、本発明の手法における生成器は、同じクラスに属する特徴ベクトル間のPLDAに基づいた負の対数尤度比である、クラス指向の非類似度を最小化し、異なるクラスに属する特徴ベクトルにおける非類似度を最大化することに重点をおく。PLDAは、クリーンなデータについて事前に訓練された確率的線形判別分析である。
実施の形態2においては、PLDAベースの非類似度の測定と共に、生成器のボトルネックな特徴の確率分布を明示的に保存するため、KLKLダイバージェンス正則化を適用することによって、生成器損失に別のコスト関数も付加する。
実施の形態1においては、テスト段階において、生成器は、格納されている訓練済の構造及びそのパラメータを読み取る。生成器は、テスされる特徴ベクトルを受け取ると、対応するノイズが除去された特徴ベクトルを出力する。実施の形態2の訓練段階では、生成器のボトルネックな特徴は、入力されてテスト対象となる特徴ベクトルにおいて、変換後のノイズが除去された特徴ベクトルとみなされる。
本発明の利点は、以下のように、特徴ベクトルが所望の特性を備え、且つ訓練された特徴変換ブロックが取得されることである。
1.変換された特徴は、クラス指向の類似度を有し、それは分類の精度を高めるのに役立つ。
2.ブロックが様々なノイズを除去するようにトレーニングされているので、変換された特徴は、広くノイズに強くなる。
クラス指向の非類似度である生成器損失に新しく導入された関数持つ、GANのトレーニングは、クラス内の共分散を小さく、クラス間の共分散を同時に大きくするので、分類に役立つ。
従って、本発明は、いくつかのステップ、これらのステップの1つ又は複数と他のステップそれぞれとの関係、及びそのようなステップに影響を与えるように最適化された構造、構成要素の組み合わせ、および部品の配置の特徴を具体化する装置、全てからなる。全ては、以下の詳細な開示、即ち、図面の説明、及び詳細な説明に例示される。本発明の範囲は、特許請求の範囲に示される。
以下、本発明の実施の形態について詳細に説明する。以下では、発明の実装が完全に詳細に説明されている。例示的な図面とともに、ここで提供される説明は、本発明を実施するための当業者に確固たるガイドを提供するためのものである。
(実施の形態1)
最初に、本発明の実施形態1における、パタン認識装置、パタン認識方法、及びパタン認識プログラムについて、図1~図5を参照して説明する。
[装置構成]
まず、実施の形態1におけるパタン認識装置について図1を用いて説明する。図1は、本発明の実施の形態1におけるパタン認識装置の概略構成を示すブロック図である。
図1に示す実施の形態1におけるパタン認識装置100は、ニューラルネットワークベースの特徴変換を用いて、パタン認識を行うための装置である。図1に示すように、実施の形態1におけるパタン認識装置100は、生成器101と、識別器102と、目的関数計算器103と、パラメータ更新器104とを備えている。生成器101は、ノイズの多い特徴ベクトルをノイズが除去された特徴ベクトルに変換する。
識別器102は、ノイズが除去された特徴ベクトルと、ノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルとを、入力として取得する。識別器102は、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測する。識別器102は、入力された特徴ベクトルを、対応するクラスに分類する。
目的関数計算器103は、ノイズが除去された特徴ベクトル、ノイズの多い特徴ベクトルから生成されたクリーンな特徴ベクトル、推定されたクラス、及びそれらの真のクラスを使用して、生成器及び識別器の損失を計算する。
生成器の損失は、1.GANベースの損失と、2.分類損失と、3.クラス指向の非類似度の損失とで、構成される。識別器の損失は、1.GANベースの損失と、2.分類損失とで、構成される。
GANベースの損失は、入力特徴ベクトルについて、識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算される。クラス指向の非類似度の損失は、生成器によって生成された、ノイズが除去された特徴ベクトルと、予め訓練されたPLDAベースのスコアリングを用いて測定された、対応するクリーンな特徴ベクトルとの間の非類似度である。分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。
パラメータ更新器104は、最小の損失に基づいて、生成器と識別器とのパラメータを更新する。
このようにして、パタン認識装置100により、生成器の損失及び識別器の損失が計算され、生成器のパラメータ及び識別器のパラメータが更新されて、損失が最小化される。このため、特徴変換ブロックは、クラス指向の類似度によって、クラス内共分散を最小化しクラス間共分散を最大化するように特徴ベクトルを変換する特性を持ち、この特徴変換ブロックをパタン認識システムに提供することができる。
次に、図2~図を用いて、実施の形態1におけるパタン認識装置100の構成について、詳細に説明する。
図2は、本発明の実施の形態1におけるパタン認識装置の具体的構成を示すブロック図である。図2に示すように、目的関数計算器103は、生成器101を訓練しながら、生成器の損失1031を計算し、識別器を訓練しながら、識別器の損失を計算する。パタン認識装置は、生成器101、識別器102、目的関数計算器103、およびパラメータ更新器104に加えて、ストレージ105を備えている。ストレージ105は、生成器及び変換フェーズで訓練された生成器101のパラメータ及び構造を格納する。
訓練フェーズでは、生成器101はノイズの多い特徴ベクトル(y)を読み取り、ノイズが除去された特徴ベクトル(z)を推定する。次に、識別器102は、ノイズが除去された特徴ベクトル(z)を読み取り、それが特定のオリジナルのクリーンな特徴ベクトル(Dr(z))である確率を予測し、更に、そのクラスラベル(Dd(z))を推定する。
目的関数計算器103は、識別器の出力(Dr(x)、Dr(z))及び(Dd(x)、Dd(z))と、入力特徴ベクトルの実際の真のクラスラベル(l)とを読み取り、識別器の損失1032を計算する。実施の形態1における識別器の損失の数学的構成は、数1に示す通りである。
Figure 0007028345000001
パラメータ更新器104は、識別器のパラメータを更新して、目的関数を最適化する。 この識別器の訓練は、十分な回数となるまで反復して実行される。識別器の訓練後、生成器101は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する。次に、識別器102は、ノイズが除去された特徴ベクトル(y)を読み取り、それが特定のオリジナルのクリーンな特徴ベクトル(Dr(z))となる確率を予測し、更に、そのクラスラベル(Dd(z))を推定する。
目的関数計算器103は、識別器の出力(Dr(z))及び(Dd(z))と入力特徴ベクトルの実際の真のクラスラベル(l、x)と読み取り、生成器の損失1033を計算する。実施の形態1における生成器の損失の数学的構成は、数2に示す通りである。
Figure 0007028345000002
数2において、PLDAは、クリーンなデータ上で訓練されたPLDAを表し、PLDA(x,z)は、テストペア(x,z)におけるPDLAの出力スコアを表す。パラメータ更新器104は、目的関数を最適化するために、生成器のパラメータを更新する。生成器と識別器との訓練は、生成器の損失が収束するまで行われる。
収束後、パラメータ更新器104は、訓練された特徴変換器のパラメータをストレージ105に格納する。訓練フェーズでは、生成器101は、記憶された構造及びパラメータをストレージ105から読み取る。生成器101は、テストする特徴を入力として読み取り、ノイズが除去された特徴ベクトルを生成し、それを出力する。
顔認識の場合、クラスは個人IDであり、特徴ベクトルは目、鼻などの座標である。認識システムがクリーンな画像によって訓練されている場合に、認識対象となる画像がぼやけていると、これらの画像は正しく認識されない事態となる。これらのぼやけた画像は、パタン認識システムの訓練に使用されたクリーンな画像から抽出された特徴ベクトルと比較して、ノイズの多い特徴ベクトルを特徴空間に生成する。生成器101は、ぼやけた画像に対応するノイズの多い特徴ベクトルを読み取ると、ノイズが除去された特徴ベクトルを生成する。
話者認識の場合、クラスは話者の個人IDでもあり、特徴ベクトルは、次の参照文献に示すように、音声信号に含まれる音素から抽出されたiベクトルである。パタン認識システムが、ノイズの多い環境で録音されたオーディオに適用されると、パタン認識システムは、ノイズの多いiベクトルを話者の特徴として読み取る。一方、パタン認識システムは、クリーンなオーディオ信号から抽出されたクリーンなiベクトルで訓練されている。生成器101は、ノイズの多いiベクトルをクリーンなiベクトルに変換する。クリーンなiベクトルは、話者を認識するために標準のパタン認識システムでさらに使用される。
参照文献:Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798.
図3は、生成器と識別器とを訓練するための訓練フェーズにおいて、本発明の実施の形態1の具体例を示す、ニューラルネットワークの表現図である。図3に示すように、生成器101は、エンコーダ(Genc)及びデコーダ(Gdec)として2つのニューラルネットワーク(NN)を有している。訓練段階では、エンコーダ(Genc)はノイズの多い特徴ベクトルを入力として読み取り、それらをクラス依存の特徴ベクトル(f)にエンコードする。次に、デコーダ(Gdec)は、エンコードされた特徴ベクトル(f)とランダムノイズベクトル(N)とを読み取り、ノイズが除去された特徴ベクトル(A’)を生成して出力する。
識別器102は、1つのニューラルネットワーク(NN)を有する。識別器102は、ノイズ除去された特徴ベクトル(A’)及び対応するクリーンな特徴ベクトル(A)を読み取り、そして、それぞれが特定のクリーンな特徴ベクトルである確率を予測し、入力された各特徴ベクトルのクラスを推定する。また、PLDAの類似度は、ノイズが除去された特徴ベクトル(A’)と、それに対応するクリーンな特徴ベクトル(A)との間において、2つの特徴ベクトル間のクラス指向の類似度を見つけるための尺度として、計算される。
生成器と識別器との両方のニューラルネットワーク(NN)は、生成器と識別器との損失を最適化するように交互に訓練される。そして、訓練の後、識別器は、ノイズが除去された特徴ベクトルを、それらのクラスに正しく分類し、オリジナルのクリーンな特徴ベクトル(A)とノイズが除去された特徴ベクトル(A’)とは区別しない。
また、訓練後、全ての訓練ペア(A,A’)間のPLDAの類似度は、最大となる。このことは、ノイズが除去された特徴ベクトルがクラス指向の特性を持つようになることを意味する。生成器101と識別器102との両方の訓練損失の収束後、識別器と生成器との両方の訓練された重みパラメータは、実施の形態1におけるブロック図に示すように、ストレージ105に格納される。
テスト段階中に、生成器101は、その訓練されたパラメータをストレージ105から読み取る。エンコーダ(Genc)は、与えられたテスト用の特徴ベクトルを入力として読み取り、それを符号化された特徴ベクトルに変換する。次に、エンコーダ(Genc)は、エンコードされた特徴ベクトルを入力として読み取り、入力された特徴ベクトルを、ノイズが除去された状態とする。
実施の形態1における有効な効果の1つは、以下の通りとなる。つまり、訓練中において、ノイズは、エンコードされた特徴ベクトルにランダムに追加されるため、生成器は変換によって様々なノイズを除去することを学習する。
[装置動作]
次に、図4及び図5を用いて、実施の形態1におけるパタン認識装置100の動作について説明する。以下の説明においては、必要に応じて図1~図3が参照される。また、実施の形態1において、パタン認識方法は、パタン認識装置を動作させることによって実施される。従って、以下においては、パタン認識装置100によって実行される動作の説明によって、実施の形態1におけるパタン認識方法の説明に代える。
図4は、実施の形態1におけるパタン認識装置によって実行される動作を示すフロー図である。図4は、実施の形態1における訓練の部分を示している。まず、図4に示すように、訓練フェーズにおいては、生成器101は、ノイズの多い特徴ベクトルを読み取り、ノイズ除去された特徴ベクトルを推定する(ステップA01)。次に、識別器102は、ノイズが除去された特徴ベクトルを読み取り、それが特定のクリーンな特徴ベクトルである確率を予測し、そして、そのクラスラベルを推定する(ステップA02)。
次に、識別器102は、オリジナルのクリーンな特徴ベクトルを読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率を予測し、そして、そのクラスラベルを推定する(ステップA03)。次に、目的関数計算器103は、識別器の出力及び入力特徴ベクトルの実際の真のラベルを読み取り、識別器の損失を計算する(ステップA04)。
次に、パラメータ更新器104は、識別器のパラメータを更新して、目的関数を最適化する(ステップA05)。次に、パラメータ更新器104は、反復回数がNよりも小さいかどうかを判定する(ステップA06)。この識別器の訓練は、十分な回数となるまで反復して実行される。
ステップA06での判定の結果、反復回数がN以上である場合は、ステップA02が再度実行される。一方、ステップA06での判定の結果、反復回数がNより少ない場合は、ステップA07が実行される。
識別器102の訓練の後、生成器101は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する(ステップA07)。次に、識別器102は、ノイズが除去された特徴ベクトルを読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率を予測し、更に、そのクラスラベルを推定する(ステップA08)。
次に、目的関数計算器103は、識別器の出力、実際の真のクラスラベル、及び入力特徴ベクトルに対応するクリーンな特徴ベクトルを読み取り、生成器の損失を計算する(ステップA09)。次に、パラメータ更新器104は、目的関数を最適化するために生成器のパラメータを更新する(ステップA10)。
次に、パラメータ更新器104は、生成器の損失が収束したかどうかを判定する(ステップA11)。生成器と識別器との訓練は、生成器の損失が収束するまで行われる。ステップA11の判定の結果、生成器の損失が収束していない場合は、ステップA01が再度実行される。一方、ステップA11の判定の結果、生成器の損失が収束している場合は、パラメータ更新器104は、訓練された特徴変換器(生成器)のパラメータを、ストレージ105に格納する(ステップA12)。
図5(a)及び図5(b)は、本発明の実施の形態1におけるパタン認識装置によって実行される動作を示す他のフロー図である。図5(a)及び図5(b)は、実施の形態1における2種類の可能なテスト段階を示している。
第1段階では、訓練済みの生成器を使用した特徴変換が行われる。まず、図5(a)に示すように、生成器101は、その格納されている構造及びパラメータをストレージ105から読み取る(ステップC01)。次に、テスト対象となる特徴ベクトルを入力として読み取り、それらを変換してノイズが除去された特徴ベクトルを生成し、出力する(ステップC02)。次に、ノイズが除去された特徴ベクトルは、幾つかの分類器に与えられ、適切なクラスに分類される。
第2段階では、訓練された生成器と識別器とが用いられて、特徴変換とそれらの分類とが行われる。まず、図5(b)に示すように、生成器101及び識別器102は、それらの格納された構造及びパラメータをストレージ105から読み取る(ステップD01)。次に、生成器101は、テスト対象となる特徴ベクトルを入力として読み取り、それらを変換して、ノイズが除去された特徴ベクトルを生成し、出力する(ステップD02)。次に、識別器102は、生成器の出力を読み取り、出力された特徴ベクトルのクラスラベルを推定する(D03)。
[プログラム]
実施の形態1におけるプログラムは、コンピュータに、図4に示すステップA01からA12、図5(a)に示すステップC01からC02、及び図5(b)に示すステップD01からD03を実行させる、プログラムであれば良い。実施の形態1におけるパタン認識装置100及びパタン認識方法は、プログラムをコンピュータにインストールして実行することによって実現することができる。この場合、コンピュータのプロセッサは、生成器101、識別器102、目的関数計算器103、及びパラメータ更新器104として機能して処理を実行する。
なお、実施の形態1におけるプログラムは、複数のコンピュータで構成されるコンピュータシステムによって実行されても良い。この場合、コンピュータは、例えば、生成器101、識別器102、目的関数計算器103、及びパラメータ更新器104として、それぞれ機能することができる。
(実施の形態2)
次に、本発明の実施の形態2における、パタン認識装置、パタン認識方法、及びパタン認識プログラムについて、図6~図9を用いて説明する。
[装置構成]
最初に、実施の形態2におけるパタン認識装置について図6を用いて説明する。図6は、本発明の実施の形態2におけるパタン認識装置の具体的構成を示すブロック図である。図6に示すように、実施の形態2におけるパタン認識装置200は、生成器201と、識別器202と、生成器を訓練しながら生成器の損失2031を計算し、識別器を訓練しながら識別器の損失を計算する、目的関数計算器203と、パラメータ更新器204と、生成器及び訓練された生成器201の変換フェーズにおけるパラメータおよび構造を格納する、ストレージ205とを備えている。
訓練フェーズでは、生成器201は、ノイズの多い特徴ベクトル(y)を読み取り、ノイズが除去された特徴ベクトル(z)を推定する。次に、識別器202は、ノイズが除去された特徴ベクトル(z)を読み取り、それが特定のオリジナルのクリーンな特徴ベクトルとなる確率(D(z))を予測し、そして、そのクラスラベル(D(z))を推定する。次に、識別器02は、オリジナルのクリーンな特徴ベクトル(x)を読み取り、それが特定のオリジナルのクリーンな特徴ベクトル(Dr(x))となる確率を予測し、更に、そのクラスラベル(Dd(x))も推定する。
目的関数計算器03は、識別器の出力(Dr(x)、Dr(z))及び(Dd(x)、Dd(z))と、入力された特徴ベクトルの実際の真のクラスラベル(l)とを読み取り、識別器の損失032を計算する。実施の形態における識別器の損失の数学的構成は、数3に示す通りである。
Figure 0007028345000003
パラメータ更新器04は、識別器のパラメータを更新して、目的関数を最適化する。この識別器の訓練は、十分な回数となるまで反復して実行される。識別器の訓練後、生成器01は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する。次に、識別器02は、ノイズが除去された特徴ベクトル(y)を読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率(D(z))を予測し、更に、そのクラスラベル(D(z))も推定する。
目的関数計算器03は、識別器の出力(D(z))及び(D(z))と、入力された特徴ベクトルの実際の真のクラスラベル(l,x)とを、読み取り、生成器の損失03を計算する。実施の形態における生成器の損失の数学的構成は、数4に示す通りである。
Figure 0007028345000004
数4において、PLDAは、クリーンなデータで訓練されたPLDAを表し、PLDA(x,z)は、テストペア(x,z)におけるPDLAの出力スコアを表し、KL_div(h,n)は、生成器(h)のボトルネックとなる特徴ベクトルと事前に定義された確率分布を持つ確率変数(n)との間のKLダイバージェンスを表している。
実施の形態2では、ガウス分布は、事前に定義された確率分布として想定されている。パラメータ更新器04は、生成器のパラメータを更新して、目的関数を最適化する。生成器と識別器との訓練は、生成器の損失が収束するまで行われる。収束後、パラメータ更新器204は、訓練された特徴変換器(生成器)のパラメータをストレージ05に格納する。
テストフェーズでは、生成器01は、ストレージ05から、格納されている構造及びパラメータを読み取る。生成器01は、入力としてテスト対象となる特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを生成し、これを出力する。
実施の形態2における有効な効果として、実施の形態1で示された効果に加えて、以下に示すものがある。つまり、実施の形態2によれば、変換された特徴ベクトルは、KLダイバージェンスの最小化によって、事前に定義された確率分布に従って訓練されることになる。
図7は、生成器と識別器とを訓練するための訓練フェーズにおいて、本発明の実施の形態2の具体例を示す、ニューラルネットワークの表現図である。図7に示すように、生成器201は、エンコーダ(Genc)及びデコーダ(Gdec)として、2つのニューラルネットワーク(NN)を有する。訓練段階では、エンコーダ(Genc)は、ノイズの多い特徴を入力として読み取り、それらをクラス依存の特徴ベクトル(f)にエンコードする。次に、デコーダ(Gdec)は、エンコードされた特徴ベクトル(f)とランダムノイズベクトル(N)とを読み取り、ノイズが除去された特徴ベクトルベクトル(A’)を生成し、それを出力する。
識別器202は、1つのニューラルネットワーク(NN)を有する。識別器202は、ノイズ除去された特徴ベクトル(A’)及び対応するクリーンな特徴ベクトル(A)を読み取り、それぞれが特定のオリジナルなクリーンな特徴ベクトルである確率を予測し、更に、入力された各特徴ベクトルのクラスを推定する。また、各訓練の反復において、2つの特徴ベクトル間のクラス指向の類似度を見つけるための尺度として、PLDAの類似度が、ノイズが除去された特徴ベクトル(A’)とクリーンな特徴ベクトル(A)との間で計算される。更に、KLダイバージェンス計算器が、正規分布~N(0,1)といった事前定義された分布から、エンコードされた特徴(f)の分布の発散を計算する。
生成器及び識別器の両方のニューラルネットワーク(NN)は、生成器と識別器との損失を最適化するために、交互に訓練される。訓練後、識別器202はノイズが除去された特徴ベクトルをクラスに正しく分類し、オリジナルのクリーンな特徴ベクトル(A)とノイズが除去された特徴ベクトル(A’)とを区別することができなくなる。
また、訓練の後、全ての訓練ペア(A,A’)間のPLDAの類似度は最大となる。このことは、ノイズが除去された特徴ベクトルがクラス関連の特性を有し、エンコードされた特徴の分布が以前に定義された分布に近似する、ことを意味する。生成器201及び識別器202両方の訓練損失の収束後、生成器201及び識別器202両方における訓練された重みパラメータは、実施の形態のブロック図に示されるように、ストレージ205に格納される。
訓練されたニューラルネットワークでは、2つのタイプの特徴変換が行われる。テスト段階の第1のタイプでは、生成器201のニューラルネットワークは、訓練されたパラメータをストレージ205から読み取り、そして、エンコーダ(Genc)は、与えられたテスト対象の特徴ベクトルを入力として読み取り、それを、エンコードされた特徴ベクトルに変換して、出力する。テスト段階の第2のタイプでは、デコーダ(Gdec)は、エンコーダ(Genc)の出力(エンコードされた特徴ベクトル)を入力として読み取り、入力された特徴ベクトルのノイズが除去された状態を生成する。
[装置動作]
次に、図8及び図9を用いて実施の形態2におけるパタン認識装置200の動作について説明する。以下の説明においては、必要に応じて、図~図が参照される。また、実施の形態2において、パタン認識方法は、パタン認識装置を動作させることによって実施される。従って、以下においては、パタン認識装置200によって実行される動作の説明によって、実施の形態2におけるパタン認識方法の説明に代える。
図8は、本発明の実施の形態2におけるパタン認識装置によって実行される動作を示すフロー図である。図8は、実施の形態2における訓練の部分を示している。最初に、図8に示すように、訓練フェーズにおいて、生成器201は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する(ステップB01)。次に、識別器202は、ノイズが除去された特徴ベクトルを読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率を予測し、そのクラスラベルも推定する(ステップB02)。
次に、識別器202は、オリジナルのクリーンな特徴ベクトルを読み取り、それが特定のオリジナルのクリーンな特徴ベクトルである確率を予測し、更に、そのクラスラベルを推定する(ステップB03)。次に、目的関数計算器03は、識別器の出力及び入力された特徴ベクトルの実際の真のクラスラベルを読み取り、識別器の損失を計算する(ステップB04)。
次に、パラメータ更新器204は、識別器のパラメータを更新して、目的関数を最適化する(ステップB05)。次に、パラメータ更新器204は、反復回数がNよりも小さいかどうかを判定する(ステップB06)。この識別器の訓練は、十分な回数となるまで反復して行われる。
ステップB06の判定の結果、反復回数がN以上である場合は、ステップB02が再度実行される。一方、ステップB06の判定の結果、反復回数がNより少ない場合は、ステップB07が実行される。
識別器202の訓練の後、生成器201は、ノイズの多い特徴ベクトルを読み取り、ノイズが除去された特徴ベクトルを推定する(ステップB07)。次に、識別器02は、ノイズが除去された特徴ベクトルを読み取り、それが特定のクリーンな特徴ベクトルである確率を予測し、そして、そのクラスラベルを推定する(ステップB08)。
次に、目的関数計算器203は、識別器の出力、実際の真のクラスラベル、入力された特徴ベクトルに対応するクリーンな特徴ベクトルを読み取り、生成器の損失を計算する(ステップB09)。次に、パラメータ更新器204は、生成器のパラメータを更新して、目的関数を最適化する(ステップB10)。
次に、パラメータ更新器204は、生成器の損失が収束したかどうかを判定する(ステップB11)。生成器及び識別器の訓練は、生成器の損失が収束するまで行われる。ステップB11での判定の結果、生成器の損失が収束していない場合は、ステップB01が再度実行される。一方、ステップB11での判定の結果、生成器の損失が収束している場合は、パラメータ更新器204は、訓練された特徴ベクトル変換器(生成器)のパラメータをストレージ205に格納する(ステップB12)。
図9(a)及び図9(b)は、本発明の実施の形態2におけるパタン認識装置によって実行される動作を示す他のフロー図である。図9(a)及び図9(b)は、実施の形態2における2種類の可能なテスト段階を示している。
第1段階では、訓練済の生成器のボトルネックな特徴ベクトルを用いた特徴変換が行われる。最初に、図9(a)に示すように、生成器201は、ストレージ205から、そこに格納されている生成器の構造及びパラメータを読み取る(ステップE01)。次に、テスト対象となる特徴ベクトルを入力として読み取り、それらを変換する(ステップE02)。次に、生成器のボトルネックな特徴ベクトルが、ノイズが除去された特徴ベクトルとして取り出され、出力される(ステップE03)。次に、ノイズが除去された特徴ベクトルは、幾つかの分類器に適用されて、適切なクラスに分類される。
第2段階では、訓練された生成器と識別器とが用いられて、特徴変換とそれらの分類とが行われる。最初に、図9(b)に示すように、生成器201及び識別器202は、ストレージ205から、そこに格納されている、それらの構造及びパラメータを読み取る(ステップF01)。次に、生成器201は、テスト対象となる特徴ベクトルを入力として読み取り、それらを変換して、ノイズが除去された特徴ベクトルを生成し、出力する(ステップF02)。次に、識別器202は、生成器の出力を読み取り、出力された特徴ベクトルのクラスラベルを推定する(ステップF03)。
(プログラム)
実施の形態2におけるプログラムは、コンピュータに、図8に示すステップB01からB12、図9(a)に示すステップE01からE03、及び図9(b)に示すステップF01からF03を実行させるためのプログラムであれば良い。実施の形態におけるパタン認識装置200及びパタン認識方法は、プログラムをコンピュータにインストールして実行することによって実現することができる。この場合、コンピュータのプロセッサは、生成器201、識別器202、目的関数計算器203、及びパラメータ更新器204として機能して処理を実行する。
なお、実施の形態2におけるプログラムは、複数のコンピュータで構成されるコンピュータシステムによって実行されても良い。この場合、コンピュータは、例えば、生成器201、識別器202、目的関数計算器203、及びパラメータ更新器204として、それぞれ機能することができる。
(物理構成)
以下、実施の形態1及び2におけるプログラムを実行することによって、パタン認識装置を実現するコンピュータについて、図10を用いて説明する。図10は、本発明の実施の形態1又は2におけるパタン認識装置を実現するコンピュータの一例を示すブロック図である。
図10に示すように、コンピュータ10は、CPU(Central Processing Unit)11と、メインメモリ12と、記憶装置13と、入力インターフェース14と、表示コントローラ15と、データリーダー/ライター16と、通信インターフェース17とを備える。これらの各部は、バス21によって相互に通信可能に接続される。
CPU11は、記憶装置13に格納された本実施の形態のプログラム(コード)をメインメモリ12に展開し、所定の順序でプログラムを実行することにより、各種計算を実行する。メインメモリ12は、典型的には、DRAM(Dynamic Random-Access Memory)などの揮発性の記憶装置である。実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体20に格納された状態で提供される。実施の形態におけるプログラムは、通信インターフェース17を介して接続されるインターネット上で流通するものであっても良い。
記憶装置13の具体例としては、ハードディスク、更には、フラッシュメモリなどの半導体記憶装置が挙げられる。入力インターフェース14は、CPU11と、キーボードまたはマウスなどの入力装置18との間のデータの伝送を仲介する。表示コントローラ15は、ディスプレイ装置19に接続され、ディスプレイ装置19によって表示される画面を制御する。
データリーダー/ライター116は、CPU11と記録媒体20との間のデータ伝送を仲介し、記録媒体20からのプログラムの読み取り、及びコンピュータ10によって得られた処理結果の記録媒体20への書き込みを実行する。 通信インターフェース17は、CPU11と、他のコンピュータとの間のデータの転送を仲介する。
記録媒体20の具体例としては、CF(Compact Flash(登録商標))カード、SD(Secure Digital)カード等の汎用的な半導体記憶装置、フレキシブルディスクなどの磁気記憶媒体、及びCD-ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
なお、上記の実施の形態におけるパタン認識装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、パタン認識装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていても良い。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記27)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
ニューラルネットワークによる特徴変換を用いてパタン認識を行うための装置であって、
ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、生成器と、
ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、識別器と、
ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記生成器及び前記識別器の損失を計算する、目的関数計算器と、
損失が最小化されるように、前記生成器及び前記識別器のパラメータを更新する、パラメータ更新器と、
を備え、
前記生成器の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
前記識別器の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするパタン認識装置。
(付記2)
付記1に記載のパタン認識装置であって、
ジェネレータの損失は、KL発散による正則化を行う構成要素を含み、前記構成要素は、ジェネレータにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、ジェネレータのエンコーダ構造によって事前に定義された確率分布とを比較する、
ことを特徴とするパタン認識装置。
(付記3)
付記1に記載のパタン認識装置であって、
訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、生成器の損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識装置。
(付記4)
付記2に記載のパタン認識装置であって、
訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、生成器の損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識装置。
(付記5)
付記1に記載のパタン認識装置であって、
前記生成器は、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識装置。
(付記6)
付記2に記載のパタン認識装置であって、
訓練された前記生成器のエンコーダ部分が、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識装置。
(付記7)
付記1に記載のパタン認識装置であって、
前記識別器の分類器部分が、分類器として機能し、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識装置。
(付記8)
付記1に記載のパタン認識装置であって、
前記生成器は、ノイズを除去するオートエンコーダ又はシャムネットワークである、
ことを特徴とするパタン認識装置。
(付記9)
付記に記載のパタン認識装置であって、
前記分類器は、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかである、
ことを特徴とするパタン認識装置。
(付記10)
ニューラルネットワークによる特徴変換を用いてパタン認識を行うための方法であって、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を有し、
前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするパタン認識方法。
(付記11)
付記10に記載のパタン認識方法であって、
前記(a)のステップの損失は、KL発散による正則化を行う構成要素を含み、前記構成要素は、前記(a)のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、ジェネレータのエンコーダ構造によって事前に定義された確率分布とを比較する、
ことを特徴とするパタン認識方法。
(付記12)
付記10に記載のパタン認識方法であって、
訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識方法。
(付記13)
付記11に記載のパタン認識方法であって、
訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識方法。
(付記14)
付記10に記載のパタン認識方法であって、
前記(a)のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。
(付記15)
付記11に記載のパタン認識方法であって、
前記(a)のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。
(付記16)
付記10に記載のパタン認識方法であって、
前記(b)のステップにおいて、前記(b)のステップにおけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識方法。
(付記17)
付記10に記載のパタン認識方法であって、
前記(a)のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。
(付記18)
付記16に記載のパタン認識方法であって、
前記(b)のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするパタン認識方法。
(付記19)
コンピュータによって、ニューラルネットワークによる特徴変換を用いたパタン認識を行うためのプログラムであって、
記コンピュータに、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を実行させ、
前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするプログラム
(付記20)
付記19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(a)のステップの損失は、KL発散による正則化を行う構成要素を含み、前記構成要素は、前記(a)のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、ジェネレータのエンコーダ構造によって事前に定義された確率分布とを比較する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記21)
付記19に記載のプログラムであって、
訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするプログラム
(付記22)
付記20に記載のプログラムであって、
訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするプログラム
(付記23)
付記19に記載のプログラムであって、
前記(a)のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするプログラム
(付記24)
付記20に記載のプログラムであって、
前記(a)のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするプログラム
(付記25)
付記19に記載のプログラムであって、
前記(b)のステップにおいて、前記(b)のステップにおけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするプログラム
(付記26)
付記19に記載のプログラムであって、
前記(a)のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするプログラム
(付記27)
付記25に記載のプログラムであって、
前記(b)のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするプログラム
最後のポイントとして、ここで説明および図示されている、プロセス、技術、および方法論は、特定の装置に限定または関連していないことは明確である。構成要素の組み合わせによって実装が行われる。また、本明細書の指示に従って、様々なタイプの汎用装置を使用することができる。本発明は特定の具体例に基づいて説明されている。但し、これらは単なる例示であり、本発明を制限するものではない。例えば、記載されたソフトウェアは、C++、Java、Python、及びPerl等の多種多様な言語によって実装できる。更に、本発明の技術の他の実装は、当業者において明確である。
本発明によれば、パタン認識システムにおける特徴変換ブロックとして、変換された特徴ベクトルにおけるクラス指向の類似度を維持する特徴変換ブロックを提供できるため、クラス内共分散を最小化し、クラス間共分散を最大化できる。本発明は、例えば、顔認識、話者認証といった分野において有用である。
10 コンピュータ
11 CPU
12 メインメモリ
13 記憶装置
14 入力インターフェース
15 表示コントローラ
16 データリーダー/ライター
17 通信インターフェース
18 入力装置
19 表示装置
20 記録媒体
21 バス
100 パタン認識装置(実施の形態1)
101 生成器
102 識別器
103 目的関数計算器
104 パラメータ更新器
105 ストレージ
200 パタン認識装置(実施の形態2)
201 生成器
202 識別器
203 目的関数計算器
204 パラメータ更新器
205 ストレージ

Claims (27)

  1. ニューラルネットワークによる特徴変換を用いてパタン認識を行うための装置であって、
    ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、生成器と、
    ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、識別器と、
    ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記生成器及び前記識別器の損失を計算する、目的関数計算器と、
    損失が最小化されるように、前記生成器及び前記識別器のパラメータを更新する、パラメータ更新器と、
    を備え、
    前記生成器の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
    前記識別器の損失は、1.GANベースの損失、及び2.分類損失で構成され、
    GANベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
    クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
    分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
    ことを特徴とするパタン認識装置。
  2. 請求項1に記載のパタン認識装置であって、
    生成器の損失は、KLダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、生成器においてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確率分布とを比較する、
    ことを特徴とするパタン認識装置。
  3. 請求項1に記載のパタン認識装置であって、
    訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
    このような状態において、生成器の損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
    ことを特徴とするパタン認識装置。
  4. 請求項2に記載のパタン認識装置であって、
    訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
    このような状態において、生成器の損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
    ことを特徴とするパタン認識装置。
  5. 請求項1に記載のパタン認識装置であって、
    前記生成器は、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
    ことを特徴とするパタン認識装置。
  6. 請求項2に記載のパタン認識装置であって、
    訓練された前記生成器のエンコーダ部分が、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
    ことを特徴とするパタン認識装置。
  7. 請求項1に記載のパタン認識装置であって、
    前記識別器の分類器部分が、分類器として機能し、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
    ことを特徴とするパタン認識装置。
  8. 請求項1に記載のパタン認識装置であって、
    前記生成器は、ノイズを除去するオートエンコーダ又はシャムネットワークである、
    ことを特徴とするパタン認識装置。
  9. 請求項7に記載のパタン認識装置であって、
    前記分類器は、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかである、
    ことを特徴とするパタン認識装置。
  10. ニューラルネットワークによる特徴変換を用いてパタン認識を行うための方法であって、
    (a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
    (b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
    (c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
    (d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
    を有し、
    前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
    前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
    GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
    クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記前記(a)のステップで生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
    分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
    ことを特徴とするパタン認識方法。
  11. 請求項10に記載のパタン認識方法であって、
    前記(a)のステップの損失は、KLダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記(a)のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、エンコーダ構造によって事前に定義された確率分布とを比較する、
    ことを特徴とするパタン認識方法。
  12. 請求項10に記載のパタン認識方法であって、
    訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
    このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
    ことを特徴とするパタン認識方法。
  13. 請求項11に記載のパタン認識方法であって、
    訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
    このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
    ことを特徴とするパタン認識方法。
  14. 請求項10に記載のパタン認識方法であって、
    前記(a)のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
    ことを特徴とするパタン認識方法。
  15. 請求項11に記載のパタン認識方法であって、
    前記(a)のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
    ことを特徴とするパタン認識方法。
  16. 請求項10に記載のパタン認識方法であって、
    前記(b)のステップにおいて、前記(b)のステップにおけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
    ことを特徴とするパタン認識方法。
  17. 請求項10に記載のパタン認識方法であって、
    前記(a)のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
    ことを特徴とするパタン認識方法。
  18. 請求項16に記載のパタン認識方法であって、
    前記(b)のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
    ことを特徴とするパタン認識方法。
  19. コンピュータによって、ニューラルネットワークによる特徴変換を用いたパタン認識を行うためのプログラムであって、
    前記コンピュータに、
    (a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
    (b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
    (c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
    (d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
    を実行させ、
    前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
    前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
    GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
    クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記前記(a)のステップで生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
    分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
    ことを特徴とするプログラム。
  20. 請求項19に記載のプログラムであって、
    前記(a)のステップの損失は、KLダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記(a)のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、エンコーダ構造によって事前に定義された確率分布とを比較する、
    ことを特徴とするプログラム。
  21. 請求項19に記載のプログラムであって、
    訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
    このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
    ことを特徴とするプログラム。
  22. 請求項20に記載のプログラムであって、
    訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
    このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
    ことを特徴とするプログラム。
  23. 請求項19に記載のプログラムであって、
    前記(a)のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
    ことを特徴とするプログラム。
  24. 請求項20に記載のプログラムであって、
    前記(a)のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
    ことを特徴とするプログラム。
  25. 請求項19に記載のプログラムであって、
    前記(b)のステップにおいて、前記(b)のステップにおけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
    ことを特徴とするプログラム。
  26. 請求項19に記載のプログラムであって、
    前記(a)のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
    ことを特徴とするプログラム。
  27. 請求項25に記載のプログラムであって、
    前記(b)のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
    ことを特徴とするプログラム。
JP2020565912A 2018-06-29 2018-06-29 パタン認識装置、パタン認識方法、及びプログラム Active JP7028345B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/024932 WO2020003533A1 (en) 2018-06-29 2018-06-29 Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium

Publications (2)

Publication Number Publication Date
JP2021524973A JP2021524973A (ja) 2021-09-16
JP7028345B2 true JP7028345B2 (ja) 2022-03-02

Family

ID=68986174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020565912A Active JP7028345B2 (ja) 2018-06-29 2018-06-29 パタン認識装置、パタン認識方法、及びプログラム

Country Status (3)

Country Link
US (1) US20210117733A1 (ja)
JP (1) JP7028345B2 (ja)
WO (1) WO2020003533A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201718756D0 (en) * 2017-11-13 2017-12-27 Cambridge Bio-Augmentation Systems Ltd Neural interface
EP3794473A1 (en) * 2018-08-06 2021-03-24 Google LLC Captcha automated assistant
CN112837676B (zh) * 2019-11-04 2023-12-01 深圳市优必选科技股份有限公司 一种语句生成方法、语句生成装置及智能设备
JP7333520B2 (ja) 2020-01-30 2023-08-25 富士通株式会社 学習プログラム、学習方法、及び情報処理装置
CN111340700B (zh) * 2020-02-21 2023-04-25 北京中科虹霸科技有限公司 模型生成方法、分辨率提高方法、图像识别方法及装置
US11663840B2 (en) * 2020-03-26 2023-05-30 Bloomberg Finance L.P. Method and system for removing noise in documents for image processing
CN111524524B (zh) * 2020-04-28 2021-10-22 平安科技(深圳)有限公司 声纹识别方法、装置、设备及存储介质
US11488022B2 (en) * 2020-05-12 2022-11-01 Verizon Patent And Licensing Inc. Systems and methods for secure authentication based on machine learning techniques
CN111916101B (zh) * 2020-08-06 2022-01-21 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN112307926B (zh) * 2020-10-26 2022-12-06 西北工业大学 一种基于生成对抗网络的声学被动式舰船目标分类方法
CN113313086B (zh) * 2021-07-28 2021-10-29 长沙海信智能系统研究院有限公司 特征向量转换模型处理方法、装置、服务器及存储介质
CN114900406B (zh) * 2022-04-22 2023-08-08 深圳市人工智能与机器人研究院 一种基于孪生网络的盲调制信号识别方法
CN115470827B (zh) * 2022-09-23 2023-06-20 山东省人工智能研究院 基于自监督学习和孪生网络的对抗性心电信号降噪方法
CN115880187A (zh) * 2023-01-10 2023-03-31 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于去噪扩散概率模型的单图像反光去除方法及相关设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180114096A1 (en) 2015-04-30 2018-04-26 The Regents Of The University Of California Machine learning to process monte carlo rendered images

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10607319B2 (en) * 2017-04-06 2020-03-31 Pixar Denoising monte carlo renderings using progressive neural networks
WO2018232388A1 (en) * 2017-06-16 2018-12-20 Rensselaer Polytechnic Institute Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks
WO2019090213A1 (en) * 2017-11-03 2019-05-09 Siemens Aktiengesellschaft Segmenting and denoising depth images for recognition applications using generative adversarial neural networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180114096A1 (en) 2015-04-30 2018-04-26 The Regents Of The University Of California Machine learning to process monte carlo rendered images

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WOLTERINK, Jelmer M. et al.,Generative Adversarial Networks for Noise Reduction in Low-Dose CT,IEEE Transactions on Medical Imaging,IEEE,2017年05月26日,Vol. 36, No. 12,pp. 2536-2545,URL: https://ieeexplore.ieee.org/document/7934380,DOI: 10.1109/TMI.2017.2708987

Also Published As

Publication number Publication date
WO2020003533A1 (en) 2020-01-02
US20210117733A1 (en) 2021-04-22
JP2021524973A (ja) 2021-09-16

Similar Documents

Publication Publication Date Title
JP7028345B2 (ja) パタン認識装置、パタン認識方法、及びプログラム
JP6620882B2 (ja) ドメイン適応を用いたパターン認識装置、方法およびプログラム
JP6904483B2 (ja) パターン認識装置、パターン認識方法、及びパターン認識プログラム
JP7367862B2 (ja) ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム
JP6967197B2 (ja) 異常検出装置、異常検出方法及びプログラム
KR20160102815A (ko) 잡음에 강인한 오디오 신호 처리 장치 및 방법
JP2011059500A (ja) 話者クラスタリング装置および話者クラスタリング方法
JP6729804B2 (ja) パターン認識装置、方法及びプログラム
JP6955233B2 (ja) 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP7211501B2 (ja) データ変換装置、パターン認識システム、データ変換方法及びデータ変換プログラム
JP2009134466A (ja) 認識処理装置、方法及びコンピュータプログラム
US20200019875A1 (en) Parameter calculation device, parameter calculation method, and non-transitory recording medium
JP6473112B2 (ja) 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP7047665B2 (ja) 学習装置、学習方法及び学習プログラム
CN115700788A (zh) 用于图像识别的方法、设备和计算机程序产品
Gribonval From projection pursuit and CART to adaptive discriminant analysis?
JP5683287B2 (ja) パターン認識装置及びパターン認識方法
WO2020089983A1 (en) Recognition apparatus, recognition method, and computer-readable recording medium
JP5647159B2 (ja) 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
US11869492B2 (en) Anomaly detection system and method using noise signal and adversarial neural network
US20230409868A1 (en) Neural Network Activation Scaled Clipping Layer
JP2018013683A (ja) 音声区間検出装置、音声区間検出方法、及びプログラム
US20210312231A1 (en) Neural network device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220131

R151 Written notification of patent or utility model registration

Ref document number: 7028345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151