JP2021524973A - パタン認識装置、パタン認識方法、及びプログラム - Google Patents
パタン認識装置、パタン認識方法、及びプログラム Download PDFInfo
- Publication number
- JP2021524973A JP2021524973A JP2020565912A JP2020565912A JP2021524973A JP 2021524973 A JP2021524973 A JP 2021524973A JP 2020565912 A JP2020565912 A JP 2020565912A JP 2020565912 A JP2020565912 A JP 2020565912A JP 2021524973 A JP2021524973 A JP 2021524973A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- loss
- pattern recognition
- class
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003909 pattern recognition Methods 0.000 title claims description 113
- 238000012567 pattern recognition method Methods 0.000 title claims description 56
- 239000013598 vector Substances 0.000 claims abstract description 543
- 238000012549 training Methods 0.000 claims description 74
- 230000006870 function Effects 0.000 claims description 56
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 238000009826 distribution Methods 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 18
- 238000012706 support-vector machine Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 abstract description 17
- 230000008030 elimination Effects 0.000 abstract 1
- 238000003379 elimination reaction Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 17
- 230000009466 transformation Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000000844 transformation Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- RBMHUYBJIYNRLY-UHFFFAOYSA-N 2-[(1-carboxy-1-hydroxyethyl)-hydroxyphosphoryl]-2-hydroxypropanoic acid Chemical compound OC(=O)C(O)(C)P(O)(=O)C(C)(O)C(O)=O RBMHUYBJIYNRLY-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 229920001434 poly(D-lactide) Polymers 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
- G06F18/21343—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using decorrelation or non-stationarity, e.g. minimising lagged cross-correlations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
Description
1.変換された特徴において、クラスに関連する類似度が高くなる。
2.変換された空間において、特徴の統計的分布が明示的に保持される。
3.クラス間共分散と比較してクラス内共分散が小さい特徴の識別能力が維持される。
4.広範囲の望ましくない変動に適用できるように設計されている。
目的関数計算器92は、クリーンな特徴ベクトル(x)、ノイズが除去された特徴ベクトル(z)、入力された特徴ベクトルのオリジナルのラベル(o)、及び分類器によって推定されたクラスラベル(l)を読み取る。目的関数計算器92は、変換のコスト923を、ノイズが除去された特徴ベクトル(z)とクリーンな特徴ベクトル(x)との間の平均二乗誤差921と、オリジナルのラベル(l)と推定されたクラスラベル(o)との間の分類誤差922と、を荷重平均として計算する。
ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、生成器と、
ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、識別器と、
ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記生成器及び前記識別器の損失を計算する、目的関数計算器と、
損失が最小化されるように、前記生成器及び前記識別器のパラメータを更新する、パラメータ更新器と、
を備える。
この場合において、前記生成器の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、前記識別器の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を有する。
この場合において、前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。
コンピュータに、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を実行させる命令を含むプログラムを記録している。
この場合において、前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。
次に、上述の全ての問題に対する解決策の概要を示す。ここで、上述の技術的な問題を解決するために、全体的なアプローチについて要約する。このアプローチには、訓練段階とテスト段階との2つの段階がある。
1.変換された特徴は、クラス指向の類似度を有し、それは分類の精度を高めるのに役立つ。
2.ブロックが様々なノイズを除去するようにトレーニングされているので、変換された特徴は、広くノイズに強くなる。
最初に、本発明の実施形態1における、パタン認識装置、パタン認識方法、及びパタン認識プログラムについて、図1〜図5を参照して説明する。
まず、実施の形態1におけるパタン認識装置について図1を用いて説明する。図1は、本発明の実施の形態1におけるパタン認識装置の概略構成を示すブロック図である。
生成器の損失は、1.GANベースの損失と、2.分類損失と、3.クラス指向の非類似度の損失とで、構成される。識別器の損失は、1.GANベースの損失と、2.分類損失とで、構成される。
次に、図4及び図5を用いて、実施の形態1におけるパタン認識装置100の動作について説明する。以下の説明においては、必要に応じて図1〜図3が参照される。また、実施の形態1において、パタン認識方法は、パタン認識装置を動作させることによって実施される。従って、以下においては、パタン認識装置100によって実行される動作の説明によって、実施の形態1におけるパタン認識方法の説明に代える。
実施の形態1におけるプログラムは、コンピュータに、図4に示すステップA01からA12、図5(a)に示すステップC01からC02、及び図5(b)に示すステップD01からD03を実行させる、プログラムであれば良い。実施の形態1におけるパタン認識装置100及びパタン認識方法は、プログラムをコンピュータにインストールして実行することによって実現することができる。この場合、コンピュータのプロセッサは、生成器101、識別器102、目的関数計算器103、及びパラメータ更新器104として機能して処理を実行する。
次に、本発明の実施の形態2における、パタン認識装置、パタン認識方法、及びパタン認識プログラムについて、図6〜図9を用いて説明する。
最初に、実施の形態2におけるパタン認識装置について図6を用いて説明する。図6は、本発明の実施の形態2におけるパタン認識装置の具体的構成を示すブロック図である。図6に示すように、実施の形態2におけるパタン認識装置200は、生成器201と、識別器202と、生成器を訓練しながら生成器の損失2031を計算し、識別器を訓練しながら識別器の損失を計算する、目的関数計算器203と、パラメータ更新器204と、生成器及び訓練された生成器201の変換フェーズにおけるパラメータおよび構造を格納する、ストレージ205とを備えている。
次に、図8及び図9を用いて実施の形態2におけるパタン認識装置200の動作について説明する。以下の説明においては、必要に応じて、図1〜図3が参照される。また、実施の形態2において、パタン認識方法は、パタン認識装置を動作させることによって実施される。従って、以下においては、パタン認識装置200によって実行される動作の説明によって、実施の形態2におけるパタン認識方法の説明に代える。
実施の形態2におけるプログラムは、コンピュータに、図8に示すステップB01からB12、図9(a)に示すステップE01からE03、及び図9(b)に示すステップF01からF03を実行させるためのプログラムであれば良い。実施の形態1におけるパタン認識装置100及びパタン認識方法は、プログラムをコンピュータにインストールして実行することによって実現することができる。この場合、コンピュータのプロセッサは、生成器201、識別器202、目的関数計算器203、及びパラメータ更新器204として機能して処理を実行する。
以下、実施の形態1及び2におけるプログラムを実行することによって、パタン認識装置を実現するコンピュータについて、図10を用いて説明する。図10は、本発明の実施の形態1又は2におけるパタン認識装置を実現するコンピュータの一例を示すブロック図である。
ニューラルネットワークによる特徴変換を用いてパタン認識を行うための装置であって、
ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、生成器と、
ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、識別器と、
ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記生成器及び前記識別器の損失を計算する、目的関数計算器と、
損失が最小化されるように、前記生成器及び前記識別器のパラメータを更新する、パラメータ更新器と、
を備え、
前記生成器の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
前記識別器の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするパタン認識装置。
付記1に記載のパタン認識装置であって、
生成器の損失は、KLダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、生成器においてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするパタン認識装置。
付記1に記載のパタン認識装置であって、
訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、生成器の損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識装置。
付記2に記載のパタン認識装置であって、
訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、生成器の損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識装置。
付記1に記載のパタン認識装置であって、
前記生成器は、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識装置。
付記2に記載のパタン認識装置であって、
訓練された前記生成器のエンコーダ部分が、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識装置。
付記1に記載のパタン認識装置であって、
前記識別器の分類器部分が、分類器として機能し、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識装置。
付記1に記載のパタン認識装置であって、
前記生成器は、ノイズを除去するオートエンコーダ又はシャムネットワークである、
ことを特徴とするパタン認識装置。
付記1に記載のパタン認識装置であって、
前記分類器は、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかである、
ことを特徴とするパタン認識装置。
ニューラルネットワークによる特徴変換を用いてパタン認識を行うための方法であって、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を有し、
前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするパタン認識方法。
付記10に記載のパタン認識方法であって、
前記(a)のステップの損失は、KLダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記(a)のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするパタン認識方法。
付記10に記載のパタン認識方法であって、
訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識方法。
付記11に記載のパタン認識方法であって、
訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識方法。
付記10に記載のパタン認識方法であって、
前記(a)のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。
付記11に記載のパタン認識方法であって、
前記(a)のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。
付記10に記載のパタン認識方法であって、
前記(b)のステップにおいて、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識方法。
付記10に記載のパタン認識方法であって、
前記(a)のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。
付記10に記載のパタン認識方法であって、
前記(b)のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするパタン認識方法。
コンピュータによって、ニューラルネットワークによる特徴変換を用いたパタン認識を行うためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記プログラムは、前記コンピュータに、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を実行させる命令を含み、
前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(a)のステップの損失は、KLダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記(a)のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記19に記載のコンピュータ読み取り可能な記録媒体であって、
訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記20に記載のコンピュータ読み取り可能な記録媒体であって、
訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(a)のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記20に記載のコンピュータ読み取り可能な記録媒体であって、
前記(a)のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(b)のステップにおいて、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(a)のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(b)のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
11 CPU
12 メインメモリ
13 記憶装置
14 入力インターフェース
15 表示コントローラ
16 データリーダー/ライター
17 通信インターフェース
18 入力装置
19 表示装置
20 記録媒体
21 バス
100 パタン認識装置(実施の形態1)
101 生成器
102 識別器
103 目的関数計算器
104 パラメータ更新器
105 ストレージ
200 パタン認識装置(実施の形態2)
201 生成器
202 識別器
203 目的関数計算器
204 パラメータ更新器
205 ストレージ
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を有する。
この場合において、前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記ステップ(a)によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。
コンピュータに、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を実行させる。
この場合において、前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、
ノイズが除去された特徴ベクトルは、前記ステップ(a)によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である。
次に、図8及び図9を用いて実施の形態2におけるパタン認識装置200の動作について説明する。以下の説明においては、必要に応じて、図6〜図7が参照される。また、実施の形態2において、パタン認識方法は、パタン認識装置を動作させることによって実施される。従って、以下においては、パタン認識装置200によって実行される動作の説明によって、実施の形態2におけるパタン認識方法の説明に代える。
実施の形態2におけるプログラムは、コンピュータに、図8に示すステップB01からB12、図9(a)に示すステップE01からE03、及び図9(b)に示すステップF01からF03を実行させるためのプログラムであれば良い。実施の形態2におけるパタン認識装置200及びパタン認識方法は、プログラムをコンピュータにインストールして実行することによって実現することができる。この場合、コンピュータのプロセッサは、生成器201、識別器202、目的関数計算器203、及びパラメータ更新器204として機能して処理を実行する。
付記7に記載のパタン認識装置であって、
前記分類器は、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかである、
ことを特徴とするパタン認識装置。
付記10に記載のパタン認識方法であって、
前記(b)のステップにおいて、前記(b)のステップにおけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識方法。
付記16に記載のパタン認識方法であって、
前記(b)のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするパタン認識方法。
コンピュータによって、ニューラルネットワークによる特徴変換を用いたパタン認識を行うためのプログラムであって、
前記コンピュータに、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を実行させ、
前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするプログラム。
付記19に記載のプログラムであって、
前記(a)のステップの損失は、KLダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記(a)のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするプログラム。
付記19に記載のプログラムであって、
訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするプログラム。
付記20に記載のプログラムであって、
訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするプログラム。
付記19に記載のプログラムであって、
前記(a)のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするプログラム。
付記20に記載のプログラムであって、
前記(a)のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするプログラム。
付記19に記載のプログラムであって、
前記(b)のステップにおいて、前記(b)のステップにおけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするプログラム。
付記19に記載のプログラムであって、
前記(a)のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするプログラム。
付記25に記載のプログラムであって、
前記(b)のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするプログラム。
Claims (27)
- ニューラルネットワークによる特徴変換を用いてパタン認識を行うための装置であって、
ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、生成器と、
ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、識別器と、
ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記生成器及び前記識別器の損失を計算する、目的関数計算器と、
損失が最小化されるように、前記生成器及び前記識別器のパラメータを更新する、パラメータ更新器と、
を備え、
前記生成器の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
前記識別器の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記識別器によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするパタン認識装置。 - 請求項1に記載のパタン認識装置であって、
生成器の損失は、KLダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、生成器においてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするパタン認識装置。 - 請求項1に記載のパタン認識装置であって、
訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、生成器の損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識装置。 - 請求項2に記載のパタン認識装置であって、
訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、生成器の損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識装置。 - 請求項1に記載のパタン認識装置であって、
前記生成器は、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識装置。 - 請求項2に記載のパタン認識装置であって、
訓練された前記生成器のエンコーダ部分が、特徴変換器として機能し、前記特徴変換器における、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識装置。 - 請求項1に記載のパタン認識装置であって、
前記識別器の分類器部分が、分類器として機能し、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識装置。 - 請求項1に記載のパタン認識装置であって、
前記生成器は、ノイズを除去するオートエンコーダ又はシャムネットワークである、
ことを特徴とするパタン認識装置。 - 請求項1に記載のパタン認識装置であって、
前記分類器は、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかである、
ことを特徴とするパタン認識装置。 - ニューラルネットワークによる特徴変換を用いてパタン認識を行うための方法であって、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を有し、
前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするパタン認識方法。 - 請求項10に記載のパタン認識方法であって、
前記(a)のステップの損失は、KLダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記(a)のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするパタン認識方法。 - 請求項10に記載のパタン認識方法であって、
訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識方法。 - 請求項11に記載のパタン認識方法であって、
訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするパタン認識方法。 - 請求項10に記載のパタン認識方法であって、
前記(a)のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。 - 請求項11に記載のパタン認識方法であって、
前記(a)のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。 - 請求項10に記載のパタン認識方法であって、
前記(b)のステップにおいて、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするパタン認識方法。 - 請求項10に記載のパタン認識方法であって、
前記(a)のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするパタン認識方法。 - 請求項10に記載のパタン認識方法であって、
前記(b)のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするパタン認識方法。 - コンピュータによって、ニューラルネットワークによる特徴変換を用いたパタン認識を行うためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記プログラムは、前記コンピュータに、
(a)ノイズを含む特徴ベクトルをノイズが除去された特徴ベクトルに変換する、ステップと、
(b)ノイズが除去された特徴ベクトル及びノイズが除去された特徴ベクトルに対応するオリジナルのクリーンな特徴ベクトルを入力として取得し、両方の入力された特徴ベクトルが特定のオリジナルのクリーンな特徴ベクトルとなる確率を予測し、入力された特徴ベクトルを、対応するクラスに分類する、ステップと、
(c)ノイズが除去された特徴ベクトル、ノイズが除去された特徴ベクトルから生成された前記オリジナルのクリーンな特徴ベクトル、推定されたクラス、及び真のクラスを使用して、前記ステップ(a)及び前記ステップ(b)の損失を計算する、ステップと、
(d)損失が最小化されるように、前記ステップ(a)及び前記ステップ(b)のパラメータを更新する、ステップと、
を実行させる命令を含み、
前記ステップ(a)の損失は、1.GANベースの損失、2.分類損失、及び3.クラス指向の非類似度の損失で構成され、
前記ステップ(b)の損失は、1.GANベースの損失、及び2.分類損失で構成され、
GANベースの損失は、入力特徴ベクトルについて、前記ステップ(b)によって、オリジナルでクリーンな特徴ベクトルであることについて予測された出力確率を使用して、計算され、
クラス指向の非類似度の損失は、ノイズが除去された特徴ベクトルと、対応するクリーンな特徴ベクトルと、の間の非類似度を示し、ノイズが除去された特徴ベクトルは、前記生成器によって生成され、対応するクリーンな特徴ベクトルは、予め訓練されたPLDAベースのスコアリングを用いて測定され、
分類損失は、推定されたクラスラベルと対応する実際の真との間の予測誤差である、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(a)のステップの損失は、KLダイバージェンスによる正則化を行う構成要素を含み、前記構成要素は、前記(a)のステップにおいてボトルネックとなる特徴ベクトルの分布と、エンコードされ、且つ、入力された特徴ベクトルにおける、生成器のエンコーダ構造によって事前に定義された確立分布とを比較する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項19に記載のコンピュータ読み取り可能な記録媒体であって、
訓練データは、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項20に記載のコンピュータ読み取り可能な記録媒体であって、
訓練データは、更に、2つの異なるクラスに属する、ノイズの多い特徴ベクトルとクリーンな特徴ベクトルとの組を含み、
このような状態において、前記(a)のステップの損失の3番目の構成要素には、異なるクラスに属する特徴ベクトルの組におけるクラス指向の非類似度を増加させる、構成要素が追加されている、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(a)のステップにおいて、更新されたパラメータを使用して、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項20に記載のコンピュータ読み取り可能な記録媒体であって、
前記(a)のステップにおいて、エンコーダによって、これから新しくテスト対象となる特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(b)のステップにおいて、前記識別器におけるパラメータを使用して、ノイズが除去された特徴ベクトルを、対応するクラスに分類する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(a)のステップにおいて、ノイズを除去するオートエンコーダ又はシャムネットワークによって、ノイズが多い特徴ベクトルを、ノイズが除去された特徴ベクトルに変換する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(b)のステップにおいて、分類誤差としてマージンエラーがあるサポートベクターマシン、又は分類誤差としてクロスエントロピーを持つニューラルネットワークのいずれかによって、入力された特徴ベクトルを、それに対応するクラスに分類する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/024932 WO2020003533A1 (en) | 2018-06-29 | 2018-06-29 | Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021524973A true JP2021524973A (ja) | 2021-09-16 |
JP7028345B2 JP7028345B2 (ja) | 2022-03-02 |
Family
ID=68986174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020565912A Active JP7028345B2 (ja) | 2018-06-29 | 2018-06-29 | パタン認識装置、パタン認識方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210117733A1 (ja) |
JP (1) | JP7028345B2 (ja) |
WO (1) | WO2020003533A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021120814A (ja) * | 2020-01-30 | 2021-08-19 | 富士通株式会社 | 学習プログラム、学習方法、及び情報処理装置 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201718756D0 (en) * | 2017-11-13 | 2017-12-27 | Cambridge Bio-Augmentation Systems Ltd | Neural interface |
WO2020032919A1 (en) * | 2018-08-06 | 2020-02-13 | Google Llc | Captcha automated assistant |
EP3624021A1 (en) * | 2018-09-17 | 2020-03-18 | Robert Bosch GmbH | Device and method for training an augmented discriminator |
CN112837676B (zh) * | 2019-11-04 | 2023-12-01 | 深圳市优必选科技股份有限公司 | 一种语句生成方法、语句生成装置及智能设备 |
CN111340700B (zh) * | 2020-02-21 | 2023-04-25 | 北京中科虹霸科技有限公司 | 模型生成方法、分辨率提高方法、图像识别方法及装置 |
US11663840B2 (en) * | 2020-03-26 | 2023-05-30 | Bloomberg Finance L.P. | Method and system for removing noise in documents for image processing |
CN111524524B (zh) * | 2020-04-28 | 2021-10-22 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
US11488022B2 (en) * | 2020-05-12 | 2022-11-01 | Verizon Patent And Licensing Inc. | Systems and methods for secure authentication based on machine learning techniques |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN112307926B (zh) * | 2020-10-26 | 2022-12-06 | 西北工业大学 | 一种基于生成对抗网络的声学被动式舰船目标分类方法 |
CN113313086B (zh) * | 2021-07-28 | 2021-10-29 | 长沙海信智能系统研究院有限公司 | 特征向量转换模型处理方法、装置、服务器及存储介质 |
CN114900406B (zh) * | 2022-04-22 | 2023-08-08 | 深圳市人工智能与机器人研究院 | 一种基于孪生网络的盲调制信号识别方法 |
CN115470827B (zh) * | 2022-09-23 | 2023-06-20 | 山东省人工智能研究院 | 基于自监督学习和孪生网络的对抗性心电信号降噪方法 |
CN115880187A (zh) * | 2023-01-10 | 2023-03-31 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于去噪扩散概率模型的单图像反光去除方法及相关设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180114096A1 (en) * | 2015-04-30 | 2018-04-26 | The Regents Of The University Of California | Machine learning to process monte carlo rendered images |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10607319B2 (en) * | 2017-04-06 | 2020-03-31 | Pixar | Denoising monte carlo renderings using progressive neural networks |
JP7123983B2 (ja) * | 2017-06-16 | 2022-08-23 | レンセラー ポリテクニック インスティテュート | ニューラルネットワークを使用した断層撮影画像再構成およびラジオミクスを統合するためのシステムおよび方法 |
CN111316291B (zh) * | 2017-11-03 | 2023-06-23 | 西门子股份公司 | 用生成式对抗神经网络分割和去噪深度图像用于识别应用 |
-
2018
- 2018-06-29 WO PCT/JP2018/024932 patent/WO2020003533A1/en active Application Filing
- 2018-06-29 JP JP2020565912A patent/JP7028345B2/ja active Active
- 2018-06-29 US US17/044,399 patent/US20210117733A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180114096A1 (en) * | 2015-04-30 | 2018-04-26 | The Regents Of The University Of California | Machine learning to process monte carlo rendered images |
Non-Patent Citations (1)
Title |
---|
WOLTERINK, JELMER M. ET AL.: "Generative Adversarial Networks for Noise Reduction in Low-Dose CT", IEEE TRANSACTIONS ON MEDICAL IMAGING, vol. 36, no. 12, JPN6021044229, 26 May 2017 (2017-05-26), pages 2536 - 2545, XP055504104, ISSN: 0004636496, DOI: 10.1109/TMI.2017.2708987 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021120814A (ja) * | 2020-01-30 | 2021-08-19 | 富士通株式会社 | 学習プログラム、学習方法、及び情報処理装置 |
JP7333520B2 (ja) | 2020-01-30 | 2023-08-25 | 富士通株式会社 | 学習プログラム、学習方法、及び情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20210117733A1 (en) | 2021-04-22 |
WO2020003533A1 (en) | 2020-01-02 |
JP7028345B2 (ja) | 2022-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7028345B2 (ja) | パタン認識装置、パタン認識方法、及びプログラム | |
JP6904483B2 (ja) | パターン認識装置、パターン認識方法、及びパターン認識プログラム | |
JP7367862B2 (ja) | ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム | |
JP6620882B2 (ja) | ドメイン適応を用いたパターン認識装置、方法およびプログラム | |
WO2019220620A1 (ja) | 異常検出装置、異常検出方法及びプログラム | |
JP6729804B2 (ja) | パターン認識装置、方法及びプログラム | |
US10262680B2 (en) | Variable sound decomposition masks | |
KR20160102815A (ko) | 잡음에 강인한 오디오 신호 처리 장치 및 방법 | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JPWO2019215904A1 (ja) | 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム | |
JP7211501B2 (ja) | データ変換装置、パターン認識システム、データ変換方法及びデータ変換プログラム | |
Kim et al. | Ada-vad: Unpaired adversarial domain adaptation for noise-robust voice activity detection | |
JP2009134466A (ja) | 認識処理装置、方法及びコンピュータプログラム | |
US20200019875A1 (en) | Parameter calculation device, parameter calculation method, and non-transitory recording medium | |
JP2017134197A (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
ES2536560T3 (es) | Método para descubrir y reconocer patrones | |
US11297418B2 (en) | Acoustic signal separation apparatus, learning apparatus, method, and program thereof | |
Gribonval | From projection pursuit and CART to adaptive discriminant analysis? | |
JP5683287B2 (ja) | パターン認識装置及びパターン認識方法 | |
JPWO2015093025A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
WO2020089983A1 (en) | Recognition apparatus, recognition method, and computer-readable recording medium | |
US11869492B2 (en) | Anomaly detection system and method using noise signal and adversarial neural network | |
JP5647159B2 (ja) | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム | |
JP2018013683A (ja) | 音声区間検出装置、音声区間検出方法、及びプログラム | |
US20220375489A1 (en) | Restoring apparatus, restoring method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220131 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7028345 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |