JP6729804B2 - パターン認識装置、方法及びプログラム - Google Patents

パターン認識装置、方法及びプログラム Download PDF

Info

Publication number
JP6729804B2
JP6729804B2 JP2019521169A JP2019521169A JP6729804B2 JP 6729804 B2 JP6729804 B2 JP 6729804B2 JP 2019521169 A JP2019521169 A JP 2019521169A JP 2019521169 A JP2019521169 A JP 2019521169A JP 6729804 B2 JP6729804 B2 JP 6729804B2
Authority
JP
Japan
Prior art keywords
feature vector
feature
class
pattern recognition
denoising
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019521169A
Other languages
English (en)
Other versions
JP2019532439A (ja
Inventor
シワンギ マハト
シワンギ マハト
山本 仁
山本  仁
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2019532439A publication Critical patent/JP2019532439A/ja
Application granted granted Critical
Publication of JP6729804B2 publication Critical patent/JP6729804B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は、パターン認識の為の装置、方法、及び媒体に関する。
パターン認識は、安全、監視、電子商取引等の日々の応用を含む、生活の様々な分野で広く用いられてきている。更に、パターン認識は、農業、工学、科学、及び、軍事や国家安全保障の様な重要課題などの、技術的応用に用いられてきている。
パターン認識システムの過程は、大まかに2つのステップに分類することが出来る。第1のステップは、入力信号の特徴を抽出する特徴抽出である。第2のステップは、抽出された特徴を入力信号に対応する(複数の)クラスに分類する分類である。
パターン認識システムは、クラスに対応する特徴を学習し、学習した特徴を用いてその分類器を訓練する。頑強なパターン認識の為には、1つのクラスに対応する特徴は、互いに類似しているべきであり、異なるクラスに対応する特徴は、可能な限り異なっているべきである。技術用語では、同じクラスに対応する特徴は、クラス内共分散と呼ばれる分散の低い値を持つべきであり、異なるパターンに属する特徴は、クラス間分散と呼ばれる分散の高い値を持つべきであると言うことが出来る。
現実世界に生じうる雑音(例えば、背景雑音、短期間及びチャンネル歪)は、特徴抽出及び分類の過程の性能にしばしば影響を与える。様々な雑音が原因で、特徴は改変されることがあり、クラス間分散と比較して小さいクラス内分散という期待される特性はかなえることが出来ない。
上述の期待される特性を保持する1つの方法は、以下の通りである。その方法とは、多次元の場合のクラス内分散または共分散を、特徴を別の特徴空間へ変換することによって、クラス間共分散と比較して出来るだけ小さくすることである。
特徴変換は、雑音によって引き起こされる入力信号の歪に起因する、特徴空間に於いて増大するクラス内分散、及び/又は減少するクラス間分散の問題に対処する。特徴変換は、抽出された特徴に分類の前に適用されてきているが、この分類に於いては、望まれる変換後の特徴空間が、クラス間分散と比較して小さな特徴のクラス内分散を持つ。
線形判別分析は、特徴変換によってクラス内分散をより小さくする為のよく知られた古典的な方法である。ニューラルネットワークを用いて、クラス内共分散の最小化かクラス間共分散の最大化の何れかに重点を置く、特徴変換の新たな方法もある。
この方法の為の従来技術のパターン認識装置700が、図7に示す様に非特許文献2に開示されている。パターン認識装置700は、特徴変換器710、目的関数計算機730、パラメーター更新器740、及び記憶装置750を含む。
訓練段階に於いては、特徴変換器710は、雑音重畳特徴ベクトルを入力として取り込み、それらを雑音除去特徴ベクトルに変換するデノイジングオートエンコーダの機能を実行する。目的関数計算機730は、クリーン特徴ベクトルと雑音除去特徴ベクトルとを読み込む。目的関数計算機730は、雑音除去特徴ベクトルとクリーン特徴ベクトルとの間の平均2乗誤差から、変換コストを計算する。パラメーター更新器740は、コストの最小化に従い特徴変換器710(デノイジングオートエンコーダ)のパラメーターを更新する。パターン認識装置700のこの過程は、収束まで続けられる。アルゴリズムの収束後、パラメーター更新器740は、特徴変換器710(デノイジングオートエンコーダ)のパラメーターと構造とを、記憶装置750に記憶する。
試験段階に於いては、特徴変換器710は、記憶装置750から構造とパラメーターとを読み込み、テスト特徴ベクトルを読み込み、それらを処理して雑音除去特徴ベクトルを出力する。
特徴変換を扱う従来技術のもう一つのパターン認識装置800が、図8に示す様に非特許文献1に開示されている。パターン認識装置800は、分類器820、目的関数計算機830、パラメーター更新器840、記憶装置850、及び特徴抽出器860を含む。
訓練段階に於いては、分類器820は、訓練特徴ベクトルを受け取り、そのクラスラベルを推定する。目的関数計算機830は、元の特徴ベクトルラベルと推定されたクラスラベルとを読み込む。目的関数計算機830は、元のラベルと推定されたクラスラベルとの間の分類誤差から、分類コストを計算する。パラメーター更新器840は、コストの最小化に従い分類器820のパラメーターを更新する。パターン認識装置800のこの過程は、収束まで続けられる。収束後、パラメーター更新器840は、分類器820のパラメーターを記憶装置850に記憶する。
試験段階に於いては、特徴抽出器860は、分類器820の隠れ層の構造とパラメーターとを読み込み、テスト特徴ベクトルを読み込み、最終隠れ層の出力を取り出すことによってボトルネック特徴ベクトルを生成する。
第1の方法(非特許文献2)は、特徴のクラス内共分散を最小化するデノイジングオートエンコーダを用いた、特徴ベクトルの雑音除去に重点を置く。第2の方法(非特許文献1)は、基本的にクラス間共分散の最大化を狙う、変換された特徴ベクトルの多層パーセプトロンからのボトルネック特徴ベクトルを用いることによって、弁別性基準を繰り返し教えることを強調する。パーセプトロンは、Rosenblattによって1958年に開発されたパターン認識機械の1つである。
上述の方法は、クラス内共分散の最小化か、クラス間共分散の最大化かのいずれかを狙うものである。
上述の方法以外に、(特許文献1、特許文献2、及び非特許文献3を参照すると)パターン認識の為のいくつかの方法がある。特許文献1には、散乱度を用いることによりパターン認識を行う為の学習装置が開示されている。特許文献2には、特徴を強調するパラメーターが用いられるパターン認識方法が開示されている。非特許文献3には、話者認識の方法が開示されている。
特開2007−018176号公報 特開1996−106295号公報
Is,(s cedilla)ik, Yusuf Ziya, Hakan Erdogan, and Ruhi Sarikaya. "S-vector: A discriminative representation derived from i-vector for speaker verification." Signal Processing Conference (EUSIPCO), 2015 23rd European. IEEE, 2015. H. Novoselov, Sergey, et al. "Non-linear PLDA for i-Vector Speaker Verification." ISCA Interspeech (2015). Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing, Volume 19, Issue4 (May 2011), pp. 788-798
非特許文献1及び非特許文献2は、クラス内共分散とクラス間共分散とに同時には対処しない。デノイジングオートエンコーダは、クラス間共分散基準を明確には維持しない。多層パーセプトロンは、クラス内共分散の最小化は強調しない。従って、雑音試験特徴の場合、変換された特徴空間に於いて、クラス内共分散がクラス間共分散と比較して小さくなるかどうかは不確かである。特に、デノイジングオートエンコーダか多層パーセプトロンのボトルネック特徴かの何れかを適用した後では、上記は不確かである。これが、低い分類精度に繋がる。
非特許文献1と非特許文献2には、分類精度が低下するという問題がある。
特許文献1、特許文献2、及び非特許文献3は、非特許文献1或いは非特許文献2に開示されたコストを考慮していない。特許文献1、特許文献2、及び非特許文献3は、特許文献1及び特許文献2の上記の問題を解決しない。
本発明の目的は、上述の問題を解決して分類精度を向上させるパターン認識装置、方法及び媒体を提供することである。
本発明の一態様に係るパターン認識装置は、雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する特徴変換手段と、前記雑音除去特徴ベクトルをそれらが対応するクラスに分類してクラスを推定する分類手段と、雑音除去特徴ベクトルと、前記クリーン特徴ベクトルと、推定された前記クラスと、特徴ベクトルラベルと、を用いてコストを計算する目的関数計算手段と、前記コストに従い前記特徴変換手段のパラメーターを更新するパラメーター更新手段と、を含む。
本発明の一態様に係るパターン認識方法は、雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換し、前記雑音除去特徴ベクトルをそれらが対応するクラスに分類してクラスを推定し、前記雑音除去特徴ベクトルと、クリーン特徴ベクトルと、推定された前記クラスと、特徴ベクトルラベルと、を用いてコストを計算し、前記コストに従い前記特徴変換手段のパラメーターを更新する。
本発明の一態様に係るコンピューター読み取り可能な媒体は、プログラムを含む。前記プログラムは、パターン認識装置に方法を実行させる。前記方法は、雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換し、雑音除去特徴ベクトルをそれらが対応するクラスに分類してクラスを推定し、前記雑音除去特徴ベクトルと、前記クリーン特徴ベクトルと、推定された前記クラスと、特徴ベクトルラベルと、を用いてコストを計算し、前記コストに従い前記特徴変換手段のパラメーターを更新する。
本発明により、分類精度を向上させる効果を提供することができる。
図面は、詳細な説明とともに、本発明の原理を説明する為に役立つ。図面は、説明の為のものであり、技術の適用を限定するものではない。
図1は、本発明の第1の実施形態によるパターン認識装置を説明するブロック図である。 図2は、本発明の第2の実施形態のパターン認識装置を説明するブロック図である。 図3は、訓練段階に於ける本発明の第1の実施形態によるパターン認識装置の動作の一例を説明するフローチャートである。 図4は、訓練段階に於ける本発明の第2の実施形態の動作の一例を説明するフローチャートである。 図5は、試験段階に於ける本発明の第1の実施形態によるパターン認識装置の動作の一例を説明するフローチャートである。 図6は、試験段階に於ける本発明の第2の実施形態の動作の一例を説明するフローチャートである。 図7は、従来技術1の構成のブロック図である。 図8は、従来技術2の構成のブロック図である。 図9は、本発明の第1から第2迄の実施形態によるパターン認識装置のハードウェア構成を説明するブロック図である。 図10は、本発明の第1から第2迄の実施形態によるパターン認識装置の概略構成を説明するブロック図である。
以下、本発明の実施形態を詳細に説明する。本発明の実施を完全に詳細に説明する。説明図と共に、ここで提供される説明は、当業者が本発明を実施する為の確かな案内を提供する為のものである。
<第1の実施形態>
図1は、本発明の第1の実施形態によるパターン認識装置100を説明するブロック図である。図1は、2つの段階、即ち、訓練段階と試験段階とを説明する。それぞれの段階を後に詳細に説明する。
図1を参照すると、パターン認識装置100は、特徴変換器110、分類器120、目的関数計算機130、パラメーター更新器140、及び記憶装置150を含む。
訓練段階に於いては、特徴変換器110、分類器120、目的関数計算機130、パラメーター更新器140、及び記憶装置150が、それらの過程を実行する。目的関数計算機130は、変換誤差と分類誤差との結合関数としてコストを計算する。記憶装置150は、特徴変換器110のパラメーターを記憶する。
試験段階に於いては、特徴変換器110、及び記憶装置150が、それらの過程を実行する。
訓練段階に於いては、特徴変換器110は、雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する。
分類器120は、雑音除去特徴ベクトルを特徴変換器110から受け取り、対応するクラスにそれらを分類する。分類器130は、サポートベクターマシンやニューラルネットワーク等のどの様な分類器であってもよい。
目的関数計算機130は、変換誤差と分類誤差との重み付け平均としてコストを計算する。変換誤差は、雑音除去特徴ベクトルをクリーン特徴ベクトルと共に用いて計算される。分類誤差は、雑音重畳特徴ベクトルの推定されたクラスをクラスの特徴ベクトルラベルと共に用いて計算される。例えば、目的関数計算機130は、変換誤差と分類誤差とを加算することでコストを計算する加算器を含んでもよい。
目的関数計算機130は、コストの様々な等式を用いてもよい。1つの例は次の数式1である。
数式1
Figure 0006729804

ここで、xはクリーン特徴ベクトルである。zは雑音除去特徴ベクトルである。wsは総数Nクラスのうちの出力クラスsに対応する重みである。Dはxとzの次元である。Cはスカラー定数である。αは変換誤差の定数重みである。Nはクラスの数である。Tは訓練データサンプルの数である。||・||2 2は2−ノルムの二乗である。最大化(max i≠sj (w i≠sj ))に於いて:
a.sjはj番目の訓練サンプルが属するクラスであり、システムへの与えられた入力として既知のデータである。
b.iは(wizj)の最大値を与えるsを除く全ての可能なNクラスの中のクラスを意味する。(wizj)はwiとzjとの間の演算である。wiとzjとの間の演算は内積である。
c.パラメーター更新器(d)はiを決定する。
上記の数式1に於いて、第1項は変換誤差である。変換誤差は、提案する実施形態の図の特徴変換器要素から来る。更に、変換誤差は2−ノルムの和である。即ち、変換誤差は平均2乗誤差である。平均2乗誤差は、期待値と推定値との間の誤差の2乗の平均値である。例えば、以下のコサイン距離の様な何れの種類の距離尺度であっても変換誤差として適用することが出来る。
コサイン距離
Figure 0006729804

ここで、演算子'(xz)'は雑音除去特徴ベクトルzと、対応するクリーン特徴ベクトルxとの間の内積を表し、演算子(||x||)はベクトルxの大きさを表す。
分類誤差はマージン誤差であるが、以下の交差エントロピーの様な何れの分類誤差であってもよい。
Figure 0006729804

ここで、lは入力特徴ベクトルが対応する特定のクラスを示す。oは分類器120によって推定された、推定されたラベルのクラスを示す。oは理想的には入力特徴ベクトルのlと等しくあるべきである。注目すべきは、それぞれのラベルはスカラー値であり、それぞれのクラスに指定されていることである。即ち、lとoとはスカラー値である。更に、対数の底は何れの値も取り得る。例えば、対数は自然対数であってもよい。
特徴変換器110はデノイジングオートエンコーダとすることが出来る。特徴変換器110のパラメーターは、zに含まれている。
パラメーター更新器140は、バックプロパゲーション等の一般的な数値的手法を用いて最小化されるコストに従い、特徴変換器110及び分類器120のパラメーターを更新する。パターン認識装置100のこの過程は、コストがそれ以上低減出来ない収束まで続けられる。収束後、パラメーター更新器140は、訓練された特徴変換器110のパラメーターを記憶装置150に記憶する。パラメーター更新器140或いは特徴変換器110は、特徴変換器110の構造を記憶してもよい。
試験段階に於いては、特徴変換器110は、記憶装置150からパラメーターを読み込む。次に、そのパラメーターを用いて、特徴変換器110は、テスト特徴ベクトルを入力として読み込み、雑音除去特徴ベクトルを出力として生成する。特徴変換器110の構造が記憶されているときは、特徴変換器110は、パラメーターを読み込むのと同時にその構造を読み込んでもよい。
例えば顔認識の場合には、クラスは個人の識別子(ID)であり、特徴ベクトルは、目、鼻、等の座標である。認識システムが無雑音画像で訓練されたものの、認識されるべき画像が不鮮明であると、これらの画像は適切に認識されない。これらの不鮮明な画像は、パターン認識システムの訓練に用いられた無雑音画像から抽出された特徴と比較して、特徴空間に於いて雑音特徴を生成する。
特徴変換器110は、不鮮明な画像に対応する雑音重畳特徴ベクトルを読み込み、雑音除去特徴ベクトルを生成する。
例えば話者認識の場合には、非特許文献3に示される様に、クラスはやはり話者のIDであり、特徴ベクトルは、音声信号に含まれる音素から抽出されたi-ベクトルである。システムが雑音環境で録音された音声信号に適用されるときは、システムは、雑音の無い音声信号から抽出された雑音の無いi-ベクトルで訓練されたものの、雑音が含まれたi-ベクトルを話者の特徴として読み込む。
特徴変換器110は、雑音が含まれたi-ベクトルを雑音の無いi-ベクトルに変換するが、それは話者を認識する標準的なパターン認識システムに於いてさらに用いられる。
図3は、訓練段階に於ける本発明の第1の実施形態によるパターン認識装置100の動作の一例を説明するフローチャートである。
最初に、特徴変換器110は、雑音重畳特徴ベクトルを読み込み、雑音除去特徴ベクトルを推定する(A01)。即ち、特徴変換器110は、雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する。
分類器120は、雑音除去特徴ベクトルを受け取る。分類器120は、雑音除去特徴ベクトルのクラスラベルを推定する(A02)。即ち、分類器120は、雑音除去特徴ベクトルを対応するクラスに分類する。
目的関数計算機130は、雑音除去特徴ベクトルとクリーン特徴ベクトルとの間の変換誤差を計算する(A03)。
次に、目的関数計算機130は、推定されたクラスラベルと特徴ベクトルラベル(元のラベル)との間の分類誤差を計算する(A04)。
目的関数計算機130は、変換誤差と分類誤差とを用いてコストを計算する(A05)。
パラメーター更新器140は、コストに従い特徴変換器110及び分類器120のパラメーターを更新する(A06)。
この過程は、コストがそれ以上低減出来ない収束まで続けられる(A07)。
収束後、パラメーター更新器140は、特徴変換器110のパラメーターを記憶装置150に記憶する(A08)。この時点で、特徴変換器110のパラメーターが訓練される。その結果、特徴変換器110が訓練される。
パターン認識装置100は、ステップA03をA02の前に行うことが出来る。なぜなら、ステップA01からステップA02までの動作は、ステップA03からステップA04までの動作とは独立に実行することが出来るからである。
図5は、試験段階に於ける本発明の第1の実施形態によるパターン認識装置100の動作の一例を説明するフローチャートである。
最初に、特徴変換器110は、記憶装置150からパラメーターを読み込む(C01)。
次に、特徴変換器110は、テスト特徴ベクトルを入力として読み込み、それらを、パラメーターを用いて、雑音除去特徴ベクトルに出力として変換する(C02)。雑音除去特徴ベクトルは、適切なクラスに分類される為に、次に分類器に与えられてもよい。
パターン認識装置100は、分類精度を向上させる効果を有する。
これは以下の理由による。特徴変換器110は、雑音除去特徴ベクトルを推定する。分類器120は、雑音除去特徴ベクトルのクラスラベルを推定する。目的関数計算機130は、変換誤差と分類誤差とを計算し、変換誤差と分類誤差とを用いてコストを計算する。次に、パラメーター更新器140は、コストに従い特徴変換器110のパラメーターを更新する。分類誤差はクラス共分散と関係する。即ち、パターン認識装置100は、クラス共分散を維持する。
入力信号の歪に対処する為には、雑音に対して頑強なパターン認識システムが非常に重要である。雑音やその他の要因による入力信号の歪は、特徴空間に於いてクラス間共分散と比較して大きなクラス内共分散の原因となることがあり、それがパターン認識精度の悪化をもたらす。よいパターン認識の為の特徴の重要な特性の1つは、クラス間共分散と比較して小さなクラス内共分散を持つことである。
非特許文献1及び非特許文献2には、特徴変換の取り組みが存在する。非特許文献1及び非特許文献2は、問題を解決しようとしているが、以下の様ないくつかの欠点を負っている。それらは、クラス内共分散とクラス間共分散とを同時には最適化しない。パターン認識システムの多くの現実の適用に於いては、入力信号は雑音を有する。結果として、入力信号を含むパターン認識システムは、大きなクラス内共分散と大きなクラス間共分散とを有しうる。それ故に、何れか1つの共分散の最適化に専心するのみでは、問題を解決することは出来ない。
雑音が含まれた入力信号について、クラス間共分散と比較してクラス内共分散を小さく維持するという課題に取り組むのは重要である。本実施形態は、抽出された雑音重畳特徴ベクトルを別の空間(クラス)に変換することが出来る。この動作は、特徴からの雑音除去誤差と特徴分類誤差との合同最小化によって実行され、それは、クラス内共分散の最小化とクラス間共分散の最大化とを同時に強調するものである。それで、本実施形態は、変換誤差と分類誤差とによるコストを最小化する。
この様に、パラメーター更新器140が特徴変換器110のパラメーターを更新するので、パターン認識装置100は分類精度を向上させる。更に、パターン認識装置100は、変換誤差と分類誤差とによるコストを用いることによって、上述の動作を実行する。
<第2の実施形態>
図2は、本発明の第2の実施形態によるパターン認識装置200を説明するブロック図である。
図2を参照すると、パターン認識装置200は、特徴変換器210、分類器220、目的関数計算機230、パラメーター更新器240、記憶装置250、及び記憶装置260を含む。
訓練段階に於いては、特徴変換器210、分類器220、目的関数計算機230、パラメーター更新器240、記憶装置250、及び記憶装置260が、それらの過程を実行する。目的関数計算機230は、変換誤差と分類誤差との結合関数としてコストを計算する。
試験段階に於いては、特徴変換器210、分類器220、記憶装置250、及び記憶装置260が、それらの過程を実行する。
訓練段階に於いては、特徴変換器210は、入力された雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する。
分類器220は、雑音除去特徴ベクトルを受け取り、対応するクラスにそれらを分類する。
目的関数計算機230は、変換誤差と分類誤差とを用いてコストを計算する。変換誤差は、雑音除去特徴ベクトルをクリーン特徴ベクトルと共に用いて計算される。分類誤差は、雑音重畳特徴ベクトルの推定されたクラスを特徴ベクトルラベル(クラスの元のラベル)と共に用いて計算される。
パラメーター更新器240は、コストが最小化される様に、コストに従い特徴変換器210及び分類器220のパラメーターを更新する。この過程は、コストがそれ以上低減出来ない収束まで続けられる。
収束後、記憶装置250は、訓練された特徴変換器210のパラメーターを記憶する。記憶装置260は、分類器220のパラメーターを記憶する。パラメーター更新器240或いは特徴変換器210は、特徴変換器210の構造を記憶装置250に記憶してもよい。パラメーター更新器240或いは分類器220は、分類器220の構造を記憶装置260に記憶してもよい。記憶装置250及び記憶装置260は、同じ記憶装置を用いて実現されてもよい。
試験段階に於いては、特徴変換器210は、記憶装置250からパラメーターを読み込む。次に、そのパラメーターを用いて、特徴変換器210は、テスト特徴ベクトルを入力として読み込み、雑音除去特徴ベクトルを出力として生成する。特徴変換器210の構造が記憶されているときは、特徴変換器210は、パラメーターを読み込むのと同時にその構造を読み込んでもよい。
次に、分類器220は、記憶装置260からパラメーターを読み込む。そのパラメーターを用いて、分類器220は、雑音除去特徴ベクトルを入力として読み込み、特徴ベクトルのクラスを出力として推定する。分類器220の構造が記憶されているときは、分類器220は、パラメーターを読み込むのと同時にその構造を読み込んでもよい。
図4は、訓練段階に於ける本発明の第2の実施形態によるパターン認識装置200の動作の一例を説明するフローチャートである。
最初に、特徴変換器210は、雑音重畳特徴ベクトルを読み込み、雑音除去特徴ベクトルを推定する(B01)。即ち、特徴変換器210は、雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する。
分類器220は、雑音除去特徴ベクトルを受け取る。分類器220は、雑音除去特徴ベクトルのクラスラベルを推定する(B02)。即ち、分類器220は、雑音除去特徴ベクトルを対応するクラスに分類する。
目的関数計算機230は、雑音除去特徴ベクトルとクリーン特徴ベクトルとの間の変換誤差を計算する(B03)。
次に、目的関数計算機230は、推定されたクラスラベルと特徴ベクトルラベル(元のラベル)との間の分類誤差を計算する(B04)。
目的関数計算機230は、変換誤差と分類誤差とを用いてコストを計算する(B05)。
パラメーター更新器240は、コストに従い特徴変換器210及び分類器220のパラメーターを更新する(B06)。
この過程は、コストがそれ以上低減出来ない収束まで続けられる(B07)。
収束後、パラメーター更新器240は、特徴変換器210及び分類器220のパラメーターを記憶装置250及び記憶装置260にそれぞれ記憶する(B08)。この時点で、特徴変換器210及び分類器220のパラメーターが訓練される。その結果、特徴変換器210及び分類器220が訓練される。
図6は、試験段階に於ける本発明の第2の実施形態によるパターン認識装置200の動作の一例を説明するフローチャートである。
最初に、特徴変換器210は、記憶装置250からパラメーターを読み込む(D01)。
次に、特徴変換器210は、テスト特徴ベクトルを入力として読み込み、それらを、雑音除去特徴ベクトルに出力として変換する(D02)。
分類器220は、記憶装置260からパラメーターを読み込む(D03)。
次に、分類器220は、雑音除去特徴ベクトルを入力として読み込み、特徴ベクトルのクラスを出力として推定する(D04)。
パターン認識装置200は、分類精度を向上させる効果を有する。
これは以下の理由による。特徴変換器210は、雑音除去特徴ベクトルを推定する。分類器220は、雑音が除去された特徴ベクトルのクラスラベルを推定する。目的関数計算機230は、変換誤差と分類誤差とを計算し、変換誤差と分類誤差とを用いてコストを計算する。次に、パラメーター更新器240は、コストに従い特徴変換器210のパラメーターを更新する。分類誤差はクラス共分散と関係する。即ち、パターン認識装置200は、クラス共分散を維持する。
<ハードウェア>
第1から第2までの実施形態によるパターン認識装置100及びパターン認識装置200は、以下に示す様に構成される。
例えば、パターン認識装置100及びパターン認識装置200のそれぞれの構成要素は、ハードウェア回路で構成されてもよい。
或いは、パターン認識装置100及び200に於いて、それぞれの構成要素は、ネットワークを通じて接続された複数の装置を用いて構成されてもよい。
或いは、パターン認識装置100及び200に於いて、複数の構成要素が1つのハードウェアによって構成されてもよい。
或いは、パターン認識装置100及び200は、中央処理装置(CPU)、読み出し専用メモリー(ROM)、及びランダムアクセスメモリー(RAM)を含む計算機装置として実現されてもよい。更に、パターン認識装置100及び200は、上述の構成要素に加えて、入出力回路(IOC)及びネットワークインタフェース回路(NIC)を含む計算機装置として実現されてもよい。
図9は、パターン認識装置100及び200としての情報処理装置600のハードウェア構成の一例を示すブロック図である。
情報処理装置600は、計算機装置を構成する、CPU610、ROM620、RAM630、内部記憶装置640、IOC650、及びNIC680を含む。
CPU610は、ROM620からプログラムを読み出す。次に、CPU610は、読まれたプログラムに基づいて、RAM630、内部記憶装置640、IOC650、及びNIC680を制御する。次に、CPU610を含む計算機装置は構成要素を制御し、図1から図2迄に示されるそれぞれの構成要素としてのそれぞれの機能を実現する。
それぞれの機能を実現するときに、CPU610は、プログラムの一時的な記憶装置として、RAM630或いは内部記憶装置640を用いてもよい。
或いは、CPU610は、図に示されない記憶媒体読み取り装置を用いて、計算機読み取り可能な様にプログラムを記憶する記憶媒体690に含まれるプログラムを読み出してもよい。或いは、CPU610は、NIC680を通じて、図に示されない外部装置からプログラムを受け取り、RAM630にプログラムを記憶し、記憶されたプログラムに基づいて動作する。
ROM620は、CPU610で実行されるプログラム、及び固定データを記憶する。ROM620は、例えば、プログラマブルROM(P−ROM)、或いはフラッシュROMである。
RAM630は、CPU610で実行されるプログラム、及びデータを一時的に記憶する。RAM630は、例えば、ダイナミックRAM(D−RAM)である。
内部記憶装置640は、情報処理装置600が長期間記憶するデータとプログラムとを記憶する。更に、内部記憶装置640は、CPU610の一時的な記憶装置として動作してもよい。内部記憶装置640は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(半導体ドライブ)、或いはディスクアレイ装置である。
ここで、ROM620及び内部記憶装置640は、不揮発性記憶媒体である。一方、RAM630は揮発性記憶媒体である。CPU610は、ROM620、内部記憶装置640、或いはRAM630が記憶するプログラムに基づいて実行可能である。即ち、CPU610は、不揮発性記憶媒体或いは揮発性記憶媒体を用いて実行可能である。
IOC650は、CPU610と入力装置660との間で、及びCPU610と表示装置670との間で、データを取り次ぐ。IOC650は、例えば、入出力インタフェースカード、或いはUSB(ユニバーサル・シリアル・バス)カードである。
入力装置660は、情報処理装置600の操作者から入力指示を受け取る装置である。入力装置660は、例えば、キーボード、マウス、或いはタッチパネルである。
表示装置670は、情報処理装置600の操作者の為の情報を表示する装置である。表示装置670は、例えば、液晶表示装置である。
NIC680は、ネットワークを通じて、図に表示されない外部装置とのデータ通信を中継する。NIC680は、例えば、ローカルエリア・ネットワーク(LAN)カードである。
この様に構成された情報処理装置600は、パターン認識装置100及び200と同じ効果を上げることが出来る。
その理由は、情報処理装置600のCPU610は、プログラムに基づきパターン認識装置100及び200と同じ機能を実現出来るからである。
<実施形態の概略>
以下、本発明の実施形態の概略を説明する。図10は、本発明の第1及び第2の実施形態のパターン認識装置300の概略を説明するブロック図である。
図10を参照すると、パターン認識装置300は、特徴変換器310、分類器320、目的関数計算機330、及びパラメーター更新器340を含む。
特徴変換器310は、雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する。
分類器320は、雑音除去特徴ベクトルを対応するクラスに分類し、クラスを推定する。
目的関数計算機330は、雑音除去特徴ベクトルと、クリーン特徴ベクトルと、推定されたクラスと、特徴ベクトルラベルと、を用いてコストを計算する。
パラメーター更新器340は、コストに従い、特徴変換器310のパラメーターを更新する。
パターン認識装置300は、パターン認識装置100及びパターン認識装置200の様に、分類精度を向上させる効果を有する。これは、パターン認識装置300の構成要素が、パターン認識装置100及びパターン認識装置200の構成要素と同じ動作を実行する為である。
本発明は、それについての実施形態を参照して特に示され説明されたが、本発明はこれらの実施形態に限定されるものではない。特許請求の範囲に定義された本発明の精神や範囲から離れることなく、そこに様々な外形や詳細の変更をしてもよいことは当業者には理解されよう。
100 パターン認識装置
110 特徴変換器
120 分類器
130 目的関数計算機
131 変換誤差
132 分類誤差
133 コスト
134 加算器
140 パラメーター更新器
150 記憶装置
200 パターン認識装置
210 特徴変換器
220 分類器
230 目的関数計算機
240 パラメーター更新器
250 記憶装置
260 記憶装置
300 パターン認識装置
310 特徴変換器
320 分類器
330 目的関数計算機
340 パラメーター更新器
600 情報処理装置
610 CPU
620 ROM
630 RAM
640 内部記憶装置
650 IOC
660 入力装置
670 表示装置
680 NIC
690 媒体
700 パターン認識装置
710 特徴変換器
730 目的関数計算機
740 パラメーター更新器
750 記憶装置
800 パターン認識装置
820 分類器
830 目的関数計算機
840 パラメーター更新器
850 記憶装置
860 特徴抽出器

Claims (10)

  1. 雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する特徴変換手段と、
    前記雑音除去特徴ベクトルをそれらが対応するクラスに分類してクラスを推定する分類手段と、
    前記雑音除去特徴ベクトルと、クリーン特徴ベクトルと、推定された前記クラスと、特徴ベクトルラベルと、を用いてコストを計算する目的関数計算手段と、
    前記コストに従い前記特徴変換手段のパラメーターを更新するパラメーター更新手段と、を備えるパターン認識装置。
  2. 前記特徴変換手段が、前記特徴変換手段の更新された前記パラメーターを用いて、テスト特徴ベクトルを前記雑音除去特徴ベクトルに変換する、請求項1に記載のパターン認識装置。
  3. 前記パラメーター更新手段が、前記分類手段のパラメーターを更新し、前記分類手段が、前記分類手段の更新された前記パラメーターを用いて分類を行う、請求項2に記載のパターン認識装置。
  4. 前記目的関数計算手段が、前記雑音除去特徴ベクトルと前記クリーン特徴ベクトルとの間の変換誤差、及び、前記雑音重畳特徴ベクトルの推定された前記クラスと当該クラスの特徴ベクトルラベルとの間の分類誤差を用いて前記コストを計算する、請求項1から3の何れか1項に記載の装置。
  5. 前記特徴変換手段がデノイジングオートエンコーダである、請求項1から4の何れか1項に記載の装置。
  6. 前記分類手段がサポートベクターマシン或いはニューラルネットワークである、請求項1から5の何れか1項に記載の装置。
  7. 前記変換誤差が平均2乗誤差或いはコサイン距離である、請求項4に記載の装置。
  8. 前記分類誤差が交差エントロピー或いはマージン誤差である、請求項4に記載の装置。
  9. 雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する特徴変換を行い
    前記雑音除去特徴ベクトルをそれらが対応するクラスに分類してクラスを推定し、
    前記雑音除去特徴ベクトルと、クリーン特徴ベクトルと、推定された前記クラスと、特徴ベクトルラベルと、を用いてコストを計算し、
    前記コストに従い前記特徴変換のパラメーターを更新する
    パターン認識方法。
  10. 音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する特徴変換処理と
    前記雑音除去特徴ベクトルをそれらが対応するクラスに分類してクラスを推定する分類処理と
    前記雑音除去特徴ベクトルと、クリーン特徴ベクトルと、推定された前記クラスと、特徴ベクトルラベルと、を用いてコストを計算する目的関数計算処理と
    前記コストに従い前記特徴変換処理のパラメーターを更新するパラメーター更新処理と、
    コンピュータに実行させるプログラム
JP2019521169A 2016-10-25 2016-10-25 パターン認識装置、方法及びプログラム Active JP6729804B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/081510 WO2018078712A1 (en) 2016-10-25 2016-10-25 Pattern recognition apparatus, method and medium

Publications (2)

Publication Number Publication Date
JP2019532439A JP2019532439A (ja) 2019-11-07
JP6729804B2 true JP6729804B2 (ja) 2020-07-22

Family

ID=62023207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019521169A Active JP6729804B2 (ja) 2016-10-25 2016-10-25 パターン認識装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20190244064A1 (ja)
JP (1) JP6729804B2 (ja)
WO (1) WO2018078712A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7079445B2 (ja) * 2018-09-25 2022-06-02 本田技研工業株式会社 モデルパラメータ学習装置、制御装置及びモデルパラメータ学習方法
US11210673B2 (en) * 2019-05-29 2021-12-28 Advanced New Technologies Co., Ltd. Transaction feature generation
US20210192318A1 (en) * 2019-12-23 2021-06-24 Dts, Inc. System and method for training deep-learning classifiers
JP7504601B2 (ja) * 2020-01-28 2024-06-24 株式会社東芝 信号処理装置、信号処理方法およびプログラム
JP7435883B1 (ja) 2023-06-09 2024-02-21 富士電機株式会社 ノイズ除去付き予測装置、ノイズ除去付き予測方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102288280B1 (ko) * 2014-11-05 2021-08-10 삼성전자주식회사 영상 학습 모델을 이용한 영상 생성 방법 및 장치

Also Published As

Publication number Publication date
WO2018078712A1 (en) 2018-05-03
JP2019532439A (ja) 2019-11-07
US20190244064A1 (en) 2019-08-08

Similar Documents

Publication Publication Date Title
JP6729804B2 (ja) パターン認識装置、方法及びプログラム
JP7028345B2 (ja) パタン認識装置、パタン認識方法、及びプログラム
Gupta et al. Feature extraction using MFCC
Guo et al. Edge effect elimination in single-mixture blind source separation
Lee et al. Many-to-many voice conversion using conditional cycle-consistent adversarial networks
Guo et al. Single-mixture source separation using dimensionality reduction of ensemble empirical mode decomposition and independent component analysis
WO2023283823A1 (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
Shon et al. Autoencoder based domain adaptation for speaker recognition under insufficient channel information
Baranwal et al. An efficient gesture based humanoid learning using wavelet descriptor and MFCC techniques
CN108898181B (zh) 一种图像分类模型的处理方法、装置及存储介质
JP6620882B2 (ja) ドメイン適応を用いたパターン認識装置、方法およびプログラム
Wang et al. Spectral-temporal receptive fields and MFCC balanced feature extraction for robust speaker recognition
Sarria-Paja et al. Fusion of bottleneck, spectral and modulation spectral features for improved speaker verification of neutral and whispered speech
Paleček et al. Audio-visual speech recognition in noisy audio environments
US10446138B2 (en) System and method for assessing audio files for transcription services
Lin et al. Domestic activities clustering from audio recordings using convolutional capsule autoencoder network
Baranwal et al. A speaker invariant speech recognition technique using HFCC features in isolated Hindi words
Shah et al. Speech recognition using spectrogram-based visual features
Das et al. Exploring kernel discriminant analysis for speaker verification with limited test data
Abel et al. A data driven approach to audiovisual speech mapping
Al-Kaltakchi et al. Closed-set speaker identification system based on MFCC and PNCC features combination with different fusion strategies
Wu Speaker recognition based on i-vector and improved local preserving projection
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
Lu et al. Video analysis using spatiotemporal descriptor and kernel extreme learning machine for lip reading
Baranwal et al. A speech recognition technique using mfcc with dwt in isolated hindi words

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190419

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R150 Certificate of patent or registration of utility model

Ref document number: 6729804

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150