JP2020086434A - 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置 - Google Patents

音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置 Download PDF

Info

Publication number
JP2020086434A
JP2020086434A JP2019158891A JP2019158891A JP2020086434A JP 2020086434 A JP2020086434 A JP 2020086434A JP 2019158891 A JP2019158891 A JP 2019158891A JP 2019158891 A JP2019158891 A JP 2019158891A JP 2020086434 A JP2020086434 A JP 2020086434A
Authority
JP
Japan
Prior art keywords
dnn
voice
voice detection
sound quality
integrated training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019158891A
Other languages
English (en)
Other versions
JP6818372B2 (ja
Inventor
フェリン キム
Hoirin Kim
フェリン キム
ヨンムン チョン
Youngmoon Jung
ヨンムン チョン
ヨンジュ チェ
Yeong-Ju Che
ヨンジュ チェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Korea Advanced Institute of Science and Technology KAIST
Original Assignee
Korea Advanced Institute of Science and Technology KAIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Korea Advanced Institute of Science and Technology KAIST filed Critical Korea Advanced Institute of Science and Technology KAIST
Publication of JP2020086434A publication Critical patent/JP2020086434A/ja
Application granted granted Critical
Publication of JP6818372B2 publication Critical patent/JP6818372B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

【課題】音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置を提供する。【解決手段】音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法は、トレーニング時に発生する内部共変量シフト現象を減少させるためにバッチ正規化を利用する段階、音質改善DNNが音声検出に必要な音声特徴を出力するようにGradient weighting技法を利用する段階及び音質改善DNNで雑音除去変分オートエンコーダを利用する段階を含む。音声検出のための統合トレーニング方法は、音質改善DNNによって音声特徴から雑音を除去するように音声特徴を変換し、雑音が除去された音声特徴を利用して音声検出DNNによって音声検出を実行する。【選択図】図1

Description

本発明は、音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置に関する。
フレームを音声または非音声に分類する過程である音声区間検出(Voice Activity Detection:VAD)は、音声コーディング、自動音声認識(Automatic Speech Recognition:ASR)、音声向上(Speech Enhancement:SE)、話者認識、および音声認識のような多様な音声アプリケーションにおける重要なモジュールである。
初期のVAD接近法のほとんどは、時間領域エネルギー、ピッチ、およびゼロクロッシング速度を含んだ原始的な音響特性を基盤としていた。既存のVAD方法のさらに他の類型としては、音声および雑音フレームの分布をDFT(Discrete Fourier Transform)領域のガウス分布にモデリングし、尤度比を使用してフレームが音声であるか否かを決定する統計モデル基盤の接近法がある。その後、VADにSVM(Support Vector Machine)およびHMM(hidden Markov Model)のような機械学習基盤方法が適用された。最近では、完全に結合されたディープニューラルネットワーク(Deep Neural Networks:DNNs)、畳み込みニューラルネットワーク(Convolutional Neural Networks:CNNs)および長・短期記憶(Long Short−Term Memory:LSTM)、反復的ニューラルネットワークのような深層的な学習アキテクチャがVADで大きな成功を収め、VADモデリングに広く普及された。
数年間の持続的な開発にもかかわらず、VADは依然として極めて低い信号対雑音比(SNR)に挑んでいる。騒然とした環境に対する確実性を向上させるためにVADに対する統合トレーニング方法が利用される。従来技術に係る音声向上と音声区間検出DNNの統合トレーニング接近法は、VADに対してより優れた結果をもたらすことが確認された。
本発明が達成しようとする技術的課題は、2つのネットワーク間にバッチ正規化レイヤを追加することによって内部共変量シフト現象を減少させ、音質改善DNNのパラメータアップデートによって音質改善DNNが音声検出を助長する特徴を出力し、VAEに雑音除去過程を取り入れるDVAEを適用した、音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置を提供することを目的とする。
一側面において、本発明で提案する音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法は、トレーニング時に発生する内部共変量シフト(internal covariate shift)現象を減少させるためにバッチ正規化(batch normalization)を利用する段階、音質改善DNN(Deep neural network)が音声検出に必要な音声特徴を出力するようにGradient weighting技法を利用する段階、および音質改善DNNで雑音除去変分オートエンコーダ(Denoising Variational Autoencoder)を利用する段階を含み、前記音声検出のための統合トレーニング方法は、音質改善DNNによって音声特徴から雑音を除去するように音声特徴を変換し、雑音が除去された音声特徴を利用して音声検出DNNによって音声検出を実行することを含む。
トレーニング時に発生する内部共変量シフト現象を減少させるためにバッチ正規化を利用する段階は、2つのネットワークを結合して統合トレーニングを実行する場合に発生する音質改善DNNの出力分布の変分を減少させるために、2つのネットワーク間にバッチ正規化レイヤを追加して不正規的な入力分布を処理することによって内部共変量シフト現象を減少させることを含む。
音質改善DNNが音声検出に必要な音声特徴を出力するようにGradient weighting技法を利用する段階は、音質改善DNNと音声検出DNNの損失関数を計算し、逆伝播法を利用して各損失関数に対する勾配を求めた後、計算された勾配を利用して2つのネットワークのパラメータをアップデートし、音質改善DNNのパラメータアップデートによって音質改善DNNの損失関数だけでなく音声検出DNNの損失関数も減らすようにトレーニングを実行し、これによって音質改善DNNによる音声検出に必要な特徴を出力することを含む。
音質改善DNNで雑音除去変分オートエンコーダを利用する段階は、エンコーダ確率分布とデコーダ確率分布の両方を対角ガウス分布として仮定し、エンコーダDNNとデコーダDNNによってそれぞれ対応する確率分布の平均およびログ分散を推定し、事前確率を等方的なガウス分布として仮定し、エンコーダ確率分布とデコーダ確率分布から潜在変数と観測変数を決定的に求め、変分下限を最大化するようにネットワークパラメータをアップデートすることを含む。
また他の一側面において、本発明で提案する音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング装置は、トレーニング時に発生する内部共変量シフト(internal covariate shift)現象を減少させるためにバッチ正規化(batch normalization)を利用する正規化部、音質改善DNN(Deep neural network)が音声検出に必要な音声特徴を出力するようにGradient weightin技法を利用する加重値部、および音質改善DNNで雑音除去変分オートエンコーダ(denoising variational autoencoder)を利用する符号化部を備え、前記音声検出のための統合トレーニング方法は、音質改善DNNによって音声特徴から雑音を除去するように音声特徴を変換し、雑音が除去された音声特徴を利用して音声検出DNNによって音声検出を実行することを含む。
本発明の実施形態によると、2つのネットワーク間にバッチ正規化レイヤを追加することによって内部共変量シフト現象を減少させることができ、音質改善DNNのパラメータアップデートによって音質改善DNNが音声検出を助長する特徴が出力され、VAEに雑音除去過程を取り入れるDVAEを適用した、音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置が提案される。
本発明の一実施形態における、音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法を説明するためのフローチャートである。 本発明の一実施形態における、SE−DVAEのための雑音除去変分オートエンコーダを説明するための図である。 本発明の一実施形態における、3種類の統合トレーニング方法を説明するための図である。 本発明の一実施形態における、音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング装置の構成を示した図である。
音声区間検出(Voice Activity Detection:VAD)は、フレーム(frame)単位の入力信号に対し、該当フレームが音声であるか非音声であるかを分類する過程において、音声認識、音質改善、話者認識などの多様な音声アプリケーション分野の重要な前処理過程に利用される。音声検出は、低い信号対雑音比(Signal−to−Noise Ratio:SNR)環境では低い性能を示す。このような問題を解決するために、本発明では、音声区間検出のための統合トレーニング方法を提案する。以下、本発明の実施例について、添付の図面を参照しながら詳細に説明する。
VAE(Variational Autoencoder)は、変分推論の接近法と深層学習法を結合した潜在変数生成モデルである。ここで観測された変数xに対する潜在変数生成モデルpθ(x|z)(デコーダとも言う)は、媒介変数θを有するディープニューラルネットワークによって媒介変数化される。推論モデルqψ(z|x)(エンコーダとも言う)は、媒介変数ψを有する2番目のディープニューラルネットワークによって媒介変数化される。潜在変数zは、データxの圧縮情報をエンベディングするように定義され、エンコーダは、データ空間を対応する潜在空間にマッピングする。デコーダは、潜在的空間のサンプル地点からデータを再構成する。媒介変数θおよびψは、数式(1)のように、ログ限界尤度の変分下限L(θ,φ;x)を最大化することによって統合トレーニングされる。
本発明のVAEフレームワークで、エンコーダとデコーダは、対角線ガウス分布を利用してパラメータ化される。このようなガウス分布は、それぞれ次のとおりとなる。qφ(z|x)=N(z;μz,σ2 zI)およびpθ(x|z)=N(x;μx,σ2 xI)。事前確率(prior)は、自由媒介変数のない等方的なガウス分布p(z)=N(z;0,I)であると仮定する。
ここで、JとDはそれぞれzとxの次元であり、xiはベクトルxのi番目のエレメントである。μxiおよびσxiは、ベクトルμxおよびμxのi番目のエレメントを示す。同じように、μzjとσzjは、ベクトルμzとσzのj番目の要素を示す。
図1は、本発明の一実施形態における、音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法を説明するためのフローチャートである。
音質改善(speech enhancement)DNN(Deep Neural Network)と音声検出DNNの統合トレーニング方法においては、先ず、音質改善DNNを利用して雑音が混ざった音声の特徴(feature)を綺麗な音声の特徴に変換し、音声検出DNNは、改善された音声特徴を利用して音声検出を実行する。このような方式では、従来技術の音声検出において統合トレーニング方法を利用したときの方が、利用しなかったときよりも優れた性能を示すということが確認された。本発明では、統合トレーニング方法を3つの側面から発展させた。
提案する音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法は、トレーニング時に発生する内部共変量シフト(internal covariate shift)現象を減少させるためにバッチ正規化(batch normalization)を利用する段階110、音質改善DNN(Deep neuralnet work)が音声検出に必要な音声特徴を出力するようにGradient weighting技法を利用する段階120、および音質改善DNNで雑音除去変分オートエンコーダ(denoising variational autoencoder)を利用する段階130を含む。提案する音声検出のための統合トレーニング方法では、音質改善DNNによって音声特徴から雑音を除去するように音声特徴を変換し、雑音が除去された音声特徴を利用して音声検出DNNによって音声検出を実行する。
段階110では、トレーニング時に発生する内部共変量シフト現象を減少させるためにバッチ正規化を利用する。2つのネットワークを結合して統合トレーニングを実行する場合に発生する音質改善DNNの出力分布の変分を減少させるために、2つのネットワーク間にバッチ正規化レイヤを追加して不正規的な入力分布を処理することによって内部共変量シフト現象を減少させる。
本発明の実施形態に係るバッチ正規化は、音質改善と音声認識の統合トレーニング方法において、2つのネットワーク間にバッチ正規化レイヤを追加することによって内部共変量シフト(internal covariate shift)現象を減少させ、トレーニングをより容易にする。2つのネットワークを結合して統合トレーニングを実行すれば、音質改善DNNの出力分布、言い換えれば、音声検出DNNの入力分布が継続して変わる。このような現象は内部共変量シフト現象と呼ばれ、これによって全体ネットワークのトレーニングに困難をきたすようになる。これは、音声検出DNNが非正常的(non−stationary)であり、正規化されていない(unnormalized)入力分布を扱わなければならないためである。したがって、本発明の実施形態に係るバッチ正規化により、このような内部共変量シフト現象を減少させることができる。
段階120では、音質改善DNNが音声検出に必要な音声特徴を出力するようにGradient weighting技法を利用する。音質改善DNNと音声検出DNNの損失関数を計算し、逆伝播法を利用して各損失関数に対する勾配を求めた後、計算された勾配を利用して2つのネットワークのパラメータをアップデートする。音質改善DNNのパラメータアップデートによって音声検出DNNの損失関数を減らすようにトレーニングを実行し、音質改善DNNによる音声検出に必要な特徴を出力する。
段階120では、先ず、音質改善DNNと音声検出DNNの損失関数(loss function)を計算し、逆伝播(backpropagation)法を利用して各損失関数に対する勾配を求める。この後、計算された勾配を利用して2つのネットワークのパラメータをアップデートする。
勾配を求める段階において、音声検出の勾配は、音声検出DNNだけでなく音質改善DNNまで逆伝播される。したがって、音質改善DNNのパラメータアップデートは、音質改善損失関数だけではなく音声検出損失関数にも影響を受ける。
音質改善DNNのパラメータアップデートにより、音質改善DNNは、音声検出DNNの損失関数を減らすためにトレーニングされ、したがって、音質改善DNNが音声検出を助長する特徴を出力することができるようになる。
段階130では、音質改善DNNで雑音除去変分オートエンコーダを利用する。エンコーダ確率分布とデコーダ確率分布の両方を対角ガウス分布として仮定し、エンコーダDNNとデコーダDNNによってそれぞれ対応する確率分布の平均およびログ分散を推定する。そして、事前確率を等方的なガウス分布として仮定し、エンコーダ確率分布とデコーダ確率分布から潜在変数と観測変数を決定的に求め、変分下限を最大化するようにネットワークパラメータをアップデートする。
VAE(Variational Autoencoder)は、潜在変数生成モデル(Latent Variable Generative Model)であって、ディープラーニングと変分推論(Variational Inference)を結合したものである。VAEは、大まかにはエンコーダ(encoder)とデコーダ(decoder)で構成され、エンコーダは、パラメータφを有するDNNによって潜在変数zに対する確率分布qφ(z|x)をモデリングするし、デコーダは、パラメータθを有するDNNによって観測変数xに対する確率分布pθ(x|z)をモデリングする。観測変数xのログ周辺尤度(log marginal likelihood)の変分下限(variational lower bound)であるL(θ,φ;x)を、数式(1)のように誘導することができる。
本発明では、エンコーダ確率分布(qφ(z|x))とデコーダ確率分布(pθ(x|z))の両方を対角ガウス分布(diagonal Gaussian distribution)として仮定し、エンコーダDNNとデコーダDNNはそれぞれ対応する確率分布の平均およびログ分散を推定する。事前確率(prior)は、等方的なガウス分布(isotropic Gaussian distribution)として仮定する。エンコーダ確率分布とデコーダ確率分布からそれぞれ潜在変数zと観測変数xをサンプリングすれば、全体ネットワークの微分が不可能になるため、再媒介化トリック(reparametrization trick)を取り入れてzとxを決定的(deterministic)に求める。数式(2)のように変分下限を整理することができ、これを最大化する方向としてネットワークパラメータであるθとφをアップデートする。
本発明の音質改善DNNでは、VAEに雑音除去(denoising)過程を取り入れるDVAE(denoising variation alautoencoder)を適用する。DVAEのトレーニング過程はVAEのトレーニング過程とほぼ同じであるが、その差異としては、入力は雑音が混ざった音声であるが出力は綺麗な音声であるという点にある。VAEとAE(autoencoder)を利用してフィルタバンク特徴(filter−bank feature)を復元(reconstruction)する実験において、VAEがAEに比べて復元能力が優れているということが確認されたことから、このような事実に着眼して音質改善DNNにDVAEを適用した。
図2は、本発明の一実施形態における、SE−DVAEのための雑音除去変分オートエンコーダを説明するための図である。
バッチ正規化(BN)およびドロップアウトは、ガウス媒介変数レイヤを除いたすべての隠しレイヤで使用される。上述したように、BNが統合トレーニングに大きな影響を及ぼすことは周知の事項である。統合トレーニング時、SEネットワークの出力分布(すなわち、VADネットワークの入力分布)は、トレーニングプロセス中に大きく変化するため、VADモジュールは不正規的であり、不正規化された入力分布を処理しなければならない。内部共変量シフトというこのような問題により、全体ネットワークをトレーニングするのに困難をきたすようになる。BNを利用することによって2つのモジュール間の境界で内部共変量シフトを減らし、事前トレーニングをしなくても全体ネットワークを効率的にトレーニングすることができるようになる。
図3は、本発明の一実施形態における、3種類の統合トレーニング方法を説明するための図である。
DVAEを利用した統合トレーニング方法として大きく3つの方式を提案したが、それぞれ図3の(a)JL−DVAE−1方式、(b)JL−DVAE−2方式、および(c)JL−DVAE−3方式がこれに該当する。JL−DVAE−1方式は、音質改善ネットワーク出力である改善された特徴が直接的に音声検出DNNの入力に挿入するものである。JL−DVAE−2方式は、潜在変数zが音声検出DNNの入力に挿入するものであり、JL−DVAE−3方式は、改善された特徴と潜在変数が同時に音声検出DNNの入力に挿入するものである。実験により、JL−DVAE−3方式が最も優れていることが確認された。
1.SEDVAEおよびVAD−DNNの出力で損失関数を計算する。
2.逆伝播を利用して損失Gradientを計算する。
3.SE−DVAEおよびVADDNNの媒介変数をアップデートする。
段階2で、VADGradientもS、E−DVAEによって逆伝播される。これにより、SEDVAEのパラメータアップデートは、SE損失関数だけでなくVAD損失関数にも依存するようになる。
数式(3)において、θSEはSE−DVAEのパラメータであり、gSEはθSEに対するSE損失Gradientであり、gVADはθSEに対するVAD損失勾配である。最後に、λはgVADに加重値を与えるハイパー媒介変数であり、α1はθSEに対する学習率である。改善プロセスが部分的にVAD損失関数によって案内されるため、フロントエンドは後続VAD作業よりも適合し、差別化された向上された特徴を提供することができるであろう。VADDNNの媒介変数アップデートは、以下に表示するVAD損失関数だけに依存する。
図4は、本発明の一実施形態における、音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング装置の構成を示した図である。
提案する音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング装置は、正規化部410、加重値部420、符号化部430を備える。
正規化部410は、トレーニング時に発生する内部共変量シフト現象を減少させるためにバッチ正規化を利用する。2つのネットワークを結合して統合トレーニングを実行する場合に発生する音質改善DNNの出力分布の変分を減少させるために、2つのネットワーク間にバッチ正規化レイヤを追加して不正規的な入力分布を処理することによって内部共変量シフト現象を減少させる。
本発明の実施形態に係るバッチ正規化は、音質改善と音声認識の統合トレーニング方法において、2つのネットワーク間のバッチ正規化レイヤを追加することによって内部共変量シフト(internal covariate shift)現象を減少させ、トレーニングをより容易にする。2つのネットワークを結合して統合トレーニングを実行すれば、音質改善DNNの出力分布、言い換えれば、音声検出DNNの入力分布が継続して変わる。このような現象は内部共変量シフト現象と呼ばれ、これによって全体ネットワークのトレーニングに困難をきたすようになる。これは、音声検出DNNが非正常的(non−stationary)であり、正規化されていない(unnormalized)入力分布を扱わなければならないためである。したがって、本発明の実施形態に係るバッチ正規化により、このような内部共変量シフト現象を減少させることができる。
加重値部420は、音質改善DNNが音声検出に必要な音声特徴を出力するようにGradient weighting技法を利用する。音質改善DNNと音声検出DNNの損失関数を計算し、逆伝播法を利用して各損失関数に対する勾配を求めた後、計算された勾配を利用して2つのネットワークのパラメータをアップデートする。音質改善DNNのパラメータアップデートによって音声検出DNNの損失関数を減らすようにトレーニングを実行し、音質改善DNNによる音声検出に必要な特徴を出力する。
加重値部420は、先ず、音質改善DNNと音声検出DNNの損失関数(loss function)を計算し、逆伝播法(backpropagation)を利用して各損失関数に対する勾配を求める。この後、計算された勾配を利用して2つのネットワークのパラメータをアップデートする。
勾配を求める段階において、音声検出勾配は、音声検出DNNだけでなく音質改善DNNにまで逆伝播される。したがって、音質改善DNNのパラメータアップデートは、音質改善損失関数だけでなく音声検出損失関数にも影響を受ける。
音質改善DNNのパラメータアップデートにより、音質改善DNNは、音声検出DNNの損失関数を減らすためにトレーニングされるようになり、したがって、音質改善DNNが音声検出を助長する特徴を出力することができるようになる。
符号化部430は、音質改善DNNで雑音除去変分オートエンコーダを利用する。エンコーダ確率分布とデコーダ確率分布の両方を対角ガウス分布として仮定し、エンコーダDNNとデコーダDNNによってそれぞれ対応する確率分布の平均およびログ分散を推定する。そして、事前確率を等方的なガウス分布として仮定し、エンコーダ確率分布とデコーダ確率分布から潜在変数と観測変数を決定的に求め、変分下限を最大化するようにネットワークパラメータをアップデートする。
本発明では、既存の統合トレーニング方法を3つの方法に拡張する。第1に、トレーニング中の内部共変量変分を減らすためにバッチ正規化を使用する。バッチ正規化が音声認識作業における統合トレーニング接近法に対する内部共変量変分を減少させるのに効果的であるということは、既に証明されている。これは、VAD作業でも同じである。第2に、SEネットワークのパラメータ更新は、SE損失関数だけでなくVAD損失関数にも依存する。このために、フロントエンドは、後続VAD作業に適合した、向上された特徴を提供することができる。最後に、音声向上のためにDVAE(denoising variational autoencoder)を適用する。DVAEは、雑音がある特徴を潜伏コードにマッピングした後、潜伏コードを復号化することによって綺麗な機能を再構成する。本発明の実施形態によると、VADネットワークに、向上された機能だけでなく潜在的コードも提供する。実験結果では、提案された方法が既存の統合トレーニング基盤方法よりも優れていることが示された。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、任意に動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置によって具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。前記媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであってもよいし、コンピュータソフトウェア当業者に公知な使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を格納して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
以上のように、限定された実施形態と図面に基づいて実施形態を説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
410:正規化部
420:加重値部
430:符号化部

Claims (10)

  1. 音声検出のための統合トレーニング方法であって、
    トレーニング時に発生する内部共変量シフト(internal covariate shift)現象を減少させるためにバッチ正規化(batch normalization)を利用する段階、
    音質改善DNN(Deep neural network)が音声検出に必要な音声特徴を出力するようにGradient weighting技法を利用する段階、および
    音質改善DNNで雑音除去変分オートエンコーダ(denoising variational autoencoder)を利用する段階
    を含み、
    前記音声検出のための統合トレーニング方法は、音質改善DNNによって音声特徴から雑音を除去するように音声特徴を変換し、雑音が除去された音声特徴を利用して音声検出DNNによって音声検出を実行することを含む、
    音声検出のための統合トレーニング方法。
  2. 前記トレーニング時に発生する前記内部共変量シフト現象を減少させるために前記バッチ正規化を利用する前記段階は、
    2つのネットワークを結合して前記統合トレーニングを実行する場合に発生する前記音質改善DNNの出力分布の変分を減少させるために、前記2つのネットワーク間にバッチ正規化レイヤを追加して不正規的な入力分布を処理することによって前記内部共変量シフト現象を減少させることを含む、
    請求項1に記載の音声検出のための統合トレーニング方法。
  3. 前記音質改善DNNが前記音声検出に必要な前記音声特徴を出力するように前記Gradient weighting技法を利用する前記段階は、
    前記音質改善DNNと前記音声検出DNNの損失関数を計算し、逆伝播法を利用して各前記損失関数に対する勾配を求めた後、計算された前記勾配を利用して2つのネットワークのパラメータをアップデートすることを含む、
    請求項1に記載の音声検出のための統合トレーニング方法。
  4. 前記音質改善DNNの前記パラメータアップデートによって前記音声検出DNNの前記損失関数を減らすように前記トレーニングを実行し、前記音質改善DNNによる前記音声検出に必要な特徴を出力することを含む、
    請求項3に記載の音声検出のための統合トレーニング方法。
  5. 前記音質改善DNNで前記雑音除去変分オートエンコーダを利用する前記段階は、
    エンコーダ確率分布とデコーダ確率分布の両方を対角ガウス分布として仮定し、エンコーダDNNとデコーダDNNによってそれぞれ対応する確率分布の平均およびログ分散を推定し、事前確率を等方的なガウス分布として仮定し、前記エンコーダ確率分布と前記デコーダ確率分布から潜在変数と観測変数を決定的に求め、変分下限を最大化するようにネットワークパラメータをアップデートすることを含む、
    請求項1に記載の音声検出のための統合トレーニング方法。
  6. 音声検出のための統合トレーニング装置であって、
    トレーニング時に発生する内部共変量シフト(internal covariate shift)現象を減少させるためにバッチ正規化(batch normalization)を利用する正規化部、
    音質改善DNN(Deep neural network)が音声検出に必要な音声特徴を出力するようにGradient weighting技法を利用する加重値部、および
    前記音質改善DNNで雑音除去変分オートエンコーダ(denoising variational autoencoder)を利用する符号化部
    を備え、
    前記音声検出のための統合トレーニング方法は、前記音質改善DNNによって前記音声特徴から雑音を除去するように前記音声特徴を変換し、前記雑音が除去された前記音声特徴を利用して音声検出DNNによって前記音声検出を実行することを含む、
    音声検出のための統合トレーニング装置。
  7. 前記正規化部は、
    2つのネットワークを結合して統合トレーニングを実行する場合に発生する前記音質改善DNNの出力分布の変分を減少させるために、前記2つのネットワーク間にバッチ正規化レイヤを追加して不正規的な入力分布を処理することによって前記内部共変量シフト現象を減少させる、
    請求項6に記載の音声検出のための統合トレーニング装置。
  8. 前記加重値部は、
    前記音質改善DNNと前記音声検出DNNの損失関数を計算し、逆伝播法を利用して各前記損失関数に対する勾配を求めた後、計算された前記勾配を利用して2つのネットワークのパラメータをアップデートする、
    請求項6に記載の音声検出のための統合トレーニング装置。
  9. 前記音質改善DNNの前記パラメータアップデートによって前記音声検出DNNの前記損失関数を減らすように前記トレーニングを実行し、前記音質改善DNNによる前記音声検出に必要な特徴を出力する、
    請求項8に記載の音声検出のための統合トレーニング装置。
  10. 前記符号化部は、
    エンコーダ確率分布とデコーダ確率分布の両方を対角ガウス分布として仮定し、エンコーダDNNとデコーダDNNによってそれぞれ対応する確率分布の平均およびログ分散を推定し、事前確率を等方的なガウス分布として仮定し、前記エンコーダ確率分布と前記デコーダ確率分布から潜在変数と観測変数を決定的に求め、変分下限を最大化するようにネットワークパラメータをアップデートする、
    請求項6に記載の音声検出のための統合トレーニング装置。
JP2019158891A 2018-11-29 2019-08-30 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置 Active JP6818372B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0150690 2018-11-29
KR1020180150690A KR102095132B1 (ko) 2018-11-29 2018-11-29 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2020086434A true JP2020086434A (ja) 2020-06-04
JP6818372B2 JP6818372B2 (ja) 2021-01-20

Family

ID=70003251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019158891A Active JP6818372B2 (ja) 2018-11-29 2019-08-30 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置

Country Status (2)

Country Link
JP (1) JP6818372B2 (ja)
KR (1) KR102095132B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345423A (zh) * 2021-06-24 2021-09-03 科大讯飞股份有限公司 语音端点检测方法、装置、电子设备和存储介质
CN116499607A (zh) * 2023-06-27 2023-07-28 之江实验室 一种光纤传感信号降噪方法、装置和存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077810A (zh) * 2021-03-19 2021-07-06 杨予诺 一种基于β-VAE算法的声源分离方法
KR102358151B1 (ko) * 2021-06-11 2022-02-08 주식회사 위스타 컨볼루션 순환신경망을 이용한 잡음 제거 방법
CN115588436A (zh) * 2022-09-29 2023-01-10 沈阳新松机器人自动化股份有限公司 基于变分自编码器生成对抗网络的语音增强方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160073874A (ko) * 2014-12-17 2016-06-27 서울대학교산학협력단 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치
WO2018071389A1 (en) * 2016-10-10 2018-04-19 Google Llc Very deep convolutional neural networks for end-to-end speech recognition
JP2018517928A (ja) * 2015-09-24 2018-07-05 グーグル エルエルシー 音声活動検出

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324689A1 (en) * 2014-05-12 2015-11-12 Qualcomm Incorporated Customized classifier over common features
US10685285B2 (en) * 2016-11-23 2020-06-16 Microsoft Technology Licensing, Llc Mirror deep neural networks that regularize to linear networks
JP6922284B2 (ja) * 2017-03-15 2021-08-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160073874A (ko) * 2014-12-17 2016-06-27 서울대학교산학협력단 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치
JP2018517928A (ja) * 2015-09-24 2018-07-05 グーグル エルエルシー 音声活動検出
WO2018071389A1 (en) * 2016-10-10 2018-04-19 Google Llc Very deep convolutional neural networks for end-to-end speech recognition

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
NAHAR, S M RAUFUN ET AL.: ""Robust Voice Activity Detector by Combining Sequentially Trained Deep Neural Networks"", PROC. OF 2016 INTERNATIONAL CONFERENCE ON ADVANCED INFORMATICS: CONCEPTS, THEORY AND APPLICATION (IC, JPN6020042735, 16 August 2016 (2016-08-16), ISSN: 0004382920 *
太田陸斗 他: ""調波構造に基づくDeep Auto Encoderを用いた残響下音声強調"", 電子情報通信学会技術研究報告, vol. 116, no. 477, JPN6020042732, 22 February 2017 (2017-02-22), pages 141 - 146, ISSN: 0004382917 *
山下隆義 他: ""畳み込みニューラルネットワークの研究動向"", 画像ラボ, vol. 29, no. 10, JPN6020042731, 10 October 2018 (2018-10-10), pages 27 - 35, ISSN: 0004382916 *
杉山普 他: ""Variational Autoencoderによる話者ベクトル空間の構築とそれに基づくパラレルデータフリー話者変換"", 情報処理学会研究報告, vol. Vol.2018-SLP-122, No.28, JPN6020042734, 9 June 2018 (2018-06-09), pages 1 - 6, ISSN: 0004382919 *
森口寛生 他: ""変分オートエンコーダを用いた多重音解析システムの性能評価"", 第80回(平成30年)全国大会講演論文集(2) 人工知能と認知科学, JPN6020042733, 13 March 2018 (2018-03-13), pages 2 - 167, ISSN: 0004382918 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345423A (zh) * 2021-06-24 2021-09-03 科大讯飞股份有限公司 语音端点检测方法、装置、电子设备和存储介质
CN113345423B (zh) * 2021-06-24 2024-02-13 中国科学技术大学 语音端点检测方法、装置、电子设备和存储介质
CN116499607A (zh) * 2023-06-27 2023-07-28 之江实验室 一种光纤传感信号降噪方法、装置和存储介质
CN116499607B (zh) * 2023-06-27 2023-09-08 之江实验室 一种光纤传感信号降噪方法、装置和存储介质

Also Published As

Publication number Publication date
JP6818372B2 (ja) 2021-01-20
KR102095132B1 (ko) 2020-03-30

Similar Documents

Publication Publication Date Title
Drude et al. NARA-WPE: A Python package for weighted prediction error dereverberation in Numpy and Tensorflow for online and offline processing
JP2020086434A (ja) 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置
US9824683B2 (en) Data augmentation method based on stochastic feature mapping for automatic speech recognition
JP6751322B2 (ja) 音響モデル生成装置及び方法、音声認識装置及び方法
EP3166105B1 (en) Neural network training apparatus and method
CN107077860B (zh) 用于将有噪音频信号转换为增强音频信号的方法
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
JP7517601B2 (ja) ハイパーパラメータ最適化システム、方法およびプログラム
Sørensen et al. A depthwise separable convolutional neural network for keyword spotting on an embedded system
Hasannezhad et al. PACDNN: A phase-aware composite deep neural network for speech enhancement
Coto-Jiménez et al. Improving automatic speech recognition containing additive noise using deep denoising autoencoders of LSTM networks
KR20220018271A (ko) 딥러닝을 이용한 시간 및 주파수 분석 기반의 노이즈 제거 방법 및 장치
CN112767959A (zh) 语音增强方法、装置、设备及介质
Sivasankaran et al. Discriminative importance weighting of augmented training data for acoustic model training
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
Nguyen et al. Feature adaptation using linear spectro-temporal transform for robust speech recognition
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
Li et al. Single channel speech enhancement using temporal convolutional recurrent neural networks
Garg et al. Enhancement of speech signal using diminished empirical mean curve decomposition-based adaptive Wiener filtering
Do et al. Weighting Time-Frequency Representation of Speech Using Auditory Saliency for Automatic Speech Recognition.
Coto-Jiménez Robustness of LSTM neural networks for the enhancement of spectral parameters in noisy speech signals
Nicolson et al. Sum-product networks for robust automatic speaker identification
JP7231181B2 (ja) 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
Chidhambararajan et al. EfficientWord-Net: An Open Source Hotword Detection Engine Based on Few-Shot Learning
Alameri et al. Convolutional Deep Neural Network and Full Connectivity for Speech Enhancement.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191003

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201221

R150 Certificate of patent or registration of utility model

Ref document number: 6818372

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250