JP6243858B2 - Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program - Google Patents
Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program Download PDFInfo
- Publication number
- JP6243858B2 JP6243858B2 JP2015021453A JP2015021453A JP6243858B2 JP 6243858 B2 JP6243858 B2 JP 6243858B2 JP 2015021453 A JP2015021453 A JP 2015021453A JP 2015021453 A JP2015021453 A JP 2015021453A JP 6243858 B2 JP6243858 B2 JP 6243858B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- speech
- noise
- learning
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラムに関する。 The present invention relates to a speech model learning method, a noise suppression method, a speech model learning device, a noise suppression device, a speech model learning program, and a noise suppression program.
近年、自動音声認識は、情報化社会の中で利用局面が増えつつあり、技術の進歩が大きく期待されている。自動音声認識を実際の環境で利用する場合には、処理対象とする音声信号以外の信号、つまり雑音が含まれる音響信号から雑音を取り除き、所望の音声信号を抽出する必要がある。 In recent years, the use of automatic speech recognition has been increasing in the information society, and technological advances are highly expected. When automatic speech recognition is used in an actual environment, it is necessary to remove noise from a signal other than a speech signal to be processed, that is, an acoustic signal including noise, and extract a desired speech signal.
例えば、音声信号と雑音信号が混合された信号を入力とし、あらかじめ推定した音声信号及び雑音信号それぞれの確率モデルから入力混合信号の確率モデルを生成する。その際、入力混合信号の確率モデルを構成する音声信号及び雑音信号それぞれの確率モデルと、入力混合信号に含まれる音声信号及び雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。その差分をEMアルゴリズムを用いて推定し、入力混合信号の確率モデルを最適化する。その後、最適化された入力混合信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている(例えば非特許文献1参照)。 For example, a signal obtained by mixing a speech signal and a noise signal is input, and a probability model of the input mixed signal is generated from the probability models of the speech signal and the noise signal estimated in advance. At that time, the difference between the probability model of each of the speech signal and the noise signal constituting the probability model of the input mixed signal and the statistics of each of the speech signal and the noise signal included in the input mixed signal is expressed by Taylor series approximation. The difference is estimated using the EM algorithm, and the input mixed signal probability model is optimized. Thereafter, a method of suppressing noise using the optimized probabilistic model of the input mixed signal and the parameters of the probabilistic model of the speech signal is disclosed (for example, see Non-Patent Document 1).
また、例えば、音声信号と雑音信号が混合された信号を入力とし,多数話者の学習用音声データを用いて学習された音声信号の確率モデルを入力混合信号に含まれる音声信号の発話者の特徴に適応(話者適応)させ、かつ統計的な性質が多峰的な分布に従う雑音信号に対処するため、入力混合信号より音声信号と、雑音信号とをそれぞれ抽出する。この際、SN比を基準として、単位時間毎に各抽出信号の信頼度を算出する。抽出した音声信号及び雑音信号と、各信号の信頼度とを用いて話者適応のパラメータと、多峰的な分布に従う雑音信号の確率モデルをEMアルゴリズムにより推定する。その後、話者適応後の音声信号の確率モデルと、推定した雑音の確率モデルとから入力信号の最適な確率モデルを生成し、入力混合信号の最適な確率モデルと話者適応後の音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている(例えば非特許文献2参照)。 In addition, for example, a signal obtained by mixing a speech signal and a noise signal is input, and a probability model of a speech signal learned by using speech data for learning of a large number of speakers is used for the speaker of the speech signal included in the input mixture signal. In order to adapt to the feature (speaker adaptation) and deal with a noise signal whose statistical properties follow a multimodal distribution, a speech signal and a noise signal are extracted from the input mixed signal, respectively. At this time, the reliability of each extracted signal is calculated for each unit time with the SN ratio as a reference. The extracted speech signal and noise signal and the reliability of each signal are used to estimate a speaker adaptation parameter and a stochastic model of the noise signal according to a multimodal distribution using an EM algorithm. Then, the optimal probability model of the input signal is generated from the probability model of the speech signal after speaker adaptation and the estimated probability model of noise, and the optimal probability model of the input mixed signal and the speech signal after speaker adaptation are generated. A method of suppressing noise using a parameter of a probability model is disclosed (for example, see Non-Patent Document 2).
しかしながら、上記従来技術は、例えば非特許文献1において、入力混合信号に含まれる雑音信号の特徴が定常的かつ、その分布(頻度分布もしくは確率分布)が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴を持ち、その分布は多峰性であることが多い。そのため、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。また、入力混合信号に含まれる音声信号と雑音信号との関係が非線形関数により表現されるため、テイラー級数近似を用いても音声信号及び雑音信号それぞれの確率モデルのパラメータ推定の際に解析解が得られない。そのため、音声信号及び雑音信号それぞれの確率モデルパラメータの最適解が得られず、十分な雑音抑圧性能が得られない。
However, the above prior art is based on the assumption that, for example, in
また、上記従来技術は、例えば非特許文献2において、多峰的な分布に従う雑音信号の確率モデルを推定することにより、非定常的な雑音信号に対応することが可能であっても、話者適応のパラメータと、多峰的な分布に従う雑音信号の確率モデルとをEMアルゴリズムにより推定する。音声信号の確率モデルには、混合正規分布(Gaussian Mixture Model:GMM)を用いるが、入力混合信号から音声信号と雑音信号とを抽出、話者適応パラメータ推定及び雑音抑圧フィルタを設計する際には、音声信号のGMMに含まれる各要素分布に対する事後確率(音声事後確率と定義)が必要となる。これは,入力混合信号に含まれる音声信号が、各時刻において音声信号のGMM内のどの要素分布に属するかという識別問題に相当する。しかし、識別器としてのGMMの性能は低く、GMMでは十分な雑音抑圧性能が得られない。
Further, in the
本願が開示する実施形態の一例は、上記に鑑みてなされたものであって、雑音抑圧性能を向上させることを目的とする。 An example of an embodiment disclosed in the present application has been made in view of the above, and aims to improve noise suppression performance.
本願の実施形態の一例は、学習用の音声信号から音響特徴量を抽出する。そして、実施形態の一例は、抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する。そして、実施形態の一例は、学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する。そして、実施形態の一例は、生成されたラベル情報と、抽出された正規化された音響特徴量とを用いて、音声モデルを学習する。 In an example of the embodiment of the present application, an acoustic feature amount is extracted from an audio signal for learning. And an example of embodiment produces | generates the label information which matches the extracted acoustic feature-value and the mixing normal distribution of an audio | voice signal. In the exemplary embodiment, a normalized acoustic feature amount is extracted from a learning acoustic signal including a learning speech signal and a learning noise signal. In the exemplary embodiment, the speech model is learned using the generated label information and the extracted normalized acoustic feature amount.
また、本願の実施形態の一例は、上記音声モデル学習方法により学習された音声モデルを音声モデル記憶部に保存する。そして、実施形態の一例は、音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する。そして、実施形態の一例は、混合音響信号から正規化された音響特徴量を抽出する。そして、実施形態の一例は、音声モデルと、抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する。そして、実施形態の一例は、計算された音声事後確率と、音声信号の混合正規分布とを用いて、混合音響信号における雑音信号を抑圧する。 Further, in an example of the embodiment of the present application, the speech model learned by the speech model learning method is stored in the speech model storage unit. And an example of embodiment extracts an acoustic feature-value from the mixed acoustic signal containing an audio | voice signal and a noise signal. And an example of embodiment extracts the acoustic feature-value normalized from the mixed acoustic signal. Then, in an example of the embodiment, the speech posterior probability is calculated using the speech model and the extracted normalized acoustic feature amount. In the exemplary embodiment, the noise signal in the mixed acoustic signal is suppressed using the calculated voice posterior probability and the mixed normal distribution of the voice signal.
本願が開示する実施形態の一例によれば、例えば、雑音抑圧性能を向上させることができる。 According to an exemplary embodiment disclosed in the present application, for example, noise suppression performance can be improved.
[実施形態]
以下、本願が開示する音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラムの実施形態を説明する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態及びその他の実施形態は、矛盾しない範囲で適宜組合せてもよい。
[Embodiment]
Hereinafter, embodiments of a speech model learning method, a noise suppression method, a speech model learning device, a noise suppression device, a speech model learning program, and a noise suppression program disclosed in the present application will be described. The following embodiments are merely examples, and do not limit the technology disclosed by the present application. Moreover, you may combine suitably embodiment shown below and other embodiment in the range with no contradiction.
なお、以下の実施形態では、例えば、ベクトル又はスカラーであるAに対し、“^A”と記載する場合は「“A”の真上に“^”が記された記号」と同等とし、“ ̄A”と記載する場合は「“A”の真上に“ ̄”が記された記号」と同等であるとする。また、“A”がベクトルである場合には、「ベクトルA」と表記し、“A”がスカラーである場合には、単に「A」と表記し、“A”が集合である場合には、「集合A」と表記するものとする。また、例えばベクトルAの関数fは、f(ベクトルA)と表記するものとする。なお、行列Aに対し、行列A−1は、行列Aの逆行列を表す。 In the following embodiments, for example, when “^ A” is written for A which is a vector or a scalar, it is equivalent to “a symbol with“ ^ ”immediately above“ A ””. When “ ̄A” is described, it is equivalent to “a symbol in which“  ̄ ”is written immediately above“ A ””. Also, when “A” is a vector, it is expressed as “vector A”, when “A” is a scalar, it is simply expressed as “A”, and when “A” is a set. And “set A”. For example, the function f of the vector A is expressed as f (vector A). Note that the matrix A −1 represents the inverse matrix of the matrix A with respect to the matrix A.
また、以下の実施形態では、音声信号の識別器として、ディープニューラルネットワーク(Deep Neural Network:DNN)に基づく識別器を導入する。DNNは、多層パーセプトロンの一種であり、通常の多層パーセプトロンが3層程度の識別層を有するのに対し、実施形態では、3層より多くの識別層を有し、より深いネットワークを構築する。具体的には、各識別層を制約付きボルツマンマシン(Restricted Boltzmann Machine:RBM)で学習し、その後、各識別層のRBMを連結してネットワーク全体のパラメータを調整することにより、深い識別層を持つニューラルネットワークを構築することができる。このような深い識別層を持たせることで、音声信号の識別性能を高めることができる。 In the following embodiments, a classifier based on a deep neural network (DNN) is introduced as a classifier for an audio signal. DNN is a kind of multi-layer perceptron, and a normal multi-layer perceptron has about three identification layers, whereas in the embodiment, it has more than three identification layers and constructs a deeper network. Specifically, each identification layer is learned by a restricted Boltzmann Machine (RBM), and then the RBM of each identification layer is connected to adjust the parameters of the entire network, thereby having a deep identification layer. A neural network can be constructed. By providing such a deep discrimination layer, the discrimination performance of the audio signal can be enhanced.
DNNによる音声信号の識別器を雑音抑圧に導入するためには、DNNの出力層に含まれる各ノードと、音声信号のGMMの各要素分布との対応付けを行う必要がある。そのために、先ず、各時刻における雑音の存在しない音声信号が、音声信号のGMMに含まれるどの要素分布に属するかを示した分布ラベルを生成する。その後、音声信号と雑音信号との混合信号と、分布ラベルを用いて音声信号のDNNを学習する。このような方法を用いることにより、音声信号のGMMの各要素と音声信号のDNNの出力層の各ノードとの対応付けが可能となる。 In order to introduce a DNN voice signal discriminator to noise suppression, it is necessary to associate each node included in the DNN output layer with each element distribution of the GMM of the voice signal. For this purpose, first, a distribution label indicating which element distribution included in the GMM of the audio signal the audio signal without noise at each time belongs is generated. Thereafter, the DNN of the audio signal is learned using the mixed signal of the audio signal and the noise signal and the distribution label. By using such a method, it is possible to associate each element of the GMM of the audio signal with each node of the output layer of the DNN of the audio signal.
また、音声信号のDNNを用いることで、入力混合信号に含まれる音声信号の識別性能が向上し、入力混合信号からの音声信号と雑音信号との抽出精度、及び、話者適応パラメータと、雑音抑圧フィルタとの推定精度とを改善することが可能となる。 Further, by using the DNN of the audio signal, the discrimination performance of the audio signal included in the input mixed signal is improved, the accuracy of extracting the audio signal and the noise signal from the input mixed signal, the speaker adaptation parameter, and the noise It is possible to improve the estimation accuracy with the suppression filter.
なお、DNNについては、文献1「A. Mohamed, G. Dahl, G. Hinton, “Acoustic Modeling Using Deep Belief Networks.”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no1., pp. 14-22, 2012.」、文献2「久保陽太郎,“ディープラーニングによるパターン認識”,情報処理,vol. 54,no. 5,pp. 500-508,April 2013.」に詳述されている。
Regarding DNN,
(音声モデル学習装置の構成)
図1は、音声モデル学習装置の構成の一例を示す図である。音声モデル学習装置100は、音声GMM記憶装置300、音声DNN記憶装置400が接続される。音声GMM記憶装置300は、音声GMM300aを記憶する。音声DNN記憶装置400は、後述する音声DNN学習部140により学習されたパラメータである重み行列Wjと、バイアスベクトルvjとを含む音声DNN400aを記憶する。音声モデル学習装置100は、学習用音声信号Oclean τ及び学習用音声信号Oclean τと学習用雑音信号とが混合した学習用混合信号Onoisy τを入力とし、DNNのパラメータである重み行列Wjと、バイアスベクトルvjとを出力する。音声モデル学習装置100は、第1音響特徴抽出部110、第2音響特徴抽出部120、最尤分布推定部130、音声DNN学習部140を有する。
(Configuration of speech model learning device)
FIG. 1 is a diagram illustrating an example of a configuration of a speech model learning apparatus. The speech
第1音響特徴抽出部110は、学習用音声信号Oclean τを入力とし、学習用音声信号Oclean τから音声DNNの学習に用いる対応分布ラベルLabtを得るための特徴量である学習用対数メルスペクトルのベクトルOclean tを抽出する。
The first acoustic
図2は、音声モデル学習装置の第1音響特徴抽出部の処理手順の一例を示すフローチャートである。図2に従い、第1音響特徴抽出部110の処理を説明する。先ず、第1音響特徴抽出部110は、フレーム切出処理にて学習用音声信号Oclean τ(τは離散信号のサンプル点)を時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出す(ステップS110a)。例えば、第1音響特徴抽出部110は、Frame=400個のサンプル点(16,000Hz×25ms)の音響信号Oclean τ,nを、Shift=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。ここで、tはフレーム番号、nはフレーム内のn番目のサンプル点を表す。その際、第1音響特徴抽出部110は、例えば、下記(1)式に示すハミング窓のような窓関数wnを掛け合わせて切り出す。
FIG. 2 is a flowchart illustrating an example of a processing procedure of the first acoustic feature extraction unit of the speech model learning device. The process of the first acoustic
その後、第1音響特徴抽出部110は、音響信号Oclean t,nに対して、M点(Mは2のべき乗かつFrame以上の値であり、例えばM=512)の高速フーリエ変換処理を実行し、複素数スペクトルのベクトルSpcclean t={Spcclean t,0,・・・,Spcclean t,m,・・・,Spcclean t,M−1}Tを得る(mは、周波数ビンの番号)(ステップS110b)。なお、{・}Tは、行列又はベクトルの転置を表す。次に、各Spcclean t,mの絶対値に対して、メルフィルタバンク分析処理(ステップS110c)、対数化処理(ステップS110d)を適用し、R次元(例えばR=24)の対数メルスペクトルを要素に持つベクトルOclean t={Oclean t,0,・・・,Oclean t,r,・・・,Oclean t,R−1}Tを算出する(rはベクトルOclean tの要素番号)。この結果、第1音響特徴抽出部110は、学習用対数メルスペクトルとして、ベクトルOclean tを出力する。
Thereafter, the first acoustic
第2音響特徴抽出部120は、学習用音声信号Oclean τと学習用雑音信号とが混合した学習用混合信号Onoisy τを入力とし、学習用混合信号Onoisy τから音声モデル学習を実施するための特徴量である学習用正規化対数メルスペクトルのベクトルOnoisy tを抽出する。
The second acoustic
図3は、音声モデル学習装置の第2音響特徴抽出部の処理手順の一例を示すフローチャートである。図3に従い、第2音響特徴抽出部120の処理を説明する。第2音響特徴抽出部120は、ステップS120a〜S120dにおいて、Onoisy τに対して、図2に示す、Oclean τに対して実行されるステップS110a〜S110dそれぞれと同様の処理を実行する。
FIG. 3 is a flowchart illustrating an example of a processing procedure of the second acoustic feature extraction unit of the speech model learning device. The process of the second acoustic
次に、第2音響特徴抽出部120は、ステップS120dの対数化処理にて得られた学習用混合信号Onoisy τの対数メルスペクトルに対して、正規化処理を適用する(ステップS120e)。具体的には、第2音響特徴抽出部120は、学習用混合信号Onoisy τの対数メルスペクトル全体から求めた学習用混合信号Onoisy τの対数メルスペクトルの平均と標準偏差を用いて、学習用混合信号Onoisy τの対数メルスペクトルを平均0、分散1に正規化する。
Next, the second acoustic
次に、第2音響特徴抽出部120は、ステップS120eの正規化処理にて正規化された学習用混合信号Onoisy τの対数メルスペクトルの1次と、2次の回帰係数を算出し、正規化された学習用混合信号Onoisy τの対数メルスペクトルと合わせて3R次元のベクトルOnorm t={Onorm t,0,・・・,Onorm t,r,・・・,Onorm t,3R−1}Tを構成する回帰係数付与処理を実行する(ステップS120f)。その後、第2音響特徴抽出部120は、ステップS120fの回帰係数付与処理にて回帰係数が付与されたベクトルOnorm tをフレームtの前後Zフレーム{t−Z,・・・,t,・・・,t+Z}分だけ結合した3R×(2R+1)次元のベクトルOnorm t={ベクトルOnorm t―Z T,・・・,ベクトルOnorm t T,・・・,ベクトルOnorm t+Z T}Tを算出するフレーム連結処理を実行する(例えばZ=5)(ステップS120g)。この結果、第2音響特徴抽出部120は、学習用正規化対数メルスペクトルのベクトルOnorm tを出力する。
Next, the second acoustic
最尤分布推定部130は、第1音響特徴抽出部110の出力である学習用対数メルスペクトルのベクトルOclean tと、音声GMM記憶装置300の主記憶上に記憶された音声GMM300aとを用いて、対応分布ラベルLabtを得る。
The maximum likelihood
最尤分布推定部130は、学習用対数メルスペクトルのベクトルOclean tと、音声GMM300aとを用いて、音声DNNの学習に用いる対応分布ラベルLabtを、下記(2)式により推定する。
The maximum likelihood
上記(2)式において、kは音声GMM300aに含まれる正規分布の番号であり、最大値Kを取る。Kは総正規分布数である。例えば、K=512である。上記(2)式において、wSI,kは音声GMM300aの混合重みであり、ベクトルμSI,kは音声GMM300aの平均ベクトルであり、ベクトルΣSI,kは音声GMM300aの対角分散行列である。それぞれのパラメータであるwSI,k、ベクトルμSI,k、ベクトルΣSI,kは、多数話者の学習用音声データを用いて事前に推定されたものである。また、上記(2)式において、関数N(・)は、下記(3)式で与えられる多次元正規分布の確率密度関数である。上記(2)式は、kを1≦k≦Kの範囲で走査した場合のmax{・}を対応分布ラベルLabtとする。
In the above equation (2), k is a normal distribution number included in the
音声DNN学習部140は、対応分布ラベルLabtと学習用正規化対数メルスペクトルのベクトルOnoisy tとを用いて、音声DNN400aのパラメータである重み行列Wjとバイアスベクトルvjとを学習する。音声DNN学習部140は、最尤分布推定部130により推定された対応分布ラベルLabtと、第2音響特徴抽出部120により計算された学習用正規化対数メルスペクトルのベクトルOnoisy tとを用いて、音声DNN400aとして、J層の隠れ層を持つDNNを学習する(例えばJ=5)。DNNの一般的な学習方法は、前述の文献1及び文献2に示されるとおりである。
Voice
音声DNN学習部140は、音声DNN400aのパラメータである重み行列Wjと、バイアスベクトルvjとを、音声DNN記憶装置400へ出力し、主記憶上に記憶させる。なお、重み行列WjはDj×Dj−1次元の行列であり、バイアスベクトルvjはDj次元の縦ベクトルである(例えば、D0=3R×(2Z+1)、Dj=2048(j=1,・・・,J−1)、Dj=K)。
The voice
(雑音抑圧装置の構成)
図4は、雑音抑圧装置の構成の一例を示す図である。雑音抑圧装置200は、音声GMM記憶装置300、音声DNN記憶装置400が接続される。雑音抑圧装置200は、音声信号及び雑音信号が混合された入力混合信号Oτを入力とし、入力混合信号Oτにおいて雑音信号が抑圧されたと推定される雑音抑圧信号^Sτを出力する。雑音抑圧装置200は、第1音響特徴抽出部210、第2音響特徴抽出部220、パラメータ推定部230、雑音抑圧部240を有する。
(Configuration of noise suppression device)
FIG. 4 is a diagram illustrating an example of the configuration of the noise suppression device. The
第1音響特徴抽出部210は、音声信号及び雑音信号が混合した入力混合信号Oτを入力とし、入力混合信号Oτに対して雑音抑圧を実施するための特徴量である複素数スペクトルのベクトルSpct及び入力混合信号Oτの対数メルスペクトルのベクトルOtを抽出する。第1音響特徴抽出部210は、音声モデル学習装置100の第1音響特徴抽出部110と同様の処理機能を有する。
The first
第2音響特徴抽出部220は、入力混合信号Oτを入力とし、入力混合信号Oτから音声事後確率Pt,kを計算するための特徴量である正規化対数メルスペクトルのベクトルODNN tを抽出する。第2音響特徴抽出部220は、音声モデル学習装置100の第2音響特徴抽出部120と同様の処理機能を有する。
The second acoustic feature extraction unit 220 receives the input mixed signal O τ and receives a normalized log mel spectrum vector O DNN t that is a feature amount for calculating the speech posterior probability P t, k from the input mixed signal O τ. To extract. The second acoustic feature extraction unit 220 has the same processing function as the second acoustic
パラメータ推定部230は、第1音響特徴抽出部210により抽出された対数メルスペクトルのベクトルOtと、音声GMM記憶装置300に記憶された音声GMM300aと、第2音響特徴抽出部220により抽出された正規化対数メルスペクトルのベクトルODNN tと、音声DNN記憶装置400に記憶された音声DNN400aとを用いて、話者適応パラメータのベクトルbと、雑音の確率モデルである雑音GMMのパラメータセットλとを推定する。
The
多数話者の学習用音声データから推定されたパラメータから構成される音声GMM300aは、話者独立(Speaker Independent:SI)GMMと呼ばれ、特定話者の学習用音声データから推定されたパラメータから構成される音声GMMは、話者依存(Speaker Dependent:SD)GMMと呼ばれる。話者独立GMMを特定話者の学習用音声データを用いて学習することは、実用的ではないため、話者適応処理により、話者依存GMMを得る。すなわち、下記(4)式による話者適応処理により、話者独立GMMの平均ベクトルμSI,kを変換することにより、話者依存GMMの平均ベクトルμSD,kを得る。
上記(4)式において、ベクトルbは話者適応パラメータであり、R次元のベクトルでる。ベクトルbは、音声GMM300aに含まれる正規分布の番号kに対して独立のパラメータとする。一方、雑音GMMは、下記(5)式により与えられる。
In the above equation (4), the vector b is a speaker adaptation parameter and is an R-dimensional vector. The vector b is an independent parameter for the normal distribution number k included in the
上記(5)式において、lは雑音GMMに含まれる正規分布の番号、Lは正規分布の総数である(例えば、L=4)。また、ベクトルNtは雑音の対数メルスペクトルであり、pN(ベクトルNt)は雑音GMMの尤度である。また、wN,lは雑音GMMの混合重みであり、ベクトルμN,lは雑音GMMの平均ベクトル、行列ΣN,lは雑音GMMの対角分散行列である。以後、雑音GMMのパラメータセットをλ={wN,l,ベクトルμN,l,行列ΣN,l}と定義する。 In the above equation (5), l is the number of the normal distribution included in the noise GMM, and L is the total number of normal distributions (for example, L = 4). Further, the vector N t is a log mel spectrum of noise, and p N (vector N t ) is the likelihood of the noise GMM. Further, w N, l is a noise GMM mixing weight, vector μ N, l is an average vector of noise GMM, and matrix Σ N, l is a diagonal dispersion matrix of noise GMM. Hereinafter, the parameter set of the noise GMM is defined as λ = {w N, l , vector μ N, l , matrix Σ N, l }.
パラメータ推定部230は、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλは、EMアルゴリズムにより推定する。EMアルゴリズムは、ある確率モデルのパラメータ推定に用いられる方法であり、確率モデルのコスト関数(対数尤度関数)の期待値を計算するExpectation−step(E−step)と、コスト関数を最大化するMaximization−step(M−step)とを、収束条件を満たすまで繰り返すことによりパラメータを最適化する。
The
さらに、図4に示すパラメータ推定部230の詳細構成について説明する。図5は、雑音抑圧装置のパラメータ推定部の構成の一例を示す図である。図5に示すように、パラメータ推定部230は、初期化部231、確率及び信号推定部232、信頼データ選択部233、話者適応パラメータ推定部234、雑音GMM推定部235、収束判定部236を有する。
Furthermore, a detailed configuration of the
図6は、雑音抑圧装置のパラメータ推定部の処理手順の一例を示すフローチャートである。図6に従い、パラメータ推定部230の処理を説明する。先ず、初期化部231は、EMアルゴリズムの繰り返しインデックスをi=1と初期化する(ステップS230a)。次に、初期化部231は、EMアルゴリズムにおける話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλの初期値を、下記(6)〜(11)式により推定する初期値推定処理を実行する(ステップS230b)。ここで、下記(9)式におけるUは初期値推定に要するフレーム数である(例えばU=10)。また、下記(9)式におけるdiag{・}は、行列・の対角成分のみを計算し、非対角成分を0とすることを表す。
FIG. 6 is a flowchart illustrating an example of a processing procedure of the parameter estimation unit of the noise suppression device. The process of the
上記(9)式において、添え字iはEMアルゴリズムにおけるi回目の繰り返し推定におけるパラメータであることを示す。また、上記(6)式におけるベクトル0は、要素が0であるR次元縦ベクトルである。また、上記(10)式におけるGaussRand(・)は、正規乱数の発生関数である。
In the above equation (9), the subscript i indicates a parameter in the i-th iterative estimation in the EM algorithm. Further, the
次に、確率及び信号推定部232は、正規化対数メルスペクトルのベクトルODNN tと、音声DNN400a記憶されるパラメータである重み行列Wj及びバイアスベクトルvjとを用いて、下記(12)式〜(15)式により、音声事後確率Pt,kを計算する音声事後確率計算処理を実行する(ステップS230c)。
Next, the probability and signal
なお、上記(14)式において、Wj,k,k´は重み行列Wjの要素であり、vj,kはバイアスベクトルvjの要素であり、上記(15)式において、ODNN t,KはベクトルODNN tの要素である。 In the above equation (14), W j, k, k ′ are elements of the weight matrix W j , v j, k are elements of the bias vector v j , and in the above equation (15), O DNN t , K are elements of the vector O DNN t .
次に、確率及び信号推定部232は、(i−1)回目の繰り返し推定における話者適応パラメータのベクトルb(i−1)と、(i−1)回目の繰り返し推定における雑音GMMのパラメータセットλ(i−1)と、音声GMM300aのパラメータを利用して、下記(16)式のような、対数メルスペクトルのベクトルOtのGMMを構成する混合信号GMM生成処理を実行する(ステップS230d)。
Next, the probability and signal
なお、上記(16)式において、po (i)(ベクトルOt)は、ステップS230dの混合信号GMM生成処理にて生成される対数メルスペクトルのベクトルOtの、音声GMM300aに対する尤度である。また、wO,k,l (i)、ベクトルμO,k,l (i)、行列ΣO,k,l (i)は、それぞれ、(i−1)回目の繰り返し推定における話者適応パラメータセットのベクトルb(i−1)と、雑音GMMのパラメータセットλ(i−1)と、音声GMM300aのパラメータとから生成される対数メルスペクトルのベクトルOtのGMMの混合重み、平均ベクトル、対角分散行列であり、下記(17)式〜(20)式で与えられる。
In the above equation (16), p o (i) (vector O t ) is the likelihood of the log mel spectrum vector O t generated in the mixed signal GMM generation processing in step S230d with respect to the
なお、上記(18)式において、対数関数log(・)及び指数関数exp(・)は、ベクトルの要素毎に演算を行う。また、上記(18)式及び(20)式において、ベクトル1は、全ての要素が1であるR次元縦ベクトルである。また、上記(19)式において、Hk,l (i)は、関数h(・)のヤコビ行列である。
In the above equation (18), the logarithmic function log (•) and the exponential function exp (•) are calculated for each element of the vector. In the above equations (18) and (20), the
次に、確率及び信号推定部232は、i回目の繰り返し推定における対数メルスペクトルのベクトルOtの確率モデルのコスト関数Qo(・)の期待値を、下記(21)式により計算する期待値計算処理を実行する(EMアルゴリズムのE−step)(ステップS230e)。
Next, the probability and signal
上記(21)式において、ベクトルO0:T−1={O0,・・・,Ot,・・・OT−1}である。また、上記(21)式において、Tは対数メルスペクトルのベクトルOtの総フレーム数である。また、上記(21)式において、Pt,k,l (i)は、下記(22)式及び(23)により、フレームtにおける音声GMM300aの正規分布番号k及び雑音GMMの正規分布番号lに対して与えられる音声事後確率である。
In the above (21), the vector O 0: T-1 = { O 0, ···, O t, ··· O T-1} is. In the above equation (21), T is the total number of frames of the logarithmic mel spectrum vector O t . Further, in the above equation (21), P t, k, l (i) is changed to the normal distribution number k of the
なお、EMアルゴリズムのM−stepは、ステップS230fの信号推定処理、ステップS230gの信頼データ選択処理、ステップS230hの話者適応パラメータ推定処理、ステップS230iの雑音GMMパラメータ推定処理に該当する。 Note that M-step of the EM algorithm corresponds to the signal estimation process in step S230f, the confidence data selection process in step S230g, the speaker adaptive parameter estimation process in step S230h, and the noise GMM parameter estimation process in step S230i.
ステップS230fにおいて、確率及び信号推定部232は、話者適応パラメータのベクトルb(i)と、雑音GMMのパラメータセットλ(i)を更新するために用いる、クリーン音声の対数メルスペクトルのベクトルSt (i)と、雑音の対数メルスペクトルのベクトルNt (i)とを、対数メルスペクトルのベクトルOtから推定する。クリーン音声の対数メルスペクトルのベクトルSt (i)と、雑音の対数メルスペクトルのベクトルNt (i)は、下記(24)式及び(25)式により推定される。
In step S230f, the probability and signal
次に、信頼データ選択部233は、話者適応パラメータのベクトルb(i)と、雑音GMMのパラメータセットλ(i)とを推定する際に用いる、クリーン音声の推定対数メルスペクトルのベクトル^St (i)と、雑音の推定対数メルスペクトル^Nt (i)とを選択する信頼データ選択処理を実行する(ステップS230g)。
Next, the trust
図7は、雑音抑圧装置のパラメータ推定部による信頼データ選択処理のサブルーチンの一例を示すフローチャートである。信頼データ選択処理は、全フレームにおいて、クリーン音声と、雑音とのいずれが優勢であるかを判定した結果に基づき、クリーン音声が優勢であれば、各フレーム番号tをクリーン音声信号フレームの集合TS (i)に格納し、雑音が優勢であれば、各フレーム番号tを雑音フレームの集合TN (i)に格納する処理である。図7に示すように、先ず、信頼データ選択部233は、各フレームtにおけるSN比であるSNRt (i)を、下記(26)式により計算する。
FIG. 7 is a flowchart showing an example of a subroutine of the trust data selection process by the parameter estimation unit of the noise suppression device. In the reliability data selection process, based on the result of determining which of clean speech and noise is dominant in all frames, if clean speech is dominant, each frame number t is set to a set T of clean speech signal frames. If it is stored in S (i) and noise is dominant, each frame number t is stored in a set T N (i) of noise frames. As shown in FIG. 7, first, the reliable
上記(26)式において、^St,r (i)は、フレームtにおけるクリーン音声の推定対数メルスペクトルのベクトル^St (i)の要素であり、^Nt,r (i)は、フレームtにおける雑音の推定対数メルスペクトルのベクトル^Nt (i)の要素である。そして、信頼データ選択部233は、上記(26)式により得られた、各フレームtにおけるSN比であるSNRt (i)にk−meanクラスタリングを適用して、全てのフレームtにおけるSNRt (i)を2つのクラスC=0,1に分類し、各クラスの平均SN比をAveSNRc (i)と定義する(以上、ステップS230g−1)。
In the above (26), ^ S t, r (i) is an element of the vector of the estimated logarithmic Mel spectrum of the clean speech ^ S t (i) in the frame t, ^ N t, r ( i) is This is an element of the vector ^ N t (i) of the estimated log mel spectrum of noise in frame t. Then, the reliability
そして、信頼データ選択部233は、各フレームtにおいてAveSNRc=0 (i)≧AveSNRc=1 (i)であるか否かを判定する(ステップS230g−2)。信頼データ選択部233は、フレームtにおいてAveSNRc=0 (i)≧AveSNRc=1 (i)であると判定した場合、ステップS230g−3へ処理を移す。一方、信頼データ選択部233は、フレームtにおいてAveSNRc=0 (i)<AveSNRc=1 (i)であると判定した場合、ステップS230g−6へ処理を移す。
Then, the reliability
ステップS230g−3では、信頼データ選択部233は、各フレームtにおけるSNRt (i)がSNRt (i)∈{C=0}、すなわち、SNRt (i)が集合{C=0}(C=0のクラスタ)に属するか否かを判定する。信頼データ選択部233は、SNRt (i)∈{C=0}であると判定したフレームtについては、ステップS230g−4へ処理を移す。一方、信頼データ選択部233は、SNRt (i)∈{C=1}であると判定したフレームtについては、ステップS230g−5へ処理を移す。
In step S230g-3, the trust
ステップS230g−4では、信頼データ選択部233は、ステップS230g−3で判定したフレーム番号tを、クリーン音声信号フレームの集合TS (i)へ格納する。一方、ステップS230g−5では、信頼データ選択部233は、ステップS230g−3で判定したフレーム番号tを、雑音信号フレームの集合TN (i)へ格納する。
In step S230g-4, the reliable
他方、ステップS230g−6では、信頼データ選択部233は、各フレームtにおけるSNRt (i)がSNRt (i)∈{C=1}、すなわち、SNRt (i)が集合{C=1}(C=1のクラスタ)に属するか否かを判定する。信頼データ選択部233は、SNRt (i)∈{C=1}であると判定したフレームtについては、ステップS230g−7へ処理を移す。一方、信頼データ選択部233は、SNRt (i)∈{C=0}であると判定したフレームtについては、ステップS230g−8へ処理を移す。
On the other hand, in step S230g-6, the trust
ステップS230g−7では、信頼データ選択部233は、ステップS230g−6で判定したフレーム番号tを、クリーン音声信号フレームの集合TS (i)へ格納する。一方、ステップS230g−8では、信頼データ選択部233は、ステップS230g−6で判定したフレーム番号tを、雑音信号フレームの集合TN (i)へ格納する。ステップS230g−4、S230g−5、S230g−7、S230g−8の処理が終了すると、信頼データ選択部233は、図6に示す雑音抑圧装置のパラメータ推定部230の処理へ処理を復帰させる。
In step S230g-7, the reliable
次に、話者適応パラメータ推定部234は、ステップS230cの音声事後確率計算処理にて得た音声事後確率Pt,kと、ステップS230fの信号推定処理にて推定したクリーン音声の対数メルスペクトル^St (i)と、ステップS230gの信頼データ選択処理にて推定したクリーン音声信号フレームの集合TS (i)を用いて、下記(27)式により、話者適応パラメータのベクトルb(i)を更新する話者適応パラメータ推定処理を実行する(ステップS230h)。
Next, the speaker adaptive
次に、雑音GMM推定部235は、ステップS230eの期待値計算処理にて得た音声事後確率Pt,l (i)と、ステップS230fの信号推定処理にて推定した雑音の対数メルスペクトルのベクトル^Nt (i)と、ステップS230gの信頼データ選択処理にて推定した雑音信号フレームの集合TN (i)を用いて、下記(28)式〜(30)式により、雑音GMMのパラメータセットλ(i)を更新する雑音GMMパラメータ推定処理を実行する(ステップS230i)。
Next, the
次に、収束判定部236は、所定の収束条件が満されるか否かを判定する収束判定処理を実行する(ステップS230j)。収束判定部236は、所定の収束条件が満される場合は、ベクトルb=b(i)として、パラメータ推定部230の処理を終了する。一方、収束判定部236は、所定の収束条件が満たされない場合は、iを1インクリメント(i←i+1)し(ステップS230k)、ステップS230dへ処理を移す。なお、所定の収束条件は、下記(31)式で表される。なお、下記(31)式おいて、QO(・)は、上記(21)式で定義される。また、下記(31)式おいて、η=0.0001とする。
Next, the
また、さらに、図4に示す雑音抑圧部240の詳細構成について説明する。図8は、雑音抑圧装置の雑音抑圧部の構成の一例を示す図である。雑音抑圧部240は、複素数スペクトルのベクトルSpctと、対数メルスペクトルのベクトルOtと、音声GMM300aと、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλと、音声事後確率Pt,kとを用いて雑音抑圧フィルタを構成し、雑音を抑圧して雑音抑圧信号^Sτを得る。
Further, the detailed configuration of the
図8に示すように、雑音抑圧部240は、雑音抑圧フィルタ推定部241、雑音抑圧フィルタ適用部242を有する。雑音抑圧フィルタ推定部241は、対数メルスペクトルのベクトルOtと、音声GMM300aと、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλと、音声事後確率Pt,kとを入力とし、雑音抑圧フィルタFt,m Linを推定する。雑音抑圧フィルタ適用部242は、複素数スペクトルのベクトルSpctと、雑音抑圧フィルタFt,m Linとを入力とし、雑音を抑圧して雑音抑圧信号^Sτを得る。
As illustrated in FIG. 8, the
図9は、雑音抑圧装置の雑音抑圧フィルタ推定部の処理手順の一例を示すフローチャートである。先ず、雑音抑圧フィルタ推定部241は、音声GMM300aと、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλとから、対数メルスペクトルのベクトルOtのGMMのパラメータを、下記(32)式〜(35)式のように生成する確率モデル生成処理を実行する(ステップS241a)。
FIG. 9 is a flowchart illustrating an example of a processing procedure of the noise suppression filter estimation unit of the noise suppression device. First, the noise suppression
次に、雑音抑圧フィルタ推定部241は、下記(36)式及び(37)式により、事後確率Pt,k,lを、対数メルスペクトルのベクトルOtのGMMのパラメータと、対数メルスペクトルのベクトルOtと、音声事後確率Pt,kとを用いて計算する確率計算処理を実行する(ステップS241b)。
Next, the noise suppression
次に、雑音抑圧フィルタ推定部241は、音声GMM300aの平均ベクトルμSI,kと、話者適応パラメータのベクトルbとから生成される話者依存(SD)GMMの平均ベクトルμSD,kと、雑音GMMのパラメータセットλに含まれる雑音GMMの平均ベクトルμN,lと、事後確率Pt,k,lとを用いて、メル周波数軸上での雑音抑圧フィルタFt,r Melを、下記(38)式のように推定する雑音抑圧フィルタ推定処理を実行する(ステップS241c)。なお、下記(38)式は、ベクトルの要素毎の表記である。
Next, the noise suppression
次に、雑音抑圧フィルタ推定部241は、メル周波数軸上での雑音抑圧フィルタFt,r Melを、線形周波数軸上での雑音抑圧フィルタFt,r Linへ変換する雑音抑圧フィルタ変換処理を実行する(ステップS241d)。メル周波数軸上での雑音抑圧フィルタFt,r Melを、線形周波数軸上での雑音抑圧フィルタFt,r Linへ変換する処理は、3次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値が推定されるものである。ステップS241dが終了すると、雑音抑圧フィルタ推定部241の処理は終了する。
Next, the noise suppression
図10は、雑音抑圧装置の雑音抑圧フィルタ適用部の処理手順の一例を示すフローチャートである。先ず、雑音抑圧フィルタ適用部242は、複素数スペクトルのベクトルSpctに対して雑音抑圧フィルタFt,m Linを、下記(39)式のように掛け合わせることにより、雑音抑圧された複素数スペクトル^St,mを得るフィルタリング処理を実行する(ステップS242a)。なお、下記(39)式は、ベクトルの要素毎の表記である。
FIG. 10 is a flowchart illustrating an example of a processing procedure of the noise suppression filter application unit of the noise suppression device. First, the noise suppression
次に、雑音抑圧フィルタ適用部242は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧音声^St,nを得る逆高速フーリエ変化処理を実行する(ステップS242b)。次に、雑音抑圧フィルタ適用部242は、各フレームtの雑音抑圧音声^St,nを、下記(40)式及び(41)式のように、窓関数wnを解除しながら連結して、連続した雑音抑圧音声^sτを得る波形連結処理を実行する(ステップS242c)。ステップS242cが終了すると、雑音抑圧フィルタ適用部242の処理は終了する。
Next, the noise suppression
[実施形態による効果]
実施形態の効果を示すため、音声信号と雑音信号が混在する音響信号を実施形態の雑音抑圧装置200へ入力し、雑音抑圧を実施した例を示す。以下、実験方法及び結果について説明する。
[Effects of the embodiment]
In order to show the effect of the embodiment, an example is shown in which an acoustic signal in which a voice signal and a noise signal are mixed is input to the
実験では、AURORA4とよばれる雑音環境下音声認識データベースを用いて評価を行った。AURORA4の評価データセットは、A: 雑音の無い音声、B:6種類の雑音が混在した音声、C:異なるマイクで収録された雑音の無い音声、D:異なるマイクで収録された6種類の雑音が混在した音声の4セットで構成される。AURORA4の詳細については、文献3「N. Parihar, J. Picone, D. Pearce, H.G. Hirsch,“Performance analysis of the Aurora large vocabulary baseline system.” in Proceedings of the European Signal Processing Conference, Vienna, Austria, 2004.」に記載のとおりである。
In the experiment, evaluation was performed using a speech recognition database under a noisy environment called AURORA4. The AURORA4 evaluation data set consists of A: voice without noise, B: voice mixed with six kinds of noise, C: voice without noise recorded with different microphones, and D: six kinds of noise recorded with different microphones. Is composed of 4 sets of mixed audio. For details of AURORA4, see
AURORA4の音声データは、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音声データに基づく音響信号に対し、1フレームの時間長を25ms(Frame=400サンプル点)とし、10ms(Shift=160サンプル点)ごとにフレームの始点を移動させて、音響特徴抽出を行った。
The audio data of
音声GMM300aとして、R=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=512のGMMを用い、AURORA4の雑音の混合が無い学習用音声データを用いて学習した。雑音GMMの混合分布数にはL=4を与えた。音声DNN400aには、R=24次元の対数メルスペクトルとその1次及び2次の回帰係数、及び現在のフレームを中心に前後Z=5フレームずつの特徴量を含む合計D0=3R×(2Z+1)=792次元のベクトルを音響特徴量としてJ=5層の隠れ層を有し、入力層にD0=792ノード、隠れ層にDj=2048(j=1,・・・,4)ノード、出力層にD5=K=512ノードを有するDNNを用い、AURORA4の雑音が混合した学習用音声データを用いて学習した。
As the
音声認識は、有限状態トランスデューサーに基づく認識器により行った。有限状態トランスデューサーに基づく認識器の詳細は、文献4「T. Hori, et al.,“Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition.” IEEE Trans. on ASLP, vol. 15, no. 4, pp. 1352-1365, May 2007.」に記載のとおりである。
Speech recognition was performed by a recognizer based on a finite state transducer. Details of the recognizer based on the finite state transducer are described in
音響モデルにはDNNを用いており、7層の隠れ層を有する。各隠れ層のノード数は、2048である。また、出力層のノード数は、3042である。音声認識の音響特徴量は、1フレームの時間長を25ms(Frame=400)とし、10ms(Shift=1600サンプル点)ごとにフレームの始点を移動させて分析した24次元の対数メルスペクトルとその1次及び2次の回帰係数、及び現在のフレームを中心に前後5フレームずつの特徴量を含む合計792次元のベクトルである。また、言語モデルにはTri−gramを用い、語彙数は5,000単語である。また、音声認識の評価尺度は、下記(42)式の単語誤り率(Word Error Rate:WER)とした。下記(42)式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程、音声認識性能が高いことを示す。 The acoustic model uses DNN and has seven hidden layers. The number of nodes in each hidden layer is 2048. The number of nodes in the output layer is 3042. The acoustic feature amount for speech recognition is a 24-dimensional log mel spectrum analyzed by moving the start point of a frame every 10 ms (Shift = 1600 sample points) with a time length of one frame being 25 ms (Frame = 400) and its 1 This is a 792-dimensional vector in total including second and second order regression coefficients and feature quantities of the previous and next 5 frames around the current frame. The language model uses Tri-gram and the vocabulary is 5,000 words. The evaluation scale for speech recognition was the word error rate (WER) of the following equation (42). In the following equation (42), N is the total number of words, D is the number of dropped error words, S is the number of replacement error words, I is the number of insertion error words, and the smaller the WER value, the higher the speech recognition performance. .
図11は、実施形態による効果の一例を示す図である。図11に示す「従来技術」は、、文献5「M. Fujimoto and T. Nakatani, “A reliable data selection for model-based noise suppression using unsupervised joint speaker adaptation and noise model estimation.” in Proceedings of ICSPCC '12, pp. 4713-4716, Aug 2012.」に開示されている方法による雑音抑圧結果を示す。図11は、「雑音抑圧なし」、「従来技術」、「実施形態」の各音声認識の評価結果の比較を示す。図11に示すとおり、実施形態は、従来技術に比べ、雑音を含む評価セットB及びDにおいて、WERが小さいことから、より高い雑音抑圧性能を得られることが分かる。
FIG. 11 is a diagram illustrating an example of the effect according to the embodiment. The “prior art” shown in FIG. 11 is described in
すなわち、実施形態によれば、様々な雑音が存在する環境において、音響信号に含まれる雑音信号が多峰性の分布に従う非定常雑音であっても、入力された音響信号から雑音信号を抑圧して、目的とする音声信号を高品質で取り出すことができる。 That is, according to the embodiment, in an environment where various types of noise exist, even if the noise signal included in the acoustic signal is non-stationary noise that follows a multimodal distribution, the noise signal is suppressed from the input acoustic signal. Thus, the target audio signal can be extracted with high quality.
[その他の実施形態]
その他の実施形態では、図2のステップS110a及び図3のステップS120aのフレーム切り出し処理において、窓関数wnとして、ハミング窓以外に、方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。また、その他の実施形態では、音声GMM300aに代えて、音声信号の確率モデルとして、隠れマルコフモデル(Hidden Markov Model:HMM)等の他の確率モデルを用いてもよい。また、その他の実施形態では、雑音GMMに代えて、雑音信号の確率モデルとして、HMM等の他の確率モデルを用いてもよい。
[Other Embodiments]
In other embodiments, the frame cutout process of step S120a of steps S110a and 3 of Figure 2, as a window function w n, besides Hamming window, utilizing a rectangular window, Hanning window, a window function, such as Blackman windows May be. In other embodiments, instead of the
また、その他の実施形態では、話者適応パラメータのベクトルbを、下記(43)式のように、音声GMM300aに含まれる正規分布の番号kに依存するパラメータとしてもよい。
In other embodiments, the speaker adaptation parameter vector b may be a parameter depending on the number k of the normal distribution included in the
また、その他の実施形態では、図6のステップS230g及び図7に示す信頼データ選択処理を、k−meanクラスタリングに代えて、下記(44)式に示すように、所定閾値ThSNRを用いて実行してもよい。 In other embodiments, the trust data selection process shown in step S230g of FIG. 6 and FIG. 7 is executed using a predetermined threshold Th SNR as shown in the following equation (44) instead of k-means clustering. May be.
また、その他の実施形態では、図9のステップS241cの雑音抑圧フィルタ推定処理において、上記(38)式のような各事後確率Pt,k,lの重み付け平均ではなく、最大の重みつまり最大の事後確率Pt,k,lにより重み付けした推定結果を用いてもよい。この場合、最大の事後確率Pt,k,lが他の事後確率Pt,k,lと比べて十分大きいことが望ましい。 Also, in other embodiments, the noise suppression filter estimation process in step S241c of FIG. 9, the (38) each posterior probability P t as formula, k, rather than the weighted average of l, the maximum of the largest weight, that An estimation result weighted by the posterior probability P t, k, l may be used. In this case, it is desirable that the maximum posterior probability P t, k, l is sufficiently larger than the other posterior probabilities P t, k, l .
(音声モデル学習装置及び雑音抑圧装置の装置構成について)
図1に示す音声モデル学習装置100及び図4に示す雑音抑圧装置200の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音声モデル学習装置100及び雑音抑圧装置200の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、音声モデル学習装置100及び雑音抑圧装置200は、一体の装置であってもよい。
(About device configuration of speech model learning device and noise suppression device)
Each component of the speech
また、実施形態では、音声モデル学習装置100及び雑音抑圧装置200は別装置とし、音声モデル学習装置100の第1音響特徴抽出部110及び第2音響特徴抽出部120と、雑音抑圧装置200の第1音響特徴抽出部210及び第2音響特徴抽出部220とは、それぞれ異なる機能構成部とした。しかし、これに限らず、第1音響特徴抽出部110と第1音響特徴抽出部210、及び/又は、第2音響特徴抽出部120と第2音響特徴抽出部220は、同一の機能構成部であってもよい。
In the embodiment, the speech
また、実施形態では、音声GMM記憶装置300及び音声DNN記憶装置400は、音声モデル学習装置100及び雑音抑圧装置200と別装置であるとした。しかし、これに限らず、音声GMM記憶装置300及び/又は音声DNN記憶装置400は、音声モデル学習装置100及び/又は雑音抑圧装置200と一体の装置であってもよい。
In the embodiment, the speech
また、音声モデル学習装置100及び雑音抑圧装置200において行われる各処理は、全部又は任意の一部が、CPU(Central Processing Unit)等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。また、音声モデル学習装置100及び雑音抑圧装置200において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
Each processing performed in the speech
また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。 In addition, among the processes described in the embodiment, all or a part of the processes described as being automatically performed can be manually performed. Alternatively, all or some of the processes described as being manually performed among the processes described in the embodiments can be automatically performed by a known method. In addition, the above-described and illustrated processing procedures, control procedures, specific names, and information including various data and parameters can be changed as appropriate unless otherwise specified.
(プログラムについて)
図12は、プログラムが実行されることにより、音声モデル学習装置及び雑音抑圧装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
(About the program)
FIG. 12 is a diagram illustrating an example of a computer that realizes a speech model learning device and a noise suppression device by executing a program. The
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012. The
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音声モデル学習装置100及び雑音抑圧装置200の各処理を規定するプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、音声モデル学習装置100及び雑音抑圧装置200における機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
The hard disk drive 1031 stores, for example, an OS 1091, an
また、実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
The setting data used in the processing of the embodiment is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093やプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
上記実施形態及びその他の実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 The above-described embodiments and other embodiments are included in the invention disclosed in the claims and equivalents thereof as well as included in the technology disclosed in the present application.
100 音声モデル学習装置
110 第1音響特徴抽出部
120 第2音響特徴抽出部
130 最尤分布推定部
140 音声DNN学習部
200 雑音抑圧装置
210 第1音響特徴抽出部
220 第2音響特徴抽出部
230 パラメータ推定部
231 初期化部
232 確率及び信号推定部
233 信頼データ選択部
234 話者適応パラメータ推定部
235 雑音GMM推定部
236 収束判定部
240 雑音抑圧部
241 雑音抑圧フィルタ推定部
242 雑音抑圧フィルタ適用部
300 音声GMM記憶装置
300a 音声GMM
400 音声DNN記憶装置
400a 音声DNN
1000 コンピュータ
1010 メモリ
1020 CPU
100 speech
400 voice
1000 Computer 1010
Claims (12)
学習用の音声信号から音響特徴量を抽出する学習用特徴量抽出工程と、
前記学習用特徴量抽出工程により抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する音声ラベル生成工程と、
前記学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する学習用正規化特徴量抽出工程と、
前記音声ラベル生成工程により生成されたラベル情報と、前記学習用正規化特徴量抽出工程により抽出された正規化された音響特徴量とを用いて、音声モデルを学習する音声モデル学習工程と
を含んだことを特徴とする音声モデル学習方法。 A speech model learning method executed by a speech model learning device,
A feature extraction step for learning that extracts an acoustic feature from a speech signal for learning;
An audio label generation step of generating label information that associates the acoustic feature amount extracted by the learning feature amount extraction step with a mixed normal distribution of the audio signal;
A learning normalized feature amount extraction step of extracting a normalized acoustic feature amount from a learning acoustic signal including the learning speech signal and the learning noise signal;
A speech model learning step of learning a speech model using the label information generated by the speech label generation step and the normalized acoustic feature amount extracted by the learning normalization feature amount extraction step. A speech model learning method characterized by
ことを特徴とする請求項1に記載の音声モデル学習方法。 The speech model learning step includes a mixed normal distribution of the speech signal and each node of the output layer of the deep neural network corresponding to the normalized acoustic feature amount extracted by the learning normalized feature amount extraction step. The speech model learning method according to claim 1, wherein the speech model is learned by associating the speech model.
請求項1又は2に記載の音声モデル学習方法により学習された前記音声モデルを音声モデル記憶部に保存する音声モデル記憶工程と、
音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する特徴抽出工程と、
前記混合音響信号から正規化された音響特徴量を抽出する正規化特徴量抽出工程と、
前記音声モデルと、前記正規化特徴量抽出工程により抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する音声事後確率計算工程と、
前記音声事後確率計算工程により計算された音声事後確率と、音声信号の混合正規分布とを用いて、前記混合音響信号における前記雑音信号を抑圧する雑音抑圧工程と
を含んだことを特徴とする雑音抑圧方法。 A noise suppression method performed by a noise suppression device,
A speech model storage step of storing the speech model learned by the speech model learning method according to claim 1 or 2 in a speech model storage unit;
A feature extraction step of extracting an acoustic feature amount from a mixed acoustic signal including an audio signal and a noise signal;
A normalized feature extraction step of extracting a normalized acoustic feature from the mixed acoustic signal;
A speech posterior probability calculation step of calculating a speech posterior probability using the speech model and the normalized acoustic feature amount extracted by the normalized feature amount extraction step;
A noise suppression step of suppressing the noise signal in the mixed acoustic signal using the speech posterior probability calculated by the speech posterior probability calculation step and a mixed normal distribution of the voice signal. Repression method.
前記信号推定工程により推定された前記音声信号及び前記雑音信号から、前記音声信号の混合正規分布を前記音声信号に該当する音声の話者に適応させるための話者適応パラメータを推定する話者適応パラメータ推定工程と、
前記信号推定工程により推定された前記雑音信号から、雑音信号の混合正規分布を生成する雑音混合正規分布生成工程と、
前記話者適応パラメータ及び前記音声信号の混合正規分布と、前記雑音信号の混合正規分布とから、前記混合音響信号の混合正規分布を生成する混合正規分布生成工程と、
前記音声事後確率と前記混合音響信号の混合正規分布とから、前記混合音響信号に含まれる前記音声信号の期待値及び前記雑音信号の期待値を計算する期待値計算工程と
をさらに含み、
前記信号推定工程、前記話者適応パラメータ推定工程、前記雑音混合正規分布生成工程、前記混合正規分布生成工程及び前記期待値計算工程は、前記期待値計算工程により計算された前記音声信号の期待値及び前記雑音信号の期待値が所定条件を満たすまで、前記音声信号の期待値及び前記雑音信号の期待値について再帰的に処理を繰り返す
ことを特徴とする請求項3に記載の雑音抑圧方法。 A signal estimation step of estimating the audio signal and the noise signal included in the mixed acoustic signal;
Speaker adaptation for estimating speaker adaptation parameters for adapting a mixed normal distribution of the speech signal to a speech speaker corresponding to the speech signal from the speech signal and the noise signal estimated by the signal estimation step. A parameter estimation step;
A noise mixed normal distribution generating step for generating a mixed normal distribution of noise signals from the noise signal estimated by the signal estimating step;
A mixed normal distribution generating step of generating a mixed normal distribution of the mixed acoustic signal from the mixed normal distribution of the speaker adaptation parameter and the voice signal and the mixed normal distribution of the noise signal;
An expected value calculation step of calculating an expected value of the speech signal and an expected value of the noise signal included in the mixed acoustic signal from the speech posterior probability and a mixed normal distribution of the mixed acoustic signal;
The signal estimation step, the speaker adaptation parameter estimation step, the noise mixed normal distribution generation step, the mixed normal distribution generation step, and the expected value calculation step are the expected values of the speech signal calculated by the expected value calculation step. 4. The noise suppression method according to claim 3, wherein processing is recursively repeated for the expected value of the speech signal and the expected value of the noise signal until the expected value of the noise signal satisfies a predetermined condition.
をさらに備え、
前記話者適応パラメータ推定工程は、前記選択工程により選択された前記音声信号及び前記雑音信号から前記話者適応パラメータを推定し、
前記雑音混合正規分布生成工程は、前記選択工程により選択された前記雑音信号から前記雑音信号の混合正規分布を生成する
ことを特徴とする請求項4に記載の雑音抑圧方法。 A selection step of selecting a signal satisfying a predetermined condition from the voice signal and the noise signal estimated by the signal estimation step,
The speaker adaptation parameter estimation step estimates the speaker adaptation parameter from the voice signal and the noise signal selected by the selection step,
The noise suppression method according to claim 4, wherein the noise mixed normal distribution generation step generates a mixed normal distribution of the noise signal from the noise signal selected by the selection step.
前記学習用特徴量抽出部により抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する音声ラベル生成部と、
前記学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する学習用正規化特徴量抽出部と、
前記音声ラベル生成部により生成されたラベル情報と、前記学習用正規化特徴量抽出部により抽出された正規化された音響特徴量とを用いて、音声モデルを学習する音声モデル学習部と
を備えることを特徴とする音声モデル学習装置。 A feature extraction unit for learning that extracts an acoustic feature from a speech signal for learning;
An audio label generation unit that generates label information that associates the acoustic feature amount extracted by the learning feature amount extraction unit with the mixed normal distribution of the audio signal;
A learning normalized feature quantity extraction unit that extracts a normalized acoustic feature quantity from a learning acoustic signal including the learning speech signal and the learning noise signal;
A speech model learning unit that learns a speech model using the label information generated by the speech label generation unit and the normalized acoustic feature amount extracted by the learning normalized feature amount extraction unit. A speech model learning apparatus characterized by that.
ことを特徴とする請求項6に記載の音声モデル学習装置。 The speech model learning unit includes a mixed normal distribution of the speech signal and each node of the output layer of the deep neural network corresponding to the normalized acoustic feature amount extracted by the learning normalized feature amount extraction unit. The speech model learning apparatus according to claim 6, wherein the speech model is learned by associating the speech model.
音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する特徴抽出部と、
前記混合音響信号から正規化された音響特徴量を抽出する正規化特徴量抽出部と、
前記音声モデルと、前記正規化特徴量抽出部により抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する音声事後確率計算部と、
前記音声事後確率計算部により計算された音声事後確率と、音声信号の混合正規分布とを用いて、前記混合音響信号における前記雑音信号を抑圧する雑音抑圧部と
を備えることを特徴とする雑音抑圧装置。 A speech model storage unit that stores the speech model learned by the speech model learning device according to claim 6;
A feature extraction unit that extracts an acoustic feature amount from a mixed acoustic signal including an audio signal and a noise signal;
A normalized feature quantity extraction unit for extracting a normalized acoustic feature quantity from the mixed acoustic signal;
A speech posterior probability calculation unit that calculates a speech posterior probability using the speech model and the normalized acoustic feature amount extracted by the normalized feature amount extraction unit;
A noise suppression unit comprising: a noise suppression unit that suppresses the noise signal in the mixed acoustic signal using the speech posterior probability calculated by the speech posterior probability calculation unit and a mixed normal distribution of the speech signal. apparatus.
前記信号推定部により推定された前記音声信号及び前記雑音信号から、前記音声信号の混合正規分布を前記音声信号に該当する音声の話者に適応させるための話者適応パラメータを推定する話者適応パラメータ推定部と、
前記信号推定部により推定された前記雑音信号から、雑音信号の混合正規分布を生成する雑音混合正規分布生成部と、
前記話者適応パラメータ及び前記音声信号の混合正規分布と、前記雑音信号の混合正規分布とから、前記混合音響信号の混合正規分布を生成する混合正規分布生成部と、
前記音声事後確率と前記混合音響信号の混合正規分布とから、前記混合音響信号に含まれる前記音声信号の期待値及び前記雑音信号の期待値を計算する期待値計算部と
をさらに備え、
前記信号推定部、前記話者適応パラメータ推定部、前記雑音混合正規分布生成部、前記混合正規分布生成部及び前記期待値計算部は、前記期待値計算部により計算された前記音声信号の期待値及び前記雑音信号の期待値が所定条件を満たすまで、前記音声信号の期待値及び前記雑音信号の期待値について再帰的に処理を繰り返す
ことを特徴とする請求項8に記載の雑音抑圧装置。 A signal estimation unit for estimating the audio signal and the noise signal included in the mixed acoustic signal;
Speaker adaptation for estimating speaker adaptation parameters for adapting a mixed normal distribution of the speech signal to speech speakers corresponding to the speech signal from the speech signal and the noise signal estimated by the signal estimation unit A parameter estimator;
From the noise signal estimated by the signal estimation unit, a noise mixed normal distribution generation unit that generates a mixed normal distribution of noise signals,
A mixed normal distribution generating unit that generates a mixed normal distribution of the mixed acoustic signal from the mixed normal distribution of the speaker adaptation parameter and the voice signal and the mixed normal distribution of the noise signal;
An expected value calculation unit for calculating an expected value of the speech signal and an expected value of the noise signal included in the mixed acoustic signal from the speech posterior probability and a mixed normal distribution of the mixed acoustic signal; and
The signal estimation unit, the speaker adaptive parameter estimation unit, the noise mixed normal distribution generation unit, the mixed normal distribution generation unit, and the expected value calculation unit are expected values of the speech signal calculated by the expected value calculation unit. The noise suppression device according to claim 8, wherein the processing is recursively repeated for the expected value of the speech signal and the expected value of the noise signal until the expected value of the noise signal satisfies a predetermined condition.
をさらに備え、
前記話者適応パラメータ推定部は、前記選択部により選択された前記音声信号及び前記雑音信号から前記話者適応パラメータを推定し、
前記雑音混合正規分布生成部は、前記選択部により選択された前記雑音信号から前記雑音信号の混合正規分布を生成する
ことを特徴とする請求項9に記載の雑音抑圧装置。 A selection unit that selects a signal that satisfies a predetermined condition from the voice signal and the noise signal estimated by the signal estimation unit;
The speaker adaptation parameter estimation unit estimates the speaker adaptation parameter from the voice signal and the noise signal selected by the selection unit,
The noise suppression apparatus according to claim 9, wherein the noise mixed normal distribution generation unit generates a mixed normal distribution of the noise signal from the noise signal selected by the selection unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015021453A JP6243858B2 (en) | 2015-02-05 | 2015-02-05 | Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015021453A JP6243858B2 (en) | 2015-02-05 | 2015-02-05 | Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016143043A JP2016143043A (en) | 2016-08-08 |
JP6243858B2 true JP6243858B2 (en) | 2017-12-06 |
Family
ID=56570438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015021453A Active JP6243858B2 (en) | 2015-02-05 | 2015-02-05 | Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6243858B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417207A (en) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | A kind of depth mixing generation network self-adapting method and system |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7019138B2 (en) * | 2017-02-28 | 2022-02-15 | 国立大学法人電気通信大学 | Coding device, coding method and program |
JP6588936B2 (en) * | 2017-03-22 | 2019-10-09 | 日本電信電話株式会社 | Noise suppression apparatus, method thereof, and program |
CN106991999B (en) * | 2017-03-29 | 2020-06-02 | 北京小米移动软件有限公司 | Voice recognition method and device |
CN107452389B (en) * | 2017-07-20 | 2020-09-01 | 大象声科(深圳)科技有限公司 | Universal single-track real-time noise reduction method |
CN109754821B (en) * | 2017-11-07 | 2023-05-02 | 北京京东尚科信息技术有限公司 | Information processing method and system, computer system and computer readable medium |
WO2019162990A1 (en) * | 2018-02-20 | 2019-08-29 | 三菱電機株式会社 | Learning device, voice activity detector, and method for detecting voice activity |
CN108922560B (en) * | 2018-05-02 | 2022-12-02 | 杭州电子科技大学 | Urban noise identification method based on hybrid deep neural network model |
CN108777146A (en) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | Speech model training method, method for distinguishing speek person, device, equipment and medium |
JP7231181B2 (en) * | 2018-07-17 | 2023-03-01 | 国立研究開発法人情報通信研究機構 | NOISE-RESISTANT SPEECH RECOGNITION APPARATUS AND METHOD, AND COMPUTER PROGRAM |
CN111028852A (en) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | Noise removing method in intelligent calling system based on CNN |
JP7504601B2 (en) * | 2020-01-28 | 2024-06-24 | 株式会社東芝 | Signal processing device, signal processing method and program |
CN111402922B (en) * | 2020-03-06 | 2023-06-30 | 武汉轻工大学 | Audio signal classification method, device, equipment and storage medium based on small samples |
CN111489763B (en) * | 2020-04-13 | 2023-06-20 | 武汉大学 | GMM model-based speaker recognition self-adaption method in complex environment |
CN113223505B (en) * | 2021-04-30 | 2023-12-08 | 珠海格力电器股份有限公司 | Model training method, data processing method, device, electronic equipment and storage medium |
CN113593591B (en) * | 2021-07-27 | 2024-06-11 | 北京小米移动软件有限公司 | Corpus noise reduction method and device, electronic equipment and storage medium |
KR20240056314A (en) * | 2022-10-21 | 2024-04-30 | 주식회사 히어디엘 | An apparatus and method of reducing the environmental noise in speech waveform by using band-pass filter and deep learning |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5670298B2 (en) * | 2011-11-30 | 2015-02-18 | 日本電信電話株式会社 | Noise suppression device, method and program |
JP5740362B2 (en) * | 2012-07-31 | 2015-06-24 | 日本電信電話株式会社 | Noise suppression apparatus, method, and program |
-
2015
- 2015-02-05 JP JP2015021453A patent/JP6243858B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417207A (en) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | A kind of depth mixing generation network self-adapting method and system |
Also Published As
Publication number | Publication date |
---|---|
JP2016143043A (en) | 2016-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6243858B2 (en) | Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program | |
Li et al. | An overview of noise-robust automatic speech recognition | |
EP1515305B1 (en) | Noise adaption for speech recognition | |
EP2189976B1 (en) | Method for adapting a codebook for speech recognition | |
KR100745976B1 (en) | Method and apparatus for classifying voice and non-voice using sound model | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
JPH0850499A (en) | Signal identification method | |
JP4586577B2 (en) | Disturbance component suppression device, computer program, and speech recognition system | |
WO2010019831A1 (en) | Hidden markov model for speech processing with training method | |
JPWO2009133719A1 (en) | Acoustic model learning device and speech recognition device | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
KR102406512B1 (en) | Method and apparatus for voice recognition | |
JP6748304B2 (en) | Signal processing device using neural network, signal processing method using neural network, and signal processing program | |
JP4512848B2 (en) | Noise suppressor and speech recognition system | |
JP5713818B2 (en) | Noise suppression device, method and program | |
JP5670298B2 (en) | Noise suppression device, method and program | |
JP5997114B2 (en) | Noise suppression device, noise suppression method, and program | |
JP5740362B2 (en) | Noise suppression apparatus, method, and program | |
JP4960845B2 (en) | Speech parameter learning device and method thereof, speech recognition device and speech recognition method using them, program and recording medium thereof | |
Ming et al. | An iterative longest matching segment approach to speech enhancement with additive noise and channel distortion | |
JP2004509364A (en) | Speech recognition system | |
JP5457999B2 (en) | Noise suppressor, method and program thereof | |
JP6673861B2 (en) | Signal processing device, signal processing method and signal processing program | |
JP5498452B2 (en) | Background sound suppression device, background sound suppression method, and program | |
JP5885686B2 (en) | Acoustic model adaptation apparatus, acoustic model adaptation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6243858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |