JP6243858B2 - Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program - Google Patents

Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program Download PDF

Info

Publication number
JP6243858B2
JP6243858B2 JP2015021453A JP2015021453A JP6243858B2 JP 6243858 B2 JP6243858 B2 JP 6243858B2 JP 2015021453 A JP2015021453 A JP 2015021453A JP 2015021453 A JP2015021453 A JP 2015021453A JP 6243858 B2 JP6243858 B2 JP 6243858B2
Authority
JP
Japan
Prior art keywords
signal
speech
noise
learning
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015021453A
Other languages
Japanese (ja)
Other versions
JP2016143043A (en
Inventor
雅清 藤本
雅清 藤本
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015021453A priority Critical patent/JP6243858B2/en
Publication of JP2016143043A publication Critical patent/JP2016143043A/en
Application granted granted Critical
Publication of JP6243858B2 publication Critical patent/JP6243858B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラムに関する。   The present invention relates to a speech model learning method, a noise suppression method, a speech model learning device, a noise suppression device, a speech model learning program, and a noise suppression program.

近年、自動音声認識は、情報化社会の中で利用局面が増えつつあり、技術の進歩が大きく期待されている。自動音声認識を実際の環境で利用する場合には、処理対象とする音声信号以外の信号、つまり雑音が含まれる音響信号から雑音を取り除き、所望の音声信号を抽出する必要がある。   In recent years, the use of automatic speech recognition has been increasing in the information society, and technological advances are highly expected. When automatic speech recognition is used in an actual environment, it is necessary to remove noise from a signal other than a speech signal to be processed, that is, an acoustic signal including noise, and extract a desired speech signal.

例えば、音声信号と雑音信号が混合された信号を入力とし、あらかじめ推定した音声信号及び雑音信号それぞれの確率モデルから入力混合信号の確率モデルを生成する。その際、入力混合信号の確率モデルを構成する音声信号及び雑音信号それぞれの確率モデルと、入力混合信号に含まれる音声信号及び雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。その差分をEMアルゴリズムを用いて推定し、入力混合信号の確率モデルを最適化する。その後、最適化された入力混合信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている(例えば非特許文献1参照)。   For example, a signal obtained by mixing a speech signal and a noise signal is input, and a probability model of the input mixed signal is generated from the probability models of the speech signal and the noise signal estimated in advance. At that time, the difference between the probability model of each of the speech signal and the noise signal constituting the probability model of the input mixed signal and the statistics of each of the speech signal and the noise signal included in the input mixed signal is expressed by Taylor series approximation. The difference is estimated using the EM algorithm, and the input mixed signal probability model is optimized. Thereafter, a method of suppressing noise using the optimized probabilistic model of the input mixed signal and the parameters of the probabilistic model of the speech signal is disclosed (for example, see Non-Patent Document 1).

また、例えば、音声信号と雑音信号が混合された信号を入力とし,多数話者の学習用音声データを用いて学習された音声信号の確率モデルを入力混合信号に含まれる音声信号の発話者の特徴に適応(話者適応)させ、かつ統計的な性質が多峰的な分布に従う雑音信号に対処するため、入力混合信号より音声信号と、雑音信号とをそれぞれ抽出する。この際、SN比を基準として、単位時間毎に各抽出信号の信頼度を算出する。抽出した音声信号及び雑音信号と、各信号の信頼度とを用いて話者適応のパラメータと、多峰的な分布に従う雑音信号の確率モデルをEMアルゴリズムにより推定する。その後、話者適応後の音声信号の確率モデルと、推定した雑音の確率モデルとから入力信号の最適な確率モデルを生成し、入力混合信号の最適な確率モデルと話者適応後の音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている(例えば非特許文献2参照)。   In addition, for example, a signal obtained by mixing a speech signal and a noise signal is input, and a probability model of a speech signal learned by using speech data for learning of a large number of speakers is used for the speaker of the speech signal included in the input mixture signal. In order to adapt to the feature (speaker adaptation) and deal with a noise signal whose statistical properties follow a multimodal distribution, a speech signal and a noise signal are extracted from the input mixed signal, respectively. At this time, the reliability of each extracted signal is calculated for each unit time with the SN ratio as a reference. The extracted speech signal and noise signal and the reliability of each signal are used to estimate a speaker adaptation parameter and a stochastic model of the noise signal according to a multimodal distribution using an EM algorithm. Then, the optimal probability model of the input signal is generated from the probability model of the speech signal after speaker adaptation and the estimated probability model of noise, and the optimal probability model of the input mixed signal and the speech signal after speaker adaptation are generated. A method of suppressing noise using a parameter of a probability model is disclosed (for example, see Non-Patent Document 2).

P. J. Moreno, B. Raj, and R. M. Stern, “A vector Taylor series approach for environment-independent speech recognition.” in Proceedings of ICASSP '96, vol. II, pp. 733-736, May 1996.P. J. Moreno, B. Raj, and R. M. Stern, “A vector Taylor series approach for environment-independent speech recognition.” In Proceedings of ICASSP '96, vol. II, pp. 733-736, May 1996. M. Fujimoto and T. Nakatani, “A reliable data selection for model-based noise suppression using unsupervised joint speaker adaptation and noise model estimation.” in Proceedings of ICSPCC '12, pp. 4713-4716, Aug 2012.M. Fujimoto and T. Nakatani, “A reliable data selection for model-based noise suppression using unsupervised joint speaker adaptation and noise model estimation.” In Proceedings of ICSPCC '12, pp. 4713-4716, Aug 2012.

しかしながら、上記従来技術は、例えば非特許文献1において、入力混合信号に含まれる雑音信号の特徴が定常的かつ、その分布(頻度分布もしくは確率分布)が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴を持ち、その分布は多峰性であることが多い。そのため、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。また、入力混合信号に含まれる音声信号と雑音信号との関係が非線形関数により表現されるため、テイラー級数近似を用いても音声信号及び雑音信号それぞれの確率モデルのパラメータ推定の際に解析解が得られない。そのため、音声信号及び雑音信号それぞれの確率モデルパラメータの最適解が得られず、十分な雑音抑圧性能が得られない。   However, the above prior art is based on the assumption that, for example, in Non-Patent Document 1, the characteristics of the noise signal included in the input mixed signal are stationary and the distribution (frequency distribution or probability distribution) is unimodal. This is a technology for noise suppression. However, many noise signals in the real environment have non-stationary characteristics, and their distribution is often multimodal. Therefore, it cannot cope with non-stationary noise signals and sufficient noise suppression performance cannot be obtained. In addition, since the relationship between the speech signal and the noise signal included in the input mixed signal is expressed by a nonlinear function, an analytical solution can be used when estimating the parameters of the probability model of the speech signal and the noise signal even if Taylor series approximation is used. I can't get it. Therefore, the optimal solution of the probability model parameter for each of the speech signal and the noise signal cannot be obtained, and sufficient noise suppression performance cannot be obtained.

また、上記従来技術は、例えば非特許文献2において、多峰的な分布に従う雑音信号の確率モデルを推定することにより、非定常的な雑音信号に対応することが可能であっても、話者適応のパラメータと、多峰的な分布に従う雑音信号の確率モデルとをEMアルゴリズムにより推定する。音声信号の確率モデルには、混合正規分布(Gaussian Mixture Model:GMM)を用いるが、入力混合信号から音声信号と雑音信号とを抽出、話者適応パラメータ推定及び雑音抑圧フィルタを設計する際には、音声信号のGMMに含まれる各要素分布に対する事後確率(音声事後確率と定義)が必要となる。これは,入力混合信号に含まれる音声信号が、各時刻において音声信号のGMM内のどの要素分布に属するかという識別問題に相当する。しかし、識別器としてのGMMの性能は低く、GMMでは十分な雑音抑圧性能が得られない。   Further, in the non-patent document 2, for example, the above prior art estimates a noise signal probabilistic model according to a multimodal distribution, so that it is possible to handle a non-stationary noise signal. An adaptation parameter and a stochastic model of a noise signal following a multimodal distribution are estimated by an EM algorithm. A Gaussian Mixture Model (GMM) is used for the probabilistic model of the speech signal. When the speech signal and the noise signal are extracted from the input mixture signal and the speaker adaptive parameter estimation and the noise suppression filter are designed. Therefore, posterior probabilities (defined as speech posterior probabilities) for each element distribution included in the GMM of the speech signal are required. This corresponds to an identification problem as to which element distribution in the GMM of the audio signal the audio signal included in the input mixed signal belongs to at each time. However, the performance of the GMM as a discriminator is low, and sufficient noise suppression performance cannot be obtained with the GMM.

本願が開示する実施形態の一例は、上記に鑑みてなされたものであって、雑音抑圧性能を向上させることを目的とする。   An example of an embodiment disclosed in the present application has been made in view of the above, and aims to improve noise suppression performance.

本願の実施形態の一例は、学習用の音声信号から音響特徴量を抽出する。そして、実施形態の一例は、抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する。そして、実施形態の一例は、学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する。そして、実施形態の一例は、生成されたラベル情報と、抽出された正規化された音響特徴量とを用いて、音声モデルを学習する。   In an example of the embodiment of the present application, an acoustic feature amount is extracted from an audio signal for learning. And an example of embodiment produces | generates the label information which matches the extracted acoustic feature-value and the mixing normal distribution of an audio | voice signal. In the exemplary embodiment, a normalized acoustic feature amount is extracted from a learning acoustic signal including a learning speech signal and a learning noise signal. In the exemplary embodiment, the speech model is learned using the generated label information and the extracted normalized acoustic feature amount.

また、本願の実施形態の一例は、上記音声モデル学習方法により学習された音声モデルを音声モデル記憶部に保存する。そして、実施形態の一例は、音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する。そして、実施形態の一例は、混合音響信号から正規化された音響特徴量を抽出する。そして、実施形態の一例は、音声モデルと、抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する。そして、実施形態の一例は、計算された音声事後確率と、音声信号の混合正規分布とを用いて、混合音響信号における雑音信号を抑圧する。   Further, in an example of the embodiment of the present application, the speech model learned by the speech model learning method is stored in the speech model storage unit. And an example of embodiment extracts an acoustic feature-value from the mixed acoustic signal containing an audio | voice signal and a noise signal. And an example of embodiment extracts the acoustic feature-value normalized from the mixed acoustic signal. Then, in an example of the embodiment, the speech posterior probability is calculated using the speech model and the extracted normalized acoustic feature amount. In the exemplary embodiment, the noise signal in the mixed acoustic signal is suppressed using the calculated voice posterior probability and the mixed normal distribution of the voice signal.

本願が開示する実施形態の一例によれば、例えば、雑音抑圧性能を向上させることができる。   According to an exemplary embodiment disclosed in the present application, for example, noise suppression performance can be improved.

図1は、音声モデル学習装置の構成の一例を示す図である。FIG. 1 is a diagram illustrating an example of a configuration of a speech model learning apparatus. 図2は、音声モデル学習装置の第1音響特徴抽出部の処理手順の一例を示すフローチャートである。FIG. 2 is a flowchart illustrating an example of a processing procedure of the first acoustic feature extraction unit of the speech model learning device. 図3は、音声モデル学習装置の第2音響特徴抽出部の処理手順の一例を示すフローチャートである。FIG. 3 is a flowchart illustrating an example of a processing procedure of the second acoustic feature extraction unit of the speech model learning device. 図4は、雑音抑圧装置の構成の一例を示す図である。FIG. 4 is a diagram illustrating an example of the configuration of the noise suppression device. 図5は、雑音抑圧装置のパラメータ推定部の構成の一例を示す図である。FIG. 5 is a diagram illustrating an example of a configuration of a parameter estimation unit of the noise suppression device. 図6は、雑音抑圧装置のパラメータ推定部の処理手順の一例を示すフローチャートである。FIG. 6 is a flowchart illustrating an example of a processing procedure of the parameter estimation unit of the noise suppression device. 図7は、雑音抑圧装置のパラメータ推定部による信頼データ選択処理のサブルーチンの一例を示すフローチャートである。FIG. 7 is a flowchart showing an example of a subroutine of the trust data selection process by the parameter estimation unit of the noise suppression device. 図8は、雑音抑圧装置の雑音抑圧部の構成の一例を示す図である。FIG. 8 is a diagram illustrating an example of the configuration of the noise suppression unit of the noise suppression device. 図9は、雑音抑圧装置の雑音抑圧フィルタ推定部の処理手順の一例を示すフローチャートである。FIG. 9 is a flowchart illustrating an example of a processing procedure of the noise suppression filter estimation unit of the noise suppression device. 図10は、雑音抑圧装置の雑音抑圧フィルタ適用部の処理手順の一例を示すフローチャートである。FIG. 10 is a flowchart illustrating an example of a processing procedure of the noise suppression filter application unit of the noise suppression device. 図11は、実施形態による効果の一例を示す図である。FIG. 11 is a diagram illustrating an example of the effect according to the embodiment. 図12は、プログラムが実行されることにより、音声モデル学習装置及び雑音抑圧装置が実現されるコンピュータの一例を示す図である。FIG. 12 is a diagram illustrating an example of a computer that realizes a speech model learning device and a noise suppression device by executing a program.

[実施形態]
以下、本願が開示する音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラムの実施形態を説明する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態及びその他の実施形態は、矛盾しない範囲で適宜組合せてもよい。
[Embodiment]
Hereinafter, embodiments of a speech model learning method, a noise suppression method, a speech model learning device, a noise suppression device, a speech model learning program, and a noise suppression program disclosed in the present application will be described. The following embodiments are merely examples, and do not limit the technology disclosed by the present application. Moreover, you may combine suitably embodiment shown below and other embodiment in the range with no contradiction.

なお、以下の実施形態では、例えば、ベクトル又はスカラーであるAに対し、“^A”と記載する場合は「“A”の真上に“^”が記された記号」と同等とし、“ ̄A”と記載する場合は「“A”の真上に“ ̄”が記された記号」と同等であるとする。また、“A”がベクトルである場合には、「ベクトルA」と表記し、“A”がスカラーである場合には、単に「A」と表記し、“A”が集合である場合には、「集合A」と表記するものとする。また、例えばベクトルAの関数fは、f(ベクトルA)と表記するものとする。なお、行列Aに対し、行列A−1は、行列Aの逆行列を表す。 In the following embodiments, for example, when “^ A” is written for A which is a vector or a scalar, it is equivalent to “a symbol with“ ^ ”immediately above“ A ””. When “ ̄A” is described, it is equivalent to “a symbol in which“  ̄ ”is written immediately above“ A ””. Also, when “A” is a vector, it is expressed as “vector A”, when “A” is a scalar, it is simply expressed as “A”, and when “A” is a set. And “set A”. For example, the function f of the vector A is expressed as f (vector A). Note that the matrix A −1 represents the inverse matrix of the matrix A with respect to the matrix A.

また、以下の実施形態では、音声信号の識別器として、ディープニューラルネットワーク(Deep Neural Network:DNN)に基づく識別器を導入する。DNNは、多層パーセプトロンの一種であり、通常の多層パーセプトロンが3層程度の識別層を有するのに対し、実施形態では、3層より多くの識別層を有し、より深いネットワークを構築する。具体的には、各識別層を制約付きボルツマンマシン(Restricted Boltzmann Machine:RBM)で学習し、その後、各識別層のRBMを連結してネットワーク全体のパラメータを調整することにより、深い識別層を持つニューラルネットワークを構築することができる。このような深い識別層を持たせることで、音声信号の識別性能を高めることができる。   In the following embodiments, a classifier based on a deep neural network (DNN) is introduced as a classifier for an audio signal. DNN is a kind of multi-layer perceptron, and a normal multi-layer perceptron has about three identification layers, whereas in the embodiment, it has more than three identification layers and constructs a deeper network. Specifically, each identification layer is learned by a restricted Boltzmann Machine (RBM), and then the RBM of each identification layer is connected to adjust the parameters of the entire network, thereby having a deep identification layer. A neural network can be constructed. By providing such a deep discrimination layer, the discrimination performance of the audio signal can be enhanced.

DNNによる音声信号の識別器を雑音抑圧に導入するためには、DNNの出力層に含まれる各ノードと、音声信号のGMMの各要素分布との対応付けを行う必要がある。そのために、先ず、各時刻における雑音の存在しない音声信号が、音声信号のGMMに含まれるどの要素分布に属するかを示した分布ラベルを生成する。その後、音声信号と雑音信号との混合信号と、分布ラベルを用いて音声信号のDNNを学習する。このような方法を用いることにより、音声信号のGMMの各要素と音声信号のDNNの出力層の各ノードとの対応付けが可能となる。   In order to introduce a DNN voice signal discriminator to noise suppression, it is necessary to associate each node included in the DNN output layer with each element distribution of the GMM of the voice signal. For this purpose, first, a distribution label indicating which element distribution included in the GMM of the audio signal the audio signal without noise at each time belongs is generated. Thereafter, the DNN of the audio signal is learned using the mixed signal of the audio signal and the noise signal and the distribution label. By using such a method, it is possible to associate each element of the GMM of the audio signal with each node of the output layer of the DNN of the audio signal.

また、音声信号のDNNを用いることで、入力混合信号に含まれる音声信号の識別性能が向上し、入力混合信号からの音声信号と雑音信号との抽出精度、及び、話者適応パラメータと、雑音抑圧フィルタとの推定精度とを改善することが可能となる。   Further, by using the DNN of the audio signal, the discrimination performance of the audio signal included in the input mixed signal is improved, the accuracy of extracting the audio signal and the noise signal from the input mixed signal, the speaker adaptation parameter, and the noise It is possible to improve the estimation accuracy with the suppression filter.

なお、DNNについては、文献1「A. Mohamed, G. Dahl, G. Hinton, “Acoustic Modeling Using Deep Belief Networks.”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no1., pp. 14-22, 2012.」、文献2「久保陽太郎,“ディープラーニングによるパターン認識”,情報処理,vol. 54,no. 5,pp. 500-508,April 2013.」に詳述されている。   Regarding DNN, reference 1 “A. Mohamed, G. Dahl, G. Hinton,“ Acoustic Modeling Using Deep Belief Networks. ”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no1., Pp. 14-22, 2012. ”, Reference 2“ Yotaro Kubo, “Pattern Recognition by Deep Learning”, Information Processing, vol. 54, no. 5, pp. 500-508, April 2013. ” .

(音声モデル学習装置の構成)
図1は、音声モデル学習装置の構成の一例を示す図である。音声モデル学習装置100は、音声GMM記憶装置300、音声DNN記憶装置400が接続される。音声GMM記憶装置300は、音声GMM300aを記憶する。音声DNN記憶装置400は、後述する音声DNN学習部140により学習されたパラメータである重み行列Wと、バイアスベクトルvとを含む音声DNN400aを記憶する。音声モデル学習装置100は、学習用音声信号Oclean τ及び学習用音声信号Oclean τと学習用雑音信号とが混合した学習用混合信号Onoisy τを入力とし、DNNのパラメータである重み行列Wと、バイアスベクトルvとを出力する。音声モデル学習装置100は、第1音響特徴抽出部110、第2音響特徴抽出部120、最尤分布推定部130、音声DNN学習部140を有する。
(Configuration of speech model learning device)
FIG. 1 is a diagram illustrating an example of a configuration of a speech model learning apparatus. The speech model learning device 100 is connected to a speech GMM storage device 300 and a speech DNN storage device 400. The voice GMM storage device 300 stores a voice GMM 300a. The voice DNN storage device 400 stores a voice DNN 400a including a weight matrix W j that is a parameter learned by a voice DNN learning unit 140 described later and a bias vector v j . The speech model learning apparatus 100 receives a learning speech signal O clean τ, a learning speech signal O clean τ and a learning mixed signal O noisey τ mixed with a learning noise signal, and a weight matrix W that is a DNN parameter. j and the bias vector v j are output. The speech model learning apparatus 100 includes a first acoustic feature extraction unit 110, a second acoustic feature extraction unit 120, a maximum likelihood distribution estimation unit 130, and a speech DNN learning unit 140.

第1音響特徴抽出部110は、学習用音声信号Oclean τを入力とし、学習用音声信号Oclean τから音声DNNの学習に用いる対応分布ラベルLabを得るための特徴量である学習用対数メルスペクトルのベクトルOclean を抽出する。 The first acoustic feature extraction unit 110 receives the learning speech signal O clean τ , and uses a learning logarithm that is a feature amount for obtaining the correspondence distribution label Lab t used for learning the speech DNN from the learning speech signal O clean τ. Extract mel spectrum vector O clean t .

図2は、音声モデル学習装置の第1音響特徴抽出部の処理手順の一例を示すフローチャートである。図2に従い、第1音響特徴抽出部110の処理を説明する。先ず、第1音響特徴抽出部110は、フレーム切出処理にて学習用音声信号Oclean τ(τは離散信号のサンプル点)を時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出す(ステップS110a)。例えば、第1音響特徴抽出部110は、Frame=400個のサンプル点(16,000Hz×25ms)の音響信号Oclean τ,nを、Shift=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。ここで、tはフレーム番号、nはフレーム内のn番目のサンプル点を表す。その際、第1音響特徴抽出部110は、例えば、下記(1)式に示すハミング窓のような窓関数wを掛け合わせて切り出す。 FIG. 2 is a flowchart illustrating an example of a processing procedure of the first acoustic feature extraction unit of the speech model learning device. The process of the first acoustic feature extraction unit 110 will be described with reference to FIG. First, the first acoustic feature extraction unit 110 moves the start point of the learning speech signal O clean τ (τ is a sampling point of a discrete signal) in the time axis direction with a constant time width in the frame cutout process for a fixed time. A long acoustic signal is cut out as a frame (step S110a). For example, the first acoustic feature extraction unit 110 converts the acoustic signal O clean τ, n of Frame = 400 sample points (16,000 Hz × 25 ms) into Shift = 160 sample points (16,000 Hz × 10 ms). Cut out while moving the start point. Here, t represents the frame number, and n represents the nth sample point in the frame. At that time, the first acoustic feature extraction unit 110, for example, cut out by multiplying a window function w n, such as Hamming window shown in the following equation (1).

Figure 0006243858
Figure 0006243858

その後、第1音響特徴抽出部110は、音響信号Oclean t,nに対して、M点(Mは2のべき乗かつFrame以上の値であり、例えばM=512)の高速フーリエ変換処理を実行し、複素数スペクトルのベクトルSpcclean ={Spcclean t,0,・・・,Spcclean t,m,・・・,Spcclean t,M−1を得る(mは、周波数ビンの番号)(ステップS110b)。なお、{・}は、行列又はベクトルの転置を表す。次に、各Spcclean t,mの絶対値に対して、メルフィルタバンク分析処理(ステップS110c)、対数化処理(ステップS110d)を適用し、R次元(例えばR=24)の対数メルスペクトルを要素に持つベクトルOclean ={Oclean t,0,・・・,Oclean t,r,・・・,Oclean t,R−1を算出する(rはベクトルOclean の要素番号)。この結果、第1音響特徴抽出部110は、学習用対数メルスペクトルとして、ベクトルOclean を出力する。 Thereafter, the first acoustic feature extraction unit 110 performs fast Fourier transform processing of M points (M is a power of 2 and a value equal to or greater than Frame, for example, M = 512) for the acoustic signal O clean t, n . and a vector of complex spectrum Spc clean t = {Spc clean t , 0, ···, Spc clean t, m, ···, Spc clean t, M-1} to obtain a T (m is the number of frequency bins (Step S110b). Note that {·} T represents transposition of a matrix or a vector. Next, mel filter bank analysis processing (step S110c) and logarithmization processing (step S110d) are applied to the absolute value of each Spc clean t, m , and an R-dimensional (for example, R = 24) log mel spectrum is obtained. Vector O clean t = {O clean t, 0 ,..., O clean t, r ,..., O clean t, R−1 } T is calculated (r is an element of the vector O clean t number). As a result, the first acoustic feature extraction unit 110 outputs a vector O clean t as a logarithmic mel spectrum for learning.

第2音響特徴抽出部120は、学習用音声信号Oclean τと学習用雑音信号とが混合した学習用混合信号Onoisy τを入力とし、学習用混合信号Onoisy τから音声モデル学習を実施するための特徴量である学習用正規化対数メルスペクトルのベクトルOnoisy を抽出する。 The second acoustic feature extraction unit 120 receives the learning mixed signal O noisey τ obtained by mixing the learning speech signal O clean τ and the learning noise signal, and performs speech model learning from the learning mixed signal O noisey τ. The learning normalized log mel spectrum vector O noise t is extracted.

図3は、音声モデル学習装置の第2音響特徴抽出部の処理手順の一例を示すフローチャートである。図3に従い、第2音響特徴抽出部120の処理を説明する。第2音響特徴抽出部120は、ステップS120a〜S120dにおいて、Onoisy τに対して、図2に示す、Oclean τに対して実行されるステップS110a〜S110dそれぞれと同様の処理を実行する。 FIG. 3 is a flowchart illustrating an example of a processing procedure of the second acoustic feature extraction unit of the speech model learning device. The process of the second acoustic feature extraction unit 120 will be described with reference to FIG. Second acoustic feature extraction unit 120 in step S120a~S120d, against O noisy tau, shown in FIG. 2, performing the same processing as each step S110a~S110d performed on O clean tau.

次に、第2音響特徴抽出部120は、ステップS120dの対数化処理にて得られた学習用混合信号Onoisy τの対数メルスペクトルに対して、正規化処理を適用する(ステップS120e)。具体的には、第2音響特徴抽出部120は、学習用混合信号Onoisy τの対数メルスペクトル全体から求めた学習用混合信号Onoisy τの対数メルスペクトルの平均と標準偏差を用いて、学習用混合信号Onoisy τの対数メルスペクトルを平均0、分散1に正規化する。 Next, the second acoustic feature extraction unit 120 applies a normalization process to the logarithmic mel spectrum of the learning mixed signal O noisey τ obtained by the logarithmic process of step S120d (step S120e). Specifically, the second acoustic feature extraction unit 120 uses the mean and standard deviation of the log mel spectrum of the learning mixed signal O noisy mixed signals for learning obtained from whole log mel spectrum of tau O noisy tau, learning use mixed signal O noisy averaged logarithmic Mel spectrum of tau 0, normalized to unit variance.

次に、第2音響特徴抽出部120は、ステップS120eの正規化処理にて正規化された学習用混合信号Onoisy τの対数メルスペクトルの1次と、2次の回帰係数を算出し、正規化された学習用混合信号Onoisy τの対数メルスペクトルと合わせて3R次元のベクトルOnorm ={Onorm t,0,・・・,Onorm t,r,・・・,Onorm t,3R−1を構成する回帰係数付与処理を実行する(ステップS120f)。その後、第2音響特徴抽出部120は、ステップS120fの回帰係数付与処理にて回帰係数が付与されたベクトルOnorm をフレームtの前後Zフレーム{t−Z,・・・,t,・・・,t+Z}分だけ結合した3R×(2R+1)次元のベクトルOnorm ={ベクトルOnorm t―Z ,・・・,ベクトルOnorm ,・・・,ベクトルOnorm t+Z を算出するフレーム連結処理を実行する(例えばZ=5)(ステップS120g)。この結果、第2音響特徴抽出部120は、学習用正規化対数メルスペクトルのベクトルOnorm を出力する。 Next, the second acoustic feature extraction unit 120 calculates the primary and secondary regression coefficients of the log mel spectrum of the learning mixed signal O noisey τ normalized by the normalization process in step S120e, of the vector O of 3R dimensions together with logarithmic Mel spectrum of the learning mixed signal O noisy τ norm t = {O norm t, 0, ···, O norm t, r, ···, O norm t, 3R-1 } Regression coefficient provision processing that constitutes T is executed (step S120f). Thereafter, the second acoustic feature extraction unit 120, the front and rear Z frame {t-Z in step vector regression coefficients have been granted by the regression coefficient imparting treatment of S120f O norm t frame t, · · ·, t, · · ·, t + Z} amount corresponding bound 3R × (2R + 1) dimensional vector O norm t = {vector O norm t-Z T, ··· , vector O norm t T, ···, vector O norm t + Z T} T Is executed (for example, Z = 5) (step S120g). Consequently, the second acoustic feature extraction unit 120 outputs the vector O norm t of the learning normalized logarithmic Mel spectrum.

最尤分布推定部130は、第1音響特徴抽出部110の出力である学習用対数メルスペクトルのベクトルOclean と、音声GMM記憶装置300の主記憶上に記憶された音声GMM300aとを用いて、対応分布ラベルLabを得る。 The maximum likelihood distribution estimation unit 130 uses the learning log mel spectrum vector O clean t , which is the output of the first acoustic feature extraction unit 110, and the speech GMM 300a stored in the main memory of the speech GMM storage device 300. , The corresponding distribution label Lab t is obtained.

最尤分布推定部130は、学習用対数メルスペクトルのベクトルOclean と、音声GMM300aとを用いて、音声DNNの学習に用いる対応分布ラベルLabを、下記(2)式により推定する。 The maximum likelihood distribution estimation unit 130 estimates the corresponding distribution label Lab t used for learning of the speech DNN using the learning log mel spectrum vector O clean t and the speech GMM 300a according to the following equation (2).

Figure 0006243858
Figure 0006243858

上記(2)式において、kは音声GMM300aに含まれる正規分布の番号であり、最大値Kを取る。Kは総正規分布数である。例えば、K=512である。上記(2)式において、wSI,kは音声GMM300aの混合重みであり、ベクトルμSI,kは音声GMM300aの平均ベクトルであり、ベクトルΣSI,kは音声GMM300aの対角分散行列である。それぞれのパラメータであるwSI,k、ベクトルμSI,k、ベクトルΣSI,kは、多数話者の学習用音声データを用いて事前に推定されたものである。また、上記(2)式において、関数N(・)は、下記(3)式で与えられる多次元正規分布の確率密度関数である。上記(2)式は、kを1≦k≦Kの範囲で走査した場合のmax{・}を対応分布ラベルLabとする。 In the above equation (2), k is a normal distribution number included in the speech GMM 300a and takes the maximum value K. K is the total normal distribution number. For example, K = 512. In the above equation (2), w SI, k is the mixing weight of the speech GMM 300a, the vector μSI , k is an average vector of the speech GMM 300a, and the vector ΣSI , k is a diagonal dispersion matrix of the speech GMM 300a. Each parameter, w SI, k , vector μ SI, k , and vector ΣSI , k, is estimated in advance using speech data for learning of many speakers. In the above equation (2), the function N (•) is a probability density function of a multidimensional normal distribution given by the following equation (3). In the above equation (2), max {·} when k is scanned in the range of 1 ≦ k ≦ K is the corresponding distribution label Lab t .

Figure 0006243858
Figure 0006243858

音声DNN学習部140は、対応分布ラベルLabと学習用正規化対数メルスペクトルのベクトルOnoisy とを用いて、音声DNN400aのパラメータである重み行列Wとバイアスベクトルvとを学習する。音声DNN学習部140は、最尤分布推定部130により推定された対応分布ラベルLabと、第2音響特徴抽出部120により計算された学習用正規化対数メルスペクトルのベクトルOnoisy とを用いて、音声DNN400aとして、J層の隠れ層を持つDNNを学習する(例えばJ=5)。DNNの一般的な学習方法は、前述の文献1及び文献2に示されるとおりである。 Voice DNN learning unit 140 uses the corresponding distribution labels Lab t and vector O noisy t of the learning normalized logarithmic Mel spectrum, learns the weight matrix W j and the bias vector v j is a parameter of the speech DNN400a. The speech DNN learning unit 140 uses the correspondence distribution label Lab t estimated by the maximum likelihood distribution estimation unit 130 and the learning normalized log mel spectrum vector O noise t calculated by the second acoustic feature extraction unit 120. Thus, a DNN having a hidden layer of J is learned as the speech DNN 400a (for example, J = 5). The general learning method of DNN is as shown in the above-mentioned literature 1 and literature 2.

音声DNN学習部140は、音声DNN400aのパラメータである重み行列Wと、バイアスベクトルvとを、音声DNN記憶装置400へ出力し、主記憶上に記憶させる。なお、重み行列WはD×Dj−1次元の行列であり、バイアスベクトルvはD次元の縦ベクトルである(例えば、D=3R×(2Z+1)、D=2048(j=1,・・・,J−1)、D=K)。 The voice DNN learning unit 140 outputs the weight matrix W j and the bias vector v j that are parameters of the voice DNN 400a to the voice DNN storage device 400 and stores them in the main memory. The weight matrix W j is a D j × D j−1 dimensional matrix, and the bias vector v j is a D j dimensional vertical vector (for example, D 0 = 3R × (2Z + 1), D j = 2048 ( j = 1,..., J-1), D j = K).

(雑音抑圧装置の構成)
図4は、雑音抑圧装置の構成の一例を示す図である。雑音抑圧装置200は、音声GMM記憶装置300、音声DNN記憶装置400が接続される。雑音抑圧装置200は、音声信号及び雑音信号が混合された入力混合信号Oτを入力とし、入力混合信号Oτにおいて雑音信号が抑圧されたと推定される雑音抑圧信号^Sτを出力する。雑音抑圧装置200は、第1音響特徴抽出部210、第2音響特徴抽出部220、パラメータ推定部230、雑音抑圧部240を有する。
(Configuration of noise suppression device)
FIG. 4 is a diagram illustrating an example of the configuration of the noise suppression device. The noise suppression device 200 is connected to a voice GMM storage device 300 and a voice DNN storage device 400. The noise suppression apparatus 200 receives an input mixed signal O τ mixed with a speech signal and a noise signal, and outputs a noise suppression signal ^ S τ that is estimated to be suppressed in the input mixed signal O τ . The noise suppression apparatus 200 includes a first acoustic feature extraction unit 210, a second acoustic feature extraction unit 220, a parameter estimation unit 230, and a noise suppression unit 240.

第1音響特徴抽出部210は、音声信号及び雑音信号が混合した入力混合信号Oτを入力とし、入力混合信号Oτに対して雑音抑圧を実施するための特徴量である複素数スペクトルのベクトルSpc及び入力混合信号Oτの対数メルスペクトルのベクトルOを抽出する。第1音響特徴抽出部210は、音声モデル学習装置100の第1音響特徴抽出部110と同様の処理機能を有する。 The first acoustic feature extractor 210, the audio signal and the noise signal as input an input mixed signal O tau mixing, a vector of complex spectrum is a feature amount for the practice of the noise suppression for the input mixed signal O tau Spc A logarithmic mel spectrum vector O t of t and the input mixed signal O τ is extracted. The first acoustic feature extraction unit 210 has the same processing function as the first acoustic feature extraction unit 110 of the speech model learning device 100.

第2音響特徴抽出部220は、入力混合信号Oτを入力とし、入力混合信号Oτから音声事後確率Pt,kを計算するための特徴量である正規化対数メルスペクトルのベクトルODNN を抽出する。第2音響特徴抽出部220は、音声モデル学習装置100の第2音響特徴抽出部120と同様の処理機能を有する。 The second acoustic feature extraction unit 220 receives the input mixed signal O τ and receives a normalized log mel spectrum vector O DNN t that is a feature amount for calculating the speech posterior probability P t, k from the input mixed signal O τ. To extract. The second acoustic feature extraction unit 220 has the same processing function as the second acoustic feature extraction unit 120 of the speech model learning device 100.

パラメータ推定部230は、第1音響特徴抽出部210により抽出された対数メルスペクトルのベクトルOと、音声GMM記憶装置300に記憶された音声GMM300aと、第2音響特徴抽出部220により抽出された正規化対数メルスペクトルのベクトルODNN と、音声DNN記憶装置400に記憶された音声DNN400aとを用いて、話者適応パラメータのベクトルbと、雑音の確率モデルである雑音GMMのパラメータセットλとを推定する。 The parameter estimation unit 230 is extracted by the logarithmic mel spectrum vector O t extracted by the first acoustic feature extraction unit 210, the speech GMM 300 a stored in the speech GMM storage device 300, and the second acoustic feature extraction unit 220. Using the normalized log mel spectrum vector O DNN t and the speech DNN 400a stored in the speech DNN storage device 400, the speaker adaptation parameter vector b, and the noise GMM parameter set λ, which is a noise probability model, Is estimated.

多数話者の学習用音声データから推定されたパラメータから構成される音声GMM300aは、話者独立(Speaker Independent:SI)GMMと呼ばれ、特定話者の学習用音声データから推定されたパラメータから構成される音声GMMは、話者依存(Speaker Dependent:SD)GMMと呼ばれる。話者独立GMMを特定話者の学習用音声データを用いて学習することは、実用的ではないため、話者適応処理により、話者依存GMMを得る。すなわち、下記(4)式による話者適応処理により、話者独立GMMの平均ベクトルμSI,kを変換することにより、話者依存GMMの平均ベクトルμSD,kを得る。 Speech GMM 300a composed of parameters estimated from multi-speaker learning speech data is referred to as speaker independent (SI) GMM, and is composed of parameters estimated from specific speaker learning speech data. The voice GMM to be performed is called a speaker dependent (SD) GMM. Since it is not practical to learn the speaker independent GMM using the speech data for learning of a specific speaker, a speaker dependent GMM is obtained by speaker adaptation processing. That is, the average vector μ SD, k of the speaker-dependent GMM is obtained by converting the average vector μ SI, k of the speaker independent GMM by speaker adaptation processing according to the following equation (4).

Figure 0006243858
Figure 0006243858

上記(4)式において、ベクトルbは話者適応パラメータであり、R次元のベクトルでる。ベクトルbは、音声GMM300aに含まれる正規分布の番号kに対して独立のパラメータとする。一方、雑音GMMは、下記(5)式により与えられる。   In the above equation (4), the vector b is a speaker adaptation parameter and is an R-dimensional vector. The vector b is an independent parameter for the normal distribution number k included in the speech GMM 300a. On the other hand, the noise GMM is given by the following equation (5).

Figure 0006243858
Figure 0006243858

上記(5)式において、lは雑音GMMに含まれる正規分布の番号、Lは正規分布の総数である(例えば、L=4)。また、ベクトルNは雑音の対数メルスペクトルであり、p(ベクトルN)は雑音GMMの尤度である。また、wN,lは雑音GMMの混合重みであり、ベクトルμN,lは雑音GMMの平均ベクトル、行列ΣN,lは雑音GMMの対角分散行列である。以後、雑音GMMのパラメータセットをλ={wN,l,ベクトルμN,l,行列ΣN,l}と定義する。 In the above equation (5), l is the number of the normal distribution included in the noise GMM, and L is the total number of normal distributions (for example, L = 4). Further, the vector N t is a log mel spectrum of noise, and p N (vector N t ) is the likelihood of the noise GMM. Further, w N, l is a noise GMM mixing weight, vector μ N, l is an average vector of noise GMM, and matrix Σ N, l is a diagonal dispersion matrix of noise GMM. Hereinafter, the parameter set of the noise GMM is defined as λ = {w N, l , vector μ N, l , matrix Σ N, l }.

パラメータ推定部230は、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλは、EMアルゴリズムにより推定する。EMアルゴリズムは、ある確率モデルのパラメータ推定に用いられる方法であり、確率モデルのコスト関数(対数尤度関数)の期待値を計算するExpectation−step(E−step)と、コスト関数を最大化するMaximization−step(M−step)とを、収束条件を満たすまで繰り返すことによりパラメータを最適化する。   The parameter estimation unit 230 estimates the speaker adaptation parameter vector b and the noise GMM parameter set λ using the EM algorithm. The EM algorithm is a method used for parameter estimation of a certain probability model, and maximizes the cost function with an Expectation-step (E-step) for calculating an expected value of a cost function (log likelihood function) of the probability model. The parameter is optimized by repeating Maximization-step (M-step) until the convergence condition is satisfied.

さらに、図4に示すパラメータ推定部230の詳細構成について説明する。図5は、雑音抑圧装置のパラメータ推定部の構成の一例を示す図である。図5に示すように、パラメータ推定部230は、初期化部231、確率及び信号推定部232、信頼データ選択部233、話者適応パラメータ推定部234、雑音GMM推定部235、収束判定部236を有する。   Furthermore, a detailed configuration of the parameter estimation unit 230 illustrated in FIG. 4 will be described. FIG. 5 is a diagram illustrating an example of a configuration of a parameter estimation unit of the noise suppression device. As shown in FIG. 5, the parameter estimation unit 230 includes an initialization unit 231, a probability and signal estimation unit 232, a confidence data selection unit 233, a speaker adaptive parameter estimation unit 234, a noise GMM estimation unit 235, and a convergence determination unit 236. Have.

図6は、雑音抑圧装置のパラメータ推定部の処理手順の一例を示すフローチャートである。図6に従い、パラメータ推定部230の処理を説明する。先ず、初期化部231は、EMアルゴリズムの繰り返しインデックスをi=1と初期化する(ステップS230a)。次に、初期化部231は、EMアルゴリズムにおける話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλの初期値を、下記(6)〜(11)式により推定する初期値推定処理を実行する(ステップS230b)。ここで、下記(9)式におけるUは初期値推定に要するフレーム数である(例えばU=10)。また、下記(9)式におけるdiag{・}は、行列・の対角成分のみを計算し、非対角成分を0とすることを表す。   FIG. 6 is a flowchart illustrating an example of a processing procedure of the parameter estimation unit of the noise suppression device. The process of the parameter estimation unit 230 will be described with reference to FIG. First, the initialization unit 231 initializes the repetition index of the EM algorithm as i = 1 (step S230a). Next, the initialization unit 231 executes initial value estimation processing for estimating the speaker adaptation parameter vector b in the EM algorithm and the initial values of the noise GMM parameter set λ using the following equations (6) to (11). (Step S230b). Here, U in the following equation (9) is the number of frames required for initial value estimation (for example, U = 10). Further, diag {·} in the following equation (9) represents that only the diagonal component of the matrix is calculated and the non-diagonal component is set to zero.

Figure 0006243858
Figure 0006243858

上記(9)式において、添え字iはEMアルゴリズムにおけるi回目の繰り返し推定におけるパラメータであることを示す。また、上記(6)式におけるベクトル0は、要素が0であるR次元縦ベクトルである。また、上記(10)式におけるGaussRand(・)は、正規乱数の発生関数である。   In the above equation (9), the subscript i indicates a parameter in the i-th iterative estimation in the EM algorithm. Further, the vector 0 in the above equation (6) is an R-dimensional vertical vector whose element is 0. Further, GaussRand (•) in the above equation (10) is a function for generating normal random numbers.

次に、確率及び信号推定部232は、正規化対数メルスペクトルのベクトルODNN と、音声DNN400a記憶されるパラメータである重み行列W及びバイアスベクトルvとを用いて、下記(12)式〜(15)式により、音声事後確率Pt,kを計算する音声事後確率計算処理を実行する(ステップS230c)。 Next, the probability and signal estimation unit 232 uses the normalized log mel spectrum vector O DNN t , the weight matrix W j and the bias vector v j that are parameters stored in the speech DNN 400a, and the following equation (12): The speech posterior probability calculation process for calculating the speech posterior probability P t, k is executed by the expression (15) (step S230c).

Figure 0006243858
Figure 0006243858

なお、上記(14)式において、Wj,k,k´は重み行列Wの要素であり、vj,kはバイアスベクトルvの要素であり、上記(15)式において、ODNN t,KはベクトルODNN の要素である。 In the above equation (14), W j, k, k ′ are elements of the weight matrix W j , v j, k are elements of the bias vector v j , and in the above equation (15), O DNN t , K are elements of the vector O DNN t .

次に、確率及び信号推定部232は、(i−1)回目の繰り返し推定における話者適応パラメータのベクトルb(i−1)と、(i−1)回目の繰り返し推定における雑音GMMのパラメータセットλ(i−1)と、音声GMM300aのパラメータを利用して、下記(16)式のような、対数メルスペクトルのベクトルOのGMMを構成する混合信号GMM生成処理を実行する(ステップS230d)。 Next, the probability and signal estimation unit 232 includes (i-1) a speaker adaptation parameter vector b (i-1) in the (i-1) th iteration estimation, and a noise GMM parameter set in the (i-1) th iteration estimation. Using λ (i−1) and the parameters of the speech GMM 300a, a mixed signal GMM generation process constituting the GMM of the logarithmic mel spectrum vector O t as shown in the following equation (16) is executed (step S230d). .

Figure 0006243858
Figure 0006243858

なお、上記(16)式において、p (i)(ベクトルO)は、ステップS230dの混合信号GMM生成処理にて生成される対数メルスペクトルのベクトルOの、音声GMM300aに対する尤度である。また、wO,k,l (i)、ベクトルμO,k,l (i)、行列ΣO,k,l (i)は、それぞれ、(i−1)回目の繰り返し推定における話者適応パラメータセットのベクトルb(i−1)と、雑音GMMのパラメータセットλ(i−1)と、音声GMM300aのパラメータとから生成される対数メルスペクトルのベクトルOtのGMMの混合重み、平均ベクトル、対角分散行列であり、下記(17)式〜(20)式で与えられる。 In the above equation (16), p o (i) (vector O t ) is the likelihood of the log mel spectrum vector O t generated in the mixed signal GMM generation processing in step S230d with respect to the speech GMM 300a. . Also, w O, k, l (i) , vector μ O, k, l (i) , matrix Σ O, k, l (i) are respectively speaker adaptations in the (i−1) -th iteration estimation. GMM mixture weight, average vector, pair of logarithmic mel spectrum vector Ot generated from parameter set vector b (i-1) , noise GMM parameter set λ (i-1), and parameters of speech GMM 300a It is an angular dispersion matrix and is given by the following equations (17) to (20).

Figure 0006243858
Figure 0006243858

なお、上記(18)式において、対数関数log(・)及び指数関数exp(・)は、ベクトルの要素毎に演算を行う。また、上記(18)式及び(20)式において、ベクトル1は、全ての要素が1であるR次元縦ベクトルである。また、上記(19)式において、Hk,l (i)は、関数h(・)のヤコビ行列である。 In the above equation (18), the logarithmic function log (•) and the exponential function exp (•) are calculated for each element of the vector. In the above equations (18) and (20), the vector 1 is an R-dimensional vertical vector in which all elements are 1. In the above equation (19), H k, l (i) is a Jacobian matrix of the function h (•).

次に、確率及び信号推定部232は、i回目の繰り返し推定における対数メルスペクトルのベクトルOの確率モデルのコスト関数Qo(・)の期待値を、下記(21)式により計算する期待値計算処理を実行する(EMアルゴリズムのE−step)(ステップS230e)。 Next, the probability and signal estimation unit 232 calculates an expected value by calculating the expected value of the cost function Qo (•) of the probability model of the logarithmic mel spectrum vector O t in the i-th iterative estimation using the following equation (21). The process is executed (EM algorithm E-step) (step S230e).

Figure 0006243858
Figure 0006243858

上記(21)式において、ベクトルO0:T−1={O,・・・,O,・・・OT−1}である。また、上記(21)式において、Tは対数メルスペクトルのベクトルOの総フレーム数である。また、上記(21)式において、Pt,k,l (i)は、下記(22)式及び(23)により、フレームtにおける音声GMM300aの正規分布番号k及び雑音GMMの正規分布番号lに対して与えられる音声事後確率である。 In the above (21), the vector O 0: T-1 = { O 0, ···, O t, ··· O T-1} is. In the above equation (21), T is the total number of frames of the logarithmic mel spectrum vector O t . Further, in the above equation (21), P t, k, l (i) is changed to the normal distribution number k of the speech GMM 300a and the normal distribution number l of the noise GMM in the frame t by the following equations (22) and (23). This is the voice posterior probability given to the user.

Figure 0006243858
Figure 0006243858

なお、EMアルゴリズムのM−stepは、ステップS230fの信号推定処理、ステップS230gの信頼データ選択処理、ステップS230hの話者適応パラメータ推定処理、ステップS230iの雑音GMMパラメータ推定処理に該当する。   Note that M-step of the EM algorithm corresponds to the signal estimation process in step S230f, the confidence data selection process in step S230g, the speaker adaptive parameter estimation process in step S230h, and the noise GMM parameter estimation process in step S230i.

ステップS230fにおいて、確率及び信号推定部232は、話者適応パラメータのベクトルb(i)と、雑音GMMのパラメータセットλ(i)を更新するために用いる、クリーン音声の対数メルスペクトルのベクトルS (i)と、雑音の対数メルスペクトルのベクトルN (i)とを、対数メルスペクトルのベクトルOから推定する。クリーン音声の対数メルスペクトルのベクトルS (i)と、雑音の対数メルスペクトルのベクトルN (i)は、下記(24)式及び(25)式により推定される。 In step S230f, the probability and signal estimation unit 232 uses the logarithmic mel spectrum vector S t of the clean speech used to update the speaker adaptation parameter vector b (i) and the noise GMM parameter set λ (i). and (i), and a noise of the logarithmic Mel spectrum vector N t (i), estimated from the logarithmic Mel spectrum vector O t. The logarithmic mel spectrum vector S t (i) of clean speech and the noise mel spectrum vector N t (i) of noise are estimated by the following equations (24) and (25).

Figure 0006243858
Figure 0006243858

次に、信頼データ選択部233は、話者適応パラメータのベクトルb(i)と、雑音GMMのパラメータセットλ(i)とを推定する際に用いる、クリーン音声の推定対数メルスペクトルのベクトル^S (i)と、雑音の推定対数メルスペクトル^N (i)とを選択する信頼データ選択処理を実行する(ステップS230g)。 Next, the trust data selection unit 233 uses the estimated log mel spectrum vector {circumflex over (S) } of clean speech used when estimating the speaker adaptation parameter vector b (i) and the noise GMM parameter set λ (i). A trust data selection process for selecting t (i) and an estimated log mel spectrum of noise ^ N t (i) is executed (step S230g).

図7は、雑音抑圧装置のパラメータ推定部による信頼データ選択処理のサブルーチンの一例を示すフローチャートである。信頼データ選択処理は、全フレームにおいて、クリーン音声と、雑音とのいずれが優勢であるかを判定した結果に基づき、クリーン音声が優勢であれば、各フレーム番号tをクリーン音声信号フレームの集合T (i)に格納し、雑音が優勢であれば、各フレーム番号tを雑音フレームの集合T (i)に格納する処理である。図7に示すように、先ず、信頼データ選択部233は、各フレームtにおけるSN比であるSNR (i)を、下記(26)式により計算する。 FIG. 7 is a flowchart showing an example of a subroutine of the trust data selection process by the parameter estimation unit of the noise suppression device. In the reliability data selection process, based on the result of determining which of clean speech and noise is dominant in all frames, if clean speech is dominant, each frame number t is set to a set T of clean speech signal frames. If it is stored in S (i) and noise is dominant, each frame number t is stored in a set T N (i) of noise frames. As shown in FIG. 7, first, the reliable data selection unit 233 calculates SNR t (i) that is an SN ratio in each frame t by the following equation (26).

Figure 0006243858
Figure 0006243858

上記(26)式において、^St,r (i)は、フレームtにおけるクリーン音声の推定対数メルスペクトルのベクトル^S (i)の要素であり、^Nt,r (i)は、フレームtにおける雑音の推定対数メルスペクトルのベクトル^N (i)の要素である。そして、信頼データ選択部233は、上記(26)式により得られた、各フレームtにおけるSN比であるSNR (i)にk−meanクラスタリングを適用して、全てのフレームtにおけるSNR (i)を2つのクラスC=0,1に分類し、各クラスの平均SN比をAveSNR (i)と定義する(以上、ステップS230g−1)。 In the above (26), ^ S t, r (i) is an element of the vector of the estimated logarithmic Mel spectrum of the clean speech ^ S t (i) in the frame t, ^ N t, r ( i) is This is an element of the vector ^ N t (i) of the estimated log mel spectrum of noise in frame t. Then, the reliability data selection unit 233 applies k-mean clustering to SNR t (i) , which is the S / N ratio in each frame t, obtained by the above equation (26), so that the SNR t ( i) is classified into two classes C = 0, 1, and the average SN ratio of each class is defined as AveSNR c (i) (step S230g-1).

そして、信頼データ選択部233は、各フレームtにおいてAveSNRc=0 (i)≧AveSNRc=1 (i)であるか否かを判定する(ステップS230g−2)。信頼データ選択部233は、フレームtにおいてAveSNRc=0 (i)≧AveSNRc=1 (i)であると判定した場合、ステップS230g−3へ処理を移す。一方、信頼データ選択部233は、フレームtにおいてAveSNRc=0 (i)<AveSNRc=1 (i)であると判定した場合、ステップS230g−6へ処理を移す。 Then, the reliability data selection unit 233 determines whether or not AveSNR c = 0 (i) ≧ AveSNR c = 1 (i) in each frame t (step S230g-2). When the trust data selection unit 233 determines that AveSNR c = 0 (i) ≧ AveSNR c = 1 (i) in the frame t, the process moves to step S230g-3. On the other hand, if the trust data selection unit 233 determines that AveSNR c = 0 (i) <AveSNR c = 1 (i) in the frame t, the process moves to step S230g-6.

ステップS230g−3では、信頼データ選択部233は、各フレームtにおけるSNR (i)がSNR (i)∈{C=0}、すなわち、SNR (i)が集合{C=0}(C=0のクラスタ)に属するか否かを判定する。信頼データ選択部233は、SNR (i)∈{C=0}であると判定したフレームtについては、ステップS230g−4へ処理を移す。一方、信頼データ選択部233は、SNR (i)∈{C=1}であると判定したフレームtについては、ステップS230g−5へ処理を移す。 In step S230g-3, the trust data selection unit 233 determines that SNR t (i) in each frame t is SNR t (i) ∈ {C = 0}, that is, SNR t (i) is a set {C = 0} ( Whether or not it belongs to the cluster (C = 0). The trust data selection unit 233 shifts the processing to step S230g-4 for the frame t determined to be SNR t (i) ε {C = 0}. On the other hand, the trust data selection unit 233 moves the process to step S230g-5 for the frame t determined to be SNR t (i) ε {C = 1}.

ステップS230g−4では、信頼データ選択部233は、ステップS230g−3で判定したフレーム番号tを、クリーン音声信号フレームの集合T (i)へ格納する。一方、ステップS230g−5では、信頼データ選択部233は、ステップS230g−3で判定したフレーム番号tを、雑音信号フレームの集合T (i)へ格納する。 In step S230g-4, the reliable data selection unit 233 stores the frame number t determined in step S230g-3 in the set T S (i) of clean speech signal frames. On the other hand, in step S230g-5, the reliable data selection unit 233 stores the frame number t determined in step S230g-3 in the noise signal frame set T N (i) .

他方、ステップS230g−6では、信頼データ選択部233は、各フレームtにおけるSNR (i)がSNR (i)∈{C=1}、すなわち、SNR (i)が集合{C=1}(C=1のクラスタ)に属するか否かを判定する。信頼データ選択部233は、SNR (i)∈{C=1}であると判定したフレームtについては、ステップS230g−7へ処理を移す。一方、信頼データ選択部233は、SNR (i)∈{C=0}であると判定したフレームtについては、ステップS230g−8へ処理を移す。 On the other hand, in step S230g-6, the trust data selection unit 233 determines that SNR t (i) in each frame t is SNR t (i) ∈ {C = 1}, that is, SNR t (i) is a set {C = 1. } (C = 1 cluster). The trust data selection unit 233 moves the process to step S230g-7 for the frame t determined to be SNR t (i) ε {C = 1}. On the other hand, the trust data selection unit 233 moves the process to step S230g-8 for the frame t determined to be SNR t (i) ε {C = 0}.

ステップS230g−7では、信頼データ選択部233は、ステップS230g−6で判定したフレーム番号tを、クリーン音声信号フレームの集合T (i)へ格納する。一方、ステップS230g−8では、信頼データ選択部233は、ステップS230g−6で判定したフレーム番号tを、雑音信号フレームの集合T (i)へ格納する。ステップS230g−4、S230g−5、S230g−7、S230g−8の処理が終了すると、信頼データ選択部233は、図6に示す雑音抑圧装置のパラメータ推定部230の処理へ処理を復帰させる。 In step S230g-7, the reliable data selection unit 233 stores the frame number t determined in step S230g-6 in the clean speech signal frame set T S (i) . On the other hand, in step S230g-8, the reliable data selection unit 233 stores the frame number t determined in step S230g-6 in the noise signal frame set T N (i) . When the processes of steps S230g-4, S230g-5, S230g-7, and S230g-8 are completed, the reliable data selection unit 233 returns the process to the process of the parameter estimation unit 230 of the noise suppression device illustrated in FIG.

次に、話者適応パラメータ推定部234は、ステップS230cの音声事後確率計算処理にて得た音声事後確率Pt,kと、ステップS230fの信号推定処理にて推定したクリーン音声の対数メルスペクトル^S (i)と、ステップS230gの信頼データ選択処理にて推定したクリーン音声信号フレームの集合T (i)を用いて、下記(27)式により、話者適応パラメータのベクトルb(i)を更新する話者適応パラメータ推定処理を実行する(ステップS230h)。 Next, the speaker adaptive parameter estimation unit 234 uses the speech posterior probability P t, k obtained in the speech posterior probability calculation process in step S230c and the log mel spectrum ^ of the clean speech estimated in the signal estimation process in step S230f. Using a set T S (i) of clean speech signal frames estimated in S t (i) and the reliability data selection process in step S230g, a speaker adaptation parameter vector b (i) according to the following equation (27 ): The speaker adaptation parameter estimation processing for updating the is executed (step S230h).

Figure 0006243858
Figure 0006243858

次に、雑音GMM推定部235は、ステップS230eの期待値計算処理にて得た音声事後確率Pt,l (i)と、ステップS230fの信号推定処理にて推定した雑音の対数メルスペクトルのベクトル^N (i)と、ステップS230gの信頼データ選択処理にて推定した雑音信号フレームの集合T (i)を用いて、下記(28)式〜(30)式により、雑音GMMのパラメータセットλ(i)を更新する雑音GMMパラメータ推定処理を実行する(ステップS230i)。 Next, the noise GMM estimator 235 calculates the speech posterior probability P t, l (i) obtained in the expected value calculation process in step S230e and the log mel spectrum vector of the noise estimated in the signal estimation process in step S230f ^ and N t (i), using a set T N (i) of the noise signal frame estimated by reliable data selection processing in step S230g, the following (28) to (30), a parameter set of the noise GMM A noise GMM parameter estimation process for updating λ (i) is executed (step S230i).

Figure 0006243858
Figure 0006243858

次に、収束判定部236は、所定の収束条件が満されるか否かを判定する収束判定処理を実行する(ステップS230j)。収束判定部236は、所定の収束条件が満される場合は、ベクトルb=b(i)として、パラメータ推定部230の処理を終了する。一方、収束判定部236は、所定の収束条件が満たされない場合は、iを1インクリメント(i←i+1)し(ステップS230k)、ステップS230dへ処理を移す。なお、所定の収束条件は、下記(31)式で表される。なお、下記(31)式おいて、Q(・)は、上記(21)式で定義される。また、下記(31)式おいて、η=0.0001とする。 Next, the convergence determination unit 236 executes a convergence determination process for determining whether or not a predetermined convergence condition is satisfied (step S230j). If the predetermined convergence condition is satisfied, the convergence determination unit 236 sets the vector b = b (i) and ends the processing of the parameter estimation unit 230. On the other hand, when the predetermined convergence condition is not satisfied, the convergence determination unit 236 increments i by 1 (i ← i + 1) (step S230k), and moves the process to step S230d. The predetermined convergence condition is expressed by the following equation (31). In the following equation (31), Q O (•) is defined by the above equation (21). In the following equation (31), η = 0.0001.

Figure 0006243858
Figure 0006243858

また、さらに、図4に示す雑音抑圧部240の詳細構成について説明する。図8は、雑音抑圧装置の雑音抑圧部の構成の一例を示す図である。雑音抑圧部240は、複素数スペクトルのベクトルSpcと、対数メルスペクトルのベクトルOと、音声GMM300aと、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλと、音声事後確率Pt,kとを用いて雑音抑圧フィルタを構成し、雑音を抑圧して雑音抑圧信号^Sτを得る。 Further, the detailed configuration of the noise suppression unit 240 shown in FIG. 4 will be described. FIG. 8 is a diagram illustrating an example of the configuration of the noise suppression unit of the noise suppression device. The noise suppression unit 240 includes a complex spectrum vector Spc t , a log mel spectrum vector O t , a speech GMM 300 a, a speaker adaptation parameter vector b, a noise GMM parameter set λ, and a speech posterior probability P t, configure the noise suppression filter using the k, obtain noise suppression signal ^ S tau to suppress noise.

図8に示すように、雑音抑圧部240は、雑音抑圧フィルタ推定部241、雑音抑圧フィルタ適用部242を有する。雑音抑圧フィルタ推定部241は、対数メルスペクトルのベクトルOtと、音声GMM300aと、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλと、音声事後確率Pt,kとを入力とし、雑音抑圧フィルタFt,m Linを推定する。雑音抑圧フィルタ適用部242は、複素数スペクトルのベクトルSpcと、雑音抑圧フィルタFt,m Linとを入力とし、雑音を抑圧して雑音抑圧信号^Sτを得る。 As illustrated in FIG. 8, the noise suppression unit 240 includes a noise suppression filter estimation unit 241 and a noise suppression filter application unit 242. The noise suppression filter estimation unit 241 receives a logarithmic mel spectrum vector Ot, a speech GMM 300a, a speaker adaptation parameter vector b, a noise GMM parameter set λ, and a speech posterior probability P t, k. The suppression filter F t, m Lin is estimated. Noise suppression filter applying unit 242 obtains a vector Spc t complex spectrum, the noise suppression filter F t, as input and m Lin, the noise suppression signal ^ S tau to suppress noise.

図9は、雑音抑圧装置の雑音抑圧フィルタ推定部の処理手順の一例を示すフローチャートである。先ず、雑音抑圧フィルタ推定部241は、音声GMM300aと、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλとから、対数メルスペクトルのベクトルOtのGMMのパラメータを、下記(32)式〜(35)式のように生成する確率モデル生成処理を実行する(ステップS241a)。   FIG. 9 is a flowchart illustrating an example of a processing procedure of the noise suppression filter estimation unit of the noise suppression device. First, the noise suppression filter estimation unit 241 determines the GMM parameters of the logarithmic mel spectrum vector Ot from the speech GMM 300a, the speaker adaptation parameter vector b, and the noise GMM parameter set λ by the following equation (32): Probability model generation processing is generated as shown in equation (35) (step S241a).

Figure 0006243858
Figure 0006243858

次に、雑音抑圧フィルタ推定部241は、下記(36)式及び(37)式により、事後確率Pt,k,lを、対数メルスペクトルのベクトルOのGMMのパラメータと、対数メルスペクトルのベクトルOと、音声事後確率Pt,kとを用いて計算する確率計算処理を実行する(ステップS241b)。 Next, the noise suppression filter estimation unit 241 calculates the posterior probabilities P t, k, l , the GMM parameters of the log mel spectrum vector O t , and the log mel spectrum by the following equations (36) and (37). Probability calculation processing is performed using the vector O t and the speech posterior probability P t, k (step S241b).

Figure 0006243858
Figure 0006243858

次に、雑音抑圧フィルタ推定部241は、音声GMM300aの平均ベクトルμSI,kと、話者適応パラメータのベクトルbとから生成される話者依存(SD)GMMの平均ベクトルμSD,kと、雑音GMMのパラメータセットλに含まれる雑音GMMの平均ベクトルμN,lと、事後確率Pt,k,lとを用いて、メル周波数軸上での雑音抑圧フィルタFt,r Melを、下記(38)式のように推定する雑音抑圧フィルタ推定処理を実行する(ステップS241c)。なお、下記(38)式は、ベクトルの要素毎の表記である。 Next, the noise suppression filter estimation unit 241 includes an average vector μ SD, k of the speaker-dependent (SD) GMM generated from the average vector μ SI, k of the speech GMM 300a and the vector b of the speaker adaptation parameter, The noise suppression filter F t, r Mel on the mel frequency axis is expressed as follows using the average vector μ N, l of the noise GMM included in the parameter set λ of the noise GMM and the posterior probability P t, k, l. A noise suppression filter estimation process for estimation as shown in equation (38) is executed (step S241c). The following equation (38) is a notation for each vector element.

Figure 0006243858
Figure 0006243858

次に、雑音抑圧フィルタ推定部241は、メル周波数軸上での雑音抑圧フィルタFt,r Melを、線形周波数軸上での雑音抑圧フィルタFt,r Linへ変換する雑音抑圧フィルタ変換処理を実行する(ステップS241d)。メル周波数軸上での雑音抑圧フィルタFt,r Melを、線形周波数軸上での雑音抑圧フィルタFt,r Linへ変換する処理は、3次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値が推定されるものである。ステップS241dが終了すると、雑音抑圧フィルタ推定部241の処理は終了する。 Next, the noise suppression filter estimation unit 241 performs a noise suppression filter conversion process for converting the noise suppression filter F t, r Mel on the mel frequency axis to the noise suppression filter F t, r Lin on the linear frequency axis. It executes (step S241d). The process of converting the noise suppression filter F t, r Mel on the mel frequency axis to the noise suppression filter F t, r Lin on the linear frequency axis is obtained by applying cubic spline interpolation to the mel frequency axis. The value of the noise suppression filter on the linear frequency axis is estimated. When step S241d ends, the processing of the noise suppression filter estimation unit 241 ends.

図10は、雑音抑圧装置の雑音抑圧フィルタ適用部の処理手順の一例を示すフローチャートである。先ず、雑音抑圧フィルタ適用部242は、複素数スペクトルのベクトルSpcに対して雑音抑圧フィルタFt,m Linを、下記(39)式のように掛け合わせることにより、雑音抑圧された複素数スペクトル^St,mを得るフィルタリング処理を実行する(ステップS242a)。なお、下記(39)式は、ベクトルの要素毎の表記である。 FIG. 10 is a flowchart illustrating an example of a processing procedure of the noise suppression filter application unit of the noise suppression device. First, the noise suppression filter applying unit 242, the noise suppression filter F t For complex spectrum vector Spc t, the m Lin, by multiplying as follows (39) equation, the noise-suppressed complex spectrum ^ S A filtering process for obtaining t and m is executed (step S242a). The following equation (39) is a notation for each vector element.

Figure 0006243858
Figure 0006243858

次に、雑音抑圧フィルタ適用部242は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧音声^St,nを得る逆高速フーリエ変化処理を実行する(ステップS242b)。次に、雑音抑圧フィルタ適用部242は、各フレームtの雑音抑圧音声^St,nを、下記(40)式及び(41)式のように、窓関数wを解除しながら連結して、連続した雑音抑圧音声^sτを得る波形連結処理を実行する(ステップS242c)。ステップS242cが終了すると、雑音抑圧フィルタ適用部242の処理は終了する。 Next, the noise suppression filter application unit 242 performs inverse fast Fourier change processing for obtaining the noise-suppressed speech ^ S t, n in the frame t by applying inverse fast Fourier transform to the complex spectrum ^ S t, m . It executes (step S242b). Next, the noise suppression filter applying unit 242, the noise reduced speech ^ S t of each frame t, a n, as follows (40) and (41) below, in conjunction with releasing the window function w n Then, the waveform concatenation process for obtaining the continuous noise-suppressed speech ^ s τ is executed (step S242c). When step S242c ends, the processing of the noise suppression filter application unit 242 ends.

Figure 0006243858
Figure 0006243858

[実施形態による効果]
実施形態の効果を示すため、音声信号と雑音信号が混在する音響信号を実施形態の雑音抑圧装置200へ入力し、雑音抑圧を実施した例を示す。以下、実験方法及び結果について説明する。
[Effects of the embodiment]
In order to show the effect of the embodiment, an example is shown in which an acoustic signal in which a voice signal and a noise signal are mixed is input to the noise suppression apparatus 200 of the embodiment and noise suppression is performed. Hereinafter, experimental methods and results will be described.

実験では、AURORA4とよばれる雑音環境下音声認識データベースを用いて評価を行った。AURORA4の評価データセットは、A: 雑音の無い音声、B:6種類の雑音が混在した音声、C:異なるマイクで収録された雑音の無い音声、D:異なるマイクで収録された6種類の雑音が混在した音声の4セットで構成される。AURORA4の詳細については、文献3「N. Parihar, J. Picone, D. Pearce, H.G. Hirsch,“Performance analysis of the Aurora large vocabulary baseline system.” in Proceedings of the European Signal Processing Conference, Vienna, Austria, 2004.」に記載のとおりである。   In the experiment, evaluation was performed using a speech recognition database under a noisy environment called AURORA4. The AURORA4 evaluation data set consists of A: voice without noise, B: voice mixed with six kinds of noise, C: voice without noise recorded with different microphones, and D: six kinds of noise recorded with different microphones. Is composed of 4 sets of mixed audio. For details of AURORA4, see Reference 3 “N. Parihar, J. Picone, D. Pearce, HG Hirsch,“ Performance analysis of the Aurora large vocabulary baseline system. ”In Proceedings of the European Signal Processing Conference, Vienna, Austria, 2004. . ".

AURORA4の音声データは、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音声データに基づく音響信号に対し、1フレームの時間長を25ms(Frame=400サンプル点)とし、10ms(Shift=160サンプル点)ごとにフレームの始点を移動させて、音響特徴抽出を行った。   The audio data of AURORA 4 is a monaural signal that is discretely sampled at a sampling frequency of 16,000 Hz and a quantization bit number of 16 bits. For the acoustic signal based on this audio data, the time length of one frame is 25 ms (Frame = 400 sample points), and the start point of the frame is moved every 10 ms (Shift = 160 sample points) to perform acoustic feature extraction. .

音声GMM300aとして、R=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=512のGMMを用い、AURORA4の雑音の混合が無い学習用音声データを用いて学習した。雑音GMMの混合分布数にはL=4を与えた。音声DNN400aには、R=24次元の対数メルスペクトルとその1次及び2次の回帰係数、及び現在のフレームを中心に前後Z=5フレームずつの特徴量を含む合計D=3R×(2Z+1)=792次元のベクトルを音響特徴量としてJ=5層の隠れ層を有し、入力層にD=792ノード、隠れ層にD=2048(j=1,・・・,4)ノード、出力層にD=K=512ノードを有するDNNを用い、AURORA4の雑音が混合した学習用音声データを用いて学習した。 As the speech GMM 300a, a GMM with a mixed distribution number K = 512 having an R = 24-dimensional logarithmic mel spectrum as an acoustic feature quantity was used, and learning was performed using speech data for learning with no AURORA4 noise mixing. L = 4 was given to the number of mixed distributions of the noise GMM. The audio DNN 400a includes a total D 0 = 3R × (2Z + 1) including R = 24-dimensional logarithmic mel spectrum, its primary and secondary regression coefficients, and feature quantities of Z = 5 frames before and after the current frame. ) = 792 dimensional vectors as acoustic features, J = 5 hidden layers, D 0 = 792 nodes in the input layer, D j = 2048 (j = 1,..., 4) nodes in the hidden layer Then, using a DNN having D 5 = K = 512 nodes in the output layer, learning was performed using learning speech data mixed with AURORA4 noise.

音声認識は、有限状態トランスデューサーに基づく認識器により行った。有限状態トランスデューサーに基づく認識器の詳細は、文献4「T. Hori, et al.,“Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition.” IEEE Trans. on ASLP, vol. 15, no. 4, pp. 1352-1365, May 2007.」に記載のとおりである。   Speech recognition was performed by a recognizer based on a finite state transducer. Details of the recognizer based on the finite state transducer are described in Reference 4 “T. Hori, et al.,“ Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition. ”IEEE On ASLP, vol. 15, no. 4, pp. 1352-1365, May 2007. ”.

音響モデルにはDNNを用いており、7層の隠れ層を有する。各隠れ層のノード数は、2048である。また、出力層のノード数は、3042である。音声認識の音響特徴量は、1フレームの時間長を25ms(Frame=400)とし、10ms(Shift=1600サンプル点)ごとにフレームの始点を移動させて分析した24次元の対数メルスペクトルとその1次及び2次の回帰係数、及び現在のフレームを中心に前後5フレームずつの特徴量を含む合計792次元のベクトルである。また、言語モデルにはTri−gramを用い、語彙数は5,000単語である。また、音声認識の評価尺度は、下記(42)式の単語誤り率(Word Error Rate:WER)とした。下記(42)式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程、音声認識性能が高いことを示す。   The acoustic model uses DNN and has seven hidden layers. The number of nodes in each hidden layer is 2048. The number of nodes in the output layer is 3042. The acoustic feature amount for speech recognition is a 24-dimensional log mel spectrum analyzed by moving the start point of a frame every 10 ms (Shift = 1600 sample points) with a time length of one frame being 25 ms (Frame = 400) and its 1 This is a 792-dimensional vector in total including second and second order regression coefficients and feature quantities of the previous and next 5 frames around the current frame. The language model uses Tri-gram and the vocabulary is 5,000 words. The evaluation scale for speech recognition was the word error rate (WER) of the following equation (42). In the following equation (42), N is the total number of words, D is the number of dropped error words, S is the number of replacement error words, I is the number of insertion error words, and the smaller the WER value, the higher the speech recognition performance. .

Figure 0006243858
Figure 0006243858

図11は、実施形態による効果の一例を示す図である。図11に示す「従来技術」は、、文献5「M. Fujimoto and T. Nakatani, “A reliable data selection for model-based noise suppression using unsupervised joint speaker adaptation and noise model estimation.” in Proceedings of ICSPCC '12, pp. 4713-4716, Aug 2012.」に開示されている方法による雑音抑圧結果を示す。図11は、「雑音抑圧なし」、「従来技術」、「実施形態」の各音声認識の評価結果の比較を示す。図11に示すとおり、実施形態は、従来技術に比べ、雑音を含む評価セットB及びDにおいて、WERが小さいことから、より高い雑音抑圧性能を得られることが分かる。   FIG. 11 is a diagram illustrating an example of the effect according to the embodiment. The “prior art” shown in FIG. 11 is described in Reference 5 “M. Fujimoto and T. Nakatani,“ A reliable data selection for model-based noise suppression using unsupervised joint speaker adaptation and noise model estimation. ”In Proceedings of ICSPCC '12 , pp. 4713-4716, Aug 2012. ”shows the result of noise suppression by the method disclosed in“ FIG. 11 shows a comparison of evaluation results of speech recognition of “no noise suppression”, “prior art”, and “embodiment”. As shown in FIG. 11, it can be seen that the embodiment can obtain higher noise suppression performance because the WER is small in the evaluation sets B and D including noise as compared with the related art.

すなわち、実施形態によれば、様々な雑音が存在する環境において、音響信号に含まれる雑音信号が多峰性の分布に従う非定常雑音であっても、入力された音響信号から雑音信号を抑圧して、目的とする音声信号を高品質で取り出すことができる。   That is, according to the embodiment, in an environment where various types of noise exist, even if the noise signal included in the acoustic signal is non-stationary noise that follows a multimodal distribution, the noise signal is suppressed from the input acoustic signal. Thus, the target audio signal can be extracted with high quality.

[その他の実施形態]
その他の実施形態では、図2のステップS110a及び図3のステップS120aのフレーム切り出し処理において、窓関数wとして、ハミング窓以外に、方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。また、その他の実施形態では、音声GMM300aに代えて、音声信号の確率モデルとして、隠れマルコフモデル(Hidden Markov Model:HMM)等の他の確率モデルを用いてもよい。また、その他の実施形態では、雑音GMMに代えて、雑音信号の確率モデルとして、HMM等の他の確率モデルを用いてもよい。
[Other Embodiments]
In other embodiments, the frame cutout process of step S120a of steps S110a and 3 of Figure 2, as a window function w n, besides Hamming window, utilizing a rectangular window, Hanning window, a window function, such as Blackman windows May be. In other embodiments, instead of the speech GMM 300a, another probability model such as a Hidden Markov Model (HMM) may be used as the probability model of the speech signal. In other embodiments, instead of the noise GMM, another probability model such as an HMM may be used as the noise signal probability model.

また、その他の実施形態では、話者適応パラメータのベクトルbを、下記(43)式のように、音声GMM300aに含まれる正規分布の番号kに依存するパラメータとしてもよい。   In other embodiments, the speaker adaptation parameter vector b may be a parameter depending on the number k of the normal distribution included in the speech GMM 300a, as shown in the following equation (43).

Figure 0006243858
Figure 0006243858

また、その他の実施形態では、図6のステップS230g及び図7に示す信頼データ選択処理を、k−meanクラスタリングに代えて、下記(44)式に示すように、所定閾値ThSNRを用いて実行してもよい。 In other embodiments, the trust data selection process shown in step S230g of FIG. 6 and FIG. 7 is executed using a predetermined threshold Th SNR as shown in the following equation (44) instead of k-means clustering. May be.

Figure 0006243858
Figure 0006243858

また、その他の実施形態では、図9のステップS241cの雑音抑圧フィルタ推定処理において、上記(38)式のような各事後確率Pt,k,lの重み付け平均ではなく、最大の重みつまり最大の事後確率Pt,k,lにより重み付けした推定結果を用いてもよい。この場合、最大の事後確率Pt,k,lが他の事後確率Pt,k,lと比べて十分大きいことが望ましい。 Also, in other embodiments, the noise suppression filter estimation process in step S241c of FIG. 9, the (38) each posterior probability P t as formula, k, rather than the weighted average of l, the maximum of the largest weight, that An estimation result weighted by the posterior probability P t, k, l may be used. In this case, it is desirable that the maximum posterior probability P t, k, l is sufficiently larger than the other posterior probabilities P t, k, l .

(音声モデル学習装置及び雑音抑圧装置の装置構成について)
図1に示す音声モデル学習装置100及び図4に示す雑音抑圧装置200の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音声モデル学習装置100及び雑音抑圧装置200の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、音声モデル学習装置100及び雑音抑圧装置200は、一体の装置であってもよい。
(About device configuration of speech model learning device and noise suppression device)
Each component of the speech model learning apparatus 100 illustrated in FIG. 1 and the noise suppression apparatus 200 illustrated in FIG. 4 is functionally conceptual, and does not necessarily need to be physically configured as illustrated. That is, the specific forms of the distribution and integration of the functions of the speech model learning device 100 and the noise suppression device 200 are not limited to those shown in the figure, and all or a part of them can be changed into arbitrary units according to various loads and usage conditions. And can be configured to be functionally or physically distributed or integrated. For example, the speech model learning device 100 and the noise suppression device 200 may be an integrated device.

また、実施形態では、音声モデル学習装置100及び雑音抑圧装置200は別装置とし、音声モデル学習装置100の第1音響特徴抽出部110及び第2音響特徴抽出部120と、雑音抑圧装置200の第1音響特徴抽出部210及び第2音響特徴抽出部220とは、それぞれ異なる機能構成部とした。しかし、これに限らず、第1音響特徴抽出部110と第1音響特徴抽出部210、及び/又は、第2音響特徴抽出部120と第2音響特徴抽出部220は、同一の機能構成部であってもよい。   In the embodiment, the speech model learning device 100 and the noise suppression device 200 are separate devices, and the first acoustic feature extraction unit 110 and the second acoustic feature extraction unit 120 of the speech model learning device 100 and the first of the noise suppression device 200 are used. The first acoustic feature extraction unit 210 and the second acoustic feature extraction unit 220 are different functional components. However, the present invention is not limited to this, and the first acoustic feature extraction unit 110 and the first acoustic feature extraction unit 210 and / or the second acoustic feature extraction unit 120 and the second acoustic feature extraction unit 220 are the same functional components. There may be.

また、実施形態では、音声GMM記憶装置300及び音声DNN記憶装置400は、音声モデル学習装置100及び雑音抑圧装置200と別装置であるとした。しかし、これに限らず、音声GMM記憶装置300及び/又は音声DNN記憶装置400は、音声モデル学習装置100及び/又は雑音抑圧装置200と一体の装置であってもよい。   In the embodiment, the speech GMM storage device 300 and the speech DNN storage device 400 are separate from the speech model learning device 100 and the noise suppression device 200. However, the present invention is not limited to this, and the speech GMM storage device 300 and / or the speech DNN storage device 400 may be an apparatus integrated with the speech model learning device 100 and / or the noise suppression device 200.

また、音声モデル学習装置100及び雑音抑圧装置200において行われる各処理は、全部又は任意の一部が、CPU(Central Processing Unit)等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。また、音声モデル学習装置100及び雑音抑圧装置200において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。   Each processing performed in the speech model learning device 100 and the noise suppression device 200 is realized in whole or in part by a processing device such as a CPU (Central Processing Unit) and a program that is analyzed and executed by the processing device. May be. Each process performed in the speech model learning device 100 and the noise suppression device 200 may be realized as hardware by wired logic.

また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。   In addition, among the processes described in the embodiment, all or a part of the processes described as being automatically performed can be manually performed. Alternatively, all or some of the processes described as being manually performed among the processes described in the embodiments can be automatically performed by a known method. In addition, the above-described and illustrated processing procedures, control procedures, specific names, and information including various data and parameters can be changed as appropriate unless otherwise specified.

(プログラムについて)
図12は、プログラムが実行されることにより、音声モデル学習装置及び雑音抑圧装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
(About the program)
FIG. 12 is a diagram illustrating an example of a computer that realizes a speech model learning device and a noise suppression device by executing a program. The computer 1000 includes a memory 1010 and a CPU 1020, for example. The computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. In the computer 1000, these units are connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。   The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012. The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1031. The disk drive interface 1040 is connected to the disk drive 1041. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041. The serial port interface 1050 is connected to a mouse 1051 and a keyboard 1052, for example. The video adapter 1060 is connected to the display 1061, for example.

ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音声モデル学習装置100及び雑音抑圧装置200の各処理を規定するプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、音声モデル学習装置100及び雑音抑圧装置200における機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。   The hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program that defines each process of the speech model learning device 100 and the noise suppression device 200 is stored in, for example, the hard disk drive 1031 as a program module 1093 in which commands executed by the computer 1000 are described. For example, a program module 1093 for executing information processing similar to the functional configuration in the speech model learning device 100 and the noise suppression device 200 is stored in the hard disk drive 1031.

また、実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。   The setting data used in the processing of the embodiment is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1031 to the RAM 1012 as necessary, and executes them.

なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093やプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。   Note that the program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1031, but may be stored in, for example, a removable storage medium and read out by the CPU 1020 via the disk drive 1041 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). The program module 1093 and the program data 1094 may be read by the CPU 1020 via the network interface 1070.

上記実施形態及びその他の実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。   The above-described embodiments and other embodiments are included in the invention disclosed in the claims and equivalents thereof as well as included in the technology disclosed in the present application.

100 音声モデル学習装置
110 第1音響特徴抽出部
120 第2音響特徴抽出部
130 最尤分布推定部
140 音声DNN学習部
200 雑音抑圧装置
210 第1音響特徴抽出部
220 第2音響特徴抽出部
230 パラメータ推定部
231 初期化部
232 確率及び信号推定部
233 信頼データ選択部
234 話者適応パラメータ推定部
235 雑音GMM推定部
236 収束判定部
240 雑音抑圧部
241 雑音抑圧フィルタ推定部
242 雑音抑圧フィルタ適用部
300 音声GMM記憶装置
300a 音声GMM
400 音声DNN記憶装置
400a 音声DNN
1000 コンピュータ
1010 メモリ
1020 CPU
100 speech model learning device 110 first acoustic feature extraction unit 120 second acoustic feature extraction unit 130 maximum likelihood distribution estimation unit 140 speech DNN learning unit 200 noise suppression device 210 first acoustic feature extraction unit 220 second acoustic feature extraction unit 230 Estimation unit 231 Initialization unit 232 Probability and signal estimation unit 233 Reliability data selection unit 234 Speaker adaptive parameter estimation unit 235 Noise GMM estimation unit 236 Convergence determination unit 240 Noise suppression unit 241 Noise suppression filter estimation unit 242 Noise suppression filter application unit 300 Voice GMM storage device 300a Voice GMM
400 voice DNN storage device 400a voice DNN
1000 Computer 1010 Memory 1020 CPU

Claims (12)

音声モデル学習装置が実行する音声モデル学習方法であって、
学習用の音声信号から音響特徴量を抽出する学習用特徴量抽出工程と、
前記学習用特徴量抽出工程により抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する音声ラベル生成工程と、
前記学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する学習用正規化特徴量抽出工程と、
前記音声ラベル生成工程により生成されたラベル情報と、前記学習用正規化特徴量抽出工程により抽出された正規化された音響特徴量とを用いて、音声モデルを学習する音声モデル学習工程と
を含んだことを特徴とする音声モデル学習方法。
A speech model learning method executed by a speech model learning device,
A feature extraction step for learning that extracts an acoustic feature from a speech signal for learning;
An audio label generation step of generating label information that associates the acoustic feature amount extracted by the learning feature amount extraction step with a mixed normal distribution of the audio signal;
A learning normalized feature amount extraction step of extracting a normalized acoustic feature amount from a learning acoustic signal including the learning speech signal and the learning noise signal;
A speech model learning step of learning a speech model using the label information generated by the speech label generation step and the normalized acoustic feature amount extracted by the learning normalization feature amount extraction step. A speech model learning method characterized by
前記音声モデル学習工程は、前記音声信号の混合正規分布と、前記学習用正規化特徴量抽出工程により抽出された正規化された音響特徴量に対応するディープニューラルネットワークの出力層の各ノードとを対応付けることにより前記音声モデルを学習する
ことを特徴とする請求項1に記載の音声モデル学習方法。
The speech model learning step includes a mixed normal distribution of the speech signal and each node of the output layer of the deep neural network corresponding to the normalized acoustic feature amount extracted by the learning normalized feature amount extraction step. The speech model learning method according to claim 1, wherein the speech model is learned by associating the speech model.
雑音抑圧装置が実行する雑音抑圧方法であって、
請求項1又は2に記載の音声モデル学習方法により学習された前記音声モデルを音声モデル記憶部に保存する音声モデル記憶工程と、
音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する特徴抽出工程と、
前記混合音響信号から正規化された音響特徴量を抽出する正規化特徴量抽出工程と、
前記音声モデルと、前記正規化特徴量抽出工程により抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する音声事後確率計算工程と、
前記音声事後確率計算工程により計算された音声事後確率と、音声信号の混合正規分布とを用いて、前記混合音響信号における前記雑音信号を抑圧する雑音抑圧工程と
を含んだことを特徴とする雑音抑圧方法。
A noise suppression method performed by a noise suppression device,
A speech model storage step of storing the speech model learned by the speech model learning method according to claim 1 or 2 in a speech model storage unit;
A feature extraction step of extracting an acoustic feature amount from a mixed acoustic signal including an audio signal and a noise signal;
A normalized feature extraction step of extracting a normalized acoustic feature from the mixed acoustic signal;
A speech posterior probability calculation step of calculating a speech posterior probability using the speech model and the normalized acoustic feature amount extracted by the normalized feature amount extraction step;
A noise suppression step of suppressing the noise signal in the mixed acoustic signal using the speech posterior probability calculated by the speech posterior probability calculation step and a mixed normal distribution of the voice signal. Repression method.
前記混合音響信号に含まれる前記音声信号及び前記雑音信号を推定する信号推定工程と、
前記信号推定工程により推定された前記音声信号及び前記雑音信号から、前記音声信号の混合正規分布を前記音声信号に該当する音声の話者に適応させるための話者適応パラメータを推定する話者適応パラメータ推定工程と、
前記信号推定工程により推定された前記雑音信号から、雑音信号の混合正規分布を生成する雑音混合正規分布生成工程と、
前記話者適応パラメータ及び前記音声信号の混合正規分布と、前記雑音信号の混合正規分布とから、前記混合音響信号の混合正規分布を生成する混合正規分布生成工程と、
前記音声事後確率と前記混合音響信号の混合正規分布とから、前記混合音響信号に含まれる前記音声信号の期待値及び前記雑音信号の期待値を計算する期待値計算工程と
をさらに含み、
前記信号推定工程、前記話者適応パラメータ推定工程、前記雑音混合正規分布生成工程、前記混合正規分布生成工程及び前記期待値計算工程は、前記期待値計算工程により計算された前記音声信号の期待値及び前記雑音信号の期待値が所定条件を満たすまで、前記音声信号の期待値及び前記雑音信号の期待値について再帰的に処理を繰り返す
ことを特徴とする請求項3に記載の雑音抑圧方法。
A signal estimation step of estimating the audio signal and the noise signal included in the mixed acoustic signal;
Speaker adaptation for estimating speaker adaptation parameters for adapting a mixed normal distribution of the speech signal to a speech speaker corresponding to the speech signal from the speech signal and the noise signal estimated by the signal estimation step. A parameter estimation step;
A noise mixed normal distribution generating step for generating a mixed normal distribution of noise signals from the noise signal estimated by the signal estimating step;
A mixed normal distribution generating step of generating a mixed normal distribution of the mixed acoustic signal from the mixed normal distribution of the speaker adaptation parameter and the voice signal and the mixed normal distribution of the noise signal;
An expected value calculation step of calculating an expected value of the speech signal and an expected value of the noise signal included in the mixed acoustic signal from the speech posterior probability and a mixed normal distribution of the mixed acoustic signal;
The signal estimation step, the speaker adaptation parameter estimation step, the noise mixed normal distribution generation step, the mixed normal distribution generation step, and the expected value calculation step are the expected values of the speech signal calculated by the expected value calculation step. 4. The noise suppression method according to claim 3, wherein processing is recursively repeated for the expected value of the speech signal and the expected value of the noise signal until the expected value of the noise signal satisfies a predetermined condition.
前記信号推定工程により推定された前記音声信号及び前記雑音信号から所定条件を満たす信号を選択する選択工程
をさらに備え、
前記話者適応パラメータ推定工程は、前記選択工程により選択された前記音声信号及び前記雑音信号から前記話者適応パラメータを推定し、
前記雑音混合正規分布生成工程は、前記選択工程により選択された前記雑音信号から前記雑音信号の混合正規分布を生成する
ことを特徴とする請求項4に記載の雑音抑圧方法。
A selection step of selecting a signal satisfying a predetermined condition from the voice signal and the noise signal estimated by the signal estimation step,
The speaker adaptation parameter estimation step estimates the speaker adaptation parameter from the voice signal and the noise signal selected by the selection step,
The noise suppression method according to claim 4, wherein the noise mixed normal distribution generation step generates a mixed normal distribution of the noise signal from the noise signal selected by the selection step.
学習用の音声信号から音響特徴量を抽出する学習用特徴量抽出部と、
前記学習用特徴量抽出部により抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する音声ラベル生成部と、
前記学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する学習用正規化特徴量抽出部と、
前記音声ラベル生成部により生成されたラベル情報と、前記学習用正規化特徴量抽出部により抽出された正規化された音響特徴量とを用いて、音声モデルを学習する音声モデル学習部と
を備えることを特徴とする音声モデル学習装置。
A feature extraction unit for learning that extracts an acoustic feature from a speech signal for learning;
An audio label generation unit that generates label information that associates the acoustic feature amount extracted by the learning feature amount extraction unit with the mixed normal distribution of the audio signal;
A learning normalized feature quantity extraction unit that extracts a normalized acoustic feature quantity from a learning acoustic signal including the learning speech signal and the learning noise signal;
A speech model learning unit that learns a speech model using the label information generated by the speech label generation unit and the normalized acoustic feature amount extracted by the learning normalized feature amount extraction unit. A speech model learning apparatus characterized by that.
前記音声モデル学習部は、前記音声信号の混合正規分布と、前記学習用正規化特徴量抽出部により抽出された正規化された音響特徴量に対応するディープニューラルネットワークの出力層の各ノードとを対応付けることにより前記音声モデルを学習する
ことを特徴とする請求項6に記載の音声モデル学習装置。
The speech model learning unit includes a mixed normal distribution of the speech signal and each node of the output layer of the deep neural network corresponding to the normalized acoustic feature amount extracted by the learning normalized feature amount extraction unit. The speech model learning apparatus according to claim 6, wherein the speech model is learned by associating the speech model.
請求項6又は7に記載の音声モデル学習装置により学習された前記音声モデルを記憶する音声モデル記憶部と、
音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する特徴抽出部と、
前記混合音響信号から正規化された音響特徴量を抽出する正規化特徴量抽出部と、
前記音声モデルと、前記正規化特徴量抽出部により抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する音声事後確率計算部と、
前記音声事後確率計算部により計算された音声事後確率と、音声信号の混合正規分布とを用いて、前記混合音響信号における前記雑音信号を抑圧する雑音抑圧部と
を備えることを特徴とする雑音抑圧装置。
A speech model storage unit that stores the speech model learned by the speech model learning device according to claim 6;
A feature extraction unit that extracts an acoustic feature amount from a mixed acoustic signal including an audio signal and a noise signal;
A normalized feature quantity extraction unit for extracting a normalized acoustic feature quantity from the mixed acoustic signal;
A speech posterior probability calculation unit that calculates a speech posterior probability using the speech model and the normalized acoustic feature amount extracted by the normalized feature amount extraction unit;
A noise suppression unit comprising: a noise suppression unit that suppresses the noise signal in the mixed acoustic signal using the speech posterior probability calculated by the speech posterior probability calculation unit and a mixed normal distribution of the speech signal. apparatus.
前記混合音響信号に含まれる前記音声信号及び前記雑音信号を推定する信号推定部と、
前記信号推定部により推定された前記音声信号及び前記雑音信号から、前記音声信号の混合正規分布を前記音声信号に該当する音声の話者に適応させるための話者適応パラメータを推定する話者適応パラメータ推定部と、
前記信号推定部により推定された前記雑音信号から、雑音信号の混合正規分布を生成する雑音混合正規分布生成部と、
前記話者適応パラメータ及び前記音声信号の混合正規分布と、前記雑音信号の混合正規分布とから、前記混合音響信号の混合正規分布を生成する混合正規分布生成部と、
前記音声事後確率と前記混合音響信号の混合正規分布とから、前記混合音響信号に含まれる前記音声信号の期待値及び前記雑音信号の期待値を計算する期待値計算部と
をさらに備え、
前記信号推定部、前記話者適応パラメータ推定部、前記雑音混合正規分布生成部、前記混合正規分布生成部及び前記期待値計算部は、前記期待値計算部により計算された前記音声信号の期待値及び前記雑音信号の期待値が所定条件を満たすまで、前記音声信号の期待値及び前記雑音信号の期待値について再帰的に処理を繰り返す
ことを特徴とする請求項8に記載の雑音抑圧装置。
A signal estimation unit for estimating the audio signal and the noise signal included in the mixed acoustic signal;
Speaker adaptation for estimating speaker adaptation parameters for adapting a mixed normal distribution of the speech signal to speech speakers corresponding to the speech signal from the speech signal and the noise signal estimated by the signal estimation unit A parameter estimator;
From the noise signal estimated by the signal estimation unit, a noise mixed normal distribution generation unit that generates a mixed normal distribution of noise signals,
A mixed normal distribution generating unit that generates a mixed normal distribution of the mixed acoustic signal from the mixed normal distribution of the speaker adaptation parameter and the voice signal and the mixed normal distribution of the noise signal;
An expected value calculation unit for calculating an expected value of the speech signal and an expected value of the noise signal included in the mixed acoustic signal from the speech posterior probability and a mixed normal distribution of the mixed acoustic signal; and
The signal estimation unit, the speaker adaptive parameter estimation unit, the noise mixed normal distribution generation unit, the mixed normal distribution generation unit, and the expected value calculation unit are expected values of the speech signal calculated by the expected value calculation unit. The noise suppression device according to claim 8, wherein the processing is recursively repeated for the expected value of the speech signal and the expected value of the noise signal until the expected value of the noise signal satisfies a predetermined condition.
前記信号推定部により推定された前記音声信号及び前記雑音信号から所定条件を満たす信号を選択する選択部
をさらに備え、
前記話者適応パラメータ推定部は、前記選択部により選択された前記音声信号及び前記雑音信号から前記話者適応パラメータを推定し、
前記雑音混合正規分布生成部は、前記選択部により選択された前記雑音信号から前記雑音信号の混合正規分布を生成する
ことを特徴とする請求項9に記載の雑音抑圧装置。
A selection unit that selects a signal that satisfies a predetermined condition from the voice signal and the noise signal estimated by the signal estimation unit;
The speaker adaptation parameter estimation unit estimates the speaker adaptation parameter from the voice signal and the noise signal selected by the selection unit,
The noise suppression apparatus according to claim 9, wherein the noise mixed normal distribution generation unit generates a mixed normal distribution of the noise signal from the noise signal selected by the selection unit.
請求項6又は7に記載の音声モデル学習装置としてコンピュータを機能させる音声モデル学習プログラム。   A speech model learning program for causing a computer to function as the speech model learning device according to claim 6. 請求項8、9又は10に記載の雑音抑圧装置としてコンピュータを機能させる雑音抑圧プログラム。   A noise suppression program for causing a computer to function as the noise suppression device according to claim 8, 9 or 10.
JP2015021453A 2015-02-05 2015-02-05 Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program Active JP6243858B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015021453A JP6243858B2 (en) 2015-02-05 2015-02-05 Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015021453A JP6243858B2 (en) 2015-02-05 2015-02-05 Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program

Publications (2)

Publication Number Publication Date
JP2016143043A JP2016143043A (en) 2016-08-08
JP6243858B2 true JP6243858B2 (en) 2017-12-06

Family

ID=56570438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015021453A Active JP6243858B2 (en) 2015-02-05 2015-02-05 Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program

Country Status (1)

Country Link
JP (1) JP6243858B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417207A (en) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 A kind of depth mixing generation network self-adapting method and system

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7019138B2 (en) * 2017-02-28 2022-02-15 国立大学法人電気通信大学 Coding device, coding method and program
JP6588936B2 (en) * 2017-03-22 2019-10-09 日本電信電話株式会社 Noise suppression apparatus, method thereof, and program
CN106991999B (en) * 2017-03-29 2020-06-02 北京小米移动软件有限公司 Voice recognition method and device
CN107452389B (en) * 2017-07-20 2020-09-01 大象声科(深圳)科技有限公司 Universal single-track real-time noise reduction method
CN109754821B (en) * 2017-11-07 2023-05-02 北京京东尚科信息技术有限公司 Information processing method and system, computer system and computer readable medium
WO2019162990A1 (en) * 2018-02-20 2019-08-29 三菱電機株式会社 Learning device, voice activity detector, and method for detecting voice activity
CN108922560B (en) * 2018-05-02 2022-12-02 杭州电子科技大学 Urban noise identification method based on hybrid deep neural network model
CN108777146A (en) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 Speech model training method, method for distinguishing speek person, device, equipment and medium
JP7231181B2 (en) * 2018-07-17 2023-03-01 国立研究開発法人情報通信研究機構 NOISE-RESISTANT SPEECH RECOGNITION APPARATUS AND METHOD, AND COMPUTER PROGRAM
CN111028852A (en) * 2019-11-06 2020-04-17 杭州哲信信息技术有限公司 Noise removing method in intelligent calling system based on CNN
JP7504601B2 (en) * 2020-01-28 2024-06-24 株式会社東芝 Signal processing device, signal processing method and program
CN111402922B (en) * 2020-03-06 2023-06-30 武汉轻工大学 Audio signal classification method, device, equipment and storage medium based on small samples
CN111489763B (en) * 2020-04-13 2023-06-20 武汉大学 GMM model-based speaker recognition self-adaption method in complex environment
CN113223505B (en) * 2021-04-30 2023-12-08 珠海格力电器股份有限公司 Model training method, data processing method, device, electronic equipment and storage medium
CN113593591B (en) * 2021-07-27 2024-06-11 北京小米移动软件有限公司 Corpus noise reduction method and device, electronic equipment and storage medium
KR20240056314A (en) * 2022-10-21 2024-04-30 주식회사 히어디엘 An apparatus and method of reducing the environmental noise in speech waveform by using band-pass filter and deep learning

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5670298B2 (en) * 2011-11-30 2015-02-18 日本電信電話株式会社 Noise suppression device, method and program
JP5740362B2 (en) * 2012-07-31 2015-06-24 日本電信電話株式会社 Noise suppression apparatus, method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417207A (en) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 A kind of depth mixing generation network self-adapting method and system

Also Published As

Publication number Publication date
JP2016143043A (en) 2016-08-08

Similar Documents

Publication Publication Date Title
JP6243858B2 (en) Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program
Li et al. An overview of noise-robust automatic speech recognition
EP1515305B1 (en) Noise adaption for speech recognition
EP2189976B1 (en) Method for adapting a codebook for speech recognition
KR100745976B1 (en) Method and apparatus for classifying voice and non-voice using sound model
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
JPH0850499A (en) Signal identification method
JP4586577B2 (en) Disturbance component suppression device, computer program, and speech recognition system
WO2010019831A1 (en) Hidden markov model for speech processing with training method
JPWO2009133719A1 (en) Acoustic model learning device and speech recognition device
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
KR102406512B1 (en) Method and apparatus for voice recognition
JP6748304B2 (en) Signal processing device using neural network, signal processing method using neural network, and signal processing program
JP4512848B2 (en) Noise suppressor and speech recognition system
JP5713818B2 (en) Noise suppression device, method and program
JP5670298B2 (en) Noise suppression device, method and program
JP5997114B2 (en) Noise suppression device, noise suppression method, and program
JP5740362B2 (en) Noise suppression apparatus, method, and program
JP4960845B2 (en) Speech parameter learning device and method thereof, speech recognition device and speech recognition method using them, program and recording medium thereof
Ming et al. An iterative longest matching segment approach to speech enhancement with additive noise and channel distortion
JP2004509364A (en) Speech recognition system
JP5457999B2 (en) Noise suppressor, method and program thereof
JP6673861B2 (en) Signal processing device, signal processing method and signal processing program
JP5498452B2 (en) Background sound suppression device, background sound suppression method, and program
JP5885686B2 (en) Acoustic model adaptation apparatus, acoustic model adaptation method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171110

R150 Certificate of patent or registration of utility model

Ref document number: 6243858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150