JP2013007975A - Noise suppression device, method and program - Google Patents

Noise suppression device, method and program Download PDF

Info

Publication number
JP2013007975A
JP2013007975A JP2011142230A JP2011142230A JP2013007975A JP 2013007975 A JP2013007975 A JP 2013007975A JP 2011142230 A JP2011142230 A JP 2011142230A JP 2011142230 A JP2011142230 A JP 2011142230A JP 2013007975 A JP2013007975 A JP 2013007975A
Authority
JP
Japan
Prior art keywords
noise
signal
model
acoustic
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011142230A
Other languages
Japanese (ja)
Other versions
JP5713818B2 (en
Inventor
Masakiyo Fujimoto
雅清 藤本
Shinji Watabe
晋治 渡部
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011142230A priority Critical patent/JP5713818B2/en
Publication of JP2013007975A publication Critical patent/JP2013007975A/en
Application granted granted Critical
Publication of JP5713818B2 publication Critical patent/JP5713818B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a noise suppression technology which can reflect changes and features of more noise signals to a probability model of a noise signal and correctly suppress a noise signal by using a noise signal as learning data, regardless of existence of a voice signal.SOLUTION: A sound feature of a sound signal is extracted. A noise signal is estimated by using a probability model of a voice signal excluding a noise (hereafter, referred to as "voice model") and the sound feature of the sound signal, and an unsupervised learning of a probability model of a noise signal (hereafter, referred to as "noise model") is performed with the estimated noise signal as learning data. A noise signal of the sound signal is suppressed by using the noise model.

Description

本発明は入力音響信号に含まれる雑音信号を抑圧して所望の信号を抽出するための雑音抑圧技術に関する。   The present invention relates to a noise suppression technique for extracting a desired signal by suppressing a noise signal included in an input acoustic signal.

処理対象とする音声信号や、音声信号以外の信号(以下「雑音信号」という)を含む音響信号から音声信号を聞き取りやすくするために雑音信号を抑制する従来技術が知られている。特に、自動音声認識技術を実際の環境で利用する場合においては、正しく音声認識を行うために、音響信号から雑音信号を取り除き所望の音声信号のみを抽出する必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。   Conventional techniques for suppressing a noise signal are known in order to make it easier to hear a sound signal from a sound signal including a sound signal to be processed and a signal other than the sound signal (hereinafter referred to as “noise signal”). In particular, when the automatic speech recognition technology is used in an actual environment, it is necessary to remove a noise signal from an acoustic signal and extract only a desired speech signal in order to correctly perform speech recognition. The use of automatic speech recognition in the actual environment is highly expected in the information-oriented society in the future, and is a problem that should be solved as soon as possible.

非特許文献1が雑音抑圧に係る従来技術として知られている。非特許文献1は、予め推定した音声信号と雑音信号の確率モデルから音響信号の確率モデルを生成し、確率モデルと音響信号全体の統計量との差分をテイラー展開で表現する。EMアルゴリズム(以下「期待値最大化法」ともいう)を用いてその差分を推定し音響信号の確率モデルを最適化する。その後、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている。   Non-Patent Document 1 is known as a prior art related to noise suppression. Non-Patent Document 1 generates a probability model of an acoustic signal from a speech signal and a noise signal estimated in advance, and expresses the difference between the probability model and the statistic of the entire acoustic signal by Taylor expansion. The difference is estimated using an EM algorithm (hereinafter also referred to as “expected value maximization method”), and the acoustic signal probability model is optimized. Thereafter, a method of suppressing noise using the optimized parameters of the acoustic signal probability model and the speech signal probability model is disclosed.

P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylorseries approach for environment-independent speech recognition", in Proceedings of ICASSP '96, May 1996, vol. II, pp. 733-736P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylorseries approach for environment-independent speech recognition", in Proceedings of ICASSP '96, May 1996, vol. II, pp. 733-736

従来技術において雑音信号の確率モデルを推定するためには、雑音信号のみの学習データが必要となる。しかし、通常、雑音抑圧を行う際に観測可能な信号は、雑音信号と音声信号が混合された音響信号のみであり、雑音信号のみを単独で観測することは難しい。このため、従来技術では、音声信号が存在せず、雑音信号のみが存在する時間区間を推定することにより雑音信号のみの学習データを得ていた。しかしながら、このような方法では、音声信号が存在する時間区間における雑音信号を学習データとして利用することができず、当該区間で発生した雑音信号の変化や特徴を雑音信号の確率モデルに反映することができない。そのため、雑音信号の分布を正確に推定、表現することが難しい。   In order to estimate the probability model of a noise signal in the prior art, learning data of only the noise signal is required. However, normally, the signal that can be observed when performing noise suppression is only an acoustic signal in which the noise signal and the audio signal are mixed, and it is difficult to observe only the noise signal alone. For this reason, in the prior art, learning data of only the noise signal is obtained by estimating a time interval in which there is no audio signal and only the noise signal exists. However, in such a method, a noise signal in a time interval in which an audio signal exists cannot be used as learning data, and changes and characteristics of the noise signal generated in the interval are reflected in the noise signal probability model. I can't. For this reason, it is difficult to accurately estimate and represent the distribution of the noise signal.

本発明は、音声信号の存在有無に関わらず、雑音信号を学習データとして利用し、より多くの雑音信号の変化や特徴を雑音信号の確率モデルに反映することができ、より正確に雑音信号を抑圧することができる雑音抑圧技術を提供することを目的とする。   The present invention can use a noise signal as learning data regardless of the presence or absence of a speech signal, and can reflect more changes and features of the noise signal in the probability model of the noise signal. An object of the present invention is to provide a noise suppression technique that can be suppressed.

上記の課題を解決するために、本発明の第一の態様によれば、雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する。音響信号の音響特徴を抽出する。雑音を含まない音声信号の確率モデル(以下「音声モデル」という)と音響信号の音響特徴とを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル(以下「雑音モデル」という)を教師無し学習する。雑音モデルを用いて音響信号の雑音信号を抑圧する。   In order to solve the above problems, according to the first aspect of the present invention, a noise signal is suppressed from an acoustic signal including a noise signal and a voice signal. Extract the acoustic features of the acoustic signal. A noise signal is estimated using a noise signal-free stochastic model (hereinafter referred to as “speech model”) and the acoustic features of the acoustic signal, and the estimated noise signal is used as training data to determine the noise signal probability model (hereinafter “ "Noise model"). The noise signal of the acoustic signal is suppressed using the noise model.

本発明に係る雑音抑圧技術は、より正確に雑音信号を抑圧することができるという効果を奏する。   The noise suppression technique according to the present invention has an effect that noise signals can be more accurately suppressed.

雑音抑圧装置100の機能ブロック図。2 is a functional block diagram of the noise suppression device 100. FIG. 雑音抑圧装置100の処理フローを示す図。The figure which shows the processing flow of the noise suppression apparatus. 音響特徴抽出部104の処理フローを示す図。The figure which shows the processing flow of the acoustic feature extraction part 104. FIG. 雑音モデル推定部105の機能ブロック図。The functional block diagram of the noise model estimation part 105. FIG. 雑音モデル推定部105の処理フローを示す図。The figure which shows the processing flow of the noise model estimation part 105. FIG. 雑音モデルパラメータ推定手段306の機能ブロック図。The functional block diagram of the noise model parameter estimation means 306. 雑音モデルパラメータ推定手段306の処理フローを示す図。The figure which shows the processing flow of the noise model parameter estimation means 306. 雑音抑圧部106の機能ブロック図。FIG. 3 is a functional block diagram of the noise suppression unit 106. 雑音抑圧フィルタ推定手段の処理フローを示す図。The figure which shows the processing flow of a noise suppression filter estimation means. 雑音抑圧フィルタ適用手段の処理フローを示す図。The figure which shows the processing flow of a noise suppression filter application means. 本発明による雑音モデルの推定例を示す図。The figure which shows the example of an estimation of the noise model by this invention. 本発明による雑音抑圧例を示す図。The figure which shows the noise suppression example by this invention. 本発明による音響信号に含まれる音声信号に対する雑音抑圧信号を示す図。The figure which shows the noise suppression signal with respect to the audio | voice signal contained in the acoustic signal by this invention.

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「」は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following explanation, the symbols "^" and " - " used in the text should be written immediately above the character that immediately follows, but are written immediately before the character due to restrictions on the text notation. . In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.

<第一実施形態に係る雑音抑圧装置100>
図1及び図2を用いて第一実施形態に係る雑音抑圧装置100を説明する。
<Noise Suppression Device 100 according to First Embodiment>
A noise suppression device 100 according to the first embodiment will be described with reference to FIGS. 1 and 2.

図1に示すように雑音抑圧装置100は、音響特徴抽出部104と、音声モデルを構成する無音GMM(混合正規分布:Gaussian mixture model)とクリーン音声GMMとが格納されるGMM記憶部107と、雑音モデル推定部105と、雑音抑圧部106とを含む。雑音抑圧装置100は、音声信号と雑音信号とが混合された音響信号oτを収録し、または、入力され、音響信号oτから雑音信号を抑圧した雑音抑圧信号^sτを出力する。但し、τは離散信号のサンプル点を表す。以下、本実施形態の概要を説明する。 As shown in FIG. 1, the noise suppression apparatus 100 includes an acoustic feature extraction unit 104, a GMM storage unit 107 in which a silent GMM (Gaussian mixture model) and a clean speech GMM constituting a speech model are stored, A noise model estimation unit 105 and a noise suppression unit 106 are included. The noise suppression apparatus 100 is recorded an acoustic signal o tau where the audio signal and the noise signal are mixed, or, and outputs a noise suppressed signal ^ s tau was suppressing noise signals from the acoustic signal o tau. However, (tau) represents the sample point of a discrete signal. Hereinafter, an outline of the present embodiment will be described.

図2に示すように音響特徴抽出部104は音響信号から雑音抑圧を実施するための複素数スペクトルと対数メルスペクトルとを抽出する(s104)。雑音モデル推定部105は対数メルスペクトルとGMM記憶部107で主記憶上に保持された無音GMMとクリーン音声GMMとを用いて雑音信号の確率モデル(以下「雑音モデル」という)である雑音GMMを推定する(s105)。雑音抑圧部106は、複素数スペクトルと、対数メルスペクトルと、無音GMMと、クリーン音声GMMと、雑音GMMとを用いて雑音抑圧フィルタを設計し、音響信号から雑音信号を抑圧して雑音抑圧信号を得る(s106)。以下、各部の詳細を説明する。   As shown in FIG. 2, the acoustic feature extraction unit 104 extracts a complex spectrum and a log mel spectrum for performing noise suppression from the acoustic signal (s104). The noise model estimation unit 105 uses a logarithmic mel spectrum and a silence GMM and a clean speech GMM held in the main memory by the GMM storage unit 107 to obtain a noise GMM which is a probability model (hereinafter referred to as “noise model”) of a noise signal. Estimate (s105). The noise suppression unit 106 designs a noise suppression filter using a complex number spectrum, logarithmic mel spectrum, silence GMM, clean speech GMM, and noise GMM, and suppresses the noise signal from the acoustic signal to generate the noise suppression signal. Obtain (s106). Details of each part will be described below.

<音響特徴抽出部104>
音響特徴抽出部104は、音響信号の音響特徴を抽出する(s104)。抽出する音響特徴は、音響信号から雑音信号を抑圧する際に用いるものであり、例えば、複素数スペクトルと対数メルスペクトルである。音響特徴抽出部104は、例えば、図3に示す流れで処理を行う。
<Acoustic Feature Extraction Unit 104>
The acoustic feature extraction unit 104 extracts the acoustic feature of the acoustic signal (s104). The extracted acoustic features are used when a noise signal is suppressed from an acoustic signal, and are, for example, a complex spectrum and a log mel spectrum. For example, the acoustic feature extraction unit 104 performs processing according to the flow shown in FIG.

まず、ある周波数(例えば16,000Hz)で標本化された音響信号oτを時間軸方向に一定時間幅(シフト幅)で始点を移動させながら、一定時間長(フレーム幅)の音響信号をフレームとして切り出す(s201)。例えばフレーム幅Frame=320個のサンプル点(16,000Hz×20ms)の音響信号o={ot,0,ot,1,…,ot,n,…,ot,319}を、シフト幅Shift=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。フレーム単位の音響信号をoとし、以下のように表す。
ot={ot,0,ot,1,…,ot,n,…,ot,Frame-1}
なお、複数チャネルの音響信号を入力とする場合には、チャネル毎にフレームを切り出せばよい。また、フレームを切り出す際に、例えば以下のハミング窓のような窓関数wを掛け合わせて切り出してもよい。
First, while moving the start point at a certain frequency (e.g. 16,000Hz) in the sampled sound signal o tau the time axis direction in a predetermined time width (shift width), the frame acoustic signal for a predetermined time length (frame width) Is cut out (s201). For example acoustic signals o t = frame width Frame = 320 samples points (16,000Hz × 20ms) {o t , 0, o t, 1, ..., o t, n, ..., o t, 319} a, Cut out while shifting the start point by shift width Shift = 160 sample points (16,000 Hz × 10 ms). Here, t represents the frame number, and n represents the nth sample point in the frame. Acoustic signals in frame units and o t, expressed as follows.
o t = {o t, 0 , o t, 1 ,…, o t, n ,…, o t, Frame-1 }
Note that when an acoustic signal of a plurality of channels is input, a frame may be cut out for each channel. Further, when cutting out the frame, it may be excised for example by multiplying the window function w n, such as the following Hamming window.

Figure 2013007975
Figure 2013007975

次に、音響特徴抽出部104は音響信号oに対してM点(但し、Mは2のべき乗、かつ、フレーム幅Frame以上の値を設定する必要があり、例えば512とする)の高速フーリエ変換処理を適用して、複素数スペクトルSpc={Spct,0,…,Spct,m,…,Spct,M−1}(但し、mは周波数ビンの番号である)を得る(s202)。 Then, fast Fourier point M to the acoustic feature extraction unit 104 the audio signal o t (where, M is a power of 2, and must be set to a minimum of the frame width Frame, eg, 512) Applying the transformation process, a complex spectrum Spc t = {Spc t, 0 ,..., Spc t, m ,..., Spc t, M−1 } (where m is the frequency bin number) is obtained (s202 ).

次に、音響特徴抽出部104は、Spct,mの絶対値に対してメルフィルタバンク分析を行い(s203)、フィルタバンクの出力に対し、対数化処理を適用する(s204)。このような処理により、R次元(例えばR=24)の対数メルスペクトルを要素に持つベクトル(以下、このベクトルを単に「対数メルスペクトル」という)O={Ot,0,…,Ot,r,…,Ot,R−1}を算出する。但しrはベクトルの要素番号を示す。すなわち、音響特徴抽出部104の出力は複素数スペクトルSpcと、対数メルスペクトルOとである。複素数スペクトルSpcは、雑音抑圧部106の入力となり、対数メルスペクトルOは、雑音モデル推定部105と、雑音抑圧部106との入力となる。 Next, the acoustic feature extraction unit 104 performs mel filter bank analysis on the absolute value of Spct , m (s203), and applies logarithmic processing to the output of the filter bank (s204). By such processing, a vector having an R-dimensional (for example, R = 24) log mel spectrum as an element (hereinafter, this vector is simply referred to as “log mel spectrum”) O t = {O t, 0 ,..., O t , R 1 ,..., O t, R−1 } is calculated. However, r shows the element number of a vector. That is, the output of the acoustic feature extraction unit 104 is the complex spectrum Spc t and the log mel spectrum O t . Complex spectrum Spc t becomes the input of the noise suppressor 106, logarithmic Mel spectrum O t is a noise model estimating section 105, the input of the noise suppressor 106.

<GMM記憶部107>
図示しない記憶部には、雑音を含まない音声信号の確率モデル(以下「音声モデル」という)が予め記憶される。例えば、記憶部の一部であるGMM記憶部107には、音声モデルとして無音GMMとクリーン音声GMMが格納される。なお、無音GMMは雑音信号を含まない音声信号の無音部分より取得した音響信号に基づき学習されたGMMであり、クリーン音声GMMは雑音のない環境において無音部分を除く音声のみからなる音響信号に基づき学習されたGMMである。
<GMM storage unit 107>
In a storage unit (not shown), a probability model (hereinafter referred to as “speech model”) of a speech signal that does not contain noise is stored in advance. For example, a silent GMM and a clean speech GMM are stored as speech models in the GMM storage unit 107 that is a part of the storage unit. The silent GMM is a GMM learned based on an acoustic signal acquired from a silent portion of a speech signal that does not include a noise signal, and the clean speech GMM is based on an acoustic signal consisting only of speech excluding the silent portion in an environment without noise. It is a learned GMM.

無音GMM及びクリーン音声GMMは次式により与えられる。   The silent GMM and the clean speech GMM are given by the following equations.

Figure 2013007975
Figure 2013007975

上式において、jは無音GMMと、クリーン音声GMMとを識別するインデックスであり、j=0は無音GMMを、j=1はクリーン音声GMMを示す。また、kは無音GMMもしくはクリーン音声GMMに含まれる正規分布の番号、Kは総正規分布数である(例えばK=128)。また、Sは雑音を含まない音声信号の対数メルスペクトルであり、bS,j(S)は無音GMMもしくはクリーン音声GMMの尤度である。なお、下付文字Sは、後述する雑音GMMや音声信号と雑音信号を含む音響信号のGMMとは異なる音響モデル(無音GMMまたはクリーン音声GMM等)に係る尤度やパラメータであることを示している。また、wS,j,kと、μS,j,kと、ΣS,j,kとは、それぞれ無音GMMもしくはクリーン音声GMMの混合重みと、平均ベクトルと、対角分散行列である。また、関数N(・)は、次式で与えられる多次元正規分布の確率密度関数である。 In the above equation, j is an index for identifying the silent GMM and the clean voice GMM, j = 0 indicates the silent GMM, and j = 1 indicates the clean voice GMM. Further, k is a normal distribution number included in the silent GMM or the clean speech GMM, and K is the total normal distribution number (for example, K = 128). Further, St is a logarithmic mel spectrum of a speech signal not including noise, and b S, j (S t ) is a likelihood of a silent GMM or a clean speech GMM. The subscript S indicates a likelihood or parameter relating to an acoustic model (silent GMM or clean speech GMM) different from a noise GMM, which will be described later, or a GMM of a speech signal and an acoustic signal including the noise signal. Yes. Further, w S, j, k , μ S, j, k and Σ S, j, k are a mixing weight of a silent GMM or a clean speech GMM, an average vector, and a diagonal dispersion matrix, respectively. The function N (•) is a probability density function of a multidimensional normal distribution given by the following equation.

Figure 2013007975
Figure 2013007975

一方、雑音モデルとして、雑音信号のGMM(以下「雑音GMM」という)を用いることができる。雑音GMMは次式により与えられる。   On the other hand, a noise signal GMM (hereinafter referred to as “noise GMM”) can be used as the noise model. The noise GMM is given by:

Figure 2013007975
Figure 2013007975

上式において、lは雑音GMMに含まれる正規分布の番号、Lは総正規分布数である(例えばL=4)。また、Nは雑音の対数メルスペクトルであり、b(N)は、雑音GMMの尤度であり、wN,lと、μN,lと、ΣN,lとは、それぞれ雑音GMMの混合重みと、平均ベクトルと、対角分散行列である。以後、雑音GMMのパラメータセット(以下「雑音モデルパラメータ」ともいう)をλ={wN,l,μN,l,ΣN,l}と定義する。なお、下付文字Nは、雑音GMMに係る尤度やパラメータであることを示している。 In the above equation, l is a normal distribution number included in the noise GMM, and L is the total normal distribution number (for example, L = 4). N t is the logarithmic mel spectrum of noise, b N (N t ) is the likelihood of noise GMM, and w N, l , μ N, l and Σ N, l are noise respectively. GMM mixture weight, average vector, and diagonal dispersion matrix. Hereinafter, a noise GMM parameter set (hereinafter also referred to as “noise model parameters”) is defined as λ = {w N, l , μ N, l , Σ N, l }. Note that the subscript N indicates the likelihood or parameter related to the noise GMM.

非特許文献1では、雑音信号の特徴が定常的かつ、その分布が単峰性であるという前提のもとで雑音抑圧を行っている。一方、本実施形態では、雑音信号が、多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音モデルを単一の正規分布ではなく、GMMにて表現している。なお、後述の雑音モデル推定部105において、雑音モデルを教師無し学習する。   In Non-Patent Document 1, noise suppression is performed on the assumption that the characteristics of a noise signal are stationary and the distribution is unimodal. On the other hand, in the present embodiment, the noise signal is defined as a signal based on non-stationary noise following a multimodal distribution, and the noise model is expressed by GMM instead of a single normal distribution. Note that the noise model estimation unit 105 described later performs unsupervised learning of the noise model.

<雑音モデル推定部105>
雑音モデル推定部105は、対数メルスペクトルOと無音GMMとクリーン音声GMMとを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音GMMを教師無し学習する(s105)。本実施形態では、雑音信号そのものではなく、雑音信号の音響特徴(対数メルスペクトル)を推定し、これを用いて、雑音GMMを学習する。
<Noise Model Estimation Unit 105>
The noise model estimation unit 105 estimates a noise signal by using the log mel spectrum O t , the silence GMM, and the clean speech GMM, and performs unsupervised learning of the noise GMM using the estimated noise signal as learning data (s105). In the present embodiment, not the noise signal itself but an acoustic feature (log mel spectrum) of the noise signal is estimated, and the noise GMM is learned using this.

例えば、雑音モデル推定部105において、雑音GMMは入れ子構造となった2種類のEMアルゴリズムにより推定する。以後、この2種類のEMアルゴリズムを、それぞれ第一EMアルゴリズム及び第二EMアルゴリズムと呼ぶこととする。EMアルゴリズムは、ある確率モデルのパラメータ推定に利用される方法であり、確率モデルのコスト関数(対数尤度関数)の期待値を計算するExpectation-step(E−step)と、コスト関数を最大化するMaximization-step(M−step)とを、収束条件を満たすまで繰り返すことによりパラメータを最適推定する。   For example, in the noise model estimation unit 105, the noise GMM is estimated by two types of nested EM algorithms. Hereinafter, these two types of EM algorithms will be referred to as a first EM algorithm and a second EM algorithm, respectively. The EM algorithm is a method used for parameter estimation of a certain probability model. Expectation-step (E-step) for calculating an expected value of the cost function (log likelihood function) of the probability model and the cost function are maximized. The parameter is optimally estimated by repeating Maximization-step (M-step) to satisfy the convergence condition.

第一EMアルゴリズムにおいて、音響信号を用いて、雑音信号と音声信号とを含む音響信号の確率モデル(以下「音響モデル」ともいう)の尤度が最大となるように、収束条件を満たすまで、後述する確率モデル生成処理(s303)と第一期待値計算処理(s304)と雑音信号推定処理(s305)と雑音モデルパラメータ推定処理(s306)とを繰り返す(図5参照)。   In the first EM algorithm, until the convergence condition is satisfied so that the likelihood of the stochastic model of the acoustic signal including the noise signal and the voice signal (hereinafter also referred to as “acoustic model”) is maximized using the acoustic signal. A probability model generation process (s303), a first expected value calculation process (s304), a noise signal estimation process (s305), and a noise model parameter estimation process (s306) described later are repeated (see FIG. 5).

第二EMアルゴリズムは後述する雑音モデルパラメータ推定手段306において実施され、推定した雑音信号を用いて、雑音GMMの尤度が最大となるように、収束条件を満たすまで、後述する第二期待値計算処理(s403)と雑音GMMのパラメータ更新処理(s404)を繰り返す(図7参照)。   The second EM algorithm is executed by a noise model parameter estimation unit 306 described later, and a second expected value calculation described later is performed using the estimated noise signal until the convergence condition is satisfied so that the likelihood of the noise GMM is maximized. The process (s403) and the noise GMM parameter update process (s404) are repeated (see FIG. 7).

以下、図4及び図5を用いて雑音モデル推定部105の詳細を説明する。   Details of the noise model estimation unit 105 will be described below with reference to FIGS. 4 and 5.

雑音モデル推定部105は、例えば図4に示すように第一初期値推定手段302と確率モデル生成手段303と第一期待値計算手段304と雑音信号推定手段305と雑音モデルパラメータ推定手段306と第一収束判定手段307とを含む。   For example, as shown in FIG. 4, the noise model estimation unit 105 includes a first initial value estimation unit 302, a probability model generation unit 303, a first expected value calculation unit 304, a noise signal estimation unit 305, a noise model parameter estimation unit 306, A convergence determination means 307.

(第一初期値推定手段302)
まず第一初期値推定手段302は、第一EMアルゴリズムの繰り返し回数を示すインデックスiを初期化する(s301)。次に第一初期値推定手段302は、対数メルスペクトルOを受け取り、第一EMアルゴリズムにおける雑音モデルパラメータの初期値λ(i=0)={w(i=0) N,l,w(i=0) N,l,w(i=0) N,l}を次式により推定し(s302)、確率モデル生成手段303に出力する。但し、Aは初期値推定に要するフレーム数である(例えばA=10)。
(First initial value estimation means 302)
First, the first initial value estimating means 302 initializes an index i indicating the number of repetitions of the first EM algorithm (s301). Next, the first initial value estimation means 302 receives the log mel spectrum O t, and the initial value λ (i = 0) = {w (i = 0) N, l , w ( i = 0) N, l , w (i = 0) N, l } is estimated by the following equation (s302) and output to the probability model generation means 303. However, A is the number of frames required for initial value estimation (for example, A = 10).

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

上式において、添え字(i)はi回目の繰り返し推定におけるパラメータであることを示す。なお、diagはかっこ内を要素とする対角行列を、上付き文字Tは転置を表す。 In the above equation, the subscript (i) indicates a parameter in the i-th iteration estimation. Here, diag represents a diagonal matrix with elements in parentheses, and the superscript T represents transposition.

(確率モデル生成手段303)
確率モデル生成手段303は、雑音GMMとクリーン音声GMMと無音GMMとを用いて、音響モデルを生成する(s303)。例えば、確率モデル生成手段303は、i回目の繰り返し推定における雑音モデルパラメータλ(i)を第一初期値推定手段302または第一収束判定手段307から受け取り、無音GMMとクリーン音声GMMのパラメータ(wS,j,k,μS,j,k,ΣS,j,k)をGMM記憶部107から受け取り、これらの値を利用して、対数メルスペクトルOの確率モデルを以下のようなGMMで構成する。
(Probability model generation means 303)
The probability model generation unit 303 generates an acoustic model using the noise GMM, the clean speech GMM, and the silence GMM (s303). For example, the probability model generation unit 303 receives the noise model parameter λ (i) in the i-th iterative estimation from the first initial value estimation unit 302 or the first convergence determination unit 307 and receives the parameters (w of silent GMM and clean speech GMM). S, j, k , μ S, j, k , Σ S, j, k ) are received from the GMM storage unit 107, and using these values, a probabilistic model of the log mel spectrum O t is represented by the following GMM. Consists of.

Figure 2013007975
Figure 2013007975

上式において、bO,j (i)(O)は、確率モデル生成手段303にて生成される(対数メルスペクトルOの)確率モデルの尤度であり、wO,j,k,l (i)とμO,j,k,l (i)とΣO,j,k,l (i)とは、雑音モデルパラメータλ(i)={w(i) N,l,μ(i) N,l,Σ(i) N,l}と、無音GMMもしくはクリーン音声GMMのパラメータ(wS,j,k,μS,j,k,ΣS,j,k)とから生成された対数メルスペクトルOの確率モデルの混合重みと、平均ベクトルと、対角分散行列とであり、次式で与えられる。 In the above equation, b O, j (i) (O t ) is the likelihood of the probability model (of the log mel spectrum O t ) generated by the probability model generation means 303, and w O, j, k, l (i) and μ O, j, k, l (i) and Σ O, j, k, l (i) are the noise model parameters λ (i) = {w (i) N, l , μ ( i) N, l , Σ (i) N, l } and silent GMM or clean speech GMM parameters (w S, j, k , μ S, j, k , Σ S, j, k ) The mixture weight of the probability model of the log mel spectrum O t , the average vector, and the diagonal dispersion matrix are given by the following equations.

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

上式において、関数log(・)とexp(・)は、ベクトルの要素毎に演算を行う。また、1は全ての要素が1のベクトル、Iは単位行列、Hj,k,l (i)は、式(10)の関数h(・)のヤコビ行列である。なお、下付文字Oは、音声信号と雑音信号を含む音響信号のGMMに係る尤度やパラメータであることを示している。確率モデル生成手段303は、式(9)〜(12)で求めた音響モデルのパラメータであるwO,j,k,l (i)とμO,j,k,l (i)とΣO,j,k,l (i)とを第一期待値計算手段304に出力する。 In the above equation, the functions log (•) and exp (•) perform an operation for each vector element. Also, - 1 vector of all elements 1, I is the identity matrix, H j, k, l (i) is the Jacobian matrix of the function h of the formula (10) (·). Note that the subscript O indicates the likelihood or parameter related to GMM of an acoustic signal including a speech signal and a noise signal. The probabilistic model generation means 303 is the acoustic model parameters w O, j, k, l (i) , μ O, j, k, l (i) and Σ O which are parameters of the acoustic model obtained by the equations (9) to (12). , J, k, l (i) are output to the first expected value calculation means 304.

(第一期待値計算手段304)
第一期待値計算手段304は、音響モデルのパラメータであるwO,j,k,l (i)とμO,j,k,l (i)とΣO,j,k,l (i)とを確率モデル生成手段303から受け取り、音響信号の対数メルスペクトルOを音響特徴抽出部104から受け取り、i回目の繰り返し推定における対数メルスペクトルOの確率モデルのコスト関数Q()の期待値を次式により計算する(E−step)(s304)。
(First expected value calculation means 304)
The first expected value calculation means 304 is the acoustic model parameters w O, j, k, l (i) , μ O, j, k, l (i) and ΣO , j, k, l (i). Is received from the probability model generation means 303, the log mel spectrum O t of the acoustic signal is received from the acoustic feature extraction unit 104, and the expectation of the cost function Q 1 () of the probability model of the log mel spectrum O t in the i-th iterative estimation. The value is calculated by the following equation (E-step) (s304).

Figure 2013007975
Figure 2013007975

なお、上式において、O0:T−1={O,…,O,…,OT−1}であり、Tは対数メルスペクトルOの総フレーム数、P(i) t,jとP(i) t,j,k,lは、それぞれ次式で与えられるフレームtにおけるGMM種別j、もしくは正規分布番号kと、lとに対する事後確率である。特に、P(i) t,j=0を音声非存在確率、P(i) t,j=1を音声存在確率と定義する。 In the above equation, O 0: T-1 = {O 0 ,..., O t ,..., O T-1 }, where T is the total number of frames of the log mel spectrum O t , P (i) t, j and P (i) t, j, k, and l are posterior probabilities for GMM type j or normal distribution number k and l in frame t given by the following equations, respectively. In particular, P (i) t, j = 0 is defined as a speech non-existence probability, and P (i) t, j = 1 is defined as a speech existence probability.

Figure 2013007975
Figure 2013007975

Figure 2013007975
第一期待値計算手段304は、求めた第一期待値Qを第一収束判定手段307に、P(i) t,jとP(i) t,j,k,lとを雑音信号推定手段305に出力する。
Figure 2013007975
First expectation value calculation unit 304, a first expected value Q 1 obtained in the first convergence determining unit 307, P (i) t, j and P (i) t, j, k, the noise signal estimate and l Output to the means 305.

(雑音信号推定手段305)
雑音信号推定手段305は、音響信号を用いて、雑音信号を推定する(s305)。例えば、雑音信号推定手段305は、P(i) t,jとP(i) t,j,k,lを第一期待値計算手段304から受け取り、音響信号の対数メルスペクトルOを音響特徴抽出部104から受け取り、雑音モデルパラメータλ(i)を更新するために用いる雑音信号の対数メルスペクトルN(i) を推定し、雑音モデルパラメータ推定手段306に出力する。雑音の対数メルスペクトルN(i) は、次式により推定される。
(Noise signal estimation means 305)
The noise signal estimation means 305 estimates a noise signal using the acoustic signal (s305). For example, the noise signal estimation unit 305 receives P (i) t, j and P (i) t, j, k, l from the first expected value calculation unit 304 and determines the logarithmic mel spectrum O t of the acoustic signal as an acoustic feature. The log mel spectrum N (i) t of the noise signal received from the extraction unit 104 and used to update the noise model parameter λ (i) is estimated and output to the noise model parameter estimation means 306. The log mel spectrum N (i) t of noise is estimated by the following equation.

Figure 2013007975
Figure 2013007975

(雑音モデルパラメータ推定手段306)
雑音モデルパラメータ推定手段306は、雑音信号の対数メルスペクトルN(i) を学習データとして、雑音モデルパラメータλ(i)を推定し(M−step)(s306)、推定した雑音モデルパラメータを第一収束判定手段307に出力する。雑音モデルパラメータλ(i)の具体的な推定方法については後述する。
(Noise model parameter estimation means 306)
The noise model parameter estimation means 306 estimates the noise model parameter λ (i) (M-step) (s306) using the logarithmic mel spectrum N (i) t of the noise signal as learning data, and the estimated noise model parameter The result is output to the convergence determination means 307. A specific estimation method of the noise model parameter λ (i) will be described later.

(第一収束判定手段307)
第一収束判定手段307は、第一期待値計算手段304から第一期待値Qを受け取り、この値を用いて収束条件を満たすか否かを判定し(s307)、満たす場合はλ=λ(i)としλを出力し雑音モデル推定部105の処理を終了する。満たさない場合はλ(i)を確率モデル生成手段303に出力し、i←i+1(s308)として、繰り返し処理を行うように各部に制御信号を出力し、s303〜s306の処理を繰り返す。例えば、収束条件は、最新の第一期待値Q(O0:T−1,λ(i))と一つ前の第一期待値Q(O0:T−1,λ(i−1))との差が所定値以下である場合や、繰り返し回数iが所定値以上になった場合等とすることができる。例えば以下の式で表すことができる。
(First convergence determination means 307)
First convergence determining means 307, the first expected value calculation unit 304 receives the first expected value Q 1, to determine the convergence condition is satisfied whether using this value (s307), if it meets lambda = lambda (I) is output as λ, and the process of the noise model estimation unit 105 is terminated. If not satisfied, λ (i) is output to the probability model generation means 303, and as i ← i + 1 (s308), a control signal is output to each unit so as to perform repetition processing, and the processing of s303 to s306 is repeated. For example, the convergence condition includes the latest first expected value Q 1 (O 0: T−1 , λ (i) ) and the previous first expected value Q 1 (O 0: T−1 , λ (i−). 1) The case where the difference from) is less than or equal to a predetermined value, or the number of repetitions i is greater than or equal to a predetermined value. For example, it can be expressed by the following formula.

Figure 2013007975
であり、η=0.0001とする。
Figure 2013007975
And η 1 = 0.0001.

<雑音モデルパラメータ推定手段306の詳細>
雑音モデルパラメータ推定手段306は、例えば図6に示すように第二初期値推定手段402と第二期待値計算手段403とパラメータ更新手段404と第二収束判定手段405とを含む。雑音モデルパラメータ推定手段306は、図7に示す処理フローで処理を行い、雑音信号推定手段305で推定した雑音の対数メルスペクトルN(i) と、第二EMアルゴリズムにより、雑音モデルパラメータλ(i)を推定する。以下、図6及び図7を用いて雑音モデルパラメータ推定手段306の詳細を説明する。
<Details of Noise Model Parameter Estimation Unit 306>
The noise model parameter estimation unit 306 includes, for example, a second initial value estimation unit 402, a second expected value calculation unit 403, a parameter update unit 404, and a second convergence determination unit 405 as shown in FIG. The noise model parameter estimation unit 306 performs processing according to the processing flow shown in FIG. 7, and uses the noise log mel spectrum N (i) t estimated by the noise signal estimation unit 305 and the noise model parameter λ ( i) is estimated. Details of the noise model parameter estimation means 306 will be described below with reference to FIGS.

(第二初期値推定手段402)
第二初期値推定手段402は、まず第二EMアルゴリズムの繰り返し回数を示すインデックスiiを初期化する(s401)。次に第二初期値推定手段402は、雑音の対数メルスペクトルN(i) を受け取り、この値を用いて、第二EMアルゴリズムにおける雑音モデルパラメータλ(ii)の初期値λ(ii=0)={w(ii=0) N,l(ii=0) N,l(ii=0) N,l}を次式により推定し、第二期待値計算手段403に出力する。
(Second initial value estimating means 402)
The second initial value estimating means 402 first initializes an index ii indicating the number of repetitions of the second EM algorithm (s401). Next, the second initial value estimation means 402 receives the log mel spectrum N (i) t of noise, and uses this value to determine the initial value λ (ii = 0 ) of the noise model parameter λ (ii) in the second EM algorithm. ) = {w (ii = 0) N, l , μ (ii = 0) N, l , Σ (ii = 0) N, l } is estimated by the following equation and output to the second expected value calculation means 403 .

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

上式において、添え字(ii)はii回目の繰り返し推定におけるパラメータであることを示す。また、GaussRand(・)は正規乱数の発生器である。 In the above equation, the subscript (ii) indicates a parameter in the ii-th iteration estimation. GaussRand (·) is a normal random number generator.

(第二期待値計算手段403)
第二期待値計算手段403は、雑音の対数メルスペクトルN(i) を雑音信号推定手段305から受け取り、第二EMアルゴリズムにおける雑音モデルパラメータλ(ii)を第二初期値推定手段402または第二収束判定手段405から受け取り、ii回目の繰り返し推定における雑音GMMのコスト関数Q()の期待値を次式により計算し(E−step)(s403)、第二収束判定手段405に出力する。
(Second expected value calculation means 403)
The second expected value calculation means 403 receives the log mel spectrum N (i) t of noise from the noise signal estimation means 305, and receives the noise model parameter λ (ii) in the second EM algorithm as the second initial value estimation means 402 or the first. The expected value of the cost function Q 2 () of the noise GMM in the ii-th iterative estimation is calculated from the following equation (E-step) (s 403) and output to the second convergence determination unit 405. .

Figure 2013007975
Figure 2013007975

上式において、N(i) 0:T−1={N(i) ,…,N(i) ,…,N(i) T−1}であり、P(ii) t,lは、次式で与えられるフレームtにおける正規分布番号lに対する事後確率である。 In the above equation, N (i) 0: T-1 = {N (i) 0 , ..., N (i) t , ..., N (i) T-1 }, and P (ii) t, l is The posterior probability for the normal distribution number l in the frame t given by the following equation.

Figure 2013007975
Figure 2013007975

第二期待値計算手段403は、求めたP(ii) t,lをパラメータ更新手段404に出力する。 The second expected value calculation unit 403 outputs the calculated P (ii) t, l to the parameter update unit 404.

(パラメータ更新手段404)
パラメータ更新手段404は、P(ii) t,lを受け取り、雑音の対数メルスペクトルN(i) を雑音信号推定手段305から受け取り、雑音モデルパラメータλ(ii)を次式により更新し(M−step)(s404)、更新した雑音モデルパラメータλ(ii)を第二収束判定手段405に出力する。
(Parameter update means 404)
The parameter updating unit 404 receives P (ii) t, l , receives the log mel spectrum N (i) t of noise from the noise signal estimation unit 305, and updates the noise model parameter λ (ii) by the following equation (M -Step) (s404), and outputs the updated noise model parameter λ (ii) to the second convergence determination means 405.

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

(第二収束判定手段405)
第二収束判定手段405は、第二期待値計算手段403から第二期待値Qを受け取り、この値を用いて収束条件を満たすか否かを判定し(s405)、満たす場合はλ(i)=λ(ii)としλ(i)を出力し雑音モデルパラメータ推定手段306の処理を終了する。満たさない場合はλ(ii)を第二期待値計算手段403に出力し、ii←ii+1(s406)として、繰り返し処理を行うように各部に制御信号を出力し、s403、s404の処理を繰り返す。例えば、収束条件は、最新の第二期待値Q(O0:T−1,λ(i))と一つ前の第二期待値Q(O0:T−1,λ(i−1))との差が所定値以下である場合や、繰り返し回数iiが所定値以上になった場合等とすることができる。例えば以下の式で表すことができる。
(Second convergence determination means 405)
Second convergence determining means 405, from the second expected value calculation unit 403 receives the second expected value Q 2, to determine the convergence condition is satisfied whether using this value (s405), if it meets lambda (i ) = Λ (ii) , λ (i) is output, and the processing of the noise model parameter estimation means 306 is terminated. If not satisfied, λ (ii) is output to the second expected value calculation means 403, and as ii ← ii + 1 (s406), a control signal is output to each unit so as to perform repetition processing, and the processing of s403 and s404 is repeated. For example, the convergence condition includes the latest second expected value Q 2 (O 0: T−1 , λ (i) ) and the previous second expected value Q 2 (O 0: T−1 , λ (i−). 1) The case where the difference from) is less than or equal to a predetermined value, or the case where the number of repetitions ii is greater than or equal to a predetermined value. For example, it can be expressed by the following formula.

Figure 2013007975
Figure 2013007975

であり、η=0.0001とする。 And η 2 = 0.0001.

<雑音抑圧部106>
雑音抑圧部106は、雑音GMMを用いて音響信号の雑音信号を抑圧する(s106)。例えば、図8に示すように雑音抑圧部106は、雑音抑圧フィルタ推定手段501と雑音抑圧フィルタ適用手段502を含む。雑音抑圧フィルタ推定手段501は音響信号の対数メルスペクトルOと、無音GMMとクリーン音声GMMのパラメータ{wS,j,k,μS,j,k,ΣS,j,k}と、雑音モデルパラメータλとを受け取り、雑音抑圧フィルタWLin t,mを推定する。雑音抑圧フィルタ適用手段502は、複素数スペクトルSpcと、雑音抑圧フィルタWLin t,mとを受け取り、雑音を抑圧して雑音抑圧信号^sτを得る。以下、各手段の詳細を説明する。
<Noise Suppression Unit 106>
The noise suppression unit 106 suppresses the noise signal of the acoustic signal using the noise GMM (s106). For example, as shown in FIG. 8, the noise suppression unit 106 includes a noise suppression filter estimation unit 501 and a noise suppression filter application unit 502. The noise suppression filter estimation means 501 includes a log mel spectrum O t of an acoustic signal, parameters {w S, j, k , μ S, j, k , Σ S, j, k } of silence GMM and clean speech GMM, noise The model parameter λ is received and the noise suppression filter W Lin t, m is estimated. The noise suppression filter application unit 502 receives the complex spectrum Spc t and the noise suppression filter W Lin t, m , suppresses noise, and obtains a noise suppression signal ^ . Details of each means will be described below.

(雑音抑圧フィルタ推定手段501)
雑音抑圧フィルタ推定手段501は図9に示す流れで処理を行う。まず、雑音抑圧フィルタ推定手段501は、無音GMMとクリーン音声GMMのパラメータと、雑音モデルパラメータを受け取り、これらの値を用いて、音響信号の対数メルスペクトルOの確率モデルのパラメータを以下のように生成する(s601)。
(Noise suppression filter estimation means 501)
The noise suppression filter estimation means 501 performs processing according to the flow shown in FIG. First, the noise suppression filter estimation means 501 receives the parameters of the silent GMM and the clean speech GMM and the noise model parameters, and uses these values to set the parameters of the probability model of the log mel spectrum O t of the acoustic signal as follows. (S601).

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

次に、雑音抑圧フィルタ推定手段501は、音声非存在/存在確率P(i) t,jと事後確率Pt,j,k,lとを、求めた対数メルスペクトルOの確率モデルのパラメータと対数メルスペクトルOとを用いて計算する(s602)。 Next, the noise suppression filter estimation means 501 uses the probability model parameter of the log mel spectrum O t obtained from the speech non-existence / presence probability P (i) t, j and the posterior probability P t, j, k, l. And the log mel spectrum O t (s602).

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

次に、雑音抑圧フィルタ推定手段501は、無音GMMのパラメータとクリーン音声GMMのパラメータと雑音モデルパラメータと音声非存在/存在確率P(i) t,jと事後確率Pt,j,k,lとを用いて、メル周波数軸上での雑音抑圧フィルタWMel t,rを次式のように推定する(s603)。 Next, the noise suppression filter estimation means 501 includes a silence GMM parameter, a clean speech GMM parameter, a noise model parameter, a speech absence / existence probability P (i) t, j, and a posteriori probability P t, j, k, l. Is used to estimate the noise suppression filter W Mel t, r on the mel frequency axis as in the following equation (s603).

Figure 2013007975
Figure 2013007975

上式はベクトルの要素毎の表記である。 The above equation is a notation for each vector element.

次に、雑音抑圧フィルタ推定手段501は、メル周波数軸上での雑音抑圧フィルタWMel t,rを線形周波数軸上での雑音抑圧フィルタWLin t,mに変換し(s604)、雑音抑圧フィルタ適用手段502に出力する。なお、変換は3次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値を推定することにより行う。 Next, the noise suppression filter estimation means 501 converts the noise suppression filter W Mel t, r on the mel frequency axis into a noise suppression filter W Lin t, m on the linear frequency axis (s604), and the noise suppression filter The data is output to the application unit 502. Note that the conversion is performed by estimating the value of the noise suppression filter on the linear frequency axis by applying cubic spline interpolation to the mel frequency axis.

(雑音抑圧フィルタ適用手段502)
雑音抑圧フィルタ適用手段502は図10に示す流れで処理を行う。雑音抑圧フィルタ適用手段502は、雑音抑圧フィルタ推定手段501から雑音抑圧フィルタWLin t,mを受け取り、音響特徴抽出部104から受け取った複素数スペクトルSpcに対して雑音抑圧フィルタWLin t,mを次式のように掛け合わせることにより雑音抑圧された複素数スペクトル^St,mを得る(s701)。
(Noise suppression filter applying means 502)
The noise suppression filter application unit 502 performs processing according to the flow shown in FIG. Noise suppression filter application unit 502, the noise suppression filter estimator 501 from the noise suppression filter W Lin t, receives the m, the noise suppression filter W Lin t for complex spectrum Spc t received from the acoustic feature extraction unit 104, the m By multiplying as in the following equation, a noise-suppressed complex spectrum {circumflex over (S)} t, m is obtained (s701).

Figure 2013007975
Figure 2013007975

上式はベクトルの要素毎の表記である。 The above equation is a notation for each vector element.

次に、雑音抑圧フィルタ適用手段502は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧信号^st,nを得る(s702)。 Next, the noise suppression filter application unit 502 obtains the complex spectrum ^ S t, by applying the inverse fast Fourier transform on m, the noise suppression signal ^ s t in frame t, the n (s702).

次に、雑音抑圧フィルタ適用手段502は、各フレームの雑音抑圧信号^st,nを次式のように窓関数wを解除しながら連結して連続した雑音抑圧信号^sτを得て(s703)、これを雑音抑圧装置100の出力値として出力する。 Next, the noise suppression filter application unit 502 obtains a noise suppression signal ^ s tau continuous noise suppression signal ^ s t of each frame, the n linked with releasing the window function w n by the following equation (S703), this is output as the output value of the noise suppression apparatus 100.

Figure 2013007975
Figure 2013007975

Figure 2013007975
Figure 2013007975

<効果>
このような構成とすることで、雑音信号のみが存在する時間区間における雑音信号だけでなく、雑音信号と音声信号とが何れも存在する時間区間における雑音信号を学習データとして利用できる。言い換えると、音声信号の存在有無に関わらず、雑音信号を学習データとして利用できる。これにより、より多くの雑音信号の変化や特徴を雑音信号の確率モデルに反映することができ、より正確に雑音信号をモデル化し、高精度に雑音抑圧を実施することができる。なお、推定された雑音信号には誤差が含まれる可能性があるが、確率モデルの推定においては、学習データの統計的な性質を推定してモデル化を行っているため、誤差の問題は致命的な問題とならない。
<Effect>
With such a configuration, not only the noise signal in the time interval in which only the noise signal exists, but also the noise signal in the time interval in which both the noise signal and the audio signal exist can be used as learning data. In other words, a noise signal can be used as learning data regardless of the presence or absence of an audio signal. As a result, more changes and features of the noise signal can be reflected in the probability model of the noise signal, and the noise signal can be modeled more accurately and noise suppression can be performed with high accuracy. Note that the estimated noise signal may contain errors, but in the estimation of the probabilistic model, since the modeling is performed by estimating the statistical properties of the learning data, the error problem is fatal. It does not become a problem.

また、非特許文献1では、収音された音響信号全体を用いて、EMアルゴリズムにより音響信号の確率モデルを最適化する方法が開示されているが、音響信号に含まれる雑音信号の特徴が定常的かつ、その分布(頻度分布もしくは確率分布)が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴を持ち、その分布は多峰性であることが多い。そのため、非特許文献1記載の技術では、非定常的な特徴を持ち、その分布が多峰性である雑音信号に対応できず、十分な雑音抑圧性能が得られない場合がある。   Further, Non-Patent Document 1 discloses a method for optimizing a probability model of an acoustic signal by using an EM algorithm using the entire collected acoustic signal, but the characteristics of the noise signal included in the acoustic signal are steady. This is a technique for performing noise suppression on the assumption that the distribution (frequency distribution or probability distribution) is unimodal. However, many noise signals in the real environment have non-stationary characteristics, and their distribution is often multimodal. For this reason, the technique described in Non-Patent Document 1 cannot cope with a noise signal having unsteady characteristics and having a multimodal distribution, and may not provide sufficient noise suppression performance.

本実施形態においては、雑音信号の分布が単峰性ではなく、多峰性であるという前提に基づいて、雑音信号の確率モデルを単一の正規分布ではなく、GMMにて表現し、雑音信号の確率モデルをEMアルゴリズムにより推定している。このような構成とすることで、非定常的な特徴を持ち、その分布が多峰性である雑音信号を適切にモデル化することができ、雑音信号を効果的に抑圧することができる。なお、非定常的な特徴を持ち、その分布が多峰性である雑音信号をモデル化しようとすると、単峰性である雑音信号をモデル化しようとする場合よりもモデルが複雑となり、必要なデータが多くなるが、上述の通り、本実施形態においては、音声信号の存在有無に関わらず、雑音信号を学習データとして利用できるため、多くのデータを取得することができ、最適な雑音抑圧フィルタを設計することができる。   In the present embodiment, based on the premise that the distribution of the noise signal is not unimodal but multimodal, the noise signal probability model is expressed by GMM instead of a single normal distribution, and the noise signal Are estimated by the EM algorithm. With such a configuration, it is possible to appropriately model a noise signal having non-stationary characteristics and having a multimodal distribution, and the noise signal can be effectively suppressed. Note that if you attempt to model a noise signal that has non-stationary features and its distribution is multimodal, the model will be more complicated than if you are trying to model a noise signal that is unimodal. Although the amount of data increases, as described above, in this embodiment, a noise signal can be used as learning data regardless of the presence or absence of an audio signal, so that a large amount of data can be acquired, and an optimal noise suppression filter Can be designed.

よって、本実施形態のような構成とすることで、様々な雑音が存在する環境であっても音響信号より雑音信号を抑圧して目的とする音声信号を高品質で取り出すことができる。   Therefore, with the configuration as in the present embodiment, even in an environment where various types of noise exist, the target audio signal can be extracted with high quality by suppressing the noise signal from the acoustic signal.

[シミュレーション結果]
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を本発明の雑音抑圧装置に入力し、雑音抑圧を実施した例を示す。以下実験方法、及び結果について説明する。
[simulation result]
In order to show the effect of the present invention, an example is shown in which an acoustic signal in which a voice signal and a noise signal are mixed is input to the noise suppression apparatus of the present invention and noise suppression is performed. The experimental method and results will be described below.

本実験では、評価用データには、IPA(Information-technology promotion agency, Japan) -98-TestSetのうち、男性23名が発声したデータ100文を用いており、これらの音声データに対して、空港ロビー、駅プラットホーム、街頭にて別途収録した雑音を、それぞれS/N比0dB、5dB、10dBにて計算機上で重畳した。すなわち、雑音三種類×S/N比三種類の九種類の評価データを作成した。それぞれの音声データは、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、1フレームの時間長を20ms(Frame=320サンプル点)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて、音響特徴抽出部104を適用した。   In this experiment, the data for evaluation uses 100 sentences spoken by 23 men from IPA (Information-technology promotion agency, Japan) -98-TestSet. Noises recorded separately in the lobby, station platform, and street were superimposed on the computer with S / N ratios of 0 dB, 5 dB, and 10 dB, respectively. That is, nine types of evaluation data of three types of noise × three types of S / N ratios were created. Each audio data is a monaural signal discretely sampled at a sampling frequency of 16,000 Hz and a quantization bit number of 16 bits. The acoustic feature extraction unit 104 was applied to this acoustic signal by setting the time length of one frame to 20 ms (Frame = 320 sample points) and moving the start point of the frame every 10 ms (Shift = 160 sample points).

無音GMM、クリーン音声GMMには、R=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=128のGMMを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。雑音GMMの混合分布数Lは、1、2、3、4の4種類の値を与え、それぞれの場合の結果を比較する。   As the silent GMM and the clean speech GMM, a GMM having a mixed distribution number K = 128 having an R = 24-dimensional logarithmic mel spectrum as an acoustic feature is used, and learning is performed using the silent signal and the clean speech signal, respectively. The mixed distribution number L of the noise GMM gives four values of 1, 2, 3, and 4, and the results in each case are compared.

性能の評価は音声認識により行い、評価尺度は次式の単語誤り率WERで行った。   The performance was evaluated by speech recognition, and the evaluation scale was the word error rate WER of the following equation.

Figure 2013007975
Figure 2013007975

上式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程音声認識性能が高いことを示す。 In the above equation, N is the total number of words, D is the number of dropped error words, S is the number of replacement error words, I is the number of insertion error words, and the smaller the WER value, the higher the speech recognition performance.

音声認識は、有限状態トランスデューサーに基づく認識器(T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365)により行い、音響モデルには話者独立のTriphoneHMMを用いており、各HMMの構造は3状態のLeft−to−right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は2,000である。音声認識の音響特徴量は、1フレームの時間長を20ms(Frame=320)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient)、対数パワー値、各々の1次及び2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri−gramを用い、語彙数は20,000単語である。   Speech recognition is based on a finite state transducer based recognizer (T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365). Speaker-independent Triphone HMM is used for the acoustic model, and each HMM has a three-state Left-to-right structure. Each state has 16 normal distributions. The number of states of the entire HMM is 2,000. The acoustic feature of speech recognition is a 12-dimensional MFCC (Mel-frequency cepstral) in which the time length of one frame is 20 ms (Frame = 320) and the start point of the frame is moved every 10 ms (Shift = 160 sample points). coefficient), the logarithmic power value, and a 39-dimensional vector in total including the first and second order regression coefficients. The language model uses Tri-gram and the number of vocabulary is 20,000 words.

図11は、雑音モデルの推定例であり、801〜805は、それぞれ、非特許文献1に開示された方法と、本発明(L=1,2,3,4)とによる雑音モデルの推定結果を示しており、8番目のメルフィルタ(中心周波数1,022Hz)から得られた雑音の対数メルスペクトルの分布を示している。各図において、破線は、雑音の対数メルスペクトルのヒストグラム、実線は各手法により推定された雑音の確率モデルの形状、点線は雑音GMMを構成する、各要素分布の形状を示している。縦軸は、正規化された頻度、もしくは確率を示しており、横軸は8番目のメルフィルタから得られた雑音メルスペクトルの値を示している。   FIG. 11 is an example of noise model estimation. Reference numerals 801 to 805 denote noise model estimation results according to the method disclosed in Non-Patent Document 1 and the present invention (L = 1, 2, 3, 4), respectively. The logarithmic mel spectrum distribution of the noise obtained from the eighth mel filter (center frequency: 1022 Hz) is shown. In each figure, the broken line indicates the histogram of the log mel spectrum of noise, the solid line indicates the shape of the noise probability model estimated by each method, and the dotted line indicates the shape of each element distribution constituting the noise GMM. The vertical axis indicates the normalized frequency or probability, and the horizontal axis indicates the value of the noise mel spectrum obtained from the eighth mel filter.

図11の結果より、本発明により、非特許文献1に開示された方法に比べて、雑音の対数メルスペクトルのヒストグラムに近い形状の雑音確率モデルが推定できることが明らかとなった。特に、804(L=3)と、805(L=4)との結果は、雑音の対数メルスペクトルのヒストグラムとほぼ同等の形状を示している。   From the result of FIG. 11, it became clear that the present invention can estimate a noise probability model having a shape close to the logarithmic mel spectrum histogram of noise as compared with the method disclosed in Non-Patent Document 1. In particular, the results of 804 (L = 3) and 805 (L = 4) show almost the same shape as the histogram of the log mel spectrum of noise.

図12は、音声信号の波形と、入力音響信号の波形(空港ロビー雑音、S/N比0dB)と、本発明(L=1,2,3,4)による雑音抑圧信号の波形で、本発明により効果的に雑音が抑圧されていることが分かる。   FIG. 12 shows the waveform of the audio signal, the waveform of the input acoustic signal (airport lobby noise, S / N ratio 0 dB), and the waveform of the noise suppression signal according to the present invention (L = 1, 2, 3, 4). It can be seen that noise is effectively suppressed by the invention.

また、図13は、雑音抑圧の結果を示す。非特許文献1に開示された方法と、本発明(L=1,2,3,4)とによる音声認識の評価結果を示している。図13の結果から、本発明により従来技術に比べて高い性能を得られることが明らかとなった。   FIG. 13 shows the result of noise suppression. The evaluation result of the speech recognition by the method disclosed in Non-Patent Document 1 and the present invention (L = 1, 2, 3, 4) is shown. From the results shown in FIG. 13, it has been clarified that the present invention can obtain higher performance than the prior art.

<その他の実施形態>
上記実施形態において、音響特徴抽出部104のフレーム切り出し処理s201にて窓関数wにはハミング窓以外に方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。
<Other embodiments>
In the above embodiments, rectangular window besides Hamming window in the window function w n at frame cutout processing s201 acoustic feature extraction unit 104, a Hanning window may be used a window function, such as Blackman windows.

上記実施形態において、記憶部に予め記憶される音声モデルとして、無音GMM、クリーン音声GMMの代わりに、HMM(Hidden Markov model)等の他の確率モデルを用いてもよい。また、記憶部に記憶される音声モデルとして、無音GMM、クリーン音声GMMの2つのGMMだけでなく、より多くのGMMを用いてもよい。例えば、無音GMM、無声音GMM、有声音GMMや、音素毎のGMMを用いてもよい。   In the above embodiment, other probabilistic models such as HMM (Hidden Markov model) may be used instead of the silent GMM and the clean voice GMM as the voice model stored in advance in the storage unit. Further, as a speech model stored in the storage unit, not only two GMMs, the silent GMM and the clean speech GMM, but more GMMs may be used. For example, a silent GMM, an unvoiced sound GMM, a voiced sound GMM, or a GMM for each phoneme may be used.

上記実施形態において、雑音GMMの代わりに、雑音モデルとしてHMM等の他の確率モデルを用いてもよい。このとき、HMMの各状態を混合正規分布(GMM)等で表現すれば、第一実施形態と同様に分布が多峰性である雑音信号をモデル化することができる。   In the above embodiment, instead of the noise GMM, another probability model such as an HMM may be used as the noise model. At this time, if each state of the HMM is expressed by a mixed normal distribution (GMM) or the like, a noise signal having a multimodal distribution can be modeled as in the first embodiment.

上記実施形態において、雑音抑圧フィルタ推定手段501の雑音抑圧フィルタ推定処理s603にて、重み付け平均ではなく、最大の重みを持つ推定結果をそのまま使用してもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。   In the above embodiment, in the noise suppression filter estimation processing s603 of the noise suppression filter estimation unit 501, the estimation result having the maximum weight may be used as it is, instead of the weighted average. In this case, it is desirable to have a sufficiently large weight compared to the weights of other estimation results.

上記実施形態において、各部、各手段間で直接信号を入出力しているが、図示しない記憶部に格納しておき、記憶部を介して信号を受け渡しを行う構成としてもよい。   In the above embodiment, signals are directly input / output between each unit and each means. However, a configuration may be adopted in which signals are stored in a storage unit (not shown) and signals are transferred via the storage unit.

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。   The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

<プログラム及び記録媒体>
上述した雑音抑圧装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The noise suppression device described above can also be functioned by a computer. In this case, each process of a program for causing a computer to function as a target device (a device having the functional configuration shown in the drawings in various embodiments) or a processing procedure (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.

本発明は、自動音声認識の前段において、音響信号から雑音を抑圧し、雑音抑圧信号を用いて自動音声認識に利用することができる。また、TV会議システム等の通話システムや録音システムにおいて、受信または収録した音響信号から雑音信号を抑圧する際に利用することができる。   The present invention can be used for automatic speech recognition using a noise suppression signal by suppressing noise from an acoustic signal before the automatic speech recognition. In addition, it can be used when a noise signal is suppressed from a received or recorded sound signal in a call system such as a TV conference system or a recording system.

Claims (7)

雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧装置であって、
前記音響信号の音響特徴を抽出する音響特徴抽出部と、
雑音を含まない音声信号の確率モデル(以下「音声モデル」という)が記憶される記憶部と、
前記音響信号の音響特徴と前記音声モデルを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル(以下「雑音モデル」という)を教師無し学習する雑音モデル推定部と、
音声モデルと雑音モデルを用いて前記音響信号の雑音信号を抑圧する雑音抑圧部と、
を含む雑音抑圧装置。
A noise suppression device that suppresses a noise signal from an acoustic signal including a noise signal and a voice signal,
An acoustic feature extraction unit for extracting an acoustic feature of the acoustic signal;
A storage unit for storing a probability model (hereinafter referred to as “speech model”) of a speech signal that does not include noise;
A noise model estimator that estimates a noise signal using the acoustic features of the acoustic signal and the speech model, and performs unsupervised learning of a noise signal probability model (hereinafter referred to as “noise model”) using the estimated noise signal as learning data. When,
A noise suppression unit that suppresses the noise signal of the acoustic signal using a speech model and a noise model;
Including a noise suppression device.
請求項1記載の雑音抑圧装置であって、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記雑音モデル推定部は、前記雑音モデルを教師無し学習する、
雑音抑圧装置。
The noise suppression device according to claim 1,
The noise signal is defined as a signal based on non-stationary noise that follows a multimodal distribution, and the noise model estimation unit learns the noise model unsupervised.
Noise suppression device.
請求項1または2記載の雑音抑圧装置であって、
前記雑音モデル推定部は、
前記雑音モデルと前記音声モデルとを用いて、前記音響信号の確率モデル(以下「音響モデル」という)を生成する確率モデル生成手段と、
前記音響信号を用いて、前記雑音信号を推定する雑音信号推定手段と、
前記雑音信号を学習データとして、前記雑音モデルのパラメータを推定する雑音モデルパラメータ推定手段と、を含み、
前記音響信号を用いて、前記音響モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで確率モデル生成手段と雑音信号推定手段と雑音モデルパラメータ推定手段の処理を繰り返す、
雑音抑圧装置。
The noise suppression device according to claim 1 or 2,
The noise model estimator is
Probability model generation means for generating a probability model of the acoustic signal (hereinafter referred to as “acoustic model”) using the noise model and the speech model;
Noise signal estimating means for estimating the noise signal using the acoustic signal;
Noise model parameter estimation means for estimating the noise model parameters using the noise signal as learning data,
Using the acoustic signal, the processing of the probability model generation means, the noise signal estimation means, and the noise model parameter estimation means is repeated until a convergence condition is satisfied by an expected value maximization method so that the likelihood of the acoustic model is maximized,
Noise suppression device.
雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧方法であって、
前記音響信号の音響特徴を抽出する音響特徴抽出ステップと、
前記音響信号の音響特徴と雑音を含まない音声信号の確率モデル(以下「音声モデル」という)を用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル(以下「雑音モデル」という)を教師無し学習する雑音モデル推定ステップと、
雑音モデルを用いて前記音響信号の雑音信号を抑圧する雑音抑圧ステップと、
を含む雑音抑圧方法。
A noise suppression method for suppressing a noise signal from an acoustic signal including a noise signal and a voice signal,
An acoustic feature extraction step for extracting an acoustic feature of the acoustic signal;
A noise signal is estimated using the acoustic features of the acoustic signal and a noise signal probability model (hereinafter referred to as “voice model”), and the estimated noise signal is used as learning data to obtain a noise signal probability model (hereinafter “ A noise model estimation step for unsupervised learning of a noise model),
A noise suppression step of suppressing a noise signal of the acoustic signal using a noise model;
Including a noise suppression method.
請求項4記載の雑音抑圧方法であって、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記雑音モデル推定ステップにおいて、前記雑音モデルを教師無し学習する、
雑音抑圧方法。
The noise suppression method according to claim 4,
The noise signal is defined as a signal based on non-stationary noise following a multimodal distribution, and the noise model is unsupervised learning in the noise model estimation step.
Noise suppression method.
請求項4または5記載の雑音抑圧方法であって、
前記雑音モデル推定ステップは、
前記雑音モデルと前記音声モデルとを用いて、前記音響信号の確率モデル(以下「音響モデル」という)を生成する確率モデル生成サブステップと、
前記音響信号を用いて、前記雑音信号を推定する雑音信号推定サブステップと、
前記雑音信号を学習データとして、前記雑音モデルのパラメータを推定する雑音モデルパラメータ推定サブステップと、を含み、
前記音響信号を用いて、前記音響モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで確率モデル生成サブステップと雑音信号推定サブステップと雑音モデルパラメータ推定サブステップを繰り返す、
雑音抑圧方法。
The noise suppression method according to claim 4 or 5, wherein
The noise model estimation step includes:
A probability model generation sub-step of generating a probability model of the acoustic signal (hereinafter referred to as “acoustic model”) using the noise model and the speech model;
A noise signal estimation substep for estimating the noise signal using the acoustic signal;
Noise model parameter estimation sub-step for estimating the noise model parameters using the noise signal as training data,
Using the acoustic signal, the probability model generation sub-step, the noise signal estimation sub-step, and the noise model parameter estimation sub-step are repeated until a convergence condition is satisfied by an expected value maximization method so that the likelihood of the acoustic model is maximized. ,
Noise suppression method.
請求項1から3記載の雑音抑圧装置として、コンピュータを機能させるためのプログラム。   A program for causing a computer to function as the noise suppression device according to claim 1.
JP2011142230A 2011-06-27 2011-06-27 Noise suppression device, method and program Active JP5713818B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011142230A JP5713818B2 (en) 2011-06-27 2011-06-27 Noise suppression device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011142230A JP5713818B2 (en) 2011-06-27 2011-06-27 Noise suppression device, method and program

Publications (2)

Publication Number Publication Date
JP2013007975A true JP2013007975A (en) 2013-01-10
JP5713818B2 JP5713818B2 (en) 2015-05-07

Family

ID=47675357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011142230A Active JP5713818B2 (en) 2011-06-27 2011-06-27 Noise suppression device, method and program

Country Status (1)

Country Link
JP (1) JP5713818B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015036769A (en) * 2013-08-14 2015-02-23 日本電信電話株式会社 Noise suppressor, noise suppression method, and program
JPWO2013118192A1 (en) * 2012-02-10 2015-05-11 三菱電機株式会社 Noise suppressor
WO2015093025A1 (en) * 2013-12-17 2015-06-25 日本電気株式会社 Speech processing device, speech processing method, and recording medium
WO2016009654A1 (en) * 2014-07-16 2016-01-21 日本電気株式会社 Noise suppression system and recording medium on which noise suppression method and program are stored
CN113223505A (en) * 2021-04-30 2021-08-06 珠海格力电器股份有限公司 Model training method, data processing method, device, electronic equipment and storage medium
JP2022545924A (en) * 2019-08-29 2022-11-01 株式会社ソニー・インタラクティブエンタテインメント Noise cancellation using artificial intelligence (AI)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210647A (en) * 2008-02-29 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> Noise canceler, method thereof, program thereof and recording medium
WO2011010604A1 (en) * 2009-07-21 2011-01-27 日本電信電話株式会社 Audio signal section estimating apparatus, audio signal section estimating method, program therefor and recording medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210647A (en) * 2008-02-29 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> Noise canceler, method thereof, program thereof and recording medium
WO2011010604A1 (en) * 2009-07-21 2011-01-27 日本電信電話株式会社 Audio signal section estimating apparatus, audio signal section estimating method, program therefor and recording medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6014009856; P. J. Moreno, B. Raj, and R. M. Stern: 'A vector Taylor series approach for environment-independent speech recognition' Proceedings of ICASSP '96 vol.2, 19960507, p.733-736, IEEE *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013118192A1 (en) * 2012-02-10 2015-05-11 三菱電機株式会社 Noise suppressor
JP2015036769A (en) * 2013-08-14 2015-02-23 日本電信電話株式会社 Noise suppressor, noise suppression method, and program
WO2015093025A1 (en) * 2013-12-17 2015-06-25 日本電気株式会社 Speech processing device, speech processing method, and recording medium
WO2016009654A1 (en) * 2014-07-16 2016-01-21 日本電気株式会社 Noise suppression system and recording medium on which noise suppression method and program are stored
US10748551B2 (en) 2014-07-16 2020-08-18 Nec Corporation Noise suppression system, noise suppression method, and recording medium storing program
JP2022545924A (en) * 2019-08-29 2022-11-01 株式会社ソニー・インタラクティブエンタテインメント Noise cancellation using artificial intelligence (AI)
CN113223505A (en) * 2021-04-30 2021-08-06 珠海格力电器股份有限公司 Model training method, data processing method, device, electronic equipment and storage medium
CN113223505B (en) * 2021-04-30 2023-12-08 珠海格力电器股份有限公司 Model training method, data processing method, device, electronic equipment and storage medium

Also Published As

Publication number Publication date
JP5713818B2 (en) 2015-05-07

Similar Documents

Publication Publication Date Title
EP1515305B1 (en) Noise adaption for speech recognition
US7457745B2 (en) Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
JP6243858B2 (en) Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program
KR101415534B1 (en) Multi-stage speech recognition apparatus and method
JP5713818B2 (en) Noise suppression device, method and program
Liao et al. Uncertainty decoding for noise robust speech recognition
CN111951796B (en) Speech recognition method and device, electronic equipment and storage medium
JP2006215564A (en) Method and apparatus for predicting word accuracy in automatic speech recognition systems
JP5670298B2 (en) Noise suppression device, method and program
Gales et al. Model-based approaches to handling additive noise in reverberant environments
JP5997114B2 (en) Noise suppression device, noise suppression method, and program
Chen et al. Scenario aware speech recognition: Advancements for apollo fearless steps & chime-4 corpora
JP7423056B2 (en) Reasoners and how to learn them
Hachkar et al. A comparison of DHMM and DTW for isolated digits recognition system of Arabic language
JP5740362B2 (en) Noise suppression apparatus, method, and program
CN112216270B (en) Speech phoneme recognition method and system, electronic equipment and storage medium
JP5457999B2 (en) Noise suppressor, method and program thereof
WO2002023525A1 (en) Speech recognition system and method
Wang et al. Improving reverberant VTS for hands-free robust speech recognition
JP2006145694A (en) Voice recognition method, system implementing the method, program, and recording medium for the same
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
Patlar et al. Triphone based continuous speech recognition system for turkish language using hidden markov model
JP2003076393A (en) Method for estimating voice in noisy environment and voice recognition method
Ramya et al. Analysis on MAP and MLLR based speaker adaptation techniques in speech recognition
Mandel et al. Analysis-by-synthesis feature estimation for robust automatic speech recognition using spectral masks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150310

R150 Certificate of patent or registration of utility model

Ref document number: 5713818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150