JP6348427B2 - Noise removal apparatus and noise removal program - Google Patents

Noise removal apparatus and noise removal program Download PDF

Info

Publication number
JP6348427B2
JP6348427B2 JP2015021452A JP2015021452A JP6348427B2 JP 6348427 B2 JP6348427 B2 JP 6348427B2 JP 2015021452 A JP2015021452 A JP 2015021452A JP 2015021452 A JP2015021452 A JP 2015021452A JP 6348427 B2 JP6348427 B2 JP 6348427B2
Authority
JP
Japan
Prior art keywords
frequency
speech
signal
audio signal
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015021452A
Other languages
Japanese (ja)
Other versions
JP2016143042A (en
Inventor
荒木 章子
章子 荒木
中谷 智広
智広 中谷
マーク デルクロア
マーク デルクロア
雅清 藤本
雅清 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015021452A priority Critical patent/JP6348427B2/en
Publication of JP2016143042A publication Critical patent/JP2016143042A/en
Application granted granted Critical
Publication of JP6348427B2 publication Critical patent/JP6348427B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、雑音除去装置及び雑音除去プログラムに関する。   The present invention relates to a noise removal apparatus and a noise removal program.

従来から、マイク等の集音装置により集音された音声と対応する音声信号から雑音を除去する技術がある。雑音を除去する技術として、例えば、DAE(Denoising AutoEncoder;デノイジング・オートエンコーダ)がある。DAEは、DNN(Deep Neural Network;多層ニューラルネットワークシステム)の一種である。   Conventionally, there is a technique for removing noise from a voice signal corresponding to a voice collected by a sound collecting device such as a microphone. As a technique for removing noise, for example, there is DAE (Denoising AutoEncoder). DAE is a kind of DNN (Deep Neural Network).

図7Aは、従来技術のDAE学習処理の概要を説明する図である。図7Aに示すように、従来技術のDAEは、DAE学習部において、1つの集音装置(1チャネル)により雑音下で得られた、学習用の観測信号を周波数分析し、全周波数領域における学習用の観測信号の振幅の対数スペクトルを示すベクトルyを入力ベクトルzinとする。従来技術のDAEにおいて、L個の各隠れ層h(l=1,・・・,L)における出力h(zin)は、重み行列W及びバイアスベクトルbを含むパラメータθ={W,b}を有する所定の非線形関数σθによりh(zin)=σθ(W(l−1)(zin)+b)と表される。なお、隠れ層hにおける出力はh(zin)=σθ(W(zin)+b)である。 FIG. 7A is a diagram for explaining the outline of the conventional DAE learning process. As shown in FIG. 7A, in the DAE of the prior art, in the DAE learning unit, the observation signal for learning obtained under noise by one sound collector (one channel) is subjected to frequency analysis, and learning in the entire frequency domain is performed. A vector y indicating the logarithmic spectrum of the amplitude of the observation signal for use is defined as an input vector z in . In the prior art DAE, the output h l (z in ) in each of the L hidden layers h l (l = 1,..., L) is a parameter θ = {W, It is expressed as h l (z in ) = σ θ (W l h (l−1) (z in ) + b l ) by a predetermined nonlinear function σ θ having b}. The output in the hidden layer h 1 is h 1 (z in ) = σ θ (W 1 (z in ) + b 1 ).

そして、従来技術のDAEは、h(zin)により入力ベクトルzinからl=1,・・・,Lと順次雑音除去した出力ベクトルzoutが学習用の原音声と一致する、すなわちzout=fθ(zin)=W(L−1)(zin)+bとなるようパラメータθを学習する。 In the DAE of the prior art, the output vector z out obtained by sequentially removing noise from l = 1,..., L from the input vector z in by h l (z in ) matches the learning original speech, that is, z. The parameter θ is learned so that out = f θ (z in ) = W L h (L−1) (z in ) + b L.

図7Bは、従来技術の雑音除去処理の概要を説明する図である。従来技術のDAEは、DAE復号部において、1つの集音装置(1チャネル)により得られた観測信号を周波数分析し、全周波数領域における観測信号の振幅の対数スペクトルを示すベクトルy´を入力ベクトルzin´とする。そして、従来技術のDAEは、図7Aに示したように学習したパラメータθをDAE学習部からDAE復号部へコピーし、学習したパラメータθを用いてL個の各隠れ層h(l=1,・・・,L)において入力ベクトルzin´から雑音除去した出力ベクトルzout´を得る。 FIG. 7B is a diagram for explaining the outline of the conventional noise removal processing. In the DAE of the prior art, the DAE decoder performs frequency analysis on the observation signal obtained by one sound collector (one channel), and an input vector y ′ indicating a logarithmic spectrum of the amplitude of the observation signal in the entire frequency domain is input. Let z in ′. Then, the DAE of the prior art copies the learned parameter θ as shown in FIG. 7A from the DAE learning unit to the DAE decoding unit, and uses the learned parameter θ to each of the L hidden layers h l (l = 1). ,..., L), an output vector z out ′ obtained by removing noise from the input vector z in ′ is obtained.

P. Vincent, H. Larochelle, Y.Bengio, and P. A. Manzagol,“Extracting and composing robust features with denoising autoencoders.”, in Proc. of ICML2008, 2008, pp.1096-1103.P. Vincent, H. Larochelle, Y. Bengio, and P. A. Manzagol, “Extracting and composing robust features with denoising autoencoders.”, In Proc. Of ICML2008, 2008, pp.1096-1103. Y. Liu, P. Zhang, and T. Hain, “Using neural network front-ends on far field multiple microphones based speech recognitions.”, Proc. of ICASSP2014, 2014, pp.5579-5583.Y. Liu, P. Zhang, and T. Hain, “Using neural network front-ends on far field multiple microphones based speech recognitions.”, Proc. Of ICASSP2014, 2014, pp.5579-5583. S. Renals and P. Swietojanski, “Neural networks for distant speech recognition.”, in Proc. of HSCMA2014, 2014.S. Renals and P. Swietojanski, “Neural networks for distant speech recognition.”, In Proc. Of HSCMA2014, 2014. T. Nakatani, S. Araki, T. Yoshioka, M. Delcroix, and M. Fujimoto, “Dominance based integration of spatial and spectral features for speech enhancement.”, IEEE Trans. Audio, Speech and Language Processing, vol. 21, no. 12, 2013, pp.2516-2531.T. Nakatani, S. Araki, T. Yoshioka, M. Delcroix, and M. Fujimoto, “Dominance based integration of spatial and spectral features for speech enhancement.”, IEEE Trans. Audio, Speech and Language Processing, vol. 21, no. 12, 2013, pp.2516-2531. M. Fujimoto, S. Watanabe, and T. Nakatani, “A robust estimation method of noise mixture model for noise suppression.”, Proc. of Interspeech2011, 2011, pp.697-700.M. Fujimoto, S. Watanabe, and T. Nakatani, “A robust estimation method of noise mixture model for noise suppression.”, Proc. Of Interspeech2011, 2011, pp.697-700. M. Delcroix, Y. Kubo, T. Nakatani, and A. Nakamura, “Is speech enhancement pre-processing still relevant when using deep neural networks for acoustic modeling ?”, Proc. of Interspeech2013, 2013, pp.2992-2996.M. Delcroix, Y. Kubo, T. Nakatani, and A. Nakamura, “Is speech enhancement pre-processing still relevant when using deep neural networks for acoustic modeling?”, Proc. Of Interspeech2013, 2013, pp.2992-2996.

しかしながら、上記従来技術は、雑音除去処理において、DAEの入力として、1つの集音装置(1チャネル)により得られた学習用の観測信号を用いて学習を行い、1つの集音装置により得られた観測信号の雑音除去を行うに過ぎない。そして、複数の集音装置(複数チャネル)による観測信号が利用できる場合であっても、各チャネルの信号を単純につなげたチャネル・コネクションを利用する、あるいは、ビームフォーミング技術による強調音声信号をDAEの入力とするに過ぎず、雑音除去の性能は低い。   However, the above prior art performs learning using the observation signal for learning obtained by one sound collector (one channel) as an input of DAE in the noise removal processing, and is obtained by one sound collector. It only removes noise from the observed signal. Even when observation signals from a plurality of sound collectors (multiple channels) can be used, a channel connection in which the signals of each channel are simply connected is used, or an enhanced audio signal by the beam forming technique is DAE. The noise removal performance is low.

本願が開示する実施形態の一例は、上記に鑑みてなされたものであって、雑音除去の性能を向上させることを目的とする。   An example of an embodiment disclosed in the present application has been made in view of the above, and aims to improve noise removal performance.

本願が開示する実施形態の一例の雑音除去装置は、周波数分析部、対数計算部、マルチチャネル特徴量計算部、DAE(Denoising AutoEncoder)学習部、DAE復号部を備える。周波数分析部は、第1集音装置により観測された第1音声信号及び第1集音装置とは異なる位置に配置された第2集音装置により観測された第2音声信号を周波数分析する。対数計算部は、周波数分析部により周波数分析された第1音声信号の振幅の対数である対数スペクトルを計算する。マルチチャネル特徴量計算部は、周波数分析部により周波数分析された第1音声信号及び第2音声信号から、該第1音声信号及び該第2音声信号に関するマルチチャネル特徴量を計算する。DAE学習部は、対数計算部により計算された学習用の第1音声信号の対数スペクトルと、マルチチャネル特徴量計算部により計算された該学習用の第1音声信号及び学習用の第2音声信号に関する学習用のマルチチャネル特徴量を入力とし、学習用の原音声の対数スペクトルを出力とするDAEのパラメータを学習する。DAE復号部は、対数計算部により計算された雑音除去対象の第1音声信号の対数スペクトルと、マルチチャネル特徴量計算部により計算された該雑音除去対象の第1音声信号及び雑音除去対象の第2音声信号に関する雑音除去用のマルチチャネル特徴量を入力とし、DAE学習部により学習されたパラメータを用いて該雑音除去対象の第1音声信号の対数スペクトルから雑音成分を除去した雑音除去音声の対数スペクトルを出力する。   An example of a noise removal apparatus disclosed in the present application includes a frequency analysis unit, a logarithmic calculation unit, a multichannel feature amount calculation unit, a DAE (Denoising AutoEncoder) learning unit, and a DAE decoding unit. The frequency analysis unit performs frequency analysis on the first sound signal observed by the first sound collector and the second sound signal observed by the second sound collector disposed at a position different from the first sound collector. The logarithm calculation unit calculates a logarithmic spectrum that is a logarithm of the amplitude of the first audio signal subjected to frequency analysis by the frequency analysis unit. The multi-channel feature value calculation unit calculates a multi-channel feature value related to the first sound signal and the second sound signal from the first sound signal and the second sound signal subjected to frequency analysis by the frequency analysis unit. The DAE learning unit includes a logarithmic spectrum of the first speech signal for learning calculated by the logarithm calculation unit, the first speech signal for learning and the second speech signal for learning calculated by the multichannel feature amount calculation unit. The learning multi-channel feature quantity is used as an input, and a DAE parameter is learned using the logarithmic spectrum of the original voice for learning as an output. The DAE decoding unit calculates the logarithm spectrum of the first speech signal to be denoised calculated by the logarithm calculation unit, the first speech signal to be denoised by the multichannel feature amount calculation unit, and the first speech signal to be denoised. The logarithm of the noise-removed speech obtained by removing the noise component from the logarithmic spectrum of the first speech signal to be denoised using the parameters learned by the DAE learning unit with the multichannel feature amount for noise removal regarding the two speech signals as input. Output the spectrum.

本願が開示する実施形態の一例によれば、例えば、雑音除去の性能を向上させることができる。   According to an exemplary embodiment disclosed in the present application, for example, it is possible to improve noise removal performance.

図1は、雑音除去システムの構成の一例を示す図である。FIG. 1 is a diagram illustrating an example of a configuration of a noise removal system. 図2は、信号再構成装置の構成の一例を示す図である。FIG. 2 is a diagram illustrating an example of the configuration of the signal reconstruction device. 図3は、DAE学習処理の一例を示すフローチャートである。FIG. 3 is a flowchart illustrating an example of the DAE learning process. 図4は、雑音除去処理の一例を示すフローチャートである。FIG. 4 is a flowchart illustrating an example of the noise removal process. 図5Aは、実施形態の効果の一例を説明する図である。FIG. 5A is a diagram illustrating an example of the effect of the embodiment. 図5Bは、実施形態の効果の一例を説明する図である。FIG. 5B is a diagram illustrating an example of the effect of the embodiment. 図5Cは、実施形態の効果の一例を説明する図である。FIG. 5C is a diagram illustrating an example of the effect of the embodiment. 図6は、プログラムが実行されることにより、雑音除去装置及び信号再構成装置が実現されるコンピュータの一例を示す図である。FIG. 6 is a diagram illustrating an example of a computer in which a noise removal apparatus and a signal reconstruction apparatus are realized by executing a program. 図7Aは、従来技術のDAE学習処理の概要を説明する図である。FIG. 7A is a diagram for explaining the outline of the conventional DAE learning process. 図7Bは、従来技術の雑音除去処理の概要を説明する図である。FIG. 7B is a diagram for explaining the outline of the conventional noise removal processing.

[実施形態]
以下、本願が開示する雑音除去装置及び雑音除去プログラムの実施形態を説明する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態及びその他の実施形態は、矛盾しない範囲で適宜組合せてもよい。
[Embodiment]
Hereinafter, embodiments of a noise removal device and a noise removal program disclosed in the present application will be described. The following embodiments are merely examples, and do not limit the technology disclosed by the present application. Moreover, you may combine suitably embodiment shown below and other embodiment in the range with no contradiction.

なお、以下の実施形態では、ベクトル又はスカラーであるAに対し、“^A”と記載する場合は下記(1)式で定義する表記と同等とし、“ ̄A”と記載する場合は下記(2)式で定義する表記と同等であるとする。   In the following embodiments, when A is a vector or a scalar, “^ A” is equivalent to the notation defined by the following equation (1), and “ ̄A” is 2) It is assumed that it is equivalent to the notation defined by the formula.

Figure 0006348427
Figure 0006348427

Figure 0006348427
Figure 0006348427

また、以下の実施形態では、集音装置はマイクロフォン(以下、マイクと表記する)である。それぞれ異なる位置に配置されたM個のマイク(Mは自然数)のうちのm番目(1≦m≦M)のマイクで観測した観測信号の対数スペクトルをYt,f (m)と表記する。ここで、tは時刻のインデックスであり、fはメルスケール周波数のインデックスである。M個のマイクで観測した観測信号の対数スペクトルをベクトルYt,f=[Yt,f (1),・・・,Yt,f (M)]と表記する。ここで、マイクによる観測信号を示すベクトルYt,fは、m番目のマイクで集音される原音声をXt,f (m)とし、雑音をNt,f (m)とすると、原音声を示すベクトルをベクトルXt,f=[Xt,f (1),・・・,Xt,f (M)]、雑音を示すベクトルをベクトルNt,f=[Nt,f (1),・・・,Nt,f (M)]を用いて、下記(3)のように与えられる。 In the following embodiments, the sound collection device is a microphone (hereinafter referred to as a microphone). A logarithmic spectrum of an observation signal observed by an m-th (1 ≦ m ≦ M) microphone among M microphones (M is a natural number) arranged at different positions is denoted as Y t, f (m) . Here, t is an index of time, and f is an index of mel scale frequency. A logarithmic spectrum of an observation signal observed with M microphones is expressed as a vector Y t, f = [Y t, f (1) ,..., Y t, f (M) ]. Here, the vector Y t, f indicating the observation signal from the microphone is defined as X t, f (m) as the original sound collected by the m-th microphone and N t, f (m) as the noise. A vector indicating speech is a vector X t, f = [X t, f (1) ,..., X t, f (M) ], and a vector indicating noise is a vector N t, f = [N t, f ( 1) ,..., N t, f (M) ] are given as follows (3).

Figure 0006348427
Figure 0006348427

実施形態は、観測信号を示すベクトルYt,fから、雑音を除去した雑音除去音声の対数スペクトルの各推定値^Xt,f (m)を求め、さらにその音声の波形を再合成することで、雑音除去音声を得る。実施形態は、マイクの数M=2の場合について説明するが、M≧3の場合も同様に議論できる。 The embodiment obtains each estimated value ^ X t, f (m) of the logarithmic spectrum of the noise-removed speech from which noise is removed from the vector Y t, f indicating the observed signal, and further re-synthesizes the waveform of the speech. To obtain noise-removed speech. The embodiment describes the case where the number of microphones M = 2, but the case where M ≧ 3 can be similarly discussed.

また、実施形態は、説明を簡単にするために、1番目のマイクの観測信号の、全ての周波数での対数スペクトルをまとめたベクトルをベクトルy=[yt,1,・・・,yt,f,・・・,yt,F](但し、yt,f (1))と表記する。また、実施形態は、1番目のマイクでの原音声の全周波数での対数スペクトルをxと表記し、雑音除去音声の全周波数での対数スペクトルを^xと表記する。 Further, in the embodiment, for the sake of simplicity, a vector y t = [y t, 1 ,..., Y is a vector in which logarithmic spectra of all the frequencies of the observation signal of the first microphone are collected. t, f 1 ,..., y t, F ] (where y t, f (1) ). Further, embodiments, the logarithmic spectrum at the first original audio of all frequencies in the microphone is expressed as x t, denoted the log spectrum of the entire frequency noise rejection speech ^ x t and.

(雑音除去システムの構成)
図1は、雑音除去システムの構成の一例を示す図である。雑音除去システム100は、マイク1及び2、雑音除去装置10、信号再構成装置20を有する。マイク1が1番目のマイクであり、マイク2が2番目のマイクであるとする。
(Configuration of noise reduction system)
FIG. 1 is a diagram illustrating an example of a configuration of a noise removal system. The noise removal system 100 includes microphones 1 and 2, a noise removal device 10, and a signal reconstruction device 20. Assume that the microphone 1 is the first microphone and the microphone 2 is the second microphone.

雑音除去装置10は、周波数分析部11、対数計算部12、マルチチャネル特徴計算部13、DAE(Denoising AutoEncoder;デノイジング・オートエンコーダ)学習部14、DAE復号部15を有する。   The noise removal apparatus 10 includes a frequency analysis unit 11, a logarithmic calculation unit 12, a multichannel feature calculation unit 13, a DAE (Denoising AutoEncoder) learning unit 14, and a DAE decoding unit 15.

周波数分析部11は、2個のマイク1及び2によりそれぞれ観測された観測信号について、周波数分析、例えばメル周波数分析を行って周波数領域信号へ変換する。観測信号には、後述するDAE学習部14の学習用の観測信号と、学習結果を用いて雑音除去する雑音除去対象の観測信号がある。対数計算部12は、周波数領域信号へ変換された観測信号の振幅の対数を取って、対数スペクトルのベクトルYt,f=[Yt,f (1),Yt,f (2)]を得る。ここで、1番目のマイクでの観測信号Yt,f (1)について、yt,f=Yt,f (1)である。そして、対数計算部12は、1番目のマイクの観測信号の全ての周波数での対数スペクトルをまとめたベクトルy=[yt,1,・・・,yt,f,・・・,yt,F]を、学習用の観測信号である場合にはDAE学習部14へ入力し、雑音除去対象の観測信号である場合にはDAE復号部15へ入力する。 The frequency analysis unit 11 performs frequency analysis, for example, Mel frequency analysis, on the observation signals observed by the two microphones 1 and 2, respectively, and converts them into frequency domain signals. The observation signals include an observation signal for learning by the DAE learning unit 14 described later and an observation signal to be removed from noise using the learning result. The logarithm calculation unit 12 takes the logarithm of the amplitude of the observation signal converted into the frequency domain signal, and obtains a logarithmic spectrum vector Y t, f = [Y t, f (1) , Y t, f (2) ]. obtain. Here, for the observation signal Y t, f (1) at the first microphone, y t, f = Y t, f (1) . Then, the logarithm calculation unit 12 is a vector y t = [y t, 1 ,..., Y t, f ,..., Y that summarizes the logarithmic spectra at all frequencies of the observation signal of the first microphone. t, F ] is input to the DAE learning unit 14 when it is an observation signal for learning, and is input to the DAE decoding unit 15 when it is an observation signal to be denoised.

マルチチャネル特徴計算部13は、マイク1及び2の観測信号を周波数分析し、周波数分析した結果を用いて、マルチチャネル特徴量を示すベクトルr=[rt,1,・・・,rt,F]を計算する。マルチチャネル特徴計算部13は、計算したベクトルrを、DAE学習部14及びDAE復号部15へ入力する。なお、マルチチャネル特徴計算部13の詳細については、後述する。 The multi-channel feature calculation unit 13 performs frequency analysis on the observation signals of the microphones 1 and 2, and uses a result of the frequency analysis to calculate a vector r t = [r t, 1 ,. , F ]. Multi-channel feature calculation block 13, the calculated vector r t, and inputs to the DAE learning unit 14 and the DAE decoding unit 15. Details of the multi-channel feature calculation unit 13 will be described later.

DAE学習部14は、DNN(Deep Neural Network;多層ニューラルネットワークシステム)であり、雑音下で観測された学習用の観測音声である入力ベクトルzinに対する出力ベクトルzoutとして原音声が得られるようなl個の隠れ層(lは自然数)を学習する。実施形態では、l=2の場合を例示する。DAE学習部14は、入力部14a、隠れ層14b、隠れ層14c、出力部14dを有する。すなわち、隠れ層14b及び隠れ層14cの2つの隠れ層が含まれる。ここで、隠れ層の数l=2はあくまで例示に過ぎない。 The DAE learning unit 14 is a DNN (Deep Neural Network), and can obtain an original voice as an output vector z out with respect to an input vector z in which is an observation voice for learning observed under noise. Learn l hidden layers (l is a natural number). In the embodiment, the case of l = 2 is illustrated. The DAE learning unit 14 includes an input unit 14a, a hidden layer 14b, a hidden layer 14c, and an output unit 14d. That is, the two hidden layers of the hidden layer 14b and the hidden layer 14c are included. Here, the number of hidden layers l = 2 is merely an example.

入力部14aは、対数計算部12から入力された、マイク1より観測された学習用の観測音声の対数スペクトルのベクトルy=[yt,1,・・・,yt,f,・・・,yt,F]を、時刻tを中心とした前後Tフレームから成るコンテキスト窓を用いて連結する。 The input unit 14a receives the logarithmic spectrum vector y t = [y t, 1 ,..., Y t, f ,. , Y t, F ] are connected using a context window consisting of T frames before and after the time t.

さらに、入力部14aは、マルチチャネル特徴計算部13から入力されたベクトルrを、時刻tを中心とした前後Tフレームから成るコンテキスト窓を用いて連結し、下記(4)式のように入力ベクトルzinを求める。 Further, the input unit 14a connects the vector r t input from the multi-channel feature calculation unit 13 using a context window composed of previous and subsequent T frames centered on the time t, and inputs as shown in the following equation (4). Find the vector z in .

Figure 0006348427
Figure 0006348427

出力部14dは、学習用の原音声を、時刻tを中心とした前後Tフレームから成るコンテキスト窓を用いて連結し、下記(5)式のように出力ベクトルzoutを求める。 The output unit 14d concatenates the original speech for learning using a context window composed of previous and subsequent T frames centered at time t, and obtains an output vector z out as shown in the following equation (5).

Figure 0006348427
Figure 0006348427

そして、隠れ層14b及び隠れ層14cは、DAE学習部14の入力を入力ベクトルzin、出力を出力ベクトルzoutとするDAEの学習により、l層目の隠れ層(l=1,2)として得られる。すなわち、DAE学習部14は、隠れ層14b及び隠れ層14cの出力として、下記(6)式に示すものが得られるように、パラメータθ={W,b}(但し、Wは重みベクトル、bはバイアスベクトル)を学習する。なお、下記(6)式におけるσθ(・)は非線形関数であり、例えばシグモイド関数である。また、下記(6)式において、1層目(すなわち隠れ層14b)の出力は、h(zin)=σθ(Win+b)で計算し、最終層(すなわち2層目、隠れ層14c)の出力は、線形関数にてベクトルzout=fθ=W(L−1)+bで計算する。パラメータθ={W,b}の学習は、既存の手法、例えば確率的勾配効果法(Stochastic Gradient Descent Method)により求められる。DAE学習部14は、学習したパラメータθ={W,b}を、DAE復号部15へコピーする。 Then, the hidden layer 14b and the hidden layer 14c are formed as the first hidden layer (l = 1, 2) by learning DAE using the input of the DAE learning unit 14 as the input vector z in and the output as the output vector z out. can get. That is, the DAE learning unit 14 sets the parameter θ = {W, b} (W is a weight vector, b so that the output of the hidden layer 14b and the hidden layer 14c can be obtained by the following equation (6). Learns the bias vector. Note that σ θ (·) in the following equation (6) is a nonlinear function, for example, a sigmoid function. Further, in the following equation (6), the output of the first layer (ie, the hidden layer 14b) is calculated by h 1 (z in ) = σ θ (W 1 z in + b 1 ), and the final layer (ie, the second layer) The output of the hidden layer 14c) is calculated by a vector z out = f θ = W L h (L-1) + b L by a linear function. Learning of the parameter θ = {W, b} is obtained by an existing method, for example, Stochastic Gradient Descent Method. The DAE learning unit 14 copies the learned parameter θ = {W, b} to the DAE decoding unit 15.

Figure 0006348427
Figure 0006348427

DAE復号部15は、入力部15a、隠れ層15b、隠れ層15c、出力部15dを有する。入力部15aはDAE学習部14の入力部14aに対応し、隠れ層15bはDAE学習部14の隠れ層14bに対応し、隠れ層15cはDAE学習部14の隠れ層14cに対応し、出力部15dはDAE学習部14の出力部14dに対応する。   The DAE decoding unit 15 includes an input unit 15a, a hidden layer 15b, a hidden layer 15c, and an output unit 15d. The input unit 15a corresponds to the input unit 14a of the DAE learning unit 14, the hidden layer 15b corresponds to the hidden layer 14b of the DAE learning unit 14, the hidden layer 15c corresponds to the hidden layer 14c of the DAE learning unit 14, and the output unit 15 d corresponds to the output unit 14 d of the DAE learning unit 14.

入力部15aは、対数計算部12から入力された、マイク1,2より観測された雑音除去対象の観測音声の対数スペクトルのベクトルy=[yt,1,・・・,yt,f,・・・,yt,F]、及び、マルチチャネル特徴計算部13から入力されたベクトルr=[rt,1,・・・,rt,F]を、時刻tを中心とした前後Tフレームから成るコンテキスト窓を用いて連結し、上記(4)式のようにベクトルzinを求める。入力部15aは、求めたベクトルzinを、隠れ層15bへ入力する。 The input unit 15a receives the logarithmic spectrum vector y t = [y t, 1 ,..., Y t, f of the observed speech to be removed from the noise observed from the microphones 1 and 2 and input from the logarithmic calculation unit 12. ,..., Y t, F ] and the vector r t = [r t, 1 ,..., R t, F ] input from the multi-channel feature calculator 13 with the time t as the center. A context window made up of preceding and following T frames is used for connection, and a vector z in is obtained as in the above equation (4). The input unit 15a inputs the obtained vector z in to the hidden layer 15b.

隠れ層15b及び隠れ層15cによる、DAE学習部14により学習されたパラメータθ={W,b}を用いた、下記(7)式及び(8)式による処理により、出力ベクトルzout=[xt−T,・・・,x,・・・,xt+T]が得られる。なお、下記(7)式におけるパラメータθ={W,b}は、下記(6)式により学習されたものである。また、下記(7)式においては、上記(6)式と同様に、1層目(すなわち隠れ層15b)の出力は、h(zin)=σθ(Win+b)で計算し、最終層(すなわち2層目、隠れ層15c)の出力は、線形関数にてベクトルzout=fθ=W(L−1)+bで計算する。出力部15dは、出力ベクトルzout=[xt−T,・・・,x,・・・,xt+T]を、雑音除去音声の対数スペクトルの推定ベクトル^xとして、例えば信号再構成装置20へ出力する。 By using the parameter θ = {W, b} learned by the DAE learning unit 14 by the hidden layer 15b and the hidden layer 15c, the output vector z out = [x t−T 1 ,..., x t ,..., x t + T ]. The parameter θ = {W, b} in the following equation (7) is learned by the following equation (6). Further, in the following expression (7), the output of the first layer (that is, the hidden layer 15b) is h 1 (z in ) = σ θ (W 1 z in + b 1 ) as in the above expression (6). The output of the final layer (that is, the second layer and the hidden layer 15c) is calculated as a vector z out = f θ = W L h (L−1) + b L by a linear function. The output unit 15d uses the output vector z out = [x t−T ,..., X t ,..., X t + T ] as an estimated vector ^ x of the logarithmic spectrum of the noise-removed speech, for example, a signal reconstruction device. 20 output.

Figure 0006348427
Figure 0006348427

Figure 0006348427
Figure 0006348427

(マルチチャネル特徴計算部13の詳細)
マルチチャネル特徴計算部13は、マルチチャネル特徴量を示すベクトルr=[rt,1,・・・,rt,F]を計算する。ベクトルrとしては、次が挙げられる。
(Details of multi-channel feature calculation unit 13)
The multi-channel feature calculation unit 13 calculates a vector r t = [r t, 1 ,..., R t, F ] indicating the multi-channel feature amount. The vector r t, and the like following.

(1)両耳間振幅差(ILD:Interaural Level Difference)
マイク1及び2それぞれの観測信号を、人の両耳の各感知音とし、それぞれの観測信号の対数スペクトルの比を取るものであり、ベクトルrとして、下記(9)式により求める。詳細は、文献「Y. Liu, P. Zhang, and T. Hain, “Using neural network front-ends on far field multiple microphones based speech recognitions”, Proc. of ICASSP2014, 2014, pp.5579-5583.」に基づく。
(1) Interaural Level Difference (ILD)
The microphone 1 and 2 each observed signal, and each sensing sound binaural human, which takes the logarithm spectrum ratio of each observed signal, as a vector r t, determined by the following equation (9). For details, refer to the document “Y. Liu, P. Zhang, and T. Hain,“ Using neural network front-ends on far field multiple microphones based speech recognitions ”, Proc. Of ICASSP2014, 2014, pp.5579-5583. Based.

Figure 0006348427
Figure 0006348427

(2)両耳間位相差(IPD:Interaural Phase Difference)
複数マイクにおける観測信号の位相差は、音源と複数マイクの位置関係を反映する特徴量になることがよく知られている。そこで、ベクトルrとして、f番目のメルフィルタバンクの中心周波数f´(f)におけるマイク1及び2での観測信号の位相差を、ベクトルrとして、下記(10)式により求める。なお、 ̄Yt,f´(f)はf番目のメルフィルタバンクの中心周波数f´(f)における観測信号の対数スペクトルのベクトルYt,fの短時間フーリエ変換係数である。そして、∠ ̄Yt,f´(f) (1)はf番目のメルフィルタバンクの中心周波数f´(f)におけるマイク1の観測信号の短時間フーリエ変換係数の位相、∠ ̄Yt,f´(f) (2)はf番目のメルフィルタバンクの中心周波数f´(f)におけるマイク2の観測信号の短時間フーリエ変換係数の位相である。
(2) Interaural Phase Difference (IPD)
It is well known that the phase difference of observation signals in a plurality of microphones is a feature quantity that reflects the positional relationship between the sound source and the plurality of microphones. Therefore, as a vector r t, the phase difference of the observed signals at the microphone 1 and 2 at the center frequency f'the f-th mel filter bank (f), as a vector r t, determined by the following equation (10).  ̄Y t, f ′ (f) is a short-time Fourier transform coefficient of the logarithmic spectrum vector Y t, f of the observed signal at the center frequency f ′ (f) of the f-th mel filter bank. ∠ ̄Y t, f ′ (f) (1) is the phase of the short-time Fourier transform coefficient of the observation signal of the microphone 1 at the center frequency f ′ (f) of the f-th mel filter bank, ∠ ̄Y t, f ′ (f) (2) is the phase of the short-time Fourier transform coefficient of the observation signal of the microphone 2 at the center frequency f ′ (f) of the f-th mel filter bank.

Figure 0006348427
Figure 0006348427

また、上記(10)式に代えて、下記(11)式により求まる、f番目のメルフィルタバンクの中心周波数f´(f)におけるマイク1及び2での観測信号の短時間フーリエ変換係数の位相差の余弦値φf´(f)を、ベクトルrとしてもよい。 Further, instead of the above equation (10), the level of the short-time Fourier transform coefficient of the observation signal at the microphones 1 and 2 at the center frequency f ′ (f) of the f-th mel filter bank obtained by the following equation (11): cosine values phi f'the retardation of (f), or as a vector r t.

Figure 0006348427
Figure 0006348427

(3)時間周波数マスク(MASK)
マルチチャネル情報がある場合、音源と複数マイクの位置関係を反映する特徴量(例えばチャネル間位相差IPDなど)を計算することができ、その特徴量をクラスタリングすることで、音音声強調を行う時間周波数マスクを計算することができる。例えば、時間周波数マスクは、各時間周波数で得られた、上記(5)式又は(6)式によりえられたIPDのベクトルrをクラスタリングすることで計算できる。詳細は、文献「T. Nakatani, S. Araki, T. Yoshioka, M. Delcroix, and M. Fujimoto, “Dominance based integration of spatial and spectral features for speech enhancement”, IEEE Trans. Audio, Speech and Language Processing, vol. 21, no. 12, pp. 2516-2531, 2013.」に基づく。
(3) Time frequency mask (MASK)
When there is multi-channel information, it is possible to calculate a feature value (for example, inter-channel phase difference IPD) that reflects the positional relationship between the sound source and a plurality of microphones, and cluster the feature values to perform sound speech enhancement time A frequency mask can be calculated. For example, the time frequency mask can be calculated by clustering the IPD vector r t obtained by the above equation (5) or (6) obtained at each time frequency. For details, see T. Nakatani, S. Araki, T. Yoshioka, M. Delcroix, and M. Fujimoto, “Dominance based integration of spatial and spectral features for speech enhancement”, IEEE Trans. Audio, Speech and Language Processing, vol. 21, no. 12, pp. 2516-2531, 2013 ”.

具体的には、メル周波数領域での時間周波数マスクMt,fは、例えば、短時間周波数領域で得られた時間周波数マスクをメル周波数領域に変換することで計算できる。マルチチャネル特徴量としては、下記(12)式のように、メル周波数領域での時間周波数マスクMt,fを用いる。 Specifically, the time frequency mask M t, f in the mel frequency domain can be calculated, for example, by converting the time frequency mask obtained in the short time frequency domain into the mel frequency domain. As the multi-channel feature quantity, a time frequency mask M t, f in the mel frequency domain is used as in the following equation (12).

Figure 0006348427
Figure 0006348427

あるいは、下記(13)式のように、メル周波数領域での時間周波数マスクの対数を取ったものを用いてもよい。   Or you may use what took the logarithm of the time frequency mask in a mel frequency area like the following (13) Formula.

Figure 0006348427
Figure 0006348427

なお、上記(13)式は、Mが0と1の近くの値を取りやすく、その間の値を取りにくい性質をもつ。よって、上記(13)式を、下記(14)式のように、1と0の間でピークを持つ単峰性の性質を持つデータに変換したものを用いてもよい。   The above equation (13) has a property that M is easy to take a value near 0 and 1, and it is difficult to take a value between them. Therefore, the above equation (13) may be converted into data having a unimodal property having a peak between 1 and 0 as in the following equation (14).

Figure 0006348427
Figure 0006348427

(4)時間周波数マスクでの強調音声(ENHANCE)
上記(13)式のように、メル周波数領域での時間周波数マスクの対数を取ったものを用いると、強調音声^xt,f=log(Mt,f・exp(yt,f))=log(Mt,f)+yt,fが得られる。よって、時間周波数マスクでの強調音声(ENHANCE)におけるマルチチャネル特徴量は、下記(15)式により得られる。
(4) Emphasized speech with time frequency mask (ENHANCE)
When the logarithm of the time frequency mask in the mel frequency domain is used as in the above equation (13), the emphasized speech ^ x t, f = log (M t, f · exp (y t, f )) = Log (M t, f ) + y t, f is obtained. Therefore, the multi-channel feature quantity in the emphasized speech (ENHANCE) using the time-frequency mask is obtained by the following equation (15).

Figure 0006348427
Figure 0006348427

(5)時間周波数マスクで計算した雑音(NOISE)
時間周波数マスクでの強調音声の代わりに、下記(16)式のように、マスクにより推定された雑音信号を、マルチチャネル特徴として用いてもよい。
(5) Noise calculated with a time-frequency mask (NOISE)
Instead of the enhanced speech using the time-frequency mask, a noise signal estimated by the mask may be used as a multi-channel feature as shown in the following equation (16).

Figure 0006348427
Figure 0006348427

(6)その他のマルチチャネル特徴量
例えば、上記IPDの代わりに、f番目のメルフィルタバンクの中心周波数f´(f)における複数マイクでの観測信号の到達時間差(TDOA;Time Difference Of Arrival)を用いてもよい。これは、例えば、よく知られているGCC−PHAT(Generalized Cross-Correlation PHAse Transform)法で計算することができる。これは、下記(17)式に示すように、周波数によらない特徴量となる。なお、下記(17)式において、 ̄Yt,f´(f) (1)はf番目のメルフィルタバンクの中心周波数f´(f)におけるマイク1による観測信号の対数スペクトルのベクトルYt,fの短時間フーリエ変換係数である。また、 ̄Yt,f´(f)* (2)はf番目のメルフィルタバンクの中心周波数f´(f)の複素共役f´(f)におけるマイク2による観測信号の対数スペクトルのベクトルYt,fの短時間フーリエ変換係数である。また、|・|は、・のノルムを表す。また、jは虚数単位である。
(6) Other multi-channel feature quantities For example, instead of the IPD, the time difference of arrival (TDOA) of observation signals at a plurality of microphones at the center frequency f ′ (f) of the f-th mel filter bank It may be used. This can be calculated, for example, by the well-known GCC-PHAT (Generalized Cross-Correlation PHAse Transform) method. This is a feature quantity that does not depend on the frequency, as shown in the following equation (17). In the following equation (17),  ̄Y t, f ′ (f) (1) is a vector Y t, of the logarithmic spectrum of the signal observed by the microphone 1 at the center frequency f ′ (f) of the f-th mel filter bank . It is a short-time Fourier transform coefficient of f . Further,  ̄Y t, f ′ (f) * (2) is a vector of the logarithmic spectrum of the signal observed by the microphone 2 at the complex conjugate f ′ (f) * of the center frequency f ′ (f) of the f-th mel filter bank. Y t, f is a short-time Fourier transform coefficient. Also, | · | represents the norm of •. J is an imaginary unit.

Figure 0006348427
Figure 0006348427

また、一定時間(例えば5秒間や、1発話分など)の間に計算されたTDOA情報のヒストグラムを取り、そのヒストグラムを、マルチチャネル特徴量のベクトルrとして用いてもよい。この場合、tは時刻ではなく、ヒストグラムのビンのインデックスに置き換わる。この場合、入力ベクトルzinをコンテキスト窓で連結しなくてもよい。また、上記に列挙した各マルチチャネル特徴量のベクトルを任意に選択して並べたベクトルを、マルチチャネル特徴量のベクトルとしてもよい。 Further, (or for example 5 seconds, 1, etc. utterance) a certain time taking a histogram of the calculated TDOA information between, the histogram may be used as a vector r t multichannel feature quantity. In this case, t replaces the index of the bin in the histogram, not the time. In this case, the input vector z in may not be connected by the context window. A vector obtained by arbitrarily selecting and arranging the vectors of the multichannel feature values listed above may be used as the multichannel feature value vector.

なお、マイクの数Mが3以上の場合は、上記(9)式、(10)式、(11)式、(17)式において、右肩の添え字(2)を、添え字(3)、(4)・・・についても同様にそれぞれ計算し、得られた特徴量を添え字の順序(すなわちマイクの順序)で並べたものを、マルチチャネル特徴量のベクトルrとしてもよい。 When the number M of microphones is 3 or more, the right shoulder subscript (2) is replaced with the subscript (3) in the above formulas (9), (10), (11), and (17). , (4) respectively calculated similarly for ..., those arranged in the order of subscripts obtained feature amount (i.e. the order of the microphone), or as a vector r t multichannel feature quantity.

(信号再構成装置の構成)
図2は、信号再構成装置の構成の一例を示す図である。信号再構成装置20は、雑音除去フィルタ計算部21、周波数ドメイン変換部22、雑音除去音声計算部23、逆フーリエ変換部24を有する。雑音除去フィルタ計算部21は、雑音除去装置10から入力された雑音除去音声の全周波数での対数スペクトル^xに対し、下記(18)式により、メル周波数領域における雑音除去フィルタ(ウィーナフィルタ)Wt,fを計算する。
(Configuration of signal reconstruction device)
FIG. 2 is a diagram illustrating an example of the configuration of the signal reconstruction device. The signal reconstruction device 20 includes a noise removal filter calculation unit 21, a frequency domain conversion unit 22, a noise removal speech calculation unit 23, and an inverse Fourier transform unit 24. The noise removal filter calculation unit 21 applies a noise removal filter (Wiener filter) in the mel frequency region to the logarithmic spectrum ^ x t at all frequencies of the noise-removed speech input from the noise removal device 10 according to the following equation (18). W t, f is calculated.

Figure 0006348427
Figure 0006348427

次に、周波数ドメイン変換部22は、雑音除去フィルタ計算部21により計算された雑音除去フィルタWt,fを、線形周波数領域の雑音除去フィルタ ̄Wt,f´へ変換する。ここで、f´は、線形周波数である。詳細は、文献「M. Fujimoto, S. Watanabe, and T. Nakatani, “A robust estimation method of noise mixture model for noise suppression”, Proc. of Interspeech2011, 2011, pp.697-700.」に基づく。 Next, the frequency domain conversion unit 22 converts the noise removal filter W t, f calculated by the noise removal filter calculation unit 21 into a noise removal filter  ̄W t, f ′ in the linear frequency domain. Here, f ′ is a linear frequency. Details are based on the literature “M. Fujimoto, S. Watanabe, and T. Nakatani,“ A robust estimation method of noise mixture model for noise suppression ”, Proc. Of Interspeech 2011, 2011, pp. 697-700.

次に、雑音除去音声計算部23は、線形周波数領域での雑音除去音声を、 ̄xt,f= ̄Wt,f・ ̄yt,f´にて計算する。逆フーリエ変換部24は、雑音除去音計算部23より計算された ̄yt,f´に対して短時間逆フーリエ変換を行って時間波形に戻すことで、最終的な雑音除去音声の波形yt,fを得る。ここで、 ̄yt,f´は、yt,fの線形周波数領域表現であり、観測信号の短時間フーリエ変換により得られる。 Next, the noise-removed speech calculation unit 23 calculates a noise-removed speech in the linear frequency domain using  ̄x t, f =  ̄W t, f ·  ̄y t, f ′ . The inverse Fourier transform unit 24 performs a short-time inverse Fourier transform on  ̄y t, f ′ calculated by the noise-removed sound calculation unit 23 to return it to a time waveform, so that the final waveform y of the noise-removed speech is obtained. t and f are obtained. Here,  ̄y t, f ′ is a linear frequency domain representation of y t, f and is obtained by short-time Fourier transform of the observation signal.

(DAE学習処理)
図3は、DAE学習処理の一例を示すフローチャートである。DAE学習処理は、隠れ層のパラメータθ={W,b}を学習する処理であり、雑音除去装置10により実行される。なお、図3に示すDAE学習処理は、マイク1の入力信号を雑音除去対象の音声信号とし、マイク1及び2の入力信号をマルチチャネル特徴量rの算出対象の音声信号とする。
(DAE learning process)
FIG. 3 is a flowchart illustrating an example of the DAE learning process. The DAE learning process is a process of learning the hidden layer parameter θ = {W, b}, and is executed by the noise removal apparatus 10. Incidentally, DAE learning process shown in FIG. 3, the input signal of the microphone 1 and an audio signal in the noise removal target, the calculation target of the audio signal of the multi-channel feature quantity r t the input signal of the microphone 1 and 2.

先ず、DAE学習部14の周波数分析部11は、マイク1の入力信号(及び学習用の原音声)を例えば100msのフレームごとに周波数分析する(ステップS11)。次に、出力部11は、ステップS11で周波数解析した学習用の原音声を前後Tフレームへコンテキスト窓で連結する(ステップS12)。次に、対数計算部12は、ステップS11で周波数解析した入力信号の対数スペクトルを算出する(ステップS13)。次に、マルチチャネル特徴計算部13は、マイク1及び2の入力信号からマルチチャネル特徴量rを算出する(ステップS14)。 First, the frequency analysis unit 11 of the DAE learning unit 14 analyzes the frequency of the input signal (and the original voice for learning) of the microphone 1 for every 100 ms frame, for example (step S11). Next, the output unit 11 connects the original speech for learning subjected to frequency analysis in step S11 to the previous and next T frames through a context window (step S12). Next, the logarithmic calculator 12 calculates a logarithmic spectrum of the input signal subjected to frequency analysis in step S11 (step S13). Next, the multi-channel feature calculation unit 13 calculates the multi-channel feature quantity r t from the input signal of the microphone 1 and 2 (step S14).

次に、DAE学習部14の入力部14aは、ステップS13で算出した対数スペクトル及びステップS14で算出したマルチチャネル特徴量rを並べたベクトルを前後Tフレームへコンテキスト窓で連結する(ステップS15)。次に、隠れ層14bは、ステップS15でコンテキスト窓で連結したベクトルを入力とする出力を求め、重みベクトルWとバイアスベクトルbを学習する(ステップS16)。次に、隠れ層14cは、ステップS16による隠れ層14bの出力を入力とする出力を求め、重みベクトルWとバイアスベクトルbを学習する(ステップS17)。なお、ステップS17による隠れ層14cの出力は、学習用の原音声と一致する。そして、出力部14dは、ステップS17による隠れ層14cの出力を最終出力する(ステップS18)。なお、DAE学習部14は、DAE学習処理により学習した隠れ層のパラメータθ={W,b}を、DAE復号部15へコピーする。 Then, the input section 14a of the DAE learning unit 14, which is linked with the calculated log spectrum and the calculated multichannel feature quantity r t Sorting context window vector back and forth T frames in step S14 in step S13 (step S15) . Next, the hidden layer 14b obtains an output for receiving the vector was ligated in the context window in step S15, the learned weight vectors W 1 and the bias vector b 1 (step S16). Next, the hidden layer 14c obtains an output for receiving the output of the hidden layer 14b in step S16, to learn the weight vector W 2 and the bias vector b 2 (step S17). Note that the output of the hidden layer 14c in step S17 coincides with the original voice for learning. And the output part 14d finally outputs the output of the hidden layer 14c by step S17 (step S18). The DAE learning unit 14 copies the hidden layer parameter θ = {W, b} learned by the DAE learning process to the DAE decoding unit 15.

(雑音除去処理)
図4は、雑音除去処理の一例を示すフローチャートである。雑音除去処理は、図3に示すDAE学習処理により学習された隠れ層のパラメータθ={W,b}を用いて、マイクの入力信号から雑音を除去する処理であり、雑音除去装置10により実行される。なお、図4に示す雑音除去処理は、図3に示すDAE学習処理がマイク1の入力信号を雑音除去対象の音声信号とし、マイク1及び2の入力信号をマルチチャネル特徴量rの算出対象の音声信号とする場合は、同様に、マイク1の入力信号を雑音除去対象の音声信号とし、マイク1及び2の入力信号をマルチチャネル特徴量rの算出対象の音声信号とする。
(Noise removal processing)
FIG. 4 is a flowchart illustrating an example of the noise removal process. The noise removal process is a process for removing noise from the microphone input signal using the hidden layer parameter θ = {W, b} learned by the DAE learning process shown in FIG. Is done. Incidentally, the noise removal processing shown in FIG. 4, DAE learning process shown in FIG. 3 is a noise removal target speech signal of the input signal of the microphone 1, the calculation target input signal of the microphone 1 and 2 of the multi-channel feature quantity r t If the audio signal is similarly input signal of the microphone 1 and an audio signal in the noise removal target, the calculation target of the audio signal of the multi-channel feature quantity r t the input signal of the microphone 1 and 2.

先ず、周波数分析部11は、マイク1の入力信号を例えば100msのフレームごとに周波数分析する(ステップS21)。次に、対数計算部12は、ステップS21で周波数分析した入力信号の対数スペクトルを算出する(ステップS22)。次に、マルチチャネル特徴計算部13は、マイク1及び2の入力信号からマルチチャネル特徴量rを算出する(ステップS23)。 First, the frequency analysis unit 11 analyzes the frequency of the input signal of the microphone 1 for every 100 ms frame, for example (step S21). Next, the logarithmic calculator 12 calculates a logarithmic spectrum of the input signal subjected to frequency analysis in step S21 (step S22). Next, the multi-channel feature calculation unit 13 calculates the multi-channel feature quantity r t from the input signal of the microphone 1 and 2 (step S23).

次に、DAE復号部15の入力部15aは、ステップS22で算出した対数スペクトル及びステップS23で算出したマルチチャネル特徴量rを並べたベクトルを前後Tフレームへコンテキスト窓で連結する(ステップS24)。次に、隠れ層15bは、ステップS24でコンテキスト窓で連結したベクトルを入力とし、DAE学習部14がDAE学習処理により学習した重みベクトルW及びバイアスベクトルbを用いて、隠れ層15bの出力を求める(ステップS25)。次に、隠れ層15cは、ステップS25で求められた隠れ層15bの出力を入力とし、DAE学習部14がDAE学習処理により学習した重みベクトルW及びバイアスベクトルbを用いて、隠れ層15cの出力を求める(ステップS26)。そして、出力部15dは、ステップS26による隠れ層15cの出力を最終出力する(ステップS27)。 Then, the input section 15a of the DAE decoder 15 couples the vector obtained by arranging multi-channel feature value r t calculated in logarithmic spectrum and S23 calculated to the context window before and after T frame in step S22 (step S24) . Next, the hidden layer 15b inputs the vector was ligated in the context window in step S24, using the weight vectors W 1 and a bias vector b 1 of DAE learning section 14 learns the DAE learning process, outputs of the hidden layer 15b Is obtained (step S25). Next, the hidden layer 15c receives the output of the hidden layer 15b obtained in step S25, by using the weight vector W 2 and a bias vector b 2 of DAE learning section 14 learns the DAE learning process, the hidden layer 15c Is obtained (step S26). And the output part 15d finally outputs the output of the hidden layer 15c by step S26 (step S27).

[実施形態による効果]
図5A〜図5Cは、実施形態の効果の一例を説明する図である。実験に用いた観測信号は、英国一般家庭に設置したM=2個のマイクアレイの正面からおよそ2m離れた位置で発声された音声と、同じマイクアレイで収録した英国一般家庭での雑音との混合信号である。雑音は、非定常的なもの(子供の声、掃除機の音、テレビ音等)を含む。音声信号は全て、英語6単語から成るコマンド音声である。
[Effects of the embodiment]
5A to 5C are diagrams illustrating an example of the effect of the embodiment. The observation signal used in the experiment consists of the sound uttered at a position approximately 2 m away from the front of the M = 2 microphone array installed in the UK household and the noise in the UK household recorded with the same microphone array. It is a mixed signal. Noise includes non-stationary things (child's voice, vacuum cleaner sound, TV sound, etc.). All voice signals are command voices consisting of six English words.

学習データは、34話者の音声クリーンデータに雑音を加えた6時間分の観測信号からなる。評価データは、同じ34話者が発声した音声に、雑音(学習データと同じ部屋で収録した、学習データで用いた雑音とは別の雑音)を付加した観測信号で、SN比が−6dB、−3dB、0dB、3dB、6dB、9dBの各条件での、それぞれ600発話からなる。スペクトル特徴のベクトルyの次元は、メル周波数領域で40次元とし、コンテキスト窓の長さはT=5とした。フレーム長とフレームシフトは、それぞれ100ms、25msである。 The learning data consists of 6 hours of observation signals obtained by adding noise to the voice clean data of 34 speakers. The evaluation data is an observation signal obtained by adding noise (noise recorded in the same room as the learning data and different from the noise used in the learning data) to the voice uttered by the same 34 speakers, and the SN ratio is −6 dB, It consists of 600 utterances under each condition of −3 dB, 0 dB, 3 dB, 6 dB, and 9 dB. The dimension of the spectrum feature vector y t is 40 dimensions in the mel frequency domain, and the length of the context window is T = 5. The frame length and frame shift are 100 ms and 25 ms, respectively.

実施形態のマルチチャネル特徴のベクトルrとしては、上記(10)式又は(11)式に基づくIPD、上記(15)式に基づくENHANCE、上記(16)式に基づくNOISEの3種類とした。DAEに用いた隠れ層の数は1、隠れ層で用いたユニット数(パラメタの次元)は、1,024である。比較例のマルチチャネル特徴には、雑音除去していない観測信号そのものと、ENHANCEに使った時間周波数マスク(上記(15)式参照)にて雑音除去した結果と、1マイクのみを用いるDAEの出力と、ILDの4種類を試した。 The vector r t multichannel features of the embodiments, the IPD based on the above (10) or (11), ENHANCE based on the above (15), and three kinds of NOISE based on the equation (16). The number of hidden layers used for DAE is 1, and the number of units (parameter dimensions) used in the hidden layers is 1,024. The multi-channel feature of the comparative example includes the observation signal itself without noise removal, the result of noise removal by the time frequency mask used for ENHANCE (see the above equation (15)), and the output of the DAE using only one microphone. And I tried four types of ILD.

図5A及び図5Bは、それぞれの手法による雑音除去の性能を示している。評価量は、ケプストラム歪みCD(Cepstral Distortion)と、セグメンタルSN比(SSNR)である。CDは、値がより小さいほど、より高い性能を示す。また、SSNRは、値が大きいほど、より高い性能を示す。図5A及び図5Bは、各マルチチャネル特徴量を用いて得られた雑音除去音声のCD及びSSNRを、観測信号のSN比ごとに示している。図5A及び図5Bに示すように、実施形態のIPD、NOISE、ENHANCEは、比較例よりも高い性能を示すことが分かる。   FIG. 5A and FIG. 5B show the noise removal performance by each method. The evaluation amount is a cepstrum distortion CD (Cepstral Distortion) and a segmental SN ratio (SSNR). The smaller the value of CD, the higher the performance. Moreover, SSNR shows a higher performance, so that a value is large. 5A and 5B show the CD and SSNR of the noise-removed speech obtained using each multi-channel feature amount for each S / N ratio of the observation signal. As shown in FIGS. 5A and 5B, it can be seen that the IPD, NOISE, and ENHANCE of the embodiment show higher performance than the comparative example.

また、図5Cは、比較例としての、雑音除去していない観測信号と、ENHANCEに使った時間周波数マスク(上記(15)式参照)にて雑音除去した結果と、1マイクのみを用いるDAEの出力と、ILDと、実施形態としてIPD、ENHANCE、NOISEの7種類それぞれの音声について、コマンド音声認識を行なった結果を示す。音声認識機としては、文献「M. Delcroix, Y. Kubo, T. Nakatani, and A. Nakamura, “Is speech enhancement pre-processing still relevant when using deep neural networks for acoustic modeling ?”, Proc. of Interspeech2013, 2013, pp. 2992-2996.」に示されるディープニューラルネットワーク(DNN)ベースの技術を用いた。図5Cは、実施形態としてIPD、ENHANCE、NOISEが、比較例よりも高い性能であることを示す。   Further, FIG. 5C shows a comparative example of a non-noise-removed observation signal, a result of noise removal by the time-frequency mask used for ENHANCE (see the above equation (15)), and a DAE using only one microphone. The result of command voice recognition is shown for each of the output, ILD, and seven types of voices of IPD, ENHANCE, and NOISE as embodiments. As a speech recognizer, the literature “M. Delcroix, Y. Kubo, T. Nakatani, and A. Nakamura,“ Is speech enhancement pre-processing still relevant when using deep neural networks for acoustic modeling? ”, Proc. Of Interspeech2013, 2013, pp. 2992-2996. ", A deep neural network (DNN) based technology was used. FIG. 5C shows that IPD, ENHANCE, and NOISE as an embodiment have higher performance than the comparative example.

すなわち、実施形態は、信号処理において、複数信号が混在している音響データから、それぞれの原信号を推定する、音源分離の際に、原信号及び複数信号がどのように混ざったかの情報を用いずに、複数信号が混在している音響データのみからそれぞれの原信号を推定する、ブラインド音源分離において、より高い雑音除去性能を有する。   That is, the embodiment estimates each original signal from acoustic data in which a plurality of signals are mixed in signal processing, and does not use information on how the original signal and the plurality of signals are mixed in sound source separation. In addition, in the blind sound source separation in which each original signal is estimated only from the acoustic data in which a plurality of signals are mixed, the noise removal performance is higher.

[その他の実施形態]
実施形態は、観測信号yとして、メル周波数領域での対数スペクトルを用いたが、これに限らず、線形周波数ドメインでの対数スペクトルや、メル周波数ケプストラム係数(MFCC;Mel Frequency Cepstral Coefficient)等を用いてもよい。また、信号再構成装置20は、ウィーナフィルタを用いたが、これに限らず、例えば下記(19)式に示すような時間周波数マスクMt,fを用いてもよい。また、上記(5)式の出力ベクトルzoutでは、コンテキスト窓を用いなくてもよい。
[Other Embodiments]
Embodiment, the observed signal y t, but using a logarithmic spectrum in the Mel frequency domain, not limited thereto, and a logarithmic spectrum of a linear frequency domain, mel-frequency cepstral coefficients; and the like (MFCC Mel Frequency Cepstral Coefficient) It may be used. The signal reconstruction device 20 uses a Wiener filter. However, the present invention is not limited to this. For example, a time frequency mask M t, f as shown in the following equation (19) may be used. Further, the context window need not be used in the output vector z out in the above equation (5).

Figure 0006348427
Figure 0006348427

(雑音除去装置及び信号再構成装置の装置構成について)
図1に示す雑音除去装置10及び図2に示す信号再構成装置20の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、雑音除去装置10の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、雑音除去装置10のDAE学習部14及びDAE復号部15は、一体であってもよく、DAE学習時と雑音除去処理時とで処理を切り替えるようにしてもよい。また、周波数分析部11、対数計算部12、マルチチャネル特徴計算部13は、DAE学習部14及びDAE復号部15で共有するとしたが、DAE学習部14及びDAE復号部15それぞれで個別に周波数分析部、対数計算部、マルチチャネル特徴計算部を有する構成であってもよい。また、実施形態では、雑音除去装置10及び信号再構成装置20は、別装置とするが、これに限らず、一体の装置であってもよい。
(About the device configuration of the noise removal device and the signal reconstruction device)
Each component of the noise removal apparatus 10 shown in FIG. 1 and the signal reconstruction apparatus 20 shown in FIG. 2 is functionally conceptual, and does not necessarily need to be physically configured as illustrated. That is, the specific form of distribution and integration of the functions of the noise removal device 10 is not limited to the illustrated one, and all or a part of the functions can be functionally or physically in arbitrary units according to various loads, usage conditions, and the like. Can be distributed or integrated. For example, the DAE learning unit 14 and the DAE decoding unit 15 of the noise removal apparatus 10 may be integrated, or the process may be switched between DAE learning and noise removal processing. The frequency analysis unit 11, the logarithmic calculation unit 12, and the multi-channel feature calculation unit 13 are shared by the DAE learning unit 14 and the DAE decoding unit 15, but the DAE learning unit 14 and the DAE decoding unit 15 individually perform frequency analysis. May be configured to include a unit, a logarithm calculation unit, and a multi-channel feature calculation unit. In the embodiment, the noise removal device 10 and the signal reconstruction device 20 are separate devices, but are not limited thereto, and may be integrated devices.

また、雑音除去装置10において行われる各処理は、全部又は任意の一部が、CPU(Central Processing Unit)及びCPUにより解析実行されるプログラムにて実現されてもよい。また、雑音除去装置10及び信号再構成装置20において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。   In addition, each or all of the processes performed in the noise removal apparatus 10 may be realized by a CPU (Central Processing Unit) and a program that is analyzed and executed by the CPU. Moreover, each process performed in the noise removal apparatus 10 and the signal reconstruction apparatus 20 may be realized as hardware by wired logic.

また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。   In addition, among the processes described in the embodiment, all or a part of the processes described as being automatically performed can be manually performed. Alternatively, all or some of the processes described as being manually performed among the processes described in the embodiments can be automatically performed by a known method. In addition, the above-described and illustrated processing procedures, control procedures, specific names, and information including various data and parameters can be changed as appropriate unless otherwise specified.

(プログラムについて)
図6は、プログラムが実行されることにより、雑音除去装置及び信号再構成装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
(About the program)
FIG. 6 is a diagram illustrating an example of a computer in which a noise removal apparatus and a signal reconstruction apparatus are realized by executing a program. The computer 1000 includes a memory 1010 and a CPU 1020, for example. The computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. In the computer 1000, these units are connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。   The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012. The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1031. The disk drive interface 1040 is connected to the disk drive 1041. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041. The serial port interface 1050 is connected to a mouse 1051 and a keyboard 1052, for example. The video adapter 1060 is connected to the display 1061, for example.

ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、雑音除去装置10及び信号再構成装置20の各処理を規定するプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、雑音除去装置10及び信号再構成装置20における機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。   The hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program that defines each process of the noise removal apparatus 10 and the signal reconstruction apparatus 20 is stored in, for example, the hard disk drive 1031 as a program module 1093 in which a command executed by the computer 1000 is described. For example, a program module 1093 for executing information processing similar to the functional configuration in the noise removal device 10 and the signal reconstruction device 20 is stored in the hard disk drive 1031.

また、実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。   The setting data used in the processing of the embodiment is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1031 to the RAM 1012 as necessary, and executes them.

なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093やプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。   Note that the program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1031, but may be stored in, for example, a removable storage medium and read out by the CPU 1020 via the disk drive 1041 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). The program module 1093 and the program data 1094 may be read by the CPU 1020 via the network interface 1070.

上記実施形態及びその他の実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。   The above-described embodiments and other embodiments are included in the invention disclosed in the claims and equivalents thereof as well as included in the technology disclosed in the present application.

1、2 マイク
10 雑音除去装置
11 周波数分析部
12 対数計算部
13 マルチチャネル特徴計算部
14 DAE学習部
14a 入力部
14b、14c 隠れ層
14d 出力部
15 DAE復号部
15a 入力部
15b、15c 隠れ層
15d 出力部
20 信号再構成装置
21 雑音除去フィルタ計算部
22 周波数ドメイン計算部
23 雑音除去音声計算部
24 逆フーリエ変換部
100 雑音除去システム
1000 コンピュータ
1010 メモリ
1020 CPU
DESCRIPTION OF SYMBOLS 1, 2 Microphone 10 Noise removal apparatus 11 Frequency analysis part 12 Logarithm calculation part 13 Multichannel feature calculation part 14 DAE learning part 14a Input part 14b, 14c Hidden layer 14d Output part 15 DAE decoding part 15a Input part 15b, 15c Hidden layer 15d Output unit 20 Signal reconstruction device 21 Noise removal filter calculation unit 22 Frequency domain calculation unit 23 Noise removal speech calculation unit 24 Inverse Fourier transform unit 100 Noise removal system 1000 Computer 1010 Memory 1020 CPU

Claims (8)

第1集音装置により観測された第1音声信号及び前記第1集音装置とは異なる位置に配置された第2集音装置により観測された第2音声信号を周波数分析する周波数分析部と、
前記周波数分析部により周波数分析された第1音声信号の振幅の対数である対数スペクトルを計算する対数計算部と、
前記周波数分析部により周波数分析された第1音声信号及び第2音声信号から、該第1音声信号及び該第2音声信号に関するマルチチャネル特徴量を計算するマルチチャネル特徴量計算部と、
前記対数計算部により計算された学習用の第1音声信号の対数スペクトルと、前記マルチチャネル特徴量計算部により計算された該学習用の第1音声信号及び学習用の第2音声信号に関する学習用のマルチチャネル特徴量を入力とし、学習用の原音声の対数スペクトルを出力とするDAE(Denoising AutoEncoder)のパラメータを学習するDAE学習部と、
前記対数計算部により計算された雑音除去対象の第1音声信号の対数スペクトルと、前記マルチチャネル特徴量計算部により計算された該雑音除去対象の第1音声信号及び雑音除去対象の第2音声信号に関する雑音除去用のマルチチャネル特徴量を入力とし、前記DAE学習部により学習された前記パラメータを用いて該雑音除去対象の第1音声信号の対数スペクトルから雑音成分を除去した雑音除去音声の対数スペクトルを出力するDAE復号部と
を備えることを特徴とする雑音除去装置。
A frequency analysis unit that performs frequency analysis on the first sound signal observed by the first sound collector and the second sound signal observed by the second sound collector disposed at a position different from the first sound collector;
A logarithm calculation unit for calculating a logarithm spectrum which is a logarithm of the amplitude of the first audio signal frequency-analyzed by the frequency analysis unit;
A multi-channel feature quantity calculation unit for calculating a multi-channel feature quantity related to the first voice signal and the second voice signal from the first voice signal and the second voice signal subjected to frequency analysis by the frequency analysis unit;
The logarithm spectrum of the first speech signal for learning calculated by the logarithm calculation unit, and the learning for the first speech signal for learning and the second speech signal for learning calculated by the multichannel feature amount calculation unit. A DAE learning unit that learns parameters of a DAE (Denoising AutoEncoder) that receives the multi-channel feature quantity of the input and outputs the logarithmic spectrum of the original speech for learning;
The logarithmic spectrum of the first speech signal to be denoised calculated by the logarithm calculation unit, the first speech signal to be denoised and the second speech signal to be denoised calculated by the multichannel feature amount calculation unit. The logarithmic spectrum of the noise-removed speech in which the noise component is removed from the logarithmic spectrum of the first speech signal to be denoised using the parameters learned by the DAE learning unit. And a DAE decoding unit that outputs the noise elimination device.
前記マルチチャネル特徴量計算部は、前記周波数分析部により周波数分析された第1音声信号及び第2音声信号に関するマルチチャネル特徴量として、線形周波数領域における各時間周波数での該第1音声信号及び該第2音声信号を特徴付ける量を、音声クラスタと雑音クラスタにクラスタリングし、該音声クラスタの時間周波数成分を抽出する時間周波数マスクをメル周波数領域に変換した、音声強調を行なうための時間周波数マスクを計算する
ことを特徴とする請求項1に記載の雑音除去装置。
The multi-channel feature quantity calculation unit, as the multi-channel feature quantity related to the first audio signal and the second audio signal subjected to frequency analysis by the frequency analysis unit, the first audio signal at each time frequency in the linear frequency domain and the A time-frequency mask for speech enhancement is calculated by clustering the amount characterizing the second speech signal into a speech cluster and a noise cluster, and converting the time-frequency mask for extracting the time-frequency component of the speech cluster into the mel frequency domain. The noise removal device according to claim 1, wherein:
前記マルチチャネル特徴量計算部は、前記周波数分析部により周波数分析された第1音声信号及び第2音声信号に関するマルチチャネル特徴量として、線形周波数領域における各時間周波数での該第1音声信号及び該第2音声信号を特徴付ける量を、音声クラスタと雑音クラスタにクラスタリングし、該音声クラスタの時間周波数成分を抽出する時間周波数マスクをメル周波数領域に変換した、音声強調を行なうための時間周波数マスクの対数を計算する
ことを特徴とする請求項1に記載の雑音除去装置。
The multi-channel feature quantity calculation unit, as the multi-channel feature quantity related to the first audio signal and the second audio signal subjected to frequency analysis by the frequency analysis unit, the first audio signal at each time frequency in the linear frequency domain and the The logarithm of the time-frequency mask for performing speech enhancement in which the amount characterizing the second speech signal is clustered into a speech cluster and a noise cluster, and the time-frequency mask for extracting the time-frequency component of the speech cluster is converted into the mel frequency domain. The noise removal device according to claim 1, wherein:
前記マルチチャネル特徴量計算部は、前記周波数分析部により周波数分析された第1音声信号及び第2音声信号に関するマルチチャネル特徴量として、線形周波数領域における各時間周波数での該第1音声信号及び該第2音声信号を特徴付ける量を、音声クラスタと雑音クラスタにクラスタリングし、該音声クラスタの時間周波数成分を抽出する時間周波数マスクをメル周波数領域に変換した、音声強調を行なうための時間周波数マスクの対数に、前記対数計算部により計算された該第1音声信号の対数スペクトルを加算する
ことを特徴とする請求項1に記載の雑音除去装置。
The multi-channel feature quantity calculation unit, as the multi-channel feature quantity related to the first audio signal and the second audio signal subjected to frequency analysis by the frequency analysis unit, the first audio signal at each time frequency in the linear frequency domain and the The logarithm of the time-frequency mask for performing speech enhancement in which the amount characterizing the second speech signal is clustered into a speech cluster and a noise cluster, and the time-frequency mask for extracting the time-frequency component of the speech cluster is converted into the mel frequency domain. The noise removal apparatus according to claim 1, wherein the logarithmic spectrum of the first audio signal calculated by the logarithm calculation unit is added to the logarithm calculation unit.
前記マルチチャネル特徴量計算部は、前記周波数分析部により周波数分析された第1音声信号及び第2音声信号に関するマルチチャネル特徴量として、線形周波数領域における各時間周波数での該第1音声信号及び該第2音声信号を特徴付ける量を、音声クラスタと雑音クラスタにクラスタリングし、該音声クラスタの時間周波数成分を抽出する時間周波数マスクをメル周波数領域に変換した、音声強調を行なうための時間周波数マスクを1から減算した結果の対数に負の符号を付したものに、前記対数計算部により計算された該第1音声信号の対数スペクトルを加算する
ことを特徴とする請求項1に記載の雑音除去装置。
The multi-channel feature quantity calculation unit, as the multi-channel feature quantity related to the first audio signal and the second audio signal subjected to frequency analysis by the frequency analysis unit, the first audio signal at each time frequency in the linear frequency domain and the A time frequency mask for performing speech enhancement is obtained by clustering the amount characterizing the second speech signal into a speech cluster and a noise cluster, and converting the time frequency mask for extracting the time frequency component of the speech cluster into the mel frequency domain. to that given a negative sign to the logarithm of the result of subtracting from, noise removal device according to claim 1, characterized in adding the log spectrum of the calculated first audio signal by the logarithm unit.
前記特徴付ける量は、前記周波数分析部により周波数分析された前記第1音声信号及び前記第2音声信号について、線形周波数領域における各時間周波数での該第1音声信号及び該第2音声信号の位相差である
ことを特徴とする請求項2〜5のいずれか1つに記載の雑音除去装置。
The amount of characterizing is the phase difference between the first audio signal and the second audio signal at each time frequency in a linear frequency domain with respect to the first audio signal and the second audio signal frequency-analyzed by the frequency analysis unit. The noise removal device according to any one of claims 2 to 5, wherein:
前記マルチチャネル特徴量計算部は、前記周波数分析部により周波数分析された第1音声信号及び第2音声信号に関するマルチチャネル特徴量として、メルフィルタバンク毎の中心周波数における該第1音声信号及び該第2音声信号の位相差、又は、該位相差の余弦値を計算する
ことを特徴とする請求項1に記載の雑音除去装置。
The multi-channel feature quantity calculation unit, as the multi-channel feature quantity related to the first audio signal and the second audio signal frequency-analyzed by the frequency analysis unit, the first audio signal and the first audio signal at the center frequency for each mel filter bank. The noise removal apparatus according to claim 1, wherein a phase difference between two audio signals or a cosine value of the phase difference is calculated.
請求項1〜7のいずれか1つに記載の雑音除去装置としてコンピュータを機能させる雑音除去プログラム。   The noise removal program which makes a computer function as a noise removal apparatus as described in any one of Claims 1-7.
JP2015021452A 2015-02-05 2015-02-05 Noise removal apparatus and noise removal program Active JP6348427B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015021452A JP6348427B2 (en) 2015-02-05 2015-02-05 Noise removal apparatus and noise removal program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015021452A JP6348427B2 (en) 2015-02-05 2015-02-05 Noise removal apparatus and noise removal program

Publications (2)

Publication Number Publication Date
JP2016143042A JP2016143042A (en) 2016-08-08
JP6348427B2 true JP6348427B2 (en) 2018-06-27

Family

ID=56570466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015021452A Active JP6348427B2 (en) 2015-02-05 2015-02-05 Noise removal apparatus and noise removal program

Country Status (1)

Country Link
JP (1) JP6348427B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109965885A (en) * 2019-04-24 2019-07-05 中国科学院电子学研究所 A kind of BCG signal de-noising method and device based on denoising autocoder

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6563874B2 (en) * 2016-08-16 2019-08-21 日本電信電話株式会社 Sound source enhancement learning device, sound source enhancement device, sound source enhancement learning method, program
JP6567478B2 (en) * 2016-08-25 2019-08-28 日本電信電話株式会社 Sound source enhancement learning device, sound source enhancement device, sound source enhancement learning method, program, signal processing learning device
KR102100386B1 (en) * 2018-08-14 2020-04-13 강원대학교산학협력단 Method for Kalman filtering using measurement noise recommendation, and recording medium thereof
KR102276964B1 (en) * 2019-10-14 2021-07-14 고려대학교 산학협력단 Apparatus and Method for Classifying Animal Species Noise Robust
CN112992153B (en) * 2021-04-27 2021-08-17 太平金融科技服务(上海)有限公司 Audio processing method, voiceprint recognition device and computer equipment

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02253298A (en) * 1989-03-28 1990-10-12 Sharp Corp Voice pass filter
JPH0566795A (en) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho Noise suppressing device and its adjustment device
US7620546B2 (en) * 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109965885A (en) * 2019-04-24 2019-07-05 中国科学院电子学研究所 A kind of BCG signal de-noising method and device based on denoising autocoder

Also Published As

Publication number Publication date
JP2016143042A (en) 2016-08-08

Similar Documents

Publication Publication Date Title
JP6348427B2 (en) Noise removal apparatus and noise removal program
CN107077860B (en) Method for converting a noisy audio signal into an enhanced audio signal
JP5124014B2 (en) Signal enhancement apparatus, method, program and recording medium
Erdogan et al. Deep recurrent networks for separation and recognition of single-channel speech in nonstationary background audio
Yuliani et al. Speech enhancement using deep learning methods: A review
Zhang et al. Birdsoundsdenoising: Deep visual audio denoising for bird sounds
Liu et al. Deep CASA for talker-independent monaural speech separation
JP6225245B2 (en) Signal processing apparatus, method and program
WO2023001128A1 (en) Audio data processing method, apparatus and device
JP6748304B2 (en) Signal processing device using neural network, signal processing method using neural network, and signal processing program
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
KR20220022286A (en) Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
KR101802444B1 (en) Robust speech recognition apparatus and method for Bayesian feature enhancement using independent vector analysis and reverberation parameter reestimation
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Sheeja et al. Speech dereverberation and source separation using DNN-WPE and LWPR-PCA
JP5726790B2 (en) Sound source separation device, sound source separation method, and program
Chen et al. A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation
Li et al. Single channel speech enhancement using temporal convolutional recurrent neural networks
JP6404780B2 (en) Wiener filter design apparatus, sound enhancement apparatus, acoustic feature quantity selection apparatus, method and program thereof
JP6724290B2 (en) Sound processing device, sound processing method, and program
Ben Messaoud et al. Sparse representations for single channel speech enhancement based on voiced/unvoiced classification
Higa et al. Robust ASR based on ETSI Advanced Front-End using complex speech analysis
Alameri et al. Convolutional Deep Neural Network and Full Connectivity for Speech Enhancement.
WO2019235194A1 (en) Acoustic signal separation device, learning device, methods therefor, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180531

R150 Certificate of patent or registration of utility model

Ref document number: 6348427

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150