JP6348427B2 - Noise removal apparatus and noise removal program - Google Patents
Noise removal apparatus and noise removal program Download PDFInfo
- Publication number
- JP6348427B2 JP6348427B2 JP2015021452A JP2015021452A JP6348427B2 JP 6348427 B2 JP6348427 B2 JP 6348427B2 JP 2015021452 A JP2015021452 A JP 2015021452A JP 2015021452 A JP2015021452 A JP 2015021452A JP 6348427 B2 JP6348427 B2 JP 6348427B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- speech
- signal
- audio signal
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、雑音除去装置及び雑音除去プログラムに関する。 The present invention relates to a noise removal apparatus and a noise removal program.
従来から、マイク等の集音装置により集音された音声と対応する音声信号から雑音を除去する技術がある。雑音を除去する技術として、例えば、DAE(Denoising AutoEncoder;デノイジング・オートエンコーダ)がある。DAEは、DNN(Deep Neural Network;多層ニューラルネットワークシステム)の一種である。 Conventionally, there is a technique for removing noise from a voice signal corresponding to a voice collected by a sound collecting device such as a microphone. As a technique for removing noise, for example, there is DAE (Denoising AutoEncoder). DAE is a kind of DNN (Deep Neural Network).
図7Aは、従来技術のDAE学習処理の概要を説明する図である。図7Aに示すように、従来技術のDAEは、DAE学習部において、1つの集音装置(1チャネル)により雑音下で得られた、学習用の観測信号を周波数分析し、全周波数領域における学習用の観測信号の振幅の対数スペクトルを示すベクトルyを入力ベクトルzinとする。従来技術のDAEにおいて、L個の各隠れ層hl(l=1,・・・,L)における出力hl(zin)は、重み行列W及びバイアスベクトルbを含むパラメータθ={W,b}を有する所定の非線形関数σθによりhl(zin)=σθ(Wlh(l−1)(zin)+bl)と表される。なお、隠れ層h1における出力はh1(zin)=σθ(W1(zin)+b1)である。 FIG. 7A is a diagram for explaining the outline of the conventional DAE learning process. As shown in FIG. 7A, in the DAE of the prior art, in the DAE learning unit, the observation signal for learning obtained under noise by one sound collector (one channel) is subjected to frequency analysis, and learning in the entire frequency domain is performed. A vector y indicating the logarithmic spectrum of the amplitude of the observation signal for use is defined as an input vector z in . In the prior art DAE, the output h l (z in ) in each of the L hidden layers h l (l = 1,..., L) is a parameter θ = {W, It is expressed as h l (z in ) = σ θ (W l h (l−1) (z in ) + b l ) by a predetermined nonlinear function σ θ having b}. The output in the hidden layer h 1 is h 1 (z in ) = σ θ (W 1 (z in ) + b 1 ).
そして、従来技術のDAEは、hl(zin)により入力ベクトルzinからl=1,・・・,Lと順次雑音除去した出力ベクトルzoutが学習用の原音声と一致する、すなわちzout=fθ(zin)=WLh(L−1)(zin)+bLとなるようパラメータθを学習する。 In the DAE of the prior art, the output vector z out obtained by sequentially removing noise from l = 1,..., L from the input vector z in by h l (z in ) matches the learning original speech, that is, z. The parameter θ is learned so that out = f θ (z in ) = W L h (L−1) (z in ) + b L.
図7Bは、従来技術の雑音除去処理の概要を説明する図である。従来技術のDAEは、DAE復号部において、1つの集音装置(1チャネル)により得られた観測信号を周波数分析し、全周波数領域における観測信号の振幅の対数スペクトルを示すベクトルy´を入力ベクトルzin´とする。そして、従来技術のDAEは、図7Aに示したように学習したパラメータθをDAE学習部からDAE復号部へコピーし、学習したパラメータθを用いてL個の各隠れ層hl(l=1,・・・,L)において入力ベクトルzin´から雑音除去した出力ベクトルzout´を得る。 FIG. 7B is a diagram for explaining the outline of the conventional noise removal processing. In the DAE of the prior art, the DAE decoder performs frequency analysis on the observation signal obtained by one sound collector (one channel), and an input vector y ′ indicating a logarithmic spectrum of the amplitude of the observation signal in the entire frequency domain is input. Let z in ′. Then, the DAE of the prior art copies the learned parameter θ as shown in FIG. 7A from the DAE learning unit to the DAE decoding unit, and uses the learned parameter θ to each of the L hidden layers h l (l = 1). ,..., L), an output vector z out ′ obtained by removing noise from the input vector z in ′ is obtained.
しかしながら、上記従来技術は、雑音除去処理において、DAEの入力として、1つの集音装置(1チャネル)により得られた学習用の観測信号を用いて学習を行い、1つの集音装置により得られた観測信号の雑音除去を行うに過ぎない。そして、複数の集音装置(複数チャネル)による観測信号が利用できる場合であっても、各チャネルの信号を単純につなげたチャネル・コネクションを利用する、あるいは、ビームフォーミング技術による強調音声信号をDAEの入力とするに過ぎず、雑音除去の性能は低い。 However, the above prior art performs learning using the observation signal for learning obtained by one sound collector (one channel) as an input of DAE in the noise removal processing, and is obtained by one sound collector. It only removes noise from the observed signal. Even when observation signals from a plurality of sound collectors (multiple channels) can be used, a channel connection in which the signals of each channel are simply connected is used, or an enhanced audio signal by the beam forming technique is DAE. The noise removal performance is low.
本願が開示する実施形態の一例は、上記に鑑みてなされたものであって、雑音除去の性能を向上させることを目的とする。 An example of an embodiment disclosed in the present application has been made in view of the above, and aims to improve noise removal performance.
本願が開示する実施形態の一例の雑音除去装置は、周波数分析部、対数計算部、マルチチャネル特徴量計算部、DAE(Denoising AutoEncoder)学習部、DAE復号部を備える。周波数分析部は、第1集音装置により観測された第1音声信号及び第1集音装置とは異なる位置に配置された第2集音装置により観測された第2音声信号を周波数分析する。対数計算部は、周波数分析部により周波数分析された第1音声信号の振幅の対数である対数スペクトルを計算する。マルチチャネル特徴量計算部は、周波数分析部により周波数分析された第1音声信号及び第2音声信号から、該第1音声信号及び該第2音声信号に関するマルチチャネル特徴量を計算する。DAE学習部は、対数計算部により計算された学習用の第1音声信号の対数スペクトルと、マルチチャネル特徴量計算部により計算された該学習用の第1音声信号及び学習用の第2音声信号に関する学習用のマルチチャネル特徴量を入力とし、学習用の原音声の対数スペクトルを出力とするDAEのパラメータを学習する。DAE復号部は、対数計算部により計算された雑音除去対象の第1音声信号の対数スペクトルと、マルチチャネル特徴量計算部により計算された該雑音除去対象の第1音声信号及び雑音除去対象の第2音声信号に関する雑音除去用のマルチチャネル特徴量を入力とし、DAE学習部により学習されたパラメータを用いて該雑音除去対象の第1音声信号の対数スペクトルから雑音成分を除去した雑音除去音声の対数スペクトルを出力する。 An example of a noise removal apparatus disclosed in the present application includes a frequency analysis unit, a logarithmic calculation unit, a multichannel feature amount calculation unit, a DAE (Denoising AutoEncoder) learning unit, and a DAE decoding unit. The frequency analysis unit performs frequency analysis on the first sound signal observed by the first sound collector and the second sound signal observed by the second sound collector disposed at a position different from the first sound collector. The logarithm calculation unit calculates a logarithmic spectrum that is a logarithm of the amplitude of the first audio signal subjected to frequency analysis by the frequency analysis unit. The multi-channel feature value calculation unit calculates a multi-channel feature value related to the first sound signal and the second sound signal from the first sound signal and the second sound signal subjected to frequency analysis by the frequency analysis unit. The DAE learning unit includes a logarithmic spectrum of the first speech signal for learning calculated by the logarithm calculation unit, the first speech signal for learning and the second speech signal for learning calculated by the multichannel feature amount calculation unit. The learning multi-channel feature quantity is used as an input, and a DAE parameter is learned using the logarithmic spectrum of the original voice for learning as an output. The DAE decoding unit calculates the logarithm spectrum of the first speech signal to be denoised calculated by the logarithm calculation unit, the first speech signal to be denoised by the multichannel feature amount calculation unit, and the first speech signal to be denoised. The logarithm of the noise-removed speech obtained by removing the noise component from the logarithmic spectrum of the first speech signal to be denoised using the parameters learned by the DAE learning unit with the multichannel feature amount for noise removal regarding the two speech signals as input. Output the spectrum.
本願が開示する実施形態の一例によれば、例えば、雑音除去の性能を向上させることができる。 According to an exemplary embodiment disclosed in the present application, for example, it is possible to improve noise removal performance.
[実施形態]
以下、本願が開示する雑音除去装置及び雑音除去プログラムの実施形態を説明する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態及びその他の実施形態は、矛盾しない範囲で適宜組合せてもよい。
[Embodiment]
Hereinafter, embodiments of a noise removal device and a noise removal program disclosed in the present application will be described. The following embodiments are merely examples, and do not limit the technology disclosed by the present application. Moreover, you may combine suitably embodiment shown below and other embodiment in the range with no contradiction.
なお、以下の実施形態では、ベクトル又はスカラーであるAに対し、“^A”と記載する場合は下記(1)式で定義する表記と同等とし、“ ̄A”と記載する場合は下記(2)式で定義する表記と同等であるとする。 In the following embodiments, when A is a vector or a scalar, “^ A” is equivalent to the notation defined by the following equation (1), and “ ̄A” is 2) It is assumed that it is equivalent to the notation defined by the formula.
また、以下の実施形態では、集音装置はマイクロフォン(以下、マイクと表記する)である。それぞれ異なる位置に配置されたM個のマイク(Mは自然数)のうちのm番目(1≦m≦M)のマイクで観測した観測信号の対数スペクトルをYt,f (m)と表記する。ここで、tは時刻のインデックスであり、fはメルスケール周波数のインデックスである。M個のマイクで観測した観測信号の対数スペクトルをベクトルYt,f=[Yt,f (1),・・・,Yt,f (M)]と表記する。ここで、マイクによる観測信号を示すベクトルYt,fは、m番目のマイクで集音される原音声をXt,f (m)とし、雑音をNt,f (m)とすると、原音声を示すベクトルをベクトルXt,f=[Xt,f (1),・・・,Xt,f (M)]、雑音を示すベクトルをベクトルNt,f=[Nt,f (1),・・・,Nt,f (M)]を用いて、下記(3)のように与えられる。 In the following embodiments, the sound collection device is a microphone (hereinafter referred to as a microphone). A logarithmic spectrum of an observation signal observed by an m-th (1 ≦ m ≦ M) microphone among M microphones (M is a natural number) arranged at different positions is denoted as Y t, f (m) . Here, t is an index of time, and f is an index of mel scale frequency. A logarithmic spectrum of an observation signal observed with M microphones is expressed as a vector Y t, f = [Y t, f (1) ,..., Y t, f (M) ]. Here, the vector Y t, f indicating the observation signal from the microphone is defined as X t, f (m) as the original sound collected by the m-th microphone and N t, f (m) as the noise. A vector indicating speech is a vector X t, f = [X t, f (1) ,..., X t, f (M) ], and a vector indicating noise is a vector N t, f = [N t, f ( 1) ,..., N t, f (M) ] are given as follows (3).
実施形態は、観測信号を示すベクトルYt,fから、雑音を除去した雑音除去音声の対数スペクトルの各推定値^Xt,f (m)を求め、さらにその音声の波形を再合成することで、雑音除去音声を得る。実施形態は、マイクの数M=2の場合について説明するが、M≧3の場合も同様に議論できる。 The embodiment obtains each estimated value ^ X t, f (m) of the logarithmic spectrum of the noise-removed speech from which noise is removed from the vector Y t, f indicating the observed signal, and further re-synthesizes the waveform of the speech. To obtain noise-removed speech. The embodiment describes the case where the number of microphones M = 2, but the case where M ≧ 3 can be similarly discussed.
また、実施形態は、説明を簡単にするために、1番目のマイクの観測信号の、全ての周波数での対数スペクトルをまとめたベクトルをベクトルyt=[yt,1,・・・,yt,f,・・・,yt,F](但し、yt,f (1))と表記する。また、実施形態は、1番目のマイクでの原音声の全周波数での対数スペクトルをxtと表記し、雑音除去音声の全周波数での対数スペクトルを^xtと表記する。 Further, in the embodiment, for the sake of simplicity, a vector y t = [y t, 1 ,..., Y is a vector in which logarithmic spectra of all the frequencies of the observation signal of the first microphone are collected. t, f 1 ,..., y t, F ] (where y t, f (1) ). Further, embodiments, the logarithmic spectrum at the first original audio of all frequencies in the microphone is expressed as x t, denoted the log spectrum of the entire frequency noise rejection speech ^ x t and.
(雑音除去システムの構成)
図1は、雑音除去システムの構成の一例を示す図である。雑音除去システム100は、マイク1及び2、雑音除去装置10、信号再構成装置20を有する。マイク1が1番目のマイクであり、マイク2が2番目のマイクであるとする。
(Configuration of noise reduction system)
FIG. 1 is a diagram illustrating an example of a configuration of a noise removal system. The
雑音除去装置10は、周波数分析部11、対数計算部12、マルチチャネル特徴計算部13、DAE(Denoising AutoEncoder;デノイジング・オートエンコーダ)学習部14、DAE復号部15を有する。
The
周波数分析部11は、2個のマイク1及び2によりそれぞれ観測された観測信号について、周波数分析、例えばメル周波数分析を行って周波数領域信号へ変換する。観測信号には、後述するDAE学習部14の学習用の観測信号と、学習結果を用いて雑音除去する雑音除去対象の観測信号がある。対数計算部12は、周波数領域信号へ変換された観測信号の振幅の対数を取って、対数スペクトルのベクトルYt,f=[Yt,f (1),Yt,f (2)]を得る。ここで、1番目のマイクでの観測信号Yt,f (1)について、yt,f=Yt,f (1)である。そして、対数計算部12は、1番目のマイクの観測信号の全ての周波数での対数スペクトルをまとめたベクトルyt=[yt,1,・・・,yt,f,・・・,yt,F]を、学習用の観測信号である場合にはDAE学習部14へ入力し、雑音除去対象の観測信号である場合にはDAE復号部15へ入力する。
The frequency analysis unit 11 performs frequency analysis, for example, Mel frequency analysis, on the observation signals observed by the two
マルチチャネル特徴計算部13は、マイク1及び2の観測信号を周波数分析し、周波数分析した結果を用いて、マルチチャネル特徴量を示すベクトルrt=[rt,1,・・・,rt,F]を計算する。マルチチャネル特徴計算部13は、計算したベクトルrtを、DAE学習部14及びDAE復号部15へ入力する。なお、マルチチャネル特徴計算部13の詳細については、後述する。
The multi-channel
DAE学習部14は、DNN(Deep Neural Network;多層ニューラルネットワークシステム)であり、雑音下で観測された学習用の観測音声である入力ベクトルzinに対する出力ベクトルzoutとして原音声が得られるようなl個の隠れ層(lは自然数)を学習する。実施形態では、l=2の場合を例示する。DAE学習部14は、入力部14a、隠れ層14b、隠れ層14c、出力部14dを有する。すなわち、隠れ層14b及び隠れ層14cの2つの隠れ層が含まれる。ここで、隠れ層の数l=2はあくまで例示に過ぎない。
The
入力部14aは、対数計算部12から入力された、マイク1より観測された学習用の観測音声の対数スペクトルのベクトルyt=[yt,1,・・・,yt,f,・・・,yt,F]を、時刻tを中心とした前後Tフレームから成るコンテキスト窓を用いて連結する。 The input unit 14a receives the logarithmic spectrum vector y t = [y t, 1 ,..., Y t, f ,. , Y t, F ] are connected using a context window consisting of T frames before and after the time t.
さらに、入力部14aは、マルチチャネル特徴計算部13から入力されたベクトルrtを、時刻tを中心とした前後Tフレームから成るコンテキスト窓を用いて連結し、下記(4)式のように入力ベクトルzinを求める。
Further, the input unit 14a connects the vector r t input from the multi-channel
出力部14dは、学習用の原音声を、時刻tを中心とした前後Tフレームから成るコンテキスト窓を用いて連結し、下記(5)式のように出力ベクトルzoutを求める。
The
そして、隠れ層14b及び隠れ層14cは、DAE学習部14の入力を入力ベクトルzin、出力を出力ベクトルzoutとするDAEの学習により、l層目の隠れ層(l=1,2)として得られる。すなわち、DAE学習部14は、隠れ層14b及び隠れ層14cの出力として、下記(6)式に示すものが得られるように、パラメータθ={W,b}(但し、Wは重みベクトル、bはバイアスベクトル)を学習する。なお、下記(6)式におけるσθ(・)は非線形関数であり、例えばシグモイド関数である。また、下記(6)式において、1層目(すなわち隠れ層14b)の出力は、h1(zin)=σθ(W1zin+b1)で計算し、最終層(すなわち2層目、隠れ層14c)の出力は、線形関数にてベクトルzout=fθ=WLh(L−1)+bLで計算する。パラメータθ={W,b}の学習は、既存の手法、例えば確率的勾配効果法(Stochastic Gradient Descent Method)により求められる。DAE学習部14は、学習したパラメータθ={W,b}を、DAE復号部15へコピーする。
Then, the hidden layer 14b and the hidden layer 14c are formed as the first hidden layer (l = 1, 2) by learning DAE using the input of the
DAE復号部15は、入力部15a、隠れ層15b、隠れ層15c、出力部15dを有する。入力部15aはDAE学習部14の入力部14aに対応し、隠れ層15bはDAE学習部14の隠れ層14bに対応し、隠れ層15cはDAE学習部14の隠れ層14cに対応し、出力部15dはDAE学習部14の出力部14dに対応する。
The
入力部15aは、対数計算部12から入力された、マイク1,2より観測された雑音除去対象の観測音声の対数スペクトルのベクトルyt=[yt,1,・・・,yt,f,・・・,yt,F]、及び、マルチチャネル特徴計算部13から入力されたベクトルrt=[rt,1,・・・,rt,F]を、時刻tを中心とした前後Tフレームから成るコンテキスト窓を用いて連結し、上記(4)式のようにベクトルzinを求める。入力部15aは、求めたベクトルzinを、隠れ層15bへ入力する。
The
隠れ層15b及び隠れ層15cによる、DAE学習部14により学習されたパラメータθ={W,b}を用いた、下記(7)式及び(8)式による処理により、出力ベクトルzout=[xt−T,・・・,xt,・・・,xt+T]が得られる。なお、下記(7)式におけるパラメータθ={W,b}は、下記(6)式により学習されたものである。また、下記(7)式においては、上記(6)式と同様に、1層目(すなわち隠れ層15b)の出力は、h1(zin)=σθ(W1zin+b1)で計算し、最終層(すなわち2層目、隠れ層15c)の出力は、線形関数にてベクトルzout=fθ=WLh(L−1)+bLで計算する。出力部15dは、出力ベクトルzout=[xt−T,・・・,xt,・・・,xt+T]を、雑音除去音声の対数スペクトルの推定ベクトル^xとして、例えば信号再構成装置20へ出力する。
By using the parameter θ = {W, b} learned by the
(マルチチャネル特徴計算部13の詳細)
マルチチャネル特徴計算部13は、マルチチャネル特徴量を示すベクトルrt=[rt,1,・・・,rt,F]を計算する。ベクトルrtとしては、次が挙げられる。
(Details of multi-channel feature calculation unit 13)
The multi-channel
(1)両耳間振幅差(ILD:Interaural Level Difference)
マイク1及び2それぞれの観測信号を、人の両耳の各感知音とし、それぞれの観測信号の対数スペクトルの比を取るものであり、ベクトルrtとして、下記(9)式により求める。詳細は、文献「Y. Liu, P. Zhang, and T. Hain, “Using neural network front-ends on far field multiple microphones based speech recognitions”, Proc. of ICASSP2014, 2014, pp.5579-5583.」に基づく。
(1) Interaural Level Difference (ILD)
The
(2)両耳間位相差(IPD:Interaural Phase Difference)
複数マイクにおける観測信号の位相差は、音源と複数マイクの位置関係を反映する特徴量になることがよく知られている。そこで、ベクトルrtとして、f番目のメルフィルタバンクの中心周波数f´(f)におけるマイク1及び2での観測信号の位相差を、ベクトルrtとして、下記(10)式により求める。なお、 ̄Yt,f´(f)はf番目のメルフィルタバンクの中心周波数f´(f)における観測信号の対数スペクトルのベクトルYt,fの短時間フーリエ変換係数である。そして、∠ ̄Yt,f´(f) (1)はf番目のメルフィルタバンクの中心周波数f´(f)におけるマイク1の観測信号の短時間フーリエ変換係数の位相、∠ ̄Yt,f´(f) (2)はf番目のメルフィルタバンクの中心周波数f´(f)におけるマイク2の観測信号の短時間フーリエ変換係数の位相である。
(2) Interaural Phase Difference (IPD)
It is well known that the phase difference of observation signals in a plurality of microphones is a feature quantity that reflects the positional relationship between the sound source and the plurality of microphones. Therefore, as a vector r t, the phase difference of the observed signals at the
また、上記(10)式に代えて、下記(11)式により求まる、f番目のメルフィルタバンクの中心周波数f´(f)におけるマイク1及び2での観測信号の短時間フーリエ変換係数の位相差の余弦値φf´(f)を、ベクトルrtとしてもよい。
Further, instead of the above equation (10), the level of the short-time Fourier transform coefficient of the observation signal at the
(3)時間周波数マスク(MASK)
マルチチャネル情報がある場合、音源と複数マイクの位置関係を反映する特徴量(例えばチャネル間位相差IPDなど)を計算することができ、その特徴量をクラスタリングすることで、音音声強調を行う時間周波数マスクを計算することができる。例えば、時間周波数マスクは、各時間周波数で得られた、上記(5)式又は(6)式によりえられたIPDのベクトルrtをクラスタリングすることで計算できる。詳細は、文献「T. Nakatani, S. Araki, T. Yoshioka, M. Delcroix, and M. Fujimoto, “Dominance based integration of spatial and spectral features for speech enhancement”, IEEE Trans. Audio, Speech and Language Processing, vol. 21, no. 12, pp. 2516-2531, 2013.」に基づく。
(3) Time frequency mask (MASK)
When there is multi-channel information, it is possible to calculate a feature value (for example, inter-channel phase difference IPD) that reflects the positional relationship between the sound source and a plurality of microphones, and cluster the feature values to perform sound speech enhancement time A frequency mask can be calculated. For example, the time frequency mask can be calculated by clustering the IPD vector r t obtained by the above equation (5) or (6) obtained at each time frequency. For details, see T. Nakatani, S. Araki, T. Yoshioka, M. Delcroix, and M. Fujimoto, “Dominance based integration of spatial and spectral features for speech enhancement”, IEEE Trans. Audio, Speech and Language Processing, vol. 21, no. 12, pp. 2516-2531, 2013 ”.
具体的には、メル周波数領域での時間周波数マスクMt,fは、例えば、短時間周波数領域で得られた時間周波数マスクをメル周波数領域に変換することで計算できる。マルチチャネル特徴量としては、下記(12)式のように、メル周波数領域での時間周波数マスクMt,fを用いる。 Specifically, the time frequency mask M t, f in the mel frequency domain can be calculated, for example, by converting the time frequency mask obtained in the short time frequency domain into the mel frequency domain. As the multi-channel feature quantity, a time frequency mask M t, f in the mel frequency domain is used as in the following equation (12).
あるいは、下記(13)式のように、メル周波数領域での時間周波数マスクの対数を取ったものを用いてもよい。 Or you may use what took the logarithm of the time frequency mask in a mel frequency area like the following (13) Formula.
なお、上記(13)式は、Mが0と1の近くの値を取りやすく、その間の値を取りにくい性質をもつ。よって、上記(13)式を、下記(14)式のように、1と0の間でピークを持つ単峰性の性質を持つデータに変換したものを用いてもよい。 The above equation (13) has a property that M is easy to take a value near 0 and 1, and it is difficult to take a value between them. Therefore, the above equation (13) may be converted into data having a unimodal property having a peak between 1 and 0 as in the following equation (14).
(4)時間周波数マスクでの強調音声(ENHANCE)
上記(13)式のように、メル周波数領域での時間周波数マスクの対数を取ったものを用いると、強調音声^xt,f=log(Mt,f・exp(yt,f))=log(Mt,f)+yt,fが得られる。よって、時間周波数マスクでの強調音声(ENHANCE)におけるマルチチャネル特徴量は、下記(15)式により得られる。
(4) Emphasized speech with time frequency mask (ENHANCE)
When the logarithm of the time frequency mask in the mel frequency domain is used as in the above equation (13), the emphasized speech ^ x t, f = log (M t, f · exp (y t, f )) = Log (M t, f ) + y t, f is obtained. Therefore, the multi-channel feature quantity in the emphasized speech (ENHANCE) using the time-frequency mask is obtained by the following equation (15).
(5)時間周波数マスクで計算した雑音(NOISE)
時間周波数マスクでの強調音声の代わりに、下記(16)式のように、マスクにより推定された雑音信号を、マルチチャネル特徴として用いてもよい。
(5) Noise calculated with a time-frequency mask (NOISE)
Instead of the enhanced speech using the time-frequency mask, a noise signal estimated by the mask may be used as a multi-channel feature as shown in the following equation (16).
(6)その他のマルチチャネル特徴量
例えば、上記IPDの代わりに、f番目のメルフィルタバンクの中心周波数f´(f)における複数マイクでの観測信号の到達時間差(TDOA;Time Difference Of Arrival)を用いてもよい。これは、例えば、よく知られているGCC−PHAT(Generalized Cross-Correlation PHAse Transform)法で計算することができる。これは、下記(17)式に示すように、周波数によらない特徴量となる。なお、下記(17)式において、 ̄Yt,f´(f) (1)はf番目のメルフィルタバンクの中心周波数f´(f)におけるマイク1による観測信号の対数スペクトルのベクトルYt,fの短時間フーリエ変換係数である。また、 ̄Yt,f´(f)* (2)はf番目のメルフィルタバンクの中心周波数f´(f)の複素共役f´(f)*におけるマイク2による観測信号の対数スペクトルのベクトルYt,fの短時間フーリエ変換係数である。また、|・|は、・のノルムを表す。また、jは虚数単位である。
(6) Other multi-channel feature quantities For example, instead of the IPD, the time difference of arrival (TDOA) of observation signals at a plurality of microphones at the center frequency f ′ (f) of the f-th mel filter bank It may be used. This can be calculated, for example, by the well-known GCC-PHAT (Generalized Cross-Correlation PHAse Transform) method. This is a feature quantity that does not depend on the frequency, as shown in the following equation (17). In the following equation (17),  ̄Y t, f ′ (f) (1) is a vector Y t, of the logarithmic spectrum of the signal observed by the
また、一定時間(例えば5秒間や、1発話分など)の間に計算されたTDOA情報のヒストグラムを取り、そのヒストグラムを、マルチチャネル特徴量のベクトルrtとして用いてもよい。この場合、tは時刻ではなく、ヒストグラムのビンのインデックスに置き換わる。この場合、入力ベクトルzinをコンテキスト窓で連結しなくてもよい。また、上記に列挙した各マルチチャネル特徴量のベクトルを任意に選択して並べたベクトルを、マルチチャネル特徴量のベクトルとしてもよい。 Further, (or for example 5 seconds, 1, etc. utterance) a certain time taking a histogram of the calculated TDOA information between, the histogram may be used as a vector r t multichannel feature quantity. In this case, t replaces the index of the bin in the histogram, not the time. In this case, the input vector z in may not be connected by the context window. A vector obtained by arbitrarily selecting and arranging the vectors of the multichannel feature values listed above may be used as the multichannel feature value vector.
なお、マイクの数Mが3以上の場合は、上記(9)式、(10)式、(11)式、(17)式において、右肩の添え字(2)を、添え字(3)、(4)・・・についても同様にそれぞれ計算し、得られた特徴量を添え字の順序(すなわちマイクの順序)で並べたものを、マルチチャネル特徴量のベクトルrtとしてもよい。 When the number M of microphones is 3 or more, the right shoulder subscript (2) is replaced with the subscript (3) in the above formulas (9), (10), (11), and (17). , (4) respectively calculated similarly for ..., those arranged in the order of subscripts obtained feature amount (i.e. the order of the microphone), or as a vector r t multichannel feature quantity.
(信号再構成装置の構成)
図2は、信号再構成装置の構成の一例を示す図である。信号再構成装置20は、雑音除去フィルタ計算部21、周波数ドメイン変換部22、雑音除去音声計算部23、逆フーリエ変換部24を有する。雑音除去フィルタ計算部21は、雑音除去装置10から入力された雑音除去音声の全周波数での対数スペクトル^xtに対し、下記(18)式により、メル周波数領域における雑音除去フィルタ(ウィーナフィルタ)Wt,fを計算する。
(Configuration of signal reconstruction device)
FIG. 2 is a diagram illustrating an example of the configuration of the signal reconstruction device. The
次に、周波数ドメイン変換部22は、雑音除去フィルタ計算部21により計算された雑音除去フィルタWt,fを、線形周波数領域の雑音除去フィルタ ̄Wt,f´へ変換する。ここで、f´は、線形周波数である。詳細は、文献「M. Fujimoto, S. Watanabe, and T. Nakatani, “A robust estimation method of noise mixture model for noise suppression”, Proc. of Interspeech2011, 2011, pp.697-700.」に基づく。
Next, the frequency
次に、雑音除去音声計算部23は、線形周波数領域での雑音除去音声を、 ̄xt,f= ̄Wt,f・ ̄yt,f´にて計算する。逆フーリエ変換部24は、雑音除去音計算部23より計算された ̄yt,f´に対して短時間逆フーリエ変換を行って時間波形に戻すことで、最終的な雑音除去音声の波形yt,fを得る。ここで、 ̄yt,f´は、yt,fの線形周波数領域表現であり、観測信号の短時間フーリエ変換により得られる。
Next, the noise-removed
(DAE学習処理)
図3は、DAE学習処理の一例を示すフローチャートである。DAE学習処理は、隠れ層のパラメータθ={W,b}を学習する処理であり、雑音除去装置10により実行される。なお、図3に示すDAE学習処理は、マイク1の入力信号を雑音除去対象の音声信号とし、マイク1及び2の入力信号をマルチチャネル特徴量rtの算出対象の音声信号とする。
(DAE learning process)
FIG. 3 is a flowchart illustrating an example of the DAE learning process. The DAE learning process is a process of learning the hidden layer parameter θ = {W, b}, and is executed by the
先ず、DAE学習部14の周波数分析部11は、マイク1の入力信号(及び学習用の原音声)を例えば100msのフレームごとに周波数分析する(ステップS11)。次に、出力部11は、ステップS11で周波数解析した学習用の原音声を前後Tフレームへコンテキスト窓で連結する(ステップS12)。次に、対数計算部12は、ステップS11で周波数解析した入力信号の対数スペクトルを算出する(ステップS13)。次に、マルチチャネル特徴計算部13は、マイク1及び2の入力信号からマルチチャネル特徴量rtを算出する(ステップS14)。
First, the frequency analysis unit 11 of the
次に、DAE学習部14の入力部14aは、ステップS13で算出した対数スペクトル及びステップS14で算出したマルチチャネル特徴量rtを並べたベクトルを前後Tフレームへコンテキスト窓で連結する(ステップS15)。次に、隠れ層14bは、ステップS15でコンテキスト窓で連結したベクトルを入力とする出力を求め、重みベクトルW1とバイアスベクトルb1を学習する(ステップS16)。次に、隠れ層14cは、ステップS16による隠れ層14bの出力を入力とする出力を求め、重みベクトルW2とバイアスベクトルb2を学習する(ステップS17)。なお、ステップS17による隠れ層14cの出力は、学習用の原音声と一致する。そして、出力部14dは、ステップS17による隠れ層14cの出力を最終出力する(ステップS18)。なお、DAE学習部14は、DAE学習処理により学習した隠れ層のパラメータθ={W,b}を、DAE復号部15へコピーする。
Then, the input section 14a of the
(雑音除去処理)
図4は、雑音除去処理の一例を示すフローチャートである。雑音除去処理は、図3に示すDAE学習処理により学習された隠れ層のパラメータθ={W,b}を用いて、マイクの入力信号から雑音を除去する処理であり、雑音除去装置10により実行される。なお、図4に示す雑音除去処理は、図3に示すDAE学習処理がマイク1の入力信号を雑音除去対象の音声信号とし、マイク1及び2の入力信号をマルチチャネル特徴量rtの算出対象の音声信号とする場合は、同様に、マイク1の入力信号を雑音除去対象の音声信号とし、マイク1及び2の入力信号をマルチチャネル特徴量rtの算出対象の音声信号とする。
(Noise removal processing)
FIG. 4 is a flowchart illustrating an example of the noise removal process. The noise removal process is a process for removing noise from the microphone input signal using the hidden layer parameter θ = {W, b} learned by the DAE learning process shown in FIG. Is done. Incidentally, the noise removal processing shown in FIG. 4, DAE learning process shown in FIG. 3 is a noise removal target speech signal of the input signal of the
先ず、周波数分析部11は、マイク1の入力信号を例えば100msのフレームごとに周波数分析する(ステップS21)。次に、対数計算部12は、ステップS21で周波数分析した入力信号の対数スペクトルを算出する(ステップS22)。次に、マルチチャネル特徴計算部13は、マイク1及び2の入力信号からマルチチャネル特徴量rtを算出する(ステップS23)。
First, the frequency analysis unit 11 analyzes the frequency of the input signal of the
次に、DAE復号部15の入力部15aは、ステップS22で算出した対数スペクトル及びステップS23で算出したマルチチャネル特徴量rtを並べたベクトルを前後Tフレームへコンテキスト窓で連結する(ステップS24)。次に、隠れ層15bは、ステップS24でコンテキスト窓で連結したベクトルを入力とし、DAE学習部14がDAE学習処理により学習した重みベクトルW1及びバイアスベクトルb1を用いて、隠れ層15bの出力を求める(ステップS25)。次に、隠れ層15cは、ステップS25で求められた隠れ層15bの出力を入力とし、DAE学習部14がDAE学習処理により学習した重みベクトルW2及びバイアスベクトルb2を用いて、隠れ層15cの出力を求める(ステップS26)。そして、出力部15dは、ステップS26による隠れ層15cの出力を最終出力する(ステップS27)。
Then, the
[実施形態による効果]
図5A〜図5Cは、実施形態の効果の一例を説明する図である。実験に用いた観測信号は、英国一般家庭に設置したM=2個のマイクアレイの正面からおよそ2m離れた位置で発声された音声と、同じマイクアレイで収録した英国一般家庭での雑音との混合信号である。雑音は、非定常的なもの(子供の声、掃除機の音、テレビ音等)を含む。音声信号は全て、英語6単語から成るコマンド音声である。
[Effects of the embodiment]
5A to 5C are diagrams illustrating an example of the effect of the embodiment. The observation signal used in the experiment consists of the sound uttered at a position approximately 2 m away from the front of the M = 2 microphone array installed in the UK household and the noise in the UK household recorded with the same microphone array. It is a mixed signal. Noise includes non-stationary things (child's voice, vacuum cleaner sound, TV sound, etc.). All voice signals are command voices consisting of six English words.
学習データは、34話者の音声クリーンデータに雑音を加えた6時間分の観測信号からなる。評価データは、同じ34話者が発声した音声に、雑音(学習データと同じ部屋で収録した、学習データで用いた雑音とは別の雑音)を付加した観測信号で、SN比が−6dB、−3dB、0dB、3dB、6dB、9dBの各条件での、それぞれ600発話からなる。スペクトル特徴のベクトルytの次元は、メル周波数領域で40次元とし、コンテキスト窓の長さはT=5とした。フレーム長とフレームシフトは、それぞれ100ms、25msである。 The learning data consists of 6 hours of observation signals obtained by adding noise to the voice clean data of 34 speakers. The evaluation data is an observation signal obtained by adding noise (noise recorded in the same room as the learning data and different from the noise used in the learning data) to the voice uttered by the same 34 speakers, and the SN ratio is −6 dB, It consists of 600 utterances under each condition of −3 dB, 0 dB, 3 dB, 6 dB, and 9 dB. The dimension of the spectrum feature vector y t is 40 dimensions in the mel frequency domain, and the length of the context window is T = 5. The frame length and frame shift are 100 ms and 25 ms, respectively.
実施形態のマルチチャネル特徴のベクトルrtとしては、上記(10)式又は(11)式に基づくIPD、上記(15)式に基づくENHANCE、上記(16)式に基づくNOISEの3種類とした。DAEに用いた隠れ層の数は1、隠れ層で用いたユニット数(パラメタの次元)は、1,024である。比較例のマルチチャネル特徴には、雑音除去していない観測信号そのものと、ENHANCEに使った時間周波数マスク(上記(15)式参照)にて雑音除去した結果と、1マイクのみを用いるDAEの出力と、ILDの4種類を試した。 The vector r t multichannel features of the embodiments, the IPD based on the above (10) or (11), ENHANCE based on the above (15), and three kinds of NOISE based on the equation (16). The number of hidden layers used for DAE is 1, and the number of units (parameter dimensions) used in the hidden layers is 1,024. The multi-channel feature of the comparative example includes the observation signal itself without noise removal, the result of noise removal by the time frequency mask used for ENHANCE (see the above equation (15)), and the output of the DAE using only one microphone. And I tried four types of ILD.
図5A及び図5Bは、それぞれの手法による雑音除去の性能を示している。評価量は、ケプストラム歪みCD(Cepstral Distortion)と、セグメンタルSN比(SSNR)である。CDは、値がより小さいほど、より高い性能を示す。また、SSNRは、値が大きいほど、より高い性能を示す。図5A及び図5Bは、各マルチチャネル特徴量を用いて得られた雑音除去音声のCD及びSSNRを、観測信号のSN比ごとに示している。図5A及び図5Bに示すように、実施形態のIPD、NOISE、ENHANCEは、比較例よりも高い性能を示すことが分かる。 FIG. 5A and FIG. 5B show the noise removal performance by each method. The evaluation amount is a cepstrum distortion CD (Cepstral Distortion) and a segmental SN ratio (SSNR). The smaller the value of CD, the higher the performance. Moreover, SSNR shows a higher performance, so that a value is large. 5A and 5B show the CD and SSNR of the noise-removed speech obtained using each multi-channel feature amount for each S / N ratio of the observation signal. As shown in FIGS. 5A and 5B, it can be seen that the IPD, NOISE, and ENHANCE of the embodiment show higher performance than the comparative example.
また、図5Cは、比較例としての、雑音除去していない観測信号と、ENHANCEに使った時間周波数マスク(上記(15)式参照)にて雑音除去した結果と、1マイクのみを用いるDAEの出力と、ILDと、実施形態としてIPD、ENHANCE、NOISEの7種類それぞれの音声について、コマンド音声認識を行なった結果を示す。音声認識機としては、文献「M. Delcroix, Y. Kubo, T. Nakatani, and A. Nakamura, “Is speech enhancement pre-processing still relevant when using deep neural networks for acoustic modeling ?”, Proc. of Interspeech2013, 2013, pp. 2992-2996.」に示されるディープニューラルネットワーク(DNN)ベースの技術を用いた。図5Cは、実施形態としてIPD、ENHANCE、NOISEが、比較例よりも高い性能であることを示す。 Further, FIG. 5C shows a comparative example of a non-noise-removed observation signal, a result of noise removal by the time-frequency mask used for ENHANCE (see the above equation (15)), and a DAE using only one microphone. The result of command voice recognition is shown for each of the output, ILD, and seven types of voices of IPD, ENHANCE, and NOISE as embodiments. As a speech recognizer, the literature “M. Delcroix, Y. Kubo, T. Nakatani, and A. Nakamura,“ Is speech enhancement pre-processing still relevant when using deep neural networks for acoustic modeling? ”, Proc. Of Interspeech2013, 2013, pp. 2992-2996. ", A deep neural network (DNN) based technology was used. FIG. 5C shows that IPD, ENHANCE, and NOISE as an embodiment have higher performance than the comparative example.
すなわち、実施形態は、信号処理において、複数信号が混在している音響データから、それぞれの原信号を推定する、音源分離の際に、原信号及び複数信号がどのように混ざったかの情報を用いずに、複数信号が混在している音響データのみからそれぞれの原信号を推定する、ブラインド音源分離において、より高い雑音除去性能を有する。 That is, the embodiment estimates each original signal from acoustic data in which a plurality of signals are mixed in signal processing, and does not use information on how the original signal and the plurality of signals are mixed in sound source separation. In addition, in the blind sound source separation in which each original signal is estimated only from the acoustic data in which a plurality of signals are mixed, the noise removal performance is higher.
[その他の実施形態]
実施形態は、観測信号ytとして、メル周波数領域での対数スペクトルを用いたが、これに限らず、線形周波数ドメインでの対数スペクトルや、メル周波数ケプストラム係数(MFCC;Mel Frequency Cepstral Coefficient)等を用いてもよい。また、信号再構成装置20は、ウィーナフィルタを用いたが、これに限らず、例えば下記(19)式に示すような時間周波数マスクMt,fを用いてもよい。また、上記(5)式の出力ベクトルzoutでは、コンテキスト窓を用いなくてもよい。
[Other Embodiments]
Embodiment, the observed signal y t, but using a logarithmic spectrum in the Mel frequency domain, not limited thereto, and a logarithmic spectrum of a linear frequency domain, mel-frequency cepstral coefficients; and the like (MFCC Mel Frequency Cepstral Coefficient) It may be used. The
(雑音除去装置及び信号再構成装置の装置構成について)
図1に示す雑音除去装置10及び図2に示す信号再構成装置20の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、雑音除去装置10の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、雑音除去装置10のDAE学習部14及びDAE復号部15は、一体であってもよく、DAE学習時と雑音除去処理時とで処理を切り替えるようにしてもよい。また、周波数分析部11、対数計算部12、マルチチャネル特徴計算部13は、DAE学習部14及びDAE復号部15で共有するとしたが、DAE学習部14及びDAE復号部15それぞれで個別に周波数分析部、対数計算部、マルチチャネル特徴計算部を有する構成であってもよい。また、実施形態では、雑音除去装置10及び信号再構成装置20は、別装置とするが、これに限らず、一体の装置であってもよい。
(About the device configuration of the noise removal device and the signal reconstruction device)
Each component of the
また、雑音除去装置10において行われる各処理は、全部又は任意の一部が、CPU(Central Processing Unit)及びCPUにより解析実行されるプログラムにて実現されてもよい。また、雑音除去装置10及び信号再構成装置20において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
In addition, each or all of the processes performed in the
また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。 In addition, among the processes described in the embodiment, all or a part of the processes described as being automatically performed can be manually performed. Alternatively, all or some of the processes described as being manually performed among the processes described in the embodiments can be automatically performed by a known method. In addition, the above-described and illustrated processing procedures, control procedures, specific names, and information including various data and parameters can be changed as appropriate unless otherwise specified.
(プログラムについて)
図6は、プログラムが実行されることにより、雑音除去装置及び信号再構成装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
(About the program)
FIG. 6 is a diagram illustrating an example of a computer in which a noise removal apparatus and a signal reconstruction apparatus are realized by executing a program. The
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
The
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、雑音除去装置10及び信号再構成装置20の各処理を規定するプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、雑音除去装置10及び信号再構成装置20における機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
The hard disk drive 1031 stores, for example, an OS 1091, an
また、実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
The setting data used in the processing of the embodiment is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093やプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
上記実施形態及びその他の実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 The above-described embodiments and other embodiments are included in the invention disclosed in the claims and equivalents thereof as well as included in the technology disclosed in the present application.
1、2 マイク
10 雑音除去装置
11 周波数分析部
12 対数計算部
13 マルチチャネル特徴計算部
14 DAE学習部
14a 入力部
14b、14c 隠れ層
14d 出力部
15 DAE復号部
15a 入力部
15b、15c 隠れ層
15d 出力部
20 信号再構成装置
21 雑音除去フィルタ計算部
22 周波数ドメイン計算部
23 雑音除去音声計算部
24 逆フーリエ変換部
100 雑音除去システム
1000 コンピュータ
1010 メモリ
1020 CPU
DESCRIPTION OF
Claims (8)
前記周波数分析部により周波数分析された第1音声信号の振幅の対数である対数スペクトルを計算する対数計算部と、
前記周波数分析部により周波数分析された第1音声信号及び第2音声信号から、該第1音声信号及び該第2音声信号に関するマルチチャネル特徴量を計算するマルチチャネル特徴量計算部と、
前記対数計算部により計算された学習用の第1音声信号の対数スペクトルと、前記マルチチャネル特徴量計算部により計算された該学習用の第1音声信号及び学習用の第2音声信号に関する学習用のマルチチャネル特徴量を入力とし、学習用の原音声の対数スペクトルを出力とするDAE(Denoising AutoEncoder)のパラメータを学習するDAE学習部と、
前記対数計算部により計算された雑音除去対象の第1音声信号の対数スペクトルと、前記マルチチャネル特徴量計算部により計算された該雑音除去対象の第1音声信号及び雑音除去対象の第2音声信号に関する雑音除去用のマルチチャネル特徴量を入力とし、前記DAE学習部により学習された前記パラメータを用いて該雑音除去対象の第1音声信号の対数スペクトルから雑音成分を除去した雑音除去音声の対数スペクトルを出力するDAE復号部と
を備えることを特徴とする雑音除去装置。 A frequency analysis unit that performs frequency analysis on the first sound signal observed by the first sound collector and the second sound signal observed by the second sound collector disposed at a position different from the first sound collector;
A logarithm calculation unit for calculating a logarithm spectrum which is a logarithm of the amplitude of the first audio signal frequency-analyzed by the frequency analysis unit;
A multi-channel feature quantity calculation unit for calculating a multi-channel feature quantity related to the first voice signal and the second voice signal from the first voice signal and the second voice signal subjected to frequency analysis by the frequency analysis unit;
The logarithm spectrum of the first speech signal for learning calculated by the logarithm calculation unit, and the learning for the first speech signal for learning and the second speech signal for learning calculated by the multichannel feature amount calculation unit. A DAE learning unit that learns parameters of a DAE (Denoising AutoEncoder) that receives the multi-channel feature quantity of the input and outputs the logarithmic spectrum of the original speech for learning;
The logarithmic spectrum of the first speech signal to be denoised calculated by the logarithm calculation unit, the first speech signal to be denoised and the second speech signal to be denoised calculated by the multichannel feature amount calculation unit. The logarithmic spectrum of the noise-removed speech in which the noise component is removed from the logarithmic spectrum of the first speech signal to be denoised using the parameters learned by the DAE learning unit. And a DAE decoding unit that outputs the noise elimination device.
ことを特徴とする請求項1に記載の雑音除去装置。 The multi-channel feature quantity calculation unit, as the multi-channel feature quantity related to the first audio signal and the second audio signal subjected to frequency analysis by the frequency analysis unit, the first audio signal at each time frequency in the linear frequency domain and the A time-frequency mask for speech enhancement is calculated by clustering the amount characterizing the second speech signal into a speech cluster and a noise cluster, and converting the time-frequency mask for extracting the time-frequency component of the speech cluster into the mel frequency domain. The noise removal device according to claim 1, wherein:
ことを特徴とする請求項1に記載の雑音除去装置。 The multi-channel feature quantity calculation unit, as the multi-channel feature quantity related to the first audio signal and the second audio signal subjected to frequency analysis by the frequency analysis unit, the first audio signal at each time frequency in the linear frequency domain and the The logarithm of the time-frequency mask for performing speech enhancement in which the amount characterizing the second speech signal is clustered into a speech cluster and a noise cluster, and the time-frequency mask for extracting the time-frequency component of the speech cluster is converted into the mel frequency domain. The noise removal device according to claim 1, wherein:
ことを特徴とする請求項1に記載の雑音除去装置。 The multi-channel feature quantity calculation unit, as the multi-channel feature quantity related to the first audio signal and the second audio signal subjected to frequency analysis by the frequency analysis unit, the first audio signal at each time frequency in the linear frequency domain and the The logarithm of the time-frequency mask for performing speech enhancement in which the amount characterizing the second speech signal is clustered into a speech cluster and a noise cluster, and the time-frequency mask for extracting the time-frequency component of the speech cluster is converted into the mel frequency domain. The noise removal apparatus according to claim 1, wherein the logarithmic spectrum of the first audio signal calculated by the logarithm calculation unit is added to the logarithm calculation unit.
ことを特徴とする請求項1に記載の雑音除去装置。 The multi-channel feature quantity calculation unit, as the multi-channel feature quantity related to the first audio signal and the second audio signal subjected to frequency analysis by the frequency analysis unit, the first audio signal at each time frequency in the linear frequency domain and the A time frequency mask for performing speech enhancement is obtained by clustering the amount characterizing the second speech signal into a speech cluster and a noise cluster, and converting the time frequency mask for extracting the time frequency component of the speech cluster into the mel frequency domain. to that given a negative sign to the logarithm of the result of subtracting from, noise removal device according to claim 1, characterized in adding the log spectrum of the calculated first audio signal by the logarithm unit.
ことを特徴とする請求項2〜5のいずれか1つに記載の雑音除去装置。 The amount of characterizing is the phase difference between the first audio signal and the second audio signal at each time frequency in a linear frequency domain with respect to the first audio signal and the second audio signal frequency-analyzed by the frequency analysis unit. The noise removal device according to any one of claims 2 to 5, wherein:
ことを特徴とする請求項1に記載の雑音除去装置。 The multi-channel feature quantity calculation unit, as the multi-channel feature quantity related to the first audio signal and the second audio signal frequency-analyzed by the frequency analysis unit, the first audio signal and the first audio signal at the center frequency for each mel filter bank. The noise removal apparatus according to claim 1, wherein a phase difference between two audio signals or a cosine value of the phase difference is calculated.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015021452A JP6348427B2 (en) | 2015-02-05 | 2015-02-05 | Noise removal apparatus and noise removal program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015021452A JP6348427B2 (en) | 2015-02-05 | 2015-02-05 | Noise removal apparatus and noise removal program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016143042A JP2016143042A (en) | 2016-08-08 |
JP6348427B2 true JP6348427B2 (en) | 2018-06-27 |
Family
ID=56570466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015021452A Active JP6348427B2 (en) | 2015-02-05 | 2015-02-05 | Noise removal apparatus and noise removal program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6348427B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109965885A (en) * | 2019-04-24 | 2019-07-05 | 中国科学院电子学研究所 | A kind of BCG signal de-noising method and device based on denoising autocoder |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6563874B2 (en) * | 2016-08-16 | 2019-08-21 | 日本電信電話株式会社 | Sound source enhancement learning device, sound source enhancement device, sound source enhancement learning method, program |
JP6567478B2 (en) * | 2016-08-25 | 2019-08-28 | 日本電信電話株式会社 | Sound source enhancement learning device, sound source enhancement device, sound source enhancement learning method, program, signal processing learning device |
KR102100386B1 (en) * | 2018-08-14 | 2020-04-13 | 강원대학교산학협력단 | Method for Kalman filtering using measurement noise recommendation, and recording medium thereof |
KR102276964B1 (en) * | 2019-10-14 | 2021-07-14 | 고려대학교 산학협력단 | Apparatus and Method for Classifying Animal Species Noise Robust |
CN112992153B (en) * | 2021-04-27 | 2021-08-17 | 太平金融科技服务(上海)有限公司 | Audio processing method, voiceprint recognition device and computer equipment |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02253298A (en) * | 1989-03-28 | 1990-10-12 | Sharp Corp | Voice pass filter |
JPH0566795A (en) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | Noise suppressing device and its adjustment device |
US7620546B2 (en) * | 2004-03-23 | 2009-11-17 | Qnx Software Systems (Wavemakers), Inc. | Isolating speech signals utilizing neural networks |
-
2015
- 2015-02-05 JP JP2015021452A patent/JP6348427B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109965885A (en) * | 2019-04-24 | 2019-07-05 | 中国科学院电子学研究所 | A kind of BCG signal de-noising method and device based on denoising autocoder |
Also Published As
Publication number | Publication date |
---|---|
JP2016143042A (en) | 2016-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6348427B2 (en) | Noise removal apparatus and noise removal program | |
CN107077860B (en) | Method for converting a noisy audio signal into an enhanced audio signal | |
JP5124014B2 (en) | Signal enhancement apparatus, method, program and recording medium | |
Erdogan et al. | Deep recurrent networks for separation and recognition of single-channel speech in nonstationary background audio | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
Zhang et al. | Birdsoundsdenoising: Deep visual audio denoising for bird sounds | |
Liu et al. | Deep CASA for talker-independent monaural speech separation | |
JP6225245B2 (en) | Signal processing apparatus, method and program | |
WO2023001128A1 (en) | Audio data processing method, apparatus and device | |
JP6748304B2 (en) | Signal processing device using neural network, signal processing method using neural network, and signal processing program | |
JP5994639B2 (en) | Sound section detection device, sound section detection method, and sound section detection program | |
KR20220022286A (en) | Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
KR101802444B1 (en) | Robust speech recognition apparatus and method for Bayesian feature enhancement using independent vector analysis and reverberation parameter reestimation | |
Islam et al. | Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask | |
Sheeja et al. | Speech dereverberation and source separation using DNN-WPE and LWPR-PCA | |
JP5726790B2 (en) | Sound source separation device, sound source separation method, and program | |
Chen et al. | A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation | |
Li et al. | Single channel speech enhancement using temporal convolutional recurrent neural networks | |
JP6404780B2 (en) | Wiener filter design apparatus, sound enhancement apparatus, acoustic feature quantity selection apparatus, method and program thereof | |
JP6724290B2 (en) | Sound processing device, sound processing method, and program | |
Ben Messaoud et al. | Sparse representations for single channel speech enhancement based on voiced/unvoiced classification | |
Higa et al. | Robust ASR based on ETSI Advanced Front-End using complex speech analysis | |
Alameri et al. | Convolutional Deep Neural Network and Full Connectivity for Speech Enhancement. | |
WO2019235194A1 (en) | Acoustic signal separation device, learning device, methods therefor, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171114 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180529 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180531 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6348427 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |