JP7026357B2 - Time frequency mask estimator learning device, time frequency mask estimator learning method, program - Google Patents

Time frequency mask estimator learning device, time frequency mask estimator learning method, program Download PDF

Info

Publication number
JP7026357B2
JP7026357B2 JP2019015065A JP2019015065A JP7026357B2 JP 7026357 B2 JP7026357 B2 JP 7026357B2 JP 2019015065 A JP2019015065 A JP 2019015065A JP 2019015065 A JP2019015065 A JP 2019015065A JP 7026357 B2 JP7026357 B2 JP 7026357B2
Authority
JP
Japan
Prior art keywords
time
frequency mask
processing
real
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019015065A
Other languages
Japanese (ja)
Other versions
JP2020122896A (en
Inventor
悠馬 小泉
浩平 矢田部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Nippon Telegraph and Telephone Corp
Original Assignee
Waseda University
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Nippon Telegraph and Telephone Corp filed Critical Waseda University
Priority to JP2019015065A priority Critical patent/JP7026357B2/en
Publication of JP2020122896A publication Critical patent/JP2020122896A/en
Application granted granted Critical
Publication of JP7026357B2 publication Critical patent/JP7026357B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Description

本発明は、深層学習を利用して時間周波数マスク推定器を学習する時間周波数マスク推定器学習装置、時間周波数マスク推定器学習方法、プログラムに関する。 The present invention relates to a time-frequency mask estimator learning device for learning a time-frequency mask estimator using deep learning, a time-frequency mask estimator learning method, and a program.

本発明は、深層学習を利用した全ての音響信号処理技術に利用できるが、本明細書では、音源強調を例に挙げて説明する。 The present invention can be used for all acoustic signal processing techniques utilizing deep learning, but in the present specification, sound enhancement will be described as an example.

<STFTを利用した信号解析と音源強調>
音響信号処理を行うためには、まず、マイクロホンを用いて、音を観測する必要がある。その観測音には、処理を行いたい目的音の他に雑音が含まれている。音源強調とは、雑音が含まれた観測信号から、目的音を抽出する信号処理のことを指す。
<Signal analysis and speech enhancement using STFT>
In order to perform acoustic signal processing, it is first necessary to observe the sound using a microphone. The observed sound contains noise in addition to the target sound to be processed. Speech enhancement refers to signal processing that extracts the target sound from the observation signal containing noise.

音源強調を定義する。マイクロホンの観測信号をxkと置き、xkは目的音skと雑音nkの混合信号であるとする。
xk= sk + nk …(1)
ここで、kは時間領域における時間のインデックスである。観測信号から目的音を抽出するために、時間領域の観測信号を
Define speech enhancement. Let x k be the observation signal of the microphone, and let x k be a mixed signal of the target sound sk and the noise nk .
x k = s k + n k … (1)
Where k is an index of time in the time domain. In order to extract the target sound from the observation signal, the observation signal in the time domain is used.

Figure 0007026357000001
Figure 0007026357000001

点毎にL点まとめて解析することを考える。以降、観測信号をその様にまとめたt∈{0,…,T}番目の信号 Consider analyzing L points for each point. After that, the t ∈ {0,…, T} th signal that summarizes the observed signals in that way.

Figure 0007026357000002
Figure 0007026357000002

をtフレーム目の観測信号と表現する。ただしTは転置を表す。すると、tフレーム目の観測信号は、式(1)より、以下の様に記述できる。
xt= st + nt …(3)
Is expressed as the observation signal in the t-frame. Where T represents transpose. Then, the observation signal at the t-frame can be described as follows from Eq. (1).
x t = s t + n t … (3)

ここでst,ntはそれぞれ、式(2)の様に定義されたtフレーム目の目的音と雑音である。STFTを用いた信号の時間周波数解析では、各時間フレームの観測信号に対してSTFTをかける。STFT後の信号は以下の性質を満たす。 Here, st and n t are the target sound and noise of the t-frame defined as in Eq. (2), respectively. In the time-frequency analysis of signals using STFT, STFT is applied to the observed signal in each time frame. The signal after STFT satisfies the following properties.

Figure 0007026357000003
Figure 0007026357000003

ここで here

Figure 0007026357000004
Figure 0007026357000004

は、tフレーム目の観測信号をSTFTした結果得られる解析結果である。 Is the analysis result obtained as a result of STFT of the observation signal at the t-frame.

時間周波数マスク処理は、音源強調における代表的な手法の一つである。この処理では、STFT後の観測信号に対して、時間周波数マスク Time-frequency mask processing is one of the typical methods in speech enhancement. In this process, the time-frequency mask is applied to the observed signal after STFT.

Figure 0007026357000005
Figure 0007026357000005

を乗ずることで、STFT後の目的音の推定値を以下の様に得る。 By multiplying by, the estimated value of the target sound after STFT is obtained as follows.

Figure 0007026357000006
Figure 0007026357000006

ここで○はアダマール積である。最後に、 Here, ○ is the Hadamard product. Lastly,

Figure 0007026357000007
Figure 0007026357000007

に逆STFT(ISTFT:inverse-STFT)を実行することで、時間領域の目的音の推定値を得る。 By executing reverse STFT (ISTFT: inverse-STFT), the estimated value of the target sound in the time domain is obtained.

Figure 0007026357000008
Figure 0007026357000008

今、観測信号からGtを推定する、パラメータθGを持つ関数を Now, a function with the parameter θ G that estimates G t from the observed signal

Figure 0007026357000009
Figure 0007026357000009

と置く。そして、Gtを以下の様に定義する。 And put. Then, G t is defined as follows.

Figure 0007026357000010
Figure 0007026357000010

ここでφtはXtから抽出される音響特徴量であり、Xtの振幅スペクトルなどが利用される。なお、近年盛んに研究されている深層学習を用いた音源強調では、 Here, φ t is an acoustic feature extracted from X t , and the amplitude spectrum of X t or the like is used. In addition, in speech enhancement using deep learning, which has been actively studied in recent years,

Figure 0007026357000011
Figure 0007026357000011

を深層ニューラルネットワーク(DNN: deep neural network)で設計する手法が主流である。以降では、 The mainstream method is to design a deep neural network (DNN). After that,

Figure 0007026357000012
Figure 0007026357000012

はDNNを利用して実装されていると仮定する。 Is implemented using DNN.

C. Trabelsi, O. Bilaniuk, Y. Zhang, D. Serdyuk, S. Subramanian, J. F. Santos,S. Mehri, N. Rostamzadeh, Y. Bengio, and C. J. Pal, "Deep complex networks," in Int. Conf.Learn. Representat., 2018.C. Trabelsi, O. Bilaniuk, Y. Zhang, D. Serdyuk, S. Subramanian, JF Santos, S. Mehri, N. Rostamzadeh, Y. Bengio, and CJ Pal, "Deep complex networks," in Int. Conf. Learn. Representat., 2018.

<STFTを利用した信号解析と音源強調の課題>
音声/音響信号処理では、波形をそのまま扱うことは稀であり、多くの場合、上述したように、観測信号を短い時間区間毎にフーリエ変換(STFT)し、その信号に対して強調や識別をかける。ところが、STFTは実数から複素数への変換であり、複素数を利用した深層学習はその学習が複雑になることから、STFTスペクトルの振幅情報のみを利用したり、制御したりすることが多い。また、DNNに入力する際も、振幅情報のみを特徴量とすることが多い。例えば、上述のφtをXtの振幅スペクトルとする場合、これは、位相スペクトルの情報を無視していることになるため、観測信号から得られる情報を余すことなく利用しているとは言えない。しかし、多くのDNNのモジュールは、実数に対して処理を行うことを前提に設計されているため、Xtをそのまま入力するには不具合が生じる。非特許文献1では複素数を利用するCNNやBNが提案されているが、これは機械学習一般の理論として提案されており、音響信号処理に特化しているわけではない。
<Problems of signal analysis and speech enhancement using STFT>
In audio / acoustic signal processing, it is rare to handle the waveform as it is, and in many cases, as described above, the observed signal is Fourier transformed (STFT) every short time interval to emphasize or identify the signal. times. However, STFT is a conversion from a real number to a complex number, and deep learning using a complex number complicates the learning, so that only the amplitude information of the STFT spectrum is often used or controlled. Also, when inputting to the DNN, only the amplitude information is often used as the feature quantity. For example, when the above-mentioned φ t is an amplitude spectrum of X t , this means that the information of the phase spectrum is ignored, so it can be said that the information obtained from the observation signal is fully utilized. do not have. However, since many DNN modules are designed on the assumption that they process real numbers, there is a problem in inputting X t as it is. Although CNN and BN using complex numbers are proposed in Non-Patent Document 1, they are proposed as a general theory of machine learning and are not specialized in acoustic signal processing.

そこで本発明では、観測信号のSTFTの実部と虚部を利用する時間周波数マスク推定器を学習する時間周波数マスク推定器学習装置を提供することを目的とする。 Therefore, an object of the present invention is to provide a time-frequency mask estimator learning device for learning a time-frequency mask estimator using the real part and the imaginary part of the STFT of the observed signal.

本発明の時間周波数マスク推定器学習装置は、時間周波数マスク推定器と、学習部を含み、時間周波数マスク推定器は、任意の観測信号から目的音を推定するための時間周波数マスクを推定する時間周波数マスク推定器であって、CNN処理部と、BN処理部と、GLU処理部を含む。 The time-frequency mask estimator learning device of the present invention includes a time-frequency mask estimator and a learning unit, and the time-frequency mask estimator is a time for estimating a time-frequency mask for estimating a target sound from an arbitrary observation signal. It is a frequency mask estimator and includes a CNN processing unit, a BN processing unit, and a GLU processing unit.

CNN処理部は、観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対して畳み込みニューラルネットワーク処理を実行する。BN処理部は、観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対するノルム操作に共通のパラメータを利用するバッチ正規化処理を実行する。GLU処理部は、観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値を結合した値に対してゲート線形ユニット処理を実行する。学習部は、既知の目的音と既知の雑音とを重畳してなる既知の観測信号と時間周波数マスクを乗算した値と、既知の目的音との間のコスト関数が最小化するように時間周波数マスク推定器のパラメータを学習する。 The CNN processing unit executes convolutional neural network processing on the real part of the FTFT spectrum of the observation signal and the value in which the corresponding imaginary part is regarded as a real number. The BN processing unit executes batch normalization processing using parameters common to norm operations for values in which the real part of the FTFT spectrum of the observation signal and the corresponding imaginary part are regarded as real numbers. The GLU processing unit executes gate linear unit processing on a value obtained by combining a real part of the FTFT spectrum of the observation signal and a value in which the corresponding imaginary part is regarded as a real number. The learning unit uses the time frequency so that the cost function between the known observation signal obtained by superimposing the known target sound and the known noise multiplied by the time frequency mask and the known target sound is minimized. Learn the parameters of the mask estimator.

本発明の時間周波数マスク推定器学習装置によれば、観測信号のSTFTの実部と虚部を利用する時間周波数マスク推定器を学習することができる。 According to the time-frequency mask estimator learning device of the present invention, it is possible to learn a time-frequency mask estimator using the real part and the imaginary part of the STFT of the observed signal.

実施形態の時間周波数マスク推定器学習装置の構成を示すブロック図。The block diagram which shows the structure of the time frequency mask estimator learning apparatus of embodiment. 実施形態の時間周波数マスク推定器学習装置の動作を示すフローチャート。The flowchart which shows the operation of the time frequency mask estimator learning apparatus of embodiment. 実施形態の時間周波数マスク推定器の詳細な動作を示すフローチャート。The flowchart which shows the detailed operation of the time frequency mask estimator of embodiment. 三つのモジュールと補助演算を組み合わせた時間周波数マスク推定器の構成例を示す図。The figure which shows the configuration example of the time frequency mask estimator which combined three modules and auxiliary operation.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. The components having the same function are given the same number, and duplicate explanations are omitted.

実施例1では、位相スペクトルの特性に基づくDNNモジュールとして、(1)制約付き複素畳み込みニューラルネットワーク(CNN: convolutional neural network)、(2)簡略化複素バッチ正規化(BN: batch normalization)、(3)複素ゲート線形ユニット(GLU: fated linear unit)の3つのモジュールを開示する。以降では、I=√(-1)、また()Reと()Imはそれぞれ、複素数の実部と虚部を表す。なお、()Imは虚部を実数と見做した値(虚部から複素単位を取り除いた値)を指す。 In Example 1, as DNN modules based on the characteristics of the phase spectrum, (1) constrained complex convolutional neural network (CNN), (2) simplified complex batch normalization (BN: batch normalization), (3). ) Disclose three modules of complex gate linear unit (GLU). In the following, I = √ (-1), and () Re and () Im represent the real and imaginary parts of complex numbers, respectively. Note that () Im refers to a value in which the imaginary part is regarded as a real number (value obtained by removing the complex unit from the imaginary part).

<制約付き複素CNN>
実施例1では、以下の形式の複素CNNを実行する。
W * z = (WRe * zRe - WIm* zIm) + I (WRe * zIm + WIm * zRe)…(8)
<Restricted complex CNN>
In the first embodiment, a complex CNN having the following format is executed.
W * z = (W Re * z Re --W Im * z Im ) + I (W Re * z Im + W Im * z Re )… (8)

ここでWは重みパラメータWの畳み込み層を表す。なおその変形として、畳み込みの重みを実数に制限することも可能である。
WRe* z = (WRe * zRe) + I (WRe * zIm)…(9)
Where W represents the convolutional layer of the weight parameter W. As a variation, it is also possible to limit the convolution weight to a real number.
W Re * z = (W Re * z Re ) + I (W Re * z Im )… (9)

ところで、音声信号の位相スペクトルは時間方向に連続的に変化する性質を持つ。ゆえに、本実施例では、非特許文献1と異なり、式(8)と式(9)の時間方向へのストライドを1に制約する。 By the way, the phase spectrum of an audio signal has a property of continuously changing in the time direction. Therefore, in this embodiment, unlike Non-Patent Document 1, the stride of Eqs. (8) and (9) in the time direction is restricted to 1.

<簡略化複素BN>
BNはDNNの学習に用いるミニバッチ内平均と分散をそれぞれ0と1にする処理である。また、学習可能な拡大と平行移動のパラメータとを用いて以下のように定義される。
<Simplified complex BN>
BN is a process that sets the mean and variance in the mini-batch used for learning DNN to 0 and 1, respectively. It is also defined as follows using learnable expansion and translation parameters.

Figure 0007026357000013
Figure 0007026357000013

ここで here

Figure 0007026357000014
Figure 0007026357000014

はミニバッチ内の平均と分散、ε>0は小さな正の定数である。εは例えば、10-5程度に設定すればよい。これは、実数に対してはよく動くが、複素数に対してそのまま適応することは妥当ではない。なぜなら、例えば、実部と虚部に別々にBNを施すと、複素変数のノルムの関係性(各周波数の振幅の関係性に相当)や位相スペクトルを崩してしまうためである。非特許文献1で提案されているような、主成分分析に基づく処理も、同様の理由で妥当ではない。一方で、複素数の集合からその平均値を減算する処理はハイパスフィルタと等価であり、複素数の集合にあるスカラーを乗じる処理はフィルタゲインの調整とみなせる。そこで、本実施例では、以下の簡略化複素BNを提案する。 Is the mean and variance in the mini-batch, and ε> 0 is a small positive constant. For example, ε may be set to about 10 -5 . This works well for real numbers, but it doesn't make sense to apply it straight to complex numbers. This is because, for example, if BN is applied separately to the real part and the imaginary part, the relation of the norm of the complex variable (corresponding to the relation of the amplitude of each frequency) and the phase spectrum are destroyed. Processing based on principal component analysis as proposed in Non-Patent Document 1 is also not valid for the same reason. On the other hand, the process of subtracting the average value from the set of complex numbers is equivalent to a high-pass filter, and the process of multiplying the scalar in the set of complex numbers can be regarded as the adjustment of the filter gain. Therefore, in this embodiment, the following simplified complex BN is proposed.

Figure 0007026357000015
Figure 0007026357000015

式(11)において、平均値の減算は実部と虚部について別々に行うが、ノルム操作は実部と虚部について同じパラメータ(式(11)の分母に該当する部分)を利用している点が従来法と異なる。また、学習可能なパラメータγとβも、同様の理由で利用しない。 In equation (11), the subtraction of the mean value is performed separately for the real part and the imaginary part, but the norm operation uses the same parameters (the part corresponding to the denominator of equation (11)) for the real part and the imaginary part. The point is different from the conventional method. Also, the learnable parameters γ and β are not used for the same reason.

<複素GLU>
複素スペクトルに対して妥当な活性化関数を考える。非特許文献1では、以下の3種類の活性化関数が提案されている。
<Complex GLU>
Consider an activation function that is valid for complex spectra. Non-Patent Document 1 proposes the following three types of activation functions.

Figure 0007026357000016
Figure 0007026357000016

ここで| |は絶対値、Arg[ ]は複素数の角度を返す関数である。本実施例では、位相スペクトルを保存するために、式(14)の形式の活性化関数を考える。すなわち、振幅スペクトルのみを操作する活性化関数である。 Where | | is an absolute value and Arg [] is a function that returns the argument of a complex number. In this embodiment, in order to preserve the phase spectrum, consider the activation function of the form of Eq. (14). That is, it is an activation function that manipulates only the amplitude spectrum.

振幅スペクトルのみを操作する音響信号処理手法で代表的なものは、式(5)の時間周波数マスクである。そこで、実部と虚部を入力し、時間周波数マスクを出力するCNNを考える。 A typical acoustic signal processing method that manipulates only the amplitude spectrum is the time-frequency mask in Eq. (5). Therefore, consider a CNN that inputs the real part and the imaginary part and outputs the time-frequency mask.

Figure 0007026357000017
Figure 0007026357000017

ここでconcatは2変数のチャネル方向への結合である。この形式は、GLUと類似している。GLUは実数値を入力して、マスクを出力する活性化関数だが、本実施例では、複素数値をチャネル方向に結合してマスクを出力するGLU(i.e.複素GLU)を実行する。 Where concat is a combination of two variables in the channel direction. This format is similar to GLU. GLU is an activation function that inputs a real value and outputs a mask, but in this embodiment, GLU (i.e. complex GLU) that combines complex values in the channel direction and outputs a mask is executed.

<実施形態>
以下、具体的な実施形態として、時間周波数マスク推定器学習装置1について説明する。図1に示すように、時間周波数マスク推定器学習装置1は、時間周波数マスク推定器11と、学習部12を含む構成であり、装置外部、あるいは装置内部に目的音DB91と、雑音DB92を含む構成である。また、時間周波数マスク推定器11は、CNN処理部111と、BN処理部112と、GLU処理部113と、補助演算部114を含む構成である。
<Embodiment>
Hereinafter, as a specific embodiment, the time-frequency mask estimator learning device 1 will be described. As shown in FIG. 1, the time-frequency mask estimator learning device 1 has a configuration including a time-frequency mask estimator 11 and a learning unit 12, and includes a target sound DB 91 and a noise DB 92 outside or inside the device. It is a composition. Further, the time-frequency mask estimator 11 includes a CNN processing unit 111, a BN processing unit 112, a GLU processing unit 113, and an auxiliary calculation unit 114.

図2に示すように、時間周波数マスク推定器11は、目的音DB91から目的音を、雑音DB92から雑音をランダムに選択し、それを重畳することで観測信号をシミュレーションし、観測信号のSTFTに対して、CNN処理とBN処理とGLU処理を実行して、任意の観測信号から目的音を推定するための時間周波数マスクを推定する(S11)。ステップS11を最初に実行する場合、時間周波数マスクGのパラメータは、例えば、何らかの乱数で初期化しておく。なお、STFT処理については、時間周波数マスク推定器11が実行してもよいし、図示しないSTFT処理部が実行することとしてもよい。 As shown in FIG. 2, the time-frequency mask estimator 11 randomly selects a target sound from the target sound DB 91 and noise from the noise DB 92, superimposes the noise, simulates an observation signal, and uses the observation signal as an STFT. On the other hand, CNN processing, BN processing, and GLU processing are executed to estimate a time-frequency mask for estimating a target sound from an arbitrary observation signal (S11). When the step S11 is executed for the first time, the parameter of the time frequency mask G is initialized with, for example, some random number. The TFT processing may be executed by the time-frequency mask estimator 11 or may be executed by the TFT processing unit (not shown).

学習部12は、既知の目的音と既知の雑音とを重畳してなる既知の観測信号と時間周波数マスクを乗算した値(式(5))と、既知の目的音との間の任意のコスト関数が最小化するように時間周波数マスク推定器11のパラメータを学習する(S12)。学習法には、確率的最急降下法などを利用すればよく、その学習率は10-5程度に設定すればよい。 The learning unit 12 has an arbitrary cost between a known observation signal obtained by superimposing a known target sound and a known noise multiplied by a time frequency mask (Equation (5)) and a known target sound. The parameters of the time-frequency mask estimator 11 are learned so that the function is minimized (S12). As the learning method, a stochastic steepest descent method may be used, and the learning rate may be set to about 10-5 .

時間周波数マスク推定器学習装置1は、収束判定をし、収束していなければステップS11へ戻る。収束判定ルールは、例えばS12を一定回数(例えば10万回)繰り返したか否か、などとすればよい。 The time-frequency mask estimator learning device 1 makes a convergence test, and if it does not converge, the process returns to step S11. The convergence test rule may be, for example, whether or not S12 is repeated a certain number of times (for example, 100,000 times).

ステップS11の詳細を図3に示す。時間周波数マスク推定器11は、観測信号のSTFTに対して、所定の順序で、CNN処理(S111)、BN処理(S112)、GLU処理(S113)、その他の処理(S114)を繰り返し実行する。以下、ステップS111~S114の詳細を説明する。 The details of step S11 are shown in FIG. The time-frequency mask estimator 11 repeatedly executes CNN processing (S111), BN processing (S112), GLU processing (S113), and other processing (S114) with respect to the FTFT of the observation signal in a predetermined order. Hereinafter, the details of steps S111 to S114 will be described.

CNN処理部111は、観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対して、式(8)または(9)に基づいて、時間方向のストライドを1に制約して、畳み込みニューラルネットワーク処理を実行する(S111)。BN処理部112は、観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対するノルム操作に共通のパラメータ(1/√(σ2 BRe2 BIm+ε))を利用する式(11)に基づいて、バッチ正規化処理を実行する(S112)。GLU処理部113は、式(15)に基づいて、観測信号のSTFTスペクトルの実部zReと、対応する虚部を実数と見做した値zImを結合した値concat(zRe,zIm)に対して、ゲート線形ユニット処理を実行する(S113)。補助演算部114は、上記以外のその他の処理(例えばconcatやsigmoid)を実行する(S114)。 The CNN processing unit 111 sets the stride in the time direction to 1 based on the equation (8) or (9) with respect to the value in which the real part of the FTFT spectrum of the observation signal and the corresponding imaginary part are regarded as real numbers. Convolutional neural network processing is executed with constraints (S111). The BN processing unit 112 is a parameter (1 / √ (σ 2 BRe + σ 2 BIm + ε)) common to the norm operation for the real part of the FTFT spectrum of the observation signal and the value in which the corresponding imaginary part is regarded as a real number. The batch normalization process is executed based on the equation (11) using the above (S112). Based on Eq. (15), the GLU processing unit 113 combines the real part z Re of the SFT spectrum of the observed signal and the value z Im which regards the corresponding imaginary part as a real number, and concat (z Re , z Im ). ), The gate linear unit processing is executed (S113). The auxiliary calculation unit 114 executes other processing (for example, concat or sigmoid) other than the above (S114).

図4は、三つのモジュールを組み合わせた時間周波数マスク推定器(ニューラルネットワーク)の構成例を示す図である。“Conv”,“BN”,“GLU”,“Concat”,“sigmoid”はそれぞれ、制約付き複素CNN、簡略化複素BN、複素GLU、入力のチャネル方向への結合、シグモイド関数の演算を表す。c,k,s,pはそれぞれ、チャネル数、カーネルサイズ、ストライドサイズ、パディングサイズである。 FIG. 4 is a diagram showing a configuration example of a time-frequency mask estimator (neural network) in which three modules are combined. “Conv”, “BN”, “GLU”, “Concat”, and “sigmoid” represent the constrained complex CNN, the simplified complex BN, the complex GLU, the coupling in the channel direction of the input, and the operation of the sigmoid function, respectively. c, k, s, and p are the number of channels, kernel size, stride size, and padding size, respectively.

<効果>
実施例1の時間周波数マスク推定器学習装置1によれば、複素スペクトルをそのまま入力するための、DNNのモジュールとして、(1)制約付き複素畳み込みニューラルネットワーク(CNN: convolutionalneural network)、(2)簡略化複素バッチ正規化(BN: batch normalization)、(3)複素ゲート線形ユニット(GLU: fated linear unit)の三つを導入したため、FFTスペクトルを複素数のまま、かつ信号処理理論に則った処理をDNNで実現できる。
<Effect>
According to the time-frequency mask estimator learning device 1 of the first embodiment, as a DNN module for inputting a complex spectrum as it is, (1) a constrained convolutional neural network (CNN), and (2) a simplification. Since we introduced three types of complex normalization (BN: batch normalization) and (3) complex gate linear unit (GLU), the FFT spectrum remains complex and the processing according to the signal processing theory is performed by DNN. Can be realized with.

<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The device of the present invention is, for example, as a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Communication unit, CPU (Central Processing Unit, cache memory, registers, etc.) to which can be connected, RAM and ROM as memory, external storage device as hard hardware, and input, output, and communication units of these. , CPU, RAM, ROM, has a bus connecting so that data can be exchanged between external storage devices. Further, if necessary, a device (drive) or the like capable of reading and writing a recording medium such as a CD-ROM may be provided in the hardware entity. As a physical entity equipped with such hardware resources, there is a general-purpose computer or the like.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program required to realize the above-mentioned functions and data required for processing of this program (not limited to the external storage device, for example, reading a program). It may be stored in a ROM, which is a dedicated storage device). Further, the data obtained by the processing of these programs is appropriately stored in a RAM, an external storage device, or the like.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in the external storage device (or ROM, etc.) and the data required for processing of each program are read into the memory as needed, and are appropriately interpreted and executed and processed by the CPU. .. As a result, the CPU realizes a predetermined function (each configuration requirement represented by the above, ... Department, ... means, etc.).

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and can be appropriately modified without departing from the spirit of the present invention. Further, the processes described in the above-described embodiment are not only executed in chronological order according to the order described, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes. ..

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing function in the hardware entity (device of the present invention) described in the above embodiment is realized by the computer, the processing content of the function that the hardware entity should have is described by the program. Then, by executing this program on the computer, the processing function in the above hardware entity is realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing content can be recorded on a computer-readable recording medium. The recording medium that can be read by a computer may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like. Specifically, for example, a hard disk device, a flexible disk, a magnetic tape or the like as a magnetic recording device, and a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) as an optical disk. Memory), CD-R (Recordable) / RW (ReWritable), etc., MO (Magneto-Optical disc), etc. as a magneto-optical recording medium, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. as a semiconductor memory. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 Further, the distribution of this program is performed, for example, by selling, transferring, renting, or the like a portable recording medium such as a DVD or a CD-ROM in which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via the network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first temporarily stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. You may execute the process according to the received program one by one each time. In addition, the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and the result acquisition without transferring the program from the server computer to this computer. May be. The program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, in this form, the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized in terms of hardware.

Claims (5)

観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対して畳み込みニューラルネットワーク処理を実行するCNN処理部と、
観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対するノルム操作に共通のパラメータを利用するバッチ正規化処理を実行するBN処理部と、
観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値を結合した値に対してゲート線形ユニット処理を実行するGLU処理部を含み、
任意の観測信号から目的音を推定するための時間周波数マスクを推定する時間周波数マスク推定器と、
既知の目的音と既知の雑音とを重畳してなる既知の観測信号と前記時間周波数マスクを乗算した値と、既知の目的音との間のコスト関数が最小化するように前記時間周波数マスク推定器のパラメータを学習する学習部を含む
時間周波数マスク推定器学習装置。
A real part of the FTFT spectrum of the observed signal, a CNN processing part that performs convolutional neural network processing on the value that regards the corresponding imaginary part as a real number, and
A BN processing unit that executes batch normalization processing that uses parameters common to norm operations for values that regard the real part of the FTFT spectrum of the observation signal as a real number and the corresponding imaginary part.
Includes a GLU processing unit that performs gate linear unit processing on a value that combines the real part of the FTFT spectrum of the observed signal and the value that considers the corresponding imaginary part as a real number.
A time-frequency mask estimator that estimates the time-frequency mask for estimating the target sound from an arbitrary observation signal,
The time-frequency mask estimation so that the cost function between the value obtained by multiplying the known observation signal obtained by superimposing the known target sound and the known noise and the time-frequency mask and the known target sound is minimized. A time-frequency mask estimator learning device that includes a learning unit that learns instrument parameters.
請求項1に記載の時間周波数マスク推定器学習装置であって、
前記CNN処理部は、時間方向へのストライドを1に制約して、前記畳み込みニューラルネットワーク処理を実行する
時間周波数マスク推定器学習装置。
The time-frequency mask estimator learning device according to claim 1.
The CNN processing unit is a time-frequency mask estimator learning device that executes the convolutional neural network processing by limiting the stride in the time direction to 1.
任意の観測信号から目的音を推定するための時間周波数マスクを推定する時間周波数マスク推定器が、
観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対して畳み込みニューラルネットワーク処理を実行するステップと、
観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対するノルム操作に共通のパラメータを利用するバッチ正規化処理を実行するステップと、
観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値を結合した値に対してゲート線形ユニット処理を実行するステップを実行し、
時間周波数マスク推定器学習装置が、
既知の目的音と既知の雑音とを重畳してなる既知の観測信号と前記時間周波数マスクを乗算した値と、既知の目的音との間のコスト関数が最小化するように前記時間周波数マスク推定器のパラメータを学習するステップを実行する
時間周波数マスク推定器学習方法。
A time-frequency mask estimator that estimates a time-frequency mask for estimating a target sound from an arbitrary observation signal,
A step of executing a convolutional neural network process on a value in which the real part of the FTFT spectrum of the observed signal and the corresponding imaginary part are regarded as real numbers,
A step to execute a batch normalization process that uses parameters common to norm operations for values that regard the real part of the FTFT spectrum of the observed signal and the corresponding imaginary part as real numbers.
Perform the step of performing gate linear unit processing on the value obtained by combining the real part of the FTFT spectrum of the observation signal and the value in which the corresponding imaginary part is regarded as a real number.
The time-frequency mask estimator learning device
The time-frequency mask estimation so that the cost function between the value obtained by multiplying the known observation signal obtained by superimposing the known target sound and the known noise and the time-frequency mask and the known target sound is minimized. A time-frequency mask estimator learning method that performs the steps of learning instrument parameters.
請求項3に記載の時間周波数マスク推定器学習方法であって、
時間方向へのストライドを1に制約して、前記畳み込みニューラルネットワーク処理を実行する
時間周波数マスク推定器学習方法。
The time-frequency mask estimator learning method according to claim 3.
A time-frequency mask estimator learning method that executes the convolutional neural network process by limiting the stride in the time direction to 1.
コンピュータを請求項1または2に記載の時間周波数マスク推定器学習装置として機能させるプログラム。 A program that causes a computer to function as the time-frequency mask estimator learning device according to claim 1.
JP2019015065A 2019-01-31 2019-01-31 Time frequency mask estimator learning device, time frequency mask estimator learning method, program Active JP7026357B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019015065A JP7026357B2 (en) 2019-01-31 2019-01-31 Time frequency mask estimator learning device, time frequency mask estimator learning method, program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019015065A JP7026357B2 (en) 2019-01-31 2019-01-31 Time frequency mask estimator learning device, time frequency mask estimator learning method, program

Publications (2)

Publication Number Publication Date
JP2020122896A JP2020122896A (en) 2020-08-13
JP7026357B2 true JP7026357B2 (en) 2022-02-28

Family

ID=71992635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019015065A Active JP7026357B2 (en) 2019-01-31 2019-01-31 Time frequency mask estimator learning device, time frequency mask estimator learning method, program

Country Status (1)

Country Link
JP (1) JP7026357B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882046B (en) * 2020-09-27 2021-01-19 北京声智科技有限公司 Multimedia data identification method, device, equipment and computer storage medium
CN112201272B (en) * 2020-09-29 2024-07-23 腾讯音乐娱乐科技(深圳)有限公司 Method, device, equipment and storage medium for reducing noise of audio data
JP7333878B2 (en) * 2021-02-05 2023-08-25 三菱電機株式会社 SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, AND SIGNAL PROCESSING PROGRAM
CN113470685B (en) * 2021-07-13 2024-03-12 北京达佳互联信息技术有限公司 Training method and device for voice enhancement model and voice enhancement method and device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018031967A (en) 2016-08-26 2018-03-01 日本電信電話株式会社 Sound source enhancement device, and method and program for the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018031967A (en) 2016-08-26 2018-03-01 日本電信電話株式会社 Sound source enhancement device, and method and program for the same

Also Published As

Publication number Publication date
JP2020122896A (en) 2020-08-13

Similar Documents

Publication Publication Date Title
JP7026357B2 (en) Time frequency mask estimator learning device, time frequency mask estimator learning method, program
El-Moneim et al. Text-independent speaker recognition using LSTM-RNN and speech enhancement
JP6903611B2 (en) Signal generators, signal generators, signal generators and programs
DE102019112383A1 (en) Neural network for speech removal, which is trained with deep loss of features
EP3664084A1 (en) Electronic device and control method therefor
CN114242044B (en) Voice quality evaluation method, voice quality evaluation model training method and device
Zheng et al. Effects of skip connections in CNN-based architectures for speech enhancement
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Ben Kheder et al. Robust speaker recognition using map estimation of additive noise in i-vectors space
JP6721165B2 (en) Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program
Bilen et al. Joint audio inpainting and source separation
Abel et al. A data driven approach to audiovisual speech mapping
JP6827908B2 (en) Speech enhancement device, speech enhancement learning device, speech enhancement method, program
JP6849978B2 (en) Speech intelligibility calculation method, speech intelligibility calculator and speech intelligibility calculation program
US11676619B2 (en) Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program
WO2020162238A1 (en) Speech recognition device, speech recognition method, and program
WO2020121860A1 (en) Acoustic signal processing device, method for acoustic signal processing, and program
WO2021090465A1 (en) Band extension device, band extension method, and program
JP7026358B2 (en) Regression function learning device, regression function learning method, program
Jayakumar et al. Speech enhancement based on noise type and wavelet thresholding the multitaper spectrum
Singh et al. A Novel Algorithm of Sparse Representations for Speech Compression/Enhancement and Its Application in Speaker Recognition System
JP7218810B2 (en) Speech/non-speech decision device, model parameter learning device for speech/non-speech decision, speech/non-speech decision method, model parameter learning method for speech/non-speech decision, program
Li et al. An improved speech enhancement algorithm based on combination of OMLSA and IMCRA
Su et al. Learning an adversarial network for speech enhancement under extremely low signal-to-noise ratio condition
Helali et al. Hybrid Feature Extraction Techniques Using TEO-PWP for Enhancement of Automatic Speech Recognition in Real Noisy Environment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190131

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210408

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220203

R150 Certificate of patent or registration of utility model

Ref document number: 7026357

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350