JP7026357B2 - Time frequency mask estimator learning device, time frequency mask estimator learning method, program - Google Patents
Time frequency mask estimator learning device, time frequency mask estimator learning method, program Download PDFInfo
- Publication number
- JP7026357B2 JP7026357B2 JP2019015065A JP2019015065A JP7026357B2 JP 7026357 B2 JP7026357 B2 JP 7026357B2 JP 2019015065 A JP2019015065 A JP 2019015065A JP 2019015065 A JP2019015065 A JP 2019015065A JP 7026357 B2 JP7026357 B2 JP 7026357B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- frequency mask
- processing
- real
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Complex Calculations (AREA)
Description
本発明は、深層学習を利用して時間周波数マスク推定器を学習する時間周波数マスク推定器学習装置、時間周波数マスク推定器学習方法、プログラムに関する。 The present invention relates to a time-frequency mask estimator learning device for learning a time-frequency mask estimator using deep learning, a time-frequency mask estimator learning method, and a program.
本発明は、深層学習を利用した全ての音響信号処理技術に利用できるが、本明細書では、音源強調を例に挙げて説明する。 The present invention can be used for all acoustic signal processing techniques utilizing deep learning, but in the present specification, sound enhancement will be described as an example.
<STFTを利用した信号解析と音源強調>
音響信号処理を行うためには、まず、マイクロホンを用いて、音を観測する必要がある。その観測音には、処理を行いたい目的音の他に雑音が含まれている。音源強調とは、雑音が含まれた観測信号から、目的音を抽出する信号処理のことを指す。
<Signal analysis and speech enhancement using STFT>
In order to perform acoustic signal processing, it is first necessary to observe the sound using a microphone. The observed sound contains noise in addition to the target sound to be processed. Speech enhancement refers to signal processing that extracts the target sound from the observation signal containing noise.
音源強調を定義する。マイクロホンの観測信号をxkと置き、xkは目的音skと雑音nkの混合信号であるとする。
xk= sk + nk …(1)
ここで、kは時間領域における時間のインデックスである。観測信号から目的音を抽出するために、時間領域の観測信号を
Define speech enhancement. Let x k be the observation signal of the microphone, and let x k be a mixed signal of the target sound sk and the noise nk .
x k = s k + n k … (1)
Where k is an index of time in the time domain. In order to extract the target sound from the observation signal, the observation signal in the time domain is used.
点毎にL点まとめて解析することを考える。以降、観測信号をその様にまとめたt∈{0,…,T}番目の信号 Consider analyzing L points for each point. After that, the t ∈ {0,…, T} th signal that summarizes the observed signals in that way.
をtフレーム目の観測信号と表現する。ただしTは転置を表す。すると、tフレーム目の観測信号は、式(1)より、以下の様に記述できる。
xt= st + nt …(3)
Is expressed as the observation signal in the t-frame. Where T represents transpose. Then, the observation signal at the t-frame can be described as follows from Eq. (1).
x t = s t + n t … (3)
ここでst,ntはそれぞれ、式(2)の様に定義されたtフレーム目の目的音と雑音である。STFTを用いた信号の時間周波数解析では、各時間フレームの観測信号に対してSTFTをかける。STFT後の信号は以下の性質を満たす。 Here, st and n t are the target sound and noise of the t-frame defined as in Eq. (2), respectively. In the time-frequency analysis of signals using STFT, STFT is applied to the observed signal in each time frame. The signal after STFT satisfies the following properties.
ここで here
は、tフレーム目の観測信号をSTFTした結果得られる解析結果である。 Is the analysis result obtained as a result of STFT of the observation signal at the t-frame.
時間周波数マスク処理は、音源強調における代表的な手法の一つである。この処理では、STFT後の観測信号に対して、時間周波数マスク Time-frequency mask processing is one of the typical methods in speech enhancement. In this process, the time-frequency mask is applied to the observed signal after STFT.
を乗ずることで、STFT後の目的音の推定値を以下の様に得る。 By multiplying by, the estimated value of the target sound after STFT is obtained as follows.
ここで○はアダマール積である。最後に、 Here, ○ is the Hadamard product. Lastly,
に逆STFT(ISTFT:inverse-STFT)を実行することで、時間領域の目的音の推定値を得る。 By executing reverse STFT (ISTFT: inverse-STFT), the estimated value of the target sound in the time domain is obtained.
今、観測信号からGtを推定する、パラメータθGを持つ関数を Now, a function with the parameter θ G that estimates G t from the observed signal
と置く。そして、Gtを以下の様に定義する。 And put. Then, G t is defined as follows.
ここでφtはXtから抽出される音響特徴量であり、Xtの振幅スペクトルなどが利用される。なお、近年盛んに研究されている深層学習を用いた音源強調では、 Here, φ t is an acoustic feature extracted from X t , and the amplitude spectrum of X t or the like is used. In addition, in speech enhancement using deep learning, which has been actively studied in recent years,
を深層ニューラルネットワーク(DNN: deep neural network)で設計する手法が主流である。以降では、 The mainstream method is to design a deep neural network (DNN). After that,
はDNNを利用して実装されていると仮定する。 Is implemented using DNN.
<STFTを利用した信号解析と音源強調の課題>
音声/音響信号処理では、波形をそのまま扱うことは稀であり、多くの場合、上述したように、観測信号を短い時間区間毎にフーリエ変換(STFT)し、その信号に対して強調や識別をかける。ところが、STFTは実数から複素数への変換であり、複素数を利用した深層学習はその学習が複雑になることから、STFTスペクトルの振幅情報のみを利用したり、制御したりすることが多い。また、DNNに入力する際も、振幅情報のみを特徴量とすることが多い。例えば、上述のφtをXtの振幅スペクトルとする場合、これは、位相スペクトルの情報を無視していることになるため、観測信号から得られる情報を余すことなく利用しているとは言えない。しかし、多くのDNNのモジュールは、実数に対して処理を行うことを前提に設計されているため、Xtをそのまま入力するには不具合が生じる。非特許文献1では複素数を利用するCNNやBNが提案されているが、これは機械学習一般の理論として提案されており、音響信号処理に特化しているわけではない。
<Problems of signal analysis and speech enhancement using STFT>
In audio / acoustic signal processing, it is rare to handle the waveform as it is, and in many cases, as described above, the observed signal is Fourier transformed (STFT) every short time interval to emphasize or identify the signal. times. However, STFT is a conversion from a real number to a complex number, and deep learning using a complex number complicates the learning, so that only the amplitude information of the STFT spectrum is often used or controlled. Also, when inputting to the DNN, only the amplitude information is often used as the feature quantity. For example, when the above-mentioned φ t is an amplitude spectrum of X t , this means that the information of the phase spectrum is ignored, so it can be said that the information obtained from the observation signal is fully utilized. do not have. However, since many DNN modules are designed on the assumption that they process real numbers, there is a problem in inputting X t as it is. Although CNN and BN using complex numbers are proposed in Non-Patent Document 1, they are proposed as a general theory of machine learning and are not specialized in acoustic signal processing.
そこで本発明では、観測信号のSTFTの実部と虚部を利用する時間周波数マスク推定器を学習する時間周波数マスク推定器学習装置を提供することを目的とする。 Therefore, an object of the present invention is to provide a time-frequency mask estimator learning device for learning a time-frequency mask estimator using the real part and the imaginary part of the STFT of the observed signal.
本発明の時間周波数マスク推定器学習装置は、時間周波数マスク推定器と、学習部を含み、時間周波数マスク推定器は、任意の観測信号から目的音を推定するための時間周波数マスクを推定する時間周波数マスク推定器であって、CNN処理部と、BN処理部と、GLU処理部を含む。 The time-frequency mask estimator learning device of the present invention includes a time-frequency mask estimator and a learning unit, and the time-frequency mask estimator is a time for estimating a time-frequency mask for estimating a target sound from an arbitrary observation signal. It is a frequency mask estimator and includes a CNN processing unit, a BN processing unit, and a GLU processing unit.
CNN処理部は、観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対して畳み込みニューラルネットワーク処理を実行する。BN処理部は、観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対するノルム操作に共通のパラメータを利用するバッチ正規化処理を実行する。GLU処理部は、観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値を結合した値に対してゲート線形ユニット処理を実行する。学習部は、既知の目的音と既知の雑音とを重畳してなる既知の観測信号と時間周波数マスクを乗算した値と、既知の目的音との間のコスト関数が最小化するように時間周波数マスク推定器のパラメータを学習する。 The CNN processing unit executes convolutional neural network processing on the real part of the FTFT spectrum of the observation signal and the value in which the corresponding imaginary part is regarded as a real number. The BN processing unit executes batch normalization processing using parameters common to norm operations for values in which the real part of the FTFT spectrum of the observation signal and the corresponding imaginary part are regarded as real numbers. The GLU processing unit executes gate linear unit processing on a value obtained by combining a real part of the FTFT spectrum of the observation signal and a value in which the corresponding imaginary part is regarded as a real number. The learning unit uses the time frequency so that the cost function between the known observation signal obtained by superimposing the known target sound and the known noise multiplied by the time frequency mask and the known target sound is minimized. Learn the parameters of the mask estimator.
本発明の時間周波数マスク推定器学習装置によれば、観測信号のSTFTの実部と虚部を利用する時間周波数マスク推定器を学習することができる。 According to the time-frequency mask estimator learning device of the present invention, it is possible to learn a time-frequency mask estimator using the real part and the imaginary part of the STFT of the observed signal.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. The components having the same function are given the same number, and duplicate explanations are omitted.
実施例1では、位相スペクトルの特性に基づくDNNモジュールとして、(1)制約付き複素畳み込みニューラルネットワーク(CNN: convolutional neural network)、(2)簡略化複素バッチ正規化(BN: batch normalization)、(3)複素ゲート線形ユニット(GLU: fated linear unit)の3つのモジュールを開示する。以降では、I=√(-1)、また()Reと()Imはそれぞれ、複素数の実部と虚部を表す。なお、()Imは虚部を実数と見做した値(虚部から複素単位を取り除いた値)を指す。 In Example 1, as DNN modules based on the characteristics of the phase spectrum, (1) constrained complex convolutional neural network (CNN), (2) simplified complex batch normalization (BN: batch normalization), (3). ) Disclose three modules of complex gate linear unit (GLU). In the following, I = √ (-1), and () Re and () Im represent the real and imaginary parts of complex numbers, respectively. Note that () Im refers to a value in which the imaginary part is regarded as a real number (value obtained by removing the complex unit from the imaginary part).
<制約付き複素CNN>
実施例1では、以下の形式の複素CNNを実行する。
W * z = (WRe * zRe - WIm* zIm) + I (WRe * zIm + WIm * zRe)…(8)
<Restricted complex CNN>
In the first embodiment, a complex CNN having the following format is executed.
W * z = (W Re * z Re --W Im * z Im ) + I (W Re * z Im + W Im * z Re )… (8)
ここでWは重みパラメータWの畳み込み層を表す。なおその変形として、畳み込みの重みを実数に制限することも可能である。
WRe* z = (WRe * zRe) + I (WRe * zIm)…(9)
Where W represents the convolutional layer of the weight parameter W. As a variation, it is also possible to limit the convolution weight to a real number.
W Re * z = (W Re * z Re ) + I (W Re * z Im )… (9)
ところで、音声信号の位相スペクトルは時間方向に連続的に変化する性質を持つ。ゆえに、本実施例では、非特許文献1と異なり、式(8)と式(9)の時間方向へのストライドを1に制約する。 By the way, the phase spectrum of an audio signal has a property of continuously changing in the time direction. Therefore, in this embodiment, unlike Non-Patent Document 1, the stride of Eqs. (8) and (9) in the time direction is restricted to 1.
<簡略化複素BN>
BNはDNNの学習に用いるミニバッチ内平均と分散をそれぞれ0と1にする処理である。また、学習可能な拡大と平行移動のパラメータとを用いて以下のように定義される。
<Simplified complex BN>
BN is a process that sets the mean and variance in the mini-batch used for learning DNN to 0 and 1, respectively. It is also defined as follows using learnable expansion and translation parameters.
ここで here
はミニバッチ内の平均と分散、ε>0は小さな正の定数である。εは例えば、10-5程度に設定すればよい。これは、実数に対してはよく動くが、複素数に対してそのまま適応することは妥当ではない。なぜなら、例えば、実部と虚部に別々にBNを施すと、複素変数のノルムの関係性(各周波数の振幅の関係性に相当)や位相スペクトルを崩してしまうためである。非特許文献1で提案されているような、主成分分析に基づく処理も、同様の理由で妥当ではない。一方で、複素数の集合からその平均値を減算する処理はハイパスフィルタと等価であり、複素数の集合にあるスカラーを乗じる処理はフィルタゲインの調整とみなせる。そこで、本実施例では、以下の簡略化複素BNを提案する。 Is the mean and variance in the mini-batch, and ε> 0 is a small positive constant. For example, ε may be set to about 10 -5 . This works well for real numbers, but it doesn't make sense to apply it straight to complex numbers. This is because, for example, if BN is applied separately to the real part and the imaginary part, the relation of the norm of the complex variable (corresponding to the relation of the amplitude of each frequency) and the phase spectrum are destroyed. Processing based on principal component analysis as proposed in Non-Patent Document 1 is also not valid for the same reason. On the other hand, the process of subtracting the average value from the set of complex numbers is equivalent to a high-pass filter, and the process of multiplying the scalar in the set of complex numbers can be regarded as the adjustment of the filter gain. Therefore, in this embodiment, the following simplified complex BN is proposed.
式(11)において、平均値の減算は実部と虚部について別々に行うが、ノルム操作は実部と虚部について同じパラメータ(式(11)の分母に該当する部分)を利用している点が従来法と異なる。また、学習可能なパラメータγとβも、同様の理由で利用しない。 In equation (11), the subtraction of the mean value is performed separately for the real part and the imaginary part, but the norm operation uses the same parameters (the part corresponding to the denominator of equation (11)) for the real part and the imaginary part. The point is different from the conventional method. Also, the learnable parameters γ and β are not used for the same reason.
<複素GLU>
複素スペクトルに対して妥当な活性化関数を考える。非特許文献1では、以下の3種類の活性化関数が提案されている。
<Complex GLU>
Consider an activation function that is valid for complex spectra. Non-Patent Document 1 proposes the following three types of activation functions.
ここで| |は絶対値、Arg[ ]は複素数の角度を返す関数である。本実施例では、位相スペクトルを保存するために、式(14)の形式の活性化関数を考える。すなわち、振幅スペクトルのみを操作する活性化関数である。 Where | | is an absolute value and Arg [] is a function that returns the argument of a complex number. In this embodiment, in order to preserve the phase spectrum, consider the activation function of the form of Eq. (14). That is, it is an activation function that manipulates only the amplitude spectrum.
振幅スペクトルのみを操作する音響信号処理手法で代表的なものは、式(5)の時間周波数マスクである。そこで、実部と虚部を入力し、時間周波数マスクを出力するCNNを考える。 A typical acoustic signal processing method that manipulates only the amplitude spectrum is the time-frequency mask in Eq. (5). Therefore, consider a CNN that inputs the real part and the imaginary part and outputs the time-frequency mask.
ここでconcatは2変数のチャネル方向への結合である。この形式は、GLUと類似している。GLUは実数値を入力して、マスクを出力する活性化関数だが、本実施例では、複素数値をチャネル方向に結合してマスクを出力するGLU(i.e.複素GLU)を実行する。 Where concat is a combination of two variables in the channel direction. This format is similar to GLU. GLU is an activation function that inputs a real value and outputs a mask, but in this embodiment, GLU (i.e. complex GLU) that combines complex values in the channel direction and outputs a mask is executed.
<実施形態>
以下、具体的な実施形態として、時間周波数マスク推定器学習装置1について説明する。図1に示すように、時間周波数マスク推定器学習装置1は、時間周波数マスク推定器11と、学習部12を含む構成であり、装置外部、あるいは装置内部に目的音DB91と、雑音DB92を含む構成である。また、時間周波数マスク推定器11は、CNN処理部111と、BN処理部112と、GLU処理部113と、補助演算部114を含む構成である。
<Embodiment>
Hereinafter, as a specific embodiment, the time-frequency mask estimator learning device 1 will be described. As shown in FIG. 1, the time-frequency mask estimator learning device 1 has a configuration including a time-
図2に示すように、時間周波数マスク推定器11は、目的音DB91から目的音を、雑音DB92から雑音をランダムに選択し、それを重畳することで観測信号をシミュレーションし、観測信号のSTFTに対して、CNN処理とBN処理とGLU処理を実行して、任意の観測信号から目的音を推定するための時間周波数マスクを推定する(S11)。ステップS11を最初に実行する場合、時間周波数マスクGのパラメータは、例えば、何らかの乱数で初期化しておく。なお、STFT処理については、時間周波数マスク推定器11が実行してもよいし、図示しないSTFT処理部が実行することとしてもよい。
As shown in FIG. 2, the time-
学習部12は、既知の目的音と既知の雑音とを重畳してなる既知の観測信号と時間周波数マスクを乗算した値(式(5))と、既知の目的音との間の任意のコスト関数が最小化するように時間周波数マスク推定器11のパラメータを学習する(S12)。学習法には、確率的最急降下法などを利用すればよく、その学習率は10-5程度に設定すればよい。
The
時間周波数マスク推定器学習装置1は、収束判定をし、収束していなければステップS11へ戻る。収束判定ルールは、例えばS12を一定回数(例えば10万回)繰り返したか否か、などとすればよい。 The time-frequency mask estimator learning device 1 makes a convergence test, and if it does not converge, the process returns to step S11. The convergence test rule may be, for example, whether or not S12 is repeated a certain number of times (for example, 100,000 times).
ステップS11の詳細を図3に示す。時間周波数マスク推定器11は、観測信号のSTFTに対して、所定の順序で、CNN処理(S111)、BN処理(S112)、GLU処理(S113)、その他の処理(S114)を繰り返し実行する。以下、ステップS111~S114の詳細を説明する。
The details of step S11 are shown in FIG. The time-
CNN処理部111は、観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対して、式(8)または(9)に基づいて、時間方向のストライドを1に制約して、畳み込みニューラルネットワーク処理を実行する(S111)。BN処理部112は、観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対するノルム操作に共通のパラメータ(1/√(σ2
BRe+σ2
BIm+ε))を利用する式(11)に基づいて、バッチ正規化処理を実行する(S112)。GLU処理部113は、式(15)に基づいて、観測信号のSTFTスペクトルの実部zReと、対応する虚部を実数と見做した値zImを結合した値concat(zRe,zIm)に対して、ゲート線形ユニット処理を実行する(S113)。補助演算部114は、上記以外のその他の処理(例えばconcatやsigmoid)を実行する(S114)。
The
図4は、三つのモジュールを組み合わせた時間周波数マスク推定器(ニューラルネットワーク)の構成例を示す図である。“Conv”,“BN”,“GLU”,“Concat”,“sigmoid”はそれぞれ、制約付き複素CNN、簡略化複素BN、複素GLU、入力のチャネル方向への結合、シグモイド関数の演算を表す。c,k,s,pはそれぞれ、チャネル数、カーネルサイズ、ストライドサイズ、パディングサイズである。 FIG. 4 is a diagram showing a configuration example of a time-frequency mask estimator (neural network) in which three modules are combined. “Conv”, “BN”, “GLU”, “Concat”, and “sigmoid” represent the constrained complex CNN, the simplified complex BN, the complex GLU, the coupling in the channel direction of the input, and the operation of the sigmoid function, respectively. c, k, s, and p are the number of channels, kernel size, stride size, and padding size, respectively.
<効果>
実施例1の時間周波数マスク推定器学習装置1によれば、複素スペクトルをそのまま入力するための、DNNのモジュールとして、(1)制約付き複素畳み込みニューラルネットワーク(CNN: convolutionalneural network)、(2)簡略化複素バッチ正規化(BN: batch normalization)、(3)複素ゲート線形ユニット(GLU: fated linear unit)の三つを導入したため、FFTスペクトルを複素数のまま、かつ信号処理理論に則った処理をDNNで実現できる。
<Effect>
According to the time-frequency mask estimator learning device 1 of the first embodiment, as a DNN module for inputting a complex spectrum as it is, (1) a constrained convolutional neural network (CNN), and (2) a simplification. Since we introduced three types of complex normalization (BN: batch normalization) and (3) complex gate linear unit (GLU), the FFT spectrum remains complex and the processing according to the signal processing theory is performed by DNN. Can be realized with.
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The device of the present invention is, for example, as a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Communication unit, CPU (Central Processing Unit, cache memory, registers, etc.) to which can be connected, RAM and ROM as memory, external storage device as hard hardware, and input, output, and communication units of these. , CPU, RAM, ROM, has a bus connecting so that data can be exchanged between external storage devices. Further, if necessary, a device (drive) or the like capable of reading and writing a recording medium such as a CD-ROM may be provided in the hardware entity. As a physical entity equipped with such hardware resources, there is a general-purpose computer or the like.
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program required to realize the above-mentioned functions and data required for processing of this program (not limited to the external storage device, for example, reading a program). It may be stored in a ROM, which is a dedicated storage device). Further, the data obtained by the processing of these programs is appropriately stored in a RAM, an external storage device, or the like.
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in the external storage device (or ROM, etc.) and the data required for processing of each program are read into the memory as needed, and are appropriately interpreted and executed and processed by the CPU. .. As a result, the CPU realizes a predetermined function (each configuration requirement represented by the above, ... Department, ... means, etc.).
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and can be appropriately modified without departing from the spirit of the present invention. Further, the processes described in the above-described embodiment are not only executed in chronological order according to the order described, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes. ..
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing function in the hardware entity (device of the present invention) described in the above embodiment is realized by the computer, the processing content of the function that the hardware entity should have is described by the program. Then, by executing this program on the computer, the processing function in the above hardware entity is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing content can be recorded on a computer-readable recording medium. The recording medium that can be read by a computer may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like. Specifically, for example, a hard disk device, a flexible disk, a magnetic tape or the like as a magnetic recording device, and a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) as an optical disk. Memory), CD-R (Recordable) / RW (ReWritable), etc., MO (Magneto-Optical disc), etc. as a magneto-optical recording medium, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. as a semiconductor memory. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 Further, the distribution of this program is performed, for example, by selling, transferring, renting, or the like a portable recording medium such as a DVD or a CD-ROM in which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via the network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first temporarily stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. You may execute the process according to the received program one by one each time. In addition, the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and the result acquisition without transferring the program from the server computer to this computer. May be. The program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, in this form, the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized in terms of hardware.
Claims (5)
観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対するノルム操作に共通のパラメータを利用するバッチ正規化処理を実行するBN処理部と、
観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値を結合した値に対してゲート線形ユニット処理を実行するGLU処理部を含み、
任意の観測信号から目的音を推定するための時間周波数マスクを推定する時間周波数マスク推定器と、
既知の目的音と既知の雑音とを重畳してなる既知の観測信号と前記時間周波数マスクを乗算した値と、既知の目的音との間のコスト関数が最小化するように前記時間周波数マスク推定器のパラメータを学習する学習部を含む
時間周波数マスク推定器学習装置。 A real part of the FTFT spectrum of the observed signal, a CNN processing part that performs convolutional neural network processing on the value that regards the corresponding imaginary part as a real number, and
A BN processing unit that executes batch normalization processing that uses parameters common to norm operations for values that regard the real part of the FTFT spectrum of the observation signal as a real number and the corresponding imaginary part.
Includes a GLU processing unit that performs gate linear unit processing on a value that combines the real part of the FTFT spectrum of the observed signal and the value that considers the corresponding imaginary part as a real number.
A time-frequency mask estimator that estimates the time-frequency mask for estimating the target sound from an arbitrary observation signal,
The time-frequency mask estimation so that the cost function between the value obtained by multiplying the known observation signal obtained by superimposing the known target sound and the known noise and the time-frequency mask and the known target sound is minimized. A time-frequency mask estimator learning device that includes a learning unit that learns instrument parameters.
前記CNN処理部は、時間方向へのストライドを1に制約して、前記畳み込みニューラルネットワーク処理を実行する
時間周波数マスク推定器学習装置。 The time-frequency mask estimator learning device according to claim 1.
The CNN processing unit is a time-frequency mask estimator learning device that executes the convolutional neural network processing by limiting the stride in the time direction to 1.
観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対して畳み込みニューラルネットワーク処理を実行するステップと、
観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値に対するノルム操作に共通のパラメータを利用するバッチ正規化処理を実行するステップと、
観測信号のSTFTスペクトルの実部と、対応する虚部を実数と見做した値を結合した値に対してゲート線形ユニット処理を実行するステップを実行し、
時間周波数マスク推定器学習装置が、
既知の目的音と既知の雑音とを重畳してなる既知の観測信号と前記時間周波数マスクを乗算した値と、既知の目的音との間のコスト関数が最小化するように前記時間周波数マスク推定器のパラメータを学習するステップを実行する
時間周波数マスク推定器学習方法。 A time-frequency mask estimator that estimates a time-frequency mask for estimating a target sound from an arbitrary observation signal,
A step of executing a convolutional neural network process on a value in which the real part of the FTFT spectrum of the observed signal and the corresponding imaginary part are regarded as real numbers,
A step to execute a batch normalization process that uses parameters common to norm operations for values that regard the real part of the FTFT spectrum of the observed signal and the corresponding imaginary part as real numbers.
Perform the step of performing gate linear unit processing on the value obtained by combining the real part of the FTFT spectrum of the observation signal and the value in which the corresponding imaginary part is regarded as a real number.
The time-frequency mask estimator learning device
The time-frequency mask estimation so that the cost function between the value obtained by multiplying the known observation signal obtained by superimposing the known target sound and the known noise and the time-frequency mask and the known target sound is minimized. A time-frequency mask estimator learning method that performs the steps of learning instrument parameters.
時間方向へのストライドを1に制約して、前記畳み込みニューラルネットワーク処理を実行する
時間周波数マスク推定器学習方法。 The time-frequency mask estimator learning method according to claim 3.
A time-frequency mask estimator learning method that executes the convolutional neural network process by limiting the stride in the time direction to 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019015065A JP7026357B2 (en) | 2019-01-31 | 2019-01-31 | Time frequency mask estimator learning device, time frequency mask estimator learning method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019015065A JP7026357B2 (en) | 2019-01-31 | 2019-01-31 | Time frequency mask estimator learning device, time frequency mask estimator learning method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020122896A JP2020122896A (en) | 2020-08-13 |
JP7026357B2 true JP7026357B2 (en) | 2022-02-28 |
Family
ID=71992635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019015065A Active JP7026357B2 (en) | 2019-01-31 | 2019-01-31 | Time frequency mask estimator learning device, time frequency mask estimator learning method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7026357B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882046B (en) * | 2020-09-27 | 2021-01-19 | 北京声智科技有限公司 | Multimedia data identification method, device, equipment and computer storage medium |
CN112201272B (en) * | 2020-09-29 | 2024-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | Method, device, equipment and storage medium for reducing noise of audio data |
JP7333878B2 (en) * | 2021-02-05 | 2023-08-25 | 三菱電機株式会社 | SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, AND SIGNAL PROCESSING PROGRAM |
CN113470685B (en) * | 2021-07-13 | 2024-03-12 | 北京达佳互联信息技术有限公司 | Training method and device for voice enhancement model and voice enhancement method and device |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018031967A (en) | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | Sound source enhancement device, and method and program for the same |
-
2019
- 2019-01-31 JP JP2019015065A patent/JP7026357B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018031967A (en) | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | Sound source enhancement device, and method and program for the same |
Also Published As
Publication number | Publication date |
---|---|
JP2020122896A (en) | 2020-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7026357B2 (en) | Time frequency mask estimator learning device, time frequency mask estimator learning method, program | |
El-Moneim et al. | Text-independent speaker recognition using LSTM-RNN and speech enhancement | |
JP6903611B2 (en) | Signal generators, signal generators, signal generators and programs | |
DE102019112383A1 (en) | Neural network for speech removal, which is trained with deep loss of features | |
EP3664084A1 (en) | Electronic device and control method therefor | |
CN114242044B (en) | Voice quality evaluation method, voice quality evaluation model training method and device | |
Zheng et al. | Effects of skip connections in CNN-based architectures for speech enhancement | |
Islam et al. | Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask | |
Ben Kheder et al. | Robust speaker recognition using map estimation of additive noise in i-vectors space | |
JP6721165B2 (en) | Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program | |
Bilen et al. | Joint audio inpainting and source separation | |
Abel et al. | A data driven approach to audiovisual speech mapping | |
JP6827908B2 (en) | Speech enhancement device, speech enhancement learning device, speech enhancement method, program | |
JP6849978B2 (en) | Speech intelligibility calculation method, speech intelligibility calculator and speech intelligibility calculation program | |
US11676619B2 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program | |
WO2020162238A1 (en) | Speech recognition device, speech recognition method, and program | |
WO2020121860A1 (en) | Acoustic signal processing device, method for acoustic signal processing, and program | |
WO2021090465A1 (en) | Band extension device, band extension method, and program | |
JP7026358B2 (en) | Regression function learning device, regression function learning method, program | |
Jayakumar et al. | Speech enhancement based on noise type and wavelet thresholding the multitaper spectrum | |
Singh et al. | A Novel Algorithm of Sparse Representations for Speech Compression/Enhancement and Its Application in Speaker Recognition System | |
JP7218810B2 (en) | Speech/non-speech decision device, model parameter learning device for speech/non-speech decision, speech/non-speech decision method, model parameter learning method for speech/non-speech decision, program | |
Li et al. | An improved speech enhancement algorithm based on combination of OMLSA and IMCRA | |
Su et al. | Learning an adversarial network for speech enhancement under extremely low signal-to-noise ratio condition | |
Helali et al. | Hybrid Feature Extraction Techniques Using TEO-PWP for Enhancement of Automatic Speech Recognition in Real Noisy Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190131 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7026357 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |