JP2019193073A - Sound source separation device, method thereof, and program - Google Patents

Sound source separation device, method thereof, and program Download PDF

Info

Publication number
JP2019193073A
JP2019193073A JP2018083097A JP2018083097A JP2019193073A JP 2019193073 A JP2019193073 A JP 2019193073A JP 2018083097 A JP2018083097 A JP 2018083097A JP 2018083097 A JP2018083097 A JP 2018083097A JP 2019193073 A JP2019193073 A JP 2019193073A
Authority
JP
Japan
Prior art keywords
signal
acoustic signal
sound source
noise
source separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018083097A
Other languages
Japanese (ja)
Inventor
弘章 伊藤
Hiroaki Ito
弘章 伊藤
悠馬 小泉
Yuma Koizumi
悠馬 小泉
登 原田
Noboru Harada
登 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018083097A priority Critical patent/JP2019193073A/en
Priority to PCT/JP2019/014817 priority patent/WO2019208137A1/en
Publication of JP2019193073A publication Critical patent/JP2019193073A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Abstract

To provide a sound source separation device with higher separation accuracy than before.SOLUTION: The sound source separation device includes: a diffusive noise removal part configured to remove an estimated diffuse noise signal from observed signal and to obtain the removed signal; a filter design part configured to obtain a filter by combining the probability distribution of modeled removed signal and the probability distribution of modeled transfer function; and a sound source separation part configured to separate noise component estimate value including at least first acoustic signals and coherent noise acoustic signals from observed signal by the filter.SELECTED DRAWING: Figure 4

Description

本発明は、雑音環境下において、既知の音響信号をマイクロホンに与えた際(例えば、既知の音響信号を再生し、再生音をマイクロホンで収録した際)に得られた観測信号と、既知の音響信号から、観測信号に含まれる音声成分と雑音成分を分離する音源分離装置に関する。   The present invention provides an observation signal obtained when a known acoustic signal is applied to a microphone in a noisy environment (for example, when a known acoustic signal is reproduced and a reproduced sound is recorded by the microphone), and a known acoustic signal. The present invention relates to a sound source separation device that separates a speech component and a noise component contained in an observation signal from a signal.

マイクロホンの音声認識性能を評価する場合、マイクロホンで収録した観測信号からSN比を推定し、SN比推定値と音声認識率の比較を行うものがある。例えば、SN比推定値の異なる2つ以上の観測信号に対して1台の音声認識装置で音声認識を行うことで、各SN比推定値に対するその音声認識装置の音声認識率を比較することができる。   When evaluating the speech recognition performance of a microphone, there is one that estimates the SN ratio from the observation signal recorded by the microphone and compares the SN ratio estimated value with the speech recognition rate. For example, it is possible to compare the speech recognition rates of the speech recognition apparatus with respect to each SN ratio estimation value by performing speech recognition with one speech recognition apparatus for two or more observation signals having different SN ratio estimation values. it can.

このような手法を利用することで、観測信号が人間にとって認識してほしいと感じるか否か、という推定ができ(例えば、SN比が高い観測信号であれば聞き取りやすく認識して欲しいと感じると推定できる)、ユーザー体感値に近い認識性能の評価が可能となる。言い換えると、SN比が高い(音声成分に対して雑音成分が少なく聞き取りやすい)と音声認識の認識精度が高くなり、SN比が低い(音声成分に対して雑音成分が多く聞き取りづらい)と音声認識の認識精度が低くなるという点を考慮した認識性能の評価が可能となる。   By using such a method, it is possible to estimate whether or not the observation signal is desired to be recognized by humans (for example, if an observation signal with a high SN ratio is desired to be recognized easily) It is possible to estimate the recognition performance close to the user experience value. In other words, a high SN ratio (easy to hear with less noise component compared to the speech component) results in higher speech recognition recognition accuracy, and a lower SNR (more noise component than the speech component makes it difficult to hear) speech recognition. The recognition performance can be evaluated in consideration of the fact that the recognition accuracy of the image becomes low.

上記のような性能評価のためのデータは、一般的に予め図示しない音声信号データベースを用意し、図1のようにスピーカ71から目的音stを再生し、スピーカ72から干渉性雑音ntを再生し、マイクロホン73で収録した観測信号xtを用い、SN比推定部74でSN比を推定する。なお、観測信号xtには拡散性雑音dtも含まれる。tは時刻を示すインデックスである。 Data for performance evaluation as described above, generally prepared speech signal database, not previously shown to reproduce the target sound s t from the speaker 71 as shown in FIG. 1, the interference noise n t from the speaker 72 The SN ratio is estimated by the SN ratio estimator 74 using the observation signal x t recorded by the microphone 73. Note that the observed signal x t also include diffuse noise d t. t is an index indicating time.

従来のSN比推定技術は、図2のように目的音(元の音響信号であり、源音源または源信号ともいう)stから得られる発話区間情報を参考に、発話区間(図2中のTs0〜Ts1)から音声成分を、非発話区間(図2中のTn0〜Tn1)から雑音成分を求める(非特許文献1参照)。 Conventional SN ratio estimation techniques, target sound as in FIG. 2 (a original sound signal, a source referred to as a source or source signal) to the speech period information obtained from s t send speech segment (in Figure 2 The speech component is obtained from T s0 to T s1 ) and the noise component is obtained from the non-speech interval (T n0 to T n1 in FIG. 2) (see Non-Patent Document 1).

しかし、非定常な雑音が存在すると、SN比の推定値とユーザー体感値(実感値)との間に差が生じる。例えば、図2Aを非定常な雑音が存在しない状態とし、図2Bでは非発話区間(図2中のTn0〜Tn1)を含む区間に非定常な雑音が存在しSN比がユーザー体感値よりも低く推定され、図2Cでは発話区間(図2中のTs0〜Ts1)を含む区間に非定常な雑音が存在しSN比がユーザー体感値よりも高く推定される。 However, if non-stationary noise is present, a difference occurs between the estimated value of the SN ratio and the user experience value (actual feeling value). For example, FIG. 2A is set to a state in which non-stationary noise does not exist, and in FIG. 2B, non-stationary noise exists in a section including a non-speech section (T n0 to T n1 in FIG. 2), and the SN ratio is based on the user experience value. In FIG. 2C, non-stationary noise exists in the section including the speech section (T s0 to T s1 in FIG. 2), and the SN ratio is estimated to be higher than the user experience value.

そこで、図3のように、音源分離部84において観測信号xtの音声成分と雑音成分とを分離し、SN比推定部85において分離した信号からSN比を推定する手法を提案する。ここでは、目的音sω,τ∈C(Cは複素数の全体の集合)と干渉性雑音nω,τ∈Cや拡散性雑音dω,τ∈Cが以下のように重畳した観測信号xω,τ∈Cから、観測信号xω,τに含まれる目的音由来の成分(音声成分)aωsω,τと、雑音由来の成分(雑音成分)nω,τ+dω,τを推定する問題を扱う。
xω,τ=aωsω,τ+nω,τ+dω,τ (1)
ここで、xω,τ、sω,τ、nω,τ、dω,τはそれぞれ時間領域の信号xt、st、nt、dtを周波数領域の信号に変換したものであり、ω∈{1,…,Ω}とτ∈{1,…,Τ}は周波数と(フレーム)時間のインデックス、aωは目的音位置(目的音の発生位置)から観測位置までの伝達特性(伝達関数ともいう)である。以降、表記の簡単のために、|xω,τ|=Xω,τのように複素数の絶対値を各小文字に対応する大文字で表記する。特に断りのない限り、小文字の変数は複素数、大文字の変数は実数とする。拡散性雑音としては、空調の音などを含む背景雑音等の定常的な雑音が想定される。干渉性雑音としては、本来、収録対象としていない人の発話やTVの音声、突発的な物音等の非定常な雑音が想定される。
Therefore, as shown in FIG. 3, it separates the speech and noise components of the observed signal x t in the sound source separation unit 84, to propose a method for estimating the SN ratio from the signal separated in SN ratio estimation unit 85. Here, the target signal s ω, τ ∈ C (C is the entire set of complex numbers) and the coherent noise n ω, τ ∈ C and the diffusive noise d ω, τ ∈ C are superimposed as follows: From ω, τ ∈ C, the target sound-derived component (speech component) a ω s ω, τ included in the observation signal x ω, τ and the noise-derived component (noise component) n ω, τ + d ω, τ Dealing with the problem of estimating.
x ω, τ = a ω s ω, τ + n ω, τ + d ω, τ (1)
Here, x ω, τ , s ω, τ , n ω, τ , d ω, τ are converted from time domain signals x t , st , n t , dt to frequency domain signals, respectively. , Ω∈ {1,…, Ω} and τ∈ {1,…, Τ} are frequency and (frame) time indices, and a ω is the transfer characteristic from the target sound position (target sound generation position) to the observation position. (Also called transfer function). Hereinafter, for the sake of simplicity, the absolute value of the complex number is expressed in uppercase letters corresponding to each lowercase letter such as | x ω, τ | = X ω, τ . Unless otherwise noted, lowercase variables are complex and uppercase variables are real. As the diffuse noise, stationary noise such as background noise including air-conditioning sound is assumed. As the coherent noise, non-stationary noise such as an utterance of a person who is not originally recorded, a TV voice, or a sudden sound is assumed.

観測信号xω,τから音声成分aωsω,τと雑音成分nω,τ+dω,τとを推定する代表的な手法に、非線形フィルタリングがある。この方法では、非線形フィルタを以下の式で設計し、 Observed signal x omega, voice component from τ a ω s ω, τ and a noise component n ω, τ + d ω, a typical method of estimating the tau, there is a non-linear filtering. In this method, the nonlinear filter is designed with the following equation:

各信号(成分)を以下のように推定する。
^aω^sω,τ=Gω,τxω,τ (3)
^nω,τ+^dω,τ=(1-Gω,τ)xω,τ (4)
このように各信号(成分)を推定することで、例えば式(5)で定義されるような各時間フレームのSNRであるsSNR(segmental-SNR)を推定できる。
Each signal (component) is estimated as follows.
^ a ω ^ s ω, τ = G ω, τ x ω, τ (3)
^ n ω, τ + ^ d ω, τ = (1-G ω, τ ) x ω, τ (4)
By estimating each signal (component) in this way, it is possible to estimate sSNR (segmental-SNR), which is the SNR of each time frame as defined by Equation (5), for example.

式(2)において、非線形フィルタGω,τを推定するためには、伝達特性Aω、目的音Sω,τ、干渉性雑音Nω,τ、拡散性雑音Dω,τを推定する必要がある。本問題設定では、目的音Sω,τは既知であると仮定しているため、観測信号Xω,τから伝達特性Aω、干渉性雑音Nω,τ、拡散性雑音Dω,τを推定することで、非線形フィルタGω,τ及びSNRの推定が可能である。 In Equation (2), in order to estimate the nonlinear filter G ω, τ , it is necessary to estimate the transfer characteristic A ω , target sound S ω, τ , coherent noise N ω, τ , and diffusive noise D ω, τ There is. In this problem setting, since the target sound S ω, τ is assumed to be known, transfer characteristics A ω , coherent noise N ω, τ , and diffusive noise D ω, τ are obtained from the observed signal X ω, τ. By estimating, it is possible to estimate the nonlinear filters Gω, τ and SNR.

上記の音源分離問題における従来手法の多くでは、振幅領域での各音源の瞬時混合、および伝達特性の振幅領域での乗法性を仮定している。今、上記の仮定が成り立つとすると、観測信号Xω,τは以下のように記述できる。
Xω,τ=AωSω,τ+Nω,τ+Dω,τ (6)
このモデルの下で、各成分を推定する手法には様々なものがある。拡散性雑音Dω,τを推定する手法で代表的なものは、拡散性雑音Dω,τが定常雑音であると仮定し、観測信号Xω,τの期待値とすることである。
Many of the conventional methods in the above sound source separation problem assume instantaneous mixing of sound sources in the amplitude region and multiplicative properties in the amplitude region of the transfer characteristics. Assuming that the above assumption holds, the observation signal X ω, τ can be described as follows.
X ω, τ = A ω S ω, τ + N ω, τ + D ω, τ (6)
There are various methods for estimating each component under this model. Dispersive noise D omega, typical in a manner of estimating the tau is to diffuse noise D omega, tau is assumed to be stationary noise, the expected value of the observation signal X omega, tau.

しかし、この方法だけでは、雑音成分のうち拡散性雑音Dω,τしか推定できず、干渉性雑音Nω,τを推定することができない。干渉性雑音Nω,τを推定する方法として、半教師付非負値行列因子分解(NMF: non-negative matrix factorization)がある。半教師付NMFでは観測信号Xω,τに関して以下のようなモデルを置く。 However, only this method can estimate only the diffusive noise Dω, τ among the noise components, and cannot estimate the coherent noise Nω, τ . There is a semi-supervised non-negative matrix factorization (NMF) as a method for estimating the coherent noise N ω, τ . Semi-supervised NMF puts the following models for observed signals X ω, τ .

ここでWS ω,rとWN ω,kはそれぞれ、目的音と干渉性雑音の振幅スペクトルの基底、HS r,τとHN k,τはそれぞれ、目的音と干渉性雑音の振幅スペクトルの各基底に対応する強度(アクティベーション)であり、RとKはそれぞれの基底数である。本問題設定では、目的音Sω,τが既知であるため、基底WS ω,rと強度HS r,τを、目的音Sω,τWhere W S ω, r and W N ω, k are the basis of the amplitude spectrum of the target sound and coherent noise, and H S r, τ and H N k, τ are the amplitudes of the target sound and coherent noise, respectively. It is the intensity (activation) corresponding to each base of the spectrum, and R and K are the respective base numbers. In this problem setting, since the target sound S ω, τ is known, the base W S ω, r and the intensity H S r, τ are changed to the target sound S ω, τ and

の間の一般化KL情報量などの目的関数を最小化するように学習し、次いで、観測信号Xω,τと式(7)の間の一般化KL情報量などの目的関数を最小化するように基底WN ω,kと強度HN k,τを学習する(非特許文献2参照)。 Learn to minimize the objective function such as generalized KL information amount between, and then minimize the objective function such as generalized KL information amount between observation signal X ω, τ and Equation (7) Thus, the base W N ω, k and the intensity H N k, τ are learned (see Non-Patent Document 2).

"G.160 : Revised Appendix II - Objective measures for the characterization of the basic functioning of noise reduction algorithms", International Telecommunication Union"G.160: Revised Appendix II-Objective measures for the characterization of the basic functioning of noise reduction algorithms", International Telecommunication Union D. Kitamura, N. Ono, H. Saruwatari, Y. Takahashi, and K. Kondo, "DISCRIMINATIVE AND RECONSTRUCTIVE BASIS TRAINING FOR AUDIO SOURCE SEPARATION WITH SEMI-SUPERVISED NONNEGATIVE MATRIX FACTORIZATION", in Proc., IWAENC 2016.D. Kitamura, N. Ono, H. Saruwatari, Y. Takahashi, and K. Kondo, "DISCRIMINATIVE AND RECONSTRUCTIVE BASIS TRAINING FOR AUDIO SOURCE SEPARATION WITH SEMI-SUPERVISED NONNEGATIVE MATRIX FACTORIZATION", in Proc., IWAENC 2016.

しかしながら、式(7)では伝達特性Aωと拡散性雑音Dω,τを考慮していないため、観測信号Xω,τからの目的音由来の成分aωsω,τと雑音由来の成分nω,τ+dω,τの分離精度が低く、これを適用しただけではSNRを精緻に推定することは困難である。 However, since the formula (7) and the transfer characteristic A omega diffuse noise D omega, do not consider the tau, observation signals X omega, components derived from the target sound from τ a ω s ω, components derived from tau and noise The separation accuracy of n ω, τ + d ω, τ is low, and it is difficult to estimate the SNR precisely only by applying this.

本発明は、従来よりも分離精度の高い音源分離技術装置を提供することを目的とする。   An object of the present invention is to provide a sound source separation technology apparatus with higher separation accuracy than the conventional one.

上記の課題を解決するために、本発明の一態様によれば、音源分離装置は、スピーカから発せられた所定の音響信号をマイクロホンで収録した観測信号から所望の音響信号を取得する。観測信号は、所定の音響信号とスピーカとマイクロホンとの間の空間特性を表現した関数である伝達関数とに基づく第一音響信号と、干渉性雑音である干渉性雑音音響信号と、拡散性雑音である拡散性雑音音響信号と、を含んでおり、音源分離装置は、観測信号から拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去部と、除去済信号をモデル化した確率分布と、伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計部と、フィルタにより観測信号から、少なくとも第一音響信号と干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離部と、を有する。   In order to solve the above problems, according to one aspect of the present invention, a sound source separation device acquires a desired acoustic signal from an observation signal obtained by recording a predetermined acoustic signal emitted from a speaker with a microphone. The observation signal includes a first acoustic signal based on a predetermined acoustic signal and a transfer function that represents a spatial characteristic between the speaker and the microphone, an interference noise acoustic signal that is coherent noise, and diffusive noise. The sound source separation device removes the estimated value of the diffusive noise acoustic signal from the observation signal and obtains the removed signal, and the removed noise signal. A filter design unit that obtains a filter by combining a probability distribution modeled with a probability distribution modeled with a transfer function, and a noise component including at least a first acoustic signal and a coherent noise acoustic signal from an observation signal by the filter A sound source separation unit that separates the estimated value of.

本発明によれば、従来よりも分離精度が高いという効果を奏する。さらに、分離した各成分を用いることで従来よりもSN比の推定精度が高いという効果を奏する。   According to the present invention, there is an effect that the separation accuracy is higher than the conventional one. Further, the use of each separated component has the effect that the SN ratio estimation accuracy is higher than in the prior art.

SN比を推定する従来技術を説明するための図。The figure for demonstrating the prior art which estimates SN ratio. 図2Aは非定常な雑音が存在しない状態を示す図、図2Bは非発話区間を含む区間に非定常な雑音が存在する状態を示す図、図2Cは発話区間を含む区間に非定常な雑音が存在する状態を示す図。2A is a diagram showing a state where non-stationary noise does not exist, FIG. 2B is a diagram showing a state where non-stationary noise exists in a section including a non-speech section, and FIG. 2C is a non-stationary noise in a section including a utterance section. The figure which shows the state which exists. SN比を推定する従来技術を説明するための図。The figure for demonstrating the prior art which estimates SN ratio. 第一実施形態に係るSN比推定装置の機能ブロック図。The functional block diagram of the SN ratio estimation apparatus which concerns on 1st embodiment. 第一実施形態に係るSN比推定装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the SN ratio estimation apparatus which concerns on 1st embodiment.

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。また、テキスト中で使用する記号「_」等は、本来直後の文字の真下に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。   Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following explanation, the symbol “^” etc. used in the text should be described immediately above the character immediately after it, but it is described immediately before the character due to restrictions on the text notation. In addition, the symbol “_” or the like used in the text should be described immediately below the character immediately after it, but it is described immediately before the character due to restrictions on the text notation. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of the vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.

<第一実施形態のポイント>
本実施形態では、半教師付NMFを拡張することで、観測信号Xω,τから、伝達特性Aω、干渉性雑音Nω,τ、拡散性雑音Dω,τを推定し、SN比を推定する手法を提供する。本実施形態のポイントは、
・半教師付NMFを、式(1)や式(6)のような実環境における観測モデルに適応するための拡散性雑音を事前に推定して観測信号から除去し、
・除去後の信号に基づき確率モデル化された半教師付NMF(非特許文献2参照)に伝達特性Aωに関する項を組み込み、事後確率最大化(MAP: maximum-a-posteriori)推定に基づく最適化を行う
アルゴリズムを提供することである。このような構成により、実環境においても観測信号から目的音由来成分と雑音由来成分を高精度に分離し、SN比を推定することができる。
<Points of first embodiment>
In this embodiment, by extending the semi-supervised NMF, the transfer characteristics A ω , coherent noise N ω, τ , and diffusive noise D ω, τ are estimated from the observed signals X ω, τ , and the SN ratio is calculated. Provide an estimation method. The point of this embodiment is
・ Semi-supervised NMF is preliminarily estimated for diffusive noise to be applied to the observation model in the real environment such as Equation (1) and Equation (6), and is removed from the observation signal.
-Optimum based on posterior probability maximization (MAP: maximum-a-posteriori) estimation by incorporating a term related to the transfer characteristic A ω into a semi-supervised NMF (see Non-Patent Document 2) that is probability-modeled based on the signal after removal It is to provide an algorithm that performs the conversion. With such a configuration, the target sound-derived component and the noise-derived component can be separated from the observation signal with high accuracy in the actual environment, and the SN ratio can be estimated.

まず、観測信号をどのようにモデル化にするかについて説明する。   First, how the observation signal is modeled will be described.

<観測信号のモデル化>
式(6)に即して観測信号をモデル化するために、まず、観測信号Xω,τを以下のように近似する。
<Modeling of observation signal>
In order to model the observation signal in accordance with Equation (6), first, the observation signal Xω, τ is approximated as follows.

ここで拡散性雑音Dω,τの推定に関する既存技術を拡張し、拡散性雑音Dω,τが、ある一定の時間フレームの間では定常雑音であると仮定する。また目的音Sω,τと干渉性雑音Nω,τが時間的に疎な信号であると仮定することで、拡散性雑音Dω,τを以下のように推定する。
^Dω,τ←Υ・min[Xω,τ-F_wd,Xω,τ-F_wd+1,…,Xω,τ+B_wd] (8)
ここでF_wdとB_wdはDω,τが定常的である時間フレーム数を規定するパラメータであり、チューニングにより求めることができる。例えば、それぞれ20程度に設定すればよい。また、Υは所定の値である。すると、拡散性雑音Dω,τを除去した観測信号(以下、「除去済信号」ともいう)Yω,τは以下のように記述することができる。
It is assumed that diffuse noise D omega, extending the existing technology related to the estimation of tau, diffuse noise D omega, tau is a stationary noise in during a certain time frame. Further, assuming that the target sound S ω, τ and the coherent noise N ω, τ are sparse signals in time, the diffusive noise D ω, τ is estimated as follows.
^ D ω, τ ← Υ ・ min [X ω, τ-F_wd , X ω, τ-F_wd + 1 ,…, X ω, τ + B_wd ] (8)
Here, F_wd and B_wd are parameters that define the number of time frames in which D ω and τ are stationary, and can be obtained by tuning. For example, each may be set to about 20. Moreover, Υ is a predetermined value. Then, the observation signal (hereinafter, also referred to as “removed signal”) Y ω, τ from which the diffusive noise D ω, τ has been removed can be described as follows.

ここで目的音の振幅スペクトルの基底WS ω,rと強度HS r,τは、従来の半教師付NMFの枠組み(非特許文献2参照)を利用することで推定できる。以降では、除去済信号Yω,τから、干渉性雑音の振幅スペクトルの基底WN ω,kと強度HN k,τおよび伝達特性Aωを推定する手法を述べる。なお、WS ω,r、HS r,τ、WN ω,k、HN k,τ、Aωの推定値をそれぞれ^WS ω,r、^HS r,τ、^WN ω,k、^HN k,τ、^Aωと表記する。 Here, the base W S ω, r and the intensity H S r, τ of the amplitude spectrum of the target sound can be estimated by using a conventional semi-supervised NMF framework (see Non-Patent Document 2). Hereinafter, a method for estimating the base W N ω, k , the intensity H N k, τ and the transfer characteristic A ω of the amplitude spectrum of the coherent noise from the removed signal Y ω, τ will be described. The estimated values of W S ω, r , H S r, τ , W N ω, k , H N k, τ , A ω are ^ W S ω, r , ^ H S r, τ , ^ W N It is written as ω, k , ^ H N k, τ , ^ A ω .

伝達特性Aωは元々物理的なパラメータであり、部屋の形状や、観測環境などの音響的な事前知識を組み込むことで、推定精度の向上が見込まれる。これを実現するために、本実施形態では、各パラメータをMAP推定で推定する。具体的には、除去済信号Yω,τに関する尤度関数p(_A,_N|_S,_Y)と、伝達特性Aωに関する事前分布p(_A|_α)を設計し、以下の式(11)の同時確率Lを最大化するように各パラメータ_A、_N、_αを推定する。
L=p(_A,_N|_S,_Y)p(_A|_α) (11)
_A:=[^Aω]∈RΩ
_N:=[^Nω,τ]∈RΩ×Τ
_S:=[Sω,τ]∈RΩ×Τ
_Y:=[Yω,τ]∈RΩ×Τ
_α:=[αω]∈RΩ
_αは伝達特性^Aωに関する事前分布をモデル化する際に用いられるパラメータの集合である。ここで尤度関数には、一般化KL情報量を確率的に解釈した確率分布である、ポアソン分布を適用する。また伝達特性Aωに関しても、伝達特性Aωは非負の変数であるため、ポアソン分布を適用する。すると各分布は以下のように記述できる。
The transfer characteristic A ω is originally a physical parameter, and estimation accuracy can be improved by incorporating acoustic prior knowledge such as the shape of the room and the observation environment. In order to realize this, in this embodiment, each parameter is estimated by MAP estimation. Specifically, the likelihood function p (_A, _N | _S, _Y) for the removed signal Y ω, τ and the prior distribution p (_A | _α) for the transfer characteristic A ω are designed, and the following equation (11 ) Are estimated so as to maximize the joint probability L of).
L = p (_A, _N | _S, _Y) p (_A | _α) (11)
_A: = [^ A ω ] ∈R Ω
_N: = [^ N ω, τ ] ∈R Ω × Τ
_S: = [S ω, τ ] ∈R Ω × Τ
_Y: = [Y ω, τ ] ∈R Ω × Τ
_α: = [α ω ] ∈R Ω
_α is a set of parameters used to model the prior distribution for the transfer characteristic ^ A ω . Here, a Poisson distribution, which is a probability distribution obtained by probabilistic interpretation of the generalized KL information amount, is applied to the likelihood function. As for the transfer characteristic A ω , since the transfer characteristic A ω is a non-negative variable, the Poisson distribution is applied. Each distribution can then be described as follows:

ここで各分布は指数分布族であるため、同時確率Lの最大化は、両辺に対数をとった対数同時分布を最大化する方が、数値計算上効率的である。ここで各分布に対数をとると、以下のように記述できる。 Here, since each distribution is an exponential family, it is more efficient in numerical calculation to maximize the simultaneous probability L by maximizing the logarithmic simultaneous distribution with logarithms on both sides. Here, when logarithm is taken for each distribution, it can be described as follows.

ゆえに最大化すべき目的関数は Therefore, the objective function to be maximized is

となる。この目的関数J(Θ)を最大化することは、同時確率Lを最大化することを意味する。 It becomes. Maximizing this objective function J (Θ) means maximizing the joint probability L.

<更新式の導出>
式(18)を最大化するように基底の推定値^WN ω,k、強度の推定値^HN k,τおよび伝達特性の推定値^Aωを推定するアルゴリズムを述べる。式(18)を直接最大化することは困難なため、本実施形態では補助関数法を利用した更新アルゴリズムを述べる。また、問題の簡単のために、R=Kとする。いま対数和の不等式より、λr,ω,τ≧0かつ
<Derivation of update formula>
An algorithm for estimating the estimated value of the base ^ W N ω, k , the estimated value of the intensity ^ H N k, τ and the estimated value of the transfer characteristic ^ A ω so as to maximize Equation (18) is described. Since it is difficult to directly maximize Equation (18), an update algorithm using the auxiliary function method will be described in this embodiment. For simplicity of the problem, R = K. From the log-sum inequality, λ r, ω, τ ≧ 0 and

とすると、以下の不等式が成り立つ。 Then, the following inequality holds.

すると目的関数J(Θ)は、以下のJ'(Θ)で下から抑えることができる。 Then, the objective function J (Θ) can be suppressed from below by the following J ′ (Θ).

補助関数法によれば、まずJ'(Θ)をλr,ω,τに関して最大化し、そのλr,ω,τの下で各変数を最大化する処理を繰り返すことで、目的関数J(Θ)を単調増加するようにパラメータを推定できる。補助関数法に基づく更新アルゴリズムは以下のようになる。 According to the auxiliary function method, first, J ′ (Θ) is maximized with respect to λ r, ω, τ , and by repeating the process of maximizing each variable under the λ r, ω, τ , the objective function J ( The parameter can be estimated to monotonically increase Θ). The update algorithm based on the auxiliary function method is as follows.

なお、行列計算ライブラリを用いて計算する際は、上記アルゴリズムの近似として、式(22)(23)を以下のような更新則に変更してもよい。 Note that when calculating using the matrix calculation library, Equations (22) and (23) may be changed to the following update rule as an approximation of the above algorithm.

また、Tは転置、_EはΩ×Τで要素が全て1の行列であり、行列の除算は要素毎の除算を表す。また_Z=[_Z(S),_W(N)]、_H=[(_H(S))T,(_H(N))T]T、_Z(S):={^Aω^Wω,r S}∈RΩ×R、_W(N):={^Wω,k N}∈RΩ×K、_H(S):={^Hr,τ S}∈RR×Τ、_H(N):={^Hk,τ N}∈RK×Τである。 T is a transpose, _E is a matrix of Ω × Τ and all elements are 1, and division of the matrix represents division for each element. Also _Z = [_ Z (S) , _W (N) ], _H = [(_ H (S) ) T , (_ H (N) ) T ] T , _Z (S) : = {^ A ω ^ W ω , r S } ∈R Ω × R , _W (N) : = {^ W ω, k N } ∈R Ω × K , _H (S) : = {^ H r, τ S } ∈R R × Τ , _H (N) : = {^ H k, τ N } ∈R K × Τ .

また_Z(S)と_H(S)を更新させないために、各更新毎に_Z(S)と_H(S)を事前学習した値へと置き換える。 Also in order not to update the _Z (S) and _H (S), replaced with a _H (S) and _Z (S) for each update to the pre-learned values.

<第一実施形態に係るSN比推定装置>
図4は第一実施形態に係るSN比推定装置の機能ブロック図を、図5はその処理フローの例を示す。
<SNR ratio estimation apparatus according to the first embodiment>
FIG. 4 is a functional block diagram of the SN ratio estimation apparatus according to the first embodiment, and FIG. 5 shows an example of the processing flow.

SN比推定装置100は、初期化部102、拡散性雑音除去部103と、フィルタ設計部104と、音源分離部105と、信号対雑音比推定部106とを含む。   The SN ratio estimation apparatus 100 includes an initialization unit 102, a diffusive noise removal unit 103, a filter design unit 104, a sound source separation unit 105, and a signal-to-noise ratio estimation unit 106.

SN比推定装置100は、スピーカ71で再生する時間領域の目的音stを周波数領域の信号に変換した目的音sω,τ、マイクロホン73で収録した時間領域の観測信号xtを周波数領域の信号に変換した観測信号xω,τ、各種パラメータを入力とする。ここでいう各種パラメータとは、例えば、式(8)のΥ、基底R,K(例えば、R=K=10程度に設定できる)、伝達特性の推定値^Aの初期値(例えば、^Aω=1)等である。なお、本実施形態では、周波数領域の目的音sω,τ、観測信号xω,τが入力されるものとして説明しているが、時間領域の目的音st、観測信号xtが入力される構成としてもよい。ただし、tは時刻のインデックスである。この場合、SN比推定装置100において、周波数領域の信号に変換する処理を行う。例えば、周波数変換には高速フーリエ変換などを利用すればよく、フーリエ変換長は256点、シフト点数は128点などにすればよい。 SN ratio estimation apparatus 100, the target sound s omega obtained by converting the target sound s t in the time domain to be reproduced by the loudspeaker 71 into a frequency domain signal, tau, of the observed signal x t the frequency domain of the time domain was recorded by the microphone 73 The observation signal x ω, τ converted to a signal and various parameters are input. The various parameters here are, for example, Υ in formula (8), bases R and K (for example, R = K = can be set to about 10), initial value of transfer characteristic estimation value ^ A (for example, ^ A ω = 1) etc. In this embodiment, the target sound s ω, τ in the frequency domain and the observation signal x ω, τ are described as input. However, the target sound s t in the time domain and the observation signal x t are input. It is good also as a structure to be. Where t is a time index. In this case, the signal-to-noise ratio estimation apparatus 100 performs processing for conversion to a frequency domain signal. For example, fast Fourier transform or the like may be used for frequency conversion, and the Fourier transform length may be 256 points and the number of shift points may be 128 points.

SN比推定装置100は、目的音sω,τ、観測信号xω,τを利用して、観測信号xω,τに含まれる音声成分と雑音成分とを分離して信号対雑音比を求め、出力する。 The SN ratio estimation apparatus 100 uses the target sound s ω, τ and the observation signal x ω, τ to separate the speech component and the noise component contained in the observation signal x ω, τ to obtain the signal-to-noise ratio. ,Output.

SN比推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。SN比推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。SN比推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。SN比推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。SN比推定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしもSN比推定装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、SN比推定装置の外部に備える構成としてもよい。   The SN ratio estimation device is, for example, a special configuration configured by reading a special program into a known or dedicated computer having a central processing unit (CPU), a main memory (RAM), and the like. Device. For example, the SN ratio estimation apparatus executes each process under the control of the central processing unit. Data input to the SN ratio estimation device and data obtained in each process are stored in, for example, a main storage device, and the data stored in the main storage device is read out to the central processing unit as necessary. Used for other processing. At least a part of each processing unit of the SN ratio estimation apparatus may be configured by hardware such as an integrated circuit. Each storage unit included in the SN ratio estimation device can be configured by, for example, a main storage device such as a RAM (Random Access Memory), or middleware such as a relational database or a key-value store. However, each storage unit is not necessarily provided in the SN ratio estimation device, and is configured by an auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory, and the SN ratio is determined. It is good also as a structure provided in the exterior of an estimation apparatus.

以下、各部について説明する。   Hereinafter, each part will be described.

<初期化部102>
初期化部102は、目的音sω,τと観測信号xω,τと各種パラメータとを入力とする。
<Initialization unit 102>
The initialization unit 102 receives the target sound sω, τ , the observation signal xω, τ, and various parameters.

初期化部102は、観測信号xω,τとΥとを用いて、式(8)により、拡散性雑音Dω,τを推定し、推定値^Dω,τを出力する。
^Dω,τ←Υ・min[Xω,τ-F_wd,Xω,τ-F_wd+1,…,Xω,τ+B_wd] (8)
初期化部102は、例えば、目的音sω,τと基底数Rを用いて、一般化KL情報量最小化などに基づく既存のNMFの枠組み(非特許文献2参照)で、基底の推定値^WS ω,rと強度の推定値^HS r,τとを求め、出力する。例えば、目的音Sω,τが既知であるため、基底の推定値^WS ω,rと強度の推定値^HS r,τを、目的音Sω,τ
The initialization unit 102 estimates the diffusive noise D ω, τ according to the equation (8) using the observation signal x ω, τ and Υ, and outputs the estimated value ^ D ω, τ .
^ D ω, τ ← Υ ・ min [X ω, τ-F_wd , X ω, τ-F_wd + 1 ,…, X ω, τ + B_wd ] (8)
The initialization unit 102 uses, for example, the target sound s ω, τ and the basis number R to estimate the basis value in an existing NMF framework (see Non-Patent Document 2) based on generalized KL information minimization. ^ W S ω, r and intensity estimate ^ H S r, τ are obtained and output. For example, since the target sound S ω, τ is known, the base estimate ^ W S ω, r and the intensity estimate ^ H S r, τ are changed to the target sound S ω, τ

の間の一般化KL情報量などの目的関数を最小化するように学習する(非特許文献2参照)。また、基底の推定値^WN ω,kと強度の推定値^HN k,τは非負の乱数などで初期化する。 Learning is performed so as to minimize an objective function such as a generalized KL information amount between (see Non-Patent Document 2). The base estimation value ^ W N ω, k and the intensity estimation value ^ H N k, τ are initialized with a non-negative random number or the like.

初期化部102は、例えば、上述の方法により、推定値^Dω,τ、基底の推定値^WS ω,r、強度の推定値^HS r,τ、基底の推定値^WN ω,k、強度の推定値^HN k,τの初期値を求め(S102)、出力する。なお、伝達特性の推定値^Aω,k、基底の推定値^WN ω,k、強度の推定値^HN k,τは本実施形態において繰り返し更新される値だが、推定値^Dω,τ、基底の推定値^WS ω,r、強度の推定値^HS r,τは1つの利用環境に対して一度設定すれば初期値をそのまま利用してもよい。 The initialization unit 102 performs, for example, the estimation value ^ D ω, τ , the basis estimation value ^ W S ω, r , the intensity estimation value ^ H S r, τ , and the basis estimation value ^ W N by the above-described method. Initial values of ω, k and estimated intensity ^ H N k, τ are obtained (S102) and output. Note that the estimated transfer value ^ A ω, k , the estimated base value ^ W N ω, k , and the estimated strength value ^ H N k, τ are values that are repeatedly updated in this embodiment, but the estimated value ^ D The initial values of ω, τ , the estimated base value ^ W S ω, r and the estimated intensity value ^ H S r, τ may be used as they are once set for one usage environment.

<拡散性雑音除去部103>
拡散性雑音除去部103は、観測信号xω,τと拡散性雑音Dω,τの推定値^Dω,τとを入力とし、式(9)により観測信号xω,τから拡散性雑音Dω,τの推定値を除去し、除去済信号Yω,τを求め(S103)、出力する。
<Diffusion noise removing unit 103>
The diffusive noise removing unit 103 receives the observation signal x ω, τ and the estimated value ^ D ω, τ of the diffusive noise D ω, τ as inputs, and from the observation signal x ω, τ by the expression (9) The estimated value of D ω, τ is removed, and the removed signal Y ω, τ is obtained (S103) and output.

<フィルタ設計部104>
フィルタ設計部104は、基底の推定値^WS ω,r、強度の推定値^HS r,τ、基底の推定値^WN ω,k及び強度の推定値^HN k,τの初期値、並びに、除去済信号Yω,τ、拡散性雑音Dω,τの推定値^Dω,τ、観測信号xω,τ、基底数K,Rを含む各種パラメータを入力とする。フィルタ設計部104は、除去済信号Yω,τをモデル化した確率分布と、伝達特性Aωをモデル化した確率分布と、を組み合わせることで非線形フィルタGω,τを得(S104)、出力する。例えば、除去済信号Yω,τに関する尤度関数p(_A,_N|_S,_Y)と、伝達特性Aωに関する事前分布p(_A|_α)とを組み合わせた式(11)の同時確率Lを最大化するように各パラメータ_A、_N、_αを推定する。
L=p(_A,_N|_S,_Y)p(_A|_α) (11)
この処理は、次の目的関数J(Θ)を最大化するように各パラメータ(基底の推定値^WN ω,k、強度の推定値^HN k,τ、伝達特性の推定値^Aω)を推定する処理に相当する。
<Filter design unit 104>
The filter design unit 104 calculates a basis estimate ^ W S ω, r , an intensity estimate ^ H S r, τ , a basis estimate ^ W N ω, k and an intensity estimate ^ H N k, τ initial value, and removing spent signal Y omega, tau, diffuse noise D omega, estimate of tau ^ D omega, tau, observed signal x omega, tau, base number K, and input various parameters including R. Filter design unit 104-removed signal Y omega, give a probability distribution that models the tau, and the probability distribution that models the transfer characteristics A omega, the nonlinear filter G omega by combining the tau (S104), the output To do. For example, the joint probability L of Equation (11) that combines the likelihood function p (_A, _N | _S, _Y) for the removed signal Y ω, τ and the prior distribution p (_A | _α) for the transfer characteristic A ω Each parameter _A, _N, and _α is estimated so as to maximize.
L = p (_A, _N | _S, _Y) p (_A | _α) (11)
This process maximizes the following objective function J (Θ) with each parameter (base estimate ^ W N ω, k , strength estimate ^ H N k, τ , transfer characteristic estimate ^ A This corresponds to the process of estimating ω ).

例えば、式(21)〜(24)または式(21),(25),(26),(24)により、基底の推定値^WN ω,k、強度の推定値^HN k,τ、伝達特性の推定値^Aωを更新する(S104−1)ことが同時確率Lを最大化し、各パラメータ_A、_N、_αを推定することを意味する。 For example, using Equations (21) to (24) or Equations (21), (25), (26), and (24), the estimated base value ^ W N ω, k and the estimated intensity value ^ H N k, τ , Updating the estimated value of transfer characteristic ^ A ω (S104-1) means maximizing the joint probability L and estimating each parameter _A, _N, _α.

ただし、_Z=[_Z(S),_W(N)]、_H=[(_H(S))T,(_H(N))T]T、_Z(S):={^Aω^Wω,r S}∈RΩ×R、_W(N):={^Wω,k N}∈RΩ×K、_H(S):={^Hr,τ S}∈RR×Τ、_H(N):={^Hk,τ N}∈RK×Τであり、式(21),(25),(26),(24)により更新する場合には、_Z(S)と_H(S)を更新させないために、各更新毎に_Z(S)と_H(S)を事前学習した値へと置き換える。 However, _Z = [_ Z (S) , _W (N) ], _H = [(_ H (S) ) T , (_ H (N) ) T ] T , _Z (S) : = {^ A ω ^ W ω , r S } ∈R Ω × R , _W (N) : = {^ W ω, k N } ∈R Ω × K , _H (S) : = {^ H r, τ S } ∈R R × Τ , _H (N) : = {^ H k, τ N } ∈R K × Τ , and when updating by equations (21), (25), (26), (24), _Z (S) and In order not to update _H (S) , _Z (S) and _H (S) are replaced with pre-learned values for each update.

フィルタ設計部104は、所定の条件を満たす場合に(S104−2)、更新を終了し、終了時の基底の推定値^WN ω,k、強度の推定値^HN k,τ、伝達特性の推定値^Aωを用いて、次式で表される非線形フィルタGω,τを求め(S104−3)、出力する。 When the predetermined condition is satisfied (S104-2), the filter design unit 104 ends the update, and the estimated value of the base ^ W N ω, k and the estimated value of the intensity ^ H N k, τ Using the estimated value ^ A ω of the characteristic, a nonlinear filter G ω, τ represented by the following equation is obtained (S104-3) and output.

フィルタ設計部104は、所定の条件を満たすまで更新処理S104−1を繰り返す。所定の条件としては、(i)S104−1を所定回数(例えば100回)繰り返すこと、(ii)更新量が所定の値よりも小さくなること等が考えられる。要は、基底の推定値^WN ω,k、強度の推定値^HN k,τ、伝達特性の推定値^Aωの更新量が所望のレベルまで収束すればよい。 The filter design unit 104 repeats the update process S104-1 until a predetermined condition is satisfied. As the predetermined condition, (i) S104-1 is repeated a predetermined number of times (for example, 100 times), and (ii) the update amount is smaller than a predetermined value. In short, it is only necessary that the update amount of the base estimated value ^ W N ω, k , the intensity estimated value ^ H N k, τ , and the transfer characteristic estimated value ^ A ω converge to a desired level.

<音源分離部105>
音源分離部105は、観測信号xω,τとフィルタGω,τとを入力とし、フィルタGω,τにより観測信号xω,τから、少なくとも音声成分の推定値^aω^sω,τと干渉性雑音nω,τを含む雑音成分の推定値とを分離する。例えば、次式により音声成分の推定値^aω^sω,τと雑音成分の推定値^nω,τ+^dω,τとを分離し(S105)、出力する。
^aω^sω,τ=Gω,τxω,τ (3)
^nω,τ+^dω,τ=(1-Gω,τ)xω,τ (4)
<Sound source separation unit 105>
The sound source separation unit 105 receives the observation signal x ω, τ and the filter G ω, τ as input, and uses the filter G ω, τ to at least estimate the speech component ^ a ω ^ s ω, τ from the observation signal x ω, τ . τ and the estimated noise component including coherent noise n ω, τ are separated. For example, the estimated value ^ a ω ^ s ω, τ of the speech component and the estimated value ^ n ω, τ + ^ d ω, τ of the noise component are separated by the following equation (S105) and output.
^ a ω ^ s ω, τ = G ω, τ x ω, τ (3)
^ n ω, τ + ^ d ω, τ = (1-G ω, τ ) x ω, τ (4)

<信号対雑音比推定部106>
信号対雑音比推定部106は、音声成分の推定値^aω^sω,τと雑音成分の推定値^nω,τ+^dω,τを入力とし、信号対雑音比を求め(S106)、出力する。例えば、次式によりsSNRを求める。
<Signal to Noise Ratio Estimator 106>
The signal-to-noise ratio estimation unit 106 receives a speech component estimate value ^ a ω ^ s ω, τ and a noise component estimate value ^ n ω, τ + ^ d ω, τ as inputs, and obtains a signal-to-noise ratio ( S106) and output. For example, sSNR is obtained by the following equation.

<効果>
このような構成により、雑音環境下の発話をマイクロホンで収録した観測信号から、音声成分と雑音成分を分離できるため、非定常な雑音が存在する環境でも、発話区間内のSN比を高精度に推定することができる。得られたSN比推定値を用いることで、以下のようなアプリケーションへの応用が可能となる。
・マイクロホン間の雑音抑圧性能の比較:例えば、雑音環境下の発話を2台以上のノイズキャンセル機能付きのマイクロホンで収録した観測信号からSN比推定値を求めることで、マイクロホンの雑音抑圧性能を比較できる。
・マイクロホンが接続する音声認識システム間の音声認識性能の比較:例えば、雑音環境下の発話をマイクロホンで収録した観測信号からSN比推定値を求めるとともに、2台以上の音声認識システムで音声認識処理を行い、SN比推定値と音声認識結果から、音声認識システム毎のSN比推定値に対する音声認識性能を比較できる。
・マイクロホンの観測信号とユーザー体感認識率との比較:例えば、雑音環境下の発話をマイクロホンで収録した観測信号からSN比推定値を求めるとともに、その観測信号に対するユーザの体感認識率を求め、SN比推定値とユーザの体感認識率とを比較できる。
・マイクロホンの観測信号と音声認識エンジンの認識性能との比較:例えば、SN比推定値の異なる2つ以上の観測信号に対して1つの音声認識エンジンで音声認識を行うことで、各SN比推定値に対するその音声認識エンジンの音声認識性能を比較できる。
<Effect>
With such a configuration, the speech component and noise component can be separated from the observation signal recorded by the microphone in the noisy environment, so the SN ratio in the utterance interval can be highly accurate even in the presence of non-stationary noise. Can be estimated. By using the obtained SN ratio estimated value, application to the following applications becomes possible.
・ Comparison of noise suppression performance between microphones: For example, by comparing the noise suppression performance of microphones by obtaining SNR estimates from observation signals recorded with two or more microphones with a noise cancellation function. it can.
・ Comparison of speech recognition performance between speech recognition systems connected to microphones: For example, an SN ratio estimate is obtained from observation signals recorded with microphones in a noisy environment, and speech recognition processing is performed with two or more speech recognition systems. And the speech recognition performance with respect to the SN ratio estimated value for each speech recognition system can be compared from the SN ratio estimated value and the speech recognition result.
・ Comparison of microphone observation signal and user sensation recognition rate: For example, the SN ratio estimated value is obtained from the observation signal recorded with the microphone in the noisy environment, and the user's sensation recognition rate for the observation signal is obtained. The ratio estimated value and the user's bodily sensation recognition rate can be compared.
Comparison of microphone observation signal and speech recognition engine recognition performance: For example, each speech signal recognition engine performs speech recognition on two or more observation signals having different SN ratio estimates, thereby estimating each signal-to-noise ratio. The speech recognition performance of the speech recognition engine against the value can be compared.

<変形例>
本実施形態では、信号対雑音比を装置の出力としているが、音源分離部105の出力値である音声成分の推定値^aω^sω,τと雑音成分推定値^nω,τ+^dω,τとを装置の出力とし、信号対雑音比推定部106を設けない構成としてもよい。この場合、音源分離装置という。なお、SN比推定装置は、音源分離装置を含んでいるとも言える。
<Modification>
In this embodiment, the signal-to-noise ratio is used as the output of the apparatus, but the estimated value ^ a ω ^ s ω, τ of the speech component that is the output value of the sound source separation unit 105 and the estimated noise component ^ n ω, τ + ^ d ω, τ may be output from the apparatus, and the signal-to-noise ratio estimation unit 106 may not be provided. In this case, it is called a sound source separation device. It can be said that the SN ratio estimation apparatus includes a sound source separation apparatus.

本実施形態では、音源分離部105において、フィルタGω,τにより観測信号xω,τから、少なくとも音声成分の推定値^aω^sω,τと雑音成分の推定値^nω,τ+^dω,τとを分離しているが、SN比を推定する際に必ずしも観測信号から拡散性雑音dω,τを分離する必要はないため、雑音成分の推定値として^nω,τのみを分離してもよい。なお、この場合、拡散性雑音を考慮せずにフィルタを設計すればよい。 In the present embodiment, the sound source separation unit 105, the filter G omega, the observed signal x omega, tau by tau, an estimate of at least speech component ^ a ω ^ s ω, the estimate of tau and a noise component ^ n omega, tau + ^ d ω, τ is separated, but it is not always necessary to separate the diffusive noise d ω, τ from the observed signal when estimating the signal-to-noise ratio . Only τ may be separated. In this case, the filter may be designed without taking diffuse noise into consideration.

<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. As another embodiment of this program, a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In addition, although each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.

Claims (8)

スピーカから発せられた所定の音響信号をマイクロホンで収録した観測信号から所望の音響信号を取得する音源分離装置であって、
前記観測信号は、前記所定の音響信号と前記スピーカと前記マイクロホンとの間の空間特性を表現した関数である伝達関数とに基づく第一音響信号と、干渉性雑音である干渉性雑音音響信号と、拡散性雑音である拡散性雑音音響信号と、を含んでおり、
前記観測信号から前記拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去部と、
前記除去済信号をモデル化した確率分布と、前記伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計部と、
前記フィルタにより前記観測信号から、少なくとも前記第一音響信号と前記干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離部と、を有する、
音源分離装置。
A sound source separation device for obtaining a desired acoustic signal from an observation signal obtained by recording a predetermined acoustic signal emitted from a speaker with a microphone,
The observation signal includes a first acoustic signal based on the predetermined acoustic signal and a transfer function that is a function expressing a spatial characteristic between the speaker and the microphone, and a coherent noise acoustic signal that is coherent noise. A diffusive noise acoustic signal that is diffusive noise, and
Removing an estimate of the diffusive noise acoustic signal from the observed signal and obtaining a removed signal;
A filter design unit that obtains a filter by combining a probability distribution modeling the removed signal and a probability distribution modeling the transfer function;
A sound source separation unit that separates at least the first acoustic signal and an estimated value of a noise component including the coherent noise acoustic signal from the observation signal by the filter;
Sound source separation device.
請求項1の音源分離装置であって、
ω={1,2,…,Ω}とτ={1,2,…,Τ}をそれぞれ周波数と時間のインデックスとし、前記伝達関数の推定値を^Aωとし、前記干渉性雑音音響信号の推定値を^Nω,τとし、前記所定の音響信号をSω,τとし、前記除去済信号をYω,τとし、_A:=[^Aω]∈RΩ、_N:=[^Nω,τ]∈RΩ×Τ、_S:=[Sω,τ]∈RΩ×Τ、_Y:=[Yω,τ]∈RΩ×Τ、_α:=[αω]∈RΩとし、前記除去済信号をモデル化した確率分布は前記除去済信号に関する尤度関数p(_A_N|_S,_Y)であり、前記伝達関数をモデル化した確率分布は前記伝達関数に関する事前分布p(_A|_α)であり、前記フィルタ設計部は、同時確率
L=p(_A,_N|_S,_Y)p(_A|_α)
を最大化するようにパラメータを推定し、推定したパラメータから前記フィルタを得る、
音源分離装置。
The sound source separation device according to claim 1,
ω = {1,2, ..., Ω} and τ = {1,2, ..., Τ} are frequency and time indices, respectively, and the estimated transfer function is ^ A ω. Is assumed to be ^ N ω, τ , the predetermined acoustic signal is S ω, τ , the removed signal is Y ω, τ , _A: = [^ A ω ] ∈R Ω , _N: = [ ^ N ω, τ ] ∈R Ω × Τ , _S: = [S ω, τ ] ∈R Ω × Τ , _Y: = [Y ω, τ ] ∈R Ω × Τ , _α: = [α ω ] ∈ R Ω , the probability distribution modeled on the removed signal is a likelihood function p (_A_N | _S, _Y) related to the removed signal, and the probability distribution modeled on the transfer function is a prior distribution related to the transfer function p (_A | _α), and the filter design unit has the joint probability
L = p (_A, _N | _S, _Y) p (_A | _α)
Parameter is estimated to maximize the filter, and the filter is obtained from the estimated parameter.
Sound source separation device.
請求項2の音源分離装置であって、
前記観測信号をXω,τとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底の推定値をそれぞれ^Wω,r Sと^Wω,k Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底に対応する強度の推定値をそれぞれ^Hr,τ Sと^Hk,τ Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底数をそれぞれRとKとし、
前記フィルタ設計部は、
により、
または、
Tは転置、_EはΩ×Τで要素が全て1の行列であり、行列の除算は要素毎の除算であり、_Z=[_Z(S),_W(N)]、_H=[(_H(S))T,(_H(N))T]T、_Z(S):={^Aω^Wω,r S}∈RΩ×R、_W(N):={^Wω,k N}∈RΩ×K、_H(S):={^Hr,τ S}∈RR×Τ、_H(N):={^Hk,τ N}∈RK×Τとし、
により、λr,ω,τ、^Wω,τ N、^Hω,τ N、^Aωを更新することで、前記同時確率の最大化するようにパラメータを推定する、
音源分離装置。
The sound source separation device according to claim 2,
The observed signal is X ω, τ , the estimated values of the amplitude spectra of the predetermined acoustic signal and the coherent noise acoustic signal are ^ W ω, r S and ^ W ω, k N , respectively. Assume that the estimated values of the intensity corresponding to the basis of the amplitude spectrum of the acoustic signal and the coherent noise acoustic signal are ^ H r, τ S and ^ H k, τ N , respectively, and the predetermined acoustic signal and the coherent noise acoustic signal Let R and K be the basis numbers of the amplitude spectrum of
The filter design unit includes:
By
Or
T is transpose, _E is a matrix with Ω x Τ and all elements are 1. Matrix division is element-by-element division, _Z = [_ Z (S) , _W (N) ], _H = [(_ H ( S) ) T , (_ H (N) ) T ] T , _Z (S) : = {^ A ω ^ W ω, r S } ∈R Ω × R , _W (N) : = {^ W ω, k N } ∈R Ω × K , _H (S) : = {^ H r, τ S } ∈R R × Τ , _H (N) : = {^ H k, τ N } ∈R K × Τ
By updating λ r, ω, τ , ^ W ω, τ N , ^ H ω, τ N , ^ A ω , parameters are estimated so as to maximize the joint probability.
Sound source separation device.
請求項3の音源分離装置であって、
前記拡散性雑音音響信号の推定値を^Dω,τとし、前記フィルタ設計部は、所定の条件を満たすまで更新処理を繰り返し、更新終了時のパラメータを用いて、前記フィルタを
として得る、
音源分離装置。
The sound source separation device according to claim 3,
The estimated value of the diffusive noise acoustic signal is set to ^ D ω, τ , and the filter design unit repeats the update process until a predetermined condition is satisfied, and uses the parameters at the end of the update to filter the filter.
Get as,
Sound source separation device.
スピーカから発せられた所定の音響信号をマイクロホンで収録した観測信号から所望の音響信号を取得する音源分離方法であって、
前記観測信号は、前記所定の音響信号と前記スピーカと前記マイクロホンとの間の空間特性を表現した関数である伝達関数とに基づく第一音響信号と、干渉性雑音である干渉性雑音音響信号と、拡散性雑音である拡散性雑音音響信号と、を含んでおり、
前記観測信号から前記拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去ステップと、
前記除去済信号をモデル化した確率分布と、前記伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計ステップと、
前記フィルタにより前記観測信号から、少なくとも前記第一音響信号と前記干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離ステップと、を有する、
音源分離方法。
A sound source separation method for obtaining a desired acoustic signal from an observation signal obtained by recording a predetermined acoustic signal emitted from a speaker with a microphone,
The observation signal includes a first acoustic signal based on the predetermined acoustic signal and a transfer function that is a function expressing a spatial characteristic between the speaker and the microphone, and a coherent noise acoustic signal that is coherent noise. A diffusive noise acoustic signal that is diffusive noise, and
Removing the estimated value of the diffusive noise acoustic signal from the observed signal and obtaining a removed signal;
A filter design step of obtaining a filter by combining a probability distribution modeling the removed signal and a probability distribution modeling the transfer function;
A sound source separation step of separating at least the first acoustic signal and an estimated value of a noise component including the coherent noise acoustic signal from the observation signal by the filter,
Sound source separation method.
請求項5の音源分離方法であって、
ω={1,2,…,Ω}とτ={1,2,…,Τ}をそれぞれ周波数と時間のインデックスとし、前記伝達関数の推定値を^Aωとし、前記干渉性雑音音響信号の推定値を^Nω,τとし、前記所定の音響信号をSω,τとし、前記除去済信号をYω,τとし、_A:=[^Aω]∈RΩ、_N:=[^Nω,τ]∈RΩ×Τ、_S:=[Sω,τ]∈RΩ×Τ、_Y:=[Yω,τ]∈RΩ×Τ、_α:=[αω]∈RΩとし、前記除去済信号をモデル化した確率分布は前記除去済信号に関する尤度関数p(_A_N|_S,_Y)であり、前記伝達関数をモデル化した確率分布は前記伝達関数に関する事前分布p(_A|_α)であり、前記フィルタ設計ステップは、同時確率
L=p(_A,_N|_S,_Y)p(_A|_α)
を最大化するようにパラメータを推定し、推定したパラメータから前記フィルタを得る、
音源分離方法。
The sound source separation method according to claim 5,
ω = {1,2, ..., Ω} and τ = {1,2, ..., Τ} are frequency and time indices, respectively, and the estimated transfer function is ^ A ω. Is assumed to be ^ N ω, τ , the predetermined acoustic signal is S ω, τ , the removed signal is Y ω, τ , _A: = [^ A ω ] ∈R Ω , _N: = [ ^ N ω, τ ] ∈R Ω × Τ , _S: = [S ω, τ ] ∈R Ω × Τ , _Y: = [Y ω, τ ] ∈R Ω × Τ , _α: = [α ω ] ∈ R Ω , the probability distribution modeled on the removed signal is a likelihood function p (_A_N | _S, _Y) related to the removed signal, and the probability distribution modeled on the transfer function is a prior distribution related to the transfer function p (_A | _α), and the filter design step has the joint probability
L = p (_A, _N | _S, _Y) p (_A | _α)
Parameter is estimated to maximize the filter, and the filter is obtained from the estimated parameter.
Sound source separation method.
請求項6の音源分離方法であって、
前記観測信号をXω,τとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底の推定値をそれぞれ^Wω,r Sと^Wω,k Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底に対応する強度の推定値をそれぞれ^Hr,τ Sと^Hk,τ Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底数をそれぞれRとKとし、
前記フィルタ設計ステップは、
により、
または、
Tは転置、_EはΩ×Τで要素が全て1の行列であり、行列の除算は要素毎の除算であり、_Z=[_Z(S),_W(N)]、_H=[(_H(S))T,(_H(N))T]T、_Z(S):={^Aω^Wω,r S}∈RΩ×R、_W(N):={^Wω,k N}∈RΩ×K、_H(S):={^Hr,τ S}∈RR×Τ、_H(N):={^Hk,τ N}∈RK×Τとし、
により、λr,ω,τ、^Wω,τ N、^Hω,τ N、^Aωを更新することで、前記同時確率の最大化するようにパラメータを推定する、
音源分離方法。
The sound source separation method according to claim 6,
The observed signal is X ω, τ , the estimated values of the amplitude spectra of the predetermined acoustic signal and the coherent noise acoustic signal are ^ W ω, r S and ^ W ω, k N , respectively. Assume that the estimated values of the intensity corresponding to the basis of the amplitude spectrum of the acoustic signal and the coherent noise acoustic signal are ^ H r, τ S and ^ H k, τ N , respectively, and the predetermined acoustic signal and the coherent noise acoustic signal Let R and K be the basis numbers of the amplitude spectrum of
The filter design step includes
By
Or
T is transpose, _E is a matrix with Ω x Τ and all elements are 1. Matrix division is element-by-element division, _Z = [_ Z (S) , _W (N) ], _H = [(_ H ( S) ) T , (_ H (N) ) T ] T , _Z (S) : = {^ A ω ^ W ω, r S } ∈R Ω × R , _W (N) : = {^ W ω, k N } ∈R Ω × K , _H (S) : = {^ H r, τ S } ∈R R × Τ , _H (N) : = {^ H k, τ N } ∈R K × Τ
By updating λ r, ω, τ , ^ W ω, τ N , ^ H ω, τ N , ^ A ω , parameters are estimated so as to maximize the joint probability.
Sound source separation method.
請求項1から請求項4の何れかの音源分離装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the sound source separation device according to any one of claims 1 to 4.
JP2018083097A 2018-04-24 2018-04-24 Sound source separation device, method thereof, and program Pending JP2019193073A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018083097A JP2019193073A (en) 2018-04-24 2018-04-24 Sound source separation device, method thereof, and program
PCT/JP2019/014817 WO2019208137A1 (en) 2018-04-24 2019-04-03 Sound source separation device, method therefor, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018083097A JP2019193073A (en) 2018-04-24 2018-04-24 Sound source separation device, method thereof, and program

Publications (1)

Publication Number Publication Date
JP2019193073A true JP2019193073A (en) 2019-10-31

Family

ID=68294007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018083097A Pending JP2019193073A (en) 2018-04-24 2018-04-24 Sound source separation device, method thereof, and program

Country Status (2)

Country Link
JP (1) JP2019193073A (en)
WO (1) WO2019208137A1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215544A (en) * 2013-04-26 2014-11-17 ヤマハ株式会社 Sound processing device
US9747921B2 (en) * 2014-02-28 2017-08-29 Nippon Telegraph And Telephone Corporation Signal processing apparatus, method, and program

Also Published As

Publication number Publication date
WO2019208137A1 (en) 2019-10-31

Similar Documents

Publication Publication Date Title
CN111161752B (en) Echo cancellation method and device
JP2014219605A (en) Method, apparatus and program for generating training speech data for target domain
JPWO2013132926A1 (en) Noise estimation device, noise estimation method, noise estimation program, and recording medium
JP2019078864A (en) Musical sound emphasis device, convolution auto encoder learning device, musical sound emphasis method, and program
JP6099032B2 (en) Signal processing apparatus, signal processing method, and computer program
KR20220022286A (en) Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder
JP6721165B2 (en) Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
US9318106B2 (en) Joint sound model generation techniques
JP5726790B2 (en) Sound source separation device, sound source separation method, and program
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
WO2019208137A1 (en) Sound source separation device, method therefor, and program
JP2016156944A (en) Model estimation device, target sound enhancement device, model estimation method, and model estimation program
CN115116469A (en) Feature representation extraction method, feature representation extraction device, feature representation extraction apparatus, feature representation extraction medium, and program product
JP5172536B2 (en) Reverberation removal apparatus, dereverberation method, computer program, and recording medium
JP7024615B2 (en) Blind separation devices, learning devices, their methods, and programs
JP6734237B2 (en) Target sound source estimation device, target sound source estimation method, and target sound source estimation program
JP6673861B2 (en) Signal processing device, signal processing method and signal processing program
KR102505653B1 (en) Method and apparatus for integrated echo and noise removal using deep neural network
JP6059112B2 (en) Sound source separation device, method and program thereof
JP2019090930A (en) Sound source enhancement device, sound source enhancement learning device, sound source enhancement method and program
JP7021437B2 (en) Training data generator, training data generation method, and program
WO2020121860A1 (en) Acoustic signal processing device, method for acoustic signal processing, and program
WO2021144934A1 (en) Voice enhancement device, learning device, methods therefor, and program
JPWO2016092837A1 (en) Audio processing device, noise suppression device, audio processing method, and program