JP2009212599A - Method, device and program for removing reverberation, and recording medium - Google Patents
Method, device and program for removing reverberation, and recording medium Download PDFInfo
- Publication number
- JP2009212599A JP2009212599A JP2008051099A JP2008051099A JP2009212599A JP 2009212599 A JP2009212599 A JP 2009212599A JP 2008051099 A JP2008051099 A JP 2008051099A JP 2008051099 A JP2008051099 A JP 2008051099A JP 2009212599 A JP2009212599 A JP 2009212599A
- Authority
- JP
- Japan
- Prior art keywords
- dereverberation
- signal
- prediction filter
- covariance
- observation signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
この発明は、音源が生成した音響信号(以降、「音源信号」と称す)を、残響のある部屋においてマイクロホンで収音して得られる信号(以降、「観測信号」と称する)から、残響を取り除いた音響信号を抽出する残響除去装置とその方法と、そのプログラムと記録媒体に関する。 According to the present invention, an acoustic signal generated by a sound source (hereinafter referred to as “sound source signal”) is collected from a signal (hereinafter referred to as “observation signal”) obtained by collecting the sound signal with a microphone in a room with reverberation. The present invention relates to a dereverberation apparatus and method for extracting a removed acoustic signal, a program thereof, and a recording medium.
音源信号が残響のある環境で収音されると、本来の音源信号に残響が重畳した信号として観測される。そのため、本来の音源信号の性質を抽出することが困難になると共に、音源信号の明瞭度が低下する。そこで、明瞭度を向上させる目的で重畳した残響を取り除く残響除去方法及び装置が従来から使われている。 When a sound source signal is collected in an environment with reverberation, it is observed as a signal in which reverberation is superimposed on the original sound source signal. For this reason, it becomes difficult to extract the nature of the original sound source signal, and the clarity of the sound source signal decreases. Therefore, a dereverberation method and apparatus for removing the superimposed reverberation have been conventionally used for the purpose of improving intelligibility.
非特許文献1に開示された従来の残響除去装置900の機能構成例を図10に示してその動作を簡単に説明する。残響除去装置900は、音源モデル90と、予測フィルタ推定部92と、残響除去部94とを備える。音源モデル90は、残響を含まない音源信号の短時間区間の音声波形をガウス分布でモデル化したものである。予測フィルタ推定部92は、観測信号と音源モデル90を入力として、観測信号の尤もらしさを表現する最適化関数を最大にする残響信号を予測する予測フィルタ係数を求める。残響除去部94は、観測信号から予測フィルタ係数で予測された残響信号を除去して音響信号を出力する。
従来の残響除去方法は、観測信号に含まれる残響信号を予測する予測フィルタ係数を、観測信号のみから推定していた。この推定には、ある程度以上の長さの観測信号を必要とするため、観測信号が短い場合には残響信号を高精度に予測することが難しく、精度の良い残響除去が行えなかった。 In the conventional dereverberation method, a prediction filter coefficient for predicting a reverberation signal included in an observation signal is estimated only from the observation signal. Since this estimation requires an observation signal having a length of a certain length or more, if the observation signal is short, it is difficult to predict the reverberation signal with high accuracy, and accurate dereverberation cannot be performed.
この発明は、このような点に鑑みてなされたものであり、観測信号が短い場合においても、比較的精度良く観測信号に含まれる残響信号を推定できる残響除去方法及びその装置と、そのプログラムと記録媒体を提供することを目的とする。 The present invention has been made in view of the above points, and even when the observation signal is short, a dereverberation removal method and apparatus capable of estimating the reverberation signal included in the observation signal with relatively high accuracy, and a program thereof. An object is to provide a recording medium.
この発明による残響除去方法は、音源モデル推定部が、時系列の観測信号を入力として残響を含まない音源モデルのモデルパラメータを推定する音源モデル推定過程と、観測信号共分散推定部が、モデルパラメータと観測信号を入力として観測信号の共分散行列と共分散ベクトルを推定する観測信号共分散推定過程と、予測フィルタ推定部が、観測信号の共分散行列と共分散ベクトルと、観測信号に含まれる残響信号を予測する予測フィルタ係数を確率的にモデル化した予測フィルタモデルを入力として予測フィルタ係数を推定する予測フィルタ係数推定過程と、残響除去部が、観測信号と予測フィルタ係数を入力として残響を含まない音声信号を推定する残響除去過程と、を備える。 In the dereverberation method according to the present invention, a sound source model estimation unit estimates a model parameter of a sound source model that does not include reverberation using a time-series observation signal as an input, and an observation signal covariance estimation unit And observation signal covariance matrix and covariance vector estimation process, and prediction filter estimator is included in the observation signal covariance matrix and covariance vector A prediction filter coefficient estimation process that estimates a prediction filter coefficient using a prediction filter model that probabilistically models a prediction filter coefficient that predicts a reverberation signal as input, and a dereverberation unit that receives the observation signal and the prediction filter coefficient as input And a dereverberation process for estimating a speech signal not included.
この発明の残響除去方法は、従来法の観測信号と音源モデルとから予測フィルタ係数を推定する方法に加え、残響信号を推定する予測フィルタ係数に関する確率モデルを用いて予測フィルタ係数を推定する。予測フィルタ係数に関する確率モデルを用いることで確率的により尤もらしい予測フィルタ係数を推定することが可能であり、観測信号が短い場合においても比較的精度良く観測信号に含まれている残響信号を推定できる。 According to the dereverberation method of the present invention, the prediction filter coefficient is estimated using a probability model related to the prediction filter coefficient for estimating the reverberation signal, in addition to the method of estimating the prediction filter coefficient from the observation signal and the sound source model of the conventional method. Predictive filter coefficients that are more likely to be probabilistic can be estimated by using a probabilistic model for predictive filter coefficients, and even if the observed signal is short, the reverberation signal included in the observed signal can be estimated relatively accurately .
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
〔発明の基本的な考え〕
実施例の説明の前に、この発明の残響除去方法の基本的な考えを説明する。この発明の残響除去方法は、従来法で用いられていた最尤推定を最大事後確率(Maximum a posteriori,以降「MAP」と称する)推定に替え、その結果必要となる予測フィルタ係数の確率モデルを考慮するようにしたものである。MAP推定とは、観測信号が得られた条件下で、目的となる確率変数(この発明の場合は予測フィルタ係数)の事後確率密度関数を最大にする値を求めることで推定値を得る方法である。なお、この発明は1本以上のマイクロホンで構成することができるが、以降では、記述を簡単にするために2本のマイクロホンの場合を例に説明する。
[Basic idea of the invention]
Prior to the description of the embodiments, the basic idea of the dereverberation method of the present invention will be described. In the dereverberation method of the present invention, the maximum likelihood estimation used in the conventional method is replaced with a maximum a posteriori (hereinafter referred to as “MAP”) estimation, and a probability model of a prediction filter coefficient required as a result is changed. It is something to consider. MAP estimation is a method for obtaining an estimated value by obtaining a value that maximizes the posterior probability density function of a target random variable (in the present invention, a prediction filter coefficient) under the condition that an observation signal is obtained. is there. Although the present invention can be composed of one or more microphones, in the following description, in order to simplify the description, the case of two microphones will be described as an example.
信号名を以下のように定義する。
st ̄は残響除去した目的信号の長さNの短時間フレームに対応するベクトル。 ̄はベクトルであることを表わすが、その表記は式及び図中に示すものが正しい。xt ━(v)はv本目のマイクロホン信号の短時間フレームに対応するベクトル。xt ̄は全てのマイクロホン信号の短時間フレームをつなげたベクトル。Xt (v)はxt (v) ̄の時系列を並べた行列。Xtはマイクロホン1と2についての時系列の行列を並べた行列。Xt2:t1はxt ̄をt2〜t1までの過去に遡って並べた行列である
観測信号を式(1)に示すように多チャネル自己回帰過程でモデル化する。
s t  ̄ is a vector corresponding to a short-time frame of length N of the target signal from which dereverberation has been removed.  ̄ represents a vector, but the notation is correct as shown in the formula and the figure. x t- (v) is a vector corresponding to the short-time frame of the v-th microphone signal. x t  ̄ is a vector that connects short-time frames of all microphone signals. X t (v) is a matrix in which time series of x t (v)  ̄ are arranged. Xt is a matrix in which time-series matrices for the microphones 1 and 2 are arranged. X t2: t1 is a matrix in which x t並 べ is arranged retroactively from t 2 to t 1. An observation signal is modeled in a multichannel autoregressive process as shown in Equation (1).
式(1)は、左辺に含まれる時刻tのv番目のマイクロホン信号xt ━(v)が、右辺に含まれる過去の信号系列Xt−Dに予測フィルタ係数c━を乗じて予測した結果、その予測誤差が目的信号st ━となることを意味している。 Expression (1) is a result of prediction by multiplying the past signal sequence X t-D included in the right side by the prediction filter coefficient c − for the v-th microphone signal x t- (v) included in the left side at the time t. This means that the prediction error becomes the target signal s t ━ .
ここでDは、時刻tの観測信号xt (v) ̄を予測する際に観測信号に付加する遅延である。D>1を導入することで、予測係数の推定誤差に対する残響除去の頑健性が向上することが報告されている(参考文献:K.Kinoshita,T.Nakatani,and M.Miyoshi,”Spectral subtraction steered by multi-step forward linear prediction for single channel speech dereverberation,”Proc.ICASSP-2006,vol.1,pp.817-820,May,2006.)。以降の説明では、v番目のマイクロホン信号を予測対象の信号として扱う。他チャネルの予測も全く同様に行うことができる。式(1)より目的信号は、式(2)で書けることからc ̄は逆フィルタと等価な情報を持つ値であるといえる。 Here, D is a delay added to the observation signal when predicting the observation signal x t (v)の at time t. It has been reported that the introduction of D> 1 improves the robustness of dereverberation against the estimation error of the prediction coefficient (reference: K. Kinoshita, T. Nakatani, and M. Miyoshi, “Spectral subtraction steered by multi-step forward linear prediction for single channel speech dereverberation, "Proc.ICASSP-2006, vol.1, pp.817-820, May, 2006.). In the following description, the v-th microphone signal is treated as a prediction target signal. Other channels can be predicted in exactly the same way. From the equation (1), the target signal can be written by the equation (2). Therefore, it can be said that c ̄ is a value having information equivalent to the inverse filter.
次に、最適化関数として推定すべきパラメータを予測フィルタ係数c ̄とし、音声モデルパラメータと予測係数からなるパラメータ集合をθとして、式(3)に示すように最適化関数を定義する。 Next, an optimization function is defined as shown in Expression (3), where a parameter to be estimated as an optimization function is a prediction filter coefficient c ̄, and a parameter set including a speech model parameter and a prediction coefficient is θ.
ここでpx(・),ps(・),及びpc(・)は、それぞれ観測信号xt (v) ̄、目的信号st ̄及び予測フィルタ係数c ̄に関する確率密度関数を表わす。上記の式の展開において、最適化に無関係な定数であるlogpx(XT:1;θ)などは略記した。式(4),(5)は、一般的な確率密度関数の性質に基づいて式(3)を展開することで得られる。式(6),(7)は、式(2)に基づき式(5)を展開するとともに、c ̄と無関係な項(v本目のマイクロホン以外の信号を予測する場合の予測フィルタ係数に関連する項)を無視することで得られる。 Here, p x (•), p s (•), and p c (•) represent probability density functions related to the observed signal x t (v)  ̄, the target signal s t  ̄, and the prediction filter coefficient cそ れ ぞ れ, respectively. In the development of the above formula, logp x (X T: 1 ; θ), which is a constant unrelated to optimization, is abbreviated. Expressions (4) and (5) are obtained by expanding Expression (3) based on the properties of a general probability density function. Expressions (6) and (7) expand Expression (5) based on Expression (2) and relate to a prediction filter coefficient when a signal other than c ̄ is predicted (a signal other than the v-th microphone). Obtained by ignoring the term).
式(7)の最適化関数は、目的信号の確率密度関数ps(st ̄;θ)と、予測フィルタ係数の確率密度関数pc(c ̄;θ)が与えられれば完全に定義することができる。式(7)の第一項は、従来の残響除去方法の最適化関数と等価な関数である。第二項は予測フィルタ係数の確率モデルである。この発明では、第二項を新たに考慮することで充分な長さの観測信号が得られない場合でも比較的精度の高い残響除去を実現することができる。 The optimization function of Equation (7) is completely defined if the probability density function p s (s t  ̄; θ) of the target signal and the probability density function p c ( c  ̄; θ) of the prediction filter coefficient are given. be able to. The first term of Equation (7) is a function equivalent to the optimization function of the conventional dereverberation method. The second term is a probability model of the prediction filter coefficient. In the present invention, reverberation removal with relatively high accuracy can be realized even when an observation signal having a sufficient length cannot be obtained by newly considering the second term.
図1にこの発明の残響除去方法を用いた残響除去装置100の機能構成例を実施例1として示す。その動作フローを図2に示す。残響除去装置100は、予測フィルタモデル記録部10と、音源モデル推定部11と、観測信号共分散推定部12と、予測フィルタ推定部13と、残響除去部44とを備える。残響除去装置100は、従来の残響除去装置900の音源モデル90を音源モデル推定部11に置き換え、予測フィルタモデル記録部10と、観測信号共分散推定部12とを追加し、予測フィルタ推定部13での処理内容を変更したものである。また、この例の残響除去装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。 FIG. 1 shows a functional configuration example of a dereverberation apparatus 100 using the dereverberation method of the present invention as a first embodiment. The operation flow is shown in FIG. The dereverberation apparatus 100 includes a prediction filter model recording unit 10, a sound source model estimation unit 11, an observation signal covariance estimation unit 12, a prediction filter estimation unit 13, and a dereverberation unit 44. The dereverberation apparatus 100 replaces the sound source model 90 of the conventional dereverberation apparatus 900 with the sound source model estimation unit 11, adds a prediction filter model recording unit 10 and an observation signal covariance estimation unit 12, and provides a prediction filter estimation unit 13. The content of the processing in is changed. In addition, the dereverberation apparatus 100 of this example is realized by reading a predetermined program into a computer including, for example, a ROM, a RAM, a CPU, and the like, and executing the program by the CPU.
音源モデル推定部11は、観測信号の時系列信号を入力として残響を含まない音源モデルのモデルパラメータを推定する(ステップS11)。その方法は、例えば観測信号をプリホワイトニング処理を行なう場合と同様に、観測信号に関する自己回帰係数を求め、それを音声信号の自己回帰係数の近似値として用いる。以降、音源モデル、つまり目的信号のモデルを確率密度関数ps、モデルパラメータを自己相関行列rとして説明する。それぞれを式(8)及び式(9)に示す様に定義する。 The sound source model estimation unit 11 receives the time series signal of the observation signal and estimates model parameters of the sound source model that does not include reverberation (step S11). In this method, for example, as in the case where the observation signal is subjected to the prewhitening process, an autoregressive coefficient relating to the observed signal is obtained and used as an approximate value of the autoregressive coefficient of the speech signal. Hereinafter, a sound source model, that is, a model of a target signal will be described as a probability density function p s and a model parameter as an autocorrelation matrix r. Each is defined as shown in Equation (8) and Equation (9).
ここでaは、目的信号st ̄の自己回帰係数α=[α1 α2 … αp]から式(10)で定義される上三角テプリッツ行列(N×N)である。 Here, a is an upper triangular Toeplitz matrix (N × N) defined by the equation (10) from the autoregressive coefficient α = [α 1 α 2 ... Α p ] of the target signal s t  ̄.
上記自己相関行列rと上記した式(8)により、最適化関数を定義する式(7)の第一
項に含まれる被加算項は式(11)に示すように展開できる。
From the autocorrelation matrix r and the above equation (8), the added term included in the first term of the equation (7) defining the optimization function can be expanded as shown in the equation (11).
ここで、式(12)とし、式(11)の展開で最適化に無関係な定数項は省略している。 Here, equation (12) is used, and constant terms unrelated to optimization are omitted in the development of equation (11).
観測信号共分散推定部12は、自己相関行列rと観測信号xt (v) ̄を入力として観測信号の共分散行列Φと共分散ベクトルφを、式(13)と(14)に基づいて推定する(ステップS12)。 The observation signal covariance estimation unit 12 receives the autocorrelation matrix r and the observation signal x t (v)  ̄ as inputs, and obtains the observation signal covariance matrix Φ and the covariance vector φ based on the equations (13) and (14). Estimate (step S12).
ここで、観測信号の共分散行列Φと共分散ベクトルφを求める理由を説明する。上記した最適化関数は、上記した確率密度関数の定義のもと、期待値最大化法(以降、「EM」と称する)アルゴリズムを用いて効率的に最大化することができる。予測係数の状態iを隠れ変数として、EMアルゴリズムにおけるQ関数は式(15)で定義される。 Here, the reason for obtaining the covariance matrix Φ and the covariance vector φ of the observation signal will be described. The above optimization function can be efficiently maximized using an expected value maximization method (hereinafter referred to as “EM”) algorithm based on the definition of the above probability density function. With the state i of the prediction coefficient as a hidden variable, the Q function in the EM algorithm is defined by Equation (15).
ここでpc(・)は、観測信号に含まれる残響信号を予測する予測フィルタ係数を確率的
にモデル化した混合ガウス分布であり、式(16)〜式(18)で定義される。
Here, p c (•) is a mixed Gaussian distribution obtained by stochastically modeling the prediction filter coefficient for predicting the reverberation signal included in the observation signal, and is defined by Expressions (16) to (18).
ここで、iは、予測フィルタ係数の状態を表わす整数(1≦i≦K)であり、giは混合比を表わす。各状態におけるガウス分布は式(19)で表わせる。 Here, i is an integer (1 ≦ i ≦ K) representing the state of the prediction filter coefficient, and g i represents the mixing ratio. The Gaussian distribution in each state can be expressed by equation (19).
混合ガウス分布は、ある特定の部屋において事前に学習されたものであり、モデルパラ
メータ{g1,μ1,Σ1,…}は事前に求められ、予測フィルタモデル記録部10に記録されている。なお、式(19)の変形として、全てのiに対してμi=0としたり、Σiの非対角要素を0と置くことで計算の効率を上げることができる。その場合のパラメータも一般的な混合ガウス分布のパラメータ学習アルゴリズムを用いて事前に定めることができる。学習方法は一般的な方法で良いので説明は省略する。
The mixed Gaussian distribution is learned in advance in a specific room, and the model parameters {g 1 , μ 1 , Σ 1 ,...} Are obtained in advance and recorded in the prediction filter model recording unit 10. . As a modification of equation (19), it is possible to increase the calculation efficiency by setting μ i = 0 for all i or by setting the non-diagonal element of Σ i to 0. The parameters in that case can also be determined in advance by using a general mixed Gaussian parameter learning algorithm. The learning method may be a general method and will not be described.
ここで式(15)の右辺は、予測フィルタ係数c ̄「n」が与えられたもとでの条件付期待値関数を表わす。予測フィルタ係数c ̄「n」に関連のある項だけ残して整理すると、Q関数は式(20)で表わせる。 Here, the right side of the equation (15) represents a conditional expected value function with the prediction filter coefficient c  ̄ “n” given. If only the terms related to the prediction filter coefficient c  ̄ “n” are left and rearranged, the Q function can be expressed by Expression (20).
ただし、
ここで式(21)の第一項は、上記した式(13)に示す観測信号共分散行列Φである。また、式(22)の第一項は、上記した式(14)に示す観測信号共分散ベクトルφである。よって、観測信号の共分散行列Φと共分散ベクトルφの推定値が式(13),(14)で与えられているとすると、EMアルゴリズムのEステップでは、式(21)と式(22)の第二項を求めるだけで良い。この第二項は以下の式(23)〜(25)で求めることができる。 Here, the first term of the equation (21) is the observation signal covariance matrix Φ shown in the above equation (13). Further, the first term of the equation (22) is the observation signal covariance vector φ shown in the above equation (14). Therefore, assuming that the estimated values of the covariance matrix Φ and the covariance vector φ of the observation signal are given by the equations (13) and (14), in the E step of the EM algorithm, the equations (21) and (22) are used. It is only necessary to find the second term. This second term can be obtained by the following equations (23) to (25).
そしてEMアルゴリズムのMステップでは、予測フィルタ係数c ̄の更新値を式(20)を最大にする式(22)の値(これは予測係数の期待値に相当)として定める。このように、予測フィルタ推定部13は、観測信号の共分散行列Φと共分散ベクトルφと、予測フィルタモデルのモデルパラメータ{g1,μ1,Σ1,…}を入力として予測フィルタ係数c ̄を推定する。 In the M step of the EM algorithm, the updated value of the prediction filter coefficient c is determined as the value of Expression (22) that maximizes Expression (20) (this corresponds to the expected value of the prediction coefficient). As described above, the prediction filter estimation unit 13 receives the covariance matrix Φ and the covariance vector φ of the observation signal and the model parameters {g 1 , μ 1 , Σ 1 ,. Estimate habit.
予測フィルタ推定部13は、初期値設定部131と、事後確率算出部132と、期待値算出部133と、条件付期待値関数算出部134とを備える。初期値設定部131は、例えば参考文献に示されているマルチステップ線形予測などにより予測フィルタ係数の初期値c ̄「0」を定める(ステップS131)。このとき繰り返しのカウンタnをn=0とする。 The prediction filter estimation unit 13 includes an initial value setting unit 131, a posterior probability calculation unit 132, an expected value calculation unit 133, and a conditional expected value function calculation unit 134. The initial value setting unit 131 determines the initial value c ̄ “0” of the prediction filter coefficient by, for example, multistep linear prediction shown in the reference (step S131). At this time, the repeated counter n is set to n = 0.
事後確率算出部132は、上記した式(23)により予測フィルタ係数c ̄「n」が与えられたもとでの各状態iの事後確率を求める(ステップS132)。条件付期待値関数算出部133は、上記した式(24)と式(25)によって、条件付期待値を算出する(ステップS133)。期待値算出部134は、上記した式(21)と式(22)とによって予測フィルタ係数の期待値の更新値を求める(ステップS134)。更新値が収束していなければカウンタnをn=n+1(ステップS136)としてステップS131に戻る。 The posterior probability calculation unit 132 obtains the posterior probability of each state i with the prediction filter coefficient c ̄ “n” given by the above equation (23) (step S132). The conditional expected value function calculation unit 133 calculates the conditional expected value using the above-described formula (24) and formula (25) (step S133). The expected value calculation unit 134 obtains an updated value of the expected value of the prediction filter coefficient by using the above formula (21) and formula (22) (step S134). If the updated value has not converged, the counter n is set to n = n + 1 (step S136), and the process returns to step S131.
残響除去部44は、更新された予測フィルタ係数c ̄「n」を用いて上記した式(2)に基づいて観測信号から推定した残響信号を除去する(ステップS44)。残響除去部44の動作は従来法と同じである。 The reverberation removing unit 44 removes the reverberation signal estimated from the observation signal based on the above equation (2) using the updated prediction filter coefficient c 係数“n” (step S44). The operation of the dereverberation unit 44 is the same as in the conventional method.
以上述べたようにこの発明の残響除去方法によれば、予測フィルタ係数に関する確率モデルを用いることで確率的により尤もらしい予測フィルタ係数を推定することが可能であり、観測信号が短い場合においても比較的精度良く観測信号に含まれている残響信号を推定できる。 As described above, according to the dereverberation method of the present invention, it is possible to estimate a predictive filter coefficient that is more likely by using a probabilistic model related to a predictive filter coefficient. The reverberation signal included in the observation signal can be estimated with high accuracy.
〔変形例〕
実施例1では、音源モデルを、音源が定常自己回帰過程に従うと仮定して定義した。こ
れに対し、より精度の高い音源モデルを導入することで、より精度の高い残響除去を実現
することができる。例えば、有限状態機械でモデル化した音源モデルを導入する方法が考
えられる。その方法による残響除去装置300の機能構成例を図3に、その動作フローを
図4に示す。
[Modification]
In Example 1, the sound source model was defined on the assumption that the sound source follows a steady autoregressive process. On the other hand, by introducing a sound source model with higher accuracy, it is possible to realize dereverberation with higher accuracy. For example, a method of introducing a sound source model modeled by a finite state machine can be considered. FIG. 3 shows a functional configuration example of the dereverberation apparatus 300 according to the method, and FIG. 4 shows an operation flow thereof.
残響除去装置300は、観測信号xt (v) ̄の各短時間フレームtの観測信号と最も合致する自己相関行列rを選択するようにしたものである。そのために、複数の自己相関行列を記録した音源モデル記録部30を新たに備える。また、音源モデル推定部31は、観測信号xt (v) ̄を参照して音源モデル記録部30に記録された複数の自己相関行列rから一つを選択するものであり、残響除去部32が残響を除去した目的信号st ̄が収束するまで自己相関行列の選択から繰り返し動作させる収束判定部321を備える点が、実施例1の残響除去装置100と異なる。 The dereverberation apparatus 300 selects an autocorrelation matrix r that most closely matches the observation signal of each short time frame t of the observation signal x t (v)  ̄. Therefore, a sound source model recording unit 30 that records a plurality of autocorrelation matrices is newly provided. The sound source model estimation unit 31 selects one from a plurality of autocorrelation matrices r recorded in the sound source model recording unit 30 with reference to the observation signal x t (v) 、. Is different from the dereverberation apparatus 100 of the first embodiment in that it includes a convergence determination unit 321 that repeatedly operates from the selection of the autocorrelation matrix until the target signal s tし た from which the derever has been removed converges.
残響除去装置300も、残響除去の最適化関数として上記した式(7)を用いる。この
例では式(7)の第一項の音源モデルに関する部分の定義のみに変形を加え、第二項は同じものを用いる。
The dereverberation apparatus 300 also uses the above equation (7) as an optimization function for dereverberation. In this example, only the definition of the portion related to the sound source model of the first term of Expression (7) is modified, and the same term is used for the second term.
各時刻tの目的信号st ̄に関する音声モデルのパラメータは、自己相関コードブックのインデックスであり、これをitと表記する。itは、自己相関コードブックに含まれるコードワードのインデックスmがとる値を1≦m≦Mとすると、そのどれか一つの値をとる。各mに対応する自己相関行列をrmと書き、ritを時刻tの自己相関コードブックのインデックスitに対応する自己相関行列とする。さらに、音声時系列の全体のモデルパラメータは、自己相関コードブックのインデックスの時系列全体I={i1,i2,…,iT}とする。 Parameters of the speech models for the target signal s t ¯ at each time t is the index of the autocorrelation codebook is denoted to as i t. i t, when the index m assumes a value of code words contained in the autocorrelation codebook 1 ≦ m ≦ M, take one of the values that any. A self-correlation matrix corresponding to each m written as r m, the self-correlation matrix corresponding to the r it to the index i t of the autocorrelation codebook of time t. Further, the entire model parameter of the speech time series is assumed to be the entire time series I = {i 1 , i 2 ,..., I T } of the index of the autocorrelation codebook.
時刻tの音声のモデルは、式(26)で書ける。
ただし、残響除去法で推定すべきパラメータはθ={c ̄,I}とする。以上により、
最適化関数の式(7)は、上記した式(18)と式(19)と式(26)に基づいて定義
することができる。この例では、最適化関数の最大化を予測フィルタ係数c ̄と自己相関
コードブックのインデックスの時系列全体Iに関して交互に繰り返して行う。
However, the parameter to be estimated by the dereverberation method is θ = {c ̄, I}. With the above,
Expression (7) of the optimization function can be defined based on the above expressions (18), (19), and (26). In this example, the optimization function is maximized alternately with respect to the prediction filter coefficient c ̄ and the entire time series I of the autocorrelation codebook index.
音源モデル推定部31は、観測信号xt ̄(v)そのものを初期推定値st ̄[0]とする(ステップS31)。同時に繰り返しカウンタn1をn1=0とする。そして、観測信号xt (v) ̄を参照して音源モデル記録部30に記録された複数の自己相関行列から一つの自己相関行列ritを選択して式(27)によりitを定める。 The sound source model estimation unit 31 sets the observation signal x t  ̄ (v) itself as the initial estimated value s t  ̄ [0] (step S31). At the same time, the repeat counter n 1 is set to n 1 = 0. Then, by selecting the observed signal x t (v) one of the autocorrelation matrix r it from a plurality of autocorrelation matrix recorded in the sound source model recording unit 30 with reference to ¯ defining a i t by the equation (27).
観測信号共分散推定部12が、観測信号xt ̄(v)と自己相関行列ritを入力として観測信号の共分散行列Φと共分散ベクトルφを推定するステップS12から、残響除去部44が、観測信号から残響を除去して目的信号st ̄を推定するステップS44までは、実施例1と同じである。この例では、残響除去部32内の収束判定部321で、目標信号st ̄が収束するまで(ステップS321の済)繰り返しカウンタn1をカウントアップ(ステップS322)しながら、音源モデル推定部31の自己相関行列ritを変更して予測フィルタ係数c ̄を推定する。 The observation signal covariance estimation unit 12 receives the observation signal x t Φ (v) and the autocorrelation matrix r it and estimates the covariance matrix Φ and covariance vector φ of the observation signal. The process up to step S44 for removing the reverberation from the observed signal and estimating the target signal s t  ̄ is the same as that in the first embodiment. In this example, the convergence determination unit 321 in the dereverberation unit 32 repeatedly counts up the counter n 1 (step S322) until the target signal s t収束 converges (step S321), and the sound source model estimation unit 31. estimating the prediction filter coefficients c¯ change the autocorrelation matrix r it in.
以上述べたように、例えば有限状態機械でモデル化した音源モデルを用いることで、よ
り精度の高い音源モデルにすることができ、その結果、精度の高い残響除去が実現できる。実施例1及び変形例で説明した残響除去方法は、事前に全ての信号が取得済みでありバッチ処理できることを前提にした方法である。次に、逐次的に得られる観測信号に対して最新の予測フィルタ係数を逐次推定するこの発明の残響除去法を実施例2として説明する。
As described above, for example, by using a sound source model modeled by a finite state machine, a more accurate sound source model can be obtained, and as a result, highly accurate dereverberation can be realized. The dereverberation method described in the first embodiment and the modified example is a method based on the premise that all signals have been acquired in advance and can be batch-processed. Next, a dereverberation method according to the present invention for sequentially estimating the latest prediction filter coefficient for observed signals obtained sequentially will be described as a second embodiment.
最新の予測フィルタ係数を逐次推定する残響除去装置500の機能構成例を図5に、そ
の動作フローを図6に示す。残響除去装置500は、予め定められた所定の時間間隔で予
測フィルタ係数c ̄を推定・更新するものである。各更新時において、その時刻より以前
に得られた観測信号の全て或いはその一部に対して上記した最大化アルゴリズムを適用す
ることで予測フィルタ係数c ̄を推定すると共に、各時刻に逐次的に得られる観測信号に
対してそれまでに得られた最新の予測フィルタ係数c ̄をその時刻の観測信号に適用する
構成である。
FIG. 5 shows a functional configuration example of the dereverberation apparatus 500 that sequentially estimates the latest prediction filter coefficients, and FIG. 6 shows an operation flow thereof. The dereverberation apparatus 500 estimates / updates the prediction filter coefficient c で at predetermined time intervals. At the time of each update, the prediction filter coefficient c で is estimated by applying the above-described maximization algorithm to all or part of the observation signal obtained before that time, and sequentially at each time. This is a configuration in which the latest prediction filter coefficient c ̄ obtained so far is applied to the observation signal at that time for the obtained observation signal.
残響除去装置500は、観測信号共分散推定部を所定時間間隔で繰り返し動作させ、予
測フィルタ係数c ̄を更新させる更新部50も備え、観測信号共分散推定部は、最新の共分散行列Φn-1と共分散ベクトルφΦn-1を記録する共分散記録部511を備えた観測信号共分散推定部51である点が、残響除去装置100と異なる。
The dereverberation apparatus 500 also includes an updating unit 50 that repeatedly operates the observation signal covariance estimation unit at predetermined time intervals and updates the prediction filter coefficient c ̄. The observation signal covariance estimation unit includes the latest covariance matrix Φ n. −1 and the covariance vector φΦ n−1 are different from the dereverberation apparatus 100 in that the observation signal covariance estimation unit 51 includes a covariance recording unit 511 that records the covariance vector φΦ n−1 .
残響除去装置500の初回の予測フィルタ係数c ̄を推定するまでの動作は、残響除去
装置100と基本的に同じであるが、二回目以降の動作は更新部50によって所定時間間
隔で繰り返される(ステップS50)点が異なる。また、観測信号共分散推定部51が、
観測信号の共分散行列Φと共分散ベクトルφを推定した際に、その最新の共分散行列Φと
共分散ベクトルφを、共分散行列Φn-1と共分散ベクトルφn-1として共分散記録部511に記録する点が異なる。また、予測フィルタ推定部13´の初期値設定部131´が予測フィルタ係数の初期値を設定する処理(ステップS131´)は、初回のみ行われる点が異なる。なお、予測フィルタ係数c ̄は所定時間間隔で更新されるが、残響除去は最新の予測フィルタ係数c ̄で連続的に行われる。
The operation of the dereverberation apparatus 500 until the first prediction filter coefficient c ̄ is estimated is basically the same as that of the dereverberation apparatus 100, but the second and subsequent operations are repeated at predetermined time intervals by the update unit 50 ( Step S50) is different. In addition, the observation signal covariance estimation unit 51
When the covariance matrix Φ and covariance vector φ of the observed signal are estimated, the latest covariance matrix Φ and covariance vector φ are covariance as covariance matrix Φ n-1 and covariance vector φ n-1 The point of recording in the recording unit 511 is different. Further, the processing (step S131 ′) in which the initial value setting unit 131 ′ of the prediction filter estimation unit 13 ′ sets the initial value of the prediction filter coefficient is different only in the first time. The prediction filter coefficient c 係数 is updated at predetermined time intervals, but dereverberation is continuously performed with the latest prediction filter coefficient c ̄.
残響除去装置500では、残響除去部44の残響除去処理は、予測フィルタ推定部13
´の予測フィルタ推定処理とは並列かつ非同期的に行なわれる。これにより、残響除去部
44は、逐次的に入力されてくる観測信号に対し、それまでに予測フィルタ推定部13´
が推定した最新の予測フィルタ推定値に基づき(予測フィルタ推定部の次の予測フィルタ
更新処理が終わるのを待たずに)残響除去を逐次的に行うことができる。なお、予測フィ
ルタ推定部13´が初回の推定値を得るまでの時刻においては、予測フィルタの推定値は
例えば0とする。若しくは、事前に測定した観測信号に基づいて計算された値を用いても
良い。
In the dereverberation apparatus 500, the dereverberation process of the dereverberation unit 44 is performed by the prediction filter estimation unit 13.
The prediction filter estimation process of ′ is performed in parallel and asynchronously. As a result, the dereverberation unit 44 applies the prediction filter estimation unit 13 ′ to the observed signals input sequentially.
The dereverberation can be sequentially performed based on the latest prediction filter estimated value estimated by (without waiting for the completion of the next prediction filter update process of the prediction filter estimation unit). Note that the estimated value of the prediction filter is, for example, 0 at the time until the prediction filter estimation unit 13 ′ obtains the first estimated value. Alternatively, a value calculated based on an observation signal measured in advance may be used.
観測信号共分散推定部51は、共分散行列Φと共分散ベクトルφの推定を式(28)と
式(29)で行う。
ここで、Tiは各更新の以前の所定時間間隔に対応する観測信号の時間のインデックスの全てを表わす。α、βは忘却係数であり、0<α,β<1の定数とする。 Here, T i represents all the time indexes of the observation signal corresponding to the predetermined time interval before each update. α and β are forgetting factors, and are constants of 0 <α and β <1.
以上のようにすることで、各時刻で得られた最新の予測フィルタ係数による残響除去を
行うことができる。次に、残響除去を周波数領域で行なうようにしたこの発明の実施例3
を説明する。
By doing so, dereverberation can be performed using the latest prediction filter coefficient obtained at each time. Next, Embodiment 3 of the present invention in which dereverberation is performed in the frequency domain.
Will be explained.
残響除去を周波数領域で行なうようにした残響除去装置700の機能構成例を図7に示
す。残響除去装置700は、周波数領域で残響を除去する周波数領域残響除去部70を備
える点が、時間領域で残響除去を行なう残響除去装置100,500と異なる。
FIG. 7 shows a functional configuration example of a dereverberation apparatus 700 that performs dereverberation in the frequency domain. The dereverberation apparatus 700 is different from the dereverberation apparatuses 100 and 500 that perform the dereverberation in the time domain in that the dereverberation apparatus 700 includes a frequency domain dereverberation unit 70 that removes reverberation in the frequency domain.
観測信号のエネルギーから残響信号のエネルギーをスペクトル減算により引き算する残
響除去処理の方が、音源位置の違い等に対して予測フィルタ係数の推定誤差を頑健にする
ことが、例えば上記した参考文献で報告されている。
The dereverberation process, which subtracts the energy of the reverberant signal from the energy of the observed signal by spectral subtraction, makes the estimation error of the prediction filter coefficient more robust against the difference in the sound source position, etc. Has been.
この発明の残響除去装置においても、観測信号と予測フィルタ係数から残響信号の予測
値et ̄(v)を式(30)で求め、観測信号の短時間パワースペクトルから減算するパワー減算技術を用いて残響除去を行うことが可能である。
周波数領域残響除去部70は、観測信号xt ̄(v)と残響信号の予測値et ̄(v)のそれぞれを、例えば短時間フーリエ変換等の一般的な周波数変換技術を用いてパワースペクトルに変換した後に、残響除去をパワースペクトル同士で行うものであり、従来技術で構成できる。例えば、観測信号xt ̄(v)、残響信号の予測値et ̄(v)、目的信号st ̄、それぞれの短時間フーリエ変換をXn,m 〜(V),En,m 〜(V),Sn,m 〜,と書く(n,mは、時間フレームと周波数ビンのインデックス)とスペクトル減算は式(31)〜(33)で表わせる。 Frequency domain dereverberation unit 70, the observed signal x t ¯ (v) and the respective predicted values e t ¯ of the reverb signal (v), for example, a power spectrum using the common frequency conversion technology short time Fourier transform, etc. After conversion to, the dereverberation is performed between the power spectra, and can be configured by conventional techniques. For example, the observed signal x t  ̄ (v) , the predicted value of the reverberation signal e t  ̄ (v) , the target signal s t  ̄, and the short-time Fourier transform of each of them, X n, m to (V) , En , m to (V) , S n, m ˜ (where n and m are indices of time frames and frequency bins) and spectral subtraction can be expressed by equations (31) to (33).
ここでεは、1よりも十分に小さな正定数とした。さらに、得られた目的信号の短時間
フーリエ変換Sn,m 〜に短時間逆フーリエ変換を適用し、オーバラップ加算などを行うことで目的信号の時間領域信号を得ることができる。上記したように実施例3によれば、より正確な残響除去が可能になる。
Here, ε is a positive constant sufficiently smaller than 1. Furthermore, short-time Fourier transform S n of the resulting target signal, applying an inverse Fourier transform short time m ~, it is possible to obtain a time domain signal of the target signal by performing such overlap-add. As described above, according to the third embodiment, more accurate dereverberation can be performed.
〔シミュレーション結果〕
この発明の残響除去方法の性能を評価した。まず、残響除去の対象になる部屋の予測フィルタの事前確率分布のモデルパラメータの推定条件を説明する。分析対象にした部屋を模式的に図8に示す。分析対象は3.5m×4.5m×2.5mの広さで残響時間0.5秒の残響室とした。高さ1.5mの室内中央付近の1平方メートルの範囲を30×30点で等分割し、各点を音源位置とした。受音点のマイクロホンは2本用意し、マイクロホン間の距離は0.2mとした。各音源位置から2本のマイクロホンMic.1とMic.2へのインパルス応答を鏡像法によって求め、各伝達経路の予測フィルタ係数を多チャネルマルチステップ線形予測によって推定し、これら900地点分の係数を用いて、EMアルゴリズムにより混合ガウス分布のモデルパラメータ{g1,μ1,Σ1,…}を推定した。混合ガウス分布の混合数は4とした。
〔simulation result〕
The performance of the dereverberation method of the present invention was evaluated. First, the estimation condition of the model parameter of the prior probability distribution of the prediction filter of the room to be dereverberation will be described. FIG. 8 schematically shows a room to be analyzed. The object of analysis was a reverberation chamber with a reverberation time of 0.5 seconds and a size of 3.5 m × 4.5 m × 2.5 m. An area of 1 square meter near the center of the room with a height of 1.5 m was equally divided by 30 × 30 points, and each point was set as a sound source position. Two microphones at the receiving point were prepared, and the distance between the microphones was 0.2 m. Two microphones Mic. 1 and Mic. The impulse response to 2 is obtained by mirror image method, the prediction filter coefficient of each transmission path is estimated by multi-channel multi-step linear prediction, and the model parameter {g 1 , μ 1 , Σ 1 , ...} were estimated. The number of mixtures in the mixed Gaussian distribution was 4.
得られた予測フィルタ係数の事前確率分布を用いて音声の残響除去を行った。シミュレーション条件は以下の通りとした。図8にスピーカsp1とsp2で示した二箇所に、音源位置を設定した。スピーカsp1は学習範囲内中央に位置する。スピーカsp2は学習範囲外に位置する。多チャネルマルチステップ線形予測の次数は2800、ステップサイスD=400とした。音源はATR音声データベースを用いた。サンプリング周波数は8kHz、量子化ビット数は16とした。残響を含まない音声信号に、鏡像法で作成した残響時間0.5秒に相当するスピーカsp1とsp2の各音源位置から受音点までのインパルス応答を畳み込んで、0.5、1.0、2.0、4.0秒と異なる長さのステレオ観測信号を作成した。これらの異なる長さの観測信号を用いて、この発明の残響除去方法と従来法によるマイクロホンMic.1における観測信号の残響除去性能を比較した。 The dereverberation of speech was performed using the obtained prior probability distribution of the prediction filter coefficients. The simulation conditions were as follows. Sound source positions were set at two locations indicated by speakers sp1 and sp2 in FIG. The speaker sp1 is located at the center in the learning range. The speaker sp2 is located outside the learning range. The order of multi-channel multi-step linear prediction was 2800, and step size D = 400. The sound source was an ATR audio database. The sampling frequency was 8 kHz and the number of quantization bits was 16. An impulse response from the sound source positions of the speakers sp1 and sp2 corresponding to a reverberation time of 0.5 seconds created by a mirror image method is convoluted with an audio signal that does not include reverberation, and is 0.5 to 1.0. Stereo observation signals with different lengths of 2.0 and 4.0 seconds were created. Using these observation signals of different lengths, the dereverberation method of the present invention and the microphone Mic. 1 compared the dereverberation performance of the observed signal.
その比較を残響の無い原音声信号と残響除去音声のケプストラム(Cepstrum)歪みによって行った。ケプストラム歪み(CD)は式(34)で定義される。
ここで、ck^、ckはそれぞれ、残響除去音声、原音声信号のケプストラム係数であり、D0、D1はケプストラム係数の次元である。このシミュレーションでは0次から12次までのケプストラム係数を用いてケプストラム歪みを定義した。また、各次元のケプストラム係数は時系列の平均値を減算したものを用いた。 Here, c k ^ and c k are the cepstrum coefficients of the dereverberation voice and the original voice signal, respectively, and D 0 and D 1 are the dimensions of the cepstrum coefficients. In this simulation, cepstrum distortion was defined using cepstrum coefficients from the 0th order to the 12th order. The cepstrum coefficient for each dimension was obtained by subtracting the average value of the time series.
従来法とこの発明の方法による各観測信号長毎のケプストラム歪みの時間平均値と観測信号のケプストラム歪みの時間平均値を図9に示す。図9(a)は音源位置がスピーカsp1、図9(b)はスピーカsp2の場合を示す。それぞれの横軸は観測時間長[秒]、縦軸はケプストラム歪みの時間平均値を[dB]で表わす。 FIG. 9 shows the time average value of the cepstrum distortion for each observation signal length and the time average value of the cepstrum distortion of the observation signal according to the conventional method and the method of the present invention. FIG. 9A shows the case where the sound source position is the speaker sp1, and FIG. Each horizontal axis represents the observation time length [second], and the vertical axis represents the time average value of cepstrum distortion in [dB].
従来法のケプストラム歪みの時間平均値(●でプロット)に対して、観測時間長が2秒以内の範囲においてこの発明の方法(□でプロット)の方が歪みが少ない特性を示す。特に観測時間長が0.5秒の場合に、従来法では観測信号よりも悪化した歪みを示すのに対し、この発明の方法は音源位置の場所によらずに大きく(2.3〜3dB)改善されたケプストラム歪みの時間平均値を示す。 Compared with the time average value of the cepstrum distortion of the conventional method (plotted with ●), the method of the present invention (plotted with □) shows a characteristic with less distortion when the observation time length is within 2 seconds. In particular, when the observation time length is 0.5 seconds, the conventional method shows distortion that is worse than that of the observation signal, whereas the method of the present invention is large (2.3 to 3 dB) regardless of the location of the sound source. The time-averaged value of improved cepstrum distortion is shown.
以上述べたようにこの発明の残響除去方法によれば、予測フィルタ係数を推定するために利用できる観測時間長が短い場合に、従来法よりも音源位置の違いに頑健で良好な残響除去が行えることが確認できた。 As described above, according to the dereverberation method of the present invention, when the observation time length that can be used for estimating the prediction filter coefficient is short, the dereverberation method is more robust against the difference in sound source position than the conventional method and can perform good dereverberation. I was able to confirm.
なお、この発明の方法及び装置は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 In addition, the method and apparatus of this invention are not limited to the above-mentioned embodiment, In the range which does not deviate from the meaning of this invention, it can change suitably. Further, the processes described in the above method and apparatus are not only executed in time series according to the order of description, but also may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Good.
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (8)
上記モデルパラメータと上記観測信号を入力として上記観測信号の共分散行列と共分散ベクトルを推定する観測信号共分散推定部と、
観測信号に含まれる残響信号を予測する予測フィルタ係数を確率的にモデル化した予測フィルタモデルを記録する予測フィルタモデル記録部と、
上記観測信号の共分散行列と共分散ベクトルと、上記予測フィルタモデルを入力として予測フィルタ係数を推定する予測フィルタ推定部と、
上記観測信号と上記予測フィルタ係数を入力として残響を含まない音声信号を推定する残響除去部と、
を具備する残響除去装置。 A sound source model estimation unit for estimating a model parameter of a sound source model that does not include reverberation using a time-series observation signal as an input;
An observation signal covariance estimation unit that estimates the covariance matrix and covariance vector of the observation signal by using the model parameter and the observation signal as inputs;
A prediction filter model recording unit for recording a prediction filter model that probabilistically models a prediction filter coefficient for predicting a reverberation signal included in the observation signal;
A prediction filter estimation unit that estimates a prediction filter coefficient using the covariance matrix and covariance vector of the observed signal as input, and the prediction filter model;
A dereverberation unit that estimates a speech signal that does not include reverberation using the observed signal and the prediction filter coefficient as inputs,
A dereverberation apparatus comprising:
上記観測信号共分散推定部を所定時間間隔で動作させる更新部も備え、
上記観測信号共分散推定部は、上記モデルパラメータと、逐次的に入力される上記観測信号の時系列とから上記所定時間間隔で上記共分散行列と上記共分散ベクトルを更新し、
上記更新された上記共分散行列と上記共分散ベクトルとに対応して上記予測フィルタ推定部と上記残響除去部とが動作することを特徴とする残響除去装置。 The dereverberation apparatus according to claim 1, wherein
An update unit that operates the observation signal covariance estimation unit at predetermined time intervals,
The observation signal covariance estimation unit updates the covariance matrix and the covariance vector at the predetermined time interval from the model parameters and the time series of the observation signals sequentially input,
The dereverberation apparatus, wherein the prediction filter estimation unit and the dereverberation unit operate corresponding to the updated covariance matrix and the covariance vector.
上記残響除去部が、周波数領域で動作することを特徴とする残響除去装置。 In the dereverberation apparatus according to claim 1 or 2,
The dereverberation apparatus, wherein the dereverberation unit operates in a frequency domain.
観測信号共分散推定部が、上記モデルパラメータと上記観測信号を入力として上記観測信号の共分散行列と共分散ベクトルを推定する観測信号共分散推定過程と、
予測フィルタ推定部が、上記観測信号の共分散行列と共分散ベクトルと、観測信号に含まれる残響信号を予測する予測フィルタ係数を確率的にモデル化した予測フィルタモデルを入力として予測フィルタ係数を推定する予測フィルタ推定過程と、
残響除去部が、上記観測信号と上記予測フィルタ係数を入力として残響を含まない音声信号を推定する残響除去過程と、
を備える残響除去方法。 A sound source model estimation unit for estimating a model parameter of a sound source model that does not include reverberation using a time-series observation signal as an input;
An observation signal covariance estimation unit that estimates the covariance matrix and covariance vector of the observation signal by using the model parameter and the observation signal as inputs; and
The prediction filter estimator estimates the prediction filter coefficient using as input the covariance matrix and covariance vector of the observed signal and the prediction filter model that stochastically models the prediction filter coefficient that predicts the reverberation signal included in the observed signal Predictive filter estimation process,
A dereverberation unit, which receives the observation signal and the prediction filter coefficient as input and estimates a speech signal that does not include reverberation;
A dereverberation method comprising:
上記観測信号共分散推定過程と、上記予測フィルタ推定過程と、上記残響除去過程とが、所定時間間隔で繰り返し行なわれる更新過程も含むことを特徴とする残響除去方法。 In the dereverberation method according to claim 4,
An dereverberation method comprising: an update process in which the observed signal covariance estimation process, the prediction filter estimation process, and the dereverberation process are repeatedly performed at predetermined time intervals.
上記残響除去過程は、周波数領域で動作することを特徴とする残響除去方法。 In the dereverberation method according to claim 4 or 5,
The dereverberation method, wherein the dereverberation process operates in a frequency domain.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008051099A JP4977062B2 (en) | 2008-02-29 | 2008-02-29 | Reverberation apparatus and method, program and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008051099A JP4977062B2 (en) | 2008-02-29 | 2008-02-29 | Reverberation apparatus and method, program and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009212599A true JP2009212599A (en) | 2009-09-17 |
JP4977062B2 JP4977062B2 (en) | 2012-07-18 |
Family
ID=41185365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008051099A Expired - Fee Related JP4977062B2 (en) | 2008-02-29 | 2008-02-29 | Reverberation apparatus and method, program and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4977062B2 (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011164335A (en) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppressing method and program |
CN103033815A (en) * | 2012-12-19 | 2013-04-10 | 中国科学院声学研究所 | Detection Method and detection device of distance expansion target based on reverberation covariance matrix |
EP2597639A2 (en) | 2011-11-22 | 2013-05-29 | Yamaha Corporation | Sound processing device |
JP2013195511A (en) * | 2012-03-16 | 2013-09-30 | Nippon Telegr & Teleph Corp <Ntt> | Device for spectrum estimation, method for the same and program |
JP2016212217A (en) * | 2015-05-07 | 2016-12-15 | 日本電信電話株式会社 | Statistical data reconstruction device, statistical data reconstruction method, and program |
CN107360497A (en) * | 2017-07-14 | 2017-11-17 | 深圳永顺智信息科技有限公司 | Estimate the computational methods and device of reverberation component |
JP2018518123A (en) * | 2015-06-19 | 2018-07-05 | ヴェーデクス・アクティーセルスカプ | Hearing aid system operating method and hearing aid system |
CN111933170A (en) * | 2020-07-20 | 2020-11-13 | 歌尔科技有限公司 | Voice signal processing method, device, equipment and storage medium |
CN114386177A (en) * | 2022-01-18 | 2022-04-22 | 西北工业大学 | Method for estimating model drag coefficient gray of flying wing gliding wing |
CN116525040A (en) * | 2023-04-26 | 2023-08-01 | 中南大学 | Construction method and application of steel fiber-binary aggregate system filling density prediction model |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004347761A (en) * | 2003-05-21 | 2004-12-09 | Internatl Business Mach Corp <Ibm> | Voice recognition device, voice recognition method, computer executable program and storage medium for performing the voice recognition method to computer |
JP2006243888A (en) * | 2005-03-01 | 2006-09-14 | Nippon Seiki Co Ltd | Display device for vehicle |
JP2006243290A (en) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | Disturbance component suppressing device, computer program, and speech recognition system |
JP2008209445A (en) * | 2007-02-23 | 2008-09-11 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation removing device, reverberation removing method, reverberation removing program and recording medium |
JP2008292845A (en) * | 2007-05-25 | 2008-12-04 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation removing device, reverberation removing method, reverberation removing program and its recording medium |
-
2008
- 2008-02-29 JP JP2008051099A patent/JP4977062B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004347761A (en) * | 2003-05-21 | 2004-12-09 | Internatl Business Mach Corp <Ibm> | Voice recognition device, voice recognition method, computer executable program and storage medium for performing the voice recognition method to computer |
JP2006243888A (en) * | 2005-03-01 | 2006-09-14 | Nippon Seiki Co Ltd | Display device for vehicle |
JP2006243290A (en) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | Disturbance component suppressing device, computer program, and speech recognition system |
JP2008209445A (en) * | 2007-02-23 | 2008-09-11 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation removing device, reverberation removing method, reverberation removing program and recording medium |
JP2008292845A (en) * | 2007-05-25 | 2008-12-04 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation removing device, reverberation removing method, reverberation removing program and its recording medium |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011164335A (en) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppressing method and program |
EP2597639A2 (en) | 2011-11-22 | 2013-05-29 | Yamaha Corporation | Sound processing device |
US9454956B2 (en) | 2011-11-22 | 2016-09-27 | Yamaha Corporation | Sound processing device |
JP2013195511A (en) * | 2012-03-16 | 2013-09-30 | Nippon Telegr & Teleph Corp <Ntt> | Device for spectrum estimation, method for the same and program |
CN103033815A (en) * | 2012-12-19 | 2013-04-10 | 中国科学院声学研究所 | Detection Method and detection device of distance expansion target based on reverberation covariance matrix |
CN103033815B (en) * | 2012-12-19 | 2014-11-05 | 中国科学院声学研究所 | Detection Method and detection device of distance expansion target based on reverberation covariance matrix |
JP2016212217A (en) * | 2015-05-07 | 2016-12-15 | 日本電信電話株式会社 | Statistical data reconstruction device, statistical data reconstruction method, and program |
JP2018518123A (en) * | 2015-06-19 | 2018-07-05 | ヴェーデクス・アクティーセルスカプ | Hearing aid system operating method and hearing aid system |
CN107360497A (en) * | 2017-07-14 | 2017-11-17 | 深圳永顺智信息科技有限公司 | Estimate the computational methods and device of reverberation component |
CN107360497B (en) * | 2017-07-14 | 2020-09-29 | 深圳永顺智信息科技有限公司 | Calculation method and device for estimating reverberation component |
CN111933170A (en) * | 2020-07-20 | 2020-11-13 | 歌尔科技有限公司 | Voice signal processing method, device, equipment and storage medium |
CN111933170B (en) * | 2020-07-20 | 2024-03-29 | 歌尔科技有限公司 | Voice signal processing method, device, equipment and storage medium |
CN114386177A (en) * | 2022-01-18 | 2022-04-22 | 西北工业大学 | Method for estimating model drag coefficient gray of flying wing gliding wing |
CN116525040A (en) * | 2023-04-26 | 2023-08-01 | 中南大学 | Construction method and application of steel fiber-binary aggregate system filling density prediction model |
CN116525040B (en) * | 2023-04-26 | 2024-03-22 | 湖南铁院土木工程检测有限公司 | Construction method and application of steel fiber-binary aggregate system filling density prediction model |
Also Published As
Publication number | Publication date |
---|---|
JP4977062B2 (en) | 2012-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4977062B2 (en) | Reverberation apparatus and method, program and recording medium | |
JP5227393B2 (en) | Reverberation apparatus, dereverberation method, dereverberation program, and recording medium | |
JP5124014B2 (en) | Signal enhancement apparatus, method, program and recording medium | |
JP4774100B2 (en) | Reverberation removal apparatus, dereverberation removal method, dereverberation removal program, and recording medium | |
KR101521368B1 (en) | Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal | |
JP4586577B2 (en) | Disturbance component suppression device, computer program, and speech recognition system | |
JP2005249816A (en) | Device, method and program for signal enhancement, and device, method and program for speech recognition | |
JP4856662B2 (en) | Noise removing apparatus, method thereof, program thereof and recording medium | |
JP6348427B2 (en) | Noise removal apparatus and noise removal program | |
KR102410850B1 (en) | Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder | |
Simon et al. | A general framework for online audio source separation | |
JP5351856B2 (en) | Sound source parameter estimation device, sound source separation device, method thereof, program, and storage medium | |
JP4960933B2 (en) | Acoustic signal enhancement apparatus and method, program, and recording medium | |
JP5881454B2 (en) | Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal | |
JP4977100B2 (en) | Reverberation removal apparatus, dereverberation removal method, program thereof, and recording medium | |
JP5438704B2 (en) | Sound source parameter estimation device, sound source separation device, method and program thereof | |
EP3557576B1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
JP2015049406A (en) | Acoustic signal analyzing device, method, and program | |
JP4729534B2 (en) | Reverberation apparatus, dereverberation method, dereverberation program, and recording medium thereof | |
JP5457999B2 (en) | Noise suppressor, method and program thereof | |
JP5731929B2 (en) | Speech enhancement device, method and program thereof | |
JP2019090930A (en) | Sound source enhancement device, sound source enhancement learning device, sound source enhancement method and program | |
JP2020030373A (en) | Sound source enhancement device, sound source enhancement learning device, sound source enhancement method, program | |
JP4242320B2 (en) | Voice recognition method, apparatus and program thereof, and recording medium thereof | |
JP5498452B2 (en) | Background sound suppression device, background sound suppression method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120403 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120413 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150420 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |