JP4977062B2 - Reverberation apparatus and method, program and recording medium - Google Patents

Reverberation apparatus and method, program and recording medium Download PDF

Info

Publication number
JP4977062B2
JP4977062B2 JP2008051099A JP2008051099A JP4977062B2 JP 4977062 B2 JP4977062 B2 JP 4977062B2 JP 2008051099 A JP2008051099 A JP 2008051099A JP 2008051099 A JP2008051099 A JP 2008051099A JP 4977062 B2 JP4977062 B2 JP 4977062B2
Authority
JP
Japan
Prior art keywords
prediction filter
dereverberation
signal
model
covariance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008051099A
Other languages
Japanese (ja)
Other versions
JP2009212599A (en
Inventor
智広 中谷
慶介 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008051099A priority Critical patent/JP4977062B2/en
Publication of JP2009212599A publication Critical patent/JP2009212599A/en
Application granted granted Critical
Publication of JP4977062B2 publication Critical patent/JP4977062B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

この発明は、音源が生成した音響信号(以降、「音源信号」と称す)を、残響のある部屋においてマイクロホンで収音して得られる信号(以降、「観測信号」と称する)から、残響を取り除いた音響信号を抽出する残響除去装置とその方法と、そのプログラムと記録媒体に関する。   According to the present invention, an acoustic signal generated by a sound source (hereinafter referred to as “sound source signal”) is collected from a signal (hereinafter referred to as “observation signal”) obtained by collecting the sound signal with a microphone in a room with reverberation. The present invention relates to a dereverberation apparatus and method for extracting a removed acoustic signal, a program thereof, and a recording medium.

音源信号が残響のある環境で収音されると、本来の音源信号に残響が重畳した信号として観測される。そのため、本来の音源信号の性質を抽出することが困難になると共に、音源信号の明瞭度が低下する。そこで、明瞭度を向上させる目的で重畳した残響を取り除く残響除去方法及び装置が従来から使われている。   When a sound source signal is collected in an environment with reverberation, it is observed as a signal in which reverberation is superimposed on the original sound source signal. For this reason, it becomes difficult to extract the nature of the original sound source signal, and the clarity of the sound source signal decreases. Therefore, a dereverberation method and apparatus for removing the superimposed reverberation have been conventionally used for the purpose of improving intelligibility.

非特許文献1に開示された従来の残響除去装置900の機能構成例を図10に示してその動作を簡単に説明する。残響除去装置900は、音源モデル90と、予測フィルタ推定部92と、残響除去部94とを備える。音源モデル90は、残響を含まない音源信号の短時間区間の音声波形をガウス分布でモデル化したものである。予測フィルタ推定部92は、観測信号と音源モデル90を入力として、観測信号の尤もらしさを表現する最適化関数を最大にする残響信号を予測する予測フィルタ係数を求める。残響除去部94は、観測信号から予測フィルタ係数で予測された残響信号を除去して音響信号を出力する。
Nakatani,T.,Juang,B.H.,Hikichi,T.,Yoshioka,T.,Kinoshita,K.Delcroix,M.,andMiyoshi,M.,”Study on speech dereverberation with autocorrelation codebook,”Proc.IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP-2007),vol.I,pp.193-196,April 2007.
An example of the functional configuration of a conventional dereverberation apparatus 900 disclosed in Non-Patent Document 1 is shown in FIG. The dereverberation apparatus 900 includes a sound source model 90, a prediction filter estimation unit 92, and a dereverberation unit 94. The sound source model 90 is obtained by modeling a speech waveform of a short time section of a sound source signal not including reverberation with a Gaussian distribution. The prediction filter estimation unit 92 receives the observation signal and the sound source model 90 as input, and obtains a prediction filter coefficient that predicts a reverberation signal that maximizes an optimization function that expresses the likelihood of the observation signal. The reverberation removing unit 94 removes the reverberation signal predicted by the prediction filter coefficient from the observed signal and outputs an acoustic signal.
Nakatani, T., Juang, BH, Hikichi, T., Yoshioka, T., Kinoshita, K.Delcroix, M., andMiyoshi, M., "Study on speech dereverberation with autocorrelation codebook," Proc.IEEE International Conference on Acoustics , Speech, and Signal Processing (ICASSP-2007), vol.I, pp.193-196, April 2007.

従来の残響除去方法は、観測信号に含まれる残響信号を予測する予測フィルタ係数を、観測信号のみから推定していた。この推定には、ある程度以上の長さの観測信号を必要とするため、観測信号が短い場合には残響信号を高精度に予測することが難しく、精度の良い残響除去が行えなかった。   In the conventional dereverberation method, a prediction filter coefficient for predicting a reverberation signal included in an observation signal is estimated only from the observation signal. Since this estimation requires an observation signal having a length of a certain length or more, if the observation signal is short, it is difficult to predict the reverberation signal with high accuracy, and accurate dereverberation cannot be performed.

この発明は、このような点に鑑みてなされたものであり、観測信号が短い場合においても、比較的精度良く観測信号に含まれる残響信号を推定できる残響除去方法及びその装置と、そのプログラムと記録媒体を提供することを目的とする。   The present invention has been made in view of the above points, and even when the observation signal is short, a dereverberation removal method and apparatus capable of estimating the reverberation signal included in the observation signal with relatively high accuracy, and a program thereof. An object is to provide a recording medium.

この発明による残響除去方法は、音源モデル推定部が、時系列の観測信号を入力として残響を含まない音源モデルのモデルパラメータを推定する音源モデル推定過程と、観測信号共分散推定部が、モデルパラメータと観測信号を入力として観測信号の共分散行列と共分散ベクトルを推定する観測信号共分散推定過程と、予測フィルタ推定部が、観測信号の共分散行列と共分散ベクトルと、上記観測信号を収音する場所において観測される信号に含まれる残響信号を予測する予測フィルタ係数を、当該予測フィルタ係数の確率密度関数でモデル化した予測フィルタモデルを入力として予測フィルタ係数を推定する予測フィルタ係数推定過程と、残響除去部が、観測信号と予測フィルタ係数を入力として残響を含まない音声信号を推定する残響除去過程と、を備える。 In the dereverberation method according to the present invention, a sound source model estimation unit estimates a model parameter of a sound source model that does not include reverberation using a time-series observation signal as an input, and an observation signal covariance estimation unit And the observation signal covariance matrix and covariance estimation process, and the prediction filter estimator collects the observation signal covariance matrix and covariance vector and the observation signal. Prediction filter coefficient estimation process in which a prediction filter coefficient that predicts a reverberation signal included in a signal observed at a sound location is modeled with a prediction filter model that is modeled by a probability density function of the prediction filter coefficient. And a dereverberation unit that estimates an audio signal that does not include reverberation using the observed signal and the prediction filter coefficient as input. It includes a process, a.

この発明の残響除去方法は、従来法の観測信号と音源モデルとから予測フィルタ係数を推定する方法に加え、残響信号を推定する予測フィルタ係数に関する確率モデルを用いて予測フィルタ係数を推定する。予測フィルタ係数に関する確率モデルを用いることで確率的により尤もらしい予測フィルタ係数を推定することが可能であり、観測信号が短い場合においても比較的精度良く観測信号に含まれている残響信号を推定できる。   According to the dereverberation method of the present invention, the prediction filter coefficient is estimated using a probability model related to the prediction filter coefficient for estimating the reverberation signal, in addition to the method of estimating the prediction filter coefficient from the observation signal and the sound source model of the conventional method. Predictive filter coefficients that are more likely to be probabilistic can be estimated by using a probabilistic model for predictive filter coefficients, and even if the observed signal is short, the reverberation signal included in the observed signal can be estimated relatively accurately .

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。   Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.

〔発明の基本的な考え〕
実施例の説明の前に、この発明の残響除去方法の基本的な考えを説明する。この発明の残響除去方法は、従来法で用いられていた最尤推定を最大事後確率(Maximum a posteriori,以降「MAP」と称する)推定に替え、その結果必要となる予測フィルタ係数の確率モデルを考慮するようにしたものである。MAP推定とは、観測信号が得られた条件下で、目的となる確率変数(この発明の場合は予測フィルタ係数)の事後確率密度関数を最大にする値を求めることで推定値を得る方法である。なお、この発明は1本以上のマイクロホンで構成することができるが、以降では、記述を簡単にするために2本のマイクロホンの場合を例に説明する。
[Basic idea of the invention]
Prior to the description of the embodiments, the basic idea of the dereverberation method of the present invention will be described. In the dereverberation method of the present invention, the maximum likelihood estimation used in the conventional method is replaced with a maximum a posteriori (hereinafter referred to as “MAP”) estimation, and a probability model of a prediction filter coefficient required as a result is changed. It is something to consider. MAP estimation is a method for obtaining an estimated value by obtaining a value that maximizes the posterior probability density function of a target random variable (in the present invention, a prediction filter coefficient) under the condition that an observation signal is obtained. is there. Although the present invention can be composed of one or more microphones, in the following description, in order to simplify the description, the case of two microphones will be described as an example.

信号名を以下のように定義する。
The signal name is defined as follows.

 ̄は残響除去した目的信号の長さNの短時間フレームに対応するベクトル。 ̄はベクトルであることを表わすが、その表記は式及び図中に示すものが正しい。x ━(v)はv本目のマイクロホン信号の短時間フレームに対応するベクトル。x ̄は全てのマイクロホン信号の短時間フレームをつなげたベクトル。X (v)はx (v) ̄の時系列を並べた行列。Xはマイクロホン1と2についての時系列の行列を並べた行列。Xt2:t1はx ̄をt〜t1までの過去に遡って並べた行列である
観測信号を式(1)に示すように多チャネル自己回帰過程でモデル化する。
s t  ̄ is a vector corresponding to a short-time frame of length N of the target signal from which dereverberation has been removed.  ̄ represents a vector, but the notation is correct as shown in the formula and the figure. x t- (v) is a vector corresponding to the short-time frame of the v-th microphone signal. x t  ̄ is a vector that connects short-time frames of all microphone signals. X t (v) is a matrix in which time series of x t (v)  ̄ are arranged. Xt is a matrix in which time-series matrices for the microphones 1 and 2 are arranged. X t2: t1 is a matrix in which x t並 べ is arranged retroactively from t 2 to t 1. An observation signal is modeled in a multichannel autoregressive process as shown in Equation (1).

式(1)は、左辺に含まれる時刻tのv番目のマイクロホン信号x ━(v)が、右辺に含まれる過去の信号系列Xt−Dに予測フィルタ係数cを乗じて予測した結果、その予測誤差が目的信号s となることを意味している。 Expression (1) is a result of prediction by multiplying the past signal sequence X t-D included in the right side by the prediction filter coefficient c for the v-th microphone signal x t- (v) included in the left side at the time t. This means that the prediction error becomes the target signal s t .

ここでDは、時刻tの観測信号x (v) ̄を予測する際に観測信号に付加する遅延である。D>1を導入することで、予測係数の推定誤差に対する残響除去の頑健性が向上することが報告されている(参考文献:K.Kinoshita,T.Nakatani,and M.Miyoshi,”Spectral subtraction steered by multi-step forward linear prediction for single channel speech dereverberation,”Proc.ICASSP-2006,vol.1,pp.817-820,May,2006.)。以降の説明では、v番目のマイクロホン信号を予測対象の信号として扱う。他チャネルの予測も全く同様に行うことができる。式(1)より目的信号は、式(2)で書けることからc ̄は逆フィルタと等価な情報を持つ値であるといえる。 Here, D is a delay added to the observation signal when predicting the observation signal x t (v)の at time t. It has been reported that the introduction of D> 1 improves the robustness of dereverberation against estimation error of prediction coefficients (reference: K. Kinoshita, T. Nakatani, and M. Miyoshi, “Spectral subtraction steered by multi-step forward linear prediction for single channel speech dereverberation, "Proc.ICASSP-2006, vol.1, pp.817-820, May, 2006.). In the following description, the v-th microphone signal is treated as a prediction target signal. Other channels can be predicted in exactly the same way. From the equation (1), the target signal can be written by the equation (2). Therefore, it can be said that c ̄ is a value having information equivalent to the inverse filter.

次に、最適化関数として推定すべきパラメータを予測フィルタ係数c ̄とし、音声モデルパラメータと予測係数からなるパラメータ集合をθとして、式(3)に示すように最適化関数を定義する。   Next, an optimization function is defined as shown in Expression (3), where a parameter to be estimated as an optimization function is a prediction filter coefficient c ̄, and a parameter set including a speech model parameter and a prediction coefficient is θ.

ここでp(・),p(・),及びp(・)は、それぞれ観測信号x (v) ̄、目的信号s ̄及び予測フィルタ係数c ̄に関する確率密度関数を表わす。上記の式の展開において、最適化に無関係な定数であるlogp(XT:1;θ)などは略記した。式(4),(5)は、一般的な確率密度関数の性質に基づいて式(3)を展開することで得られる。式(6),(7)は、式(2)に基づき式(5)を展開するとともに、c ̄と無関係な項(v本目のマイクロホン以外の信号を予測する場合の予測フィルタ係数に関連する項)を無視することで得られる。 Here, p x (•), p s (•), and p c (•) represent probability density functions related to the observed signal x t (v)  ̄, the target signal s t  ̄, and the prediction filter coefficient cそ れ ぞ れ, respectively. In the development of the above formula, logp x (X T: 1 ; θ), which is a constant unrelated to optimization, is abbreviated. Expressions (4) and (5) are obtained by expanding Expression (3) based on the properties of a general probability density function. Expressions (6) and (7) expand Expression (5) based on Expression (2) and relate to a prediction filter coefficient when a signal other than c ̄ is predicted (a signal other than the v-th microphone). Obtained by ignoring the term).

式(7)の最適化関数は、目的信号の確率密度関数p(s ̄;θ)と、予測フィルタ係数の確率密度関数p(c ̄;θ)が与えられれば完全に定義することができる。式(7)の第一項は、従来の残響除去方法の最適化関数と等価な関数である。第二項は予測フィルタ係数の確率モデルである。この発明では、第二項を新たに考慮することで充分な長さの観測信号が得られない場合でも比較的精度の高い残響除去を実現することができる。 The optimization function of Equation (7) is completely defined if the probability density function p s (s t  ̄; θ) of the target signal and the probability density function p c ( c  ̄; θ) of the prediction filter coefficient are given. be able to. The first term of Equation (7) is a function equivalent to the optimization function of the conventional dereverberation method. The second term is a probability model of the prediction filter coefficient. In the present invention, reverberation removal with relatively high accuracy can be realized even when an observation signal having a sufficient length cannot be obtained by newly considering the second term.

図1にこの発明の残響除去方法を用いた残響除去装置100の機能構成例を実施例1として示す。その動作フローを図2に示す。残響除去装置100は、予測フィルタモデル記録部10と、音源モデル推定部11と、観測信号共分散推定部12と、予測フィルタ推定部13と、残響除去部44とを備える。残響除去装置100は、従来の残響除去装置900の音源モデル90を音源モデル推定部11に置き換え、予測フィルタモデル記録部10と、観測信号共分散推定部12とを追加し、予測フィルタ推定部13での処理内容を変更したものである。また、この例の残響除去装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。   FIG. 1 shows a functional configuration example of a dereverberation apparatus 100 using the dereverberation method of the present invention as a first embodiment. The operation flow is shown in FIG. The dereverberation apparatus 100 includes a prediction filter model recording unit 10, a sound source model estimation unit 11, an observation signal covariance estimation unit 12, a prediction filter estimation unit 13, and a dereverberation unit 44. The dereverberation apparatus 100 replaces the sound source model 90 of the conventional dereverberation apparatus 900 with the sound source model estimation unit 11, adds a prediction filter model recording unit 10 and an observation signal covariance estimation unit 12, and provides a prediction filter estimation unit 13. The content of the processing in is changed. In addition, the dereverberation apparatus 100 of this example is realized by reading a predetermined program into a computer including, for example, a ROM, a RAM, a CPU, and the like, and executing the program by the CPU.

音源モデル推定部11は、観測信号の時系列信号を入力として残響を含まない音源モデルのモデルパラメータを推定する(ステップS11)。その方法は、例えば観測信号をプリホワイトニング処理を行なう場合と同様に、観測信号に関する自己回帰係数を求め、それを音声信号の自己回帰係数の近似値として用いる。以降、音源モデル、つまり目的信号のモデルを確率密度関数p、モデルパラメータを自己相関行列rとして説明する。それぞれを式(8)及び式(9)に示す様に定義する。 The sound source model estimation unit 11 receives the time series signal of the observation signal and estimates model parameters of the sound source model that does not include reverberation (step S11). In this method, for example, as in the case where the observation signal is subjected to the prewhitening process, an autoregressive coefficient relating to the observed signal is obtained and used as an approximate value of the autoregressive coefficient of the speech signal. Hereinafter, a sound source model, that is, a model of a target signal will be described as a probability density function p s and a model parameter as an autocorrelation matrix r. Each is defined as shown in Equation (8) and Equation (9).

ここでaは、目的信号s ̄の自己回帰係数α=[α1 α2 … α]から式(10)で定義される上三角テプリッツ行列(N×N)である。 Here, a is an upper triangular Toeplitz matrix (N × N) defined by the equation (10) from the autoregressive coefficient α = [α 1 α 2 ... Α p ] of the target signal s t  ̄.

上記自己相関行列rと上記した式(8)により、最適化関数を定義する式(7)の第一
項に含まれる被加算項は式(11)に示すように展開できる。
From the autocorrelation matrix r and the above equation (8), the added term included in the first term of the equation (7) defining the optimization function can be expanded as shown in the equation (11).

ここで、式(12)とし、式(11)の展開で最適化に無関係な定数項は省略している。   Here, equation (12) is used, and constant terms unrelated to optimization are omitted in the development of equation (11).

観測信号共分散推定部12は、自己相関行列rと観測信号x (v) ̄を入力として観測信号の共分散行列Φと共分散ベクトルφを、式(13)と(14)に基づいて推定する(ステップS12)。 The observation signal covariance estimation unit 12 receives the autocorrelation matrix r and the observation signal x t (v)  ̄ as inputs, and obtains the observation signal covariance matrix Φ and the covariance vector φ based on the equations (13) and (14). Estimate (step S12).

ここで、観測信号の共分散行列Φと共分散ベクトルφを求める理由を説明する。上記した最適化関数は、上記した確率密度関数の定義のもと、期待値最大化法(以降、「EM」と称する)アルゴリズムを用いて効率的に最大化することができる。予測係数の状態iを隠れ変数として、EMアルゴリズムにおけるQ関数は式(15)で定義される。   Here, the reason for obtaining the covariance matrix Φ and the covariance vector φ of the observation signal will be described. The above optimization function can be efficiently maximized using an expected value maximization method (hereinafter referred to as “EM”) algorithm based on the definition of the above probability density function. With the state i of the prediction coefficient as a hidden variable, the Q function in the EM algorithm is defined by Equation (15).

ここでp(・)は、観測信号に含まれる残響信号を予測する予測フィルタ係数を確率的
にモデル化した混合ガウス分布であり、式(16)〜式(18)で定義される。
Here, p c (•) is a mixed Gaussian distribution obtained by stochastically modeling the prediction filter coefficient for predicting the reverberation signal included in the observation signal, and is defined by Expressions (16) to (18).

ここで、iは、予測フィルタ係数の状態を表わす整数(1≦i≦K)であり、gは混合比を表わす。各状態におけるガウス分布は式(19)で表わせる。 Here, i is an integer (1 ≦ i ≦ K) representing the state of the prediction filter coefficient, and g i represents the mixing ratio. The Gaussian distribution in each state can be expressed by equation (19).

混合ガウス分布は、ある特定の部屋において事前に学習されたものであり、モデルパラ
メータ{g1,μ1,Σ1,…}は事前に求められ、予測フィルタモデル記録部10に記録されている。なお、式(19)の変形として、全てのiに対してμ=0としたり、Σの非対角要素を0と置くことで計算の効率を上げることができる。その場合のパラメータも一般的な混合ガウス分布のパラメータ学習アルゴリズムを用いて事前に定めることができる。学習方法は一般的な方法で良いので説明は省略する。
The mixed Gaussian distribution is learned in advance in a specific room, and the model parameters {g 1 , μ 1 , Σ 1 ,...} Are obtained in advance and recorded in the prediction filter model recording unit 10. . As a modification of equation (19), it is possible to increase the calculation efficiency by setting μ i = 0 for all i or by setting the non-diagonal element of Σ i to 0. The parameters in that case can also be determined in advance by using a general mixed Gaussian parameter learning algorithm. The learning method may be a general method and will not be described.

ここで式(15)の右辺は、予測フィルタ係数c ̄「n」が与えられたもとでの条件付期待値関数を表わす。予測フィルタ係数c ̄「n」に関連のある項だけ残して整理すると、Q関数は式(20)で表わせる。 Here, the right side of the equation (15) represents a conditional expected value function with the prediction filter coefficient c  ̄ “n” given. If only the terms related to the prediction filter coefficient c  ̄ “n” are left and rearranged, the Q function can be expressed by Expression (20).

ただし、
However,

ここで式(21)の第一項は、上記した式(13)に示す観測信号共分散行列Φである。また、式(22)の第一項は、上記した式(14)に示す観測信号共分散ベクトルφである。よって、観測信号の共分散行列Φと共分散ベクトルφの推定値が式(13),(14)で与えられているとすると、EMアルゴリズムのEステップでは、式(21)と式(22)の第二項を求めるだけで良い。この第二項は以下の式(23)〜(25)で求めることができる。   Here, the first term of the equation (21) is the observation signal covariance matrix Φ shown in the above equation (13). Further, the first term of the equation (22) is the observation signal covariance vector φ shown in the above equation (14). Therefore, assuming that the estimated values of the covariance matrix Φ and the covariance vector φ of the observation signal are given by the equations (13) and (14), in the E step of the EM algorithm, the equations (21) and (22) are used. It is only necessary to find the second term. This second term can be obtained by the following equations (23) to (25).

そしてEMアルゴリズムのMステップでは、予測フィルタ係数c ̄の更新値を式(20)を最大にする式(22)の値(これは予測係数の期待値に相当)として定める。このように、予測フィルタ推定部13は、観測信号の共分散行列Φと共分散ベクトルφと、予測フィルタモデルのモデルパラメータ{g1,μ1,Σ1,…}を入力として予測フィルタ係数c ̄を推定する。 In the M step of the EM algorithm, the updated value of the prediction filter coefficient c is determined as the value of Expression (22) that maximizes Expression (20) (this corresponds to the expected value of the prediction coefficient). As described above, the prediction filter estimation unit 13 receives the covariance matrix Φ and the covariance vector φ of the observation signal and the model parameters {g 1 , μ 1 , Σ 1 ,. Estimate habit.

予測フィルタ推定部13は、初期値設定部131と、事後確率算出部132と、期待値算出部133と、条件付期待値関数算出部134とを備える。初期値設定部131は、例えば参考文献に示されているマルチステップ線形予測などにより予測フィルタ係数の初期値c ̄「0」を定める(ステップS131)。このとき繰り返しのカウンタnをn=0とする。 The prediction filter estimation unit 13 includes an initial value setting unit 131, a posterior probability calculation unit 132, an expected value calculation unit 133, and a conditional expected value function calculation unit 134. The initial value setting unit 131 determines the initial value c ̄ “0” of the prediction filter coefficient by, for example, multistep linear prediction shown in the reference (step S131). At this time, the repeated counter n is set to n = 0.

事後確率算出部132は、上記した式(23)により予測フィルタ係数c ̄「n」が与えられたもとでの各状態iの事後確率を求める(ステップS132)。条件付期待値関数算出部133は、上記した式(24)と式(25)によって、条件付期待値を算出する(ステップS133)。期待値算出部134は、上記した式(21)と式(22)とによって予測フィルタ係数の期待値の更新値を求める(ステップS134)。更新値が収束していなければカウンタnをn=n+1(ステップS136)としてステップS131に戻る。 The posterior probability calculation unit 132 obtains the posterior probability of each state i with the prediction filter coefficient c ̄ “n” given by the above equation (23) (step S132). The conditional expected value function calculation unit 133 calculates the conditional expected value using the above-described formula (24) and formula (25) (step S133). The expected value calculation unit 134 obtains an updated value of the expected value of the prediction filter coefficient by using the above formula (21) and formula (22) (step S134). If the updated value has not converged, the counter n is set to n = n + 1 (step S136), and the process returns to step S131.

残響除去部44は、更新された予測フィルタ係数c ̄「n」を用いて上記した式(2)に基づいて観測信号から推定した残響信号を除去する(ステップS44)。残響除去部44の動作は従来法と同じである。 The reverberation removing unit 44 removes the reverberation signal estimated from the observation signal based on the above equation (2) using the updated prediction filter coefficient c 係数“n” (step S44). The operation of the dereverberation unit 44 is the same as in the conventional method.

以上述べたようにこの発明の残響除去方法によれば、予測フィルタ係数に関する確率モデルを用いることで確率的により尤もらしい予測フィルタ係数を推定することが可能であり、観測信号が短い場合においても比較的精度良く観測信号に含まれている残響信号を推定できる。   As described above, according to the dereverberation method of the present invention, it is possible to estimate a predictive filter coefficient that is more likely by using a probabilistic model related to a predictive filter coefficient. The reverberation signal included in the observation signal can be estimated with high accuracy.

〔変形例〕
実施例1では、音源モデルを、音源が定常自己回帰過程に従うと仮定して定義した。こ
れに対し、より精度の高い音源モデルを導入することで、より精度の高い残響除去を実現
することができる。例えば、有限状態機械でモデル化した音源モデルを導入する方法が考
えられる。その方法による残響除去装置300の機能構成例を図3に、その動作フローを
図4に示す。
[Modification]
In Example 1, the sound source model was defined on the assumption that the sound source follows a steady autoregressive process. On the other hand, by introducing a sound source model with higher accuracy, it is possible to realize dereverberation with higher accuracy. For example, a method of introducing a sound source model modeled by a finite state machine can be considered. FIG. 3 shows a functional configuration example of the dereverberation apparatus 300 according to the method, and FIG. 4 shows an operation flow thereof.

残響除去装置300は、観測信号x (v) ̄の各短時間フレームtの観測信号と最も合致する自己相関行列rを選択するようにしたものである。そのために、複数の自己相関行列を記録した音源モデル記録部30を新たに備える。また、音源モデル推定部31は、観測信号x (v) ̄を参照して音源モデル記録部30に記録された複数の自己相関行列から一つを選択するものであり、残響除去部32が残響を除去した目的信号s ̄が収束するまで自己相関行列の選択から繰り返し動作させる収束判定部321を備える点が、実施例1の残響除去装置100と異なる。 The dereverberation apparatus 300 selects an autocorrelation matrix r that most closely matches the observation signal of each short time frame t of the observation signal x t (v)  ̄. Therefore, a sound source model recording unit 30 that records a plurality of autocorrelation matrices is newly provided. The sound source model estimation unit 31 selects one from a plurality of autocorrelation matrices r recorded in the sound source model recording unit 30 with reference to the observation signal x t (v) 、. Is different from the dereverberation apparatus 100 of the first embodiment in that it includes a convergence determination unit 321 that repeatedly operates from the selection of the autocorrelation matrix until the target signal s tし た from which derever has been removed converges.

残響除去装置300も、残響除去の最適化関数として上記した式(7)を用いる。この
例では式(7)の第一項の音源モデルに関する部分の定義のみに変形を加え、第二項は同じものを用いる。
The dereverberation apparatus 300 also uses the above equation (7) as an optimization function for dereverberation. In this example, only the definition of the portion related to the sound source model of the first term of Expression (7) is modified, and the same term is used for the second term.

各時刻tの目的信号s ̄に関する音声モデルのパラメータは、自己相関コードブックのインデックスであり、これをiと表記する。iは、自己相関コードブックに含まれるコードワードのインデックスmがとる値を1≦m≦Mとすると、そのどれか一つの値をとる。各mに対応する自己相関行列をrと書き、ritを時刻tの自己相関コードブックのインデックスiに対応する自己相関行列とする。さらに、音声時系列の全体のモデルパラメータは、自己相関コードブックのインデックスの時系列全体I={i1,i2,…,i}とする。 Parameters of the speech models for the target signal s t ¯ at each time t is the index of the autocorrelation codebook is denoted to as i t. i t, when the index m assumes a value of code words contained in the autocorrelation codebook 1 ≦ m ≦ M, take one of the values that any. A self-correlation matrix corresponding to each m written as r m, the self-correlation matrix corresponding to the r it to the index i t of the autocorrelation codebook of time t. Further, the entire model parameter of the speech time series is assumed to be the entire time series I = {i 1 , i 2 ,..., I T } of the index of the autocorrelation codebook.

時刻tの音声のモデルは、式(26)で書ける。
The voice model at time t can be written by equation (26).

ただし、残響除去法で推定すべきパラメータはθ={c ̄,I}とする。以上により、
最適化関数の式(7)は、上記した式(18)と式(19)と式(26)に基づいて定義
することができる。この例では、最適化関数の最大化を予測フィルタ係数c ̄と自己相関
コードブックのインデックスの時系列全体Iに関して交互に繰り返して行う。
However, the parameter to be estimated by the dereverberation method is θ = {c ̄, I}. With the above,
Expression (7) of the optimization function can be defined based on the above expressions (18), (19), and (26). In this example, the optimization function is maximized by alternately repeating the prediction filter coefficient c  ̄ and the autocorrelation codebook index whole time series I.

音源モデル推定部31は、観測信号x(v)そのものを初期推定値s[0]とする(ステップS31)。同時に繰り返しカウンタn1をn1=0とする。そして、観測信号x (v) ̄を参照して音源モデル記録部30に記録された複数の自己相関行列から一つの自己相関行列ritを選択して式(27)によりiを定める。 The sound source model estimation unit 31 sets the observation signal x t(v) itself as the initial estimated value s t[0] (step S31). At the same time, the repeat counter n 1 is set to n 1 = 0. Then, by selecting the observed signal x t (v) one of the autocorrelation matrix r it from a plurality of autocorrelation matrix recorded in the sound source model recording unit 30 with reference to ¯ defining a i t by the equation (27).

観測信号共分散推定部12が、観測信号x(v)と自己相関行列ritを入力として観測信号の共分散行列Φと共分散ベクトルφを推定するステップS12から、残響除去部44が、観測信号から残響を除去して目的信号s ̄を推定するステップS44までは、実施例1と同じである。この例では、残響除去部32内の収束判定部321で、目標信号s ̄が収束するまで(ステップS321の済)繰り返しカウンタnをカウントアップ(ステップS322)しながら、音源モデル推定部31の自己相関行列ritを変更して予測フィルタ係数c ̄を推定する。 The observation signal covariance estimation unit 12 receives the observation signal x t Φ (v) and the autocorrelation matrix r it and estimates the covariance matrix Φ and covariance vector φ of the observation signal. The process up to step S44 for removing the reverberation from the observed signal and estimating the target signal s t  ̄ is the same as that in the first embodiment. In this example, the convergence determination unit 321 in the dereverberation unit 32 repeatedly counts up the counter n 1 (step S322) until the target signal s t収束 converges (step S321), and the sound source model estimation unit 31. estimating the prediction filter coefficients c¯ change the autocorrelation matrix r it in.

以上述べたように、例えば有限状態機械でモデル化した音源モデルを用いることで、よ
り精度の高い音源モデルにすることができ、その結果、精度の高い残響除去が実現できる。実施例1及び変形例で説明した残響除去方法は、事前に全ての信号が取得済みでありバッチ処理できることを前提にした方法である。次に、逐次的に得られる観測信号に対して最新の予測フィルタ係数を逐次推定するこの発明の残響除去法を実施例2として説明する。
As described above, for example, by using a sound source model modeled by a finite state machine, a more accurate sound source model can be obtained, and as a result, highly accurate dereverberation can be realized. The dereverberation method described in the first embodiment and the modified example is a method based on the premise that all signals have been acquired in advance and can be batch-processed. Next, a dereverberation method according to the present invention for sequentially estimating the latest prediction filter coefficient for observed signals obtained sequentially will be described as a second embodiment.

最新の予測フィルタ係数を逐次推定する残響除去装置500の機能構成例を図5に、そ
の動作フローを図6に示す。残響除去装置500は、予め定められた所定の時間間隔で予
測フィルタ係数c ̄を推定・更新するものである。各更新時において、その時刻より以前
に得られた観測信号の全て或いはその一部に対して上記した最大化アルゴリズムを適用す
ることで予測フィルタ係数c ̄を推定すると共に、各時刻に逐次的に得られる観測信号に
対してそれまでに得られた最新の予測フィルタ係数c ̄をその時刻の観測信号に適用する
構成である。
FIG. 5 shows a functional configuration example of the dereverberation apparatus 500 that sequentially estimates the latest prediction filter coefficients, and FIG. 6 shows an operation flow thereof. The dereverberation apparatus 500 estimates / updates the prediction filter coefficient c で at predetermined time intervals. At the time of each update, the prediction filter coefficient c で is estimated by applying the above-described maximization algorithm to all or part of the observation signal obtained before that time, and sequentially at each time. This is a configuration in which the latest prediction filter coefficient c ̄ obtained so far is applied to the observation signal at that time for the obtained observation signal.

残響除去装置500は、観測信号共分散推定部を所定時間間隔で繰り返し動作させ、予
測フィルタ係数c ̄を更新させる更新部50も備え、観測信号共分散推定部は、最新の共分散行列Φn-1と共分散ベクトルφΦn-1を記録する共分散記録部511を備えた観測信号共分散推定部51である点が、残響除去装置100と異なる。
The dereverberation apparatus 500 also includes an updating unit 50 that repeatedly operates the observation signal covariance estimation unit at predetermined time intervals and updates the prediction filter coefficient c ̄. The observation signal covariance estimation unit includes the latest covariance matrix Φ n. −1 and the covariance vector φΦ n−1 are different from the dereverberation apparatus 100 in that the observation signal covariance estimation unit 51 includes a covariance recording unit 511 that records the covariance vector φΦ n−1 .

残響除去装置500の初回の予測フィルタ係数c ̄を推定するまでの動作は、残響除去
装置100と基本的に同じであるが、二回目以降の動作は更新部50によって所定時間間
隔で繰り返される(ステップS50)点が異なる。また、観測信号共分散推定部51が、
観測信号の共分散行列Φと共分散ベクトルφを推定した際に、その最新の共分散行列Φと
共分散ベクトルφを、共分散行列Φn-1と共分散ベクトルφn-1として共分散記録部511に記録する点が異なる。また、予測フィルタ推定部13´の初期値設定部131´が予測フィルタ係数の初期値を設定する処理(ステップS131´)は、初回のみ行われる点が異なる。なお、予測フィルタ係数c ̄は所定時間間隔で更新されるが、残響除去は最新の予測フィルタ係数c ̄で連続的に行われる。
The operation of the dereverberation apparatus 500 until the first prediction filter coefficient c ̄ is estimated is basically the same as that of the dereverberation apparatus 100, but the second and subsequent operations are repeated at predetermined time intervals by the update unit 50 ( Step S50) is different. In addition, the observation signal covariance estimation unit 51
When the covariance matrix Φ and covariance vector φ of the observed signal are estimated, the latest covariance matrix Φ and covariance vector φ are covariance as covariance matrix Φ n-1 and covariance vector φ n-1 The point of recording in the recording unit 511 is different. Further, the processing (step S131 ′) in which the initial value setting unit 131 ′ of the prediction filter estimation unit 13 ′ sets the initial value of the prediction filter coefficient is different only in the first time. The prediction filter coefficient c 係数 is updated at predetermined time intervals, but dereverberation is continuously performed with the latest prediction filter coefficient c ̄.

残響除去装置500では、残響除去部44の残響除去処理は、予測フィルタ推定部13
´の予測フィルタ推定処理とは並列かつ非同期的に行なわれる。これにより、残響除去部
44は、逐次的に入力されてくる観測信号に対し、それまでに予測フィルタ推定部13´
が推定した最新の予測フィルタ推定値に基づき(予測フィルタ推定部の次の予測フィルタ
更新処理が終わるのを待たずに)残響除去を逐次的に行うことができる。なお、予測フィ
ルタ推定部13´が初回の推定値を得るまでの時刻においては、予測フィルタの推定値は
例えば0とする。若しくは、事前に測定した観測信号に基づいて計算された値を用いても
良い。
In the dereverberation apparatus 500, the dereverberation process of the dereverberation unit 44 is performed by the prediction filter estimation unit 13.
The prediction filter estimation process of ′ is performed in parallel and asynchronously. As a result, the dereverberation unit 44 applies the prediction filter estimation unit 13 ′ to the observed signals input sequentially.
The dereverberation can be sequentially performed based on the latest prediction filter estimated value estimated by (without waiting for the completion of the next prediction filter update process of the prediction filter estimation unit). Note that the estimated value of the prediction filter is, for example, 0 at the time until the prediction filter estimation unit 13 ′ obtains the first estimated value. Alternatively, a value calculated based on an observation signal measured in advance may be used.

観測信号共分散推定部51は、共分散行列Φと共分散ベクトルφの推定を式(28)と
式(29)で行う。
The observation signal covariance estimation unit 51 performs estimation of the covariance matrix Φ and the covariance vector φ using Expression (28) and Expression (29).

ここで、Tは各更新の以前の所定時間間隔に対応する観測信号の時間のインデックスの全てを表わす。α、βは忘却係数であり、0<α,β<1の定数とする。 Here, T i represents all the time indexes of the observation signal corresponding to the predetermined time interval before each update. α and β are forgetting factors, and are constants of 0 <α and β <1.

以上のようにすることで、各時刻で得られた最新の予測フィルタ係数による残響除去を
行うことができる。次に、残響除去を周波数領域で行なうようにしたこの発明の実施例3
を説明する。
By doing so, dereverberation can be performed using the latest prediction filter coefficient obtained at each time. Next, Embodiment 3 of the present invention in which dereverberation is performed in the frequency domain.
Will be explained.

残響除去を周波数領域で行なうようにした残響除去装置700の機能構成例を図7に示
す。残響除去装置700は、周波数領域で残響を除去する周波数領域残響除去部70を備
える点が、時間領域で残響除去を行なう残響除去装置100,500と異なる。
FIG. 7 shows a functional configuration example of a dereverberation apparatus 700 that performs dereverberation in the frequency domain. The dereverberation apparatus 700 is different from the dereverberation apparatuses 100 and 500 that perform the dereverberation in the time domain in that the dereverberation apparatus 700 includes a frequency domain dereverberation unit 70 that removes reverberation in the frequency domain.

観測信号のエネルギーから残響信号のエネルギーをスペクトル減算により引き算する残
響除去処理の方が、音源位置の違い等に対して予測フィルタ係数の推定誤差を頑健にする
ことが、例えば上記した参考文献で報告されている。
The dereverberation process, which subtracts the energy of the reverberant signal from the energy of the observed signal by spectral subtraction, makes the estimation error of the prediction filter coefficient more robust against the difference in the sound source position, etc. Has been.

この発明の残響除去装置においても、観測信号と予測フィルタ係数から残響信号の予測
値e(v)を式(30)で求め、観測信号の短時間パワースペクトルから減算するパワー減算技術を用いて残響除去を行うことが可能である。
The dereverberation apparatus of the present invention also uses a power subtraction technique that obtains the predicted value e t(v) of the reverberation signal from the observation signal and the prediction filter coefficient by Equation (30) and subtracts it from the short-time power spectrum of the observation signal. It is possible to remove dereverberation.

周波数領域残響除去部70は、観測信号x(v)と残響信号の予測値e(v)のそれぞれを、例えば短時間フーリエ変換等の一般的な周波数変換技術を用いてパワースペクトルに変換した後に、残響除去をパワースペクトル同士で行うものであり、従来技術で構成できる。例えば、観測信号x(v)、残響信号の予測値e(v)、目的信号s ̄、それぞれの短時間フーリエ変換をXn,m 〜(V),En,m 〜(V),Sn,m ,と書く(n,mは、時間フレームと周波数ビンのインデックス)とスペクトル減算は式(31)〜(33)で表わせる。 Frequency domain dereverberation unit 70, the observed signal x t ¯ (v) and the respective predicted values e t ¯ of the reverb signal (v), for example, a power spectrum using the common frequency conversion technology short time Fourier transform, etc. After conversion to, the dereverberation is performed between the power spectra, and can be configured by conventional techniques. For example, the observed signal x t(v) , the predicted value of the reverberation signal e t(v) , the target signal s t  ̄, and the short-time Fourier transform of each of them, X n, m to (V) , En , m to (V) , S n, m ˜ (where n and m are indices of time frames and frequency bins) and spectral subtraction can be expressed by equations (31) to (33).

ここでεは、1よりも十分に小さな正定数とした。さらに、得られた目的信号の短時間
フーリエ変換Sn,m に短時間逆フーリエ変換を適用し、オーバラップ加算などを行うことで目的信号の時間領域信号を得ることができる。上記したように実施例3によれば、より正確な残響除去が可能になる。
Here, ε is a positive constant sufficiently smaller than 1. Furthermore, short-time Fourier transform S n of the resulting target signal, applying an inverse Fourier transform short time m ~, it is possible to obtain a time domain signal of the target signal by performing such overlap-add. As described above, according to the third embodiment, more accurate dereverberation can be performed.

〔シミュレーション結果〕
この発明の残響除去方法の性能を評価した。まず、残響除去の対象になる部屋の予測フィルタの事前確率分布のモデルパラメータの推定条件を説明する。分析対象にした部屋を模式的に図8に示す。分析対象は3.5m×4.5m×2.5mの広さで残響時間0.5秒の残響室とした。高さ1.5mの室内中央付近の1平方メートルの範囲を30×30点で等分割し、各点を音源位置とした。受音点のマイクロホンは2本用意し、マイクロホン間の距離は0.2mとした。各音源位置から2本のマイクロホンMic.1とMic.2へのインパルス応答を鏡像法によって求め、各伝達経路の予測フィルタ係数を多チャネルマルチステップ線形予測によって推定し、これら900地点分の係数を用いて、EMアルゴリズムにより混合ガウス分布のモデルパラメータ{g1,μ1,Σ1,…}を推定した。混合ガウス分布の混合数は4とした。
〔simulation result〕
The performance of the dereverberation method of the present invention was evaluated. First, the estimation condition of the model parameter of the prior probability distribution of the prediction filter of the room to be dereverberation will be described. FIG. 8 schematically shows a room to be analyzed. The object of analysis was a reverberation chamber with a reverberation time of 0.5 seconds and a size of 3.5 m × 4.5 m × 2.5 m. An area of 1 square meter near the center of the room with a height of 1.5 m was equally divided by 30 × 30 points, and each point was set as a sound source position. Two microphones at the receiving point were prepared, and the distance between the microphones was 0.2 m. Two microphones Mic. 1 and Mic. The impulse response to 2 is obtained by mirror image method, the prediction filter coefficient of each transmission path is estimated by multi-channel multi-step linear prediction, and the model parameter {g 1 , μ 1 , Σ 1 , ...} were estimated. The number of mixtures in the mixed Gaussian distribution was 4.

得られた予測フィルタ係数の事前確率分布を用いて音声の残響除去を行った。シミュレーション条件は以下の通りとした。図8にスピーカsp1とsp2で示した二箇所に、音源位置を設定した。スピーカsp1は学習範囲内中央に位置する。スピーカsp2は学習範囲外に位置する。多チャネルマルチステップ線形予測の次数は2800、ステップサイスD=400とした。音源はATR音声データベースを用いた。サンプリング周波数は8kHz、量子化ビット数は16とした。残響を含まない音声信号に、鏡像法で作成した残響時間0.5秒に相当するスピーカsp1とsp2の各音源位置から受音点までのインパルス応答を畳み込んで、0.5、1.0、2.0、4.0秒と異なる長さのステレオ観測信号を作成した。これらの異なる長さの観測信号を用いて、この発明の残響除去方法と従来法によるマイクロホンMic.1における観測信号の残響除去性能を比較した。   The dereverberation of speech was performed using the obtained prior probability distribution of the prediction filter coefficients. The simulation conditions were as follows. Sound source positions were set at two locations indicated by speakers sp1 and sp2 in FIG. The speaker sp1 is located at the center in the learning range. The speaker sp2 is located outside the learning range. The order of multi-channel multi-step linear prediction was 2800, and step size D = 400. The sound source was an ATR audio database. The sampling frequency was 8 kHz and the number of quantization bits was 16. An impulse response from the sound source positions of the speakers sp1 and sp2 corresponding to a reverberation time of 0.5 seconds created by a mirror image method is convoluted with an audio signal that does not include reverberation, and is 0.5 to 1.0. Stereo observation signals with different lengths of 2.0 and 4.0 seconds were created. Using these observation signals of different lengths, the dereverberation method of the present invention and the microphone Mic. 1 compared the dereverberation performance of the observed signal.

その比較を残響の無い原音声信号と残響除去音声のケプストラム(Cepstrum)歪みによって行った。ケプストラム歪み(CD)は式(34)で定義される。
The comparison was made by the cepstrum distortion of the original speech signal without reverberation and the dereverberation speech. Cepstrum distortion (CD) is defined by equation (34).

ここで、c^、cはそれぞれ、残響除去音声、原音声信号のケプストラム係数であり、D0、D1はケプストラム係数の次元である。このシミュレーションでは0次から12次までのケプストラム係数を用いてケプストラム歪みを定義した。また、各次元のケプストラム係数は時系列の平均値を減算したものを用いた。 Here, c k ^ and c k are the cepstrum coefficients of the dereverberation voice and the original voice signal, respectively, and D 0 and D 1 are the dimensions of the cepstrum coefficients. In this simulation, cepstrum distortion was defined using cepstrum coefficients from the 0th order to the 12th order. The cepstrum coefficient for each dimension was obtained by subtracting the average value of the time series.

従来法とこの発明の方法による各観測信号長毎のケプストラム歪みの時間平均値と観測信号のケプストラム歪みの時間平均値を図9に示す。図9(a)は音源位置がスピーカsp1、図9(b)はスピーカsp2の場合を示す。それぞれの横軸は観測時間長[秒]、縦軸はケプストラム歪みの時間平均値を[dB]で表わす。   FIG. 9 shows the time average value of the cepstrum distortion for each observation signal length and the time average value of the cepstrum distortion of the observation signal according to the conventional method and the method of the present invention. FIG. 9A shows the case where the sound source position is the speaker sp1, and FIG. Each horizontal axis represents the observation time length [second], and the vertical axis represents the time average value of cepstrum distortion in [dB].

従来法のケプストラム歪みの時間平均値(●でプロット)に対して、観測時間長が2秒以内の範囲においてこの発明の方法(□でプロット)の方が歪みが少ない特性を示す。特に観測時間長が0.5秒の場合に、従来法では観測信号よりも悪化した歪みを示すのに対し、この発明の方法は音源位置の場所によらずに大きく(2.3〜3dB)改善されたケプストラム歪みの時間平均値を示す。   Compared with the time average value of the cepstrum distortion of the conventional method (plotted with ●), the method of the present invention (plotted with □) shows a characteristic with less distortion when the observation time length is within 2 seconds. In particular, when the observation time length is 0.5 seconds, the conventional method shows distortion that is worse than that of the observation signal, whereas the method of the present invention is large (2.3 to 3 dB) regardless of the location of the sound source. The time-averaged value of improved cepstrum distortion is shown.

以上述べたようにこの発明の残響除去方法によれば、予測フィルタ係数を推定するために利用できる観測時間長が短い場合に、従来法よりも音源位置の違いに頑健で良好な残響除去が行えることが確認できた。   As described above, according to the dereverberation method of the present invention, when the observation time length that can be used for estimating the prediction filter coefficient is short, the dereverberation method is more robust against the difference in sound source position than the conventional method and can perform good dereverberation. I was able to confirm.

なお、この発明の方法及び装置は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   In addition, the method and apparatus of this invention are not limited to the above-mentioned embodiment, In the range which does not deviate from the meaning of this invention, it can change suitably. Further, the processes described in the above method and apparatus are not only executed in time series according to the order of description, but also may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Good.

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。   Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.

この発明の残響除去方法を用いた残響除去装置100の機能構成例を示す図。The figure which shows the function structural example of the dereverberation apparatus 100 using the dereverberation method of this invention. 残響除去装置100の動作フローを示す図。The figure which shows the operation | movement flow of the dereverberation apparatus. この発明の残響除去装置300の機能構成例を示す図。The figure which shows the function structural example of the dereverberation apparatus 300 of this invention. 残響除去装置300の動作フローを示す図。The figure which shows the operation | movement flow of the dereverberation apparatus. この発明の残響除去装置500の機能構成例を示す図。The figure which shows the function structural example of the dereverberation apparatus 500 of this invention. 残響除去装置500の動作フローを示す図。The figure which shows the operation | movement flow of the dereverberation apparatus. この発明の残響除去装置700の機能構成例を示す図。The figure which shows the function structural example of the dereverberation apparatus 700 of this invention. シミュレーションに用いた分析対象にした部屋を模式的に示す図。The figure which shows typically the room made into the analysis object used for simulation. シミュレーション結果を示す図であり、(a)は音源位置がスピーカsp1の場合、(b)は音源位置がスピーカsp2の場合を示す。It is a figure which shows a simulation result, (a) shows the case where a sound source position is speaker sp1, (b) shows the case where a sound source position is speaker sp2. 非特許文献1に開示された従来の残響除去装置900の機能構成例を示す図。The figure which shows the function structural example of the conventional dereverberation apparatus 900 disclosed by the nonpatent literature 1. FIG.

Claims (10)

時系列の観測信号を入力として残響を含まない音源モデルのモデルパラメータを推定する音源モデル推定部と、
上記モデルパラメータと上記観測信号を入力として上記観測信号の共分散行列と共分散ベクトルを推定する観測信号共分散推定部と、
上記観測信号を収音する場所において観測された信号に含まれる残響信号を予測する予測フィルタ係数を当該予測フィルタ係数の確率密度関数でモデル化した予測フィルタモデルを、予め記録しておく予測フィルタモデル記録部と、
上記観測信号の共分散行列と共分散ベクトルと、上記予測フィルタモデルを入力として予測フィルタ係数を推定する予測フィルタ推定部と、
上記観測信号と上記予測フィルタ係数を入力として残響を含まない音声信号を推定する残響除去部と、
を具備する残響除去装置。
A sound source model estimation unit for estimating a model parameter of a sound source model that does not include reverberation using a time-series observation signal as an input;
An observation signal covariance estimation unit that estimates the covariance matrix and covariance vector of the observation signal by using the model parameter and the observation signal as inputs;
A prediction filter model in which a prediction filter model in which a prediction filter coefficient for predicting a reverberation signal included in a signal observed at a place where the observation signal is collected is modeled with a probability density function of the prediction filter coefficient is recorded in advance. A recording section;
A prediction filter estimation unit that estimates a prediction filter coefficient using the covariance matrix and covariance vector of the observed signal as input, and the prediction filter model;
A dereverberation unit that estimates a speech signal that does not include reverberation using the observed signal and the prediction filter coefficient as inputs,
A dereverberation apparatus comprising:
請求項1に記載の残響除去装置において、The dereverberation apparatus according to claim 1, wherein
上記予測フィルタ推定部は、  The prediction filter estimation unit
上記観測信号の共分散行列と共分散ベクトルと、上記予測フィルタモデルを入力として、予測フィルタ係数の予測フィルタモデルに基づく関数値と当該予測フィルタ係数に依存して定まる残響を含まない音声信号の音源モデルに基づく関数値との和で定義される最適化関数を最大化する予測フィルタ係数を推定するものであることを特徴とする残響除去装置。  A sound source of a speech signal that does not include reverberation determined depending on the function value based on the prediction filter model of the prediction filter coefficient and the prediction filter coefficient, with the covariance matrix and covariance vector of the observation signal and the prediction filter model as inputs. An dereverberation apparatus characterized by estimating a prediction filter coefficient that maximizes an optimization function defined by a sum of function values based on a model.
請求項1又は2に記載の残響除去装置において、
上記観測信号共分散推定部を所定時間間隔で動作させる更新部も備え、
上記観測信号共分散推定部は、上記モデルパラメータと、逐次的に入力される上記観測信号の時系列とから上記所定時間間隔で上記共分散行列と上記共分散ベクトルを更新し、
上記更新された上記共分散行列と上記共分散ベクトルとに対応して上記予測フィルタ推定部と上記残響除去部とが動作することを特徴とする残響除去装置。
In the dereverberation apparatus according to claim 1 or 2 ,
An update unit that operates the observation signal covariance estimation unit at predetermined time intervals,
The observation signal covariance estimation unit updates the covariance matrix and the covariance vector at the predetermined time interval from the model parameters and the time series of the observation signals sequentially input,
The dereverberation apparatus, wherein the prediction filter estimation unit and the dereverberation unit operate corresponding to the updated covariance matrix and the covariance vector.
請求項1乃至3の何れかに記載の残響除去装置において、
上記残響除去部が、周波数領域で動作することを特徴とする残響除去装置。
The dereverberation apparatus according to any one of claims 1 to 3 ,
The dereverberation apparatus, wherein the dereverberation unit operates in a frequency domain.
音源モデル推定部が、時系列の観測信号を入力として残響を含まない音源モデルのモデルパラメータを推定する音源モデル推定過程と、
観測信号共分散推定部が、上記モデルパラメータと上記観測信号を入力として上記観測信号の共分散行列と共分散ベクトルを推定する観測信号共分散推定過程と、
予測フィルタ推定部が、上記観測信号の共分散行列と共分散ベクトルと、上記観測信号を収音する場所において観測された信号に含まれる残響信号を予測する予測フィルタ係数を、当該予測フィルタ係数の確率密度関数でモデル化した予測フィルタモデルを入力として予測フィルタ係数を推定する予測フィルタ推定過程と、
残響除去部が、上記観測信号と上記予測フィルタ係数を入力として残響を含まない音声信号を推定する残響除去過程と、
を備える残響除去方法。
A sound source model estimation unit for estimating a model parameter of a sound source model that does not include reverberation using a time-series observation signal as an input;
An observation signal covariance estimation unit that estimates the covariance matrix and covariance vector of the observation signal by using the model parameter and the observation signal as inputs; and
A prediction filter estimation unit calculates a prediction filter coefficient for predicting a reverberation signal included in a signal observed at a location where the observation signal is collected , and a covariance matrix and a covariance vector of the observation signal . A prediction filter estimation process for estimating a prediction filter coefficient using a prediction filter model modeled by a probability density function as an input;
A dereverberation unit, which receives the observation signal and the prediction filter coefficient as input and estimates a speech signal that does not include reverberation;
A dereverberation method comprising:
請求項5に記載の残響除去方法において、In the dereverberation method according to claim 5,
上記予測フィルタ推定過程は、  The prediction filter estimation process is as follows:
上記観測信号の共分散行列と共分散ベクトルと、上記予測フィルタモデルを入力として、予測フィルタ係数の予測フィルタモデルに基づく関数値と当該予測フィルタ係数に依存して定まる残響を含まない音声信号の音源モデルに基づく関数値との和で定義される最適化関数を最大化する予測フィルタ係数を推定する過程であることを特徴とする残響除去方法。  A sound source of a speech signal that does not include reverberation determined depending on the function value based on the prediction filter model of the prediction filter coefficient and the prediction filter coefficient, with the covariance matrix and covariance vector of the observation signal and the prediction filter model as inputs. A dereverberation method, which is a process of estimating a prediction filter coefficient that maximizes an optimization function defined by a sum of function values based on a model.
請求項5又は6に記載の残響除去方法において、
上記観測信号共分散推定過程と、上記予測フィルタ推定過程と、上記残響除去過程とが、所定時間間隔で繰り返し行なわれる更新過程も含むことを特徴とする残響除去方法。
In the dereverberation method according to claim 5 or 6 ,
An dereverberation method comprising: an update process in which the observed signal covariance estimation process, the prediction filter estimation process, and the dereverberation process are repeatedly performed at predetermined time intervals.
請求項5乃至7の何れかに記載の残響除去方法において、
上記残響除去過程は、周波数領域で動作することを特徴とする残響除去方法。
The dereverberation method according to any one of claims 5 to 7 ,
The dereverberation method, wherein the dereverberation process operates in a frequency domain.
請求項1乃至の何れかに記載した残響除去装置としてコンピュータを機能させるための装置プログラム。 Device program for causing a computer to function as a dereverberation apparatus according to any one of claims 1 to 4. 請求項に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。 A computer-readable recording medium on which any of the apparatus programs according to claim 9 is recorded.
JP2008051099A 2008-02-29 2008-02-29 Reverberation apparatus and method, program and recording medium Expired - Fee Related JP4977062B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008051099A JP4977062B2 (en) 2008-02-29 2008-02-29 Reverberation apparatus and method, program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008051099A JP4977062B2 (en) 2008-02-29 2008-02-29 Reverberation apparatus and method, program and recording medium

Publications (2)

Publication Number Publication Date
JP2009212599A JP2009212599A (en) 2009-09-17
JP4977062B2 true JP4977062B2 (en) 2012-07-18

Family

ID=41185365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008051099A Expired - Fee Related JP4977062B2 (en) 2008-02-29 2008-02-29 Reverberation apparatus and method, program and recording medium

Country Status (1)

Country Link
JP (1) JP4977062B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5166460B2 (en) * 2010-02-09 2013-03-21 日本電信電話株式会社 Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppression method, program
JP6019969B2 (en) 2011-11-22 2016-11-02 ヤマハ株式会社 Sound processor
JP5689844B2 (en) * 2012-03-16 2015-03-25 日本電信電話株式会社 SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM
CN103033815B (en) * 2012-12-19 2014-11-05 中国科学院声学研究所 Detection Method and detection device of distance expansion target based on reverberation covariance matrix
JP6316773B2 (en) * 2015-05-07 2018-04-25 日本電信電話株式会社 Statistical data reconstruction device, statistical data reconstruction method, program
DK3311591T3 (en) * 2015-06-19 2021-11-08 Widex As PROCEDURE FOR OPERATING A HEARING AID SYSTEM AND A HEARING AID SYSTEM
CN107360497B (en) * 2017-07-14 2020-09-29 深圳永顺智信息科技有限公司 Calculation method and device for estimating reverberation component
CN111933170B (en) * 2020-07-20 2024-03-29 歌尔科技有限公司 Voice signal processing method, device, equipment and storage medium
CN116525040B (en) * 2023-04-26 2024-03-22 湖南铁院土木工程检测有限公司 Construction method and application of steel fiber-binary aggregate system filling density prediction model

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3836815B2 (en) * 2003-05-21 2006-10-25 インターナショナル・ビジネス・マシーンズ・コーポレーション Speech recognition apparatus, speech recognition method, computer-executable program and storage medium for causing computer to execute speech recognition method
JP4697400B2 (en) * 2005-03-01 2011-06-08 日本精機株式会社 Vehicle display device
JP4586577B2 (en) * 2005-03-02 2010-11-24 株式会社国際電気通信基礎技術研究所 Disturbance component suppression device, computer program, and speech recognition system
JP4891805B2 (en) * 2007-02-23 2012-03-07 日本電信電話株式会社 Reverberation removal apparatus, dereverberation method, dereverberation program, recording medium
JP4729534B2 (en) * 2007-05-25 2011-07-20 日本電信電話株式会社 Reverberation apparatus, dereverberation method, dereverberation program, and recording medium thereof

Also Published As

Publication number Publication date
JP2009212599A (en) 2009-09-17

Similar Documents

Publication Publication Date Title
JP4977062B2 (en) Reverberation apparatus and method, program and recording medium
JP5227393B2 (en) Reverberation apparatus, dereverberation method, dereverberation program, and recording medium
JP5124014B2 (en) Signal enhancement apparatus, method, program and recording medium
JP4774100B2 (en) Reverberation removal apparatus, dereverberation removal method, dereverberation removal program, and recording medium
KR101521368B1 (en) Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal
JP4586577B2 (en) Disturbance component suppression device, computer program, and speech recognition system
JP2005249816A (en) Device, method and program for signal enhancement, and device, method and program for speech recognition
JP4856662B2 (en) Noise removing apparatus, method thereof, program thereof and recording medium
Simon et al. A general framework for online audio source separation
KR102410850B1 (en) Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder
JP6348427B2 (en) Noise removal apparatus and noise removal program
JP5351856B2 (en) Sound source parameter estimation device, sound source separation device, method thereof, program, and storage medium
JP4960933B2 (en) Acoustic signal enhancement apparatus and method, program, and recording medium
JP4977100B2 (en) Reverberation removal apparatus, dereverberation removal method, program thereof, and recording medium
JP2013167698A (en) Apparatus and method for estimating spectral shape feature quantity of signal for every sound source, and apparatus, method and program for estimating spectral feature quantity of target signal
JPWO2007094463A1 (en) Signal distortion removing apparatus, method, program, and recording medium recording the program
JP5438704B2 (en) Sound source parameter estimation device, sound source separation device, method and program thereof
EP3557576B1 (en) Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
JP6142402B2 (en) Acoustic signal analyzing apparatus, method, and program
JP4729534B2 (en) Reverberation apparatus, dereverberation method, dereverberation program, and recording medium thereof
JP5731929B2 (en) Speech enhancement device, method and program thereof
JP5457999B2 (en) Noise suppressor, method and program thereof
JP6827908B2 (en) Speech enhancement device, speech enhancement learning device, speech enhancement method, program
JP2020030373A (en) Sound source enhancement device, sound source enhancement learning device, sound source enhancement method, program
JP4242320B2 (en) Voice recognition method, apparatus and program thereof, and recording medium thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120413

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees