JP5172536B2 - Reverberation removal apparatus, dereverberation method, computer program, and recording medium - Google Patents
Reverberation removal apparatus, dereverberation method, computer program, and recording medium Download PDFInfo
- Publication number
- JP5172536B2 JP5172536B2 JP2008214462A JP2008214462A JP5172536B2 JP 5172536 B2 JP5172536 B2 JP 5172536B2 JP 2008214462 A JP2008214462 A JP 2008214462A JP 2008214462 A JP2008214462 A JP 2008214462A JP 5172536 B2 JP5172536 B2 JP 5172536B2
- Authority
- JP
- Japan
- Prior art keywords
- time series
- impulse response
- estimated value
- estimated
- original sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
Description
本発明は、音響信号から残響成分を除去する残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体に関する。 The present invention relates to a dereverberation apparatus, a dereverberation method, a computer program, and a recording medium that remove a reverberation component from an acoustic signal.
音響信号から残響成分を除去する方法は、これまでさまざまなアプローチが提案されている。例えば、単一のマイクロホンに入力された音響信号に対して動作するアプローチとしては、クリーン音声に関する仮定やモデル(調波性、スパース性、自己回帰モデル、自己相関関数コードブックなど)に基づいて、復元音声ができるだけクリーンな音声らしさを有するように室内インパルス応答の逆フィルタを推定するものが知られている(例えば、非特許文献1参照)。一般的に、室内インパルス応答は音源位置に応じて時々刻々と著しく変化することがあるため、非特許文献1に記載されている技術においては、短い観測信号から、いかに頑健に逆フィルタを推定できるかが重要課題となっている。 Various approaches have been proposed for removing reverberation components from an acoustic signal. For example, an approach that operates on an acoustic signal input to a single microphone is based on clean speech assumptions and models (such as harmonics, sparsity, autoregressive models, autocorrelation function codebooks) There is known one that estimates an inverse filter of a room impulse response so that the restored sound has as clean a sound as possible (for example, see Non-Patent Document 1). In general, the indoor impulse response may change remarkably every moment depending on the sound source position. Therefore, in the technique described in Non-Patent Document 1, how robustly the inverse filter can be estimated from a short observation signal. Is an important issue.
また、音響信号から残響成分を除去する方法としては、サブバンドごとのパワー時間包絡に対して逆フィルタリングを行なう技術も知られている(例えば、非特許文献2、非特許文献3参照)。非特許文献2および非特許文献3に記載の技術は、室内インパルス応答の中でも音源位置に応じて著しく変化するのは特に位相スペクトルであり、振幅スペクトルないしパワースペクトルに関しては比較的影響を受けにくいという仮説を基礎としている。パワー包絡の畳み込みモデルは近似的にしか成り立たないものであるため、残響除去精度に関してはある程度の限界があることが予想されるが、クリーン音声らしさを規準として室内インパルス応答の逆フィルタを推定する非特許文献1に記載の技術に比べて、音源位置などの変化に対してある程度頑健に動作する可能性がある。
非特許文献2および非特許文献3の技術では、残響成分のパワー包絡をパラメトリックな関数でモデル化しており、非特許文献3の技術では、そのパラメータを変調度と呼ぶ尺度をもとに推定している。しかしながら、実環境では音源の移動や室温変化などに伴って残響環境の変化があるため、実際の残響成分がこれらの関数クラスに理想的に従うことは極めて稀である。よって、これらの技術では良好に残響を除去することが必ずしも保証されないという問題がある。
In the techniques of Non-Patent
本発明はこのような事情に鑑みてなされたものであり、音源の移動や室温変化などに伴う残響環境の変化に柔軟に対応しつつ残響を除去することが可能な残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体を提供することを目的とする。 The present invention has been made in view of such circumstances, and a dereverberation apparatus and a dereverberation method capable of removing reverberation while flexibly responding to changes in a reverberation environment accompanying movement of a sound source or changes in room temperature. An object of the present invention is to provide a computer program and a recording medium.
本発明は、音響信号の入力を受け付け、短時間周波数分析により周波数チャネルごとのサブバンド信号の振幅またはパワーの時系列である観測パワー時系列を生成する観測パワー時系列生成部と、周波数チャネルごとの非負制約をもつ室内インパルス応答推定値と、原音の周波数チャネルごとのパワー推定値時系列である原音パワー推定値時系列とを設定する初期設定部と、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とを畳み込み、周波数チャネルごとの残響音モデルのパワー時系列である残響音パワー推定値時系列を算出する残響音パワー推定値時系列算出部と、前記観測パワー時系列と、前記残響音パワー推定値時系列と、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とに基づいて、非負制約を満たして前記室内インパルス応答推定値を更新する室内インパルス応答更新部と、前記観測パワー時系列と、前記残響音パワー推定値時系列と、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とに基づいて、非負制約を満たして前記原音パワー推定値時系列を更新する原音パワー推定値時系列更新部と、前記室内インパルス応答更新部が更新した前記室内インパルス応答推定値を、当該室内インパルス応答推定値の要素値の総和が一定値になるように規格化し、前記原音パワー推定値時系列更新部が更新した前記原音パワー推定値時系列を、当該原音パワー推定値時系列の要素値の総和が一定値になるように規格化するパラメータ規格化部と、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしているか否かを判定する収束判定部と、前記収束判定部が、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしていると判定した場合、当該室内インパルス応答推定値と当該原音パワー推定値時系列とを出力するパラメータ出力部と、を備え、前記収束判定部が、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしていないと判定した場合、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とに基づいて、前記残響音パワー推定値時系列算出部は前記残響音パワー推定値時系列を算出し、前記室内インパルス応答更新部は前記室内インパルス応答推定値を更新し、前記原音パワー推定値時系列更新部は前記原音パワー推定値時系列を更新し、前記原音パワー推定値時系列更新部は前記原音パワー推定値時系列を更新することを特徴とする残響除去装置である。 The present invention receives an input of an acoustic signal and generates an observation power time series that is a time series of the amplitude or power of a subband signal for each frequency channel by short-time frequency analysis, and for each frequency channel An initial setting unit that sets a room impulse response estimated value having a non-negative constraint and an original sound power estimated time series that is a power estimated value time series for each frequency channel of the original sound, the indoor impulse response estimated value, and the original sound A reverberant sound power estimated value time series calculating unit that calculates a reverberant sound power estimated value time series that is a power time series of a reverberant sound model for each frequency channel, and the observed power time series, Based on the reverberant power estimate time series, the indoor impulse response estimate, and the original sound power estimate time series, non-negative constraints are set. Thus, the room impulse response update unit for updating the room impulse response estimated value, the observation power time series, the reverberation sound power estimated time series, the room impulse response estimated value, and the original sound power estimated value An original sound power estimated value time series updating unit that updates the original sound power estimated value time series while satisfying a non-negative constraint, and the indoor impulse response estimated value updated by the indoor impulse response updating unit. The original sound power estimated value time series normalized by the sum of the element values of the impulse response estimated values to be a constant value and updated by the original sound power estimated value time series update unit is the element value of the original sound power estimated value time series. A parameter normalization unit that normalizes so that the sum of the values becomes a constant value, the indoor impulse response estimated value normalized by the parameter normalization unit, and the original sound A convergence determination unit for determining whether or not the time estimation value time series satisfies a predetermined criterion, and the convergence determination unit, the indoor impulse response estimation value and the original sound power normalized by the parameter normalization unit A parameter output unit that outputs the room impulse response estimated value and the original sound power estimated value time series when it is determined that the estimated time series satisfies a predetermined criterion, the convergence determining unit When the room impulse response estimated value and the original sound power estimated value time series normalized by the parameter normalization unit do not satisfy a predetermined criterion, the room normalized by the parameter normalization unit Based on the impulse response estimated value and the original sound power estimated value time series, the reverberant power estimated value time series calculating unit calculates the reverberant power estimated value time series, and An inner impulse response update unit updates the indoor impulse response estimated value, the original sound power estimated value time series update unit updates the original sound power estimated value time series, and the original sound power estimated value time series update unit updates the original sound power. An dereverberation apparatus that updates an estimated time series.
また、本発明の残響除去装置において、前記室内インパルス応答更新部は、周波数チャネルごとに、前記観測パワー時系列と前記原音パワー推定値時系列との相関関数である観測音・推定原音間相関関数を算出する観測音・推定原音間相関関数算出部と、周波数チャネルごとに、前記残響音パワー推定値時系列と前記原音パワー推定値時系列との相関関数である推定残響音・推定原音間相関関数を算出する推定残響音・推定原音間相関関数算出部と、周波数チャネルごとに、前記観測音・推定原音間相関関数の時系列の要素値を、前記推定残響音・推定原音間相関関数の時系列の要素値で除算した値である室内インパルス応答推定値更新係数を算出する室内インパルス応答推定値更新係数算出部と、周波数チャネルごとに、前記室内インパルス応答推定値と前記室内インパルス応答推定値更新係数とを要素ごとに積算し、室内インパルス応答推定値更新値を算出する室内インパルス応答推定値更新値出力部と、を備えることを特徴とする。 Further, in the dereverberation apparatus of the present invention, the indoor impulse response update unit includes, for each frequency channel, a correlation function between the observed sound and the estimated original sound, which is a correlation function between the observed power time series and the original sound power estimated value time series. and the observed sound-estimated original correlation function calculation section for calculating a, for each frequency channel, between the estimated reverberation Probable original sound is a correlation function of the reverberation power estimate time series and the original sound power estimate time series An estimated reverberation sound / estimated original sound correlation function calculation unit for calculating a correlation function, and a time series element value of the observed sound / estimated original sound correlation function for each frequency channel, the estimated reverberant sound / estimated original sound correlation function An indoor impulse response estimated value update coefficient calculating unit that calculates an indoor impulse response estimated value update coefficient that is a value divided by a time-series element value, and for each frequency channel, the indoor impulse Integrating the response estimation value and the room impulse response estimate update coefficient for each element, and the room impulse response estimate update value output unit that calculates the room impulse response estimate update value, comprising: a.
また、本発明の残響除去装置において、前記室内インパルス応答更新部は、周波数チャネルごとに、前記観測パワー時系列を前記残響音パワー推定値時系列で要素ごとに除算した時系列と、前記原音パワー推定値時系列との相関関数であるモデル化誤差比系列・推定原音間相関関数を算出するモデル化誤差比系列・推定原音間相関関数算出部と、周波数チャネルごとに、前記原音パワー推定値時系列の各特定範囲の要素値の部分和を要素値とした系列である推定原音部分和系列を算出する推定原音部分和系列算出部と、周波数チャネルごとに、モデル化誤差比系列・推定原音間相関関数を、前記推定原音部分和系列の要素値で除算した値である室内インパルス応答推定値更新係数を算出する室内インパルス応答推定値更新係数算出部と、周波数チャネルごとに、前記室内インパルス応答推定値と前記室内インパルス応答推定値更新係数とを要素ごとに積算し、室内インパルス応答推定値更新値を算出する室内インパルス応答推定値更新値出力部と、を備えることを特徴とする。 Further, in the dereverberation apparatus of the present invention, the room impulse response update unit includes, for each frequency channel, a time series obtained by dividing the observation power time series by the reverberation sound power estimated value time series, and the original sound power. A modeling error ratio sequence / estimated original sound correlation function calculating unit that calculates a correlation function between a modeled error ratio sequence / estimated original sound, which is a correlation function with an estimated value time series, and for each frequency channel, Estimated original sound partial sum series calculation unit that calculates an estimated original sound partial sum series that is a series with element values of the partial sum of element values of each specific range of the sequence, and between the modeling error ratio sequence and the estimated original sound for each frequency channel the correlation function, and the room impulse response estimate update coefficient calculation unit for calculating a room impulse response estimate update coefficient is a value obtained by dividing the element values of the estimated original partial sum sequence, frequency An indoor impulse response estimated value update value output unit that calculates the indoor impulse response estimated value update value by integrating the indoor impulse response estimated value and the indoor impulse response estimated value update coefficient for each element for each channel. It is characterized by that.
また、本発明の残響除去装置において、前記原音パワー推定値時系列更新部は、周波数チャネルごとに、前記観測パワー時系列と前記室内インパルス応答推定値との相関関数である観測音・推定インパルス応答間相関関数を算出する観測音・推定インパルス応答間相関関数算出部と、周波数チャネルごとに、前記残響音パワー推定値時系列と前記室内インパルス応答推定値との相関関数を算出し、当該相関関数と、前記原音パワー推定値時系列を要素ごとに定数乗しさらに定数倍した時系列とを加算した時系列であるスパース補正項つき推定残響音・推定インパルス応答間相関関数を算出するスパース補正項つき推定残響音・推定インパルス応答間相関関数算出部と、周波数チャネルごとに、前記観測音・推定インパルス応答間相関関数の時系列の要素を、前記スパース補正項つき推定残響音・推定インパルス応答間相関関数の時系列の要素値で除算した値である原音パワー推定値時系列更新係数を算出する原音パワー推定値時系列更新係数算出部と、周波数チャネルごとに、前記原音パワー推定値時系列と前記原音パワー推定値時系列更新係数とを要素ごとに積算し、原音パワー推定値時系列更新値を算出する原音パワー推定値時系列更新値出力部と、を備えることを特徴とする。 Further, in the dereverberation apparatus of the present invention, the original sound power estimated value time-series updating unit is an observation sound / estimated impulse response which is a correlation function between the observed power time series and the indoor impulse response estimated value for each frequency channel. A correlation function between the observed sound / estimated impulse response for calculating an inter-correlation function, and a correlation function between the reverberation power estimate time series and the indoor impulse response estimate for each frequency channel, and the correlation function And a sparse correction term for calculating a correlation function between the estimated reverberant sound and the estimated impulse response with a sparse correction term, which is a time series obtained by adding the time series obtained by multiplying the original sound power estimated value time series by a constant for each element and further multiplying by a constant and regarding the estimated reverberation-estimated impulse response correlation function calculation unit, for each frequency channel, when the observed sound-estimated impulse response correlation function Original sound power estimated value time series update for calculating an original sound power estimated value time series update coefficient, which is a value obtained by dividing the elements of the column by the time series element value of the estimated reverberant sound / estimated impulse response correlation function with the sparse correction term The original sound power estimated value for calculating the original sound power estimated value time series update value by adding the original sound power estimated value time series and the original sound power estimated value time series update coefficient for each element for the coefficient calculating unit and each frequency channel And a time-series update value output unit.
また、本発明の残響除去装置において、前記原音パワー推定値時系列更新部は、周波数チャネルごとに、前記観測パワー時系列を前記残響音パワー推定値時系列で要素ごとに除算した時系列と、前記室内インパルス応答推定値との相関関数であるモデル化誤差比系列・推定インパルス応答間相関関数を算出するモデル化誤差比系列・推定インパルス応答間相関関数算出部と、周波数チャネルごとに、前記室内インパルス応答推定値の各特定範囲の要素値の部分和を要素値とした系列を算出し、当該系列と、前記原音パワー推定値時系列を要素ごとに定数乗しさらに定数倍した時系列とを加算した時系列であるスパース補正項つき推定インパルス応答部分和系列を算出するスパース補正項つき推定インパルス応答部分和系列算出部と、周波数チャネルごとに、前記モデル化誤差比系列・推定インパルス応答間相関関数の時系列の要素を、前記スパース補正項つき推定インパルス応答部分和系列の要素値で除算した値である原音パワー推定値時系列更新係数を算出する原音パワー推定値時系列更新係数算出部と、周波数チャネルごとに、前記原音パワー推定値時系列と前記原音パワー推定値時系列更新係数とを要素ごとに積算し、原音パワー推定値時系列更新値を算出する原音パワー推定値時系列更新値出力部と、を備えることを特徴とする。 Further, in the dereverberation apparatus of the present invention, the original sound power estimated value time series update unit, for each frequency channel, a time series obtained by dividing the observed power time series by the reverberant power estimated value time series, and A modeled error ratio sequence / estimated impulse response correlation function calculating unit that calculates a correlation function between a modeled error ratio sequence / estimated impulse response, which is a correlation function with the indoor impulse response estimated value, and for each frequency channel, A series having an element value as a partial sum of the element values of each specific range of the impulse response estimated value is calculated, and the series and a time series obtained by multiplying the original sound power estimated value time series by a constant and multiplying by a constant An estimated impulse response partial sum sequence calculation unit with a sparse correction term that calculates an estimated impulse response partial sum sequence with a sparse correction term that is an added time series; For each channel, the original sound power estimated value time series is a value obtained by dividing the time series elements of the modeled error ratio series / estimated impulse response correlation function by the element values of the estimated impulse response partial sum series with sparse correction terms. An original sound power estimated value time series update coefficient calculation unit for calculating an update coefficient, and for each frequency channel, the original sound power estimated value time series and the original sound power estimated value time series update coefficient are integrated element by element to estimate the original sound power An original sound power estimated value time series update value output unit for calculating a value time series update value.
また、本発明は、観測パワー時系列生成部が、音響信号の入力を受け付け、短時間周波数分析により周波数チャネルごとのサブバンド信号の振幅またはパワーの時系列である観測パワー時系列を生成する観測パワー時系列生成ステップと、初期設定部が、周波数チャネルごとの非負制約をもつ室内インパルス応答推定値と、原音の周波数チャネルごとのパワー推定値時系列である原音パワー推定値時系列とを設定する初期設定ステップと、残響音パワー推定値時系列算出部が、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とを畳み込み、周波数チャネルごとの残響音モデルのパワー時系列である残響音パワー推定値時系列を算出する残響音パワー推定値時系列算出ステップと、室内インパルス応答更新部が、前記観測パワー時系列と、前記残響音パワー推定値時系列と、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とに基づいて、非負制約を満たして前記室内インパルス応答推定値を更新する室内インパルス応答更新ステップと、原音パワー推定値時系列更新部が、前記観測パワー時系列と、前記残響音パワー推定値時系列と、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とに基づいて、非負制約を満たして前記原音パワー推定値時系列を更新する原音パワー推定値時系列更新ステップと、パラメータ規格化部が、前記室内インパルス応答更新ステップで更新した前記室内インパルス応答推定値を、当該室内インパルス応答推定値の要素値の総和が一定値になるように規格化し、前記原音パワー推定値時系列更新ステップで更新した前記原音パワー推定値時系列を、当該原音パワー推定値時系列の要素値の総和が一定値になるように規格化するパラメータ規格化ステップと、収束判定部が、前記パラメータ規格化ステップで規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしているか否かを判定する収束判定ステップと、前記収束判定ステップで、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしていると判定した場合、パラメータ出力部が当該室内インパルス応答推定値と当該原音パワー推定値時系列とを出力するパラメータ出力ステップと、を有し、前記収束判定ステップで、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしていないと判定した場合、前記パラメータ規格化ステップで規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とに基づいて、前記残響音パワー推定値時系列算出ステップで前記残響音パワー推定値時系列を算出し、前記室内インパルス応答更新ステップで前記室内インパルス応答推定値を更新し、前記原音パワー推定値時系列更新ステップで前記原音パワー推定値時系列を更新し、前記原音パワー推定値時系列更新ステップで前記原音パワー推定値時系列を更新することを特徴とする残響除去方法である。 The present invention also provides an observation power time series generation unit that receives an input of an acoustic signal and generates an observation power time series that is a time series of amplitude or power of a subband signal for each frequency channel by short-time frequency analysis. The power time series generation step and the initial setting unit set a room impulse response estimation value having a non-negative constraint for each frequency channel and an original sound power estimation value time series that is a power estimation time series for each frequency channel of the original sound. A reverberation sound that is a power time series of a reverberation sound model for each frequency channel by initial setting step and a reverberation sound power estimate time series calculation unit convolves the room impulse response estimation value and the original sound power estimation value time series. A reverberation sound power estimate time series calculating step for calculating a power estimate time series, and an indoor impulse response updating unit include the observation power Based on a time series, the reverberation sound power estimated value time series, the room impulse response estimated value, and the original sound power estimated value time series, a room impulse that satisfies the non-negative constraint and updates the room impulse response estimated value A response update step; and an original sound power estimated value time series update unit based on the observed power time series, the reverberant sound power estimated value time series, the indoor impulse response estimated value, and the original sound power estimated value time series. An original sound power estimated value time series updating step that updates the original sound power estimated value time series satisfying a non-negative constraint, and a parameter normalization unit that updates the indoor impulse response estimated value updated in the indoor impulse response updating step, Normalizing the sum of the element values of the indoor impulse response estimated value to be a constant value, the original sound power estimated value time series update step A parameter normalization step for normalizing the updated original sound power estimated value time series so that the sum of the element values of the original sound power estimated value time series becomes a constant value, and a convergence determining unit in the parameter normalizing step In the convergence determination step for determining whether the normalized indoor impulse response estimated value and the original sound power estimated value time series satisfy a predetermined criterion, and in the convergence determination step, the parameter normalization unit defines a standard When it is determined that the converted indoor impulse response estimated value and the original sound power estimated time series satisfy a predetermined criterion, the parameter output unit outputs the indoor impulse response estimated value and the original sound power estimated time series A parameter output step for outputting the indoor impulse normalized by the parameter normalization unit in the convergence determination step. When it is determined that the response response estimated value and the original sound power estimated value time series do not satisfy a predetermined criterion, the room impulse response estimated value and the original sound power estimated value time series normalized in the parameter normalizing step Based on the above, the reverberant sound power estimated value time series calculating step calculates the reverberant sound power estimated value time series, the indoor impulse response updated step updates the indoor impulse response estimated value, and the original sound power estimated value In the dereverberation method, the original sound power estimated value time series is updated in a time series updating step, and the original sound power estimated value time series is updated in the original sound power estimated value time series updating step.
また、本発明の残響除去方法において、前記室内インパルス応答更新ステップは、観測音・推定原音間相関関数算出部が、周波数チャネルごとに、前記観測パワー時系列と前記原音パワー推定値時系列との相関関数である観測音・推定原音間相関関数を算出する観測音・推定原音間相関関数算出ステップと、推定残響音・推定原音間相関関数算出部が、周波数チャネルごとに、前記残響音パワー推定値時系列と前記原音パワー推定値時系列との相関関数である推定残響音・推定原音間相関関数を算出する推定残響音・推定原音間相関関数算出ステップと、室内インパルス応答推定値更新係数算出部が、周波数チャネルごとに、前記観測音・推定原音間相関関数の時系列の要素値を、前記推定残響音・推定原音間相関関数の時系列の要素値で除算した値である室内インパルス応答推定値更新係数を算出する室内インパルス応答推定値更新係数算出ステップと、室内インパルス応答推定値更新値出力部が、周波数チャネルごとに、前記室内インパルス応答推定値と前記室内インパルス応答推定値更新係数とを要素ごとに積算し、室内インパルス応答推定値更新値を算出する室内インパルス応答推定値更新値出力ステップと、を含むことを特徴とする。 Further, in the dereverberation method of the present invention, the indoor impulse response update step includes a step in which the observed sound / estimated original sound correlation function calculating unit calculates the observed power time series and the original sound power estimated value time series for each frequency channel. An observed sound / estimated original sound correlation function calculating step for calculating a correlation function between the observed sound / estimated original sound, and an estimated reverberant sound / estimated original sound correlation function calculating section for each frequency channel, value time series and the estimated reverberation Probable original correlation function calculation step of calculating the estimated reverberation Probable original correlation function is a correlation function of the original sound power estimate time series, the room impulse response estimate update coefficient For each frequency channel, the calculation unit divides the time-series element value of the correlation function between the observed sound and the estimated original sound by the time-series element value of the estimated reverberant sound / estimated original sound correlation function. An indoor impulse response estimated value update coefficient calculating step for calculating an indoor impulse response estimated value update coefficient, and an indoor impulse response estimated value update value output unit for each frequency channel. And an indoor impulse response estimated value update value output step of calculating an impulse response estimated value update coefficient for each element and calculating an indoor impulse response estimated value update value.
また、本発明の残響除去方法において、前記室内インパルス応答更新ステップは、モデル化誤差比系列・推定原音間相関関数算出部が、周波数チャネルごとに、前記観測パワー時系列を前記残響音パワー推定値時系列で要素ごとに除算した時系列と、前記原音パワー推定値時系列との相関関数であるモデル化誤差比系列・推定原音間相関関数を算出するモデル化誤差比系列・推定原音間相関関数算出ステップと、推定原音部分和系列算出部が、周波数チャネルごとに、前記原音パワー推定値時系列の各特定範囲の要素値の部分和を要素値とした系列である推定原音部分和系列を算出する推定原音部分和系列算出ステップと、室内インパルス応答推定値更新係数算出部が、周波数チャネルごとに、モデル化誤差比系列・推定原音間相関関数を、前記推定原音部分和系列の要素値で除算した値である室内インパルス応答推定値更新係数を算出する室内インパルス応答推定値更新係数算出ステップと、室内インパルス応答推定値更新値出力部が、周波数チャネルごとに、前記室内インパルス応答推定値と前記室内インパルス応答推定値更新係数とを要素ごとに積算し、室内インパルス応答推定値更新値を算出する室内インパルス応答推定値更新値出力ステップと、を含むことを特徴とする。 Further, in the dereverberation method of the present invention, the indoor impulse response update step includes a modeled error ratio sequence / estimated original sound correlation function calculation unit that converts the observed power time series into the reverberant sound power estimated value for each frequency channel. Modeling error ratio sequence / estimated original sound correlation function for calculating a model error ratio sequence / estimated original sound correlation function that is a correlation function between the time series divided for each element in the time series and the original sound power estimated value time series A calculation step and an estimated original sound partial sum series calculation unit calculate an estimated original sound partial sum series that is a series in which the element value is a partial sum of element values of each specific range of the original sound power estimated value time series for each frequency channel. the estimated original partial sum sequence calculation step of, room impulse response estimate update coefficient calculation unit, for each frequency channel, the modeling error ratio sequence-estimation original correlation function, Serial estimation and room impulse response estimate update coefficient calculating a room impulse response estimate update coefficient is a value obtained by dividing the element values of the original partial sum sequence, the room impulse response estimate update value output unit, each frequency channel The indoor impulse response estimated value and the indoor impulse response estimated value update coefficient are integrated element by element, and an indoor impulse response estimated value update value output step of calculating an indoor impulse response estimated value update value is included. Features.
また、本発明の残響除去方法において、前記原音パワー推定値時系列更新ステップは、観測音・推定インパルス応答間相関関数算出部が、周波数チャネルごとに、前記観測パワー時系列と前記室内インパルス応答推定値との相関関数である観測音・推定インパルス応答間相関関数を算出する観測音・推定インパルス応答間相関関数算出ステップと、スパース補正項つき推定残響音・推定インパルス応答間相関関数算出部が、周波数チャネルごとに、前記残響音パワー推定値時系列と前記室内インパルス応答推定値との相関関数を算出し、当該相関関数と、前記原音パワー推定値時系列を要素ごとに定数乗しさらに定数倍した時系列とを加算した時系列であるスパース補正項つき推定残響音・推定インパルス応答間相関関数を算出するスパース補正項つき推定残響音・推定インパルス応答間相関関数算出ステップと、原音パワー推定値時系列更新係数算出部が、周波数チャネルごとに、前記観測音・推定インパルス応答間相関関数の時系列の要素を、前記スパース補正項つき推定残響音・推定インパルス応答間相関関数の時系列の要素値で除算した値である原音パワー推定値時系列更新係数を算出する原音パワー推定値時系列更新係数算出ステップと、原音パワー推定値時系列更新値出力部が、周波数チャネルごとに、前記原音パワー推定値時系列と前記原音パワー推定値時系列更新係数とを要素ごとに積算し、原音パワー推定値時系列更新値を算出する原音パワー推定値時系列更新値出力ステップと、を含むことを特徴とする。 Further, in the dereverberation method of the present invention, the original sound power estimated value time series update step includes: the observed sound time / estimated impulse response correlation function calculation unit, for each frequency channel, the observed power time series and the indoor impulse response estimation. A correlation function calculation step between the observed sound and estimated impulse response that calculates a correlation function between the observed sound and estimated impulse response, which is a correlation function with the value, and a correlation function calculation unit between the estimated reverberant sound and estimated impulse response with a sparse correction term, For each frequency channel, a correlation function between the reverberation sound power estimated time series and the room impulse response estimated value is calculated, and the correlation function and the original sound power estimated time series are multiplied by a constant for each element and further multiplied by a constant. To calculate the correlation function between the estimated reverberant sound with the sparse correction term and the estimated impulse response. Correlation function calculation step between the positive section with estimated reverberation-estimated impulse response, when the original sound power estimate sequence updating coefficient calculating unit, for each frequency channel, the elements of the time series of the observed sound-estimated impulse response correlation function An original sound power estimated value time series update coefficient calculating step for calculating an original sound power estimated value time series update coefficient that is a value divided by a time series element value of the correlation function between estimated reverberant sound / estimated impulse response with sparse correction term; The original sound power estimate time series update value output unit integrates the original sound power estimate time series and the original sound power estimate time series update coefficient element by element for each frequency channel to update the original sound power estimate time series An original sound power estimated value time series update value output step for calculating a value.
また、本発明の残響除去方法において、前記原音パワー推定値時系列更新ステップは、モデル化誤差比系列・推定インパルス応答間相関関数算出部が、周波数チャネルごとに、前記観測パワー時系列を前記残響音パワー推定値時系列で要素ごとに除算した時系列と、前記室内インパルス応答推定値との相関関数であるモデル化誤差比系列・推定インパルス応答間相関関数を算出するモデル化誤差比系列・推定インパルス応答間相関関数算出ステップと、スパース補正項つき推定インパルス応答部分和系列算出部が、周波数チャネルごとに、前記室内インパルス応答推定値の各特定範囲の要素値の部分和を要素値とした系列を算出し、当該系列と、前記原音パワー推定値時系列を要素ごとに定数乗しさらに定数倍した時系列とを加算した時系列であるスパース補正項つき推定インパルス応答部分和系列を算出するスパース補正項つき推定インパルス応答部分和系列算出ステップと、原音パワー推定値時系列更新係数算出部が、周波数チャネルごとに、前記モデル化誤差比系列・推定インパルス応答間相関関数の時系列の要素を、前記スパース補正項つき推定インパルス応答部分和系列の要素値で除算した値である原音パワー推定値時系列更新係数を算出する原音パワー推定値時系列更新係数算出ステップと、原音パワー推定値時系列更新値出力部が、周波数チャネルごとに、前記原音パワー推定値時系列と前記原音パワー推定値時系列更新係数とを要素ごとに積算し、原音パワー推定値時系列更新値を算出する原音パワー推定値時系列更新値出力ステップと、を含むことを特徴とする。 Further, in the dereverberation method of the present invention, in the original sound power estimated value time series update step, the modeled error ratio series / estimated impulse response correlation function calculation unit calculates the reverberation of the observed power time series for each frequency channel. Modeling error ratio sequence / estimation for calculating a correlation function between a time series obtained by dividing the sound power estimation value for each element by a time series and the indoor impulse response estimation value and a correlation function between estimated impulse responses A correlation function calculation step between impulse responses and an estimated impulse response partial sum series calculation unit with a sparse correction term for each frequency channel, wherein the partial sum of element values of each specific range of the indoor impulse response estimation value is an element value And the time series obtained by adding the time series obtained by multiplying the original sound power estimated value time series by a constant power for each element and further multiplying by a constant An estimated impulse response partial sum sequence calculation step with a sparse correction term that calculates an estimated impulse response partial sum sequence with a sparse correction term, and an original sound power estimate time series update coefficient calculation unit, for each frequency channel, the modeling error ratio The original sound power estimated value for calculating the original sound power estimated value time series update coefficient, which is a value obtained by dividing the time series element of the correlation function between the sequence and estimated impulse response by the element value of the estimated impulse response partial sum series with sparse correction term A time series update coefficient calculating step, and an original sound power estimated value time series update value output unit, for each frequency channel, integrates the original sound power estimated value time series and the original sound power estimated value time series update coefficient element by element, An original sound power estimated value time series update value output step for calculating an original sound power estimated value time series update value;
また、本発明は、コンピュータを、残響除去装置として動作させるためのコンピュータプログラムである。 The present invention is also a computer program for operating a computer as a dereverberation device.
また、本発明は、コンピュータを、残響除去装置として動作させるためのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体である。 The present invention is also a computer-readable recording medium that records a computer program for operating a computer as a dereverberation device.
本発明によれば、音源の移動や室温変化などに伴う残響環境の変化に柔軟に対応しつつ残響を除去することができる。また、残響環境に変化がない場合でも、従来と同等に残響を除去することができる。また、残響除去の計算を高速に行うことができる。 According to the present invention, it is possible to remove reverberation while flexibly responding to changes in the reverberation environment accompanying movement of a sound source, changes in room temperature, and the like. Moreover, even when there is no change in the reverberation environment, the reverberation can be removed as in the conventional case. Also, the calculation of dereverberation can be performed at high speed.
以下、図面を参照し、本発明の一実施形態について説明する。本実施形態では、定数λ、p、CG、CSをあらかじめ定めていることを前提とする。また、時刻のインデックスを(式1)とする。また、周波数のインデックスを(式2)とする。また、原信号のパワースペクトル時系列(以後、原音パワー推定値時系列と記す)をS(ω,t)とする。また、室内伝達系のインパルス応答のスペクトログラム(以後、室内インパルス応答推定値と記す)をG(ω,t)とする。なお、(式3)は整数全体の集合を示す。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In the present embodiment, it is assumed that constants λ, p, C G , and C S are determined in advance. Also, let the time index be (Equation 1). Further, the frequency index is represented by (Equation 2). Further, the power spectrum time series of the original signal (hereinafter referred to as the original sound power estimated value time series) is S (ω, t). Further, the spectrogram of the impulse response of the indoor transmission system (hereinafter referred to as an estimated value of the indoor impulse response) is assumed to be G (ω, t). (Equation 3) represents a set of whole integers.
図1は、本実施形態における残響除去装置の機能ブロック図である。同図に示す残響除去装置は、観測パワー時系列生成部1と、初期設定部2と、残響音パワー推定値時系列算出部3と、室内インパルス応答更新部4と、原音パワー推定値時系列更新部5と、パラメータ規格化部6と、収束判定部7と、パラメータ出力部8とを備える。残響除去装置は、図示せぬマイクロホンなどから音響信号の入力を受け付け、この音響信号から室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列S(ω,t)とを算出し、出力する。
FIG. 1 is a functional block diagram of the dereverberation apparatus according to the present embodiment. The dereverberation apparatus shown in the figure includes an observation power time series generation unit 1, an
はじめに、観測パワー時系列生成部1は、音響信号の入力を受け付け、入力された音響信号のパワースペクトルの時間周波数成分を出力する。なお、この時間周波数成分をY(ω,t)と表す。また、Y(ω,t)を観測パワー時系列と呼ぶ。ω=1,・・・,Ωを周波数に対応するインデックスとする。また、t=1,・・・,Tを周波数に対応するインデックスとする。観測パワー時系列生成部1は、短時間Fourier変換やウェーブレット変換など、複数チャネルのフィルタバンク出力による時間周波数分解手段により時間周波数成分Y(ω,t)を計算する。 First, the observation power time series generation unit 1 receives an input of an acoustic signal and outputs a time frequency component of a power spectrum of the input acoustic signal. This time frequency component is represented as Y (ω, t). Y (ω, t) is called an observation power time series. Let ω = 1,..., Ω be an index corresponding to the frequency. Further, t = 1,..., T is an index corresponding to the frequency. The observation power time series generation unit 1 calculates a time frequency component Y (ω, t) by time frequency decomposition means using a filter bank output of a plurality of channels such as short-time Fourier transform and wavelet transform.
続いて、初期設定部2は、原音パワー推定値時系列S(ω,t)と室内インパルス応答推定値G(ω,t)の初期値を設定し、出力する。これらの値は、乱数により設定してもよいが、原音パワー推定値時系列S(ω,t)の初期値は、観測パワー時系列生成部1が出力したY(ω,t)と等しくなるように設定するのが好適である。また、室内インパルス応答推定値G(ω,t)の初期値は、指数関数などのようにt=1で最大値をとり、tが増えるに従って小さくなるように設定するのが好適である。
Subsequently, the
続いて、残響音パワー推定値時系列算出部3は、初期設定部2もしくは後述するパラメータ規格化部6が出力した原音パワー推定値時系列S(ω,t)と室内インパルス応答推定値G(ω,t)の入力を受け付ける。続いて、残響音パワー推定値時系列算出部3は、(式4)を用いて畳み込みにより残響音パワー推定値時系列X(ω,t)を算出し、出力する。
Subsequently, the reverberant sound power estimated value time
ここで、系列F(ω,1),F(ω,2),・・・に対する離散Fourier変換F´(ω,k)を(式5)と表記する。また、系列F´(ω,1),F´(ω,2),・・・に対する離散逆Fourier変換F(ω,t)を(式6)と表記する。これにより、残響音パワー推定値時系列X(ω,t)は(式7)と言える。よって、FFT(Fast Fourier Transform)により、残響音パワー推定値時系列X(ω,t)を高速に計算することができる。 Here, the discrete Fourier transform F ′ (ω, k) for the series F (ω, 1), F (ω, 2),... Is expressed as (Equation 5). Also, the discrete inverse Fourier transform F (ω, t) for the series F ′ (ω, 1), F ′ (ω, 2),. Thereby, it can be said that the reverberation sound power estimated value time series X (ω, t) is (Expression 7). Therefore, the reverberant sound power estimated time series X (ω, t) can be calculated at high speed by FFT (Fast Fourier Transform).
また、(式8)および(式9)は、それぞれS(ω,t)およびG(ω,t)に対し、循環畳み込みの影響を減らす目的で適当に零詰したものを表す。具体的には、(式10)および(式11)である。ただし、Mωは(式8)および(式9)の時刻インデックス数である。 In addition, (Equation 8) and (Equation 9) represent those in which S (ω, t) and G (ω, t) are appropriately zeroed for the purpose of reducing the influence of cyclic convolution. Specifically, (Equation 10) and (Equation 11). However, Mω is the number of time indexes in (Expression 8) and (Expression 9).
続いて、室内インパルス応答更新部4は、観測パワー時系列生成部1が出力した観測パワー時系列Y(ω,t)と、初期設定部2もしくは後述するパラメータ規格化部6が出力した原音パワー推定値時系列S(ω,t)と室内インパルス応答推定値G(ω,t)と、残響音パワー推定値時系列算出部3が出力した残響音パワー推定値時系列X(ω,t)との入力を受け付ける。続いて、室内インパルス応答更新部4は、室内インパルス応答推定値G(ω,t)を更新し、出力する。具体的な室内インパルス応答推定値G(ω,t)の更新方法については、図2および図3を参照して説明する。
Subsequently, the indoor impulse response updating unit 4 outputs the observation power time series Y (ω, t) output from the observation power time series generation unit 1 and the original sound power output from the
図2および図3は、室内インパルス応答更新部4が備える機能ブロックの構成例を示した図である。はじめに、図2に示した構成例について説明する。図2に示した例では、室内インパルス応答更新部4は、観測音・推定原音間相関関数算出部41と、推定残響音・推定原音間相関関数算出部42と、室内インパルス応答推定値更新係数算出部43と、室内インパルス応答推定値更新値出力部44とを備えている。
FIG. 2 and FIG. 3 are diagrams showing configuration examples of functional blocks included in the indoor impulse response update unit 4. First, the configuration example shown in FIG. 2 will be described. In the example shown in FIG. 2, the indoor impulse response updating unit 4 includes an observed sound / estimated original sound correlation
観測音・推定原音間相関関数算出部41は、観測パワー時系列Y(ω,t)と、原音パワー推定値時系列S(ω,t)との入力を受け付ける。続いて、観測音・推定原音間相関関数算出部41は(式12)の計算を行い、観測音・推定原音間相関関数RSY(ω,τ)を出力する。
The observed sound / estimated original sound correlation
続いて、推定残響音・推定原音間相関関数算出部42は、原音パワー推定値時系列S(ω,t)と、残響音パワー推定値時系列X(ω,t)との入力を受け付ける。続いて、推定残響音・推定原音間相関関数算出部42は(式13)の計算を行い、推定残響音・推定原音間相関関数RSX(ω,τ)を出力する。
Subsequently, the estimated reverberant sound / estimated original sound correlation
続いて、室内インパルス応答推定値更新係数算出部43は、観測音・推定原音間相関関数算出部41が出力した観測音・推定原音間相関関数RSY(ω,τ)と、推定残響音・推定原音間相関関数算出部42が出力した推定残響音・推定原音間相関関数RSX(ω,τ)との入力を受け付ける。続いて、室内インパルス応答推定値更新係数算出部43は、(式14)の計算を行い、室内インパルス応答推定値更新係数αG(ω,t)を出力する。
Subsequently, the indoor impulse response estimated value update
続いて、室内インパルス応答推定値更新値出力部44は、室内インパルス応答推定値G(ω,t)と、室内インパルス応答推定値更新係数算出部43が出力した室内インパルス応答推定値更新係数αG(ω,t)との入力を受け付ける。続いて、室内インパルス応答推定値更新値出力部44は(式15)の計算を行い、更新後の室内インパルス応答推定値G(ω,t)を出力する。ただし、「←」は代入を意味する。
Subsequently, the indoor impulse response estimated value update
次に、図3に示した構成例について説明する。図3に示した例では、室内インパルス応答更新部4は、モデル化誤差比系列・推定原音間相関関数算出部45と、推定原音部分和系列算出部46と、室内インパルス応答推定値更新係数算出部47と、室内インパルス応答推定値更新値出力部48とを備えている。
Next, the configuration example shown in FIG. 3 will be described. In the example shown in FIG. 3, the indoor impulse response update unit 4 includes a modeling error ratio sequence / estimated original sound correlation
モデル化誤差比系列・推定原音間相関関数算出部45は、観測パワー時系列Y(ω,t)と、原音パワー推定値時系列S(ω,t)と、残響音パワー推定値時系列X(ω,t)との入力を受け付ける。続いて、モデル化誤差比系列・推定原音間相関関数算出部45は(式16)の計算を行い、モデル化誤差比系列・推定原音間相関関数LSY/X(ω,τ)を出力する。
The modeling error ratio sequence / estimated original sound correlation
続いて、推定原音部分和系列算出部46は、原音パワー推定値時系列S(ω,t)の入力を受け付ける。続いて、推定原音部分和系列算出部46は(式17)の計算を行い、推定原音部分和系列LS(ω,τ)を出力する。
Subsequently, the estimated original sound partial sum
続いて、室内インパルス応答推定値更新係数算出部47は、モデル化誤差比系列・推定原音間相関関数算出部45が出力したモデル化誤差比系列・推定原音間相関関数LSY/X(ω,τ)と、推定原音部分和系列算出部46が出力した推定原音部分和系列LS(ω,τ)との入力を受け付ける。続いて、室内インパルス応答推定値更新係数算出部47は(式18)の計算を行い、室内インパルス応答推定値更新係数βG(ω,t)を出力する。
Subsequently, the indoor impulse response estimated value update
続いて、室内インパルス応答推定値更新値出力部48は、室内インパルス応答推定値G(ω,t)と、室内インパルス応答推定値更新係数算出部47が出力した室内インパルス応答推定値更新係数βG(ω,t)との入力を受け付ける。続いて、室内インパルス応答推定値更新値出力部48は(式19)の計算を行い、更新後の室内インパルス応答推定値G(ω,t)を出力する。ただし、「←」は代入を意味する。
Subsequently, the indoor impulse response estimated value update
図2および図3を参照して説明したとおり、室内インパルス応答更新部4は、室内インパルス応答推定値G(ω,t)を更新し、出力する。 As described with reference to FIGS. 2 and 3, the indoor impulse response update unit 4 updates and outputs the indoor impulse response estimated value G (ω, t).
以下、図1の説明に戻る。続いて、原音パワー推定値時系列更新部5は、観測パワー時系列生成部1が出力した観測パワー時系列Y(ω,t)と、初期設定部2もしくは後述するパラメータ規格化部6が出力した原音パワー推定値時系列S(ω,t)と室内インパルス応答推定値G(ω,t)と、残響音パワー推定値時系列算出部3が出力した残響音パワー推定値時系列X(ω,t)との入力を受け付ける。続いて、原音パワー推定値時系列更新部5は、原音パワー推定値時系列S(ω,t)を更新し、出力する。具体的な原音パワー推定値時系列S(ω,t)の更新方法については、図4および図5を参照して説明する。
Returning to the description of FIG. Subsequently, the original sound power estimated value time
図4および図5は、原音パワー推定値時系列更新部5が備える機能ブロックの構成例を示した図である。はじめに、図4に示した構成例について説明する。図4に示した例では、原音パワー推定値時系列更新部5は、観測音・推定インパルス応答間相関関数算出部51と、スパース補正項つき推定残響音・推定インパルス応答間相関関数算出部52と、原音パワー推定値時系列更新係数算出部53と、原音パワー推定値時系列更新値出力部54とを備えている。
FIG. 4 and FIG. 5 are diagrams showing configuration examples of functional blocks included in the original sound power estimated value time-
観測音・推定インパルス応答間相関関数算出部51は、観測パワー時系列Y(ω,t)と、室内インパルス応答推定値G(ω,t)との入力を受け付ける。続いて、観測音・推定インパルス応答間相関関数算出部51は(式20)の計算を行い、観測音・推定インパルス応答間相関関数RGY(ω,τ)を出力する。 The observed sound / estimated impulse response correlation function calculation unit 51 accepts inputs of the observed power time series Y (ω, t) and the indoor impulse response estimated value G (ω, t). Subsequently, the observed sound / estimated impulse response correlation function calculation unit 51 calculates (Equation 20), and outputs the observed sound / estimated impulse response correlation function R GY (ω, τ).
続いて、スパース補正項つき推定残響音・推定インパルス応答間相関関数算出部52は、原音パワー推定値時系列S(ω,t)と、室内インパルス応答推定値G(ω,t)と、残響音パワー推定値時系列X(ω,t)との入力を受け付ける。続いて、スパース補正項つき推定残響音・推定インパルス応答間相関関数算出部52は(式21)の計算を行い、スパース補正項つき推定残響音・推定インパルス応答間相関関数RGX(ω,τ)を出力する。 Subsequently, the correlation function calculation unit 52 between the estimated reverberation sound / estimated impulse response with sparse correction term, the original sound power estimated value time series S (ω, t), the indoor impulse response estimated value G (ω, t), and the reverberation. The input of the sound power estimated value time series X (ω, t) is received. Subsequently, the estimated reverberant sound / estimated impulse response correlation function calculation unit 52 with the sparse correction term performs the calculation of (Equation 21), and the estimated reverberant sound / estimated impulse response correlation function R GX (ω, τ) with the sparse correction term. ) Is output.
続いて、原音パワー推定値時系列更新係数算出部53は、観測音・推定インパルス応答間相関関数算出部51が出力した観測音・推定インパルス応答間相関関数RGY(ω,τ)と、スパース補正項つき推定残響音・推定インパルス応答間相関関数算出部52が出力したスパース補正項つき推定残響音・推定インパルス応答間相関関数RGX(ω,τ)との入力を受け付ける。続いて、原音パワー推定値時系列更新係数算出部53は(式22)の計算を行い、原音パワー推定値時系列更新係数αS(ω,t)を出力する。
Subsequently, the original sound power estimated value time series update
続いて、原音パワー推定値時系列更新値出力部54は、原音パワー推定値時系列S(ω,t)と、原音パワー推定値時系列更新係数算出部53が出力した原音パワー推定値時系列更新係数αS(ω,t)との入力を受け付ける。続いて、原音パワー推定値時系列更新値出力部54は(式23)の計算を行い、更新後の原音パワー推定値時系列S(ω,t)を出力する。ただし、「←」は代入を意味する。
Subsequently, the original sound power estimated value time series update
次に、図5に示した構成例について説明する。図5に示した例では、原音パワー推定値時系列更新部5は、モデル化誤差比系列・推定インパルス応答間相関関数算出部55と、スパース補正項つき推定インパルス応答部分和系列算出部56と、原音パワー推定値時系列更新係数算出部57と、原音パワー推定値時系列更新値出力部58とを備えている。
Next, the configuration example shown in FIG. 5 will be described. In the example shown in FIG. 5, the original sound power estimated value time
モデル化誤差比系列・推定インパルス応答間相関関数算出部55は、観測パワー時系列Y(ω,t)と、室内インパルス応答推定値G(ω,t)と、残響音パワー推定値時系列X(ω,t)との入力を受け付ける。続いて、モデル化誤差比系列・推定インパルス応答間相関関数算出部55は(式24)の計算を行い、モデル化誤差比系列・推定インパルス応答間相関関数LGY/X(ω,τ)を出力する。
The modeling error ratio sequence / estimated impulse response correlation
続いて、スパース補正項つき推定インパルス応答部分和系列算出部56は、原音パワー推定値時系列S(ω,t)と、室内インパルス応答推定値G(ω,t)との入力を受け付ける。続いて、スパース補正項つき推定インパルス応答部分和系列算出部56は、(式25)の計算を行い、スパース補正項つき推定インパルス応答部分和系列LG(ω,τ)を出力する。
Subsequently, the estimated impulse response partial sum
続いて、原音パワー推定値時系列更新係数算出部57は、モデル化誤差比系列・推定インパルス応答間相関関数算出部55が出力したモデル化誤差比系列・推定インパルス応答間相関関数LGY/X(ω,τ)と、スパース補正項つき推定インパルス応答部分和系列算出部56が出力したスパース補正項つき推定インパルス応答部分和系列LG(ω,τ)との入力を受け付ける。続いて、原音パワー推定値時系列更新係数算出部57は、(式26)の計算を行い、原音パワー推定値時系列更新係数βS(ω,t)を出力する。
Subsequently, the original sound power estimated value time-series update
続いて、原音パワー推定値時系列更新値出力部58は、原音パワー推定値時系列S(ω,t)と、原音パワー推定値時系列更新係数算出部57が出力した原音パワー推定値時系列更新係数βS(ω,t)との入力を受け付ける。続いて、原音パワー推定値時系列更新値出力部58は(式27)の計算を行い、更新後の原音パワー推定値時系列S(ω,t)を出力する。ただし、「←」は代入を意味する。
Subsequently, the original sound power estimated value time series update
図4および図5を参照して説明したとおり、原音パワー推定値時系列更新部5は、原音パワー推定値時系列S(ω,t)を更新し、出力する。
As described with reference to FIGS. 4 and 5, the original sound power estimated value time
以下、図1の説明に戻る。続いて、パラメータ規格化部6は、室内インパルス応答更新部4が出力した室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列更新部5が出力した原音パワー推定値時系列S(ω,t)との入力を受け付ける。続いて、パラメータ規格化部6は(式28)の計算を行い、入力を受け付けた室内インパルス応答推定値G(ω,t)を修正し、修正後の室内インパルス応答推定値G(ω,t)を出力する。また、パラメータ規格化部6は(式29)の計算を行い、入力を受け付けた原音パワー推定値時系列S(ω,t)を修正し、修正後の原音パワー推定値時系列S(ω,t)を出力する。
Returning to the description of FIG. Subsequently, the
上述した、残響音パワー推定値時系列算出部3と、室内インパルス応答更新部4と、原音パワー推定値時系列更新部5と、パラメータ規格化部6とが、この順に各々の処理を繰り返し実行することで、パラメータ規格化部6が出力する室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列S(ω,t)との精度が向上する。
The reverberant sound power estimated time
続いて、収束判定部7は、パラメータ規格化部6が出力する室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列S(ω,t)との精度が十分であるか否かを判定する。収束判定部7が、パラメータ規格化部6が出力する室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列S(ω,t)との精度が十分であると判定した場合、後述するパラメータ出力部8が処理を実行する。収束判定部7が、パラメータ規格化部6が出力する室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列S(ω,t)との精度が十分ではないと判定した場合、再度、残響音パワー推定値時系列算出部3と、室内インパルス応答更新部4と、原音パワー推定値時系列更新部5と、パラメータ規格化部6とが、この順に各々の処理を実行する。
Subsequently, the
パラメータ規格化部6が出力する室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列S(ω,t)との精度が十分であるか否かの判定方法としては、以下の方法がある。
A method for determining whether or not the accuracy of the indoor impulse response estimated value G (ω, t) output by the
例えば、収束判定部7は、残響音パワー推定値時系列算出部3と、室内インパルス応答更新部4と、原音パワー推定値時系列更新部5と、パラメータ規格化部6とが、所定の回数以上処理を行ったか否かを判定する。続いて、収束判定部7は、所定の回数以上処理を行ったと判定した場合、室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列S(ω,t)との精度が十分であると判定し、それ以外は精度が十分ではないと判定する。
For example, the
また、例えば、収束判定部7は、パラメータ規格化部6が更新する室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列S(ω,t)の変化率が所定値以下であるか否かを判定する。続いて、収束判定部7は、目的関数の変化率が所定値以下である場合は室内インパルス応答推定値G(ω,t)と原音パワー推定値時系列S(ω,t)との精度が十分であると判定し、それ以外は精度が十分ではないと判定する。
Further, for example, the
また、例えば、収束判定部7は目的関数を算出し、算出した目的関数の変化率が所定値以下であるか否かを判定する。続いて、収束判定部7は、目的関数の変化率が所定値以下である場合は室内インパルス応答推定値G(ω,t)と原音パワー推定値時系列S(ω,t)との精度が十分であると判定し、それ以外は精度が十分ではないと判定する。収束判定部7は、(式30)または(式31)を算出し、目的関数J(S,G)またはK(S,G)を算出する。ただし、Λ={1,・・・,Ω}、Γ={1,・・・,T}である。目的関数J(S,G)とK(S,G)を最小化する乗法更新アルゴリズムについては後述する。
For example, the
パラメータ出力部8は、収束判定部7が、パラメータ規格化部6が出力する室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列S(ω,t)との精度が十分であると判定した場合、この室内インパルス応答推定値G(ω,t)と、原音パワー推定値時系列S(ω,t)とを出力する。
The
次に、目的関数J(S,G)およびK(S,G)を最小化する乗法更新アルゴリズムについて説明する。上述したとおり、本実施形態では、時刻のインデックスを(式32)とする。また、周波数のインデックスを(式33)とする。また、原信号のパワースペクトル時系列をS(ω,t)とする。以下、パワースペクトル時系列をスペクトログラムと記す。また(式34)は整数全体の集合を示す。また、残響音声のスペクトログラムをX(ω,t)とする。また、室内伝達系のインパルス応答のスペクトログラム(以後、室内インパルス応答と記す)をG(ω,t)とする。また、残響音声のスペクトログラムX(ω,t)は、室内インパルス応答G(ω,t)を用いて近似的に(式35)で表されるとする。 Next, a multiplicative update algorithm for minimizing the objective functions J (S, G) and K (S, G) will be described. As described above, in the present embodiment, the time index is (Expression 32). The frequency index is represented by (Expression 33). The power spectrum time series of the original signal is S (ω, t). Hereinafter, the power spectrum time series is referred to as a spectrogram. Further, (Expression 34) represents a set of whole integers. Further, the spectrogram of reverberant speech is assumed to be X (ω, t). Further, the spectrogram of the impulse response of the indoor transmission system (hereinafter referred to as the indoor impulse response) is G (ω, t). Further, it is assumed that the spectrogram X (ω, t) of the reverberant voice is approximately expressed by (Expression 35) using the room impulse response G (ω, t).
音声観測スペクトログラムがY(ω,t)のとき、X(ω,t)≒Y(ω,t)で、かつ、原信号のスペクトログラムS(ω,t)ができるだけスパースとなるような非負のインパルス応答G(ω,t)を求めるのが本実施形態での目的である。そこで、(式36)と(式37)で示した範囲の音声観測スペクトログラムY(ω,t)を近似する問題を考え、原信号のスペクトログラムS(ω,t)を(式38)とし、室内インパルス応答G(ω,t)を(式39)とする。ここで、Γは時刻のインデックスの集合である。また、Λは周波数のインデックスの集合である。また、Tは時刻のインデックスの集合の要素である。また、Ωは周波数のインデックスの集合の要素である。 When the speech observation spectrogram is Y (ω, t), X (ω, t) ≈Y (ω, t), and the non-negative impulse is such that the spectrogram S (ω, t) of the original signal is as sparse as possible. The purpose of this embodiment is to obtain the response G (ω, t). Therefore, considering the problem of approximating the speech observation spectrogram Y (ω, t) in the range shown in (Expression 36) and (Expression 37), the spectrogram S (ω, t) of the original signal is expressed as (Expression 38). The impulse response G (ω, t) is represented by (Equation 39). Here, Γ is a set of time indexes. Λ is a set of frequency indexes. T is an element of a time index set. Ω is an element of a set of frequency indexes.
また、Υω={1,・・・,Tω}である。Tωはωごとに異なりうる室内インパルス応答の時間長(時刻インデックス数)であり、以後フィルタ長と記す。音声観測スペクトログラムY(ω,t)と残響音声のスペクトログラムX(ω,t)との近さを二乗誤差で測ることにすると、原信号のスペクトログラムS(ω,t)と室内インパルス応答G(ω,t)とに関する、制約つき最適化問題は(式40)〜(式43)のとおりである。 Further, Υ ω = {1,..., T ω }. T ω is the time length (number of time indexes) of the indoor impulse response that can be different for each ω , and is hereinafter referred to as a filter length. When the closeness between the speech observation spectrogram Y (ω, t) and the spectrogram X (ω, t) of the reverberant speech is measured by a square error, the spectrogram S (ω, t) of the original signal and the indoor impulse response G (ω , T), the constrained optimization problem is as shown in (Equation 40) to (Equation 43).
(式40)の第2項は、スパース性コストである。このスパース性コストが小さいほど原信号のスペクトログラムS(ω,t)はスパースである。λはモデル化誤差に対するコストと音声スペクトログラムのスパース性コストのバランスを調節するための定数である。また、pは0<p≦2の範囲で任意に定めてよい実数定数である。 The second term of (Equation 40) is sparsity cost. The smaller the sparseness cost, the sparser the spectrogram S (ω, t) of the original signal. λ is a constant for adjusting the balance between the cost for modeling error and the sparsity cost of the speech spectrogram. Further, p is a real constant that may be arbitrarily determined within the range of 0 <p ≦ 2.
なお、上記では音声観測スペクトログラムY(ω,t)と残響音声のスペクトログラムX(ω,t)との近さの基準を二乗誤差とした。これに対してIダイバージェンスを音声観測スペクトログラムY(ω,t)と残響音声のスペクトログラムX(ω,t)との近さの基準にした場合における、原信号のスペクトログラムS(ω,t)と室内インパルス応答G(ω,t)とに関する、制約つき最適化問題は(式44)〜(式43)のとおりである。なお、Iダイバージェンスについては、例えば、文献「I.Csiszar,“I−Divergence Geometry of Probability Distributions and Minimization Problems,”The annals of Probability, Vol. 3, No. 1, pp. 146−158, 1975.」に記載されている。
In the above description, the square error is used as the reference for the closeness between the speech observation spectrogram Y (ω, t) and the spectrogram X (ω, t) of the reverberant speech. On the other hand, the spectrogram S (ω, t) of the original signal and the room in the case where the I divergence is used as a reference for the closeness between the spectrogram Y (ω, t) of the sound observation spectrogram Y (ω, t) Constrained optimization problems related to the impulse response G (ω, t) are as shown in (Expression 44) to (Expression 43). As for I divergence, for example, the document “I. Csiszar,“ I-Diverence Geometry of Probability Distributions and Minimization Problems, ”The Annals of
λはモデル化誤差に対するコストと音声スペクトログラムのスパース性コストのバランスを調節するための定数である。また、pは0<p≦2の範囲で任意に定めてよい実数定数である。 λ is a constant for adjusting the balance between the cost for modeling error and the sparsity cost of the speech spectrogram. Further, p is a real constant that may be arbitrarily determined within the range of 0 <p ≦ 2.
次に、目的関数J(S,G)を最小化する乗法更新アルゴリズムについて説明する。目的関数J(S,G)は、乗法更新アルゴリズムと同様な反復アルゴリズムにより効率的に小さくすることができる。乗法更新アルゴリズムについては、例えば、文献「D.D.Lee and H.S.Seung,“Learning the Parts of Objects by Non−negative Matrix Fac−torization,”Nature Vol.401,pp.788−791,1999.」に記載されている。 Next, a multiplicative update algorithm for minimizing the objective function J (S, G) will be described. The objective function J (S, G) can be efficiently reduced by an iterative algorithm similar to the multiplicative update algorithm. The multiplicative update algorithm is described in, for example, the document “DD Lee and HS Seung,“ Learning the Part of Objects by Non-Negative Matrix Fac-torization, ”Nature Vol. 401, pp. 788-79.79.79. ."It is described in.
ここで、原信号のスペクトログラムS(ω,t)の乗法更新式を導く。パラメータ規格化部6が出力する原信号のスペクトログラムをS(ω,t)とする。また、原信号のスペクトログラムS(ω,t)を出力する前に、パラメータ規格化部6が処理を行った際に出力した原信号のスペクトログラムをS´(ω,t)とする。すなわち原信号のスペクトログラムS(ω,t)の1ステップ前の更新値はS´(ω,t)である。また、パラメータ規格化部6が出力する室内インパルス応答をG(ω,t)とする。また、室内インパルス応答G(ω,t)を出力する前に、パラメータ規格化部6が処理を行った際に出力する室内インパルス応答をG´(ω,t)とする。すなわち室内インパルス応答G(ω,t)の1ステップ前の更新値はG´(ω,t)である。ここで、mτ(ω,t)を(式48)とすると、(式49)が成り立つ。
Here, a multiplicative update formula for the spectrogram S (ω, t) of the original signal is derived. The spectrogram of the original signal output from the
(式49)の右辺を(式50)とする。(式50)を最小化するように原信号のスペクトログラムS(ω,t)を更新すれば、J(S,G)の非増加性が保証される。そこで、(式51)を解くと、J(S,G)の非増加性が保証される更新式(式52)を得る。ただし、X´(ω,t)は(式53)である。 The right side of (Expression 49) is defined as (Expression 50). If the spectrogram S (ω, t) of the original signal is updated so as to minimize (Equation 50), the non-increasing property of J (S, G) is guaranteed. Therefore, solving (Equation 51) yields an update equation (Equation 52) that guarantees the non-increasing property of J (S, G). However, X ′ (ω, t) is (Formula 53).
(式52)のとおり、原信号のスペクトログラムS(ω,t)の更新値は、1ステップ前の更新値S´(ω,t)と更新係数との積となる。このような形の更新式を乗法更新式という。また(式52)より、S´(ω,t)およびG´(ω,t)の要素がすべて非負値であれば、S(ω,t)の要素はすべて非負値に更新されることがわかり、(式41)の条件を満たす。また、(式54)であれば、必ず(式55)となる。よって、初期設定で(式55)としておけば、この更新により(式43)の条件を逸脱することはない。 As shown in (Formula 52), the updated value of the spectrogram S (ω, t) of the original signal is the product of the updated value S ′ (ω, t) one step before and the update coefficient. Such an update formula is called a multiplicative update formula. Further, from (Equation 52), if all the elements of S ′ (ω, t) and G ′ (ω, t) are non-negative values, all the elements of S (ω, t) are updated to non-negative values. As can be seen, the condition of (Equation 41) is satisfied. In addition, if (Formula 54), it will be (Formula 55). Therefore, if (Formula 55) is set in the initial setting, this update does not deviate from the condition of (Formula 43).
次に、室内インパルス応答G(ω,t)の乗法更新式を導く。原信号のスペクトログラムS(ω,t)の乗法更新式を導いた際と同様に、原信号のスペクトログラムS(ω,t)の1ステップ前の更新値をS´(ω,t)とし、室内インパルス応答G(ω,t)の1ステップ前の更新値をG´(ω,t)とする。(式48)を用いると(式56)が成り立つ。 Next, a multiplicative update formula for the indoor impulse response G (ω, t) is derived. Similar to the case of deriving the multiplicative update formula of the spectrogram S (ω, t) of the original signal, the update value one step before the spectrogram S (ω, t) of the original signal is S ′ (ω, t), The updated value of the impulse response G (ω, t) one step before is G ′ (ω, t). If (Formula 48) is used, (Formula 56) is established.
(式56)の右辺を(式57)とする。原信号のスペクトログラムS(ω,t)の乗法更新式を導いた際と同様に(式58)を解くと、乗法更新式(式59)を得る。ただし、乗法更新式(式59)の導出においては、(式60)の拘束は考慮していないため、(式59)の更新後に規格化する必要がある。 The right side of (Expression 56) is defined as (Expression 57). When (Formula 58) is solved in the same manner as when the multiplicative update formula of the spectrogram S (ω, t) of the original signal is derived, the multiplicative update formula (Formula 59) is obtained. However, in the derivation of the multiplicative update formula (Formula 59), the constraint of (Formula 60) is not taken into consideration, and thus it is necessary to standardize after the update of (Formula 59).
次に、目的関数K(S,G)を最小化する乗法更新アルゴリズムについて説明する。目的関数J(S,G)と同様に、目的関数K(S,G)についても乗法更新アルゴリズムと同様な反復アルゴリズムにより効率的に小さくすることができる。 Next, a multiplicative update algorithm for minimizing the objective function K (S, G) will be described. Similar to the objective function J (S, G), the objective function K (S, G) can be efficiently reduced by an iterative algorithm similar to the multiplicative update algorithm.
ここで、原信号のスペクトログラムS(ω,t)の乗法更新式を導く。パラメータ規格化部6が出力する原信号のスペクトログラムをS(ω,t)とする。また、原信号のスペクトログラムS(ω,t)を出力する前に、パラメータ規格化部6が処理を行った際に出力した原信号のスペクトログラムをS´(ω,t)とする。すなわち原信号のスペクトログラムS(ω,t)の1ステップ前の更新値はS´(ω,t)である。また、パラメータ規格化部6が出力する室内インパルス応答をG(ω,t)とする。また、室内インパルス応答G(ω,t)を出力する前に、パラメータ規格化部6が処理を行った際に出力する室内インパルス応答をG´(ω,t)とする。すなわち室内インパルス応答G(ω,t)の1ステップ前の更新値はG´(ω,t)である。ここで、mτ(ω,t)を(式61)とすると、(式62)が成り立つ。
Here, a multiplicative update formula for the spectrogram S (ω, t) of the original signal is derived. The spectrogram of the original signal output from the
(式62)の右辺を(式63)とする。(式63)を最小化するように原信号のスペクトログラムS(ω,t)を更新すれば、K(S,G)の非増加性が保証される。そこで、(式64)を解くと、乗法更新式(式65)を得る。ただし、X´(ω,t)は(式66)である。 The right side of (Expression 62) is defined as (Expression 63). If the spectrogram S (ω, t) of the original signal is updated so as to minimize (Equation 63), the non-increasing property of K (S, G) is guaranteed. Therefore, solving (Equation 64) yields a multiplicative update equation (Equation 65). However, X ′ (ω, t) is (Expression 66).
(式65)より、S´(ω,t)およびG´(ω,t)の要素がすべて非負値であれば、S(ω,t)の要素はすべて非負値に更新されることがわかる。 (Expression 65) indicates that if all the elements of S ′ (ω, t) and G ′ (ω, t) are non-negative values, all the elements of S (ω, t) are updated to non-negative values. .
次に、室内インパルス応答G(ω,t)の乗法更新式を導く。原信号のスペクトログラムS(ω,t)の乗法更新式を導いた際と同様に、原信号のスペクトログラムS(ω,t)の1ステップ前の更新値をS´(ω,t)とし、室内インパルス応答G(ω,t)の1ステップ前の更新値をG´(ω,t)とする。(式61)を用いると(式67)が成り立つ。 Next, a multiplicative update formula for the indoor impulse response G (ω, t) is derived. Similar to the case of deriving the multiplicative update formula of the spectrogram S (ω, t) of the original signal, the update value one step before the spectrogram S (ω, t) of the original signal is S ′ (ω, t), The updated value of the impulse response G (ω, t) one step before is G ′ (ω, t). When (Expression 61) is used, (Expression 67) is established.
(式67)の右辺を(式68)とする。原信号のスペクトログラムS(ω,t)の乗法更新式を導いた際と同様に(式69)を解くと、乗法更新式(式70)を得る。ただし、乗法更新式(式63)の導出においては、(式71)の拘束は考慮していないため、(式70)の更新後に規格化する必要がある。 The right side of (Expression 67) is defined as (Expression 68). When (Equation 69) is solved in the same manner as when the multiplicative update equation of the spectrogram S (ω, t) of the original signal is derived, the multiplicative update equation (Equation 70) is obtained. However, in the derivation of the multiplicative update equation (Equation 63), the constraint of (Equation 71) is not taken into consideration, and thus it is necessary to standardize after the update of (Equation 70).
次に、残響音パワー推定値時系列算出部3において、2つの系列間の畳み込みを計算する構成の一例である、畳み込み計算部9について説明する。畳み込み計算部9は、高速に畳み込みを計算することができる。畳み込み計算部9は、残響音パワー推定値時系列算出部3から畳み込みの計算に必要な値の入力を受け付け、この値に基づいて畳み込みの計算を行い、計算結果を残響音パワー推定値時系列算出部3に入力する。
Next, a convolution calculation unit 9 that is an example of a configuration for calculating a convolution between two sequences in the reverberation sound power estimated value time
図6は、畳み込み計算部9が備える機能ブロックの構成例を示した図である。畳み込み計算部9は、零詰部91と、高速フーリエ変換部92と、フーリエ変換積算出部93と、高速逆フーリエ変換部94とを備えている。
FIG. 6 is a diagram illustrating a configuration example of functional blocks included in the convolution calculation unit 9. The convolution calculation unit 9 includes a zero
以下、W(1),W(2),・・・,W(TW)と、Z(1),Z(2),・・・,Z(TZ)に対して、(式72)の形で与えられる畳み込み計算の結果V(t)を出力する例を用いて畳み込み計算部9の各部の説明を行う。ただし、TWおよびTZはそれぞれの系列の要素数である。 Hereinafter, for W (1), W (2),..., W (T W ) and Z (1), Z (2),..., Z (T Z ), (Equation 72) Each part of the convolution calculation unit 9 will be described using an example of outputting the result V (t) of the convolution calculation given in the form of However, TW and TZ are the number of elements of each series.
零詰部91は(式72)によりW´(t)を出力する。また、零詰部91は(式73)によりZ´(t)を出力する。ただし、UはW´(t)およびZ´(t)の要素数である。
The zero
続いて、高速フーリエ変換部92は、零詰部91が出力したW´(t)とZ´(t)の入力を受け付ける。続いて、高速フーリエ変換部92は、(式75)と(式76)の計算をFFT(Fast Fourier Transform)により行い、w(k)とz(k)を出力する。
Subsequently, the fast
続いて、フーリエ変換積算出部93は、高速フーリエ変換部92が出力したw(k)とz(k)の入力を受け付ける。続いて、フーリエ変換積算出部93は(式77)の計算を行い、v(k)を出力する。
Subsequently, the Fourier transform
続いて、高速逆フーリエ変換部94は、フーリエ変換積算出部93が出力したv(k)の入力を受け付ける。続いて、高速逆フーリエ変換部94は(式78)の計算をIFFT(Inverse Fast Fourier Transform)により行い、V(t)を出力する。
Subsequently, the fast inverse
零詰部91と、高速フーリエ変換部92と、フーリエ変換積算出部93と、高速逆フーリエ変換部94の動作により、畳み込み計算部9は、高速に畳み込みを計算することができる。
The convolution calculation unit 9 can calculate the convolution at high speed by the operations of the zero
次に、観測音・推定原音間相関関数算出部41と、推定残響音・推定原音間相関関数算出部42と、モデル化誤差比系列・推定原音間相関関数算出部45と、観測音・推定インパルス応答間相関関数算出部51と、スパース補正項つき推定残響音・推定インパルス応答開相関関数算出部52と、モデル化誤差比系列・推定インパルス応答間相関関数算出部55において、2つの系列間の相関関数を計算する構成の一例である、相関関数計算部10について説明する。相関関数計算部10は、高速に相関関数を計算することができる。相関関数計算部10は、相関関数の計算結果を必要とする各部から相関関数の計算に必要な値の入力を受け付け、この値に基づいて相関関数の計算を行い、計算結果を各部に入力する。
Next, the observed sound / estimated original sound correlation
図7は、相関関数計算部10が備える機能ブロックの構成例を示した図である。相関関数計算部10は、零詰部101と、高速フーリエ変換部102と、複素共役化部103と、フーリエ変換積算出部104と、高速逆フーリエ変換部105とを備えている。
FIG. 7 is a diagram illustrating a configuration example of functional blocks included in the correlation function calculation unit 10. The correlation function calculation unit 10 includes a zero
以下、W(1),W(2),・・・,W(TW)と、Z(1),Z(2),・・・,Z(TZ)に対して、(式79)の形で与えられる相関関数計算の結果V(t)を出力する例を用いて相関関数計算部10の各部の説明を行う。ただし、TWおよびTZはそれぞれの系列の要素数である。 Hereinafter, W (1), W ( 2), ···, and W (T W), Z ( 1), Z (2), ···, against Z (T Z), (Formula 79) Each part of the correlation function calculation unit 10 will be described using an example of outputting a correlation function calculation result V (t) given in the form of However, TW and TZ are the number of elements of each series.
零詰部101は(式80)によりW´(t)を出力する。また、零詰部101は(式81)によりZ´(t)を出力する。ただし、UはW´(t)およびZ´(t)の要素数である。
The zero
続いて、高速フーリエ変換部102は、零詰部101が出力したW´(t)とZ´(t)の入力を受け付ける。続いて、高速フーリエ変換部102は、(式82)と(式83)の計算をFFTにより行い、w(k)とz(k)を出力する。
Subsequently, the fast
続いて、複素共役化部103は、高速フーリエ変換部102出力したw(k)とz(k)の入力を受け付ける。続いて、複素共役化部103は、(式84)と(式85)の操作を行い、w(k)とz(k)を出力する。ただし、(・)*は複素共役を表す。また、「←」は代入を表す。
Subsequently, the
続いて、フーリエ変換積算出部104は、複素共役化部103が出力したw(k)とz(k)の入力を受け付ける。続いて、フーリエ変換積算出部93は(式86)の計算を行い、v(k)を出力する。
Subsequently, the Fourier transform
続いて、高速逆フーリエ変換部105は、フーリエ変換積算出部104が出力したv(k)の入力を受け付ける。続いて、高速逆フーリエ変換部105は(式87)の計算をIFFTにより行い、V(t)を出力する。
Subsequently, the fast inverse
零詰部101と、高速フーリエ変換部102と、複素共役化部103と、フーリエ変換積算出部104と、高速逆フーリエ変換部105の動作により、相関関数計算部10は高速に相関関数を計算することができる。
The correlation function calculation unit 10 calculates the correlation function at high speed by the operations of the zero
本実施形態の残響除去装置は、音声信号のスパース性を基準として、上述したアルゴリズムを用いて残響成分のパワー包絡を推定する。よって、本実施形態の残響除去装置は、音源の移動や室温変化などに伴う残響変化に対して頑健に動作する。また、本実施形態の残響除去装置は、残響環境に変化がない場合においても、従来知られている残響除去装置と同等程度の性能で残響除去を行うことができる。また、本実施形態の残響除去装置は、高速に残響除去の計算を行うことができる。 The dereverberation apparatus of this embodiment estimates the power envelope of the reverberation component using the algorithm described above with reference to the sparsity of the audio signal. Therefore, the dereverberation apparatus of the present embodiment operates robustly against reverberation changes accompanying movement of the sound source, room temperature changes, and the like. Further, the dereverberation apparatus of the present embodiment can perform dereverberation with the same level of performance as a conventionally known dereverberation apparatus even when there is no change in the reverberation environment. In addition, the dereverberation apparatus of the present embodiment can perform dereverberation calculation at high speed.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成、プログラム、およびシステムはこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration, program, and system are not limited to this embodiment, and the design and the like without departing from the gist of the present invention. Is also included.
また、残響除去装置の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、音声信号の残響除去を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。 In addition, a program for realizing the function of the dereverberation apparatus is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into the computer system and executed, thereby executing dereverberation of the audio signal. May be performed. Here, the “computer system” may include an OS and hardware such as peripheral devices.
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。 Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。 Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic DRAM) in a computer system that becomes a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. Random Access Memory)), etc., which hold programs for a certain period of time.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
1・・・観測パワー時系列生成部、2・・・初期設定部、3・・・残響音パワー推定値時系列算出部、4・・・室内インパルス応答更新部、5・・・原音パワー推定値時系列更新部、6・・・パラメータ規格化部、7・・・収束判定部、8・・・パラメータ出力部、9・・・畳み込み計算部、10・・・相関関数計算部、41・・・観測音・推定原音間相関関数算出部、42・・・推定残響音・推定原音間相関関数算出部、43,47・・・室内インパルス応答推定値更新係数算出部、44,48・・・室内インパルス応答推定値更新値出力部、45・・・モデル化誤差比系列・推定原音間相関関数算出部、46・・・推定原音部分和系列算出部、51・・・観測音・推定インパルス応答間相関関数算出部、52・・・スパース補正項つき推定残響音・推定インパルス応答間相関関数算出部、53,57・・・原音パワー推定値時系列更新係数算出部、54,58・・・原音パワー推定値時系列更新値出力部、55・・・モデル化誤差比系列・推定インパルス応答間相関関数算出部、56・・・スパース補正項つき推定インパルス応答部分和系列算出部、91,101・・・零詰部、92,102・・・高速フーリエ変換部、93,104・・・フーリエ変換積算出部、94,105・・・高速逆フーリエ変換部、103・・・複素共役化部 DESCRIPTION OF SYMBOLS 1 ... Observation power time series production | generation part, 2 ... Initial setting part, 3 ... Reverberation sound power estimated value time series calculation part, 4 ... Indoor impulse response update part, 5 ... Original sound power estimation Value time series update unit, 6 ... parameter normalization unit, 7 ... convergence determination unit, 8 ... parameter output unit, 9 ... convolution calculation unit, 10 ... correlation function calculation unit, 41. .. Correlation function calculation unit between observed sound / estimated original sound, 42... Estimated reverberation sound / estimated original sound correlation function calculation unit, 43, 47... Indoor impulse response estimated value update coefficient calculation unit, 44, 48. Indoor impulse response estimated value update value output unit, 45 ... modeling error ratio sequence / estimated original sound correlation function calculating unit, 46 ... estimated original sound partial sum sequence calculating unit, 51 ... observed sound / estimated impulse Response correlation function calculation unit, 52... Reverberation sound / estimated impulse response correlation function calculation unit, 53, 57... Original sound power estimated value time series update coefficient calculation unit, 54, 58... Original sound power estimated value time series update value output unit, 55. Modeling error ratio sequence / estimated impulse response correlation function calculation unit, 56... Estimated impulse response partial sum sequence calculation unit with sparse correction term, 91, 101. Transformer, 93, 104 ... Fourier transform product calculator, 94, 105 ... Fast inverse Fourier transform, 103 ... Complex conjugate unit
Claims (12)
周波数チャネルごとの非負制約をもつ室内インパルス応答推定値と、原音の周波数チャネルごとのパワー推定値時系列である原音パワー推定値時系列とを設定する初期設定部と、
前記室内インパルス応答推定値と、前記原音パワー推定値時系列とを畳み込み、周波数チャネルごとの残響音モデルのパワー時系列である残響音パワー推定値時系列を算出する残響音パワー推定値時系列算出部と、
前記観測パワー時系列と、前記残響音パワー推定値時系列と、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とに基づいて、非負制約を満たして前記室内インパルス応答推定値を更新する室内インパルス応答更新部と、
前記観測パワー時系列と、前記残響音パワー推定値時系列と、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とに基づいて、非負制約を満たして前記原音パワー推定値時系列を更新する原音パワー推定値時系列更新部と、
前記室内インパルス応答更新部が更新した前記室内インパルス応答推定値を、当該室内インパルス応答推定値の要素値の総和が一定値になるように規格化し、前記原音パワー推定値時系列更新部が更新した前記原音パワー推定値時系列を、当該原音パワー推定値時系列の要素値の総和が一定値になるように規格化するパラメータ規格化部と、
前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしているか否かを判定する収束判定部と、
前記収束判定部が、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしていると判定した場合、当該室内インパルス応答推定値と当該原音パワー推定値時系列とを出力するパラメータ出力部と、
を備え、
前記収束判定部が、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしていないと判定した場合、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とに基づいて、前記残響音パワー推定値時系列算出部は前記残響音パワー推定値時系列を算出し、前記室内インパルス応答更新部は前記室内インパルス応答推定値を更新し、前記原音パワー推定値時系列更新部は前記原音パワー推定値時系列を更新し、前記原音パワー推定値時系列更新部は前記原音パワー推定値時系列を更新する
ことを特徴とする残響除去装置。 An observation power time series generation unit that receives an input of an acoustic signal and generates an observation power time series that is a time series of amplitude or power of a subband signal for each frequency channel by short-time frequency analysis;
An initial setting unit for setting an indoor impulse response estimated value having a non-negative constraint for each frequency channel and an original sound power estimated value time series that is a power estimated value time series for each frequency channel of the original sound;
Reverberation sound power estimation time series calculation that convolves the indoor impulse response estimation value and the original sound power estimation time series to calculate a reverberation power estimation time series that is a power time series of a reverberation sound model for each frequency channel. And
Based on the observation power time series, the reverberation sound power estimate time series, the room impulse response estimate, and the original sound power estimate time series, the room impulse response estimate is updated by satisfying a non-negative constraint. An indoor impulse response updating unit
Based on the observation power time series, the reverberation sound power estimation time series, the room impulse response estimation value, and the original sound power estimation time series, the original sound power estimation time series satisfying non-negative constraints An original sound power estimated value time series update unit to be updated;
The room impulse response estimated value updated by the room impulse response updating unit is normalized so that the sum of the element values of the room impulse response estimated value becomes a constant value, and the original sound power estimated value time series updating unit is updated. A parameter normalization unit that normalizes the original sound power estimated value time series so that a sum of element values of the original sound power estimated value time series becomes a constant value;
A convergence determination unit that determines whether the indoor impulse response estimated value and the original sound power estimated value time series normalized by the parameter normalization unit satisfy a predetermined criterion;
When the convergence determining unit determines that the room impulse response estimated value normalized by the parameter normalizing unit and the original sound power estimated value time series satisfy a predetermined criterion, the room impulse response estimated value And a parameter output unit for outputting the original sound power estimated value time series,
With
When the convergence determining unit determines that the room impulse response estimated value and the original sound power estimated value time series normalized by the parameter normalizing unit do not satisfy a predetermined criterion, the parameter normalizing unit Based on the normalized room impulse response estimated value and the original sound power estimated value time series, the reverberant power estimated value time series calculating unit calculates the reverberant power estimated value time series, and updates the room impulse response Unit updates the indoor impulse response estimated value, the original sound power estimated value time series update unit updates the original sound power estimated value time series, and the original sound power estimated value time series update unit performs the original sound power estimated value time series The dereverberation apparatus characterized by renewing.
周波数チャネルごとに、前記観測パワー時系列と前記原音パワー推定値時系列との相関関数である観測音・推定原音間相関関数を算出する観測音・推定原音間相関関数算出部と、
周波数チャネルごとに、前記残響音パワー推定値時系列と前記原音パワー推定値時系列との相関関数である推定残響音・推定原音間相関関数を算出する推定残響音・推定原音間相関関数算出部と、
周波数チャネルごとに、前記観測音・推定原音間相関関数の時系列の要素値を、前記推定残響音・推定原音間相関関数の時系列の要素値で除算した値である室内インパルス応答推定値更新係数を算出する室内インパルス応答推定値更新係数算出部と、
周波数チャネルごとに、前記室内インパルス応答推定値と前記室内インパルス応答推定値更新係数とを要素ごとに積算し、室内インパルス応答推定値更新値を算出する室内インパルス応答推定値更新値出力部と、
を備えることを特徴とする請求項1に記載の残響除去装置。 The indoor impulse response update unit,
For each frequency channel, an observed sound / estimated original sound correlation function calculating unit that calculates a correlation function between the observed power / estimated original sound, which is a correlation function between the observed power time series and the original sound power estimated value time series,
For each frequency channel, calculating estimated reverberation Probable original correlation function for calculating the estimated reverberation Probable original correlation function is a correlation function of the reverberation power estimate time series and the original sound power estimate time series And
Update of the room impulse response estimated value, which is a value obtained by dividing the time series element value of the correlation function between the observed sound and the estimated original sound by the time series element value of the estimated reverberation sound and the estimated original sound for each frequency channel. An indoor impulse response estimated value update coefficient calculation unit for calculating a coefficient;
For each frequency channel, the indoor impulse response estimated value and the indoor impulse response estimated value update coefficient are integrated element by element, and an indoor impulse response estimated value update value output unit that calculates an indoor impulse response estimated value update value;
The dereverberation apparatus according to claim 1, further comprising:
周波数チャネルごとに、前記観測パワー時系列を前記残響音パワー推定値時系列で要素ごとに除算した時系列と、前記原音パワー推定値時系列との相関関数であるモデル化誤差比系列・推定原音間相関関数を算出するモデル化誤差比系列・推定原音間相関関数算出部と、
周波数チャネルごとに、前記原音パワー推定値時系列の各特定範囲の要素値の部分和を要素値とした系列である推定原音部分和系列を算出する推定原音部分和系列算出部と、
周波数チャネルごとに、モデル化誤差比系列・推定原音間相関関数を、前記推定原音部分和系列の要素値で除算した値である室内インパルス応答推定値更新係数を算出する室内インパルス応答推定値更新係数算出部と、
周波数チャネルごとに、前記室内インパルス応答推定値と前記室内インパルス応答推定値更新係数とを要素ごとに積算し、室内インパルス応答推定値更新値を算出する室内インパルス応答推定値更新値出力部と、
を備えることを特徴とする請求項1に記載の残響除去装置。 The indoor impulse response update unit,
For each frequency channel, a modeled error ratio sequence / estimated original sound, which is a correlation function of the time series obtained by dividing the observed power time series by the reverberant power estimate time series for each element and the original sound power estimate time series A modeled error ratio sequence / estimated original sound correlation function calculation unit for calculating an inter-correlation function;
An estimated original sound partial sum sequence calculating unit that calculates an estimated original sound partial sum sequence that is a sequence having element values of partial sums of element values of each specific range of the original sound power estimated value time series for each frequency channel;
An indoor impulse response estimated value update coefficient for calculating an indoor impulse response estimated value update coefficient, which is a value obtained by dividing the correlation function between the modeled error ratio sequence and the estimated original sound by the element value of the estimated original sound partial sum series for each frequency channel A calculation unit;
For each frequency channel, the indoor impulse response estimated value and the indoor impulse response estimated value update coefficient are integrated element by element, and an indoor impulse response estimated value update value output unit that calculates an indoor impulse response estimated value update value;
The dereverberation apparatus according to claim 1, further comprising:
周波数チャネルごとに、前記観測パワー時系列と前記室内インパルス応答推定値との相関関数である観測音・推定インパルス応答間相関関数を算出する観測音・推定インパルス応答間相関関数算出部と、
周波数チャネルごとに、前記残響音パワー推定値時系列と前記室内インパルス応答推定値との相関関数を算出し、当該相関関数と、前記原音パワー推定値時系列を要素ごとに定数乗しさらに定数倍した時系列とを加算した時系列であるスパース補正項つき推定残響音・推定インパルス応答間相関関数を算出するスパース補正項つき推定残響音・推定インパルス応答間相関関数算出部と、
周波数チャネルごとに、前記観測音・推定インパルス応答間相関関数の時系列の要素を、前記スパース補正項つき推定残響音・推定インパルス応答間相関関数の時系列の要素値で除算した値である原音パワー推定値時系列更新係数を算出する原音パワー推定値時系列更新係数算出部と、
周波数チャネルごとに、前記原音パワー推定値時系列と前記原音パワー推定値時系列更新係数とを要素ごとに積算し、原音パワー推定値時系列更新値を算出する原音パワー推定値時系列更新値出力部と、
を備えることを特徴とする請求項1から請求項3のいずれか1項に記載の残響除去装置。 The original sound power estimated value time series update unit,
For each frequency channel, an observed sound / estimated impulse response correlation function calculating unit that calculates a correlation function between the observed sound / estimated impulse response that is a correlation function between the observed power time series and the indoor impulse response estimated value;
For each frequency channel, a correlation function between the reverberation sound power estimated time series and the room impulse response estimated value is calculated, and the correlation function and the original sound power estimated time series are multiplied by a constant for each element and further multiplied by a constant. An estimated reverberation sound with a sparse correction term and an estimated impulse response correlation function that calculates a correlation function between the estimated reverberation sound and the estimated impulse response with a sparse correction term, which is a time series obtained by adding the calculated time series,
For each frequency channel, the original sound is a value obtained by dividing the time series element of the correlation function between the observed sound and the estimated impulse response by the time series element value of the estimated reverberant sound with the sparse correction term and the correlation function between the estimated impulse responses. An original sound power estimated time series update coefficient calculating unit for calculating a power estimated time series update coefficient;
For each frequency channel, the original sound power estimated value time series and the original sound power estimated value time series update coefficient are integrated element by element, and the original sound power estimated value time series updated value is calculated. And
The dereverberation apparatus according to any one of claims 1 to 3, further comprising:
周波数チャネルごとに、前記観測パワー時系列を前記残響音パワー推定値時系列で要素ごとに除算した時系列と、前記室内インパルス応答推定値との相関関数であるモデル化誤差比系列・推定インパルス応答間相関関数を算出するモデル化誤差比系列・推定インパルス応答間相関関数算出部と、
周波数チャネルごとに、前記室内インパルス応答推定値の各特定範囲の要素値の部分和を要素値とした系列を算出し、当該系列と、前記原音パワー推定値時系列を要素ごとに定数乗しさらに定数倍した時系列とを加算した時系列であるスパース補正項つき推定インパルス応答部分和系列を算出するスパース補正項つき推定インパルス応答部分和系列算出部と、
周波数チャネルごとに、前記モデル化誤差比系列・推定インパルス応答間相関関数の時系列の要素を、前記スパース補正項つき推定インパルス応答部分和系列の要素値で除算した値である原音パワー推定値時系列更新係数を算出する原音パワー推定値時系列更新係数算出部と、
周波数チャネルごとに、前記原音パワー推定値時系列と前記原音パワー推定値時系列更新係数とを要素ごとに積算し、原音パワー推定値時系列更新値を算出する原音パワー推定値時系列更新値出力部と、
を備えることを特徴とする請求項1から請求項3のいずれか1項に記載の残響除去装置。 The original sound power estimated value time series update unit,
For each frequency channel, a modeled error ratio sequence / estimated impulse response that is a correlation function between the time series obtained by dividing the observed power time series by the reverberant sound power estimated value time series for each element and the indoor impulse response estimated value A modeled error ratio sequence / estimated impulse response correlation function calculation unit for calculating an inter-correlation function;
For each frequency channel, calculate a series having element values that are partial sums of the element values of each specific range of the indoor impulse response estimation values, multiply the series and the original sound power estimation value time series by a constant power for each element, and An estimated impulse response partial sum series calculation unit with a sparse correction term that calculates an estimated impulse response partial sum sequence with a sparse correction term that is a time series obtained by adding a time series multiplied by a constant,
For each frequency channel, when the original sound power estimated value is a value obtained by dividing the time series element of the correlation function between the modeled error ratio series and the estimated impulse response by the element value of the estimated impulse response partial sum series with the sparse correction term. An original sound power estimated value time series update coefficient calculation unit for calculating a series update coefficient;
For each frequency channel, the original sound power estimated value time series and the original sound power estimated value time series update coefficient are integrated element by element, and the original sound power estimated value time series updated value is calculated. And
The dereverberation apparatus according to any one of claims 1 to 3, further comprising:
初期設定部が、周波数チャネルごとの非負制約をもつ室内インパルス応答推定値と、原音の周波数チャネルごとのパワー推定値時系列である原音パワー推定値時系列とを設定する初期設定ステップと、
残響音パワー推定値時系列算出部が、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とを畳み込み、周波数チャネルごとの残響音モデルのパワー時系列である残響音パワー推定値時系列を算出する残響音パワー推定値時系列算出ステップと、
室内インパルス応答更新部が、前記観測パワー時系列と、前記残響音パワー推定値時系列と、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とに基づいて、非負制約を満たして前記室内インパルス応答推定値を更新する室内インパルス応答更新ステップと、
原音パワー推定値時系列更新部が、前記観測パワー時系列と、前記残響音パワー推定値時系列と、前記室内インパルス応答推定値と、前記原音パワー推定値時系列とに基づいて、非負制約を満たして前記原音パワー推定値時系列を更新する原音パワー推定値時系列更新ステップと、
パラメータ規格化部が、前記室内インパルス応答更新ステップで更新した前記室内インパルス応答推定値を、当該室内インパルス応答推定値の要素値の総和が一定値になるように規格化し、前記原音パワー推定値時系列更新ステップで更新した前記原音パワー推定値時系列を、当該原音パワー推定値時系列の要素値の総和が一定値になるように規格化するパラメータ規格化ステップと、
収束判定部が、前記パラメータ規格化ステップで規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしているか否かを判定する収束判定ステップと、
前記収束判定ステップで、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしていると判定した場合、パラメータ出力部が当該室内インパルス応答推定値と当該原音パワー推定値時系列とを出力するパラメータ出力ステップと、
を有し、
前記収束判定ステップで、前記パラメータ規格化部が規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とが、所定の規準を満たしていないと判定した場合、前記パラメータ規格化ステップで規格化した前記室内インパルス応答推定値と前記原音パワー推定値時系列とに基づいて、前記残響音パワー推定値時系列算出ステップで前記残響音パワー推定値時系列を算出し、前記室内インパルス応答更新ステップで前記室内インパルス応答推定値を更新し、前記原音パワー推定値時系列更新ステップで前記原音パワー推定値時系列を更新し、前記原音パワー推定値時系列更新ステップで前記原音パワー推定値時系列を更新する
ことを特徴とする残響除去方法。 An observation power time series generation unit that receives an input of an acoustic signal and generates an observation power time series that is a time series of amplitude or power of a subband signal for each frequency channel by short-time frequency analysis; and ,
An initial setting step in which an initial setting unit sets an indoor impulse response estimated value having a non-negative constraint for each frequency channel and an original sound power estimated value time series that is a power estimated value time series for each frequency channel of the original sound;
A reverberant sound power estimated time series calculation unit convolves the room impulse response estimated value with the original sound power estimated time series, and a reverberant sound power estimated time series that is a power time series of a reverberant sound model for each frequency channel. Reverberation sound power estimation time series calculation step for calculating
The indoor impulse response update unit satisfies the non-negative constraint based on the observation power time series, the reverberation power estimation value time series, the indoor impulse response estimation value, and the original sound power estimation value time series, and An indoor impulse response update step for updating the indoor impulse response estimate;
An original sound power estimated value time series update unit performs non-negative constraints based on the observed power time series, the reverberant sound power estimated time series, the room impulse response estimated value, and the original sound power estimated value time series. An original sound power estimate time series update step that satisfies and updates the original sound power estimate time series; and
The parameter normalization unit normalizes the room impulse response estimated value updated in the room impulse response update step so that the sum of the element values of the room impulse response estimated value becomes a constant value, and the original sound power estimated value A parameter normalizing step for normalizing the original sound power estimated value time series updated in the series updating step so that the sum of the element values of the original sound power estimated value time series becomes a constant value;
A convergence determining step for determining whether the room impulse response estimated value and the original sound power estimated value time series normalized by the parameter normalizing step satisfy a predetermined criterion; and
When it is determined in the convergence determination step that the room impulse response estimated value normalized by the parameter normalization unit and the original sound power estimated value time series satisfy a predetermined criterion, the parameter output unit A parameter output step for outputting the impulse response estimated value and the original sound power estimated value time series;
Have
In the convergence determination step, when it is determined that the room impulse response estimated value and the original sound power estimated value time series normalized by the parameter normalization unit do not satisfy a predetermined criterion, the parameter normalizing step Based on the normalized room impulse response estimated value and the original sound power estimated value time series, the reverberant sound power estimated value time series is calculated in the reverberant power estimated value time series calculating step, and the room impulse response update is performed. Updating the room impulse response estimated value in the step, updating the original sound power estimated value time series in the original sound power estimated value time series updating step, and updating the original sound power estimated value time series in the original sound power estimated time series The dereverberation method characterized by updating the above.
観測音・推定原音間相関関数算出部が、周波数チャネルごとに、前記観測パワー時系列と前記原音パワー推定値時系列との相関関数である観測音・推定原音間相関関数を算出する観測音・推定原音間相関関数算出ステップと、
推定残響音・推定原音間相関関数算出部が、周波数チャネルごとに、前記残響音パワー推定値時系列と前記原音パワー推定値時系列との相関関数である推定残響音・推定原音間相関関数を算出する推定残響音・推定原音間相関関数算出ステップと、
室内インパルス応答推定値更新係数算出部が、周波数チャネルごとに、前記観測音・推定原音間相関関数の時系列の要素値を、前記推定残響音・推定原音間相関関数の時系列の要素値で除算した値である室内インパルス応答推定値更新係数を算出する室内インパルス応答推定値更新係数算出ステップと、
室内インパルス応答推定値更新値出力部が、周波数チャネルごとに、前記室内インパルス応答推定値と前記室内インパルス応答推定値更新係数とを要素ごとに積算し、室内インパルス応答推定値更新値を算出する室内インパルス応答推定値更新値出力ステップと、
を含むことを特徴とする請求項6に記載の残響除去方法。 The indoor impulse response update step includes:
The observed sound / estimated original sound correlation function calculator calculates an observed sound / estimated original sound correlation function that is a correlation function between the observed power time series and the original sound power estimated value time series for each frequency channel. A step of calculating a correlation function between estimated original sounds;
Estimated reverberation Probable original correlation function calculating unit, for each frequency channel, it estimates the reverberation Probable original correlation function is a correlation function of the reverberation power estimate time series and the original sound power estimate time series An estimated reverberation sound / estimated original sound correlation function calculating step,
The indoor impulse response estimated value update coefficient calculation unit calculates, for each frequency channel, the time series element value of the correlation function between the observed sound and the estimated original sound as the time series element value of the estimated reverberant sound and the estimated original sound correlation function. An indoor impulse response estimated value update coefficient calculating step for calculating an indoor impulse response estimated value update coefficient that is a divided value;
An indoor impulse response estimated value update value output unit integrates the indoor impulse response estimated value and the indoor impulse response estimated value update coefficient element by element for each frequency channel, and calculates an indoor impulse response estimated value update value An impulse response estimated value update value output step;
The dereverberation method according to claim 6, further comprising:
モデル化誤差比系列・推定原音間相関関数算出部が、周波数チャネルごとに、前記観測パワー時系列を前記残響音パワー推定値時系列で要素ごとに除算した時系列と、前記原音パワー推定値時系列との相関関数であるモデル化誤差比系列・推定原音間相関関数を算出するモデル化誤差比系列・推定原音間相関関数算出ステップと、
推定原音部分和系列算出部が、周波数チャネルごとに、前記原音パワー推定値時系列の各特定範囲の要素値の部分和を要素値とした系列である推定原音部分和系列を算出する推定原音部分和系列算出ステップと、
室内インパルス応答推定値更新係数算出部が、周波数チャネルごとに、モデル化誤差比系列・推定原音間相関関数を、前記推定原音部分和系列の要素値で除算した値である室内インパルス応答推定値更新係数を算出する室内インパルス応答推定値更新係数算出ステップと、
室内インパルス応答推定値更新値出力部が、周波数チャネルごとに、前記室内インパルス応答推定値と前記室内インパルス応答推定値更新係数とを要素ごとに積算し、室内インパルス応答推定値更新値を算出する室内インパルス応答推定値更新値出力ステップと、
を含むことを特徴とする請求項6に記載の残響除去方法。 The indoor impulse response update step includes:
A modeling error ratio sequence / estimated original sound correlation function calculation unit, for each frequency channel, divides the observed power time series by the reverberant sound power estimated value time series for each element, and the original sound power estimated time A modeling error ratio sequence / estimated original sound correlation function calculating step for calculating a modeling error ratio sequence / estimated original sound correlation function that is a correlation function with the sequence;
An estimated original sound partial sum sequence calculation unit calculates an estimated original sound partial sum sequence that is a sequence having element values of partial sums of element values of each specific range of the original sound power estimated value time series for each frequency channel Sum series calculation step;
The indoor impulse response estimated value update coefficient calculation unit updates the indoor impulse response estimated value that is a value obtained by dividing the modeled error ratio sequence / estimated original sound correlation function by the element value of the estimated original sound partial sum sequence for each frequency channel. An indoor impulse response estimated value update coefficient calculation step for calculating a coefficient;
An indoor impulse response estimated value update value output unit integrates the indoor impulse response estimated value and the indoor impulse response estimated value update coefficient element by element for each frequency channel, and calculates an indoor impulse response estimated value update value An impulse response estimated value update value output step;
The dereverberation method according to claim 6, further comprising:
観測音・推定インパルス応答間相関関数算出部が、周波数チャネルごとに、前記観測パワー時系列と前記室内インパルス応答推定値との相関関数である観測音・推定インパルス応答間相関関数を算出する観測音・推定インパルス応答間相関関数算出ステップと、
スパース補正項つき推定残響音・推定インパルス応答間相関関数算出部が、周波数チャネルごとに、前記残響音パワー推定値時系列と前記室内インパルス応答推定値との相関関数を算出し、当該相関関数と、前記原音パワー推定値時系列を要素ごとに定数乗しさらに定数倍した時系列とを加算した時系列であるスパース補正項つき推定残響音・推定インパルス応答間相関関数を算出するスパース補正項つき推定残響音・推定インパルス応答間相関関数算出ステップと、
原音パワー推定値時系列更新係数算出部が、周波数チャネルごとに、前記観測音・推定インパルス応答間相関関数の時系列の要素を、前記スパース補正項つき推定残響音・推定インパルス応答間相関関数の時系列の要素値で除算した値である原音パワー推定値時系列更新係数を算出する原音パワー推定値時系列更新係数算出ステップと、
原音パワー推定値時系列更新値出力部が、周波数チャネルごとに、前記原音パワー推定値時系列と前記原音パワー推定値時系列更新係数とを要素ごとに積算し、原音パワー推定値時系列更新値を算出する原音パワー推定値時系列更新値出力ステップと、
を含むことを特徴とする請求項6から請求項8のいずれか1項に記載の残響除去方法。 The original sound power estimated value time series update step includes:
Observation sound / estimated impulse response correlation function calculation unit calculates, for each frequency channel, an observation sound / estimated impulse response correlation function that is a correlation function between the observed power time series and the indoor impulse response estimated value A step of calculating a correlation function between estimated impulse responses;
An estimated reverberant sound / estimated impulse response correlation function calculation unit with a sparse correction term calculates a correlation function between the reverberant power estimated value time series and the indoor impulse response estimated value for each frequency channel, and the correlation function With a sparse correction term for calculating a correlation function between estimated reverberant sound and estimated impulse response, which is a time series obtained by adding the time series obtained by multiplying the original sound power estimated value time series by a constant power for each element and further multiplying by a constant A step of calculating a correlation function between the estimated reverberant sound and the estimated impulse response;
The original sound power estimated value time series update coefficient calculation unit calculates, for each frequency channel, the time series elements of the correlation function between the observed sound and the estimated impulse response, and the correlation function between the estimated reverberant sound with the sparse correction term and the estimated impulse response. An original sound power estimated value time series update coefficient calculating step for calculating an original sound power estimated value time series update coefficient that is a value divided by a time series element value;
An original sound power estimated value time series update value output unit integrates the original sound power estimated value time series and the original sound power estimated value time series update coefficient element by element for each frequency channel, and the original sound power estimated value time series updated value An original sound power estimated value time series update value output step for calculating
The dereverberation method according to any one of claims 6 to 8, further comprising:
モデル化誤差比系列・推定インパルス応答間相関関数算出部が、周波数チャネルごとに、前記観測パワー時系列を前記残響音パワー推定値時系列で要素ごとに除算した時系列と、前記室内インパルス応答推定値との相関関数であるモデル化誤差比系列・推定インパルス応答間相関関数を算出するモデル化誤差比系列・推定インパルス応答間相関関数算出ステップと、
スパース補正項つき推定インパルス応答部分和系列算出部が、周波数チャネルごとに、前記室内インパルス応答推定値の各特定範囲の要素値の部分和を要素値とした系列を算出し、当該系列と、前記原音パワー推定値時系列を要素ごとに定数乗しさらに定数倍した時系列とを加算した時系列であるスパース補正項つき推定インパルス応答部分和系列を算出するスパース補正項つき推定インパルス応答部分和系列算出ステップと、
原音パワー推定値時系列更新係数算出部が、周波数チャネルごとに、前記モデル化誤差比系列・推定インパルス応答間相関関数の時系列の要素を、前記スパース補正項つき推定インパルス応答部分和系列の要素値で除算した値である原音パワー推定値時系列更新係数を算出する原音パワー推定値時系列更新係数算出ステップと、
原音パワー推定値時系列更新値出力部が、周波数チャネルごとに、前記原音パワー推定値時系列と前記原音パワー推定値時系列更新係数とを要素ごとに積算し、原音パワー推定値時系列更新値を算出する原音パワー推定値時系列更新値出力ステップと、
を含むことを特徴とする請求項6から請求項8のいずれか1項に記載の残響除去方法。 The original sound power estimated value time series update step includes:
The modeling error ratio sequence / estimated impulse response correlation function calculation unit, for each frequency channel, divides the observed power time series into elements by the reverberant power estimate time series, and the indoor impulse response estimation A modeling error ratio sequence / estimated impulse response correlation function calculating step for calculating a modeling error ratio sequence / estimated impulse response correlation function, which is a correlation function with a value;
An estimated impulse response partial sum series calculation unit with a sparse correction term calculates, for each frequency channel, a series having element values as partial sums of element values of each specific range of the indoor impulse response estimated values, and the series, Estimated impulse response partial sum sequence with sparse correction term to calculate the estimated impulse response partial sum sequence with sparse correction term, which is a time series obtained by multiplying the original sound power estimated value time series by a constant power for each element and adding a time series multiplied by a constant A calculation step;
The original sound power estimated value time-series update coefficient calculation unit calculates, for each frequency channel, the time-series element of the modeling error ratio series / estimated impulse response correlation function as the element of the estimated impulse response partial sum series with the sparse correction term. An original sound power estimated value time series update coefficient calculating step for calculating an original sound power estimated value time series update coefficient that is a value divided by the value;
An original sound power estimated value time series update value output unit integrates the original sound power estimated value time series and the original sound power estimated value time series update coefficient element by element for each frequency channel, and the original sound power estimated value time series updated value An original sound power estimated value time series update value output step for calculating
The dereverberation method according to any one of claims 6 to 8, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008214462A JP5172536B2 (en) | 2008-08-22 | 2008-08-22 | Reverberation removal apparatus, dereverberation method, computer program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008214462A JP5172536B2 (en) | 2008-08-22 | 2008-08-22 | Reverberation removal apparatus, dereverberation method, computer program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010049102A JP2010049102A (en) | 2010-03-04 |
JP5172536B2 true JP5172536B2 (en) | 2013-03-27 |
Family
ID=42066222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008214462A Active JP5172536B2 (en) | 2008-08-22 | 2008-08-22 | Reverberation removal apparatus, dereverberation method, computer program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5172536B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6677662B2 (en) | 2017-02-14 | 2020-04-08 | 株式会社東芝 | Sound processing device, sound processing method and program |
WO2020107455A1 (en) * | 2018-11-30 | 2020-06-04 | 深圳市欢太科技有限公司 | Voice processing method and apparatus, storage medium, and electronic device |
CN110059401B (en) * | 2019-04-15 | 2022-10-25 | 青岛科技大学 | OFDM system underwater sound channel impulse response reconstruction method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006234888A (en) * | 2005-02-22 | 2006-09-07 | Nippon Telegr & Teleph Corp <Ntt> | Device, method, and program for removing reverberation, and recording medium |
JP2007065204A (en) * | 2005-08-30 | 2007-03-15 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation removing apparatus, reverberation removing method, reverberation removing program, and recording medium thereof |
JP4977100B2 (en) * | 2008-08-11 | 2012-07-18 | 日本電信電話株式会社 | Reverberation removal apparatus, dereverberation removal method, program thereof, and recording medium |
-
2008
- 2008-08-22 JP JP2008214462A patent/JP5172536B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010049102A (en) | 2010-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11037552B2 (en) | Method and apparatus with a personalized speech recognition model | |
JP6234060B2 (en) | Generation method, generation apparatus, and generation program for target domain learning voice data | |
JP5842056B2 (en) | Noise estimation device, noise estimation method, noise estimation program, and recording medium | |
US20140114650A1 (en) | Method for Transforming Non-Stationary Signals Using a Dynamic Model | |
US9576583B1 (en) | Restoring audio signals with mask and latent variables | |
CN105684079B (en) | For enhancing the method and system for having noise cancellation signal of input | |
JP6195548B2 (en) | Signal analysis apparatus, method, and program | |
JP6748304B2 (en) | Signal processing device using neural network, signal processing method using neural network, and signal processing program | |
JP5172536B2 (en) | Reverberation removal apparatus, dereverberation method, computer program, and recording medium | |
CN101322183B (en) | Signal distortion elimination apparatus and method | |
JP5994639B2 (en) | Sound section detection device, sound section detection method, and sound section detection program | |
JP6721165B2 (en) | Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program | |
JP6711765B2 (en) | Forming apparatus, forming method, and forming program | |
JPWO2019044401A1 (en) | Computer system realizing unsupervised speaker adaptation of DNN speech synthesis, method and program executed in the computer system | |
JP5807914B2 (en) | Acoustic signal analyzing apparatus, method, and program | |
JP5726790B2 (en) | Sound source separation device, sound source separation method, and program | |
JP6420198B2 (en) | Threshold estimation device, speech synthesizer, method and program thereof | |
US11437023B2 (en) | Apparatus and method with speech recognition and learning | |
JP6000094B2 (en) | Speaker adaptation device, speaker adaptation method, and program | |
JP7021437B2 (en) | Training data generator, training data generation method, and program | |
WO2016092837A1 (en) | Speech processing device, noise suppressing device, speech processing method, and recording medium | |
WO2022168251A1 (en) | Signal processing device, signal processing method, and signal processing program | |
WO2019208137A1 (en) | Sound source separation device, method therefor, and program | |
JP2011053565A (en) | Signal analyzer, signal analytical method, program, and recording medium | |
US20220130406A1 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100526 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121226 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5172536 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160111 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |