JP2006064866A - Reverberation eliminating method, and device, program, and recording medium for implementing method - Google Patents
Reverberation eliminating method, and device, program, and recording medium for implementing method Download PDFInfo
- Publication number
- JP2006064866A JP2006064866A JP2004245622A JP2004245622A JP2006064866A JP 2006064866 A JP2006064866 A JP 2006064866A JP 2004245622 A JP2004245622 A JP 2004245622A JP 2004245622 A JP2004245622 A JP 2004245622A JP 2006064866 A JP2006064866 A JP 2006064866A
- Authority
- JP
- Japan
- Prior art keywords
- processing
- fundamental frequency
- time
- signal
- contraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、残響除去方法、この方法を実施する装置、プログラムおよび記録媒体に関し、特に、残響を含んだ音声信号から残響を除去する残響除去における調波構造音抽出処理に用いることで、正確に調波構造音を得ることができ、全体として正確な残響除去処理を実施する残響除去方法、この方法を実施する装置、プログラムおよび記録媒体に関する。 The present invention relates to a dereverberation method, an apparatus, a program, and a recording medium for performing the method, and more particularly, to accurately use a harmonic structure sound extraction process in dereverberation that removes reverberation from an audio signal including reverberation. The present invention relates to a dereverberation method that can obtain harmonically structured sound and performs accurate dereverberation processing as a whole, an apparatus that implements this method, a program, and a recording medium.
図7を参照して残響除去方法の先行例を説明する(参考文献[1]参照)。
図7の残響除去装置による残響除去処理は、音声収集装置8より入力した残響を含んだ音声信号x(t)に対して、基本周波数推定部1による基本周波数推定処理と、調波構造音抽出部4による調波構造音抽出処理と、逆伝達関数推定部6による逆伝達関数推定処理と、逆伝達関数適用部7による逆伝達関数適用処理より成る。調波構造音抽出部4が抽出する調波構造音を、音声信号の直接音を近似する信号とみなし、この信号と観測された信号である音声信号x(t)とから逆伝達関数推定部6において逆伝達関数を推定する。この逆伝達関数を、逆伝達関数適用部7において残響を含んだ観測音声信号に畳み込むことで残響除去を行う。
A prior example of the dereverberation method will be described with reference to FIG. 7 (see reference [1]).
The dereverberation processing by the dereverberation apparatus of FIG. 7 is performed on the speech signal x (t) including the reverberation input from the
音声信号は、一般に、残響のある環境で収音されると、本来の音声信号に残響が重畳された信号として観測される。このため、本来の音声信号の性質を抽出することが困難になると共に、音声自体の明瞭度が低下する。これに対して、残響除去処理は、重畳した残響を取り除くことで、音声本来の性質を抽出しやすくすると共に、音声の明瞭度を回復することができる。これは、他の様々な音声信号処理方法および装置の要素技術として用いることで、その全体の性能向上につながる技術である。残響除去処理を要素技術として使用して性能向上する音声信号処理技術としたは、以下の様なものを列挙することができる。 In general, when a sound signal is collected in an environment with reverberation, the sound signal is observed as a signal in which reverberation is superimposed on the original sound signal. For this reason, it becomes difficult to extract the nature of the original audio signal, and the intelligibility of the audio itself decreases. On the other hand, the dereverberation process removes the superimposed reverberation, thereby facilitating extraction of the original nature of the speech and recovering the clarity of the speech. This is a technique that leads to an improvement in the overall performance when used as an elemental technique of various other audio signal processing methods and apparatuses. The following can be enumerated as the audio signal processing technology for improving the performance by using the dereverberation processing as an elemental technology.
1.残響除去を前処理として用いる音声認識方法および装置。
2.残響除去により音声の明瞭度を向上させるTV会議方法および装置などの通信方法および装置。
3.講演の録音に含まれる残響を除去することで、録音された音声の明瞭度を向上させる再生方法および装置。
4.残響を除去することで聞き取りやすさを向上させる補聴器。
5.人が歌ったり、楽器で演奏したり、またはスピーカで演奏された音楽の残響を除去して、楽曲を検索したり、採譜したりする音楽情報処理方法および装置。
6.人が発した声に反応して機械にコマンドをわたす機械制御インターフェース、および機械と人間との間の対話装置。
1. Speech recognition method and apparatus using dereverberation as preprocessing.
2. A communication method and apparatus, such as a TV conference method and apparatus, for improving the intelligibility of audio by dereverberation.
3. A playback method and apparatus for improving the intelligibility of recorded speech by removing reverberation contained in the recording of the lecture.
4). A hearing aid that improves the ease of hearing by removing the reverberation.
5. A music information processing method and apparatus in which a person sings, plays a musical instrument, or removes the reverberation of music played by a speaker to search for music and record music.
6). A machine control interface that gives commands to the machine in response to human voices, and a dialogue device between the machine and humans.
上述した残響除去技術の先行例(参考文献[1] 参照)は、調波構造音抽出処理部4において調波構造音を抽出するに際して、短い時間区間で切り出された音声信号の基本周波数はその区間内で一定であると仮定して処理を行っていた。しかし、実際の音声信号は短い時間区間内においてもその基本周波数は一定ではない。従って、先行例においては、この仮定が原因で、調波構造音の抽出精度を或る程度以上に高くすることができなかった。このために、直接音の近似精度が低く、逆伝達関数を精密に推定することができなかった。その結果、残響除去方法の先行例には達成することができる残響除去性能に限界があった。この様に、残響除去の先行例は基本周波数に関する不正確な仮定に基づいていたところから、或る程度以上の高性能な残響除去を実現することはできなかった。
In the preceding example of the dereverberation technique described above (see Reference [1]), when the harmonic structure sound is extracted by the harmonic structure sound
一方、調波構造音の抽出精度を向上させる仕方として、時間伸縮処理技術を使用することが従来検討されている。時間伸縮処理とは音声信号の振幅を変えずに時間軸のみを伸び縮みさせることで波形を変形させる処理である。この時間伸縮処理を用いれば、音声信号の基本周波数の増加減少に合わせて時間軸の伸縮を適切に制御することで、基本周波数が一定の音声信号を得ることができる。これを図8を参照して説明する。図8(a)は時間伸縮処理を施す前の音声信号波形を示し、図8(b)は時間伸縮処理を施された後の音声信号波形を示す。図8(c)は図8(a)の音声信号のスペクトログラムを示し、図8(d)は図8(b)の音声信号のスペクトログラムを示す。 On the other hand, the use of a time expansion / contraction processing technique has been studied as a method for improving the extraction accuracy of harmonic structure sounds. The time expansion / contraction process is a process for deforming the waveform by expanding / contracting only the time axis without changing the amplitude of the audio signal. If this time expansion / contraction process is used, an audio signal having a constant fundamental frequency can be obtained by appropriately controlling expansion / contraction of the time axis in accordance with an increase / decrease in the fundamental frequency of the audio signal. This will be described with reference to FIG. FIG. 8A shows an audio signal waveform before the time expansion / contraction process is performed, and FIG. 8B shows an audio signal waveform after the time expansion / contraction process is performed. FIG. 8C shows a spectrogram of the voice signal of FIG. 8A, and FIG. 8D shows a spectrogram of the voice signal of FIG. 8B.
図8(a)、(c)における時間伸縮処理を施す前の音声信号波形は、同じ波形の繰り返し間隔が時間の経過に伴って短くなって行く。これは、基本周波数が時間の経過に伴って高くなって行くことを示している。これに対して、図8(b)、(d)における時間伸縮処理を施された後の音声信号波形は、例えば、時間的に前半の信号の時間軸を縮めると共に、後半の信号の時間軸を伸ばすことで、近似的に基本周波数が一定の信号を得ることができる。
この発明は、この公知の時間伸縮処理技術を上述した先行例における調波構造音抽出処理に先だって適用し、近似的に基本周波数が一定の信号に調波構造音抽出処理を施すことに着目した。
In the audio signal waveform before the time expansion / contraction processing in FIGS. 8A and 8C, the repetition interval of the same waveform becomes shorter as time elapses. This indicates that the fundamental frequency increases with time. On the other hand, the audio signal waveform after the time expansion / contraction processing in FIGS. 8B and 8D, for example, shortens the time axis of the first half signal in time and the time axis of the second half signal. By extending, a signal having a substantially constant fundamental frequency can be obtained.
The present invention applies this known time expansion / contraction processing technique prior to the harmonic structure sound extraction processing in the above-described prior example, and focuses on applying harmonic structure sound extraction processing to a signal having a substantially constant fundamental frequency. .
即ち、この発明は、この公知の時間伸縮処理技術を、特に、残響を含んだ音声信号から残響を除去する残響除去における調波構造音抽出処理に用いることで、先行例と比較してより正確に調波構造音を得ることができ、その結果、全体としてより正確な残響除去処理を実施することができる、以上の問題を解消した残響除去方法、この方法を実施する装置、プログラムおよび記録媒体を提供するものである。 That is, the present invention uses this known time expansion / contraction processing technique in particular for harmonic structure sound extraction processing in reverberation removal that removes reverberation from an audio signal including reverberation, thereby making it more accurate than the previous example. In this way, it is possible to obtain a harmonic structure sound, and as a result, it is possible to carry out a more accurate dereverberation process as a whole. Is to provide.
請求項1:入力された残響を含んだ音声信号x(t)に対して、基本周波数推定処理をし、基本周波数時間微分推定処理をし、信号波形の時間伸縮処理をし、調波構造音抽出処理をし、信号波形の時間伸縮復元処理をし、逆伝達関数推定処理をし、逆伝達関数適用処理をする残響除去方法を構成した。
そして、請求項2:入力された残響を含んだ音声信号x(t)に対して、基本周波数推定処理をし、基本周波数時間微分推定処理をし、信号波形の時間伸縮処理をし、調波構造音抽出処理をし、信号波形の時間伸縮復元処理をし、逆伝達関数推定処理をし、逆伝達関数適用処理をする第一段階の残響除去処理をし、
基本周波数、その時間微分は第一段階の残響除去処理で残響除去された信号から推定し、調波構造音のみ入力された残響を含んだ音声信号x(t)から推定して第一段階の残響除去処理に対応する第二段階の残響除去処理をし、
基本周波数、その時間微分、および調波構造音はすべて第二段階で残響除去処理された信号から推定して第一段階の残響除去処理に対応する第三段階の残響除去処理をする残響除去方法を構成した。
Claim 1: A fundamental frequency estimation process, a fundamental frequency time derivative estimation process, a time expansion / contraction process of a signal waveform, and a harmonic structure sound are performed on the input speech signal x (t) including reverberation. A dereverberation method is performed in which extraction processing is performed, signal waveform time expansion / contraction restoration processing is performed, inverse transfer function estimation processing is performed, and inverse transfer function application processing is performed.
Claim 2: A fundamental frequency estimation process, a fundamental frequency time differential estimation process, a signal waveform time expansion / contraction process, and a harmonic are performed on the input speech signal x (t) including reverberation. Perform structural sound extraction processing, time expansion / contraction restoration processing of signal waveform, reverse transfer function estimation processing, reverse transfer function application processing first stage dereverberation processing,
The fundamental frequency and its time derivative are estimated from the signal dereverberated in the first stage dereverberation process, and estimated from the speech signal x (t) including the reverberation input only with the harmonic structure sound. The second stage dereverberation process corresponding to the dereverberation process,
A dereverberation method that performs a third-stage dereverberation process corresponding to the first-stage dereverberation process by estimating the fundamental frequency, its time derivative, and the harmonic structure sound from the signal subjected to the dereverberation process in the second stage. Configured.
ここで、請求項3:入力された残響を含んだ音声信号x(t)に対して基本周波数推定処理をする基本周波数推定部1を具備し、
基本周波数推定部1により求められた基本周波数に基づいてその時間微分を推定する基本周波数時間微分推定部2を具備し、
基本周波数推定部1により求められた基本周波数、基本周波数時間微分推定部2により求められた基本周波数の時間微分に基づいて基本周波数を一定にする信号波形時間伸縮部3を具備し、
信号波形時間伸縮部3により得られた時間伸縮信号に基づいてその調波構造音を抽出する調波構造音抽出部4を具備し、
調波構造音抽出部4により得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る信号波形時間伸縮復元部5を具備し、
音声信号x(t)と信号波形時間伸縮復元部5において得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて逆伝達関数を推定する逆伝達関数推定部6を具備し、
逆伝達関数推定部6により求めた逆伝達関数を音声信号x(t)に適用して残響除去後の信号y(t)を得る逆伝達関数適用部7を具備する残響除去装置を構成した。
Here, the present invention includes a fundamental
A fundamental frequency time
A signal waveform time expansion /
A harmonic structure
The signal waveform time expansion /
The harmonic structure sound obtained by the audio signal x (t) and the signal waveform time expansion /
The dereverberation apparatus including the inverse transfer
そして、請求項4:入力された残響を含んだ音声信号x(t)に対して、基本周波数推定処理をし、基本周波数時間微分推定処理をし、信号波形の時間伸縮処理をし、調波構造音抽出処理をし、信号波形の時間伸縮復元処理をし、逆伝達関数推定処理をし、逆伝達関数適用処理をする指令をコンピュータに対してする残響除去プログラムを構成した。
また、請求項5:請求項4に記載される残響除去プログラムを記録した記録媒体を構成した。
上述した通り、この発明は、調波構造音の抽出処理に音声信号の時間伸縮処理技術を導入している。時間伸縮処理を施された後の音声信号波形は、例えば、時間的に前半の信号の時間軸を縮めると共に、後半の信号の時間軸を伸ばすことで、近似的に基本周波数が一定の信号を得ることができる。この基本周波数が一定になった音声信号に調波構造音抽出処理を施すことにより、調波構造音を正確に抽出することができるに到る。但し、このとき抽出される調波構造音は基本周波数が一定の信号である。これを元の音声信号に含まれた調波構造音に戻すには、この音声信号に対して、最初に適用した時間伸縮処理とは逆の時間伸縮処理を施せばよい。これにより、元の音声信号と同じ基本周波数の変化をもった調波構造音に変換される。
Claim 4: The input audio signal x (t) including reverberation is subjected to fundamental frequency estimation processing, fundamental frequency time differential estimation processing, signal waveform time expansion / contraction processing, and harmonics. A dereverberation program for performing a structure sound extraction process, a time expansion / contraction restoration process of a signal waveform, an inverse transfer function estimation process, and a command for performing an inverse transfer function application process to the computer was configured.
Further, a recording medium on which the dereverberation program described in
As described above, the present invention introduces the time expansion / contraction processing technology of the audio signal in the harmonic structure sound extraction processing. The audio signal waveform after the time expansion / contraction processing is performed, for example, by reducing the time axis of the first half of the signal in time and extending the time axis of the second half of the signal so that a signal with a substantially constant fundamental frequency is obtained. Obtainable. By applying a harmonic structure sound extraction process to the audio signal having a constant fundamental frequency, the harmonic structure sound can be accurately extracted. However, the harmonic structure sound extracted at this time is a signal having a constant fundamental frequency. In order to return this to the harmonic structure sound included in the original audio signal, the audio signal may be subjected to a time expansion / contraction process opposite to the time expansion process applied first. As a result, the sound is converted into a harmonic structure sound having the same fundamental frequency change as the original audio signal.
この発明は、調波構造音抽出処理に時間伸縮処理技術を用いることで、調波構造音を先行例と比較してより正確に得ることができ、その結果、全体としてより正確な残響除去処理を実施することができるに到る。 By using a time expansion / contraction processing technique for harmonic structure sound extraction processing, the present invention can obtain harmonic structure sound more accurately than the previous example, and as a result, more accurate dereverberation processing as a whole. Can be carried out.
この発明は、調波構造音の抽出処理に音声信号の時間伸縮処理技術を導入している。この時間伸縮処理を用いて音声信号の基本周波数の増加減少に合わせて時間軸の伸縮を適切に制御することで、基本周波数が一定の音声信号を得ることができる。この発明は、公知の時間伸縮処理技術を、特に、残響を含んだ音声信号から残響を除去する残響除去における調波構造音抽出処理に用いることで、先行例と比較してより正確に調波構造音を得ることができ、その結果、全体としてより正確な残響除去処理を実施することができる、という効果を奏す。 The present invention introduces a time expansion / contraction processing technique of an audio signal in the harmonic structure sound extraction processing. By appropriately controlling the expansion / contraction of the time axis in accordance with the increase / decrease of the fundamental frequency of the audio signal using this time expansion / contraction process, an audio signal having a constant fundamental frequency can be obtained. The present invention uses a known time expansion / contraction processing technique in particular for harmonic structure sound extraction processing in dereverberation that removes reverberation from an audio signal including reverberation, thereby enabling harmonics to be more accurately compared with the preceding example. As a result, it is possible to obtain a structured sound, and as a result, it is possible to perform a more accurate dereverberation process as a whole.
そして、この発明は、時間伸縮処理の精度を改善するために、前処理として残響除去処理自体を用いる。即ち、一旦、残響除去処理を行った信号から基本周波数とその時間微分を求めることで、残響の影響を取り除くことができ、より正確にこれらの値を求めることができる。その結果、時間伸縮処理の精度を改善することができ、残響除去性能を更に改善させることができる。 And this invention uses the dereverberation process itself as a pre-process in order to improve the precision of a time expansion-contraction process. That is, once the fundamental frequency and its time derivative are obtained from the signal that has been subjected to the dereverberation process, the influence of the reverberation can be removed, and these values can be obtained more accurately. As a result, the accuracy of the time expansion / contraction process can be improved, and the dereverberation performance can be further improved.
発明を実施するための最良の形態を図1の実施例1を参照して説明する。
音声収集装置8より収集され、入力した残響を含むディジタルの信号である音声信号x(t)(t=0,1,・・・・・はディジタル信号の各標本のインデックス、標本化周波数fs Hz)が図1の残響除去装置に入力されると、先ず、基本周波数推定部1において基本周波数推定処理が行われる。この基本周波数推定処理は、音声信号x(t)を分析窓と呼ばれる短時間(例えば、40ミリ秒程度)の信号区間(フレーム)に分割すると共に、各フレームの基本周波数と調波構造が含まれているフレーム(調波構造区間)を推定する。この基本周波数の推定、および調波構造区間の推定には、ケプストラム法(参考文献[2]、[3] 参照)、従来例の特許[1]に記述されている雑音に頑健な推定法その他、多くの方法を用いることができる。以下、この分析に用いたフレームを番号l(l=0,1,2,・・・・)、フレーム中心時間の標本インデックスをtl で表し、各フレームの基本周波数をθ・l(Hz)と表すものとする。
The best mode for carrying out the invention will be described with reference to
A speech signal x (t) (t = 0, 1,..., Which is a digital signal including reverberation collected by the
次に、2は基本周波数時間微分推定部である。基本周波数時間微分推定部2における基本周波数時間微分推定処理は、求められた各フレームの基本周波数をもとにその時間微分θ・・lを計算する。残響下でも頑健にこの時間微分を求めるために、フレームlの前後のフレームにおける基本周波数の値の時系列θ・m(l−p<m<l+p)を二次関数などで近似し、その時刻tl における時間微分を求めることで近似的に計算する。この値は、具体的には例えば以下の様に計算することができる。
Next, 2 is a fundamental frequency time derivative estimating unit. The fundamental frequency time derivative estimation process in the fundamental frequency time
次に、3は信号波形時間伸縮部である。ここで、図2は信号波形の時間伸縮のフローと信号波形の時間伸縮復元のフローを示す図である。信号波形時間伸縮部3における信号波形の時間伸縮処理は、求められた基本周波数をもとにして、各フレームの基本周波数を一定にするために各フレーム毎に時間軸の伸縮を行う。このために、先ず、時間伸縮関数を求める。或るフレームが調波構造区間であると判定されているとしたとき、そのフレームに対する時間伸縮関数τ=Wl(t)、およびその逆関数t=Wl -1(τ)は、例えば、以下の通りに決定することができる。
Next, 3 is a signal waveform time expansion / contraction part. Here, FIG. 2 is a diagram showing a flow of time expansion / contraction of the signal waveform and a flow of time expansion / contraction restoration of the signal waveform. The time expansion / contraction processing of the signal waveform in the signal waveform time expansion /
この様にして得られた信号xwl(τ)は、基本周波数がほぼ一定の値をとることが期待される。このために、調波構造音抽出部4においては、信号波形時間伸縮部3により得られた信号xwl(τ)を入力してその調波構造音を正確に抽出する調波構造音抽出処理をする。例えば、くし型フィルタを用いて以下の様に調波構造音x^wl(τ)を抽出することができる。
The signal xw l (τ) obtained in this way is expected to have a substantially constant fundamental frequency. For this purpose, the harmonic structure
次に、5は信号波形時間伸縮復元部である。信号波形時間伸縮復元部5は、この様にして得られた調波構造音x^wl(τ)に対して、式(4)の関係を利用し、以下の様に信号波形の時間伸縮復元処理を施すことで、時間伸縮前と同じ基本周波数を持つ調波構造音x^l(t)を得る(図2b参照)。
Next, 5 is a signal waveform time expansion / contraction restoration unit. The signal waveform time expansion /
信号波形の時間伸縮復元処理においては、各フレーム毎に得られた信号x^l(t)を時間的に接続することで、音声信号x(t)から調波構造音だけを取り出した信号x^(t)を得ることができる。これには、例えば、以下の様に、overlap-add合成として知られた方法を用いることができる。
In the time expansion and contraction restoration processing of the signal waveform, the signal x obtained by extracting only the harmonic structure sound from the audio signal x (t) by temporally connecting the signals x ^ l (t) obtained for each frame. ^ (T) can be obtained. For this, for example, a method known as overlap-add synthesis can be used as follows.
x^(t)=Σlg2(t−tl)x^l(t) (8)
ここで、g2(t)は時間分析窓を表し、Hanning窓などの一般に信号処理で用いられる関数を用いることができる。
次に、6は逆伝達関数推定部である。逆伝達関数推定部6による逆伝達関数推定処理は、音声信号x(t)と信号波形時間伸縮復元部5において得られた調波構造音x^(t)を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進める。調波構造音抽出処理の場合と区別するために時間フレームのインデックスをL(=0,1,2,・・・・)と書く。各x(t)とx^(t)の各組から切り出された各時間フレーム毎に、逆伝達関数の初期推定値WL(ω)を以下の式により計算する。
x ^ (t) = Σ l g 2 (t−t l ) x ^ l (t) (8)
Here, g 2 (t) represents a time analysis window, and a function generally used in signal processing such as a Hanning window can be used.
Next, 6 is an inverse transfer function estimation unit. The inverse transfer function estimation process by the inverse transfer
|X^L(ω)|の重みを付けて計算することで、より精確な逆伝達関数の近似をすることができる。
最後に、7は逆伝達関数適用部である。逆伝達関数適用部7による逆伝達関数適用処理は、こうして求めた逆伝達関数W(ω)に離散逆フーリエ変換(IDFT(・))を適用することで時間領域の逆フィルタw(t)に戻した後、音声信号x(t)に畳み込むことで、残響除去後の信号y(t)を得る。
Finally, 7 is an inverse transfer function application unit. The inverse transfer function application processing by the inverse transfer
w(t)=IDFT(Tl ,W(ω)) (15)
y(t)=w(t)*x(t) (16)
更に、残響除去は、図3に示される様に、上述の処理とほぼ同じ処理を三段階で適用することで、各段階毎に、次第に残響除去性能が改善する構成をとることもできる。各段階の処理のポイントは以下の通りにまとめられる。
1.第一段階:調波構造区間、基本周波数、その時間微分、および調波構造音はすべて音声信号x(t)から推定される。このために、各推定値には残響に起因する多くの誤差が含まれている可能性がある。
w (t) = IDFT (T 1 , W (ω)) (15)
y (t) = w (t) * x (t) (16)
Furthermore, as shown in FIG. 3, the dereverberation can be configured so that the dereverberation performance is gradually improved at each stage by applying almost the same process as the above process in three stages. The points of processing at each stage are summarized as follows.
1. First stage: the harmonic structure interval, the fundamental frequency, its time derivative, and the harmonic structure sound are all estimated from the audio signal x (t). For this reason, each estimated value may include many errors due to reverberation.
2.第二段階:調波構造区間、基本周波数とその時間微分は一つ前の段階で残響除去された信号から推定され、調波構造音のみ音声信号x(t)から推定される。調波構造区間、基本周波数とその時問微分の推定に対する残響の影響が低減されるため、その推定精度が向上する。更に、それらの推定値に基づいて推定される調波構造成分の推定精度も改善される。
3.第三段階:上記すべての値が一つ前の段階で残響除去された信号から推定される。調波構造音の推定精度も向上することからより効果的な残響除去が期待される。
2. Second stage: the harmonic structure section, the fundamental frequency and its time derivative are estimated from the signal from which dereverberation was removed in the previous stage, and only the harmonic structure sound is estimated from the speech signal x (t). Since the influence of reverberation on the estimation of the harmonic structure section, fundamental frequency and its time derivative is reduced, the estimation accuracy is improved. Furthermore, the estimation accuracy of the harmonic structure component estimated based on those estimated values is also improved.
3. Third stage: all the above values are estimated from the dereverberated signal in the previous stage. Since the estimation accuracy of harmonic structure sound is improved, more effective dereverberation is expected.
この内の第二、第三段階については、それぞれの処理を一回ずつ適用するのではなく、更に繰り返して適用することでより残響除去性能を改善することもできる。
式(6)から(7)に示した時間伸縮処理を施した観測された音声信号から調波構造音を取り出すもう一つの方法として、正弦波合成法がある。この方法を用いると、時間伸縮処理を施した信号から時間伸縮前の信号に含まれる調波構造音を直接推定することができるので、調波構造抽出処理と時間伸縮復元処理を一緒に実施することができる。Xwl(ω)を
xwl(τ)の短時間離散フーリエ変換とすると、時間伸縮処理を適用した信号の第k番目の高調波成分の振幅Ak、lと位相pk、lは以下の様に抽出することができる。
In the second and third stages, the dereverberation performance can be further improved by applying each process repeatedly instead of applying each process once.
There is a sine wave synthesis method as another method for extracting the harmonic structure sound from the observed audio signal subjected to the time expansion / contraction processing shown in the equations (6) to (7). By using this method, the harmonic structure sound included in the signal before time expansion / contraction can be directly estimated from the signal subjected to time expansion / contraction processing, so the harmonic structure extraction processing and time expansion / contraction restoration processing are performed together. be able to. When Xw l (ω) is a short-time discrete Fourier transform of xw l (τ), the amplitudes A k and l and the phases p k and l of the k-th harmonic component of the signal to which time expansion / contraction processing is applied are as follows: Can be extracted in the same way.
x^l(t)=ΣkAk,lcos([2πkφ・l]Wl(t)+pk,l) (20)
式(2),(3)で示される時間伸縮関数について補足して説明する。先ず、時間伸縮前の観測された音声信号中の調波構造の基本周波数に相当する周波数成分(基本波成分)の位相をθ(t)と書き、時間伸縮後の信号の基本波成分の位相をφ(τ)と書くと、式(4)より、以下の関係式が成り立つ。
x ^ l (t) = Σ k A k, l cos ([2πkφ · l] W l (t) + p k, l) (20)
The time expansion / contraction function represented by the equations (2) and (3) will be supplementarily described. First, the phase of the frequency component (fundamental wave component) corresponding to the fundamental frequency of the harmonic structure in the observed audio signal before time stretching is written as θ (t), and the phase of the fundamental wave component of the signal after time stretching. Is written as φ (τ), the following relational expression is established from the expression (4).
θ(t)=φ(Wl(t)) for |t−tl|<T/2 (21)
また、時問伸縮処理は、φ・(τ)を一定にする関数としてWl(t)を定めるため、以下の関係式が成立する。
次いで、残響除去方法の実施例2を、実施例1と同様に、図1を参照して説明する。実施例2は、逆伝達関数の推定値を求める計算方法のみが実施例1とは異なる。
θ (t) = φ (W l (t)) for | t−t l | <T / 2 (21)
In addition, since the time expansion / contraction process determines W l (t) as a function that makes φ · (τ) constant, the following relational expression is established.
Next, Example 2 of the dereverberation method will be described with reference to FIG. The second embodiment is different from the first embodiment only in the calculation method for obtaining the estimated value of the inverse transfer function.
実施例2においては、XL(ω)とX^L(ω)の誤差を最小にする関数として逆伝達関数W(ω)を決定する。例えば、誤差の評価基準として二条誤差最小基準を用いれば、W(ω)を以下の様に決定することができる。
W(ω)=E(X^L(ω)X^L *(ω))/E(XL(ω)X^L *(ω)) (26)
従って、実施例1において式(12)の計算を上式に置き換えることで、実施例2を構成することができる。
また、式(14)の様な重み付けによる平均の計算を実施例2に導入することもできる。こうするためには、式(26)のかわりに以下の計算式を用いればよい。
W (ω) = E (X ^ L (ω) X ^ L * (ω)) / E ( XL (ω) X ^ L * (ω)) (26)
Therefore, the second embodiment can be configured by replacing the calculation of the equation (12) with the above equation in the first embodiment.
Moreover, the average calculation by weighting like Formula (14) can also be introduce | transduced in Example 2. FIG. In order to do this, the following calculation formula may be used instead of the formula (26).
以上の通りの実施例の効果を、図4ないし図6に示されるインパルス応答のエネルギー減衰曲線、残響除去後の音声波形とスペクトログラムにより説明する。評価実験に用いた課題は、残響を含む単語音声の残響除去である。ATR単語データベースから男女各一話者の5240単語音声を音源信号として用意した。残響のある部屋で測定した4種類の室内インパルス応答(残響時間:0.1、0.2、0.5、1.0秒)を用意した。残響を含んだ観測音声信号は、単語音声に室内インパルス応答を畳み込むことで合成した。残響除去のための逆フィルタはすべての男性の単語音声、またはすべての女性の単語音声を用いて推定した。 The effects of the embodiment as described above will be described with reference to an energy decay curve of an impulse response, a speech waveform after dereverberation, and a spectrogram shown in FIGS. The task used in the evaluation experiment is dereverberation of word speech including reverberation. From the ATR word database, 5240-word speech of each male and female speaker was prepared as a sound source signal. Four types of room impulse responses (reverberation time: 0.1, 0.2, 0.5, 1.0 second) measured in a room with reverberation were prepared. The observed speech signal including reverberation was synthesized by convolving the room impulse response with the word speech. The inverse filter for dereverberation was estimated using all male word sounds or all female word sounds.
図4と図5は残響時間が異なる場合の室内インパルス応答および残響除去処理を施した後のインパルス応答のエネルギー減衰曲線を示す図である。図4は男声、図5は女声である。減衰曲線はシュレーダ法により計算した。
図4および図5より、すべての残響時間において、また、男女何れの音声に対しても、この発明は従来例よりも効果的に残響のエネルギーを低減することができていることが示されている。図6は、残響を含まない信号、残響を含んだ信号(残響時間:1.0秒)、およびこの発明により残響除去された信号の波形とスペクトログラムを示している。図6より、この発明は、残響を含まない信号の時間構造および周波数構造を効果的に復元することができていることがわかる。
FIG. 4 and FIG. 5 are diagrams showing energy decay curves of the impulse response after performing the indoor impulse response and the dereverberation process when the reverberation times are different. 4 is a male voice, and FIG. 5 is a female voice. The attenuation curve was calculated by Schrader method.
4 and 5 show that the present invention can reduce the energy of reverberation more effectively than the conventional example at all reverberation times and for both male and female voices. Yes. FIG. 6 shows waveforms and spectrograms of a signal that does not include reverberation, a signal that includes reverberation (reverberation time: 1.0 second), and a signal that has been dereverberated by the present invention. FIG. 6 shows that the present invention can effectively restore the time structure and frequency structure of a signal that does not include reverberation.
参考文献
[1] 特願2003−060025:音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体。
[2] 特願2002−062513:占有度抽出装置および基本周波数抽出装置、それらの方法、それらのプログラム並びにそれらのプログラムを記録した記録媒体
[3] 特顧2002−274525:調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体
Reference [1] Japanese Patent Application No. 2003-060025: Acoustic signal dereverberation method and apparatus, acoustic signal dereverberation program, and recording medium recording the program.
[2] Japanese Patent Application No. 2002-062513: Occupancy degree extraction device and fundamental frequency extraction device, methods thereof, programs thereof, and recording medium on which those programs are recorded [3] Japanese Patent Application No. 2002-274525: Harmonic structure section estimation method And apparatus, harmonic structure section estimation program and recording medium recording the program, harmonic structure section estimation threshold determining method and apparatus, harmonic structure section estimation threshold determining program and recording medium recording the program
1 基本周波数推定部 2 基本周波数時間微分推定部
3 信号波形時間伸縮部 4 調波構造音抽出部
5 信号波形時間伸縮復元部 6 逆伝達関数推定部
7 逆伝達関数適用部 8 音声収音装置
DESCRIPTION OF
Claims (5)
基本周波数、その時間微分は第一段階の残響除去処理で残響除去された信号から推定し、調波構造音のみ入力された残響を含んだ音声信号から推定して第一段階の残響除去処理に対応する第二段階の残響除去処理をし、
基本周波数、その時間微分、および調波構造音はすべて第二段階で残響除去処理された信号から推定して第一段階の残響除去処理に対応する第三段階の残響除去処理をすることを特徴とする残響除去方法。 Performs fundamental frequency estimation processing, fundamental frequency time differential estimation processing, time expansion / contraction processing of signal waveforms, harmonic structure sound extraction processing, and processing of signal waveforms. Perform time expansion and contraction processing, perform inverse transfer function estimation processing, perform reverse transfer function application processing, perform the first stage dereverberation processing,
The fundamental frequency and its time derivative are estimated from the dereverberation signal in the first stage dereverberation process, and estimated from the speech signal that includes the reverberation input with only the harmonic structure sound. Perform the corresponding second stage dereverberation process,
The fundamental frequency, its time derivative, and harmonic structure sound are all estimated from the dereverberation signal in the second stage, and the third stage dereverberation process corresponding to the first stage dereverberation process is performed. Reverberation removal method.
基本周波数推定部により求められた基本周波数に基づいてその時間微分を推定する基本周波数時間微分推定部を具備し、
基本周波数推定部により求められた基本周波数、基本周波数時間微分推定部により求められた基本周波数の時間微分に基づいて基本周波数を一定にする信号波形時間伸縮部を具備し、
信号波形時間伸縮部により得られた時間伸縮信号に基づいてその調波構造音を抽出する調波構造音抽出部を具備し、
調波構造音抽出部により得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る信号波形時間伸縮復元部を具備し、
音声信号と信号波形時間伸縮復元部において得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて逆伝達関数を推定する逆伝達関数推定部を具備し、
逆伝達関数推定部により求めた逆伝達関数を音声信号に適用して残響除去後の信号を得る逆伝達関数適用部を具備することを特徴とする残響除去装置。 A fundamental frequency estimator that performs fundamental frequency estimation processing on the input speech signal including reverberation;
A fundamental frequency time derivative estimator for estimating the time derivative based on the fundamental frequency obtained by the fundamental frequency estimator;
A fundamental frequency obtained by the fundamental frequency estimation unit, a signal waveform time expansion / contraction unit that makes the fundamental frequency constant based on the time derivative of the fundamental frequency obtained by the fundamental frequency time derivative estimation unit,
A harmonic structure sound extraction unit for extracting the harmonic structure sound based on the time expansion / contraction signal obtained by the signal waveform time expansion / contraction part;
A signal waveform time expansion / contraction restoration unit is obtained by performing time expansion / contraction restoration processing of the signal waveform on the harmonic structure sound obtained by the harmonic structure sound extraction unit to obtain a harmonic structure sound having the same fundamental frequency as before time expansion / contraction. And
Inverse transfer function that estimates the inverse transfer function by dividing the harmonic structure sound obtained in the audio signal and signal waveform time expansion / contraction restoration unit into time frames with a length different from that of the harmonic structure sound extraction process An estimation unit,
An dereverberation apparatus comprising: an inverse transfer function application unit that applies an inverse transfer function obtained by an inverse transfer function estimation unit to a speech signal to obtain a signal after dereverberation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004245622A JP4313740B2 (en) | 2004-08-25 | 2004-08-25 | Reverberation removal method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004245622A JP4313740B2 (en) | 2004-08-25 | 2004-08-25 | Reverberation removal method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006064866A true JP2006064866A (en) | 2006-03-09 |
JP4313740B2 JP4313740B2 (en) | 2009-08-12 |
Family
ID=36111438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004245622A Expired - Fee Related JP4313740B2 (en) | 2004-08-25 | 2004-08-25 | Reverberation removal method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4313740B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011164335A (en) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppressing method and program |
-
2004
- 2004-08-25 JP JP2004245622A patent/JP4313740B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011164335A (en) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppressing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP4313740B2 (en) | 2009-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4774100B2 (en) | Reverberation removal apparatus, dereverberation removal method, dereverberation removal program, and recording medium | |
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
JP2763322B2 (en) | Audio processing method | |
EP0822538B1 (en) | Method of transforming periodic signal using smoothed spectrogram, method of transforming sound using phasing component and method of analyzing signal using optimum interpolation function | |
JP5124014B2 (en) | Signal enhancement apparatus, method, program and recording medium | |
US10614827B1 (en) | System and method for speech enhancement using dynamic noise profile estimation | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
JP4516157B2 (en) | Speech analysis device, speech analysis / synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
JP2006234888A (en) | Device, method, and program for removing reverberation, and recording medium | |
JPWO2007094463A1 (en) | Signal distortion removing apparatus, method, program, and recording medium recording the program | |
JP4098647B2 (en) | Acoustic signal dereverberation method and apparatus, acoustic signal dereverberation program, and recording medium recording the program | |
Ouzounov | A robust feature for speech detection | |
JP5325130B2 (en) | LPC analysis device, LPC analysis method, speech analysis / synthesis device, speech analysis / synthesis method, and program | |
JP2798003B2 (en) | Voice band expansion device and voice band expansion method | |
JP4313740B2 (en) | Reverberation removal method, program, and recording medium | |
JP3916834B2 (en) | Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise | |
JP4464797B2 (en) | Speech recognition method, apparatus for implementing the method, program, and recording medium therefor | |
JP4166405B2 (en) | Drive signal analyzer | |
Hasan et al. | An approach to voice conversion using feature statistical mapping | |
Demuynck et al. | Synthesizing speech from speech recognition parameters | |
JP3035939B2 (en) | Voice analysis and synthesis device | |
Hirsch et al. | A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms | |
Rahali et al. | Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise | |
Liu et al. | Phase Spectrum Recovery for Enhancing Low-Quality Speech Captured by Laser Microphones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060719 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090507 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090515 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140522 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |