JP4313740B2 - Reverberation removal method, program, and recording medium - Google Patents

Reverberation removal method, program, and recording medium Download PDF

Info

Publication number
JP4313740B2
JP4313740B2 JP2004245622A JP2004245622A JP4313740B2 JP 4313740 B2 JP4313740 B2 JP 4313740B2 JP 2004245622 A JP2004245622 A JP 2004245622A JP 2004245622 A JP2004245622 A JP 2004245622A JP 4313740 B2 JP4313740 B2 JP 4313740B2
Authority
JP
Japan
Prior art keywords
stage
fundamental frequency
signal
time
harmonic structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004245622A
Other languages
Japanese (ja)
Other versions
JP2006064866A (en
Inventor
智広 中谷
慶介 木下
正人 三好
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004245622A priority Critical patent/JP4313740B2/en
Publication of JP2006064866A publication Critical patent/JP2006064866A/en
Application granted granted Critical
Publication of JP4313740B2 publication Critical patent/JP4313740B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a reverberation eliminating method by which a harmonic structure sound can be obtained more accurately than a precedent example by using a time expansion/compression technique for harmonic structure sound extraction processing, and which makes reverberation elimination processing which is more accurate on the whole, and also to provide a device, a program, and a recording medium for implementing the method. <P>SOLUTION: Disclosed is the reverberation eliminating method of subjecting an inputted speech signal x(t) including reverberation to fundamental frequency estimation processing by a fundamental frequency estimation section 1, to fundamental frequency time differential estimation processing by a fundamental frequency time differential estimation section 2, to time expansion/compression processing for the signal waveform by a time expansion/compression section 3 for the signal waveform, to harmonic structure sound extraction processing by a harmonic structure sound extraction section 4, time expanding/compressing restoration processing for the signal waveform by a time expanding/compressing restoration section 5 for the signal waveform, to inverse transfer function estimation processing by an inverse transfer function estimation section 6, and to inverse transfer function application processing by an inverse transfer function application section 7. Further, disclosed are the device, program, and recording medium for implementing the same method. <P>COPYRIGHT: (C)2006,JPO&amp;NCIPI

Description

この発明は、残響除去方法、プログラムおよび記録媒体に関し、特に、残響を含んだ音声信号から残響を除去する残響除去における調波構造音抽出処理に用いることで、正確に調波構造音を得ることができ、全体として正確な残響除去処理を実施する残響除去方法、プログラムおよび記録媒体に関する。 This invention can dereverberation method, a program and a recording medium, in particular, by using the harmonic structure sound extraction process in the dereverberation for removing reverberation from speech signal including reverberation, exactly harmonic structure sound it can, dereverberation method for implementing an accurate dereverberation processing as a whole, relates to program, and a recording medium.

図7を参照して残響除去方法の先行例を説明する(参考文献[1]参照)。
図7の残響除去装置による残響除去処理は、音声収集装置8より入力した残響を含んだ音声信号x(t)に対して、基本周波数推定部1による基本周波数推定処理と、調波構造音抽出部4による調波構造音抽出処理と、逆伝達関数推定部6による逆伝達関数推定処理と、逆伝達関数適用部7による逆伝達関数適用処理より成る。調波構造音抽出部4が抽出する調波構造音を、音声信号の直接音を近似する信号とみなし、この信号と観測された信号である音声信号x(t)とから逆伝達関数推定部6において逆伝達関数を推定する。この逆伝達関数を、逆伝達関数適用部7において残響を含んだ観測音声信号に畳み込むことで残響除去を行う。
A prior example of the dereverberation method will be described with reference to FIG. 7 (see reference [1]).
The dereverberation processing by the dereverberation apparatus of FIG. 7 is performed on the speech signal x (t) including the reverberation input from the speech collection device 8 by the fundamental frequency estimation unit 1 and harmonic structure sound extraction. 4 includes a harmonic structure sound extraction process by the unit 4, an inverse transfer function estimation process by the inverse transfer function estimation unit 6, and an inverse transfer function application process by the inverse transfer function application unit 7. The harmonic structure sound extracted by the harmonic structure sound extraction unit 4 is regarded as a signal that approximates the direct sound of the audio signal, and the inverse transfer function estimation unit is obtained from this signal and the observed audio signal x (t). In step 6, the inverse transfer function is estimated. The inverse transfer function is convoluted by the inverse transfer function application unit 7 with the observed speech signal including the reverberation to remove the reverberation.

音声信号は、一般に、残響のある環境で収音されると、本来の音声信号に残響が重畳された信号として観測される。このため、本来の音声信号の性質を抽出することが困難になると共に、音声自体の明瞭度が低下する。これに対して、残響除去処理は、重畳した残響を取り除くことで、音声本来の性質を抽出しやすくすると共に、音声の明瞭度を回復することができる。これは、他の様々な音声信号処理方法および装置の要素技術として用いることで、その全体の性能向上につながる技術である。残響除去処理を要素技術として使用して性能向上する音声信号処理技術としたは、以下の様なものを列挙することができる。   In general, when a sound signal is collected in an environment with reverberation, the sound signal is observed as a signal in which reverberation is superimposed on the original sound signal. For this reason, it becomes difficult to extract the nature of the original audio signal, and the intelligibility of the audio itself decreases. On the other hand, the dereverberation process removes the superimposed reverberation, thereby facilitating extraction of the original nature of the speech and recovering the clarity of the speech. This is a technique that leads to an improvement in the overall performance when used as an elemental technique of various other audio signal processing methods and apparatuses. The following can be enumerated as the audio signal processing technology for improving the performance by using the dereverberation processing as an elemental technology.

1.残響除去を前処理として用いる音声認識方法および装置。
2.残響除去により音声の明瞭度を向上させるTV会議方法および装置などの通信方法および装置。
3.講演の録音に含まれる残響を除去することで、録音された音声の明瞭度を向上させる再生方法および装置。
4.残響を除去することで聞き取りやすさを向上させる補聴器。
5.人が歌ったり、楽器で演奏したり、またはスピーカで演奏された音楽の残響を除去して、楽曲を検索したり、採譜したりする音楽情報処理方法および装置。
6.人が発した声に反応して機械にコマンドをわたす機械制御インターフェース、および機械と人間との間の対話装置。
1. Speech recognition method and apparatus using dereverberation as preprocessing.
2. A communication method and apparatus, such as a TV conference method and apparatus, for improving the articulation of speech by dereverberation.
3. A playback method and apparatus for improving the intelligibility of recorded speech by removing reverberation contained in the recording of the lecture.
4). A hearing aid that improves the ease of hearing by removing the reverberation.
5. A music information processing method and apparatus in which a person sings, plays a musical instrument, or removes the reverberation of music played by a speaker to search for music and record music.
6). A machine control interface that gives commands to the machine in response to human voices, and a dialogue device between the machine and humans.

上述した残響除去技術の先行例(参考文献[1] 参照)は、調波構造音抽出処理部4において調波構造音を抽出するに際して、短い時間区間で切り出された音声信号の基本周波数はその区間内で一定であると仮定して処理を行っていた。しかし、実際の音声信号は短い時間区間内においてもその基本周波数は一定ではない。従って、先行例においては、この仮定が原因で、調波構造音の抽出精度を或る程度以上に高くすることができなかった。このために、直接音の近似精度が低く、逆伝達関数を精密に推定することができなかった。その結果、残響除去方法の先行例には達成することができる残響除去性能に限界があった。この様に、残響除去の先行例は基本周波数に関する不正確な仮定に基づいていたところから、或る程度以上の高性能な残響除去を実現することはできなかった。   In the preceding example of the dereverberation technique described above (see Reference [1]), when the harmonic structure sound is extracted by the harmonic structure sound extraction processing unit 4, the fundamental frequency of the audio signal cut out in a short time interval is The processing was performed assuming that the interval was constant. However, the fundamental frequency of an actual audio signal is not constant even within a short time interval. Therefore, in the preceding example, due to this assumption, the harmonic structure sound extraction accuracy could not be increased to a certain degree. For this reason, the approximation accuracy of the direct sound is low, and the inverse transfer function cannot be accurately estimated. As a result, there is a limit to the dereverberation performance that can be achieved in the previous example of the dereverberation method. Thus, since the previous example of dereverberation was based on an inaccurate assumption about the fundamental frequency, it was not possible to achieve dereverberation with a certain degree of performance.

一方、調波構造音の抽出精度を向上させる仕方として、時間伸縮処理技術を使用することが従来検討されている。時間伸縮処理とは音声信号の振幅を変えずに時間軸のみを伸び縮みさせることで波形を変形させる処理である。この時間伸縮処理を用いれば、音声信号の基本周波数の増加減少に合わせて時間軸の伸縮を適切に制御することで、基本周波数が一定の音声信号を得ることができる。これを図8を参照して説明する。図8(a)は時間伸縮処理を施す前の音声信号波形を示し、図8(b)は時間伸縮処理を施された後の音声信号波形を示す。図8(c)は図8(a)の音声信号のスペクトログラムを示し、図8(d)は図8(b)の音声信号のスペクトログラムを示す。   On the other hand, the use of a time expansion / contraction processing technique has been studied as a method for improving the extraction accuracy of harmonic structure sounds. The time expansion / contraction process is a process for deforming the waveform by expanding / contracting only the time axis without changing the amplitude of the audio signal. If this time expansion / contraction process is used, an audio signal having a constant fundamental frequency can be obtained by appropriately controlling the expansion / contraction of the time axis in accordance with the increase / decrease of the fundamental frequency of the audio signal. This will be described with reference to FIG. FIG. 8A shows an audio signal waveform before the time expansion / contraction process is performed, and FIG. 8B shows an audio signal waveform after the time expansion / contraction process is performed. FIG. 8C shows a spectrogram of the voice signal of FIG. 8A, and FIG. 8D shows a spectrogram of the voice signal of FIG. 8B.

図8(a)、(c)における時間伸縮処理を施す前の音声信号波形は、同じ波形の繰り返し間隔が時間の経過に伴って短くなって行く。これは、基本周波数が時間の経過に伴って高くなって行くことを示している。これに対して、図8(b)、(d)における時間伸縮処理を施された後の音声信号波形は、例えば、時間的に前半の信号の時間軸を縮めると共に、後半の信号の時間軸を伸ばすことで、近似的に基本周波数が一定の信号を得ることができる。
この発明は、この公知の時間伸縮処理技術を上述した先行例における調波構造音抽出処理に先だって適用し、近似的に基本周波数が一定の信号に調波構造音抽出処理を施すことに着目した。
In the audio signal waveform before the time expansion / contraction processing in FIGS. 8A and 8C, the repetition interval of the same waveform becomes shorter as time elapses. This indicates that the fundamental frequency increases with time. On the other hand, the audio signal waveform after the time expansion / contraction processing in FIGS. 8B and 8D, for example, shortens the time axis of the first half signal in time and the time axis of the second half signal. By extending, a signal having a substantially constant fundamental frequency can be obtained.
The present invention applies this known time expansion / contraction processing technique prior to the harmonic structure sound extraction processing in the above-described prior example, and focuses on applying harmonic structure sound extraction processing to a signal having a substantially constant fundamental frequency. .

即ち、この発明は、この公知の時間伸縮処理技術を、特に、残響を含んだ音声信号から残響を除去する残響除去における調波構造音抽出処理に用いることで、先行例と比較してより正確に調波構造音を得ることができ、その結果、全体としてより正確な残響除去処理を実施することができる、以上の問題を解消した残響除去方法、プログラムおよび記録媒体を提供するものである。 That is, the present invention uses this known time expansion / contraction processing technique in particular for harmonic structure sound extraction processing in reverberation removal that removes reverberation from an audio signal including reverberation, thereby making it more accurate than the previous example. it is possible to obtain a double-harmonic structure sound, as a result, there is provided a more can be performed accurately dereverberation processing, these problems dereverberation method eliminate, program and recording medium as a whole .

求項:入力された音声信号に対して基本周波数推定処理をする第一段階の基本周波数推定ステップと
第一段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第一段階の基本周波数時間微分推定ステップと
前記音声信号、第一段階の基本周波数推定ステップにより求められた基本周波数、第一段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて前記音声信号の基本周波数を一定にする第一段階の信号波形時間伸縮ステップと
第一段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第一段階の調波構造音抽出ステップと
第一段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第一段階の信号波形時間伸縮復元ステップと
前記音声信号と第一段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第一段階の逆伝達関数を推定する第一段階の逆伝達関数推定ステップと
第一段階の逆伝達関数推定ステップにより求めた第一段階の逆伝達関数を前記音声信号に適用して第一段階の残響除去後の信号を得る第一段階の逆伝達関数適用ステップと、
から構成される第一段階の残響除去処理ステップと、
第一段階の残響除去後の信号に対して基本周波数推定処理をする第二段階の基本周波数推定ステップと、
第二段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第二段階の基本周波数時間微分推定ステップと、
前記音声信号、第二段階の基本周波数推定ステップにより求められた基本周波数、第二段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて前記音声信号の基本周波数を一定にする第二段階の信号波形時間伸縮ステップと、
第二段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第二段階の調波構造音抽出ステップと、
第二段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第二段階の信号波形時間伸縮復元ステップと、
前記音声信号と第二段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第二段階の逆伝達関数を推定する第二段階の逆伝達関数推定ステップと、
第二段階の逆伝達関数推定ステップにより求めた第二段階の逆伝達関数を前記音声信号に適用して第二段階の残響除去後の信号を得る第二段階の逆伝達関数適用ステップと、
から構成される第二段階の残響除去処理ステップと、
第二段階の残響除去後の信号に対して基本周波数推定処理をする第三段階の基本周波数推定ステップと、
第三段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第三段階の基本周波数時間微分推定ステップと、
第二段階の残響除去後の信号、第三段階の基本周波数推定ステップにより求められた基本周波数、第三段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて第二段階の残響除去後の信号の基本周波数を一定にする第三段階の信号波形時間伸縮ステップと、
第三段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第三段階の調波構造音抽出ステップと、
第三段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第三段階の信号波形時間伸縮復元ステップと、
第二段階の残響除去後の信号と第三段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第三段階の逆伝達関数を推定する第三段階の逆伝達関数推定ステップと、
第三段階の逆伝達関数推定ステップにより求めた第三段階の逆伝達関数を第二段階の残響除去後の信号に適用して第三段階の残響除去後の信号を得る第三段階の逆伝達関数適用ステップと、
から構成される第三段階の残響除去処理ステップと、
を備える
Motomeko 1: the fundamental frequency estimation step of the first stage of the fundamental frequency estimation processing for the No. sound inputted Koeshin,
A fundamental frequency time derivative estimation step of the first stage of estimating the time derivative on the basis of the fundamental frequency determined by the fundamental frequency estimation step of the first stage,
The audio signal, the fundamental frequency estimation fundamental frequency determined by the step of the first stage, a constant fundamental frequency of said speech signal based on the time derivative of the fundamental frequency determined by the fundamental frequency time derivative estimation step of the first stage The first stage signal waveform time expansion and contraction step ,
An extraction step harmonic structure sound in the first step of extracting the harmonic structure sound based on the time warping signal obtained by the signal waveform time warping step of the first stage,
In the first stage, the harmonic structure sound obtained by the first stage harmonic structure sound extraction step is subjected to the time expansion / contraction restoration processing of the signal waveform to obtain the harmonic structure sound having the same fundamental frequency as before the time expansion / contraction . A signal waveform time expansion / contraction restoration step ,
First stage complete the analysis is divided into time frames of different length to the audio signal and the resulting harmonic structure sound in the first stage of the signal waveform time warping restoration step, harmonic structure sound extraction process A first-stage inverse transfer function estimation step for estimating the inverse transfer function of
A first step of the first stage inverse transfer function application step of obtaining a signal after dereverberation the first stage by applying the inverse transfer function to the voice signal obtained by the inverse transfer function estimation step of the first stage ,
A first stage dereverberation processing step comprising:
A second stage fundamental frequency estimation step for performing fundamental frequency estimation processing on the signal after dereverberation in the first stage;
A second-stage fundamental frequency time derivative estimation step for estimating the time derivative based on the fundamental frequency obtained by the second-stage fundamental frequency estimation step;
The fundamental frequency of the speech signal is made constant based on the speech signal, the fundamental frequency obtained by the second-stage fundamental frequency estimation step, and the time derivative of the fundamental frequency obtained by the second-stage fundamental frequency time derivative estimation step. A second stage signal waveform time expansion and contraction step,
A second-stage harmonic structure sound extraction step for extracting the harmonic structure sound based on the time expansion / contraction signal obtained by the second-stage signal waveform time expansion / contraction step;
The second-stage harmonic structure sound obtained by the second-stage harmonic structure sound extraction step is subjected to time expansion / contraction restoration processing of the signal waveform to obtain the harmonic structure sound having the same fundamental frequency as before the time expansion / contraction. A signal waveform time expansion / contraction restoration step,
The harmonic structure sound obtained in the audio signal and the second stage signal waveform time expansion / contraction restoration step is divided into time frames having a length different from that of the harmonic structure sound extraction process, and the analysis is advanced. A second-stage inverse transfer function estimation step for estimating the inverse transfer function;
Applying a second-stage inverse transfer function obtained by the second-stage inverse transfer function estimation step to the speech signal to obtain a signal after the second-stage dereverberation, and a second-stage inverse transfer function applying step;
A second stage dereverberation processing step comprising:
A third-stage fundamental frequency estimation step for performing fundamental frequency estimation processing on the signal after dereverberation in the second stage;
A third-stage fundamental frequency time derivative estimation step for estimating the time derivative based on the fundamental frequency obtained by the third-stage fundamental frequency estimation step;
The second stage based on the signal after dereverberation of the second stage, the fundamental frequency obtained by the fundamental frequency estimation step of the third stage, and the time derivative of the fundamental frequency obtained by the fundamental frequency time derivative estimation step of the third stage A third stage signal waveform time expansion / contraction step to make the fundamental frequency of the signal after dereverberation constant,
A third-stage harmonic structure sound extraction step for extracting the harmonic structure sound based on the time expansion / contraction signal obtained by the third-stage signal waveform time expansion / contraction step;
The third-stage harmonic structure sound obtained by the third-stage harmonic structure sound extraction step is subjected to time expansion / contraction restoration processing of the signal waveform to obtain the harmonic structure sound having the same fundamental frequency as before the time expansion / contraction. A signal waveform time expansion / contraction restoration step,
The harmonic structure sound obtained in the second stage dereverberation signal and the third stage signal waveform time expansion / contraction restoration step is divided into time frames with different lengths from the harmonic structure sound extraction process for analysis. A third-stage inverse transfer function estimation step to proceed and estimate the third-stage inverse transfer function;
Apply the third-stage inverse transfer function obtained by the third-stage inverse transfer function estimation step to the second-stage dereverberation signal to obtain the third-stage dereverberation signal. A function application step;
A third stage dereverberation processing step comprising:
Is provided .

そして、請求項請求項1記載の残響除去方法の各ステップをコンピュータに実行させるためのプログラムを構成した。
また、請求項:請求項記載プログラムを記録した記録媒体を構成した。
上述した通り、この発明は、調波構造音の抽出処理に音声信号の時間伸縮処理技術を導入している。時間伸縮処理を施された後の音声信号波形は、例えば、時間的に前半の信号の時間軸を縮めると共に、後半の信号の時間軸を伸ばすことで、近似的に基本周波数が一定の信号を得ることができる。この基本周波数が一定になった音声信号に調波構造音抽出処理を施すことにより、調波構造音を正確に抽出することができるに到る。但し、このとき抽出される調波構造音は基本周波数が一定の信号である。これを元の音声信号に含まれた調波構造音に戻すには、この音声信号に対して、最初に適用した時間伸縮処理とは逆の時間伸縮処理を施せばよい。これにより、元の音声信号と同じ基本周波数の変化をもった
調波構造音に変換される。
According to a second aspect of the present invention, there is provided a program for causing a computer to execute the steps of the dereverberation method according to the first aspect.
A third aspect of the invention is a recording medium on which the program according to the second aspect is recorded.
As described above, the present invention introduces the time expansion / contraction processing technology of the audio signal in the harmonic structure sound extraction processing. The audio signal waveform after the time expansion / contraction processing is performed, for example, by reducing the time axis of the first half of the signal in time and extending the time axis of the second half of the signal so that a signal with a substantially constant fundamental frequency is obtained. Obtainable. By applying a harmonic structure sound extraction process to the audio signal having a constant fundamental frequency, the harmonic structure sound can be accurately extracted. However, the harmonic structure sound extracted at this time is a signal having a constant fundamental frequency. In order to return this to the harmonic structure sound included in the original audio signal, the audio signal may be subjected to a time expansion / contraction process opposite to the time expansion process applied first. As a result, the sound is converted into a harmonic structure sound having the same fundamental frequency change as the original audio signal.

この発明は、調波構造音抽出処理に時間伸縮処理技術を用いることで、調波構造音を先行例と比較してより正確に得ることができ、その結果、全体としてより正確な残響除去処理を実施することができるに到る。   By using a time expansion / contraction processing technique for harmonic structure sound extraction processing, the present invention can obtain harmonic structure sound more accurately than the previous example, and as a result, more accurate dereverberation processing as a whole. Can be carried out.

この発明は、調波構造音の抽出処理に音声信号の時間伸縮処理技術を導入している。この時間伸縮処理を用いて音声信号の基本周波数の増加減少に合わせて時間軸の伸縮を適切に制御することで、基本周波数が一定の音声信号を得ることができる。この発明は、公知の時間伸縮処理技術を、特に、残響を含んだ音声信号から残響を除去する残響除去における調波構造音抽出処理に用いることで、先行例と比較してより正確に調波構造音を得ることができ、その結果、全体としてより正確な残響除去処理を実施することができる、という効果を奏す。   The present invention introduces a time expansion / contraction processing technique of an audio signal in the harmonic structure sound extraction processing. By appropriately controlling the expansion / contraction of the time axis in accordance with the increase / decrease of the fundamental frequency of the audio signal using this time expansion / contraction process, an audio signal having a constant fundamental frequency can be obtained. The present invention uses a known time expansion / contraction processing technique in particular for harmonic structure sound extraction processing in dereverberation that removes reverberation from an audio signal including reverberation, thereby enabling harmonics to be more accurately compared with the preceding example. As a result, it is possible to obtain a structured sound, and as a result, it is possible to perform a more accurate dereverberation process as a whole.

そして、この発明は、時間伸縮処理の精度を改善するために、前処理として残響除去処理自体を用いる。即ち、一旦、残響除去処理を行った信号から基本周波数とその時間微分を求めることで、残響の影響を取り除くことができ、より正確にこれらの値を求めることができる。その結果、時間伸縮処理の精度を改善することができ、残響除去性能を更に改善させることができる。   And this invention uses the dereverberation process itself as a pre-process in order to improve the precision of a time expansion-contraction process. That is, once the fundamental frequency and its time derivative are obtained from the signal that has been subjected to the dereverberation process, the influence of the reverberation can be removed, and these values can be obtained more accurately. As a result, the accuracy of the time expansion / contraction process can be improved, and the dereverberation performance can be further improved.

発明を実施するための最良の形態を図1の実施例1を参照して説明する。
音声収集装置8より収集され、入力した残響を含むディジタルの信号である音声信号x(t)(t=0,1,・・・・・はディジタル信号の各標本のインデックス、標本化周波数fs Hz)が図1の残響除去装置に入力されると、先ず、基本周波数推定部1において基本周波数推定処理が行われる。この基本周波数推定処理は、音声信号x(t)を分析窓と呼ばれる短時間(例えば、40ミリ秒程度)の信号区間(フレーム)に分割すると共に、各フレームの基本周波数と調波構造が含まれているフレーム(調波構造区間)を推定する。この基本周波数の推定、および調波構造区間の推定には、ケプストラム法(参考文献[2]、[3] 参照)、従来例の特許[1]に記述されている雑音に頑健な推定法その他、多くの方法を用いることができる。以下、この分析に用いたフレームを番号l(l=0,1,2,・・・・)、フレーム中心時間の標本インデックスをtl で表し、各フレームの基本周波数をθ・l(Hz)と表すものとする。
The best mode for carrying out the invention will be described with reference to Embodiment 1 shown in FIG.
A speech signal x (t) (t = 0, 1,..., Which is a digital signal including reverberation collected by the speech collection device 8 and inputted, is an index of each sample of the digital signal, and a sampling frequency f s. Hz) is input to the dereverberation apparatus of FIG. 1, first, the fundamental frequency estimation unit 1 performs fundamental frequency estimation processing. This fundamental frequency estimation process divides the audio signal x (t) into short-term signal sections (frames, for example, about 40 milliseconds) called analysis windows, and includes the fundamental frequency and harmonic structure of each frame. The estimated frame (harmonic structure section) is estimated. For estimation of the fundamental frequency and harmonic structure interval, a cepstrum method (see References [2] and [3]), a noise robust estimation method described in the patent [1] of the conventional example, and others Many methods can be used. Hereinafter, the frame used in this analysis is represented by number l (l = 0, 1, 2,...), The sample index of the frame center time is represented by t l , and the fundamental frequency of each frame is θ · l (Hz). It shall be expressed as

次に、2は基本周波数時間微分推定部である。基本周波数時間微分推定部2における基本周波数時間微分推定処理は、求められた各フレームの基本周波数をもとにその時間微分θ・・lを計算する。残響下でも頑健にこの時間微分を求めるために、フレームlの前後のフレームにおける基本周波数の値の時系列θ・m(l−p<m<l+p)を二次関数などで近似し、その時刻tl における時間微分を求めることで近似的に計算する。この値は、具体的には例えば以下の様に計算することができる。 Next, 2 is a fundamental frequency time derivative estimating unit. The fundamental frequency time derivative estimation process in the fundamental frequency time derivative estimator 2 calculates the time derivative θ ·· l based on the obtained fundamental frequency of each frame. In order to robustly obtain this time derivative even under reverberation, the time series θ · m (lp−m <l + p) of the fundamental frequency values in the frames before and after the frame l is approximated by a quadratic function and the time Approximate calculation is performed by obtaining a time derivative at t l . Specifically, this value can be calculated as follows, for example.

Figure 0004313740
ここで、△lはフレーム周期(秒)、pは近似計算のために考慮する局所的な時間フレームの範囲を決めるパラメータである。
次に、3は信号波形時間伸縮部である。ここで、図2は信号波形の時間伸縮のフローと信号波形の時間伸縮復元のフローを示す図である。信号波形時間伸縮部3における信号波形の時間伸縮処理は、求められた基本周波数をもとにして、各フレームの基本周波数を一定にするために各フレーム毎に時間軸の伸縮を行う。このために、先ず、時間伸縮関数を求める。或るフレームが調波構造区間であると判定されているとしたとき、そのフレームに対する時間伸縮関数τ=Wl(t)、およびその逆関数t=Wl -1(τ)は、例えば、以下の通りに決定することができる。
Figure 0004313740
Here, Δl is a frame period (second), and p is a parameter that determines a local time frame range to be considered for approximate calculation.
Next, 3 is a signal waveform time expansion / contraction part. Here, FIG. 2 is a diagram showing a flow of time expansion / contraction of the signal waveform and a flow of time expansion / contraction restoration of the signal waveform. The time expansion / contraction processing of the signal waveform in the signal waveform time expansion / contraction unit 3 performs expansion / contraction of the time axis for each frame in order to make the basic frequency of each frame constant based on the obtained basic frequency. For this purpose, first, a time expansion / contraction function is obtained. When it is determined that a certain frame is a harmonic structure section, the time expansion / contraction function τ = W l (t) and the inverse function t = W l −1 (τ) for the frame are, for example, It can be determined as follows.

Figure 0004313740
ここで、τ、τl 、φ・lは、それぞれ時間伸縮後の信号の時間インデックス、フレームlの中心時間のインデックス、およびτl における基本周波数を表している。τl とφ・lは、任意の値に設定してよいパラメータであり、例えば、τl =0、φ・l=θ・lの値に設定することができる。この時間伸縮関数を用いて、音声信号x(t)と時間伸縮後の信号xwl(τ)の関係を表すと、以下の様になる。
Figure 0004313740
Here, τ, τ l , and φ · l represent the time index of the signal after time expansion and contraction, the index of the center time of the frame l, and the fundamental frequency at τ l , respectively. τ l and φ · l are parameters that can be set to arbitrary values. For example, τ l = 0 and φ · l = θ · l can be set. Using this time expansion / contraction function, the relationship between the audio signal x (t) and the signal xw l (τ) after the time expansion / contraction is expressed as follows.

Figure 0004313740
ここで、T0 は時間伸縮前の信号のフレーム長を表す。式(5)から、時間伸縮処理後の信号xwl(τ)の時系列を得ることができる。即ち、各時間インデックスτに対する信号xwl(τ)は、時間伸縮前の時間インデックスWl -1(τ)における信号の値であるx(Wl -1(τ))と同じ値を持つ。ただし、一般に、時間インデックスWl -1(τ)は整数値を取るとは限らず、離散的なディジタル信号のどの標本インデックスとも一致しない場合がある。このために、x(Wl -1(τ))の値は、近接する時刻の標本値を補完した値を取る必要がある。標本値の補完には、ディジタル信号処理で一般に知られた方法を適用すれば良い。例えば、アップサンプリングによる補完、スプライン関数を用いた補完、二次関数或いは三次関数を用いた補完を列挙することができる。
Figure 0004313740
Here, T 0 represents the frame length of the signal before time expansion / contraction. From the equation (5), a time series of the signal xw l (τ) after the time expansion / contraction process can be obtained. That is, the signal xw l (τ) for each time index τ has the same value as x (W l −1 (τ)) that is the value of the signal at the time index W l −1 (τ) before time expansion / contraction. However, in general, the time index W l −1 (τ) does not always take an integer value, and may not match any sample index of a discrete digital signal. For this reason, the value of x (W l −1 (τ)) needs to take a value obtained by complementing the sample values at close times. To complement the sample value, a method generally known in digital signal processing may be applied. For example, completion by upsampling, completion using a spline function, completion using a quadratic function or a cubic function can be listed.

この様にして得られた信号xwl(τ)は、基本周波数がほぼ一定の値をとることが期待される。このために、調波構造音抽出部4においては、信号波形時間伸縮部3により得られた信号xwl(τ)を入力してその調波構造音を正確に抽出する調波構造音抽出処理をする。例えば、くし型フィルタを用いて以下の様に調波構造音x^wl(τ)を抽出することができる。 The signal xw l (τ) obtained in this way is expected to have a substantially constant fundamental frequency. For this purpose, the harmonic structure sound extraction unit 4 inputs the signal xw l (τ) obtained by the signal waveform time expansion / contraction unit 3 and accurately extracts the harmonic structure sound. do. For example, the harmonic structure sound x ^ w l (τ) can be extracted using a comb filter as follows.

Figure 0004313740
ここで、gl(t)は時間分析窓を表し、Hanning窓その他の一般に信号処理で用いられる関数を用いることができる。また、“*”は畳み込み演算を表す。式(6)はフレームlに関する時間範囲、即ち、|Wl -1(τ)−tl |<T0 /2の近傍のみで意味を持つ値であり、それ以外の時間で値を計算する必要はない。
次に、5は信号波形時間伸縮復元部である。信号波形時間伸縮復元部5は、この様にして得られた調波構造音x^wl(τ)に対して、式(4)の関係を利用し、以下の様に信号波形の時間伸縮復元処理を施すことで、時間伸縮前と同じ基本周波数を持つ調波構造音x^l(t)を得る(図2b参照)。
Figure 0004313740
Here, g l (t) represents a time analysis window, and a Hanning window or other functions generally used in signal processing can be used. “*” Represents a convolution operation. Equation (6) is the time range for a frame l, i.e., | W l -1 (τ) -t l | < a value having a meaning only in the vicinity of T 0/2, to calculate the value at other times There is no need.
Next, 5 is a signal waveform time expansion / contraction restoration unit. The signal waveform time expansion / contraction restoration unit 5 uses the relationship of Equation (4) for the harmonic structure sound x ^ w l (τ) obtained in this way, and the signal waveform time expansion / contraction is as follows. By performing the restoration process, the harmonic structure sound x ^ l (t) having the same fundamental frequency as before time expansion / contraction is obtained (see FIG. 2b).

Figure 0004313740
なお、上式を計算するには、式(5)と同様に、ディジタル信号の補完が必要である。
信号波形の時間伸縮復元処理においては、各フレーム毎に得られた信号x^l(t)を時間的に接続することで、音声信号x(t)から調波構造音だけを取り出した信号x^(t)を得ることができる。これには、例えば、以下の様に、overlap-add合成として知られた方法を用いることができる。
Figure 0004313740
In order to calculate the above equation, it is necessary to complement the digital signal as in the equation (5).
In the time expansion and contraction restoration processing of the signal waveform, the signal x obtained by extracting only the harmonic structure sound from the audio signal x (t) by temporally connecting the signals x ^ l (t) obtained for each frame. ^ (T) can be obtained. For this, for example, a method known as overlap-add synthesis can be used as follows.

x^(t)=Σl2(t−tl)x^l(t) (8)
ここで、g2(t)は時間分析窓を表し、Hanning窓などの一般に信号処理で用いられる関数を用いることができる。
次に、6は逆伝達関数推定部である。逆伝達関数推定部6による逆伝達関数推定処理は、音声信号x(t)と信号波形時間伸縮復元部5において得られた調波構造音x^(t)を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進める。調波構造音抽出処理の場合と区別するために時間フレームのインデックスをL(=0,1,2,・・・・)と書く。各x(t)とx^(t)の各組から切り出された各時間フレーム毎に、逆伝達関数の初期推定値WL(ω)を以下の式により計算する。
x ^ (t) = Σ l g 2 (t−t l ) x ^ l (t) (8)
Here, g 2 (t) represents a time analysis window, and a function generally used in signal processing such as a Hanning window can be used.
Next, 6 is an inverse transfer function estimation unit. The inverse transfer function estimation process by the inverse transfer function estimation unit 6 includes the harmonic structure sound x ^ (t) obtained by the audio signal x (t) and the signal waveform time expansion / contraction restoration unit 5 as harmonic structure sound extraction process. Divide into time frames of different length and proceed with the analysis. The time frame index is written as L (= 0, 1, 2,...) In order to distinguish it from the case of harmonic structure sound extraction processing. For each time frame cut out from each set of x (t) and x ^ (t), the initial estimated value W L (ω) of the inverse transfer function is calculated by the following equation.

Figure 0004313740
ここで、DFT(・)は、標本インデックスtL での短時間離散フーリエ変換を表す。Tlはフレーム長を表す。次に、こうして求められた逆伝達関数の初期推定値の異なる時間フレームに亘る平均を求めることで、残響除去のための逆伝達関数W(ω)を求める。
Figure 0004313740
Here, DFT (•) represents a short-time discrete Fourier transform at the sample index t L. T l represents the frame length. Next, an inverse transfer function W (ω) for removing dereverberation is obtained by obtaining an average over different time frames of the initial estimated value of the inverse transfer function thus obtained.

Figure 0004313740
なお、式(13)の計算において、単純に平均値を求めるかわりに、振幅スペクトル
|X^L(ω)|の重みを付けて計算することで、より精確な逆伝達関数の近似をすることができる。
Figure 0004313740
In the calculation of equation (13), instead of simply obtaining the average value, the weighting of the amplitude spectrum | X ^ L (ω) | Can do.

Figure 0004313740
これにより、雑音成分の影響を抑制しつつ占有的な調波成分の影響を強調することができるからである。振幅スペクトルのかわりにパワースペクトル|X^L(ω)|2 などを重みに使っても同様の効果を得ることができる。
最後に、7は逆伝達関数適用部である。逆伝達関数適用部7による逆伝達関数適用処理は、こうして求めた逆伝達関数W(ω)に離散逆フーリエ変換(IDFT(・))を適用することで時間領域の逆フィルタw(t)に戻した後、音声信号x(t)に畳み込むことで、残響除去後の信号y(t)を得る。
Figure 0004313740
This is because the influence of the occupying harmonic component can be emphasized while suppressing the influence of the noise component. The same effect can be obtained by using the power spectrum | X ^ L (ω) | 2 or the like instead of the amplitude spectrum as a weight.
Finally, 7 is an inverse transfer function application unit. The inverse transfer function application processing by the inverse transfer function application unit 7 applies the discrete inverse Fourier transform (IDFT (•)) to the inverse transfer function W (ω) thus obtained, thereby applying the inverse transfer function w (t) in the time domain. After returning, the signal y (t) after dereverberation is obtained by convolution with the audio signal x (t).

w(t)=IDFT(Tl ,W(ω)) (15)
y(t)=w(t)*x(t) (16)
更に、残響除去は、図3に示される様に、上述の処理とほぼ同じ処理を三段階で適用することで、各段階毎に、次第に残響除去性能が改善する構成をとることもできる。各段階の処理のポイントは以下の通りにまとめられる。
1.第一段階:調波構造区間、基本周波数、その時間微分、および調波構造音はすべて音声信号x(t)から推定される。このために、各推定値には残響に起因する多くの誤差が含まれている可能性がある。
w (t) = IDFT (T 1 , W (ω)) (15)
y (t) = w (t) * x (t) (16)
Furthermore, as shown in FIG. 3, the dereverberation can be configured so that the dereverberation performance is gradually improved at each stage by applying almost the same process as the above process in three stages. The points of processing at each stage are summarized as follows.
1. First stage: the harmonic structure interval, the fundamental frequency, its time derivative, and the harmonic structure sound are all estimated from the audio signal x (t). For this reason, each estimated value may include many errors due to reverberation.

2.第二段階:調波構造区間、基本周波数とその時間微分は一つ前の段階で残響除去された信号から推定され、調波構造音のみ音声信号x(t)から推定される。調波構造区間、基本周波数とその時問微分の推定に対する残響の影響が低減されるため、その推定精度が向上する。更に、それらの推定値に基づいて推定される調波構造成分の推定精度も改善される。
3.第三段階:上記すべての値が一つ前の段階で残響除去された信号から推定される。調波構造音の推定精度も向上することからより効果的な残響除去が期待される。
2. Second stage: the harmonic structure section, the fundamental frequency and its time derivative are estimated from the signal from which dereverberation was removed in the previous stage, and only the harmonic structure sound is estimated from the speech signal x (t). Since the influence of reverberation on the estimation of the harmonic structure section, fundamental frequency and its time derivative is reduced, the estimation accuracy is improved. Furthermore, the estimation accuracy of the harmonic structure component estimated based on those estimated values is also improved.
3. Third stage: all the above values are estimated from the dereverberated signal in the previous stage. Since the estimation accuracy of harmonic structure sound is improved, more effective dereverberation is expected.

この内の第二、第三段階については、それぞれの処理を一回ずつ適用するのではなく、更に繰り返して適用することでより残響除去性能を改善することもできる。
式(6)から(7)に示した時間伸縮処理を施した観測された音声信号から調波構造音を取り出すもう一つの方法として、正弦波合成法がある。この方法を用いると、時間伸縮処理を施した信号から時間伸縮前の信号に含まれる調波構造音を直接推定することができるので、調波構造抽出処理と時間伸縮復元処理を一緒に実施することができる。Xwl(ω)を
xwl(τ)の短時間離散フーリエ変換とすると、時間伸縮処理を適用した信号の第k番目の高調波成分の振幅Aklと位相pklは以下の様に抽出することができる。
In the second and third stages, the dereverberation performance can be further improved by applying each process repeatedly instead of applying each process once.
There is a sine wave synthesis method as another method for extracting the harmonic structure sound from the observed audio signal subjected to the time expansion / contraction processing shown in the equations (6) to (7). By using this method, the harmonic structure sound included in the signal before time expansion / contraction can be directly estimated from the signal subjected to time expansion / contraction processing, so the harmonic structure extraction processing and time expansion / contraction restoration processing are performed together. be able to. When Xw l (ω) is a short-time discrete Fourier transform of xw l (τ), the amplitudes A k and l and the phases p k and l of the k-th harmonic component of the signal to which time expansion / contraction processing is applied are as follows: Can be extracted in the same way.

Figure 0004313740
ここで、[・]は連続周波数を最も近い離散フーリエ変換の中心周波数に変換する手続きを意味する。これらの値から、時間伸縮前の信号に含まれる調波構造音は以下の様に抽出することができる。
x^l(t)=Σkk,lcos([2πkφ・l]Wl(t)+pk,l) (20)
式(2),(3)で示される時間伸縮関数について補足して説明する。先ず、時間伸縮前の観測された音声信号中の調波構造の基本周波数に相当する周波数成分(基本波成分)の位相をθ(t)と書き、時間伸縮後の信号の基本波成分の位相をφ(τ)と書くと、式(4)より、以下の関係式が成り立つ。
Figure 0004313740
Here, [•] means a procedure for converting the continuous frequency to the nearest center frequency of the discrete Fourier transform. From these values, the harmonic structure sound included in the signal before time expansion / contraction can be extracted as follows.
x ^ l (t) = Σ k A k, l cos ([2πkφ · l] W l (t) + p k, l) (20)
The time expansion / contraction function represented by the equations (2) and (3) will be supplementarily described. First, the phase of the frequency component (fundamental wave component) corresponding to the fundamental frequency of the harmonic structure in the observed audio signal before time stretching is written as θ (t), and the phase of the fundamental wave component of the signal after time stretching. Is written as φ (τ), the following relational expression is established from the expression (4).

θ(t)=φ(Wl(t)) for |t−tl|<T/2 (21)
また、時問伸縮処理は、φ・(τ)を一定にする関数としてWl(t)を定めるため、以下の関係式が成立する。

Figure 0004313740
更に、時間伸縮処理の計算を簡単化するために、元の信号の基本周波数の時間微分は短時間フレーム中で一定であると仮定することは有効である。これは以下の様に表現される。
Figure 0004313740
ここで、θl¨は時間インデックスtl における基本周波数の時間微分を示す。式(21)、(22)および(23)を満たすWl(t)を求めることで、式(2),(3)を導くことができる。
次いで、残響除去方法の実施例2を、実施例1と同様に、図1を参照して説明する。実施例2は、逆伝達関数の推定値を求める計算方法のみが実施例1とは異なる。 θ (t) = φ (W l (t)) for | t−t l | <T / 2 (21)
In addition, since the time expansion / contraction process determines W l (t) as a function that makes φ · (τ) constant, the following relational expression is established.
Figure 0004313740
Furthermore, it is useful to assume that the time derivative of the fundamental frequency of the original signal is constant in a short frame in order to simplify the computation of the time scaling process. This is expressed as follows.
Figure 0004313740
Here, θ l represents a time derivative of the fundamental frequency at the time index t l . By obtaining W l (t) that satisfies Expressions (21), (22), and (23), Expressions (2) and (3) can be derived.
Next, Example 2 of the dereverberation method will be described with reference to FIG. The second embodiment is different from the first embodiment only in the calculation method for obtaining the estimated value of the inverse transfer function.

実施例2においては、XL(ω)とX^L(ω)の誤差を最小にする関数として逆伝達関数W(ω)を決定する。例えば、誤差の評価基準として二条誤差最小基準を用いれば、W(ω)を以下の様に決定することができる。

Figure 0004313740
この式は解析的に解くことができ、W(ω)は以下の様に求められる。
W(ω)=E(X^L(ω)X^L *(ω))/E(XL(ω)X^L *(ω)) (26)
従って、実施例1において式(12)の計算を上式に置き換えることで、実施例2を構成することができる。
また、式(14)の様な重み付けによる平均の計算を実施例2に導入することもできる。こうするためには、式(26)のかわりに以下の計算式を用いればよい。
Figure 0004313740
In the second embodiment, the inverse transfer function W (ω) is determined as a function that minimizes the error between X L (ω) and X ^ L (ω). For example, when the double-row error minimum criterion is used as the error evaluation criterion, W (ω) can be determined as follows.
Figure 0004313740
This equation can be solved analytically, and W (ω) is obtained as follows.
W (ω) = E (X ^ L (ω) X ^ L * (ω)) / E ( XL (ω) X ^ L * (ω)) (26)
Therefore, the second embodiment can be configured by replacing the calculation of the equation (12) with the above equation in the first embodiment.
Moreover, the average calculation by weighting like Formula (14) can also be introduce | transduced in Example 2. FIG. In order to do this, the following calculation formula may be used instead of the formula (26).
Figure 0004313740

以上の通りの実施例の効果を、図4ないし図6に示されるインパルス応答のエネルギー減衰曲線、残響除去後の音声波形とスペクトログラムにより説明する。評価実験に用いた課題は、残響を含む単語音声の残響除去である。ATR単語データベースから男女各一話者の5240単語音声を音源信号として用意した。残響のある部屋で測定した4種類の室内インパルス応答(残響時間:0.1、0.2、0.5、1.0秒)を用意した。残響を含んだ観測音声信号は、単語音声に室内インパルス応答を畳み込むことで合成した。残響除去のための逆フィルタはすべての男性の単語音声、またはすべての女性の単語音声を用いて推定した。   The effects of the embodiment as described above will be described with reference to an energy decay curve of an impulse response, a speech waveform after dereverberation, and a spectrogram shown in FIGS. The problem used in the evaluation experiment is dereverberation of word speech including reverberation. From the ATR word database, 5240-word speech of each male and female speaker was prepared as a sound source signal. Four types of room impulse responses (reverberation time: 0.1, 0.2, 0.5, 1.0 second) measured in a room with reverberation were prepared. The observed speech signal including reverberation was synthesized by convolving the room impulse response with the word speech. The inverse filter for dereverberation was estimated using all male word sounds or all female word sounds.

図4と図5は残響時間が異なる場合の室内インパルス応答および残響除去処理を施した後のインパルス応答のエネルギー減衰曲線を示す図である。図4は男声、図5は女声である。減衰曲線はシュレーダ法により計算した。
図4および図5より、すべての残響時間において、また、男女何れの音声に対しても、この発明は従来例よりも効果的に残響のエネルギーを低減することができていることが示されている。図6は、残響を含まない信号、残響を含んだ信号(残響時間:1.0秒)、およびこの発明により残響除去された信号の波形とスペクトログラムを示している。図6より、この発明は、残響を含まない信号の時間構造および周波数構造を効果的に復元することができていることがわかる。
FIG. 4 and FIG. 5 are diagrams showing energy decay curves of the impulse response after performing the indoor impulse response and the dereverberation process when the reverberation times are different. 4 is a male voice, and FIG. 5 is a female voice. The attenuation curve was calculated by Schrader method.
4 and 5 show that the present invention can reduce the energy of reverberation more effectively than the conventional example at all reverberation times and for both male and female voices. Yes. FIG. 6 shows waveforms and spectrograms of a signal that does not include reverberation, a signal that includes reverberation (reverberation time: 1.0 second), and a signal that has been dereverberated by the present invention. FIG. 6 shows that the present invention can effectively restore the time structure and frequency structure of a signal that does not include reverberation.

参考文献
[1] 特願2003−060025:音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体。
[2] 特願2002−062513:占有度抽出装置および基本周波数抽出装置、それらの方法、それらのプログラム並びにそれらのプログラムを記録した記録媒体
[3] 特顧2002−274525:調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体
Reference [1] Japanese Patent Application No. 2003-060025: Acoustic signal dereverberation method and apparatus, acoustic signal dereverberation program, and recording medium recording the program.
[2] Japanese Patent Application No. 2002-062513: Occupancy degree extraction device and fundamental frequency extraction device, methods thereof, programs thereof, and recording medium on which those programs are recorded [3] Japanese Patent Application No. 2002-274525: Harmonic structure section estimation method And apparatus, harmonic structure section estimation program and recording medium recording the program, harmonic structure section estimation threshold determining method and apparatus, harmonic structure section estimation threshold determining program and recording medium recording the program

実施例を説明するブロック図。The block diagram explaining an Example. 信号波形の時間伸縮のフローと信号波形の時間伸縮復元のフローを示す図。The figure which shows the flow of the time expansion / contraction of a signal waveform, and the flow of the time expansion / contraction restoration of a signal waveform. 他の実施例を説明するブロック図。The block diagram explaining another Example. 残響時間が異なる場合の室内インパルス応答および残響除去処理を施した後のインパルス応答のエネルギー減衰曲線(男声)を示す図。The figure which shows the energy decay curve (male voice) of the impulse response after performing an indoor impulse response and reverberation removal processing in the case where reverberation time differs. 残響時間が異なる場合の室内インパルス応答および残響除去処理を施した後のインパルス応答のエネルギー減衰曲線(女声)を示す図。The figure which shows the energy decay curve (female voice) of the impulse response after performing the indoor impulse response and reverberation removal processing in the case where reverberation time differs. 残響を含まない信号、残響を含んだ信号(残響時間:1.0秒)、および残響除去された信号の波形とスペクトログラムを示す図。The figure which shows the waveform and spectrogram of the signal which does not contain reverberation, the signal which contains reverberation (reverberation time: 1.0 second), and the signal from which dereverberation was removed. 従来例を説明するブロック図。The block diagram explaining a prior art example. 時間伸縮処理を説明する図。The figure explaining time expansion-contraction processing.

符号の説明Explanation of symbols

1 基本周波数推定部 2 基本周波数時間微分推定部
3 信号波形時間伸縮部 4 調波構造音抽出部
5 信号波形時間伸縮復元部 6 逆伝達関数推定部
7 逆伝達関数適用部 8 音声収音装置
DESCRIPTION OF SYMBOLS 1 Fundamental frequency estimation part 2 Fundamental frequency time differential estimation part 3 Signal waveform time expansion / contraction part 4 Harmonic structure sound extraction part 5 Signal waveform time expansion / contraction restoration part 6 Inverse transfer function estimation part 7 Inverse transfer function application part 8 Audio | voice sound collection apparatus

Claims (3)

入力された音声信号に対して基本周波数推定処理をする第一段階の基本周波数推定ステップと
前記第一段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第一段階の基本周波数時間微分推定ステップと
前記音声信号、前記第一段階の基本周波数推定ステップにより求められた基本周波数、前記第一段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて前記音声信号の基本周波数を一定にする第一段階の信号波形時間伸縮ステップと
前記第一段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第一段階の調波構造音抽出ステップと
前記第一段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第一段階の信号波形時間伸縮復元ステップと
前記音声信号と前記第一段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第一段階の逆伝達関数を推定する第一段階の逆伝達関数推定ステップと
前記第一段階の逆伝達関数推定ステップにより求めた第一段階の逆伝達関数を前記音声信号に適用して第一段階の残響除去後の信号を得る第一段階の逆伝達関数適用ステップと、
から構成される第一段階の残響除去処理ステップと、
前記第一段階の残響除去後の信号に対して基本周波数推定処理をする第二段階の基本周波数推定ステップと、
前記第二段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第二段階の基本周波数時間微分推定ステップと、
前記音声信号、前記第二段階の基本周波数推定ステップにより求められた基本周波数、前記第二段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて前記音声信号の基本周波数を一定にする第二段階の信号波形時間伸縮ステップと、
前記第二段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第二段階の調波構造音抽出ステップと、
前記第二段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第二段階の信号波形時間伸縮復元ステップと、
前記音声信号と前記第二段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第二段階の逆伝達関数を推定する第二段階の逆伝達関数推定ステップと、
前記第二段階の逆伝達関数推定ステップにより求めた第二段階の逆伝達関数を前記音声信号に適用して第二段階の残響除去後の信号を得る第二段階の逆伝達関数適用ステップと、
から構成される第二段階の残響除去処理ステップと、
前記第二段階の残響除去後の信号に対して基本周波数推定処理をする第三段階の基本周波数推定ステップと、
前記第三段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第三段階の基本周波数時間微分推定ステップと、
前記第二段階の残響除去後の信号、前記第三段階の基本周波数推定ステップにより求められた基本周波数、前記第三段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて前記第二段階の残響除去後の信号の基本周波数を一定にする第三段階の信号波形時間伸縮ステップと、
前記第三段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第三段階の調波構造音抽出ステップと、
前記第三段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第三段階の信号波形時間伸縮復元ステップと、
前記第二段階の残響除去後の信号と前記第三段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第三段階の逆伝達関数を推定する第三段階の逆伝達関数推定ステップと、
前記第三段階の逆伝達関数推定ステップにより求めた第三段階の逆伝達関数を前記第二段階の残響除去後の信号に適用して第三段階の残響除去後の信号を得る第三段階の逆伝達関数適用ステップと、
から構成される第三段階の残響除去処理ステップと、
を備えたことを特徴とする残響除去方法
A fundamental frequency estimation step of the first stage of the fundamental frequency estimation processing of an inputted speech signal,
A fundamental frequency time derivative estimation step of the first stage of estimating the time derivative on the basis of the fundamental frequency determined by the fundamental frequency estimation step of the first stage,
Based on the audio signal, the fundamental frequency obtained by the first-stage fundamental frequency estimation step , and the fundamental frequency time derivative obtained by the first-stage fundamental frequency time derivative estimation step, the fundamental frequency of the audio signal is determined. First stage signal waveform time expansion / contraction step to be constant,
A first harmonic structure sound extraction step for extracting the harmonic structure sound based on the time expansion / contraction signal obtained by the signal waveform time expansion / contraction step of the first stage ;
The first step of obtaining time warping restoration processing harmonic structure sound having the same fundamental frequency as before time warping is subjected to the signal waveform to the obtained harmonic structure sound by extracting step harmonic structure sound of the first stage a signal waveform time warping restoration step of,
The sound signal and the harmonic structure sound obtained in the first stage signal waveform time expansion / contraction restoration step are divided into time frames having a length different from that of the harmonic structure sound extraction process, and the analysis proceeds . A first-stage inverse transfer function estimation step for estimating the inverse transfer function of
And inverse transfer function application step of the first stage of the inverse transfer function of the first stage to obtain a signal after dereverberation the first stage is applied to the audio signal obtained by the inverse transfer function estimation step of the first stage,
A first stage dereverberation processing step comprising:
A second-stage fundamental frequency estimation step for performing a fundamental frequency estimation process on the signal after dereverberation of the first stage;
A second-stage fundamental frequency time derivative estimating step for estimating the time derivative based on the fundamental frequency obtained by the second-stage fundamental frequency estimating step;
Based on the audio signal, the fundamental frequency obtained by the second-stage fundamental frequency estimation step, and the fundamental frequency time derivative obtained by the second-stage fundamental frequency time derivative estimation step, the fundamental frequency of the audio signal is determined. Second stage signal waveform time stretching step to make constant,
A second-stage harmonic structure sound extraction step for extracting the harmonic structure sound based on the time expansion / contraction signal obtained by the second-stage signal waveform time expansion / contraction step;
A second stage of obtaining a harmonic structure sound having the same fundamental frequency as before the time expansion / contraction by subjecting the harmonic structure sound obtained by the second harmonic structure sound extraction step to a time expansion / contraction restoration process of the signal waveform. Signal waveform time expansion / contraction restoration step,
The harmonic structure sound obtained in the audio signal and the second stage signal waveform time expansion / contraction restoration step is divided into time frames having a length different from that of the harmonic structure sound extraction process, and the analysis proceeds. A second-stage inverse transfer function estimation step for estimating the inverse transfer function of
Applying a second-stage inverse transfer function obtained by the second-stage inverse transfer function estimating step to the speech signal to obtain a signal after the second-stage dereverberation, and a second-stage inverse transfer function applying step;
A second stage dereverberation processing step comprising:
A third-stage fundamental frequency estimation step for performing fundamental frequency estimation processing on the signal after dereverberation in the second stage;
A third stage fundamental frequency time derivative estimating step for estimating the time derivative based on the fundamental frequency obtained by the third stage fundamental frequency estimating step;
Based on the signal after dereverberation in the second stage, the fundamental frequency obtained in the fundamental frequency estimation step in the third stage, and the time derivative of the fundamental frequency obtained in the fundamental frequency time derivative estimation step in the third stage. A third stage signal waveform time expansion / contraction step for making the fundamental frequency of the signal after the second stage dereverberation constant,
A third-stage harmonic structure sound extraction step for extracting the harmonic structure sound based on the time expansion / contraction signal obtained by the third-stage signal waveform time expansion / contraction step;
Third stage to obtain harmonic structure sound having the same fundamental frequency as before time expansion by applying time expansion / contraction restoration processing of signal waveform to harmonic structure sound obtained by the third stage harmonic structure sound extraction step Signal waveform time expansion / contraction restoration step,
The harmonic structure sound obtained in the second-stage dereverberation signal and the third-stage signal waveform time expansion / contraction restoration step is divided into time frames having a length different from that of the harmonic structure sound extraction process. A third-stage inverse transfer function estimation step that advances the analysis and estimates the third-stage inverse transfer function;
Applying the third-stage inverse transfer function obtained in the third-stage inverse transfer function estimation step to the signal after the second-stage dereverberation to obtain a signal after the third-stage dereverberation; Applying an inverse transfer function;
A third stage dereverberation processing step comprising:
Dereverberation method characterized by comprising a.
請求項1記載の残響除去方法の各ステップをコンピュータに実行させるためのプログラム。 The program for making a computer perform each step of the dereverberation method of Claim 1 . 請求項記載プログラムを記録した記録媒体。 A recording medium on which the program according to claim 2 is recorded.
JP2004245622A 2004-08-25 2004-08-25 Reverberation removal method, program, and recording medium Expired - Fee Related JP4313740B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004245622A JP4313740B2 (en) 2004-08-25 2004-08-25 Reverberation removal method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004245622A JP4313740B2 (en) 2004-08-25 2004-08-25 Reverberation removal method, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2006064866A JP2006064866A (en) 2006-03-09
JP4313740B2 true JP4313740B2 (en) 2009-08-12

Family

ID=36111438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004245622A Expired - Fee Related JP4313740B2 (en) 2004-08-25 2004-08-25 Reverberation removal method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP4313740B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5166460B2 (en) * 2010-02-09 2013-03-21 日本電信電話株式会社 Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppression method, program

Also Published As

Publication number Publication date
JP2006064866A (en) 2006-03-09

Similar Documents

Publication Publication Date Title
JP4774100B2 (en) Reverberation removal apparatus, dereverberation removal method, dereverberation removal program, and recording medium
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
EP0822538B1 (en) Method of transforming periodic signal using smoothed spectrogram, method of transforming sound using phasing component and method of analyzing signal using optimum interpolation function
JP2763322B2 (en) Audio processing method
JP5124014B2 (en) Signal enhancement apparatus, method, program and recording medium
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
JP4516157B2 (en) Speech analysis device, speech analysis / synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP6748304B2 (en) Signal processing device using neural network, signal processing method using neural network, and signal processing program
JP4705414B2 (en) Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium
JP4348393B2 (en) Signal distortion removing apparatus, method, program, and recording medium recording the program
JP2006234888A (en) Device, method, and program for removing reverberation, and recording medium
JP2798003B2 (en) Voice band expansion device and voice band expansion method
JP4098647B2 (en) Acoustic signal dereverberation method and apparatus, acoustic signal dereverberation program, and recording medium recording the program
JP5325130B2 (en) LPC analysis device, LPC analysis method, speech analysis / synthesis device, speech analysis / synthesis method, and program
JP4313740B2 (en) Reverberation removal method, program, and recording medium
JP3916834B2 (en) Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise
JP2010044150A (en) Reverberation removing device and reverberation removing method, and program and recording medium thereof
JP4464797B2 (en) Speech recognition method, apparatus for implementing the method, program, and recording medium therefor
Hasan et al. An approach to voice conversion using feature statistical mapping
JP4166405B2 (en) Drive signal analyzer
JP6827908B2 (en) Speech enhancement device, speech enhancement learning device, speech enhancement method, program
JP3035939B2 (en) Voice analysis and synthesis device
Hirsch et al. A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms
Rahali et al. Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise
Alcaraz Meseguer Speech analysis for automatic speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060719

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090507

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090515

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130522

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140522

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees