JP5294603B2 - Acoustic signal estimation device, acoustic signal synthesis device, acoustic signal estimation synthesis device, acoustic signal estimation method, acoustic signal synthesis method, acoustic signal estimation synthesis method, program using these methods, and recording medium - Google Patents
Acoustic signal estimation device, acoustic signal synthesis device, acoustic signal estimation synthesis device, acoustic signal estimation method, acoustic signal synthesis method, acoustic signal estimation synthesis method, program using these methods, and recording medium Download PDFInfo
- Publication number
- JP5294603B2 JP5294603B2 JP2007259797A JP2007259797A JP5294603B2 JP 5294603 B2 JP5294603 B2 JP 5294603B2 JP 2007259797 A JP2007259797 A JP 2007259797A JP 2007259797 A JP2007259797 A JP 2007259797A JP 5294603 B2 JP5294603 B2 JP 5294603B2
- Authority
- JP
- Japan
- Prior art keywords
- band
- signal
- sound source
- sound
- band signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、複数チャネルの音響信号から音源の位置または方向と強度と位相を推定し、任意の位置の音響信号を合成する音響信号推定装置、音響信号合成装置、音響信号推定合成装置、音響信号推定方法、音響信号合成方法、音響信号推定合成方法、これらの方法を用いたプログラム、及び記録媒体に関する。 The present invention relates to an acoustic signal estimation device, an acoustic signal synthesis device, an acoustic signal estimation synthesis device, an acoustic signal that estimates the position or direction, intensity, and phase of a sound source from acoustic signals of a plurality of channels and synthesizes an acoustic signal at an arbitrary position. The present invention relates to an estimation method, an acoustic signal synthesis method, an acoustic signal estimation synthesis method, a program using these methods, and a recording medium.
立体的音響信号を複数のマイクで収音し、音源を分離したり、雑音を抑圧したりする手法は良く知られている。音源の位置はセンサーで収集できる。また、アレーマイクで個別の音に分離して収集することもできる。その手段として、SAFIA法(非特許文献1)やCSCC法(非特許文献2)が知られている。
一般的に、複数のマイクは音源から離れた位置に設置され、常時、音を収音している。しかし、音源の位置や数は明確ではなく、時間とともに変動することも想定される。このような場合に、任意の位置で収音される音を求めるには、いくつかのパラメータを仮定して音源を分離する手法では対応できない。
本発明はこのような問題点を解決し、複数のマイクで収音された音から、音源を推定し、任意の位置での音を合成する方法を提供することにある。
In general, a plurality of microphones are installed at positions distant from a sound source and always collect sound. However, the position and number of sound sources are not clear and may vary with time. In such a case, it is not possible to obtain a sound picked up at an arbitrary position by a method of separating sound sources assuming some parameters.
The present invention solves such problems and provides a method for estimating a sound source from sounds collected by a plurality of microphones and synthesizing sound at an arbitrary position.
本発明の音響信号推定装置は、帯域分割部と音源推定部から構成される。帯域分割部は、複数のマイクで収音した複数チャネルの音響信号を、チャネルごとに所定の周波数帯域ごとに分割して帯域信号を生成する。音源推定部は、周波数帯域ごとに音源の位置または方向と強度と位相を推定する。そして、チャネルごとに音源からの信号を帯域信号から除いて残差帯域信号を求める。つまり、1以上の音源が推定できた周波数帯域は、チャネルごとに音源からの信号を帯域信号から除いて残差帯域信号を求め、音源が推定できなかった周波数帯域は、各チャネルの帯域信号を残差帯域信号とする。 The acoustic signal estimation apparatus according to the present invention includes a band dividing unit and a sound source estimating unit. The band dividing unit divides the sound signals of a plurality of channels collected by a plurality of microphones into predetermined frequency bands for each channel to generate a band signal. The sound source estimation unit estimates the position or direction, intensity, and phase of the sound source for each frequency band. Then, a residual band signal is obtained by removing the signal from the sound source from the band signal for each channel. That is, the frequency band in which one or more sound sources can be estimated is obtained by removing the signal from the sound source from the band signal for each channel to obtain a residual band signal, and the frequency band in which the sound source cannot be estimated is the band signal of each channel. Let it be a residual band signal.
本発明の音響信号合成装置は、帯域信号成分推定部と帯域信号成分加算部と帯域統合部から構成され、各音源の位置または方向と周波数帯域ごとの強度と位相、各チャネルの残差帯域信号、音を合成する位置を入力とする。帯域信号成分推定部は、各音源の位置または方向と周波数帯域ごとの強度と位相から、指定された位置での各音源からの帯域信号を推定する。帯域信号成分加算部は、推定された各音源からの帯域信号と各チャネルの残差帯域信号とを重み付き加算することで、指定された位置での帯域信号を求める。帯域統合部は、指定された位置での帯域信号を、時間領域の信号に変換する。 The acoustic signal synthesizer according to the present invention includes a band signal component estimation unit, a band signal component addition unit, and a band integration unit. The position or direction of each sound source, the intensity and phase of each frequency band, and the residual band signal of each channel The position where the sound is synthesized is input. The band signal component estimation unit estimates a band signal from each sound source at a designated position from the position or direction of each sound source and the intensity and phase for each frequency band. The band signal component adding unit obtains a band signal at a designated position by weighted addition of the estimated band signal from each sound source and the residual band signal of each channel. The band integration unit converts the band signal at the designated position into a signal in the time domain.
本発明の音響信号推定合成装置は、上述の音響信号推定装置と記録部と音響信号合成装置から構成される。記録部は、音響信号推定装置から出力される各音源の位置または方向と周波数帯域ごとの強度と位相、および各チャネルの残差帯域信号を記録する。音響信号合成装置は、記録部に記録された推定された各音源の位置または方向と周波数帯域ごとの強度と位相、各チャネルの残差帯域信号、収音される音を合成する位置を入力とする。
なお、音響信号推定装置や音響信号合成装置は、上述の記録部を内部に備えていてもよい。
The acoustic signal estimation and synthesis apparatus according to the present invention includes the acoustic signal estimation apparatus, the recording unit, and the acoustic signal synthesis apparatus described above. The recording unit records the position or direction of each sound source output from the acoustic signal estimation device, the intensity and phase of each frequency band, and the residual band signal of each channel. The acoustic signal synthesizer receives the estimated position or direction of each sound source recorded in the recording unit and the intensity and phase of each frequency band, the residual band signal of each channel, and the position where the collected sound is synthesized. To do.
Note that the acoustic signal estimation device and the acoustic signal synthesis device may include the recording unit described above.
本発明の音響信号推定装置によれば、複数のマイクで収音した複数チャネルの音響信号から、1以上の音源の位置または方向と周波数帯域ごとの強度と位相を推定し、各チャネルの残差帯域信号を求める。したがって、音源が推定できた音と雑音などの音源が推定できない音に分けることができる。
本発明の音響信号合成装置によれば、音源が推定できた音については、音源の位置または方向から指定された位置で収音される音を計算できる。また、音源が推定できない音については、各チャネルの残差帯域信号(帯域信号に含まれる音源が特定できない信号)から指定された位置で収音される音を計算できる。そして、これらを重み付け加算するので、指定された位置での音を合成できる。
According to the acoustic signal estimation device of the present invention, the position or direction of one or more sound sources and the intensity and phase of each frequency band are estimated from the acoustic signals of a plurality of channels collected by a plurality of microphones, and the residual of each channel is estimated. Obtain the band signal. Therefore, the sound can be divided into a sound that can be estimated and a sound that cannot be estimated such as noise.
According to the acoustic signal synthesizer of the present invention, the sound collected at a position designated from the position or direction of the sound source can be calculated for the sound whose sound source can be estimated. For sounds that cannot be estimated by the sound source, it is possible to calculate the sound that is collected at a specified position from the residual band signal of each channel (a signal that cannot identify the sound source included in the band signal). Since these are weighted and added, the sound at the designated position can be synthesized.
本発明の音響信号推定合成装置によれば、上述の音響信号推定装置と音響信号合成装置の効果を有するので、複数のマイクで収音した複数チャネルの音響信号から、指定された位置での合成できる。
このような効果があるので、例えば、複数の場所のカメラから任意の視点の画像・映像を合成する自由視点映像システムに対応した音響信号の合成も可能となる。
According to the acoustic signal estimating and synthesizing apparatus of the present invention, since it has the effects of the above-described acoustic signal estimating apparatus and the acoustic signal synthesizing apparatus, synthesis at a designated position from the acoustic signals of a plurality of channels picked up by a plurality of microphones. it can.
Because of such an effect, for example, it is possible to synthesize an audio signal corresponding to a free viewpoint video system that synthesizes images and videos of arbitrary viewpoints from cameras at a plurality of locations.
以下に、図を示しながら本発明の原理と実施形態を説明する。
原理
図1は、4つのマイクと伝播した音が平面波と近似できるほど遠方の音源からの音の様子を示す例である。一般的には、最も離れたマイク同士の間隔より、10倍以上音源が離れた場合、平面波と近似できる。図1では、4つのマイク501〜504は直線状に配置されている。音源Aからの音は、マイクの配置と垂直な方向から来るとする。この場合には、到達する音波の波面がそろうので、音源Aからの各マイクへの入力信号は同一となる。音源Bからの音は、マイクの配置に対して垂直ではない方向から来るとする。この場合、各マイクへの音源Bからの音の到達時間が異なる。また、帯域ごとの帯域信号成分でみると位相が異なる。図2に、マイク501〜504が設置されている場所501〜504での、音源Aから伝播された音のスペクトルの例を示す。図3に場所501〜504での音源Bから伝播された音のスペクトルの例を示す。図3(A)は場所501での音源Bからの音のスペクトル、(B)は場所502での音源Bからの音のスペクトル、(C)は場所503での音源Bからの音のスペクトル、(D)は場所504での音源Bからの音のスペクトルである。また、図4から図6に場所501、502、503での、音源Aと音源Bからの音のスペクトルを示す。図4が場所501での音源Aと音源Bからの音のスペクトル、図5が場所502での音源Aと音源Bからの音のスペクトル、図6が場所503での音源Aと音源Bからの音のスペクトルである。
The principle and embodiments of the present invention will be described below with reference to the drawings.
Principle FIG. 1 is an example showing the state of sound from a sound source that is so far away that sound propagated through four microphones can be approximated to a plane wave. Generally, when the sound source is separated 10 times or more than the distance between the most distant microphones, it can be approximated as a plane wave. In FIG. 1, the four
本発明では、このように複数のマイクで収音した音のスペクトルから、音源の方向、音源のスペクトルを推定する。なお、図7のように球面波を前提とした場合には、音源の方向を推定するのではなく、音源の位置を推定することになる。そして、各マイクでの推定した音源からの音のスペクトルを計算し、残差として残る信号(残差信号)を音源が特定できない雑音として扱う。そして、推定された音源の位置とスペクトルから、音響波形が欲しい位置(指定された位置)での各音源からの音のスペクトルを求める。また、指定された位置の残差信号のスペクトルは、指定された位置の近くのマイクの残差信号を、指定された位置とマイクとの距離を考慮した重み付け加算して求める。これらを加算することで、指定された位置での音響波形を合成する。 In the present invention, the direction of the sound source and the spectrum of the sound source are estimated from the spectrum of the sound collected by the plurality of microphones. When spherical waves are assumed as shown in FIG. 7, the direction of the sound source is not estimated, but the position of the sound source is estimated. Then, the spectrum of sound from the sound source estimated by each microphone is calculated, and a signal remaining as a residual (residual signal) is handled as noise that cannot be specified by the sound source. Then, from the estimated position and spectrum of the sound source, the spectrum of the sound from each sound source at the position (designated position) where the acoustic waveform is desired is obtained. The spectrum of the residual signal at the designated position is obtained by weighting and adding the residual signal of the microphone near the designated position in consideration of the distance between the designated position and the microphone. By adding these, the acoustic waveform at the specified position is synthesized.
音源の方向やスペクトルを推定する方法は、従来から存在する方法を用いればよい。例えば、各マイクで収音した音の位相差を用いる方法などがある。音の位相差は、例えば、マイクが2つの場合には、相互相関関数の計算である時間差でピークがはっきりと出れば、1つの音源があると判断できる。また、マイクが2つ以上の場合、例えば、1つの音源を仮定して連立方程式を解くか、位相差を周波数領域で評価すると、得られた結果が1つの音源とみなせるか否か判断できる。つまり、一般的に、2つ以上のマイクがあれば、収音された音の個々の周波数帯域での位相の違いから、音源方向を推定できる。 As a method for estimating the direction and spectrum of the sound source, a conventional method may be used. For example, there is a method of using a phase difference of sound collected by each microphone. For example, when there are two microphones, the sound phase difference can be determined to be one sound source if a peak appears clearly due to the time difference calculated by the cross-correlation function. Further, when there are two or more microphones, for example, by solving simultaneous equations assuming one sound source or evaluating a phase difference in the frequency domain, it can be determined whether or not the obtained result can be regarded as one sound source. That is, generally, if there are two or more microphones, the direction of the sound source can be estimated from the difference in phase in each frequency band of the collected sound.
SAFIA法では、個々の帯域では主要な音源の成分は1つであると仮定し、音源の位置と、その音源からの音を求める。音源のスペクトルには、強い部分と弱い部分があり、ある帯域に注目すると主要な成分が複数の音源から来ることは比較的少ない。例えば、図4から図6に示したように、音源Aからの音のスペクトルと音源Bからの音のスペクトルでは、スペクトルが存在する周波数のほとんどが異なる(例えば、図4から図6の注目帯域aと注目帯域c)。したがって、帯域分割した場合、ある帯域では、音源Aまたは音源Bの一方の音が主となり、他方はほとんどない。SAFIA法は、このような特性を利用している。 In the SAFIA method, it is assumed that there is one main sound source component in each band, and the position of the sound source and the sound from the sound source are obtained. The spectrum of the sound source has a strong portion and a weak portion, and when attention is paid to a certain band, it is relatively rare that main components come from a plurality of sound sources. For example, as shown in FIGS. 4 to 6, the spectrum of the sound from the sound source A and the spectrum of the sound from the sound source B are almost different in frequency (for example, the attention band in FIGS. 4 to 6). a and band of interest c). Therefore, when the band is divided, one sound of the sound source A or the sound source B is mainly used in a certain band, and there is almost no other. The SAFIA method utilizes such characteristics.
CSCC法では、他の音源からの入力スペクトルが一定となる場合、あるいはそのように換算した場合、複数のマイクに対する単一音源からのスペクトルの複素平面上での配置から音源方向とその信号成分を分離して推定する。注目帯域aの例の場合のように、音源Aからの成分はほとんどない場合や、各信号に遅延を与えるなどして音源Aからの信号成分がすべてのマイクに共通となるように換算できる場合には、場所501〜504の音源Bの成分から、音源Bの方向が精度よく推定できる。なお、音源の位置の推定精度は、他の音がどの程度あるかに依存する。注目帯域cの場合には、音源Bからの成分がほとんどないので、場所501〜504の音源Aの成分から、音源Aの方向が精度よく推定できる。この場合は、どの場所のスペクトルも同じなので、マイクの設置方向と垂直な方向に音源Aが存在することが分かる。注目帯域bの場合には、音源Aの成分も音源Bの成分も強いため、単純な分離は難しい。この場合、音源方向の推定の信頼度が高い帯域(例えば、注目帯域a、注目帯域c)で推定した音源の位置を用いて、音源Aからの成分と音源Bからの成分とを推定する。この例では、音源Aからの成分は、マイクの場所によらないので、定数とみなすことができる。
In the CSCC method, when the input spectrum from another sound source is constant or converted as such, the sound source direction and its signal component are calculated from the arrangement of the spectrum from a single sound source for a plurality of microphones on the complex plane. Estimate separately. When there is almost no component from the sound source A as in the case of the band of interest a, or when the signal component from the sound source A can be converted to be common to all microphones by giving a delay to each signal. The direction of the sound source B can be accurately estimated from the components of the sound source B at the
その他にも複数の音源を音源数以上の数のマイクの信号から分離する技術がある(特開2006-243664号公報)。また、帯域を分割すれば、音源が発生する周波数成分が偏るので、マイクの数が少なくても分離可能となる(特開2007−198977号公報)。 In addition, there is a technique for separating a plurality of sound sources from the number of microphone signals equal to or greater than the number of sound sources (Japanese Patent Laid-Open No. 2006-243664). Further, if the band is divided, the frequency components generated by the sound source are biased, so that separation is possible even with a small number of microphones (Japanese Patent Laid-Open No. 2007-198977).
本発明でも、複数の音源があることを前提に複数のマイクで収音した信号を、音源ごとに分離することで、音源の方向(または位置)、音源のスペクトルを推定する。したがって、上述の信号の分離方法や類似の方法を用いる点では共通するし、どの方法を用いるかは適宜選択すればよい。しかし、本発明の目的は、任意の位置での音を合成することであり、音源ごとに音を分離することではない。つまり、本発明では、音を正確に分離できることよりも、結果的に指定された位置での音のように合成できることが重要である。そこで、本発明では、上述のいずれかの方法で可能な範囲まで、音源の位置または方向と音源帯域信号(周波数帯域ごとの強度と位相)とを推定し、残る信号を音源の位置が特定できない残差信号として扱う。残差信号は、マイクごとに求められる。そして、音源ごとの方向と周波数帯域ごとの音源帯域信号(複素スペクトル)、マイク(チャネル)ごとの周波数帯域ごとの残差信号(残差帯域信号)が記録される。指定された位置での音の合成では、各音源の位置または方向と音源帯域信号(周波数帯域ごとの強度と位相)から、指定された位置での各音源からの帯域信号を推定する。そして、推定された各音源からの帯域信号と各チャネルの残差帯域信号とを重み付き加算することで、指定された位置での帯域信号を求める。最後に、指定された位置での帯域信号を、時間領域の信号に変換する。 In the present invention, the direction (or position) of the sound source and the spectrum of the sound source are estimated by separating the signals collected by the plurality of microphones for each sound source on the assumption that there are a plurality of sound sources. Therefore, it is common to use the above-described signal separation method and similar methods, and which method should be used may be appropriately selected. However, an object of the present invention is to synthesize sounds at arbitrary positions, not to separate sounds for each sound source. That is, in the present invention, it is more important to be able to synthesize like a sound at a designated position as a result rather than accurately separating the sounds. Therefore, in the present invention, the position or direction of the sound source and the sound source band signal (intensity and phase for each frequency band) are estimated to the extent possible by any of the above methods, and the position of the sound source cannot be specified for the remaining signals. Treat as residual signal. The residual signal is obtained for each microphone. Then, a sound source band signal (complex spectrum) for each direction and frequency band for each sound source, and a residual signal (residual band signal) for each frequency band for each microphone (channel) are recorded. In the synthesis of the sound at the designated position, the band signal from each sound source at the designated position is estimated from the position or direction of each sound source and the sound source band signal (intensity and phase for each frequency band). Then, the band signal at the designated position is obtained by weighted addition of the estimated band signal from each sound source and the residual band signal of each channel. Finally, the band signal at the designated position is converted into a time domain signal.
[第1実施形態]
図8に、本発明の音響信号推定合成装置の機能構成例を示す。また、図9に、音響信号推定合成装置の処理フローの例を示す。本発明の音響信号推定合成装置100は、帯域分割部110、音源推定部120、記録部130、帯域信号成分推定部140、帯域信号成分加算部150、帯域統合部160から構成される。帯域分割部110は、K個(Kは2以上の整数)のマイクで収音したKチャネルの音響信号x1(t),x2(t),…,xK(t)を、チャネルごとに所定の周波数帯域ωごとに分割して帯域信号X1(ω),X2(ω),…,XK(ω)を生成する(S110)。音響信号x1(t)は、Tサンプルからなるフレーム中の1つのサンプル値(スカラー量)であり、tは0,…,T−1の値を取る。このような音響信号x1(t)から、所定の周波数帯域ごとの帯域信号X1(ω)を得る。帯域信号X1(ω)は、例えば複素スペクトルである。なお、帯域信号X1(ω)は帯域分割複素信号でもよいが、以下では複素スペクトルとして説明する。次式のように、時間領域のT点ごとのフレームを複素フーリエ変換し、T/2点の複素フーリエ係数を求めたものを帯域信号X1(ω)とする。
帯域信号X1(ω)は1番目のマイク(第1のチャネル)の位置での信号の、周波数帯ωごとの振幅と位相を示している。サンプリング周波数をf〔Hz〕としたとき、ωf/T〔Hz〕を中心周波数とする帯域信号とみなせる。なお、帯域分割部110への入力を、アナログの音響信号とし、帯域分割部110内でサンプリングした値を音響信号x1(t)としてもよい。どの場合も、出力は同じである。
[First Embodiment]
FIG. 8 shows a functional configuration example of the acoustic signal estimation / synthesis apparatus of the present invention. FIG. 9 shows an example of the processing flow of the acoustic signal estimation / synthesis apparatus. The acoustic signal estimation and synthesis apparatus 100 of the present invention includes a
The band signal X 1 (ω) indicates the amplitude and phase of each signal in the frequency band ω at the position of the first microphone (first channel). When the sampling frequency is f [Hz], it can be regarded as a band signal having a center frequency of ωf / T [Hz]. The input to the
音源推定部120は、従来から存在する方法で、周波数帯域ωごとに音源の位置または方向Dω,1,Dω,2,…,Dω,Mωと音源帯域信号Sω,1,Sω,2,…,Sω,Mωを推定する(Mωは周波数帯域ωでの音源の数であり、0以上の整数である)。音源帯域信号Sω,1は、周波数帯域ωでの第1の音源から伝搬した音によって、マイク近傍で生じる信号を計算するための強度と位相の情報(例えば、複素スペクトル)である。例えば、Dω,1が音源の位置を示しており、音を球面波とするのであれば、音源帯域信号Sω,1は音源の位置での強度と位相を示す複素スペクトルとすればよい。また、Dω,1が音源の方向を示しており、音を平面波に近似とするのであれば、音源帯域信号Sω,1はある位置(音源の位置である必要はない)での強度と位相を示す複素スペクトルとすればよい。この推定の過程で、各マイクの位置での、それぞれの音源からの信号Uk,ω,mも求めておく(kはマイクの番号を示しており、1〜Kの整数である)。信号Uk,ω,mは、k番目のマイクの位置での周波数帯ωのm番目の音源からの信号を示している(mは周波数帯ωごとに付された音源の番号であり、0〜Mωの整数である)。例えば、平面波で近似する場合であれば、音源帯域信号Sω,1の位置とマイクkの位置とを結ぶベクトルと音の伝搬方向の単位ベクトルとの内積(音の伝搬方向にどれだけ離れているかを示す値)から、音源帯域信号Sω,1の位置とマイクkの位置との位相差を求め、Sω,1の位相をその位相差だけシフトした信号をマイクkの位置での信号Uk,ω,1とすればよい。
The sound
1以上の音源が推定できた周波数帯域ωは、次式のようにチャネルごとに音源からの信号を帯域信号から除いて残差帯域信号N1(ω),N2(ω),…,NK(ω)を求める。
音源の位置を推定するか方向を推定するかは、音を球面波と仮定するか平面波と仮定するかで決まる。この仮定は、あらかじめ定めておく。また、どのような方法で音源の位置または方向と強度と位相を推定するかは、上述の方法などから適宜選択しておけばよい。なお、上述したように、本発明では正確に音源の位置(または方向)やスペクトルを推定することよりも、最終的に合成された音が、指定された位置での音らしくなることが重要である。ステップS120で推定された各音源の位置または方向と周波数帯域ごとの強度と位相、および各チャネルの残差帯域信号は、記録部130に記録される。なお、記録される情報は、符号化された情報でもよい。
Whether the position of the sound source is estimated or the direction is estimated depends on whether the sound is assumed to be a spherical wave or a plane wave. This assumption is predetermined. The method for estimating the position or direction, intensity, and phase of the sound source may be appropriately selected from the above-described methods. As described above, in the present invention, it is more important that the finally synthesized sound looks like a sound at a designated position than accurately estimating the position (or direction) and spectrum of the sound source. is there. The position or direction of each sound source estimated in step S120, the intensity and phase of each frequency band, and the residual band signal of each channel are recorded in the
帯域信号成分推定部140は、位置Pが指定されると、周波数帯域ωごとの各音源の位置または方向Dω,1,Dω,2,…,Dω,Mωと音源帯域信号Sω,1,Sω,2,…,Sω,Mωから、指定された位置Pでのすべての音源からの音を合成した帯域信号Z(ω)を推定する(S140)。例えば、周波数帯域ωごとに、位置Pでの各音源からの信号UP,ω,mを求める(mは周波数帯ωごとに付された音源の番号であり、0〜Mωの整数である)。信号UP,ω,mの求め方は、音源推定部120の各マイクの位置での音源からの信号Uk,ω,mの求め方と同じでよい。位置Pでの各音源からの信号UP,ω,mを、次のように周波数帯域ωごとに、加算すれば、帯域信号Z(ω)を求めることができる。
帯域統合部160は、指定された位置Pでの帯域信号Y(ω)を、時間領域の信号y(t)に変換する(S160)。例えば、信号y(t)は、Tサンプルからなるフレーム内の1つのサンプル値であり、tは0,…,T−1の値を取る。
本発明の音響信号推定合成装置100はこのような構成なので、音源が推定できた音と雑音などの音源が推定できない音に分けることができる。そして、音源が推定できた音については、音源の位置または方向から指定された位置Pでの音を計算できる。また、音源が推定できない音については、各チャネルの残差帯域信号(帯域信号に含まれる音源が特定できない信号)から指定された位置Pでの音を計算できる。そして、これらを重み付け加算するので、指定された位置Pでの音を合成できる。このような効果があるので、例えば、複数の場所のカメラから任意の視点の画像・映像を合成する自由視点映像システムに対応した音響信号の合成も可能となる。
The
Since the acoustic signal estimation / synthesis apparatus 100 according to the present invention has such a configuration, it can be divided into a sound whose sound source can be estimated and a sound such as noise that cannot be estimated. As for the sound whose sound source can be estimated, the sound at the position P designated from the position or direction of the sound source can be calculated. For sounds that cannot be estimated by a sound source, it is possible to calculate the sound at a specified position P from the residual band signal of each channel (a signal that cannot specify a sound source included in the band signal). Since these are weighted and added, the sound at the designated position P can be synthesized. Because of such an effect, for example, it is possible to synthesize an audio signal corresponding to a free viewpoint video system that synthesizes images and videos of arbitrary viewpoints from cameras at a plurality of locations.
[変形例]
第1実施形態では、音響信号推定合成装置100を説明した。しかし、各音源の位置または方向と周波数帯域ごとの音源帯域信号、および各チャネルの残差帯域信号を推定するまでを1つの装置(音響信号推定装置)としても良い。また、各音源の位置または方向と周波数帯域ごとの音源帯域信号、および各チャネルの残差帯域信号から、指定された位置Pでの音を合成するまでを1つの装置(音響信号合成装置)としても良い。
[Modification]
In the first embodiment, the acoustic signal estimation / synthesis apparatus 100 has been described. However, one device (acoustic signal estimation device) may be used until the position or direction of each sound source and the sound source band signal for each frequency band and the residual band signal for each channel are estimated. Also, one device (acoustic signal synthesizer) is a process from the sound source band signal of each sound source and the sound source band signal for each frequency band and the residual band signal of each channel until the sound at the designated position P is synthesized. Also good.
音響信号推定装置200は、例えば、帯域分割部110と音源推定部120から構成される。記録部130は、音響信号推定装置200の内部に備えても良いし、外部でも良い。音響信号合成装置300は、例えば、帯域信号成分推定部140、帯域信号成分加算部150、帯域統合部160から構成される。
このように、いくつかの装置に分割して全体で音響信号推定合成装置を形成しても、第1実施形態と同じ効果を得ることができる。
The acoustic signal estimation apparatus 200 includes, for example, a
Thus, even if it divides | segments into several apparatuses and forms an acoustic signal estimation synthetic | combination apparatus as a whole, the same effect as 1st Embodiment can be acquired.
図10に、コンピュータの機能構成例を示す。なお、本発明の音響信号推定合成方法、音響信号推定方法、音響信号合成方法は、コンピュータ2000の記録部2020に、本発明の各構成部としてコンピュータ2000を動作させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などを動作させることで、コンピュータに実行させることができる。また、コンピュータに読み込ませる方法としては、プログラムをコンピュータ読み取り可能な記録媒体に記録しておき、記録媒体からコンピュータに読み込ませる方法、サーバ等に記録されたプログラムを、電気通信回線等を通じてコンピュータに読み込ませる方法などがある。
FIG. 10 shows a functional configuration example of a computer. The acoustic signal estimation and synthesis method, acoustic signal estimation method, and acoustic signal synthesis method of the present invention cause the
Claims (8)
周波数帯域ωごとに、各マイクkの位置での各音源m(m=1,2,…,Mω、Mωは周波数帯域ωにおける音源の数)からの信号Uk,ω,mを推定し、前記帯域信号Xk(ω)と前記信号Uk,ω,mとから、
を備える音響信号推定装置。 A K-channel acoustic signal picked up by K microphones (K is an integer equal to or greater than 2) is divided into predetermined frequency bands ω for each channel k (k = 1, 2,..., K) to obtain a band signal. A band dividing unit for generating X k (ω);
For each frequency band ω, estimate the signal U k, ω, m from each sound source m (m = 1, 2,..., Mω, Mω is the number of sound sources in the frequency band ω) at the position of each microphone k, From the band signal X k (ω) and the signal U k, ω, m ,
An acoustic signal estimation device comprising:
周波数帯域ωごとに、各音源の位置または方向Dω,m と周波数帯域ごとの強度と位相Sω,m から、指定された位置での前記各音源からの信号を合成した帯域信号Z(ω)を推定する帯域信号成分推定部と、
各マイクkと前記指定された位置との距離に応じた重みをαkとしたとき、周波数帯域ωごとに、前記帯域信号Z(ω)と前記残差帯域信号Nk(ω)とから、
前記指定された位置での帯域信号Y(ω)を、時間領域の信号に変換する帯域統合部と
を備える音響信号合成装置。 The frequency or the direction D ω, m of each sound source m (m = 1, 2,..., Mω, Mω is the number of sound sources in the frequency band ω) for each frequency band ω and the frequency associated with the position or direction of the sound source. Each channel k (k = 1, 2,..., K, K is the number of channels) and a frequency band with a signal that is not associated with the intensity and phase S ω, m for each band ω and the position or direction of the sound source. a residual band signal N k (ω), which is a signal associated with ω, and an acoustic signal synthesizer that receives a position for synthesizing a sound;
For each frequency band ω, a band signal Z (ω that combines signals from the sound sources at specified positions from the position or direction D ω, m of each sound source and the intensity and phase S ω, m of each frequency band. ) To estimate the band signal component,
When the weight corresponding to the distance between each microphone k and the designated position is α k , for each frequency band ω, from the band signal Z (ω) and the residual band signal N k (ω),
A sound signal synthesizer comprising: a band integration unit that converts the band signal Y (ω) at the designated position into a signal in the time domain.
周波数帯域ωごとに、各音源m(m=1,2,…,Mω、Mωは周波数帯域ωにおける音源の数)の位置または方向Dω,mと強度と位相Sω,mと各マイクkの位置での各音源mからの信号Uk,ω,mを推定し、前記帯域信号Xk(ω)と前記信号Uk,ω,mとから、
各音源の位置または方向Dω,mと周波数帯域ωごとの強度と位相Sω,m、および各チャネルの残差帯域信号Nk(ω)を記録する記録部と、
周波数帯域ωごとに、各音源の位置または方向Dω,mと周波数帯域ごとの強度と位相Sω,mから、指定された位置での各音源からの信号を合成した帯域信号Z(ω)を推定する帯域信号成分推定部と、
各マイクkと前記指定された位置との距離に応じた重みをαkとしたとき、周波数帯域ωごとに、前記帯域信号Z(ω)と前記残差帯域信号Nk(ω)とから、
前記指定された位置での帯域信号Y(ω)を、時間領域の信号に変換する帯域統合部と
を備える音響信号推定合成装置。 A K-channel acoustic signal picked up by K microphones (K is an integer equal to or greater than 2) is divided into predetermined frequency bands ω for each channel k (k = 1, 2,..., K) to obtain a band signal. A band dividing unit for generating X k (ω);
For each frequency band ω, the position or direction D ω, m of each sound source m (m = 1, 2,..., Mω, Mω is the number of sound sources in the frequency band ω), intensity, phase S ω, m, and each microphone k. The signal U k, ω, m from each sound source m at the position is estimated, and from the band signal X k (ω) and the signal U k, ω, m ,
A recording unit for recording the position or direction D ω, m of each sound source and the intensity and phase S ω, m for each frequency band ω, and the residual band signal N k (ω) of each channel;
For each frequency band ω, a band signal Z (ω) obtained by synthesizing a signal from each sound source at a designated position from the position or direction D ω, m of each sound source and the intensity and phase S ω, m for each frequency band. A band signal component estimator for estimating
When the weight corresponding to the distance between each microphone k and the designated position is α k , for each frequency band ω, from the band signal Z (ω) and the residual band signal N k (ω),
An acoustic signal estimation and synthesis device comprising: a band integration unit that converts the band signal Y (ω) at the designated position into a signal in the time domain.
音源推定部で、周波数帯域ωごとに、各マイクkの位置での各音源m(m=1,2,…,Mω、Mωは周波数帯域ωにおける音源の数)からの信号Uk,ω,mを推定し、前記帯域信号Xk(ω)と前記信号Uk,ω,mとから、
を有する音響信号推定方法。 A K-channel acoustic signal picked up by K (K is an integer equal to or greater than 2) microphones in the band dividing unit is obtained for each predetermined frequency band ω for each channel k (k = 1, 2,..., K). A band dividing step of dividing to generate a band signal X k (ω);
In the sound source estimation unit, for each frequency band ω, signals U k, ω,, from each sound source m (m = 1, 2,..., Mω, Mω are the number of sound sources in the frequency band ω) at the position of each microphone k . m is estimated, and from the band signal X k (ω) and the signal U k, ω, m ,
An acoustic signal estimation method comprising:
帯域信号成分推定部で、周波数帯域ωごとに、各音源の位置または方向Dω,m と周波数帯域ごとの強度と位相Sω,m から、指定された位置での前記各音源からの信号を合成した帯域信号Z(ω)を推定する帯域信号成分推定ステップと、
帯域信号成分加算部で、各マイクkと前記指定された位置との距離に応じた重みをαkとしたとき、周波数帯域ωごとに、前記帯域信号Z(ω)と前記残差帯域信号Nk(ω)とから、
帯域統合部で、前記指定された位置での帯域信号Y(ω)を、時間領域の信号に変換する帯域統合ステップと
を有する音響信号合成方法。 The frequency or the direction D ω, m of each sound source m (m = 1, 2,..., Mω, Mω is the number of sound sources in the frequency band ω) for each frequency band ω and the frequency associated with the position or direction of the sound source. Each channel k (k = 1, 2,..., K, K is the number of channels) and a frequency band with a signal that is not associated with the intensity and phase S ω, m for each band ω and the position or direction of the sound source. a residual band signal N k (ω), which is a signal associated with ω, and an acoustic signal synthesis method in which a position for synthesizing a sound is input,
In the band signal component estimation unit, for each frequency band ω, a signal from each sound source at a specified position is obtained from the position or direction D ω, m of each sound source and the intensity and phase S ω, m for each frequency band. A band signal component estimation step for estimating the combined band signal Z (ω);
In the band signal component adding unit, when the weight corresponding to the distance between each microphone k and the designated position is α k , the band signal Z (ω) and the residual band signal N for each frequency band ω. From k (ω),
A band integrating step of converting a band signal Y (ω) at the designated position into a time domain signal in a band integrating unit.
音源推定部で、周波数帯域ωごとに、各音源m(m=1,2,…,Mω、Mωは周波数帯域ωにおける音源の数)の位置または方向Dω,mと強度と位相Sω,mと各マイクkの位置での各音源mからの信号Uk,ω,mを推定し、前記帯域信号Xk(ω)と前記信号Uk,ω,mとから、
帯域信号成分推定部で、周波数帯域ωごとに、各音源の位置または方向Dω,mと周波数帯域ごとの強度と位相Sω,mから、指定された位置での各音源からの信号を合成した帯域信号Z(ω)を推定する帯域信号成分推定ステップと、
帯域信号成分加算部で、各マイクkと前記指定された位置との距離に応じた重みをαkとしたとき、周波数帯域ωごとに、前記帯域信号Z(ω)と前記残差帯域信号Nk(ω)とから、
帯域統合部で、前記指定された位置での帯域信号Y(ω)を、時間領域の信号に変換する帯域統合ステップと
を有する音響信号推定合成方法。 A K-channel acoustic signal picked up by K (K is an integer equal to or greater than 2) microphones in the band dividing unit is obtained for each predetermined frequency band ω for each channel k (k = 1, 2,..., K). A band dividing step of dividing to generate a band signal X k (ω);
In the sound source estimation unit, for each frequency band ω, the position or direction D ω, m of each sound source m (m = 1, 2,..., Mω, where Mω is the number of sound sources in the frequency band ω), the intensity and phase S ω, m and the signal U k, ω, m from each sound source m at the position of each microphone k, and from the band signal X k (ω) and the signal U k, ω, m ,
The band signal component estimation unit synthesizes the signal from each sound source at the specified position from the position or direction D ω, m of each sound source and the intensity and phase S ω, m of each frequency band for each frequency band ω. A band signal component estimation step for estimating the band signal Z (ω) performed;
In the band signal component adding unit, when the weight corresponding to the distance between each microphone k and the designated position is α k , the band signal Z (ω) and the residual band signal N for each frequency band ω. From k (ω),
A band integration step of converting a band signal Y (ω) at the designated position into a time domain signal in a band integration unit.
A computer-readable recording medium on which the program according to claim 7 is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007259797A JP5294603B2 (en) | 2007-10-03 | 2007-10-03 | Acoustic signal estimation device, acoustic signal synthesis device, acoustic signal estimation synthesis device, acoustic signal estimation method, acoustic signal synthesis method, acoustic signal estimation synthesis method, program using these methods, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007259797A JP5294603B2 (en) | 2007-10-03 | 2007-10-03 | Acoustic signal estimation device, acoustic signal synthesis device, acoustic signal estimation synthesis device, acoustic signal estimation method, acoustic signal synthesis method, acoustic signal estimation synthesis method, program using these methods, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009089315A JP2009089315A (en) | 2009-04-23 |
JP5294603B2 true JP5294603B2 (en) | 2013-09-18 |
Family
ID=40662053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007259797A Active JP5294603B2 (en) | 2007-10-03 | 2007-10-03 | Acoustic signal estimation device, acoustic signal synthesis device, acoustic signal estimation synthesis device, acoustic signal estimation method, acoustic signal synthesis method, acoustic signal estimation synthesis method, program using these methods, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5294603B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2448289A1 (en) * | 2010-10-28 | 2012-05-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for deriving a directional information and computer program product |
PL2647222T3 (en) | 2010-12-03 | 2015-04-30 | Fraunhofer Ges Forschung | Sound acquisition via the extraction of geometrical information from direction of arrival estimates |
US10497381B2 (en) | 2012-05-04 | 2019-12-03 | Xmos Inc. | Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation |
US8694306B1 (en) * | 2012-05-04 | 2014-04-08 | Kaonyx Labs LLC | Systems and methods for source signal separation |
US9728182B2 (en) | 2013-03-15 | 2017-08-08 | Setem Technologies, Inc. | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
CN112599144B (en) * | 2020-12-03 | 2023-06-06 | Oppo(重庆)智能科技有限公司 | Audio data processing method, audio data processing device, medium and electronic equipment |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4616736B2 (en) * | 2005-09-09 | 2011-01-19 | 日本電信電話株式会社 | Sound collection and playback device |
-
2007
- 2007-10-03 JP JP2007259797A patent/JP5294603B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009089315A (en) | 2009-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3320692B1 (en) | Spatial audio processing apparatus | |
TWI530201B (en) | Sound acquisition via the extraction of geometrical information from direction of arrival estimates | |
US9622003B2 (en) | Speaker localization | |
JP5294603B2 (en) | Acoustic signal estimation device, acoustic signal synthesis device, acoustic signal estimation synthesis device, acoustic signal estimation method, acoustic signal synthesis method, acoustic signal estimation synthesis method, program using these methods, and recording medium | |
EP2360685B1 (en) | Noise suppression | |
KR101456866B1 (en) | Method and apparatus for extracting the target sound signal from the mixed sound | |
JP6019969B2 (en) | Sound processor | |
KR20070036777A (en) | Audio signal dereverberation | |
JP2005538633A (en) | Calibration of the first and second microphones | |
JP2008236077A (en) | Target sound extracting apparatus, target sound extracting program | |
EP1899954A1 (en) | System and method for extracting acoustic signals from signals emitted by a plurality of sources | |
JP6591477B2 (en) | Signal processing system, signal processing method, and signal processing program | |
CN111863015A (en) | Audio processing method and device, electronic equipment and readable storage medium | |
JP2007006253A (en) | Signal processor, microphone system, and method and program for detecting speaker direction | |
KR20090037845A (en) | Method and apparatus for extracting the target sound signal from the mixed sound | |
KR20080000478A (en) | Method and apparatus for removing noise from signals inputted to a plurality of microphones in a portable terminal | |
KR20170124279A (en) | Method and Apparatus for DEMON Processing in order that Removal of External Target Noise When measuring underwater radiated noise | |
JP2009020472A (en) | Sound processing apparatus and program | |
JP4568193B2 (en) | Sound collecting apparatus and method, program and recording medium | |
JP2006227328A (en) | Sound processor | |
JP4886616B2 (en) | Sound collection device, sound collection method, sound collection program using the method, and recording medium | |
JP4928376B2 (en) | Sound collection device, sound collection method, sound collection program using the method, and recording medium | |
JP5143802B2 (en) | Noise removal device, perspective determination device, method of each device, and device program | |
JP2006178333A (en) | Proximity sound separation and collection method, proximity sound separation and collecting device, proximity sound separation and collection program, and recording medium | |
JP2005062096A (en) | Detection method of speaker position, system, program and record medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100818 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110812 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5294603 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |