JP2015079131A - Acoustic signal processing device and acoustic signal processing program - Google Patents

Acoustic signal processing device and acoustic signal processing program Download PDF

Info

Publication number
JP2015079131A
JP2015079131A JP2013216255A JP2013216255A JP2015079131A JP 2015079131 A JP2015079131 A JP 2015079131A JP 2013216255 A JP2013216255 A JP 2013216255A JP 2013216255 A JP2013216255 A JP 2013216255A JP 2015079131 A JP2015079131 A JP 2015079131A
Authority
JP
Japan
Prior art keywords
sound
acoustic
acoustic signal
unit
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013216255A
Other languages
Japanese (ja)
Inventor
太 白木原
Futoshi Shirokibara
太 白木原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013216255A priority Critical patent/JP2015079131A/en
Publication of JP2015079131A publication Critical patent/JP2015079131A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide an acoustic signal processing device capable of reducing an arithmetic processing quantity, and an acoustic signal processing program.SOLUTION: A delay amount adjustment part 7 adjusts a delay time difference of a plurality of reflection voices V1, V2, ..., Vk to an integer multiple of a time corresponding to an FFT shift size. An acoustic block selection part 9 selects an acoustic block corresponding to a direct voice V0 and selects acoustic blocks corresponding to the plurality of reflection voices V1, V2, ..., Vk on the basis of the adjusted delay time difference. A convolution operation part 10 uses the selected acoustic blocks and a selected divided HRTF block to execute a convolution operation, in frequency domains, on the direct voice V0 and the plurality of reflection voices V1, V2, ..., Vk and performs complex vector addition on a result of the convolution operation. A time domain conversion part 11 successively converts the arithmetic result of the convolution operation part 10 into acoustic signals in time domains through IFFT.

Description

本発明は、音響空間における音を再現するための音響信号を出力する音響信号処理装置および音響信号処理プログラムに関する。   The present invention relates to an acoustic signal processing device and an acoustic signal processing program for outputting an acoustic signal for reproducing sound in an acoustic space.

コンサートホールまたは劇場等の音響空間における音響効果をリスニングルームにおいて再現するための種々の技術が開発されている(特許文献1〜3参照)。   Various techniques for reproducing the acoustic effect in an acoustic space such as a concert hall or a theater in a listening room have been developed (see Patent Documents 1 to 3).

音響空間内の音源から放射された音は、受聴者に直接到達するとともに、音響空間の壁または天井等により1回または複数反射した後に到達する。複数の反射音は、直接音に対してそれぞれの音線経路の長さに応じた遅延時間をもって受聴者に到来する。リスニングルームにおいて音響空間の音響効果を再現するために、音響空間内での複数の反射音と同じ遅延時間を有する複数の反射音が再生される。特許文献1に記載された反射音抽出装置では、予め記憶された複数の反射音と音楽信号とを畳み込むことにより音場が再現される。特許文献2に記載された残響付与装置では、発音点から受音点の方向が発音点の向きとして特定され、特定された発音点の向きを反映させたインパルス応答と音響効果を付与すべき音響信号との畳み込み演算が行われる。特許文献3に記載された残響付与装置では、発音点および受音点の指向特性等に応じて求められた音線合成ベクトルからインパルス応答が特定され、このインパルス応答が音響信号に畳み込み演算される。   The sound radiated from the sound source in the acoustic space reaches the listener directly and reaches after being reflected once or a plurality of times by the wall or ceiling of the acoustic space. The plurality of reflected sounds arrive at the listener with a delay time corresponding to the length of each sound ray path with respect to the direct sound. In order to reproduce the acoustic effect of the acoustic space in the listening room, a plurality of reflected sounds having the same delay time as the plurality of reflected sounds in the acoustic space are reproduced. In the reflected sound extraction apparatus described in Patent Document 1, a sound field is reproduced by convolving a plurality of reflected sounds and music signals stored in advance. In the reverberation imparting device described in Patent Literature 2, the direction from the sounding point to the sound receiving point is specified as the direction of the sounding point, and an impulse response and a sound effect to which a sound effect is reflected reflecting the direction of the specified sounding point. A convolution operation with the signal is performed. In the reverberation imparting device described in Patent Document 3, an impulse response is specified from a sound ray synthesis vector obtained according to the directivity characteristics of the sound generation point and the sound reception point, and the impulse response is convolved with the acoustic signal. .

また、仮想的な音響空間における反射音を再現するためには、異なる遅延時間を有する複数の反射音の音響信号と頭部伝達関数との畳み込み演算を行うことが考えられる。   In order to reproduce the reflected sound in the virtual acoustic space, it is conceivable to perform a convolution operation between the acoustic signals of a plurality of reflected sounds having different delay times and the head-related transfer function.

特開平5−46193号公報JP-A-5-46193 特許第4062959号Patent No. 4062959 特許第4464064号Japanese Patent No. 4464064

上記のように、実際の音響空間または仮想的な音響空間における複数の反射音を再現するためには、それぞれ異なる遅延時間を有する複数の音響信号とインパルス応答または頭部伝達関数との畳み込み演算を行う必要がある。   As described above, in order to reproduce a plurality of reflected sounds in an actual sound space or a virtual sound space, a convolution operation between a plurality of sound signals having different delay times and an impulse response or a head-related transfer function is performed. There is a need to do.

しかしながら、多数の反射音に対応する多数の音響信号が存在するため、畳み込み演算の処理量が増大する。その場合、リアルタイムな音響信号の入力に対して演算処理が遅れないように、高速動作が可能な演算処理装置を用いる必要がある。それにより、コストが増加するとともにシステムの小型化が困難となる。一方、比較的安価な演算処理装置を用いた場合には、音響信号のリアルタイムの入力に演算処理が遅れないように、音の再現精度を低下させざるを得ない。   However, since there are a large number of acoustic signals corresponding to a large number of reflected sounds, the processing amount of the convolution calculation increases. In that case, it is necessary to use an arithmetic processing device capable of high-speed operation so that the arithmetic processing is not delayed with respect to the input of the real-time acoustic signal. This increases the cost and makes it difficult to reduce the size of the system. On the other hand, when a relatively inexpensive arithmetic processing device is used, the sound reproduction accuracy has to be lowered so that the arithmetic processing is not delayed by the real-time input of the acoustic signal.

本発明の目的は、演算処理量を低減可能な音響信号処理装置および音響信号処理プログラムを提供することである。   An object of the present invention is to provide an acoustic signal processing device and an acoustic signal processing program capable of reducing the amount of calculation processing.

(1)本発明に係る音響信号処理装置は、第1の音源により放射されて受音点に到来する第1の音と少なくとも1つの第2の音源により放射されて第1の音から遅延して受音点に到来する少なくとも1つの第2の音とを混合した音を表す音響信号を出力する音響信号処理装置であって、第1の音と第2の音との間の遅延時間差を算出する算出部と、第1の音源により放射される第1の音を表す原音響信号を時間軸上で一定のシフト量ずつシフトしつつ順次時間−周波数変換することにより周波数領域の音響信号を得る第1の変換部と、算出部により算出された遅延時間差を時間−周波数変換のシフト量に相当する時間の整数倍に調整する調整部と、第1の変換部により得られた周波数領域の音響信号から第1の音に対応する第1の信号部分を選択し、調整部により調整された遅延時間差に基づいて、第1の変換部により得られた周波数領域の音響信号から第2の音に対応する第2の信号部分を選択する選択部と、第1の音源から受音点までの第1の音響伝達関数と選択部により選択された第1の信号部分との第1の畳み込み演算および第2の音源から受音点までの第2の音響伝達関数と選択部により選択された第2の信号部分との第2の畳み込み演算を周波数領域で行い、第1および第2の畳み込み演算の結果の加算を行う演算部と、演算部による加算の結果を時間領域の音響信号に変換する第2の変換部とを備えるものである。   (1) The acoustic signal processing device according to the present invention is delayed from the first sound by the first sound radiated from the first sound source and arriving at the sound receiving point and the at least one second sound source. An acoustic signal processing apparatus that outputs an acoustic signal representing a sound obtained by mixing at least one second sound arriving at a sound receiving point, and calculating a delay time difference between the first sound and the second sound. An acoustic signal in the frequency domain is obtained by performing time-frequency conversion sequentially while shifting the original acoustic signal representing the first sound radiated from the first sound source by a certain shift amount on the time axis. A first conversion unit to be obtained, an adjustment unit that adjusts the delay time difference calculated by the calculation unit to an integral multiple of a time corresponding to a shift amount of time-frequency conversion, and a frequency domain obtained by the first conversion unit. A first signal portion corresponding to the first sound from the acoustic signal; And selecting a second signal portion corresponding to the second sound from the acoustic signal in the frequency domain obtained by the first converter based on the delay time difference adjusted by the adjustment unit; A first convolution operation between the first sound transfer function from one sound source to the sound receiving point and the first signal portion selected by the selection unit, and a second sound transfer from the second sound source to the sound receiving point. A second convolution operation between the function and the second signal portion selected by the selection unit is performed in the frequency domain, and an addition result of the first and second convolution operations is added; Is converted to a time domain acoustic signal.

この音響信号処理装置においては、第1の音源に対応する第1の音と少なくとも1つの第2の音源に対応する少なくとも1つの第2の音との間の遅延時間差が算出される。さらに、算出された遅延時間差が時間−周波数変換のシフト量に相当する時間の整数倍に調整される。   In this acoustic signal processing device, a delay time difference between a first sound corresponding to the first sound source and at least one second sound corresponding to at least one second sound source is calculated. Further, the calculated delay time difference is adjusted to an integral multiple of the time corresponding to the shift amount of the time-frequency conversion.

第1の音を表す原音響信号が時間軸上で一定のシフト量ずつシフトされつつ順次時間−周波数変換されることにより周波数領域の音響信号が得られる。周波数領域の音響信号から第1の音に対応する第1の信号部分が選択され、調整された遅延時間差に基づいて、第2の音に対応する第2の信号部分が選択される。第1の音響伝達関数と第1の信号部分との第1の畳み込み演算および第2の音響伝達関数と第2の信号部分との第2の畳み込み演算が周波数領域で行われ、第1および第2の畳み込み演算の結果の加算が行われる。加算の結果が時間領域の音響信号に変換される。   The original acoustic signal representing the first sound is sequentially time-frequency converted while being shifted by a certain shift amount on the time axis, thereby obtaining an acoustic signal in the frequency domain. A first signal portion corresponding to the first sound is selected from the acoustic signal in the frequency domain, and a second signal portion corresponding to the second sound is selected based on the adjusted delay time difference. A first convolution operation between the first acoustic transfer function and the first signal portion and a second convolution operation between the second acoustic transfer function and the second signal portion are performed in the frequency domain, and the first and second The result of the convolution operation of 2 is added. The result of the addition is converted into an acoustic signal in the time domain.

この場合、周波数領域の音響信号における第1の信号部分と第2の信号部分との間の遅延時間差は時間−周波数変換のシフト量に相当する時間の整数倍であるため、第2の信号部分として、以前の時間−周波数変換により既に得られている第1の信号部分を用いることができる。そのため、第2の信号部分を得るための時間−周波数変換が不要である。また、第1および第2の畳み込み演算の結果の加算が周波数領域で行われるので、原音響信号の1つの信号部分(第1または第2の信号部分)当たり、音響ブロック周波数領域から時間領域への1回の変換により時間領域の音響信号を得ることができる。それにより、演算回数を低減することができる。その結果、受音点に到来する音を表す音響信号を出力するための演算処理における処理量を低減することが可能となる。   In this case, since the delay time difference between the first signal portion and the second signal portion in the acoustic signal in the frequency domain is an integral multiple of the time corresponding to the shift amount of the time-frequency conversion, the second signal portion The first signal portion already obtained by the previous time-frequency conversion can be used. Therefore, time-frequency conversion for obtaining the second signal portion is unnecessary. In addition, since the addition of the results of the first and second convolution operations is performed in the frequency domain, the sound block frequency domain is changed to the time domain per signal part (first or second signal part) of the original acoustic signal. An acoustic signal in the time domain can be obtained by a single conversion. Thereby, the number of calculations can be reduced. As a result, it is possible to reduce the amount of processing in the arithmetic processing for outputting the acoustic signal representing the sound arriving at the sound receiving point.

(2)第1の変換部は、原音響信号から第1のサンプル数の単位ブロックを順次取得し、単位ブロックを含みかつ第1のサンプル数よりも多い第2のサンプル数の音響信号を高速フーリエ変換し、第1の変換部、演算部および第2の変換部は、オーバラップセーブ法またはオーバラップアド法により高速フーリエ変換、第1および第2の畳み込み演算ならびに時間領域の音響信号への変換を行い、高速フーリエ変換のシフト量は単位ブロックのサンプル数に等しくてもよい。   (2) The first conversion unit sequentially obtains a unit block of the first number of samples from the original sound signal, and high-speeds an acoustic signal of the second number of samples including the unit block and larger than the first number of samples. Fourier transform, and the first transform unit, the computation unit, and the second transform unit perform fast Fourier transform, first and second convolution operations, and time domain acoustic signals by the overlap save method or the overlap add method. Conversion is performed, and the shift amount of the fast Fourier transform may be equal to the number of samples of the unit block.

この場合、単位ブロックのサイズを小さくすることにより、遅延時間差の調整による誤差および畳み込み演算における遅延時間を低減することができる。それにより、受音点に到来する音を高い精度で再現することができる。   In this case, by reducing the size of the unit block, it is possible to reduce the error due to the adjustment of the delay time difference and the delay time in the convolution calculation. As a result, the sound arriving at the sound receiving point can be reproduced with high accuracy.

(3)第1の音響伝達関数は複数の第1の分割伝達関数を含み、複数の第1の分割伝達関数は、第1の音源から受音点までの時間領域の第1の音響応答特性の分割により得られた複数の第1の分割応答特性が高速フーリエ変換されることにより得られ、第2の音響伝達関数は複数の第2の分割伝達関数を含み、複数の第2の分割伝達関数は、第2の音源から受音点までの時間領域の第2の音響応答特性の分割により得られた複数の第2の分割応答特性が高速フーリエ変換されることにより得られ、選択部は、複数の第1の分割伝達関数の分割数に応じた数の第1の信号部分を選択し、複数の第2の分割伝達関数の分割数に応じた数の複数の第2の信号部分を選択し、演算部は、複数の第1の分割伝達関数と選択部により選択された複数の第1の信号部分との第1の畳み込み演算および複数の第2の分割伝達関数と選択部により選択された複数の第2の信号部分との第2の畳み込み演算を周波数領域で行ってもよい。   (3) The first acoustic transfer function includes a plurality of first divided transfer functions, and the plurality of first divided transfer functions are the first acoustic response characteristics in the time domain from the first sound source to the sound receiving point. The plurality of first division response characteristics obtained by the division are obtained by fast Fourier transform, and the second acoustic transfer function includes a plurality of second division transfer functions, and a plurality of second division transfer functions The function is obtained by fast Fourier transforming a plurality of second divided response characteristics obtained by dividing the second acoustic response characteristic in the time domain from the second sound source to the sound receiving point. , Selecting a number of first signal portions according to the number of divisions of the plurality of first division transfer functions, and selecting a plurality of second signal portions according to the number of divisions of the plurality of second division transfer functions. The calculation unit selects a plurality of first divided transfer functions and a plurality of first divisions selected by the selection unit. The second convolution of the first convolution and a plurality of second divided transfer function and a plurality of second signal portion selected by the selection unit of the signal portion may be performed in the frequency domain.

この場合、各第1の信号部分のサイズが小さくなり、各第2の信号部分のサイズが小さくなる。それにより、時間領域の音響信号を高速フーリエ変換する際の演算回数が低減される。したがって、受音点に到来する音を表す音響信号を出力するための演算処理における処理量をより低減することが可能となる。   In this case, the size of each first signal portion is reduced, and the size of each second signal portion is reduced. This reduces the number of computations when fast Fourier transforming the time domain acoustic signal. Therefore, it is possible to further reduce the processing amount in the arithmetic processing for outputting the acoustic signal representing the sound arriving at the sound receiving point.

また、単位ブロックのサイズを小さくすることができるので、遅延時間差の調整による誤差および畳み込み演算における遅延時間を低減することができる。それにより、受音点に到来する音をより高い精度で再現することができる。   In addition, since the size of the unit block can be reduced, it is possible to reduce the error due to the adjustment of the delay time difference and the delay time in the convolution calculation. Thereby, the sound arriving at the sound receiving point can be reproduced with higher accuracy.

(4)第1の音は、第1の音源から反射することなく受音点に到来する直接音であり、第2の音は、第1の音源から反射しつつ到来する反射音であり、第2の音源は、反射音を仮想的に放射する仮想音源であってもよい。   (4) The first sound is a direct sound that arrives at the receiving point without being reflected from the first sound source, and the second sound is a reflected sound that is reflected while being reflected from the first sound source, The second sound source may be a virtual sound source that virtually radiates reflected sound.

この場合、実際の音響空間または仮想的な音響空間において受音点に到来する音を再現することが可能となる。   In this case, it is possible to reproduce the sound that arrives at the sound receiving point in an actual acoustic space or a virtual acoustic space.

(5)本発明に係る音響信号処理プログラムは、第1の音源により放射されて受音点に到来する第1の音と少なくとも1つの第2の音源により放射されて第1の音から遅延して受音点に到来する少なくとも1つの第2の音とを混合した音を表す音響信号を出力するためにコンピュータにより実行可能な音響信号処理プログラムであって、第1の音と第2の音との間の遅延時間差を算出する処理と、第1の音源により放射される第1の音を表す原音響信号を時間軸上で一定のシフト量ずつシフトしつつ時間−周波数変換することにより周波数領域の音響信号を得る処理と、算出された遅延時間差を時間−周波数変換のシフト量に相当する時間の整数倍に調整する処理と、周波数領域の音響信号から第1の音に対応する第1の信号部分を選択し、調整された遅延時間差に基づいて、周波数領域の音響信号から第2の音に対応する第2の信号部分を選択する処理と、第1の音源から受音点までの第1の音響伝達関数と選択された第1の信号部分との第1の畳み込み演算および第2の音源から受音点までの第2の音響伝達関数と選択された第2の信号部分との第2の畳み込み演算を周波数領域で行い、第1および第2の畳み込み演算の結果の加算を行う処理と、加算の結果を時間領域の音響信号に変換する処理とを、コンピュータに実行させるものである。   (5) The acoustic signal processing program according to the present invention is delayed from the first sound by the first sound radiated from the first sound source and arriving at the sound receiving point and the at least one second sound source. An acoustic signal processing program executable by a computer to output an acoustic signal representing a sound obtained by mixing at least one second sound arriving at a sound receiving point, the first sound and the second sound Frequency by performing a time-frequency conversion while shifting the original sound signal representing the first sound radiated by the first sound source by a certain shift amount on the time axis. A process for obtaining an acoustic signal in the region, a process for adjusting the calculated delay time difference to an integral multiple of a time corresponding to the shift amount of the time-frequency conversion, and a first corresponding to the first sound from the acoustic signal in the frequency domain Select the signal part of A process of selecting a second signal portion corresponding to the second sound from the frequency domain acoustic signal based on the adjusted delay time difference, a first acoustic transfer function from the first sound source to the sound receiving point, and The first convolution operation with the selected first signal portion and the second convolution operation between the second sound transfer function from the second sound source to the sound receiving point and the selected second signal portion with the frequency are performed. The computer executes a process of performing addition of the results of the first and second convolution operations in the area and a process of converting the result of the addition into an acoustic signal in the time domain.

この音響信号処理プログラムによれば、周波数領域の音響信号における第1の信号部分と第2の信号部分との間の遅延時間差は時間−周波数変換のシフト量に相当する時間の整数倍であるため、第2の信号部分として、以前の時間−周波数変換により既に得られている第1の信号部分を用いることができる。そのため、第2の信号部分を得るための時間−周波数変換が不要である。また、第1および第2の畳み込み演算の結果の加算が周波数領域で行われるので、原音響信号の1つの信号部分(第1または第2の信号部分)当たり、周波数領域から時間領域への1回の変換により時間領域の音響信号を出力することができる。それにより、演算回数を低減することができる。その結果、受音点に到来する音を表す音響信号を出力するための演算処理における処理量を低減することが可能となる。   According to this acoustic signal processing program, the delay time difference between the first signal portion and the second signal portion in the frequency domain acoustic signal is an integral multiple of the time corresponding to the shift amount of the time-frequency conversion. As the second signal part, the first signal part already obtained by the previous time-frequency conversion can be used. Therefore, time-frequency conversion for obtaining the second signal portion is unnecessary. In addition, since the addition of the results of the first and second convolution operations is performed in the frequency domain, one signal portion (first or second signal portion) of the original acoustic signal is 1 from the frequency domain to the time domain. An acoustic signal in the time domain can be output by the conversion of times. Thereby, the number of calculations can be reduced. As a result, it is possible to reduce the amount of processing in the arithmetic processing for outputting the acoustic signal representing the sound arriving at the sound receiving point.

本発明によれば、受音点に到来する音を表す音響信号を出力するための演算処理における処理量を低減することが可能となる。   ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to reduce the processing amount in the arithmetic processing for outputting the acoustic signal showing the sound which arrives at a sound receiving point.

本発明の一実施の形態に係る音響信号処理装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the acoustic signal processing apparatus which concerns on one embodiment of this invention. 仮想的な音響空間を示す模式図である。It is a schematic diagram which shows virtual acoustic space. 図1の音響信号処理装置のハードウエア構成の一例を示すブロック図である。It is a block diagram which shows an example of the hardware constitutions of the acoustic signal processing apparatus of FIG. 時間領域の頭部インパルス応答および周波数領域の頭部伝達関数の説明図である。It is explanatory drawing of the head impulse response of a time domain, and the head-related transfer function of a frequency domain. HRTFデータベースに格納される複数組の分割HRTFブロックを示す模式図である。It is a schematic diagram showing a plurality of sets of divided HRTF blocks stored in the HRTF database. 時間領域の原音響信号および周波数領域の音響ブロックの説明図である。It is explanatory drawing of the original acoustic signal of a time domain, and the acoustic block of a frequency domain. 直接音および反射音に対応する頭部インパルス応答、頭部伝達関数、調整前の遅延量、調整後の遅延量および遅延ブロック数を示す図である。It is a figure which shows the head impulse response corresponding to a direct sound and a reflected sound, a head-related transfer function, the delay amount before adjustment, the delay amount after adjustment, and the number of delay blocks. 周波数領域での分割HRTFブロックと音響ブロックとの畳み込み演算を示す図である。It is a figure which shows the convolution calculation of the division | segmentation HRTF block and acoustic block in a frequency domain. 時間領域での音響信号のつなぎ合わせを示す図である。It is a figure which shows the joining of the acoustic signal in a time domain. 図1の音響信号処理装置により行われる音響信号処理を示すフローチャートである。It is a flowchart which shows the acoustic signal process performed by the acoustic signal processing apparatus of FIG. 畳み込み演算処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of a convolution calculation process. 参考形態に係る畳み込み演算処理における周波数領域での分割HRTFブロックと音響ブロックとの畳み込み演算を示す図である。It is a figure which shows the convolution calculation of the division | segmentation HRTF block and acoustic block in the frequency domain in the convolution calculation process which concerns on a reference form. 参考形態に係る畳み込み演算処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of the convolution calculation process which concerns on a reference form. 分割オーバラップアド法を用いた場合の時間領域の原音響信号および周波数領域の音響ブロックの説明図である。It is explanatory drawing of the original sound signal of a time domain at the time of using a division | segmentation overlap add method, and the sound block of a frequency domain. 分割オーバラップアド法を用いた場合の時間領域での音響信号のつなぎ合わせを示す図である。It is a figure which shows the joining of the acoustic signal in the time domain at the time of using a division | segmentation overlap add method.

以下、本発明の実施の形態に係る音響信号処理装置および音響信号プログラムについて図面を用いて詳細に説明する。   Hereinafter, an acoustic signal processing device and an acoustic signal program according to embodiments of the present invention will be described in detail with reference to the drawings.

(1)音響信号処理装置の機能的な構成
図1は本発明の一実施の形態に係る音響信号処理装置の構成を示す機能ブロック図である。図2は仮想的な音響空間を示す模式図である。図3は図1の音響信号処理装置のハードウエア構成の一例を示すブロック図である。
(1) Functional Configuration of Acoustic Signal Processing Device FIG. 1 is a functional block diagram showing a configuration of an acoustic signal processing device according to an embodiment of the present invention. FIG. 2 is a schematic diagram showing a virtual acoustic space. FIG. 3 is a block diagram showing an example of a hardware configuration of the acoustic signal processing apparatus of FIG.

図1の音響信号処理装置100は、仮想的な音響空間(以下、仮想空間と呼ぶ)内で受音点に到来する音を表す音響信号を出力する。ここで、図2を参照して仮想空間の一例を説明する。   The acoustic signal processing device 100 in FIG. 1 outputs an acoustic signal representing a sound arriving at a sound receiving point in a virtual acoustic space (hereinafter referred to as a virtual space). Here, an example of the virtual space will be described with reference to FIG.

図2において、仮想空間300内に主音源S0および受音点Rが配置される。仮想空間300、主音源S0および受音点Rはコンピュータプログラム上で仮想的に作成される。主音源S0から音が前後、左右および上下の3次元方向に放射される。主音源S0から放射された音は、受音点Rに直接音V0として到達するとともに、仮想空間300の壁または天井等により1回または複数回反射され、受音点Rに複数の反射音V1,V2,V3,V4,…,Vkとして到達する。ここで、kは自然数であり、反射音の数を表す。図2では、複数の反射音V1,V2,V3,V4,…,Vkの方向が2次元方向で表されているが、複数の反射音V1,V2,V3,V4,…,Vkの方向が3次元方向で表されてもよい。   In FIG. 2, the main sound source S0 and the sound receiving point R are arranged in the virtual space 300. The virtual space 300, the main sound source S0, and the sound receiving point R are virtually created on a computer program. Sound is emitted from the main sound source S0 in the three-dimensional directions of front and rear, left and right, and upper and lower. The sound radiated from the main sound source S0 reaches the sound receiving point R as a direct sound V0 and is reflected once or a plurality of times by the wall or ceiling of the virtual space 300, and a plurality of reflected sounds V1 are received at the sound receiving point R. , V2, V3, V4, ..., Vk. Here, k is a natural number and represents the number of reflected sounds. In FIG. 2, the directions of the plurality of reflected sounds V1, V2, V3, V4,..., Vk are represented in a two-dimensional direction, but the directions of the plurality of reflected sounds V1, V2, V3, V4,. It may be expressed in a three-dimensional direction.

複数の反射音V1,V2,V3,V4,…,Vkは、等価的にそれぞれ仮想音源S1,S2,S3,S4,…,Skから放射されるものとみなすことができる。仮想音源S1,S2,S3,S4,…,Skは、受音点Rから反射音V1,V2,V3,V4,…,Vkの入射方向と逆方向に向かう直線上に位置する。受音点Rと仮想音源S1,S2,S3,S4,…,Skとの間の距離は、反射音V1,V2,V3,V4,…,Vkが主音源S0から受音点Rに到達するまでの経路の長さに等しい。   The plurality of reflected sounds V1, V2, V3, V4,..., Vk can be regarded as equivalently emitted from the virtual sound sources S1, S2, S3, S4,. The virtual sound sources S1, S2, S3, S4,..., Sk are located on a straight line from the sound receiving point R in the direction opposite to the incident direction of the reflected sounds V1, V2, V3, V4,. The distance between the sound receiving point R and the virtual sound sources S1, S2, S3, S4, ..., Sk is such that the reflected sounds V1, V2, V3, V4, ..., Vk reach the sound receiving point R from the main sound source S0. Equal to the length of the path to

以下、主音源S0から放射された音が直接音V0として受音点Rに到達するまでの時間を遅延量と呼ぶ。同様に、主音源S0から放射された音が反射音V1,V2,…,Vkとして受音点Rに到達するまでの時間を遅延量と呼ぶ。反射音V1,V2,…,Vkの遅延量は、直接音V0の遅延量よりも大きい。反射音V1,V2,…,Vkの遅延量と直接音V0の遅延量との差を遅延時間差と呼ぶ。   Hereinafter, the time until the sound radiated from the main sound source S0 reaches the sound receiving point R as the direct sound V0 is referred to as a delay amount. Similarly, the time until the sound radiated from the main sound source S0 reaches the sound receiving point R as the reflected sounds V1, V2,. The delay amount of the reflected sounds V1, V2,..., Vk is larger than the delay amount of the direct sound V0. The difference between the delay amount of the reflected sounds V1, V2,..., Vk and the delay amount of the direct sound V0 is called a delay time difference.

受音点Rに到来する音の方向ごとに周波数領域の頭部伝達関数(HRTF;Head-Related Transfer Function)が予め求められる。すなわち、複数の方向に対応する複数の頭部伝達関数が予め求められる。ここで、受音点Rに到来する音の方向が3次元方向で表されている場合、複数の3次元方向にそれぞれ対応する頭部伝達関数が予め求められる。受音点Rでの直接音V0の到来方向に対応する頭部伝達関数は、主音源S0から受音点Rまでの音の伝達特性を示す。受音点Rでの反射音V1,V2,…,Vkの到来方向に対応する頭部伝達関数は、それぞれ仮想音源S1,S2,…,Skから受音点Rまでの音の伝達特性を示す。これらの頭部伝達関数は、後述するように受音点Rに到来する音を表す音響信号を算出するために用いられる。   A head-related transfer function (HRTF) in the frequency domain is obtained in advance for each direction of sound arriving at the receiving point R. That is, a plurality of head related transfer functions corresponding to a plurality of directions are obtained in advance. Here, when the direction of the sound arriving at the sound receiving point R is represented in a three-dimensional direction, head related transfer functions respectively corresponding to a plurality of three-dimensional directions are obtained in advance. The head-related transfer function corresponding to the direction of arrival of the direct sound V0 at the sound receiving point R indicates a sound transfer characteristic from the main sound source S0 to the sound receiving point R. The head-related transfer functions corresponding to the arrival directions of the reflected sounds V1, V2,..., Vk at the sound receiving point R indicate the sound transfer characteristics from the virtual sound sources S1, S2,. . These head-related transfer functions are used to calculate an acoustic signal representing a sound arriving at the sound receiving point R as will be described later.

図1において、音響信号処理装置100は、部屋形状指示部1、主音源位置指示部2、頭部伝達関数データベース(以下、HRTFデータベースと呼ぶ)3、および頭部伝達関数ブロック選択部(以下、HRTFブロック選択部と呼ぶ)4を含む。また、音響信号処理装置100は、仮想音源位置算出部5、遅延量算出部6、遅延量調整部7、遅延ブロック数算出部8、および音響ブロック選択部9を含む。さらに、音響信号処理装置100は、畳み込み演算部10、時間領域変換部11、音響信号出力部12、音響信号入力部13、周波数領域変換部14、および周波数領域音響バッファ15を含む。音響信号処理装置100の全体は同一のサンプリング周波数で動作する。音響信号処理装置100の全体のサンプリング周波数をサンプリング周波数fsと表記する。サンプリング周波数fsは、例えば48kHzである。   In FIG. 1, an acoustic signal processing apparatus 100 includes a room shape instruction unit 1, a main sound source position instruction unit 2, a head related transfer function database (hereinafter referred to as HRTF database) 3, and a head related transfer function block selection unit (hereinafter referred to as “head transfer function block selection unit”). 4) (referred to as an HRTF block selector). The acoustic signal processing device 100 includes a virtual sound source position calculation unit 5, a delay amount calculation unit 6, a delay amount adjustment unit 7, a delay block number calculation unit 8, and an acoustic block selection unit 9. Furthermore, the acoustic signal processing device 100 includes a convolution operation unit 10, a time domain conversion unit 11, an acoustic signal output unit 12, an acoustic signal input unit 13, a frequency domain conversion unit 14, and a frequency domain acoustic buffer 15. The entire acoustic signal processing apparatus 100 operates at the same sampling frequency. The overall sampling frequency of the acoustic signal processing apparatus 100 is denoted as sampling frequency fs. The sampling frequency fs is 48 kHz, for example.

部屋形状指示部1は、仮想空間の形状(以下、部屋形状と呼ぶ)を指示する部屋データを出力する。例えば、部屋形状指示部1は、ユーザが画面上でマウス等の入力装置を用いて描画した部屋形状を示す部屋データを出力し、または予め準備された複数の部屋形状のうちユーザにより選択された部屋形状を示す部屋データを出力する。あるいは、部屋形状指示部1は、プログラム上で動的に部屋データを出力してもよい。例えば、ビデオゲームにおいてキャラクターの位置によりプログラムが適切な部屋データを選択してもよい。この場合、ビデオゲームのプログラムの一部が部屋形状指示部1に相当する。   The room shape instructing unit 1 outputs room data instructing the shape of the virtual space (hereinafter referred to as a room shape). For example, the room shape instructing unit 1 outputs room data indicating the room shape drawn by the user using an input device such as a mouse on the screen, or is selected by the user from a plurality of room shapes prepared in advance. Outputs room data indicating the room shape. Or the room shape instruction | indication part 1 may output room data dynamically on a program. For example, in a video game, the program may select appropriate room data depending on the position of the character. In this case, a part of the video game program corresponds to the room shape instruction unit 1.

主音源位置指示部2は、仮想空間内での主音源S0の位置を示す位置データを出力する。例えば、主音源位置指示部2は、ユーザが画面上で描画した部屋形状を有する仮想空間内での主音源S0の位置を示す位置データを出力する。あるいは、主音源位置指示部2は、プログラム上で動的に位置データを出力してもよい。例えば、ビデオゲームにおけるキャラクターの位置を示す位置データをプログラムが出力してもよい。この場合、ビデオゲームのプログラムの一部が主音源位置指示部2に相当する。主音源S0の位置データは、例えば、受音点Rから主音源S0へ向かう方向および受音点Rから主音源S0までの距離を表すベクトルデータからなる。   The main sound source position instruction unit 2 outputs position data indicating the position of the main sound source S0 in the virtual space. For example, the main sound source position instruction unit 2 outputs position data indicating the position of the main sound source S0 in a virtual space having a room shape drawn on the screen by the user. Alternatively, the main sound source position instruction unit 2 may dynamically output position data on the program. For example, the program may output position data indicating the position of the character in the video game. In this case, a part of the video game program corresponds to the main sound source position instruction unit 2. The position data of the main sound source S0 includes, for example, vector data representing the direction from the sound receiving point R to the main sound source S0 and the distance from the sound receiving point R to the main sound source S0.

仮想音源位置算出部5は、部屋形状指示部1から出力される部屋データおよび主音源位置指示部2から出力される位置データに基づいて、受音点Rに到来する複数の反射音V1,V2,…,Vkを仮想的に放射する複数の仮想音源S1,S2,…,Skの位置を算出する。仮想音源位置算出部5からは、複数の仮想音源S1,S2,…,Skの位置を示す位置データが出力される。仮想音源S1,S2,…,Skの位置データは、例えば、受音点Rから仮想音源S1,S2,…,Skへ向かう方向と受音点Rから仮想音源S1,S2,…,Skまでの距離とを表すベクトルデータからなる。また、仮想音源位置算出部5は、直接音V0に対する複数の反射音V1,V2,…,Vkの振幅減衰量を算出する。振幅減衰量は、各反射音V1,V2,…,Vkごとに、音の経路の長さ(距離)、反射の回数および各反射面の吸音率等に基づいて算出される。なお、振幅減衰量の算出処理が音の周波数帯域により異なるように行われてもよい。   Based on the room data output from the room shape instruction unit 1 and the position data output from the main sound source position instruction unit 2, the virtual sound source position calculation unit 5 has a plurality of reflected sounds V1 and V2 that arrive at the sound receiving point R. ,..., Vk, and the positions of a plurality of virtual sound sources S1, S2,. The virtual sound source position calculation unit 5 outputs position data indicating the positions of the plurality of virtual sound sources S1, S2,. The position data of the virtual sound sources S1, S2,..., Sk is, for example, the direction from the sound receiving point R to the virtual sound sources S1, S2,. It consists of vector data representing the distance. In addition, the virtual sound source position calculation unit 5 calculates the amplitude attenuation amount of the plurality of reflected sounds V1, V2,..., Vk with respect to the direct sound V0. The amplitude attenuation amount is calculated for each reflected sound V1, V2,..., Vk based on the length (distance) of the sound path, the number of reflections, the sound absorption coefficient of each reflecting surface, and the like. The calculation process of the amplitude attenuation amount may be performed so as to vary depending on the frequency band of the sound.

遅延量算出部6は、主音源位置指示部2から出力される位置データに基づいて直接音V0の遅延量を算出するとともに、仮想音源位置算出部5から出力される位置データに基づいて複数の反射音V1,V2,…,Vkの遅延量をそれぞれ算出する。ここで、複数の反射音V1,V2,…,Vkの遅延量と直接音V0の遅延量との差を遅延時間差と呼ぶ。   The delay amount calculation unit 6 calculates the delay amount of the direct sound V0 based on the position data output from the main sound source position instruction unit 2, and a plurality of delays based on the position data output from the virtual sound source position calculation unit 5. The delay amounts of the reflected sounds V1, V2,. Here, the difference between the delay amount of the plurality of reflected sounds V1, V2,..., Vk and the delay amount of the direct sound V0 is referred to as a delay time difference.

遅延量調整部7は、複数の反射音V1,V2,…,Vkの遅延時間差がサンプリング周波数fsとFFT(高速フーリエ変換)シフトサイズとにより定まる時間の整数倍になるように複数の反射音V1,V2,…,Vkの遅延量を調整する。なお、FFTシフトサイズについては後述する。具体的には、各反射音の遅延時間差がFFTシフトサイズをサンプリング周波数fsで除算することにより得られる時間の整数倍になるように各反射音の遅延量が調整される。この場合、調整後の反射音V1,V2,…,Vkの遅延量と調整前の反射音V1,V2,…,Vkの遅延量と間の誤差が最小となるように整数が選択される。   The delay amount adjusting unit 7 includes a plurality of reflected sounds V1 such that a delay time difference between the plurality of reflected sounds V1, V2,..., Vk is an integral multiple of a time determined by the sampling frequency fs and the FFT (Fast Fourier Transform) shift size. , V2,..., Vk are adjusted. The FFT shift size will be described later. Specifically, the delay amount of each reflected sound is adjusted so that the delay time difference between the reflected sounds is an integral multiple of the time obtained by dividing the FFT shift size by the sampling frequency fs. In this case, an integer is selected so that an error between the delay amount of the reflected sounds V1, V2,..., Vk after adjustment and the delay amount of the reflected sounds V1, V2,.

遅延ブロック数算出部8は、複数の反射音V1,V2,…,Vkについての遅延ブロック数を算出する。ここで、遅延ブロック数とは、調整後の遅延時間差に相当する単位ブロック(フレーム)の数である。単位ブロックとは、一度に処理される音響信号のサンプル(すなわち音響信号の処理単位)である。本実施の形態では、単位ブロックはNサンプルからなる。Nは自然数である。   The delay block number calculation unit 8 calculates the number of delay blocks for a plurality of reflected sounds V1, V2,. Here, the number of delay blocks is the number of unit blocks (frames) corresponding to the adjusted delay time difference. A unit block is a sample of an acoustic signal that is processed at one time (that is, an acoustic signal processing unit). In the present embodiment, the unit block consists of N samples. N is a natural number.

音響信号入力部13は、時間領域の音響信号を入力する。例えば、音響信号入力部13は、外部機器またはマイクロフォンから音響入力端子に与えられるアナログの音響信号をサンプリング周波数fsでデジタルの音響信号に変換する。あるいは、音響信号入力部13は、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体に記憶されたデジタルの音響信号を入力する。以下、音響信号入力部13により入力された時間領域の音響信号を原音響信号と呼ぶ。原音響信号のサンプリング周波数はfsである。   The acoustic signal input unit 13 inputs a time domain acoustic signal. For example, the acoustic signal input unit 13 converts an analog acoustic signal given to an acoustic input terminal from an external device or a microphone into a digital acoustic signal at a sampling frequency fs. Alternatively, the acoustic signal input unit 13 inputs a digital acoustic signal stored in a storage medium such as an optical disk, a magnetic disk, or a memory card. Hereinafter, the time-domain acoustic signal input by the acoustic signal input unit 13 is referred to as an original acoustic signal. The sampling frequency of the original sound signal is fs.

周波数領域変換部14は、音響信号入力部13により入力された原音響信号をFFT(高速フーリエ変換)により周波数領域の音響信号の信号部分に順次変換する。以下、周波数領域の音響信号の信号部分を音響ブロックと呼ぶ。周波数領域変換部14により変換された音響ブロックは、周波数領域音響バッファ15に順次格納される。   The frequency domain conversion unit 14 sequentially converts the original acoustic signal input from the acoustic signal input unit 13 into a signal portion of the frequency domain acoustic signal by FFT (Fast Fourier Transform). Hereinafter, the signal portion of the frequency domain acoustic signal is referred to as an acoustic block. The acoustic blocks converted by the frequency domain converting unit 14 are sequentially stored in the frequency domain acoustic buffer 15.

音響ブロック選択部9は、遅延ブロック数算出部8により算出された遅延ブロック数に基づいて、周波数領域音響バッファ15に格納された音響ブロックから、直接音V0および複数の反射音V1,V2,…,Vkに対応する音響ブロックを選択する。   Based on the number of delay blocks calculated by the delay block number calculation unit 8, the acoustic block selection unit 9 generates a direct sound V 0 and a plurality of reflected sounds V 1, V 2,... From the acoustic block stored in the frequency domain acoustic buffer 15. , Vk is selected.

一方、HRTFデータベース3には、周波数領域の複数組の分割頭部伝達関数(以下、分割HRFTブロックと呼ぶ)が予め格納される。分割HRTFブロックの詳細については後述する。複数組の分割HRTFブロックは、受音点Rに到来する音の複数の方向に対応して予め準備されている。受音点Rに到来する音の方向が3次元方向で表される場合、複数組の分割HRTFブロックはそれぞれ3次元方向に対応する。   On the other hand, in the HRTF database 3, a plurality of sets of divided head related transfer functions (hereinafter referred to as divided HRFT blocks) in the frequency domain are stored in advance. Details of the divided HRTF block will be described later. A plurality of sets of divided HRTF blocks are prepared in advance corresponding to a plurality of directions of sound arriving at the sound receiving point R. When the direction of the sound arriving at the sound receiving point R is represented by a three-dimensional direction, the plurality of sets of divided HRTF blocks respectively correspond to the three-dimensional direction.

HRTFブロック選択部4は、主音源位置指示部2および仮想音源位置算出部5から出力される位置データに基づいて、HRTFデータベース3に格納される複数組の分割HRTFブロックから、直接音V0および複数の反射音V1,V2,V3,…,Vkに対応する分割HRTFブロックを選択する。   Based on the position data output from the main sound source position instructing unit 2 and the virtual sound source position calculating unit 5, the HRTF block selecting unit 4 receives the direct sound V0 and the plurality of direct sounds V0 from a plurality of sets of divided HRTF blocks stored in the HRTF database 3. The divided HRTF blocks corresponding to the reflected sounds V1, V2, V3,.

畳み込み演算部10は、音響ブロック選択部9により選択された音響ブロックおよびHRTFブロック選択部4により選択された分割HRTFブロックを用いて、直接音V0および複数の反射音V1,V2,…,Vkについての周波数領域での畳み込み演算を行い、畳み込み演算の結果を複素ベクトル加算する。この場合、畳み込み演算部10は、仮想音源位置算出部5により算出された振幅減衰量に基づいて音響ブロックにおける各周波数成分の振幅を調整する。   The convolution operation unit 10 uses the acoustic block selected by the acoustic block selection unit 9 and the divided HRTF block selected by the HRTF block selection unit 4 to perform direct sound V0 and a plurality of reflected sounds V1, V2,. The convolution operation in the frequency domain is performed, and the result of the convolution operation is added as a complex vector. In this case, the convolution operation unit 10 adjusts the amplitude of each frequency component in the acoustic block based on the amplitude attenuation amount calculated by the virtual sound source position calculation unit 5.

時間領域変換部11は、畳み込み演算部10の演算結果をIFFT(逆高速フーリエ変換)により時間領域の音響信号に順次変換する。   The time domain conversion unit 11 sequentially converts the calculation results of the convolution calculation unit 10 into time domain acoustic signals by IFFT (Inverse Fast Fourier Transform).

音響信号出力部12は、時間領域変換部11により変換されたサンプリング周波数fsの音響信号を出力する。例えば、音響信号出力部12は、サンプリング周波数fsのデジタルの音響信号をアナログの音響信号に変換し、音響出力端子を通してヘッドフォンまたはスピーカにアナログの音響信号を出力する。それにより、ヘッドフォンまたはスピーカから音が発生される。   The acoustic signal output unit 12 outputs an acoustic signal having the sampling frequency fs converted by the time domain conversion unit 11. For example, the acoustic signal output unit 12 converts a digital acoustic signal having a sampling frequency fs into an analog acoustic signal, and outputs the analog acoustic signal to a headphone or a speaker through an acoustic output terminal. Thereby, sound is generated from the headphone or the speaker.

本実施の形態では、分割HRTFブロックを用いたオーバラップセーブ(Overlap-Save)法により周波数領域での畳み込み演算が行われる。以下、分割HRTFブロックを用いたオーバラップセーブ法を分割オーバラップセーブ法と呼ぶ。   In the present embodiment, a convolution operation in the frequency domain is performed by an overlap-save method using divided HRTF blocks. Hereinafter, the overlap save method using the divided HRTF block is referred to as a divided overlap save method.

(2)音響信号処理装置のハードウエア構成
図3は音響信号処理装置100のハードウエア構成の一例を示すブロック図である。
(2) Hardware Configuration of Acoustic Signal Processing Device FIG. 3 is a block diagram showing an example of the hardware configuration of the acoustic signal processing device 100.

図3の音響信号処理装置100は、CPU(中央演算処理装置)110、ROM(リードオンリメモリ)120、RAM(ランダムアクセスメモリ)130、記憶装置140、表示装置150、入力装置160および出力装置170を含む。   3 includes a CPU (Central Processing Unit) 110, a ROM (Read Only Memory) 120, a RAM (Random Access Memory) 130, a storage device 140, a display device 150, an input device 160, and an output device 170. including.

ROM120は、例えば不揮発性メモリからなり、システムプログラムおよび音響信号処理プログラム等のコンピュータプログラムを記憶する。RAM130は、例えば揮発性メモリからなり、CPU110の作業領域として用いられるとともに、各種データを一時的に記憶する。CPU110は、ROM120に記憶された音響信号処理プログラムをRAM130上で実行することにより後述する音響信号処理を行う。この場合、図1の各構成要素の機能が実現される。   The ROM 120 is composed of, for example, a non-volatile memory, and stores computer programs such as a system program and an acoustic signal processing program. The RAM 130 is composed of, for example, a volatile memory, is used as a work area for the CPU 110, and temporarily stores various data. The CPU 110 performs acoustic signal processing described later by executing an acoustic signal processing program stored in the ROM 120 on the RAM 130. In this case, the function of each component in FIG. 1 is realized.

記憶装置140は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含む。この記憶装置140には、図1のHRTFデータベース3および周波数領域音響バッファ15が構成される。上記の音響信号処理プログラムが記憶装置140に記憶されてもよい。また、例えば、図1の音響信号処理装置100がビデオゲームのプログラムの一部として構成される場合、ビデオゲームのプログラムが記憶装置140に記憶されてもよい。   The storage device 140 includes a storage medium such as a hard disk, an optical disk, a magnetic disk, or a memory card. The storage device 140 includes the HRTF database 3 and the frequency domain acoustic buffer 15 shown in FIG. The acoustic signal processing program may be stored in the storage device 140. Further, for example, when the audio signal processing device 100 of FIG. 1 is configured as a part of a video game program, the video game program may be stored in the storage device 140.

なお、本実施の形態における音響信号処理プログラムは、コンピュータが読み取り可能な記録媒体に格納された形態で提供されてROM120または記憶装置140にインストールされてもよく、通信網を介した配信の形態で提供されてROM120または記憶装置140にインストールされてもよい。   The acoustic signal processing program in the present embodiment may be provided in a form stored in a computer-readable recording medium and installed in the ROM 120 or the storage device 140, or in a form distributed via a communication network. It may be provided and installed in the ROM 120 or the storage device 140.

表示装置150は、液晶表示装置、有機EL(エレクトロルミネッセンス)表示装置またはプラズマディスプレイ装置等からなる。入力装置160は、マウス、キーボード、および音響入力端子等を含む。入力装置160がビデオゲーム用のコントローラであってもよい。   The display device 150 includes a liquid crystal display device, an organic EL (electroluminescence) display device, a plasma display device, or the like. The input device 160 includes a mouse, a keyboard, and an acoustic input terminal. The input device 160 may be a video game controller.

表示装置150および入力装置160は、例えばユーザが画面上で部屋形状および主音源の位置を指示するために用いられる。表示装置150および入力装置160がタッチパネルとして一体化されてもよい。   The display device 150 and the input device 160 are used, for example, for the user to indicate the room shape and the position of the main sound source on the screen. The display device 150 and the input device 160 may be integrated as a touch panel.

出力装置170は、音響出力端子およびヘッドフォン等を含む。出力装置170がスピーカを含んでもよい。出力装置170の音響出力端子からは音響信号処理により得られた音響信号が出力される。   The output device 170 includes a sound output terminal and headphones. The output device 170 may include a speaker. An acoustic signal obtained by acoustic signal processing is output from the acoustic output terminal of the output device 170.

音響信号処理装置100は、CPU110の代わりにDSP(Digital Signal Processor)を備えてもよく、またはCPU110に加えてDSPを備えてもよい。また、図1の各構成要素の一部または全てが電子回路等のハードウエアにより構成されてもよい。   The acoustic signal processing apparatus 100 may include a DSP (Digital Signal Processor) instead of the CPU 110, or may include a DSP in addition to the CPU 110. Also, some or all of the components in FIG. 1 may be configured by hardware such as an electronic circuit.

(3)頭部伝達関数
図4は時間領域の頭部インパルス応答および周波数領域の頭部伝達関数の説明図である。
(3) Head-related transfer function FIG. 4 is an explanatory diagram of a time-domain head impulse response and a frequency-domain head-related transfer function.

直接音V0に対応する時間領域の頭部インパルス応答(HRIR;;Head-Related Impulse Response)h0がM個の部分(以下、分割HRIRブロックと呼ぶ)に分割される。Mは自然数である。図4の例では、頭部インパルス応答h0が時間軸上で4つの分割HRIRブロックh0,0,h0,1,h0,2,h0,3に分割される。各分割HRIRブロックh0,0,h0,1,h0,2,h0,3はNサンプルからなる。頭部インパルス応答のサンプリング周波数は原音響信号のサンプリング周波数fsと等しい。   A time-domain head-head impulse response (HRIR;) corresponding to the direct sound V0 is divided into M parts (hereinafter referred to as divided HRIR blocks). M is a natural number. In the example of FIG. 4, the head impulse response h0 is divided into four divided HRIR blocks h0, 0, h0, 1, h0, 2, h0, 3 on the time axis. Each divided HRIR block h0,0, h0,1, h0,2, h0,3 consists of N samples. The sampling frequency of the head impulse response is equal to the sampling frequency fs of the original sound signal.

分割HRIRブロックh0,0の後にNサンプルの0が付加され、0を含む2NサンプルがFFTにより周波数領域の分割HRTFブロックH0,0に変換される。同様に、分割HRIRブロックh0,1,h0,2,h0,3を用いて周波数領域の分割HRTFブロックH0,1,H0,2,H0,3がそれぞれ得られる。   0 of N samples are added after the divided HRIR block h0,0, and 2N samples including 0 are converted into divided HRTF blocks H0,0 in the frequency domain by FFT. Similarly, divided HRTF blocks H0, 1, H0, 2, H0, 3 in the frequency domain are obtained using the divided HRIR blocks h0, 1, h0, 2, h0, 3, respectively.

なお、分割HRIRブロックh0,0,h0,1,h0,2,h0,3の前にそれぞれNサンプルの0が付加されてもよい。   Note that N samples of 0 may be added before the divided HRIR blocks h0,0, h0,1, h0,2, h0,3, respectively.

同様にして、反射音V1,V2,…,Vkの各々の方向に対応する時間領域の頭部インパルス応答がM個の分割HRIRブロックに分割され、M個の分割HRIRブロックがFFTによりM個の周波数領域の分割HRTFブロックに変換される。   Similarly, the head impulse response in the time domain corresponding to each direction of the reflected sounds V1, V2,..., Vk is divided into M divided HRIR blocks, and M divided HRIR blocks are divided into M pieces by FFT. Converted to frequency domain split HRTF blocks.

図5はHRTFデータベース3に格納される複数組の分割HRTFブロックを示す模式図である。   FIG. 5 is a schematic diagram showing a plurality of sets of divided HRTF blocks stored in the HRTF database 3.

図5に示すように、HRTFデータベース3には、k個の方向に対応するk組の分割HRTFブロックが予め格納されている。分割HRTFブロックH0,0,H0,1,H0,2,H0,3は直接音V0の方向に対応する。分割HRTFブロックH1,0,H1,1,H1,2,H1,3は反射音V1の方向に対応する。分割HRTFブロックH2,0,H2,1,H2,2,H2,3は反射音V2の方向に対応する。分割HRTFブロックHk,0,Hk,1,Hk,2,Hk,3は反射音Vkの方向に対応する。   As shown in FIG. 5, the HRTF database 3 stores in advance k sets of divided HRTF blocks corresponding to k directions. The divided HRTF blocks H0, 0, H0, 1, H0, 2, H0, 3 correspond to the direction of the direct sound V0. The divided HRTF blocks H1, 0, H1, 1, H1, 2, H1, 3 correspond to the direction of the reflected sound V1. The divided HRTF blocks H2,0, H2,1, H2,2, H2,3 correspond to the direction of the reflected sound V2. The divided HRTF blocks Hk, 0, Hk, 1, Hk, 2, Hk, 3 correspond to the direction of the reflected sound Vk.

(4)音響ブロック
図6は時間領域の原音響信号および周波数領域の音響ブロックの説明図である。図6において、時間は右から左へ経過する。
(4) Acoustic Block FIG. 6 is an explanatory diagram of the original acoustic signal in the time domain and the acoustic block in the frequency domain. In FIG. 6, time elapses from right to left.

原音響信号VINにおいて、単位ブロックvnが現在入力されている。単位ブロックvn−1,vn−2,vn−3,vn−4は、それぞれ1回前、2回前、3回前および4回前に入力された単位ブロックである。各単位ブロックvn,vn−1,vn−2,vn−3,vn−4のサイズはNサンプルである。   In the original sound signal VIN, the unit block vn is currently input. The unit blocks vn-1, vn-2, vn-3, and vn-4 are unit blocks that are input one time before, two times before, three times before, and four times before, respectively. The size of each unit block vn, vn-1, vn-2, vn-3, vn-4 is N samples.

単位ブロックvn,vn−1からなる信号部分xnがFFTにより周波数領域の音響ブロックXnに変換される。同様に、単位ブロックvn−1,vn−2からなる信号部分xn−1がFFTにより周波数領域の音響ブロックXn−1に変換され、単位ブロックvn−2,vn−3からなる信号部分xn−2がFFTにより周波数領域の音響ブロックXn−2に変換され、単位ブロックvn−3,vn−4からなる信号部分xn−3がFFTにより周波数領域の音響ブロックXn−3に変換される。音響ブロックXn,Xn−1,Xn−2,Xn−3は図1の周波数領域音響バッファ15に順次格納される。   A signal portion xn composed of unit blocks vn and vn−1 is converted into an acoustic block Xn in the frequency domain by FFT. Similarly, the signal part xn-1 composed of the unit blocks vn-1 and vn-2 is converted into an acoustic block Xn-1 in the frequency domain by FFT, and the signal part xn-2 composed of the unit blocks vn-2 and vn-3. Is converted to a frequency domain acoustic block Xn-2 by FFT, and a signal portion xn-3 composed of unit blocks vn-3 and vn-4 is converted to a frequency domain acoustic block Xn-3 by FFT. The acoustic blocks Xn, Xn-1, Xn-2, and Xn-3 are sequentially stored in the frequency domain acoustic buffer 15 of FIG.

ここで、1度のFFTで処理される信号部分のサイズをFFTサイズと呼ぶ。図6の例では、FFTサイズは2Nサンプルである。また、時間軸上で各FFTの対象である単位ブロックとその前のFFTの対象である単位ブロックとのずれ量をFFTシフトサイズと呼ぶ。図6の例では、FFTシフトサイズSSはNサンプルであり、単位ブロックのサイズに等しい。この場合、FFTサイズはFFTシフトサイズSSの2倍となっている。なお、FFTサイズとFFTシフトサイズSSとの関係は、本例に限定されず、FFTサイズがFFTシフトサイズSSの2倍以外(例えば4倍)のサイズであってもよい。   Here, the size of the signal portion processed by one FFT is called the FFT size. In the example of FIG. 6, the FFT size is 2N samples. Also, the shift amount between the unit block that is the object of each FFT on the time axis and the unit block that is the object of the previous FFT is referred to as the FFT shift size. In the example of FIG. 6, the FFT shift size SS is N samples and is equal to the size of the unit block. In this case, the FFT size is twice the FFT shift size SS. The relationship between the FFT size and the FFT shift size SS is not limited to this example, and the FFT size may be a size other than twice the FFT shift size SS (for example, four times).

(5)遅延量の調整
図7は直接音V0および反射音V1,V2,…,Vkに対応する頭部インパルス応答、分割HRTFブロック、調整前の遅延量、調整後の遅延量および遅延ブロック数を示す図である。図7において、M1,M2,…Mkは整数である。
(5) Adjustment of delay amount FIG. 7 shows head impulse response, divided HRTF block, delay amount before adjustment, delay amount after adjustment, and number of delay blocks corresponding to direct sound V0 and reflected sounds V1, V2,. FIG. In FIG. 7, M1, M2,... Mk are integers.

直接音V0には、時間領域の頭部インパルス応答h0および周波数領域の1組の分割HRTFブロックH0,0,H0,1,H0,2,H0,3が対応する。直接音V0の調整前の遅延量はd0であり、調整後の遅延量もd0であり、遅延ブロック数は0である。   The head sound response h0 in the time domain and a set of divided HRTF blocks H0, 0, H0, 1, H0, 2, H0, 3 in the frequency domain correspond to the direct sound V0. The delay amount before adjustment of the direct sound V0 is d0, the delay amount after adjustment is also d0, and the number of delay blocks is zero.

反射音V1には、時間領域の頭部インパルス応答h1および周波数領域の1組の分割HRTFブロックH1,0,H1,1,H1,2,H1,3が対応する。反射音V1の調整前の遅延量はd1である。図1の遅延量調整部7は、反射音V1の遅延量をd0+M1×SS/fsに調整する。この場合、遅延ブロック数はM1である。   The reflected sound V1 corresponds to a head impulse response h1 in the time domain and a set of divided HRTF blocks H1, 0, H1, 1, H1, 2, H1, 3 in the frequency domain. The delay amount before adjustment of the reflected sound V1 is d1. The delay amount adjustment unit 7 in FIG. 1 adjusts the delay amount of the reflected sound V1 to d0 + M1 × SS / fs. In this case, the number of delay blocks is M1.

同様に、反射音V2には、時間領域の頭部インパルス応答h2および周波数領域の1組の分割HRTFブロックH2,0,H2,1,H2,2,H2,3が対応する。反射音V2の調整前の遅延量はd2であり、調整後の遅延量はd0+M2×SS/fsであり、遅延ブロック数はM2である。また、反射音Vkには、時間領域の頭部インパルス応答hkおよび周波数領域の1組の分割HRTFブロックHk,0,Hk,1,Hk,2,Hk,3が対応する。反射音Vkの調整前の遅延量はdkであり、調整後の遅延量はd0+Mk×SS/fsであり、遅延ブロック数はMkである。   Similarly, the head sound response h2 in the time domain and a set of divided HRTF blocks H2,0, H2,1, H2,2, H2,3 in the frequency domain correspond to the reflected sound V2. The delay amount before adjustment of the reflected sound V2 is d2, the delay amount after adjustment is d0 + M2 × SS / fs, and the number of delay blocks is M2. Further, the reflected sound Vk corresponds to a head-time impulse response hk in the time domain and a set of divided HRTF blocks Hk, 0, Hk, 1, Hk, 2, Hk, 3 in the frequency domain. The delay amount before adjustment of the reflected sound Vk is dk, the delay amount after adjustment is d0 + Mk × SS / fs, and the number of delay blocks is Mk.

本例では、反射音V1,V2,…,Vkの遅延時間差は、M1×SS/fs、M2×SS/fsおよびMk×SS/fsにそれぞれ調整される。すなわち、反射音V1,V2,…,Vkの遅延時間差がFFTシフトサイズSSに相当する時間の整数倍に調整される。   In this example, the delay time differences between the reflected sounds V1, V2,..., Vk are adjusted to M1 × SS / fs, M2 × SS / fs, and Mk × SS / fs, respectively. That is, the delay time difference between the reflected sounds V1, V2,..., Vk is adjusted to an integral multiple of the time corresponding to the FFT shift size SS.

(6)周波数領域での畳み込み演算
図8は周波数領域での分割HRTFブロックと音響ブロックとの畳み込み演算を示す図である。図8において、時間は右から左に経過する。
(6) Convolution calculation in frequency domain FIG. 8 is a diagram showing a convolution calculation of a divided HRTF block and an acoustic block in the frequency domain. In FIG. 8, time elapses from right to left.

時間軸の左端部が現時点で入力されている原音響信号VINの部分である。現時点では、図6に示したように、原音響信号VINの2Nサンプルの部分がFFTにより音響ブロックXnに変換される。音響ブロックXn−1,Xn−2,…,Xn−12は、既に図1の周波数領域音響バッファ15に格納されている。   The left end of the time axis is the portion of the original sound signal VIN that is currently input. At present, as shown in FIG. 6, the 2N sample portion of the original sound signal VIN is converted into the sound block Xn by FFT. The acoustic blocks Xn-1, Xn-2,..., Xn-12 are already stored in the frequency domain acoustic buffer 15 of FIG.

図8の例では、反射音V1の遅延時間差DL1はFFTシフトサイズSSに相当する時間の3倍であり、遅延ブロック数M1は3である。反射音Vkの遅延時間差DLkはFFTシフトサイズSSに相当する時間の9倍であり、遅延ブロック数Mkは9である。   In the example of FIG. 8, the delay time difference DL1 of the reflected sound V1 is three times the time corresponding to the FFT shift size SS, and the number of delay blocks M1 is 3. The delay time difference DLk of the reflected sound Vk is nine times the time corresponding to the FFT shift size SS, and the number of delay blocks Mk is nine.

図5のHRTFデータベース3に格納された複数組の分割HRTFブロックから、直接音V0に対応する分割HRTFブロックH0,0,H0,1,H0,2,H0,3が選択される。また、反射音V1に対応する分割HRTFブロックH1,0,H1,1,H1,2,H1,3が選択され、反射音Vkに対応する分割HRTFブロックHk,0,Hk,1,Hk,2,Hk,3が選択される。   The divided HRTF blocks H0,0, H0,1, H0,2, H0,3 corresponding to the direct sound V0 are selected from a plurality of sets of divided HRTF blocks stored in the HRTF database 3 of FIG. Also, the divided HRTF blocks H1, 0, H1, 1, H1, 2, H1, 3 corresponding to the reflected sound V1 are selected, and the divided HRTF blocks Hk, 0, Hk, 1, Hk, 2 corresponding to the reflected sound Vk are selected. , Hk, 3 are selected.

直接音V0については、周波数領域で分割HRTFブロックH0,0,H0,1,H0,2,H0,3と音響ブロックXn,Xn−1,Xn−2,Xn−3との畳み込み演算が行われ、畳み込み演算結果Y0が得られる。反射音V1については、周波数領域で分割HRTFブロックH1,0,H1,1,H1,2,H1,3と(遅延ブロック数M1が3であるので)音響ブロックXn−3,Xn−4,Xn−5,Xn−6との畳み込み演算が行われ、畳み込み演算結果Y1が得られる。反射音Vkについては、周波数領域で分割HRTFブロックHk,0,Hk,1,Hk,2,Hk,3と(遅延ブロック数Mkが9であるので)音響ブロックXn−9,Xn−10,Xn−11,Xn−12との畳み込み演算が行われ、畳み込み演算結果Ykが得られる。畳み込み演算の詳細については後述する。   For the direct sound V0, a convolution operation of the divided HRTF blocks H0, 0, H0, 1, H0, 2, H0, 3 and the acoustic blocks Xn, Xn-1, Xn-2, Xn-3 is performed in the frequency domain. A convolution operation result Y0 is obtained. For the reflected sound V1, the divided HRTF blocks H1, 0, H1, 1, H1, 2, H1, 3 and the acoustic blocks Xn-3, Xn-4, Xn (because the delay block number M1 is 3) in the frequency domain. A convolution operation with -5 and Xn-6 is performed, and a convolution operation result Y1 is obtained. For the reflected sound Vk, the divided HRTF blocks Hk, 0, Hk, 1, Hk, 2, Hk, 3 and the acoustic blocks Xn-9, Xn-10, Xn in the frequency domain (since the delay block number Mk is 9). A convolution operation with -11 and Xn-12 is performed, and a convolution operation result Yk is obtained. Details of the convolution operation will be described later.

図1の仮想音源位置算出部5により反射音V1について算出された振幅減衰量に応じたゲインが畳み込み演算結果Y1に乗算される。同様に、反射音Vkについて算出された振幅減衰量に応じたゲインが畳み込み演算結果Ykに乗算される。それにより、畳み込み演算結果Y1,…,Ykの振幅が調整される。なお、振幅減衰量が0の場合にはゲインは1となる。畳み込み演算結果Y0および振幅調整後の畳み込み演算結果Y1,…,Ykが複素ベクトル加算され、加算結果がIFFTにより時間領域の音響信号ynに変換される。   The convolution calculation result Y1 is multiplied by a gain corresponding to the amplitude attenuation amount calculated for the reflected sound V1 by the virtual sound source position calculation unit 5 of FIG. Similarly, the convolution calculation result Yk is multiplied by a gain corresponding to the amplitude attenuation calculated for the reflected sound Vk. Thereby, the amplitudes of the convolution calculation results Y1,..., Yk are adjusted. When the amplitude attenuation amount is 0, the gain is 1. The convolution calculation result Y0 and the amplitude adjustment convolution calculation results Y1,..., Yk are added as complex vectors, and the addition result is converted into an acoustic signal yn in the time domain by IFFT.

図9は時間領域での音響信号のつなぎ合わせを示す図である。図9に示すように、今回の処理で得られた音響信号ynの前半部分のNサンプルが破棄される。音響信号ynの後半部分のNサンプルが前回の処理で得られた音響信号yn−1の後半部分のNサンプルとつなぎ合わさせる。この操作が順次行われることにより音響信号VOUTが逐次出力される。   FIG. 9 is a diagram showing stitching of acoustic signals in the time domain. As shown in FIG. 9, the N samples in the first half of the acoustic signal yn obtained by the current process are discarded. The N samples in the latter half of the acoustic signal yn are joined to the N samples in the latter half of the acoustic signal yn-1 obtained in the previous process. By sequentially performing these operations, the acoustic signal VOUT is sequentially output.

なお、図4に示される周波数領域の各分割HRTFブロックの算出の際に各分割HRIRブロックの前にそれぞれNサンプルの0が付加された場合には、今回の処理で得られた音響信号ynの後半部分のNサンプルが破棄され、音響信号ynの前半部分のNサンプルが前回の処理で得られた音響信号yn−1の前半部分のNサンプルとつなぎ合わさせる。   In addition, when N samples of 0 are added before each divided HRIR block at the time of calculation of each divided HRTF block in the frequency domain shown in FIG. 4, the acoustic signal yn obtained in this processing is The N samples in the latter half are discarded, and the N samples in the first half of the acoustic signal yn are joined with the N samples in the first half of the acoustic signal yn-1 obtained in the previous processing.

(7)音響信号処理装置の全体の動作
図10は図1の音響信号処理装置100により行われる音響信号処理を示すフローチャートである。図10の音響信号処理は、図3のCPU110がROM120または記憶装置140に記憶された音響信号処理プログラムを実行することに行われる。
(7) Overall Operation of Acoustic Signal Processing Device FIG. 10 is a flowchart showing acoustic signal processing performed by the acoustic signal processing device 100 of FIG. The acoustic signal processing in FIG. 10 is performed by the CPU 110 in FIG. 3 executing the acoustic signal processing program stored in the ROM 120 or the storage device 140.

図1の部屋形状指示部1は、部屋形状を指示する部屋データを出力する(ステップS1)。また、主音源位置指示部2は、指示された部屋形状を有する仮想空間内での主音源S0の位置を示す位置データを出力する(ステップS2)。   The room shape instructing unit 1 in FIG. 1 outputs room data for instructing the room shape (step S1). The main sound source position instruction unit 2 outputs position data indicating the position of the main sound source S0 in the virtual space having the instructed room shape (step S2).

次に、仮想音源位置算出部5は、部屋データおよび主音源S0の位置データに基づいて、複数の仮想音源S1,S2,…,Skの位置を算出する(ステップS3)。それにより、仮想音源S1,S2,…,Skの位置を示す位置データが出力される。   Next, the virtual sound source position calculation unit 5 calculates the positions of the plurality of virtual sound sources S1, S2,..., Sk based on the room data and the position data of the main sound source S0 (step S3). Thereby, position data indicating the positions of the virtual sound sources S1, S2,.

遅延量算出部6は、主音源S0および仮想音源S1,S2,…,Skの位置データに基づいて、直接音V0および反射音V1,V2,…,Vkの遅延量をそれぞれ算出する(ステップS4)。遅延量調整部7は、複数の反射音V1,V2,…,Vkの遅延時間差をFFTシフトサイズに相当する時間(=SS/fs)の整数倍に調整する(ステップS5)。遅延ブロック数算出部8は、調整後の遅延時間差に基づいて複数の反射音V1,V2,…,Vkについての遅延ブロック数を算出する。   The delay amount calculation unit 6 calculates the delay amounts of the direct sound V0 and the reflected sounds V1, V2,..., Vk based on the position data of the main sound source S0 and the virtual sound sources S1, S2,. ). The delay amount adjusting unit 7 adjusts the delay time difference between the plurality of reflected sounds V1, V2,..., Vk to an integral multiple of the time corresponding to the FFT shift size (= SS / fs) (step S5). The delay block number calculation unit 8 calculates the number of delay blocks for a plurality of reflected sounds V1, V2,..., Vk based on the adjusted delay time difference.

HRTFブロック選択部4は、主音源位置指示部2および仮想音源位置算出部5から出力される位置データに基づいて、HRTFデータベース3に格納される複数組の分割HRTFブロックから、直接音V0および複数の反射音V1,V2,…,Vkに対応する分割HRTFブロックを選択する(ステップS6)。   Based on the position data output from the main sound source position instructing unit 2 and the virtual sound source position calculating unit 5, the HRTF block selecting unit 4 receives the direct sound V0 and the plurality of direct sounds V0 from a plurality of sets of divided HRTF blocks stored in the HRTF database 3. The divided HRTF blocks corresponding to the reflected sounds V1, V2,..., Vk are selected (step S6).

畳み込み演算部10、時間領域変換部11、音響信号出力部12および周波数領域変換部14は畳み込み演算処理を行う(ステップS7)。   The convolution operation unit 10, the time domain conversion unit 11, the acoustic signal output unit 12, and the frequency domain conversion unit 14 perform a convolution operation process (step S7).

図11は畳み込み演算処理の詳細を示すフローチャートである。図11における変数nは現在の処理を意味し、変数nの値は0から1ずつ増加する。Mは頭部伝達関数の分割数(分割HRTFブロックの数)を表し、kは反射音の数を表す。M1,…,Mkは、反射音V1,…,Vkについての遅延ブロック数を表す。   FIG. 11 is a flowchart showing details of the convolution operation processing. The variable n in FIG. 11 means the current process, and the value of the variable n is incremented by 1 from 0. M represents the number of divisions of the head-related transfer function (number of divided HRTF blocks), and k represents the number of reflected sounds. M1,..., Mk represent the number of delay blocks for the reflected sounds V1,.

初期状態では変数nの値は0である(ステップS11)。図1の周波数領域変換部14は、サンプリング周波数fsの原音響信号VINの信号部分xnをFFTにより音響ブロックXnに変換する(ステップS12)。信号部分xnは、原音響信号VINから現在取得した単位ブロックvnと前回取得した単位ブロックvn−1とからなる(図6参照)。また、周波数領域変換部14は、音響ブロックXnを周波数領域音響バッファ15に格納する(ステップS13)。後述するステップS34で変数nの値が増加するにしたがって周波数領域音響バッファ15に順次音響ブロックXnが格納される。   In the initial state, the value of the variable n is 0 (step S11). The frequency domain converter 14 in FIG. 1 converts the signal portion xn of the original acoustic signal VIN having the sampling frequency fs into the acoustic block Xn by FFT (step S12). The signal portion xn includes a unit block vn currently acquired from the original sound signal VIN and a unit block vn-1 acquired last time (see FIG. 6). Moreover, the frequency domain conversion part 14 stores the acoustic block Xn in the frequency domain acoustic buffer 15 (step S13). The acoustic block Xn is sequentially stored in the frequency domain acoustic buffer 15 as the value of the variable n increases in step S34 described later.

ステップS14〜S19では、直接音V0についての畳み込み演算結果Y0が算出される。ステップS20〜S25では、反射音V1についての畳み込み演算結果Y1が算出され、ステップS26〜S31では、反射音Vkについての畳み込み演算結果Ykが算出される。ステップS14〜S19の処理、ステップS20〜S25の処理およびステップS26〜S31の処理は、並列的に実行される。   In steps S14 to S19, the convolution calculation result Y0 for the direct sound V0 is calculated. In steps S20 to S25, the convolution calculation result Y1 for the reflected sound V1 is calculated, and in steps S26 to S31, the convolution calculation result Yk for the reflected sound Vk is calculated. Steps S14 to S19, steps S20 to S25, and steps S26 to S31 are executed in parallel.

畳み込み演算部10は、まず、変数mの値を初期値0に設定し(ステップS14,S20,S26)、畳み込み演算結果Y0,Y1,…Ykを初期値0に設定する(ステップS15,S21,S27)。次に、畳み込み演算部10は、音響ブロックXn−mと分割HRTFブロックH0,mとの複素ベクトル乗算を行い、Y=Xn−m*H0,mを畳み込み演算結果として算出する(ステップS16)。次に、畳み込み演算部10は、前回の畳み込み演算結果Y0に今回の畳み込み演算結果Yを複素ベクトル加算する(ステップS17)。その後、変数mに1を加算し(ステップS18)、変数mがM−1よりも大きいか否かを判定する(ステップS19)。変数mがM−1になるまで、ステップS16〜S19の処理が繰り返し行われる。それにより、Y0=Xn*H0,0+Xn−1*H0,1+Xn−2*H0,2+…+Xn−M+1*H0,M−1が算出される。ここで、「*」は複素ベクトル乗算を意味し、「+」は複素ベクトル加算を意味する。図8の例では、M=4であるため、Y0=Xn*H0,0+Xn−1*H0,1+Xn−2*H0,2+Xn−3*H0,3が算出される。   First, the convolution operation unit 10 sets the value of the variable m to the initial value 0 (steps S14, S20, S26), and sets the convolution operation results Y0, Y1,... Yk to the initial value 0 (steps S15, S21, S21). S27). Next, the convolution operation unit 10 performs complex vector multiplication of the acoustic block Xn-m and the divided HRTF blocks H0, m, and calculates Y = Xn-m * H0, m as a convolution operation result (step S16). Next, the convolution operation unit 10 adds the current convolution operation result Y to the previous convolution operation result Y0 by a complex vector (step S17). Thereafter, 1 is added to the variable m (step S18), and it is determined whether or not the variable m is larger than M−1 (step S19). Until the variable m becomes M-1, the processes of steps S16 to S19 are repeated. Thereby, Y0 = Xn * H0, 0 + Xn-1 * H0, 1 + Xn-2 * H0, 2+... + Xn-M + 1 * H0, M-1 is calculated. Here, “*” means complex vector multiplication, and “+” means complex vector addition. In the example of FIG. 8, since M = 4, Y0 = Xn * H0, 0 + Xn-1 * H0, 1 + Xn-2 * H0, 2 + Xn-3 * H0,3 are calculated.

上記の畳み込み演算において、音響ブロックXn−1,Xn−2,…,Xn−M+1は、以前の処理で既に算出され、周波数領域音響バッファ15に格納されている。   In the above convolution calculation, the acoustic blocks Xn−1, Xn−2,..., Xn−M + 1 have already been calculated in the previous processing and stored in the frequency domain acoustic buffer 15.

同様にして、ステップS22〜S25において、Y1=Xn−M1*H1,0+Xn−1−M1*H1,1+Xn−2−M1*H1,2+…+Xn−M+1−M1*H1,M−1が算出される。ここで、M1は反射音V1の遅延ブロック数である。図8の例では、M=4であり、M1=3であるため、Y1=Xn−3*H1,0+Xn−4*H1,1+Xn−5*H1,2+Xn−6*H1,3が算出される。   Similarly, in steps S22 to S25, Y1 = Xn−M1 * H1, 0 + Xn−1−M1 * H1,1 + Xn−2M1 * H1,2 +... + Xn−M + 1−M1 * H1, M−1 is calculated. The Here, M1 is the number of delay blocks of the reflected sound V1. In the example of FIG. 8, since M = 4 and M1 = 3, Y1 = Xn−3 * H1, 0 + Xn−4 * H1,1 + Xn−5 * H1, + Xn−6 * H1,3 is calculated. .

上記の畳み込み演算において、音響ブロックXn−M1,Xn−1−M1,Xn−2−M1…,Xn−M+1−M1は、以前の処理で既に算出され、周波数領域音響バッファ15に格納されている。   In the above convolution calculation, the acoustic blocks Xn-M1, Xn-1-M1, Xn-2-M1,..., Xn-M + 1-M1 have already been calculated in the previous processing and stored in the frequency domain acoustic buffer 15. .

また、ステップS28〜S31において、Y1=Xn−Mk*Hk,0+Xn−1−Mk*Hk,1+Xn−2−Mk*Hk,2+…+Xn−M+1−Mk*Hk,M−1が算出される。ここで、Mkは反射音Vkの遅延ブロック数である。図8の例では、M=4であり、Mk=9であるため、Y1=Xn−9*Hk,0+Xn−10*Hk,1+Xn−11*Hk,2+Xn−12*Hk,3が算出される。   In steps S28 to S31, Y1 = Xn-Mk * Hk, 0 + Xn-1-Mk * Hk, 1 + Xn-2-Mk * Hk, 2+... + Xn-M + 1-Mk * Hk, M-1 are calculated. Here, Mk is the number of delay blocks of the reflected sound Vk. In the example of FIG. 8, since M = 4 and Mk = 9, Y1 = Xn-9 * Hk, 0 + Xn-10 * Hk, 1 + Xn-11 * Hk, 2 + Xn-12 * Hk, 3 are calculated. .

上記の畳み込み演算において、音響ブロックXn−Mk,Xn−1−Mk,Xn−2−Mk,…,Xn−M+1−Mkは、以前の処理で既に算出され、周波数領域音響バッファ15に格納されている。   In the above convolution calculation, the acoustic blocks Xn-Mk, Xn-1-Mk, Xn-2-Mk,..., Xn-M + 1-Mk are already calculated in the previous processing and stored in the frequency domain acoustic buffer 15. Yes.

時間領域変換部11は、畳み込み演算結果Y0,Y1,…,Ykを周波数領域で複素ベクトル加算し、複素ベクトル加算の結果をIFFTによりサンプリング周波数fsの時間領域の音響信号ynに変換する(ステップS32)。音響信号出力部12は、時間領域の音響信号ynを出力する(ステップS33)。その後、変数nの値が1増加され(ステップS34)、ステップS12〜S34の処理が行われる。上記のように、音響信号ynの前半部分が破棄され、残りの後半部分が前回の処理で得られた音響信号yn−1の後半部分につなぎ合わされる。   The time domain transforming unit 11 performs complex vector addition on the convolution calculation results Y0, Y1,..., Yk in the frequency domain, and converts the result of the complex vector addition into an acoustic signal yn in the time domain having the sampling frequency fs by IFFT (step S32). ). The acoustic signal output unit 12 outputs the time domain acoustic signal yn (step S33). Thereafter, the value of the variable n is incremented by 1 (step S34), and the processes of steps S12 to S34 are performed. As described above, the first half of the acoustic signal yn is discarded, and the remaining second half is joined to the second half of the acoustic signal yn-1 obtained in the previous process.

(8)実施の形態の効果
本実施の形態に係る音響信号処理装置100によれば、反射音V1,V2,…,Vkと直接音V0との遅延時間差がFFTシフトサイズに相当する時間の整数倍に調整されるので、反射音V1,V2,…,Vkに対応する音響ブロックとして、既に算出された直接音V0に対応する音響ブロックを用いることができる。そのため、反射音V1,V2,…,Vkに対応する音響ブロックを得るためのFFTが不要である。また、直接音V0および反射音V1,V2,…,Vkについての畳み込み演算結果Y0,Y1,…Ykの複素ベクトル加算が周波数領域で行われるので、1回のIFFTにより時間領域の音響信号VOUTを得ることができる。一方、畳み込み演算結果の加算が時間領域で行われる場合には、1つのFFTに対して(k+1)回のIFFTが必要となると考えられる。
(8) Effects of the Embodiment According to the acoustic signal processing apparatus 100 according to the present embodiment, an integer of time in which the delay time difference between the reflected sounds V1, V2,..., Vk and the direct sound V0 corresponds to the FFT shift size. Since the adjustment is performed twice, the acoustic block corresponding to the direct sound V0 that has already been calculated can be used as the acoustic block corresponding to the reflected sounds V1, V2,. Therefore, FFT for obtaining acoustic blocks corresponding to the reflected sounds V1, V2,. Further, the convolution calculation results Y0, Y1,... Yk for the direct sound V0 and the reflected sounds V1, V2,..., Vk are added in the frequency domain, so that the time domain acoustic signal VOUT is obtained by one IFFT. Can be obtained. On the other hand, when the convolution calculation results are added in the time domain, it is considered that (k + 1) times of IFFTs are required for one FFT.

これらにより、畳み込み演算処理における演算回数を低減することができる。その結果、音響信号VOUTを出力するための演算処理における処理量を低減することが可能となる。   As a result, the number of calculations in the convolution calculation process can be reduced. As a result, it is possible to reduce the amount of processing in the arithmetic processing for outputting the acoustic signal VOUT.

また、分割HRTFブロックを用いた分割オーバラップセーブ法が用いられるので、単位ブロックのサイズを小さくすることができる。それにより、FFTおよびIFFTにおける乗算回数を低減することができる。したがって、音響信号VOUTを出力するための演算処理における処理量をより低減することが可能となる。   Further, since the divided overlap save method using divided HRTF blocks is used, the size of the unit block can be reduced. Thereby, the number of multiplications in FFT and IFFT can be reduced. Therefore, it is possible to further reduce the processing amount in the arithmetic processing for outputting the acoustic signal VOUT.

さらに、FFTシフトサイズが単位ブロックのサイズと等しいため、単位ブロックのサイズを小さくすることにより、遅延時間差の調整による誤差および畳み込み演算における遅延時間を低減することができる。それにより、受音点Rに到来する音をより高い精度で再現することができる。   Further, since the FFT shift size is equal to the size of the unit block, it is possible to reduce the error due to the adjustment of the delay time difference and the delay time in the convolution calculation by reducing the size of the unit block. Thereby, the sound arriving at the sound receiving point R can be reproduced with higher accuracy.

以上の結果、音の再現精度を低下させることなく音響信号処理装置100の低コスト化および小型化が可能となる。   As a result, the cost and size of the acoustic signal processing apparatus 100 can be reduced without reducing the sound reproduction accuracy.

(9)演算回数の比較
(a)本実施の形態および参考形態における演算回数
以下、本実施の形態に係る畳み込み演算処理における演算回数を参考形態に係る畳み込み演算処理における演算回路と比較する。
(9) Comparison of the number of operations (a) Number of operations in the present embodiment and the reference embodiment Hereinafter, the number of operations in the convolution operation processing according to the present embodiment is compared with the operation circuit in the convolution operation processing according to the reference embodiment.

参考形態における音響信号処理では、反射音V1,V2,…,Vkの遅延量の調整が行われない。したがって、反射音V1,V2,…,Vkの遅延時間差は、FFTシフトサイズに相当する時間の整数倍とはならない。   In the acoustic signal processing in the reference form, the delay amount of the reflected sounds V1, V2,..., Vk is not adjusted. Therefore, the delay time difference between the reflected sounds V1, V2,..., Vk is not an integral multiple of the time corresponding to the FFT shift size.

図12は参考形態に係る畳み込み演算処理における周波数領域での分割HRTFブロックと音響ブロックとの畳み込み演算を示す図である。図12において、時間は右から左に経過する。   FIG. 12 is a diagram showing a convolution operation between the divided HRTF block and the sound block in the frequency domain in the convolution operation processing according to the reference embodiment. In FIG. 12, time elapses from right to left.

図12の例では、反射音V1の遅延時間差dl1および反射音Vkの遅延時間差dlkはFFTシフトサイズSSに相当する時間の整数倍ではない。原音響信号VINのFFTにより直接音V0に対応する音響ブロックX0,n,X0,n−1,X0,n−2,X0,n−3を算出するとともに、反射音V1に対応する音響ブロックX1,n,X1,n−1,X1,n−2,X1,n−3および反射音Vkに対応する音響ブロックXk,n,Xk,n−1,Xk,n−2,Xk,n−3をそれぞれ算出する必要がある。   In the example of FIG. 12, the delay time difference dl1 of the reflected sound V1 and the delay time difference dlk of the reflected sound Vk are not integer multiples of the time corresponding to the FFT shift size SS. The acoustic block X0, n, X0, n-1, X0, n-2, X0, n-3 corresponding to the direct sound V0 is calculated by the FFT of the original acoustic signal VIN, and the acoustic block X1 corresponding to the reflected sound V1 , N, X1, n-1, X1, n-2, X1, n-3 and the acoustic block Xk, n, Xk, n-1, Xk, n-2, Xk, n-3 corresponding to the reflected sound Vk Need to be calculated respectively.

直接音V0については、周波数領域で分割HRTFブロックH0,0,H0,1,H0,2,H0,3と音響ブロックX0,n,X0,n−1,X0,n−2,X0,n−3との畳み込み演算が行われ、周波数領域の音響信号Y0が得られる。反射音V1については、周波数領域で分割HRTFブロックH1,0,H1,1,H1,2,H1,3と音響ブロックX1,n,X1,n−1,X1,n−2,X1,n−3との畳み込み演算が行われ、周波数領域の音響信号Y1が得られる。反射音Vkについては、周波数領域で分割HRTFブロックHk,0,Hk,1,Hk,2,Hk,3と音響ブロックXk,n,Xk,n−1,Xk,n−2,Xk,n−3との畳み込み演算が行われる。   For the direct sound V0, divided HRTF blocks H0,0, H0,1, H0,2, H0,3 and acoustic blocks X0, n, X0, n-1, X0, n-2, X0, n- in the frequency domain. 3 is performed, and an acoustic signal Y0 in the frequency domain is obtained. For the reflected sound V1, the divided HRTF blocks H1, 0, H1, 1, H1, 2, H1, 3 and the acoustic blocks X1, n, X1, n-1, X1, n-2, X1, n− are divided in the frequency domain. 3 is performed, and an acoustic signal Y1 in the frequency domain is obtained. For the reflected sound Vk, the divided HRTF blocks Hk, 0, Hk, 1, Hk, 2, Hk, 3 and the acoustic blocks Xk, n, Xk, n-1, Xk, n-2, Xk, n- in the frequency domain. A convolution operation with 3 is performed.

図13は参考形態に係る畳み込み演算処理の詳細を示すフローチャートである。   FIG. 13 is a flowchart showing details of the convolution calculation processing according to the reference embodiment.

初期状態では変数nの値は0である(ステップS51)。ステップS52〜S59では、直接音V0についての畳み込み演算結果Y0が算出される。ステップS60〜S67では、反射音V1についての畳み込み演算結果Y1が算出され、ステップS68〜S75では、反射音Vkについての畳み込み演算結果Ykが算出される。   In the initial state, the value of the variable n is 0 (step S51). In steps S52 to S59, the convolution calculation result Y0 for the direct sound V0 is calculated. In steps S60 to S67, the convolution calculation result Y1 for the reflected sound V1 is calculated, and in steps S68 to S75, the convolution calculation result Yk for the reflected sound Vk is calculated.

直接音V0について、原音響信号VINの信号部分x0,nがFFTにより音響ブロックX0,nに変換され(ステップS52)、音響ブロックX0,nが周波数領域音響バッファ15に格納される(ステップS53)。また、反射音V1について、原音響信号VINの信号部分x1,nがFFTにより音響ブロックX1,nに変換され(ステップS60)、音響ブロックX1,nが周波数領域音響バッファ15に格納される(ステップS61)。同様に、反射音Vkについて、原音響信号VINの信号部分xk,nがFFTにより音響ブロックXk,nに変換され(ステップS68)、音響ブロックXk,nが周波数領域音響バッファ15に格納される(ステップS69)。   For the direct sound V0, the signal portion x0, n of the original sound signal VIN is converted into the sound block X0, n by FFT (step S52), and the sound block X0, n is stored in the frequency domain sound buffer 15 (step S53). . For the reflected sound V1, the signal parts x1 and n of the original sound signal VIN are converted into sound blocks X1 and n by FFT (step S60), and the sound blocks X1 and n are stored in the frequency domain sound buffer 15 (step S60). S61). Similarly, for the reflected sound Vk, the signal part xk, n of the original sound signal VIN is converted to the sound block Xk, n by FFT (step S68), and the sound block Xk, n is stored in the frequency domain sound buffer 15 ( Step S69).

ステップS54〜S59において、直接音V0について、Y0=X0,n*H0,0+X0,n−1*H0,1+X0,n−2*H0,2+…+X0,n−m*H0,mが算出される。ステップS62〜S67において、反射音V1について、Y1=X1,n*H1,0+X1,n−1*H1,1+X1,n−2*H1,2+…+X1,n−m*H1,mが算出される。ステップS68〜S75において、反射音Vkについて、Yk=Xk,n*Hk,0+Xk,n−1*Hk,1+Xk,n−2*Hk,2+…+Xk,n−m*Hk,mが算出される。   In steps S54 to S59, Y0 = X0, n * H0, 0 + X0, n-1 * H0, 1 + X0, n-2 * H0, 2+... + X0, n−m * H0, m is calculated for the direct sound V0. . In steps S62 to S67, Y1 = X1, n * H1, 0 + X1, n-1 * H1, 1 + X1, n-2 * H1, 2... + X1, n−m * H1, m is calculated for the reflected sound V1. . In steps S68 to S75, Yk = Xk, n * Hk, 0 + Xk, n-1 * Hk, 1 + Xk, n-2 * Hk, 2+... + Xk, n−m * Hk, m are calculated for the reflected sound Vk. .

ステップS76〜S78の処理は、図11のステップS31〜S33の処理と同様である。   The processing in steps S76 to S78 is the same as the processing in steps S31 to S33 in FIG.

ここで、図11の実施の形態に係る畳み込み演算処理における演算回数と図13の参考形態に係る畳み込み演算処理における演算回数とを比較する。   Here, the number of calculations in the convolution calculation process according to the embodiment of FIG. 11 is compared with the number of calculations in the convolution calculation process according to the reference form of FIG.

単位ブロックのサイズをNサンプルとし、頭部伝達関数の分割数をMとし、主音源および仮想音源の数をkとする。この場合、FFTの対象となるサンプル数は2Nとなる。   The size of the unit block is N samples, the division number of the head-related transfer function is M, and the number of main sound sources and virtual sound sources is k. In this case, the number of samples to be subjected to FFT is 2N.

FFTでの乗算回数およびIFFTでの乗算回数をそれぞれOAとし、ループを含む複素ベクトル積での乗算回数をOBとすると、乗算回数OA,OBは次式のようになる。   When the number of multiplications in the FFT and the number of multiplications in the IFFT is OA, and the number of multiplications in the complex vector product including the loop is OB, the multiplication numbers OA and OB are expressed by the following equations.

OA=2×(2N)×log2(2N)
OB=M×4×N
図11の実施の形態における演算回数PIは、次式のようになる。
OA = 2 × (2N) × log2 (2N)
OB = M × 4 × N
The number of computations PI in the embodiment of FIG.

PI=OA+k×OB+OA
図13の参考形態における演算回数PRは、次式のようになる。
PI = OA + k × OB + OA
The number of calculations PR in the reference form of FIG.

PR=k×(OA+OB)+OA
単位ブロックのサイズNを32サンプルとし、頭部伝達関数の分割数Mを4とし、主音源および仮想音源の数kを100とすると、乗算回数OA,OBは次のようになる。
PR = k × (OA + OB) + OA
Assuming that the size N of the unit block is 32 samples, the division number M of the head-related transfer function is 4, and the number k of the main sound source and the virtual sound source is 100, the multiplication times OA and OB are as follows.

OA=2×(2×32)×log2(2×32)=768
OB=4×4×32=512
これにより、図11の実施の形態における演算回数PIは、次式のようになる。
OA = 2 * (2 * 32) * log2 (2 * 32) = 768
OB = 4 × 4 × 32 = 512
As a result, the number of operations PI in the embodiment of FIG.

PI=768+100×512+768=52736
一方、図13の参考形態における演算回数PRは、次式のようになる。
PI = 768 + 100 × 512 + 768 = 52736
On the other hand, the number of operations PR in the reference form of FIG.

PR=100×(768+512)+768=128778
演算回数PIと演算回数PRとの比は次のように算出される。
PR = 100 × (768 + 512) + 768 = 128778
The ratio between the calculation number PI and the calculation number PR is calculated as follows.

PI/PR=52736/128778≒0.4
したがって、本実施の形態に係る畳み込み演算処理によれば、参考形態に係る畳み込み演算処理に比べて演算回数が約60%削減される。仮想音源の数(反射音の数)が増加するほど、演算回数の削減の効果は顕著となる。
PI / PR = 52736 / 128778≈0.4
Therefore, according to the convolution operation processing according to the present embodiment, the number of operations is reduced by about 60% compared to the convolution operation processing according to the reference embodiment. As the number of virtual sound sources (the number of reflected sounds) increases, the effect of reducing the number of computations becomes more prominent.

なお、上記の演算回数の比較では、加算回数およびバッファに対する読み書きについては考慮していない。   In the comparison of the number of operations described above, the number of additions and reading / writing with respect to the buffer are not considered.

(b)時間領域の畳み込み演算処理における演算回数
次に、時間領域の畳み込み演算処理を用いた音響信号処理における演算回数を算出する。
(B) Number of Calculations in Time Domain Convolution Calculation Processing Next, the number of calculations in acoustic signal processing using time domain convolution calculation processing is calculated.

時間領域の畳み込み演算処理における演算回数OTは、次式のようになる。   The number of operations OT in the time domain convolution operation processing is expressed by the following equation.

OT=k×M×N2
単位ブロックのサイズNを32サンプルとし、頭部伝達関数の分割数Mを4とし、主音源および仮想音源の数kを100とすると、演算回数OTは次のようになる。
OT = k × M × N2
When the size N of the unit block is 32 samples, the division number M of the head related transfer function is 4, and the number k of the main sound source and the virtual sound source is 100, the number of operations OT is as follows.

OT=100×4×322=409600
これにより、図11の実施の形態における演算回数PIは、次式のようになる。
OT = 100 × 4 × 322 = 409600
As a result, the number of operations PI in the embodiment of FIG.

本実施の形態に係る畳み込み演算処理における演算回数PIと時間領域の畳み込み演算処理における演算回数OTとの比は次のように算出される。   The ratio between the number of operations PI in the convolution operation processing according to the present embodiment and the number of operations OT in the time domain convolution operation processing is calculated as follows.

PI/OT=52736/409600≒0.13
したがって、本実施の形態に係る畳み込み演算処理によれば、時間領域の畳み込み演算処理に比べて、演算回数が約87%削減される。仮想音源の数(反射音の数)が増加するほど、演算回数の削減の効果は顕著となる。
PI / OT = 52736 / 409600≈0.13
Therefore, according to the convolution calculation process according to the present embodiment, the number of calculations is reduced by about 87% compared to the time domain convolution calculation process. As the number of virtual sound sources (the number of reflected sounds) increases, the effect of reducing the number of computations becomes more prominent.

(c)遅延量の調整による誤差
FFTシフトサイズSSを32サンプルとした場合、反射音V1,V2,…,Vkと直接音V0との間の遅延時間差の調整による遅延量の誤差は、最大16サンプルに相当する時間である。サンプリング周波数を48kHzとした場合、遅延量の誤差は次式のように算出される。
(C) Error due to adjustment of delay amount When the FFT shift size SS is 32 samples, the error of the delay amount due to adjustment of the delay time difference between the reflected sounds V1, V2,... This is the time corresponding to the sample. When the sampling frequency is 48 kHz, the delay amount error is calculated as follows.

16/48000[Hz]≒0.00033[sec]=0.33[msec]
この遅延量の誤差に相当する距離の誤差は次式により算出される。
16/48000 [Hz] ≈0.00033 [sec] = 0.33 [msec]
The distance error corresponding to the delay amount error is calculated by the following equation.

0.00033[sec]×340[m/sec]≒0.11[m]=11[cm]
仮想空間のサイズが11cm程度変化した場合の反射音の変化が音像定位および音の広がり感に与える影響はほとんどないと考えられる。
0.00033 [sec] × 340 [m / sec] ≈0.11 [m] = 11 [cm]
It is considered that the change in reflected sound when the size of the virtual space changes by about 11 cm has little influence on the sound image localization and the sound spread.

FFTシフトサイズSSを16サンプルとした場合には、遅延量の誤差に相当する距離の誤差は約5.6cmとなり、音像定位および音の広がり感に与える影響はさらに小さくなる。   When the FFT shift size SS is 16 samples, the distance error corresponding to the delay amount error is about 5.6 cm, and the influence on the sound image localization and the sound spread is further reduced.

(10)他の実施の形態
(a)上記の実施の形態では、畳み込み演算処理に分割オーバラップセーブ法を用いているが、本発明はこれに限定されない。例えば、畳み込み演算処理に分割HRTFブロックを用いたオーバラップアド(Overlap-Add)法を用いてもよい。以下、分割HRTFブロックを用いたオーバラップアド法を分割オーバラップアド法と呼ぶ。
(10) Other Embodiments (a) In the above embodiment, the division overlap save method is used for the convolution operation processing, but the present invention is not limited to this. For example, an overlap-add method using divided HRTF blocks may be used for convolution calculation processing. Hereinafter, the overlap add method using the divided HRTF block is referred to as a divided overlap add method.

図14は分割オーバラップアド法を用いた場合の時間領域の原音響信号および周波数領域の音響ブロックの説明図である。図14において、時間は右から左へ経過する。   FIG. 14 is an explanatory diagram of a time-domain original sound signal and a frequency-domain sound block when the divided overlap add method is used. In FIG. 14, time elapses from right to left.

分割オーバラップアド法では、原音響信号VINにおいて、現在入力されているNサンプルの単位ブロックvnにNサンプルの0が付加され、2Nサンプルの信号部分xnがFFTにより音響ブロックXnに変換される。同様に、単位ブロックvn−1にNサンプルの0が付加され、2Nサンプルの信号部分xn−1がFFTにより音響ブロックXn−1に変換される。また、単位ブロックvn−2にNサンプルの0が付加され、2Nサンプルの信号部分xn−2がFFTにより音響ブロックXn−2に変換される。さらに、単位ブロックvn−3にNサンプルの0が付加され、2Nサンプルの信号部分xn−3がFFTにより音響ブロックXn−3に変換される。この場合にも、FFTシフトサイズSSはNサンプルである。周波数領域での畳み込み演算は、分割オーバラップセーブ法を用いた場合と同様である。   In the divided overlap add method, in the original sound signal VIN, 0 of N samples is added to the unit block vn of N samples currently input, and the signal portion xn of 2N samples is converted into the sound block Xn by FFT. Similarly, 0 of N samples is added to the unit block vn-1, and a signal portion xn-1 of 2N samples is converted into an acoustic block Xn-1 by FFT. Further, 0 of N samples is added to the unit block vn-2, and a signal portion xn-2 of 2N samples is converted into an acoustic block Xn-2 by FFT. Further, 0 of N samples is added to the unit block vn-3, and a signal portion xn-3 of 2N samples is converted into an acoustic block Xn-3 by FFT. Also in this case, the FFT shift size SS is N samples. The convolution operation in the frequency domain is the same as when the division overlap save method is used.

図15は分割オーバラップアド法を用いた場合の時間領域での音響信号のつなぎ合わせを示す図である。図15に示すように、今回の処理で得られた音響信号ynの前半部分のNサンプルと前回の処理で得られた音響信号yn−1の後半部分のNサンプルとが加算される。この操作が順次行われることにより音響信号VOUTが逐次出力される。   FIG. 15 is a diagram showing stitching of acoustic signals in the time domain when the divided overlap add method is used. As shown in FIG. 15, the N samples in the first half of the acoustic signal yn obtained by the current processing and the N samples in the second half of the acoustic signal yn-1 obtained by the previous processing are added. By sequentially performing these operations, the acoustic signal VOUT is sequentially output.

(b)上記実施の形態では、周波数領域の頭部伝達関数が複数の分割HRTFブロックに分割されているが、これに限定されない。本発明は、頭部伝達関数の分割数Mが1の場合にも適用される。分割数Mが1の場合のオーバラップセーブ法は通常のオーバラップセーブ法であり、分割数Mが1の場合のオーバラップアド法は通常のオーバラップセーブ法である。   (B) In the above embodiment, the head-related transfer function in the frequency domain is divided into a plurality of divided HRTF blocks. However, the present invention is not limited to this. The present invention is also applied when the division number M of the head-related transfer function is 1. The overlap save method when the division number M is 1 is a normal overlap save method, and the overlap add method when the division number M is 1 is a normal overlap save method.

ここで、時間領域の音響信号の単位ブロックが例えば128サンプルからなるものとする。通常のオーバラップセーブ法では、128サンプルの時間領域の頭部インパルス応答に128サンプルの0を付加し、合計256サンプルをFFTにより周波数領域の頭部伝達関数に変換する。また、今回入力された128サンプルの音響信号と前回入力された128サンプルの音響信号とからなる256サンプルの信号部分をFFTにより周波数領域の音響ブロックに変換する。その後、周波数領域の頭部伝達関数と周波数領域の音響ブロックとを複素ベクトル乗算し、乗算結果をIFFTにより256サンプルの時間領域の音響信号に変換する。最後に、時間領域の音響信号の半分を破棄し、残りの128サンプルの音響信号を得る。今回得られた128サンプルの音響信号を前回得られた128サンプルの音響信号につなぎ合わせる。   Here, it is assumed that the unit block of the acoustic signal in the time domain consists of, for example, 128 samples. In the normal overlap-save method, 128 samples of 0 are added to the 128-sample time-domain head impulse response, and a total of 256 samples are converted into a frequency-domain head-related transfer function by FFT. Also, a 256-sample signal portion composed of the 128-sample acoustic signal input this time and the 128-sample acoustic signal input last time is converted into a frequency-domain acoustic block by FFT. Thereafter, the head-related transfer function in the frequency domain and the acoustic block in the frequency domain are multiplied by a complex vector, and the multiplication result is converted into an acoustic signal in the time domain of 256 samples by IFFT. Finally, half of the time domain acoustic signal is discarded to obtain the remaining 128 samples of the acoustic signal. The 128-sample acoustic signal obtained this time is connected to the 128-sample acoustic signal obtained last time.

通常のオーバラップアド法が通常のオーバラップセーブ法と異なるのは次の点である。今回入力された128サンプルの時間領域の音響信号に128サンプルの0を付加し、0を含む256サンプルの信号部分をFFTにより周波数領域の音響ブロックに変換する。IFFTにより得られた256サンプルの時間領域の音響信号を前回得られた256サンプルの時間領域の音響信号と128サンプル分重なるように加算する。   The normal overlap add method differs from the normal overlap save method in the following points. A 128-sample 0 is added to the 128-sample time-domain sound signal input this time, and a 256-sample signal portion including 0 is converted into a frequency-domain sound block by FFT. The 256-sample time-domain acoustic signal obtained by IFFT is added so as to overlap the 256-sample time-domain acoustic signal obtained last time by 128 samples.

(c)上記実施の形態では、本発明が仮想空間における音を再現するために用いられるが、本発明はこれに限定されない。本発明は、実際の音響空間における音を再現するための残響付与装置に適用することも可能である。この場合、周波数領域の頭部伝達関数の代わりに、インパルス応答をFFTすることにより得られる周波数領域の音響伝達関数が用いられる。   (C) In the above embodiment, the present invention is used to reproduce sound in a virtual space, but the present invention is not limited to this. The present invention can also be applied to a reverberation imparting device for reproducing sound in an actual acoustic space. In this case, a frequency domain acoustic transfer function obtained by performing FFT on the impulse response is used instead of the frequency domain head related transfer function.

(d)上記実施の形態では、音響信号入力部13が原音響信号VINを入力し、音響信号出力部12が音響信号ynを出力するが、本発明はこれに限定されない。音響信号入力部13がWAVファイル等のファイル形式の原音響信号を入力してもよく、音響信号出力部12がWAVファイル等のファイル形式の音響信号を出力してもよい。また、本発明は、音響シミュレーションを行うための音響シミュレーション装置に適用することも可能である。   (D) In the above embodiment, the acoustic signal input unit 13 inputs the original acoustic signal VIN and the acoustic signal output unit 12 outputs the acoustic signal yn. However, the present invention is not limited to this. The acoustic signal input unit 13 may input an original acoustic signal in a file format such as a WAV file, and the acoustic signal output unit 12 may output an acoustic signal in a file format such as a WAV file. The present invention can also be applied to an acoustic simulation apparatus for performing acoustic simulation.

(e)図11のステップS33において、音響信号出力部12は、音響信号ynを図7の遅延量d0分遅延させて出力してもよい。   (E) In step S33 of FIG. 11, the acoustic signal output unit 12 may delay and output the acoustic signal yn by the delay amount d0 of FIG.

(f)上記実施の形態では、原音声信号VINの全体の周波数帯域について図10および図11の音響信号処理が行われるが、これに限定されない。例えば、原音声信号VINの全体の周波数帯域が高域および低域に分割され、高域および低域の各々について上記の音響信号処理が行われてもよい。   (F) In the above embodiment, the acoustic signal processing of FIG. 10 and FIG. 11 is performed for the entire frequency band of the original audio signal VIN, but the present invention is not limited to this. For example, the entire frequency band of the original audio signal VIN may be divided into a high band and a low band, and the above acoustic signal processing may be performed for each of the high band and the low band.

(g)上記実施の形態では、時間領域の原音響信号を周波数領域の音響ブロックに変換するための時間−周波数変換としてFFTを用いているが、本発明はこれに限定されない。時間−周波数変換として、例えばラプラス変換、Z変換またはメリン(Mellin)変換等の他の直交変換を用いてもよい。また、上記実施の形態では、周波数領域の畳み込み演算結果の加算結果を時間領域の音響信号に変換するための周波数−時間変換としてIFFTを用いているが、本発明はこれに限定されない。周波数−時間変換として、例えば逆ラプラス変換、逆Z変換または逆メリン変換等の他の逆直交変換を用いてもよい。   (G) In the above embodiment, FFT is used as time-frequency conversion for converting an original sound signal in the time domain into an acoustic block in the frequency domain, but the present invention is not limited to this. As time-frequency conversion, other orthogonal transforms such as Laplace transform, Z transform, and Mellin transform may be used. Moreover, in the said embodiment, although IFFT is used as frequency-time conversion for converting the addition result of the convolution calculation result of a frequency domain into the acoustic signal of a time domain, this invention is not limited to this. Other inverse orthogonal transforms such as inverse Laplace transform, inverse Z transform or inverse Merin transform may be used as the frequency-time transform.

(h)上記実施の形態では、音響信号処理装置100の全体が同一のサンプリング周波数fsで動作するが、これに限定されない。音響信号処理装置100の一部が適宜サンプリング周波数変換処理を行うことによりサンプリング周波数fsとは異なるサンプリング周波数で動作してもよい。   (H) In the above embodiment, the entire acoustic signal processing apparatus 100 operates at the same sampling frequency fs, but is not limited to this. A part of the acoustic signal processing apparatus 100 may operate at a sampling frequency different from the sampling frequency fs by appropriately performing a sampling frequency conversion process.

(i)上記実施の形態では、HRTFデータベース3に複数組の分割HRTFブロックが記憶されているが、例えば、複数組の分割HRTFブロックがインターネット上のサーバ等に記憶され、音響信号処理装置100がサーバ等から複数組の分割HRTFブロックをダウンロードして用いてもよい。この場合、音響信号処理装置100がHRTFデータベース3を備えなくてもよい。   (I) In the above embodiment, a plurality of sets of divided HRTF blocks are stored in the HRTF database 3, but for example, a plurality of sets of divided HRTF blocks are stored in a server or the like on the Internet. A plurality of sets of divided HRTF blocks may be downloaded from a server or the like. In this case, the acoustic signal processing apparatus 100 may not include the HRTF database 3.

(j)上記実施の形態では、単一の音響信号処理装置100について説明しているが、左耳用および右耳用の一対の音響信号処理装置100が設けられてもよい。この場合、図1に示される複数の構成要素のうち一部の構成要素が左耳用および右耳用の音響信号処理装置100に共通に用いられてもよい。   (J) Although the single acoustic signal processing apparatus 100 has been described in the above embodiment, a pair of acoustic signal processing apparatuses 100 for the left ear and the right ear may be provided. In this case, some of the components shown in FIG. 1 may be commonly used for the left ear and right ear acoustic signal processing apparatuses 100.

(11)請求項の各構成要素と実施の形態の各部との対応
以下、請求項の各構成要素と実施の形態の各部との対応の例について説明するが、本発明は下記の例に限定されない。
(11) Correspondence between each constituent element of claim and each part of the embodiment Hereinafter, an example of correspondence between each constituent element of the claim and each part of the embodiment will be described, but the present invention is limited to the following example. Not.

上記実施の形態では、主音源S0が第1の音源の例であり、仮想音源S1,S2,…,Skが第2の音源の例であり、受音点Rが受音点の例であり、直接音V0が第1の音の例であり、反射音V1,V2,…,Vkが第2の音の例である。   In the above embodiment, the main sound source S0 is an example of the first sound source, the virtual sound sources S1, S2,..., Sk are examples of the second sound source, and the sound receiving point R is an example of the sound receiving point. The direct sound V0 is an example of the first sound, and the reflected sounds V1, V2,..., Vk are examples of the second sound.

遅延量算出部6が算出部の例であり、HRTFデータベース3が記憶部の例であり、遅延量調整部7が調整部の例であり、音響ブロック選択部9が選択部の例であり、周波数領域変換部14が第1の変換部の例であり、畳み込み演算部10が演算部の例であり、時間領域変換部11が第2の変換部の例である。   The delay amount calculation unit 6 is an example of a calculation unit, the HRTF database 3 is an example of a storage unit, the delay amount adjustment unit 7 is an example of an adjustment unit, and the acoustic block selection unit 9 is an example of a selection unit, The frequency domain conversion unit 14 is an example of a first conversion unit, the convolution calculation unit 10 is an example of a calculation unit, and the time domain conversion unit 11 is an example of a second conversion unit.

分割HRTFブロックH0,0,H0,1,H0,2,H0,3が第1の音響伝達関数または複数の第1の分割伝達関数の例であり、分割HRTFブロックH1,0,H1,1,H1,2,H1,3、分割HRTFブロックH2,0,H2,1,H2,2,H2,3および分割HRTFブロックHk,0,Hk,1,Hk,2,Hk,3が第2の音響伝達関数または複数の第2の分割伝達関数の例であり、頭部インパルス応答h0が第1の音響応答特性の例であり、頭部インパルス応答h1,h2,…,hkが第2の音響応答特性の例であり、分割HRIRブロックh0,0,h0,1,h0,2,h0,3が複数の第1の分割応答特性の例である。   The divided HRTF blocks H0, 0, H0, 1, H0, 2, H0, 3 are examples of the first acoustic transfer function or the plurality of first divided transfer functions, and the divided HRTF blocks H1, 0, H1, 1, H1,2, H1,3, divided HRTF blocks H2,0, H2,1, H2,2, H2,3 and divided HRTF blocks Hk, 0, Hk, 1, Hk, 2, Hk, 3 are the second sound. It is an example of a transfer function or a plurality of second divided transfer functions, a head impulse response h0 is an example of a first acoustic response characteristic, and head impulse responses h1, h2,..., Hk are second acoustic responses. This is an example of characteristics, and divided HRIR blocks h0, 0, h0, 1, h0, 2, h0, 3 are examples of a plurality of first divided response characteristics.

原音響信号VINが原音響信号の例であり、FFTシフトサイズSSが一定のシフト量の例であり、音響ブロックXn,Xn−1,…,Xn−M+1が第1の信号部分の例であり、音響ブロックXn−M1,Xn−1−M1,…,Xn−M+1−M1および音響ブロックXn−Mk,Xn−1−Mk,…,Xn−M+1−Mkが第2の信号部分の例であり、音響信号VOUTが時間領域の音響信号の例であり、Nサンプルが第1のサンプル数の例であり、2Nサンプルが第2のサンプル数の例である。   The original acoustic signal VIN is an example of the original acoustic signal, the FFT shift size SS is an example of a constant shift amount, and the acoustic blocks Xn, Xn−1,..., Xn−M + 1 are examples of the first signal portion. , Acoustic blocks Xn-M1, Xn-1-M1,..., Xn-M + 1-M1 and acoustic blocks Xn-Mk, Xn-1-Mk,. The acoustic signal VOUT is an example of a time domain acoustic signal, N samples are examples of the first number of samples, and 2N samples are examples of the second number of samples.

請求項の各構成要素として、請求項に記載されている構成または機能を有する他の種々の要素を用いることができる。   As each constituent element in the claims, various other elements having configurations or functions described in the claims can be used.

本発明は、音響空間における受音点に到来する音を再現すること等に利用することができる。   The present invention can be used to reproduce sound that arrives at a sound receiving point in an acoustic space.

1 部屋形状指示部
2 主音源位置指示部
3 HRTFデータベース
4 HRTFブロック選択部
5 仮想音源位置算出部
6 遅延量算出部
7 遅延量調整部
8 遅延ブロック数算出部
9 音響ブロック選択部
10 畳み込み演算部
11 時間領域変換部
12 音響信号出力部
13 音響信号入力部
14 周波数領域変換部
15 周波数領域音響バッファ
100 音響信号処理装置
110 CPU
120 ROM
130 RAM
140 記憶装置
150 表示装置
160 入力装置
170 出力装置
300 仮想空間
DESCRIPTION OF SYMBOLS 1 Room shape instruction | indication part 2 Main sound source position instruction | indication part 3 HRTF database 4 HRTF block selection part 5 Virtual sound source position calculation part 6 Delay amount calculation part 7 Delay amount adjustment part 8 Delay block number calculation part 9 Acoustic block selection part 10 Convolution calculation part DESCRIPTION OF SYMBOLS 11 Time domain conversion part 12 Acoustic signal output part 13 Acoustic signal input part 14 Frequency domain conversion part 15 Frequency domain acoustic buffer 100 Acoustic signal processing apparatus 110 CPU
120 ROM
130 RAM
140 Storage Device 150 Display Device 160 Input Device 170 Output Device 300 Virtual Space

Claims (5)

第1の音源により放射されて受音点に到来する第1の音と少なくとも1つの第2の音源により放射されて前記第1の音から遅延して前記受音点に到来する少なくとも1つの第2の音とを混合した音を表す音響信号を出力する音響信号処理装置であって、
前記第1の音と前記第2の音との間の遅延時間差を算出する算出部と、
前記第1の音源により放射される第1の音を表す原音響信号を時間軸上で一定のシフト量ずつシフトしつつ順次時間−周波数変換することにより周波数領域の音響信号を得る第1の変換部と、
前記算出部により算出された遅延時間差を前記時間−周波数変換のシフト量に相当する時間の整数倍に調整する調整部と、
前記第1の変換部により得られた周波数領域の音響信号から前記第1の音に対応する第1の信号部分を選択し、前記調整部により調整された遅延時間差に基づいて、前記第1の変換部により得られた周波数領域の音響信号から前記第2の音に対応する第2の信号部分を選択する選択部と、
前記第1の音源から前記受音点までの第1の音響伝達関数と前記選択部により選択された第1の信号部分との第1の畳み込み演算および前記第2の音源から前記受音点までの第2の音響伝達関数と前記選択部により選択された第2の信号部分との第2の畳み込み演算を周波数領域で行い、前記第1および第2の畳み込み演算の結果の加算を行う演算部と、
前記演算部による加算の結果を時間領域の音響信号に変換する第2の変換部とを備える、音響信号処理装置。
A first sound radiated by the first sound source and arriving at the sound receiving point and at least one first sound radiated by at least one second sound source and delayed from the first sound and arriving at the sound receiving point An acoustic signal processing apparatus that outputs an acoustic signal representing a sound obtained by mixing two sounds,
A calculation unit for calculating a delay time difference between the first sound and the second sound;
A first transform that obtains a frequency domain acoustic signal by sequentially time-frequency transforming an original acoustic signal representing the first sound emitted from the first sound source while shifting the original acoustic signal by a certain shift amount on the time axis. And
An adjustment unit that adjusts the delay time difference calculated by the calculation unit to an integral multiple of a time corresponding to the shift amount of the time-frequency conversion;
The first signal portion corresponding to the first sound is selected from the frequency domain acoustic signal obtained by the first conversion unit, and based on the delay time difference adjusted by the adjustment unit, the first A selection unit that selects a second signal portion corresponding to the second sound from the frequency domain acoustic signal obtained by the conversion unit;
A first convolution operation between the first sound transfer function from the first sound source to the sound receiving point and the first signal portion selected by the selection unit, and from the second sound source to the sound receiving point. An arithmetic unit that performs a second convolution operation between the second acoustic transfer function and the second signal portion selected by the selection unit in the frequency domain and adds the results of the first and second convolution operations When,
An acoustic signal processing apparatus comprising: a second conversion unit that converts a result of addition by the calculation unit into an acoustic signal in a time domain.
前記第1の変換部は、原音響信号から第1のサンプル数の単位ブロックを順次取得し、前記単位ブロックを含みかつ前記第1のサンプル数よりも多い第2のサンプル数の音響信号を高速フーリエ変換し、
前記第1の変換部、前記演算部および前記第2の変換部は、オーバラップセーブ法またはオーバラップアド法により前記高速フーリエ変換、前記第1および第2の畳み込み演算ならびに前記時間領域の音響信号への変換を行い、
前記高速フーリエ変換のシフト量は前記単位ブロックのサンプル数に等しい、請求項1記載の音響信号処理装置。
The first conversion unit sequentially obtains a unit block of the first number of samples from the original sound signal, and performs high-speed operation of the sound signal of the second number of samples that includes the unit block and is larger than the first number of samples. Fourier transform
The first conversion unit, the calculation unit, and the second conversion unit may perform the fast Fourier transform, the first and second convolution operations, and the time domain acoustic signal by an overlap save method or an overlap add method. Conversion to
The acoustic signal processing apparatus according to claim 1, wherein a shift amount of the fast Fourier transform is equal to the number of samples of the unit block.
前記第1の音響伝達関数は複数の第1の分割伝達関数を含み、前記複数の第1の分割伝達関数は、前記第1の音源から前記受音点までの時間領域の第1の音響応答特性の分割により得られた複数の第1の分割応答特性が高速フーリエ変換されることにより得られ、
前記第2の音響伝達関数は複数の第2の分割伝達関数を含み、前記複数の第2の分割伝達関数は、前記第2の音源から前記受音点までの時間領域の第2の音響応答特性の分割により得られた複数の第2の分割応答特性が高速フーリエ変換されることにより得られ、
前記選択部は、前記複数の第1の分割伝達関数の分割数に応じた数の第1の信号部分を選択し、前記複数の第2の分割伝達関数の分割数に応じた数の第2の信号部分を選択し、
前記演算部は、前記複数の第1の分割伝達関数と前記選択部により選択された複数の第1の信号部分との前記第1の畳み込み演算および前記複数の第2の分割伝達関数と前記選択部により選択された複数の第2の信号部分との前記第2の畳み込み演算を周波数領域で行う、請求項2記載の音響信号処理装置。
The first acoustic transfer function includes a plurality of first divided transfer functions, and the plurality of first divided transfer functions is a first acoustic response in a time domain from the first sound source to the sound receiving point. A plurality of first divided response characteristics obtained by dividing the characteristics are obtained by fast Fourier transform,
The second acoustic transfer function includes a plurality of second divided transfer functions, and the plurality of second divided transfer functions are second acoustic responses in a time domain from the second sound source to the sound receiving point. A plurality of second division response characteristics obtained by characteristic division are obtained by fast Fourier transform,
The selection unit selects a first signal portion having a number corresponding to the number of divisions of the plurality of first division transfer functions, and a second number corresponding to the number of divisions of the plurality of second division transfer functions. Select the signal part of
The calculation unit includes the first convolution calculation of the plurality of first division transfer functions and the plurality of first signal portions selected by the selection unit, and the plurality of second division transfer functions and the selection. The acoustic signal processing device according to claim 2, wherein the second convolution operation with a plurality of second signal portions selected by the unit is performed in a frequency domain.
前記第1の音は、前記第1の音源から反射することなく前記受音点に到来する直接音であり、前記第2の音は、前記第1の音源から反射しつつ到来する反射音であり、前記第2の音源は、前記反射音を仮想的に放射する仮想音源である、請求項1〜3のいずれか一項に記載の音響信号処理装置。 The first sound is a direct sound that arrives at the sound receiving point without being reflected from the first sound source, and the second sound is a reflected sound that is reflected while being reflected from the first sound source. The acoustic signal processing apparatus according to claim 1, wherein the second sound source is a virtual sound source that virtually radiates the reflected sound. 第1の音源により放射されて受音点に到来する第1の音と少なくとも1つの第2の音源により放射されて前記第1の音から遅延して前記受音点に到来する少なくとも1つの第2の音とを混合した音を表す音響信号を出力するためにコンピュータにより実行可能な音響信号処理プログラムであって、
前記第1の音と前記第2の音との間の遅延時間差を算出する処理と、
前記第1の音源により放射される第1の音を表す原音響信号を時間軸上で一定のシフト量ずつシフトしつつ時間−周波数変換することにより周波数領域の音響信号を得る処理と、
前記算出された遅延時間差を前記時間−周波数変換のシフト量に相当する時間の整数倍に調整する処理と、
前記周波数領域の音響信号から前記第1の音に対応する第1の信号部分を選択し、前記調整された遅延時間差に基づいて、前記周波数領域の音響信号から前記第2の音に対応する第2の信号部分を選択する処理と、
前記第1の音源から前記受音点までの第1の音響伝達関数と前記選択された第1の信号部分との第1の畳み込み演算および前記第2の音源から前記受音点までの第2の音響伝達関数と前記選択された第2の信号部分との第2の畳み込み演算を周波数領域で行い、前記第1および第2の畳み込み演算の結果の加算を行う処理と、
前記加算の結果を時間領域の音響信号に変換する処理とを、
前記コンピュータに実行させる、音響信号処理プログラム。
A first sound radiated by the first sound source and arriving at the sound receiving point and at least one first sound radiated by at least one second sound source and delayed from the first sound and arriving at the sound receiving point An acoustic signal processing program executable by a computer to output an acoustic signal representing a sound mixed with the sound of two,
A process of calculating a delay time difference between the first sound and the second sound;
A process of obtaining an acoustic signal in the frequency domain by performing time-frequency conversion while shifting the original acoustic signal representing the first sound radiated by the first sound source by a certain shift amount on the time axis;
A process of adjusting the calculated delay time difference to an integral multiple of a time corresponding to the shift amount of the time-frequency conversion;
A first signal portion corresponding to the first sound is selected from the frequency domain acoustic signal, and a first corresponding to the second sound is selected from the frequency domain acoustic signal based on the adjusted delay time difference. A process of selecting two signal parts;
A first convolution operation between the first acoustic transfer function from the first sound source to the sound receiving point and the selected first signal portion and a second convolution from the second sound source to the sound receiving point. A process of performing a second convolution operation of the acoustic transfer function and the selected second signal portion in the frequency domain, and adding the results of the first and second convolution operations;
A process of converting the result of the addition into an acoustic signal in a time domain,
An acoustic signal processing program to be executed by the computer.
JP2013216255A 2013-10-17 2013-10-17 Acoustic signal processing device and acoustic signal processing program Pending JP2015079131A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013216255A JP2015079131A (en) 2013-10-17 2013-10-17 Acoustic signal processing device and acoustic signal processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013216255A JP2015079131A (en) 2013-10-17 2013-10-17 Acoustic signal processing device and acoustic signal processing program

Publications (1)

Publication Number Publication Date
JP2015079131A true JP2015079131A (en) 2015-04-23

Family

ID=53010591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013216255A Pending JP2015079131A (en) 2013-10-17 2013-10-17 Acoustic signal processing device and acoustic signal processing program

Country Status (1)

Country Link
JP (1) JP2015079131A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023218917A1 (en) * 2022-05-11 2023-11-16 ソニーグループ株式会社 Information processing device, information processing method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023218917A1 (en) * 2022-05-11 2023-11-16 ソニーグループ株式会社 Information processing device, information processing method, and program

Similar Documents

Publication Publication Date Title
US11778406B2 (en) Audio processing device and method therefor
JP6607895B2 (en) Binaural audio generation in response to multi-channel audio using at least one feedback delay network
JP7183467B2 (en) Generating binaural audio in response to multichannel audio using at least one feedback delay network
CN107071687A (en) The method and apparatus for audio playback is represented for rendering audio sound field
EP3026666B1 (en) Reverberant sound adding apparatus, reverberant sound adding method, and reverberant sound adding program
JP2015079131A (en) Acoustic signal processing device and acoustic signal processing program
Giesbrecht et al. Algorithmic Reverberation
Serafin et al. Doppler Simulation and the Leslie
JP2017049454A (en) Acoustic processing device and acoustic processing method