JP4691662B2 - Out-of-head sound localization device - Google Patents

Out-of-head sound localization device Download PDF

Info

Publication number
JP4691662B2
JP4691662B2 JP2006031651A JP2006031651A JP4691662B2 JP 4691662 B2 JP4691662 B2 JP 4691662B2 JP 2006031651 A JP2006031651 A JP 2006031651A JP 2006031651 A JP2006031651 A JP 2006031651A JP 4691662 B2 JP4691662 B2 JP 4691662B2
Authority
JP
Japan
Prior art keywords
sound image
sound source
sound
head
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006031651A
Other languages
Japanese (ja)
Other versions
JP2007214815A (en
Inventor
正治 島田
治英 穂刈
彰洋 工藤
星哉 久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagaoka University of Technology
Original Assignee
Nagaoka University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagaoka University of Technology filed Critical Nagaoka University of Technology
Priority to JP2006031651A priority Critical patent/JP4691662B2/en
Publication of JP2007214815A publication Critical patent/JP2007214815A/en
Application granted granted Critical
Publication of JP4691662B2 publication Critical patent/JP4691662B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

本発明は、ステレオヘッドホン受聴時に頭外に音源の方位を知覚できるようにする頭外音像定位技術に関する。   The present invention relates to an out-of-head sound image localization technique that makes it possible to perceive the direction of a sound source outside the head when listening to stereo headphones.

頭外音像定位は、ヘッドホン装着時の外耳道の音響伝播特性をデジタルフィルタで補正して受聴者に提示することにより、頭の外に開放感のある音像を再現するものである。
空間音響特性の付与は、図13に示すように、頭外音像定位伝達関数SLTF(Sound Localization Transfer Function)を音源信号S(ω)と複素乗算して行う。
図の添字L、Rはそれぞれ左耳、右耳のものであることを示している。
SLTFは、自由空間におけるスピーカ3から外耳道入口のマイクロホン2までの空間音響伝達関数SSTF(Spacial Sound Transfer Function)を求め、これをスピーカ3の伝達関数LSTF(Loud Speaker Transfer Function)で割ってスピーカ3の特性を補償したものをさらに受聴者8のヘッドホン4からマイクロホン2までの外耳道伝達関数ECTF(Ear Canal Transfer Function)で割って得られる。すなわちSLTF=SSTF/(LSTF・ECTF)となる。
このSLTFを音源信号S(ω)と複素乗算し、ヘッドホン4を介して受聴者8に提示することにより、頭外音像定位が実現する。
Out-of-head sound image localization reproduces a sound image with a sense of openness outside the head by correcting the acoustic propagation characteristics of the ear canal when wearing headphones with a digital filter and presenting it to the listener.
As shown in FIG. 13, the spatial acoustic characteristics are given by complex multiplication of an out-of-head sound image localization transfer function SLTF (Sound Localization Transfer Function) and the sound source signal S (ω).
The subscripts L and R in the figure indicate the left ear and the right ear, respectively.
The SLTF obtains a spatial sound transfer function SSTF (Spacial Sound Transfer Function) from the speaker 3 in the free space to the microphone 2 at the entrance of the ear canal, and divides this by the transfer function LSTF (Loud Speaker Transfer Function) of the speaker 3. The characteristic compensated is further divided by the ear canal transfer function (ECTF) from the headphone 4 to the microphone 2 of the listener 8. That is, SLTF = SSTF / (LSTF · ECTF).
The SLTF is complex-multiplied with the sound source signal S (ω) and presented to the listener 8 via the headphones 4 to realize out-of-head sound image localization.

しかしながら、受聴者が音源位置を知覚するのに必要な両耳間の到達時間差、レベル差、周波数特性などの両耳特性や単耳特性は、頭部、胴体、耳介などの微妙な違いで変化することが知られている。
そのため人間の頭部、胴体、耳介には個人差があり、ダミーヘッドを用いて測定した汎用の伝達関数では本来は前方に知覚されるべき音像が後方に知覚される、いわゆる前後誤判定が生じ、音像定位は不正確になるか、もしくは最悪の場合、音像は頭の中に定位してしまう。
However, the binaural characteristics such as arrival time difference, level difference, frequency characteristics, etc. necessary for the listener to perceive the sound source position, and the monoaural characteristics are subtle differences such as the head, trunk, and pinna. It is known to change.
For this reason, there are individual differences in the human head, torso, and auricle, and so-called front / rear misjudgment where a sound image that should be perceived forward is perceived backward in a general-purpose transfer function measured using a dummy head. The sound image localization is inaccurate or, in the worst case, the sound image is localized in the head.

解決しようとする問題点は以上のような点であり、本発明は、汎用の伝達関数を用いながら不特定多数の受聴者に良好な定位感が得られるステレオヘッドホンの頭外音像定位装置を提供することを目的になされたものである。   The problems to be solved are as described above, and the present invention provides an out-of-head sound image localization apparatus for stereo headphones that can obtain a good localization feeling for an unspecified number of listeners using a general-purpose transfer function. It was made for the purpose of doing.

そのため本発明は、方位角±Φを有する前方の2チャネルステレオ実音源位置L、Rの左右に角度差θ(スイング角度)を有する移動音源位置A、Bを設定して両耳の受聴点までの経路の伝達関数Ha(ω)、Hb(ω)を移動音源位置毎に求め、ステレオヘッドホンの各チャネルの音源信号s(t)に対し、フレームの前後がオーバラップする波形切り出し関数w(t)を掛けて逐次フレームを切り出し、音源信号s(t)を複数のフレーム信号sn(t)に分割する切り出し手段と、フレーム信号sn(t)に対し、交互に伝達関数Ha(ω)、Hb(ω)を畳み込んで移動音源位置A、Bの位置情報を含んだフレーム信号sa(t)、sb(t)を生成する畳み込み手段と、フレーム信号sa(t)、sb(t)に対し、波形合成関数wを掛けて得られるフレーム信号sa´(t)、sb´(t)を交互にオーバラップ加算して、波形の不連続を平滑化するとともに、ステレオ実音源位置L、Rに設置した音源が移動音源位置A、B間を一定の周期T(スイッチング時間)で往復運動する移動情報を含んだ合成信号s´(t)を生成する加算手段とを備え、これより受聴者の両耳に音像提示角度φ、スイング角度θ、スイッチング時間Tなるスイング音像を提示して音像を頭外に定位させることを最も主要な特徴とする。 Therefore, the present invention sets the moving sound source positions A and B having the angle difference θ (swing angle) to the left and right of the front two-channel stereo real sound source positions L and R having the azimuth angle ± Φ to the listening point of both ears. Transfer functions Ha (ω) and Hb (ω) for each path are obtained for each moving sound source position, and a waveform cut-out function w 1 (front and back) overlaps the sound source signal s (t) of each channel of stereo headphones. t), the frame is sequentially cut out, the cut-out means for dividing the sound source signal s (t) into a plurality of frame signals sn (t), and the transfer function Ha (ω), alternately for the frame signal sn (t), Convolution means for generating frame signals sa (t) and sb (t) including position information of the moving sound source positions A and B by convolving Hb (ω), and frame signals sa (t) and sb (t) contrast, the waveform synthesis function w The multiplied by frame signal sa' obtained (t), Sb' and overlap-add (t) are alternately while smooth discontinuities in the waveform, stereo actual sound source position L, the sound source installed in R movement Adding means for generating a synthesized signal s ′ (t) including movement information that reciprocates between the sound source positions A and B at a constant period T (switching time), and thereby presenting a sound image to both ears of the listener The main feature is that the sound image is localized out of the head by presenting a swing sound image having an angle φ, a swing angle θ, and a switching time T.

本発明は、人間を含む動物は一般的に移動音源の知覚に対して敏感であるという性質を利用して、ステレオヘッドホンの各チャネルの音源信号s(t)に移動音源位置A、Bの伝達関数Ha(ω)、Hb(ω)を交互に畳み込んで音像を移動するので、汎用の伝達関数を用いた高精度な頭外音像定位を実現できる。
また、オーバラップ区間の波形を合成してオーバラップ加算時の波形の不連続を平滑化するので、伝達関数を切り替える際に生じる振幅変動による違和感をなくし、より自然な信号波形の音像を提示できる。
The present invention takes advantage of the fact that animals including humans are generally sensitive to the perception of moving sound sources, and transfers the sound source positions A and B to the sound source signal s (t) of each channel of stereo headphones. Since the sound image is moved by alternately convolving the functions Ha (ω) and Hb (ω), high-accuracy out-of-head sound image localization using a general-purpose transfer function can be realized.
In addition, since the waveform of the overlap interval is synthesized to smooth the discontinuity of the waveform at the time of overlap addition, there is no sense of incongruity due to amplitude fluctuation that occurs when the transfer function is switched, and a more natural signal waveform sound image can be presented .

以下、本発明の実施の形態について説明する。   Embodiments of the present invention will be described below.

図1に、本発明を実施した頭外音像定位装置の構成図を示す。
図には、図を複雑にしないためステレオヘッドホンシステムの片方のチャネル系列のみを示している。
頭外音像定位装置は、パソコン1の入力側に測定系のマイクロホン2を接続し、出力側に測定系のスピーカ3と再生系のヘッドホン4をスイッチ5により切換え可能に接続する。
マイクロホン2は、A/D変換器21、アンチエリアシングフィルタとしてのローパスフィルタ22、アンプ23を介してパソコン1に接続する。
スピーカ3は、セレクタ31、アンプ32を介してスイッチ5に接続する。
ヘッドホン4は、アンプ41を介してスイッチ5に接続する。
スイッチ5は、D/A変換器51、スムージングフィルタとしてのローパスフィルタ52を介してパソコン1に接続する。
FIG. 1 shows a configuration diagram of an out-of-head sound image localization apparatus embodying the present invention.
In the figure, only one channel series of the stereo headphone system is shown in order not to make the figure complicated.
The out-of-head sound image localization apparatus has a measuring system microphone 2 connected to the input side of the personal computer 1 and a measuring system speaker 3 and a reproducing system headphone 4 connected to the output side by a switch 5 so as to be switchable.
The microphone 2 is connected to the personal computer 1 through an A / D converter 21, a low pass filter 22 as an anti-aliasing filter, and an amplifier 23.
The speaker 3 is connected to the switch 5 via the selector 31 and the amplifier 32.
The headphone 4 is connected to the switch 5 via the amplifier 41.
The switch 5 is connected to the personal computer 1 through a D / A converter 51 and a low pass filter 52 as a smoothing filter.

測定は測定室6内に人間の頭部、胴体、耳介形状を模したダミーヘッド7を設置して行い、ダミーヘッド7の両耳の外耳道入口部分にマイクロホン2をセットし、ダミーヘッド7を中心にした前方の円弧上に等しい角度間隔でスピーカ3を配置する。
そしてセレクタ31を切換えて測定音を出力するスピーカ3の位置を移動し、スピーカ3の測定音をダミーヘッド7の耳に挿入したマイクロホン2で収音して所定の測定角度間隔で順番にインパルス応答を測定する。
測定角度間隔を実際のスピーカ3の配置間隔より狭い、例えば1度間隔にする場合は、到来時間差を考慮した線形補間法を用いてインパルス応答を計算で求める。
スピーカ3は、円形の枠に等しい角度間隔で取り付けてもよい。
その場合、枠を水平方向に回転して測定角度間隔を実際のスピーカ3の配置間隔より狭い、例えば1度間隔にすることもできる。
Measurement is performed by installing a dummy head 7 simulating a human head, torso, and auricle shape in the measurement chamber 6, setting the microphone 2 at the entrance of the ear canal of both ears of the dummy head 7, and mounting the dummy head 7. The speakers 3 are arranged at equal angular intervals on the forward arc centered.
The selector 31 is switched to move the position of the speaker 3 that outputs the measurement sound, and the measurement sound of the speaker 3 is picked up by the microphone 2 inserted into the ear of the dummy head 7 and is impulse response in order at predetermined measurement angle intervals. Measure.
When the measurement angle interval is narrower than the actual arrangement interval of the speakers 3, for example, an interval of 1 degree, the impulse response is obtained by calculation using a linear interpolation method considering the arrival time difference.
The speakers 3 may be attached at equal angular intervals to the circular frame.
In that case, the frame can be rotated in the horizontal direction so that the measurement angle interval is narrower than the actual arrangement interval of the speakers 3, for example, an interval of 1 degree.

測定はダミーヘッド7の両耳について行い、図2に示すように、左側のスピーカ3Lと左耳との間のインパルス応答h1L(t)、左側のスピーカ3Lと右耳との間のインパルス応答h2L(t)、右側のスピーカ3Rと右耳との間のインパルス応答h1R(t)、右側のスピーカ3Rと左耳との間のインパルス応答h2R(t)をそれぞれ測定する。   The measurement is performed for both ears of the dummy head 7, and as shown in FIG. 2, the impulse response h1L (t) between the left speaker 3L and the left ear, and the impulse response h2L between the left speaker 3L and the right ear. (T) The impulse response h1R (t) between the right speaker 3R and the right ear and the impulse response h2R (t) between the right speaker 3R and the left ear are measured.

図3に、パソコン1内で処理する測定系のブロック図を示す。
測定系は、信号発生部11、インパルス応答計算部12、メモリ保存部13で構成し、測定室6内におけるスピーカ3とマイクロホン2の間のインパルス応答を測定して音源から受聴点までの経路の伝達関数を求める。
FIG. 3 shows a block diagram of a measurement system processed in the personal computer 1.
The measurement system includes a signal generation unit 11, an impulse response calculation unit 12, and a memory storage unit 13. The measurement system measures the impulse response between the speaker 3 and the microphone 2 in the measurement chamber 6 and determines the path from the sound source to the listening point. Find the transfer function.

信号発生部11は、M系列信号(Maximum Length Sequence)や時間伸張パルス(Time Stretched Pulse)などのインパルス応答測定用の入力信号x(t)を生成し、スピーカ3に出力する。
入力信号x(t)はスピーカ3により音として出力され、ダミーヘッド7の耳に挿入したマイクロホン2により収音される。
マイクロホン2で収音した音はデジタル信号に変換され、インパルス応答がh(t)の線形システムにx(t)を入力したときの出力信号y(t)として入力信号x(t)と共にインパルス応答計算部12に入力される。
インパルス応答計算部12は、入力信号x(t)のフーリエ変換X(ω)と出力信号y(t)のフーリエ変換Y(ω)からインパルス応答h(t)のフーリエ変換である伝達関数H(ω)=Y(ω)/X(ω)を算出する。
測定はスピーカ3の位置を移動して行い、異なる音源位置のインパルス応答h(t)を所定の測定角度間隔で順番に取得し、それより異なる音源位置の伝達関数H(ω)を順番に算出する。
メモリ保存部13は、インパルス応答計算部12が算出した異なる音源位置の伝達関数H(ω)を順番にメモリに保存する。
The signal generator 11 generates an impulse response measurement input signal x (t) such as an M-sequence signal (Maximum Length Sequence) or a time stretched pulse (Time Stretched Pulse) and outputs it to the speaker 3.
The input signal x (t) is output as sound by the speaker 3 and collected by the microphone 2 inserted into the ear of the dummy head 7.
The sound collected by the microphone 2 is converted into a digital signal, and the impulse response together with the input signal x (t) is output as the output signal y (t) when x (t) is input to the linear system with the impulse response h (t). Input to the calculator 12.
The impulse response calculation unit 12 performs a transfer function H () that is a Fourier transform of the impulse response h (t) from the Fourier transform X (ω) of the input signal x (t) and the Fourier transform Y (ω) of the output signal y (t). ω) = Y (ω) / X (ω) is calculated.
Measurement is performed by moving the position of the speaker 3, impulse responses h (t) of different sound source positions are sequentially acquired at predetermined measurement angle intervals, and transfer functions H (ω) of different sound source positions are sequentially calculated therefrom. To do.
The memory storage unit 13 sequentially stores the transfer functions H (ω) of different sound source positions calculated by the impulse response calculation unit 12 in the memory.

図2と図4に示すように、音源信号SL(t)と実音源3Lの位置から受聴者の両耳までの伝達関数のインパルス応答h1L(t)、h2L(t)を畳み込んだ信号と、音源信号SR(t)と実音源3Rの位置から受聴者の両耳までの伝達関数のインパルス応答h1R(t)、h2R(t)を畳み込んだ信号を両耳毎にそれぞれ加算することによって得られる2チャネルの仮想音源SiL(t)とSiR(t)を、ヘッドホン4を用いて提示することで、受聴者は合成されたステレオ音像Si(t)を知覚する。
このとき、音源信号SL(t)とSR(t)にレベル差と時間差を付加することで、合成されたステレオ音像の提示角度φを制御できる。
音像スイング法は、図4に示すように、仮想音源SiL(t)とSiR(t)をスイング角度θだけ変位した位置A、B間で一定のスイッチング時間Tで往復運動させることで、合成されたステレオ音像Si(t)を左右方向に変位させることにより、受聴者8の頭外に定位させるものである。
図4において、円弧ABの中心角θをスイング角度とし、3〜10度の範囲に設定する。
また、受聴者8の頭部中心からステレオ実音源位置L、Rまでの距離?を約1.5m、スイッチング時間Tを200m秒以上に設定する。
音像提示角度φは、各チャネルの音源信号s(t)に時間差とレベル差を付加することにより設定する。
As shown in FIG. 2 and FIG. 4, the sound source signal SL (t) and a signal obtained by convolving the impulse responses h1L (t) and h2L (t) of the transfer function from the position of the real sound source 3L to both ears of the listener, By adding, for each ear, a signal obtained by convolving the sound source signal SR (t) and the impulse response h1R (t), h2R (t) of the transfer function from the position of the real sound source 3R to the listener's ears, respectively. By presenting the obtained two-channel virtual sound sources SiL (t) and SiR (t) using the headphones 4, the listener perceives the synthesized stereo sound image Si (t).
At this time, the presentation angle φ of the synthesized stereo sound image can be controlled by adding a level difference and a time difference to the sound source signals SL (t) and SR (t).
As shown in FIG. 4, the sound image swing method is synthesized by reciprocating the virtual sound sources SiL (t) and SiR (t) between positions A and B displaced by the swing angle θ with a constant switching time T. Further, the stereo sound image Si (t) is displaced in the left-right direction to be localized outside the head of the listener 8.
In FIG. 4, the central angle θ of the arc AB is set as a swing angle and set in a range of 3 to 10 degrees.
Also, the distance from the center of the head of the listener 8 to the stereo real sound source positions L and R is set to about 1.5 m, and the switching time T is set to 200 msec or more.
The sound image presentation angle φ is set by adding a time difference and a level difference to the sound source signal s (t) of each channel.

スイング音像の提示方法には、図5に示すように、ステレオ実音源位置L、Rに設定した仮想音源SiL(t)、SiR(t)を逆方向に移動音源位置A、B間を往復させるコンパンド法と、図6に示すように、仮想音源SiL(t)、SiR(t)を同方向に移動音源位置A、B間を往復させるツイスト法がある。
コンパンド法は、左右のステレオ実音源位置L、Rに設定した仮想音源SiL(t)、SiR(t)が提示する音像の位置を左右に伸縮して受聴者8の前方の頭外に音像を定位させる。
ツイスト法は、左右のステレオ実音源位置L、Rに設定した仮想音源SiL(t)、SiR(t)が提示する音像の位置を左右に揺動して受聴者8の前方の頭外に音像を定位させる。
As shown in FIG. 5, the virtual sound sources SiL (t) and SiR (t) set at the stereo real sound source positions L and R are reciprocated between the moving sound source positions A and B in the reverse direction. As shown in FIG. 6, there is a compound method and a twist method in which the virtual sound sources SiL (t) and SiR (t) are reciprocated between the moving sound source positions A and B in the same direction.
In the companding method, the position of the sound image presented by the virtual sound sources SiL (t) and SiR (t) set at the left and right stereo real sound source positions L and R is expanded and contracted to the left and right, and the sound image is placed out of the head in front of the listener 8. Let it be localized.
In the twist method, the position of the sound image presented by the virtual sound sources SiL (t) and SiR (t) set at the left and right stereo real sound source positions L and R is swung left and right, and the sound image is out of the head in front of the listener 8. Is localized.

図7に、パソコン1内で処理する再生系のブロック図を示す。
再生系は、第1音像生成部14、第2音像生成部15、第3音像生成部16、第4音像生成部17、第1音像合成部18、第2音像合成部19で構成し、左右のステレオ信号を入力して両耳のスイング音像を生成し、ヘッドホン4の左右のチャネルに出力する。
スイング音像は、左右のチャネルに対しメモリ保存部13に保存した異なる音源位置の伝達関数H(ω)の中から移動音源位置A、Bの伝達関数Ha(ω)、Hb(ω)を抽出し、それを交互に音源信号と複素乗算して得られる。
FIG. 7 shows a block diagram of a reproduction system for processing in the personal computer 1.
The reproduction system includes a first sound image generating unit 14, a second sound image generating unit 15, a third sound image generating unit 16, a fourth sound image generating unit 17, a first sound image synthesizing unit 18, and a second sound image synthesizing unit 19. The stereo sound signal is input to generate a swing sound image of both ears and output to the left and right channels of the headphones 4.
The swing sound image extracts the transfer functions Ha (ω) and Hb (ω) of the moving sound source positions A and B from the transfer functions H (ω) of different sound source positions stored in the memory storage unit 13 for the left and right channels. It is obtained by complex multiplication with the sound source signal alternately.

第1音像生成部14は、左側のステレオ信号とインパルス応答h1L(t)を畳み込み乗算して左耳用のスイング音像s1L(t)を生成する。
第2音像生成部15は、左側のステレオ信号とインパルス応答h2L(t)を畳み込み乗算して右耳用のスイング音像s2L(t)を生成する。
第3音像生成部16は、右側のステレオ信号とインパルス応答h2R(t)を畳み込み乗算して左耳用のスイング音像s2R(t)を生成する。
第4音像生成部17は、右側のステレオ信号とインパルス応答h1R(t)を畳み込み乗算して右耳用のスイング音像s1R(t)を生成する。
第1音像合成部18は、スイング音像s1L(t)、s2R(t)を加算してヘッドホン4の左チャネル出力信号を生成する。
第2音像合成部19は、スイング音像s1R(t)、s2L(t)を加算してヘッドホン4の右チャネル出力信号を生成する。
The first sound image generation unit 14 generates a swing sound image s1L (t) for the left ear by convolving and multiplying the left stereo signal and the impulse response h1L (t).
The second sound image generation unit 15 convolves and multiplies the left stereo signal and the impulse response h2L (t) to generate a right ear swing sound image s2L (t).
The third sound image generation unit 16 generates a swing sound image s2R (t) for the left ear by convolving and multiplying the right stereo signal and the impulse response h2R (t).
The fourth sound image generating unit 17 generates a swing sound image s1R (t) for the right ear by convolving and multiplying the right stereo signal and the impulse response h1R (t).
The first sound image synthesis unit 18 adds the swing sound images s1L (t) and s2R (t) to generate the left channel output signal of the headphones 4.
The second sound image synthesizer 19 adds the swing sound images s1R (t) and s2L (t) to generate the right channel output signal of the headphones 4.

図8に、音像生成部の処理フローを示す。
まず、音源信号s(t)にフレーム間で前後がオーバラップする波形切り出し関数w(t)を掛けて逐次フレームを切り出し、音源信号s(t)を複数のフレーム信号sn(t)=s(t)・w(t)に分割する(ステップ101)。
これにより音源信号の長さをインパルス応答と同程度の長さに分割し、畳み込み演算の処理効率を高める。
次に、高速フーリエ変換(FFT)によりフレーム信号sn(t)のフーリエ変換Sn(ω)=F{sn(t)}を求める(ステップ102)。
次に、周波数領域のフレーム信号Sn(ω)と移動音源位置A、Bの伝達関数Ha(ω)、Hb(ω)を交互に複素乗算してA位置フレーム信号Sa(ω)=Sn(ω)・Ha(ω)とB位置フレーム信号Sb(ω)=Sn(ω)・Hb(ω)を生成する(ステップ103)。
これにより異なる音源位置A、Bで測定・算出された伝達関数が畳み込まれ、フレーム信号は空間の位置情報を含んだ音源信号となる。
FIG. 8 shows a processing flow of the sound image generation unit.
First, the sound source signal s (t) is multiplied by a waveform cut-out function w 1 (t) that overlaps between frames before and after, thereby sequentially cutting out frames, and the sound source signal s (t) is converted into a plurality of frame signals sn (t) = s. Divide into (t) and w 1 (t) (step 101).
As a result, the length of the sound source signal is divided into the same length as the impulse response, and the processing efficiency of the convolution calculation is increased.
Next, the Fourier transform Sn (ω) = F {sn (t)} of the frame signal sn (t) is obtained by fast Fourier transform (FFT) (step 102).
Next, the A position frame signal Sa (ω) = Sn (ω) is obtained by alternately complex-multiplying the frequency domain frame signal Sn (ω) and the transfer functions Ha (ω) and Hb (ω) of the moving sound source positions A and B. ) · Ha (ω) and B position frame signal Sb (ω) = Sn (ω) · Hb (ω) are generated (step 103).
As a result, transfer functions measured and calculated at different sound source positions A and B are convoluted, and the frame signal becomes a sound source signal including spatial position information.

コンパンド法の場合、ステレオの各チャネルのフレーム信号Sn(ω)に対し、複素乗算する伝達関数Ha(ω)、Hb(ω)の順序を左右逆にする。
ツイスト法の場合、ステレオの各チャネルのフレーム信号Sn(ω)に対し、複素乗算する伝達関数Ha(ω)、Hb(ω)の順序を左右同じにする。
In the case of the companding method, the order of the transfer functions Ha (ω) and Hb (ω) for performing complex multiplication on the frame signal Sn (ω) of each stereo channel is reversed.
In the case of the twist method, the order of the transfer functions Ha (ω) and Hb (ω) for performing complex multiplication on the frame signal Sn (ω) of each stereo channel is the same on the left and right.

次に、逆高速フーリエ変換(IFFT)によりA位置フレーム信号Sa(ω)とB位置フレーム信号Sb(ω)の逆フーリエ変換sa(t)=F-1{Sa(ω)}、sb(t)=F-1{Sb(ω)}を求め、音源信号を時間領域に戻す(ステップ104)。
次に、A位置フレーム信号sa(t)とB位置フレーム信号sb(t)に波形合成関数w(t)を掛けてフレームの前後の波形を合成し、波形合成A位置フレーム信号sa´(t)=sa(t)・w(t)と波形合成B位置フレーム信号sb´(t)=sb(t)・w(t)を生成する。これによりオーバラップ区間の振幅を調整し、オーバラップ加算時の振幅変動を抑えてフレームのつなぎを滑らかにする。次に、波形合成A位置フレーム信号sa´(t)と波形合成B位置フレーム信号sb´(t)を交互にオーバラップ加算して結合し、合成信号s´(t)=sa´(t)+sb´(t)+・・・を生成する(ステップ105)。
これにより異なる音源位置A、Bの位置情報を含んだフレーム信号が交互に接続され、合成信号は空間の移動情報を含んだ音源信号となる。
Next, the inverse Fourier transform sa (t) = F −1 {Sa (ω)}, sb (t) of the A position frame signal Sa (ω) and the B position frame signal Sb (ω) by inverse fast Fourier transform (IFFT). ) = F −1 {Sb (ω)}, and the sound source signal is returned to the time domain (step 104).
Next, the A position frame signal sa (t) and the B position frame signal sb (t) are multiplied by the waveform synthesis function w 2 (t) to synthesize the waveforms before and after the frame, and the waveform synthesis A position frame signal sa ′ ( t) = sa (t) · w 2 (t) and the waveform synthesis B position frame signal sb ′ (t) = sb (t) · w 2 (t) are generated. As a result, the amplitude of the overlap interval is adjusted, and fluctuations in amplitude at the time of overlap addition are suppressed to smooth the frame connection. Next, the waveform synthesis A position frame signal sa ′ (t) and the waveform synthesis B position frame signal sb ′ (t) are alternately overlap-added and combined, and the synthesis signal s ′ (t) = sa ′ (t 1 ) + Sb ′ (t 2 ) +... (Step 105).
As a result, frame signals including positional information of different sound source positions A and B are alternately connected, and the synthesized signal becomes a sound source signal including spatial movement information.

波形切り出し関数w(t)と波形合成関数w2(t)は、フェードイン/フェードアウト関数を用いる場合とモディファイド・ハミング窓を用いる場合がある。
切り出し区間Lとフレームシフト量Mの間に、L=(4・M)の倍数という関係が成り立つならば、モディファイド・ハミング窓を用いて、波形の切り出し・合成を行うことで、滑らかに波形を合成することができる。モディファイド・ハミング窓は、オーバラップ区間のパワー和が一定になるように一方の振幅と他方の振幅を両方同時に小さくして信号波形を平滑化し、音像が滑らかに移動するようにする。
また、フェードイン/フェードアウト関数を用いることでも、滑らかに波形の合成を行うことができる。フェードイン/フェードアウト関数は、図9に示すように、フレーム信号をaからbに切り替えるとき、もしくはbからaに切り替えるとき、信号a、bのオーバラップ区間をクロスフェード領域とし、クロスフェード領域においてフェードアウトする信号aには直線状に傾斜して下降するフェードアウト関数wa(t)を乗算し、フェードインする信号bには直線状に傾斜して上昇するフェードイン関数wb(t)を乗算する。
これによりオーバラップ区間のパワー和が一定になるように一方の振幅を単調減少、他方の振幅を単調増加させて信号波形を平滑化し、音像が滑らかに移動するようにする。
The waveform cut-out function w 1 (t) and the waveform synthesis function w 2 (t) may use a fade-in / fade-out function or a modified Hamming window.
If a relationship of multiples of L = (4 · M) is established between the cut-out section L and the frame shift amount M, the waveform can be cut out and synthesized using a modified Hamming window to smoothly form the waveform. Can be synthesized. The modified Hamming window smoothes the signal waveform by simultaneously reducing the amplitude of one and the other so that the power sum in the overlap section is constant, so that the sound image moves smoothly.
Also, the waveform can be synthesized smoothly by using a fade-in / fade-out function. As shown in FIG. 9, when the frame signal is switched from a to b, or when switching from b to a, the fade-in / fade-out function uses the overlap interval of the signals a and b as a cross-fade region. The signal a that fades out is multiplied by a fade-out function wa (t) that linearly inclines and falls, and the signal b that fades in is multiplied by a fade-in function wb (t) that inclines and rises linearly.
Thus, one amplitude is monotonously decreased and the other amplitude is monotonously increased so that the power sum of the overlap section is constant, thereby smoothing the signal waveform so that the sound image moves smoothly.

以下、本発明の実施例(評価結果)について説明する。
図10に、音像提示角度φと前後誤判定率の関係を示す。
図10は、汎用の伝達関数を用いると定位精度が悪化する被験者に対し、本発明の頭外音像定位装置を適用した場合の評価結果を示し、左右0度から20度の音像提示角度φを横軸に、音像定位知覚の前後誤判定率を縦軸に配置している。
これより音像提示角度が0度の場合、従前の技術では前後誤判定率が60%であったものが本発明のコンパンド法とツイスト法では10〜30%に減少していることが分かる。
また、音像提示角度が10度の場合、従前の技術では前後誤判定率が25%であったものが本発明のコンパンド法とツイスト法では10〜20%に減少している。
このときの値は、後述のスイッチング時間T、スイング角度θ、伝達関数に合致しない被験者のすべての平均値で表している。
以上により、音像提示角度が0度における前後誤判定率が最も悪く、音像提示角度が正面を離れるほど、前後誤判定率が低下することが分かる。これは理論的・実験的にも正面方向の定位精度が悪いことを実証している。
以下、正面定位に議論を絞って最適なスイング角度θ、スイッチング時間Tを求める。
Hereinafter, examples (evaluation results) of the present invention will be described.
FIG. 10 shows the relationship between the sound image presentation angle φ and the front / rear erroneous determination rate.
FIG. 10 shows an evaluation result when the out-of-head sound image localization apparatus of the present invention is applied to a subject whose localization accuracy deteriorates when a general-purpose transfer function is used, and a sound image presentation angle φ of 0 to 20 degrees on the left and right is shown. On the horizontal axis, the misjudgment rate before and after sound image localization perception is arranged on the vertical axis.
From this, it can be seen that when the sound image presentation angle is 0 degree, the previous technique has a front / rear misjudgment rate of 60%, but the compound method and twist method of the present invention are reduced to 10-30%.
Further, when the sound image presentation angle is 10 degrees, the front-rear error determination rate of 25% in the conventional technique is reduced to 10-20% in the compound method and the twist method of the present invention.
The value at this time is represented by an average value of all the subjects who do not match the switching time T, the swing angle θ, and the transfer function, which will be described later.
From the above, it can be seen that the front / rear misjudgment rate is the worst when the sound image presentation angle is 0 degrees, and that the front / rear misjudgment rate decreases as the sound image presentation angle leaves the front. This proves that the localization accuracy in the front direction is poor both theoretically and experimentally.
In the following, the optimum swing angle θ and switching time T are determined by focusing on the front localization.

図11に、スイング角度θと前後誤判定率の関係を示す。
図11は、汎用の伝達関数に合致しない被験者(Aグループ)とほぼ合致する被験者(Bグループ)に対し、本発明の頭外音像定位装置を適用した場合のツイスト法の評価結果を示し、音像提示角度φが0度でスイッチング時間Tを200m秒〜1秒までとし、スイング角度θを横軸に、音像定位知覚の前後誤判定率を縦軸に配置している。
これよりスイング角度θが最適な値の範囲は3〜10度であることが分かる。
なお、コンパンド法については記述を省略するが、ツイスト法と同様な評価結果を得ている。
FIG. 11 shows the relationship between the swing angle θ and the forward / backward misjudgment rate.
FIG. 11 shows the evaluation result of the twist method when the out-of-head sound localization apparatus of the present invention is applied to a subject (Group B) that substantially matches a subject (Group A) that does not match a general-purpose transfer function. The presentation angle φ is 0 degree, the switching time T is from 200 milliseconds to 1 second, the swing angle θ is set on the horizontal axis, and the pre- and post-judgment error determination rates for sound image localization are arranged on the vertical axis.
From this, it can be seen that the range of the optimum value of the swing angle θ is 3 to 10 degrees.
In addition, although description is abbreviate | omitted about the companding method, the evaluation result similar to the twist method is obtained.

図12に、スイッチング時間Tと前後誤判定率の関係を示す。
図12は、汎用の伝達関数に合致しない被験者(Aグループ)とほぼ合致する被験者(Bグループ)に対し、本発明の頭外音像定位装置を適用した場合のツイスト法の評価結果を示し、音像提示角度φが0度でスイング角度θを4度、8度とし、スイッチング時間Tを横軸に、音像定位知覚の前後誤判定率を縦軸に配置している。
これよりスイッチング時間Tが最適な値の範囲は200m秒以上であることが分かる。
同様に、コンパンド法については記述を省略するが、ツイスト法と同様な評価結果を得ている。
FIG. 12 shows the relationship between the switching time T and the front / rear misjudgment rate.
FIG. 12 shows the evaluation results of the twist method when the out-of-head sound localization apparatus of the present invention is applied to subjects (Group B) that substantially match subjects (Group A) that do not match the general-purpose transfer function. The presentation angle φ is 0 degree, the swing angle θ is 4 degrees and 8 degrees, the switching time T is set on the horizontal axis, and the error determination rate before and after sound image localization perception is arranged on the vertical axis.
From this, it is understood that the range of the optimum value of the switching time T is 200 milliseconds or more.
Similarly, although the description of the companding method is omitted, the same evaluation results as the twist method are obtained.

本発明を実施した頭外音像定位装置の構成図である。It is a block diagram of the out-of-head sound image localization apparatus which implemented this invention. インパルス応答の測定方法の概念図である。It is a conceptual diagram of the measuring method of an impulse response. パソコン1内で処理する測定系のブロック図である。2 is a block diagram of a measurement system that is processed in the personal computer 1. FIG. 本発明を実施した頭外音像定位装置の音像提示方法の概念図である。It is a conceptual diagram of the sound image presentation method of the out-of-head sound image localization apparatus which implemented this invention. コンパンド法による音像提示方法の概念図である。It is a conceptual diagram of the sound image presentation method by a companding method. ツイスト法による音像提示方法の概念図である。It is a conceptual diagram of the sound image presentation method by a twist method. パソコン1内で処理する再生系のブロック図である。2 is a block diagram of a playback system that is processed in the personal computer 1; FIG. 音像生成部の処理フローである。It is a processing flow of a sound image generation part. フェードイン/フェードアウト処理の概念図である。It is a conceptual diagram of a fade-in / fade-out process. 音像提示角度と前後誤判定率の関係を表すグラフである。It is a graph showing the relationship between a sound image presentation angle and a back-and-front error determination rate. スイング角度θと前後誤判定率の関係を表すグラフである。It is a graph showing the relationship between swing angle (theta) and a back-and-front misjudgment rate. スイッチング時間Tと前後誤判定率の関係を表すグラフである。It is a graph showing the relationship between the switching time T and the back-and-front error determination rate. 頭外音像定位伝達関数の測定方法の概念図である。It is a conceptual diagram of the measuring method of an out-of-head sound image localization transfer function.

符号の説明Explanation of symbols

1 パソコン
11 信号発生部
12 インパルス応答計算部
13 メモリ保存部
14 第1音像生成部
15 第2音像生成部
16 第3音像生成部
17 第4音像生成部
18 第1音像合成部
19 第2音像合成部
2 マイクロホン
21 A/D変換器
22 ローパスフィルタ
23 アンプ
3 スピーカ
31 セレクタ
32 アンプ
4 ヘッドホン
41 アンプ
5 スイッチ
51 D/A変換器
52 ローパスフィルタ
6 測定室
7 ダミーヘッド
8 受聴者
DESCRIPTION OF SYMBOLS 1 Personal computer 11 Signal generation part 12 Impulse response calculation part 13 Memory preservation | save part 14 1st sound image generation part 15 2nd sound image generation part 16 3rd sound image generation part 17 4th sound image generation part 18 1st sound image synthesis part 19 2nd sound image synthesis Part 2 Microphone 21 A / D converter 22 Low-pass filter 23 Amplifier 3 Speaker 31 Selector 32 Amplifier 4 Headphone 41 Amplifier 5 Switch 51 D / A converter 52 Low-pass filter 6 Measurement room 7 Dummy head 8 Audience

Claims (6)

方位角±Φを有する前方の2チャネルステレオ実音源位置L、Rの左右に角度差θ(スイング角度)を有する移動音源位置A、Bを設定して両耳の受聴点までの経路の伝達関数Ha(ω)、Hb(ω)を移動音源位置毎に求め、ステレオヘッドホンの各チャネルの音源信号s(t)に対し、
フレームの前後がオーバラップする波形切り出し関数w(t)を掛けて逐次フレームを切り出し、音源信号s(t)を複数のフレーム信号sn(t)に分割する切り出し手段と、
フレーム信号sn(t)に対し、交互に伝達関数Ha(ω)、Hb(ω)を畳み込んで移動音源位置A、Bの位置情報を含んだフレーム信号sa(t)、sb(t)を生成する畳み込み手段と、
フレーム信号sa(t)、sb(t)に対し、波形合成関数wを掛けて得られるフレーム信号sa´(t)、sb´(t)を交互にオーバラップ加算して、波形の不連続を平滑化するとともに、ステレオ実音源位置L、Rに設置した音源が移動音源位置A、B間を一定の周期T(スイッチング時間)で往復運動する移動情報を含んだ合成信号s´(t)を生成する加算手段と、
を備え、
これより受聴者の両耳に音像提示角度φ、スイング角度θ、スイッチング時間Tなるスイング音像を提示して音像を頭外に定位させることを特徴とする頭外音像定位装置。
Transfer function of path to listening point of both ears by setting moving sound source positions A and B having an angle difference θ (swing angle) to the left and right of the front two-channel stereo real sound source positions L and R having azimuth angles ± Φ Ha (ω) and Hb (ω) are obtained for each moving sound source position, and for the sound source signal s (t) of each channel of the stereo headphones,
A cutout unit that sequentially cuts out frames by multiplying the waveform cutout function w 1 (t) in which the front and back of the frame overlap, and divides the sound source signal s (t) into a plurality of frame signals sn (t);
The frame signals sa (t) and sb (t) including the position information of the moving sound source positions A and B by alternately convolving the transfer functions Ha (ω) and Hb (ω) with respect to the frame signal sn (t). A convolution means to generate,
The frame signals sa (t) and sb (t) are alternately overlapped with the frame signals sa ′ (t) and sb ′ (t) obtained by multiplying the waveform synthesis function w 2 to generate waveform discontinuities. And a synthesized signal s ′ (t) including movement information in which the sound source installed at the stereo real sound source positions L and R reciprocates between the moving sound source positions A and B at a constant period T (switching time). Adding means for generating
With
An out-of-head sound image localization apparatus that presents a sound image presentation angle φ, a swing angle θ, and a switching time T to the listener's ears to localize the sound image out of the head.
前記フレーム信号sn(t)に対し、畳み込む伝達関数Ha(ω)、Hb(ω)の順序を左右のチャネルで逆にしてスイング音像を左右に伸縮させることを特徴とする請求項1記載の頭外音像定位装置。   2. The head according to claim 1, wherein the swing sound image is expanded and contracted to the left and right by reversing the order of the transfer functions Ha (ω) and Hb (ω) for the frame signal sn (t) in the left and right channels. Outside sound image localization device. 前記フレーム信号sn(t)に対し、畳み込む伝達関数Ha(ω)、Hb(ω)の順序を左右のチャネルで同じにしてスイング音像を左右に揺動させることを特徴とする請求項1記載の頭外音像定位装置。   The swing sound image is swung left and right by making the order of the transfer functions Ha (ω) and Hb (ω) to be convoluted in the left and right channels with respect to the frame signal sn (t). Out-of-head sound image localization device. 前記波形切り出し関数w(t)と波形合成関数w(t)がそれぞれフェードイン/フェードアウト関数またはモディファイド・ハミング窓のいずれかであることを特徴とする請求項1記載の頭外音像定位装置。 The out-of-head sound localization apparatus according to claim 1, wherein the waveform cut-out function w 1 (t) and the waveform synthesis function w 2 (t) are either a fade-in / fade-out function or a modified Hamming window, respectively. . 前記スイング角度θが3〜10度であることを特徴とする請求項1記載の頭外音像定位装置。   The out-of-head sound image localization apparatus according to claim 1, wherein the swing angle θ is 3 to 10 degrees. 前記スイッチング時間Tが200m秒以上であることを特徴とする請求項1記載の頭外音像定位装置。   2. The out-of-head sound image localization apparatus according to claim 1, wherein the switching time T is 200 milliseconds or more.
JP2006031651A 2006-02-08 2006-02-08 Out-of-head sound localization device Active JP4691662B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006031651A JP4691662B2 (en) 2006-02-08 2006-02-08 Out-of-head sound localization device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006031651A JP4691662B2 (en) 2006-02-08 2006-02-08 Out-of-head sound localization device

Publications (2)

Publication Number Publication Date
JP2007214815A JP2007214815A (en) 2007-08-23
JP4691662B2 true JP4691662B2 (en) 2011-06-01

Family

ID=38492872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006031651A Active JP4691662B2 (en) 2006-02-08 2006-02-08 Out-of-head sound localization device

Country Status (1)

Country Link
JP (1) JP4691662B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009212944A (en) * 2008-03-05 2009-09-17 Yamaha Corp Acoustic apparatus
CN104335605B (en) * 2012-06-06 2017-10-03 索尼公司 Audio signal processor, acoustic signal processing method and computer program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07123498A (en) * 1993-08-31 1995-05-12 Victor Co Of Japan Ltd Headphone reproducing system
JPH0965498A (en) * 1995-08-29 1997-03-07 Matsushita Electric Ind Co Ltd Listening position and listening method by out-head sound image localization headphone
JPH11127500A (en) * 1997-10-23 1999-05-11 Fuji Xerox Co Ltd Bi-noral reproducing device, headphone for binaural reproduction and sound source evaluating method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07123498A (en) * 1993-08-31 1995-05-12 Victor Co Of Japan Ltd Headphone reproducing system
JPH0965498A (en) * 1995-08-29 1997-03-07 Matsushita Electric Ind Co Ltd Listening position and listening method by out-head sound image localization headphone
JPH11127500A (en) * 1997-10-23 1999-05-11 Fuji Xerox Co Ltd Bi-noral reproducing device, headphone for binaural reproduction and sound source evaluating method

Also Published As

Publication number Publication date
JP2007214815A (en) 2007-08-23

Similar Documents

Publication Publication Date Title
EP3188513B1 (en) Binaural headphone rendering with head tracking
US8520857B2 (en) Head-related transfer function measurement method, head-related transfer function convolution method, and head-related transfer function convolution device
EP2206365B1 (en) Method and device for improved sound field rendering accuracy within a preferred listening area
JP4914124B2 (en) Sound image control apparatus and sound image control method
US9635484B2 (en) Methods and devices for reproducing surround audio signals
KR100608024B1 (en) Apparatus for regenerating multi channel audio input signal through two channel output
US8873761B2 (en) Audio signal processing device and audio signal processing method
KR101567461B1 (en) Apparatus for generating multi-channel sound signal
JP5769967B2 (en) Headphone playback method, headphone playback system, and computer program
JP5986426B2 (en) Sound processing apparatus and sound processing method
JP2007142875A (en) Acoustic characteristic corrector
JP2007510334A (en) Multi-channel audio surround sound system from front loudspeakers
JP3217342B2 (en) Stereophonic binaural recording or playback system
US20130089209A1 (en) Audio-signal processing device, audio-signal processing method, program, and recording medium
JP5691130B2 (en) Apparatus, method, program, and system for canceling crosstalk when performing sound reproduction with a plurality of speakers arranged to surround a listener
US20200059750A1 (en) Sound spatialization method
JP2671329B2 (en) Audio player
JP4691662B2 (en) Out-of-head sound localization device
JP2004128854A (en) Acoustic reproduction system
JP6512767B2 (en) Sound processing apparatus and method, and program
JP3174965U (en) Bone conduction 3D headphones
US20230403528A1 (en) A method and system for real-time implementation of time-varying head-related transfer functions
JP2007028198A (en) Acoustic apparatus
JPH05115098A (en) Stereophonic sound field synthesis method
JPH1051898A (en) Stereophonic sound reproducing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150