JP7493411B2 - Binaural playback device and program - Google Patents

Binaural playback device and program Download PDF

Info

Publication number
JP7493411B2
JP7493411B2 JP2020137979A JP2020137979A JP7493411B2 JP 7493411 B2 JP7493411 B2 JP 7493411B2 JP 2020137979 A JP2020137979 A JP 2020137979A JP 2020137979 A JP2020137979 A JP 2020137979A JP 7493411 B2 JP7493411 B2 JP 7493411B2
Authority
JP
Japan
Prior art keywords
sound source
head
ear
transfer function
listener
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020137979A
Other languages
Japanese (ja)
Other versions
JP2022034267A (en
Inventor
岳大 杉本
光太郎 木下
敦郎 伊藤
周 北島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2020137979A priority Critical patent/JP7493411B2/en
Publication of JP2022034267A publication Critical patent/JP2022034267A/en
Application granted granted Critical
Publication of JP7493411B2 publication Critical patent/JP7493411B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

本発明は、バイノーラル再生装置およびプログラムに関する。 The present invention relates to a binaural playback device and program.

近年、音声信号と音響メタデータを組み合わせたオブジェクトベース音響システムやAR/VR音響の実用化が進められている。オブジェクトベース音響やAR/VR音響は、多数の音声信号および関連する音響メタデータを提供することで、リアル・バーチャル双方の再生空間におけるリスナーの位置や姿勢に合わせて音声信号をレンダリングし、再生することを特徴とする。イヤホンやヘッドホンを再生デバイスとして用いる場合、前述したレンダリングのプロセス中に頭部伝達関数を用いたバイノーラル化が含まれることが多い。バイノーラル化は、空間での音波の伝播を耳道入口で模擬する手法であり、3次元的な音の方向知覚が可能になるとされている。 In recent years, progress has been made in putting object-based audio systems and AR/VR audio, which combine audio signals and audio metadata, to practical use. Object-based audio and AR/VR audio are characterized by providing a large number of audio signals and associated audio metadata, and rendering and playing audio signals according to the position and posture of the listener in both real and virtual playback spaces. When earphones or headphones are used as playback devices, binauralization using head-related transfer functions is often included in the rendering process described above. Binauralization is a technique that simulates the propagation of sound waves in space at the entrance to the ear canal, and is said to enable three-dimensional directional perception of sound.

非特許文献1および2には、音声信号と音響メタデータについて記載されている。非特許文献3、4、および5には、オブジェクトベース音響システムについて記載されている。非特許文献6には、AR/VR音響について記載されている。非特許文献7には、頭部伝達関数を用いたバイノーラル化について記載されている。 Non-patent documents 1 and 2 describe audio signals and audio metadata. Non-patent documents 3, 4, and 5 describe object-based audio systems. Non-patent document 6 describes AR/VR audio. Non-patent document 7 describes binauralization using head-related transfer functions.

Recommendation: ITU-R BS.2076-1,「Audio Definition Model」,2017年6月,International Telecommunication Union.Recommendation: ITU-R BS.2076-1, "Audio Definition Model", June 2017, International Telecommunication Union. Recommendation: ITU-R BS.2125-0,「A serial representation of the Audio Definition Model」,2019年1月,International Telecommunication Union.Recommendation: ITU-R BS.2125-0, "A serial representation of the Audio Definition Model", January 2019, International Telecommunication Union. ISO/IEC 23008-3:2019,「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, Second edition」, 2019年2月,International Organization for Standardization.ISO/IEC 23008-3:2019, "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, Second edition", February 2019, International Organization for Standardization. ETSI TS 103 190-2 V1.2.1,Technical Specification,「Digital Audio Compression (AC-4) Standard; Part 2: Immersive and personalized audio」,2018年2月,European Telecommunications Standards Institute.ETSI TS 103 190-2 V1.2.1, Technical Specification, "Digital Audio Compression (AC-4) Standard; Part 2: Immersive and personalized audio", February 2018, European Telecommunications Standards Institute. ATSC Standard: A/342 Part 3,「MPEG-H SYSTEM」,2017年3月,Advanced Television Systems CommitteeATSC Standard: A/342 Part 3, "MPEG-H SYSTEM", March 2017, Advanced Television Systems Committee ISO/IEC 23090-4,「MPEG-I Immersive Audio Coding」,The Moving Picture Experts Group,[令和2年(西暦2020年)6月6日検索],インターネット<URL:https://mpeg.chiariglione.org/standards/mpeg-i>ISO/IEC 23090-4, "MPEG-I Immersive Audio Coding", The Moving Picture Experts Group, [Retrieved June 6, 2020], Internet <URL: https://mpeg.chiariglione.org/standards/mpeg-i> 飯田一博,森本政之,「空間音響学」,日本音響学会・編,コロナ社,2010年Kazuhiro Iida, Masayuki Morimoto, "Spatial Acoustics", edited by the Acoustical Society of Japan, Corona Publishing, 2010

頭部伝達関数を用いたバイノーラル化には、音源を点音源とみなした場合の両耳への伝達関数を用いる。従って、頭部伝達関数の測定においては、点音源を仮定できるフルレンジスピーカを用いるのが一般的であり、実際の音源には存在する放射角度に依存した放射特性を反映させることはできない。 For binauralization using head-related transfer functions, the transfer functions to both ears are used when the sound source is considered to be a point source. Therefore, when measuring head-related transfer functions, it is common to use full-range speakers that can be assumed to be a point source, and it is not possible to reflect the radiation characteristics that depend on the radiation angle that exists in an actual sound source.

一方、AR/VRコンテンツにおいては、臨場感を一層向上させるために、従来の3次元音響を上回る精度で現象を記述する必要があり、音源に関しては角度に依存した放射特性を反映させることが妥当である。しかしながら前述したように、従来の頭部伝達関数では放射特性の角度依存性を反映させることはできない。さりとて、放射特性の角度依存性を考慮した新たな頭部伝達関数の開発・実装は、開発コストや計算負荷が高く実用的とは言い難い。そこで、オブジェクトベース音響やAR/VR音響などにおいて、従来の頭部伝達関数を用いて音源の放射特性の角度依存性を再現できるバイノーラル再生装置が求められる。 On the other hand, in AR/VR content, in order to further improve the sense of realism, it is necessary to describe phenomena with greater precision than conventional three-dimensional audio, and it is reasonable to reflect the angle-dependent radiation characteristics of the sound source. However, as mentioned above, conventional head-related transfer functions cannot reflect the angle dependency of the radiation characteristics. However, developing and implementing a new head-related transfer function that takes into account the angle dependency of the radiation characteristics would require high development costs and computational load, making it difficult to say it is practical. Therefore, in object-based audio, AR/VR audio, etc., a binaural playback device that can reproduce the angle dependency of the radiation characteristics of the sound source using conventional head-related transfer functions is required.

本発明は、上記の事情を考慮して為されたものであり、従来の頭部伝達関数を用いて、音源の放射特性の角度依存性を反映させることのできるバイノーラル再生装置およびプログラムを提供しようとするものである。 The present invention was made in consideration of the above circumstances, and aims to provide a binaural playback device and program that can reflect the angular dependency of the radiation characteristics of a sound source using a conventional head-related transfer function.

[1]上記の課題を解決するため、本発明の一態様によるバイノーラル再生装置は、リスナーの頭部中心からの方向に応じた伝達関数を保持する頭部伝達関数データベースと、前記音源の位置と、前記リスナーの頭部形状と、前記リスナーの耳の位置とを基に、前記音源から前記耳への音の伝播経路を導出する伝播経路導出部と、導出された前記伝播経路に基づいて、前記音源から前記耳への放射方向を決定する音源放射方向決定部と、決定された前記放射方向に対応した音響特性を有する音声信号を出力する音源データベースと、前記リスナーの頭部中心の位置と前記音源の位置とによって特定されるリスナーの頭部中心から音源への方向に基づいて、前記頭部伝達関数データベースから前記伝達関数を選択する頭部伝達関数選択部と、出力された音声信号と、前記音源放射特性選択部が選択した前記放射特性と、前記頭部伝達関数選択部が選択した前記伝達関数と、に基づいて、前記耳用の再生信号を生成する再生信号生成部と、を具備する。 [1] In order to solve the above problem, a binaural playback device according to one aspect of the present invention includes a head-related transfer function database that holds transfer functions according to the direction from the center of the listener's head, a propagation path derivation unit that derives a sound propagation path from the sound source to the ear based on the position of the sound source, the shape of the listener's head, and the position of the listener's ear, a sound source radiation direction determination unit that determines the radiation direction from the sound source to the ear based on the derived propagation path, a sound source database that outputs an audio signal having acoustic characteristics corresponding to the determined radiation direction, a head-related transfer function selection unit that selects the transfer function from the head-related transfer function database based on the direction from the listener's head center to the sound source specified by the position of the listener's head center and the position of the sound source, and a playback signal generation unit that generates a playback signal for the ear based on the output audio signal, the radiation characteristics selected by the sound source radiation characteristic selection unit, and the transfer function selected by the head-related transfer function selection unit.

[2]また、本発明の一態様は、上記のバイノーラル再生装置において、前記耳は、左耳と右耳とのそれぞれであり、前記伝播経路導出部は、前記音源から前記左耳と前記右耳への音のそれぞれの前記伝播経路を導出するものであり、前記頭部伝達関数データベースは、前記左耳と前記右耳とのそれぞれの伝達関数を左耳用頭部伝達関数と右耳用頭部伝達関数として保持し、前記音源放射方向決定部は、前記音源から前記左耳と前記右耳とのそれぞれへの前記放射方向を決定するものであり、前記音源データベースは、前記左耳への放射方向に対応した音響特性を有する音声信号を左耳用音声信号として選択し、前記右耳への放射方向に対応した音響特性を有する音声信号を右耳用音声信号として選択し、前記頭部伝達関数選択部は、前記音源への方向に対応する左耳用頭部伝達関数と右耳用頭部伝達関数を選択するものであり、前記再生信号生成部は、前記左耳用音声信号と前記左耳用頭部伝達関数に基づいて左耳用の前記再生信号を生成し、前記右耳用音声信号と前記右耳用頭部伝達関数に基づいて右耳用の前記再生信号を生成するものである。 [2] In one aspect of the present invention, in the binaural playback device described above, the ears are the left ear and the right ear, the propagation path derivation unit derives the propagation path of the sound from the sound source to the left ear and the right ear, the head-related transfer function database holds the transfer functions of the left ear and the right ear as a left-ear head-related transfer function and a right-ear head-related transfer function, the sound source radiation direction determination unit determines the radiation direction from the sound source to the left ear and the right ear, and the sound source database holds the transfer functions of the left ear and the right ear as a left-ear head-related transfer function and a right-ear head-related transfer function. An audio signal having acoustic characteristics corresponding to the radiation direction toward the ear is selected as an audio signal for the left ear, and an audio signal having acoustic characteristics corresponding to the radiation direction toward the right ear is selected as an audio signal for the right ear, the head-related transfer function selection unit selects a left-ear head-related transfer function and a right-ear head-related transfer function corresponding to the direction toward the sound source, and the playback signal generation unit generates the playback signal for the left ear based on the left-ear audio signal and the left-ear head-related transfer function, and generates the playback signal for the right ear based on the right-ear audio signal and the right-ear head-related transfer function.

[3]また、本発明の一態様は、上記のバイノーラル再生装置において、前記音源は複数であり、前記音源データベースは、各々の前記音源について前記音声信号を出力するものであり、前記伝播経路導出部は、各々の前記音源について前記伝播経路を導出するものであり、前記音源放射方向決定部は、各々の前記音源について前記放射方向を決定するものであり、前記頭部伝達関数選択部は、各々の前記音源について前記頭部伝達関数データベースから前記伝達関数を選択するものであり、前記再生信号生成部は、各々の前記音源について前記再生信号を生成するものである。 [3] In one aspect of the present invention, in the binaural playback device described above, the sound sources are multiple, the sound source database outputs the audio signal for each of the sound sources, the propagation path derivation unit derives the propagation path for each of the sound sources, the sound source radiation direction determination unit determines the radiation direction for each of the sound sources, the head-related transfer function selection unit selects the transfer function from the head-related transfer function database for each of the sound sources, and the playback signal generation unit generates the playback signal for each of the sound sources.

[4]また、本発明の一態様は、上記のバイノーラル再生装置において、前記再生信号生成部は、各々の前記音源について生成した前記再生信号を重畳した重畳再生信号を生成するものである。 [4] In one aspect of the present invention, in the binaural playback device described above, the playback signal generation unit generates a superimposed playback signal by superimposing the playback signals generated for each of the sound sources.

[5]また、本発明の一態様は、上記のバイノーラル再生装置において、前記リスナーは複数であり、前記伝播経路導出部は、各々の前記リスナーについて前記伝播経路を導出するものであり、前記音源放射方向決定部は、各々の前記リスナーについて前記放射方向を決定するものであり、前記頭部伝達関数選択部は、各々の前記リスナーについて前記伝達関数を選択するものであり、前記再生信号生成部は、各々の前記リスナーについて前記再生信号を生成するものである。 [5] In one aspect of the present invention, in the binaural playback device described above, the listeners are multiple, the propagation path derivation unit derives the propagation path for each of the listeners, the sound source radiation direction determination unit determines the radiation direction for each of the listeners, the head-related transfer function selection unit selects the transfer function for each of the listeners, and the playback signal generation unit generates the playback signal for each of the listeners.

[6]また、本発明の一態様は、上記のバイノーラル再生装置において、前記音源データベースは、前記音源から前記リスナーまでの距離と、前記音源から発せられる人の音声(人声)に含まれるモーラの種類と、前記音源から発せられる人声に含まれる音素の種類と、前記音源から発せられる人声の性別と、前記音源から発生られる人声の年齢別と、前記音源の楽器の種類と、の少なくともいずれかにも対応した前記音響特性を有する音声信号を保持し、前記音源から前記リスナーまでの距離と、前記音源から発せられる人声に含まれるモーラの種類と、前記音源から発せられる人声に含まれる音素の種類と、前記音源から発せられる人声の性別と、前記音源から発せられる人声の年齢別と、前記音源の楽器の種類と、の少なくともいずれかにも対応した前記音響特性を有する音声信号を選択するものである。 [6] In one aspect of the present invention, in the binaural playback device described above, the sound source database holds audio signals having the acoustic characteristics corresponding to at least one of the following: the distance from the sound source to the listener, the type of mora contained in the human voice (voice) emitted from the sound source, the type of phoneme contained in the voice emitted from the sound source, the gender of the voice emitted from the sound source, the age of the voice emitted from the sound source, and the type of musical instrument of the sound source; and selects an audio signal having the acoustic characteristics corresponding to at least one of the following: the distance from the sound source to the listener, the type of mora contained in the voice emitted from the sound source, the type of phoneme contained in the voice emitted from the sound source, the gender of the voice emitted from the sound source, the age of the voice emitted from the sound source, and the type of musical instrument of the sound source.

[7]また、本発明の一態様は、上記のバイノーラル再生装置において、前記伝播経路導出部は、前記音源から前記耳が見通せる場合には前記音源から前記耳への直接伝播が最短経路になる前記伝播経路を導出し、前記音源から前記耳が見通せない場合には前記音源から前記耳への頭部を回折する回折伝播が最短経路になる前記伝播経路を導出し、前記音源放射方向決定部は、前記伝播経路が直接伝播によるものか回折伝播によるものかに応じた前記放射方向を決定するものである。 [7] In one aspect of the present invention, in the binaural playback device described above, the propagation path derivation unit derives the propagation path in which direct propagation from the sound source to the ear is the shortest path when the ear is visible from the sound source, and in which diffracted propagation from the sound source to the ear is the shortest path when the ear is not visible from the sound source, and the sound source radiation direction determination unit determines the radiation direction depending on whether the propagation path is direct propagation or diffracted propagation.

[8]また、本発明の一態様は、上記のバイノーラル再生装置において、前記再生信号生成部は、前記音源から前記耳に到来する音の成分のうち、前記最短経路の方向に係る最短経路成分と、前記最短経路の方向以外の放射方向に係る非最短経路成分を合成して当該耳の再生信号を生成するバイノーラル信号生成部を含み、前記バイノーラル信号生成部は、前記リスナーの頭部中心からの方向に応じた伝達関数を、前記最短経路の方向への音響特性を有する音声信号に作用して前記最短経路成分を生成し、前記リスナーの頭部中心からの方向に応じた伝達関数を、前記最短経路以外の伝播経路の方向ごとに対応した音響特性を有する単一または複数の音声信号の当該伝播経路に係る重み係数に基づく加重和に作用して前記非最短経路成分を生成し、前記重み係数は、前記音源からの音波の放射方向、前記最短経路の方向、および、前記音源から前記頭部中心への方向に対応して決定されるものである。 [8] In one aspect of the present invention, in the binaural playback device described above, the playback signal generation unit includes a binaural signal generation unit that generates a playback signal for the ear by synthesizing a shortest path component related to the shortest path direction and a non-shortest path component related to a radiation direction other than the shortest path direction among the components of the sound arriving at the ear from the sound source, and the binaural signal generation unit generates the shortest path component by applying a transfer function according to the direction from the head center of the listener to an audio signal having acoustic characteristics in the shortest path direction, and generates the non-shortest path component by applying a transfer function according to the direction from the head center of the listener to a weighted sum based on a weighting coefficient related to the propagation path of a single or multiple audio signals having acoustic characteristics corresponding to each direction of the propagation path other than the shortest path, and the weighting coefficient is determined according to the radiation direction of the sound wave from the sound source, the direction of the shortest path, and the direction from the sound source to the head center.

[9]また、本発明の一態様によるバイノーラル再生装置は、リスナーの頭部中心からの方向に応じた頭部インパルス応答を保持する頭部インパルス応答データベースと、音源の位置と、前記リスナーの頭部形状と、前記リスナーの耳の位置とを基に、前記音源から前記耳への音の伝播経路を導出する伝播経路導出部と、導出された前記伝播経路に基づいて、前記音源から前記耳への放射方向を決定する音源放射方向決定部と、音源からの放射方向に対応した音響特性を有する音声信号を保持し、決定された前記放射方向に対応した音響特性を有する音声信号を出力する音源データベースと、前記リスナーの頭部中心の位置と前記音源の位置とによって特定されるリスナーの頭部中心から音源への方向に基づいて、前記頭部インパルス応答データベースから前記頭部インパルス応答を選択する頭部インパルス応答選択部と、出力された音声信号と、前記頭部インパルス応答選択部が選択した前記頭部インパルス応答と、に基づいて、前記耳用の再生信号を生成する再生信号生成部と、を具備する。 [9] A binaural playback device according to one aspect of the present invention includes a head impulse response database that holds head impulse responses according to a direction from the center of the listener's head; a propagation path derivation unit that derives a propagation path of sound from the sound source to the ear based on the position of the sound source, the shape of the listener's head, and the position of the listener's ear; a sound source radiation direction determination unit that determines a radiation direction from the sound source to the ear based on the derived propagation path; a sound source database that holds an audio signal having acoustic characteristics corresponding to the radiation direction from the sound source and outputs an audio signal having acoustic characteristics corresponding to the determined radiation direction; a head impulse response selection unit that selects the head impulse response from the head impulse response database based on the direction from the listener's head center to the sound source specified by the position of the listener's head center and the position of the sound source; and a playback signal generation unit that generates a playback signal for the ear based on the output audio signal and the head impulse response selected by the head impulse response selection unit.

[10]また、本発明の一態様は、コンピューターを、上記[1]から[9]までのいずれか一項に記載のバイノーラル再生装置、として機能させるためのプログラムである。 [10] Another aspect of the present invention is a program for causing a computer to function as the binaural playback device described in any one of [1] to [9] above.

本発明によれば、既存の頭部伝達関数を用いて、音源の放射特性の角度依存性を反映させることができる。このため、軽い計算負荷で音響信号の臨場感・精度を高めることができる。 According to the present invention, it is possible to reflect the angular dependency of the radiation characteristics of a sound source using an existing head-related transfer function. This makes it possible to increase the realism and accuracy of the audio signal with a light computational load.

本発明の実施形態によるバイノーラル再生装置の概略機能構成を示したブロック図である。1 is a block diagram showing a schematic functional configuration of a binaural reproduction device according to an embodiment of the present invention. 同実施形態が前提とするバーチャル音響空間内を斜視したときの概略図である。2 is a schematic diagram showing an oblique view of a virtual acoustic space on which the embodiment is based. FIG. 同実施形態による左耳用伝播経路判定部の内部の機能構成を示すブロック図である。4 is a block diagram showing an internal functional configuration of a left ear propagation path determination unit according to the embodiment. FIG. 同実施形態による左耳用再生信号生成部の内部の詳細な機能構成を示すブロック図である。4 is a block diagram showing a detailed internal functional configuration of a left-ear reproduction signal generating unit according to the embodiment. FIG. 同実施形態によるバイノーラル再生装置が再生信号を生成するための処理の手順を示すフローチャートである。6 is a flowchart showing a processing procedure for generating a playback signal by the binaural playback device according to the embodiment. 同実施形態が想定するバーチャル音響空間を模式的に表す概略図である。FIG. 2 is a schematic diagram illustrating a virtual acoustic space envisioned by the embodiment. 同実施形態が想定するバーチャル音響空間内の、リスナーの両耳の座標位置と、音源の座標位置とを含む平面を模式的に示す概略図である。1 is a schematic diagram illustrating a plane including the coordinate positions of both ears of a listener and the coordinate position of a sound source in a virtual acoustic space assumed in the embodiment. FIG.

次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態は、オブジェクトベース音響コンテンツやAR/VRコンテンツにおいて、音源の放射特性を反映したバイノーラル再生を実現するものである。なお、ARは、「Augmented Reality」(拡張現実)の略である。また、VRは、「Virtual Reality」(仮想現実)の略である。AR/VR技術自体は、既存の技術である。 Next, one embodiment of the present invention will be described with reference to the drawings. This embodiment realizes binaural playback that reflects the radiation characteristics of the sound source in object-based audio content and AR/VR content. Note that AR is an abbreviation for "Augmented Reality." Also, VR is an abbreviation for "Virtual Reality." AR/VR technology itself is an existing technology.

なお、以下では、主にリスナーを1人、音源(放射方向(角度)依存性を有する点音源)を1個として、バイノーラル再生装置の構成を説明する。なお、リスナーが2人以上の場合には、バイノーラル再生装置は、リスナーを1人の場合と同様の処理をリスナーごとに行えばよい。また、音源が2個以上の場合には、バイノーラル再生装置は、音源が1個の場合の処理をそれぞれの音源について行い、それらの音源に対応する複数の出力信号を重畳するなどといった処理を行ってもよい。 In the following, the configuration of the binaural playback device will be described assuming that there is mainly one listener and one sound source (a point sound source with radiation direction (angle) dependency). In the case of two or more listeners, the binaural playback device can perform the same processing for each listener as in the case of one listener. In the case of two or more sound sources, the binaural playback device can also perform processing for each sound source as in the case of one sound source, and superimpose multiple output signals corresponding to those sound sources.

バイノーラル再生装置は、リスナーの右耳用と左耳用との、それぞれの出力信号を求める。詳細については後述するが、バイノーラル再生装置は、音源の位置と、リスナーの頭部の形状およびサイズと、リスナーの頭部に存在する2つの耳の位置とをモデル化して、そのモデルにしたがって、右耳用と左耳用との、それぞれの出力信号を求める。 The binaural playback device determines output signals for the right and left ears of the listener. As will be described in more detail below, the binaural playback device models the position of the sound source, the shape and size of the listener's head, and the positions of the two ears on the listener's head, and determines output signals for the right and left ears according to the model.

図1は、本実施形態によるバイノーラル再生装置の概略機能構成を示すブロック図である。図示するように、バイノーラル再生装置1は、リスナー情報取得部11と、音源情報取得部12と、リスナー頭部形状取得部15と、左耳座標取得部17と、右耳座標取得部18と、左耳用伝播経路判定部19と、右耳用伝播経路判定部20と、左耳用音源放射方向決定部21と、右耳用音源放射方向決定部22と、音源データベース24と、頭部伝達関数データベース31と、頭部伝達関数選択部32と、左耳用再生信号生成部35と、右耳用再生信号生成部36と、を含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能は、次に説明する通りである。 1 is a block diagram showing a schematic functional configuration of a binaural playback device according to this embodiment. As shown in the figure, the binaural playback device 1 includes a listener information acquisition unit 11, a sound source information acquisition unit 12, a listener head shape acquisition unit 15, a left ear coordinate acquisition unit 17, a right ear coordinate acquisition unit 18, a left ear propagation path determination unit 19, a right ear propagation path determination unit 20, a left ear sound source radiation direction determination unit 21, a right ear sound source radiation direction determination unit 22, a sound source database 24, a head related transfer function database 31, a head related transfer function selection unit 32, a left ear playback signal generation unit 35, and a right ear playback signal generation unit 36. Each of these functional units can be realized, for example, by a computer and a program. Each functional unit also has a storage unit as needed. The storage unit is, for example, a variable in the program or a memory allocated by the execution of the program. Also, non-volatile storage units such as a magnetic hard disk drive or a solid state drive (SSD) may be used as needed. In addition, at least some of the functions of each functional unit may be realized as a dedicated electronic circuit rather than a program. The functions of each unit are as follows.

リスナー情報取得部11は、バーチャル音響空間内におけるリスナーの位置および向き(姿勢)の情報を取得する。リスナーは、バーチャル音響空間内の任意の位置で、任意の向き(姿勢)をとることができるものとする。つまり、リスナーの情報は、6軸の自由度(6 degrees of freedom,6DoF)を持つ。位置は、直交座標系におけるx,y,zの3軸の座標値で表わされ得る。あるいは、位置は、極座標によるr(距離),φ(方位角),θ(仰角)の座標値で表わされ得る。向きは、ヨー(yaw)、ロール(roll)、ピッチ(pitch)の3方向の回転で表わされ得る。 The listener information acquisition unit 11 acquires information on the position and orientation (posture) of the listener within the virtual acoustic space. The listener can be at any position and in any orientation (posture) within the virtual acoustic space. In other words, the listener's information has six degrees of freedom (6DoF). The position can be expressed by three coordinate values of x, y, and z in a Cartesian coordinate system. Alternatively, the position can be expressed by the coordinate values of r (distance), φ (azimuth angle), and θ (elevation angle) in polar coordinates. The orientation can be expressed by rotation in three directions: yaw, roll, and pitch.

リスナー情報取得部11が情報を取得する間隔(タイミング)は、装置の時間分解能に合わせて適宜決定してよい。ただし、リスナー情報取得部11がリスナー情報を取得する周期は、一般に音声信号のフレーム処理時間と同等、またはそれより短い間隔で取得されることが好ましい。例えば、音声信号のサンプリング周波数が48kHz(キロヘルツ)の場合、2048サンプル以内に相当する周期でリスナー情報を取得することが望ましい。なお、リスナー情報取得部11がリスナー情報を取得すること自体は、既存技術を用いて実現可能である。一例として、リスナー情報取得部11は、実空間におけるリスナーを複数の方向からカメラで撮影し、三角測量の方法を用いてリスナーの所定部位の位置を測定する。リスナーが実空間において画像として認識され得る印を付けていてもよい。なお、他の方法でリスナー情報取得部11がリスナー情報を取得してもよい。 The interval (timing) at which the listener information acquisition unit 11 acquires information may be appropriately determined according to the time resolution of the device. However, it is preferable that the period at which the listener information acquisition unit 11 acquires the listener information is generally equal to or shorter than the frame processing time of the audio signal. For example, when the sampling frequency of the audio signal is 48 kHz (kilohertz), it is preferable to acquire the listener information at a period equivalent to 2048 samples or less. Note that the listener information acquisition unit 11 can acquire the listener information using existing technology. As an example, the listener information acquisition unit 11 captures images of the listener in real space from multiple directions with a camera, and measures the position of a specific part of the listener using a triangulation method. The listener may be marked so that it can be recognized as an image in real space. Note that the listener information acquisition unit 11 may acquire the listener information using other methods.

音源情報取得部12は、バーチャル音響空間における音源の位置および向きの情報(回転情報)を取得する。音源の位置および向きの情報は、上記のリスナーの位置および向きの情報と同様に、6軸の自由度(6DoF)を持つ情報であってよい。音源の位置および向きの情報は、例えば、音声信号のメタデータとして供給されるものであってよい。音源情報取得部12が音源の位置および向きの情報を取得する間隔(タイミング)は、装置の時間分解能に合わせて適宜決定してよい。ただし、音源情報取得部12は、音声信号のフレーム処理時間と同等または同等より短い間隔で取得されることが好ましい。例えば、音声信号のサンプリング周波数が48kHz(キロヘルツ)の場合、音源情報取得部12は、2048サンプル以内に相当する周期で音源情報を取得することが望ましい。 The sound source information acquisition unit 12 acquires information (rotation information) on the position and orientation of the sound source in the virtual acoustic space. The information on the position and orientation of the sound source may be information with six degrees of freedom (6DoF) like the information on the position and orientation of the listener described above. The information on the position and orientation of the sound source may be provided as metadata of the audio signal, for example. The interval (timing) at which the sound source information acquisition unit 12 acquires the information on the position and orientation of the sound source may be appropriately determined according to the time resolution of the device. However, it is preferable that the sound source information acquisition unit 12 acquires the information at an interval equal to or shorter than the frame processing time of the audio signal. For example, when the sampling frequency of the audio signal is 48 kHz (kilohertz), it is preferable that the sound source information acquisition unit 12 acquires the sound source information at a period equivalent to within 2048 samples.

リスナー頭部形状取得部15は、リスナーの頭部の形状の情報を取得する。頭部の形状の情報は、左耳および右耳のそれぞれの位置の情報等を含む。リスナー頭部形状取得部15は、代表的なリスナーあるいは実際の個別のリスナーの、具体的に計測された頭部形状および耳の位置の情報を取得してもよい。あるいは、リスナー頭部形状取得部15は、予め定めた頭部のモデルに基づいて、頭部形状および耳の位置の情報を取得してもよい。上記の頭部のモデルは、例えば、頭部形状を半径aの球として、頭部の正面方向(顔が向く方向)の方位角を0度としたときに、方位角が±90度且つ仰角が0度の位置に左耳および右耳が配置されるものであってよい。 The listener's head shape acquisition unit 15 acquires information on the shape of the listener's head. The head shape information includes information on the positions of the left and right ears. The listener's head shape acquisition unit 15 may acquire information on the specifically measured head shape and ear positions of a representative listener or an actual individual listener. Alternatively, the listener's head shape acquisition unit 15 may acquire information on the head shape and ear positions based on a predetermined head model. The head model may be, for example, one in which the head shape is a sphere with a radius of a, and the left and right ears are positioned at an azimuth angle of ±90 degrees and an elevation angle of 0 degrees when the azimuth angle of the front direction of the head (the direction the face is facing) is 0 degrees.

左耳座標取得部17は、リスナー情報取得部11が取得したリスナーの頭部の位置および向きの情報と、リスナー頭部形状取得部15が取得したリスナー頭部形状(頭部における左耳の位置の情報を含む)とを基に、バーチャル音響空間におけるリスナーの左耳座標を取得する。なお、バーチャル音響空間において左耳は点であるとみなしてもよい。 The left ear coordinate acquisition unit 17 acquires the left ear coordinates of the listener in the virtual acoustic space based on the information on the position and orientation of the listener's head acquired by the listener information acquisition unit 11 and the listener's head shape (including information on the position of the left ear on the head) acquired by the listener head shape acquisition unit 15. Note that the left ear may be considered to be a point in the virtual acoustic space.

右耳座標取得部18は、リスナー情報取得部11が取得したリスナーの頭部の位置および向きの情報と、リスナー頭部形状取得部15が取得したリスナー頭部形状(頭部における右耳の位置の情報を含む)とを基に、バーチャル音響空間におけるリスナーの右耳座標を取得する。なお、バーチャル音響空間において右耳は点であるとみなしてもよい。 The right ear coordinate acquisition unit 18 acquires the right ear coordinates of the listener in the virtual acoustic space based on the information on the position and orientation of the listener's head acquired by the listener information acquisition unit 11 and the listener's head shape (including information on the position of the right ear on the head) acquired by the listener head shape acquisition unit 15. Note that the right ear may be considered as a point in the virtual acoustic space.

左耳用伝播経路判定部19は、「伝播経路導出部」とも呼ばれる。左耳用伝播経路判定部19は、音源の位置と、リスナーの頭部形状と、リスナーの耳の位置とを基に、音源から左耳への音の伝播経路を導出する。また、左耳用伝播経路判定部19は、バーチャル音響空間において音源から左耳への伝播経路が、直接伝播であるか回折伝播であるかを判定し、その判定結果を出力する。音源から左耳を直接見通せる場合には、直接伝播である。音源から、頭部等の陰になって、左耳を直接見通せない場合には、回折伝播である。左耳用伝播経路判定部19は、具体的には、リスナー情報取得部11が取得したリスナーの位置および向きと、リスナー頭部形状取得部15が取得した頭部形状と、左耳座標取得部17が取得した左耳の座標と、音源情報取得部12と、に基づき、上記の伝播経路を判定する。より詳細な伝播経路の判定方法については、後述する。 The left ear propagation path determination unit 19 is also called a "propagation path derivation unit." The left ear propagation path determination unit 19 derives the propagation path of the sound from the sound source to the left ear based on the position of the sound source, the shape of the listener's head, and the position of the listener's ear. The left ear propagation path determination unit 19 also determines whether the propagation path from the sound source to the left ear in the virtual acoustic space is direct propagation or diffraction propagation, and outputs the determination result. If the left ear can be seen directly from the sound source, it is direct propagation. If the left ear cannot be seen directly from the sound source because it is in the shadow of the head or the like, it is diffraction propagation. Specifically, the left ear propagation path determination unit 19 determines the above-mentioned propagation path based on the position and orientation of the listener acquired by the listener information acquisition unit 11, the head shape acquired by the listener head shape acquisition unit 15, the coordinates of the left ear acquired by the left ear coordinate acquisition unit 17, and the sound source information acquisition unit 12. A more detailed method of determining the propagation path will be described later.

右耳用伝播経路判定部20は、「伝播経路導出部」とも呼ばれる。右耳用伝播経路判定部20は、音源の位置と、リスナーの頭部形状と、リスナーの耳の位置とを基に、音源から右耳への音の伝播経路を導出する。また、右耳用伝播経路判定部20は、バーチャル音響空間において音源から右耳への伝播経路が、直接伝播であるか回折伝播であるかを判定し、その判定結果を出力する。なお、判定の方法等は、上記の左耳用伝播経路判定部19によるそれと同様である。 The right ear propagation path determination unit 20 is also called the "propagation path derivation unit." The right ear propagation path determination unit 20 derives the sound propagation path from the sound source to the right ear based on the position of the sound source, the shape of the listener's head, and the position of the listener's ears. The right ear propagation path determination unit 20 also determines whether the propagation path from the sound source to the right ear in the virtual acoustic space is direct propagation or diffraction propagation, and outputs the determination result. The method of determination is the same as that by the left ear propagation path determination unit 19 described above.

なお、左耳への伝播経路と右耳への伝播経路が異なっていてもよい。例えば頭部形状が球であって、球面上の左耳と右耳とを結ぶ直線がその球の中心点を通るとした場合には、厳密には、有限の距離にある音源からは、左耳あるいは右耳への少なくともいずれかは回折伝播である。 The propagation path to the left ear and the propagation path to the right ear may be different. For example, if the shape of the head is spherical and a straight line connecting the left and right ears on the spherical surface passes through the center point of the sphere, strictly speaking, from a sound source at a finite distance, at least one of the propagation paths to the left ear or the right ear is diffracted.

左耳用音源放射方向決定部21は、「音源放射方向決定部」とも呼ばれる。左耳用音源放射方向決定部21は、バーチャル音響空間における、音源の基準方向から見た、左耳への音波の放射方向を決定する。具体的には、左耳用音源放射方向決定部21は、導出された伝播経路に基づいて、音源から耳への放射方向を決定する。音源の基準方向は、音源の向きの座標系において、例えば、方位角(φ)0度、仰角(θ)90度である。具体的には、左耳用音源放射方向決定部21は、左耳用伝播経路判定部19が判定した音源から左耳への伝播経路と、音源情報取得部12が取得した音源の向き(回転情報)とに基づいて、音源の基準方向から見た左耳への放射方向を決定する。伝播経路が直接伝播の場合には、左耳用音源放射方向決定部21は、音源と左耳とを直線で結んだ方向(音源から左耳への方向)を、放射方向として決定する。伝播経路が回折伝播の場合には、左耳用音源放射方向決定部21は、音波が頭部に達した後に頭部表面上を回折して左耳に伝播する経路のうちの長さが最短となる経路の方向を、放射方向として決定する。より詳細な放射方向の決定方法については、後述する。 The left ear sound source radiation direction determination unit 21 is also called the "sound source radiation direction determination unit." The left ear sound source radiation direction determination unit 21 determines the radiation direction of sound waves to the left ear as viewed from the reference direction of the sound source in the virtual acoustic space. Specifically, the left ear sound source radiation direction determination unit 21 determines the radiation direction from the sound source to the ear based on the derived propagation path. The reference direction of the sound source is, for example, an azimuth angle (φ) of 0 degrees and an elevation angle (θ) of 90 degrees in the coordinate system of the direction of the sound source. Specifically, the left ear sound source radiation direction determination unit 21 determines the radiation direction to the left ear as viewed from the reference direction of the sound source based on the propagation path from the sound source to the left ear determined by the left ear propagation path determination unit 19 and the direction of the sound source (rotation information) acquired by the sound source information acquisition unit 12. When the propagation path is direct propagation, the left ear sound source radiation direction determination unit 21 determines the direction of a straight line connecting the sound source and the left ear (the direction from the sound source to the left ear) as the radiation direction. When the propagation path is diffractive propagation, the left ear sound source radiation direction determination unit 21 determines the direction of the shortest path among the paths along which sound waves propagate to the left ear after reaching the head and diffracting on the surface of the head. A more detailed method for determining the radiation direction will be described later.

右耳用音源放射方向決定部22は、「音源放射方向決定部」とも呼ばれる。右耳用音源放射方向決定部22は、バーチャル音響空間における、音源の基準方向から見た、右耳への音波の放射方向を決定する。なお、判定の決定の処理方法等は、上記の左耳用音源放射方向決定部21によるそれと同様である。左耳用音源放射方向決定部21、右耳用音源放射方向決定部22は、それぞれ決定した放射方向を音源データベース24に出力する。 The right ear sound source radiation direction determining unit 22 is also called the "sound source radiation direction determining unit." The right ear sound source radiation direction determining unit 22 determines the radiation direction of sound waves to the right ear as viewed from the reference direction of the sound source in the virtual acoustic space. The processing method for determining the judgment is the same as that by the left ear sound source radiation direction determining unit 21 described above. The left ear sound source radiation direction determining unit 21 and the right ear sound source radiation direction determining unit 22 each output the radiation direction that they have determined to the sound source database 24.

以上の説明のように、伝播経路導出部(左耳用伝播経路判定部19や右耳用伝播経路判定部20)は、音源から耳が見通せる場合には音源から耳への直接伝播による伝播経路を導出する。伝播経路導出部は、音源から耳が見通せない場合には音源から耳への頭部を回折する回折伝播による伝播経路を導出する。音源放射方向決定部(左耳用音源放射方向決定部21や右耳用音源放射方向決定部22)は、上記の伝播経路導出部が判定した伝播経路が直接経路によるものか回折経路によるものかに応じた放射方向を決定する。 As explained above, the propagation path derivation unit (left ear propagation path determination unit 19 and right ear propagation path determination unit 20) derives a propagation path by direct propagation from the sound source to the ear when the ear is visible from the sound source. When the ear is not visible from the sound source, the propagation path derivation unit derives a propagation path by diffraction propagation that diffracts the head from the sound source to the ear. The sound source radiation direction determination unit (left ear sound source radiation direction determination unit 21 and right ear sound source radiation direction determination unit 22) determines the radiation direction depending on whether the propagation path determined by the above propagation path derivation unit is a direct path or a diffraction path.

音源データベース24は、バーチャル音響空間における音源から放射される音声信号を保持する。具体的には、音源データベース24は、音源からの放射方向ごとに、その放射方向に対応した音響特性を有する音声信号を保持する。音源データベース24、例えば、極座標表示を用いて、r(距離)、φ(方位角)、θ(仰角)、ω(周波数(または角周波数))をそれぞれ引数として、それらの引数の組合せに対応する音声信号を保持する。各引数の刻み幅は、適切な大きさとなるように定めればよい。放射方向に応じた放射特性は、音響特性値で表される。音響特性値は、例えば、基準位置における音波の成分の強さに対する比率の値である。ここで、基準位置は、例えば、音源の基準方向(方位角(φ)が0度、仰角(θ)が90度)における、距離が単位長さ(r=1)の位置であってもよい。音響特性値は、強さの比率に位相差に対応する絶対値1の複素数を乗じて得られる値であってもよい。ここで、位相差は、例えば、基準位置における音波の成分の位相に対する、放射方向に伝達される音波の成分の位相との差分に相当する。音響特性値として、例えば、音波の成分として周波数毎に定義される伝達関数が利用可能である。 The sound source database 24 holds audio signals emitted from a sound source in a virtual acoustic space. Specifically, the sound source database 24 holds audio signals having acoustic characteristics corresponding to each radiation direction from the sound source. For example, the sound source database 24 holds audio signals corresponding to combinations of arguments r (distance), φ (azimuth angle), θ (elevation angle), and ω (frequency (or angular frequency)) using polar coordinate display. The intervals of each argument may be set to an appropriate size. The radiation characteristics according to the radiation direction are expressed by acoustic characteristic values. The acoustic characteristic value is, for example, a value of the ratio to the strength of the sound wave component at the reference position. Here, the reference position may be, for example, a position in the reference direction of the sound source (azimuth angle (φ) is 0 degrees, elevation angle (θ) is 90 degrees) with a distance of unit length (r = 1). The acoustic characteristic value may be a value obtained by multiplying the strength ratio by a complex number with an absolute value of 1 corresponding to the phase difference. Here, the phase difference corresponds to, for example, the difference between the phase of the sound wave component at the reference position and the phase of the sound wave component propagated in the radial direction. For example, a transfer function defined for each frequency as the sound wave component can be used as the acoustic characteristic value.

放射方向に応じた放射特性を有する音声信号とは、例えば、所定の基準位置における音声信号の周波数成分ごとにその周波数に対する音響特性値を乗じて得られる乗算値を周波数空間で合成して得られる。音源データベース24は、引数として放射方向に対応した音響特性を有する音声信号を提供することができれば、必ずしもこの例に限られない。音源データベース24には、個々の音源から音を放射させ、予め放射方向ごとに収音された音の音声信号をその放射方向と対応付けて記憶させておいてもよい。音源データベース24には、音源から放射される音の音声信号を設定しておき、設定した音声信号に所定の計算式またはモデルを用いて個々の放射方向の放射特性を有する音声信号として定めてもよい。所定の計算式またはモデルとして、例えば、放射方向ごとに設定された伝達関数の乗算または畳み込み、放射方向ごとの放射特性を与える幾何音響モデル、などが利用可能である。音源データベース24は、音源からの所定の音声信号に基づく音の放射を仮定し、所定のモデルを用いたシミュレーションを行い、放射方向ごとに到来する音の音声信号を生成してもよい。シミュレーションにおいて、例えば、音線法、波面合成法などの手法が用いられうる。 The sound signal having radiation characteristics according to the radiation direction is obtained, for example, by synthesizing the multiplied values obtained by multiplying each frequency component of the sound signal at a predetermined reference position by the acoustic characteristic value for that frequency in frequency space. The sound source database 24 is not necessarily limited to this example, as long as it can provide a sound signal having acoustic characteristics corresponding to the radiation direction as an argument. The sound source database 24 may be configured to radiate sound from each sound source and store the sound signals of the sounds collected in advance for each radiation direction in association with the radiation direction. The sound source database 24 may be configured to set the sound signals of the sounds radiated from the sound source, and may define the set sound signals as sound signals having radiation characteristics for each radiation direction using a predetermined calculation formula or model. As the predetermined calculation formula or model, for example, multiplication or convolution of a transfer function set for each radiation direction, a geometric acoustic model that gives radiation characteristics for each radiation direction, etc. may be used. The sound source database 24 may assume radiation of sound based on a predetermined sound signal from the sound source, perform a simulation using a predetermined model, and generate sound signals of sounds arriving for each radiation direction. In the simulation, techniques such as the ray acoustic method and wave field synthesis can be used.

音源データベース24は、左耳用音源放射方向決定部21から放射方向が入力されるとき、入力される放射方向に対応する音声信号を左耳に対する音源の放射方向に応じた音声信号、つまり左耳用音声信号として左耳用再生信号生成部35に出力する。同様に、音源データベース24は、右耳用音源放射方向決定部22から放射方向が入力されるとき、入力される放射方向に対応する音声信号を右耳に対する音源の放射方向に応じた音声信号、つまり右耳用音声信号として右耳用再生信号生成部36に出力する。
なお、音源データベース24は、上に挙げた引数以外の引数をとるようにしてもよい。また、音源データベース24は、距離の引数を省略してもよい。上記の放射方向とは、距離の引数が含まれる場合には、実質的に音が放射される放射位置を示す。音源データベース24は、例えば、メモリー上に展開された多次元情報テーブルとして実現され得る。あるいは、音源データベース24は、データベース管理システム(DBMS)を用いて実現され得る。また、音源データベース24は、上記の手法を用いて、放射方向が入力される都度、その放射方向に対応した音響特性を適用した音声信号を生成し、生成した音声信号を出力してもよい。その場合、音源データベース24には、計算式またはモデルを用いた計算または音声信号の生成に用いられるパラメータを予め設定しておく。
When the radiation direction is input from the left-ear sound source radiation direction determination unit 21, the sound source database 24 outputs an audio signal corresponding to the input radiation direction as an audio signal according to the radiation direction of the sound source for the left ear, i.e., an audio signal for the left ear, to the left-ear reproduction signal generation unit 35. Similarly, when the radiation direction is input from the right-ear sound source radiation direction determination unit 22, the sound source database 24 outputs an audio signal corresponding to the input radiation direction as an audio signal according to the radiation direction of the sound source for the right ear, i.e., an audio signal for the right ear, to the right-ear reproduction signal generation unit 36.
The sound source database 24 may take arguments other than those listed above. The sound source database 24 may omit the distance argument. When the distance argument is included, the radiation direction substantially indicates the radiation position from which the sound is radiated. The sound source database 24 may be realized, for example, as a multidimensional information table expanded on a memory. Alternatively, the sound source database 24 may be realized using a database management system (DBMS). The sound source database 24 may use the above method to generate a sound signal to which acoustic characteristics corresponding to the radiation direction are applied each time the radiation direction is input, and output the generated sound signal. In this case, parameters used for calculation using a calculation formula or model or for generating a sound signal are set in advance in the sound source database 24.

頭部伝達関数データベース31は、リスナーの頭部伝達関数の情報を保持する。頭部伝達関数は、リスナーの頭部中心からの方向に応じた伝達関数の情報を有する。頭部中心からの方向ごとの左耳用の伝達関数および右耳用の伝達関数として、それぞれ左耳用頭部伝達関数と右耳用頭部伝達関数が保持される。方向の刻み幅(分解ステップ)は、適切に予め定められる。頭部伝達関数は、特定のリスナー用に測定して取得したものであってもよいし、ダミーヘッドなどを用いた測定で取得されたものであってもよい。頭部伝達関数自体は、本実施形態のために特別に取得する必要はない。従来技術で用いていた頭部伝達関数があれば、その頭部伝達関数の情報をそのまま頭部伝達関数データベース31が保持するようにしてよい。頭部伝達関数データベース31は、方向を特定して照会を受けた場合に、その方向に対応する頭部伝達関数を応答する。頭部伝達関数データベース31は、例えば、メモリー上に展開された多次元情報テーブルとして実現され得る。あるいは、頭部伝達関数データベース31は、データベース管理システム(DBMS)を用いて実現され得る。 The head-related transfer function database 31 holds information on the head-related transfer function of the listener. The head-related transfer function has information on the transfer function according to the direction from the center of the listener's head. As the transfer function for the left ear and the transfer function for the right ear for each direction from the center of the head, a head-related transfer function for the left ear and a head-related transfer function for the right ear are held, respectively. The step size (decomposition step) of the direction is appropriately determined in advance. The head-related transfer function may be obtained by measuring for a specific listener, or may be obtained by measuring using a dummy head or the like. The head-related transfer function itself does not need to be specially acquired for this embodiment. If there is a head-related transfer function used in the conventional technology, the information on the head-related transfer function may be held as it is in the head-related transfer function database 31. When the head-related transfer function database 31 is queried by specifying a direction, it responds with the head-related transfer function corresponding to that direction. The head-related transfer function database 31 may be realized, for example, as a multidimensional information table expanded on a memory. Alternatively, the head-related transfer function database 31 may be realized using a database management system (DBMS).

頭部伝達関数選択部32は、リスナーの位置および向きの情報(6軸の自由度)と、音源の位置および向きの情報(6軸の自由度)とに基づいて、頭部伝達関数を選択する。具体的には、頭部伝達関数選択部32は、リスナーの位置および向きと、音源の位置および向きとに基づいて、頭部伝達関数データベース31が保持する頭部伝達関数から、バイノーラル信号の生成に用いる頭部伝達関数を選択的に取得する。その際、頭部伝達関数選択部32は、リスナーの頭部中心から音源方向の頭部伝達関数を選択する。本実施形態において具体的には、頭部伝達関数選択部32は、リスナーの頭部中心の位置と音源の位置とによって特定されるリスナーの頭部中心から音源への方向に基づいて、頭部伝達関数データベース31から当該方向の伝達関数を選択する。 The head-related transfer function selection unit 32 selects a head-related transfer function based on information on the position and orientation of the listener (six-axis degrees of freedom) and information on the position and orientation of the sound source (six-axis degrees of freedom). Specifically, the head-related transfer function selection unit 32 selectively acquires a head-related transfer function to be used for generating a binaural signal from the head-related transfer functions held in the head-related transfer function database 31 based on the position and orientation of the listener and the position and orientation of the sound source. In this case, the head-related transfer function selection unit 32 selects a head-related transfer function from the center of the listener's head to the direction of the sound source. Specifically, in this embodiment, the head-related transfer function selection unit 32 selects a transfer function for that direction from the head-related transfer function database 31 based on the direction from the center of the listener's head to the sound source, which is specified by the position of the center of the listener's head and the position of the sound source.

左耳用再生信号生成部35は、「再生信号生成部」とも呼ばれる。左耳用再生信号生成部35は、左耳用の再生信号を生成する。具体的には、左耳用再生信号生成部35は、音源データベース24から出力された音声信号と、頭部伝達関数選択部32が選択した伝達関数と、に基づいて、左耳用の再生信号を生成する。左耳用再生信号生成部35による処理のさらなる詳細については、後で説明する。 The left ear playback signal generating unit 35 is also called the "playback signal generating unit." The left ear playback signal generating unit 35 generates a playback signal for the left ear. Specifically, the left ear playback signal generating unit 35 generates a playback signal for the left ear based on the audio signal output from the sound source database 24 and the transfer function selected by the head-related transfer function selecting unit 32. Further details of the processing by the left ear playback signal generating unit 35 will be described later.

右耳用再生信号生成部36は、「再生信号生成部」とも呼ばれる。右耳用再生信号生成部36は、右耳用の再生信号を生成する。具体的な処理としては、右耳用再生信号生成部36は、上記の左耳用再生信号生成部35による処理と同様の処理を、右耳について行う。 The right ear playback signal generating unit 36 is also called the "playback signal generating unit." The right ear playback signal generating unit 36 generates a playback signal for the right ear. In terms of specific processing, the right ear playback signal generating unit 36 performs the same processing for the right ear as the processing performed by the left ear playback signal generating unit 35 described above.

次に、本実施形態が想定するバーチャル音響空間について説明する。 Next, we will explain the virtual acoustic space assumed in this embodiment.

図2は、バーチャル音響空間の構成例を示す概略図である。バーチャル音響空間は、x,y,z軸の直交座標系で表わされ得る3次元空間である。当然、バーチャル音響空間は、直交座標以外の、例えば極座標でも表わされ得る。図示するように、バーチャル音響空間には、リスナーと音源(図示する例では管楽器のトランペット)とが存在する。バーチャル音響空間では、音源から音源の放射特性に則って放射された音波が空間内を伝播し、リスナーに到達する。リスナーは到達した音波を耳で捕らえ、音を聴取する。リスナーが聴取する際の信号は、バーチャル音響空間内においてリスナーに対して音波が入射する方向に合った頭部伝達関数を用いて生成される。バイノーラル再生装置1は、この再生音の信号を生成する。この再生信号を生成する処理を、バイノーラル化と呼ぶ。 Figure 2 is a schematic diagram showing an example of the configuration of a virtual acoustic space. The virtual acoustic space is a three-dimensional space that can be expressed in a Cartesian coordinate system of x, y, and z axes. Naturally, the virtual acoustic space can also be expressed in other than Cartesian coordinates, such as polar coordinates. As shown in the figure, a listener and a sound source (a trumpet, a wind instrument, in the example shown) exist in the virtual acoustic space. In the virtual acoustic space, sound waves emitted from the sound source in accordance with the radiation characteristics of the sound source propagate through the space and reach the listener. The listener captures the arriving sound waves with their ears and hears the sound. The signal that the listener hears is generated using a head-related transfer function that matches the direction in which the sound waves are incident on the listener in the virtual acoustic space. The binaural playback device 1 generates a signal of this playback sound. The process of generating this playback signal is called binauralization.

図3は、左耳用伝播経路判定部19の内部のさらに詳細な機能構成を示すブロック図である。図示するように、左耳用伝播経路判定部19は、音源・頭部中心間距離算出部191と、左耳・頭部中心間距離算出部192と、左耳・音源間距離算出部193と、比較判定部194とを含んで構成される。 Figure 3 is a block diagram showing a more detailed functional configuration inside the left ear propagation path determination unit 19. As shown in the figure, the left ear propagation path determination unit 19 includes a sound source-to-head center distance calculation unit 191, a left ear-to-head center distance calculation unit 192, a left ear-to-sound source distance calculation unit 193, and a comparison determination unit 194.

左耳用伝播経路判定部19は、左耳への伝播経路を判定するために、バーチャル音響空間における、音源・頭部中心間距離と、左耳・頭部中心間距離と、左耳・音源間距離とをそれぞれ計算する。また、左耳用伝播経路判定部19は、加えて、リスナーの頭部形状をも判定材料とする。これらにより、左耳用伝播経路判定部19は、音源から左耳を直接見通せるか否かを判定する。即ち、左耳用伝播経路判定部19は、音源から左耳を直接見通せる場合には直接伝播であると判定する。また、左耳用伝播経路判定部19は、音源から左耳を直接見通せない場合には回折伝播であると判定する。一例として、左耳用伝播経路判定部19は、頭部が球であることを前提として、上記の、耳を見通せるか否かの判定を行ってもよい。 To determine the propagation path to the left ear, the left ear propagation path determination unit 19 calculates the distance between the sound source and the head center, the distance between the left ear and the head center, and the distance between the left ear and the sound source in the virtual acoustic space. The left ear propagation path determination unit 19 also uses the shape of the listener's head as a determination material. Based on these, the left ear propagation path determination unit 19 determines whether the left ear can be directly seen from the sound source. That is, if the left ear can be directly seen from the sound source, the left ear propagation path determination unit 19 determines that the propagation is direct. If the left ear cannot be directly seen from the sound source, the left ear propagation path determination unit 19 determines that the propagation is diffracted. As an example, the left ear propagation path determination unit 19 may perform the above-mentioned determination of whether the ear can be directly seen on the assumption that the head is a sphere.

音源・頭部中心間距離算出部191は、バーチャル音響空間における、音源(点)と頭部中心との間の距離を算出する。音源・頭部中心間距離算出部191は、音源の座標(位置ベクトル)と、頭部中心の座標(位置ベクトル)とに基づいて、上記の距離を算出する。 The sound source-to-head center distance calculation unit 191 calculates the distance between the sound source (point) and the head center in the virtual acoustic space. The sound source-to-head center distance calculation unit 191 calculates the above distance based on the coordinates (position vector) of the sound source and the coordinates (position vector) of the head center.

左耳・頭部中心間距離算出部192は、左耳の位置の座標(位置ベクトル)と頭部中心の座標(位置ベクトル)とに基づいて、左耳と頭部中心との間の距離を算出する。 The left ear-to-head center distance calculation unit 192 calculates the distance between the left ear and the head center based on the coordinates of the left ear position (position vector) and the coordinates of the head center (position vector).

左耳・音源間距離算出部193は、左耳の位置の座標(位置ベクトル)と音源の座標(位置ベクトル)とに基づいて、左耳と音源との間の距離を算出する。 The left ear-to-sound source distance calculation unit 193 calculates the distance between the left ear and the sound source based on the coordinates of the left ear position (position vector) and the coordinates of the sound source (position vector).

比較判定部194は、音源・頭部中心間距離算出部191が算出した音源・頭部中心間距離と、左耳・頭部中心間距離算出部192が算出した左耳・頭部中心間距離と、左耳・音源間距離算出部193が算出した左耳・音源間距離とに基づいて、判定を行う。
音源から左耳が直接見通せる場合には、比較判定部194は、直接伝播であると判定する。音源から左耳が直接見通せない場合には、比較判定部194は、回折伝播であると判定する。
The comparison judgment unit 194 makes a judgment based on the sound source-to-head center distance calculated by the sound source-to-head center distance calculation unit 191, the left ear-to-head center distance calculated by the left ear-to-head center distance calculation unit 192, and the left ear-to-sound source distance calculated by the left ear-to-sound source distance calculation unit 193.
When the left ear is directly visible from the sound source, the comparison and determination unit 194 determines that the propagation is direct. When the left ear is not directly visible from the sound source, the comparison and determination unit 194 determines that the propagation is diffracted.

比較判定部194は、一例として、頭部が球であり、左耳はその球面上の一点であるというモデルに基づいて、上記の判定を行ってもよい。その場合には、比較判定部194は、音源・頭部中心間距離の2乗と、左耳・頭部中心間距離の2乗および左耳・音源間距離の2乗の和と、を比較する。頭部の形状として平面上の円と、各部間の直線とを用いた幾何学的配置により、次の判定手法が適用可能である。音源・頭部中心間距離の2乗が、左耳・頭部中心間距離の2乗および左耳・音源間距離の2乗の和よりも大きい場合あるいは両者が等しい場合には、比較判定部194は、音源から左耳を直接見通せると判定してよい。音源・頭部中心間距離の2乗が、左耳・頭部中心間距離の2乗および左耳・音源間距離の2乗の和よりも小さい場合には、比較判定部194は、音源から左耳を直接見通せないと判定してよい。 As an example, the comparison and determination unit 194 may make the above determination based on a model in which the head is a sphere and the left ear is a point on the surface of the sphere. In this case, the comparison and determination unit 194 compares the square of the distance between the sound source and the center of the head with the sum of the squares of the distance between the left ear and the center of the head and the distance between the left ear and the sound source. The following determination method can be applied by using a geometric arrangement using a circle on a plane as the shape of the head and straight lines between each part. If the square of the distance between the sound source and the center of the head is greater than the square of the distance between the left ear and the center of the head and the sum of the squares of the distance between the left ear and the sound source, or if both are equal, the comparison and determination unit 194 may determine that the left ear can be seen directly from the sound source. If the square of the distance between the sound source and the center of the head is smaller than the square of the distance between the left ear and the center of the head and the sum of the squares of the distance between the left ear and the sound source, the comparison and determination unit 194 may determine that the left ear cannot be seen directly from the sound source.

なお、比較判定部194は、上記の単純な幾何学的モデル以外のモデルに基づいて判定を行うようにしてもよい。 The comparison and determination unit 194 may also make a determination based on a model other than the above-mentioned simple geometric model.

右耳用伝播経路判定部20は、上記の左耳用伝播経路判定部19と同様の、右耳用の構成を持つものである。そのような構成により、右耳用伝播経路判定部20は、右耳への伝播経路が、直接伝播であるか回折伝播であるかを判定する。 The right ear propagation path determination unit 20 has a configuration for the right ear similar to the above-mentioned left ear propagation path determination unit 19. With such a configuration, the right ear propagation path determination unit 20 determines whether the propagation path to the right ear is direct propagation or diffracted propagation.

左耳用伝播経路判定部19および右耳用伝播経路判定部20の処理のさらなる詳細については、後で説明する。 Further details of the processing by the left ear propagation path determination unit 19 and the right ear propagation path determination unit 20 will be described later.

図4は、左耳用再生信号生成部35の内部の詳細な機能構成を示すブロック図である。図示するように、左耳用再生信号生成部35は、音声信号取得部351と、バイノーラル信号生成部353とを含んで構成される。これらの各部の機能は、次に説明する通りである。 Figure 4 is a block diagram showing a detailed internal functional configuration of the left ear playback signal generation unit 35. As shown in the figure, the left ear playback signal generation unit 35 includes an audio signal acquisition unit 351 and a binaural signal generation unit 353. The functions of each of these units are as follows:

音声信号取得部351は、音源データベース24から出力される左耳に対する音源の放射方向に応じた音声信号を取得する。音声信号取得部351は、取得した音声信号をバイノーラル信号生成部353に出力する。 The audio signal acquisition unit 351 acquires an audio signal corresponding to the radiation direction of the sound source with respect to the left ear, which is output from the sound source database 24. The audio signal acquisition unit 351 outputs the acquired audio signal to the binaural signal generation unit 353.

バイノーラル信号生成部353は、頭部伝達関数の左耳成分を用いて、音声信号取得部351から出力される音声信号から、左耳用再生信号を生成する。具体的には、バイノーラル信号生成部353は、頭部伝達関数選択部32が頭部伝達関数データベース31から選択した伝達関数に基づいて、音声信号取得部351が取得した音声信号から、再生信号を生成する。 The binaural signal generation unit 353 uses the left ear component of the head-related transfer function to generate a playback signal for the left ear from the audio signal output from the audio signal acquisition unit 351. Specifically, the binaural signal generation unit 353 generates a playback signal from the audio signal acquired by the audio signal acquisition unit 351 based on the transfer function selected by the head-related transfer function selection unit 32 from the head-related transfer function database 31.

なお、変形例として、バイノーラル信号生成部353が、頭部インパルス応答の左耳成分を用いて、左耳用再生信号を生成するようにしてもよい。頭部インパルス応答は、頭部伝達関数を時間領域で表現したパラメータセットとみなすことができる。 As a modified example, the binaural signal generator 353 may generate a left-ear playback signal using the left-ear component of the head impulse response. The head impulse response can be regarded as a parameter set that represents the head-related transfer function in the time domain.

右耳用再生信号生成部36は、上記の左耳用再生信号生成部35と同様の、右耳用の構成を持つものである。そのような構成により、右耳用再生信号生成部36は、右耳用の再生信号を生成する。 The right-ear playback signal generating unit 36 has a configuration for the right ear similar to that of the left-ear playback signal generating unit 35 described above. With such a configuration, the right-ear playback signal generating unit 36 generates a playback signal for the right ear.

左耳用再生信号生成部35および右耳用再生信号生成部36の処理のさらなる詳細については、後で説明する。 Further details of the processing by the left ear playback signal generation unit 35 and the right ear playback signal generation unit 36 will be described later.

図5は、バイノーラル再生装置1が再生信号を生成するための処理の手順を示すフローチャートである。なお、このフローチャートは、左耳または右耳のいずれか着目している側の耳のための再生信号を生成する処理を示している。左右両耳のための再生信号を生成するためには、各耳について、このフローチャートの処理を実行すればよい。以下、このフローチャートに沿って説明する。 Figure 5 is a flowchart showing the procedure of the process for generating a playback signal by the binaural playback device 1. Note that this flowchart shows the process of generating a playback signal for either the left ear or the right ear, whichever ear is being focused on. To generate playback signals for both the left and right ears, the process of this flowchart can be executed for each ear. The following description will be given in accordance with this flowchart.

ステップS11において、リスナー情報取得部11は、バーチャル音響空間におけるリスナーの位置および向き(姿勢)の情報(6軸の自由度)を取得する。 In step S11, the listener information acquisition unit 11 acquires information (six-axis degrees of freedom) about the listener's position and orientation (posture) in the virtual acoustic space.

ステップS12において、音源情報取得部12は、バーチャル音響空間における、音源の位置および向き(姿勢)の情報(6軸の自由度)を取得する。 In step S12, the sound source information acquisition unit 12 acquires information (six-axis degrees of freedom) about the position and orientation (posture) of the sound source in the virtual acoustic space.

ステップS13において、リスナー頭部形状取得部15は、リスナーの頭部の形状を取得する。リスナー頭部形状取得部15が取得する頭部の形状の情報は、頭部の中心点を基準としたときの左右の各耳の位置(座標)の情報を含む。そして、左耳座標取得部17あるいは右耳座標取得部18のいずれかの、着目している側の耳に対応する側は、リスナー情報取得部11が取得したリスナーの位置および向きの情報と、リスナー頭部形状取得部15が取得した着目している側の耳の位置の情報とに基づいて、バーチャル音響空間内における着目している側の耳(左耳あるいは右耳)の座標を求める。つまり、左耳座標取得部17あるいは右耳座標取得部18のいずれかは、それぞれ、左耳あるいは右耳のいずれかのバーチャル音響空間の座標系における座標値を取得し、出力する。 In step S13, the listener's head shape acquisition unit 15 acquires the shape of the listener's head. The head shape information acquired by the listener's head shape acquisition unit 15 includes information on the position (coordinates) of each of the left and right ears when the center point of the head is used as a reference point. Then, either the left ear coordinate acquisition unit 17 or the right ear coordinate acquisition unit 18, which corresponds to the ear of interest, determines the coordinates of the ear of interest (left ear or right ear) in the virtual acoustic space based on the information on the position and orientation of the listener acquired by the listener information acquisition unit 11 and the information on the position of the ear of interest acquired by the listener's head shape acquisition unit 15. In other words, either the left ear coordinate acquisition unit 17 or the right ear coordinate acquisition unit 18 acquires and outputs the coordinate values of the left ear or right ear in the coordinate system of the virtual acoustic space.

ステップS14において、左耳用伝播経路判定部19あるいは右耳用伝播経路判定部20のいずれか、着目している耳に対応する側は、音源の位置から、着目している耳を直接見通せるか否かを判定する。直接見通せる場合には、その耳への伝播は、直接伝播である。直接見通せない場合(頭部の陰に位置する場合等)には、その耳への伝播は回折伝播である。左耳用伝播経路判定部19あるいは右耳用伝播経路判定部20は、その耳への伝播が直接伝播であるか回折伝播であるかの情報を出力する。 In step S14, either the left ear propagation path determination unit 19 or the right ear propagation path determination unit 20, whichever corresponds to the ear of interest, determines whether or not the ear of interest is directly visible from the position of the sound source. If it is directly visible, the propagation to that ear is direct propagation. If it is not directly visible (such as when the sound source is located in the shadow of the head), the propagation to that ear is diffracted propagation. The left ear propagation path determination unit 19 or the right ear propagation path determination unit 20 outputs information on whether the propagation to that ear is direct propagation or diffracted propagation.

ステップS15において、左耳用音源放射方向決定部21あるいは右耳用音源放射方向決定部22のいずれかの、現在着目している耳に対応する側は、左耳用伝播経路判定部19あるいは右耳用伝播経路判定部20のいずれか対応する側から受け取った判定結果に基づいて処理を分岐する。具体的には、直接伝播である場合(ステップS16:YES)、ステップS18に進む。直接伝播ではない場合、即ち回折伝播である場合(ステップS16:NO)、ステップS17に進む。 In step S15, the left ear sound source radiation direction determining unit 21 or the right ear sound source radiation direction determining unit 22, whichever corresponds to the currently focused ear, branches the process based on the determination result received from the left ear propagation path determining unit 19 or the right ear propagation path determining unit 20, whichever corresponds to the ear. Specifically, if the propagation is direct (step S16: YES), proceed to step S18. If the propagation is not direct, i.e., if the propagation is diffracted (step S16: NO), proceed to step S17.

ステップS17に進んだ場合(即ち回折伝播の場合)、本ステップにおいて、左耳用音源放射方向決定部21あるいは右耳用音源放射方向決定部22のいずれかの、現在着目している耳に対応する側は、回折して伝播する経路を導出する。回折して伝播する経路は、音源から頭部の表面の一点に到達してから、頭部表面に沿ってその耳に到達するまでの経路のうち、トータルの長さが最短であるような経路である。 When the process proceeds to step S17 (i.e., in the case of diffraction propagation), in this step, either the left-ear sound source radiation direction determination unit 21 or the right-ear sound source radiation direction determination unit 22, whichever corresponds to the ear currently being considered, derives a path of diffraction and propagation. The diffraction and propagation path is the path that has the shortest total length among the paths from the sound source that reaches a point on the surface of the head to the ear along the head surface.

例えば頭部が球状であると仮定した場合、その耳が頭部を挟んで音源の真反対側に位置するものではない限り(つまり、その耳と、頭部(球)の中心と、音源とを結ぶ直線が存在しない限り、その耳に到達する最短の回折の経路は、一意に求まる。 For example, if we assume that the head is spherical, the shortest diffraction path to reach the ear can be uniquely determined, unless the ear is located directly opposite the sound source across the head (in other words, unless there is a straight line connecting the ear, the center of the head (sphere), and the sound source).

ステップS17の処理の後は、ステップS18に進む。 After processing in step S17, proceed to step S18.

ステップS18において、左耳用音源放射方向決定部21あるいは右耳用音源放射方向決定部22のいずれかの、現在着目している耳に対応する側は、直接伝播あるいは回折伝播のいずれか該当する場合に応じた方法で、音源からの放射方向を決定する。直接伝播の場合には、音源から着目している側の耳を結ぶ直線の方向が、音源からの放射方向である。回折伝播の場合には、音源から、ステップS17において説明した「音源から頭部の表面の一点に到達してから、頭部表面に沿ってその耳に到達するまでの経路のうち、トータルの長さが最短であるような経路」における「頭部の表面の一点」を結ぶ直線の方向が、音源からの放射方向である。 In step S18, either the left ear sound source radiation direction determining unit 21 or the right ear sound source radiation direction determining unit 22, which corresponds to the ear currently being considered, determines the radiation direction from the sound source by a method appropriate for either direct propagation or diffraction propagation. In the case of direct propagation, the direction of a straight line connecting the sound source to the ear being considered is the radiation direction from the sound source. In the case of diffraction propagation, the direction of radiation from the sound source is the direction of a straight line connecting the sound source to the "point on the head surface" on the "path with the shortest total length among the paths from the sound source to a point on the head surface and along the head surface to the ear" described in step S17.

頭部が球であると仮定する場合の、放射方向の求め方の例については、後で、さらに詳しく説明する。 An example of how to find the radial direction when assuming the head is a sphere will be explained in more detail later.

ステップS19において、音源データベース24は、着目する耳を左耳として、左耳用音源放射方向決定部21から入力される放射方向に対応する音声信号を左耳に対する音源の放射方向に応じた音声信号として左耳用再生信号生成部35に出力する。また、音源データベース24は、着目する耳を右耳として、右耳用音源放射方向決定部22から入力される放射方向に対応する音声信号を右耳に対する音源の放射方向に応じた音声信号として右耳用再生信号生成部36に出力する。 In step S19, the sound source database 24 determines the ear of interest as the left ear and outputs the audio signal corresponding to the radiation direction input from the left ear sound source radiation direction determination unit 21 to the left ear playback signal generation unit 35 as an audio signal according to the radiation direction of the sound source for the left ear. Also, the sound source database 24 determines the ear of interest as the right ear and outputs the audio signal corresponding to the radiation direction input from the right ear sound source radiation direction determination unit 22 to the right ear playback signal generation unit 36 as an audio signal according to the radiation direction of the sound source for the right ear.

ステップS20において、頭部伝達関数選択部32は、頭部伝達関数データベース31に格納されている頭部伝達関数のうち、再生信号の生成に使用する頭部伝達関数を選択する。具体的には、頭部伝達関数選択部32は、リスナー情報取得部11から取得したリスナーの位置および向きの情報と、音源情報取得部12から取得した音源の位置および向きの情報とに基づいて、リスナーの頭部中心から音源方向の頭部伝達関数として左耳用頭部伝達関数と右耳用頭部伝達関数を選択する。 In step S20, the head-related transfer function selection unit 32 selects a head-related transfer function to be used to generate a playback signal from among the head-related transfer functions stored in the head-related transfer function database 31. Specifically, the head-related transfer function selection unit 32 selects a left-ear head-related transfer function and a right-ear head-related transfer function as head-related transfer functions from the center of the listener's head in the direction of the sound source, based on information on the position and orientation of the listener acquired from the listener information acquisition unit 11 and information on the position and orientation of the sound source acquired from the sound source information acquisition unit 12.

ステップS21において、左耳用再生信号生成部35のバイノーラル信号生成部353、あるいは右耳用再生信号生成部36のバイノーラル信号生成部363(不図示)のいずれか、現在着目する耳に対応する側は、当該耳用の再生信号を生成する。具体的には、バイノーラル信号生成部353(左耳用)あるいはバイノーラル信号生成部363(右耳用)のいずれかは、そのいずれかの耳に対する音源の放射方向に応じた音声信号と頭部伝達関数の、着目する側の耳用の頭部伝達関数を用いて、当該耳用の再生信号を生成する。 In step S21, either the binaural signal generator 353 of the left ear playback signal generator 35 or the binaural signal generator 363 (not shown) of the right ear playback signal generator 36, whichever corresponds to the ear currently being focused on, generates a playback signal for that ear. Specifically, either the binaural signal generator 353 (for the left ear) or the binaural signal generator 363 (for the right ear) generates a playback signal for that ear using an audio signal corresponding to the radiation direction of the sound source for that ear and a head related transfer function for the ear on the side of focus.

ステップS22において、バイノーラル信号生成部353(左耳用)あるいはバイノーラル信号生成部363(右耳用)のいずれかは、そのいずれかの着目する耳について、ステップS21で生成した再生信号(バイノーラル再生用の信号)を出力する。 In step S22, either the binaural signal generating unit 353 (for the left ear) or the binaural signal generating unit 363 (for the right ear) outputs the playback signal (signal for binaural playback) generated in step S21 for the ear of interest.

次に、バイノーラル再生装置1の実装に係るアルゴリズムを定式化し、説明する。なお、このアルゴリズムについては、次の5つのセクションの順に説明する。
1)条件設定
2)音源の放射特性の選択:音源から耳に直接伝播する条件
3)音源の放射特性の選択:頭部を回折して耳に伝播する条件
4)頭部伝達関数の選択
5)バイノーラル再生信号の生成
Next, we will formulate and explain an algorithm for implementing the binaural reproduction device 1. Note that this algorithm will be explained in the following five sections.
1) Setting conditions 2) Selection of sound source radiation characteristics: Condition for sound to propagate directly from the sound source to the ear 3) Selection of sound source radiation characteristics: Condition for sound to diffract through the head and propagate to the ear 4) Selection of head-related transfer functions 5) Generation of binaural playback signals

[1.条件設定]
図6は、バーチャル音響空間を模式的に表す概略図である。同図は、バーチャル音響空間である3次元空間を斜視している。このバーチャル音響空間内には、バーチャルなリスナーの頭部のモデルが存在する。図において破線で示す半球は、リスナーの頭部(球であると想定してよい)の上半球に対応する。頭部に対応する球の半径をaとする。この頭部のモデルは、右耳の位置と、左耳の位置とを、持つ。また、このバーチャル音響空間内の音源は、体積を有さない点音源である。また、その音源は、発する音について指向性を有する。
[1. Condition setting]
FIG. 6 is a schematic diagram showing a virtual acoustic space. The diagram shows a perspective view of a three-dimensional space that is the virtual acoustic space. In this virtual acoustic space, a model of the virtual listener's head exists. The hemisphere shown by the dashed line in the diagram corresponds to the upper hemisphere of the listener's head (which may be assumed to be a sphere). The radius of the sphere corresponding to the head is a. This head model has a right ear position and a left ear position. In addition, the sound source in this virtual acoustic space is a point sound source that does not have a volume. In addition, the sound source has directionality with respect to the sound it emits.

下の式(1)に表すように、eは、バーチャル音響空間において基準となる3次元直交座標系の、x軸、y軸、z軸に沿った正規直交基底である。 As shown in equation (1) below, e is an orthonormal basis along the x-, y-, and z-axes of a three-dimensional orthogonal coordinate system that serves as the reference in the virtual acoustic space.

Figure 0007493411000001
Figure 0007493411000001

下の式(2)に表すように、eは、バーチャル音響空間における、リスナーの頭部を基準とした3次元正規直交基底である。eは、上記のeを回転(ヨー(yaw)、ロール(roll)、ピッチ(pitch))することで得られる。 As shown in the following formula (2), e L is a three-dimensional orthonormal basis based on the head of the listener in the virtual acoustic space. e L is obtained by rotating (yaw, roll, pitch) the above e.

Figure 0007493411000002
Figure 0007493411000002

便宜上、方向を、次の通りとする。 For convenience, the directions are as follows:

Figure 0007493411000003
を正面方向(リスナーの顔が向く方向)とする。
Figure 0007493411000003
is the front direction (the direction the listener faces).

Figure 0007493411000004
を左耳方向(リスナーの頭部中心から左耳への方向)とする。
Figure 0007493411000004
is the direction to the left ear (the direction from the center of the listener's head to the left ear).

Figure 0007493411000005
を右耳方向(リスナーの頭部中心から右耳への方向)とする。
Figure 0007493411000005
is the direction to the right ear (the direction from the center of the listener's head to the right ear).

リスナー情報取得部11は、リスナーの、位置と向き(回転)の情報を取得する。 The listener information acquisition unit 11 acquires information on the position and orientation (rotation) of the listener.

下の式(3)に表すように、eは、バーチャル音響空間における、音源を基準とした3次元正規直交基底である。eは、上記のeを回転(ヨー、ロール、ピッチ)することで得られる。 As shown in the following formula (3), e s is a three-dimensional orthonormal basis based on a sound source in a virtual acoustic space. e s can be obtained by rotating (yaw, roll, pitch) the above e.

Figure 0007493411000006
Figure 0007493411000006

Figure 0007493411000007
を、便宜上、音源の正面方向とする。
Figure 0007493411000007
For convenience, the direction is defined as the front direction of the sound source.

Figure 0007493411000008
は、バーチャル音響空間における音源の位置ベクトルである。
Figure 0007493411000008
is the position vector of the sound source in the virtual acoustic space.

音源情報取得部12は、音源(点音源)の、位置と向き(回転)の情報を取得する。 The sound source information acquisition unit 12 acquires information on the position and orientation (rotation) of the sound source (point sound source).

Figure 0007493411000009
は、バーチャル音響空間における、リスナーの頭部中心の位置ベクトルである。
Figure 0007493411000009
is the position vector of the center of the listener's head in the virtual acoustic space.

Figure 0007493411000010
は、バーチャル音響空間における、リスナーの左耳の位置ベクトルである。
Figure 0007493411000010
is the position vector of the listener's left ear in the virtual acoustic space.

Figure 0007493411000011
は、バーチャル音響空間における、リスナーの右耳の位置ベクトルである。
Figure 0007493411000011
is the position vector of the listener's right ear in the virtual acoustic space.

Figure 0007493411000012
は、左右の耳の位置ベクトルのうち、現在着目している側の耳の位置ベクトルである。
Figure 0007493411000012
is the position vector of the ear currently being considered, out of the position vectors of the left and right ears.

上記のeおよびeを、それぞれ変換行列WおよびWを用いて、下の式(4)および式(5)のように表すこととする。 The above e L and e s are expressed as the following equations (4) and (5) using transformation matrices W L and W s , respectively.

Figure 0007493411000013
Figure 0007493411000013

Figure 0007493411000014
Figure 0007493411000014

上記の変換行列Wは、リスナー情報取得部11が取得するものである。また、変換行列Wは、音源情報取得部12が取得するものである。なお、変換行列Wも、Wも、リスナーや音源の移動を考慮したアフィン変換ではなく、回転のみの作用素である。したがって、両耳のそれぞれの位置ベクトルは、下の式(6)および式(7)のように表される。 The transformation matrix W L is acquired by the listener information acquisition unit 11. The transformation matrix W s is acquired by the sound source information acquisition unit 12. Note that the transformation matrices W L and W s are not affine transformations that take into account the movement of the listener or sound source, but are rotation-only operators. Therefore, the position vectors of both ears are expressed as in the following formulas (6) and (7).

Figure 0007493411000015
Figure 0007493411000015

Figure 0007493411000016
Figure 0007493411000016

[2.音源の放射特性の選択:音源から耳に直接伝播する条件]
伝播経路が直接伝播であるか否かを判定するのは、伝播経路導出部である。伝播経路導出部が導出した経路に基づいて、音源からの放射方向を決定するのは音源放射方向決定部である。放射方向に基づいて、音源からの放射特性を決定(選択)するのは、音源放射特性選択部である。
[2. Selection of sound source radiation characteristics: conditions for direct propagation from the sound source to the ear]
The propagation path derivation unit determines whether the propagation path is direct propagation. The sound source radiation direction determination unit determines the radiation direction from the sound source based on the path derived by the propagation path derivation unit. The sound source radiation characteristic selection unit determines (selects) the radiation characteristic from the sound source based on the radiation direction.

上で説明したバーチャル音響空間において、音源からリスナーの耳(左耳あるいは右耳)に、音波が直接伝播する条件は、音源からその耳が見通せる場合である。この場合を式で表わすと、下の式(8)の通りである。 In the virtual acoustic space described above, the condition for sound waves to travel directly from the sound source to the listener's ear (left or right ear) is that the ear is visible from the sound source. This can be expressed as equation (8) below.

Figure 0007493411000017
Figure 0007493411000017

また、音源から現在着目している耳の方向は、下の式(9)で表わされる。 The direction from the sound source to the currently focused ear is expressed by equation (9) below.

Figure 0007493411000018
Figure 0007493411000018

上の式(9)で表わされる方向に沿って放射される音波の音響特性は、音源の放射特性における特定方向の成分である。その特定方向は、下の式(10)で表わされるものである。なお、W -1は、Wの逆行列である。 The acoustic characteristics of a sound wave radiated along the direction expressed by the above formula (9) are the specific directional components in the radiation characteristics of the sound source. The specific direction is expressed by the following formula (10). Note that W s -1 is the inverse matrix of W s .

Figure 0007493411000019
Figure 0007493411000019

上記のように、音源データベース24を、予め構築しておく。音源データベース24は、方向ごとの音響特性を有する音声信号を保持する。つまり、方向を特定して音源データベース24に照会すると、当該方向についての音響特性を有する音声信号を、音源データベース24は、その音声信号を返す。 As described above, the sound source database 24 is constructed in advance. The sound source database 24 holds audio signals having acoustic characteristics for each direction. In other words, when a direction is specified and the sound source database 24 is queried, the sound source database 24 returns an audio signal having the acoustic characteristics for that direction.

正規直交基底eが張る3次元空間において、現在着目している耳に対する、音源の放射方向を示すベクトルは、上の式(10)で表わされる。 In the three-dimensional space spanned by the orthonormal basis e, the vector indicating the radiation direction of the sound source with respect to the currently focused ear is expressed by the above equation (10).

Figure 0007493411000020
への正射影オペレーターを、下の式(11)とする。
Figure 0007493411000020
The orthogonal projection operator onto is expressed as the following equation (11).

Figure 0007493411000021
Figure 0007493411000021

Figure 0007493411000022
への、式(10)のベクトルの、正射影は、上の式(11)のオペレーターを用いて、下の式(12)のように表される。
Figure 0007493411000022
The orthogonal projection of the vector of equation (10) onto is expressed as equation (12) below using the operator of equation (11) above.

Figure 0007493411000023
Figure 0007493411000023

Figure 0007493411000024
を基準とした方位角
Figure 0007493411000025
は、下の式(13)で表わされる。
Figure 0007493411000024
Azimuth angle based on
Figure 0007493411000025
is expressed by the following equation (13).

Figure 0007493411000026
Figure 0007493411000026

正規直交基底eが張る3次元空間において、現在着目している耳に対する、音源の放射方向を示すベクトルは、前記の式(10)で表わされる。 In the three-dimensional space spanned by the orthonormal basis e, the vector indicating the radiation direction of the sound source with respect to the currently focused ear is expressed by the above equation (10).

Figure 0007493411000027
への正射影オペレーターを、下の式(14)とする。
Figure 0007493411000027
The orthogonal projection operator onto is expressed as equation (14) below.

Figure 0007493411000028
Figure 0007493411000028

Figure 0007493411000029
への、式(10)のベクトルの、正射影は、上の式(14)のオペレーターを用いて、下の式(15)のように表される。
Figure 0007493411000029
The orthogonal projection of the vector of equation (10) onto is expressed as equation (15) below using the operator of equation (14) above.

Figure 0007493411000030
Figure 0007493411000030

Figure 0007493411000031
を基準とした仰角
Figure 0007493411000032
は、下の式(16)で表わされる。
Figure 0007493411000031
Elevation angle based on
Figure 0007493411000032
is expressed by the following equation (16).

Figure 0007493411000033
Figure 0007493411000033

[3.音源の放射特性の選択:頭部を回折して耳に伝播する条件]
伝播経路が回折伝播であるか否かを判定するのは、伝播経路導出部である。伝播経路導出部が導出した経路に基づいて、音源からの放射方向を決定するのは音源放射方向決定部である。放射方向に基づいて、音源からの放射特性を決定(選択)するのは、音源放射特性選択部である。
[3. Selection of radiation characteristics of sound source: Conditions for sound to diffract through the head and propagate to the ears]
The propagation path derivation unit determines whether the propagation path is a diffraction propagation. The sound source radiation direction determination unit determines the radiation direction from the sound source based on the path derived by the propagation path derivation unit. The sound source radiation characteristic selection unit determines (selects) the radiation characteristic from the sound source based on the radiation direction.

バーチャル音響空間において、音源からリスナーの耳(左耳あるいは右耳)に、音波がリスナーの頭部を回折して伝播する条件は、音源からその耳が見通せない場合である。この場合を式で表わすと、下の式(17)の通りである。 In a virtual acoustic space, the condition for sound waves to diffract through the listener's head and propagate from a sound source to the listener's ear (left or right ear) is that the ear is not visible from the sound source. This can be expressed as equation (17) below.

Figure 0007493411000034
Figure 0007493411000034

図7は、バーチャル音響空間内の、リスナーの両耳の座標位置と、音源の座標位置とを含む平面Qを模式的に示す概略図である。なお、両耳の座標と、音源の座標は、次の通りである。 Figure 7 is a schematic diagram showing a plane Q including the coordinate positions of the listener's ears and the coordinate position of the sound source in the virtual acoustic space. The coordinates of the ears and the sound source are as follows:

Figure 0007493411000035
の終点が両耳(それぞれ、左耳および右耳)の座標である。
Figure 0007493411000035
The end points of are the coordinates of both ears (left ear and right ear, respectively).

Figure 0007493411000036
の終点が音源の座標である。
Figure 0007493411000036
The end point of is the coordinate of the sound source.

平面Qにおいて、m,n>0の条件下で考える。 Consider the condition m, n>0 in plane Q.

Figure 0007493411000037
はベクトルであり、下の式(18)、式(19)、式(20)を満たす。なお、式(19)および式(20)の左辺の演算子「<|>」は、ベクトルの内積をとる演算を表す。
Figure 0007493411000037
is a vector and satisfies the following formulas (18), (19), and (20). Note that the operator "<|>" on the left side of formulas (19) and (20) represents an operation for taking an inner product of vectors.

Figure 0007493411000038
Figure 0007493411000038

Figure 0007493411000039
Figure 0007493411000039

Figure 0007493411000040
Figure 0007493411000040

Figure 0007493411000041
は、リスナーの頭部に対応する球面上の一点の位置ベクトルであり、この点は平面Qに属する。音源から、直線による伝播で当該球面上の一点に到達し、その点から球面にそって回折して右耳(この例では右耳に着目)に至る経路は多数存在するが、それらの経路のうちの長さが最短となる経路において上記のように「直線による伝播で当該球面上の一点に到達」するときのその点の位置ベクトルが
Figure 0007493411000042
である。
Figure 0007493411000041
is the position vector of a point on the sphere corresponding to the listener's head, and this point belongs to plane Q. There are many paths from the sound source that reach a point on the sphere by propagation in a straight line, and then diffract along the sphere to the right ear (in this example, the right ear is the focus). Among these paths, the position vector of the point when "reaching a point on the sphere by propagation in a straight line" as described above is the shortest path.
Figure 0007493411000042
It is.

Figure 0007493411000043
の終点は、平面Qにおける、音源から放射された音波の伝播方向を表す直線(頭部表面の円と接する直線)と頭部表面との接点である。このとき、音源から着目している側の耳(ここでは右耳)に最初に到達する音波は、音源から、下の式(21)で表わす方向に放射される音波である。
Figure 0007493411000043
The end point of is the tangent point of the head surface with a straight line (a straight line tangent to a circle on the head surface) representing the propagation direction of the sound wave radiated from the sound source on plane Q. In this case, the sound wave that first reaches the ear on the side of interest (the right ear in this case) from the sound source is the sound wave radiated from the sound source in the direction expressed by the following equation (21).

Figure 0007493411000044
Figure 0007493411000044

この音波は、頭部表面の上記接点の位置に到達した後は、頭部表面を回折して、着目している耳(ここでは右耳)に到達する。この音波は、音源の放射特性における、下の式(22)で表わされる方向の成分である。 After reaching the contact point on the head surface, the sound wave is diffracted on the head surface and reaches the ear of interest (the right ear in this case). This sound wave is the component in the radiation characteristics of the sound source in the direction expressed by the following equation (22).

Figure 0007493411000045
Figure 0007493411000045

Figure 0007493411000046
への正射影オペレーターを、下の式(23)とする。
Figure 0007493411000046
The orthogonal projection operator onto is expressed as equation (23) below.

Figure 0007493411000047
Figure 0007493411000047

Figure 0007493411000048
への、式(22)のベクトル(音源の放射方向を示すベクトル)の、正射影は、上の式(23)のオペレーターを用いて、下の式(24)のように表される。
Figure 0007493411000048
The orthogonal projection of the vector of equation (22) (vector indicating the radiation direction of the sound source) onto is expressed as equation (24) below using the operator of equation (23) above.

Figure 0007493411000049
Figure 0007493411000049

Figure 0007493411000050
を基準とした方位角
Figure 0007493411000051
は、下の式(25)で表わされる。
Figure 0007493411000050
Azimuth angle based on
Figure 0007493411000051
is expressed by the following equation (25).

Figure 0007493411000052
Figure 0007493411000052

正規直交基底eが張る3次元空間における、式(22)で表わされるベクトル(音源の放射方向を示すベクトル)の、正射影を考える。 Consider the orthogonal projection of the vector expressed by equation (22) (the vector indicating the radiation direction of the sound source) in the three-dimensional space spanned by the orthonormal basis e.

Figure 0007493411000053
への正射影オペレーターを、下の式(26)とする。
Figure 0007493411000053
The orthogonal projection operator onto is expressed as equation (26) below.

Figure 0007493411000054
Figure 0007493411000054

Figure 0007493411000055
への、式(22)のベクトルの、正射影は、上の式(26)のオペレーターを用いて、下の式(27)のように表される。
Figure 0007493411000055
The orthogonal projection of the vector of equation (22) onto is expressed as equation (27) below using the operator of equation (26) above.

Figure 0007493411000056
Figure 0007493411000056

Figure 0007493411000057
を基準とした仰角
Figure 0007493411000058
は、下の式(28)で表わされる。
Figure 0007493411000057
Elevation angle based on
Figure 0007493411000058
is expressed by the following equation (28).

Figure 0007493411000059
Figure 0007493411000059

[4.頭部伝達関数の選択]
採用される頭部伝達関数は、リスナーと音源との位置関係から、正規直交基底eが張る3次元空間において式(29)のベクトルが示す方向に対応する伝達関数である。なお、ここでは、頭部伝達関数データベース31に合わせて、ベクトルが示す方向を定めている。
4. Selection of Head-Related Transfer Function
The head-related transfer function employed is a transfer function that corresponds to the direction indicated by the vector of Equation (29) in the three-dimensional space spanned by the orthonormal base e based on the positional relationship between the listener and the sound source. Note that the direction indicated by the vector is determined in accordance with the head-related transfer function database 31.

Figure 0007493411000060
Figure 0007493411000060

以下では、上の式(29)で表わされるベクトルの、極座標表示における、方位角φincおよび仰角θincを、それぞれ導出する。 In the following, the azimuth angle φ inc and the elevation angle θ inc in polar coordinates of the vector expressed by the above equation (29) will be derived.

Figure 0007493411000061
への正射影オペレーターを、下の式(30)とする。
Figure 0007493411000061
The orthogonal projection operator onto is expressed as the following equation (30).

Figure 0007493411000062
Figure 0007493411000062

Figure 0007493411000063
への、式(29)のベクトルの正射影は、上の式(30)のオペレーターを用いて、下の式(31)のように表される。
Figure 0007493411000063
The orthogonal projection of the vector of equation (29) onto is expressed as equation (31) below using the operator of equation (30) above.

Figure 0007493411000064
Figure 0007493411000064

Figure 0007493411000065
を基準とした方位角φincは、下の式(32)で表わされる。
Figure 0007493411000065
The azimuth angle φ inc based on is expressed by the following equation (32).

Figure 0007493411000066
Figure 0007493411000066

Figure 0007493411000067
への正射影オペレーターを、下の式(33)とする。
Figure 0007493411000067
The orthogonal projection operator onto is expressed as the following equation (33).

Figure 0007493411000068
Figure 0007493411000068

Figure 0007493411000069
への、式(29)のベクトルの正射影は、上の式(33)のオペレーターを用いて、下の式(34)のように表される。
Figure 0007493411000069
The orthogonal projection of the vector of equation (29) onto is expressed as equation (34) below using the operator of equation (33) above.

Figure 0007493411000070
Figure 0007493411000070

Figure 0007493411000071
を基準とした仰角θincは、下の式(35)で表わされる。
Figure 0007493411000071
The elevation angle θ inc based on is expressed by the following equation (35).

Figure 0007493411000072
Figure 0007493411000072

[5.バイノーラル再生信号の生成]
以下では、音源から耳までの最短経路のみを考慮する場合と、音源から耳までの最短経路以外を考慮する場合とのそれぞれについて、バイノーラル再生信号の生成方法を説明する。
5. Generation of binaural playback signals
In the following, a method of generating a binaural reproduction signal will be described for both a case in which only the shortest path from the sound source to the ears is taken into consideration, and a case in which paths other than the shortest path from the sound source to the ears are taken into consideration.

まず、最短経路のみを考慮する場合について説明する。 First, we will explain the case where only the shortest route is considered.

音源から耳に直接伝播する条件において、再生信号の角周波数ωの成分は、下の式(36)で表わされる。なお、方位角φ、仰角θ、角周波数ωに対応する頭部伝達関数をH(φ,θ,ω)とする。また、方位角φ、仰角θの方向に向かって音源からの距離dの位置に放射される音声信号をS(d,φ,θ,ω)とする。 Under conditions where sound propagates directly from the sound source to the ear, the angular frequency ω component of the playback signal is expressed by the following equation (36). Note that the head-related transfer function corresponding to the azimuth angle φ, elevation angle θ, and angular frequency ω is defined as H(φ, θ, ω). Also, the audio signal radiated in the direction of the azimuth angle φ and elevation angle θ at a position at a distance d from the sound source is defined as S(d, φ, θ, ω).

Figure 0007493411000073
Figure 0007493411000073

Figure 0007493411000074
は、直接伝播する条件における再生信号の角周波数ωの成分である。
Figure 0007493411000074
is the angular frequency ω component of the read signal under direct propagation conditions.

上の式(36)が表す信号は、片側の耳に着目したものであり、1チャンネル分(その耳に対応する分の信号)である。 The signal represented by the above equation (36) focuses on one ear and is one channel (the signal corresponding to that ear).

音源から耳に回折伝播する条件においては、再生信号の角周波数ωの成分は、下の式(37)に表す通りである。 Under conditions where sound is diffracted and propagated from the sound source to the ear, the angular frequency ω component of the playback signal is expressed by equation (37) below.

Figure 0007493411000075
Figure 0007493411000075

Figure 0007493411000076
は、回折伝播する条件における再生信号の角周波数ωの成分である。
Figure 0007493411000076
is the angular frequency ω component of the reproduced signal under the condition of diffraction and propagation.

ここで、片方の耳には直接伝播、他方の耳には回折伝播であるときの、2チャンネル分の(即ち両耳の)バイノーラル再生信号を求める。例えば、左耳が直接伝播の条件、右耳が回折伝播の条件にあたる場合(左右逆の場合でも本質的には同様)、2チャンネル分のバイノーラル再生信号B(ω)は、下の式(38)で表わされる。 Here, we calculate the binaural playback signal for two channels (i.e., both ears) when one ear is in direct propagation and the other ear is in diffracted propagation. For example, when the left ear is in direct propagation condition and the right ear is in diffracted propagation condition (essentially the same even when the left and right are reversed), the binaural playback signal B(ω) for two channels is expressed by the following equation (38).

Figure 0007493411000077
Figure 0007493411000077

両耳とも回折伝播の条件にあたる場合には、2チャンネル分のバイノーラル再生信号B(ω)は、下の式(39)で表わされる。 When the diffraction propagation conditions are met for both ears, the binaural playback signal B(ω) for two channels is expressed by the following equation (39).

Figure 0007493411000078
Figure 0007493411000078

なお、上では頭部伝達関数をH(φ,θ,ω)としたが、音源からリスナーまでの距離dをさらに引数として、頭部伝達関数をH(d,φ,θ,ω)などとしてもよい。 Note that, although the head-related transfer function is H(φ, θ, ω) above, the distance d from the sound source to the listener can also be used as an additional argument, and the head-related transfer function can be H(d, φ, θ, ω), etc.

次に、音源から耳までの最短経路以外をも考慮する場合について説明する。つまり、ここでは、音源から放射される音波のうち、最短経路の方向以外の方向に放射された音波の寄与を考慮する。 Next, we will explain the case where paths other than the shortest path from the sound source to the ear are also taken into consideration. In other words, here we consider the contribution of sound waves emitted from the sound source in directions other than the shortest path.

つまり、音源から任意の方向に放射された音波が、音源から着目する耳に直接伝播する場合および回折伝播する場合のそれぞれについて、下の式(40)および式(41)で、再生信号の角周波数ωの成分を表すことができる。 In other words, when a sound wave is emitted from a sound source in an arbitrary direction and propagates directly from the sound source to the ear of interest, and when it propagates by diffraction, the angular frequency ω component of the playback signal can be expressed by the following equations (40) and (41), respectively.

Figure 0007493411000079
Figure 0007493411000079

Figure 0007493411000080
Figure 0007493411000080

ただし、式(40)および式(41)に関して、次の通りである。φradおよびθradは、音源からの音波の放射方向(それぞれ、方位角および仰角)である。 With respect to equations (40) and (41), it is as follows: φ rad and θ rad are the radiation directions (azimuth and elevation angles, respectively) of the sound wave from the sound source.

Figure 0007493411000081
は、着目している耳への最短経路の方向(それぞれ、直接伝播の条件の場合と回折伝播の条件の場合の、方位角および仰角)である。
Figure 0007493411000081
are the directions of the shortest paths to the ear under consideration (azimuth and elevation angles for direct and diffractive propagation conditions, respectively).

φincおよびθincは、音源から頭部中心への方向(方位角および仰角)である。 φ inc and θ inc are the directions (azimuth and elevation) from the sound source to the center of the head.

Figure 0007493411000082
は、直接伝播の条件にあたる場合の重み付け係数である。即ち、直接伝播に係る重み付け係数は、音源からの音波の放射方向、音源から着目している耳への最短経路の方向、および音源から頭部中心への方向に対応して定まる。従って、式(40)は、各耳に伝播する再生信号の各周波数ωの成分を、直接伝播に係る最短経路の成分(以下、直接最短経路成分)と、最短経路以外の放射方向の成分(以下、非直接最短経路成分)を合成して得られることを示す。直接最短経路成分は、音源から頭部中心への方向の伝達関数を、音源から着目している耳への最短経路の方向への音響特性を有する音声信号の周波数成分に作用、つまり乗算して得られる。非直接最短経路成分は、音源から頭部中心への方向の伝達関数に、音源から着目している耳への音源の放射方向ごとの音響特性を有する音声信号の周波数成分と直接伝播における重み係数との乗算値の放射方向間の総和、つまり加重和となる。
Figure 0007493411000082
is a weighting coefficient when the condition of direct propagation is met. That is, the weighting coefficient related to direct propagation is determined in accordance with the radiation direction of the sound wave from the sound source, the direction of the shortest path from the sound source to the ear of interest, and the direction from the sound source to the head center. Therefore, formula (40) indicates that the component of each frequency ω of the reproduction signal propagating to each ear is obtained by combining the component of the shortest path related to direct propagation (hereinafter, direct shortest path component) and the component of the radiation direction other than the shortest path (hereinafter, non-direct shortest path component). The direct shortest path component is obtained by acting on, that is, multiplying, the frequency component of the audio signal having the acoustic characteristics in the direction of the shortest path from the sound source to the ear of interest by the transfer function in the direction from the sound source to the head center. The non-direct shortest path component is the sum between the radiation directions of the multiplication values of the frequency component of the audio signal having the acoustic characteristics for each radiation direction of the sound source from the sound source to the ear of interest and the weighting coefficient in direct propagation, that is, the weighted sum, of the transfer function in the direction from the sound source to the head center.

Figure 0007493411000083
は、回折伝播の条件にあたる場合の重み付け係数である。即ち、回折伝播に係る重み付け係数は、音源からの音波の放射方向、音源から着目している耳への最短経路の方向および音源から頭部中心への方向に対応して定まる。従って、式(41)は、各耳に伝播する再生信号の各周波数ωの成分を、回折伝播に係る最短経路の成分(以下、回折最短経路成分)と、最短経路以外の放射方向の成分(以下、非回折最短経路成分)を合成して得られることを示す。回折最短経路成分は、音源から頭部中心への方向の伝達関数を、音源から着目している耳への回折伝播に係る最短経路の方向への音響特性を有する音声信号周波数成分に作用、つまり、乗算して得られる。非回折最短経路成分は、音源から頭部中心への方向の伝達関数に、音源から着目している耳への音源の放射方向ごとの音響特性を有する音声信号の周波数成分と回折伝播における重み係数との加重和となる。
Figure 0007493411000083
is a weighting coefficient when the condition of diffraction propagation is met. That is, the weighting coefficient related to diffraction propagation is determined in accordance with the radiation direction of the sound wave from the sound source, the direction of the shortest path from the sound source to the ear of interest, and the direction from the sound source to the head center. Therefore, equation (41) indicates that the component of each frequency ω of the reproduction signal propagating to each ear is obtained by combining the component of the shortest path related to diffraction propagation (hereinafter, the diffraction shortest path component) and the component in the radiation direction other than the shortest path (hereinafter, the non-diffraction shortest path component). The diffraction shortest path component is obtained by acting on, that is, multiplying, the transfer function in the direction from the sound source to the head center on the sound signal frequency component having the acoustic characteristics in the direction of the shortest path related to diffraction propagation from the sound source to the ear of interest. The non-diffraction shortest path component is the weighted sum of the transfer function in the direction from the sound source to the head center, the frequency component of the sound signal having the acoustic characteristics for each radiation direction of the sound source from the sound source to the ear of interest, and the weighting coefficient in diffraction propagation.

ただし、これらの重み付け係数を、解析的に決定することは困難である。放射方向別に重み付けした音源の信号を、任意の重み付けで任意の個数(方向分)加えてもよい。バイノーラル信号生成部には、直接伝播、回折伝播のそれぞれについて、音源からの音波の放射方向、音源から着目している耳への最短経路の方向および音源から頭部中心への方向の組ごとに重み付け係数を予め設定しておいてもよい。バイノーラル信号生成部は、設定しておいた重み係数から、音源からの音波の放射方向、音源から着目している耳への最短経路の方向および音源から頭部中心への方向に対応する重み係数を選択することができる。 However, it is difficult to determine these weighting coefficients analytically. Any number (for directions) of sound source signals weighted by radiation direction may be added with any weighting. The binaural signal generation unit may preset weighting coefficients for each set of the radiation direction of sound waves from the sound source, the direction of the shortest path from the sound source to the ear of interest, and the direction from the sound source to the center of the head for each of direct propagation and diffractive propagation. From the weighting coefficients that have been set, the binaural signal generation unit can select weighting coefficients that correspond to the radiation direction of sound waves from the sound source, the direction of the shortest path from the sound source to the ear of interest, and the direction from the sound source to the center of the head.

なお、音源からの方向を示すφradおよびθradの範囲および分解能(サンプリングの細かさ)については、適宜自由に決めることができるようにする。 The range and resolution (sampling fineness) of φ rad and θ rad , which indicate the direction from the sound source, can be freely determined as appropriate.

バイノーラル信号生成部は、上記の式(40)および式(41)により、バイノーラル信号を導出することができる。バイノーラル信号の導出については、式(38)および式(39)を参照。 The binaural signal generating unit can derive the binaural signal by the above formulas (40) and (41). For the derivation of the binaural signal, see formulas (38) and (39).

なお、上述した実施形態におけるバイノーラル再生装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 At least some of the functions of the binaural playback device in the above-mentioned embodiment can be realized by a computer. In that case, a program for realizing this function may be recorded in a computer-readable recording medium, and the program recorded in the recording medium may be read into a computer system and executed to realize the function. Note that the term "computer system" here includes hardware such as an OS and peripheral devices. Furthermore, the term "computer-readable recording medium" refers to portable media such as flexible disks, optical magnetic disks, ROMs, CD-ROMs, DVD-ROMs, and USB memories, and storage devices such as hard disks built into computer systems. Furthermore, the term "computer-readable recording medium" may also include devices that temporarily and dynamically hold a program, such as a communication line when a program is transmitted via a network such as the Internet or a communication line such as a telephone line, and devices that hold a program for a certain period of time, such as a volatile memory inside a computer system that is a server or client in such a case. Furthermore, the above-mentioned program may be for realizing some of the above-mentioned functions, and may further be capable of realizing the above-mentioned functions in combination with a program already recorded in the computer system.

以上説明した実施形態におけるオプションや、変形例について、次に説明する。組み合わせることができる限りにおいて、複数のオプションあるいは変形例を組み合わせて実施してよい。 The options and variations of the embodiment described above will be explained below. Multiple options or variations may be combined to the extent that they can be combined.

(1)実施形態で説明したように、音源データベース24は、照会される引数に応じた音源の音響特性を有する音声信号のデータを応答するものである。このときの引数としては、φ(方位角)、θ(仰角)、ω(周波数(または角周波数))が必須であるが、r(距離)はオプションとしてよい。つまり、音源データベース24は、距離rに応じた音声信号のデータを保持または生成してもよいし、距離rに依存しない音声信号のデータを保持または生成してもよい。左耳用音源放射方向決定部21や右耳用音源放射方向決定部22は、音源からの放射方向および周波数を必須の引数として、音源データベース24に格納されている音声信号を選択する。このとき左耳用音源放射方向決定部21や右耳用音源放射方向決定部22が、音源データベース24に、距離(r)を引数として渡すようにしても良いし、渡さないようにしても良い。言い換えれば、左耳用音源放射方向決定部21や右耳用音源放射方向決定部22は、距離に依存した音響特性を有する音声信号を選択してもよいし、距離に依存しない音響特性を有する音声信号を選択してもよい。なお、距離は、リスナーの座標と、音源の座標とから算出可能である。リスナーの座標とは、頭部中心の座標、左耳の座標、右耳の座標、あるいは回折伝播の場合の音波の頭部表面への到達点(図7に示した円と直線との接点)の座標等のいずれかであってよい。 (1) As described in the embodiment, the sound source database 24 responds with data of a sound signal having the acoustic characteristics of a sound source according to the queried argument. In this case, φ (azimuth angle), θ (elevation angle), and ω (frequency (or angular frequency)) are required as arguments, but r (distance) may be optional. In other words, the sound source database 24 may hold or generate data of a sound signal according to the distance r, or may hold or generate data of a sound signal that is independent of the distance r. The left ear sound source radiation direction determination unit 21 and the right ear sound source radiation direction determination unit 22 select a sound signal stored in the sound source database 24 using the radiation direction and frequency from the sound source as required arguments. In this case, the left ear sound source radiation direction determination unit 21 and the right ear sound source radiation direction determination unit 22 may or may not pass the distance (r) as an argument to the sound source database 24. In other words, the left-ear sound source radiation direction determining unit 21 and the right-ear sound source radiation direction determining unit 22 may select an audio signal having acoustic characteristics that depend on distance, or may select an audio signal having acoustic characteristics that do not depend on distance. The distance can be calculated from the listener's coordinates and the sound source's coordinates. The listener's coordinates may be the coordinates of the head center, the coordinates of the left ear, the coordinates of the right ear, or the coordinates of the arrival point of the sound wave on the head surface in the case of diffraction propagation (the tangent point of the circle and the straight line shown in FIG. 7), etc.

上記の距離(r)は、音源からリスナーへの距離である。この距離は、音源から着目する耳までの直線距離であってよい。回折伝播の場合には、この距離は、音源から最初に到達するリスナーの頭部表面の点までの距離であってよい。回折伝播の場合には、この距離は、回折する際の経路をも含む全体的な経路の長さであってもよい。この距離は、音源からリスナーの頭部中心までの距離等で近似されてもよい。 The distance (r) above is the distance from the sound source to the listener. This distance may be the straight-line distance from the sound source to the ear of interest. In the case of diffraction propagation, this distance may be the distance from the sound source to the point on the surface of the listener's head that is first reached. In the case of diffraction propagation, this distance may be the length of the entire path, including the path taken when the sound is diffracted. This distance may be approximated by the distance from the sound source to the center of the listener's head, etc.

(2)また、頭部伝達関数選択部32が、頭部伝達関数データベース31から頭部伝達関数を選択する場合にも、距離に依存して頭部伝達関数を選択するようにしてもよいし、距離に依存しない頭部伝達関数を選択するようにしてもよい。 (2) Also, when the head-related transfer function selection unit 32 selects a head-related transfer function from the head-related transfer function database 31, the head-related transfer function may be selected depending on the distance, or may be selected to be independent of the distance.

(3)音響特性は、さらに、モーラ別、音素別、単音ごと、男女別、年齢別、楽器別、など、様々な場合分けに基づいて分類されてもよい。この場合、音源データベース24は、ここに列挙した場合ごとの音響特性を有する音声信号を保持する。左耳用音源放射方向決定部21や右耳用音源放射方向決定部22は、場合分けを行う場合のそれぞれの条件に応じた音響特性を有する音声信号を、音源データベース24から選択的に取得するようにする。 (3) The acoustic characteristics may be further classified based on various case classifications, such as by mora, by phoneme, by single note, by gender, by age, by instrument, etc. In this case, the sound source database 24 holds audio signals having the acoustic characteristics for each of the cases listed here. The left ear sound source radiation direction determination unit 21 and the right ear sound source radiation direction determination unit 22 selectively acquire from the sound source database 24 audio signals having acoustic characteristics according to each condition for the case classification.

上記(2)や(3)の変形例を実施する場合、次の通りである。音源データベース24は、方向だけではなく、音源からリスナーまでの距離と、音源から発せられる人声に含まれるモーラの種類と、音源から発せられる人声に含まれる音素の種類と、音源から発せられる人声を発した人の性別と、音源から発せられる人声を発した人の年齢別と、音源となる楽器の種類と、の少なくともいずれかにも応じた放射特性の情報を保持する。人声とは、人が発話して生じた音声のことを意味する。その場合には、音源は人となりうる。音源放射方向決定部(左耳用音源放射方向決定部21や右耳用音源放射方向決定部22)は、音源データベース24の構成に対応する引数を用いて音声信号の照会を行う。つまり、音源放射方向決定部は、方向だけではなく、音源からリスナーまでの距離と、音源から発せられる人声に含まれるモーラの種類と、音源から発せられる人声に含まれる音素の種類と、音源から発せられる人声を発した人の性別と、音源から発せられる人声を発した人の年齢別と、音源となる楽器の種類と、の少なくともいずれかにも応じた前記音源放射特性を有する音声信号を、音源データベース24から選択して取得する。音源放射方向決定部は、上記の照会のために必要な情報(モーラの種類、音素の種類、人声を発した人の性別、人声を発した人の年齢あるいは年齢層等、楽器の種類などといった情報)を、適宜取得してもよいし、予め設定させておいてもよい。音源放射方向決定部は、例えば、コンテンツのメタデータ等から上記の引数等のために必要な情報を取得してもよいし、予め設定させておいてもよい。 The above modified examples (2) and (3) are implemented as follows. The sound source database 24 holds information on radiation characteristics according to at least one of the following: not only the direction, but also the distance from the sound source to the listener, the type of mora contained in the human voice emitted from the sound source, the type of phoneme contained in the human voice emitted from the sound source, the gender of the person who emitted the human voice emitted from the sound source, the age of the person who emitted the human voice emitted from the sound source, and the type of musical instrument that serves as the sound source. Human voice means a voice produced by a person speaking. In that case, the sound source can be a person. The sound source radiation direction determination unit (the sound source radiation direction determination unit 21 for the left ear and the sound source radiation direction determination unit 22 for the right ear) queries the audio signal using an argument corresponding to the configuration of the sound source database 24. That is, the sound source radiation direction determination unit selects and acquires from the sound source database 24 an audio signal having the sound source radiation characteristics according to at least one of the following: not only the direction, but also the distance from the sound source to the listener, the type of mora contained in the voice emitted from the sound source, the type of phoneme contained in the voice emitted from the sound source, the gender of the person who emitted the voice from the sound source, the age category of the person who emitted the voice from the sound source, and the type of musical instrument that serves as the sound source. The sound source radiation direction determination unit may appropriately acquire information required for the above-mentioned inquiry (information such as the type of mora, the type of phoneme, the gender of the person who emitted the voice, the age or age group of the person who emitted the voice, the type of musical instrument, etc.), or may have it preset. The sound source radiation direction determination unit may acquire information required for the above-mentioned arguments, etc., from metadata of the content, for example, or may have it preset.

(4)再生信号の生成に際して、頭部伝達関数は一般に無響室での応答であるが、代わりに有響室における頭部インパルス応答であるバイノーラル室内インパルス応答(binaural room impulse response:BRIR)を用いても良い。この場合、頭部インパルス応答を予め測定し、頭部インパルス応答データベース(不図示)に記憶しておく。頭部インパルス応答は、有響室において測定されたものであってよい。頭部インパルス応答データベースは、頭部からの方向ごとの頭部インパルス応答を各耳について保持する。そして、頭部インパルス応答選択部(不図示)は、頭部あるいは耳に対して音波が到来する方向の左耳用頭部インパルス応答と右耳用頭部インパルス応答を、頭部インパルス応答データベースから選択する。バイノーラル信号生成部353(左耳用)あるいはバイノーラル信号生成部363(右耳用)は、実施形態に記載した左耳用頭部伝達関数と右耳用頭部伝達関数に代えて、上で選択された左耳用頭部インパルス応答と右耳用頭部インパルス応答を用いて、音源データベース24から出力された音声信号から、それぞれ左耳用再生信号と右耳用再生信号を生成する。 (4) When generating a playback signal, the head-related transfer function is generally a response in an anechoic chamber, but a binaural room impulse response (BRIR), which is a head impulse response in an anechoic chamber, may be used instead. In this case, the head impulse response is measured in advance and stored in a head impulse response database (not shown). The head impulse response may be measured in an anechoic chamber. The head impulse response database holds head impulse responses for each ear for each direction from the head. Then, a head impulse response selection unit (not shown) selects from the head impulse response database a head impulse response for the left ear and a head impulse response for the right ear in the direction from which sound waves arrive at the head or ear. The binaural signal generating unit 353 (for the left ear) or the binaural signal generating unit 363 (for the right ear) uses the head impulse response for the left ear and the head impulse response for the right ear selected above instead of the left ear head related transfer function and the right ear head related transfer function described in the embodiment, to generate a playback signal for the left ear and a playback signal for the right ear, respectively, from the audio signal output from the sound source database 24.

つまり、本変形例では、頭部伝達関数データベースに代わって、頭部インパルス応答データベースが存在する。頭部インパルス応答データベースは、リスナーの頭部中心からの方向に応じた頭部インパルス応答を保持するものである。頭部インパルス応答選択部は、頭部インパルス応答データベースから、特定の頭部インパルス応答を選択する。より具体的には、頭部インパルス応答選択部は、リスナーの頭部中心の位置と音源の位置とによって特定されるリスナーの頭部中心から音源への方向に基づいて、頭部インパルス応答データベースから頭部インパルス応答を選択する。そして、再生信号生成部は、音源の音声信号と、音声信号取得時の前記音源の位置および向きの情報と、音源データベースと、音源放射特性選択部が選択した放射特性と、頭部インパルス応答選択部が選択した頭部インパルス応答とに基づいて、着目している耳用の再生信号を生成する。つまり、本変形例では、再生信号生成部は、頭部伝達関数に代えて頭部インパルス応答を用いることによって、頭部およびその近傍での音響作用の結果である再生信号を生成する。 That is, in this modification, instead of the head transfer function database, there is a head impulse response database. The head impulse response database holds head impulse responses according to the direction from the center of the listener's head. The head impulse response selection unit selects a specific head impulse response from the head impulse response database. More specifically, the head impulse response selection unit selects a head impulse response from the head impulse response database based on the direction from the center of the listener's head to the sound source, which is specified by the position of the center of the listener's head and the position of the sound source. Then, the playback signal generation unit generates a playback signal for the ear of interest based on the audio signal of the sound source, information on the position and direction of the sound source at the time of acquiring the audio signal, the sound source database, the radiation characteristics selected by the sound source radiation characteristic selection unit, and the head impulse response selected by the head impulse response selection unit. That is, in this modification, the playback signal generation unit generates a playback signal that is the result of the acoustic action in and near the head by using the head impulse response instead of the head transfer function.

(5)頭部伝達関数と、頭部インパルス応答とは、いずれも、リスナーの頭部およびその近傍における音響的作用の結果を求めるためのものである。つまり、頭部伝達関数と頭部インパルス応答とを含んで、より一般的に、頭部およびその近傍における音響的作用を行うものを、頭部音響作用素と呼ぶことができる。頭部音響作用素データベース(頭部伝達関数データベースや頭部インパルス応答データベースを含む)は、少なくとも頭部からの方向に応じた頭部音響作用素を保持する。頭部音響作用素選択部(頭部伝達関数選択部や頭部インパルス応答選択部を含む)は、頭部から音源到来の方向に基づいて、特定の方向に応じた頭部音響作用素を、頭部音響作用素データベースから選択する。バイノーラル信号生成部353(左耳用)あるいはバイノーラル信号生成部363(右耳用)は、一般化すると、上で選択された頭部音響作用素を用いて、音源データベース24から出力された音声信号から、再生信号を生成する。 (5) Both the head-related transfer function and the head-impulse response are used to obtain the results of acoustic actions on the listener's head and in its vicinity. In other words, anything that performs an acoustic action on the head and its vicinity, including the head-related transfer function and the head-impulse response, can be more generally called a head-related acoustic operator. The head-related acoustic operator database (including the head-related transfer function database and the head-impulse response database) holds head-related acoustic operators corresponding to at least the direction from the head. The head-related acoustic operator selection unit (including the head-related transfer function selection unit and the head-impulse response selection unit) selects a head-related acoustic operator corresponding to a specific direction from the head-related acoustic operator database based on the direction of the sound source from the head. In general, the binaural signal generation unit 353 (for the left ear) or the binaural signal generation unit 363 (for the right ear) generates a playback signal from the sound signal output from the sound source database 24 using the head-related acoustic operator selected above.

(6)前述の通り、音源が複数の場合にも、バイノーラル再生装置1が再生信号を生成するように構成可能である。この場合、バイノーラル再生装置1は、複数の音源それぞれについて、前述の方法で再生信号を生成する。つまり、伝播経路導出部(左耳用伝播経路判定部19や右耳用伝播経路判定部20)は、各々の音源について伝播経路を導出する。音源放射方向決定部(左耳用音源放射方向決定部21や右耳用音源放射方向決定部22)は、各々の音源について放射方向を決定する。頭部伝達関数選択部は、各々の音源について頭部伝達関数データベース31から伝達関数を選択する。再生信号生成部(左耳用再生信号生成部35や右耳用再生信号生成部36)は、各々の音源について再生信号を生成する。 (6) As described above, the binaural playback device 1 can be configured to generate playback signals even when there are multiple sound sources. In this case, the binaural playback device 1 generates playback signals for each of the multiple sound sources by the method described above. That is, the propagation path derivation unit (the left ear propagation path determination unit 19 and the right ear propagation path determination unit 20) derives a propagation path for each sound source. The sound source radiation direction determination unit (the left ear sound source radiation direction determination unit 21 and the right ear sound source radiation direction determination unit 22) determines the radiation direction for each sound source. The head-related transfer function selection unit selects a transfer function from the head-related transfer function database 31 for each sound source. The playback signal generation unit (the left ear playback signal generation unit 35 and the right ear playback signal generation unit 36) generates a playback signal for each sound source.

(7)上記の音源が複数の場合において、再生信号生成部(左耳用再生信号生成部35や右耳用再生信号生成部36)は、各々の音源について生成した再生信号を重畳した重畳再生信号を生成して出力してよい。再生信号生成部は、例えば、すべての音源についてそれぞれ生成した再生信号を重畳した重畳再生信号を生成して出力することができる。また、音源情報取得部12は、1個または複数の音源のそれぞれについて、音源の種別と位置および向きの情報を取得してもよい。音源データベース24は、複数種別の音源のそれぞれについて、それぞれの種別の音源から放射される音声信号を保持または生成可能とする。音源データベースは、音源情報取得部12で取得された個々の音源の種別に対応する音声信号のうち、放射方向決定部により、その個々の音源について決定された放射方向に対応した音響特性を有する音声信号を再生信号生成部に出力する。個々の音源の種別として、上記(3)に記載の「場合」と同様の事項、例えば、モーラの種類、音素の種類、人声の性別、人声の年齢あるいは年齢層等、楽器の種類のいずれか、または、それらの組み合わせが指示されてもよい。 (7) In the case where there are multiple sound sources, the playback signal generating unit (left ear playback signal generating unit 35 and right ear playback signal generating unit 36) may generate and output a superimposed playback signal by superimposing the playback signals generated for each sound source. The playback signal generating unit may generate and output a superimposed playback signal by superimposing the playback signals generated for all sound sources, for example. The sound source information acquiring unit 12 may also acquire information on the type, position, and direction of the sound source for each of one or more sound sources. The sound source database 24 is capable of holding or generating audio signals emitted from each type of sound source for each of the multiple types of sound sources. The sound source database outputs to the playback signal generating unit, among the audio signals corresponding to the types of individual sound sources acquired by the sound source information acquiring unit 12, audio signals having acoustic characteristics corresponding to the radiation direction determined for each individual sound source by the radiation direction determining unit. The type of each sound source may be specified in the same manner as in the "case" described in (3) above, such as the type of mora, the type of phoneme, the gender of the voice, the age or age group of the voice, the type of instrument, or a combination of these.

(8)前述の通り、リスナーが複数の場合にも、バイノーラル再生装置1が各リスナー用の再生信号を生成するように構成可能である。この場合、バイノーラル再生装置1は、複数のリスナーのそれぞれについて、前述の方法で再生信号を生成する。バイノーラル再生装置1は、生成した各リスナー用の再生信号を、例えば各リスナー用のヘッドホン等(音声出力手段)に出力する。つまり、伝播経路導出部は、各々のリスナーについて伝播経路を導出する。音源放射方向決定部は、各々のリスナーについて放射方向を決定する。頭部伝達関数選択部は、各々のリスナーについて伝達関数を選択する。再生信号生成部は、各々のリスナーについて再生信号を生成する。このような構成により、バイノーラル再生装置1は、同一の音源(または音源集合)について、位置や姿勢等の異なる複数のリスナー用のバイノーラル再生の信号をそれぞれ生成することができる。 (8) As described above, even when there are multiple listeners, the binaural reproduction device 1 can be configured to generate a reproduction signal for each listener. In this case, the binaural reproduction device 1 generates a reproduction signal for each of the multiple listeners by the method described above. The binaural reproduction device 1 outputs the generated reproduction signal for each listener to, for example, headphones (audio output means) for each listener. That is, the propagation path derivation unit derives a propagation path for each listener. The sound source radiation direction determination unit determines the radiation direction for each listener. The head-related transfer function selection unit selects a transfer function for each listener. The reproduction signal generation unit generates a reproduction signal for each listener. With this configuration, the binaural reproduction device 1 can generate binaural reproduction signals for multiple listeners with different positions, postures, etc. for the same sound source (or a set of sound sources).

以上、この発明の実施形態およびオプションあるいは変形例について、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The above describes the embodiments and options or variations of this invention in detail with reference to the drawings, but the specific configuration is not limited to this embodiment and also includes designs that do not deviate from the gist of this invention.

本発明は、例えば、バイノーラル再生を行うための機器やプログラムに利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。 The present invention can be used, for example, in devices and programs for binaural playback. However, the scope of use of the present invention is not limited to the examples given here.

1 バイノーラル再生装置
11 リスナー情報取得部
12 音源情報取得部
15 リスナー頭部形状取得部
17 左耳座標取得部
18 右耳座標取得部
19 左耳用伝播経路判定部(伝播経路導出部)
20 右耳用伝播経路判定部(伝播経路導出部)
21 左耳用音源放射方向決定部(音源放射方向決定部)
22 右耳用音源放射方向決定部(音源放射方向決定部)
24 音源データベース
31 頭部伝達関数データベース
32 頭部伝達関数選択部
35 左耳用再生信号生成部(再生信号生成部)
36 右耳用再生信号生成部(再生信号生成部)
191 音源・頭部中心間距離算出部
192 左耳・頭部中心間距離算出部
193 左耳・音源間距離算出部
194 比較判定部
351 音声信号取得部
353 バイノーラル信号生成部
1 Binaural reproduction device 11 Listener information acquisition unit 12 Sound source information acquisition unit 15 Listener head shape acquisition unit 17 Left ear coordinate acquisition unit 18 Right ear coordinate acquisition unit 19 Left ear propagation path determination unit (propagation path derivation unit)
20 Right ear propagation path determination unit (propagation path derivation unit)
21 Left ear sound source radiation direction determination unit (sound source radiation direction determination unit)
22 Right ear sound source radiation direction determination unit (sound source radiation direction determination unit)
24 Sound source database 31 Head-related transfer function database 32 Head-related transfer function selection unit 35 Left-ear playback signal generation unit (playback signal generation unit)
36 Right ear reproduction signal generation unit (reproduction signal generation unit)
191 Sound source-head center distance calculation unit 192 Left ear-head center distance calculation unit 193 Left ear-sound source distance calculation unit 194 Comparison determination unit 351 Audio signal acquisition unit 353 Binaural signal generation unit

Claims (10)

リスナーの頭部中心からの方向に応じた伝達関数を保持する頭部伝達関数データベースと、
音源の位置と、前記リスナーの頭部形状と、前記リスナーの耳の位置とを基に、前記音源から前記耳への音の伝播経路を導出する伝播経路導出部と、
導出された前記伝播経路に基づいて、前記音源から前記耳への放射方向を決定する音源放射方向決定部と、
決定された前記放射方向に対応した音響特性を有する音声信号を出力する音源データベースと、
前記リスナーの頭部中心の位置と前記音源の位置とによって特定されるリスナーの頭部中心から音源への方向に基づいて、前記頭部伝達関数データベースから前記伝達関数を選択する頭部伝達関数選択部と、
出力された音声信号と、前記頭部伝達関数選択部が選択した前記伝達関数と、に基づいて、前記耳用の再生信号を生成する再生信号生成部と、
を具備するバイノーラル再生装置。
A head-related transfer function database that stores transfer functions according to directions from the center of the listener's head;
a propagation path derivation unit that derives a propagation path of sound from the sound source to the ears based on a position of a sound source, a head shape of the listener, and a position of the listener's ears;
a sound source radiation direction determination unit that determines a radiation direction from the sound source to the ear based on the derived propagation path;
a sound source database for outputting a sound signal having acoustic characteristics corresponding to the determined radiation direction;
a head-related transfer function selection unit that selects the transfer function from the head-related transfer function database based on a direction from a center of the head of the listener to a sound source, the direction being specified by a position of the center of the head of the listener and a position of the sound source;
a reproduction signal generating unit that generates a reproduction signal for the ear based on the output audio signal and the transfer function selected by the head-related transfer function selecting unit;
A binaural playback device comprising:
前記耳は、左耳と右耳とのそれぞれであり、
前記頭部伝達関数データベースは、前記左耳と前記右耳とのそれぞれの伝達関数を左耳用頭部伝達関数と右耳用頭部伝達関数として保持し、
前記伝播経路導出部は、前記音源から前記左耳と前記右耳への音のそれぞれの前記伝播経路を導出するものであり、
前記音源放射方向決定部は、前記音源から前記左耳と前記右耳とのそれぞれへの前記放射方向を決定するものであり、
前記音源データベースは、前記左耳への放射方向に対応した音響特性を有する音声信号を左耳用音声信号として選択し、前記右耳への放射方向に対応した音響特性を有する音声信号を右耳用音声信号として選択するものであり、
前記頭部伝達関数選択部は、前記音源への方向に対応する左耳用頭部伝達関数と右耳用頭部伝達関数を選択するものであり、
前記再生信号生成部は、前記左耳用音声信号と前記左耳用頭部伝達関数に基づいて左耳用の前記再生信号を生成し、前記右耳用音声信号と前記右耳用頭部伝達関数に基づいて右耳用の前記再生信号を生成するものである、
請求項1に記載のバイノーラル再生装置。
The ears are a left ear and a right ear,
the head-related transfer function database holds transfer functions of the left ear and the right ear as a left-ear head-related transfer function and a right-ear head-related transfer function,
the propagation path derivation unit derives the propagation paths of the sound from the sound source to the left ear and the right ear,
the sound source radiation direction determination unit determines the radiation direction from the sound source to each of the left ear and the right ear,
the sound source database selects an audio signal having acoustic characteristics corresponding to a radiation direction to the left ear as an audio signal for the left ear, and selects an audio signal having acoustic characteristics corresponding to a radiation direction to the right ear as an audio signal for the right ear,
the head-related transfer function selection unit selects a left-ear head-related transfer function and a right-ear head-related transfer function corresponding to a direction to the sound source,
the reproduction signal generation unit generates the reproduction signal for the left ear based on the left ear audio signal and the left ear head-related transfer function, and generates the reproduction signal for the right ear based on the right ear audio signal and the right ear head-related transfer function.
2. A binaural reproduction device according to claim 1.
前記音源は複数であり、
前記音源データベースは、各々の前記音源について前記音声信号を出力するものであり、
前記伝播経路導出部は、各々の前記音源について前記伝播経路を導出するものであり、
前記音源放射方向決定部は、各々の前記音源について前記放射方向を決定するものであり、
前記頭部伝達関数選択部は、各々の前記音源について前記頭部伝達関数データベースから前記伝達関数を選択するものであり、
前記再生信号生成部は、各々の前記音源について前記再生信号を生成するものである、
請求項1または2に記載のバイノーラル再生装置。
The sound sources are multiple,
the sound source database outputs the audio signal for each of the sound sources;
the propagation path derivation unit derives the propagation path for each of the sound sources,
the sound source radiation direction determination unit determines the radiation direction for each of the sound sources,
The head-related transfer function selection unit selects the transfer function from the head-related transfer function database for each of the sound sources,
The reproduction signal generating unit generates the reproduction signal for each of the sound sources.
3. A binaural reproduction device according to claim 1 or 2.
前記再生信号生成部は、各々の前記音源について生成した前記再生信号を重畳した重畳再生信号を生成するものである、
請求項3に記載のバイノーラル再生装置。
The reproduction signal generating unit generates a superimposed reproduction signal by superimposing the reproduction signals generated for the respective sound sources.
4. A binaural reproduction device according to claim 3.
前記リスナーは複数であり、
前記伝播経路導出部は、各々の前記リスナーについて前記伝播経路を導出するものであり、
前記音源放射方向決定部は、各々の前記リスナーについて前記放射方向を決定するものであり、
前記頭部伝達関数選択部は、各々の前記リスナーについて前記伝達関数を選択するものであり、
前記再生信号生成部は、各々の前記リスナーについて前記再生信号を生成するものである、
請求項1から4までのいずれか一項に記載のバイノーラル再生装置。
the listener is a plurality of listeners,
the propagation path derivation unit derives the propagation path for each of the listeners,
the sound source radiation direction determination unit determines the radiation direction for each of the listeners,
The head-related transfer function selection unit selects the transfer function for each of the listeners,
the reproduction signal generation unit generates the reproduction signal for each of the listeners;
A binaural reproduction device according to any one of claims 1 to 4.
前記音源データベースは、
前記音源から前記リスナーまでの距離と、
前記音源から発せられる人声に含まれるモーラの種類と、
前記音源から発せられる人声に含まれる音素の種類と、
前記音源から発生られる人声の性別と、
前記音源から発生られる人声の年齢別と、
前記音源の楽器の種類と、
の少なくともいずれかにも対応した前記音響特性を有する音声信号を保持し、
前記音源から前記リスナーまでの距離と、
前記音源から発せられる人声に含まれるモーラの種類と、
前記音源から発せられる人声に含まれる音素の種類と、
前記音源から発生られる人声の性別と、
前記音源から発生られる人声の年齢別と、
前記音源の楽器の種類と、
の少なくともいずれかにも対応した前記音響特性を有する音声信号を選択する、
請求項1から5までのいずれか一項に記載のバイノーラル再生装置。
The sound source database includes:
the distance from the sound source to the listener; and
A type of mora contained in the human voice emitted from the sound source;
types of phonemes contained in the human voice emitted from the sound source;
The gender of the voice generated by the sound source; and
Age classification of the voice generated from the sound source;
The type of musical instrument of the sound source;
and storing an audio signal having the acoustic characteristics corresponding to at least one of the above.
the distance from the sound source to the listener; and
A type of mora contained in the human voice emitted from the sound source;
types of phonemes contained in the human voice emitted from the sound source;
The gender of the voice generated by the sound source; and
Age classification of the voice generated from the sound source;
The type of musical instrument of the sound source;
Selecting an audio signal having the acoustic characteristics corresponding to at least one of the above.
A binaural reproduction device according to any one of claims 1 to 5.
前記伝播経路導出部は、前記音源から前記耳が見通せる場合には前記音源から前記耳への直接伝播が最短経路になる前記伝播経路を導出し、前記音源から前記耳が見通せない場合には前記音源から前記耳への頭部を回折する回折伝播が最短経路になる前記伝播経路を導出し、
前記音源放射方向決定部は、前記伝播経路が直接伝播によるものか回折伝播によるものかに応じた前記放射方向を決定する、
請求項1から6までのいずれか一項に記載のバイノーラル再生装置。
the propagation path derivation unit derives the propagation path in which direct propagation from the sound source to the ear is the shortest path when the ear is visible from the sound source, and in which diffracted propagation from the sound source to the ear through the head is the shortest path when the ear is not visible from the sound source,
The sound source radiation direction determination unit determines the radiation direction depending on whether the propagation path is due to direct propagation or due to diffractive propagation.
A binaural reproduction device according to any one of claims 1 to 6.
前記再生信号生成部は、
前記音源から前記耳に到来する音の成分のうち、前記最短経路の方向に係る最短経路成分と、前記最短経路の方向以外の放射方向に係る非最短経路成分を合成して当該耳の再生信号を生成するバイノーラル信号生成部を含み、
前記バイノーラル信号生成部は、
前記リスナーの頭部中心からの方向に応じた伝達関数を、前記最短経路の方向への音響特性を有する音声信号に作用して前記最短経路成分を生成し、
前記リスナーの頭部中心からの方向に応じた伝達関数を、前記最短経路以外の伝播経路の方向ごとに対応した音響特性を有する単一または複数の音声信号の当該伝播経路に係る重み係数に基づく加重和に作用して前記非最短経路成分を生成し、
前記重み係数は、前記音源からの音波の放射方向、前記最短経路の方向、および、前記音源から前記頭部中心への方向に対応して決定される
請求項7に記載のバイノーラル再生装置。
The reproduction signal generating unit
a binaural signal generator that generates a playback signal for the ear by synthesizing a shortest path component related to the shortest path direction and a non-shortest path component related to a radiation direction other than the shortest path direction, among components of the sound arriving at the ear from the sound source;
The binaural signal generating unit includes:
applying a transfer function according to a direction from the center of the head of the listener to an audio signal having acoustic characteristics in the direction of the shortest path to generate the shortest path component;
generating the non-shortest path components by applying a transfer function according to a direction from the center of the head of the listener to a weighted sum of a single or a plurality of sound signals having acoustic characteristics corresponding to each direction of a propagation path other than the shortest path, the weighted sum being based on a weighting coefficient related to the propagation path;
The binaural reproduction device according to claim 7 , wherein the weighting coefficients are determined in accordance with a radiation direction of a sound wave from the sound source, a direction of the shortest path, and a direction from the sound source to the center of the head.
リスナーの頭部中心からの方向に応じた頭部インパルス応答を保持する頭部インパルス応答データベースと、
音源の位置と、前記リスナーの頭部形状と、前記リスナーの耳の位置とを基に、前記音源から前記耳への音の伝播経路を導出する伝播経路導出部と、
導出された前記伝播経路に基づいて、前記音源から前記耳への放射方向を決定する音源放射方向決定部と、
決定された前記放射方向に対応した音響特性を有する音声信号を出力する音源データベースと、
前記リスナーの頭部中心の位置と前記音源の位置とによって特定されるリスナーの頭部中心から音源への方向に基づいて、前記頭部インパルス応答データベースから前記頭部インパルス応答を選択する頭部インパルス応答選択部と、
出力された音声信号と、前記頭部インパルス応答選択部が選択した前記頭部インパルス応答と、に基づいて、前記耳用の再生信号を生成する再生信号生成部と、
を具備するバイノーラル再生装置。
a head impulse response database that stores head impulse responses according to directions from the center of the listener's head;
a propagation path derivation unit that derives a propagation path of sound from the sound source to the ears based on a position of a sound source, a head shape of the listener, and a position of the listener's ears;
a sound source radiation direction determination unit that determines a radiation direction from the sound source to the ear based on the derived propagation path;
a sound source database for outputting a sound signal having acoustic characteristics corresponding to the determined radiation direction;
a head impulse response selection unit that selects the head impulse response from the head impulse response database based on a direction from a center of the listener's head to a sound source, the direction being specified by a position of the center of the listener's head and a position of the sound source;
a reproduction signal generating unit that generates a reproduction signal for the ear based on the output audio signal and the head impulse response selected by the head impulse response selecting unit;
A binaural playback device comprising:
コンピューターを、
請求項1から9までのいずれか一項に記載のバイノーラル再生装置、
として機能させるためのプログラム。
Computer,
A binaural reproduction device according to any one of claims 1 to 9,
A program to function as a
JP2020137979A 2020-08-18 2020-08-18 Binaural playback device and program Active JP7493411B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020137979A JP7493411B2 (en) 2020-08-18 2020-08-18 Binaural playback device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020137979A JP7493411B2 (en) 2020-08-18 2020-08-18 Binaural playback device and program

Publications (2)

Publication Number Publication Date
JP2022034267A JP2022034267A (en) 2022-03-03
JP7493411B2 true JP7493411B2 (en) 2024-05-31

Family

ID=80441976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020137979A Active JP7493411B2 (en) 2020-08-18 2020-08-18 Binaural playback device and program

Country Status (1)

Country Link
JP (1) JP7493411B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019204214A2 (en) 2018-04-16 2019-10-24 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for encoding and decoding of directional sound sources
WO2020255810A1 (en) 2019-06-21 2020-12-24 ソニー株式会社 Signal processing device and method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019204214A2 (en) 2018-04-16 2019-10-24 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for encoding and decoding of directional sound sources
WO2020255810A1 (en) 2019-06-21 2020-12-24 ソニー株式会社 Signal processing device and method, and program

Also Published As

Publication number Publication date
JP2022034267A (en) 2022-03-03

Similar Documents

Publication Publication Date Title
CN112567767B (en) Spatial audio for interactive audio environments
TWI713866B (en) Apparatus and method for generating an enhanced sound field description, computer program and storage medium
KR100964353B1 (en) Method for processing audio data and sound acquisition device therefor
US7215782B2 (en) Apparatus and method for producing virtual acoustic sound
US20180213309A1 (en) Spatial Audio Processing Apparatus
TW201939973A (en) Method for generating customized spatial audio with head tracking
Lokki et al. Creating interactive virtual auditory environments
US11863962B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
KR20220023348A (en) Signal processing apparatus and method, and program
KR20210101316A (en) Apparatus and method for playing a spatially extended sound source or an apparatus and method for generating a bit stream from a spatially extended sound source
Sakamoto et al. Sound-space recording and binaural presentation system based on a 252-channel microphone array
Pelzer et al. Auralization of a virtual orchestra using directivities of measured symphonic instruments
Iijima et al. Binaural rendering from microphone array signals of arbitrary geometry
Rabenstein et al. Sound field reproduction
Ifergan et al. On the selection of the number of beamformers in beamforming-based binaural reproduction
Guthrie Stage acoustics for musicians: A multidimensional approach using 3D ambisonic technology
JP7493411B2 (en) Binaural playback device and program
Vorländer Virtual acoustics: opportunities and limits of spatial sound reproduction
Zea Binaural In-Ear Monitoring of acoustic instruments in live music performance
Yagunova et al. Ambisonics and Sonic Simulation in Virtual Reality
WO2023085186A1 (en) Information processing device, information processing method, and information processing program
Duraiswami et al. Capturing and recreating auditory virtual reality
Geronazzo Sound Spatialization.
Zotkin et al. Signal processing for Audio HCI

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240521

R150 Certificate of patent or registration of utility model

Ref document number: 7493411

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150