JP2013110633A

JP2013110633A - トランスオーラルシステム

Info

Publication number: JP2013110633A
Application number: JP2011254913A
Authority: JP
Inventors: Sumitaka Sakauchi; 澄宇阪内; Kenta Niwa; 健太丹羽; Yoichi Haneda; 陽一羽田; Takuma Okamoto; 拓磨岡本; Yukio Iwatani; 幸雄岩谷; Yoichi Suzuki; 陽一鈴木
Original assignee: Tohoku University NUC; Nippon Telegraph and Telephone Corp
Current assignee: Tohoku University NUC; Nippon Telegraph and Telephone Corp
Priority date: 2011-11-22
Filing date: 2011-11-22
Publication date: 2013-06-06
Anticipated expiration: 2031-11-22
Also published as: JP5754595B2

Abstract

【課題】受聴者が煩わしく無く、しかも大きく動いてもバイノーラル信号を生成することが可能なトランスオーラルシステムを提供する。
【解決手段】顔画像情報から受聴者の顔の姿勢を解析して顔姿勢情報を得、音声信号に、顔姿勢情報に対応した頭部伝達関数を畳み込み右チャネルと左チャネルのバイノーラル信号を生成し、そのバイノーラル信号と顔姿勢情報を入力として、顔姿勢情報に対応させて３個以上のスピーカの中から選択された２個のそれぞれのスピーカから受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、上記バイノーラル信号から空間クロストーク成分を除去するフィルタリング処理を行う。そして、顔姿勢情報とクロストーク処理部の出力するバイノーラル信号を入力として、当該バイノーラル信号を３個以上のスピーカの中から隣り合う一組のスピーカを選択してそれぞれのスピーカに出力する。
【選択図】図１

Description

この発明は、通信・放送における音の再生時における受聴者の体勢の変化に対応可能なトランスオーラル（transaural）システムに関する。

トランスオーラルシステムとは、原音場で受聴者の両耳に達する信号と等価な信号を、再生音場内のスピーカによって受聴者の両耳に生成する方法を実現したシステムのことである。トランスオーラルシステムは、例えば、仮想世界の聴覚情報と現実世界における周囲の音とを重ね合わせて聞くことが可能であるため、バーチャルリアリティの分野で期待されている。

人間は音の到来方向や距離を知覚できる音像定位能力を有する。この能力は、音源から左右の耳に至る伝達関数（頭部伝達関数）を左右の音から推定することで、経験的に実現されている。頭部伝達関数をモノラル音源に畳み込み、両耳に入力すると、頭部伝達関数が示す音の位置から音像を与えることが可能となる。トランスオーラルシステムを実現する場合は、一方のスピーカからの音が両方の耳に届くため、スピーカから両耳までの伝達関数も考慮してクロストーク成分を除去する必要がある。

頭部の位置の変動に対応するトランスオーラルシステムとして、非特許文献１に開示されたものが知られている。図６に、非特許文献１のトランスオーラルシステム９００のシステム構成を示す。トランスオーラルシステム９００は、一対のスピーカ９１，９２と、センサ９３と、頭部位置検出部９４と、バイノーラル処理部９５と、クロストーク処理部９６と、Ｄ/Ａ変換器９７と、アンプ９８を具備する。

センサ９３は、一対のスピーカ９１，９２の正面に位置する受聴者の頭部に装着され、受聴者の頭部の位置の変化を検出する。センサ９３には、例えば、磁気センサが用いられて、３自由度の位置変化情報を出力する。

頭部位置検出部９４は、センサ９３の出力する位置変化情報から、一対のスピーカ９１，９２の正面から変化した頭部位置情報を検出する。バイノーラル処理部９５は、音声信号と頭部位置情報を入力として、音声信号（ディジタル信号）からバイノーラル信号を合成する。バイノーラル信号とは、ヘッドホンで聞いた時に立体的に聞こえる音信号であり、音声信号に、右側のスピーカから受聴者の右耳への頭部伝達関数と、左側のスピーカから受聴者の左耳への頭部伝達関数を畳み込んで合成した左右２チャンネルの信号である。頭部伝達関数は、一対のスピーカ９１，９２と受聴者のマネキン人形を、無響室内に図６に示す位置関係に配置して測定したスピーカ９１と９２と、マネキン人形の左右の耳の位置との間の伝達関数である。つまり、頭部伝達関数とは、残響の無い状態における右側スピーカと受聴者の右耳間、左側スピーカと受聴者の左耳間の伝達関数のことである。

よって、バイノーラル処理部９５は、内部に記憶している頭部位置情報に対応させて記憶されている複数の頭部伝達関数から、頭部位置情報に対応する頭部伝達関数を選択して音声信号に畳み込み、音声信号をスピーカ９１，９２の音があたかもヘッドホンで聴取したように聞こえるバイノーラル信号に合成するものである。

クロストーク処理部９６は、本来片方の耳だけに届くべき音が、もう一方の耳にも届いてしまう空間クロストークを除去する処理をおこなう。この空間クロストークは、バイノーラル信号の合成を阻害する。そこで、クロストーク処理部９６は、頭部位置情報によって変化するスピーカ９１から受聴者の左右耳間の伝達関数Ｇ_９１Ｌ（ω），Ｇ_９１Ｒ（ω）と、スピーカ９２から受聴者の左右耳間の伝達関数Ｇ_９２Ｌ（ω），Ｇ_９２Ｒ（ω）とによって発生するクロストークをキャンセルする。そのクロストークをキャンセルするフィルタＨ_ｉ（ω）構成を式（１）に示す。ｉはスピーカ番号を意味する。全ての伝達関数は、周波数領域で記述されている場合、複素数となる。

ここで、Ｈ_Ｒ（ω），Ｈ_Ｌ（ω）は頭部伝達関数である。

クロストーク成分がキャンセルされたバイノーラル信号は、Ｄ/Ａ変換器９７でアナログ信号に変換され、アンプ９８で増幅された後に一対のスピーカ９１，９２に供給される。

山本健一郎、苗村健、原島博、"３次元センサとトランスオーラル処理を用いた音像の定位"日本バーチャルリアリティ学会論文誌、５巻、３号、981-987頁、2000年.

しかし、従来の方法では、受聴者の頭部の位置を検出する目的でセンサ９３の装着が必要であり、煩わしいといった第一の課題がある。また、頭部位置が大きく動き、一対のスピーカ９１，９２の正面中央を基準にして、頭部が、例えばスピーカ９１の方向に６０度以上の角度、回転したとすると受聴者の外耳道入り口（以降、耳孔）は、スピーカ９２から見て受聴者の耳介の影になりスピーカ９２からの信号レベルが小さくなる。と共に、高い周波数でのゼロ点も急激に増加するため、クロストークキャンセラのフィルタ特性が不安定になる第二の課題がある。

この発明は、このような課題に鑑みてなされたものであり、受聴者に装着するセンサを不要とし、また、受聴者が大きく動いた場合にも、実世界と同じように受聴者の頭部の運動に影響されない絶対位置を有する音像を自然に聴取することができるトランスオーラルシステムを提供することを目的とする。

この発明のトランスオーラルシステムは、３個以上のスピーカと、撮像部と、顔姿勢解析部と、スピーカ選択部と、バイノーラル処理部と、クロストーク処理部と、スピーカ駆動部を具備する。３個以上のスピーカは、受聴者の頭部中心から等距離の位置に、放音側を受聴者に向けて配置され、２個を一組とする。撮像部は、受聴者の顔画像を撮影して顔画像情報を出力する。顔姿勢解析部は、撮像部が出力する顔画像情報から受聴者の顔の姿勢を解析して顔姿勢情報を出力する。スピーカ選択部は、顔姿勢情報を入力として、当該顔姿勢情報に対応させて上記３個以上のスピーカの中から隣り合う一組のスピーカを選択するスピーカ選択情報を出力する。バイノーラル処理部は、音声信号と上記顔姿勢情報と上記スピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカの右側のスピーカから上記受聴者の右耳までの頭部伝達関数と左側のスピーカから左耳までの頭部伝達関数を、上記音声信号に畳み込んで右チャネルと左チャネルのバイノーラル信号を出力する。クロストーク処理部は、バイノーラル信号と顔姿勢情報とスピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカから受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、左右２チャネルのバイノーラル信号から空間クロストーク成分を除去した左右２チャネルのスピーカ駆動信号を生成する。スピーカ駆動部は、スピーカ選択情報とスピーカ駆動信号を入力として、スピーカ選択情報に基づく一組のスピーカにスピーカ駆動信号を出力する。

この発明のトランスオーラルシステムによれば、受聴者の顔の姿勢を、撮像部が撮影する顔姿勢情報を解析して求めるので、従来技術のように受聴者の体に装着するセンサが不要である。また、受聴者の顔の姿勢に対応させて３個以上のスピーカの中から受聴者に対向する位置にある、つまり、受聴者の耳孔が受聴者の耳介の影にならない一組のスピーカが選択されるので、受聴者の顔の姿勢の大きな変化に対応することが可能なトランスオーラルシステムを提供することが可能になる。

この発明のトランスオーラルシステム１００の機能構成例を示す図。顔姿勢解析部２０の機能構成例を示す図。スピーカ選択部３０のスピーカ選択情報の一例を示す図。スピーカ駆動部４０の具体例を示す図。この発明のトランスオーラルシステム２００の機能構成例を示す図。従来のトランスオーラルシステム９００の機能構成を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには
同じ参照符号を付し、説明は繰り返さない。

図１に、この発明のトランスオーラルシステム１００の機能構成例を示す。３個以上のスピーカ１〜６と、撮像部１０と、顔姿勢解析部２０と、スピーカ選択部３０と、バイノーラル処理部９５と、クロストーク処理部９６と、Ｄ/Ａ変換器９７と、アンプ９８と、スピーカ駆動部４０を具備する。バイノーラル処理部９５と、クロストーク処理部９６と、Ｄ/Ａ変換器９７と、アンプ９８と、は参照符号から分かるように従来のトランスオーラルシステム９００と同じものである。なお、図１のスピーカ１〜６の配置は、受聴者の頭部を中心として平面的に見たものである。

３個以上のスピーカ１〜６は、受聴者の頭部中心から等距離の位置に、放音側を受聴者に向けて配置される。この例では、受聴者を中心として中心角度６０度毎の等距離の位置に、６個のスピーカ１〜６が配置されている。ステレオ再生においては、２つのスピーカと受聴者を正三角形の頂点に配置することが原則（例えば、参考文献「究極のサウンドを楽しむオーディオ入門マニュアル」、成美堂出版、1998年、p139）である。この実施例では受聴者を取り囲むように６個のスピーカ１〜６が配置されている。なお、スピーカ１〜６の鉛直方向の位置は、同一平面上に無くても良い。スピーカと受聴者間の伝達特性を測定した際の位置と一致していれば良い。スピーカと受聴者との距離は、スピーカの出力する音圧レベルに依存する。その距離は、概ね50ｃｍ〜５ｍ程度の範囲である。

トランスオーラルシステム１００としての最小の数のスピーカは、図１中に実線で示すように受聴者の正面に配置される２個のスピーカ１と６と、例えば、受聴者の左側方に配置されるスピーカ２の３個のスピーカで構成される。３個目のスピーカは、受聴者の右側方のスピーカ５であっても良い。スピーカの数が減ると、受聴者の姿勢の変化に対応できる範囲が狭くなる。

撮像部１０は、受聴者の顔画像を撮影して顔画像情報を出力する。撮像部１０は、例えば、ディジタルカメラを１秒間に１６回（16Hz）撮影した顔画像を出力する。撮像部１０は、デジタルビデオカメラであっても良い。また、３Ｄステレオカメラを用いても良い。

顔姿勢解析部２０は、その顔画像情報から受聴者の顔の姿勢を解析して顔姿勢情報を出力する。受聴者の顔の姿勢を解析する技術は数多く検討されており、この実施例ではその何れの技術を用いても良い。例えば、予め顔の方向を変えた画像を複数撮影しておき、その画像との一致具合を判定することで、顔姿勢情報を出力するようにしても良い。図２に、その手法に基づく顔姿勢解析部２０の機能構成例を示す。顔姿勢解析部２０は、顔姿勢判定部２１と、顔姿勢データ記憶部２２と、を具備する。顔姿勢データ記憶部２２には、受聴者の顔の方向を水平方向に一周した場合の所定の角度毎の顔の画像が予め記憶されている。顔姿勢判定部２１は、撮像部１０から入力される現在の顔画像情報と、顔姿勢データ記憶部２２に記憶されている顔の方向が既知の記憶画像と比較して、現在の顔画像情報に一番近い顔の方向を、顔姿勢情報として出力する。または、画像データを比較するのでは無く、顔のパーツの検出や、笑顔検出等で知られているように、顔画像データをパターン認識して顔の方向を、直接計算で求めるようにしても良い。顔姿勢情報は、例えば、受聴者の顔の向きを表す角度で与えられる。

スピーカ選択部３０は、顔姿勢情報を入力として、当該顔姿勢情報に対応させて３個以上のスピーカの中から隣り合う一組のスピーカを選択するスピーカ選択情報を出力する。図３に、スピーカ選択情報の一例を示す。左側の列の角度αは、受聴者の顔の向きを表す角度である。右側のスピーカの列中のＲ・Ｌの表記は、バイノーラル信号のチャネルを表す。

角度αは、スピーカ１と６の中心に受聴者の顔を向けたときの角度をα＝０°、時計方向に正（＋）の角度、反時計方向に負（−）の角度、と定義する。角度α＝０°の場合は、スピーカ１から左（Ｌ）チャネルのバイノーラル信号、スピーカ６から右（Ｒ）チャネルのバイノーラル信号が出力される。スピーカ選択部３０は、顔姿勢情報（角度α）を入力としたエンコーダー（encoder）である。

受聴者の顔が水平方向に＋６０度回転（α＝６０°）したと仮定すると、受聴者の左耳孔がスピーカ１から見て左耳の耳介の影に隠れる。そうすると、クロストーク処理部９６のフィルタリング処理の動作が不安定になるので、その場合、スピーカ１からの放音は遮断（×）され、スピーカ６から左（Ｌ）チャネルのバイノーラル信号、スピーカ５から右（Ｒ）チャネルのバイノーラル信号が出力されるようにスピーカが選択される。この結果、受聴者の両耳孔は、スピーカ６と５から見て受聴者の耳介に隠れることが無い。したがって、クロストーク処理部９６のフィルタリング処理の動作が安定して動作する。

更に、受聴者の顔が水平方向に＋６０度回転したα＝＋１２０°の場合は、スピーカ５から左（Ｌ）チャネル、スピーカ４から右（Ｒ）チャネルのバイノーラル信号が出力されるようにスピーカが選択される。顔姿勢情報に対応させて３個以上のスピーカ１〜６の中から隣り合う一組のスピーカが選択することで、受聴者が大きく顔の方向を変えても、その運動に影響されない絶対位置を有する音像を自然に提供することが可能になる。

なお、図３に示すように、０度と−３６０度、＋６０度と−３００度、＋１２０度と−２４０度、＋１８０度と−１８０度、＋２４０度と−１２０度、＋３００度と−６０度、におけるスピーカの組み合わせは同じ一組である。このように受聴者を中心として６０度の中心角度毎に６個のスピーカを配置した場合は、受聴者の顔の向きが３６０度、一周しても自然な音像を提供することが可能である。例えば、スピーカを６と１と２の３個とした場合は、受聴者の左右の耳孔が、スピーカから見て耳介の影にならない＋６０度〜−６０度の範囲で自然な音像を提供することができる。

バイノーラル処理部９５は、音声信号と顔姿勢情報とスピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカの右側のスピーカから受聴者の右耳までの頭部伝達関数と左側のスピーカから左耳までの頭部伝達関数を、音声信号に畳み込んで右チャネルと左チャネルのバイノーラル信号を出力する。バイノーラル処理部９５は、顔姿勢情報に対応する複数の頭部伝達関数を記憶している。その数は、例えば、顔姿勢データ記憶部２２に記憶された角度の数分である。または、顔姿勢情報が、例えば、１度ごとと、バイノーラル処理部９５が記憶した角度よりも細かい場合は、既存の補間技術を用いて補間して頭部伝達関数を求めるようにしても良い。角度情報が一致する頭部伝達関数が用意されていない場合は、その方向の最も近い両側の頭部伝達関数の重み平均値を計算して用いる。この頭部伝達関数を補間して求める考えは、クロストーク処理部９６における伝達関数にも適用できる。

クロストーク処理部９６は、バイノーラル信号と顔姿勢情報とスピーカ選択情報を入力として、当該スピーカ選択情報に基づく一組のスピーカから受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、左右２チャネルのバイノーラル信号から空間クロストーク成分を除去した左右２チャネルのスピーカ駆動信号を生成する。クロストーク処理部９６は、スピーカ選択情報に基づく一組のスピーカから受聴者の右耳と左耳までの伝達関数を用いて、左右２チャネルのバイノーラル信号から空間クロストーク成分を除去するフィルタリング処理を行う。スピーカ選択情報に対応した２個のそれぞれのスピーカから受聴者の右耳と左耳までの伝達関数は、予めクロストーク処理部９６に記憶されている。空間クロストーク成分を除去するフィルタリング処理そのものは、従来のトランスオーラルシステム９００と同じである。

スピーカ駆動部４０は、スピーカ選択情報とスピーカ駆動信号を入力として、スピーカ選択情報に基づく一組のスピーカに、スピーカ駆動信号を出力する。スピーカ駆動部４０は、図３に示した左右２チャネルのバイノーラル信号を各スピーカ１〜６に振り分ける動作を行う。

図４に、より具体的なスピーカ選択部４０の機能構成例を示す。スピーカ選択部４０は、スピーカ１〜６にそれぞれ接続される一対のリレー４１〜４６で構成される。一対のリレー４１は、アンプ９８で増幅された右（Ｒ）チャネルのバイノーラル信号と左（Ｌ）チャネルのバイノーラル信号とが、それぞれ一端に接続され、その他端にはスピーカ１が共に接続されるリレー４１_Ｒと４１_Ｌとを備える。一対のリレー４２〜４６もそれぞれスピーカ２〜６に接続され、その構成は一対のリレー４１と同じである。

リレー４１_Ｌとリレー４６_Ｒの制御端子には、スピーカ選択部３０の０（−３６０）出力端子が接続されている。スピーカ選択部３０の０（−３６０）出力端子は、顔姿勢解析部２０が出力する顔姿勢情報が表す顔の向きを表す角度αが、−６０°＜α＜６０°の範囲で“１”（論理レベル１）となる選択信号を出力する。０（−３６０）出力端子の選択信号が“１”になると、リレー４１_Ｌとリレー４６_Ｒとが導通状態となり、スピーカ１に左（Ｌ）チャネルのバイノーラル信号が供給され、スピーカ６に右（Ｒ）チャネルのバイノーラル信号が供給される。他のスピーカ２〜５へのバイノーラル信号の供給は遮断される。

スピーカ選択部３０の３００（−６０）出力端子は、リレー４１_Ｒとリレー４２_Ｌの制御端子に接続される。３００（−６０）出力端子は、角度αが、−１２０°＜α≦−６０°の範囲で“１”となるので、スピーカ１に右（Ｒ）チャネルのバイノーラル信号、スピーカ２に左（Ｌ）チャネルのバイノーラル信号が供給される。

表１に、角度αの角度範囲と、右（Ｒ）チャネルと左（Ｌ）チャネルのバイノーラル信号が供給されるスピーカ番号との関係を示す。

表１に示すように、顔姿勢情報（角度α）に対応させてバイノーラル信号を供給するスピーカを選択することで、受聴者の顔の向きが３６０度、一周しても受聴者の耳孔が耳介の影になら無いので自然な音像を提供することが可能になる。

トランスオーラルシステム１００は、撮像部１０で撮影した受聴者の顔画像から顔姿勢情報を求める第一の特徴と、その顔姿勢情報に基づいて３個以上のスピーカの中から２個のスピーカを選択する第二の特徴を有するものである。本願発明のトランスオーラルシステムは、第二の特徴のみを有する構成も考えられる。その構成のトランスオーラルシステム２００を次に説明する。

図５に、この発明のトランスオーラルシステム２００の機能構成例を示す。トランスオーラルシステム２００は、トランスオーラルシステム１００の撮像部１０と顔姿勢解析部２０に代えて、入力部５０を備える点で異なる。他の機能部の構成は、基本的に同じ考えで実現できる。

入力部５０は、外部から入力される受聴者の顔方向情報又は受聴者の両耳とスピーカとの相対的な位置情報を表す頭部位置情報を、バイノーラル処理部９５とクロストーク処理部９６とスピーカ選択部３０に出力する。受聴者の顔方向情報又は受聴者の両耳とスピーカとの相対的な位置情報を表す頭部位置情報は、上記した顔姿勢情報と同じ意味を持つ信号である。

例えば、トランスオーラルシステム２００の利用者が、受聴者の顔を目視で判断してスピーカに対する受聴者の頭部位置情報を、入力部５０に手入力しても良い。スピーカ選択部３０は、その頭部位置情報に基づいて一組のスピーカの選択を行うように構成しておく。バイノーラル処理部９５とクロストーク処理部９６も、頭部位置情報に基づいて頭部伝達関数と伝達関数を選択するように構成しておく。そうすることで、トランスオーラルシステム１００と同様に、受聴者が大きく顔の方向を変えてもその運動に影響されない絶対位置を有する音像を自然に提供することが可能である。

なお、バイノーラル処理部９５に入力される音声信号はディジタル信号の例で説明を行ったが、音声信号はアナログ信号でも良い。その場合、バイノーラル処理とクロストーク処理は、顔姿勢情報に対応した複数のアナログフィルタで実現される。音声信号がアナログ信号で与えられる場合は、Ｄ/Ａ変換器９７は不要である。また、バイノーラル信号の出力レベルが大きい場合には、アンプ９８も不要である。このように、Ｄ/Ａ変換器９７とアンプ９８は、本願発明を特徴付けるものではない。

なお、顔姿勢情報に基づいて一組のスピーカを選択するスピーカ選択部３０を、独立して具備する機能構成例で説明を行ったが、スピーカ選択部３０の機能を、バイノーラル処理部９５とクロストーク処理部９６とスピーカ駆動部４０にそれぞれに持たせても良い。その場合は、スピーカ選択部３０は不要である。このように、本願発明のトランスオーラルシステムは、上記した実施例の構成に限定されるものではない。
トランスオーラルシステム１００，２００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるように構成してもよい。

その場合、その処理内容を記述したプログラムは、コンピュータで読み取り可能な任意の記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリがある。より具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアとして実現することとしてもよい。

Claims

受聴者の頭部中心から等距離の位置に、放音側を受聴者に向けて配置される２個を一組とする３個以上のスピーカと、
上記受聴者の顔画像を撮影して顔画像情報を出力する撮像部と、
上記顔画像情報から上記受聴者の顔の姿勢を解析して顔姿勢情報を出力する顔姿勢解析部と、
上記顔姿勢情報を入力として、当該顔姿勢情報に対応させて上記３個以上のスピーカの中から隣り合う一組のスピーカを選択するスピーカ選択情報を出力するスピーカ選択部と、
音声信号と上記顔姿勢情報と上記スピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカの右側のスピーカから上記受聴者の右耳までの頭部伝達関数と左側のスピーカから左耳までの頭部伝達関数を、上記音声信号に畳み込んで右チャネルと左チャネルのバイノーラル信号を出力するバイノーラル処理部と、
上記バイノーラル信号と上記顔姿勢情報と上記スピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカから上記受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、上記左右２チャネルのバイノーラル信号から空間クロストーク成分を除去した左右２チャネルのスピーカ駆動信号を生成するクロストーク処理部と、
上記スピーカ選択情報と上記スピーカ駆動信号を入力として、上記スピーカ選択情報に基づく一組のスピーカに、上記スピーカ駆動信号を出力するスピーカ駆動部と、
を具備するトランスオーラルシステム。
受聴者の頭部から等距離の位置に、放音側を受聴者に向けて配置される２個を一組とする３個以上のスピーカと、
上記受聴者の顔方向又は上記受聴者の両耳と上記スピーカとの相対的な位置を表す頭部位置情報を入力する入力部と、
上記頭部位置情報を入力として、当該頭部位置情報に対応させて上記３個以上のスピーカの中から隣り合う一組のスピーカを選択するスピーカ選択情報を出力するスピーカ選択部と、
音声信号と上記頭部位置情報と上記スピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカカの右側のスピーカから上記受聴者の右耳までの頭部伝達関数と左側のスピーカから左耳までの頭部伝達関数を、上記音声信号に畳み込んで右チャネルと左チャネルのバイノーラル信号を出力するバイノーラル処理部と、
上記バイノーラル信号と上記頭部位置情報と上記スピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカから上記受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、上記左右２チャネルのバイノーラル信号から空間クロストーク成分を除去した左右２チャネルのスピーカ駆動信号を生成するクロストーク処理部と、
上記スピーカ選択情報と上記スピーカ駆動信号を入力として、上記スピーカ選択情報に基づく一組のスピーカに、上記スピーカ駆動信号を出力するスピーカ駆動部と、
を具備するトランスオーラルシステム。