JP2013110633A - トランスオーラルシステム - Google Patents

トランスオーラルシステム Download PDF

Info

Publication number
JP2013110633A
JP2013110633A JP2011254913A JP2011254913A JP2013110633A JP 2013110633 A JP2013110633 A JP 2013110633A JP 2011254913 A JP2011254913 A JP 2011254913A JP 2011254913 A JP2011254913 A JP 2011254913A JP 2013110633 A JP2013110633 A JP 2013110633A
Authority
JP
Japan
Prior art keywords
speaker
listener
speakers
information
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011254913A
Other languages
English (en)
Other versions
JP5754595B2 (ja
Inventor
Sumitaka Sakauchi
澄宇 阪内
Kenta Niwa
健太 丹羽
Yoichi Haneda
陽一 羽田
Takuma Okamoto
拓磨 岡本
Yukio Iwatani
幸雄 岩谷
Yoichi Suzuki
陽一 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, Nippon Telegraph and Telephone Corp filed Critical Tohoku University NUC
Priority to JP2011254913A priority Critical patent/JP5754595B2/ja
Publication of JP2013110633A publication Critical patent/JP2013110633A/ja
Application granted granted Critical
Publication of JP5754595B2 publication Critical patent/JP5754595B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

【課題】受聴者が煩わしく無く、しかも大きく動いてもバイノーラル信号を生成することが可能なトランスオーラルシステムを提供する。
【解決手段】顔画像情報から受聴者の顔の姿勢を解析して顔姿勢情報を得、音声信号に、顔姿勢情報に対応した頭部伝達関数を畳み込み右チャネルと左チャネルのバイノーラル信号を生成し、そのバイノーラル信号と顔姿勢情報を入力として、顔姿勢情報に対応させて3個以上のスピーカの中から選択された2個のそれぞれのスピーカから受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、上記バイノーラル信号から空間クロストーク成分を除去するフィルタリング処理を行う。そして、顔姿勢情報とクロストーク処理部の出力するバイノーラル信号を入力として、当該バイノーラル信号を3個以上のスピーカの中から隣り合う一組のスピーカを選択してそれぞれのスピーカに出力する。
【選択図】図1

Description

この発明は、通信・放送における音の再生時における受聴者の体勢の変化に対応可能なトランスオーラル(transaural)システムに関する。
トランスオーラルシステムとは、原音場で受聴者の両耳に達する信号と等価な信号を、再生音場内のスピーカによって受聴者の両耳に生成する方法を実現したシステムのことである。トランスオーラルシステムは、例えば、仮想世界の聴覚情報と現実世界における周囲の音とを重ね合わせて聞くことが可能であるため、バーチャルリアリティの分野で期待されている。
人間は音の到来方向や距離を知覚できる音像定位能力を有する。この能力は、音源から左右の耳に至る伝達関数(頭部伝達関数)を左右の音から推定することで、経験的に実現されている。頭部伝達関数をモノラル音源に畳み込み、両耳に入力すると、頭部伝達関数が示す音の位置から音像を与えることが可能となる。トランスオーラルシステムを実現する場合は、一方のスピーカからの音が両方の耳に届くため、スピーカから両耳までの伝達関数も考慮してクロストーク成分を除去する必要がある。
頭部の位置の変動に対応するトランスオーラルシステムとして、非特許文献1に開示されたものが知られている。図6に、非特許文献1のトランスオーラルシステム900のシステム構成を示す。トランスオーラルシステム900は、一対のスピーカ91,92と、センサ93と、頭部位置検出部94と、バイノーラル処理部95と、クロストーク処理部96と、D/A変換器97と、アンプ98を具備する。
センサ93は、一対のスピーカ91,92の正面に位置する受聴者の頭部に装着され、受聴者の頭部の位置の変化を検出する。センサ93には、例えば、磁気センサが用いられて、3自由度の位置変化情報を出力する。
頭部位置検出部94は、センサ93の出力する位置変化情報から、一対のスピーカ91,92の正面から変化した頭部位置情報を検出する。バイノーラル処理部95は、音声信号と頭部位置情報を入力として、音声信号(ディジタル信号)からバイノーラル信号を合成する。バイノーラル信号とは、ヘッドホンで聞いた時に立体的に聞こえる音信号であり、音声信号に、右側のスピーカから受聴者の右耳への頭部伝達関数と、左側のスピーカから受聴者の左耳への頭部伝達関数を畳み込んで合成した左右2チャンネルの信号である。頭部伝達関数は、一対のスピーカ91,92と受聴者のマネキン人形を、無響室内に図6に示す位置関係に配置して測定したスピーカ91と92と、マネキン人形の左右の耳の位置との間の伝達関数である。つまり、頭部伝達関数とは、残響の無い状態における右側スピーカと受聴者の右耳間、左側スピーカと受聴者の左耳間の伝達関数のことである。
よって、バイノーラル処理部95は、内部に記憶している頭部位置情報に対応させて記憶されている複数の頭部伝達関数から、頭部位置情報に対応する頭部伝達関数を選択して音声信号に畳み込み、音声信号をスピーカ91,92の音があたかもヘッドホンで聴取したように聞こえるバイノーラル信号に合成するものである。
クロストーク処理部96は、本来片方の耳だけに届くべき音が、もう一方の耳にも届いてしまう空間クロストークを除去する処理をおこなう。この空間クロストークは、バイノーラル信号の合成を阻害する。そこで、クロストーク処理部96は、頭部位置情報によって変化するスピーカ91から受聴者の左右耳間の伝達関数G91L(ω),G91R(ω)と、スピーカ92から受聴者の左右耳間の伝達関数G92L(ω),G92R(ω)とによって発生するクロストークをキャンセルする。そのクロストークをキャンセルするフィルタH(ω)構成を式(1)に示す。iはスピーカ番号を意味する。全ての伝達関数は、周波数領域で記述されている場合、複素数となる。
Figure 2013110633
ここで、H(ω),H(ω)は頭部伝達関数である。
クロストーク成分がキャンセルされたバイノーラル信号は、D/A変換器97でアナログ信号に変換され、アンプ98で増幅された後に一対のスピーカ91,92に供給される。
山本健一郎、苗村健、原島博、"3次元センサとトランスオーラル処理を用いた音像の定位"日本バーチャルリアリティ学会論文誌、5巻、3号、981-987頁、2000年.
しかし、従来の方法では、受聴者の頭部の位置を検出する目的でセンサ93の装着が必要であり、煩わしいといった第一の課題がある。また、頭部位置が大きく動き、一対のスピーカ91,92の正面中央を基準にして、頭部が、例えばスピーカ91の方向に60度以上の角度、回転したとすると受聴者の外耳道入り口(以降、耳孔)は、スピーカ92から見て受聴者の耳介の影になりスピーカ92からの信号レベルが小さくなる。と共に、高い周波数でのゼロ点も急激に増加するため、クロストークキャンセラのフィルタ特性が不安定になる第二の課題がある。
この発明は、このような課題に鑑みてなされたものであり、受聴者に装着するセンサを不要とし、また、受聴者が大きく動いた場合にも、実世界と同じように受聴者の頭部の運動に影響されない絶対位置を有する音像を自然に聴取することができるトランスオーラルシステムを提供することを目的とする。
この発明のトランスオーラルシステムは、3個以上のスピーカと、撮像部と、顔姿勢解析部と、スピーカ選択部と、バイノーラル処理部と、クロストーク処理部と、スピーカ駆動部を具備する。3個以上のスピーカは、受聴者の頭部中心から等距離の位置に、放音側を受聴者に向けて配置され、2個を一組とする。撮像部は、受聴者の顔画像を撮影して顔画像情報を出力する。顔姿勢解析部は、撮像部が出力する顔画像情報から受聴者の顔の姿勢を解析して顔姿勢情報を出力する。スピーカ選択部は、顔姿勢情報を入力として、当該顔姿勢情報に対応させて上記3個以上のスピーカの中から隣り合う一組のスピーカを選択するスピーカ選択情報を出力する。バイノーラル処理部は、音声信号と上記顔姿勢情報と上記スピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカの右側のスピーカから上記受聴者の右耳までの頭部伝達関数と左側のスピーカから左耳までの頭部伝達関数を、上記音声信号に畳み込んで右チャネルと左チャネルのバイノーラル信号を出力する。クロストーク処理部は、バイノーラル信号と顔姿勢情報とスピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカから受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、左右2チャネルのバイノーラル信号から空間クロストーク成分を除去した左右2チャネルのスピーカ駆動信号を生成する。スピーカ駆動部は、スピーカ選択情報とスピーカ駆動信号を入力として、スピーカ選択情報に基づく一組のスピーカにスピーカ駆動信号を出力する。
この発明のトランスオーラルシステムによれば、受聴者の顔の姿勢を、撮像部が撮影する顔姿勢情報を解析して求めるので、従来技術のように受聴者の体に装着するセンサが不要である。また、受聴者の顔の姿勢に対応させて3個以上のスピーカの中から受聴者に対向する位置にある、つまり、受聴者の耳孔が受聴者の耳介の影にならない一組のスピーカが選択されるので、受聴者の顔の姿勢の大きな変化に対応することが可能なトランスオーラルシステムを提供することが可能になる。
この発明のトランスオーラルシステム100の機能構成例を示す図。 顔姿勢解析部20の機能構成例を示す図。 スピーカ選択部30のスピーカ選択情報の一例を示す図。 スピーカ駆動部40の具体例を示す図。 この発明のトランスオーラルシステム200の機能構成例を示す図。 従来のトランスオーラルシステム900の機能構成を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには
同じ参照符号を付し、説明は繰り返さない。
図1に、この発明のトランスオーラルシステム100の機能構成例を示す。3個以上のスピーカ1〜6と、撮像部10と、顔姿勢解析部20と、スピーカ選択部30と、バイノーラル処理部95と、クロストーク処理部96と、D/A変換器97と、アンプ98と、スピーカ駆動部40を具備する。バイノーラル処理部95と、クロストーク処理部96と、D/A変換器97と、アンプ98と、は参照符号から分かるように従来のトランスオーラルシステム900と同じものである。なお、図1のスピーカ1〜6の配置は、受聴者の頭部を中心として平面的に見たものである。
3個以上のスピーカ1〜6は、受聴者の頭部中心から等距離の位置に、放音側を受聴者に向けて配置される。この例では、受聴者を中心として中心角度60度毎の等距離の位置に、6個のスピーカ1〜6が配置されている。ステレオ再生においては、2つのスピーカと受聴者を正三角形の頂点に配置することが原則(例えば、参考文献「究極のサウンドを楽しむオーディオ入門マニュアル」、成美堂出版、1998年、p139)である。この実施例では受聴者を取り囲むように6個のスピーカ1〜6が配置されている。なお、スピーカ1〜6の鉛直方向の位置は、同一平面上に無くても良い。スピーカと受聴者間の伝達特性を測定した際の位置と一致していれば良い。スピーカと受聴者との距離は、スピーカの出力する音圧レベルに依存する。その距離は、概ね50cm〜5m程度の範囲である。
トランスオーラルシステム100としての最小の数のスピーカは、図1中に実線で示すように受聴者の正面に配置される2個のスピーカ1と6と、例えば、受聴者の左側方に配置されるスピーカ2の3個のスピーカで構成される。3個目のスピーカは、受聴者の右側方のスピーカ5であっても良い。スピーカの数が減ると、受聴者の姿勢の変化に対応できる範囲が狭くなる。
撮像部10は、受聴者の顔画像を撮影して顔画像情報を出力する。撮像部10は、例えば、ディジタルカメラを1秒間に16回(16Hz)撮影した顔画像を出力する。撮像部10は、デジタルビデオカメラであっても良い。また、3Dステレオカメラを用いても良い。
顔姿勢解析部20は、その顔画像情報から受聴者の顔の姿勢を解析して顔姿勢情報を出力する。受聴者の顔の姿勢を解析する技術は数多く検討されており、この実施例ではその何れの技術を用いても良い。例えば、予め顔の方向を変えた画像を複数撮影しておき、その画像との一致具合を判定することで、顔姿勢情報を出力するようにしても良い。図2に、その手法に基づく顔姿勢解析部20の機能構成例を示す。顔姿勢解析部20は、顔姿勢判定部21と、顔姿勢データ記憶部22と、を具備する。顔姿勢データ記憶部22には、受聴者の顔の方向を水平方向に一周した場合の所定の角度毎の顔の画像が予め記憶されている。顔姿勢判定部21は、撮像部10から入力される現在の顔画像情報と、顔姿勢データ記憶部22に記憶されている顔の方向が既知の記憶画像と比較して、現在の顔画像情報に一番近い顔の方向を、顔姿勢情報として出力する。または、画像データを比較するのでは無く、顔のパーツの検出や、笑顔検出等で知られているように、顔画像データをパターン認識して顔の方向を、直接計算で求めるようにしても良い。顔姿勢情報は、例えば、受聴者の顔の向きを表す角度で与えられる。
スピーカ選択部30は、顔姿勢情報を入力として、当該顔姿勢情報に対応させて3個以上のスピーカの中から隣り合う一組のスピーカを選択するスピーカ選択情報を出力する。図3に、スピーカ選択情報の一例を示す。左側の列の角度αは、受聴者の顔の向きを表す角度である。右側のスピーカの列中のR・Lの表記は、バイノーラル信号のチャネルを表す。
角度αは、スピーカ1と6の中心に受聴者の顔を向けたときの角度をα=0°、時計方向に正(+)の角度、反時計方向に負(−)の角度、と定義する。角度α=0°の場合は、スピーカ1から左(L)チャネルのバイノーラル信号、スピーカ6から右(R)チャネルのバイノーラル信号が出力される。スピーカ選択部30は、顔姿勢情報(角度α)を入力としたエンコーダー(encoder)である。
受聴者の顔が水平方向に+60度回転(α=60°)したと仮定すると、受聴者の左耳孔がスピーカ1から見て左耳の耳介の影に隠れる。そうすると、クロストーク処理部96のフィルタリング処理の動作が不安定になるので、その場合、スピーカ1からの放音は遮断(×)され、スピーカ6から左(L)チャネルのバイノーラル信号、スピーカ5から右(R)チャネルのバイノーラル信号が出力されるようにスピーカが選択される。この結果、受聴者の両耳孔は、スピーカ6と5から見て受聴者の耳介に隠れることが無い。したがって、クロストーク処理部96のフィルタリング処理の動作が安定して動作する。
更に、受聴者の顔が水平方向に+60度回転したα=+120°の場合は、スピーカ5から左(L)チャネル、スピーカ4から右(R)チャネルのバイノーラル信号が出力されるようにスピーカが選択される。顔姿勢情報に対応させて3個以上のスピーカ1〜6の中から隣り合う一組のスピーカが選択することで、受聴者が大きく顔の方向を変えても、その運動に影響されない絶対位置を有する音像を自然に提供することが可能になる。
なお、図3に示すように、0度と−360度、+60度と−300度、+120度と−240度、+180度と−180度、+240度と−120度、+300度と−60度、におけるスピーカの組み合わせは同じ一組である。このように受聴者を中心として60度の中心角度毎に6個のスピーカを配置した場合は、受聴者の顔の向きが360度、一周しても自然な音像を提供することが可能である。例えば、スピーカを6と1と2の3個とした場合は、受聴者の左右の耳孔が、スピーカから見て耳介の影にならない+60度〜−60度の範囲で自然な音像を提供することができる。
バイノーラル処理部95は、音声信号と顔姿勢情報とスピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカの右側のスピーカから受聴者の右耳までの頭部伝達関数と左側のスピーカから左耳までの頭部伝達関数を、音声信号に畳み込んで右チャネルと左チャネルのバイノーラル信号を出力する。バイノーラル処理部95は、顔姿勢情報に対応する複数の頭部伝達関数を記憶している。その数は、例えば、顔姿勢データ記憶部22に記憶された角度の数分である。または、顔姿勢情報が、例えば、1度ごとと、バイノーラル処理部95が記憶した角度よりも細かい場合は、既存の補間技術を用いて補間して頭部伝達関数を求めるようにしても良い。角度情報が一致する頭部伝達関数が用意されていない場合は、その方向の最も近い両側の頭部伝達関数の重み平均値を計算して用いる。この頭部伝達関数を補間して求める考えは、クロストーク処理部96における伝達関数にも適用できる。
クロストーク処理部96は、バイノーラル信号と顔姿勢情報とスピーカ選択情報を入力として、当該スピーカ選択情報に基づく一組のスピーカから受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、左右2チャネルのバイノーラル信号から空間クロストーク成分を除去した左右2チャネルのスピーカ駆動信号を生成する。クロストーク処理部96は、スピーカ選択情報に基づく一組のスピーカから受聴者の右耳と左耳までの伝達関数を用いて、左右2チャネルのバイノーラル信号から空間クロストーク成分を除去するフィルタリング処理を行う。スピーカ選択情報に対応した2個のそれぞれのスピーカから受聴者の右耳と左耳までの伝達関数は、予めクロストーク処理部96に記憶されている。空間クロストーク成分を除去するフィルタリング処理そのものは、従来のトランスオーラルシステム900と同じである。
スピーカ駆動部40は、スピーカ選択情報とスピーカ駆動信号を入力として、スピーカ選択情報に基づく一組のスピーカに、スピーカ駆動信号を出力する。スピーカ駆動部40は、図3に示した左右2チャネルのバイノーラル信号を各スピーカ1〜6に振り分ける動作を行う。
図4に、より具体的なスピーカ選択部40の機能構成例を示す。スピーカ選択部40は、スピーカ1〜6にそれぞれ接続される一対のリレー41〜46で構成される。一対のリレー41は、アンプ98で増幅された右(R)チャネルのバイノーラル信号と左(L)チャネルのバイノーラル信号とが、それぞれ一端に接続され、その他端にはスピーカ1が共に接続されるリレー41と41とを備える。一対のリレー42〜46もそれぞれスピーカ2〜6に接続され、その構成は一対のリレー41と同じである。
リレー41とリレー46の制御端子には、スピーカ選択部30の0(−360)出力端子が接続されている。スピーカ選択部30の0(−360)出力端子は、顔姿勢解析部20が出力する顔姿勢情報が表す顔の向きを表す角度αが、−60°<α<60°の範囲で“1”(論理レベル1)となる選択信号を出力する。0(−360)出力端子の選択信号が“1”になると、リレー41とリレー46とが導通状態となり、スピーカ1に左(L)チャネルのバイノーラル信号が供給され、スピーカ6に右(R)チャネルのバイノーラル信号が供給される。他のスピーカ2〜5へのバイノーラル信号の供給は遮断される。
スピーカ選択部30の300(−60)出力端子は、リレー41とリレー42の制御端子に接続される。300(−60)出力端子は、角度αが、−120°<α≦−60°の範囲で“1”となるので、スピーカ1に右(R)チャネルのバイノーラル信号、スピーカ2に左(L)チャネルのバイノーラル信号が供給される。
表1に、角度αの角度範囲と、右(R)チャネルと左(L)チャネルのバイノーラル信号が供給されるスピーカ番号との関係を示す。
Figure 2013110633
表1に示すように、顔姿勢情報(角度α)に対応させてバイノーラル信号を供給するスピーカを選択することで、受聴者の顔の向きが360度、一周しても受聴者の耳孔が耳介の影になら無いので自然な音像を提供することが可能になる。
トランスオーラルシステム100は、撮像部10で撮影した受聴者の顔画像から顔姿勢情報を求める第一の特徴と、その顔姿勢情報に基づいて3個以上のスピーカの中から2個のスピーカを選択する第二の特徴を有するものである。本願発明のトランスオーラルシステムは、第二の特徴のみを有する構成も考えられる。その構成のトランスオーラルシステム200を次に説明する。
図5に、この発明のトランスオーラルシステム200の機能構成例を示す。トランスオーラルシステム200は、トランスオーラルシステム100の撮像部10と顔姿勢解析部20に代えて、入力部50を備える点で異なる。他の機能部の構成は、基本的に同じ考えで実現できる。
入力部50は、外部から入力される受聴者の顔方向情報又は受聴者の両耳とスピーカとの相対的な位置情報を表す頭部位置情報を、バイノーラル処理部95とクロストーク処理部96とスピーカ選択部30に出力する。受聴者の顔方向情報又は受聴者の両耳とスピーカとの相対的な位置情報を表す頭部位置情報は、上記した顔姿勢情報と同じ意味を持つ信号である。
例えば、トランスオーラルシステム200の利用者が、受聴者の顔を目視で判断してスピーカに対する受聴者の頭部位置情報を、入力部50に手入力しても良い。スピーカ選択部30は、その頭部位置情報に基づいて一組のスピーカの選択を行うように構成しておく。バイノーラル処理部95とクロストーク処理部96も、頭部位置情報に基づいて頭部伝達関数と伝達関数を選択するように構成しておく。そうすることで、トランスオーラルシステム100と同様に、受聴者が大きく顔の方向を変えてもその運動に影響されない絶対位置を有する音像を自然に提供することが可能である。
なお、バイノーラル処理部95に入力される音声信号はディジタル信号の例で説明を行ったが、音声信号はアナログ信号でも良い。その場合、バイノーラル処理とクロストーク処理は、顔姿勢情報に対応した複数のアナログフィルタで実現される。音声信号がアナログ信号で与えられる場合は、D/A変換器97は不要である。また、バイノーラル信号の出力レベルが大きい場合には、アンプ98も不要である。このように、D/A変換器97とアンプ98は、本願発明を特徴付けるものではない。
なお、顔姿勢情報に基づいて一組のスピーカを選択するスピーカ選択部30を、独立して具備する機能構成例で説明を行ったが、スピーカ選択部30の機能を、バイノーラル処理部95とクロストーク処理部96とスピーカ駆動部40にそれぞれに持たせても良い。その場合は、スピーカ選択部30は不要である。このように、本願発明のトランスオーラルシステムは、上記した実施例の構成に限定されるものではない。
トランスオーラルシステム100,200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるように構成してもよい。
その場合、その処理内容を記述したプログラムは、コンピュータで読み取り可能な任意の記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリがある。より具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアとして実現することとしてもよい。

Claims (2)

  1. 受聴者の頭部中心から等距離の位置に、放音側を受聴者に向けて配置される2個を一組とする3個以上のスピーカと、
    上記受聴者の顔画像を撮影して顔画像情報を出力する撮像部と、
    上記顔画像情報から上記受聴者の顔の姿勢を解析して顔姿勢情報を出力する顔姿勢解析部と、
    上記顔姿勢情報を入力として、当該顔姿勢情報に対応させて上記3個以上のスピーカの中から隣り合う一組のスピーカを選択するスピーカ選択情報を出力するスピーカ選択部と、
    音声信号と上記顔姿勢情報と上記スピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカの右側のスピーカから上記受聴者の右耳までの頭部伝達関数と左側のスピーカから左耳までの頭部伝達関数を、上記音声信号に畳み込んで右チャネルと左チャネルのバイノーラル信号を出力するバイノーラル処理部と、
    上記バイノーラル信号と上記顔姿勢情報と上記スピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカから上記受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、上記左右2チャネルのバイノーラル信号から空間クロストーク成分を除去した左右2チャネルのスピーカ駆動信号を生成するクロストーク処理部と、
    上記スピーカ選択情報と上記スピーカ駆動信号を入力として、上記スピーカ選択情報に基づく一組のスピーカに、上記スピーカ駆動信号を出力するスピーカ駆動部と、
    を具備するトランスオーラルシステム。
  2. 受聴者の頭部から等距離の位置に、放音側を受聴者に向けて配置される2個を一組とする3個以上のスピーカと、
    上記受聴者の顔方向又は上記受聴者の両耳と上記スピーカとの相対的な位置を表す頭部位置情報を入力する入力部と、
    上記頭部位置情報を入力として、当該頭部位置情報に対応させて上記3個以上のスピーカの中から隣り合う一組のスピーカを選択するスピーカ選択情報を出力するスピーカ選択部と、
    音声信号と上記頭部位置情報と上記スピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカカの右側のスピーカから上記受聴者の右耳までの頭部伝達関数と左側のスピーカから左耳までの頭部伝達関数を、上記音声信号に畳み込んで右チャネルと左チャネルのバイノーラル信号を出力するバイノーラル処理部と、
    上記バイノーラル信号と上記頭部位置情報と上記スピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカから上記受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、上記左右2チャネルのバイノーラル信号から空間クロストーク成分を除去した左右2チャネルのスピーカ駆動信号を生成するクロストーク処理部と、
    上記スピーカ選択情報と上記スピーカ駆動信号を入力として、上記スピーカ選択情報に基づく一組のスピーカに、上記スピーカ駆動信号を出力するスピーカ駆動部と、
    を具備するトランスオーラルシステム。
JP2011254913A 2011-11-22 2011-11-22 トランスオーラルシステム Active JP5754595B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011254913A JP5754595B2 (ja) 2011-11-22 2011-11-22 トランスオーラルシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011254913A JP5754595B2 (ja) 2011-11-22 2011-11-22 トランスオーラルシステム

Publications (2)

Publication Number Publication Date
JP2013110633A true JP2013110633A (ja) 2013-06-06
JP5754595B2 JP5754595B2 (ja) 2015-07-29

Family

ID=48706978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011254913A Active JP5754595B2 (ja) 2011-11-22 2011-11-22 トランスオーラルシステム

Country Status (1)

Country Link
JP (1) JP5754595B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016039492A (ja) * 2014-08-07 2016-03-22 日本放送協会 伝達関数近似装置、そのプログラム及びその方法
WO2017047309A1 (ja) * 2015-09-14 2017-03-23 ヤマハ株式会社 耳形状解析方法、耳形状解析装置および耳形状モデル生成方法
CN109417678A (zh) * 2016-07-05 2019-03-01 索尼公司 声场形成装置和方法以及程序
WO2019135269A1 (ja) 2018-01-04 2019-07-11 株式会社 Trigence Semiconductor スピーカ駆動装置、スピーカ装置およびプログラム
JP2022010174A (ja) * 2016-10-28 2022-01-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法
WO2022092663A1 (ko) * 2020-10-29 2022-05-05 한림대학교 산학협력단 소리방향성 분별능 훈련시스템 및 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0427699U (ja) * 1990-06-26 1992-03-05
JPH1051898A (ja) * 1996-08-02 1998-02-20 Roland Corp 立体音再生装置
JPH11187498A (ja) * 1997-12-17 1999-07-09 Roland Corp 立体音再生装置
JP2000138913A (ja) * 1998-10-30 2000-05-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2001128283A (ja) * 1999-10-27 2001-05-11 Kenwood Corp スピーカ出力切替制御方法および装置
JP2003092800A (ja) * 2001-09-17 2003-03-28 Denon Ltd マルチチャンネル再生装置
JP2006270522A (ja) * 2005-03-24 2006-10-05 Yamaha Corp 音像定位制御装置
JP2007081928A (ja) * 2005-09-15 2007-03-29 Yamaha Corp Avアンプ装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0427699U (ja) * 1990-06-26 1992-03-05
JPH1051898A (ja) * 1996-08-02 1998-02-20 Roland Corp 立体音再生装置
JPH11187498A (ja) * 1997-12-17 1999-07-09 Roland Corp 立体音再生装置
JP2000138913A (ja) * 1998-10-30 2000-05-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2001128283A (ja) * 1999-10-27 2001-05-11 Kenwood Corp スピーカ出力切替制御方法および装置
JP2003092800A (ja) * 2001-09-17 2003-03-28 Denon Ltd マルチチャンネル再生装置
JP2006270522A (ja) * 2005-03-24 2006-10-05 Yamaha Corp 音像定位制御装置
JP2007081928A (ja) * 2005-09-15 2007-03-29 Yamaha Corp Avアンプ装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016039492A (ja) * 2014-08-07 2016-03-22 日本放送協会 伝達関数近似装置、そのプログラム及びその方法
WO2017047309A1 (ja) * 2015-09-14 2017-03-23 ヤマハ株式会社 耳形状解析方法、耳形状解析装置および耳形状モデル生成方法
CN109417678A (zh) * 2016-07-05 2019-03-01 索尼公司 声场形成装置和方法以及程序
JP2022010174A (ja) * 2016-10-28 2022-01-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法
JP7222054B2 (ja) 2016-10-28 2023-02-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法
US11653171B2 (en) 2016-10-28 2023-05-16 Panasonic Intellectual Property Corporation Of America Fast binaural rendering apparatus and method for playing back of multiple audio sources
WO2019135269A1 (ja) 2018-01-04 2019-07-11 株式会社 Trigence Semiconductor スピーカ駆動装置、スピーカ装置およびプログラム
US11057706B2 (en) 2018-01-04 2021-07-06 Trigence Semiconductor, Inc. Speaker driving device
WO2022092663A1 (ko) * 2020-10-29 2022-05-05 한림대학교 산학협력단 소리방향성 분별능 훈련시스템 및 방법
KR20220057212A (ko) * 2020-10-29 2022-05-09 한림대학교 산학협력단 소리방향성 분별능 훈련시스템 및 방법
KR102484145B1 (ko) * 2020-10-29 2023-01-04 한림대학교 산학협력단 소리방향성 분별능 훈련시스템 및 방법

Also Published As

Publication number Publication date
JP5754595B2 (ja) 2015-07-29

Similar Documents

Publication Publication Date Title
US11838707B2 (en) Capturing sound
US20220116723A1 (en) Filter selection for delivering spatial audio
US10397722B2 (en) Distributed audio capture and mixing
JP6466968B2 (ja) インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法
JP3687099B2 (ja) 映像信号及び音響信号の再生装置
JP6149818B2 (ja) 収音再生システム、収音再生装置、収音再生方法、収音再生プログラム、収音システム及び再生システム
US7817806B2 (en) Sound pickup method and apparatus, sound pickup and reproduction method, and sound reproduction apparatus
EP3103269B1 (en) Audio signal processing device and method for reproducing a binaural signal
JP5754595B2 (ja) トランスオーラルシステム
EP1830604A1 (en) Acoustic image locating device
US20150189455A1 (en) Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
MXPA05004091A (es) Captura y reproduccion de sonido dinamico biauricular.
WO2019110870A1 (en) An apparatus and method for processing volumetric audio
JP4670682B2 (ja) オーディオ装置及び指向音生成方法
US11546703B2 (en) Methods for obtaining and reproducing a binaural recording
KR20220038478A (ko) 공간 변환 도메인에서 음장 표현을 처리하기 위한 장치, 방법 또는 컴퓨터 프로그램
JP2003032776A (ja) 再生システム
US20130243201A1 (en) Efficient control of sound field rotation in binaural spatial sound
US11012774B2 (en) Spatially biased sound pickup for binaural video recording
JP2018191127A (ja) 信号生成装置、信号生成方法およびプログラム
CN113707165B (zh) 音频处理方法、装置及电子设备和存储介质
JP2015170926A (ja) 音響再生装置、音響再生方法
JP6274244B2 (ja) 収音再生装置、収音再生プログラム、収音装置及び再生装置
WO2024161992A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JPH099400A (ja) 立体音像定位装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20131225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150513

R150 Certificate of patent or registration of utility model

Ref document number: 5754595

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250