JP5857071B2

JP5857071B2 - オーディオ・システムおよびその動作方法

Info

Publication number: JP5857071B2
Application number: JP2013547946A
Authority: JP
Inventors: ウェルネルヨハネスオーメン，アルノルデュス; イェルーンブレーバールト，ディルク; ヘラルデュスヘンリキュスコッペンス，イェルーン; ゴサイニュスペトリュススハイエルス，エリク
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-01-05
Filing date: 2012-01-03
Publication date: 2016-02-10
Anticipated expiration: 2032-01-03
Also published as: RU2013136390A; BR112013017070B1; TR201815799T4; EP2661912B1; CN103329576A; RU2595943C2; BR112013017070A2; JP2014505420A; CN103329576B; WO2012093352A1; US20130272527A1; US9462387B2; EP2661912A1

Description

本発明は、オーディオ・システムおよびその動作方法に、詳細にはオーディオ信号の仮想的な空間レンダリングに関する。

単純なステレオを超えた空間的音再生は家庭シネマ・システムのようなアプリケーションを通じて一般的なものとなっている。典型的には、そのようなシステムは特定の空間位置に配置されたスピーカーを使う。加えて、ヘッドホンからの空間的な音知覚を提供するシステムが開発されている。従来のステレオ再生はユーザーの頭の内部に発しているように知覚される音を与える傾向があった。しかしながら、イヤホン／ヘッドホンによってユーザーの耳に直接与えられるバイノーラル信号に基づいて完全な空間的音知覚を提供するシステムが開発されている。そのようなシステムは、本物の音源が存在しない位置に仮想音源の知覚を提供するので、しばしば仮想音システムと称される。

仮想サラウンド・サウンドは、物理的には存在しない、聴取者を囲む音源があるという知覚を創り出そうとする技術である。そのようなシステムでは、音は、従来のヘッドホン再生システムから知られているようにユーザーの頭の内部から発するようには思われない。むしろ、音は、ヘッドホンなしでの自然な聴取の場合と同様に、ユーザーの頭の外から発していると知覚されうる。仮想サラウンド・オーディオは、より現実的な経験に加えて、聴取者の疲労および発話了解性に対してポジティブな効果をもつ傾向もある。

この知覚を達成するためには、人間の聴覚系をだまして音が所望される諸位置から来ていると思わせる何らかの手段を用いることが必要である。仮想サラウンド・サウンドの経験を提供するよく知られたアプローチは、バイノーラル録音の使用である。そのようなアプローチでは、録音は専用のマイクロホン配置を使い、ヘッドホンを使った再生のために意図される。録音は、マイクロホンを被験者またはダミーヘッドの外耳道に置くことによってなされる。ダミーヘッドというのは耳介（外耳）を含む胸像である。そのような耳介を含むダミーヘッドの使用は、その録音を聞く人が録音の現場にいたとしたらもつであろう印象に非常に近い空間的印象を提供する。しかしながら、各人の耳介は独特であり、該耳介が音に対して課すフィルタリングははいってくる音波の方向性入射に依存し、よってやはり独特なので、音の定位は被験者に依存する。実際、源を定位するのに使われる特定の特徴は各人によって、幼少のころから学習される。したがって、録音の際に使われる耳介と聴取者の耳介の間に何らかのミスマッチがあれば、それは劣化した知覚および誤った空間的印象につながりうる。

三次元空間における特定の位置にある音源から各個人のためのダミーヘッドの耳にあるマイクロホンまでのインパルス応答を測定することによって、いわゆる頭部インパルス応答（HRIF: Head Related Impulse Response）が決定できる。HRIRは、さまざまな位置にある複数の源をシミュレートするバイノーラル録音を生成するために使用できる。これは、各音源を、その音源の位置に対応する一対のHRIRと畳み込みすることによって実現できる。HRIRは頭部伝達関数（HRTF: Head Related Transfer Function）とも称されうる。このように、HRTFとHRIRは等価である。HRIRが部屋の効果をも含む場合、これらは両耳室内インパルス応答（BRIR: Binaural Room Impulse Responses）と称される。BRIRは被験者の人体測定属性（頭のサイズ、耳の形など）にのみ依存する無響部分に、部屋と人体測定属性の組み合わせを特徴付ける反響部分が続いたものからなる。

反響部分は、通例重なり合う二つの時間的領域を含む。第一の領域はいわゆる早期反射を含む。これは、鼓膜（または測定マイクロホン）に到達する前に部屋内部の壁または障害物での、音源の孤立した反射である。時間ラグが増すにつれて、固定した時間期間内に存在する反射の数が増し、高次反射も含むようになる。

反響部分の第二の領域はこれらの反射がもはや孤立していない部分である。この領域は、散乱または後期反響尾部と呼ばれる。反響部分は、源の距離ならびに部屋のサイズおよび音響属性についての情報を聴覚系に与える手がかりを含んでいる。さらに、それはHRIRによる反射のフィルタリングのため、被験者に依存する。無響部分のエネルギーに対する反響部分のエネルギーが、音源の知覚される距離をほぼ決定する。（早期）反射の密度は部屋の知覚されるサイズに寄与する。T₆₀残響時間は反射がエネルギー・レベルにおいて60dB低下するのにかかる時間として定義される。残響時間は部屋の音響属性、その壁が反射性が高いか（たとえば浴室）どうか、あるいは音の吸収が大きい（たとえば家具、カーベットおよびカーテンのある寝室）かどうかならびに部屋の容積（サイズ）についての情報を与える。

所定の音響環境を組み込む測定されたインパルス応答の使用のほか、合成反響アルゴリズムがしばしば用いられる。音響シミュレーションのある種の属性を修正できるためと、計算量が比較的少ないためである。

仮想サラウンド技法を使うシステムの一例は、MPEGサラウンドである。これは、近年MPEGによって標準化された（ISO/IEC 23003-1:2007、MPEGサラウンド）多チャンネル・オーディオ符号化における主要な進展の一つである。

MPEGサラウンドは、既存のモノまたはステレオ・ベースの符号化器が多チャンネルに拡張されることを許容する多チャンネル符号化ツールである。図１は、MPEGサラウンドで拡張されたステレオ・コア符号化器のブロック図である。まず、MPEGサラウンド・エンコーダは複数チャンネル入力信号からステレオ減数混合〔ダウンミックス〕を生成する。ステレオ減数混合はコア・エンコーダ、たとえばHE-AACを使ってビットストリームに符号化される。次に、空間パラメータが多チャンネル入力信号から推定される。これらのパラメータは空間的ビットストリーム中にエンコードされる。結果として得られるコア符号化器ビットストリームおよび空間的ビットストリームは併合されて全体的なMPEGサラウンド・ビットストリームを創り出す。典型的には、空間的ビットストリームはコア符号化器ビットストリームの補助データ部分に含まれる。デコーダ側では、コアおよび空間的ビットストリームがまず分離される。ステレオ・コア・ビットストリームはデコードされてステレオ減数混合を再生成する。この減数混合が空間的ビットストリームと一緒になってMPEGサラウンド・デコーダに入力される。空間的ビットストリームはデコードされ、結果として空間的パラメータを与える。それらの空間的パラメータは次いで、ステレオ減数混合を増数混合するために使われ、もとの多チャンネル入力信号の近似である多チャンネル出力信号が得られる。

多チャンネル入力信号の空間的イメージはパラメータ化されるので、MPEGサラウンドは同じ多チャンネル・ビットストリームを、多チャンネル・スピーカー・セットアップ以外のレンダリング装置にデコードすることも許容する。一例は、ヘッドホンでの仮想再生である。これはMPEGサラウンド・バイノーラル・デコード・プロセスと称される。このモードでは、現実的なサラウンド経験が、通常のヘッドホンを使って提供できる。

図２は、MPEGサラウンドで拡張されたステレオ・コア・コーデックのブロック図である。ここで、出力はデコードされてバイノーラルにされる。エンコーダ・プロセスは図１と同一である。ステレオ・ビットストリームをデコードしたのち、空間的パラメータがHRTF/HRIRデータと組み合わされていわゆるバイノーラル出力を生じる。

MPEGサラウンドの概念を基礎として、MPEGは「空間的オーディオ・オブジェクト符号化（SAOC: Spatial Audio Object Coding）」を標準化した（ISO/IEC 23003-2:2010）。

高レベルの視点からは、SAOCでは、チャンネルの代わりに、サウンド・オブジェクトが効率的に符号化される。MPEGサラウンドでは各スピーカー・チャンネルが諸サウンド・オブジェクトの異なる混合から発していると考えることができるのに対し、SAOCでは、これらの個々のサウンド・オブジェクトはある程度、対話的操作のためにデコーダにおいて利用可能である。MPEGサラウンドと同様に、SAOCでもモノまたはステレオ減数混合が生成され、この減数混合がHE-AACのような標準的な減数混合符号化器を使って符号化される。オブジェクト・パラメータがエンコードされ、減数混合符号化ビットストリームの補助データ部分に埋め込まれる。デコーダ側では、これらのパラメータの操作によって、ユーザーは、位置、増幅／減衰、等化といった個々のオブジェクトのさまざまな特徴を制御でき、さらには歪みおよび反響といった効果を適用することさえできる。

ステレオまたは多チャンネル・コンテンツの仮想サラウンド・レンダリングの品質は、非特許文献１に記載されるいわゆるファントム具現（phantom materialization）によって著しく改善できる。

仮想スピーカー位置から発する二つの音源を想定することによって仮想ステレオ信号を構築する代わりに、ファントム具現アプローチはサウンド信号を方向性（directional）信号成分および間接／脱相関信号成分に分解する。直接（direct）成分は、ファントム位置における仮想スピーカーをシミュレートすることによって合成される。間接成分は拡散音場の仮想方向（単数または複数）における仮想スピーカーをシミュレートすることによって合成される。ファントム具現プロセスは、スピーカー・セットアップの制限を仮想レンダリング・シーンに課さないという利点がある。

仮想空間音再生は、多くのシナリオにおいて非常に魅力的な空間的経験を提供することが見出されている。しかしながら、このアプローチはいくつかのシナリオでは、三次元空間中のシミュレートされる位置に実際の音源がある現実世界のシナリオで帰結するであろう空間的経験に完全には対応しない経験を与えることも見出されている。

仮想オーディオ・レンダリングの空間的知覚は、オーディオによって与えられる位置手がかりとユーザーの視覚によって与えられる位置手がかりとの間の脳内での干渉によって影響されうることが示唆されている。

日常生活では、視覚的手がかりは（典型的には無意識のうちに）可聴手がかりと組み合わされて空間的知覚を高める。一つの例として、唇の動きも観察できれば人の了解されやすさが高まる。もう一つの例では、仮想音源を裏付けとなる視覚的手がかりを与えることによって、たとえば仮想音源が生成される位置にダミー・スピーカーを置くことによって、人はだまされることがあることが見出されている。このように、視覚的手がかりは仮想化を高めるまたは修正する。視覚的手がかりはある程度まで、腹話術師の場合のように音源の知覚される位置を変えることさえできる。逆に、人間の脳は、（たとえば波面合成において）裏付けとなる視覚的手がかりがない音源を定位するのに難儀する。それは実際、人間の性質と相容れないものである。

もう一つの例は、ヘッドホン・ベースのオーディオ・システムによって生成される仮想音源と混合される、聴取者のいる環境からの外部音源の漏れである。オーディオ内容およびユーザー位置に依存して、物理的および仮想的な環境の音響属性は大きく異なることがあり、その結果、聴取環境に関する曖昧さが生じる。音響環境のそのような混合は、不自然で、非現実的な音再生を引き起こしうる。

視覚的手がかりとの相互作用に関しては、いまだよく理解されていない多くの側面がある。実際、仮想空間音再生との関係での視覚的手がかりの効果は完全には理解されていない。

よって、改善されたオーディオ・システムが有利であろう。特に、柔軟性を増す、実装を容易にする、動作を容易にする、空間的なユーザー経験を改善する、仮想空間音生成を改善するおよび／またはパフォーマンスを改善することを許容するアプローチが有利であろう。

Breebaart, J., Schijers, E. (2008), "Phantom materialization: A novel method to enhance stereo audio reproduction on headphones", IEEE Trans. On Audio, Speech and Language processing 16, 1503-1511 J.-M. Jot〔ジョー〕 and A. Chaigne, "Digital delay networks for designing artificial reverberators", 90th AES (Audio Engineering Society) Convention, Feb. 1991 Vesa, S., Harma, A. (2005), "Automatic estimation of reverberation time from binaural signals", ICASSP 2005, pp.iii/281-iii/284, March 18-23 Fritz Menzer and Christof Faller (2009), "Binaural reverberation using a modified Jot reverberator with frequency-dependent interarual coherence matching", proc. 126th AES convention

よって、本発明は、上述した欠点の一つまたは複数を、単独でまたは任意の組み合わせにおいて、好ましくは緩和、軽減または解消しようとするものである。

本発明のある側面によれば、請求項１記載のオーディオ・システムが提供される。

本発明は、改善された空間的経験を提供しうる。多くの実施形態において、より自然な空間的経験が知覚されることができ、音再生はそれほど人工的に感じられなくなりうる。実際、仮想音特性は、視覚的手がかりのような他の位置手がかりとより揃うよう適応されうる。こうして、より自然に感じられる仮想音再生および改善された頭外定位（externalization）がユーザーに提供されることで、より現実的な空間音知覚が達成されうる。

前記オーディオ信号は単一の音源に対応してもよく、前記オーディオ信号の前記処理は、オーディオ信号によって表されるオーディオが前記音源についての所望される仮想位置からレンダリングされるようなものであってもよい。オーディオ信号はたとえば、単一のオーディオ・チャンネル（サラウンド・サウンド・システムのサラウンド・チャンネルなど）に対応してもよく、あるいはたとえば単一のオーディオ・オブジェクトに対応してもよい。オーディオ信号は特に、空間的な多チャンネル信号からの単一チャンネル・オーディオ信号であってもよい。各空間的信号は、所与の仮想位置から発するよう知覚されるようにレンダリングされるよう処理されてもよい。

前記オーディオ信号は時間領域信号、周波数領域信号および／またはパラメータ化された信号（エンコードされた信号など）によって表現されてもよい。個別的な例として、オーディオ信号は、時間周波数タイル形式におけるデータ値によって表現されてもよい。いくつかの実施形態では、オーディオ・オブジェクトが、オーディオ信号についての意図される音源位置を示す位置情報を与えられてもよい。いくつかのシナリオでは、位置情報は空間的な増数混合〔アップミックス〕パラメータとして提供されてもよい。本システムは、オーディオ信号についての位置情報に応答して両耳伝達関数をさらに適応させるよう構成されていてもよい。たとえば、本システムは、指示された位置に対応する音位置手がかりを与えるよう両耳伝達関数を選択してもよい。

バイノーラル出力信号は、複数のオーディオ信号からの信号成分を含んでいてもよく、そのそれぞれはある両耳伝達関数に基づいて処理されたものであってもよい。ここで、各オーディオ信号についての両耳伝達関数は、そのオーディオ信号についての所望される位置に対応してもよい。各両耳伝達関数は、多くの実施形態では、音響環境パラメータに応答して適応されてもよい。

前記処理は具体的には、両耳伝達関数を前記オーディオ信号またはそれから（たとえば増幅、処理などによって）導出される信号に適用してもよい。バイノーラル出力信号とオーディオ信号の間の関係は両耳伝達関数に依存する／両耳伝達関数に反映される。オーディオ信号は特に、前記バイノーラル出力信号についての、前記オーディオ信号に両耳伝達関数を適用することに対応する信号成分を生成してもよい。このように、両耳伝達関数は、所望される位置におけるオーディオ源の知覚を提供するバイノーラル出力信号を生成するよう前記オーディオ信号に適用される伝達関数に対応してもよい。両耳伝達関数はHRTF、HRIRもしくはBRIRからの寄与を含んでいてもよく、またはHRTF、HRIRもしくはBRIRに対応してもよい。

両耳伝達関数は、該両耳伝達関数を時間領域で、周波数領域でまたは両者の組み合わせとして適用することによってオーディオ信号（またはそれから導出される信号）に適用されてもよい。たとえば、両耳伝達関数は、たとえば各時間周波数タイルに複素両耳伝達関数値を適用することによって、時間周波数タイルに適用されてもよい。他の例では、オーディオ信号は両耳伝達関数を実装するフィルタによってフィルタリングされてもよい。

本発明の任意的な特徴によれば、前記音響環境パラメータは、前記音響環境についての反響パラメータを含む。

これは、仮想音源位置付けを使うサウンド・システムから、改善された、典型的にはより自然なユーザー経験を提供するための、仮想音の特に有利な適応を許容しうる。

本発明の任意的な特徴によれば、前記音響環境パラメータは：残響時間；直接経路エネルギーに対する反響エネルギー；室内インパルス応答の少なくとも一部の周波数スペクトル；室内インパルス応答の少なくとも一部のモード密度；室内インパルス応答の少なくとも一部のエコー密度；両耳間のコヒーレンスまたは相関；早期反射のレベル；および部屋サイズ推定値のうちの少なくとも一つを含む。

これらのパラメータは、仮想音源位置付けを使うサウンド・システムから、改善された、典型的にはより自然なユーザー経験を提供するための、仮想音の特に有利な適応を許容しうる。さらに、上記パラメータは実装および／または動作を容易にしうる。

本発明の任意的な特徴によれば、前記適応回路は、前記両耳伝達関数の反響特性を適応させるよう構成される。

これは、仮想音源位置付けを使うサウンド・システムから、改善された、典型的にはより自然なユーザー経験を提供するために、仮想音の特に有利な適応を許容しうる。反響特性は特に適応に好適なので、このアプローチは動作および／または実装を容易にすることを許容しうる。前記修正は、前記処理が、異なる反響特性をもつ両耳伝達関数に対応するよう修正されるようなものであってもよい。

本発明の任意的な特徴によれば、前記適応回路は、両耳伝達関数の次の特性のうちの少なくとも一つを適応させるよう構成される：残響時間；直接音エネルギーに対する反響エネルギー；両耳伝達関数の少なくとも一部の周波数スペクトル；両耳伝達関数の少なくとも一部のモード密度；両耳伝達関数の少なくとも一部のエコー密度；両耳間のコヒーレンスまたは相関；および両耳伝達関数の少なくとも一部の早期反射のレベル。

本発明の任意的な特徴によれば、前記処理は、所定の両耳伝達関数と、前記音響環境パラメータに応答して適応された可変な両耳伝達関数との組み合わせを含む。

これは、多くのシナリオにおいて、容易にされたおよび／または改善された実装および／または動作を提供しうる。所定の両耳伝達関数および可変な両耳伝達関数は組み合わされてもよい。たとえば、これらの伝達関数は直列にオーディオ信号に適用されてもよいし、あるいは並列にオーディオ信号に適用されて結果として得られる信号が組み合わされるのでもよい。

所定の両耳伝達関数は固定であってもよく、音響環境パラメータとは独立であってもよい。可変な両耳伝達関数は音響環境シミュレーション伝達関数であってもよい。

本発明の任意的な特徴によれば、前記適応回路は両耳伝達関数を動的に更新するよう構成される。

動的更新はリアルタイムであってもよい。本発明は、音提供を自動的かつ連続的に、システムが使われている環境に適応させるシステムを許容しうる。たとえば、本オーディオ・システムを携行するユーザーが動くにつれて、サウンドは、特定の音響環境にマッチするよう、たとえば特定の部屋にマッチするよう、レンダリングされるオーディオを自動的に適応させてもよい。前記測定回路は、環境特性を連続的に測定していてもよく、前記処理はそれに応答して連続的に更新されてもよい。

本発明の任意的な特徴によれば、前記適応回路は、環境特性がある基準を満たすときにのみ、両耳伝達関数を修正するよう構成される。

これは、多くのシナリオにおいて改善されたユーザー経験を提供しうる。特に、多くの実施形態において、より安定な経験を提供しうる。前記適応回路はたとえば、オーディオ環境パラメータがある基準を満たすときに両耳伝達関数の特性を修正するのみであってもよい。前記基準はたとえば、音響環境パラメータの値と、両耳伝達関数を適応させるために使われた以前の値との間の差が閾値を超えることであってもよい。

本発明の任意的な特徴によれば、前記適応回路は、両耳伝達関数についての遷移速度を制約するよう構成される。

これは、改善されたユーザー経験を提供することがあり、特定の環境条件への適応を気づかれにくくする。両耳伝達関数への修正は、しばしば有利には1Hzより上の変化を減衰させる低域通過フィルタ処理効果にかけられてもよい。たとえば、両耳伝達関数へのステップ変化は、約1ないし5秒の継続時間をもつ漸次の遷移に制約されてもよい。

本発明の任意的な特徴によれば、本オーディオ・システムはさらに：両耳伝達関数データを記憶するデータ記憶部と；音響環境パラメータに応答してデータ記憶部から両耳伝達関数データを取得する回路とを有し、前記適応回路は取得された両耳伝達関数データに応答して両耳伝達関数を適応させるよう構成されている。

これは、多くのシナリオにおいて特に効率的な実装を提供しうる。このアプローチは、特に、計算資源要求を軽減しうる。

いくつかの実施形態では、本オーディオ・システムはさらに、データ記憶部のどの両耳伝達関数データも音響環境パラメータに対応する音響環境特性に関連付けられていないことを検出し、応答して、両耳伝達関数を生成し、これを関連付けられた音響環境特徴付けデータと一緒にデータ記憶部に記憶する回路を有していてもよい。

本発明の任意的な特徴によれば、本オーディオ・システムはさらに：音響環境中に音試験信号を放射するよう構成された試験信号回路を有し、前記測定回路は前記環境中の受領された音信号を捕捉するよう構成されており、受領された音信号は、放射された音試験信号から生じる信号成分を含み、前記決定回路は、音試験信号に応答して音響環境パラメータを決定するよう構成される。

これは、低計算量だが正確かつ実際的な音響環境パラメータの決定法を提供しうる。音響環境パラメータの決定は、具体的には、受領された試験信号とオーディオ試験信号との間の相関に応答していてもよい。たとえば、周波数または時間特性が比較され、音響環境パラメータを決定するために使われてもよい。

本発明の任意的な特徴によれば、前記決定回路は、受領された音信号に応答して環境インパルス応答を決定し、該環境インパルス応答に応答して音響環境パラメータを決定するよう構成される。

これは、音響環境パラメータを決定するための特に堅牢な、低計算量の、および／または正確なアプローチを提供しうる。

本発明の任意的な特徴によれば、前記適応回路はさらに、ユーザー位置に応答して両耳伝達関数を更新するようさらに構成されていてもよい。

これは、特に魅力的なユーザー経験を提供しうる。たとえば、ユーザーが動くにつれて仮想音レンダリングが連続的に更新されてもよく、それによりたとえば部屋だけではなく、部屋の中でのユーザーの位置に対しても連続的な適応が提供される。

いくつかの実施形態では、音響環境パラメータはユーザー位置に依存する。

これは、特に魅力的なユーザー経験を提供しうる。たとえば、ユーザーが動くにつれて仮想音レンダリングが連続的に更新されてもよく、それによりたとえば部屋だけではなく、部屋の中でのユーザーの位置に対しても連続的な適応が提供される。例として、音響環境パラメータは測定されたインパルス応答から決定されてもよい。測定されたインパルス応答は、環境内でユーザーが動くにつれて動的に変化しうる。ユーザー位置は、ユーザー配向または位置でありうる。

本発明の任意的な特徴によれば、前記バイノーラル回路は反響器（reverberator）を有し、前記適応回路は、音響環境パラメータに応答して前記反響器の反響処理を適応させるよう構成される。

これは、修正された両耳伝達関数を反映するよう前記処理を修正するための特に実際的なアプローチを提供しうる。前記反響器は、特性を適応させるための特に効率的な、それでいて制御するのが十分単純なアプローチを提供しうる。反響器はたとえば非特許文献２に記載されている。

本発明のある側面によれば、請求項１４記載のオーディオ・システムの動作方法が提供される。

本発明のこれらおよびその他の側面、特徴および利点は、以下に記載される実施形態を参照することから明白となり、明快にされるであろう。

本発明の実施形態について単に例として、付属の図面を参照しつつ述べる。
MPEGサラウンドで拡張されたステレオ・コア・コーデックのブロック図である。 MPEGサラウンドで拡張され、バイノーラル出力信号を与えるステレオ・コア・コーデックのブロック図である。本発明のいくつかの実施形態に基づくオーディオ・システムの諸要素の例を示す図である。本発明のいくつかの実施形態に基づくバイノーラル・プロセッサの諸要素の例を示す図である。本発明のいくつかの実施形態に基づくバイノーラル信号プロセッサの諸要素の例を示す図である。本発明のいくつかの実施形態に基づくバイノーラル信号プロセッサの諸要素の例を示す図である。ジョー反響器の諸要素の例を示す図である。

図３は、本発明のいくつかの実施形態に基づくオーディオ・システムの例を示している。本オーディオ・システムは、ユーザーの各耳のための信号を含むバイノーラル信号を生成することによって空間的音源位置をエミュレートする仮想音システムである。典型的には、バイノーラル・オーディオは一対のヘッドホン、イヤホンなどを介してユーザーに与えられる。

本オーディオ・システムは、本オーディオ・システムによってレンダリングされるべきオーディオ信号を受領する受領器３０１を有する。オーディオ信号は、所望される仮想位置をもつ音源としてレンダリングされることが意図されている。よって、本オーディオ・システムは、ユーザーが（少なくとも近似的に）、信号が所望される位置または少なくとも方向から発していると知覚するよう、オーディオ信号をレンダリングする。

今の例では、このように、オーディオ信号は単一のオーディオ源に対応すると考えられる。よって、オーディオ信号は一つの所望される位置に関連付けられている。オーディオ信号はたとえばある空間的チャンネル信号に対応していてもよく、特に、オーディオ信号は空間的な多チャンネル信号の単一の信号であってもよい。そのような信号は暗黙的に、所望される関連付けられた位置を有しうる。たとえば、中央チャンネル信号は、聴取者の正面の位置に関連付けられ、前右チャンネルは聴取者の前方右の位置に関連付けられ、後左信号は聴取者の背後の左の位置に関連付けられる、などである。このように、本オーディオ・システムは、この信号を、この位置から到着するように感じられるようレンダリングしてもよい。

もう一つの例として、オーディオ信号はオーディオ・オブジェクトであってもよく、たとえば、ユーザーが（仮想）空間中で自由に位置付けできるオーディオ・オブジェクトであってもよい。よって、いくつかの例では、所望される位置は、たとえばユーザーによってローカルに生成または選択されてもよい。

オーディオ信号はたとえば、時間領域信号として表現、提供および／または処理されてもよい。代替的または追加的に、オーディオ信号は周波数領域信号として提供および／または処理されてもよい。実際、多くのシステムにおいて、オーディオ・システムはそのような表現間で切り換えることができ、前記処理を、その特定の動作のために最も効率的な領域で適用することができてもよい。

いくつかの実施形態では、オーディオ信号は時間周波数タイル信号として表現されてもよい。このように、信号は、タイルに分割されてもよい。ここで、各タイルはある時間区間および周波数区間に対応する。これらの各タイルについて、信号は一組の値によって表現されてもよい。典型的には、単一の複素信号値が各時間周波数タイルについて与えられる。

本記述では、単一のオーディオ信号が記述され、仮想位置からレンダリングされるべく処理される。しかしながら、たいていの例において、聴取者に対してレンダリングされる音は、多くの異なる音源からの音を含む。よって、典型的な諸実施形態では、複数のオーディオ信号が、典型的には異なる仮想位置から受領され、レンダリングされる。たとえば、仮想サラウンド・サウンド・システムについては、典型的には空間的な多チャンネル信号が受信される。そのようなシナリオでは、各信号は典型的には個々に、以下で単一のオーディオ信号について述べるように処理され、その後組み合わされる。もちろん、異なる信号は典型的には異なる位置からレンダリングされ、よって異なる両耳伝達位置が適用されうる。

同様に、多くの実施形態において、いくつかのオーディオ・オブジェクトが受領されてもよく、これらのそれぞれ（またはこれらの組み合わせ）が、述べるように、個々に処理されてもよい。

たとえば、オブジェクトまたは信号の組み合わせを、両耳伝達関数の組み合わせをもってレンダリングして、オブジェクトの組み合わせ中の各オブジェクトが異なる仕方で、たとえば異なる位置にレンダリングされるようにすることが可能である。いくつかのシナリオでは、オーディオ・オブジェクトまたは信号の組み合わせは、組み合わされたエンティティとして処理されてもよい。たとえば、前左およびサラウンド左チャンネルの減数混合が、二つの対応する両耳伝達関数の重み付けされた混合からなる両耳伝達関数をもってレンダリングされることができる。

次いで、出力信号は、異なるオーディオ信号のそれぞれについて生成されたバイノーラル信号を組み合わせる（たとえば足し合わせる）ことによって生成されてもよい。

このように、以下の記述は単一のオーディオ信号に焦点を当てるが、これは単に、複数のオーディオ信号のうちの一つの音源に対応するオーディオ信号の単一成分と考えられてもよい。

受領器３０１は、バイノーラル・プロセッサ３０３に結合されている。バイノーラル・プロセッサ３０３はオーディオ信号を受領し、該オーディオ信号を処理することによってバイノーラル出力信号を生成する。バイノーラル・プロセッサ３０３は一対のヘッドホン３０５に結合されており、これにバイノーラル信号が入力される。このように、バイノーラル信号は左耳のための信号および右耳のための信号を含む。

ヘッドホンの使用は多くの用途にとって典型的でありうるものの、記述される発明および原理はそれに限定されないことは理解されるであろう。たとえば、いくつかの状況では、音はユーザーの前方または（たとえば肩に取り付ける装置を使う）ユーザーの側方のスピーカーを通じてレンダリングされてもよい。いくつかのシナリオでは、両耳処理は、そのような場合、二つのスピーカー間の漏話を補償する（たとえば、右耳に聞こえてしまう左スピーカーからの音成分について右スピーカー信号を補償することができる）追加的な処理により向上させられてもよい。

バイノーラル・プロセッサ３０３はオーディオ信号処理を、該処理が、バイノーラル出力信号において前記オーディオ信号についての仮想音源位置を与える両耳伝達関数を表すよう処理するよう構成されている。図３のシステムでは、両耳伝達関数は、オーディオ信号に適用されてバイノーラル出力信号を生成する伝達関数である。よって、バイノーラル・プロセッサ３０３の処理の組み合わされた効果を反映しており、いくつかの実施形態では非線形効果、フィードバック効果などを含んでいてもよい。

前記処理の一部として、バイノーラル・プロセッサ３０３は、処理される信号に対して、仮想位置付け両耳伝達関数（virtual positioning binaural transfer function）を適用してもよい。具体的には、オーディオ信号からバイノーラル出力信号への信号経路の一部として、仮想位置付け両耳伝達関数が信号に対して適用される。

両耳伝達関数は具体的には、頭部伝達関数（HRTF）、頭部インパルス応答（IRIR）および／または両耳室内インパルス応答（BRIR）を含む。インパルス応答および伝達関数という用語は等価と考えられる。よって、バイノーラル出力信号は、聴取者頭部および典型的には部屋によって導入されるオーディオ整形（conditioning）を反映するよう生成され、それによりオーディオ信号は所望される位置で発しているように感じられる。

図４は、バイノーラル・プロセッサ３０３の例をより詳細に示している。この個別的な例では、オーディオ信号はバイノーラル信号プロセッサ４０１に入力され、バイノーラル信号プロセッサ４０１は両耳伝達関数に従ってオーディオ信号をフィルタリングすることに進む。バイノーラル信号プロセッサ４０１は二つのサブフィルタを有する。つまり、左耳チャンネルのための信号を生成するためのサブフィルタと、右耳チャンネルのための信号を生成するためのサブフィルタである。図４の例では、生成されたバイノーラル信号は増幅器４０３に入力され、増幅器４０３が左および右信号を独立に増幅し、次いでそれらをそれぞれヘッドホン３０５の左スピーカーおよび右スピーカーに入力する。

バイノーラル信号プロセッサ４０１についてのフィルタ特性は、オーディオ信号についての所望される仮想位置に依存する。今の例では、バイノーラル・プロセッサ３０３は、フィルタ特性を決定してそれをバイノーラル信号プロセッサ４０１に入力する係数プロセッサ４０５を有する。係数プロセッサ４０５は特に、位置指標を受領し、しかるべく適切なフィルタ・コンポーネントを選択してもよい。

いくつかの実施形態では、オーディオ信号はたとえば時間領域信号であってもよく、両耳信号プロセッサ４０１はIIRまたはFIRフィルタのような時間領域フィルタであってもよい。そのようなシナリオでは、係数プロセッサ４０５はたとえばフィルタ係数を与えてもよい。もう一つの例として、オーディオ信号は周波数領域に変換されてもよく、フィルタ処理は周波数領域で、たとえば各周波数成分にフィルタの周波数伝達関数に対応する複素数値を乗算することによって、適用されてもよい。いくつかの実施形態では、処理は完全に時間周波数タイル上で実行されてもよい。

いくつかの実施形態では、オーディオ信号に対して他の処理も適用されてもよい。たとえば、高域通過フィルタ処理または低域通過フィルタ処理が適用されてもよい。仮想音位置付け両耳処理（virtual sound positioning binaural processing）が他の処理と組み合わされてもよいことも理解されるであろう。たとえば、空間的パラメータに応答してのオーディオ信号の増数混合動作が両耳処理〔バイノーラル処理〕と組み合わされてもよい。たとえば、MPEGサラウンド信号について、時間周波数タイルによって表現される入力信号が、種々の空間的パラメータを適用することによって、種々の空間的信号に増数変換されてもよい。このように、所与の増数混合された信号について、各時間周波数タイルは空間的パラメータ／増数混合に対応する複素数値の乗算をされもよい。結果として得られる信号は次いで、各時間周波数タイルに両耳伝達関数に対応する複素数値を乗算することによる両耳処理にかけられてもよい。もちろん、いくつかの実施形態では、これらの動作は組み合わされて、各時間周波数タイルが増数混合および両耳処理の両方を表す単一の複素数値（これは特に、二つの別個の複素数値の乗算に対応してもよい）を乗算されるようにしてもよい。

従来のバイノーラル仮想空間的オーディオでは、両耳処理は、測定によって導出された所定の両耳伝達関数に基づいていた。該測定は典型的にはダミーの耳内に位置されたマイクロホンを使う。HRTFおよびHRIRについては、ユーザーの影響だけが考慮に入れられ、環境は考慮に入れられない。しかしながら、BRIRが使われるときは、測定が行われた部屋の部屋特性も含められる。これは、多くのシナリオにおいて改善されたユーザー経験を提供しうる。実際、ヘッドホンを通じた仮想サラウンド・オーディオが、測定がなされた部屋で再生されるときに、説得力のある頭外定位が得られることが見出されている。しかしながら、他の環境では、特に音響特性が非常に異なる環境では（すなわち、再生と測定した部屋の間に明瞭なミスマッチがある場合には）、知覚される頭外定位は著しく劣化しうる。

図３のシステムでは、そのような劣化は、両耳処理を適応させることによって有意に緩和および軽減される。

具体的には、図３のオーディオ・システムはさらに、システムが使われる音響環境に依存するまたはこれを反映する現実世界の測定を実行する測定回路３０７を有している。こうして、測定回路３０７は、音響環境の特性を示す測定データを生成する。

今の例では、システムは、オーディオ信号を捕捉するマイクロホン３０９に結合されている。だが、他の実施形態では、他のセンサーおよび他のモダリティが追加的または代替的に使われてもよいことは理解されるであろう。

測定回路３０７は、測定データを受領し、それに応答して音響環境パラメータを生成することに進むパラメータ・プロセッサ３１１に結合されている。このように、仮想音がレンダリングされる個別的な音響環境を示すパラメータが生成される。たとえば、パラメータは、部屋がどの程度エコーがあるまたは反響するかを示してもよい。

パラメータ・プロセッサ３１１は、決定された音響環境パラメータに依存してバイノーラル・プロセッサ３０３によって使われる両耳伝達関数を適応させるよう構成された適応プロセッサ３１３に結合されている。たとえば、パラメータが非常に反響のある部屋を示す場合、BRIRによって測定されるより高い度合いの反響を反映するよう両耳伝達関数が修正されてもよい。

このように、図３のシステムは、使われているオーディオ環境をよりよく反映するようレンダリングされる仮想音を適応させることができる。これは、より一貫するかつ自然に思える仮想音提供を提供しうる。特に、視覚的な位置手がかりが、提供されるオーディオ位置手がかりとよりよく整合することを許容しうる。

本システムは両耳伝達関数を動的に更新してもよく、この動的な更新はいくつかの実施形態ではリアルタイムで実行されてもよい。たとえば、測定プロセッサ３０７は連続的に測定を実行して現在測定データを生成してもよい。これは、連続的に更新される音響環境パラメータおよび両耳伝達関数の連続的に更新される適応に反映されてもよい。このように、両耳伝達関数は現在のオーディオ環境を反映するよう連続的に修正されてもよい。

これは、非常に魅力的なユーザー経験を提供しうる。個別的な例として、浴室は、非常に硬く、音響的に非常に反射性が高く、ほとんど減衰のない表面が支配的である傾向がある。対照的に、寝室は、軟らかく、特に高めの周波数について減衰させる表面が支配的である傾向がある。このように、仮想サラウンド・サウンドを提供する一対のヘッドホンを着用している人物は、図３のシステムにより、ユーザーが浴室から寝室へ、またはその逆に行くときに自動的に調整される仮想音を提供されることができる。よって、ユーザーが浴室を出て寝室にはいるとき、音は自動的に、新しい音響環境を反映して反響やエコーが少なくなる。

使用される厳密な音響環境パラメータは個々の実施形態の選好および要求に依存しうることは理解されるであろう。しかしながら、多くの実施形態において、音響環境パラメータが、音響環境についての反響パラメータを含むことは、特に有利でありうる。

実際、反響は、比較的低計算量のアプローチを使って比較的正確に測定できる特性であるだけでなく、ユーザーのオーディオ知覚に、特にユーザーの空間的知覚にとりわけ著しい影響をもつ特性でもある。

特定の測定および測定されるパラメータが個々の実施形態の個別的な要求および選好にも依存することは理解されるであろう。以下では、音響環境パラメータおよびこれを生成する方法のさまざまな有利な例について述べる。

いくつかの実施形態では、音響環境パラメータは、音響環境についての残響時間を示すパラメータを含んでいてもよい。残響時間は、反射が特定のレベルにまで低下するのにかかる時間として定義されてもよい。たとえば、残響時間は、反射のエネルギー・レベルが60dB低下するのにかかる時間として決定されてもよい。この値は典型的にはT60によって表される。

残響時間T60はたとえば

によって決定されてもよい。ここで、Vは部屋の容積であり、aは等価吸音面積の推定値である。

いくつかの実施形態では、部屋の所定の特性（Vおよびaなど）がいくつかの異なる部屋について知られていてもよい（たとえばユーザーが手動で値を入力することにより）。すると、システムは、単にユーザーが現在どの部屋にいるかを決定する測定を実行することに進む。次いで、対応するデータが取得され、残響時間を計算するために使われてもよい。部屋の決定は、オーディオ特性を、各部屋内の測定され記憶されているオーディオ特性と比較することによってでもよい。もう一つの例として、カメラが部屋の画像を撮影し、これをどのデータが取得されるべきかを選択するために使ってもよい。さらにもう一つの例として、測定は位置推定を含んでいてもよく、その位置に対応する部屋についての適切なデータが取得されてもよい。さらにもう一つの例では、ユーザーが好む音響レンダリング・パラメータが、GPSセルから導出される位置情報、特定のWiFiアクセス・ポイントの近さまたは人工光と自然光を弁別してユーザーが屋内にいるか屋外にいるかを判定する光センサーに関連付けられる。

もう一つの例として、残響時間は非特許文献３により詳細に記載される、二つのマイクロホン信号の具体的な処理によって決定されてもよい。

いくつかの実施形態では、本システムは音響環境についてインパルス応答を決定してもよい。次いで、インパルス応答は音響環境パラメータを決定するために使われてもよい。たとえば、インパルスを評価して、インパルス応答のレベルが所定のレベルに低下するまでの時間の長さを決定してもよい。たとえば、T60値は、応答が60dB下がるまでのインパルス応答の継続時間として決定される。

インパルス応答を決定するための任意の好適なアプローチが使用されうることは理解されるであろう。

たとえば、本システムは、音響環境中に放射される音試験信号を生成する回路を含んでいてもよい。たとえば、ヘッドホンが外部スピーカーを含んでいてもよく、あるいは別のスピーカー・ユニットが使用されてもよい。

次いでマイクロホン３０９はオーディオ環境をモニタリングし、捕捉されたマイクロホン信号からインパルス応答が生成される。たとえば、非常に短いパルスが放射されてもよい。この信号はエコーおよび反響を生成するよう反射される。このように、試験信号はディラック・インパルスを近似してもよく、よって、マイクロホンによって捕捉される信号はいくつかのシナリオではインパルス応答を直接反映してもよい。そのようなアプローチは、他のオーディオ源からの干渉が存在しない非常に静穏な環境に特に好適でありうる。他のシナリオでは、試験信号は既知の信号（擬似ノイズ信号など）であってもよく、マイクロホン信号は試験信号と相関付けされてインパルス応答を生成してもよい。

いくつかの実施形態では、音響環境パラメータは、直接経路エネルギーに対する反響エネルギーの指標を含んでいてもよい。たとえば、測定された（直接サンプリングされた）BRIR h[n]について、直接音エネルギー対反響エネルギー比Rは次のように決定できる。

ここで、Tは直接音と反響音を弁別するための好適な閾値である（典型的には5〜50ms）。

いくつかの実施形態では、音響環境パラメータは、室内インパルス応答の少なくとも一部の周波数スペクトルを反映してもよい。たとえば、インパルス応答は、たとえばFFTを使って周波数領域に変換されてもよく、結果として得られる周波数スペクトルが解析されてもよい。

たとえば、モード密度（modal density）が決定されてもよい。モードは、室内のオーディオについての共振または定常波効果に対応する。よって、モード密度は、周波数領域におけるピークから検出されうる。そのようなモード密度の存在は、室内での音に影響することがあり、よってモード密度の検出は、レンダリングされる仮想音に対する対応する影響を与えるために使用されてもよい。

他のシナリオでは、モード密度はたとえば部屋の特性から、よく知られた公式を使って計算されてもよいことは理解されるであろう。たとえば、モード密度は部屋の大きさの知識から計算できる。具体的には、モード密度は次のように計算できる。

ここで、cは音速、fは周波数である。

いくつかの実施形態では、エコー密度（echo density）が計算されてもよい。エコー密度は、室内でいくつのエコーがどのくらい密集しているかを反映する。たとえば、小さな寝室では、比較的近接したエコーが比較的多数存在する傾向があり、一方、大きな寝室では、それほど密集していない（かつそれほど強力でない）より少数のエコーが存在する傾向がある。よって、そのようなエコー密度パラメータは、仮想音レンダリングを適応させるために有利に使用されることができ、測定されたインパルス応答から計算されてもよい。

エコー密度はインパルス応答から決定されてもよく、あるいはよく知られた公式を使って部屋の特性から計算されてもよい。たとえば、時間的なエコー密度は次のように計算されてもよい。

ここで、tは時間ラグである。

いくつかの実施形態では、単に早期反射のレベルを評価することが有利であることがある。たとえば、短いインパルス試験信号が放射されてもよく、本システムは所与の時間区間、たとえばインパルス送出後の50msecにおいてマイクロホン信号の組み合わされた信号レベルを決定してもよい。その時間区間内に受領されるエネルギーは、早期エコーの有意性の、低計算量だが非常に有用な尺度を提供する。

いくつかの実施形態では、音響環境パラメータは、両耳間のコヒーレンス／相関を反映するよう決定されてもよい。二つの耳の間の相関／コヒーレンスは、たとえば、それぞれ左および右のイヤピース内に位置された二つのマイクロホンからの信号から決定されてもよい。両耳間の相関は拡散性（diffuseness）を反映してもよく、レンダリングされる仮想音を補正するための特に有利な基礎を提供しうる。拡散性は、部屋がどのくらい反響するかの指標を与えるからである。反響のある部屋は、ほとんどまたは全く反響のない部屋よりも拡散性があることになろう。

いくつかの実施形態では、音響環境パラメータは単に部屋サイズ推定値であるまたは部屋サイズ推定値を含んでいてもよい。実際、これまでの例から明らかに見て取れるように、部屋サイズは部屋の音特性に対して有意な効果をもつ。特に、エコーおよび反響はそれに強く依存する。したがって、いくつかのシナリオでは、レンダリングされる音の適応は、単に、測定に基づく部屋サイズの決定に基づいていてもよい。

室内インパルス応答を決定する以外のアプローチが使われることができることは理解されるであろう。たとえば、測定システムは代替的または追加的に、視覚、光、レーダー、超音波、レーザー、カメラまたは他の感覚測定（sensory measurement）といった他のモダリティを使ってもよい。そのようなモダリティは、反響特性を決定できるもとになる部屋サイズを推定するために特に好適でありうる。もう一つの例として、そのようなモダリティは、反射特性（たとえば壁面反射の周波数応答）を推定するために好適であることがある。たとえば、カメラは部屋が浴室に対応することを判別してもよく、よって典型的なタイル張りの表面に対応する反射特性を想定してもよい。もう一つの例として、絶対的または相対的な位置情報が使われてもよい。

さらにもう一つの例として、超音波センサーおよび超音波試験信号の放射に基づく超音波レンジ決定が部屋のサイズを推定するために使用されてもよい。他の実施形態では、光スペクトルに基づく推定を得るために光センサーが使用されてもよい（たとえば、自然光を検出するか人工光を検出するかを評価して、それにより内部環境または外部環境の間の弁別を許容する）。また、GPSに基づく位置情報も有用でありうる。もう一つの例として、ある種のWiFiアクセス・ポイントまたはGSM（登録商標）セル識別子の検出および認識が、どの両耳伝達関数を使うべきかを特定するために使用されることができる。

オーディオ測定は多くの実施形態では有利にはオーディオ試験信号の放射に基づくが、実施形態によっては試験信号を使わなくてもよいことも理解されるであろう。たとえば、いくつかの実施形態では、反響、周波数応答またはインパルス応答のようなオーディオ特性の決定は、現在の物理的な部屋内の他の源によって生成される音（たとえば足音、ラジオなど）を解析することにより受動的になされてもよい。

図３のシステムでは、バイノーラル・プロセッサ３０３の処理は次いで、音響環境パラメータに応答して修正される。具体的には、バイノーラル信号プロセッサ４０１はオーディオ信号を両耳伝達関数に従って処理する。ここで、両耳伝達関数は音響環境パラメータに依存する。

いくつかの実施形態では、両耳信号プロセッサ４０１は、複数の異なる音響環境に対応する両耳伝達関数データを記憶するデータ記憶部を有していてもよい。たとえば、典型的な浴室、寝室、居間、キッチン、ホール、自動車、列車などといったいくつかの異なる部屋種別について一つまたは複数のBRIRが記憶されていてもよい。各種別について、異なる部屋サイズに対応する複数のBRIRが記憶されていてもよい。各BRIRについて、BRIRが測定された部屋の特性がさらに記憶される。

バイノーラル信号プロセッサ４０１はさらに、音響環境パラメータを受領し、応答して前記記憶部から適切な両耳伝達関数データを取得するよう構成されたプロセッサを有していてもよい。たとえば、音響環境パラメータは、部屋サイズ指標、早期エネルギーと後期エネルギーの比の指標および残響時間を含む複合パラメータであってもよい。すると、プロセッサは、記憶されているデータを探索して、記憶されている部屋特性が測定された部屋特性に最もよく似るBRIRを見出してもよい。

次いでプロセッサは、最もよくマッチするBRIRを取得し、それをオーディオ信号に適用してバイノーラル信号を生成する。該バイノーラル信号が、増幅後、ヘッドホンに入力される。

いくつかの実施形態では、前記データ記憶部は、動的に更新および／または発展されてもよい。たとえば、ユーザーが新しい部屋にいるとき、音響環境パラメータが決定され、その部屋にマッチするBRIRを生成するために使われてもよい。次いでそのBRIRがバイノーラル出力信号を生成するために使われてもよい。しかしながら、さらに、BRIRは前記データ記憶部に、その部屋の、音響環境パラメータ、可能性としては位置などといった適切な決定された特性と一緒に記憶されてもよい。このようにして、データ記憶部は、新しいデータが生成されるにつれてその時々に該新しいデータをもって、動的に構築され向上させられてもよい。すると、BRIRはその後、第一原理から決定する必要なしに使うことができる。たとえば、ユーザーが以前に当該装置を使ったことがある部屋に戻るとき、そのことが自動的に検出され、記憶されているBRIRが取得され、バイノーラル出力信号を生成するために使われる。好適なBRIRが入手可能でない場合にのみ、新しいBRIRを生成することが必要になる（その新しいBRIRはその後記憶される）。そのようなアプローチは、複雑さおよび処理資源を軽減しうる。

いくつかの実施形態では、バイノーラル信号プロセッサ４０１は二つの信号処理ブロックを有する。第一のブロックは、所定の／固定した仮想位置両耳伝達関数に対応する処理を実行してもよい。このように、このブロックは、参照測定に基づいて、たとえばシステムの設計の際に生成されうる参照BRIR、HRIRまたはHRTFに従って入力信号を処理してもよい。第二の信号処理ブロックは、音響環境パラメータに応答して部屋シミュレーションを実行するよう構成されていてもよい。このように、この例では、全体的な両耳伝達関数は、固定した所定のBRIR、HRIRまたはHRTFからの、および適応的な部屋シミュレーション・プロセスのための寄与を含む。このアプローチは、複雑さを減らし、設計を容易にしうる。たとえば、多くの実施形態において、特定の所望される仮想位置付けを考慮する部屋シミュレーション処理なしに正確な部屋適応を生成することが可能である。このように、仮想位置付けおよび部屋適応が分離されることができ、それぞれがこれらの側面の一方のみを考慮すればよい個別的な信号処理ブロックをもつ。

たとえば、BRIR、HRIRまたはHRTFは所望される仮想位置に対応するよう選択されてもよい。結果として得られるバイノーラル信号は次いで修正されて、部屋の反響特性にマッチする反響特性をもつようにされる。しかしながら、この修正は、オーディオ源の特定の位置とは独立と考えられてもよく、そのため音響環境パラメータだけを考えればよい。このアプローチは、部屋シミュレーションおよび適応を著しく容易にしうる。

個々の処理は並列にまたは直列に実行されうる。図５は、固定したHRTF処理５０１および可変な適応的部屋シミュレーション処理５０３が並列にオーディオ信号に適用される例を示している。結果として得られる信号は次いで単純な加算５０５によって組み合わされる。図６は、固定したHRTF処理６０１および可変な適応的部屋シミュレーション処理６０３が直列に実行されて、HRTF処理によって生成されたバイノーラル信号に対して適応的部屋シミュレーション処理が適用される例を示している。他の実施形態では処理の順序は逆にされてもよいことは理解されるであろう。

いくつかの実施形態では、固定したHRTF処理を個々に各チャンネルに適用し、可変な適応的な部屋シミュレーション処理を並列な全チャンネルの混合に対して一度に適用することが有利であることがある。

バイノーラル信号プロセッサ４０１は特に、本オーディオ・システムからの出力バイノーラル信号が音響環境パラメータに反映される特性（単数または複数）によりよく似る特性をもつよう両耳伝達関数を修正しようとしてもよい。たとえば、長い残響時間を示す音響環境パラメータについては、生成される出力バイノーラル信号の残響時間が増大させられる。たいていの実施形態では、残響特性は、生成された仮想音と音響環境との間のより緊密な相関を与えるよう適応させるのに特に好適なパラメータである。

これは、バイノーラル信号プロセッサ４０１の部屋シミュレーション信号処理５０３、６０３を修正することによって達成されてもよい。

特に、部屋シミュレーション信号処理５０３、６０３は多くの実施形態において、音響環境パラメータに応答して適応される反響器を有していてもよい。

早期反射のレベルは、HRIR、HRTFまたはBRIRのレベルに対する早期反射を含む反響部分のインパルス応答の少なくとも一部のレベルを調整することによって制御できる。

このように、合成反響アルゴリズムは、推定された部屋パラメータに基づいて制御されてもよい。

さまざまな合成反響器が知られており、任意の好適なそのような反響器を使用できることは理解されるであろう。

図７は、一体の（unitary）フィードバック・ネットワーク反響器として、特にジョー（Jot）反響器として実装される部屋シミュレーション信号処理の個別的な例を示している。

部屋シミュレーション信号処理５０３、６０３はバイノーラル出力信号の特性を修正するようジョー反響器のパラメータを適応させることに進んでもよい。具体的には、音響環境パラメータについて先述した特性の一つまたは複数を修正することができる。

実際、図７のジョー反響器の例では、モードおよびエコー密度は、遅延（mi）の相対値および絶対値を変えることによって修正できる。フィードバック・ループ内の利得の値を適応させることによって、残響時間が制御できる。さらに、周波数依存のT60は、利得を適切なフィルタ（h(z)）で置き換えることによって制御できる。

バイノーラル反響については、N個の分枝の出力が種々の仕方（αi、βi）で組み合わされることができる。これにより相関0をもつ二つの反響尾部を生成することができる。二つの反響出力のICCを制御するために、一対の合同設計された（jointly designed）フィルタ（c1(z)、c2(z)）が結果的に用いられることができる。

ネットワーク中のもう一つのフィルタ（tL(z)、tR(z)）は反響のスペクトル等化を制御するために使用できる。また、反響の全体的な利得はこのフィルタに組み込まれることができる。それにより、直接部分と反響部分の比、すなわち直接音エネルギーに対する反響エネルギーの比に対する制御が許容される。

ジョー反響器の使用について、特に時間および周波数密度と反響器パラメータとの間の関係ならびに所望される周波数依存T60から反響器パラメータへの変換についてのさらなる詳細は、非特許文献２に見出すことができる。

バイノーラル・ジョー反響器の使用について、特に所望される両耳間コヒーレンス／相関および音色（coloration）をいかにして反響器パラメータに変換するかについてのさらなる詳細は、非特許文献４に見出すことができる。

いくつかの実施形態では、音響環境パラメータおよび両耳伝達関数は、レンダリングされる音を音響環境に対して連続的に適応させるよう動的に修正されてもよい。しかしながら、他の実施形態では、両耳伝達関数は、音響環境パラメータがある基準を満たすときに修正されるだけでもよい。具体的には、要件は、音響環境パラメータが、現在の処理パラメータを設定するときに使われた音響環境パラメータから、所定の閾値より大きく違っていなければならないというものであってもよい。よって、いくつかの実施形態では、両耳伝達関数は、部屋特性（単数または複数）の変化が所定のレベルを超える場合に更新されるだけである。これは、多くのシナリオにおいて、音のより安定したレンダリングをもつ改善された聴取経験を提供しうる。

いくつかの実施形態では、両耳伝達関数の修正は瞬間的であってもよい。たとえば、異なる残響時間が突然測定される場合（たとえばユーザーが異なる部屋に移ったため）、システムは音レンダリングがそれに対応するよう、残響時間をすぐに変えてもよい。しかしながら、他の実施形態では、システムは、変化の速度を制約する、よって両耳伝達関数を徐々に修正するよう構成されていてもよい。たとえば、遷移は1〜5秒などの時間期間にわたって徐々に実施されてもよい。遷移はたとえば、両耳伝達関数についての目標値の補間によって達成されてもよいし、あるいはたとえば前記処理を適応させるために使われる音響環境パラメータ値の徐々の遷移によって達成されてもよい。

いくつかの実施形態では、測定された音響環境パラメータおよび／または対応する処理パラメータはのちのユーザーのために記憶されてもよい。たとえば、ユーザーはのちに、以前に決定された値から選択してもよい。そのような選択は、たとえばシステムが現在の環境の特性が以前に測定された特性をよく反映していることを検出することによって、自動的に実行されてもよい。そのようなアプローチは、ユーザーが頻繁に部屋に出入りするシナリオについて実際的でありうる。

いくつかの実施形態では、両耳伝達関数は、部屋毎に適応されてもよい。実際、音響環境パラメータは全体としての部屋の特性を反映してもよい。このように、両耳伝達関数は部屋をシミュレートし、部屋特性を考慮に入れるときに仮想空間的レンダリングを提供するために更新される。

いくつかの実施形態では、しかしながら、音響環境パラメータは部屋についての音響特性を反映するのみならず、部屋の中でのユーザーの位置をも反映してもよい。たとえば、ユーザーが壁に近い場合、早期反射と後期反響との比は変わることがあり、音響環境パラメータはこれを反映してもよい。これは、早期反射と後期反響の同様の比を与えるよう、両耳伝達関数を修正させてもよい。このように、ユーザーが壁に向かって動くにつれ、直接的な早期エコーはレンダリングされる音においてより有意になり、反響尾部は低下する。ユーザーが壁から遠ざかると、逆のことが起こる。

いくつかの実施形態では、本システムは、ユーザー位置に応答して両耳伝達関数を更新するよう構成されていてもよい。これは、上記の例において述べられるようにして間接的になされてもよい。具体的には、適応は、ユーザーの位置に依存する、特に部屋の中でのユーザーの位置に依存する音響環境パラメータを決定することによって間接的に行われてもよい。

いくつかの実施形態では、ユーザー位置を示す位置パラメータが生成され、両耳伝達関数を適応させるために使われてもよい。たとえば、カメラが設置され、視覚的検出技法を使って部屋の中でユーザーを位置特定してもよい。対応する位置推定値は次いでオーディオ・システムに（たとえば無線通信を使って）伝送されてもよく、両耳伝達関数を適応させるために使われてもよい。

上記の記述は明確のため本発明の実施形態を、種々の機能的な回路、ユニットおよびプロセッサに言及しつつ記述していることが理解されるであろう。しかしながら、本発明を損なうことなく、異なる機能的な回路、ユニットまたはプロセッサの間での任意の好適な機能の分配が使用されうることは明白であろう。たとえば、別個のプロセッサまたはコントローラによって実行されるよう示されている機能が同じプロセッサまたはコントローラによって実行されてもよい。よって、特定の機能ユニットまたは回路への言及は、厳密な論理的または物理的な構造または編成を示すというよりは、記載される機能を提供する好適な手段に言及したものとしてのみ見るべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組み合わせを含むいかなる好適な形で実装されることもできる。本発明は任意的に、少なくとも部分的に、一つまたは複数のデータ・プロセッサおよび／またはデジタル信号プロセッサ上で走るコンピュータ・ソフトウェアとして実装されてもよい。本発明のある実施形態の要素およびコンポーネントは、物理的、機能的および論理的に、任意の好適な仕方で実装されてもよい。実際、機能は単一のユニットに、複数のユニットに、または他の機能ユニットの一部として実装されてもよい。よって、本発明は、単一のユニットで実装されてもよいし、あるいは物理的および機能的に異なるユニット、回路およびプロセッサの間で分散されていてもよい。

本発明はいくつかの実施形態との関連で述べてきたが、本稿に記載される特定の形に限定されることは意図されていない。むしろ、本発明の範囲は付属の請求項によってのみ限定される。さらに、ある特徴が特定の実施形態との関連で記載されているように見えることがありうるが、当業者は、記載される諸実施形態のさまざまな特徴が本発明に基づいて組み合わされてもよいことを認識するであろう。請求項において、有する／含むの語は他の要素またはステップの存在を排除するものではない。

さらに、個別に挙げられてはいても、複数の手段、要素、回路または方法ステップが、たとえば単一の回路、ユニットまたはプロセッサによって実装されてもよい。さらに、個々の特徴が異なる請求項に含まれていたとしても、それらは可能性としては有利に組み合わされうるのであって、異なる請求項に含まれていることが、特徴の組み合わせが実現可能でないおよび／または有利でないことを含意するものではない。また、ある特徴があるカテゴリーの請求項に含まれていることは、このカテゴリーへの限定を含意するのではなく、むしろ、その特徴が適宜他のカテゴリーの請求項にも等しく適用可能であることを示す。さらに、請求項における特徴の順序は、それらの特徴が作用しなければならないいかなる特定の順序をも含意しない。特に、方法請求項における個々のステップの順序はそれらのステップがその順序で実行されなければならないことを含意するものではない。むしろ、ステップは任意の好適な順序で実行されうる。さらに、単数形での言及は複数を排除するものではない。「ある」「第一の」「第二の」などの言及は複数を排除するものではない。請求項における参照符号は、単に明快にするための例として与えられているのであって、いかなる仕方であれ特許請求の範囲を限定するものと解釈してはならない。

Claims

オーディオ信号を受領する受領器と；
前記オーディオ信号を処理することによってヘッドホン出力用のバイノーラル出力信号を生成するバイノーラル回路であって、前記処理は前記オーディオ信号について仮想音源位置を与える両耳伝達関数を表す、回路と；
前記ヘッドホンにより意図された音場の外部の音響環境の特性を示す測定データを生成する測定回路と；
前記測定データに応答して音響環境パラメータを決定する決定回路と；
前記音響環境パラメータに応答して前記両耳伝達関数を適応させる適応回路とを有するオーディオ・システムであって、
前記適応回路は前記音響環境の変化と同様な音響効果をもたらすよう前記両耳伝達関数を動的に更新するよう構成されている、
オーディオ・システム。
前記音響環境パラメータが、前記音響環境についての反響パラメータを含む、請求項１記載のオーディオ・システム。
前記音響環境パラメータが：
・残響時間；
・直接経路エネルギーに対する反響エネルギー；
・室内インパルス応答の少なくとも一部の周波数スペクトル；
・室内インパルス応答の少なくとも一部のモード密度；
・室内インパルス応答の少なくとも一部のエコー密度；
・両耳間のコヒーレンスまたは相関；
・早期反射のレベル；および
・部屋サイズ推定値
のうちの少なくとも一つを含む、請求項１記載のオーディオ・システム。
前記適応回路が、前記両耳伝達関数の反響特性を適応させるよう構成されている、請求項１記載のオーディオ・システム。
前記適応回路は、前記両耳伝達関数の次の特性、すなわち：
・残響時間；
・直接音エネルギーに対する反響エネルギー；
・前記両耳伝達関数の少なくとも一部の周波数スペクトル；
・前記両耳伝達関数の少なくとも一部のモード密度；
・前記両耳伝達関数の少なくとも一部のエコー密度；
・両耳間のコヒーレンスまたは相関；および
・前記両耳伝達関数の少なくとも一部の早期反射のレベル
のうちの少なくとも一つを適応させるよう構成されている、請求項１記載のオーディオ・システム。
前記処理は、所定の両耳伝達関数と、前記音響環境パラメータに応答して適応された可変な両耳伝達関数との組み合わせを含む、請求項１記載のオーディオ・システム。
前記適応回路は、前記環境特性がある基準を満たすときにのみ、前記両耳伝達関数を修正するよう構成されている、請求項１記載のオーディオ・システム。
前記適応回路は、前記両耳伝達関数をある時間期間にわたって徐々に修正するよう構成されている、請求項１記載のオーディオ・システム。
両耳伝達関数データを記憶するデータ記憶部と；
前記音響環境パラメータに応答して前記データ記憶部から両耳伝達関数データを取得する回路とを有しており、
前記適応回路は取得された両耳伝達関数データに応答して前記両耳伝達関数を適応させるよう構成されている、
請求項１記載のオーディオ・システム。
前記音響環境中に音試験信号を放射するよう構成された試験信号回路をさらに有しており、
前記測定回路は前記環境中の受領された音信号を捕捉するよう構成されており、受領されたオーディオ信号は、放射された音試験信号から生じる信号成分を含み、
前記決定回路は、音試験信号に応答して音響環境パラメータを決定するよう構成されている、
請求項１記載のオーディオ・システム。
前記決定回路は、受領された音信号に応答して環境インパルス応答を決定し、該環境インパルス応答に応答して前記音響環境パラメータを決定するよう構成されている、請求項１０記載のオーディオ・システム。
前記適応回路はさらに、ユーザー位置に応答して前記両耳伝達関数を更新するようさらに構成されている、請求項１記載のオーディオ・システム。
前記バイノーラル回路は反響器を有し、前記適応回路は、前記音響環境パラメータに応答して前記反響器の反響処理を適応させるよう構成されている、請求項１記載のオーディオ・システム。
オーディオ・システムの動作方法であって：
オーディオ信号を受領する段階と；
前記オーディオ信号を処理することによってヘッドホン出力用のバイノーラル出力信号を生成する段階であって、前記処理は前記オーディオ信号について仮想音源位置を与える両耳伝達関数を表す、段階と；
前記ヘッドホンにより意図された音場の外部の音響環境の特性を示す測定データを生成する段階と；
前記測定データに応答して音響環境パラメータを決定する段階と；
前記音響環境パラメータに応答して前記両耳伝達関数を適応させる段階とを含み、
前記適応は前記音響環境の変化と同様な音響効果をもたらすよう前記両耳伝達関数を動的に更新するよう構成されている、
方法。