JP2019523913A

JP2019523913A - 近／遠距離レンダリングを用いた距離パニング

Info

Publication number: JP2019523913A
Application number: JP2018566233A
Authority: JP
Inventors: エドワードシュタイン; マーティンウォルシュ; グァンジーシー; デイヴィッドコルセロ
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2016-06-17
Filing date: 2017-06-16
Publication date: 2019-08-29
Anticipated expiration: 2037-06-16
Also published as: EP3472832A4; EP3472832A1; TWI744341B; KR20190028706A; US9973874B2; US10820134B2; US20170366914A1; WO2017218973A1; US20170366912A1; US20170366913A1; US10200806B2; JP7039494B2; CN109891502B; KR102483042B1; TW201810249A; US10231073B2; CN109891502A; US20190215638A1

Abstract

本明細書で説明する方法及び装置は、復号プロセスが頭部追跡を容易にする「サウンドシーン」として完全な３Ｄオーディオミックス（例えば、配向角、仰角及び深度）を最適に表現する。リスナーの配向（例えば、ヨー、ピッチ、ロール）及び３Ｄ位置（例えば、ｘ、ｙ、ｚ）についてサウンドシーンのレンダリングを修正することができる。これにより、サウンドシーンの音源位置をリスナーに対する位置に制限される代わりに３Ｄ位置として処理する能力がもたらされる。本明細書で説明するシステム及び方法は、あらゆる数のオーディオチャネルにおけるこのようなシーンを完全に表現してＤＴＳＨＤなどの既存のオーディオコーデックを通じた送信との互換性をもたらすとともに、７．１チャネルミックスよりもはるかに多くの情報（例えば、深度、高度）を搬送することができる。【選択図】図１Ａ

Description

〔関連出願及び優先権の主張〕
本出願は、２０１６年６月１７日に出願された「近距離及び遠距離レンダリングを用いた距離パニングのためのシステム及び方法（ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＤｉｓｔａｎｃｅＰａｎｎｉｎｇｕｓｉｎｇＮｅａｒＡｎｄＦａｒＦｉｅｌｄＲｅｎｄｅｒｉｎｇ）」という名称の米国仮特許出願第６２／３５１，５８５号に関連するとともにこの仮特許出願に対する優先権を主張するものであり、この文献はその全体が引用により本明細書に組み入れられる。

本特許文書において説明する技術は、音響再生システムにおける空間オーディオの合成に関連する方法及び装置に関する。

空間オーディオ再生は、数十年にわたって音響技師及び家電業界の関心を集めてきた。空間オーディオ再生は、用途の文脈（例えば、コンサート演奏、映画館、家庭用Ｈｉ−Ｆｉ設備、コンピュータディスプレイ、個人のヘッドマウントディスプレイ）に従って構成しなければならない２チャネル又はマルチチャネル電子音響システム（例えば、スピーカ、ヘッドホン）を必要とし、これについては、引用により本明細書に組み入れられる、Ｊｏｔ、Ｊｅａｎ−Ｍａｒｃ著、「音楽、マルチメディア及び対話型人間−コンピュータ間インターフェイスのためのリアルタイム空間音響処理(Ｒｅａｌ−ｔｉｍｅＳｐａｔｉａｌＰｒｏｃｅｓｓｉｎｇｏｆＳｏｕｎｄｓｆｏｒＭｕｓｉｃ，ＭｕｌｔｉｍｅｄｉａａｎｄＩｎｔｅｒａｃｔｉｖｅＨｕｍａｎ−ＣｏｍｐｕｔｅｒＩｎｔｅｒｆａｃｅｓ）」、ＩＲＣＡＭ、１ＰｌａｃｅＩｇｏｒ−Ｓｔｒａｖｉｎｓｋｙ１９９７（以下、「Ｊｏｔ、１９９７」）にさらに記載されている。

映画及び家庭用ビデオ娯楽産業のための録音及び再生技術が発達した結果、様々なマルチチャネル「サラウンドサウンド」レコーディングフォーマット（中でも注目すべきは５．１フォーマット及び７．１フォーマット）が標準化された。レコーディングにおける３次元オーディオキューを符号化するための様々な録音フォーマットも開発された。これらの３Ｄオーディオフォーマットとしては、アンビソニックス（Ａｍｂｉｓｏｎｉｃｓ）、及びＮＨＫ２２．２フォーマットなどの頭上スピーカチャネル（ｅｌｅｖａｔｅｄｌｏｕｄｓｐｅａｋｅｒｃｈａｎｎｅｌｓ）を含む離散的マルチチャネルオーディオフォーマットが挙げられる。

カリフォルニア州カラバサスのＤＴＳ社が提供するＤＴＳ−ＥＳ及びＤＴＳ−ＨＤなどの様々なマルチチャネルデジタルオーディオフォーマットのサウンドトラックデータストリームにはダウンミックスが含まれる。このダウンミックスは後方互換性を有し、レガシーデコーダによる復号及び既存の再生装置上での再生が可能である。このダウンミックスは、レガシーデコーダには無視されるが非レガシーデコーダであれば使用できる追加のオーディオチャネルを有するデータストリーム拡張（ｄａｔａｓｔｒｅａｍｅｘｔｅｎｓｉｏｎ）を含む。例えば、ＤＴＳ−ＨＤデコーダは、これらの追加チャネルを回復し、後方互換的なダウンミックスにおけるこれらの寄与を減じ、後方互換的なフォーマットとは異なる、頭上スピーカ位置を含むことができる目標空間オーディオフォーマットでこれらをレンダリングすることができる。ＤＴＳ−ＨＤでは、後方互換的なミックス及び目標空間オーディオフォーマットにおける追加チャネルの寄与が（例えば、スピーカチャネル毎に１つの）ミキシング係数の組によって表される。サウンドトラックが対象とする目標空間オーディオフォーマットは、符号化段階で指定される。

この方法では、マルチチャネルオーディオサウンドトラックを、レガシーサラウンドサウンドデコーダ及び符号化／制作段階中に選択される１又は２以上の別の目標空間オーディオフォーマットと互換性があるデータストリームの形で符号化することができる。これらの別の目標フォーマットは、３次元オーディオキューの再生を改善するのに適したフォーマットを含むことができる。しかしながら、このスキームの１つの制約は、同じサウンドトラックを別の目標空間オーディオフォーマットに合わせて符号化する場合、新たなフォーマットに合わせてミキシングされた新たなバージョンのサウンドトラックを録音して符号化するために制作施設に戻る必要が生じる点である。

オブジェクトベースのオーディオシーンコーディングは、目標空間オーディオフォーマットとは無関係なサウンドトラック符号化のための一般的解決策を提供する。オブジェクトベースのオーディオシーンコーディングシステムの例には、ＭＰＥＧ−４ＡｄｖａｎｃｅｄＡｕｄｉｏＢｉｎａｒｙＦｏｒｍａｔｆｏｒＳｃｅｎｅｓ（ＡＡＢＩＦＳ）がある。この方法では、各音源信号がレンダーキューデータストリーム（ｒｅｎｄｅｒｃｕｅｄａｔａｓｔｒｅａｍ）と共に個別に送信される。このデータストリームは、空間オーディオシーンレンダリングシステムのパラメータの時変値を搬送する。このパラメータの組をフォーマット非依存型オーディオシーン記述（ｆｏｒｍａｔ−ｉｎｄｅｐｅｎｄｅｎｔａｕｄｉｏｓｃｅｎｅｄｅｓｃｒｉｐｔｉｏｎ）の形で提供し、このフォーマットに従ってレンダリングシステムを設計することによって、あらゆる目標空間オーディオフォーマットでサウンドトラックをレンダリングできるようになる。各音源信号は、その関連するレンダーキューと共に「オーディオオブジェクト」を定義する。この方法では、レンダラーが、再生終了時に選択されるあらゆる目標空間オーディオフォーマットで各オーディオオブジェクトをレンダリングするために利用できる最も正確な空間オーディオ合成技術を実装することができる。オブジェクトベースのオーディオシーンコーディングシステムでは、リミキシング、音楽の再演奏（例えば、カラオケ）、又はシーン内の仮想ナビゲーション（例えば、ビデオゲーム）を含むレンダリングされたオーディオシーンを復号段階で相互作用的に修正することもできる。

マルチチャネルオーディオ信号を低ビットレートで送信又は記憶する必要性は、バイノーラルキューコーディング（ＢＣＣ）及びＭＰＥＧサラウンドを含む新たな周波数領域空間オーディオコーディング（ＳＡＣ）技術を開発する動機付けになってきた。例示的なＳＡＣ技術では、Ｍチャネルオーディオ信号が、元々のＭチャネル信号内に存在するチャネル間関係（チャネル間相関及びレベル差）を時間−周波数領域で表す空間キューデータストリームを伴うダウンミックスオーディオ信号の形で符号化される。ダウンミックス信号はＭよりも少ないオーディオチャネルを含み、空間キューデータレートはオーディオ信号データレートに比べて低いので、このコーディング法ではデータレートが大幅に低減される。また、レガシー装置との後方互換性を容易にするようにダウンミックスフォーマットを選択することもできる。

米国特許出願第２００７／０２６９０６３号に記載されるような空間オーディオシーンコーディング（ＳＡＳＣ）と呼ばれるこの方法の変種では、デコーダに送信される時間−周波数空間キューデータがフォーマット非依存である。これにより、あらゆる目標空間オーディオフォーマットでの空間再生が可能になると同時に、符号化サウンドトラックデータストリームで後方互換的なダウンミックス信号を搬送する能力が保持される。しかしながら、この方法では、符号化サウンドトラックデータが分離可能なオーディオオブジェクトを定義しない。ほとんどのレコーディングでは、サウンドシーン内の異なる位置に存在する複数の音源が時間−周波数領域において一点に集まる。この場合、空間オーディオデコーダは、ダウンミックスオーディオ信号におけるこれらの寄与を分離することができない。この結果、空間的定位エラーによってオーディオ再生の空間的忠実性が損なわれる恐れがある。

ＭＰＥＧ空間オーディオオブジェクトコーディング（ＳＡＯＣ）は、符号化サウンドトラックデータストリームが後方互換的なダウンミックスオーディオ信号及び時間−周波数キューデータストリームを含むという点でＭＰＥＧサラウンドに類似する。ＳＡＯＣは、モノラル又は２チャネルダウンミックスオーディオ信号でＭ個のオーディオオブジェクトを送信するように設計された複数オブジェクトコーディング技術である。ＳＡＯＣダウンミックス信号と共に送信されるＳＡＯＣキューデータストリームは、モノラル又は２チャネルダウンミックス信号の各チャネル内の各オブジェクト入力信号に適用される混合係数を各周波数サブバンドにおいて記述する時間−周波数オブジェクトミックスキューを含む。また、ＳＡＯＣキューデータストリームは、オーディオオブジェクトをデコーダ側で個別に事後処理できるようにする周波数領域オブジェクト分離キューを含む。ＳＡＯＣデコーダに提供されるオブジェクト事後処理機能は、オブジェクトベースの空間オーディオシーンレンダリングシステムの能力を模倣して複数の目標空間オーディオフォーマットをサポートする。

ＳＡＯＣは、複数のオーディオオブジェクト信号及びオブジェクトベースのフォーマット非依存型３次元オーディオシーン記述の低ビットレート送信及び計算効率の良い空間オーディオレンダリングのための方法を提供する。しかしながら、ＳＡＯＣ符号化ストリームのレガシーな互換性はＳＡＯＣオーディオダウンミックス信号の２チャネルステレオ再生に制限され、従って既存のマルチチャネルサラウンドサウンド符号化フォーマットを拡張することには適していない。さらに、ＳＡＯＣデコーダ内でオーディオオブジェクト信号に適用されるレンダリング動作が人工残響などの特定のタイプの事後処理効果を含む場合、（これらの効果は、レンダリングシーン内では聞こえるが、未処理のオブジェクト信号を含むダウンミックス信号には同時に取り入れられないので）ＳＡＯＣダウンミックス信号は、レンダリングされたオーディオシーンを知覚的に表現しない。

また、ＳＡＯＣには、時間−周波数領域において一点に集まるオーディオオブジェクト信号をＳＡＯＣデコーダがダウンミックス信号内で十分に分離できないという、ＳＡＣ及びＳＡＳＣ技術と同じ制約がある。例えば、ＳＡＯＣデコーダによってオブジェクトが大規模に増幅又は減衰されると、レンダリングされたシーンの音質が受け入れ難いほど低下する。

空間的に符号化されるサウンドトラックは、（ａ）同じ場所に又は狭い間隔で配置された（基本的にシーン内のリスナーの仮想位置又はその付近に配置された）マイクシステムを用いた既存のサウンドシーンのレコーディング、又は（ｂ）仮想サウンドシーンの合成、という２つの補完的方法によって制作することができる。

従来の３Ｄバイノーラル録音を使用する第１の方法は、「ダミーヘッド」マイクの使用を通じて、「その場にいる」体験にできるだけ近いものをほぼ間違いなく生み出す。この場合、サウンドシーンは、一般に耳にマイクを配置した音響マネキンを用いてライブで取り込まれる。次に、録音されたオーディオを耳元でヘッドホンを通じて再生するバイノーラル再生を用いてオリジナルの空間認知を再現する。従来のダミーヘッド録音の制約の１つは、ライブ事象のみをダミーの視点及び頭部配向のみからしか取り込むことができない点である。

第２の方法では、ダミーヘッド（又は外耳道にプローブマイクを挿入した人間の頭部）の周囲の頭部伝達関数（ＨＲＴＦ）の選択をサンプリングし、これらの測定を補間してあらゆる中間位置について測定されるＨＲＴＦを概算することによってバイノーラルリスニングをエミュレートするデジタル信号処理（ＤＳＰ）技術が開発されてきた。最も一般的な技術は、全ての測定された同側及び対側ＨＲＴＦを最小位相に変換し、これらの間で線形補間を行ってＨＲＴＦペア（ＨＲＴＦｐａｉｒ）を導出することである。適切な両耳間時間遅延（ＩＴＤ）と組み合わせたＨＲＴＦペアは、所望の合成位置のＨＲＴＦを表す。一般に、この補間は、典型的には時間領域フィルタの線形結合を含む時間領域で実行される。この補間は、周波数領域分析（例えば、１又は２以上の周波数サブバンドに対して行われる分析）、及びその後の周波数領域分析出力間の線形補間を含むこともできる。時間領域分析は計算効率の高い結果を提供できるのに対し、周波数領域分析は精度の高い結果を提供することができる。いくつかの実施形態では、この補間が、時間周波数分析などの、時間領域分析と周波数領域分析との組み合わせを含むことができる。エミュレートした距離に対して音源の利得を低減することによって距離キューをシミュレートすることができる。

この方法は、距離に伴う両耳間ＨＲＴＦの差分がごくわずかである遠距離の音源をエミュレートするために使用されてきた。しかしながら、音源が次第に頭部に接近する（例えば、「近距離」）につれ、音源の距離に比べて頭部のサイズが重要になる。この遷移の位置は周波数によって異なるが、慣例では音源が約１メートルを超える（例えば、「遠距離」）と言われている。音源がリスナーの近距離に深く入り込むと、特に低周波数における両耳間ＨＲＴＦの変化が顕著になる。

ＨＲＴＦベースのレンダリングエンジンには、リスナーからの一定の半径方向距離で測定された全ての測定値を含む遠距離ＨＲＴＦ測定値のデータベースを使用するものもある。この結果、遠距離ＨＲＴＦデータベース内のオリジナル測定値よりも大幅に近い音源の変化する周波数依存ＨＲＴＦキューを正確にエミュレートすることは困難である。

多くの最新の３Ｄオーディオ空間化製品は、近距離ＨＲＴＦをモデル化する複雑性には従来コストが掛かり過ぎており、典型的な対話型オーディオシミュレーションでは伝統的に近距離音響事象がそれほど一般的でないという理由で、近距離を無視することを選択している。しかしながら、仮想現実（ＶＲ）用途及び拡張現実（ＡＲ）用途の出現により、複数の用途においてしばしば仮想オブジェクトがユーザの頭部付近で発生するようになった。このようなオブジェクト及び事象のさらに正確なオーディオシミュレーションが必要になってきた。

これまでに知られているＨＲＴＦベースの３Ｄオーディオ合成モデルは、リスナーの周囲の一定距離で測定された単一のＨＲＴＦペアの組（すなわち、同側及び対側）を使用する。通常、これらの測定は、距離の増加と共にＨＲＴＦが大きく変化しない遠距離で行われる。この結果、適切な一対の遠距離ＨＲＴＦフィルタを通じて音源をフィルタ処理し、結果として得られた信号を、距離に伴うエネルギー損失をエミュレートした周波数非依存利得（ｆｒｅｑｕｅｎｃｙ−ｉｎｄｅｐｅｎｄｅｎｔｇａｉｎｓ）（例えば、逆二乗の法則）に従ってスケーリングすることによって、遠く離れた音源をエミュレートすることができる。

米国特許出願公開第２００７／０２６９０６３号明細書米国特許第５，９７４，３８０号明細書米国特許第５，９７８，７６２号明細書米国特許第６，４８７，５３５号明細書米国特許第９，３３２，３７３号明細書

Ｊｏｔ、Ｊｅａｎ−Ｍａｒｃ著、「音楽、マルチメディア及び対話型人間−コンピュータ・インターフェイスのためのリアルタイム空間音響処理(Ｒｅａｌ−ｔｉｍｅＳｐａｔｉａｌＰｒｏｃｅｓｓｉｎｇｏｆＳｏｕｎｄｓｆｏｒＭｕｓｉｃ，ＭｕｌｔｉｍｅｄｉａａｎｄＩｎｔｅｒａｃｔｉｖｅＨｕｍａｎ−ＣｏｍｐｕｔｅｒＩｎｔｅｒｆａｃｅｓ）」、ＩＲＣＡＭ、１ＰｌａｃｅＩｇｏｒ−Ｓｔｒａｖｉｎｓｋｙ１９９７「３−Ｄオーディオ符号化とレンダリング技術の比較研究（ＡＣｏｍｐａｒａｔｉｖｅＳｔｕｄｙｏｆ３−ＤＡｕｄｉｏＥｎｃｏｄｉｎｇａｎｄＲｅｎｄｅｒｉｎｇＴｅｃｈｎｉｑｕｅｓ）」

しかしながら、音が同じ入射角で次第に頭部に近くなるにつれ、ＨＲＴＦ周波数応答が各耳に対して大きく変化し、もはや遠距離測定によって効率的にエミュレートできなくなり得る。オブジェクトが頭部に近付いた時の音をエミュレートするこのようなシナリオは、オブジェクト及びアバターとのさらに厳密な試験及び相互作用が広く見られるようになる仮想現実などの新たな用途にとって特に興味深いものである。

６自由度の頭部追跡及び相互作用を可能にするために完全な３Ｄオブジェクト（例えば、オーディオ及びメタデータ位置）の送信が使用されてきたが、このような方法では、音源毎に複数のオーディオバッファが必要であり、使用する音源が増えると複雑性も大幅に増す。この方法では、動的音源管理も必要になり得る。このような方法は、既存のオーディオフォーマットに容易に統合することができない。マルチチャネルミックスは、一定数のチャネルでは一定のオーバヘッドを有するが、通常は十分な空間分解能を定めるために多くのチャネル数を必要とする。マトリクス符号化又はアンビソニックなどの既存のシーン符号化は、チャネル数は少ないが、リスナーからの所望のオーディオ信号の深度又は距離を示す機構を含んでいない。

音源位置例の近距離及び遠距離レンダリングの概略図である。音源位置例の近距離及び遠距離レンダリングの概略図である。音源位置例の近距離及び遠距離レンダリングの概略図である。距離キューを含むバイノーラルオーディオを生成するためのアルゴリズム的フローチャートである。距離キューを含むバイノーラルオーディオを生成するためのアルゴリズム的フローチャートである。距離キューを含むバイノーラルオーディオを生成するためのアルゴリズム的フローチャートである。ＨＲＴＦキューの推定方法を示す図である。頭部インパルス応答（ＨＲＩＲ）補間の方法を示す図である。ＨＲＩＲ補間の方法を示す図である。２つの同時音源の第１の概略図である。２つの同時音源の第２の概略図である。配向角、仰角及び半径（θ、φ、ｒ）の関数である３Ｄ音源の概略図である。３Ｄ音源に近距離及び遠距離レンダリングを適用する第１の概略図である。３Ｄ音源に近距離及び遠距離レンダリングを適用する第２の概略図である。ＨＲＩＲ補間の第１の時間遅延フィルタ法を示す図である。ＨＲＩＲ補間の第２の時間遅延フィルタ法を示す図である。ＨＲＩＲ補間の単純化した第２の時間遅延フィルタ法を示す図である。単純化した近距離レンダリング構造を示す図である。単純化した２音源近距離レンダリング構造を示す図である。頭部追跡を含むアクティブデコーダの機能ブロック図である。深度及び頭部追跡を含むアクティブデコーダの機能ブロック図である。単一のステアリングチャネル「Ｄ」を用いた深度及び頭部追跡を含む別のアクティブデコーダの機能ブロック図である。メタデータ深度のみを用いた深度及び頭部追跡を含むアクティブデコーダの機能ブロック図である。仮想現実用途にとって最適な送信シナリオ例を示す図である。アクティブ３Ｄオーディオ復号及びレンダリングのための一般化アーキテクチャを示す図である。３つの深度の深度ベースサブミキシングの例を示す図である。オーディオレンダリング装置の一部の機能ブロック図である。オーディオレンダリング装置の一部の概略的ブロック図である。近距離及び遠距離音源位置の概略図である。オーディオレンダリング装置の一部の機能ブロック図である。

本明細書で説明する方法及び装置は、完全な３Ｄオーディオミックス（例えば、配向角、仰角及び深度）を、復号プロセスが頭部追跡を容易にする「サウンドシーン」として最適に表す。サウンドシーンのレンダリングをリスナーの配向（例えば、ヨー、ピッチ、ロール）及び３Ｄ位置（例えば、ｘ、ｙ、ｚ）に合わせて修正することができる。これにより、サウンドシーンの音源位置をリスナーに対する位置に制限される代わりに３Ｄ位置として処理する能力がもたらされる。本明細書で説明するシステム及び方法は、あらゆる数のオーディオチャネルにおけるこのようなシーンを完全に表現してＤＴＳＨＤなどの既存のオーディオコーデックを通じた送信との互換性をもたらし、さらに７．１チャネルミックスよりも実質的に多くの情報（例えば、深度、高度）を搬送することができる。この方法は、あらゆるチャネルレイアウトに、又はＤＴＳヘッドホンＸを通じて容易に復号することができ、特に頭部追跡機能がＶＲ用途に利益をもたらす。この方法は、ＤＴＳヘッドホンＸによって可能になるＶＲモニタリングなどのＶＲモニタリングを含むコンテンツ生成ツールのためにリアルタイムで使用することもできる。デコーダの完全な３Ｄ頭部追跡は、レガシーな２Ｄミックス（例えば、配向角及び仰角のみ）を受け取った時にも後方互換性がある。

一般的定義
添付図面に関連して以下に示す詳細な説明は、現在のところ好ましい本主題の実施形態の説明として意図するものであり、本主題を構築又は使用できる唯一の形態を表すように意図するものではない。この説明では、本主題を展開して動作させるための機能及びステップシーケンスを図示の実施形態に関連して示す。異なる実施形態によって同一又は同等の機能及びシーケンスを実現することもでき、これらの実施形態も本主題の趣旨及び範囲に含まれるように意図されていると理解されたい。さらに、（第１の、第２のなどの）関係語の使用については、あるエンティティを別のエンティティと区別するために使用しているにすぎず、このようなエンティティ間の実際のこのような関係又は順序を必ずしも必要とするものではないと理解されたい。

本主題は、オーディオ信号（すなわち、物理的な音を表す信号）の処理に関する。これらのオーディオ信号は、デジタル電子信号によって表される。以下の考察では、概念を示すためにアナログ波形について図示又は説明することがある。しかしながら、本主題の典型的な実施形態は、アナログ信号又は最終的に物理的な音の離散近似を形成する時系列的なデジタルバイト又はデジタルワードとの関連で動作すると理解されたい。この離散的なデジタル信号は、周期的にサンプリングされるオーディオ波形のデジタル表現に対応する。均一なサンプリングのためには、関心周波数のナイキストのサンプリング定理を満たすのに十分なレート又はそれよりも高いレートで波形をサンプリングすべきである。典型的な実施形態では、約４４，１００サンプル／秒の均一なサンプリングレート（例えば、４４．１ｋＨｚ）を使用することができるが、さらに高いサンプリングレート（例えば、９６Ｈｚ、１２８ｋＨｚ）を使用することもできる。定量化スキーム及びビット解像度は、標準的なデジタル信号処理技術に従って特定の用途の要件を満たすように選択すべきである。通常、本主題の技術及び装置は、複数のチャネル内で依存し合って適用される。例えば、本発明の技術及び装置は、（例えば、２つよりも多くのチャネルを有する）「サラウンド」オーディオシステムとの関連で使用することができる。

本明細書で使用する「デジタルオーディオ信号」又は「オーディオ信号」は、単なる数学的抽象概念を表すものではなく、機械又は装置が検出できる、物理媒体に具体化される又は物理媒体によって搬送される情報を示す。これらの用語は、録音信号又は送信信号を含み、パルスコード変調（ＰＣＭ）又はその他の符号化を含むあらゆる形の符号化による搬送を含むと理解されたい。出力オーディオ信号、入力オーディオ信号又は中間オーディオ信号は、ＭＰＥＧ、ＡＴＲＡＣ、ＡＣ３、又は米国特許第５，９７４，３８０号、第５，９７８，７６２号及び第６，４８７，５３５号に記載されるＤＴＳ社専用の方法を含む様々な既知の方法のいずれかによって符号化又は圧縮することができる。当業者には明らかなように、特定の圧縮法又は符号化法に対応するために何らかの計算の修正が必要になることもある。

ソフトウェアにおけるオーディオ「コーデック」は、所与のオーディオファイルフォーマット又はストリーミングオーディオフォーマットに従ってデジタルオーディオデータをフォーマットするコンピュータプログラムを含む。ほとんどのコーデックは、ＱｕｉｃｋＴｉｍｅＰｌａｙｅｒ、ＸＭＭＳ、Ｗｉｎａｍｐ、ＷｉｎｄｏｗｓＭｅｄｉａＰｌａｙｅｒ、ＰｒｏＬｏｇｉｃ又はその他のコーデックなどの１又は２以上のマルチメディアプレーヤにインターフェイスで接続するライブラリとして実装される。ハードウェアにおけるオーディオコーデックは、アナログオーディオをデジタル信号として符号化し、逆にデジタルをアナログに復号する単一の又は複数の装置を示す。換言すれば、オーディオコーデックは、共通クロックから外れて動作するアナログデジタルコンバータ（ＡＤＣ）及びデジタルアナログコンバータ（ＤＡＣ）の両方を含む。

オーディオコーデックは、ＤＶＤプレーヤ、Ｂｌｕ−Ｒａｙプレーヤ、ＴＶチューナ、ＣＤプレーヤ、ハンドヘルドプレーヤ、インターネットオーディオ／ビデオ装置、ゲーム機又は携帯電話機、或いは別の電子装置などの消費者向け電子装置に実装することができる。消費者向け電子装置は、ＩＢＭＰｏｗｅｒＰＣ、ＩｎｔｅｌＰｅｎｔｉｕｍ（ｘ８６）プロセッサ又はその他のプロセッサなどの１又は２以上の従来のタイプのこのようなプロセッサを表すことができる中央処理装置（ＣＰＵ）を含む。ＣＰＵが行ったデータ処理動作の結果は、通常は専用メモリチャネルを介してＣＰＵに相互接続されるランダムアクセスメモリ（ＲＡＭ）に一時的に記憶される。消費者向け電子装置は、入力／出力（Ｉ／Ｏ）バスを介してやはりＣＰＵと通信するハードドライブなどの永久記憶装置を含むこともできる。テープドライブ、光学ディスクドライブ又はその他の記憶装置などの他のタイプの記憶装置を接続することもできる。ＣＰＵには、ビデオバスを介して、表示データを表す信号をディスプレイモニタに送信するグラフィクスカードを接続することもできる。オーディオ再生システムには、ＵＳＢポートを介してキーボード又はマウスなどの外部周辺データ入力装置を接続することもできる。ＵＳＢポートに接続されたこれらの外部周辺装置のために、ＣＰＵとの間でやりとりされるデータ及び命令をＵＳＢコントローラが翻訳する。消費者向け電子装置には、プリンタ、マイク、スピーカ又はその他の装置などの追加装置を接続することもできる。

消費者向け電子装置は、ワシントン州レドモンドのＭｉｃｒｏｓｏｆｔ社から提供されているＷＩＮＤＯＷＳ（登録商標）、カリフォルニア州クパチーノのＡｐｐｌｅ社から提供されているＭＡＣＯＳ、Ａｎｄｒｏｉｄ又はその他のオペレーティングシステムなどのモバイルオペレーティングシステム向けに設計された様々なバージョンのモバイルＧＵＩなどのグラフィックユーザインターフェイス（ＧＵＩ）を有するオペレーティングシステムを使用することができる。消費者向け電子装置は、１又は２以上のコンピュータプログラムを実行することができる。一般に、オペレーティングシステム及びコンピュータプログラムは、ハードドライブを含む固定式及び／又は着脱式データ記憶装置のうちの１つ又は２つ以上を含むコンピュータ可読媒体内に有形的に具体化される。これらのオペレーティングシステム及びコンピュータプログラムは、いずれもＣＰＵによる実行のために上述のデータ記憶装置からＲＡＭにロードすることができる。コンピュータプログラムは、ＣＰＵに読み込まれて実行された時に本主題のステップ又は機能を実行するためのステップをＣＰＵに行わせる命令を含むことができる。

オーディオコーデックは、様々な構成又はアーキテクチャを含むことができる。このような構成又はアーキテクチャは、いずれも本主題明の範囲から逸脱することなく容易に代用することができる。当業者であれば、コンピュータ可読媒体では上述のシーケンスが最も一般的に使用されているが、本主題の範囲から逸脱することなく代用できる既存のシーケンスは他にも存在すると認識するであろう。

オーディオコーデックの１つの実施形態の要素は、ハードウェア、ファームウェア、ソフトウェア、又はこれらのいずれかの組み合わせによって実装することができる。ハードウェアとして実装する場合には、オーディオコーデックを１つのオーディオ信号プロセッサ上で使用することも、又は様々な処理要素に分散することもできる。ソフトウェアで実装する場合、本主題の実施形態の要素は、必要なタスクを実行するためのコードセグメントを含むことができる。ソフトウェアは、本主題の１つの実施形態で説明する動作を実行するための実際のコード、或いは動作をエミュレート又はシミュレートするコードを含むことが好ましい。これらのプログラム又はコードセグメントは、プロセッサ又は機械アクセス可能媒体に記憶することも、或いは搬送波に具体化されるコンピュータデータ信号（例えば、搬送体によって変調された信号）によって伝送媒体を介して送信することもできる。この「プロセッサ可読又はアクセス可能媒体」又は「機械可読又はアクセス可能媒体」は、情報の記憶、送信又は転送を行うことができるあらゆる媒体を含むことができる。

プロセッサ可読媒体の例としては、電子回路、半導体メモリ素子、リードオンリメモリ（ＲＯＭ）、フラッシュメモリ、消去可能ＲＯＭ、フロッピディスケット、コンパクトディスク（ＣＤ）ＲＯＭ、光ディスク、ハードディスク、光ファイバメディア、高周波（ＲＦ）リンク又はその他の媒体が挙げられる。コンピュータデータ信号としては、電子ネットワークチャネル、光ファイバ、無線リンク、電磁リンク、ＲＦリンク又はその他の伝送媒体などの伝送媒体を介して伝搬できるあらゆる信号を挙げることができる。コードセグメントは、インターネット、イントラネット又は別のネットワークなどのコンピュータネットワークを介してダウンロードすることができる。機械アクセス可能媒体は、製造の物品内に具体化することができる。機械アクセス可能媒体は、機械によってアクセスされた時に、以下で説明する動作を機械に実行させるデータを含むことができる。ここでの「データ」という用語は、プログラム、コード、データ、ファイル又はその他の情報を含むことができる、機械が読み取れるように符号化されたあらゆるタイプの情報を意味する。

本主題の実施形態の全部又は一部は、ソフトウェアによって実装することもできる。ソフトウェアは、互いに結合された複数のモジュールを含むことができる。１つのソフトウェアモジュールは別のモジュールに結合されて、変数、パラメータ、引数、ポインタ、結果、最新の変数、ポインタ又はその他の入力又は出力の生成、送信、受信又は処理を行う。ソフトウェアモジュールは、プラットフォーム上で実行されるオペレーティングシステムと相互作用するためのソフトウェアドライバ又はインターフェイスとすることもできる。ソフトウェアモジュールは、データの構成、設定、初期化を行ってハードウェア装置との間で送受信するためのハードウェアドライバとすることもできる。

本主題の１つの実施形態は、通常はフローチャート、フロー図、構造図又はブロック図として示されるプロセスとして説明することができる。ブロック図には、動作を逐次プロセスとして記載することもあるが、これらの動作の多くは並行して又は同時に行うことができる。また、動作の順序を並べ替えることもできる。プロセスは、その動作が完了した時に終了することができる。プロセスは、方法、プログラム、手順又はその他の一群のステップなどに対応することができる。

本明細書は、特にヘッドホン（例えば、ヘッドセット）用途においてオーディオ信号を合成するための方法及び装置を含む。ヘッドセットを含む例示的なシステムの文脈で本開示の態様を提示しているが、説明する方法及び装置はこのようなシステムに限定されるものではなく、本明細書の教示は、オーディオ信号の合成を含む他の方法及び装置に適用することもできると理解されたい。以下の説明で使用するオーディオオブジェクトは、３Ｄ位置データを含む。従って、オーディオオブジェクトは、通常は位置が動的である３Ｄ位置データと音源との特定の組み合わせ表現を含むと理解されたい。対照的に、「音源」は、最終的なミックス又はレンダーにおける再生又は再現のためのオーディオ信号であり、意図される静的又は動的レンダリング方法又は目的を有する。例えば、音源は、「前方左」信号とすることができ、或いは低音効果（「ＬＦＥ」）チャネルに再生し又は右に９０度パンすることができる。

本明細書で説明する実施形態は、オーディオ信号の処理に関する。１つの実施形態は、少なくとも１組の近距離測定を用いて近距離聴覚事象の印象を与え、遠距離モデルと並行して近距離モデルを実行する方法を含む。指定された近距離モデルと遠距離モデルとをクロスフェードさせることにより、２つのモデルによってシミュレートされた領域間の空間領域においてシミュレートすべき聴覚事象を作成する。

本明細書で説明する方法及び装置は、近距離から遠距離の境界にまで及ぶ基準頭部からの様々な距離で合成又は測定された複数組の頭部伝達関数（ＨＲＴＦ）を使用する。さらなる合成又は測定伝達関数を用いて頭部の内部まで、すなわち近距離よりも近い距離にわたって拡張することができる。また、各ＨＲＴＦの組の相対的距離に関する利得を遠距離ＨＲＴＦ利得に標準化する。

図１Ａ〜図１Ｃは、音源位置の例の近距離及び遠距離レンダリングの概略図である。図１Ａは、リスナーに対する近距離領域及び遠距離領域を含む音響空間内にオーディオオブジェクトを配置する基本例である。図１Ａには２つの半径を用いた例を示しているが、音響空間は、図１Ｃに示すように２つよりも多くの半径を用いて表すこともできる。具体的に言えば、図１Ｃには、いずれかの数の有意性半径を用いた図１Ａの拡張例を示す。図１Ｂには、球面表現２１を用いた図１Ａの球面拡張例を示す。具体的に言えば、図１Ｃには、オブジェクト２２が接地面上の関連する高度２３及び関連する投影２５と、関連する仰角２７と、関連する配向角と２９を有することができることを示す。このような例では、半径Ｒｎの完全な３Ｄ球面上であらゆる適切な数のＨＲＴＦをサンプリングすることができる。各共通半径ＨＲＴＦセットにおけるサンプリングは同じものである必要はない。

図１Ａ〜図１Ｂに示すように、円Ｒ１はリスナーからの遠距離を表し、円Ｒ２はリスナーからの近距離を表す。図１Ｃに示すように、オブジェクトは、遠距離位置、近距離位置、遠距離と近距離の間のどこか、近距離の内部又は遠距離の外部に位置することができる。原点を中心とするリングＲ１及びＲ２上の位置に関連する複数のＨＲＴＦ（Ｈｘｙ）を示しており、ｘはリング番号を表し、ｙはリング上の位置を表す。このような組は、「共通半径ＨＲＴＦセット」と呼ばれる。図の遠距離セットには４つの位置重みを示しており、近距離セットには慣例Ｗｘｙを用いて２つを示しており、ｘはリング番号を表し、ｙはリング上の位置を表す。ＷＲ１及びＷＲ２は、オブジェクトを共通半径ＨＲＴＦセットの重み付けした組み合わせに分解する半径方向重み（ｒａｄｉａｌｗｅｉｇｈｔ）を表す。

図１Ａ及び図１Ｂに示す例では、オーディオオブジェクトがリスナーの近距離を通過した時に頭部の中心までの半径方向距離を測定する。この半径方向距離を境界付ける２つの測定されたＨＲＴＦデータセットを識別する。各セットにつき、音源位置の所望の配向角及び仰角に基づいて適切なＨＲＴＦペア（同側及び対側）を導出する。その後、新たな各ＨＲＴＦペアの周波数応答を補間することによって最終的なＨＲＴＦペアの組み合わせを形成する。この補間は、レンダリングすべき音源の相対的距離及び各ＨＲＴＦセットの実際の測定された距離に基づく可能性が高い。導出されたＨＲＴＦペアによってレンダリングすべき音源をフィルタ処理し、結果として得られた信号の利得をリスナーの頭部までの距離に基づいて増減する。この利得は、音源がリスナーの片方の耳にぎりぎりまで接近した時には飽和を避けるために制限することができる。

各ＨＲＴＦセットは、水平面のみにおいて行われる測定又は合成ＨＲＴＦの組に及ぶことができ、又はリスナーの周囲のＨＲＴＦ測定の完全な球面を表すことができる。また、各ＨＲＴＦセットは、半径方向測定距離に基づいてさらに少ない又はさらに多くの数のサンプルを有することもできる。

図２Ａ〜図２Ｃは、距離キューを含むバイノーラルオーディオを生成するためのアルゴリズム的フローチャートである。図２Ａは、本主題の態様によるサンプルフローを表す。線１２上に、オーディオオブジェクトのオーディオ及び位置メタデータ１０が入力される。このメタデータを用いて、ブロック１３に示すように半径方向重みＷＲ１及びＷＲ２を決定する。また、ブロック１４において、このメタデータを評価して、オブジェクトが遠距離境界の内側又は外側のいずれに位置しているかを判定する。線１６によって表すようにオブジェクトが遠距離領域内に存在する場合、次のステップ１７において、図１Ａに示すＷ１１及びＷ１２などの遠距離ＨＲＴＦ重みを決定する。線１８によって表すようにオブジェクトが遠距離内に位置していない場合、ブロック２０によって示すように、メタデータを評価してオブジェクトが近距離境界内に位置しているかどうかを判定する。線２２によって表すようにオブジェクトが近距離境界と遠距離境界との間に位置している場合、次のステップにおいて、遠距離ＨＲＴＦ重み（ブロック１７）と図１ＡのＷ２１及びＷ２２などの近距離ＨＲＴＦ重み（ブロック２３）の両方を決定する。線２４によって表すようにオブジェクトが近距離境界内に位置している場合、次のステップであるブロック２３において近距離ＨＲＴＦ重みを決定する。適切な半径方向重み、近距離ＨＲＴＦ重み及び遠距離ＨＲＴＦ重みが計算されると、２６、２８においてこれらを組み合わせる。最後に、ブロック３０において、組み合わせた重みによってオーディオオブジェクトをフィルタ処理して、距離キューを含むバイノーラルオーディオを生成する（３２）。このように、半径方向重みを用いて各共通半径ＨＲＴＦセットからＨＲＴＦ重みをさらにスケール調整し、距離利得／減衰を作成してオブジェクトが所望の位置に存在する感覚を再現する。この方法は、値が遠距離を上回る結果として半径方向重みによって距離減衰が適用されるあらゆる半径に拡張することもできる。近距離のＨＲＴＦセットのみの何らかの組み合わせによって、近距離境界Ｒ２よりも小さな「内部」と呼ばれるあらゆる半径を再現することもできる。単一のＨＲＴＦを用いて、リスナーの耳の間に存在すると認識されるモノフォニックの「中間チャネル」の位置を表すこともできる。

図３Ａに、ＨＲＴＦキューの推定方法を示す。Ｈ_L（θ、φ）及びＨ_R（θ、φ）は、単位球面（遠距離）上の（配向角＝θ、仰角＝φ）における音源の、左耳及び右耳で測定された最小位相頭部インパルス応答（ＨＲＩＲ）を表す。τ_L及びτ_Rは、（通常は過度の共通遅延を除去した）各耳までの飛行時間を表す。

図３Ｂに、ＨＲＩＲ補間の方法を示す。この例では、事前に測定された最小位相左耳及び右耳ＨＲＩＲのデータベースが存在する。所与の方向のＨＲＩＲは、記憶されている遠距離ＨＲＩＲの重み付けした組み合わせを加算することによって導出される。重み付けは、角度位置の関数として決定される利得の配列によって決定される。例えば、所望の位置に最も近い４つのサンプリングされたＨＲＩＲの利得は、音源までの角距離に比例する正の利得を有することができ、他の利得は全てゼロに設定される。或いは、配向角及び仰角方向の両方においてＨＲＩＲデータベースがサンプリングされた場合、ＶＢＡＰ／ＶＢＩＰ又は同様の３Ｄパナーを使用して、測定された３つの最も近いＨＲＩＲに利得を適用することもできる。

図３Ｃは、ＨＲＩＲ補間の方法である。図３Ｃは、図３Ｂの単純化バージョンである。太線は、（本発明者らのデータベースに記憶されているＨＲＩＲの数に等しい）複数のチャネルのバスを意味する。Ｇ（θ、φ）は、ＨＲＩＲ重み付け利得配列を表し、左右の耳で同一であると想定することができる。Ｈ_L（ｆ）、Ｈ_R（ｆ）は、左耳ＨＲＩＲ及び右耳ＨＲＩＲの固定データベースを表す。

さらに、目標ＨＲＴＦペアを導く方法は、既知の技術（時間領域又は周波数領域）に基づいて最も近い測定リングの各々から２つの最も近いＨＲＴＦを補間した後に、音源までの半径方向距離に基づいてこれらの２つの測定値間で補間を行うことである。これらの技術を、Ｏ１に位置するオブジェクトについて式（１）で、Ｏ２に位置するオブジェクトについて式（２）で示す。なお、Ｈｘｙは、測定されたリングｙ内の位置指数（ｐｏｓｉｔｉｏｎｉｎｄｅｘ）ｘにおいて測定されたＨＲＴＦペアを表す。Ｈ_xyは、周波数依存関数（ｆｒｅｑｕｅｎｃｙｄｅｐｅｎｄｅｎｔｆｕｎｃｔｉｏｎ）であり、α、β及びδは、全て補間重み付け関数（ｉｎｔｅｒｐｏｌａｔｉｏｎｗｅｉｇｈｉｎｇｆｕｎｃｔｉｏｎ）である。これらは周波数の関数でもある。
Ｏ１＝δ₁₁（α₁₁Ｈ₁₁＋α₁₂Ｈ₁₂）＋δ₁₂（β₁₁Ｈ₂₁＋β₁₂Ｈ₂₂）（１）
Ｏ２＝δ₂₁（α₂₁Ｈ₂₁＋α₂₂Ｈ₂₂）＋δ₂₂（β₂₁Ｈ₃₁＋β₂₂Ｈ₃₂）（２）

この例では、測定されたＨＲＴＦセットがリスナーの周囲のリング内（配向角、固定半径）で測定されたものである。他の実施形態では、ＨＲＴＦを球面の周囲（配向角及び仰角、固定半径）で測定することもできる。この例では、文献に記載されているように、ＨＲＴＦが２又は３以上の測定間で補間される。半径補間は同じ状態のままである。

ＨＲＴＦモデリングの他の１つの要素は、音源が頭部に近付いた際のオーディオのラウドネスの指数関数的増加に関する。一般に、音のラウドネスは、頭部までの距離が半分になる毎に２倍になる。従って、例えば、０．２５ｍにおける音源は、同じ音１ｍで測定した時よりも約４倍大きくなる。同様に、０．２５ｍで測定したＨＲＴＦの利得は、１ｍで測定した同じＨＲＴＦの利得の４倍になる。この実施形態では、知覚される利得が距離と共に変化しないように、全てのＨＲＴＦデータベースの利得が標準化される。このことは、ＨＲＴＦデータベースを最大ビット分解能で記憶できることを意味する。この時、距離に関する利得は、レンダリング時間に導出される近距離ＨＲＴＦ近似に適用することもできる。これにより、開発者は、自身が望むあらゆる距離モデルを使用できるようになる。例えば、ＨＲＴＦ利得が頭部に近付いた時にはこれを何らかの最大値に制限し、これによって信号利得が歪みすぎたり又はリミッターを支配したりするのを抑制又は防止ことができる。

図２Ｂは、リスナーからの半径方向距離を２つよりも多く含む拡張アルゴリズムを表す。任意に、この構成では、各関心半径についてＨＲＴＦ重みを計算することができるが、オーディオオブジェクトの位置に関連しない距離ではいくつかの重みをゼロにすることができる。場合によっては、これらの計算の結果として重みがゼロになり、図２Ａに示すように条件付きで除外することができる。

図２Ｃに、両耳間時間遅延（ＩＴＤ）の計算を含むさらなる例を示す。遠距離では、測定されたＨＲＴＦ間で補間を行うことによって、元々は測定していなかった位置の近似的ＨＲＴＦペアを導出することが一般的である。多くの場合、この導出は、測定された無響ＨＲＴＦ（ａｎｅｃｈｏｉｃＨＲＴＦ）のペアをその最小位相等価に変換し、わずかな時間遅延でＩＴＤを概算することによって行われる。この導出は、ＨＲＴＦセットが１つしか存在しない遠距離では上手く機能し、このＨＲＴＦセットは何らかの固定距離で測定される。１つの実施形態では、音源の半径方向距離を求めて最も近い２つのＨＲＴＦ測定セットを識別する。音源が最も遠いセットを超える場合の実装は、利用可能な遠距離測定セットが１つしか存在しない場合に行われるものと同じである。近距離内では、モデル化すべき音源に最も近い２つのＨＲＴＦデータベースの各々から２つのＨＲＴＦペアを導出し、目標と基準測定距離との相対的距離に基づいてこれらのＨＲＴＦペアを補間して目標ＨＲＴＦペアを導出する。この時、目標配向角及び仰角に必要なＩＴＤは、ＩＴＤのルックアップテーブル又はＷｏｏｄｗｏｒｔｈが定義するような公式から導出される。なお、近距離に出入りする同様の方向では、ＩＴＤ値は大幅に異ならない。

図４は、２つの同時音源の第１の概略図である。このスキームを使用すると、点線内の部分が角距離の関数であるのに対してＨＲＩＲは固定されたままであることに注目されたい。この構成では、同じ左耳及び右耳ＨＲＩＲデータベースが２回実装される。ここでも、太い矢印は、データベース内のＨＲＩＲの数に等しい信号のバスを表す。

図５は、２つの同時音源の第２の概略図である。図５には、新たな３Ｄ音源毎にＨＲＩＲを補間する必要がないことを示す。線形の時間不変システムを有しているので、この出力は、固定されたフィルタブロックの前にミックスすることができる。このようなさらに多くの音源を追加することは、３Ｄ音源の数に関わらず固定フィルタオーバヘッドを一度しか招かないことを意味する。

図６は、配向角、仰角及び半径（θ、φ、ｒ）の関数である３Ｄ音源の概略図である。この例では、音源までの半径方向距離に従って入力がスケール調整され、通常は標準的な距離ロールオフ曲線（ｄｉｓｔａｎｃｅｒｏｌｌ−ｏｆｆｃｕｒｖｅ）に基づく。この方法の１つの問題点は、この種の周波数独立距離スケーリングは遠距離では機能するが、音源が一定の（θ、φ）で頭部に近付くにつれてＨＲＩＲの周波数応答が変化し始めた時に近距離（ｒ＜１）ではうまく機能しない点である。

図７は、３Ｄ音源に近距離及び遠距離レンダリングを適用する第１の概略図である。図７では、配向角、仰角及び半径の関数として表される単一の３Ｄ音源が存在すると想定する。標準的な技術は単一の距離を実装する。本主題の様々な態様によれば、２つの別個の遠距離及び近距離ＨＲＩＲデータベースがサンプリングされる。その後、これらの２つのデータベース間に半径方向距離ｒ＜１の関数としてクロスフェーディング（ｃｒｏｓｓｆａｄｉｎｇ）を適用する。近距離ＨＲＩＲは、測定で見られるあらゆる周波数独立距離利得を低減するために遠距離ＨＲＩＲに標準化した利得である。これらの利得は、ｒ＜１の時にｇ（ｒ）によって定義される距離ロールオフ関数（ｄｉｓｔａｎｃｅｒｏｌｌ−ｏｆｆｆｕｎｃｔｉｏｎ）に基づいて、入力において再挿入される。なお、ｒ＞１の時には、ｇ_FF（ｒ）＝１かつｇ_NF（ｒ）＝０である。ｒ＜１の時には、ｇ_FF（ｒ）、ｇ_NF（ｒ）が距離の関数であり、例えばｇ_FF（ｒ）＝ａ、ｇ_NF（ｒ）＝１−ａである。

図８は、３Ｄ音源に近距離及び遠距離レンダリングを適用する第２の概略図である。図８は図７に類似しているが、頭部からの異なる距離で測定された２つの近距離ＨＲＩＲセットを含む。これにより、半径方向距離に伴う近距離ＨＲＩＲ変化のサンプリング範囲が良好になる。

図９に、ＨＲＩＲ補間の第１の時間遅延フィルタ法を示す。図９は、図３Ｂの代替例である。図３Ｂとは対照的に、図９には、ＨＲＩＲ時間遅延が固定フィルタ構造の一部として記憶されることを示す。ここでは、導出された利得に基づいてＩＴＤがＨＲＩＲで補間される。ＩＴＤは、３Ｄ音源の角度に基づいて更新されない。なお、この例は同じ利得ネットワーク（ｇａｉｎｎｅｔｗｏｒｋ）を不必要に２回適用している。

図１０に、ＨＲＩＲ補間の第２の時間遅延フィルタ法を示す。図１０は、両耳のための１つの利得セットＧ（θ、φ）と単一のさらに大きな固定フィルタ構造Ｈ（ｆ）とを適用することによって図９の二重利得適用を解消する。この構成の１つの利点は、半分の数の利得と対応する数のチャネルとを使用する点であるが、ＨＲＩＲ補間の精度が犠牲になる。

図１１に、ＨＲＩＲ補間の単純化した第２の時間遅延フィルタ法を示す。図１１は、図５に関して説明したものと同様の２つの異なる３Ｄ音源を含む図１０の簡略図である。図１１に示すように、この実装は図１０から単純化されている。

図１２に、単純化した近距離レンダリング構造を示す。図１２は、（１つの音源のための）さらに単純化した構造を用いて近距離レンダリングを実装する。この構成は図７に類似しているが、実装がさらに単純である。

図１３に、単純化した２音源近距離レンダリング構造を示す。図１３は図１２に類似しているが、２つの近距離ＨＲＩＲデータベースセットを含む。

ここまでの実施形態では、各音源位置を更新して３Ｄ音源毎に異なる近距離ＨＲＴＦペアが計算されると想定している。従って、処理要件は、レンダリングすべき３Ｄ音源の数と共に線形にスケール調整を行う。一般に、この特徴は、３Ｄオーディオレンダリングソリューションを実装するために使用されるプロセッサがその割り当てられたリソースを（恐らくはいずれかの所与の時点でレンダリングすべきコンテンツに依存して）直ぐに非決定的に超える可能性があるため望ましくない。例えば、多くのゲームエンジンのオーディオ処理バジェット（ａｕｄｉｏｐｒｏｃｅｓｓｉｎｇｂｕｄｇｅｔ）はＣＰＵの最大３％になることもある。

図２１は、オーディオレンダリング装置の一部の機能ブロック図である。可変フィルタリングオーバヘッドとは対照的に、音源当たりのオーバヘッドが小さな一定の予測可能なフィルタリングオーバヘッドを有することが望ましい。これにより、所与のリソースバジェットについて多くの数の音源をさらに決定的にレンダリングできるようになる。図２１にはこのようなシステムを示す。このトポロジーの背後にある理論は、「３−Ｄオーディオ符号化とレンダリング技術の比較研究（ＡＣｏｍｐａｒａｔｉｖｅＳｔｕｄｙｏｆ３−ＤＡｕｄｉｏＥｎｃｏｄｉｎｇａｎｄＲｅｎｄｅｒｉｎｇＴｅｃｈｎｉｑｕｅｓ）」に記載されている。

図２１には、固定フィルタネットワーク６０と、ミキサー６２と、オブジェクト当たり利得及び遅延の追加ネットワーク６４とを用いたＨＲＴＦ実装を示す。この実施形態では、オブジェクト当たり遅延のネットワークが、入力７２、７４及び７６をそれぞれ有する３つの利得／遅延モジュール６６、６８及び７０を含む。

図２２は、オーディオレンダリング装置の一部の概略的ブロック図である。具体的に言えば、図２２には、固定オーディオフィルタネットワーク８０と、ミキサー８２と、オブジェクト当たり利得遅延ネットワーク（ｐｅｒ−ｏｂｊｅｃｔｇａｉｎｄｅｌａｙｎｅｔｗｏｒｋ）８４とを含む、図２１で概説した基本トポロジーを用いた実施形態を示す。この例では、音源当たりのＩＴＤモデルが、図２Ｃのフロー図に示すようなオブジェクト当たりのさらに正確な遅延制御を可能にする。オブジェクト当たり利得遅延ネットワーク８４の入力８６に音源を適用し、これを各測定セットの半径方向距離に対する音の距離に基づいて導出されるエネルギー保存利得又は重み８８、９０のペアを適用することによって近距離ＨＲＴＦと遠距離ＨＲＴＦとに分割する。右側信号に対して左側信号を遅延させるために両耳間時間遅延（ＩＴＤ）９２、９４を適用する。ブロック９６、９８、１００及び１０２において信号レベルをさらに調整する。

この実施形態は、単一の３Ｄオーディオオブジェクトと、約１ｍよりも離れた４つの位置を表す遠距離ＨＲＴＦセットと、約１ｍよりも近い４つの位置を表す近距離ＨＲＴＦセットとを使用する。このシステムの入力のオーディオオブジェクトアップストリームには既にいずれかの距離ベースの利得又はフィルタリングが適用されていると想定する。この実施形態では、遠距離に位置する全ての音源についてＧ_NEAR＝０である。

近距離信号寄与と遠距離信号寄与の両方についてＩＴＤを模倣するために左耳信号及び右耳信号を相対的に遅延させる。左耳及び右耳、並びに近距離及び遠距離のための各信号寄与に、サンプリングしたＨＲＴＦ位置に対するオーディオオブジェクトの位置によって決定された値を有する４つの利得のマトリックスによって重み付けする。ＨＲＴＦ１０４、１０６、１０８及び１１０を、最小位相フィルタネットワークなどにおいて除去される両耳間遅延と共に記憶する。両耳リスニングのために、各フィルタバンクの寄与を左側出力１１２又は右側出力１１４に加算してヘッドホンに送信する。

メモリ又はチャネル帯域幅によって制限される実装では、音源毎にＩＴＤを実装する必要なく同様のサウンディング結果を提供するシステムを実装することができる。

図２３は、近距離及び遠距離音源位置の概略図である。具体的に言えば、図２３には、固定フィルタネットワーク１２０と、ミキサー１２２と、オブジェクト当たり利得の追加ネットワーク１２４とを用いたＨＲＴＦ実装を示す。この例では、音源当たりのＩＴＤを適用しない。ミキサー１２２に提供される前に、オブジェクト当たりの処理によって、共通半径ＨＲＴＦセット１３６及び１３８当たりのＨＲＴＦ重みと半径方向重み１３０、１３２とを適用する。

図２３に示す例では、固定フィルタネットワークが、元々のＨＲＴＦペアのＩＴＤが保持されたＨＲＴＦ１２６、１２８のセットを実装する。この結果、この実装は、近距離信号経路及び遠距離信号経路のための単一の利得１３６、１３８のセットしか必要としない。オブジェクト当たり利得遅延ネットワーク１２４の入力１３４に音源を適用し、これを各測定セットの半径方向距離に対する音の距離に基づいて導出される一対のエネルギー又は振幅保存利得１３０、１３２を適用することによって近距離ＨＲＴＦと遠距離ＨＲＴＦとに分割する。ブロック１３６及び１３８において信号レベルをさらに調整する。両耳リスニングのために、各フィルタバンクの寄与を左側出力１４０又は右側出力１４２に加算してヘッドホンに送信する。

この実装には、それぞれが異なる時間遅延を有する２又は３以上の対側ＨＲＴＦ間の補間に起因して、レンダリングされるオブジェクトの空間分解能にそれほど重点が置かれていないという不利点がある。関連するアーチファクトの可聴性は、十分にサンプリングされたＨＲＴＦネットワークを用いて最小化することができる。まばらにサンプリングされたＨＲＴＦセットでは、特にサンプリングされたＨＲＴＦ位置間で対側フィルタ加算（ｃｏｎｔｒａｌａｔｅｒａｌｆｉｌｔｅｒｓｕｍｍａｔｉｏｎ）に関連するくし形フィルタリング（ｃｏｍｂｆｉｌｔｅｒｉｎｇ）が聞き取れる。

説明する実施形態は、有効な対話型３Ｄオーディオ体験と左耳及び右耳の近くでサンプリングされた近距離ＨＲＴＦのペアとを提供するように十分な空間分解能でサンプリングされた少なくとも１つの遠距離ＨＲＴＦセットを含む。この例では、近距離ＨＲＴＦデータ空間がまばらにサンプリングされているが、その効果は依然として非常に説得力のあるものである。さらなる単純化では、単一の近距離又は「中間」ＨＲＴＦを使用することもできる。このような最小事例では、遠距離セットがアクティブである時にのみ方向性が可能である。

図２４は、オーディオレンダリング装置の一部の機能ブロック図である。図２４は、オーディオレンダリング装置の一部の機能ブロック図である。図２４は、上述した図の単純化した実装を表す。実際の実装は、３次元リスニング空間の周囲でもサンプリングされるさらに大きなサンプル遠距離ＨＲＴＦ位置のセットを有している可能性が高い。さらに、様々な実施形態では、出力にクロストークキャンセレーション（ｃｒｏｓｓ−ｔａｌｋｃａｎｃｅｌｌａｔｉｏｎ）などのさらなる処理ステップを行って、スピーカ再生に適したトランスオーラル信号（ｔｒａｎｓａｕｒａｌｓｉｇｎａｌｓ）を形成することができる。同様に、共通半径セットにわたってパニングする距離を用いて、他の適切に構成されたネットワークにおけるストレージ／送信／トランスコーディング又はその他の遅延レンダリングに適するようにサブミックス（例えば、図２３のミキシングブロック１２２）を形成することもできる。

上記の説明は、音響空間におけるオーディオオブジェクトの近距離レンダリングのための方法及び装置を示すものである。オーディオオブジェクトを近距離及び遠距離の両方でレンダリングする能力は、オブジェクトの深度だけでなく、アンビソニックス、マトリックス符号化などのアクティブなステアリング／パニングによって復号されたあらゆる空間オーディオミックスの深度も十分にレンダリングする能力を可能にし、これによって水平面における単純な回転を超えた完全な並進頭部追跡（ｆｕｌｌｔｒａｎｓｌａｔｉｏｎａｌｈｅａｄｔｒａｃｋｉｎｇ）（例えば、ユーザの動き）を可能にする。以下、例えば取り込み又はアンビソニックパニングのいずれかによって作成されたアンビソニックミックスに深度情報を添付する方法及び装置について説明する。本明細書で説明する技術は、一例として一次アンビソニックスを使用するが、三次又はさらに高次のアンビソニックに適用することもできる。

アンビソニックの基本
マルチチャネルミックスが複数の着信信号からの寄与としての音を取り込む場合、アンビソニックスは、単一地点からの音場内の全ての音の方向を表す固定信号セットを取り込む／符号化する方法である。換言すれば、同じアンビソニック信号を用いてあらゆる数のスピーカに音場を再レンダリングすることができる。マルチチャネルの例では、チャネルの組み合わせに由来する音源の再生に制限される。高さが存在しない場合、高度情報は送信されない。一方で、アンビソニックは、常に完全な方向画像を送信し、再生地点のみにおいて制限される。

関心地点における仮想マイクであると広く考えることができる連立一次（Ｂフォーマット）パニング方程式（ｓｅｔｏｆ１ｓｔｏｒｄｅｒ（Ｂ−Ｆｏｒｍａｔ）ｐａｎｎｉｎｇｅｑｕａｔｉｏｎｓ）について検討する。
Ｗ＝Ｓ＊１／√２、ここでのＷ＝オムニ成分（ｏｍｎｉｃｏｍｐｏｎｅｎｔ）であり、
Ｘ＝Ｓ＊ｃｏｓ（θ）＊ｃｏｓ（φ）、ここでのＸ＝図８の前向き（ｆｉｇｕｒｅ８ｐｏｉｎｔｅｄｆｒｏｎｔ）であり、
Ｙ＝Ｓ＊ｓｉｎ（θ）＊ｃｏｓ（φ）、ここでのＹ＝図８の右向き（ｆｉｇｕｒｅ８ｐｏｉｎｔｅｄｒｉｇｈｔ）であり、
Ｚ＝Ｓ＊ｓｉｎ（φ）、ここでのＺ＝図８の上向き（ｆｉｇｕｒｅ８ｐｏｉｎｔｅｄｕｐ）であり、
Ｓはパニングされる信号である。

これらの４つの信号から、いずれかの方向に向けられた仮想マイクを形成することができる。従って、デコーダは、レンダリングに使用される各スピーカに向けられた仮想マイクを再現することに大きく関与する。この技術はかなりの程度まで機能するが、実際のマイクを用いて反応を取り込むのと同じ程度にしか良好でない。この結果、復号信号は出力チャネル毎に所望の信号を有するが、各チャネルには一定量の漏れ又は「かぶり（ｂｌｅｅｄ）」が含まれ、従って特に間隔が均一でない場合にデコーダレイアウトを最良に表すデコーダを設計する何らかの技術が存在する。多くのアンビソニック再生システムが対称レイアウト（クアド、ヘキサゴンなど）を使用するのはこのためである。

復号は、ＷＸＹＺ方向のステアリング信号の組み合わせた重みによって達成されるので、頭部追跡は、当然ながらこれらの種類のソリューションによってサポートされる。Ｂフォーマットを回転させるには、復号前にＷＸＹＺ信号に回転マトリクスを適用することができ、この結果、正しく調整された方向への復号が行われる。しかしながら、このようなソリューションは、並進（例えば、ユーザの動き又はリスナー位置の変化）を実装することができない。

アクティブ復号拡張
漏れに対処して非均一レイアウトの性能を向上させることが望ましい。Ｈａｒｐｅｘ又はＤｉｒＡＣなどのアクティブ復号ソリューションは、復号のために仮想マイクを形成しない。代わりに、これらは音場の方向を調査し、信号を再現し、この信号を識別した方向に時間周波数毎に明確にレンダリングする。これによって復号の指向性が大幅に向上するが、各時間周波数タイルが厳しい決定を必要とするため方向性が制限される。ＤｉｒＡＣの例では、時間周波数毎に単一の方向仮定が行われる。Ｈａｒｐｅｘの例では、２つの方向波面（ｄｉｒｅｃｔｉｏｎａｌｗａｖｅｆｒｏｎｔｓ）を検出することができる。いずれのシステムにおいても、デコーダは、方向性決定をどれほど柔軟又は厳密にすべきについての制御を行うことができる。本明細書では、このような制御を、ソフトフォーカス、インナーパニング（ｉｎｎｅｒｐａｎｎｉｎｇ）、又は方向性の断定（ａｓｓｅｒｔｉｏｎｏｆｄｉｒｅｃｔｉｏｎａｌｉｔｙ）を和らげる他の方法を可能にする有用なメタデータパラメータとすることができる「フォーカス」のパラメータと呼ぶ。

たとえアクティブデコーダの事例であっても、距離は鍵紛失関数（ｋｅｙｍｉｓｓｉｎｇｆｕｎｃｔｉｏｎ）である。アンビソニックのパニング方程式では方向が直接符号化されるが、音源距離に基づくレベル又は残響比（ｒｅｖｅｒｂｅｒａｔｉｏｎｒａｔｉｏ）の単純な変更を超えて音源距離に関する情報を直接符号化することはできない。アンビソニックの取り込み／復号シナリオでは、マイクの「近さ」又は「マイク近接性」のためのスペクトル補償が存在することができ存在すべきであるが、これによって例えば２メートルにおける１つの音源と４メートルにおける別の音源とをアクティブに復号することはできない。この理由は、信号が指向性情報のみを搬送することに制限されるからである。実際に、パッシブなデコーダ性能は、リスナーが完全にスイートスポットに位置して全てのチャネルが等距離である場合には漏れがそれほど問題にならないという事実に依拠する。これらの条件は、意図する音場の再現を最大化する。

さらに、ＢフォーマットＷＸＹＺ信号における回転の頭部追跡ソリューションでは、並進を用いた変換マトリックスが可能でない。座標が投影ベクトル（例えば、同次座標）を可能にすることはできるが、（修正が失われる）動作後の再符号化は困難又は不可能であり、そのレンダリングも困難又は不可能である。これらの制限を克服することが望ましい。

並進を含む頭部追跡
図１４は、頭部追跡を含むアクティブデコーダの機能ブロック図である。上述したように、Ｂフォーマット信号で直接符号化された深度は考慮されない。復号時には、レンダラーが、この音場がスピーカの距離でレンダリングされた音場の一部である音源の方向を表すと仮定する。しかしながら、アクティブステアリングを使用することにより、形成された信号を特定の方向にレンダリングする能力はパナーの選択のみによって制限される。このことを、頭部追跡を含むアクティブデコーダを示す図１４に機能的に示す。

選択されたパナーが、上述した近距離レンダリング技術を使用する「距離パナー」である場合、リスナーが移動すると、完全な３Ｄ空間において各信号を絶対座標で完全にレンダリングするために必要な回転及び並進を含む同次座標変換マトリクスによって音源位置（この例ではビングループ当たりの空間分析の結果）を修正することができる。例えば、図１４に示すアクティブデコーダは、入力信号２８を受け取り、ＦＦＴ３０を使用して信号を時間領域に変換する。空間分析３２は、時間領域信号を使用して１又は２以上の信号の相対的位置を判断する。例えば、空間分析３２は、第１の音源がユーザの正面（例えば０°配向角）に位置し、第２の音源がユーザの右側（例えば９０°配向角）に位置すると判断することができる。信号形成３４は、時間領域信号を使用してこれらの音源を生成し、関連するメタデータと共にサウンドオブジェクトとして出力する。アクティブステアリング３８は、空間分析３２又は信号形成３４から入力を受け取って信号を回転（例えば、パン）させることができる。具体的に言えば、アクティブステアリング３８は、信号形成３４から音源出力を受け取り、空間分析３２の出力に基づいて音源をパンすることができる。アクティブステアリング３８は、ヘッドトラッカー３６から回転又は並進入力を受け取ることもできる。アクティブステアリングは、回転又は並進入力に基づいて音源を回転又は並進させる。例えば、ヘッドトラッカー３６が９０°の反時計回り回転を示す場合、第１の音源はユーザの正面から左に回転し、第２の音源はユーザの右から正面に回転する。アクティブステアリング３８においていずれかの回転又は変換入力が適用されると、逆ＦＦＴ４０に出力が提供され、これを使用して１又は２以上の遠距離チャネル４２又は１又は２以上の近距離チャネル４４が生成される。音源位置の修正は、３Ｄグラフィクスの分野で使用されるような音源位置の修正に類似する技術を含むこともできる。

アクティブステアリング法は、ＶＢＡＰなどの（空間分析から計算された）方向及びパニングアルゴリズムを使用することができる。方向及びパニングアルゴリズムを使用することにより、変換をサポートするための計算では、主に（回転のみに必要な３×３とは対照的な）４×４変換マトリクスへの変更、（元々のパニング法の約２倍の）距離パニング、及び近距離チャネルのためのさらなる逆高速フーリエ変換（ＩＦＦＴ）のコストが増加する。なお、この例では、４×４回転及びパニング動作が信号ではなくデータ座標に対して行われ、すなわちビングループが増えると共に計算コストが低くなる。図１４の出力ミックスは、上述して図２１に示したような近距離サポートを有する同様に構成された固定ＨＲＴＦフィルタネットワークの入力としての役割を果たすことができ、従って図１４は、アンビソニックオブジェクトのための利得／遅延ネットワークとして機能することができる。

深度符号化
デコーダが並進を含む頭部追跡をサポートして（アクティブ復号に起因する）適度に正確なレンダリングを有すると、音源までの深度を直接符号化することが望ましと思われる。換言すれば、コンテンツ制作中に深度インジケータの追加をサポートするように送信フォーマット及びパニング方程式を修正することが望ましいと思われる。この方法は、ミックスにおいてラウドネスなどの深度キュー及び残響変化を適用する典型的な方法とは異なり、ミックスにおいて音源の距離を回復させることにより、これを制作側ではなくむしろ最終的な再生能力のためにレンダリング可能にすることができる。本明細書では異なるトレードオフを有する３つの方法について説明するが、トレードオフは、許容できる計算コスト、複雑性及び後方互換性などの要件に応じて行うこともできる。

深度ベースのサブミキシング（Ｎミックス）
図１５は、深度及び頭部追跡を含むアクティブデコーダの機能ブロック図である。最も簡単な方法は、それぞれが関連するメタデータ（又は想定される）深度を有する「Ｎ」個の独立したＢフォーマットミックスの並行復号をサポートすることである。例えば、図１５には、深度及び頭部追跡を含むアクティブデコーダを示す。この例では、近距離及び遠距離Ｂフォーマットが任意の「中間」チャネルと共に独立したミックスとしてレンダリングされている。実装の大部分は近距離高度チャネルをレンダリングすることができないので、近距離Ｚチャネルも任意である。高度情報は、脱落すると、遠距離／中間距離において、又は以下で近距離符号化について説明するフォークスプロキシミティ（偽近接）（「フロキシミティ」）法を用いて投影される。これらの結果は、様々な深度ミックス（近、遠、中など）が分離を維持するという点で上述した「距離パナー」／「近距離レンダラー」と同等のアンビソニックである。しかしながら、この例では、あらゆる復号構成について送信が合計８又は９チャネルしか存在せず、深度毎に完全に独立したフレキシブルな復号レイアウトが存在する。距離パナーの場合と同様に、このレイアウトは「Ｎ」ミックスに一般化されるが、ほとんどの場合に（遠距離に１つ及び近距離に１つの）２つを使用できることにより、遠距離よりもさらに遠い音源が距離減衰によって遠距離においてミキシングされ、近距離の内側の音源は、「フロキシミティ」スタイルの修正又は投影の有無にかかわらず、半径０における音源が方向を伴わずにレンダリングされるように近距離ミックスに配置される。

このプロセスを一般化するために、各ミックスに何らかのメタデータを関連付けることが望ましいと思われる。各ミックスには、（１）ミックスの距離、及び（２）ミックスのフォーカス（又は多すぎるアクティブステアリングによって頭部内のミックスが復号されないように、そのミックスをどれほど明瞭に復号すべきか）をタグ付けすることが理想的である。他の実施形態は、ウェット／ドライミックスパラメータを用いて、多い又は少ない反射（又はチューナブル反射エンジン）を有するＨＲＩＲの選択が存在する場合にどの空間モデルを使用すべきであるかを示すことができる。さらなるメタデータが８チャネルミックスとして送信する必要が無いようにレイアウトに関する適切な仮説を立て、従って既存のストリーム及びツールとの互換性があるようにすることが好ましい。

（ＷＸＹＺＤなどにおける）「Ｄ」チャネル
図１６は、単一のステアリングチャネル「Ｄ」による深度及び頭部追跡を含む別のアクティブデコーダの機能ブロック図である。図１６は、考えられる冗長信号セット（ＷＸＹＺ近（ＷＸＹＺｎｅａｒ））を１又は２以上の深度（又は距離）チャネル「Ｄ」に置き換えた代替方法である。これらの深度チャネルを使用して、各周波数の音源を距離レンダリングするためにデコーダが使用できるアンビソニックミックスの有効深度に関する時間周波数情報を符号化する。「Ｄ」チャネルは、一例として（頭部内の基点における）０の値として、正確に近距離における０．２５の値として、完全に遠距離においてレンダリングされる音源では最大１の値として回復できる標準化距離として符号化を行う。この符号化は、ＯｄＢＦＳなどの絶対値基準を使用することによって、或いは「Ｗ」チャネルなどの他のチャネルのうちの１つ又は２つ以上に対する相対的な大きさ及び／又は位相によって行うことができる。遠距離を超えることによって生じるあらゆる実際の距離減衰は、レガシーソリューションと同様にミックスのＢフォーマット部分によって処理される。

この方法で距離ｍを処理することにより、Ｂフォーマットチャネルは、（単複の）Ｄチャネルを脱落させることによって標準的なデコーダとの機能的な後方互換性を有する結果、１の距離又は「遠距離」が想定されるようになる。しかしながら、本発明者らのデコーダは、これらの信号を用いて近距離内外へのステアリングを行うこともできる。外部メタデータが不要なため、この信号は、レガシー５．１オーディオコーデックとの互換性を有することができる。「Ｎミックス」ソリューションと同様に、（単複の）余分なチャネルは信号レートであり、全ての時間周波数のために定義される。このことは、Ｂフォーマットチャネルと同期し続ける限りあらゆるビングルーピング又は周波数領域タイリングとも互換性があることを意味する。これらの２つの互換性因子は、この方法を特にスケーラブルなソリューションにする。Ｄチャネルを符号化する１つの方法は、各周波数におけるＷチャネルの相対的大きさを使用することである。特定の周波数におけるＤチャネルの大きさがこの周波数のＷチャネルの大きさと全く同じである場合、この周波数における有効距離は１又は「遠距離」である。特定の周波数におけるＤチャネルの大きさが０である場合、この周波数の有効距離は、リスナーの頭部の中央に対応する０である。別の例では、特定の周波数におけるＤチャネルの大きさがこの周波数におけるＷチャネルの大きさの０．２５である場合、有効距離は０．２５又は「近距離」である。同じ概念を用いて、各周波数におけるＷチャネルの相対的パワーを使用してＤチャネルを符号化することができる。

Ｄチャネルを符号化する別の方法は、各周波数に関連する音源方向を抽出するためにデコーダが使用するものと全く同じ方向性分析（空間分析）を実行することである。特定の周波数において検出された音源が１つしか存在しない場合、その音源に関連する距離が符号化される。特定の周波数において検出された音源が１つよりも多く存在する場合、これらの音源に関連する距離の加重平均が符号化される。

或いは、特定の時間フレームにおける各個々の音源の周波数分析を実行することによって距離チャネルを符号化することもできる。各周波数における距離は、その周波数における最も優勢な音源に関連する距離、又はその周波数におけるアクティブな音源に関連する距離の加重平均として符号化することができる。上述した技術は、Ｎチャネルの合計などのさらなるＤチャネルに拡張することができる。デコーダが各周波数において複数の音源方向をサポートできる場合、これらの複数の方向に距離を拡張する支援となるようにさらなるＤチャネルを含めることができる。正しい符号化／復号順によって音源方向及び音源距離が関連付けられたままになるように注意が必要である。

フォークスプロキシミティ又は「フロキシミティ」符号化は、「Ｄ」チャネルの追加によってＸＹＺにおける信号に対するＷにおける信号の比率が所望の距離を示すように「Ｗ」チャネルが修正される別のコーディングシステムである。しかしながら、典型的なデコーダは、復号時におけるエネルギー保存を保証するために一定比率のチャネルを必要とするので、このシステムは標準的なＢフォーマットとの後方互換性がない。このシステムは、これらのレベル変動を補償するために「信号形成」部分におけるアクティブな復号論理を必要とし、エンコーダは、ＸＹＺ信号を事前補償するために方向性分析を必要とする。さらに、このシステムには、複数の相関する音源を反対側にステアリングする際に制限がある。例えば、ＸＹＺ符号化時には、２つの音源の側方左／側方右、前方／後方又は上方／下方が０に低減される。従って、デコーダは、その帯域について「ゼロ方向」の想定を行って両音源を中央にレンダリングせざるを得ない。この例では、別個のＤチャネルが、両方の音源を「Ｄ」の距離を有するようにステアリングすることができる。

近接性を示す近接レンダリングの能力を最大化するために好ましい符号化は、音源が近付くにつれてＷチャネルエネルギーを増加させることである。このバランスは、ＸＹＺチャネルを相補的に減少させることによって保つことができる。この近接性のスタイルは、全体的な標準化エネルギーを増加させながら「方向性」を低下させることによって同時に「近接性」も符号化することにより、「存在する」音源をさらに多くする。これは、アクティブ復号法又は動的深度拡張によってさらに拡張することができる。

図１７は、メタデータ深度のみを有する深度及び頭部追跡を含むアクティブデコーダの機能ブロック図である。或いは、完全なメタデータの使用はオプションである。この代替例では、Ｂフォーマット信号の増強のみを行って、それと共にあらゆるメタデータを送信することができる。このことを図１７に示す。メタデータは、最低でも全体的なアンビソニック信号の深度を定義する（例えば、ミックスに近又は遠としてラベル付けする）が、１つの音源がミックス全体の距離を修正するのを防ぐように複数の周波数帯域においてサンプリングすることが理想的である。

１つの例では、必要なメタデータが、上記のＮミックスソリューションと同じパラメータであるミックスをレンダリングするために深度（又は半径）及び「フォーカス」を含む。このメタデータは動的なものであり、コンテンツと共に変化することができ、周波数当たりであり、又は少なくともグループ化された値の臨界帯域に存在することが好ましい。

１つの例では、任意のパラメータが、ウェット／ドライミックスを含み、或いは多少の早期反射又は「ルームサウンド」を有することができる。これは、早期反射／残響ミックスレベルの制御としてレンダラーに与えることができる。なお、これは、近距離又は遠距離バイノーラルルームインパルス応答（ＢＲＩＲ）を用いて行うことができ、この場合、ＢＲＩＲはほぼドライである。

空間信号の最適送信
上記の方法では、アンビソニックＢフォーマットを拡張する特定の例について説明した。本文書の残り部分では、さらに幅広い文脈における空間シーンコーディングへの拡張に焦点を当てるが、これは本主題の主要素を強調するのに役立つ。

図１８に、仮想現実用途のための最適送信シナリオの例を示す。高度空間レンダラーの性能を最適化しながら送信帯域幅を同程度に低く維持する複雑なサウンドシーンの効率的な表現を識別することが望ましい。理想的なソリューションでは、標準的なオーディオ専用コーデックとの互換性を保つ最小数のオーディオチャネルを用いて複雑なサウンドシーン（複数の音源、ベッドミックス（ｂｅｄｍｉｘｅｓ）、又は高度及び深度情報を含む完全な３Ｄポジショニングを有する音場）を完全に表現することができる。換言すれば、新たなコーデックを作成せず、又はメタデータ側チャネルに依拠せずに、通常はオーディオ専用である既存の送信経路を介して最適なストリームを搬送することが理想的である。「最適」な送信は、高度及び深度レンダリングなどの高度機能の用途優先度に応じて若干主観的になることが明らかになる。この説明では、仮想現実などの完全な３Ｄ及び頭部又は位置追跡を必要とするシステムに焦点を当てる。仮想現実のための最適な送信シナリオの例である図１８に一般化されたシナリオを示す。

出力フォーマットを不可知論的なままにしていずれかのレイアウト法又はレンダリング法への復号をサポートすることが望ましい。あらゆる数のオーディオオブジェクト（位置を有するモノステム）、ベース／ベッドミックス、又は（アンビソニックスなどの）他の音場表現を符号化しようと試みることを用途とすることができる。任意の頭部／位置追跡の使用は、再分配のための音源の回復、又はレンダリング中のスムーズな回転／並進を可能にする。さらに、ビデオが存在する可能性もあるので、オーディオは、音源の視覚表現から離れないように比較的高い空間分解能で制作しなければならない。なお、本明細書で説明する実施形態はビデオを必要としない（含まれていない場合には、Ａ／Ｖの多重化及び分離は不要である）。さらに、オーディオをコンテナフォーマットでパッケージして移送する限り、マルチチャネルオーディオコーデックは、ロスレスＰＣＭ波データと同程度に単純に、又は低ビットレート知覚コーダと同程度に高度にすることができる。

オブジェクト、チャネル、及びシーンベース表現
最も完全なオーディオ表現は、（１又は２以上のオーディオバッファと、所望の結果を達成するためにこれらを正しい方法及び位置でレンダリングするのに必要なメタデータとをそれぞれが含む）独立したオブジェクトを維持することによって実現される。これには大量のオーディオ信号が必要であり、動的音源管理が必要になる可能性もあるため大きな問題となり得る。

チャネルベースのソリューションは、レンダリングされる対象の空間サンプリングと見なすことができる。最終的に、チャネル表現は、最終的なレンダリングスピーカレイアウト又はＨＲＴＦサンプリング分解能に一致しなければならない。一般化されたアップ／ダウンミックス技術は、異なるフォーマットへの適合を可能にすることができるが、１つのフォーマットから別のフォーマットへの各遷移、頭部／位置追跡のための適合、又は他の遷移は、結果的に「リパニング」音源を生じる。これによって最終的な出力チャネル間の相関性が増し、ＨＲＴＦの場合には外面化が低下する可能性がある。一方、チャネルソリューションは、既存のミキシングアーキテクチャとの互換性が高く、追加音源に対してロバストであり、いずれの時間でベッドミックスにさらなる音源を追加しても、既にミックス内に存在する音源の送信位置に影響が及ばない。

シーンベース表現は、オーディオチャネルを用いて位置オーディオの記述を符号化することによってステップの先へと進む。これは、最終的なフォーマットをステレオペアとして再生できるマトリックス符号化、又はオリジナルサウンドシーンに近いさらに空間的なミックスへの「復号」などのチャネル互換性のオプションを含むことができる。或いは、アンビソニックス（Ｂフォーマット、ＵＨＪ、ＨＯＡなど）のようなソリューションを使用して、直接再生しても又はしなくてもよい信号のセットとして音場記述を直接「取り込む」こともできるが、空間的に復号してあらゆる出力フォーマットでレンダリングすることもできる。このようなシーンベースの方法は、チャネル数を大幅に低減する一方で限られた数の音源のための同様の空間分解能を提供するが、シーンレベルにおける複数の音源の相互作用は、基本的にフォーマットを個々の音源が失われる知覚方向符号化（ｐｅｒｃｅｐｔｕａｌｄｉｒｅｃｔｉｏｎｅｎｃｏｄｉｎｇ）に低下させる。この結果、復号プロセス中に音源の漏れ又はぼやけが生じて実効分解能を低下させる（これはチャネルを犠牲にした高次アンビソニックス又は周波数領域技術を用いて改善することができる）。

シーンベース表現の改善は、様々なコーディング技術を用いて達成することができる。例えば、アクティブ復号は、符号化信号に対する空間分析、又は信号の部分的／パッシブ復号を行った後に、離散的パニングを介してその信号部分を検出位置に直接レンダリングすることによってシーンベースの符号化の漏れを低減する。例えば、ＤＴＳニューラルサラウンドにおけるマトリックス復号プロセス又はＤｉｒＡＣにおけるＢフォーマット処理。場合によっては、高角度分解能プレーンウェーブ拡張（ＨｉｇｈＡｎｇｕｌａｒＲｅｓｏｌｕｔｉｏｎＰｌａｎｅｗａｖｅＥｘｐａｎｓｉｏｎ（Ｈａｒｐｅｘ））と同様に複数の方向を検出してレンダリングすることもできる。

別の技術は、周波数符号化／復号を含むことができる。ほとんどのシステムは、周波数依存処理から大きな恩恵を受ける。時間周波数分析及び合成のオーバヘッドを犠牲にして周波数領域において空間分析を実行し、非重複音源をそれぞれの方向に独立してステアリングすることができる。

さらなる方法は、復号の結果を用いて符号化を通知することである。例えば、マルチチャネルベースのシステムがステレオマトリクス符号化に低減されている時。第１のパスにおいてマトリクス符号化を行い、復号し、オリジナルマルチチャネルレンダリングに対して分析する。検出されたエラーに基づいて、最終的に復号された出力をオリジナルマルチチャネルコンテンツにさらに良好に位置合わせする補正を用いて第２のパスエンコードを行う。この種のフィードバックシステムは、上述した周波数依存アクティブ復号を既に有している方法への適用性が最も高い。

深度レンダリング及び音源並進
本明細書で上述した距離レンダリング技術は、両耳レンダリングにおける深度／近接度の知覚を達成する。この技術は、距離パニングを使用して２又は３以上の基準距離にわたって音源を分散させる。例えば、目標深度を達成するために、遠距離及び近距離ＨＲＴＦの重み付けバランスをレンダリングする。このような距離パナーを用いて様々な深度でサブミックスを形成することは、深度情報の符号化／送信においても有用となり得る。基本的に、これらのサブミックスは全て同じ方向性のシーン符号化を表すが、サブミックスの組み合わせは、その相対的エネルギー分布を通じて深度情報を明らかにする。このような分布は、（１）（「近」及び「遠」などの関連性について均等に分散又はグループ化された）深度の直接量子化、又は（２）例えば何らかの信号を遠距離ミックスの残り部分よりも近いと理解するような、何らかの基準距離よりも近い又は遠い相対的ステアリング、のいずれかとすることができる。

たとえ距離情報が送信されない場合でも、デコーダは、深度パニングを利用して、音源の並進を含む３Ｄ頭部追跡を実行することができる。ミックス内に表現される音源は、方向及び基準距離に由来すると想定される。空間内でリスナーが動くと、距離パナーを用いて音源を再パニングして、リスナーから音源までの絶対距離の変化の感覚をもたらすことができる。完全な３Ｄ両耳レンダラーを使用しない場合には、例えば同一出願人による米国特許第９，３３２，３７３号に記載されているような拡張によって深度の知覚を修正する他の方法を使用することができ、この文献の内容は引用により本明細書に組み入れられる。重要なのは、音源の並進が、本明細書で説明するような修正された深度レンダリングを必要とする点である。

送信技術
図１９に、アクティブ３Ｄオーディオ復号及びレンダリングの一般化アーキテクチャを示す。以下の技術は、容認できるエンコーダの複雑性又はその他の要件に応じて利用可能である。後述する全てのソリューションは、上述したような周波数依存アクティブ復号から恩恵を受けると想定される。これらのソリューションは、深度情報を符号化する新規方法に大きな重点を置いており、この階層を使用する動機がオーディオオブジェクト以外のものである場合には、古典的ないずれかのオーディオフォーマットによって深度が直接符号化されないことも分かる。１つの例では、深度が、再導入を必要とする欠落した次元（ｍｉｓｓｉｎｇｄｉｍｅｎｓｉｏｎ）である。図１９は、後述するソリューションに使用されるアクティブ３Ｄオーディオ復号及びレンダリングの一般化したアーキテクチャのブロック図である。信号経路は、明確にするために単一の矢印で示しているが、これらはあらゆる数のチャネル又はバイノーラル／トランスオーラル信号ペアを表すと理解されたい。

図１９で分かるように、オーディオチャネル又はメタデータを介して送信されるオーディオ信号及び任意にデータは、各時間周波数ビンをレンダリングする所望の方向及び深度を決定する空間分析において使用される。音源は、オーディオチャネル、パッシブマトリクス又はアンビソニック復号の加重和と見なすことができる信号形成を介して再構成される。その後、「音源」は、頭部又は位置追跡を介したリスナーの動きのあらゆる調整を含む最終的なオーディオフォーマット内の所望の位置にアクティブにレンダリングされる。

このプロセスは、時間周波数分析／合成ブロック内に示しているが、周波数処理はＦＦＴに基づく必要はなく、いずれの時間周波数表現とすることもできると理解されたい。また、キーブロックの全部又は一部を（周波数依存処理を伴わずに）時間領域で実行することもできる。例えば、このシステムを用いて、時間及び／又は周波数領域処理のさらなるミックスにおいてＨＲＴＦ／ＢＲＩＲのセットによって後でレンダリングされる新たなチャネルベースのオーディオフォーマットを形成することもできる。

図示のヘッドトラッカーは、３Ｄオーディオを調整すべき回転及び／又は並進のいずれかの指示であると理解される。通常、この調整は、ヨー／ピッチ／ロール、四元数又は回転マトリクス、及び相対的配置を調整するために使用されるリスナーの位置である。この調整は、意図されるオーディオシーン又は視覚成分との絶対的位置合わせをオーディオが維持するように実行される。アクティブステアリングは応用の可能性が最も高い場所であるが、この情報は、音源信号形成などの他のプロセスにおける決定を通知するために使用することもできると理解されたい。回転及び／又は並進の指示を与えるヘッドトラッカーは、頭部装着型仮想現実又は拡張現実ヘッドセット、内部センサ又は位置センサを含むポータブル電子装置、或いは別の回転及び／又は並進追跡電子装置からの入力を含むことができる。ヘッドトラッカーの回転及び／又は並進は、電子コントローラからのユーザ入力などのユーザ入力として提供することもできる。

以下、３つのレベルのソリューションを示して詳細に説明する。各レベルは、少なくとも一次オーディオ信号を有していなければならない。この信号は、あらゆる空間フォーマット又はシーン符号化とすることができ、通常はマルチチャネルオーディオミックス、マトリクス／位相符号化ステレオペア、又はアンビソニックミックスの何らかの組み合わせである。各サブミックスは、それぞれが従来の表現に基づくので、特定の距離又は距離の組み合わせについて左／右、前／後、及び理想的には上／下（高度）を表すと予想される。

オーディオサンプルストリームを表さないさらなる任意のオーディオデータ信号は、メタデータとして提供し、又はオーディオ信号として符号化することができる。これらを使用して空間分析又はステアリングを通知することもできるが、これらのデータは、オーディオ信号を完全に表す一次オーディオミックスの補助的なものであると想定されるので、通常は最終的なレンダリングのためのオーディオ信号を形成する必要はない。このソリューションは、メタデータが利用可能である場合には「オーディオデータ」を使用しないが、ハイブリッドデータソリューションも可能であると予想される。同様に、最も単純で最も後方互換性の高いシステムは、真のオーディオ信号のみに依拠すると想定される。

深度チャネルコーディング
深度チャネルコーディング又は「Ｄ」チャネルの概念は、所与のサブミックスの各時間周波数ビンの一次深度／距離が各ビンの大きさ及び／又は位相によってオーディオ信号に符号化されるものである。例えば、最大／基準距離に対する音源距離は、−ｉｎｆｄＢが距離のない音源であり、完全なスケールが基準／最大距離の音源であるように、ＯｄＢＦＳに対するピン当たりの大きさによって符号化される。基準距離又は最大距離を超えると、音源は、レベルの低減、又はレガシーミキシングフォーマットでは既に可能であった距離についての他のミックスレベル指示のみによって変化するように考えられると想定される。換言すれば、最大／基準距離は、上記で遠距離と呼ぶ深度コーディングを伴わずに一般に音源がレンダリングされる従来の距離である。

或いは、「Ｄ」チャネルは、他の一次チャネルのうちの１つ又は２つ以上に対する「Ｄ」チャネルの大きさ及び／又は位相の比率として深度が符号化されるようなステアリング信号とすることもできる。例えば、深度は、アンビソニックスにおけるオムニ「Ｗ」チャネルに対する「Ｄ」の比率として符号化することができる。符号化は、ＯｄＢＦＳ又は他の何らかの絶対レベルの代わりに他の信号に対して行うことによって、オーディオコーデック、又はレベル調整などの他のオーディオプロセスの符号化に対してさらにロバストにすることができる。

デコーダがこのオーディオデータチャネルの符号化前提（ｅｎｃｏｄｉｎｇａｓｓｕｍｐｔｉｏｎ）を承知している場合には、たとえデコーダ時間周波数分析又は知覚的グルーピングが符号化プロセスで使用されるものとは異なる場合であっても必要な情報を回復することができる。このようなシステムの主な問題は、所与のサブミックスについて信号深度値を符号化しなければならない点である。すなわち、複数の重複する音源を表現しなければならない場合には、これらを別個のミックスで送信しなければならず、又は支配的な距離を選択しなければならない。このマルチチャネルベッドミックスを含むシステムを使用することは可能であるが、デコーダにおいて既に時間周波数ステアリングが分析されており、チャネル数が最小値に維持されている場合には、このようなチャネルを使用してアンビソニック又はマトリクス符号化シーンを増強する可能性の方が高い。

アンビソニックベースの符号化
提案するアンビソニックソリューションのさらに詳細な説明については、上記の「深度コーディングを伴うアンビソニック」の節を参照されたい。このような方法は、Ｂフォーマット＋深度を送信するための５チャネルミックスＷ、Ｘ、Ｙ、Ｚ及びＤの最小値をもたらす。Ｘ、Ｙ、Ｚ指向性チャネルに対するＷ（全方向性チャネル）のエネルギー比率によって既存のＢフォーマットに深度符号化を組み込まなければならないフォークスプロキシミティ又は「フロキシミティ」法についても説明する。この方法では、４つのチャネルしか送信することができないと同時に、他の４チャネル符号化スキームによって最良に対処できる他の欠点もある。

マトリクスベースの符号化
マトリクスシステムは、Ｄチャネルを使用して、既に送信されたものに深度情報を追加することができる。１つの例では、単一のステレオペアが、各サブバンドにおける音源への配向角及び仰角方向（ａｚｉｍｕｔｈａｎｄｅｌｅｖａｔｉｏｎｈｅａｄｉｎｇｓ）を表現するように符号化された利得−位相である。従って、完全な３Ｄ情報を送信するには３チャネル（ＭａｔｒｉｘＬ、ＭａｔｒｉｘＲ、Ｄ）で十分であり、ＭａｔｒｉｘＬ、ＭａｔｒｉｘＲは、後方互換性のあるステレオダウンミックスを提供する。

或いは、高度チャネル（ＭａｔｒｉｘＬ、ＭａｔｒｉｘＲ、ＨｅｉｇｈｔＭａｔｒｉｘＬ、ＨｅｉｇｈｔＭａｔｒｉｘＲ、Ｄ）の別個のマトリクス符号化として高度情報を送信することもできる。しかしながら、この例では、「Ｄ」チャネルと同様に「高度」を符号化することが有利である。これにより、ＭａｔｒｉｘＬ及びＭａｔｒｉｘＲが後方互換性のあるステレオダウンミックスを表し、Ｈ及びＤが位置ステアリングのみの任意のオーディオデータチャネルである（ＭａｔｒｉｘＬ、ＭａｔｒｉｘＲ、Ｈ、Ｄ）が提供される。

特別な例では、「Ｈ」チャネルが、本質的にＢフォーマットミックスの「Ｚ」チャネル又は高度チャネルに類似することができる。「Ｈ」チャネルとマトリクスチャネルとの間のエネルギー比率の関係は、ステアリングアップに正の信号を使用し、ステアリングダウンに負の信号を使用してどれほどステアアップ又はステアダウンを行ってよいかを示す。Ｂフォーマットミックスでは、「Ｗ」チャネルに対する「Ｚ」チャネルのエネルギー比率と全く同様である。

深度ベースのサブミキシング
深度ベースのサブミキシングでは、遠（通常はレンダリング距離）及び近（近接性）などの異なるキー深度において２又は３以上のミックスが形成される。完全な記述は、深度ゼロ又は「中央」チャネル及び遠（最大距離チャネル）によって行うことができ、より多くの深度が送信されるほど、最終的なレンダラーは正確／柔軟なものになり得る。換言すれば、サブミックスの数は、各個々の音源の深度に対する量子化として機能する。量子化深度において正確に降下する音源は最も高い精度で直接符号化され、従ってサブミックスが関連するレンダラーの深度に対応する上でも有利である。例えば、バイノーラルシステムでは、近距離ミックス深度が近距離ＨＲＴＦの深度に対応すべきであり、遠距離が本発明者らの遠距離ＨＲＴＦに対応すべきである。この深度コーディングに勝る方法の主な利点は、ミキシングが付加的であり、他の音源についての高度な又は以前の知識を必要としない点である。このことは、ある意味で「完全な」３Ｄミックスの送信である。

図２０は、３つの深度についての深度ベースのサブミキシングの例を示す。図２０に示すように、これらの３つの深度は、（頭部の中心を意味する）中央と、（リスナーの頭部周辺を意味する）近距離と、（本発明者らの典型的な遠距離ミックス距離を意味する）遠距離とを含むことができる。あらゆる数の深度を使用することができるが、図２０は（図１Ａと同様に）、頭部のごく近く（近距離）でＨＲＴＦがサンプリングされ、典型的な遠距離が１ｍよりも大きく典型的には２〜３ｍであるバイノーラルシステムに対応する。音源「Ｓ」は、正確に遠距離の深度である時には、遠距離ミックスのみに含まれる。音源が遠距離を超えて広がるにつれてそのレベルは低下し、任意にさらに大きく反響する又は「直接性」が低下したサウンディングになる。換言すれば、遠距離ミックスは、まさに標準的な３Ｄレガシー用途において処理される方法である。音源は、近距離に向かって遷移するにつれて、そこからはもはや遠距離ミックスに寄与しなくなる近距離に正確に存在する地点まで、遠距離ミックス及び近距離ミックスの同じ方向に符号化される。このミックス間のクロスフェーディング中には、全体的な音源利得が増加し、レンダリングがさらに直接的／ドライなものになって「近接性」の感覚を生じる。音源は、頭部の中央（「Ｍ」）に存在し続けることができる場合、最終的にリスナーが方向を認識せずにまるで頭の中から生じるように、複数の近距離ＨＲＴＦ又は１つの代表的な中央ＨＲＴＦにおいてレンダリングされる。この内部パニングは符号化側で行うこともできるが、中央信号を送信すると、最終的なレンダラーが頭部追跡動作においてより良く音源を操作できるとともに、「中央パン」された音源の最終レンダリング法を最終的なレンダラーの能力に基づいて選択できるようになる。

この方法は２又は３以上の独立したミックス間のクロスフェーディングに依拠するので、深度方向に沿って音源がさらに分離する。例えば、同様の時間周波数コンテンツを有する音源Ｓ１及びＳ２は、同じ又は異なる方向、異なる深度を有し、完全に独立性を保つことができる。デコーダ側では、遠距離が、全てが何らかの基準距離Ｄ１の距離を有する音源のミックスとして処理され、近距離が、全てが何らかの基準距離Ｄ２を有する音源ミックスとして処理される。しかしながら、最終的なレンダリング前提のための補償が存在しなければならない。例えば、Ｄ１＝１（音源レベルが０ｄＢである基準最大距離）及びＤ２＝０．２５（音源レベルが＋１２ｄＢであると想定される近接性のための基準距離）を採用する。レンダラーは、Ｄ２においてレンダリングする音源に１２ｄＢ利得を適用してＤ１においてレンダリングする音源に０ｄＢを適用する距離パナーを使用しているので、送信されるミックスを目標距離利得に対して補償すべきである。

１つの例では、ミキサーがＤ１とＤ２の間の中間距離Ｄ（５０％が近、５０％が遠）に音源Ｓ１を配置した場合、このミキサーは、遠距離における「Ｓ１遠」６ｄＢ及び近距離における−６ｄＢ（６ｄＢ−１２ｄＢ）の「Ｓ１近」として符号化すべき６ｄＢの音源利得を有することが理想的である。復号されて再びレンダリングされると、システムは、＋６ｄＢ（又は６ｄＢ−１２ｄＢ＋１２ｄＢ）でＳ１近を再生し、＋６ｄＢ（６ｄＢ＋０ｄＢ＋０ｄＢ）でＳ１遠を再生する。

同様に、ミキサーは、同じ方向の距離Ｄ＝Ｄ１に音源Ｓ１を配置した場合、遠距離のみにおける０ｄＢの音源利得で符号化される。この時にレンダリング中であれば、リスナーは、再びＤがＤ１とＤ２の中間に等しくなるようにＳ１の方向に動き、レンダリング側の距離パナーが、再び６ｄＢの音源利得を適用してＳ１を近ＨＲＴＦと遠ＨＲＴＦとの間で再分配する。この結果、最終的なレンダリングは上記と同じになる。これはほんの例示であり、この送信フォーマットでは、距離利得を使用しない事例を含む他の値にも対応することができると理解されたい。

アンビソニックベースの符号化
アンビソニックシーンの例では、最小の３Ｄ表現が、４チャネルＢフォーマット（Ｗ、Ｘ、Ｙ、Ｚ）＋中央チャネルで構成される。通常、４チャネルのさらなるＢフォーマットミックスでは、それぞれにさらなる深度が提示される。完全な遠−近−中の符号化には９チャネルが必要である。しかしながら、近距離は高度を伴わずにレンダリングされることが多いので、近距離を水平のみに単純化することも可能である。この時、比較的効果的な構成は８チャネル（Ｗ、Ｘ、Ｙ、Ｚ遠距離、Ｗ、Ｘ、Ｙ近距離、中央）で達成することができる。この例では、近距離にパンされる音源が、遠距離及び／又は中央チャネルの組み合わせに投影される高度を有する。これは、所与の距離における音源仰角が増加した時にサイン／コサインフェード（又は同様に単純な方法）を用いて達成することができる。

オーディオコーデックが７又はそれ未満のチャネルを必要とする場合には、（ＷＸＹＺ中）という最小３Ｄ表現の代わりに（Ｗ、Ｘ、Ｙ、Ｚ遠距離、Ｗ、Ｘ、Ｙ近距離）を送信することが好ましい。複数の音源の深度精度と頭部内への完全な制御との間にトレードオフが存在する。音源位置が近距離以上に制限されることを許容できる場合には、さらなる全方向性チャネルが、最終的なレンダリングの空間分析中における音源分離を改善する。

マトリクスベースの符号化
同様の拡張により、複数のマトリクス又は利得／位相符号化ステレオペアを使用することができる。例えば、ＭａｔｒｉｘＦａｒＬ、ＭａｔｒｉｘＦａｒＲ、ＭａｔｒｉｘＮｅａｒＬ、ＭａｔｒｉｘＮｅａｒＲ、Ｍｉｄｄｌｅ、ＬＦＥの５．１送信は、完全な３Ｄ音場に必要な全ての情報を提供することができる。マトリクスペアが高度を完全に符号化できない場合（例えば、本発明者らがＤＴＳニューラルとの後方互換性を望む場合）には、追加のＭａｔｒｉｘＦａｒＨｅｉｇｈｔペアを使用することができる。Ｄチャネルコーディングで考察したものと同様に、高度ステアリングチャネルを使用するハイブリッドシステムを追加することもできる。しかしながら、７チャネルミックスでは、上記のアンビソニック法が好ましいと予想される。

一方、マトリクスペアから完全な配向角及び仰角方向を復号できる場合、この方法の最小構成は、いずれかの低ビットレートコーディングの前であっても既に必要な送信帯域幅の大幅な節約である３チャネル（ＭａｔｒｉｘＬ、ＭａｔｒｉｘＲ、Ｍｉｄ）である。

メタデータ／コーデック
上述した（「Ｄ」チャネルコーディングなどの）方法は、オーディオコーデックの他方側においてデータが正確に回復されることを保証するさらに容易な方法としてメタデータによって支援することができる。しかしながら、このような方法は、もはやレガシーオーディオコーデックとの互換性がない。

ハイブリッドソリューション
上記で別個に考察したように、各深度又はサブミックスの最適な符号化は適用要件に応じて異なることができると十分に理解される。上述したように、アンビソニックステアリングを含むマトリクス符号化のハイブリッドを使用してマトリクス符号化信号に高度情報を追加することができる。同様に、深度ベースのサブミックスシステムにおけるサブミックスのうちの１つ、いずれか又は全てにＤチャネルコーディング又はメタデータを使用することもできる。

深度ベースのサブミキシングを中間ステージングフォーマットとして使用した後に、ミックスが完成した時点で「Ｄ」チャネルコーディングを使用してチャネル数をさらに低減することもできる。基本的には、複数の深度ミックスを単一のミックス＋深度に符号化する。

実際には、ここでの主な提案は、本発明者らが基本的に３つ全てを使用していることである。最初に距離パナーを用いて、このミックスを深度ベースのサブミックスに分解することによって各サブミックスの深度を一定にし、送信されない暗黙の深度チャネルを可能にする。このようなシステムでは、本発明者らの深度制御を高めるために深度コーディング使用され、単一の全方向性ミックスを通じて達成される良好な音源方向分離を維持するためにサブミキシングが使用される。この時、オーディオコーデック、最大許容可能帯域幅、及びレンダリング要件などの用途仕様に基づいて最終的な妥協を選択することができる。また、これらの選択は、送信フォーマットにおける各サブミックスについて異なることもあり、最終的な復号レイアウトが異なって、特定のチャネルをレンダリングするレンダラー能力にのみ依存することもあると理解されたい。

例示的な実施形態を参照しながら本開示について詳細に説明したが、当業者には、実施形態の趣旨及び範囲から逸脱することなく本明細書において様々な変更及び修正を行えることが明らかであろう。従って、本開示は、その修正及び変形が添付の特許請求の範囲及びその同等物に含まれる限り、そのような修正及び変形も対象とするように意図されている。

以下、本明細書で開示した方法及び装置をさらに良好に示すために実施形態の非限定的なリストを示す。

実施例１は、近距離バイノーラルレンダリング方法であって、音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取るステップと、オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定するステップと、オーディオオブジェクト位置と、リスナー位置と、リスナー配向とに基づいて、音源方向を決定するステップと、近距離ＨＲＴＦオーディオ境界半径及び遠距離ＨＲＴＦオーディオ境界半径の少なくとも一方を含む少なくとも１つのＨＲＴＦ半径境界の音源方向に基づいて頭部伝達関数（ＨＲＴＦ）重みセットを決定するステップと、半径方向重みセット及びＨＲＴＦ重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む３Ｄバイノーラルオーディオオブジェクト出力を生成するステップと、３Ｄバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を変換するステップと、を含む方法である。

実施例２では、実施例１の主題が、ヘッドトラッカー及びユーザ入力の少なくとも一方から位置メタデータを受け取るステップを任意に含む。

実施例３では、実施例１又は２の主題が、ＨＲＴＦ重みセットを決定するステップが、オーディオオブジェクト位置が遠距離オーディオ境界半径を超えていると判断するステップを含み、ＨＲＴＦ重みセットを決定するステップが、レベルロールオフ及び直接残響比率の少なくとも一方にさらに基づくことを任意に含む。

実施例４では、実施例１〜３のいずれか１つ又は２つ以上の主題が、ＨＲＴＦ半径境界が、近距離ＨＲＴＦオーディオ境界半径と遠距離ＨＲＴＦオーディオ境界半径との間の間隙半径を定義するＨＲＴＦオーディオ境界有意性半径を含むことを任意に含む。

実施例５では、実施例４の主題が、オーディオオブジェクト半径を近距離ＨＲＴＦオーディオ境界半径及び遠距離ＨＲＴＦオーディオ境界半径と比較するステップを任意に含み、ＨＲＴＦ重みセットを決定するステップが、オーディオオブジェクト半径比較に基づいて近距離ＨＲＴＦ重みと遠距離ＨＲＴＦ重みとの組み合わせを決定するステップを含む。

実施例６では、実施例１〜５のいずれか１つ又は２つ以上の主題が、Ｄバイノーラルオーディオオブジェクト出力が、決定されたＩＴＤ及び少なくとも１つのＨＲＴＦ半径境界にさらに基づくことを任意に含む。

実施例７では、実施例６の主題が、オーディオオブジェクト位置が近距離ＨＲＴＦオーディオ境界半径を超えていると判断するステップを任意に含み、ＩＴＤを決定するステップが、決定された音源方向に基づいて部分的時間遅延を決定するステップを含む。

実施例８では、実施例６又は７の主題が、オーディオオブジェクト位置が近距離ＨＲＴＦオーディオ境界半径上又はその内部に存在すると判断するステップを任意に含み、ＩＴＤを決定するステップが、決定された音源方向に基づいて近距離両耳間時間遅延を決定するステップを含む。

実施例９では、実施例１〜８のいずれか１つ又は２つ以上の主題が、Ｄバイノーラルオーディオオブジェクト出力が時間周波数分析に基づくことを任意に含む。

実施例１０は、６自由度音源追跡方法であって、基準配向を含んで少なくとも１つの音源を表す空間オーディオ信号を受け取るステップと、少なくとも１つの空間オーディオ信号基準配向に対するリスナーの物理的な動きを表す３Ｄ動き入力を受け取るステップと、空間オーディオ信号に基づいて空間分析出力を生成するステップと、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成するステップと、信号形成出力と、空間分析出力と、３Ｄ動き入力とに基づいて、空間オーディオ信号基準配向に対するリスナーの物理的な動きによって引き起こされる少なくとも１つの音源の最新の明白な方向及び距離を表すアクティブステアリング出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を含む方法である。

実施例１１では、実施例１０の主題が、リスナーの物理的な動きが回転及び並進の少なくとも一方を含むことを任意に含む。

実施例１２では、実施例１１の主題が、頭部追跡装置及びユーザ入力装置の少なくとも一方からの−Ｄモーション入力を任意に含む。

実施例１３では、実施例１０〜１２のいずれか１つ又は２つ以上の主題が、アクティブステアリング出力に基づいて、それぞれが所定の量子化深度に対応する複数の量子化チャネルを生成するステップを任意に含む。

実施例１４では、実施例１３の主題が、複数の量子化チャネルからヘッドホン再生に適したバイノーラルオーディオ信号を生成するステップを任意に含む。

実施例１５では、実施例１４の主題が、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するステップを任意に含む。

実施例１６では、実施例１０〜１５のいずれか１つ又は２つ以上の主題が、形成されたオーディオ信号及び最新の明白な方向からヘッドホン再生に適したバイノーラルオーディオ信号を生成するステップを任意に含む。

実施例１７では、実施例１６の主題が、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するステップを任意に含む。

実施例１８では、実施例１０〜１７のいずれか１つ又は２つ以上の主題が、モーション入力が３つの直交する動作軸のうちの少なくとも１つの動作軸の動きを含むことを任意に含む。

実施例１９では、実施例１８の主題が、モーション入力が３つの直交する回転軸のうちの少なくとも１つの回転軸の周囲の回転を含むことを任意に含む。

実施例２０では、実施例１０〜１９のいずれか１つ又は２つ以上の主題が、モーション入力がヘッドトラッカーモーションを含むことを任意に含む。

実施例２１では、実施例１０〜２０のいずれか１つ又は２つ以上の主題が、空間オーディオ信号が少なくとも１つのアンビソニック音場を含むことを任意に含む。

実施例２２では、実施例２１の主題が、少なくとも１つのアンビソニック音場が、一次音場、高次音場及びハイブリッド音場のうちの少なくとも１つを含むことを任意に含む。

実施例２３では、実施例２１又は２２の主題が、空間音場復号を適用するステップが、時間周波数音場分析に基づいて少なくとも１つのアンビソニック音場を分析するステップを含み、少なくとも１つの音源の最新の明白な方向が時間周波数音場分析に基づくことを任意に含む。

実施例２４では、実施例１０〜２３のいずれか１つ又は２つ以上の主題が、空間オーディオ信号がマトリクス符号化信号を含むことを任意に含む。

実施例２５では、実施例２４の主題が、空間マトリクス復号を適用するステップが時間周波数マトリクス分析に基づき、少なくとも１つの音源の最新の明白な方向が時間周波数マトリクス分析に基づくことを任意に含む。

実施例２６では、実施例２５の主題が、空間マトリクス復号を適用するステップが高度情報を保存することを任意に含む。

実施例２７は、深度復号方法であって、音源深度における少なくとも１つの音源を表す空間オーディオ信号を受け取るステップと、空間オーディオ信号及び音源深度に基づいて空間分析出力を生成するステップと、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成するステップと、信号形成出力及び空間分析出力に基づいて、少なくとも１つの音源の最新の明白な方向を表すアクティブステアリング出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を含む方法である。

実施例２８では、実施例２７の主題が、少なくとも１つの音源の最新の明白な方向が、少なくとも１つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。

実施例２９では、実施例２７又は２８の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例３０では、実施例２９の主題が、アンビソニック音場符号化オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例３１では、実施例２７〜３０のいずれか１つ又は２つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。

実施例３２では、実施例３１の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、空間分析出力を生成するステップが、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成するステップと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも１つの音源の正味深度知覚を生成するステップとを含むことを任意に含む。

実施例３３では、実施例３２の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが固定位置チャネルを含むことを任意に含む。

実施例３４では、実施例３２又は３３の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも１つを含み、中央チャネルが、左耳チャネルと右耳チャネルとの間に位置するチャネルの知覚をもたらすことを任意に含む。

実施例３５では、実施例３２〜３４のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例３６では、実施例３５の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例３７では、実施例３２〜２６のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例３８では、実施例３７の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例３９では、実施例３１〜３８のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが関連する可変深度オーディオ信号を含むことを任意に含む。

実施例４０では、実施例３９の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。

実施例４１では、実施例３９又は４０の主題が、関連する各可変深度オーディオ信号が、複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。

実施例４２では、実施例４０又は４１の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するステップを任意に含み、この復号ステップが、関連する可変オーディオ深度を廃棄するステップと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号するステップを含む。

実施例４３では、実施例３９〜４２のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例４４では、実施例４３の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例４５では、実施例３９〜４４のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例４６では、実施例４５の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例４７では、実施例３１〜４６のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットの各々が、音源物理位置情報を含む関連する深度メタデータ信号を含むことを任意に含む。

実施例４８では、実施例４７の主題が、音源物理位置情報が基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が物理位置深度及び物理位置方向の少なくとも一方を含むことを任意に含む。

実施例４９では、実施例４７又は４８の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例５０では、実施例４９の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例５１では、実施例４７〜５０のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例５２では、実施例５１の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例５３では、実施例２７〜５２のいずれか１つ又は２つ以上の主題が、オーディオ出力が帯域分割及び時間周波数表現の少なくとも一方を使用して１又は２以上の周波数において単独で実行されることを任意に含む。

実施例５４は、深度復号方法であって、音源深度における少なくとも１つの音源を表す空間オーディオ信号を受け取るステップと、空間オーディオ信号に基づいて、少なくとも１つの音源の明白な正味深度及び方向を表すオーディオ出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を含む方法である。

実施例５５では、実施例５４の主題が、少なくとも１つの音源の明白な方向が少なくとも１つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。

実施例５６では、実施例５４又は５５の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例５７では、実施例５４〜５６のいずれか１つ又は２つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。

実施例５８では、実施例５７の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、信号形成出力を生成するステップが、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成するステップと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも１つの音源の正味深度知覚を生成するステップとを含むことを任意に含む。

実施例５９では、実施例５８の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが固定位置チャネルを含むことを任意に含む。

実施例６０では、実施例５８又は５９の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも１つを含み、中央チャネルが、左耳チャネルと右耳チャネルとの間に位置するチャネルの知覚をもたらすことを任意に含む。

実施例６１では、実施例５８〜６０のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例６２では、実施例６１の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例６３では、実施例５８〜６２のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例６４では、実施例６３の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例６５では、実施例５７〜６４のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが関連する可変深度オーディオ信号を含むことを任意に含む。

実施例６６では、実施例６５の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。

実施例６７では、実施例６５又は６６の主題が、関連する各可変深度オーディオ信号が、複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。

実施例６８では、実施例６６又は６７の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するステップを任意に含み、この復号ステップは、関連する可変オーディオ深度を廃棄するステップと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号するステップとを含む。

実施例６９では、実施例６５〜６８のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例７０では、実施例６９の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例７１では、実施例６５〜７０のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例７２では、実施例７１の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例７３では、実施例５７〜７２のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットの各々が関連する深度メタデータ信号を含み、深度メタデータ信号が音源物理位置情報を含むことを任意に含む。

実施例７４では、実施例７３の主題が、音源物理位置情報が基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が物理位置深度及び物理位置方向の少なくとも１つを含むことを任意に含む。

実施例７５では、実施例７３又は７４の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例７６では、実施例７５の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含む。

実施例７７では、実施例７３〜７６のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例７８では、実施例７７の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例７９では、実施例５４〜７８のいずれか１つ又は２つ以上の主題が、信号形成出力を生成するステップが時間周波数ステアリング分析にさらに基づくことを任意に含む。

実施例８０は、近距離バイノーラルレンダリングシステムであって、プロセッサと、トランスデューサとを備え、プロセッサが、音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取り、オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定し、オーディオオブジェクト位置と、リスナー位置と、リスナー配向とに基づいて、音源方向を決定し、近距離ＨＲＴＦオーディオ境界半径及び遠距離ＨＲＴＦオーディオ境界半径の少なくとも一方を含む少なくとも１つのＨＲＴＦ半径境界の音源方向に基づいて頭部伝達関数（ＨＲＴＦ）重みセットを決定し、半径方向重みセット及びＨＲＴＦ重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む３Ｄバイノーラルオーディオオブジェクト出力を生成するように構成され、トランスデューサが、３Ｄバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を可聴バイノーラル出力に変換するシステムである。

実施例８１では、実施例８０の主題が、ヘッドトラッカー及びユーザ入力の少なくとも一方から位置メタデータを受け取るようにさらに構成されたプロセッサを任意に含む。

実施例８２では、実施例８０又は８１の主題が、ＨＲＴＦ重みセットを決定することが、オーディオオブジェクト位置が遠距離オーディオ境界半径を超えていると判断することを含み、ＨＲＴＦ重みセットを決定することが、レベルロールオフ及び直接残響比率の少なくとも一方にさらに基づくことを任意に含む。

実施例８３では、実施例８０〜８２のいずれか１つ又は２つ以上の主題が、ＨＲＴＦ半径境界がＨＲＴＦオーディオ境界有意性半径を含み、ＨＲＴＦオーディオ境界有意性半径が、近距離ＨＲＴＦオーディオ境界半径と遠距離ＨＲＴＦオーディオ境界半径の間の間隙半径を定義することを任意に含む。

実施例８４では、実施例８３の主題が、オーディオオブジェクト半径を近距離ＨＲＴＦオーディオ境界半径及び遠距離ＨＲＴＦオーディオ境界半径と比較するようにさらに構成されたプロセッサを任意に含み、ＨＲＴＦ重みセットを決定することが、オーディオオブジェクト半径比較に基づいて近距離ＨＲＴＦ重みと遠距離ＨＲＴＦ重みとの組み合わせを決定することを含む。

実施例８５では、実施例８０〜８４のいずれか１つ又は２つ以上の主題が、Ｄバイノーラルオーディオオブジェクト出力が、決定されたＩＴＤ及び少なくとも１つのＨＲＴＦ半径境界にさらに基づくことを任意に含む。

実施例８６では、実施例８５の主題が、オーディオオブジェクト位置が近距離ＨＲＦオーディオ境界半径を超えていると判断するようにさらに構成されたプロセッサを任意に含み、ＩＴＤを決定することが、決定された音源方向に基づいて部分的時間遅延を決定することを含む。

実施例８７では、実施例８５又は８６の主題が、オーディオオブジェクト位置が近距離ＨＲＴＦオーディオ境界半径上又はその内部に存在すると判断するようにさらに構成されたプロセッサを任意に含み、ＩＴＤを決定することが、決定された音源方向に基づいて近距離両耳間時間遅延を決定することを含む。

実施例８８では、実施例８０〜８７のいずれか１つ又は２つ以上の主題が、Ｄバイノーラルオーディオオブジェクト出力が時間周波数分析に基づくことを任意に含む。

実施例８９は、６自由度音源追跡システムであって、プロセッサと、トランスデューサとを備え、プロセッサが、基準配向を含んで少なくとも１つの音源を表す空間オーディオ信号を受け取り、少なくとも１つの空間オーディオ信号基準配向に対するリスナーの物理的な動きを表す３Ｄ動き入力を受け取り、空間オーディオ信号に基づいて空間分析出力を生成し、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成し、信号形成出力と、空間分析出力と、３Ｄ動き入力とに基づいて、空間オーディオ信号基準配向に対するリスナーの物理的な動きによって引き起こされる少なくとも１つの音源の最新の明白な方向及び距離を表すアクティブステアリング出力を生成するように構成され、トランスデューサが、アクティブステアリング出力に基づいてオーディオ出力信号を可聴バイノーラル出力に変換するシステムである。

実施例９０では、実施例８９の主題が、リスナーの物理的な動きが回転及び並進の少なくとも一方を含むことを任意に含む。

実施例９１では、実施例８９又は９０の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例９２では、実施例９１の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例９３では、実施例９１又は９２の主題が、モーション入力装置が頭部追跡装置及びユーザ入力装置の少なくとも一方を含むことを任意に含む。

実施例９４では、実施例８９〜９３のいずれか１つ又は２つ以上の主題が、アクティブステアリング出力に基づいて、それぞれが所定の量子化深度に対応する複数の量子化チャネルを生成するようにさらに構成されたプロセッサを任意に含む。

実施例９５では、実施例９４の主題が、トランスデューサがヘッドホンを含み、プロセッサが、複数の量子化チャネルからヘッドホン再生に適したバイノーラルオーディオ信号を生成するようにさらに構成されることを任意に含む。

実施例９６では、実施例９５の主題が、トランスデューサがスピーカを含み、プロセッサが、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するようにさらに構成されることを任意に含む。

実施例９７では、実施例８９〜９６のいずれか１つ又は２つ以上の主題が、トランスデューサがヘッドホンを含み、プロセッサが、形成されたオーディオ信号及び最新の明白な方向からヘッドホン再生に適したバイノーラルオーディオ信号を生成するようにさらに構成されることを任意に含む。

実施例９８では、実施例９７の主題が、トランスデューサがスピーカを含み、プロセッサが、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するようにさらに構成されることを任意に含む。

実施例９９では、実施例８９〜９８のいずれか１つ又は２つ以上の主題が、モーション入力が３つの直交する動作軸のうちの少なくとも１つの動作軸の動きを含むことを任意に含む。

実施例１００では、実施例９９の主題が、モーション入力が３つの直交する回転軸のうちの少なくとも１つの回転軸の周囲の回転を含むことを任意に含む。

実施例１０１では、実施例８９〜１００のいずれか１つ又は２つ以上の主題が、モーション入力がヘッドトラッカーモーションを含むことを任意に含む。

実施例１０２では、実施例８９〜１０１のいずれか１つ又は２つ以上の主題が、空間オーディオ信号が少なくとも１つのアンビソニック音場を含むことを任意に含む。

実施例１０３では、実施例１０２の主題が、少なくとも１つのアンビソニック音場が、一次音場、高次音場及びハイブリッド音場のうちの少なくとも１つを含むことを任意に含む。

実施例１０４では、実施例１０２又は１０３の主題が、空間音場復号を適用することが、時間周波数音場分析に基づいて少なくとも１つのアンビソニック音場を分析することを含み、少なくとも１つの音源の最新の明白な方向が時間周波数音場分析に基づくことを任意に含む。

実施例１０５では、実施例８９〜１０４のいずれか１つ又は２つ以上の主題が、空間オーディオ信号がマトリクス符号化信号を含むことを任意に含む。

実施例１０６では、実施例１０５の主題が、空間マトリクス復号を適用することが時間周波数マトリクス分析に基づき、少なくとも１つの音源の最新の明白な方向が時間周波数マトリクス分析に基づくことを任意に含む。

実施例１０７では、実施例１０６の主題が、空間マトリクス復号を適用することが高度情報を保存することを任意に含む。

実施例１０８は、深度復号システムであって、プロセッサと、トランスデューサとを備え、プロセッサが、音源深度における少なくとも１つの音源を表す空間オーディオ信号を受け取り、空間オーディオ信号及び音源深度に基づいて空間分析出力を生成し、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成し、信号形成出力及び空間分析出力に基づいて、少なくとも１つの音源の最新の明白な方向を表すアクティブステアリング出力を生成するように構成され、トランスデューサが、アクティブステアリング出力に基づいてオーディオ出力信号を可聴バイノーラル出力に変換するシステムである。

実施例１０９では、実施例１０８の主題が、少なくとも１つの音源の最新の明白な方向が、少なくとも１つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。

実施例１１０では、実施例１０８又は１０９の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１１１では、実施例１０８〜１１０のいずれか１つ又は２つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。

実施例１１２では、実施例１１１の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、空間分析出力を生成することが、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成することと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも１つの音源の正味深度知覚を生成することとを含むことを任意に含む。

実施例１１３では、実施例１１２の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが固定位置チャネルを含むことを任意に含む。

実施例１１４では、実施例１１２又は１１３の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも１つを含み、中央チャネルが、左耳チャネルと右耳チャネルとの間に位置するチャネルの知覚をもたらすことを任意に含む。

実施例１１５では、実施例１１２〜１１４のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例１１６では、実施例１１５の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１１７では、実施例１１２〜１１６のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例１１８では、実施例１１７の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例１１９では、実施例１１１〜１１８のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが関連する可変深度オーディオ信号を含むことを任意に含む。

実施例１２０では、実施例１１９の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。

実施例１２１では、実施例１１９又は１２０の主題が、関連する各可変深度オーディオ信号が複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。

実施例１２２では、実施例１２０又は１２１のいずれか１つ又は２つ以上の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するようにさらに構成されたプロセッサを任意に含み、この復号が、関連する可変オーディオ深度を廃棄することと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号することとを含む。

実施例１２３では、実施例１１９〜１２２のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例１２４では、実施例１２３の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１２５では、実施例１１９〜１２４のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例１２６では、実施例１２５の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例１２７では、実施例１１１〜１２６のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットの各々が、音源物理位置情報を含む関連する深度メタデータ信号を含むことを任意に含む。

実施例１２８では、実施例１２７の主題が、音源物理位置情報が、基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が、物理位置深度及び物理位置方向の少なくとも１つを含むことを任意に含む。

実施例１２９では、実施例１２７又は１２８の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例１３０では、実施例１２９の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１３１では、実施例１２７〜１３０のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例１３２では、実施襟１３１の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例１３３では、実施例１０８〜１３２のいずれか１つ又は２つ以上の主題が、オーディオ出力が、帯域分割及び時間周波数表現の少なくとも一方を使用して１又は２以上の周波数において単独で実行されることを任意に含む。

実施例１３４は、深度復号システムであって、プロセッサと、トランスデューサとを備え、プロセッサが、音源深度における少なくとも１つの音源を表す空間オーディオ信号を受け取り、空間オーディオ信号に基づいて、少なくとも１つの音源の明白な正味深度及び方向を表すオーディオ出力を生成するように構成され、トランスデューサが、アクティブステアリング出力に基づいてオーディオ出力信号を可聴バイノーラル出力に変換するシステムである。

実施例１３５では、実施例１３４の主題が、少なくとも１つの音源の明白な方向が少なくとも１つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。

実施例１３６では、実施例１３４又は１３５の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１３７では、実施例１３４〜１３６のいずれか１つ又は２つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。

実施例１３８では、実施例１３７の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、信号形成出力を生成することが、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成することと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも１つの音源の正味深度知覚を生成することとを含むことを任意に含む。

実施例１３９では、実施例１３８の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが固定位置チャネルを含むことを任意に含む。

実施例１４０では、実施例１３８又は１３９の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも１つを含み、中央チャネルが、左耳チャネルと右耳チャネルの間に位置付けられるチャネルの知覚をもたらすことを任意に含む。

実施例１４１では、実施例１３８〜１４０のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例１４２では、実施例１４１の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１４３では、実施例１３８〜１４２のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例１４４では、実施例１４３の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例１４５では、実施例１３７〜１４４のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが関連する可変深度オーディオ信号を含むことを任意に含む。

実施例１４６では、実施例１４５の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。

実施例１４７では、実施例１４５又は１４６の主題が、関連する各可変深度オーディオ信号が、複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。

実施例１４８では、実施例１４６又は１４７の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するようにさらに構成されたプロセッサを任意に含み、この復号が、関連する可変オーディオ深度を廃棄することと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号することとを含む。

実施例１４９では、実施例１４５〜１４８のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例１５０では、実施例１４９の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１５１では、実施例１４５〜１５０のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例１５２では、実施例１５１の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例１５３では、実施例１３７〜１５２のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットの各々が音源物理位置情報を含む関連する深度メタデータ信号を含むことを任意に含む。

実施例１５４では、実施例１５３の主題が、音源物理位置情報が、基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が、物理位置深度及び物理位置方向の少なくとも一方を含むことを任意に含む。

実施例１５５では、実施例１５３又は１５４の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例１５６では、実施例１５５の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１５７では、実施例１５３〜１５６のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例１５８では、実施例１５７の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例１５９では、実施例１３４〜１５８のいずれか１つ又は２つ以上の主題が、信号形成出力を生成することが時間周波数ステアリング分析にさらに基づくことを任意に含む。

実施例１６０は、複数の命令を含む少なくとも１つの機械可読記憶媒体であって、複数の命令が、コンピュータ制御された近距離バイノーラルレンダリング装置のプロセッサ回路によって実行されたことに応答して、装置に、音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取るステップと、オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定するステップと、オーディオオブジェクト位置と、リスナー位置と、リスナー配向とに基づいて、音源方向を決定するステップと、近距離ＨＲＴＦオーディオ境界半径及び遠距離ＨＲＴＦオーディオ境界半径の少なくとも一方を含む少なくとも１つのＨＲＴＦ半径境界の音源方向に基づいて頭部伝達関数（ＨＲＴＦ）重みセットを決定するステップと、半径方向重みセット及びＨＲＴＦ重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む３Ｄバイノーラルオーディオオブジェクト出力を生成するステップと、３Ｄバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を変換するステップとを実行させる機械可読記憶媒体である。

実施例１６１では、実施例１６０の主題が、ヘッドトラッカー及びユーザ入力の少なくとも一方から位置メタデータを受け取ることを装置に実行させる命令を任意に含む。

実施例１６２では、実施例１６０又は１６１の主題が、ＨＲＴＦ重みセットを決定するステップが、オーディオオブジェクト位置が遠距離ＨＲＴＦオーディオ境界半径を超えていると判断するステップと、ＨＲＴＦ重みセットがレベルロールオフ及び直接残響比率の少なくとも一方にさらに基づくと決定するステップとを含むことを任意に含む。

実施例１６３では、実施例１６０〜１６２のいずれか１つ又は２つ以上の主題が、ＨＲＴＦ半径境界が、近距離ＨＲＴＦオーディオ境界半径と遠距離ＨＲＴＦオーディオ境界半径との間の間隙半径を定義するＨＲＴＦオーディオ境界有意性半径を含むことをさらに含む。

実施例１６４では、実施例１６３の主題が、オーディオオブジェクト半径を近距離ＨＲＴＦオーディオ境界半径及び遠距離ＨＲＴＦオーディオ境界半径と比較するステップを装置にさらに実行させる命令を任意に含み、ＨＲＴＦ重みセットを決定するステップが、オーディオオブジェクト半径比較に基づいて近距離ＨＲＴＦ重みと遠距離ＨＲＴＦ重みとの組み合わせを決定するステップを含む。

実施例１６５では、実施例１６０〜１６４のいずれか１つ又は２つ以上の主題が、Ｄバイノーラルオーディオオブジェクト出力が、決定されたＩＴＤ及び少なくとも１つのＨＲＴＦ半径境界にさらに基づくことを任意に含む。

実施例１６６では、実施例１６５の主題が、オーディオオブジェクト位置が近距離ＨＲＴＦオーディオ境界半径を超えていると判断することを装置に実行させる命令を任意に含み、ＩＴＤを決定するステップが、決定された音源方向に基づいて部分的時間遅延を決定するステップを含む。

実施例１６７では、実施例１６５又は１６６の主題が、オーディオオブジェクト位置が近距離ＨＲＴＦオーディオ境界半径上又はその内部に存在すると判断することを装置に実行させる命令を任意に含み、ＩＴＤを決定するステップが、決定された音源方向に基づいて近距離両耳間時間遅延を決定するステップを含む。

実施例１６８では、実施例１６０〜１６７のいずれか１つ又は２つ以上の主題が、Ｄバイノーラルオーディオオブジェクト出力が時間周波数分析に基づくことを任意に含む。

実施例１６９は、複数の命令を含む少なくとも１つの機械可読記憶媒体であって、複数の命令が、コンピュータ制御された６自由度音源追跡装置のプロセッサ回路によって実行されたことに応答して、装置に、基準配向を含んで少なくとも１つの音源を表す空間オーディオ信号を受け取るステップと、少なくとも１つの空間オーディオ信号基準配向に対するリスナーの物理的な動きを表す３Ｄ動き入力を受け取るステップと、空間オーディオ信号に基づいて空間分析出力を生成するステップと、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成するステップと、信号形成出力と、空間分析出力と、３Ｄ動き入力とに基づいて、空間オーディオ信号基準配向に対するリスナーの物理的な動きによって引き起こされる少なくとも１つの音源の最新の明白な方向及び距離を表すアクティブステアリング出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を実行させる機械可読記憶媒体である。

実施例１７０では、実施例１６９の主題が、リスナーの物理的動きが回転及び並進の少なくとも一方を含むことを任意に含む。

実施例１７１では、実施例１６９又は１７０の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例１７２では、実施例１７１の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１７３では、実施例１７１又は１７２の主題が、頭部追跡装置及びユーザ入力装置の少なくとも一方からの−Ｄモーション入力を任意に含む。

実施例１７４では、実施例１６９〜１７３のいずれか１つ又は２つ以上の主題が、アクティブステアリング出力に基づいて、それぞれが所定の量子化深度に対応する複数の量子化チャネルを生成するステップを装置に実行させる命令を任意に含む。

実施例１７５では、実施例１７４の主題が、複数の量子化チャネルからヘッドホン再生に適したバイノーラルオーディオ信号を生成するステップを装置に実行させる命令を任意に含む。

実施例１７６では、実施例１７５の主題が、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するステップを装置に実行させる命令を任意に含む。

実施例１７７では、実施例１６９〜１７６のいずれか１つ又は２つ以上の主題が、形成されたオーディオ信号及び最新の明白な方向からヘッドホン再生に適したバイノーラルオーディオ信号を生成するステップを装置に実行させる命令を任意に含む。

実施例１７８では、実施例１７７の主題が、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するステップを装置に実行させる命令を任意に含む。

実施例１７９では、実施例１６９〜１７８のいずれか１つ又は２つ以上の主題が、モーション入力が３つの直交する動作軸のうちの少なくとも１つの動作軸の動きを含むことを任意に含む。

実施例１８０では、実施例１７９の主題が、モーション入力が３つの直交する回転軸のうちの少なくとも１つの回転軸の周囲の回転を含むことを任意に含む。

実施例１８１では、実施例１６９〜１８０のいずれか１つ又は２つ以上の主題が、モーション入力がヘッドトラッカーのモーションを含むことを任意に含む。

実施例１８２では、実施例１６９〜１８１のいずれか１つ又は２つ以上の主題が、空間オーディオ信号が少なくとも１つのアンビソニック音場を含むことを任意に含む。

実施例１８３では、実施例１８２の主題が、少なくとも１つのアンビソニック音場が、一次音場、高次音場及びハイブリッド音場のうちの少なくとも１つを含むことを任意に含む。

実施例１８４では、実施例１８２又は１８３の主題が、空間音場復号を適用するステップが、時間周波数音場分析に基づいて少なくとも１つのアンビソニック音場を分析するステップを含むことと、少なくとも１つの音源の最新の明白な方向が時間周波数音場分析に基づくこととを任意に含む。

実施例１８５では、実施例１６９〜１８４のいずれか１つ又は２つ以上の主題が、空間オーディオ信号がマトリクス符号化信号を含むことを任意に含む。

実施例１８６では、実施例１８５の主題が、空間マトリクス復号を適用するステップが時間周波数マトリクス分析に基づくことと、少なくとも１つの音源の最新の明白な方向が時間周波数マトリクス分析に基づくこととを任意に含む。

実施例１８７では、実施例１８６の主題が、空間マトリクス復号を適用するステップが高度情報を保存することを任意に含む。

実施例１８８は、複数の命令を含む少なくとも１つの機械可読記憶媒体であって、複数の命令が、コンピュータ制御された深度復号装置のプロセッサ回路によって実行されたことに応答して、装置に、音源深度における少なくとも１つの音源を表す空間オーディオ信号を受け取るステップと、空間オーディオ信号及び音源深度に基づいて空間分析出力を生成するステップと、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成するステップと、信号形成出力及び空間分析出力に基づいて、少なくとも１つの音源の最新の明白な方向を表すアクティブステアリング出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を実行させる機械可読記憶媒体である。

実施例１８９では、実施例１８８の主題が、少なくとも１つの音源の最新の明白な方向が、少なくとも１つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。

実施例１９０では、実施例１８８又は１８９の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１９１では、実施例１８８〜１９０のいずれか１つ又は２つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。

実施例１９２では、実施例１９１の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、空間分析出力を生成するステップを装置に実行させる命令が、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成するステップと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも１つの音源の正味深度知覚を生成するステップとを装置に実行させる命令を含むことを任意に含む。

実施例１９３では、実施例１９２の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが固定位置チャネルを含むことを任意に含む。

実施例１９４では、実施例１９２又は１９３の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも１つを含み、中央チャネルが、左耳チャネルと右耳チャネルとの間に位置するチャネルの知覚をもたらすことを任意に含む。

実施例１９５では、実施例１９２〜１９４のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例１９６では、実施例１９５の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例１９７では、実施例１９２〜１９６のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例１９８では、実施例１９７の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例１９９では、実施例１９１〜１９８のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが関連する可変深度オーディオ信号を含むことを任意に含む。

実施例２００では、実施例１９９の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。

実施例２０１では、実施例１９９又は２００の主題が、関連する各可変深度オーディオ信号が、複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。

実施例２０２では、実施例２００又は２０１の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するステップを装置に実行させる命令を任意に含み、この命令が、関連する可変オーディオ深度を廃棄するステップと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号するステップとを装置に実行させる命令を含む。

実施例２０３では、実施例１９９〜２０２のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例２０４では、実施例２０３の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例２０５では、実施例１９９〜２０４のいずれか１つ又は２つ以上の主題が、複数のオーディオ信号サブセットの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例２０６では、実施例２０５の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例２０７では、実施例１９１〜２０６のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットの各々が、音源物理位置情報を含む関連する深度メタデータ信号を含むことを任意に含む。

実施例２０８では、実施例２０７の主題が、音源物理位置情報が基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が物理位置深度及び物理位置方向の少なくとも１つを含むことを任意に含む。

実施例２０９では、実施例２０７又は２０８の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例２１０では、実施例２０９の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例２１１では、実施例２０７〜２１０のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例２１２では、実施例２１１の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例２１３では、実施例１８８〜２１２のいずれか１つ又は２つ以上の主題が、オーディオ出力が帯域分割及び時間周波数表現の少なくとも一方を使用して１又は２以上の周波数において単独で実行されることを任意に含む。

実施例２１４は、複数の命令を含む少なくとも１つの機械可読記憶媒体であって、複数の命令が、コンピュータ制御された深度復号装置のプロセッサ回路によって実行されたことに応答して、装置に、音源深度における少なくとも１つの音源を表す空間オーディオ信号を受け取るステップと、空間オーディオ信号に基づいて、少なくとも１つの音源の明白な正味深度及び方向を表すオーディオ出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を実行させる機械可読記憶媒体である。

実施例２１５では、実施例２１４の主題が、少なくとも１つの音源の明白な方向が少なくとも１つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。

実施例２１６では、実施例２１４又は２１５の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例２１７では、実施例２１４〜２１６のいずれか１つ又は２つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。

実施例２１８では、実施例２１７の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、信号形成出力を生成するステップを装置に実行させる命令が、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成するステップと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも１つの音源の正味深度知覚を生成するステップとを装置に実行させる命令を含むことを任意に含む。

実施例２１９では、実施例２１８の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが固定位置チャネルを含むことを任意に含む。

実施例２２０では、実施例２１８又は２１９の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも１つを含み、中央チャネルが、左耳チャネルと右耳チャネルとの間に位置するチャネルの知覚をもたらすことを任意に含む。

実施例２２１では、実施例２１８〜２２０のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例２２２では、実施例２２１の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例２２３では、実施例２１８〜２２２のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例２２４では、実施例２２３の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例２２５では、実施例２１７〜２２４のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つが関連する可変深度オーディオ信号を含むことを任意に含む。

実施例２２６では、実施例２２５の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。

実施例２２７では、実施例２２５又は２２６の主題が、関連する各可変深度オーディオ信号が、複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。

実施例２２８では、実施例２２６又は２２７のいずれか１つ又は２つ以上の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するステップを装置に実行させる命令を任意に含み、この命令が、関連する可変オーディオ深度を廃棄するステップと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号するステップとを装置に実行させる命令を含む。

実施例２２９では、実施例２２５〜２２８のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例２３０では、実施例２２９の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例２３１では、実施例２２５〜２３０のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例２３２では、実施例２３１の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例２３３では、実施例２１７〜２３２のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットの各々が、音源物理位置情報を含む関連する深度メタデータ信号を含むことを任意に含む。

実施例２３４では、実施例２３３の主題が、音源物理位置情報が基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が物理位置深度及び物理位置方向の少なくとも１つを含むことを任意に含む。

実施例２３５では、実施例２３３又は２３４の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。

実施例２３６では、実施例２３５の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも１つを含むことを任意に含む。

実施例２３７では、実施例２３３〜２３６のいずれか１つ又は２つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも１つがマトリクス符号化オーディオ信号を含むことを任意に含む。

実施例２３８では、実施例２３７の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。

実施例２３９では、実施例２１４〜２３８のいずれか１つ又は２つ以上の主題が、信号形成出力を生成するステップが時間周波数ステアリング分析にさらに基づくことを任意に含む。

上記の詳細な説明は、詳細な説明の一部を成す添付図面の参照を含む。図面には、特定の実施形態を一例として示す。本明細書では、これらの実施形態を「実施例」とも呼ぶ。このような実施例は、図示又は説明した要素以外の要素を含むこともできる。さらに、本主題は、本明細書で図示又は説明した特定の実施例（或いはその１又は２以上の態様）又は他の実施例（或いはその１又は２以上の態様）に関して図示又は説明した要素（或いはその１又は２以上の態様）のあらゆる組み合わせ又は置換を含むこともできる。

本文書における「１つの（英文不定冠詞）」という用語の使用は、特許文書でよく見られるように、他のいずれかの例、或いは「少なくとも１つ（ａｔｌｅａｓｔｏｎｅ）」又は「１又は２以上（ｏｎｅｏｒｍｏｒｅ）」の使用とは関係なく１つ又は複数のものを含む。本文書における「又は（ｏｒ）」という用語の使用は非排他的なｏｒを示し、従って「Ａ又はＢ」は、別途指示がない限り、「ＡであるがＢではない」、「ＢであるがＡではない」、並びに「Ａ及びＢ」を含む。本文書における「含む（ｉｎｃｌｕｄｉｎｇ）」及び「において（ｉｎｗｈｉｃｈ）」という用語は、「備える（ｃｏｍｐｒｉｓｉｎｇ）」及び「において（ｗｈｅｒｅｉｎ）」というそれぞれの用語の分かり易い英語の同等表現として使用するものである。また、以下の特許請求の範囲における「含む（ｉｎｃｌｕｄｉｎｇ）」及び「備える（ｃｏｍｐｒｉｓｉｎｇ）」という用語は包括的なものであり、すなわち特許請求の範囲においてこのような用語の後に列挙される要素以外の要素を含むシステム、装置、物品、構成、定式化又は方法もその特許請求の範囲に含まれると見なされる。さらに、以下特許請求の範囲における「第１の」、「第２の」及び「第３の」などの用語は単にラベルとして使用しているものであり、これらの対象に数字的要件を課すものではない。

上記の説明は例示であり、限定的なものではない。例えば、上述した実施例（或いはその１又は２以上の態様）は互いに組み合わせて使用することもできる。上記の説明を再考察すれば、当業者などは他の実施形態を使用することもできる。要約書は、技術的な開示の性質を読者が素早く確認できるように示すものである。要約書は、特許請求の範囲又はその意味を解釈又は限定するために使用されるものではないという了解の下で提出するものである。上記の詳細な説明では、本開示を簡素化するために様々な特徴をグループ化していることがある。これについて、特許請求の範囲に記載していない開示する特徴がいずれかの請求項に必須であることを意図するものであると解釈すべきではない。むしろ、本主題は、開示した特定の実施形態の全ての特徴より少ないものによって成立する。従って、以下特許請求の範囲は、各請求項が別個の実施形態として自立した状態で詳細な説明に組み込まれ、このような実施形態は、様々な組み合わせ又は置換で互いに組み合わせることができるように企図される。本発明の範囲は、添付の特許請求の範囲、並びにこのような特許請求の範囲が権利を有する同等物の完全な範囲を参照して決定されるべきものである。

Claims

近距離バイノーラルレンダリング方法であって、
音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取るステップと、
前記オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定するステップと、
前記オーディオオブジェクト位置と、前記リスナー位置と、前記リスナー配向とに基づいて、音源方向を決定するステップと、
近距離ＨＲＴＦオーディオ境界半径及び遠距離ＨＲＴＦオーディオ境界半径の少なくとも一方を含む少なくとも１つのＨＲＴＦ半径境界の前記音源方向に基づいて頭部伝達関数（ＨＲＴＦ）重みセットを決定するステップと、
前記半径方向重みセット及び前記ＨＲＴＦ重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む３Ｄバイノーラルオーディオオブジェクト出力を生成するステップと、
前記３Ｄバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を変換するステップと、
を含むことを特徴とする方法。
ヘッドトラッカー及びユーザ入力の少なくとも一方から前記位置メタデータを受け取るステップをさらに含む、
請求項１に記載の方法。
前記ＨＲＴＦ重みセットを決定するステップは、前記オーディオオブジェクト位置が前記遠距離ＨＲＴＦオーディオ境界半径を超えていると判断するステップを含み、
前記ＨＲＴＦ重みセットを決定するステップは、レベルロールオフ及び直接残響比率の少なくとも一方にさらに基づく、
請求項１に記載の方法。
前記ＨＲＴＦ半径境界は、前記近距離ＨＲＴＦオーディオ境界半径と前記遠距離ＨＲＴＦオーディオ境界半径との間の間隙半径を定義するＨＲＴＦオーディオ境界有意性半径を含む、
請求項１に記載の方法。
前記オーディオオブジェクト半径を前記近距離ＨＲＴＦオーディオ境界半径及び前記遠距離ＨＲＴＦオーディオ境界半径と比較するステップをさらに含み、前記ＨＲＴＦ重みセットを決定するステップは、前記オーディオオブジェクト半径比較に基づいて近距離ＨＲＴＦ重みと遠距離ＨＲＴＦ重みとの組み合わせを決定するステップを含む、
請求項４に記載の方法。
両耳間時間遅延（ＩＴＤ）を決定するステップをさらに含み、３Ｄバイノーラルオーディオオブジェクト出力を生成するステップは、前記決定されたＩＴＤ及び前記少なくとも１つのＨＲＴＦ半径境界にさらに基づく、
請求項１に記載の方法。
近距離バイノーラルレンダリングシステムであって、
プロセッサと、
トランスデューサと、
を備え、前記プロセッサは、
音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取り、
前記オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定し、
前記オーディオオブジェクト位置と、前記リスナー位置と、前記リスナー配向とに基づいて、音源方向を決定し、
近距離ＨＲＴＦオーディオ境界半径及び遠距離ＨＲＴＦオーディオ境界半径の少なくとも一方を含む少なくとも１つのＨＲＴＦ半径境界の前記音源方向に基づいて頭部伝達関数（ＨＲＴＦ）重みセットを決定し、
前記半径方向重みセット及び前記ＨＲＴＦ重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む３Ｄバイノーラルオーディオオブジェクト出力を生成する、
ように構成され、前記トランスデューサは、
前記３Ｄバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を可聴バイノーラル出力に変換する、
ことを特徴とするシステム。
前記プロセッサは、ヘッドトラッカー及びユーザ入力の少なくとも一方から前記位置メタデータを受け取るようにさらに構成される、
請求項７に記載のシステム。
前記ＨＲＴＦ重みセットを決定することは、前記オーディオオブジェクト位置が前記遠距離ＨＲＴＦオーディオ境界半径を超えていると判断することを含み、
前記ＨＲＴＦ重みセットを決定することは、レベルロールオフ及び直接残響比率の少なくとも一方にさらに基づく、
請求項７に記載のシステム。
前記ＨＲＴＦ半径境界は、前記近距離ＨＲＴＦオーディオ境界半径と前記遠距離ＨＲＴＦオーディオ境界半径との間の間隙半径を定義するＨＲＴＦオーディオ境界有意性半径を含む、
請求項７に記載のシステム。
前記プロセッサは、前記オーディオオブジェクト半径を前記近距離ＨＲＴＦオーディオ境界半径及び前記遠距離ＨＲＴＦオーディオ境界半径と比較するようにさらに構成され、前記ＨＲＴＦ重みセットを決定することは、前記オーディオオブジェクト半径比較に基づいて近距離ＨＲＴＦ重みと遠距離ＨＲＴＦ重みとの組み合わせを決定することを含む、
請求項１０に記載のシステム。
前記プロセッサは、両耳間時間遅延（ＩＴＤ）を決定するようにさらに構成され、３Ｄバイノーラルオーディオオブジェクト出力を生成することは、前記決定されたＩＴＤ及び前記少なくとも１つのＨＲＴＦ半径境界にさらに基づく、
請求項７に記載のシステム。
複数の命令を含む少なくとも１つの機械可読記憶媒体であって、前記複数の命令は、コンピュータ制御された近距離バイノーラルレンダリング装置のプロセッサ回路によって実行されたことに応答して、前記装置に、
音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取るステップと、
前記オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定するステップと、
前記オーディオオブジェクト位置と、前記リスナー位置と、前記リスナー配向とに基づいて、音源方向を決定するステップと、
近距離ＨＲＴＦオーディオ境界半径及び遠距離ＨＲＴＦオーディオ境界半径の少なくとも一方を含む少なくとも１つのＨＲＴＦ半径境界の前記音源方向に基づいて頭部伝達関数（ＨＲＴＦ）重みセットを決定するステップと、
前記半径方向重みセット及び前記ＨＲＴＦ重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む３Ｄバイノーラルオーディオオブジェクト出力を生成するステップと、
前記３Ｄバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を変換するステップと、
を実行させる、ことを特徴とする機械可読記憶媒体。
前記ＨＲＴＦ半径境界は、前記近距離ＨＲＴＦオーディオ境界半径と前記遠距離ＨＲＴＦオーディオ境界半径との間の間隙半径を定義するＨＲＴＦオーディオ境界有意性半径を含む、
請求項１３に記載の機械可読記憶媒体。
前記命令は、前記装置に、前記オーディオオブジェクト半径を前記近距離ＨＲＴＦオーディオ境界半径及び前記遠距離ＨＲＴＦオーディオ境界半径と比較するステップをさらに実行させ、前記ＨＲＴＦ重みセットを決定するステップは、前記オーディオオブジェクト半径比較に基づいて近距離ＨＲＴＦ重みと遠距離ＨＲＴＦ重みとの組み合わせを決定するステップを含む、
請求項１４に記載の機械可読記憶媒体。