JP6983484B2

JP6983484B2 - マルチレイヤ記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト

Info

Publication number: JP6983484B2
Application number: JP2020500725A
Authority: JP
Inventors: ハル・ユルゲン; ハーベッツ・エマニュエル
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2017-07-14
Filing date: 2018-07-13
Publication date: 2021-12-17
Anticipated expiration: 2038-07-13
Also published as: AU2018298876A1; TW201909170A; AR112504A1; BR112020000759A2; RU2740703C1; KR102652670B1; SG11202000285QA; EP3652736A1; CA3069403C; KR102540642B1; JP2020527745A; US20210289310A1; ZA202000023B; TWI692753B; KR20220044973A; WO2019012133A1; KR20200041860A; CA3069403A1; US11153704B2; US11863962B2

Description

本発明は、オーディオ処理に関し、特に、マイクまたは仮想マイク位置などの基準位置に関して定義される音場に関するオーディオ処理に関する。

アンビソニックス信号は、音場の切り捨てられた球面調和分解を含む。アンビソニックスには様々なフレーバーがある。今日では「一次アンビソニックス」（ＦＯＡ）として知られ、４つの信号（すなわち、１つの全方向性信号と最大３つの８桁の方向信号）で構成される「伝統的な」アンビソニックス［３１］がある。より最近のアンビソニックス変形例は「高次アンビソンシス」（ＨＯＡ）として知られ、より多くの信号を伝送することを犠牲にして空間分解能を高め、リスナーのスイートスポット領域を大きくする。一般に、完全に定義されたＮ次のＨＯＡ表現は（Ｎ＋１）^２信号で構成される。

アンビソニックスのアイデアに関連して、方向性オーディオ符号化（ＤｉｒＡＣ）表現は、よりコンパクトなパラメトリックスタイルでＦＯＡまたはＨＯＡ音響シーンを表現するために考案された。より具体的には、空間音響シーンは、音響シーンと各時間−周波数（ＴＦ）ビンの方向と拡散度の関連するサイド情報のダウンミックスを表す１つ（または複数）の送信オーディオチャネルによって表される。ＤｉｒＡＣについてのさらなる情報は、［３２、３３］にある。

ＤｉｒＡＣ［３２］は、様々なマイクシステムおよび任意のスピーカ設定で使用できる。ＤｉｒＡＣシステムの目的は、マルチチャネル／３Ｄスピーカシステムを使用して、既存の音響環境の空間的な印象を可能な限り正確に再現することである。選択された環境内で、応答（連続音またはインパルス応答）は、全方向性マイク（Ｗ）と、音の到来方向と音の拡散度を測定できるマイクのセットで測定される。一般的な方法は、対応するデカルト座標軸に合わせて３つの８の字型マイク（Ｘ、Ｙ、Ｚ）を適用することである［３４］。これを行う方法は、音場マイクを使用することであり、これにより、希望するすべての応答が直接得られる。Ｗ、Ｘ、Ｙ、およびＺ信号は、個別の全方向性マイクのセットから計算することもできる。

ＤｉｒＡＣでは、音響信号は最初に周波数チャネルに分割される。音の方向と拡散度は、各周波数チャネルの時間に応じて測定される。伝送では、解析された方向および拡散度データと共に、１つまたは複数のオーディオチャネルが送信される。合成では、スピーカに適用されるオーディオは、例えば、全方向性チャネルＷであるか、または、各スピーカの音は、Ｗ、Ｘ、Ｙ、およびＺの重み付き合計として計算することができ、これは、各スピーカの特定の指向特性を有する信号を形成する。各オーディオチャネルは周波数チャネルに分割され、解析された拡散度に応じて、任意選択で拡散ストリームと非拡散ストリームに分割される。拡散ストリームは、例えばバイノーラルキュー符号化［３５−３７］で使用される非相関技術など、音響シーンの拡散知覚を生成する技術で再現される。非拡散音は、方向データ（ＶＢＡＰ［３８］など）に従って点状の仮想音源を生成することを目的とする手法で再現される。

自由度が制限された６ＤｏＦでのナビゲーションのための３つの手法が［３９］で提案されている。単一のアンビソニックス信号が与えられた場合、単一のアンビソニックス信号は以下を使用して計算される。１）仮想スピーカアレイ内でのＨＯＡ再生とリスナーの動きのシミュレーション、２）平面波に沿った計算と変換、３）リスナーに関する音場の再拡張。

さらに、ＤｉｒＡＣ技術については、例えば、出版物「ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ−Ｐｅｒｃｅｐｔｉｏｎ−ＢａｓｅｄＲｅｐｒｏｄｕｃｔｉｏｎｏｆＳｐａｔｉａｌＳｏｕｎｄ」、Ｖ．Ｐｕｌｋｋｉｅｔａｌ、ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎｔｈｅＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｎＳｐａｔｉａｌＨｅａｒｉｎｇ，Ｎｏｖｅｍｂｅｒ１１−１３，２００９，Ｚａｏ，Ｍｉｙａｇｉ，Ｊａｐａｎを参照されたい。この参考文献は、特に空間オーディオ処理のための知覚的に動機付けられた技術として、音場処理に関連する基準位置の例として指向性オーディオ符号化について説明している。それは、電話会議、指向性フィルタリング、仮想聴覚環境における空間音の取り込み、符号化、再合成での用途がある。

音響シーンの再現は、多くの場合、スピーカの設定に焦点を当てているが、これは、プライベート（リビングルームなど）やプロのコンテキスト（映画館など）での典型的な再現であったためである。ここでは、シーンと再現ジオメトリの関係は静的であり、リスナーが正面方向を見るように強制する２次元画像を伴う。その後に、音響オブジェクトと視覚オブジェクトの空間関係が定義され、制作時に固定される。

仮想現実（ＶＲ）では、ユーザがシーン内を自由に移動できるようにすることで、没入感が明示的に実現される。したがって、ユーザの動きを追跡し、視覚と聴覚の再現をユーザの位置に調整する必要がある。通常、ユーザはヘッドマウントディスプレイ（ＨＭＤ）とヘッドフォンを装着している。ヘッドフォンで没入型の体験をするには、オーディオをバイノーラル化する必要がある。バイノーラル化は、人間の頭、耳、上半身が方向と距離に応じて音源の音をどのように変化させるかのシミュレーションである。これは、相対的な方向の頭部伝達関数（ＨＲＴＦ）で信号を畳み込むことで実現される［１、２］。バイノーラル化により、音は頭の内側からではなく、シーンから来ているように見える［３］。既に良好に対処されている一般的なシナリオは、３６０°ビデオ再生である［４、５］。ここでは、ユーザはＨＭＤを装着しているか、タブレットまたは電話を手に持っている。頭またはデバイスを動かすことにより、ユーザはあらゆる方向を見ることができる。これは、ユーザが３つの運動度（ピッチ、ヨー、ロール）を有するため、３自由度（３ＤｏＦ）のシナリオである。視覚的には、これはユーザの周囲の球体にビデオを投影することで実現される。多くの場合、オーディオはビデオカメラの近くの空間マイク［６］、例えば１次アンビソニックス（ＦＯＡ）で録音される。アンビソニックスドメインでは、ユーザの頭の回転は簡単な方法で適応される［７］。次に、オーディオは、例えば、ユーザの周囲に配置された仮想スピーカにレンダリングされる。次に、これらの仮想スピーカ信号がバイノーラル化される。

最新のＶＲ用途では、６自由度（６ＤｏＦ）が可能である。頭の回転に加えて、ユーザは動き回ることができ、その結果、３次元でのユーザの位置が並進される。６ＤｏＦ再生は、歩行エリアの全体的なサイズによって制限される。多くの場合、この領域はかなり小さく、例えば従来のリビングルームである。６ＤｏＦは、一般的にＶＲゲームで遭遇する。ここでは、シーン全体がコンピュータ生成画像（ＣＧＩ）で合成されている。多くの場合、オーディオはオブジェクトベースのレンダリングを使用して生成され、各オーディオオブジェクトは、追跡データに基づいてユーザからの距離に依存するゲインと相対方向でレンダリングされる。現実性は、人工的な残響と回折によって強化できる［８、９、１０］。

記録されたコンテンツに関して、視聴覚６ＤｏＦ再生を確信させるためのいくつかの明確な課題がある。空間並進ドメインにおける空間音響操作の初期の例は、「音響ズーム」技術の例である［１１、１２］。ここで、リスナーの位置は、画像にズームインするのと同様に、記録された視覚シーンに仮想的に移動する。ユーザは１つの方向または画像部分を選択し、変換されたポイントからこれを聞くことができる。これは、すべての到来方向（ＤｏＡ）が元のズームされていない複製に対して変化していることを伴う。

記録されたコンテンツの６ＤｏＦ再生のための方法は、空間的に分布する記録位置を使用して提案されてきた。ビデオの場合、カメラのアレイを使用して明視野レンダリングを生成できる［１３］。オーディオの場合、同様の設定では、分散マイクアレイまたはアンビソニックスマイクを使用する。そのような録音から任意の位置に置かれた「仮想マイク」の信号を生成することが可能であることが示されている［１４］。

技術的に便利な方法でこのような空間音の修正を実現するために、パラメトリックな音処理または符号化技術を使用できる（概要については［１５］を参照）。指向性オーディオ符号化（ＤｉｒＡＣ）［１６］は、録音をオーディオスペクトルと、音の方向と拡散度に関するパラメトリックなサイド情報で構成される表現に変換する一般的な方法である。これは、音響ズーム［１１］および仮想マイク［１４］用途に使用される。

ここで提案する方法は、単一のＦＯＡマイクの録音から６ＤｏＦ再生を可能にする。単一の空間位置からの録音は、３ＤｏＦ再生または音響ズームに使用されている。しかし、発明者らの知る限り、このようなデータからインタラクティブで完全な６ＤｏＦを再生する方法はこれまで提案されていない。録音中の音源の距離に関する情報を統合することにより、６ＤｏＦ再生を実現する。この距離情報は、変更されたリスナーの視点が正しくマッピングされるように、ＤｉｒＡＣのパラメータ表現に組み込まれる。

アンビソニックスの音場表現（通常のＦＯＡまたはＨＯＡアンビソニックスとして、またはＤｉｒＡＣスタイルのパラメトリック音場表現として）はいずれも、６ＤｏＦ用途に必要なリスナーの位置の並進シフトを可能にする十分な情報を提供しないが、それはこれらのフォーマットでは、オブジェクトの距離も音響シーン内のオブジェクトの絶対位置も決定されないためである。リスナーの位置のシフトは、反対方向の音響シーンの同等のシフトに変換できることに留意されたい。

６ＤｏＦで移動する場合の典型的な問題を図１ｂに示す。音響シーンがアンビソニックスを使用して位置Ａで記述されていると仮定する。この場合、音源Ａと音源Ｂからの音は同じ方向から到着する。すなわち、同じ方向の到来方向（ＤＯＡ）を有する。位置Ｂに移動した場合、音源Ａと音源ＢのＤＯＡは異なる。音場の標準的なアンビソニックス記述を使用して、すなわち、追加情報なしでは、位置Ａのアンビソニックス信号が与えられると、位置Ｂのアンビソニックス信号を計算することはできない。

ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ−Ｐｅｒｃｅｐｔｉｏｎ−ＢａｓｅｄＲｅｐｒｏｄｕｃｔｉｏｎｏｆＳｐａｔｉａｌＳｏｕｎｄ、Ｖ．Ｐｕｌｋｋｉｅｔａｌ、ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎｔｈｅＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｎＳｐａｔｉａｌＨｅａｒｉｎｇ，Ｎｏｖｅｍｂｅｒ１１−１３，２００９，Ｚａｏ，Ｍｉｙａｇｉ，Ｊａｐａｎ

本発明の目的は、改善された、または柔軟な、または効率的な処理を可能にし、一方で拡張音場記述または他方で修正音場記述の生成を提供することである。

この目的は、請求項１の拡張音場記述を生成する装置、請求項１０の修正音場記述を生成する装置、請求項２７の拡張音場記述を生成する方法、請求項２８の修正音場記述を生成する方法、請求項２９のコンピュータプログラム、または請求項３０の拡張音場記述によって達成される。

本発明は、基準位置に関連する典型的な音場記述には、これらの音場記述を処理することができる追加情報が必要であるという知見に基づくものであり、そのようにすれば、元の基準位置になく、別の基準位置に関連しない修正音場記述を算出することができる。この目的のために、この音場の空間情報に関連するメタデータが生成され、メタデータは音場記述と共に、例えば送信または保存できる拡張音場記述に対応する。音場記述およびメタデータ、具体的には音場記述の空間情報に関連するメタデータから、修正音場記述を生成するために、空間情報、音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して、修正音場が計算される。したがって、音場記述と、音場記述の基礎となるこの音場の空間情報に関連するメタデータで構成される拡張音場記述が処理されて、修正音場記述が取得され、修正音場記述は、例えばデコーダ側で提供または使用できる追加の並進情報によって定義される別の基準位置に関連している。

しかし、本発明は、エンコーダ／デコーダのシナリオに関連するだけでなく、拡張音場記述の生成と修正音場記述の生成の両方が基本的に１つの同じ場所で行われるアプリケーションにも適用することができる。修正音場記述は、例えば、修正音場自体の記述、または実際にはチャネル信号、バイノーラル信号の修正音場、または再び関連する基準位置関連の音場、しかし、元の基準位置ではなく新しいまたは異なる基準位置に関連する基準位置に関連する音場であってもよい。このようなアプリケーションは、例えば、メタデータと一緒に音場記述が存在し、リスナーが、音場が与えられた基準位置から出て別の基準位置に移動する仮想現実のシナリオであって、そこでは、仮想エリア内を動き回るリスナーの音場は、現在ユーザが移動した別の基準位置での音場に対応するように計算される。

一実施形態では、音場生成器は、複数の少なくとも２つのレイヤの各レイヤについて、１つまたは複数のダウンミックス信号および個別方向データ、ならびに任意選択で異なる時間−周波数ビンに対する拡散度データを有する音場のＤｉｒＡＣ記述を生成することができる。このコンテキストでは、メタデータ生成器はレイヤに含まれるすべての音源とレイヤに関連するすべての周波数ビンで同じであるため、各レイヤの追加の距離または深度情報を生成するように構成されている。好ましい実施形態は、レイヤに関連付けられた距離または距離範囲を有するであろう。あるいは、レイヤごとに深度マップを提供することができる。特に、さらなる実施形態では、空間情報に関連するメタデータは、特定の距離を到来方向情報などの特定の位置情報に関連付ける深度マップである。

実施形態では、到来方向は、仰角のみ、方位角のみ、または両方の角度によって与えられ、深度マップは、レイヤ内の各音源にメートルなどの距離や相対距離または相対距離などの同じ距離情報を関連付ける量子化された絶対距離または相対距離、またはその他の距離情報から、最終的に、音場が関連する異なるまたは新しい基準位置に関する距離を導き出すことができる。

続いて、他の好ましい実施態様の概要を説明する。

アンビソニックスは、仮想現実、拡張現実、複合現実アプリケーションのコンテキストで、３Ｄオーディオで最も一般的に使用されるフォーマットの１つになった。アンビソニックスフォーマットの出力信号を生成する、様々なオーディオ取得および制作ツールが開発されている。双方向の仮想現実（ＶＲ）アプリケーションでアンビソニックス符号化されたコンテンツを表示するために、アンビソニックスフォーマットは再生用のバイノーラル信号またはチャネルに変換される。前述のアプリケーションでは、リスナーは通常、提示されたシーンにおける自分の向きを対話形式で変更することができ、音響シーンで頭を回転させて３自由度（３ＤｏＦ、すなわち、ピッチ、ヨー、およびロール）を可能にして、適切な音質を経験することができる。これは、頭の向きに従ってレンダリングする前に音響シーンを回転させることで実現され、これは、計算の複雑さを低く抑えて実施することができ、アンビソニックス表現の利点である。しかし、ＶＲなどの新しいアプリケーションでは、方向の変化（いわゆる「６自由度」または６ＤｏＦ）だけでなく、ユーザが音響シーンで自由に移動できるようにすることが望まれる。結果として、音響シーンの遠近感を変更する（すなわち、ｘ、ｙ、またはｚ軸に沿って音響シーン内を仮想的に移動する）ために信号処理が必要である。しかし、アンビソニックスの主な欠点は、フォーマットが音響シーンの単一の視点から音場を記述することである。具体的には、６ＤｏＦで必要とされるような音響シーンをシフト（「並進」）できる音響シーン内の音源の実際の場所に関する情報は含まれていない。本発明の説明は、アンビソニックスのいくつかの拡張を提供して、この問題を克服し、並進も容易にし、したがって真の６ＤｏＦを可能にする。

一次アンビソニックス（ＦＯＡ）録音は、ヘッドフォンで処理および再生できる。それらは、リスナーの頭の向きに合わせて回転させることができる。しかし、仮想現実（ＶＲ）システムでは、リスナーは６自由度（６ＤｏＦ）、すなわち３つの回転自由度と３つの遷移自由度で移動できる。ここで、音源の見かけの角度と距離は、リスナーの位置に依存する。６ＤｏＦを容易にする手法について説明する。特に、ＦＯＡ録音は、リスナーの位置と音源までの距離に関する情報に基づいて修正されるパラメトリックモデルを使用して記述される。この方法は、リスニングテストによって評価され、リスナーが自由に移動できる合成音響シーンの異なるバイノーラルレンダリングを比較する。

さらに好ましい実施形態では、拡張音場記述は、送信または保存のための出力信号を生成するための出力インターフェースによって出力され、出力信号は、時間フレームについて、時間フレームの音場および空間情報から導出された１つまたは複数のオーディオ信号を含む。特に、音場生成器は、さらなる実施形態では、音場から方向データを導出するように適応可能であり、方向データは、ある期間または周波数ビンの音の到来方向を指し、メタデータ生成器は、距離情報を方向データに関連付けるデータ項目として空間情報を導出するように構成される。

特に、このような実施形態では、出力インターフェースは、時間フレームのデータ項目が異なる周波数ビンの方向データにリンクされるように出力信号を生成するように構成される。

さらなる実施形態では、音場生成器はまた、音場の時間フレームの複数の周波数ビンについて拡散度情報を生成するように構成され、メタデータ生成器は、拡散度の値が所定のしきい値または適応しきい値よりも低い場合に、所定の値と異なる、または無限と異なる周波数ビンの距離情報のみを生成するか、または周波数ビンの距離値をとにかく生成するように構成される。したがって、拡散度の高い時間／周波数ビンの場合、距離値がまったく生成されないか、またはデコーダによって特定の方法で解釈される所定の距離値が生成される。したがって、高い拡散度を有する時間／周波数ビンについては、距離に関連するレンダリングは実行されないことが確認されるが、それは、高い拡散度は、そのような時間／周波数ビンに対して、音が特定の局在化した音源から来るのではなく、任意の方向から来るからであり、したがって、音場が元の基準位置で知覚されるか、異なるまたは新しい基準位置で知覚されるかに関係なく同じであるからである。

音場計算器に関して、好ましい実施形態は、並進情報または修正音場に対する意図されたリスナーの回転を示す回転情報を提供するための変換インターフェースと、メタデータを音場計算器に提供するためのメタデータサプライヤと、音場記述を音場計算器に提供するための音場サプライヤと、さらに、修正音場記述および修正メタデータを含む修正音場を出力するための出力インターフェースと、を含み、修正メタデータは、並進情報を使用してメタデータから導出され、または、出力インターフェースは複数のスピーカチャネルを出力し、各スピーカチャネルは、所定のスピーカ位置に関連付けられ、または、出力インターフェースは、修正音場のバイノーラル表現を出力する。

一実施形態では、音場記述は複数の音場成分を含む。複数の音場成分は、全方向性成分と少なくとも１つの指向性成分を含む。そのような音場記述は、例えば、全方向性成分と３つの指向性成分Ｘ、Ｙ、Ｚを有する１次アンビソニックス音場記述であるか、または、そのような音場は、全方向成分、Ｘ、Ｙ、およびＺ方向に関する３つの方向成分と、さらに、Ｘ、Ｙ、Ｚ方向以外の他の方向に関連するさらなる方向性成分と、を含む高次アンビソニックス記述である。

一実施形態では、装置は、音場成分を解析して、異なる時間または周波数ビンについて、到来方向情報を導出するための解析器を含む。装置は、ＤｏＡ情報およびメタデータを使用して周波数または時間ビンごとに修正ＤｏＡ情報を計算するための並進変換器をさらに含み、メタデータは、時間フレームのすべての周波数ビンについて、距離をレイヤ記述、すなわちレイヤのすべての音源に関連付ける深度マップに関連する。したがって、各レイヤには非常に単純な「深度マップ」で十分である。レイヤの深度マップには、図４ｃのように、少なくともこのレイヤの距離または距離範囲のみが必要である。

さらに、音場計算器は、レイヤからの音源の各周波数または時間ビンに対して同じであるメタデータから、ならびに時間または周波数ビンに関連付けられた新しい距離から提供される距離に依存する距離補償情報を使用して修正音場を計算するための距離補償器を有し、新しい距離は修正ＤｏＡ情報に関連する。

一実施形態では、音場計算器は、基準位置から音場の解析によって得られた音源を指す第１のベクトルを計算する。さらに、音場計算器は、異なる基準位置から音源を指す第２のベクトルを計算し、この計算は第１のベクトルと並進情報を使用して行われる。並進情報は、基準位置から異なる基準位置への並進ベクトルを定義する。そして、別の基準位置から音源までの距離が第２のベクトルを使用して計算される。

さらに、音場計算器は、並進情報に加えて、ピッチ、ヨー、およびロールによって与えられる３つの回転方向のうちの１つでのリスナーの頭の回転を示す回転情報を受け取るように構成される。次に、音場計算器は、回転情報を使用して回転変換を実行し、音場の修正された到来方向データを回転させるように構成され、修正された到来方向データは、音場記述の音解析および並進情報により得られた到来方向データから導出される。

一実施形態では、音場計算器は、音場記述から音源信号を決定し、音解析によって基準位置に関連する音源信号の方向を決定するように構成される。

次に、異なる基準位置に関連する音源の新しい方向が計算され、これはメタデータを使用して行われ、次に、異なる基準位置に関連する音源の距離情報が計算され、その後に、修正音場が距離情報と音源の新しい方向を使用して合成される。

一実施形態では、音場合成は、再生設定に関して新しい方向情報によって与えられる方向に音源信号をパンニングすることによって実行され、音源信号のスケーリングは、パンニングを実行する前またはパンニングを実行した後に距離情報を使用して行われる。距離が変化した場合、音源信号を新しいレイヤに関連付ける必要がある。次に、音場記述が生成される場合、１とは異なるスケーリング係数が使用される。トランスコーダの意味で、新しいマルチレイヤ記述が生成される場合、距離の変化を説明するには、一方のレイヤから他方のレイヤへの変更だけで十分である。「パンニング」は、特定の場所に関連するフィールドの形式で新しい音場記述を生成するために、図４ｉに概説されているように実行できる。しかし、スピーカ信号を生成するために、新しいＤｏＡから導出されたパンニングゲインを使用したパンニングを実行することができる。

さらなる実施形態では、音場合成は、再生設定、音源信号のスケーリングに関する新しい方向情報によって与えられる方向に、レイヤ内のＦＯＡまたはＨＯＡ音源信号を回転させ、最後に、距離情報を使用して音源信号をレイヤに関連付けることにより実行される。説明したように、これにより「パンニング」を置き換えることができる。

さらなる実施形態では、音源信号の拡散部分が音源信号の直接部分に追加され、直接部分は、拡散部分に追加される前に距離情報によって修正される。

さらなる実施形態では、音源信号の拡散部分が専用レイヤに追加される。この専用レイヤに関連付けられた信号は、再生設定に関する新しい方向情報に基づいて回転される。

特に、新しい方向情報が各周波数ビンに対して計算されるスペクトル表現で音源合成を実行することが好ましく、各周波数ビンについて距離情報が計算され、周波数ビンのオーディオ信号を使用した各周波数ビンの直接合成が、周波数ビンのオーディオ信号、新しい方向情報から導出された周波数ビンのパンニングゲイン、および周波数ビンの距離情報から導出された周波数ビンのスケーリング係数を使用して実行される。

さらに、周波数ビンからのオーディオ信号から導出された拡散オーディオ信号と、周波数ビンの信号解析から導出された拡散パラメータを使用して拡散合成が実行され、直接信号と拡散信号を組み合わせて時間または周波数ビンの合成オーディオ信号を取得し、次に他の時間／周波数ビンのオーディオ信号を使用して周波数−時間変換を実行して、時間領域の合成オーディオ信号を修正音場として取得する。

したがって、一般に、音場計算器は、例えば、音源ごとに、音源信号の新しい方向を使用して音源信号を処理することにより、異なる基準位置に関連する音場を音源ごとに合成し、異なる／新しい基準位置に関連する音源信号の音場記述を取得するように構成される。さらに、音源信号は、音源信号を処理する前、または方向情報を使用して音源信号を処理した後に修正される。そして最後に、音源の音場記述を一緒に追加して、異なる基準位置に関連する修正音場を取得する。

さらなる実施形態では、音場計算器は、ＤｉｒＡＣ解析または他の任意の音源解析の代わりに、音源分離アルゴリズムを実行する。音源分離アルゴリズムは、最終的には、例えば時間領域または周波数領域の音源信号になる。次に、拡散信号は、元の音場が拡散信号といくつかの音源信号に分解されるように、元の音場から音源信号を減算することによって計算され、各音源信号は特定の方向に関連付けられている。

好ましい実施形態によれば、音場生成器は、基準位置についての第１の音場記述を生成し、第１の音場記述は、基準位置の周りの第１の音場記述に位置する音源からの音データのみを含み、さらに、音場生成器は、基準位置についての第２の音場記述を生成し、第２の音場記述は、基準位置の周りの第２のボリュームに位置する第２の音源からの音データのみを有し、第２のボリュームは第１のボリュームとは異なる。各ボリュームは１つ、好ましくは複数の音源を備えるが、メタデータは、ボリューム内のすべての音源に適用可能な第１のボリュームおよび／または第２のボリュームの空間記述を提供するように構成される。例えば、空間記述が特定のレイヤから基準位置までの代表距離である場合、この距離は、対応する到来方向の推定と共に、レイヤ内の音源の位置を決定するために、レイヤ内のすべての音源に対して同じ方法で使用される。しかし、レイヤ内の位置は、基準位置に対して放射状にのみ決定されるが、同じレイヤ内の各音源の距離は、空間記述、または特定の実施形態では、このボリューム／レイヤに関連する代表距離に対応する。したがって、非常に効率的でコンパクトなメタデータ表現が得られ、これは通常、レイヤ内の任意の数の音源の単一の値で構成され、さらに、音響信号のすべてのサブバンドで同じである。例えば、レイヤの音場の音響解析を使用する場合、距離情報は各サブバンドで同じになる。

ここで、各ボリュームはレイヤで表され、ボリュームが重ならないように個別のレイヤで表されることが好ましいことに留意されたい。

したがって、マルチレイヤ音場記述に関する本発明は、一方で非常にコンパクトなサイド情報を有するが、単一の音場記述に関しては、レイヤごとに完全な音場記述が提供されるため、よりオーバーヘッドが多い。例えば、単一のレイヤがＢフォーマット信号で表される場合、各レイヤに４つの音響成分、すなわち全方向性成分と３つの方向性成分が必要である。したがって、音場が３つのレイヤで表される場合、各レイヤが１次アンビソニックス信号またはＢフォーマット信号で表される場合、全体で１２の音響成分、すなわちレイヤごとに４つが必要である。当然、音源数の少ないレイヤの成分数が少ない音場記述と比較して、音源数が多いレイヤの高次の音場記述など、レイヤごとに異なる音場記述を使用することができる。

しかし、一方で、各音場レイヤのメタデータとして必要なのは単一の幾何学的情報のみである。

好ましい実施形態では、ボリュームは基準位置の周りの球または球殻であり、通常、最下位レイヤは基準位置の周りの球であり、上位レイヤは球で表される第１のレイヤの周りに広がる球殻である。

しかし、音場で表されるボリュームは必ずしも球である必要はない。あるいは、ボリュームは、立方体、平行六面体要素、または他の任意の、通常は三次元の幾何学的形態であってもよい。しかしながら、本発明は、二次元の状況にも適用することができ、その結果、ボリュームは、面積、通常は、三次元における微小な小さな拡がりによって表される。したがって、「ボリューム」という用語は、真の３次元ボリュームを指すだけでなく、２次元の場合のボリュームが第３の方向にわずかに小さな拡がりを有する平面である２次元の場合も指す。したがって、２次元の場合の「ボリューム」は、第１のレイヤの基準点の周りの円と、第１のレイヤの代表半径よりも大きい代表半径を有する第１の「ボリューム」の周りの円環になる。

さらに、拡張音場記述を生成する装置は、元の音場から２つ以上の階層化された音場記述を生成し、これらの音場記述に、第１のボリュームおよび／または第２のボリュームの空間記述を関連付ける一種のエンコーダとして構成されるばかりではない。他の実施形態では、拡張音場記述を生成するための装置は、メタデータを含むレイヤ記述を受け取り、新しいメタデータを含む新しいレイヤ記述を生成するトランスコーダとして実施することもできる。例えば、各レイヤのメタデータが基準点までの代表距離で表される場合、トランスコードされた拡張音場記述が、異なる（新しい）基準点までの代表距離が同じレイヤを有する場合、トランスコーダによって生成された拡張音場のメタデータは元のメタデータと同じになるが、トランスコーダは、個々の音源の新しい方向が考慮された各レイヤの修正音場記述を生成し、さらに、音源から基準位置までの新しい距離は、音源をあるレイヤから別のレイヤに移動することによって、そしてもちろん、音源の音源信号を減衰または増幅することによって考慮される。特に、音源が下位レイヤから上位レイヤに移動する場合、音源信号に減衰が提供されるか、あるいは、音源が上位レイヤから下位レイヤに移動する場合、すなわち、新しい基準位置に近づく場合、音源信号に増幅が提供される。

各レイヤの各音場記述は、レイヤ記述から音源信号を生成するだけでなく、さらにこの音源の到来方向を決定するフルバンドの音源分離技術などの音源分離技術によって解析できる。代わりに、その音場記述は、ＤｉｒＡＣ解析器で周波数選択音源分離を実行して解析することもでき、これにより、時間／周波数ビンごとに、音源オーディオ信号と、通常は拡散度値が計算される。

しかし、特定の音源から新しい基準位置までの距離の計算に関しては、各レイヤのメタデータから取得された距離情報は、特定のレイヤ記述から決定された各音源で同じである。したがって、例えば、到来方向が異なる２つ以上の音源がレイヤ記述から決定されているブロードバンド解析の場合、距離情報は各音源で同じである。

あるいは、レイヤの音場記述がＤｉｒＡＣ解析器によって解析される場合、各時間／周波数ビンの距離情報は再び同じになる。すなわち、対応するレイヤの基準距離に等しくなる。

本発明がデコーダとして適用される場合、すなわち、音場計算器は、修正音場を、例えば、アンビソニックス表現などの完全な指向性成分表現の形で計算する場合、メタデータは、基準位置までの新旧の距離に応じて、対応する音響信号をスケーリングするためにのみ必要である。次に、各レイヤの音源ごとに、特定のアンビソニックス表現を計算し、このアンビソニックス表現は、古い到来方向情報から決定された新しい到来方向と、古い基準位置から新しい基準位置への並進情報を使用して計算され、次に、各音源信号は、音源の以前の基準位置から新しい基準位置までの距離を考慮してスケーリングされ、対応するスケーリングに続いて、音源の個々のアンビソニックス表現を互いに重ね合わせて、音場の完全なアンビソニックス表現を得ることができる。したがって、そのような「デコーダ」は、階層化された表現を新しい基準位置に関する単一の音場記述に変換し、スピーカ信号などに変換するなど、さらに処理できるように構成される。

あるいは、音場計算器は、個々のレイヤからの意図された実際のまたは仮想のスピーカ設定のスピーカ表現、例えばレイヤの音場記述のＤｉｒＡＣ合成を実行するように構成することができ、次に、異なるレイヤからの個々のスピーカ信号を一緒に追加して、最終的に、この所定のスピーカ設定でレンダリングできる、またはバイノーラルレンダラでバイノーラル表示に変換できるスピーカ表現を作成することができる。

したがって、本発明は、特定の基準位置に関するメタデータを含む階層化された音場記述を生成するために、または、再度階層化された表現を使用するが、新しい基準位置に関連するレイヤを使用してトランスコードされた拡張音場を再度生成するために、使用することができ、あるいは、本発明は、階層化表現に加えてメタデータを、新しい基準位置に関連するメタデータなしの特定の音場記述に復号化するために適用することができる。

本発明の好ましい実施形態は、添付の図面に関して以下で説明される。

拡張音場記述を生成する装置の好ましい実施形態を示す図である。本発明の基礎にある例示的な問題を説明する図である。拡張音場記述を生成するための装置の好ましい実施態様を示す図である。オーディオデータ、およびオーディオデータのサイド情報を含む拡張音場記述を示す図である。各レイヤ記述の幾何学的情報などの空間情報に関連するオーディオデータおよびメタデータを含む拡張音場を示すさらなる図である。修正音場記述を生成する装置の実施態様を示す図である。修正音場記述を生成するための装置のさらなる実施態様を示す図である。マルチレイヤシナリオを示す図である。デコーダまたはトランスコーダのオプション１の実施形態を示す図である。単一オブジェクトのレンダラを示す図である。デコーダまたはトランスコーダのオプション２の実施形態を示す図である。デコーダ／レンダラの一部を示す図である。トランスコーダの一部を示す図である。モノラル信号および到来方向データなどのオーディオ信号から音場記述を生成するための例示的なデバイスを示す図である。空間オーディオの６ＤｏＦ再生を示す図である。拡張音場記述を生成するための装置と、レイヤごとに修正音場記述を生成するための装置とを含む第６のＤｏＦ再生の好ましい実施形態を示す図である。新しい／異なる基準位置に対する音源の新しいＤｏＡおよび新しい距離を計算するための好ましい実施態様を示す図である。スケーリング係数の決定と適用の実施形態を示す図である。拡張音場記述を生成する装置と、レイヤごとのＤｉｒＡＣのコンテキストでレイヤごとに修正音場記述を生成する装置とを含む第６のＤｏＦ再生の別の好ましい実施形態を示す図である。修正音場記述を生成するための装置の好ましい実施態様を示す図である。修正音場記述を生成するための装置のさらに好ましい実施態様を示す図である。従来技術のＤｉｒＡＣ解析の実施態様を示す図である。従来技術のＤｉｒＡＣ合成の実施態様を示す図である。

前述のアンビソニックス／ＤｉｒＡＣ表現に対して６ＤｏＦアプリケーションを有効にするには、変換処理に不足している情報を提供する方法でこれらの表現を拡張する必要がある。この拡張は、例えば、１）オブジェクトの距離または位置を既存のシーン表現に追加すること、および／または２）個々のオブジェクトを分離するプロセスを容易にする情報を追加すること、ができることに留意されたい。

さらに、既存の（ノンパラメトリックまたはパラメトリック）アンビソニックスシステムの構造を保存／再利用して、
・拡張された表現は、既存の拡張されていない表現（例えば、レンダリング用）に変換することができ、
・拡張表現を使用する場合、既存のソフトウェアとハードウェアの実施態様を再利用することができるという意味で、これらの表現／システムとの下位互換性を提供することが実施形態の目的である。

以下では、いくつかのアプローチ、すなわち、１つの限定された（しかし非常に単純な）アプローチと、６ＤｏＦを有効にする３つの異なる拡張アンビソニックスフォーマットについて説明する。

通常のアンビソニックス表現の代わりに、複数のアンビソニックス信号（すなわち、複数の信号のセット）が定義される。各アンビソニックス信号は、音響シーンの特定の距離範囲に対応している。距離範囲は、均一なパーティション（０〜１メートル、１〜２メートル、２〜３メートルなど）または不均一なパーティション（０〜１メートル、１〜３メートル、３メートル以上）を含んでもよい。オーバーラップしない距離範囲は、音響シーンの実際のプロパティに応じて静的に定義されるか、動的に定義されてもよく、マルチレイヤアンビソニックスフォーマットで定義される。あるいは、ウィンドウ関数と共に重なり合う距離範囲を定義することができる。レイヤの１つは、正確な距離記述を必要としないが音響シーン全体に分散された拡散／アンビエント音響に個別に割り当てることができる。

マルチレイヤアンビソニックス表現の概念は、従来のアンビソニックスとパラメトリック（ＤｉｒＡＣスタイル）アンビソニックスの両方に適用できる。３つのレイヤの一例を図４ｃに示す。

以下のテキストは、提案されたマルチレイヤアンビソニックスを使用して変換を実施する方法を説明している。

オプションＩ（図４ｄ）：各アンビソニックスレイヤのオブジェクトは、音源分離手法を適用して生成される。アンビエンス／拡散／残差アンビソニックス信号も生成することができる。ＤＯＡは１Ｄ／２Ｄ音源局在化を使用して取得され、距離はレイヤのメタデータによって与えられる。多くの場合、ＤＯＡは音源分離フィルタからも抽出でき、音源分離とＤＯＡの同時推定を実行する方法が存在することに留意されたい。

次に、図４ｅに示すように、各シングルチャネルオブジェクトが１つまたは複数のレイヤにレンダリングされる。第一に、それぞれＤＯＡ’およびＤｉｓｔａｎｃｅ’で表される変換後のＤＯＡおよび距離は、並進情報（例えば、ベクトルとして表される）およびレイヤ距離（例えば、そのレイヤの平均または代表距離）に基づいて計算される。第二に、ＤＯＡ’に基づいてオブジェクトのアンビソニックス信号が生成される。第三に、オブジェクトは、Ｄｉｓｔａｎｃｅ’とオブジェクトが抽出されたレイヤの距離に基づいて適切なレイヤにレンダリングされる。すべてのオブジェクトの修正アンビソニックス信号を生成した後に、第ｉの修正アンビソニックスレイヤ（ｉ∈｛１、…、Ｌ｝）は、すべてのオブジェクトのレイヤｉの修正アンビソニックス出力を加算することによって計算される。第ｉのレイヤのアンビエンス／拡散／残差アンビソニックス信号は、第ｉの修正アンビソニックス出力に直接追加される。

さらに、距離の変化を補償するために、いわゆる距離補償フィルタを適用できる。フィルタは、Ｄｉｓｔａｎｃｅ’とレイヤ距離に基づいてオブジェクトに直接適用できる。

オプションＩＩ（図４ｆ）：音源分離手法を適用することにより、すべてのＬレイヤを使用してオブジェクトが生成される。単一のアンビエンス／拡散／残差アンビソニックス信号も生成することができる。

次に、図４ｅに示すように、各シングルチャネルオブジェクトが１つまたは複数のレイヤにレンダリングされる。第一に、それぞれＤＯＡ’およびＤｉｓｔａｎｃｅ’で表される変換後のＤＯＡおよび距離は、並進情報（例えば、ベクトルとして表される）およびレイヤ距離（例えば、そのレイヤの平均または代表距離）に基づいて計算される。第二に、ＤＯＡに基づいてオブジェクトのアンビソニックス信号が生成される。第三に、オブジェクトは、Ｄｉｓｔａｎｃｅ’とオブジェクトが抽出されたレイヤの距離に基づいて適切なレイヤにレンダリングされる。さらに、距離の変化を補償するために、いわゆる距離補償フィルタを各オブジェクトに適用できる。すべてのオブジェクトの修正アンビソニックス信号を生成した後に、第ｉの修正アンビソニックスレイヤ（ｉ∈｛１、…、Ｌ｝）は、すべてのオブジェクトのレイヤｉの修正アンビソニックス出力を加算することによって計算される。第ｉのレイヤのアンビエンス／拡散／残差アンビソニックス信号は、第ｉの修正アンビソニックス出力に直接追加される。

マルチレイヤのアンビソニックス信号の生成は、コンピュータで生成および制作されたコンテンツに対して簡単である。マイクアレイまたは空間マイク（Ｂフォーマットのマイクなど）を介した自然な録音をマルチレイヤアンビソニックス信号に変換するのは簡単ではない。

レイヤは、投影、加算、またはダウンミキシングにより、従来のアンビソニックス信号に変換できる。シンプルで計算効率の高い変換を図４ｇに示す。

向きの変化は、マルチレイヤアンビソニックス信号の各々にレイヤに依存しない回転を適用するか、従来のアンビソニックス信号に単一の回転を適用することで実現することができる。レイヤに依存しない回転は、並進の前または後に実行することができる。

図１ａは、少なくとも１つの基準位置に関する音場を示す少なくとも１つの音場記述を生成するための音場（記述）生成器１００を含む、拡張音場記述を生成するための装置を示す。さらに、装置は、音場の空間情報に関するメタデータを生成するためのメタデータ生成器１１０を含む。メタデータは、入力として、音場を受け取るか、その代わりにまたはさらに、音源に関する個別の情報を受け取る。

音場記述生成器１００およびメタデータ生成器１１０の両方の出力は、拡張音場記述を構成する。一実施形態では、音場記述生成器１００およびメタデータ生成器１１０の両方の出力をコンバイナ１２０または出力インターフェース１２０内で結合して、空間メタデータまたはメタデータ生成器１１０によって生成された音場の空間情報を含む拡張音場記述を得ることができる。

図１ｂは、本発明によって対処される状況を示している。例えば、位置Ａは少なくとも１つの基準位置であり、音源Ａと音源Ｂによって音場が生成され、位置Ａにある特定の実際のマイクまたは例えば仮想マイクが音源Ａおよび音源Ｂからの音を検出する。音は、放出音源から来る音の重ね合わせである。これは、音場記述生成器によって生成された音場記述を表す。

さらに、メタデータ生成器は、特定の実施態様により、音源Ａに関する空間情報と、これらの音源から位置Ａなどの基準位置までの距離などの音源Ｂに関する別の空間情報と、を導出する。

当然、基準位置は代わりに位置Ｂであってもよい。次に、実際のマイクまたは仮想マイクを位置Ｂに配置し、音場記述は、例えば、１次アンビソニックス成分または高次アンビソニックス成分、または少なくとも１つの基準位置、つまり位置Ｂに関する音場を記述する可能性を有する他の任意の音響成分で表される音場である。

メタデータ生成器は、音源に関する情報として、音源Ａから位置Ｂまでの距離、または音源Ｂから位置Ｂまでの距離を生成してもよい。音源に関する代替情報は、もちろん、基準位置に対する絶対位置または相対位置であってもよい。基準位置は、一般的な座標系の原点にすることも、一般的な座標系の原点に対して定義された関係に配置することもできる。

他のメタデータには、１つの音源の絶対位置や、第１の音源に対する他の音源の相対位置などがある。

図２は、拡張音場記述を生成するための装置を示し、音場生成器は、第１の音場のための音場生成器２５０、第２の音場のための音場生成器２６０、ならびに第３、第４の音場など、１つまたは複数の音場のための任意の数の音場生成器を含む。さらに、メタデータは、第１の音場および第２の音場に関する情報を計算してコンバイナ１２０に転送するように構成される。このすべての情報は、拡張音場記述を生成するためにコンバイナ１２０によって使用される。したがって、コンバイナ１２０はまた、拡張音場記述を生成する出力インターフェースとして構成される。

図３ａは、第１の音場記述３３０、第２の音場記述３４０、およびそれらに関連する第１の音場記述および第２の音場記述に関する情報を含むメタデータ３５０を含むデータストリームとして拡張音場記述を示す。第１の音場記述は、例えば、Ｂフォーマットの記述、高次の記述、またはフルバンド表現または周波数選択表現のいずれかで音源の方向分布を決定できる他の任意の記述であってもよい。したがって、第１の音場記述３３０および第２の音場記述３４０は、例えば、ダウンミックス信号および異なる時間／周波数ビンの到来方向データを有する個々のレイヤのパラメトリック音場記述であってもよい。

それにもかかわらず、第１および第２の音場記述の幾何学的情報３５０は、第１の音場記述３３０に含まれるすべての音源、または第２の音場記述３４０の音源に対してそれぞれ同じである。したがって、例示的に、第１の音場記述３３０に３つの音源が存在し、第１の音場記述に関する幾何学的情報が存在する場合、この幾何学的情報は第１の音場記述の３つの音源に対して同じである。同様に、例えば、第２の音場記述に５つの音源が存在する場合、メタデータ３５０に含まれる第２の音場の幾何学的情報は、第２の音場記述のすべての音源に対して同じである。

図３ｂは、図３ａのメタデータ３５０の例示的な構成を示している。一実施形態では、基準点３５１をメタデータに含めることができる。しかし、これは必ずしも基準点情報３５１が省略され得るというわけではない。

第１の音場について、第１の幾何学的情報が与えられ、これは、例えば、後述する図４ｃの例示的な実施形態の０．５メートルの値となる第１のレイヤの中間半径または代表半径であってもよい。

第２のレイヤは１メートルから３メートルに及ぶので、第２の音場は、例えば、図４ｃの実施形態の２メートルなどの第２のレイヤの中間半径に対応する第２の幾何学的情報３５３によって記述される。

第３の音場は、第３の幾何学的情報３５４によって記述され、代表距離は、例えば、４メートル程度などの第３のレイヤの「中間半径」である。当然、各音場記述は複数の音源を含むことが好ましいが、特定のレイヤの音場記述に単一の音源のみが含まれる場合もある。

例えば、好ましいマルチレイヤアンビソニックス手法を示す図４ｃを考えると、第１のレイヤは０または最小距離、例えば０．５ｍから１ｍまで延在する。第２のレイヤは１ｍから３ｍまで延在し、第３のレイヤは、図４ｃに示す３つの円の中心である第１の基準点から３ｍを超える距離を有するすべての音源を含む。

さらに、図４ｃは、２つの音源１、２がレイヤ１に含まれ、２つの音源３、４がレイヤ２に含まれ、音源５および６がレイヤ３に含まれることを示している。

概説したように、図３ａは、拡張音場記述を含むビットストリームまたは一般的なデータストリームの一例を示している。データストリームは、時間フレームｉ、ｉ＋１など、および対応する時間フレームの関連サイド情報を含んでもよい。

図４ｂは、図２の音場解析器２１０が実際にダウンミックスを生成しないが、ＢフォーマットまたはＡフォーマットまたは特定の期間の高次表現などのその他の完全な表現を生成する別の実施態様を示す。

図４ｃは、新しいリスナーの位置も示している。新しいリスナー位置の周囲に同じレイヤが描画されると、新しいリスナー位置への並進により音源１がレイヤ１からレイヤ３に移動することが明らかになり、したがって（強く）減衰する必要がある。

さらに、音源２はレイヤ１からレイヤ２に移動するので、（弱く）減衰する必要がある。

さらに、音源３は以前のレイヤ２から新しいレイヤ３に移動するので、（弱く）減衰する必要がある。

さらに、音源４は第２のレイヤに残るため、減衰を必要としない。さらに、音源５も同じレイヤに留まるため、スケーリングする必要はない。最後に、音源６は前の第３のレイヤから新しい第１のレイヤに移動するので、（強く）増幅する必要がある。

したがって、一般に、基準点から異なる（新しい）基準点への並進により、音源が移動すると、特定のスケーリング係数が決定される。音源の「移動」が上位レイヤから下位レイヤに移動する場合、スケーリングは減衰であり、「移動」が下位レイヤから上位レイヤに移動する場合、スケーリングは減衰である。さらに、「移動」が１つのレイヤから次のレイヤに移動する場合、スケーリング係数は弱い減衰または弱い増幅などの弱いスケーリング係数になり、移動が１つのレイヤから次のレイヤにではなく、１つのレイヤからその１つの層に隣接するレイヤではない別のレイヤに移動する場合、つまり、第１のレイヤから第３のレイヤ、またはその逆の場合、スケーリング係数は、より強い減衰または増幅が実行されるものになる。

例えば、音源が第３のレイヤから第２のレイヤに移動し、図３ｂの例示的な値を考慮すると、スケーリング係数は２．０の増幅係数、すなわち４ｍを２ｍで除算した値になる。しかし、音源が第２のレイヤから第３のレイヤに移動する場合、スケーリング係数は０．５、すなわち２ｍを４ｍで除算した値になる。

あるいは、音源が第１のレイヤから第３のレイヤに移動し、図３ｂの例示的な図を想定すると、スケーリング係数は０．５ｍを５ｍで除算して得られる０．１〜５になる。

あるいは、図４ｃの実施形態における音源６のように、音源が第３の音場から第１の音場に移動する場合、スケーリング係数は、４ｍを０．５ｍで除算することによって得られる８．０になる。

当然、これらの例は図４ｃに示されている２次元の「ボリューム」の場合に関して説明されているが、図４ｃの円がレイヤ１の球およびレイヤ２もしくはレイヤ３の球殼を表すと考えられる場合、真の３次元のボリュームの場合にも同じ考慮事項が利用できる。

図４ｄは、一般に、修正音場記述を生成する装置、またはその代わりに、トランスコーダ表現のコンテキストで拡張音場記述を生成する装置の音場計算器の実施態様を示す。アンビソニックスレイヤ１として例示的に示す第１のレイヤ表現、アンビソニックスレイヤ２として示される第２の音場記述、およびアンビソニックスレイヤＬに示す任意の追加の音場記述は、異なる音源分離およびＤｏＡ推定ブロック４２２、４２２ａ、４２２ｂに導入される。さらに、ブロック４２２、４２２ａ、４２２ｂの手順によって見つかったオブジェクトを対応する「新しい」レイヤにレンダリングするように構成されたレンダラ４５０が使用される。さらに、解析ブロック４２２、４２２ａ、４２２ｂは、オブジェクト信号およびオブジェクト信号の到来方向を抽出するように構成されているだけでなく、各レイヤの音場記述からアンビエンス／拡散／残差信号を生成するようにも構成されている。この信号は、例えば、個々の表現から音源分離手順によって導出されたすべての個々の音源信号の合計を減算することによって取得できる。あるいは、例えば、音源分離４２２、４２２ａ、４２２ｂがＤｉｒＡＣ解析として構成される場合、拡散／アンビエンス／残差信号は、パラメトリックな方法で、拡散度パラメータにより表される。

さらに、図４ｄは、特定のレイヤの修正されたアンビソニックス表現に、そのレイヤに対応する拡散度信号を追加するための加算器６０１、６０２、６０３を示している。

これは、レイヤ１、レイヤ２、レイヤＬの各々に対して行われ、図４ｄの出力は、トランスコードされた拡張音場記述を再度表すが、それは、ブロック６０１、６０２、６０３によって出力される異なる修正された表現のために、特定のメタデータが、レイヤ１、レイヤ２、およびレイヤＬの代表距離を示すことに関連付けられるからである。

図４ｅは、図４ｄの場合、単一のオブジェクトまたは音源のレンダラを示している。オブジェクトは、例えば、第１のレイヤのブロック４２２または第２のレイヤのブロック４２２ａまたは第Ｌのレイヤのブロック４２２ｂによって得られ、アンビソニックス信号を計算するためにブロック４３０に入力され、ブロック４３０は、例えば、図４ｉに示すように構成され得る。アンビソニックス信号を新しいＤｏＡ’、すなわち、古いＤｏＡによってブロック４２３、４２３ａ、４２３ｂで生成された音源の到来方向の値、元の基準位置から新しいリスナー位置への並進情報を計算するために。

したがって、新しいＤｏＡに関してオブジェクトの新しいアンビソニックス信号が計算され、オブジェクトとして出力される。したがって、例えば、図４ｉのブロック４３０の出力は、オブジェクトの信号になる。さらに、ブロック４２３、４２３ａ、４２３ｂは、図４ｃに関して前述したように新しい距離を計算／決定し、したがって、例えば、図４ｃおよび図４ｂの例に関して前述したようにスケーリング係数を計算し、次に、レイヤへのレンダリングブロック８１０は、ブロック４３０から取得したオブジェクトの信号を、古い距離（レイヤ距離）と新しい距離から導出した特定のスケーリング係数でスケーリングするように構成することができ、次に、図４ｃの新しいリスナー位置の周囲の特定のレイヤ１、２、またはＬに属するすべての信号を対応するように加算して、再び階層化された表現にすることができる。したがって、図４ｃの実施形態に関して、現在レイヤ１にある唯一の音源は元の音源６であり、一方、元の音源５、３、１は、Ｌ＝３の場合にレイヤ３の信号を取得するために音源ごとに個別に決定されたスケーリングに続いて、アンビソニックス表現に関して共に追加され、同様に、音源２、４の音源信号はレイヤ２の信号を表さないため、図４ｃの表に示すように、音源４はスケーリングを必要としないが、音源２はスケーリング操作を必要とする。

したがって、図４ｅは、各レイヤでオブジェクトがどのように決定され、加算器６０１、６０２、６０３でアンビエンス／拡散／残差信号を加算した後に、各レイヤの完全に修正されたアンビソニックス表現が取得され、これは、図４ｈに示すように、関連するメタデータと共に拡張／修正音場記述として出力され得る。

しかしながら、代替的に、各レイヤのアンビソニックス表現は、マルチレイヤアンビソニックス表現を従来のアンビソニックス表現に変換し、それを伝統的に実際のまたはスピーカ表現からバイノーラル表現にレンダリングできるようにするために、図４ｇに示す加算器６００によって単純に加算され得る。

図４ｆに示されている他のオプションＩＩは、単一のアンビエンス／拡散度／残差信号のみがすべての個々のレイヤから生成され、この単一のアンビエンス／拡散／残差信号は加算器６０４によって最上位レイヤにのみ追加されるという点で図４ｅとは異なる。音源分離およびＤｏＡ推定４２２ｃは、例えば、図４ｄのように、レイヤごとに各レイヤの各音場記述に対して個別に実行することができる。しかし、音源分離とＤｏＡ推定アルゴリズムを実装して、個々のレイヤ記述をすべて加算し、信号レイヤ記述を取得してから、この単一のアンビソニックス表現に対して音源分離とＤｏＡ推定を実行することもできる。しかし、各レイヤについて個別に進めることが好ましく、単一の拡散信号を生成するために、図４ｄの実施形態によって得られた個々の拡散信号をブロック４２２ｃ内で一緒に追加することができる。

したがって、オプションＩＩを使用すると、下位レイヤのアンビソニックス表現が完全にドライになり、最上位レイヤの「ウェット」表現のみになり、単一の拡散信号が最上位レイヤにのみ追加される。当然、この手順は拡散信号が距離手順によってスケーリングされないため便利であるが、音場記述が元の基準位置または例えば、図４ｃのリスナー位置に対応する新しい基準位置に関連しているかどうかに関係なく、最初に決定されたのと同じ方法で使用される。

図６に、例えばＤｉｒＡＣ解析として構成できる各レイヤの音源分離アルゴリズムを示す。次いで、ブロック４２２によって出力される図６に示す拡散信号はそこにないが、この拡散信号は拡散パラメータによって表され、すなわちパラメトリックに表される。これに対応して、オブジェクト信号は、ＤｉｒＡＣ手順の場合、時間／周波数ビンごとの圧力信号になる。しかし、一般的な場合、オブジェクト信号はフルバンド信号であってもよい。

第１のレイヤは上部ブランチで表され、第２のレイヤは図６の中央のブランチで表され、第３のレイヤは図６の下部のブランチで表される。

一般的な音源分離手順の場合、対応するシンセサイザ４２５は、例えば図４ｄまたは図４ｆに示すように、各レイヤのアンビソニックス信号を生成する。次に、これらのすべてのアンビソニックス信号は、図４ｇに関して一般的に説明したように結合できる。その後に、例えばバイノーラルの場合、信号が図６の符号５００に示されている仮想現実環境のリスナーの頭部に装着されたヘッドフォンに送信されると、レンダラ４２７によって信号がレンダリングされる。

さらに、図６は、音源分離、並進、アンビソニックス信号の生成、または回転の手順を様々な順序で適用できることを示している。

図６の上部レイヤは、音源分離が回転変換の前に実行され、また並進変換／ボリュームスケーリングの前に実行されることを示しているが、図６のメディアブランチは、音源分離５３３ａが並進４２３ａの前に実行され、アンビソニックス信号の生成がブロック４２５ａによって実行されると述べているが、このステップに続いて、ブロック４２２ａで回転変換が適用される。

繰り返すが、図６の下側の分岐は、回転変換４２４ｂを音源分離４２２ｂの前に適用することもできるが、音源分離の後に適用することもできることを示しており、それは、リスナーの頭部の動きはもちろん、レイヤのすべての音源、さらにはすべてのレイヤのすべての音源で同じだからである。さらに、並進変換４２３ｂは、アンビソニックス信号の生成前および回転変換前でも実行できるが、いずれの並進でも各音源の到来方向が必要なため、音源分離の前には実行することができない。

コンバイナ６００への入力でのアンビソニックス信号の場合、およびコンバイナ６００の出力がさらに、例えば図４ｇに関して説明したような従来のアンビソニックス信号である場合、ブロック６００の後に回転変換を適用することもでき、次いで、レンダラ４２７は、バイノーラル表現に直接、またはスピーカ表現、または仮想スピーカ表現を介したバイノーラル表現のいずれかに直接レンダリングしなければならない。完全に並進変換され、完全に回転した音場記述は、もはやレイヤ化されないが、コンバイナ６００での組み合わせにより、レイヤの「特性」は放棄される。

これに関連して、図６と図４ｅからも明らかなように、信号をトランスコードするだけでなく、単一の音場記述を生成する場合、図４ｃの表のコンテキストで説明した「レイヤへのレンダリング８１０」は、図４ｃに関して示された方法では不要である。音場は１つしか生成されないため、音源が１つのレイヤから別のレイヤに移動するかどうかは関係ない。代わりに、スケーリング係数のみが必要であるが、これらのスケーリング係数は、レイヤの代表距離またはレイヤ情報３５０で指定された古い距離と、古い距離、音源のＤｏＡ、および、例えば図７に関して説明した並進情報を使用して取得された新しい距離から直接導出できる。したがって、音源が１つのレイヤから別のレイヤに変更または「移動」するかどうかは、トランスコーダ表現の問題であり、図４ｇまたは図６の場合は問題ではない。

図４ａは、音場記述および音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置の好ましい実施態様を示している。特に、装置は、メタデータ、音場記述、および基準位置から異なる基準位置への並進を示す並進情報を使用して修正音場を生成する音場計算器４２０を含む。

例えば、図１ｂの位置Ａに関して音場が与えられた場合、異なる基準位置は位置Ｂになり、並進情報は、例えば位置Ａから位置Ｂへの変換を示すベクトルになる。次に、音場計算器４２０は、あたかも位置Ｂにいるリスナーによって知覚されるかのように修正音場を計算し、この計算のために、音場計算器は、位置Ａに関連する音場記述と並進情報、さらに音源Ａと音源Ｂの空間位置に関連するメタデータを有する。

一実施形態では、音場計算器４２０は、例えば図１ａまたは２に関して説明したように拡張音場記述を受信するための入力インターフェース４００に接続され、入力インターフェース４００は、一方で、音場記述、すなわち、図１ａのブロック１００または図２のブロック２１０によって生成されたものを分離する。さらに、入力インターフェース４００は、拡張音場記述、すなわち図３ａの項目３５０または図３ｂのオプション３５１および３５２〜３５４からメタデータを分離する。

さらに、変換インターフェース４１０は、並進情報および／または追加のまたは別個の回転情報をリスナーから取得する。変換インターフェース４１０の実施態様は、仮想現実環境における頭部の回転を追跡するだけでなく、ある位置、すなわち図１ｂの位置Ａから別の位置、すなわち図１ｂの位置Ｂへの頭部の並進も追跡する頭部追跡ユニットであってもよい。

図４ｂは、図１ａと同様の別の実施態様を示しているが、エンコーダ／デコーダのシナリオには関係していないが、メタデータサプライヤ４０２によって示されるメタデータの供給が行われる一般的なシナリオに関係しており、音場サプライヤ４０４によって示される音場供給は、符号化または拡張音場記述を分離する特定の入力インターフェースなしで行われるが、例えば、仮想現実アプリケーションなどに存在する実際のシナリオですべて行われる。しかしながら、本発明は、仮想現実アプリケーションに限定されず、第１の基準位置に関連する音場を、異なる第２の基準位置に関連する別の音場に変換するために、基準位置に関連する音場の空間オーディオ処理が有用である他の任意のアプリケーションで実施することもできる。

次に、音場計算器４２０は、修正音場記述を生成するか、あるいは（仮想）スピーカ表現を生成するか、ヘッドフォン再生用の２チャネル表現などのバイノーラル表現を生成する。したがって、音場計算器４２０は、修正音場として、元の音場記述と基本的に同じであるが、今は新しい基準位置に関する修正音場記述を生成することができる。代替的な実施形態では、仮想または実際のスピーカ表現は、５．１方式などの所定のスピーカ設定、またはより多くのスピーカを含み、特に２次元配置だけでなく３次元配置のスピーカ配置、すなわち、スピーカがユーザの位置に対して高くなっているスピーカ配置を備えたスピーカ設定に対して生成することができる。仮想現実アプリケーションに特に役立つ他のアプリケーションは、バイノーラル再生用、すなわち、仮想現実のユーザの頭部に適用できるヘッドフォン用のアプリケーションである。

例示的に、後で説明する図６または図９は、ＤｉｒＡＣシンセサイザは、全方向性または圧力成分などのダウンミックス成分でのみ動作するが、図１２ｂに示したさらに別の実施形態では、ＤｉｒＡＣシンセサイザは、音場データ全体、すなわち、図１２ｂのこの実施形態では、全方向成分ｗおよび３つの方向成分ｘ、ｙ、ｚを有するフィールド記述を有する完全な成分表現で動作するという状況を示している。

図４ｉは、ＤｉｒＡＣシンセサイザとは異なる合成を実行するための別の実施態様を示している。例えば、音場解析器が、各音源信号に対して、個別のモノラル信号Ｓと元の到来方向を生成する場合、および、並進情報に応じて、新しい到来方向が計算される場合、例えば図４ｉのアンビソニックス信号生成器４３０を使用して、音源信号の音場記述、すなわち、モノラル信号Ｓであるが、水平角θまたは仰角θと方位角φからなる新しい到来方向（ＤｏＡ）データを生成する。次に、図４ｂの音場計算器４２０によって実行される手順は、例えば、新しい到来方向を有する各音源について一次アンビソニックス音場表現を生成し、次に、音場から新しい基準位置までの距離に応じてスケーリング係数を使用して、音源ごとにさらに修正を行い、次に、個々の音源からのすべての音場を互いに重ね合わせて、最終的に、再度、例えば、特定の新しい基準位置に関連するアンビソニックスの表現で修正音場を取得することができる。

図６または図９のＤｉｒＡＣ解析器４２２、４２２ａ、４２２ｂによって処理された各時間／周波数ビンが特定の（バンド幅が制限された）音源を表すと解釈すると、ＤｉｒＡＣシンセサイザ４２５、４２５ａ、４２５ｂの代わりに、アンビソニックス信号生成器４３０を使用して、各時間／周波数ビンに対して、ダウンミックス信号または圧力信号、またはこの時間／周波数ビンの全方向成分を図４ｉの「モノラル信号Ｓ」として使用する完全なアンビソニックス表現を生成することができる。次に、Ｗ、Ｘ、Ｙ、Ｚ成分のそれぞれに対する周波数−時間変換器での個々の周波数時間変換により、図４ｃに示されているものとは異なる音場記述が得られる。

さらなる実施形態を以下に概説する。目標は、元の録音位置での信号と、録音位置からの音源の距離に関する情報が与えられると、リスナーの位置で仮想バイノーラル信号を取得することである。物理的な音源は、録音位置への角度によって分離可能であると想定されている。

シーンは、マイクの視点（ＰｏＶ）から録音され、この位置は基準座標系の原点として使用される。シーンはリスナーのＰｏＶから再現する必要があり、リスナーは６ＤｏＦで追跡される（図５を参照）。ここでは、説明のために単一の音源が示されているが、この関係は、時間−周波数ビンごとに保持される。

図５は、空間オーディオの６ＤｏＦ再生を示している。音源は、マイクの位置と方向（黒い線と円弧）に対する距離ｄ_ｒのＤｏＡｒ_ｒでマイクによって録音される。これは、ＤｏＡｒ_ｌと距離ｄ_ｌ（破線）を使用して、移動するリスナーに対して相対的に再生する必要がある。これは、リスナーの並進ｌと回転ｏ（点線）を考慮する必要がある。

座標ｄ_ｒ∈Ｒ^３の音源は、単位ベクトル

で表される到来方向（ＤｏＡ）から録音される。このＤｏＡは、録音の解析から推定できる。それは距離

から来ている。この情報は、レイヤ距離として、または一般的に図３ｂの項目３５２、３５３、３５４として各レイヤのメタデータに含まれ、録音位置から任意の方向ｒを有するレイヤｌの各音源を、基準点からのレイヤの距離（例えばメートルなどで与えられる）にマッピングする深度マップｍ（ｌ、ｒ）の形式で距離情報として表現できると仮定する。

リスナーは６ＤｏＦで追跡される。ある時点で、リスナーはマイクに対して１∈Ｒ^３の位置にあり、マイクの座標系に対してｏ∈Ｒ^３の回転を有する。録音位置は、表記を簡素化するために座標系の原点として選択される。

したがって、音は異なる距離ｄ_１で再生する必要があり、変化したボリュームと、並進とその後の回転の両方の結果である異なるＤｏＡｒ_１をもたらす。

次のセクションで説明するように、パラメトリック表現に基づいた専用の変換によってリスナーの観点から仮想信号を取得する方法の概要を説明する。

提案された方法は、パラメトリック空間音響符号化の基本的なＤｉｒＡＣ手法に基づいている［１６］。解析されたスペクトルの時間−周波数インスタンスごとに１つの支配的な直接音源があり、これらは独立して処理できると仮定される。録音は、短時間フーリエ変換（ＳＴＦＴ）を使用して時間−周波数表現に変換される。時間フレームインデックスはｎで、周波数インデックスはｋで示される。次に、変換された録音が解析され、複素スペクトルＰ（ｋ、ｎ）の各時間−周波数ビンの方向ｒ_ｒ（ｋ、ｎ）および拡散度ψ（ｋ、ｎ）が推定される。合成では、信号は直接部分と拡散部分とに分割される。ここでは、スピーカの位置に応じて直接部分をパンニングし、拡散部分を追加することにより、スピーカ信号が計算される。

６ＤｏＦのリスナーの観点に従ってＦＯＡ信号を変換する方法は、５つのステップに分割できる（図６を参照）。

図６は、６ＤｏＦ再生の方法を示している。Ｂフォーマットで記録されたＦＯＡ信号は、複素スペクトルの各時間−周波数ビンの方向と拡散度の値を計算するＤｉｒＡＣエンコーダによって処理される。次に、方向ベクトルは、リスナーの追跡された位置によって、各レイヤの距離マップで指定された距離情報に従って変換される。結果として得られる方向ベクトルは、頭部の回転に応じて回転する。最後に、８＋４の仮想スピーカチャネルの信号がＤｉｒＡＣデコーダで合成される。次に、これらはバイノーラル化される。

実施形態では、入力信号はＤｉｒＡＣエンコーダ４２２で解析され、距離情報は各レイヤの距離を与える距離マップｍ（ｌ）から追加され、次に、リスナーが並進と回転を追跡したものが新規変換４２３、４２４に適用される。ＤｉｒＡＣデコーダ４２５は、８＋４の仮想スピーカ用の信号を合成し、これらのスピーカは、ヘッドフォン再生用にバイノーラル化４２７される。並進後の音響シーンの回転は独立した操作であるため、代替的にバイノーラルレンダラに適用することもできることに留意されたい。６ＤｏＦ用に変換される唯一のパラメータは方向ベクトルである。モデル定義では、拡散部分は等方性で均質であると仮定され、したがって変更されない。

ＤｉｒＡＣエンコーダへの入力は、Ｂフォーマット表現のＦＯＡ音響信号である。これは４つのチャネル、すなわち全方向音圧と３つの１次空間勾配で構成され、特定の仮定の下では粒子速度に比例する。この信号はパラメトリックな方法で符号化される（［１８］を参照）。パラメータは、変換された全方向性信号である複素音圧Ｐ（ｋ、ｎ）および複素粒子速度ベクトルＵ（ｋ，ｎ）＝［Ｕ_Ｘ（ｋ，ｎ），Ｕ_Ｙ（ｋ，ｎ），Ｕ_Ｚ（ｋ，ｎ）］^Ｔは、変換された勾配信号に対応する。

ＤｉｒＡＣ表現は、各時間−周波数ビンでの音波の信号Ｐ（ｋ、ｎ）、拡散度ψ（ｋ、ｎ）、および方向ｒ（ｋ、ｎ）で構成される。後者を導出するには、まず、アクティブな音響強度ベクトルＩ_ａ（ｋ、ｎ）を、圧力ベクトルと速度ベクトル［１８］の複素共役（（・）＊で示す）の積の実部（Ｒｅ（・）で示す）として計算する。

（１）
拡散度は、このベクトル［１８］の変動係数から推定される。

（２）

は、移動平均として実施される、時間フレームに沿った期待演算子を示す。

レイヤの各音源から基準位置までの距離を有する方向ベースの距離マップを使用して音響を操作することを目的としているため、方向推定値の分散は低くなければならない。通常、フレームは短いので、これは必ずしもそうではない。したがって、移動平均を適用して、平滑化された方向推定値

（ｋ、ｎ）を取得する。信号の直接部分のＤｏＡは、反対方向の単位長さベクトルとして計算される。

（３）
方向は各時間−周波数ビンの単位長さの３次元ベクトルとして符号化されるため、距離情報を統合するのは簡単である。方向ベクトルは、ベクトルの長さが対応する音源ｄ_ｒ（ｋ、ｎ）の距離を表すように、対応するマップエントリと乗算される。

＝

（ｋ、ｎ）

（４）
ここで、ｄ_ｒ（ｋ、ｎ）は、マイクの録音位置から、時間ｎおよび周波数ビンｋでアクティブな音源を指すベクトルである。

リスナーの位置は、現在の処理フレームの追跡システムによってｌ（ｎ）として指定される。音源位置のベクトル表現を使用すると、追跡位置ベクトルｌ（ｎ）を減算して、長さ

の新しい変換方向ベクトルｄ_１（ｋ、ｎ）を生成できる（図７を参照）。リスナーのＰｏＶから音源までの距離が導出され、ＤｏＡは単一のステップで適応される。

（５）
リアルな再現の重要な側面は、距離の減衰である。減衰は、音源とリスナーとの間の距離の関数であると仮定される［１９］。方向ベクトルの長さは、再生のために減衰または増幅を符号化することである。録音位置までの距離は、距離マップに従ってｄ_ｒ（ｋ、ｎ）で符号化され、再生される距離はｄ_１（ｋ、ｎ）で符号化される。ベクトルを単位長に正規化し、古い距離と新しい距離の比率とを乗算すると、ｄ_１（ｋ、ｎ）を元のベクトルの長さで除算することによって必要な長さが与えられることが分かる。

（６）
リスナーの向きの変更は、次の手順で適用される。トラッキングによって与えられる方向は、原点としての録音位置を基準としたピッチ、ヨー、およびロール

^Ｔで構成されるベクトルとして記述できる。音源方向は、リスナーの方向に従って回転され、これは、２Ｄ回転行列を使用して実施される。

（７）
結果として得られるリスナーのＤｏＡは、単位長に正規化されたベクトルによって与えられる。

（８）
変換された方向ベクトル、拡散度、および複雑なスペクトルを使用して、均一に分散された８＋４仮想スピーカ設定用の信号を合成する。８つの仮想スピーカは、リスナー平面上で４５°の方位角のステップ（仰角０°）で配置され、４つの仮想スピーカは、４５°の仰角で９０°のクロスフォーメーションで配置される。合成は、スピーカチャネル

ごとに直接部分および拡散部分に分割され、

はスピーカの数［１６］である。

（９）
直接部分では、エッジフェージング振幅パンニング（ＥＦＡＰ）パンニングが適用され、仮想スピーカジオメトリ［２０］が与えられると、正しい方向から音が再生される。ＤｏＡベクトルｒ_ｐ（ｋ、ｎ）が与えられると、これは各仮想スピーカチャネル

のパンニングゲインＧ_ｉ（ｒ）を提供する。各ＤｏＡの距離依存ゲインは、結果の方向ベクトルの長さｄ_ｐ（ｋ、ｎ）から導出される。チャネル

の直接合成は次のようになる。

（１０）
ここで、指数γは、通常は約１に設定される調整係数である［１９］。γ＝０の場合、距離依存ゲインはオフになることに留意されたい。
圧力

は、

非相関信号

を生成するために使用される。これらの非相関信号は、拡散成分として個々のスピーカチャネルに追加される。これは標準の方法［１６］に従う。

（１１）
各チャネルの拡散部分と直接部分が一緒に加算され、信号は逆ＳＴＦＴによって時間領域に変換される。これらのチャネル時間領域信号は、バイノーラル化された信号を作成するために、スピーカの位置に応じて左右の耳のＨＲＴＦと畳み込まれる。

図８は、例えば代表的な距離なしで動作するが、レイヤの距離からではなく、音源があるレイヤから、前のレイヤに隣接する別のレイヤに移動するか隣接しない別のレイヤに移動するかどうかだけから得られるスケーリング係数の一般的な決定で動作するトランスコーダ実装の好ましい実施態様を示す。したがって、ブロック８００は、音源が同じレイヤに残っているかどうかを判断するように構成されている。例えば、音源４および５の場合と同じレイヤが結果であると判断された場合、ブロック８０２は、新しい到来方向のオブジェクト信号の特定のスケーリングは不要であると判断し、「スケーリング係数」は、スケーリングは１に設定されないか、あるいは、そのような音源に対してスケーリングが実行されないように、何らかの方法で単にフラグを立てるか通知することもできることを示す。

しかしながら、音源が下位レイヤに移動すると決定される場合、ブロック８０４は１より大きいスケーリング係数を決定する。この決定は、２つのレイヤ、すなわち音源レイヤとターゲットレイヤの代表的な距離を使用して行うことができる。しかし、特定のスケーリング係数を使用することもできる。例えば、あるレイヤから隣接するレイヤに移動する場合は１〜２で、例えば音源が２レイヤなどに移動する場合は４になる。

図８は、さらに、音源が例えば音源１、２、３のように上位レイヤに移動するブロック８０６の状況を示している。次に、この音源のスケーリング係数が決定されるが、これは１未満である。繰り返すが、スケーリング係数は前に説明したように代表的な距離から決定できるが、代わりに、元の基準位置から新しい基準位置またはリスナー位置に並進したために移動したレイヤの数に依存する固定スケーリング係数を使用して取得することもできる。例えば、移動が１つのレイヤのみで行われる場合、０．５〜１などの中程度のスケーリング係数を使用でき、２つ以上のレイヤで移動が行われる場合、０．１〜０．５のより高いスケーリング係数を使用できる。

オブジェクト信号プロセッサ／スケーリング８０８は、アンビソニックス生成の前にオブジェクト信号にスケーリングを適用するか、アンビソニックス表現のすべての成分にスケーリングを適用して、最終的に、音源ごとのモノ表現またはアンビソニックス表現のいずれかで、処理されたオブジェクト信号を取得する。

図９は、図６と同様であるが、例えば図４ｄの個々のブロック４２２、４２２ａ、４２２ｂがＤｉｒＡＣエンコーダ／デコーダ実装として実施されるさらなる実施形態を示す。その結果、個々のスピーカチャネル信号、アンビソニックス信号、または、例えばトランスコーダのその他の信号表現になることができる。しかし、出力がチャネル信号またはバイノーラル信号である場合、それらの対応する信号をコンバイナ６００で一緒に追加して、単一の音場記述を表し、その後に、さらなる手順によってブロック４２７でレンダリングすることができる。

図１０は、音場計算器４２０のさらに好ましい実施態様を示している。図１０に示す手順は、各レイヤに対して個別に実行される。唯一の違いは、レイヤごとに異なるレイヤ情報３５０が使用され、このレイヤ情報はレイヤ内の音源ごとに同じであることである。レイヤ情報は、距離値を生成する距離決定器１１２０によってメタデータから読み取られる。メタデータに既にメートル単位の距離が含まれている場合、ブロック１１２０は、データストリームまたはこの情報をブロック１１４０に転送するものからデータを抽出するだけである。したがって、同じレイヤ内の各音源の各ＤｏＡに対して同じ距離情報が生成され、ブロック１１４０で使用される。

音場記述に基づいて、符号１１００でフルバンドの到来方向またはバンドごとの到来方向が決定される。これらの到来方向情報は、音場の到来方向データを表する。この到来方向データに基づいて、並進変換がブロック１１１０で実行される。この目的のために、ブロック１１２０は、レイヤの音場記述のメタデータを取得する。データに基づいて、ブロック１１１０は、この実施では基準位置から異なる基準位置への並進のみに依存する音場の新しい到来方向データを生成する。この目的のために、ブロック１１１０は、例えば、仮想現実の実施のコンテキストでの追跡により生成された並進情報を受け取る。

好ましくはまたは代わりに、回転データも使用される。このために、ブロック１１３０は、回転情報を使用して回転変換を実行する。並進と回転の両方が実行される場合、並進からの情報とブロック１１２０からのレイヤ距離を既に含む音場の新しいＤｏＡの計算に続いて、回転変換を実行することが好ましい。

次に、ブロック１１４０で、新しい音場記述が生成される。この目的のために、元の音場記述を使用するか、あるいは、音源分離アルゴリズムによって音場記述から分離された音源信号を使用するか、他のアプリケーションを使用できる。基本的に、新しい音場記述は、例えば、アンビソニックス生成器４３０によって取得されるか、ＤｉｒＡＣシンセサイザ４２５によって生成される指向性音場記述であってもよく、または後続のバイノーラルレンダリングで仮想スピーカ表現から生成されるバイノーラル表現であってもよい。
好ましくは、図１０に示すように、特定の音源のボリュームまたは音量を新しい場所、すなわち新しいまたは異なる基準位置に適合させるために、新しい音場記述を生成する際に到来方向ごとの距離も使用される。

図１０は、回転変換が並進変換の後に実行される状況を示しているが、順序は異なる可能性があることに留意されたい。特に、回転変換は、ブロック１１００によって生成された音場のＤｏＡに適用でき、その後に、基準位置から異なる基準位置への対象の並進による追加の並進変換が適用される。

音場のＤｏＡがブロック１１００によって決定されるとすぐに、ブロック１１２０を使用してメタデータから距離情報が取得され、次に、この距離情報は、変更された距離、したがって、特定の基準位置に対する特定の音源の音量の変化を考慮するために、ブロック１１４０で新しい音場記述を生成することによって使用される。基本的に、距離が大きくなると特定の音源信号が減衰し、距離が短くなると音源信号が増幅されると言える。当然、距離に応じた特定の音源の減衰または増幅は距離の変化に比例して行われるが、他の実施形態では、非常に粗い増分での音源信号のこの増幅または減衰にそれほど複雑でない操作を適用できる。このようなそれほど複雑ではない実施態様でも、距離の変化が完全に無視される状況と比較して、優れた結果が得られる。

図７は、音場計算器４２０の好ましい実施態様を示している。ブロック１１０２では、音源分離および各音源の到来方向または一般に方向情報の計算が実行される。次に、ブロック１１０４で、到来方向ベクトルに距離情報ベクトル、すなわち、元の基準位置から音源までのベクトル、すなわち、例えば図５の項目５２０から項目５１０までのベクトルが乗算される。次に、ブロック１１０６において、並進情報、すなわち図５の項目５２０から項目５００へのベクトルが考慮されて、リスナー位置５００から音源位置５１０へのベクトルである新しい変換方向ベクトルが計算される。次に、ブロック１１０８で、ｄ_ｖで示される正しい長さの新しい到来方向ベクトルが計算される。このベクトルはｄ_ｒと同じ方向に向いているが長さが異なり、このベクトルの長さは音源５１０が特定のボリュームで元の音場に録音されているという事実を反映しているため、したがってｄ_ｖの長さは多かれ少なかれ音量の変化を示す。これは、ベクトルｄ_ｌを録音距離ｄ_ｒ、すなわち、マイク５２０から音源５１０までのベクトルｄ_ｒの長さで除算することによって得られる。

図５のように、再生距離が録音距離よりも大きい場合、ｄ_ｖの長さは１より短くなる。これにより、新しいリスナー位置での再生のための音源５１０の減衰が生じる。しかし、再生距離ｄ_ｌが録音距離よりも小さい場合、ブロック１１０８で計算されるｄ_ｖの長さは１より大きくなり、対応するスケーリング係数により音源が増幅される。

図１１は、音場計算器のさらに好ましい実施態様を示している。

ブロック１２００では、音場からの個々の音源が、例えばバンドごとまたはフルバンドのように決定される。フレームおよびバンドごとの決定が実行されると、ＤｉｒＡＣ解析によってこれを実行できる。フルバンドまたはサブバンドの決定が実行される場合、これはあらゆる種類のフルバンドまたはサブバンドの音源分離アルゴリズムによって実行できる。

ブロック１２１０において、リスナーの並進および／または回転が、例えば頭部追跡により決定される。

ブロック１２２０では、各音源の古い距離は、メタデータを使用することにより、例えば、代表距離などのレイヤのメタデータを使用することにより決定される。したがって、各バンドは特定の音源であると見なされ（拡散度が特定のしきい値よりも低い場合）、その後に、低い拡散度値を有する各時間／周波数ビンの特定の距離が決定される。

次に、ブロック１２３０において、例えば、バンドごとのベクトル計算によって、音源ごとの新しい距離が取得され、これは、例えば、図７のコンテキストで説明されるか、またはレイヤ変更の検出に依存する図８の手順を使用する。

さらに、ブロック１２４０に示すように、音源ごとの古い方向は、例えば、ＤｉｒＡＣ解析で得られたＤｏＡ計算により、または例えば音源分離アルゴリズムでの到来方向または方向情報解析により決定される。

次に、ブロック１２５０で、例えばバンドまたはフルバンドごとのベクトル計算を実行することにより、音源ごとの新しい方向が決定される。

次に、ブロック１２６０で、並進および回転したリスナーの新しい音場が生成される。これは、例えば、ＤｉｒＡＣ合成でチャネルごとの直接部分をスケーリングすることで実行できる。特定の実施態様に応じて、ブロック１２６０で距離修正を実行することに加えて、または代替として、ブロック１２７０ａ、１２７０ｂまたは１２７０ｃで距離修正を行うことができる。
例えば、音場が単一の音源のみを有すると決定される場合、距離変更はブロック１２７０ａで既に実行されてもよい。

あるいは、個々の音源信号がブロック１２００によって計算される場合、ブロック１２６０で実際の新しい音場が生成される前に、ブロック１２７０ｂで個々の音源に対して距離修正を実行されてもよい。

さらに、例えば、ブロック１２６０の音場生成がスピーカ設定信号またはバイノーラル信号をレンダリングせず、例えばアンビソニックスエンコーダまたは計算器４３０を使用する別の音場記述をレンダリングする場合、ブロック１２６０での生成に続いて距離修正も実行することができ、これはブロック１２７０ｃを意味する。実施態様に応じて、距離の変更をいくつかの変更子に分配することもでき、その結果、特定の音源は、音源と基準位置の間の元の距離と、音源と異なる基準位置の間の新しい距離との差によって導かれる特定の音量にある。

図１２ａは、例えば、２００９年のＩＷＰＡＳＨから先に引用した参考文献「ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ」に最初に開示したＤｉｒＡＣ解析器を示している。

ＤｉｒＡＣ解析器は、バンドフィルタ１３１０のバンク、エネルギー解析器１３２０、強度解析器１３３０、時間平均化ブロック１３４０、拡散度計算器１３５０および方向計算器１３６０を含む。

ＤｉｒＡＣでは、解析と合成の両方が周波数領域で実行される。それぞれ異なるプロパティ内で、音響を周波数バンドに分割する方法がいくつかある。最も一般的に使用される周波数変換には、短時間フーリエ変換（ＳＴＦＴ）および直交ミラーフィルタバンク（ＱＭＦ）が含まれる。これらに加えて、特定の目的に最適化された任意のフィルタでフィルタバンクを設計する完全な自由がある。選択された時間−周波数変換に関係なく、設計目標は、人間の空間聴覚の解像度を模倣することである。方向解析の対象は、各周波数バンドで音の到来方向を推定することであり、同時に音が１つまたは複数の方向から同時に到来している場合の推定値である。原則として、これはいくつかの手法で実行できるが、音場のエネルギー解析が適切であることが分かっており、これを図１２ａに示す。１次元、２次元、または３次元の圧力信号と速度信号が単一の位置から取り込まれると、エネルギー解析を実行できる。１次Ｂフォーマット信号では、全方向性信号はＷ信号と呼ばれ、２の平方根でスケールダウンされている。音圧は、

のように推定することができ、ＳＴＦＴドメインで表される。

Ｘ、Ｙ、およびＺチャネルは、デカルト軸に沿って方向付けられたダイポールの指向性パターンを有し、ベクトルＵ＝［Ｘ、Ｙ、Ｚ］を共に形成する。ベクトルは音場速度ベクトルを推定し、ＳＴＦＴドメインでも表現される。音場のエネルギーＥが計算される。Ｂフォーマット信号の取り込みは、指向性マイクの同時配置、または全方向性マイクの狭い間隔のいずれかで取得できる。一部のアプリケーションでは、マイク信号は計算領域で形成、すなわちシミュレートすることができる。

音の方向は、強度ベクトルＩの反対方向であると定義される。方向は、送信されたメタデータの対応する角度方位角と仰角の値として示される。音場の拡散度も、強度ベクトルとエネルギーの期待演算子を使用して計算される。この方程式の結果は、音のエネルギーが単一の方向（拡散度がゼロ）から到達するか、すべての方向（拡散度が１）から到達するかを特徴付ける０と１の間の実数値である。この手順は、完全な３Ｄ以下の速度情報が利用可能な場合に適している。

図１２ｂは、再びバンドフィルタ１３７０のバンク、仮想マイクブロック１４００、直接／拡散シンセサイザブロック１４５０、および特定のスピーカ設定または仮想の意図されたスピーカ設定１４６０を有するＤｉｒＡＣ合成を示す。さらに、拡散度ゲイン変換器１３８０、ベクトルベースの振幅パンニング（ＶＢＡＰ）ゲインテーブルブロック１３９０、マイク補償ブロック１４２０、スピーカゲイン平均化ブロック１４３０および他のチャネルの分配器１４４０が使用される。

スピーカを使用したこのＤｉｒＡＣ合成では、図１２ｂに示す高品質バージョンのＤｉｒＡＣ合成がすべてのＢフォーマット信号を受信し、これに対して、スピーカ設定１４６０の各スピーカ方向について仮想マイク信号が計算される。利用される指向性パターンは通常、ダイポールである。その後に、メタデータに応じて、仮想マイク信号が非線形的に修正される。ＤｉｒＡＣの低ビットレートバージョンは図１２ｂには示されていないが、この状況では、図６に示すようにオーディオの１つのチャネルのみが送信される。処理の違いは、すべての仮想マイク信号が、受信したオーディオの単一チャネルに置き換えられることである。仮想マイク信号は、拡散ストリームと非拡散ストリームの２つのストリームに分けられ、別々に処理される。

非拡散音は、ベクトルベースの振幅パンニング（ＶＢＡＰ）を使用してポイント音源として再現される。パンニングでは、スピーカ固有のゲイン係数を乗算した後に、スピーカのサブセットにモノフォニック音響信号が適用される。ゲイン係数は、スピーカ設定の情報と指定されたパンニング方向を使用して計算される。低ビットレートバージョンでは、入力信号はメタデータによって暗示される方向に単純にパンニングされる。高品質バージョンでは、各仮想マイク信号に対応するゲイン係数が乗算され、これにより、パンニングと同じ効果が得られるが、非線形アーチファクトが発生しにくくなる。

多くの場合、方向性メタデータは急激な時間的変化の影響を受ける。アーチファクトを回避するために、ＶＢＡＰで計算されたスピーカのゲイン係数は、各バンドで約５０サイクル周期に等しい周波数依存時定数との時間積分により平滑化される。これにより、アーチファクトが効果的に除去されるが、ほとんどの場合、方向の変化は平均化しない場合よりも遅いとは感じられない。

拡散音の合成の目的は、リスナーを囲む音の知覚を作成することである。低ビットレートバージョンでは、拡散ストリームは入力信号を非相関化し、すべてのスピーカからそれを再生することにより再生される。高品質バージョンでは、拡散ストリームの仮想マイク信号は既にある程度インコヒーレントであり、わずかに非相関化するだけで済む。この手法は、低ビットレートバージョンよりも、サラウンドリバーブとアンビエント音響の空間品質を向上させる。

ヘッドフォンを使用したＤｉｒＡＣシンセシスの場合、ＤｉｒＡＣは、非拡散ストリーム用のリスナーの周囲に一定量の仮想スピーカ、拡散スチーム用に一定数のスピーカで定式化される。仮想スピーカは、入力信号と測定された頭部伝達関数（ＨＲＴＦ）の畳み込みとして実施される。

いくつかの態様を装置のコンテキストで説明したが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップのコンテキストで説明される態様は、対応するブロックまたは項目または対応する装置の機能の説明も表す。

本発明の拡張音場記述は、デジタル記憶媒体または非一時的記憶媒体に記憶することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。

特定の実施態様に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施は、電子的に読み取り可能な制御信号が格納されており、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する（または協働することができる）デジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行できる。

本発明によるいくつかの実施形態は、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的データキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するように動作する。プログラムコードは、例えば、機械可読なキャリアに格納されてもよい。

他の実施形態は、機械可読なキャリアに格納された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

言い換えれば、したがって、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書に記載の方法の１つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。

さらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。

上述の実施形態は、本発明の原理の単なる例示にすぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。したがって、本明細書の実施形態の説明および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。

参考文

［１］Ｌｉｉｔｏｌａ，Ｔ．，Ｈｅａｄｐｈｏｎｅｓｏｕｎｄｅｘｔｅｒｎａｌｉｚａｔｉｏｎ，Ｐｈ．Ｄ．ｔｈｅｓｉｓ，ＨｅｌｓｉｎｋｉＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ．ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｉｃａｌａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓＥｎｇｉｎｅｅｒｉｎｇＬａｂｏｒａｔｏｒｙｏｆＡｃｏｕｓｔｉｃｓａｎｄＡｕｄｉｏＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．，２００６

［２］Ｂｌａｕｅｒｔ，Ｊ．，ＳｐａｔｉａｌＨｅａｒｉｎｇ − ＲｅｖｉｓｅｄＥｄｉｔｉｏｎ：ＴｈｅＰｓｙｃｈｏｐｈｙｓｉｃｓｏｆＨｕｍａｎＳｏｕｎｄＬｏｃａｌｉｚａｔｉｏｎ，ＴｈｅＭＩＴＰｒｅｓｓ，１９９６，ＩＳＢＮ０２６２０２４１３６

［３］Ｚｈａｎｇ，Ｗ．，Ｓａｍａｒａｓｉｎｇｈｅ，Ｐ．Ｎ．，Ｃｈｅｎ，Ｈ．，ａｎｄＡｂｈａｙａｐａｌａ，Ｔ．Ｄ．，“ＳｕｒｒｏｕｎｄｂｙＳｏｕｎｄ：ＡＲｅ−ｖｉｅｗｏｆＳｐａｔｉａｌＡｕｄｉｏＲｅｃｏｒｄｉｎｇａｎｄＲｅｐｒｏｄｕｃｔｉｏｎ，”ＡｐｐｌｉｅｄＳｃｉｅｎｃｅｓ，７（５），ｐ．５３２，２０１７

［４］Ｂａｔｅｓ，Ｅ．ａｎｄＢｏｌａｎｄ，Ｆ．，“ＳｐａｔｉａｌＭｕｓｉｃ，ＶｉｒｔｕａｌＲｅａｌｉｔｙ，ａｎｄ３６０Ｍｅｄｉａ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｉｎｔ．Ｃｏｎｆ．ｏｎＡｕｄｉｏｆｏｒＶｉｒｔｕａｌａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ，ＬｏｓＡｎｇｅｌｅｓ，ＣＡ，Ｕ．Ｓ．Ａ．，２０１６

［５］Ａｎｄｅｒｓｏｎ，Ｒ．，Ｇａｌｌｕｐ，Ｄ．，Ｂａｒｒｏｎ，Ｊ．Ｔ．，Ｋｏｎｔｋａｎｅｎ，Ｊ．，Ｓｎａｖｅｌｙ，Ｎ．，Ｅｓｔｅｂａｎ，Ｃ．Ｈ．，Ａｇａｒｗａｌ，Ｓ．，ａｎｄＳｅｉｔｚ，Ｓ．Ｍ．，“Ｊｕｍｐ：ＶｉｒｔｕａｌＲｅａｌｉｔｙＶｉｄｅｏ，”ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，３５（６），ｐ．１９８，２０１６

［６］Ｍｅｒｉｍａａ，Ｊ．，Ａｎａｌｙｓｉｓ，Ｓｙｎｔｈｅｓｉｓ，ａｎｄＰｅｒｃｅｐｔｉｏｎｏｆＳｐａｔｉａｌＳｏｕｎｄ：ＢｉｎａｕｒａｌＬｏｃａｌｉｚａｔｉｏｎＭｏｄｅｌｉｎｇａｎｄＭｕｌｔｉｃｈａｎｎｅｌＬｏｕｄｓｐｅａｋｅｒＲｅｐｒｏｄｕｃｔｉｏｎ，Ｐｈ．Ｄ．ｔｈｅｓｉｓ，ＨｅｌｓｉｎｋｉＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，２００６

［７］Ｋｒｏｎｌａｃｈｎｅｒ，Ｍ．ａｎｄＺｏｔｔｅｒ，Ｆ．，“ＳｐａｔｉａｌＴｒａｎｓ−ｆｏｒｍａｔｉｏｎｓｆｏｒｔｈｅＥｎｈａｎｃｅｍｅｎｔｏｆＡｍｂｉｓｏｎｉｃｓＲｅｃｏｒｄｉｎｇｓ，”ｉｎ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐａｔｉａｌＡｕｄｉｏ，Ｅｒｌａｎｇｅｎ，Ｇｅｒｍａｎｙ，２０１４

［８］Ｔｓｉｎｇｏｓ，Ｎ．，Ｇａｌｌｏ，Ｅ．，ａｎｄＤｒｅｔｔａｋｉｓ，Ｇ．，“ＰｅｒｃｅｐｔｕａｌＡｕｄｉｏＲｅｎｄｅｒｉｎｇｏｆＣｏｍｐｌｅｘＶｉｒｔｕａｌＥｎｖｉｒｏｎｍｅｎｔｓ，”ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，２３（３），ｐｐ．２４９−２５８，２００４

［９］Ｔａｙｌｏｒ，Ｍ．，Ｃｈａｎｄａｋ，Ａ．，Ｍｏ，Ｑ．，Ｌａｕｔｅｒｂａｃｈ，Ｃ．，Ｓｃｈｉｓｓｌｅｒ，Ｃ．，ａｎｄＭａｎｏｃｈａ，Ｄ．，“Ｇｕｉｄｅｄｍｕｌｔｉ−ｖｉｅｗｒａｙｔｒａｃｉｎｇｆｏｒｆａｓｔａｕｒａｌｉｚａｔｉｏｎ，”ＩＥＥＥＴｒａｎｓ．Ｖｉｓｕａｌｉｚａｔｉｏｎ＆Ｃｏｍｐ．Ｇｒａｐｈｉｃｓ，１８，ｐｐ．１７９７−１８１０，２０１２

［１０］Ｒｕｎｇｔａ，Ａ．，Ｓｃｈｉｓｓｌｅｒ，Ｃ．，Ｒｅｗｋｏｗｓｋｉ，Ｎ．，Ｍｅｈｒａ，Ｒ．，ａｎｄＭａｎｏｃｈａ，Ｄ．，“ＤｉｆｆｒａｃｔｉｏｎＫｅｒｎｅｌｓｆｏｒＩｎｔｅｒａｃｔｉｖｅＳｏｕｎｄＰｒｏｐａｇａｔｉｏｎｉｎＤｙｎａｍｉｃＥｎｖｉｒｏｎｍｅｎｔｓ，”ＩＥＥＥＴｒａｎｓ．Ｖｉｓｕａｌｉｚａｔｉｏｎ＆Ｃｏｍｐ．Ｇｒａｐｈｉｃｓ，２４（４），ｐｐ．１６１３−１６２２，２０１８

［１１］Ｔｈｉｅｒｇａｒｔ，Ｏ．，Ｋｏｗａｌｃｚｙｋ，Ｋ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“ＡｎＡｃｏｕｓｔｉｃａｌＺｏｏｍｂａｓｅｄｏｎＩｎｆｏｒｍｅｄＳｐａｔｉａｌＦｉｌｔｅｒｉｎｇ，”ｉｎＩｎｔ．ＷｏｒｋｓｈｏｐｏｎＡｃｏｕｓｔｉｃＳｉｇｎａｌＥｎｈａｎｃｅｍｅｎｔ，ｐｐ．１０９−１１３，２０１４

［１２］Ｋｈａｄｄｏｕｒ，Ｈ．，Ｓｃｈｉｍｍｅｌ，Ｊ．，ａｎｄＲｕｎｄ，Ｆ．，“ＡＮｏｖｅｌＣｏｍｂｉｎｅｄＳｙｓｔｅｍｏｆＤｉｒｅｃｔｉｏｎＥｓｔｉｍａｔｉｏｎａｎｄＳｏｕｎｄＺｏｏｍｉｎｇｏｆＭｕｌｔｉｐｌｅＳｐｅａｋｅｒｓ，”Ｒａｄｉｏｅｎｇｉｎｅｅｒｉｎｇ，２４（２），２０１５

［１３］Ｚｉｅｇｌｅｒ，Ｍ．，Ｋｅｉｎｅｒｔ，Ｊ．，Ｈｏｌｚｅｒ，Ｎ．，Ｗｏｌｆ，Ｔ．，Ｊａｓｃｈｋｅ，Ｔ．，ｏｐｈｅｔＶｅｌｄ，Ｒ．，Ｚａｋｅｒｉ，Ｆ．Ｓ．，ａｎｄＦｏｅｓｓｅｌ，Ｓ．，“ＩｍｍｅｒｓｉｖｅＶｉｒｔｕａｌＲｅａｌｉｔｙｆｏｒＬｉｖｅ−ＡｃｔｉｏｎＶｉｄｅｏｕｓｉｎｇＣａｍｅｒａＡｒｒａｙｓ，”ｉｎＩＢＣ，Ａｍｓｔｅｒｄａｍ，Ｎｅｔｈｅｒｌａｎｄｓ，２０１７

［１４］Ｔｈｉｅｒｇａｒｔ，Ｏ．，Ｇａｌｄｏ，Ｇ．Ｄ．，Ｔａｓｅｓｋａ，Ｍ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“Ｇｅｏｍｅｔｒｙ−ＢａｓｅｄＳｐａｔｉａｌＳｏｕｎｄＡｃｑｕｉｓｉｔｉｏｎｕｓｉｎｇＤｉｓｔｒｉｂｕｔｅｄＭｉｃｒｏｐｈｏｎｅＡｒｒａｙｓ，”ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，ＬａｎｇｕａｇｅＰｒｏｃｅｓｓ．，２１（１２），ｐｐ．２５８３−２５９４，２０１３

［１５］Ｋｏｗａｌｃｚｙｋ，Ｋ．，Ｔｈｉｅｒｇａｒｔ，Ｏ．，Ｔａｓｅｓｋａ，Ｍ．，ＤｅｌＧａｌｄｏ，Ｇ．，Ｐｕｌｋｋｉ，Ｖ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“ＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＳｏｕｎｄＰｒｏｃｅｓｓｉｎｇ：ＡＦｌｅｘｉｂｌｅａｎｄＥｆｆｉｃｉｅｎｔＳｏｌｕｔｉｏｎｔｏＳｏｕｎｄＳｃｅｎｅＡｃｑｕｉｓｉｔｉｏｎ，Ｍｏｄｉｆｉｃａｔｉｏｎ，ａｎｄＲｅｐｒｏｄｕｃｔｉｏｎ，”ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓ．Ｍａｇ．，３２（２），ｐｐ．３１−４２，２０１５

［１６］Ｐｕｌｋｋｉ，Ｖ．，“ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ，”Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，５５（６），ｐｐ．５０３−５１６，２００７

［１７］ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ，“ＩＴＵ−ＲＢＳ．１５３４−３，Ｍｅｔｈｏｄｆｏｒｔｈｅｓｕｂｊｅｃｔｉｖｅａｓｓｅｓｓｍｅｎｔｏｆｉｎｔｅｒｍｅｄｉａｔｅｑｕａｌｉｔｙｌｅｖｅｌｏｆａｕｄｉｏｓｙｓｔｅｍｓ，”２０１５

［１８］Ｔｈｉｅｒｇａｒｔ，Ｏ．，ＤｅｌＧａｌｄｏ，Ｇ．，Ｋｕｅｃｈ，Ｆ．，ａｎｄＰｒｕｓ，Ｍ．，“Ｔｈｒｅｅ−ＤｉｍｅｎｓｉｏｎａｌＳｏｕｎｄＦｉｅｌｄＡｎａｌｙｓｉｓｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇＢａｓｅｄｏｎＳｉｇｎａｌＡｄａｐｔｉｖｅＰａｒａｍｅｔｅｒＥｓｔｉｍａｔｏｒｓ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｖ．ＳｐａｔｉａｌＡｕｄｉｏ：ＳｅｎｓｅｔｈｅＳｏｕｎｄｏｆＳｐａｃｅ，２０１０

［１９］Ｋｕｔｔｒｕｆｆ，Ｈ．，ＲｏｏｍＡｃｏｕｓｔｉｃｓ，Ｔａｙｌｏｒ＆Ｆｒａｎｃｉｓ，４ｅｄｉｔｉｏｎ，２０００

［２０］Ｂｏｒβ，Ｃ．，“Ａｐｏｌｙｇｏｎ−ｂａｓｅｄｐａｎｎｉｎｇｍｅｔｈｏｄｆｏｒ３Ｄｌｏｕｄｓｐｅａｋｅｒｓｅｔｕｐｓ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｖ．，ｐｐ．３４３−３５２，ＬｏｓＡｎｇｅｌｅｓ，ＣＡ，ＵＳＡ，２０１４

［２１］Ｒｕｍｍｕｋａｉｎｅｎ，Ｏ．，Ｓｃｈｌｅｃｈｔ，Ｓ．，Ｐｌｉｎｇｅ，Ａ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“ＥｖａｌｕａｔｉｎｇＢｉｎａｕｒａｌＲｅｐｒｏｄｕｃｔｉｏｎＳｙｓｔｅｍｓｆｒｏｍＢｅｈａｖｉｏｒａｌＰａｔｔｅｒｎｓｉｎａＶｉｒｔｕａｌＲｅａｌｉｔｙ −ＡＣａｓｅＳｔｕｄｙｗｉｔｈＩｍｐａｉｒｅｄＢｉｎａｕｒａｌＣｕｅｓａｎｄＴｒａｃｋｉｎｇＬａｔｅｎｃｙ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｖ．１４３，ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２０１７

［２２］Ｅｎｇｅｌｋｅ，Ｕ．，Ｄａｒｃｙ，Ｄ．Ｐ．，Ｍｕｌｌｉｋｅｎ，Ｇ．Ｈ．，Ｂｏｓｓｅ，Ｓ．，Ｍａｒｔｉｎｉ，Ｍ．Ｇ．，Ａｒｎｄｔ，Ｓ．，Ａｎｔｏｎｓ，Ｊ．−Ｎ．，Ｃｈａｎ，Ｋ．Ｙ．，Ｒａｍｚａｎ，Ｎ．，ａｎｄＢｒｕｎｎｓｔｒｏｅｍ，Ｋ．，“Ｐｓｙｃｈｏｐｈｙｓｉｏｌｏｇｙ−ＢａｓｅｄＱｏＥＡｓｓｅｓｓｍｅｎｔ：ＡＳｕｒｖｅｙ，”ＩＥＥＥＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１１（１），ｐｐ．６−２１，２０１７

［２３］Ｓｃｈｌｅｃｈｔ，Ｓ．Ｊ．ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“Ｓｉｇｎ−ＡｇｎｏｓｔｉｃＭａｔｒｉｘＤｅｓｉｇｎｆｏｒＳｐａｔｉａｌＡｒｔｉｆｉｃｉａｌＲｅｖｅｒｂｅｒａｔｉｏｎｗｉｔｈＦｅｅｄｂａｃｋＤｅｌａｙＮｅｔｗｏｒｋｓ，”ｉｎＰｒｏｃ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｆ．，ｐｐ．１−１０−ａｃｃｅｐｔｅｄ，Ｔｏｋｙｏ，Ｊａｐａｎ，２０１８

［３１］Ｍ．Ａ．Ｇｅｒｚｏｎ，”Ｐｅｒｉｐｈｏｎｙ：Ｗｉｔｈ−ｈｅｉｇｈｔｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎ，”Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，ｖｏｌ．２１，１１０．１，ｐｐ．２−１０，１９７３

［３２］Ｖ．Ｐｕｌｋｋｉ，”Ｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇｉｎｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎａｎｄｓｔｅｒｅｏｕｐｍｉｘｉｎｇ，”ｉｎＰｒｏｃ．ｏｆｔｈｅ２８ｔｈＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，２００６

［３３］ ―，”Ｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ，”ＪｏｕｒｎａｌＡｕｄｉｏＥｎｇ．Ｓｏｃ,, ｖｏｌ．５５，ｎｏ．６，ｐｐ．５０３−５１６，Ｊｕｎ．２００７

［３４］Ｃ．Ｇ．ａｎｄＧ．Ｍ．，”Ｃｏｉｎｃｉｄｅｎｔｍｉｃｒｏｐｈｏｎｅｓｉｍｕｌａｔｉｏｎｃｏｖｅｒｉｎｇｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌｓｐａｃｅａｎｄｙｉｅｌｄｉｎｇｖａｒｉｏｕｓｄｉｒｅｃｔｉｏｎａｌｏｕｔｐｕｔｓ，”Ｕ．Ｓ．Ｐａｔｅｎｔ４０４２７７９，１９７７

［３５］Ｃ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ，”Ｂｉｎａｕｒａｌｃｕｅｃｏｄｉｎｇ − ｐａｒｔｉｉ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，”ＩＥＥＥＴｒａｎｓ．ＳｐｅｅｃｈＡｕｄｉｏＰｒｏｃｅｓｓ,, ｖｏｌ．１１，ｎｏ．６，Ｎｏｖ．２００３

［３６］Ｃ．Ｆａｌｌｅｒ，”Ｐａｒａｍｅｔｒｉｃｍｕｌｔｉｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ：Ｓｙｎｔｈｅｓｉｓｏｆｃｏｈｅｒｅｎｃｅｃｕｅｓ，”ＩＥＥＥＴｒａｎｓ．ＳｐｅｅｃｈＡｕｄｉｏＰｒｏｃｅｓｓ．，ｖｏｌ．１４，ｎｏ．１，Ｊａｎ．２００６

［３７］Ｈ．Ｐ．Ｊ．Ｅ．Ｅ．Ｓｃｈｕｉｊｅｒｓ，Ｊ．Ｂｒｅｅｂａａｒｔ，”Ｌｏｗｃｏｍｐｌｅｘｉｔｙｐａｒａｍｅｔｒｉｃｓｔｅｒｅｏｃｏｄｉｎｇ，”ｉｎＰｒｏｃ．ｏｆｔｈｅ１１６ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｂｅｒｌｉｎ，Ｇｅｒｍａｎｙ，２００４

［３８］Ｖ．Ｐｕｌｋｋｉ，”Ｖｉｒｔｕａｌｓｏｕｎｄｓｏｕｒｃｅｐｏｓｉｔｉｏｎｉｎｇｕｓｉｎｇｖｅｃｔｏｒｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ，”Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ,, ｖｏｌ．４５，ｎｏ．６，ｐｐ．４５６−４６６，Ｊｕｎ．１９９７

［３９］Ｊ．Ｇ．ＴｙｌｋａａｎｄＥ．Ｙ．Ｃｈｏｕｅｉｒｉ，”Ｃｏｍｐａｒｉｓｏｎｏｆｔｅｃｈｎｉｑｕｅｓｆｏｒｂｉｎａｕｒａｌｎａｖｉｇａｔｉｏｎｏｆｈｉｇｈｅｒ− ｏｒｄｅｒａｍｂｉｓｏｎｉｃｓｓｏｕｎｄｆｉｅｌｄｓ，”ｉｎＰｒｏｃ．ｏｆｔｈｅＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｄｉｏｆｏｒＶｉｒｔｕａｌａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ，ＮｅｗＹｏｒｋ，Ｓｅｐ．２０１６．

Claims

拡張音場記述を生成するための装置であって、
少なくとも１つの基準位置についての音場を示す少なくとも１つの音場記述を生成するための音場生成器（１００、２５０、２６０）と、
前記音場の空間情報に関連するメタデータを生成するためのメタデータ生成器（１１０）と、を含み、
前記少なくとも１つの音場記述および前記メタデータは、前記拡張音場記述を構成し、
前記音場生成器（１００、２５０、２６０）は、前記基準位置についての第１の音場記述を生成するように構成され、前記第１の音場記述は、前記基準位置の周りの第１のボリュームに位置する音源からの音データのみを含み、且つ、前記基準位置についての第２の音場記述を生成するように構成され、前記第２の音場記述は、前記基準位置の周りの第２のボリュームに位置する第２の音源からの音データのみを含み、前記第２のボリュームは前記第１のボリュームとは異なり、
前記メタデータ生成器（１１０）は、前記第１のボリュームおよび／または前記第２のボリュームの空間記述を提供するように構成されるか、
或いは、
前記音場生成器（１００）は、複数のレイヤの各レイヤについて、１つもしくは複数のダウンミックス信号および個別方向データ、ならびに任意選択で異なる時間−周波数ビンに対する拡散度データを有する音場のＤｉｒＡＣ（指向性オーディオ符号化）記述を生成するように構成され、
前記メタデータ生成器（１１０）は、レイヤごとに単一の距離情報項目を生成するように構成されるか、
或いは、
前記メタデータ生成器（１１０）は、前記メタデータとして、前記第１の音場記述についての第１の幾何学的情報（３５２）、および前記第２の音場記述についての第２の幾何学的情報（３５３）を生成するように構成され、
前記第１の幾何学的記述（３５２）は、第１のボリュームから基準点までの第１の代表距離であり、前記第２の幾何学的情報（３５３）は、第２のボリュームから前記基準点までの第２の代表距離であり、前記基準点は、前記基準位置であるかまたは前記基準位置から前記基準点を指すベクトルによって記述される、装置。
前記第１のボリュームは前記基準位置の周りの球であり、前記第２のボリュームは前記基準位置の周りの球殻であり、前記球殻は前記球の直径よりも大きい直径を有するか、または、
前記第１のボリュームは第１の球殻であり、前記第２のボリュームは第２の球殻であり、前記第１の球殻の直径は前記第２の球殻の直径よりも小さく、
前記メタデータ生成器（１１０）は、前記球および前記球殻あるいは第１の球殻および第２の球殻の空間記述を提供するように構成される、
請求項１に記載の装置。
前記第１の音場記述および前記第２の音場記述は、アンビソニックスまたはＤｉｒＡＣ（指向性オーディオ符号化）記述である、
請求項１または２に記載の装置。
前記音場生成器（１００、２５０、２６０）は、静的に、または前記音場に依存して、前記第１および前記第２の異なるボリュームを決定するように構成される、
請求項１から３のいずれか一項に記載の装置。
前記メタデータ生成器（１１０）は、各音場記述の距離範囲を決定するように構成され、前記距離範囲は、各ボリュームに対して均一または不均一であり、前記距離範囲が各ボリュームに対して不均一である場合、前記基準位置からさらに離れて延在するボリュームの距離範囲は、前記基準位置により近い距離範囲よりも大きい、
請求項１から４のいずれか一項に記載の装置。
送信または保存のための出力信号を生成するための出力インターフェース（１２０）をさらに含み、前記出力信号は、時間フレームについて、前記時間フレームの前記音場および前記空間情報から導出された１つまたは複数のオーディオ信号を含む、請求項１から５のいずれか一項に記載の装置。
前記装置は、前記拡張音場記述が、第１の音場記述（３３０）、第２の音場記述（３４０）、および前記第１の音場記述および前記第２の音場記述に関する空間情報（３５０）を前記メタデータとして含むように、前記拡張音場記述を生成するように構成される、
請求項１から６のいずれか一項に記載の装置。
前記メタデータ生成器（１１０）は、前記メタデータとして、前記第１の音場記述についての第１の幾何学的情報（３５２）、および前記第２の音場記述についての第２の幾何学的情報（３５３）を生成するように構成される、
請求項１から７に記載の装置。
音場記述および前記音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置であって、
前記空間情報、前記音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して前記修正音場を計算するための音場計算器（４２０）を含み、
前記音場計算器（４２０）は、レイヤごとに、
前記音場記述としてのＤｉｒＡＣ（指向性オーディオ符号化）記述について、方向データ、深度情報、および前記並進情報を使用して、異なる時間−周波数ビンの修正方向データを計算し、
前記修正方向データを使用して、前記ＤｉｒＡＣ記述を複数のオーディオチャネルを含む音響記述にレンダリングして前記修正音場記述を取得するか、または、前記時間−周波数ビンの前記方向データの代わりに前記修正方向データ、および任意選択で、前記ＤｉｒＡＣ記述に含まれている拡散度データを使用して、前記修正音場記述として前記ＤｉｒＡＣ記述を送信または保存する、ように構成されるか、
或いは、
前記音場計算器（４２０）は、前記修正音場記述を取得する際に、レイヤごとに、時間−周波数ビンについて、前記方向データを維持するか、または前記時間−周波数ビンの前記拡散データに基づいて修正方向データを計算する、ように決定するように構成され、修正方向データは、所定のまたは適応的な拡散度レベルよりも低い拡散度を示す拡散度データについてのみ計算されるか、
或いは、
前記音場記述は、レイヤごとに、複数の音場成分を含み、前記複数の音場成分は、全方向性成分および少なくとも１つの指向性成分を含み、
前記音場計算器（４２０）は、レイヤごとに、
前記音場成分を解析して、異なる周波数ビンについて、到来方向情報を導出するための音場解析器（４２２）と、
前記方向情報およびメタデータを使用して、周波数ビンごとに修正到来方向情報を計算するための並進変換器（４２３）であって、前記メタデータは、距離情報をレイヤに関連付ける深度マップを含む、並進変換器（４２３）と、
前記レイヤの前記深度マップによって提供される距離に応じた距離補償情報と、前記修正到来方向情報に関連する前記周波数ビンに関連付けられた新しい距離と、を使用して、前記修正音場を計算するための距離補償器と、を含むか、
或いは、
前記音場計算器（４２０）は、レイヤごとに、
前記基準位置から前記音場の前記解析（１１０２）により得られた音源（５１０）を指す第１のベクトルを計算し（１１０４）、
前記第１のベクトルおよび前記並進情報を使用して、前記異なる基準位置（５００）から前記音源（５１０）を指す第２のベクトルを計算し（１１０６）、前記並進情報は、前記基準位置（５２２）から前記異なる基準位置（５００）への並進ベクトルを定義し、
前記異なる基準位置（５００）、前記音源（５１０）の位置、および前記第２のベクトルを使用して、あるいは、前記異なる基準位置（５００）から前記音源（５１０）の位置までの距離および前記第２のベクトルを使用して、距離修正値を計算する（１１０６）、ように構成されるか、
或いは、
前記音場計算器（４２０）は、レイヤごとに、
前記音場記述から音源信号を決定し、音解析により前記基準位置に関連する前記音源信号の方向を決定し（１２００）、
前記並進情報を使用して、前記異なる基準位置に関連する前記音源信号の新しい方向を計算し（１２３０）、
前記異なる基準位置に関連する前記音源の距離情報を計算し（１２３０）、
前記距離情報、前記音源信号、前記新しい方向を使用して前記修正音場を合成する（１２６０）、ように構成され、
前記音場計算器（４２０）は、レイヤごとに、または単一レイヤのみに、拡散信号を前記音源信号の直接部分に追加するように構成され、前記直接部分は、前記拡散信号に追加される前に前記距離情報によって修正されるか、
或いは、
前記音場計算器（４２０）は、レイヤ音場記述ごとに、前記メタデータから前記レイヤ音場記述の代表距離を受け取るように構成され、
前記音場計算器は、前記並進情報によって決定された前記修正された基準位置に関して前記音源が同じレイヤに残っているかどうかの決定を使用して、前記レイヤ音場記述から決定された音源のスケーリング値を決定するように構成され、
前記スケーリング値は、前記音源が前記異なる基準位置に対して下位レイヤにある場合には、１より大きいと決定され、
前記スケーリング値は、前記音源が前記異なる基準位置に対して上位レイヤにある場合には、１より小さいと決定されるか、
或いは、
前記音場計算器（４２０）は、各レイヤ音場記述を解析して、前記レイヤ音場記述に含まれる各音源の到来方向情報を取得し、
前記到来方向情報および前記レイヤ音場記述の前記メタデータを使用して、前記レイヤ音場記述の音源から前記修正された基準位置までの距離を決定し、
前記レイヤ音場記述の前記音源から前記異なる基準位置までの前記距離と、前記音源が抽出された前記音場記述の前記メタデータと、を使用して、スケーリング係数を決定する、ように構成されるか、
或いは、
前記音場計算器（４２０）は、音源の位置および前記並進情報を使用して、前記異なる基準位置から前記音源の前記位置までの距離を決定し、
前記異なる基準位置までの前記距離を、前記異なる基準位置の周りのレイヤの代表距離と比較して、前記比較に従って前記異なる基準位置の周りのレイヤに前記音源がレンダリングされるか、
或いは、
前記音場計算器（４２０）は、音源について、到来方向情報および幾何学的情報を使用して、前記基準位置から前記音源への第１のベクトルを形成するように構成され、レイヤ音場記述の各音源に前記同じ幾何学的情報が使用され、
前記音場計算器（４２０）は、前記第１のベクトルおよび前記レイヤ音場記述の各音源の前記並進情報から第２のベクトルを形成するように構成され、
前記音場計算器は、前記第２のベクトルの長さを前記第１のベクトルの長さで除算することにより、各音源のスケーリング値を計算するように構成される、装置。
前記音場計算器（４２０）は、
前記音場記述として、第１のレイヤ音場記述と第２のレイヤ音場記述を受け取り、
前記第１および前記第２のレイヤ音場記述の音源分離を実行して、前記第１および前記第２のレイヤ音場記述の音源と抽出された音源の到来方向（ＤｏＡ）データとを抽出し、
抽出された音源ごとに、前記ＤｏＡデータおよび前記並進情報を使用して、前記異なる位置についての修正ＤｏＡデータを計算し、
前記抽出された音源と前記修正ＤｏＡデータを処理して、前記修正音場記述を取得する、ように構成される、
請求項９に記載の装置。
前記音場計算器（４２０）は、
レイヤ音場記述ごとに個別に音源分離を実行し、レイヤごとにアンビエンス／拡散／残差信号を抽出するか、または、
すべてのレイヤについて前記音源分離を一緒に実行し、少なくとも２つのレイヤの単一のアンビエンス／拡散／残差信号を抽出する、ように構成される、
請求項９に記載の装置。
前記音場計算器（４２０）は、抽出された音源ごとに、修正ＤｏＡ（抽出された音源の到来方向）データを使用して音場記述を生成し、
前記対応する抽出された音源と特定のレイヤの前記異なる基準位置との間の距離に基づいて音源の音場記述を選択し、前記レイヤ内の選択された各音源の前記音場記述を追加して、修正レイヤ音場記述を取得するか、または、
前記音響シーンの各音源の前記音場記述を追加して、修正された全体音場記述を取得する、ように構成される、
請求項９に記載の装置。
前記音場計算器（４２０）は、修正レイヤ音場記述を計算する際にレイヤごとにアンビエンス／拡散／残差信号を追加するか、あるいは前記全体音場記述に追加される単一のアンビエンス／拡散／残差信号を計算する、ように構成される、
請求項１２に記載の装置。
前記音場計算器（４２０）は、音源ごとに、修正距離を計算し、抽出された音源の前記修正距離を使用して修正レイヤ音場記述を計算するように構成される、
請求項９から１３のいずれか一項に記載の装置。
前記音場計算器（４２０）は、各レイヤ音場記述の対応する成分ごとに、前記レイヤ音場記述を追加して、全体音場記述を取得するように構成される、
請求項９から１４のいずれか一項に記載の装置。
前記音場計算器（４２０）は、前記修正音場記述に回転を適用するように構成され、前記修正音場記述は、前記異なる基準位置に関連するレイヤ音場記述または全体音場記述である、
請求項９から１５のいずれか一項に記載の装置。
前記並進情報または前記修正音場に対する意図されたリスナーの回転を示す回転情報を提供するための変換インターフェース（４１０）と、
前記音場計算器（４２０）に前記メタデータを提供するためのメタデータサプライヤ（４０２、４００）と、
前記音場計算器（４２０）に前記音場記述を提供するための音場サプライヤ（４０４、４００）と、
前記修正音場記述と、前記並進情報を使用して前記メタデータから導出された修正メタデータと、を含む前記修正音場を出力するための、または各スピーカチャネルが所定のスピーカ位置に関連する複数のスピーカチャネルを出力するための、または前記修正音場のバイノーラル表現を出力するための、出力インターフェース（４２１）と、
をさらに含む、請求項９から１６のいずれか一項に記載の装置。
前記第１のベクトルは、到来方向の単位ベクトルに前記メタデータに含まれる距離を乗算することによって計算されるか、または、
前記第２のベクトルは、前記第１のベクトルから前記並進ベクトルを減算することによって計算されるか、または、
前記距離修正値は、前記第２のベクトルを前記第１のベクトルのノルムで除算することにより計算される、
請求項９に記載の装置。
前記音場計算器（４２０）は、前記並進情報に加えて、回転情報を受け取るように構成され、
前記音場計算器（４２０）は、前記回転情報を使用して回転変換（４２４）を実行し、音場の到来方向データを回転させるように構成され、前記到来方向データは、前記音場記述の音場解析および前記並進情報を使用することにより得られた到来方向データから導出される、
請求項９から１８のいずれか一項に記載の装置。
前記音場計算器（４２０）は、レイヤごとに、
音場解析により前記音場記述および音源の方向から前記音源を決定し（１２００、１２４０）、
音源ごとに、前記メタデータを使用して前記基準位置から前記音源までの距離を決定し（１２２０）、
前記音源の方向および前記並進情報を使用して、前記異なる基準位置に関連する前記音源の新しい方向を決定し（１２５０）、
前記異なる基準位置に関連する前記音源の新しい距離情報を決定し（１２３０）、
前記音源の前記新しい方向、前記新しい距離情報、および前記音場記述もしくは前記音場記述から導出された前記音源に対応する音源信号を使用して、前記修正音場を生成する（１２６０）、
ように構成される、請求項９から１９のいずれか一項に記載の装置。
前記音場計算器は、レイヤごとに、
前記音場記述から音源信号を決定し、音解析により前記基準位置に関連する前記音源信号の方向を決定し（１２００）、
前記並進情報を使用して、前記異なる基準位置に関連する前記音源信号の新しい方向を計算し（１２３０）、
前記異なる基準位置に関連する前記音源の距離情報を計算し（１２３０）、
前記距離情報、前記音源信号、前記新しい方向を使用して前記修正音場を合成する（１２６０）、
ように構成される、請求項９から２０のいずれか一項に記載の装置。
前記音場計算器（４２０）は、
再生設定に関連して前記新しい方向により与えられた方向に音源信号をパンニングすることにより、
ならびに前記パンニングを実行する前または前記パンニングを実行した後に、前記距離情報を使用して前記音源信号をスケーリングすることにより、前記修正音場を合成するように構成される、請求項２１に記載の装置。
前記音場計算器（４２０）は、レイヤごとに、
前記音場記述の時間−周波数変換を実行し、時間フレームの複数の周波数ビンの到来方向を計算し（４２２）、
周波数ビンごとに前記新しい方向を計算（４２３、４２４）し、
周波数ビンごとに前記距離情報を計算し、
周波数ビンのオーディオ信号、前記周波数ビンの前記新しい方向から導出された前記周波数ビンのパンニングゲイン、および前記対応するレイヤの前記距離情報から導出された前記周波数ビンのスケーリング値を使用して、周波数ビンごとに直接合成を実行する、
ように構成される、請求項１９から２２のいずれか一項に記載の装置。
前記音場計算器（４２０）は、レイヤごとに、
前記周波数ビンの前記オーディオ信号から導出された拡散オーディオ信号を使用し、かつ前記周波数ビンの前記音解析によって導出された拡散度パラメータを使用して拡散合成を実行し、前記直接部分と前記拡散部分とを組み合わせて、前記周波数ビンの合成オーディオ信号を取得し、
時間フレームの前記周波数ビンの前記オーディオ信号を使用して周波数−時間変換を実行し、前記修正音場として時間領域合成オーディオ信号を取得する、
ように構成される、請求項２３に記載の装置。
前記音場計算器（４２０）は、音源ごとに、前記異なる基準位置に関連する音場を合成するように構成され、前記合成は、
音源ごとに、前記音源信号の前記新しい方向を使用して音源信号を処理して（４３０）、前記異なる基準位置に関連する前記音源信号の音場記述を取得し、
前記音源信号を処理する前に前記音源信号を修正するか、または前記方向情報を使用して前記音場記述を修正し、
前記音源の前記音場記述を追加して、前記異なる基準位置に関連する修正音場を取得する、
ことを含む、請求項１９から２４のいずれか一項に記載の装置。
前記音解析（１２００）は、音源分離アルゴリズムによって前記音源信号を決定し、前記拡散信号を取得するために前記音場記述から前記音源信号の少なくともいくつかを減算するように構成される、
請求項１９から２５のいずれか一項に記載の装置。
拡張音場の記述を生成するための方法であって、
少なくとも１つの基準位置についての音場を示す少なくとも１つの音場記述を生成するステップと、
前記音場の空間情報に関連するメタデータを生成するステップと、を含み、
前記少なくとも１つの音場記述および前記メタデータは、前記拡張音場記述を構成し、
前記少なくとも１つの音場記述を生成するステップは、前記基準位置についての第１の音場記述を生成することを含み、前記第１の音場記述は、前記基準位置の周りの第１のボリュームに位置する音源からの音データのみを含み、且つ、前記基準位置についての第２の音場記述を生成することを含み、前記第２の音場記述は、前記基準位置の周りの第２のボリュームに位置する第２の音源からの音データのみを含み、前記第２のボリュームは前記第１のボリュームとは異なり、
前記メタデータを生成するステップは、前記第１のボリュームおよび／または前記第２のボリュームの空間記述を提供することを含むか、
或いは、
前記少なくとも１つの音場記述を生成するステップは、複数のレイヤの各レイヤについて、１つもしくは複数のダウンミックス信号および個別方向データ、ならびに任意選択で異なる時間−周波数ビンに対する拡散度データを有する音場のＤｉｒＡＣ（指向性オーディオ符号化）記述を生成することを含み、
前記記メタデータを生成するステップは、レイヤごとに単一の距離情報項目を生成することを含むか、
或いは、
前記生成するステップは、前記メタデータとして、前記第１の音場記述についての第１の幾何学的情報（３５２）、および前記第２の音場記述についての第２の幾何学的情報（３５３）を生成することを含み、
前記第１の幾何学的記述（３５２）は、第１のボリュームから基準点までの第１の代表距離であり、前記第２の幾何学的情報（３５３）は、第２のボリュームから前記基準点までの第２の代表距離であり、前記基準点は、前記基準位置であるかまたは前記基準位置から前記基準点を指すベクトルによって記述される、方法。
音場記述および前記音場記述の空間情報に関連するメタデータから修正音場記述を生成するための方法であって、前記方法は、
前記空間情報、前記音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して前記修正音場を計算するステップを含み、
前記計算するステップは、レイヤごとに、
前記音場記述としてのＤｉｒＡＣ（指向性オーディオ符号化）記述について、方向データ、深度情報、および前記並進情報を使用して、異なる時間−周波数ビンの修正方向データを計算し、
前記修正方向データを使用して、前記ＤｉｒＡＣ記述を複数のオーディオチャネルを含む音響記述にレンダリングして前記修正音場記述を取得するか、または、前記時間−周波数ビンの前記方向データの代わりに前記修正方向データ、および任意選択で、前記ＤｉｒＡＣ記述に含まれている拡散度データを使用して、前記修正音場記述として前記ＤｉｒＡＣ記述を送信または保存する、ことを含むか、
或いは、
前記計算するステップは、前記修正音場記述を取得する際に、レイヤごとに、時間−周波数ビンについて、前記方向データを維持するか、または前記時間−周波数ビンの前記拡散データに基づいて修正方向データを計算する、ように決定するように構成され、修正方向データは、所定のまたは適応的な拡散度レベルよりも低い拡散度を示す拡散度データについてのみ計算されるか、
或いは、
前記音場記述は、レイヤごとに、複数の音場成分を含み、前記複数の音場成分は、全方向性成分および少なくとも１つの指向性成分を含み、
前記計算するステップは、レイヤごとに、
前記音場成分を解析して、異なる周波数ビンについて、到来方向情報を導出することと、
前記方向情報およびメタデータを使用して、周波数ビンごとに修正到来方向情報を計算することであって、前記メタデータは、距離情報をレイヤに関連付ける深度マップを含む、修正到来方向情報を計算することと、
前記レイヤの前記深度マップによって提供される距離に応じた距離補償情報と、前記修正到来方向情報に関連する前記周波数ビンに関連付けられた新しい距離と、を使用して、前記修正音場を計算することと、を含むか、
或いは、
前記計算するステップは、レイヤごとに、
前記基準位置から前記音場の前記解析（１１０２）により得られた音源（５１０）を指す第１のベクトルを計算する（１１０４）ことと、
前記第１のベクトルおよび前記並進情報を使用して、前記異なる基準位置（５００）から前記音源（５１０）を指す第２のベクトルを計算すること（１１０６）であって、前記並進情報は、前記基準位置（５２２）から前記異なる基準位置（５００）への並進ベクトルを定義する、第２のベクトルを計算する（１１０６）ことと、
前記異なる基準位置（５００）、前記音源（５１０）の位置、および前記第２のベクトルを使用して、あるいは、前記異なる基準位置（５００）から前記音源（５１０）の位置までの距離および前記第２のベクトルを使用して、距離修正値を計算する（１１０６）ことと、を含むか、
或いは、
前記計算するステップは、レイヤごとに、
前記音場記述から音源信号を決定し、音解析により前記基準位置に関連する前記音源信号の方向を決定する（１２００）ことと、
前記並進情報を使用して、前記異なる基準位置に関連する前記音源信号の新しい方向を計算する（１２３０）ことと、
前記異なる基準位置に関連する前記音源の距離情報を計算する（１２３０）ことと、
前記距離情報、前記音源信号、前記新しい方向を使用して前記修正音場を合成する（１２６０）ことと、
レイヤごとに、または単一レイヤのみに、拡散信号を前記音源信号の直接部分に追加することであって、前記直接部分は、前記拡散信号に追加される前に前記距離情報によって修正される、追加することと、を含むか、
或いは、
前記計算するステップは、レイヤ音場記述ごとに、前記メタデータから前記レイヤ音場記述の代表距離を受け取ることと、
前記並進情報によって決定された前記修正された基準位置に関して前記音源が同じレイヤに残っているかどうかの決定を使用して、前記レイヤ音場記述から決定された音源のスケーリング値を決定することと、を含み、
前記スケーリング値は、前記音源が前記異なる基準位置に対して下位レイヤにある場合には、１より大きいと決定され、
前記スケーリング値は、前記音源が前記異なる基準位置に対して上位レイヤにある場合には、１より小さいと決定されるか、
或いは、
前記計算するステップは、各レイヤ音場記述を解析して、前記レイヤ音場記述に含まれる各音源の到来方向情報を取得することと、
前記到来方向情報および前記レイヤ音場記述の前記メタデータを使用して、前記レイヤ音場記述の音源から前記修正された基準位置までの距離を決定することと、
前記レイヤ音場記述の前記音源から前記異なる基準位置までの前記距離と、前記音源が抽出された前記音場記述の前記メタデータと、を使用して、スケーリング係数を決定することと、を含むか、
或いは、
前記計算するステップは、音源の位置および前記並進情報を使用して、前記異なる基準位置から前記音源の前記位置までの距離を決定することと、
前記異なる基準位置までの前記距離を、前記異なる基準位置の周りのレイヤの代表距離と比較して、前記比較に従って前記異なる基準位置の周りのレイヤに前記音源がレンダリングされることと、を含むか、
或いは、
前記計算するステップは、音源について、到来方向情報および幾何学的情報を使用して、前記基準位置から前記音源への第１のベクトルを形成することであって、レイヤ音場記述の各音源に前記同じ幾何学的情報が使用される、第１のベクトルを形成することと、
前記第１のベクトルおよび前記レイヤ音場記述の各音源の前記並進情報から第２のベクトルを形成することと、
前記第２のベクトルの長さを前記第１のベクトルの長さで除算することにより、各音源のスケーリング値を計算することと、を含む、方法。
コンピュータまたはプロセッサで実行される場合に、請求項２７に記載の方法または請求項２８に記載の方法を実行するためのコンピュータプログラム。