JP2022153626A

JP2022153626A - マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト

Info

Publication number: JP2022153626A
Application number: JP2022124044A
Authority: JP
Inventors: ハル・ユルゲン; Herre Juergen; ハーベッツ・エマニュエル; habets Emanuel
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-07-14
Filing date: 2022-08-03
Publication date: 2022-10-12
Also published as: AU2018298874A1; KR20200040745A; TWI713866B; KR102491818B1; CN111149155A; TW201909657A; BR112020000775A2; KR20220098261A; AU2018298874B2; RU2736418C1; AR112451A1; EP3652735A1; US20240098445A1; US11463834B2; ZA202000020B; CA3069241A1; JP2020527746A; CA3069241C; US20200228913A1; JP7119060B2

Abstract

【課題】改善された、柔軟で効率的な処理を可能にする修正音場記述の生成装置、拡張音場記述、方法及びプログラムを提供する。
【解決手段】音場記述及び音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置であって、音場計算器は、空間情報、音場記述及びある基準位置から異なる基準位置への並進を示す並進情報を使用して修正音場を計算するための、信号ベースの変換方法を使用して修正音場記述を計算する。
【選択図】図４ａ

Description

本発明は、オーディオ処理に関し、特に、マイクまたは仮想マイク位置などの基準位置に関して定義される音場に関するオーディオ処理に関する。

アンビソニックス信号は、音場の切り捨てられた球面調和分解を含む。アンビソニックスには様々なフレーバーがある。今日では「一次アンビソニックス」（ＦＯＡ）として知られ、４つの信号（すなわち、１つの全方向性信号と最大３つの８桁の方向信号）を含む「伝統的な」アンビソニックス［３１］がある。より最近のアンビソニックス変形例は「高次アンビソニックス」（ＨＯＡ）として知られ、より多くの信号を伝送することを犠牲にして空間分解能を高め、リスナーのスイートスポット領域を大きくする。一般に、完全に定義されたＮ次のＨＯＡ表現は（Ｎ＋１）^２信号で構成される。

アンビソニックスのアイデアに関連して、方向性オーディオ符号化（ＤｉｒＡＣ）表現は、よりコンパクトなパラメトリックスタイルでＦＯＡまたはＨＯＡ音響シーンを表現するために考案された。より具体的には、空間音響シーンは、音響シーンと各時間－周波数（ＴＦ）ビンの方向と拡散度の関連するサイド情報のダウンミックスを表す１つ（または複数）の送信オーディオチャネルによって表される。ＤｉｒＡＣについてのさらなる情報は、［３２、３３］にある。

ＤｉｒＡＣ［３２］は、様々なマイクシステムおよび任意のスピーカ設定で使用できる。ＤｉｒＡＣシステムの目的は、マルチチャネル／３Ｄスピーカシステムを使用して、既存の音響環境の空間的な印象を可能な限り正確に再現することである。選択された環境内で、応答（連続音またはインパルス応答）は、全方向性マイク（Ｗ）と、音の到来方向と音の拡散度を測定できるマイクのセットで測定される。一般的な方法は、対応するデカルト座標軸に合わせて３つの８の字型マイク（Ｘ、Ｙ、Ｚ）を適用することである［３４］。これを行う方法は、音場マイクを使用することであり、これにより、希望するすべての応答が直接得られる。Ｗ、Ｘ、Ｙ、およびＺ信号は、個別の全方向性マイクのセットから計算することもできる。

ＤｉｒＡＣでは、音響信号は最初に周波数チャネルに分割される。音の方向と拡散度は、各周波数チャネルの時間に応じて測定される。伝送では、解析された方向および拡散度データと共に、１つまたは複数のオーディオチャネルが送信される。合成では、スピーカに適用されるオーディオは、例えば、全方向性チャネルＷであるか、または、各スピーカの音は、Ｗ、Ｘ、Ｙ、およびＺの重み付き合計として計算することができ、これは、各スピーカの特定の指向特性を有する信号を形成する。各オーディオチャネルは周波数チャネルに分割され、解析された拡散度に応じて、任意選択で拡散ストリームと非拡散ストリームに分割される。拡散ストリームは、例えばバイノーラルキュー符号化［３５－３７］で使用される非相関技術など、音響シーンの拡散知覚を生成する技術で再現される。非拡散音は、方向データ（ＶＢＡＰ［３８］など）に従って点状の仮想音源を生成することを目的とする手法で再現される。

自由度が制限された６ＤｏＦでのナビゲーションのための３つの手法が［３９］で提案されている。単一のアンビソニックス信号が与えられた場合、単一のアンビソニックス信号は以下を使用して計算される。１）仮想スピーカアレイ内でのＨＯＡ再生とリスナーの動きのシミュレーション、２）平面波に沿った計算と変換、３）リスナーに関する音場の再拡張。

さらに、ＤｉｒＡＣ技術については、例えば、出版物「ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ－Ｐｅｒｃｅｐｔｉｏｎ－ＢａｓｅｄＲｅｐｒｏｄｕｃｔｉｏｎｏｆＳｐａｔｉａｌＳｏｕｎｄ」、Ｖ．Ｐｕｌｋｋｉｅｔａｌ、ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎｔｈｅＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｎＳｐａｔｉａｌＨｅａｒｉｎｇ，Ｎｏｖｅｍｂｅｒ１１－１３，２００９，Ｚａｏ，Ｍｉｙａｇｉ，Ｊａｐａｎを参照されたい。この参考文献は、特に空間オーディオ処理のための知覚的に動機付けられた技術として、音場処理に関連する基準位置の例として指向性オーディオ符号化について説明している。それは、電話会議、指向性フィルタリング、仮想聴覚環境における空間音の取り込み、符号化、再合成での用途がある。

音響シーンの再現は、多くの場合、スピーカの設定に焦点を当てているが、これは、プライベート（リビングルームなど）やプロのコンテキスト（映画館など）での典型的な再現であったためである。ここでは、シーンと再現ジオメトリの関係は静的であり、リスナーが正面方向を見るように強制する２次元画像を伴う。その後に、音響オブジェクトと視覚オブジェクトの空間関係が定義され、制作時に固定される。

仮想現実（ＶＲ）では、ユーザがシーン内を自由に移動できるようにすることで、没入感が明示的に実現される。したがって、ユーザの動きを追跡し、視覚と聴覚の再現をユーザの位置に調整する必要がある。通常、ユーザはヘッドマウントディスプレイ（ＨＭＤ）とヘッドフォンを装着している。ヘッドフォンで没入型の体験をするには、オーディオをバイノーラル化する必要がある。バイノーラル化は、人間の頭、耳、上半身が方向と距離に応じて音源の音をどのように変化させるかのシミュレーションである。これは、相対的な方向の頭部伝達関数（ＨＲＴＦ）で信号を畳み込むことで実現される［１、２］。バイノーラル化により、音は頭の内側からではなく、シーンから来ているように見える［３］。既に良好に対処されている一般的なシナリオは、３６０°ビデオ再生である［４、５］。ここでは、ユーザはＨＭＤを装着しているか、タブレットまたは電話を手に持っている。頭またはデバイスを動かすことにより、ユーザはあらゆる方向を見ることができる。これは、ユーザが３つの運動度（ピッチ、ヨー、ロール）を有するため、３自由度（３ＤｏＦ）のシナリオである。視覚的には、これはユーザの周囲の球体にビデオを投影することで実現される。多くの場合、オーディオはビデオカメラの近くの空間マイク［６］、例えば１次アンビソニックス（ＦＯＡ）で録音される。アンビソニックスドメインでは、ユーザの頭の回転は簡単な方法で適応される［７］。次に、オーディオは、例えば、ユーザの周囲に配置された仮想スピーカにレンダリングされる。次に、これらの仮想スピーカ信号がバイノーラル化される。

最新のＶＲ用途では、６自由度（６ＤｏＦ）が可能である。頭の回転に加えて、ユーザは動き回ることができ、その結果、３次元でのユーザの位置が並進される。６ＤｏＦ再生は、歩行エリアの全体的なサイズによって制限される。多くの場合、この領域はかなり小さく、例えば従来のリビングルームである。６ＤｏＦは、一般的にＶＲゲームで遭遇する。ここでは、シーン全体がコンピュータ生成画像（ＣＧＩ）で合成されている。多くの場合、オーディオはオブジェクトベースのレンダリングを使用して生成され、各オーディオオブジェクトは、追跡データに基づいてユーザからの距離に依存するゲインと相対方向でレンダリングされる。現実性は、人工的な残響と回折によって強化できる［８、９、１０］。

記録されたコンテンツに関して、視聴覚６ＤｏＦ再生を確信させるためのいくつかの明確な課題がある。空間並進ドメインにおける空間音響操作の初期の例は、「音響ズーム」技術の例である［１１、１２］。ここで、リスナーの位置は、画像にズームインするのと同様に、記録された視覚シーンに仮想的に移動する。ユーザは１つの方向または画像部分を選択し、変換されたポイントからこれを聞くことができる。これは、すべての到来方向（ＤｏＡ）が元のズームされていない複製に対して変化していることを伴う。

記録されたコンテンツの６ＤｏＦ再生のための方法は、空間的に分布する記録位置を使用して提案されてきた。ビデオの場合、カメラのアレイを使用して明視野レンダリングを生成できる［１３］。オーディオの場合、同様の設定では、分散マイクアレイまたはアンビソニックスマイクを使用する。そのような録音から任意の位置に置かれた「仮想マイク」の信号を生成することが可能であることが示されている［１４］。

技術的に便利な方法でこのような空間音の修正を実現するために、パラメトリックな音処理または符号化技術を使用できる（概要については［１５］を参照）。指向性オーディオ符号化（ＤｉｒＡＣ）［１６］は、録音をオーディオスペクトルと、音の方向と拡散度に関するパラメトリックなサイド情報で構成される表現に変換する一般的な方法である。これは、音響ズーム［１１］および仮想マイク［１４］用途に使用される。

ここで提案する方法は、単一のＦＯＡマイクの録音から６ＤｏＦ再生を可能にする。単一の空間位置からの録音は、３ＤｏＦ再生または音響ズームに使用されている。しかし、発明者らの知る限り、このようなデータからインタラクティブで完全な６ＤｏＦを再生する方法はこれまで提案されていない。録音中の音源の距離に関する情報を統合することにより、６ＤｏＦ再生を実現する。この距離情報は、変更されたリスナーの視点が正しくマッピングされるように、ＤｉｒＡＣのパラメータ表現に組み込まれる。

アンビソニックスの音場表現（通常のＦＯＡまたはＨＯＡアンビソニックスとして、またはＤｉｒＡＣスタイルのパラメトリック音場表現として）はいずれも、６ＤｏＦ用途に必要なリスナーの位置の並進シフトを可能にする十分な情報を提供しないが、それはこれらのフォーマットでは、オブジェクトの距離も音響シーン内のオブジェクトの絶対位置も決定されないためである。リスナーの位置のシフトは、反対方向の音響シーンの同等のシフトに変換できることに留意されたい。

６ＤｏＦで移動する場合の典型的な問題を図１ｂに示す。音響シーンがアンビソニックスを使用して位置Ａで記述されていると仮定する。この場合、音源Ａと音源Ｂからの音は同じ方向から到着する。すなわち、同じ方向の到来方向（ＤＯＡ）を有する。位置Ｂに移動した場合、音源Ａと音源ＢのＤＯＡは異なる。音場の標準的なアンビソニックス記述を使用して、すなわち、追加情報なしでは、位置Ａのアンビソニックス信号が与えられると、位置Ｂのアンビソニックス信号を計算することはできない。

ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ－Ｐｅｒｃｅｐｔｉｏｎ－ＢａｓｅｄＲｅｐｒｏｄｕｃｔｉｏｎｏｆＳｐａｔｉａｌＳｏｕｎｄ、Ｖ．Ｐｕｌｋｋｉｅｔａｌ、ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎｔｈｅＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｎＳｐａｔｉａｌＨｅａｒｉｎｇ，Ｎｏｖｅｍｂｅｒ１１－１３，２００９，Ｚａｏ，Ｍｉｙａｇｉ，Ｊａｐａｎ

本発明の目的は、改善された、または柔軟な、または効率的な処理を可能にし、一方で拡張音場記述または他方で修正音場記述の生成を提供することである。

この目的は、請求項１の拡張音場記述を生成する装置、請求項８の修正音場記述を生成する装置、請求項４６の拡張音場記述を生成する方法、請求項４７の修正音場記述を生成する方法、請求項４８のコンピュータプログラム、または請求項４９の拡張音場記述によって達成される。

本発明は、基準位置に関連する典型的な音場記述には、これらの音場記述を処理することができる追加情報が必要であるという知見に基づくものであり、そのようにすれば、元の基準位置になく、別の基準位置に関連しない修正音場記述を算出することができる。この目的のために、この音場の空間情報に関連するメタデータが生成され、メタデータは音場記述と共に、例えば送信または保存できる拡張音場記述に対応する。音場記述およびメタデータ、具体的には音場記述の空間情報に関連するメタデータから、修正音場記述を生成するために、空間情報、音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して、修正音場が計算される。したがって、音場記述と、音場記述の基礎となるこの音場の空間情報に関連するメタデータで構成される拡張音場記述が処理されて、修正音場記述が取得され、修正音場記述は、例えばデコーダ側で提供または使用できる追加の並進情報によって定義される別の基準位置に関連している。

しかし、本発明は、エンコーダ／デコーダのシナリオに関連するだけでなく、拡張音場記述の生成と修正音場記述の生成の両方が基本的に１つの同じ場所で行われるアプリケーションにも適用することができる。修正音場記述は、例えば、修正音場自体の記述、または実際にはチャネル信号、バイノーラル信号の修正音場、または再び関連する基準位置関連の音場、しかし、元の基準位置ではなく新しいまたは異なる基準位置に関連する基準位置に関連する音場であってもよい。このようなアプリケーションは、例えば、メタデータと一緒に音場記述が存在し、リスナーが、音場が与えられた基準位置から出て別の基準位置に移動する仮想現実のシナリオであって、そこでは、仮想エリア内を動き回るリスナーの音場は、現在ユーザが移動した別の基準位置での音場に対応するように計算される。

特定の実施形態では、拡張音場記述は、（第１の）基準位置に関連する第１の音場記述と、（第１の）基準位置とは異なるさらなる（第２の）基準位置に関連する第２の音場記述と、を有し、メタデータは、所定の原点からこれらの基準位置を指すベクトルなどの、基準位置およびさらなる基準位置に関する情報を有する。あるいは、メタデータは、基準位置またはさらなる基準位置のいずれかを指す単一のベクトル、ならびに２つの異なる音場記述が関連する２つの基準位置の間に延在するベクトルであってもよい。

音場記述は、１次アンビソニックス記述または高次アンビソニックス記述などの、非パラメトリック音場記述であってもよい。代わりにまたはさらに、音場記述は、ＤｉｒＡＣ記述または他のパラメトリック音場記述であってもよく、あるいは１つの音場記述が、例えば、パラメトリック音場記述であってもよく、他の音場記述が、例えば、非パラメトリック音場記述であってもよい。

したがって、音場記述は、音場記述ごとに、１つまたは複数のダウンミックス信号および個別方向データ、ならびに任意選択で異なる時間－周波数ビンに対する拡散度データを有する音場のＤｉｒＡＣ記述を生成することができる。このコンテキストでは、メタデータ生成器は、両方の音場記述の幾何学的メタデータを生成するように構成されているため、基準位置と追加の基準位置をメタデータから特定することができる。次に、音場記述の両方から個々の音源を抽出し、拡張または修正音場記述を生成するために追加の処理を実行することができる。

アンビソニックスは、仮想現実、拡張現実、複合現実アプリケーションのコンテキストで、３Ｄオーディオで最も一般的に使用されるフォーマットの１つになった。アンビソニックスフォーマットの出力信号を生成する、様々なオーディオ取得および制作ツールが開発されている。双方向の仮想現実（ＶＲ）アプリケーションでアンビソニックス符号化されたコンテンツを表示するために、アンビソニックスフォーマットは再生用のバイノーラル信号またはチャネルに変換される。前述のアプリケーションでは、リスナーは通常、提示されたシーンにおける自分の向きを対話形式で変更することができ、音響シーンで頭を回転させて３自由度（３ＤｏＦ、すなわち、ピッチ、ヨー、およびロール）を可能にして、適切な音質を経験することができる。これは、頭の向きに従ってレンダリングする前に音響シーンを回転させることで実現され、これは、計算の複雑さを低く抑えて実施することができ、アンビソニックス表現の利点である。しかし、ＶＲなどの新しいアプリケーションでは、方向の変化（いわゆる「６自由度」または６ＤｏＦ）だけでなく、ユーザが音響シーンで自由に移動できるようにすることが望まれる。結果として、音響シーンの遠近感を変更する（すなわち、ｘ、ｙ、またはｚ軸に沿って音響シーン内を仮想的に移動する）ために信号処理が必要である。しかし、アンビソニックスの主な欠点は、手順が音響シーンの単一の視点から音場を記述することである。具体的には、６ＤｏＦで必要とされるような音響シーンをシフト（「並進」）できる音響シーン内の音源の実際の場所に関する情報は含まれていない。本発明の説明は、アンビソニックスのいくつかの拡張を提供して、この問題を克服し、並進も容易にし、したがって真の６ＤｏＦを可能にする。

一次アンビソニックス（ＦＯＡ）録音は、ヘッドフォンで処理および再生できる。それらは、リスナーの頭の向きに合わせて回転させることができる。しかし、仮想現実（ＶＲ）システムでは、リスナーは６自由度（６ＤｏＦ）、すなわち３つの回転自由度と３つの遷移自由度で移動できる。ここで、音源の見かけの角度と距離は、リスナーの位置に依存する。６ＤｏＦを容易にする手法について説明する。特に、ＦＯＡ録音は、リスナーの位置と音源までの距離に関する情報に基づいて修正されるパラメトリックモデルを使用して記述される。この方法は、リスニングテストによって評価され、リスナーが自由に移動できる合成音響シーンの異なるバイノーラルレンダリングを比較する。

さらに好ましい実施形態では、拡張音場記述は、送信または保存のための出力信号を生成するための出力インターフェースによって出力され、出力信号は、時間フレームについて、時間フレームの音場および空間情報から導出された１つまたは複数のオーディオ信号を含む。特に、音場生成器は、さらなる実施形態では、音場から方向データを導出するように適応可能であり、方向データは、ある期間または周波数ビンの音の到来方向を指し、メタデータ生成器は、距離情報を方向データに関連付けるデータ項目として空間情報を導出するように構成される。

特に、このような実施形態では、出力インターフェースは、時間フレームのデータ項目が異なる周波数ビンの方向データにリンクされるように出力信号を生成するように構成される。

さらなる実施形態では、音場生成器はまた、音場の時間フレームの複数の周波数ビンについて拡散度情報を生成するように構成され、メタデータ生成器は、拡散度の値が所定のしきい値または適応しきい値よりも低い場合に、所定の値と異なる、または無限と異なる周波数ビンの距離情報のみを生成するか、または周波数ビンの距離値をとにかく生成するように構成される。したがって、拡散度の高い時間／周波数ビンの場合、距離値がまったく生成されないか、またはデコーダによって特定の方法で解釈される所定の距離値が生成される。したがって、高い拡散度を有する時間／周波数ビンについては、距離に関連するレンダリングは実行されないことが確認されるが、それは、高い拡散度は、そのような時間／周波数ビンに対して、音が特定の局在化した音源から来るのではなく、任意の方向から来るからであり、したがって、音場が元の基準位置で知覚されるか、異なるまたは新しい基準位置で知覚されるかに関係なく同じであるからである。

音場計算器に関して、好ましい実施形態は、並進情報または修正音場に対する意図されたリスナーの回転を示す回転情報を提供するための変換インターフェースと、メタデータを音場計算器に提供するためのメタデータサプライヤと、音場記述を音場計算器に提供するための音場サプライヤと、さらに、修正音場記述および修正メタデータを含む修正音場を出力するための出力インターフェースと、を含み、修正メタデータは、並進情報を使用してメタデータから導出され、または、出力インターフェースは複数のスピーカチャネルを出力し、各スピーカチャネルは、所定のスピーカ位置に関連付けられ、または、出力インターフェースは、修正音場のバイノーラル表現を出力する。

一実施形態では、音場記述は複数の音場成分を含む。複数の音場成分は、全方向性成分と少なくとも１つの指向性成分を含む。そのような音場記述は、例えば、全方向性成分と３つの指向性成分Ｘ、Ｙ、Ｚを有する１次アンビソニックス音場記述であるか、または、そのような音場は、全方向成分、Ｘ、Ｙ、およびＺ方向に関する３つの方向成分と、さらに、Ｘ、Ｙ、Ｚ方向以外の他の方向に関連するさらなる方向性成分と、を含む高次アンビソニックス記述である。

一実施形態では、装置は、音場成分を解析して、異なる時間または周波数ビンについて、到来方向情報を導出するための解析器を含む。装置は、ＤｏＡ情報とメタデータを使用して、周波数または時間ビンごとに修正ＤｏＡ情報を計算するための並進変換器をさらに有し、メタデータは、例えば、２つの異なる基準位置と距離／位置または基準位置に対する２つの角度を使用した三角測量処理によって得られた両方の音場記述に含まれる音源までの距離を関連付ける深度マップに関連する。これは、フルバンド表現または時間フレームの異なる周波数ビンに適用され得る。

さらに、音場計算器は、時間／周波数ビンの各々または一部の異なる音源の各周波数または時間ビンについて同じであるメタデータを使用して計算された距離から、ならびに時間または周波数ビンに関連付けられた新しい距離から、修正ＤｏＡ情報に関連する新しい距離に依存する、距離補償情報を使用して修正音場を計算するための距離補償器を有する。

一実施形態では、音場計算器は、基準位置から音場の解析によって得られた音源を指す第１のベクトルを計算する。さらに、音場計算器は、異なる基準位置から音源を指す第２のベクトルを計算し、この計算は第１のベクトルと並進情報を使用して行われる。並進情報は、基準位置から異なる基準位置への並進ベクトルを定義する。そして、別の基準位置から音源までの距離が第２のベクトルを使用して計算される。

さらに、音場計算器は、並進情報に加えて、ピッチ、ヨー、およびロールによって与えられる３つの回転方向のうちの１つでのリスナーの頭の回転を示す回転情報を受け取るように構成される。次に、音場計算器は、回転情報を使用して回転変換を実行し、音場の修正された到来方向データを回転させるように構成され、修正された到来方向データは、音場記述の音解析および並進情報により得られた到来方向データから導出される。

一実施形態では、音場計算器は、音場記述から音源信号を決定し、音解析によって基準位置に関連する音源信号の方向を決定するように構成される。

次に、異なる基準位置に関連する音源の新しい方向が計算され、これはメタデータを使用して行われ、次に、異なる基準位置に関連する音源の距離情報が計算され、その後に、修正音場が距離情報と音源の新しい方向を使用して合成される。

一実施形態では、音場合成は、再生設定に関して新しい方向情報によって与えられる方向に音源信号をパンニングすることによって実行され、音源信号のスケーリングは、パンニングを実行する前またはパンニングを実行した後に距離情報を使用して行われる。

さらなる実施形態では、音源信号の拡散部分が音源信号の直接部分に追加され、直接部分は、拡散部分に追加される前に距離情報によって修正される。

特に、新しい方向情報が各周波数ビンに対して計算されるスペクトル表現で音源合成を実行することが好ましく、各周波数ビンについて距離情報が計算され、周波数ビンのオーディオ信号を使用した各周波数ビンの直接合成が、周波数ビンのオーディオ信号、新しい方向情報から導出された周波数ビンのパンニングゲイン、および周波数ビンの距離情報から導出された周波数ビンのスケーリング係数を使用して実行される。

さらに、周波数ビンからのオーディオ信号から導出された拡散オーディオ信号と、周波数ビンの信号解析から導出された拡散パラメータを使用して拡散合成が実行され、直接信号と拡散信号を組み合わせて時間または周波数ビンの合成オーディオ信号を取得し、次に他の時間／周波数ビンのオーディオ信号を使用して周波数－時間変換を実行して、時間領域の合成オーディオ信号を修正音場として取得する。

したがって、一般に、音場計算器は、例えば、音源ごとに、音源信号の新しい方向を使用して音源信号を処理することにより、異なる基準位置に関連する音場を音源ごとに合成し、異なる／新しい基準位置に関連する音源信号の音場記述を取得するように構成される。さらに、音源信号は、音源信号を処理する前、または方向情報を使用して音源信号を処理した後に修正される。そして最後に、音源の音場記述を一緒に追加して、異なる基準位置に関連する修正音場を取得する。

さらなる実施形態では、特に、音場記述および音場記述の空間情報に関連するメタデータから修正音場記述を生成するために、音場計算器は、第１の音場記述の空間情報を使用し、第２の音場記述の空間情報を使用し、および基準位置から異なる基準位置への並進を示す並進情報を使用して、修正音場を計算する。特に、メタデータは、例えば、音場記述の基準位置に向かうベクトル、および同じ原点から第２の音場記述のさらなる基準位置に向かう別のベクトルであってもよい。

並進情報に対処するために、音源分離、ビームフォーミング、または一般的に任意の種類の音源解析を第１および第２の音場記述に適用することにより、オブジェクトが生成される。次に、これらのオブジェクトがブロードバンドオブジェクトであるか、個々の時間／周波数ビンのオブジェクトであるかに関係なく、すべてのオブジェクトの到来方向情報が計算される。次に、少なくとも１つの一致したオブジェクト、すなわち第１および第２の音場記述の両方で発生するオブジェクトを見つけるために、異なる音場記述から抽出されたオブジェクトが互いにマッチングされる。このマッチングは、例えば、オブジェクト信号および／または到来方向情報または他の情報を使用する相関またはコヒーレンス計算によって実行される。

したがって、手順の結果、一致したオブジェクトについて、基準位置に関連する第１のＤｏＡ情報と、さらなる基準位置に関連する第２のＤｏＡ情報と、が存在する。次に、一致するオブジェクトの位置、特に一致するオブジェクトから基準位置またはさらなる基準位置までの距離は、基準位置または関連するメタデータに含まれる基準位置に関する情報を使用した三角測量に基づいて計算される。

次に、この情報、特に一致したオブジェクトの位置情報は、距離補償処理を使用して、推定位置と所望の位置に基づいて、すなわち並進後に一致した各オブジェクトを修正するために使用される。新しいリスナー位置の新しいＤｏＡ情報を計算するために、基準位置と並進情報の両方からの古いＤｏＡ情報が使用される。基本的に、この処理は、一致した各オブジェクトが両方の音場記述で発生するため、両方の個々の音場記述に対して実行できる。しかし、好ましい実施形態によれば、並進後の新しいリスナー位置に最も近い基準位置を有する音場記述が使用される。

次に、新しいＤｏＡは、異なる基準位置、すなわちユーザが移動した一致したオブジェクトの新しい音場記述を計算するために使用される。次に、不一致オブジェクトも組み込むために、それらのオブジェクトの音場記述も計算されるが、古いＤｏＡ情報が使用される。そして最後に、修正音場が、個々の音場記述をすべて追加することによって生成される。

仮想アンビソニックス信号に単一の回転を適用することにより、向きの変化を実現することができる。

したがって、オブジェクトから基準位置までの距離を直接提供するために、メタデータは使用されない。代わりに、２つ以上の音場記述のそれぞれの基準位置を識別するためのメタデータが提供され、基準位置と特定の一致したオブジェクトとの間の距離が、例えば三角測量処理ステップに基づいて計算される。

本発明の好ましい実施形態は、添付の図面に関して以下で説明される。

拡張音場記述を生成する装置の好ましい実施形態を示す図である。本発明の基礎にある例示的な問題を説明する図である。拡張音場記述を生成するための装置の好ましい実施態様を示す図である。オーディオデータ、およびオーディオデータのサイド情報を含む拡張音場記述を示す図である。各音場記述の幾何学的情報などの空間情報に関連するオーディオデータおよびメタデータを含む拡張音場を示すさらなる図である。修正音場記述を生成するための装置の実施態様を示す図である。修正音場記述を生成するための装置のさらなる実施態様を示す図である。基準位置／場所Ａ、さらなる基準位置／場所Ｂ、および並進による異なる基準位置を有するシナリオを示す図である。一般的な意味での空間オーディオの６ＤｏＦ再生を示す図である。音場計算器の実施態様の好ましい実施形態を示す図である。新しい／異なる基準位置に対する音源の新しいＤｏＡおよび新しい距離を計算するための好ましい実施態様を示す図である。例えば、個々の音場記述ごとに拡張音場記述を生成するための装置と、一致した音源の修正音場記述を生成するための装置と、を含む６ＤｏＦ再生の好ましい実施形態を示す図である。ブロードバンドオブジェクトまたはナローバンドオブジェクトの修正音場の計算のために、第１および第２の音場記述のうちの１つを選択するための好ましい実施形態を示す図である。モノラル信号および到来方向データなどのオーディオ信号から音場記述を生成するための例示的なデバイスを示す図である。音場計算器のさらに好ましい実施形態を示す図である。修正音場記述を生成するための装置の好ましい実施態様を示す図である。修正音場記述を生成するための装置のさらに好ましい実施態様を示す図である。従来技術のＤｉｒＡＣ解析の実施態様を示す図である。従来技術のＤｉｒＡＣ合成の実施態様を示す図である。

前述のアンビソニックス／ＤｉｒＡＣ表現に対して６ＤｏＦアプリケーションを有効にするには、変換処理に不足している情報を提供する方法でこれらの表現を拡張する必要がある。この拡張は、例えば、１）オブジェクトの距離または位置を既存のシーン表現に追加すること、および／または２）個々のオブジェクトを分離するプロセスを容易にする情報を追加すること、ができることに留意されたい。

さらに、既存の（ノンパラメトリックまたはパラメトリック）アンビソニックスシステムの構造を保存／再利用して、
・拡張された表現は、既存の拡張されていない表現（例えば、レンダリング用）に変換することができ、
・拡張表現を使用する場合、既存のソフトウェアとハードウェアの実施態様を再利用することができるという意味で、これらの表現／システムとの下位互換性を提供することが実施形態の目的である。

以下では、いくつかのアプローチ、すなわち、１つの限定された（しかし非常に単純な）アプローチと、６ＤｏＦを有効にする３つの異なる拡張アンビソニックスフォーマットについて説明する。

音響シーンは、それぞれ異なる位置、すなわち異なる視点からの音響シーンを表す２つ以上のアンビソニックス信号を使用して記述される。相対位置は既知であると仮定されている。入力されたアンビソニックス信号から、音響シーンの所望の位置にある修正アンビソニックス信号が生成される。信号ベースまたはパラメトリックベースの手法を使用して、所望の位置で仮想アンビソニックス信号を生成できる。

マルチポイントアンビソニックス表現の概念は、従来のアンビソニックスとパラメトリック（ＤｉｒＡＣスタイル）アンビソニックスの両方に適用できる。

信号ベースの並進の実施形態では、次の手順を使用して、所望の位置（すなわち、並進後）の仮想アンビソニックス信号が計算される。

１．オブジェクトは、従来の各アンビソニックス信号に音源分離を適用することにより生成される。

２．すべてのオブジェクトのＤＯＡは、従来の各アンビソニックス信号に対して計算される。

３．１つの従来のアンビソニックス信号から抽出されたオブジェクトは、他の従来のアンビソニックス信号から抽出されたオブジェクトと一致される。マッチングは、対応するＤＯＡおよび／または信号に基づいて実行される（例えば、相関／コヒーレンスによって）。

４．一致したオブジェクトの位置は、三角測量に基づいて推定される。

５．距離補償フィルタを使用して、推定位置と所望位置（すなわち、並進後）に基づいて、一致した各オブジェクト（単一チャネル入力）が修正される。

６．一致したオブジェクトごとに、所望の位置（すなわち、並進後）のＤＯＡが計算される。このＤＯＡはＤＯＡ’で表される。

７．一致したオブジェクトごとにアンビソニックスオブジェクト信号が計算される。アンビソニックスオブジェクト信号は、一致したオブジェクトが到来方向ＤＯＡ’を有するように生成される。

８．アンビソニックスオブジェクト信号は、不一致オブジェクトごとに計算される。アンビソニックスオブジェクト信号は、不一致オブジェクトが到来方向ＤＯＡを有するように生成される。

９．仮想アンビソニックス信号は、すべてのアンビソニックスオブジェクト信号を加算することにより得られる。

さらなる実施形態によるパラメトリックベースの変換実施形態では、以下のステップを使用して、所望の位置での（すなわち、並進後の）仮想アンビソニックス信号が計算される。

１．音場モデルが仮定される。音場は、１つまたは複数の直接音成分と拡散音成分に分解できる。直接音成分は、信号と位置情報（例えば、極座標またはデカルト座標など）で構成される。あるいは、音場を１つまたは複数の直接／主音成分と残留音成分（単一チャネルまたはマルチチャネル）に分解できる。

２．仮定された音場モデルの信号成分とパラメータは、入力アンビソニックス信号を使用して推定される。

３．信号成分および／またはパラメータは、音響シーンの所望の並進または所望の位置に応じて修正される。

４．修正信号成分と修正パラメータを使用して、仮想アンビソニックス信号が生成される。

マルチポイントアンビソニックス信号の生成は、コンピュータで生成および作成されたコンテンツの他、マイクアレイまたは空間マイク（Ｂフォーマットのマイクなど）を介した自然な録音のコンテキストでも簡単である。この実施形態では、ステップ２の後に音源マッチングを実行するか、ステップ３の前に三角測量計算を実行することが好ましい。さらに、両方の実施形態の１つまたは複数のステップは、対応する他の実施形態でも使用することができる。

向きの変化は、仮想アンビソニックス信号に単一の回転を適用することで実現することができる。

図１ａは、少なくとも１つの基準位置に関する音場を示す少なくとも１つの音場記述を生成するための音場（記述）生成器１００を含む、拡張音場記述を生成するための装置を示す。さらに、装置は、音場の空間情報に関するメタデータを生成するためのメタデータ生成器１１０を含む。メタデータは、入力として、音場を受け取るか、その代わりにまたはさらに、音源に関する個別の情報を受け取る。

音場記述生成器１００およびメタデータ生成器１１０の両方の出力は、拡張音場記述を構成する。一実施形態では、音場記述生成器１００およびメタデータ生成器１１０の両方の出力をコンバイナ１２０または出力インターフェース１２０内で結合して、空間メタデータまたはメタデータ生成器１１０によって生成された音場の空間情報を含む拡張音場記述を得ることができる。

図１ｂは、本発明によって対処される状況を示している。例えば、位置Ａは少なくとも１つの基準位置であり、音源Ａと音源Ｂによって音場が生成され、位置Ａにある特定の実際のマイクまたは例えば仮想マイクが音源Ａおよび音源Ｂからの音を検出する。音は、放出音源から来る音の重ね合わせである。これは、音場記述生成器によって生成された音場記述を表す。

さらに、メタデータ生成器は、特定の実施態様により、音源Ａに関する空間情報と、これらの音源から位置Ａなどの基準位置までの距離などの音源Ｂに関する別の空間情報と、を導出する。

当然、基準位置は代わりに位置Ｂであってもよい。次に、実際のマイクまたは仮想マイクを位置Ｂに配置し、音場記述は、例えば、１次アンビソニックス成分または高次アンビソニックス成分、または少なくとも１つの基準位置、つまり位置Ｂに関する音場を記述する可能性を有する他の任意の音響成分で表される音場である。

メタデータ生成器は、音源に関する情報として、音源Ａから位置Ｂまでの距離、または音源Ｂから位置Ｂまでの距離を生成してもよい。音源に関する代替情報は、もちろん、基準位置に対する絶対位置または相対位置であってもよい。基準位置は、一般的な座標系の原点にすることも、一般的な座標系の原点に対して定義された関係に配置することもできる。

他のメタデータには、１つの音源の絶対位置や、第１の音源に対する他の音源の相対位置などがある。

図２は、拡張音場記述を生成するための装置を示し、音場生成器は、第１の音場のための音場生成器２５０、第２の音場のための音場生成器２６０、ならびに第３、第４の音場など、１つまたは複数の音場のための任意の数の音場生成器を含む。さらに、メタデータは、第１の音場および第２の音場に関する情報を計算してコンバイナ１２０に転送するように構成される。このすべての情報は、拡張音場記述を生成するためにコンバイナ１２０によって使用される。したがって、コンバイナ１２０はまた、拡張音場記述を生成する出力インターフェースとして構成される。

図３ａは、第１の音場記述３３０、第２の音場記述３４０、およびそれらに関連する第１の音場記述および第２の音場記述に関する情報を含むメタデータ３５０を含むデータストリームとして拡張音場記述を示す。第１の音場記述は、例えば、Ｂフォーマットの記述、高次の記述、またはフルバンド表現または周波数選択表現のいずれかで音源の方向分布を決定できる他の任意の記述であってもよい。したがって、第１の音場記述３３０および第２の音場記述３４０は、例えば、ダウンミックス信号および異なる時間／周波数ビンの到来方向データを有する異なる基準位置のパラメトリック音場記述であってもよい。

それにもかかわらず、第１および第２の音場記述の幾何学的情報３５０は、第１の音場記述３３０に含まれるすべての音源、または第２の音場記述３４０の音源に対してそれぞれ同じである。したがって、例示的に、第１の音場記述３３０に３つの音源が存在し、第１の音場記述に関する幾何学的情報が存在する場合、この幾何学的情報は第１の音場記述の３つの音源に対して同じである。同様に、例えば、第２の音場記述に５つの音源が存在する場合、メタデータ３５０に含まれる第２の音場の幾何学的情報は、第２の音場記述のすべての音源に対して同じである。

図３ｂは、図３ａのメタデータ３５０の例示的な構成を示している。一実施形態では、基準位置３５１をメタデータに含めることができる。しかし、これは必ずしも基準位置情報３５１が省略され得るというわけではない。

第１の音場について、例えば、原点から第１の音場が関連する基準位置／場所Ａを指す図４ｃに示すベクトルＡに関する情報であり得る第１の幾何学的情報が与えられる。

第２の幾何学的情報は、例えば、原点から第２の音場記述が関連する第２の基準位置／場所Ｂを指すベクトルＢに関する情報であり得る。

ＡとＢは、両方の音場記述の基準位置または録音位置である。

代替的な幾何学的情報は、例えば、基準位置Ａとさらなる基準位置Ｂおよび／または原点と、原点から両方の点の一方を指すベクトルとの間に延在するベクトルＤに関する情報であり得る。したがって、メタデータに含まれる幾何学的情報は、ベクトルＡおよびベクトルＤを含むか、ベクトルＢおよびベクトルＤを含むか、ベクトルＤを含まずにベクトルＡおよびベクトルＢを含むか、または、他の情報を含むことができ、そこから特定の３次元座標系で基準位置Ａと基準位置Ｂを特定することができる。しかし、２次元の場合のみを示す図４ｃに特に示すように、２次元の音の説明にも同じ考慮事項が追加で適用される。

図４ａは、音場記述および音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置の好ましい実施態様を示している。特に、装置は、メタデータ、音場記述、および基準位置から異なる基準位置への並進を示す並進情報を使用して修正音場を生成する音場計算器４２０を含む。

一実施形態では、音場計算器４２０は、例えば図１ａまたは２に関して説明したように拡張音場記述を受信するための入力インターフェース４００に接続され、入力インターフェース４００は、一方で、音場記述、すなわち、図１ａのブロック１００または図２のブロック２１０によって生成されたものを分離する。さらに、入力インターフェース４００は、拡張音場記述、すなわち図３ａの項目３５０または図３ｂのオプション３５１および３５２～３５４からメタデータを分離する。

さらに、変換インターフェース４１０は、並進情報および／または追加のまたは別個の回転情報をリスナーから取得する。変換インターフェース４１０の実施態様は、仮想現実環境における頭部の回転を追跡するだけでなく、ある位置、すなわち図１ｂの位置Ａから別の位置、すなわち図１ｂの位置Ｂへの頭部の並進も追跡する頭部追跡ユニットであってもよい。

図４ｂは、図１ａと同様の別の実施態様を示しているが、エンコーダ／デコーダのシナリオには関係していないが、メタデータサプライヤ４０２によって示されるメタデータの供給が行われる一般的なシナリオに関係しており、音場サプライヤ４０４によって示される音場供給は、符号化または拡張音場記述を分離する特定の入力インターフェースなしで行われるが、例えば、仮想現実アプリケーションなどに存在する実際のシナリオですべて行われる。しかしながら、本発明は、仮想現実アプリケーションに限定されず、第１の基準位置に関連する音場を、異なる第２の基準位置に関連する別の音場に変換するために、基準位置に関連する音場の空間オーディオ処理が有用である他の任意のアプリケーションで実施することもできる。

次に、音場計算器４２０は、修正音場記述を生成するか、あるいは（仮想）スピーカ表現を生成するか、ヘッドフォン再生用の２チャネル表現などのバイノーラル表現を生成する。したがって、音場計算器４２０は、修正音場として、元の音場記述と基本的に同じであるが、今は新しい基準位置に関する修正音場記述を生成することができる。代替的な実施形態では、仮想または実際のスピーカ表現は、５．１方式などの所定のスピーカ設定、またはより多くのスピーカを含み、特に２次元配置だけでなく３次元配置のスピーカ配置、すなわち、スピーカがユーザの位置に対して高くなっているスピーカ配置を備えたスピーカ設定に対して生成することができる。仮想現実アプリケーションに特に役立つ他のアプリケーションは、バイノーラル再生用、すなわち、仮想現実のユーザの頭部に適用できるヘッドフォン用のアプリケーションである。

例示的に、後で説明する図６は、ＤｉｒＡＣシンセサイザは、全方向性または圧力成分などのダウンミックス成分でのみ動作するが、図１２ｂに示したさらに別の実施形態では、ＤｉｒＡＣシンセサイザは、音場データ全体、すなわち、図１２ｂのこの実施形態では、全方向成分ｗおよび３つの方向成分ｘ、ｙ、ｚを有するフィールド記述を有する完全な成分表現で動作するという状況を示している。

図４ｃは、本発明の好ましい実施形態の基礎となるシナリオを示している。この図は、第１の基準位置／場所Ａ、第２の基準位置／場所Ｂ、２つの異なる音源ＡおよびＢ、および並進ベクトルｌを示している。

音源ＡとＢの両方が、基準位置Ａに関連する音場記述と、基準位置Ｂに関連する第２の音場記述と、に含まれている。

音源Ａの距離、例えば第１の基準位置または第２の基準位置までを計算するために、ＡとＢに関連する異なる音場記述の両方に音源分離手順が適用され、次に、これらの異なる音分離手順によって得られた音源のマッチングが得られる。これにより、例えば音源Ａが得られる。音源Ａは、第１の音場記述とさらに第２の音場記述の音源分離アルゴリズムで見いだされる。音源Ａの到来方向情報は、基準位置Ａに関連する第１の音場記述から取得される場合、角度αになる。さらに、同じ音源Ａの到来方向情報は、別の基準位置Ｂに関連する第２の音場記述から取得され、角度βになる。

ここで、例えば、音場記述のメタデータから取得または計算可能な既知のまたは計算可能な距離Ｄに基づいて、かつ２つの角度αおよびβに基づいて、音源Ａ、基準位置Ａおよび基準位置Ｂによって定義される三角形が完全に定義される。したがって、例えば、音源Ａから基準位置Ａまでの距離、または音源Ａから基準位置Ｂまでの距離、または音源Ａの一般的な位置、すなわち、原点から音源Ａの実際の位置を指すベクトルを、例えば三角測量処理操作によって計算することができる。位置または距離は両方とも、距離または位置に関する情報を表す。

次に、一致した各音源、すなわち音源Ｂに対しても同じ手順を実行することができる。

したがって、一致した各音源の距離／位置情報が計算され、その後に、一致した各音源は、距離／位置が完全に既知であるか、例えば追加のメタデータによって与えられるかのように処理することができる。しかし、個々の音源の距離／深度情報の代わりに、第１の音場記述と第２の音場記述の幾何学的情報のみが必要である。

図８は、ＤｉｒＡＣシンセサイザとは異なる合成を実行するための別の実施態様を示している。例えば、音場解析器が、各音源信号に対して、個別のモノラル信号Ｓと元の到来方向を生成する場合、および、並進情報に応じて、新しい到来方向が計算される場合、例えば図８のアンビソニックス信号生成器４３０を使用して、音源信号の音場記述、すなわち、モノラル信号Ｓであるが、水平角θまたは仰角θと方位角φからなる新しい到来方向（ＤｏＡ）データを生成する。次に、図４ｂの音場計算器４２０によって実行される手順は、例えば、新しい到来方向を有する各音源について一次アンビソニックス音場表現を生成し、次に、音場から新しい基準位置までの距離に応じてスケーリング係数を使用して、音源ごとにさらに修正を行い、次に、個々の音源からのすべての音場を互いに重ね合わせて、最終的に、再度、例えば、特定の新しい基準位置に関連するアンビソニックスの表現で修正音場を取得することができる。

図６のＤｉｒＡＣ解析器４２２、４２２ａ、４２２ｂによって処理された各時間／周波数ビンが特定の（バンド幅が制限された）音源を表すと解釈すると、ＤｉｒＡＣシンセサイザ４２５、４２５ａ、４２５ｂの代わりに、アンビソニックス信号生成器４３０を使用して、各時間／周波数ビンに対して、ダウンミックス信号または圧力信号、またはこの時間／周波数ビンの全方向成分を図８の「モノラル信号Ｓ」として使用する完全なアンビソニックス表現を生成することができる。次に、Ｗ、Ｘ、Ｙ、Ｚ成分のそれぞれに対する周波数－時間変換器での個々の周波数時間変換により、図４ｃに示されているものとは異なる音場記述が得られる。

シーンは、マイクの視点（ＰｏＶ）から録音され、この位置は基準座標系の原点として使用される。シーンはリスナーのＰｏＶから再現する必要があり、リスナーは６ＤｏＦで追跡される（図５を参照）。ここでは、説明のために単一の音源が示されているが、この関係は、時間－周波数ビンごとに保持される。

図５は、空間オーディオの６ＤｏＦ再生を示している。音源は、マイクの位置と方向（黒い線と円弧）に対する距離ｄ_ｒのＤｏＡｒ_ｒでマイクによって録音される。これは、ＤｏＡｒ_ｌと距離ｄ_ｌ（破線）を使用して、移動するリスナーに対して相対的に再生する必要がある。これは、リスナーの並進ｌと回転ｏ（点線）を考慮する必要がある。ＤＯＡは、音源を指す単位長を有するベクトルとして表される。

座標ｄ_ｒ∈Ｒ^３の音源は、単位ベクトル

で表される到来方向（ＤｏＡ）から録音される。このＤｏＡは、録音の解析から推定できる。それは距離

から来ている。この情報は、各音源のメタデータ、または一般的に図３ｂの項目３５２、３５３、３５４から取得でき、例えば２つの異なる基準位置と距離／位置または基準位置に対する２つの角度を使用して三角測量処理により得られる、録音位置から距離（例えばメートル単位で与えられる）までの任意の方向ｒを有する距離記述として表すことができると仮定される。

リスナーは６ＤｏＦで追跡される。ある時点で、リスナーはマイクに対してｌ∈Ｒ^３の位置にあり、マイクの座標系に対してｏ∈Ｒ^３の回転を有する。録音位置は、表記を簡素化するために座標系の原点として選択される。

したがって、音は異なる距離ｄ_１で再生する必要があり、変化したボリュームと、並進とその後の回転の両方の結果である異なるＤｏＡｒ_１をもたらす。

次のセクションで説明するように、パラメトリック表現に基づいた専用の変換によってリスナーの観点から仮想信号を取得する方法の概要を説明する。

提案された方法は、パラメトリック空間音響符号化の基本的なＤｉｒＡＣ手法に基づいている［１６］。解析されたスペクトルの時間－周波数インスタンスごとに１つの支配的な直接音源があり、これらは独立して処理できると仮定される。録音は、短時間フーリエ変換（ＳＴＦＴ）を使用して時間－周波数表現に変換される。時間フレームインデックスはｎで、周波数インデックスはｋで示される。次に、変換された録音が解析され、複素スペクトルＰ（ｋ、ｎ）の各時間－周波数ビンの方向ｒ_ｒ（ｋ、ｎ）および拡散度ψ（ｋ、ｎ）が推定される。合成では、信号は直接部分と拡散部分とに分割される。ここでは、スピーカの位置に応じて直接部分をパンニングし、拡散部分を追加することにより、スピーカ信号が計算される。

６ＤｏＦのリスナーの観点に従ってＦＯＡ信号を変換する方法は、５つのステップに分割できる（図６ｃを参照）。

図６ｃは、６ＤｏＦ再生の方法を示している。Ｂフォーマットで記録されたＦＯＡ信号は、複素スペクトルの各時間－周波数ビンの方向と拡散度の値を計算するＤｉｒＡＣエンコーダによって処理される。次に、方向ベクトルは、リスナーの追跡された位置によって、例えば三角測量の計算により導出された各音源の距離マップで指定された距離情報に従って変換される。結果として得られる方向ベクトルは、頭部の回転に応じて回転する。最後に、８＋４の仮想スピーカチャネルの信号がＤｉｒＡＣデコーダで合成される。次に、これらはバイノーラル化される。

実施形態では、入力信号はＤｉｒＡＣエンコーダ４２２で解析され、距離情報は各（一致した）音源の距離を与える距離マップｍ（ｒ）から追加され、次に、リスナーが並進と回転を追跡したものが新規変換４２３、４２４に適用される。ＤｉｒＡＣデコーダ４２５は、８＋４の仮想スピーカ用の信号を合成し、これらのスピーカは、ヘッドフォン再生用にバイノーラル化４２７される。並進後の音響シーンの回転は独立した操作であるため、代替的にバイノーラルレンダラに適用することもできることに留意されたい。６ＤｏＦ用に変換される唯一のパラメータは方向ベクトルである。モデル定義では、拡散部分は等方性で均質であると仮定され、したがって変更されない。

ＤｉｒＡＣエンコーダへの入力は、Ｂフォーマット表現のＦＯＡ音響信号である。これは４つのチャネル、すなわち全方向音圧と３つの１次空間勾配で構成され、特定の仮定の下では粒子速度に比例する。この信号はパラメトリックな方法で符号化される（［１８］を参照）。パラメータは、変換された全方向性信号である複素音圧Ｐ（ｋ、ｎ）および複素粒子速度ベクトルＵ（ｋ，ｎ）＝［Ｕ_Ｘ（ｋ，ｎ），Ｕ_Ｙ（ｋ，ｎ），Ｕ_Ｚ（ｋ，ｎ）］^Ｔは、変換された勾配信号に対応する。

ＤｉｒＡＣ表現は、各時間－周波数ビンでの音波の信号Ｐ（ｋ、ｎ）、拡散度ψ（ｋ、ｎ）、および方向ｒ（ｋ、ｎ）で構成される。後者を導出するには、まず、アクティブな音響強度ベクトルＩ_ａ（ｋ、ｎ）を、圧力ベクトルと速度ベクトル［１８］の複素共役（（・）＊で示す）の積の実部（Ｒｅ（・）で示す）として計算する。

（１）
拡散度は、このベクトル［１８］の変動係数から推定される。

（２）

は、移動平均として実施される、時間フレームに沿った期待演算子を示す。
基準位置までの各（一致した）音源の距離を有する方向ベースの距離マップを使用して音響を操作することを目的としているため、任意選択の実施形態では方向推定の分散は低くなければならない。通常、フレームは短いので、これは必ずしもそうではない。したがって、移動平均を適用して、平滑化された方向推定値

（ｋ、ｎ）を取得する。信号の直接部分のＤｏＡは、一実施形態では、反対方向の単位長さベクトルとして計算される。

（３）
方向は各時間－周波数ビンの単位長さの３次元ベクトルとして符号化されるため、距離情報を統合するのは簡単である。方向ベクトルは、ベクトルの長さが対応する音源ｄｒ（ｋ、ｎ）の距離を表すように、対応するマップエントリと乗算されるｄ_ｒ（ｋ，ｎ）：

＝

（ｋ，ｎ）

（４）
ここで、ｄ_ｒ（ｋ、ｎ）は、マイクの録音位置から、時間ｎおよび周波数ビンｋでアクティブな音源を指すベクトルである。

リスナーの位置は、現在の処理フレームの追跡システムによってｌ（ｎ）として指定される。音源位置のベクトル表現を使用すると、追跡位置ベクトルｌ（ｎ）を減算して、長さ

の新しい変換方向ベクトルｄ_１（ｋ、ｎ）を生成できる（図６ｂを参照）。リスナーのＰｏＶから音源までの距離が導出され、ＤｏＡは単一のステップで適応される。

（５）
リアルな再現の重要な側面は、距離の減衰である。減衰は、音源とリスナーとの間の距離の関数であると仮定される［１９］。方向ベクトルの長さは、再生のために減衰または増幅を符号化することである。録音位置までの距離は、距離マップに従ってｄ_ｒ（ｋ、ｎ）で符号化され、再生される距離はｄ_１（ｋ、ｎ）で符号化される。ベクトルを単位長に正規化し、古い距離と新しい距離の比率とを乗算すると、ｄ_１（ｋ、ｎ）を元のベクトルの長さで除算することによって必要な長さが与えられることが分かる。

（６）
リスナーの向きの変更は、次の手順で適用される。トラッキングによって与えられる方向は、原点としての録音位置を基準としたピッチ、ヨー、およびロール

^Ｔで構成されるベクトルとして記述できる。音源方向は、リスナーの方向に従って回転され、これは、２Ｄ回転行列を使用して実施される。

（７）
結果として得られるリスナーのＤｏＡは、単位長に正規化されたベクトルによって与えられる。

（８）
変換された方向ベクトル、拡散度、および複雑なスペクトルを使用して、均一に分散された８＋４仮想スピーカ設定用の信号を合成する。８つの仮想スピーカは、リスナー平面上で４５°の方位角のステップ（仰角０°）で配置され、４つの仮想スピーカは、４５°の仰角で９０°のクロスフォーメーションで配置される。合成は、スピーカチャネル

ごとに直接部分および拡散部分に分割され、

はスピーカの数［１６］である。

（９）
直接部分では、エッジフェージング振幅パンニング（ＥＦＡＰ）パンニングが適用され、仮想スピーカジオメトリ［２０］が与えられると、正しい方向から音が再生される。ＤｏＡベクトルｒ_ｐ（ｋ、ｎ）が与えられると、これは各仮想スピーカチャネルｉのパンニングゲインＧ_ｉ（ｒ）を提供する。各ＤｏＡの距離依存ゲインは、結果の方向ベクトルの長さｄ_ｐ（ｋ、ｎ）から導出される。チャネルｉの直接合成は次のようになる。

（１０）
ここで、指数γは、通常は約１に設定される調整係数である［１９］。γ＝０の場合、距離依存ゲインはオフになることに留意されたい。

圧力

は、ｉ非相関信号

を生成するために使用される。これらの非相関信号は、拡散成分として個々のスピーカチャネルに追加される。これは標準の方法［１６］に従う。

（１１）
各チャネルの拡散部分と直接部分が一緒に加算され、信号は逆ＳＴＦＴによって時間領域に変換される。これらのチャネル時間領域信号は、バイノーラル化された信号を作成するために、スピーカの位置に応じて左右の耳のＨＲＴＦと畳み込まれる。

図６ａは、例えば図４ｃまたは図５のベクトルｌに関して説明するように、空間情報、ならびに第１および第２の音場記述ならびに基準位置の異なる基準位置への変換を示す並進情報を使用して、修正音場を計算するためのさらなる好ましい実施形態を示す。

図６ａは、図４ｃの基準位置Ａに関係する第１の音場記述および図４ｃの基準位置Ｂに関係する第２の音場記述への音分離または一般に音響解析手順の適用を示すブロック７００を示す。

この手順により、１つまたは複数の抽出されたオブジェクトの第１のグループが得られ、さらに、１つまたは複数の抽出されたオブジェクトの第２のグループが得られる。

これらのグループは、ブロック７０２内で、すべての分離された音源、すなわち、抽出された音源の第１グループおよび１つもしくは複数の抽出された音源の第２グループの到来方向情報を計算するために使用される。

他の実施形態では、ステップ７００、７０２は、一方では音源に対する信号を、他方では音源に対するＤｏＡ情報を提供する単一の手順内で実施される。これは、ＤｉｒＡＣなどの時間／周波数選択手順などのパラメトリック手順にも当てはまり、音源信号は、時間／周波数ビンのＢフォーマット表現の信号、時間／周波数ビンの圧力信号または全方向性信号、およびこの特定のビンのＤｏＡパラメータとしてのＤｏＡ情報である。

次に、ステップ７０４において、第１のグループの音源と第２のグループの音源との間で音源マッチングが実行され、音源マッチングの結果は一致した音源である。

これらの一致した音源は、ブロック７１０に示すように、新しいＤｏＡと新しい距離を使用して、一致した各オブジェクトの音場を計算するために使用される。さらに、一致するオブジェクトの到来方向情報、すなわち音源Ａの図４ｃのαとβなどのオブジェクトごとに２つが、一致するオブジェクトの位置、または代替的もしくは追加的に、例えば三角測量操作を使用して一致したオブジェクトの距離を計算するためにブロック７０６で使用される。

ブロック７０６の結果は、例えば図４ｃに示すように、一致した各オブジェクトの位置、あるいは代替的または追加的に、一致したオブジェクトの第１または第２の基準位置Ａ、Ｂの一方までの距離である。

加えて、ブロック７０８で並進情報を使用するだけでなく、一致したオブジェクトの新しい到来方向情報および新しい距離を計算するために回転情報も使用することが好ましい。

一致したオブジェクトの位置がステップ７０８に入力されることを概説したが、一致したオブジェクトの新しい到来方向情報を計算するためだけに、一致したオブジェクトの実際の位置、あるいは、言い換えれば、一致したオブジェクトの距離は必要ではなく、リスナーが移動した新しい（異なる）基準位置に対する新しい到来方向を計算するために、例えば距離は必要ではないことが強調されるべきである。

しかし、音源信号を新しい状況に適応させるには、距離が必要である。したがって、音源または音響オブジェクトから新しい基準位置までの距離が短くなると、１よりも小さいスケーリング係数が計算される。しかし、距離が高くなると、例えば図６ｂで説明したように、スケーリング係数は１より大きくなるように計算される。したがって、一実施形態について図６ａに示されているが、必ずしも一致したオブジェクトの明示的な位置、および一致したオブジェクトの距離が計算され、次に新しい到来方向と新しい距離を使用して一致したオブジェクトごとに音場が計算されるわけではない。代わりに、２つの基準位置のうちの１つの基準位置までの一致したオブジェクトの距離だけで通常十分であり、新しいＤｏＡと新しい距離を使用して、一致した各オブジェクトの音場が計算される。

さらに、ブロック７１４は、ブロック７０２で取得した古いＤｏＡ情報を使用して、不一致オブジェクトの音場の計算を示す。さらに、例えば、１次アンビソニックス記述、高次アンビソニックス記述などのアンビソニックス記述、または特定のスピーカ設定に関連するスピーカチャネル記述などの修正音場記述を取得するために、ブロック７１０で取得された一致したオブジェクトとブロック７１４で取得された不一致オブジェクトの音場がブロック７１２で結合されるが、もちろん、これはブロック７１０とブロック７１４で同じであるため、ブロック７１２では単純なチャネルごとの追加を実行することができる。

図６ｂは、音場計算器４２０の好ましい実施態様を示している。ブロック１１０２では、音源分離および各音源の到来方向または一般に方向情報の計算が実行される。次に、ブロック１１０４で、到来方向ベクトルに距離情報ベクトル、すなわち、元の基準位置から音源までのベクトル、すなわち、例えば図５の項目５２０から項目５１０までのベクトルが乗算される。次に、ブロック１１０６において、並進情報、すなわち図５の項目５２０から項目５００へのベクトルが考慮されて、リスナー位置５００から音源位置５１０へのベクトルである新しい変換方向ベクトルが計算される。次に、ブロック１１０８で、ｄ_ｖで示される正しい長さの新しい到来方向ベクトルが計算される。このベクトルはｄ_ｒと同じ方向に向いているが長さが異なり、このベクトルの長さは音源５１０が特定のボリュームで元の音場に録音されているという事実を反映しているため、したがってｄ_ｖの長さは多かれ少なかれ音量の変化を示す。これは、ベクトルｄ_ｌを録音距離ｄ_ｒ、すなわち、マイク５２０から音源５１０までのベクトルｄ_ｒの長さで除算することによって得られる。上述のように、マイク５２０から音源５１０までのベクトルｄ_ｒの長さは、三角測量計算により導出することができる。マイクが第１の音場記述の基準位置にある場合、第１の音場記述の基準位置から音源までの距離が使用される。しかし、マイクが第２の音場記述のさらなる基準位置にある場合、第２の音場記述のさらなる基準位置から音源までの距離が使用される。

図５のように、再生距離が録音距離よりも大きい場合、ｄ_ｖの長さは１より短くなる。これにより、新しいリスナー位置での再生のための音源５１０の減衰が生じる。しかし、再生距離ｄ_ｌが録音距離よりも小さい場合、ブロック１１０８で計算されるｄ_ｖの長さは１より大きくなり、対応するスケーリング係数により音源が増幅される。

図６ａにおいて、項目７１０は、一致した各オブジェクトの音場が、新しい到来方向情報と新しい距離を使用して計算されることを示している。しかし、基本的に、一致した各オブジェクトの音場を計算するには、１つまたは複数の抽出音源の第１のグループあるいは１つまたは複数の抽出音源の第２のグループから取得したオブジェクト信号を一般に使用できる。しかし、一実施形態では、ブロック７１０で音場計算を実行するためにどの音場記述を使用するかを決定するために、図７に示す特定の選択が実行される。ブロック７２０において、新しいリスナー位置から第１の音場記述の第１の基準位置までの第１の距離が決定される。図４ｃに関して、これは異なる基準位置と基準位置Ａとの間の距離である。

さらに、ステップ７２２で、新しいリスナー位置から第２の音場記述の第２の基準位置までの第２の距離が決定される。図４ｃのこの実施形態では、これは、異なる基準位置（並進による）と基準位置Ｂとの間の距離になる。

異なる基準位置から基準位置Ｂまでの距離は、異なる基準位置から基準位置Ａまでの差よりも小さいように見える。したがって、これはステップ７２４で決定される。そして、ステップ７２６で、オブジェクト信号は、距離がより小さい音場記述から導出されたグループから選択される。したがって、図４ｃの一致した音源に対応する音源ＡおよびＢをレンダリングするために、さらなる基準位置Ｂに関連する第２の音場記述から導出された音源信号が使用される。

しかし、他の実施形態では、並進が原点から異なる基準位置、例えば図４ｃの図の左を指す場合、より小さい距離はこの他の基準位置から基準位置Ａまでであり、次に、図６ｂのブロック７１０で、一致した各オブジェクトの音場を最終的に計算するために、第１の音場記述が使用される。繰り返すが、選択は図７に示す手順で実行される。

図９は、さらに好ましい実施形態を示している。ステップ７４０では、第１の音場記述に対する音場解析、例えば、図６ｃのブロック４２２に示すＤｉｒＡＣ解析の形のパラメトリック音場解析が実行される。

これにより、例えば、各時間／周波数ビンに対してパラメータの第１のセットが生成され、パラメータの各セットは、ＤｏＡパラメータと、任意選択で拡散度パラメータとを含む。

ステップ７４１では、音場解析が第２の音場記述に対して実行され、再び、ブロック７４０のように、例えば図６ｃのブロック４２２に関して説明したように、ＤｉｒＡＣ解析が実行される。

これにより、例えば時間／周波数ビンなどの第２のパラメータセットが得られる。

次いで、ブロック７４６において、各パラメータペアの位置は、第１の時間／周波数ビンからの対応するＤｏＡパラメータおよび第２のパラメータセットからの同じ時間／周波数ビンからのＤｏＡパラメータを使用して決定することができる。これにより、各パラメータペアの位置が得られる。しかし、パラメータの第１のセットおよび／またはパラメータの第２のセットにおいて、対応する時間／周波数ビンの拡散度が低いほど、位置はより有用になる。

したがって、第１および第２のパラメータセットの両方で非常に低い拡散度が得られた時間／周波数ビンからの位置のみをさらに使用することが好ましい。

加えて、ブロック７４０およびブロック７４１によっても出力されるように、時間／周波数ビン内の対応する信号の相関も実行することが好ましい。

したがって、図６ａのステップ７０４の「音源マッチング」は、例えば、完全に回避でき、拡散度パラメータに基づいて一致した音源／一致した時間／周波数ビンの決定によって置き換えることができ、あるいは、例えば、Ｂフォーマット成分からの、または図６ｃのブロック４２２によって出力される圧力信号またはオブジェクト信号からの時間／周波数ビン内の対応する信号を使用して、マッチングをさらに実行することができる。

いずれの場合でも、ブロック４６により、図６ａのブロック７０４で見つかった「一致したオブジェクト」に対応する特定の（選択された）時間／周波数ビンの特定の位置が得られる。

次に、ブロック７４８で、ブロック７４６によって取得された位置の修正されたパラメータおよび／または信号、および／または、例えばハットトラッカによって取得された対応する並進／回転が計算され、ブロック７４８の出力は、異なる時間／周波数ビンの修正されたパラメータおよび／または修正された信号を表す。

したがって、ブロック７４８は、修正されたパラメータを計算する目的のためのブロック４２４の並進変換４２３および回転変換に対応することができ、修正された信号の計算は、例えば、図６ｃのブロック４２５によって、好ましくは、対応する時間／周波数ビンの位置から導出された特定のスケーリング係数を考慮して実行される。

最後に、修正されたデータを使用して、音場記述の合成がブロック７５０で実行される。これは、例えば、第１または第２の音場記述のいずれかを使用したＤｉｒＡＣ合成によって実行でき、あるいは、ブロック４２５に示すようにアンビソニックス信号生成器で実行することができ、その結果は送信／保存／レンダリング用の新しい音場記述である。

図１０は、音場計算器４２０のさらに好ましい実施態様を示している。図１０に示す手順の少なくとも一部は、一致した音源ごとに個別に実行される。ブロック１１２０は、例えば三角測量計算により一致した音源の距離を決定する。

音場記述に基づいて、符号１１００でフルバンドの到来方向またはバンドごとの到来方向が決定される。これらの到来方向情報は、音場の到来方向データを表する。この到来方向データに基づいて、並進変換がブロック１１１０で実行される。この目的のために、ブロック１１２０は、一致した各音源の距離を計算する。データに基づいて、ブロック１１１０は、この実施では基準位置から異なる基準位置への並進のみに依存する音場の新しい到来方向データを生成する。この目的のために、ブロック１１１０は、例えば、仮想現実の実施のコンテキストでの追跡により生成された並進情報を受け取る。

好ましくはまたは代わりに、回転データも使用される。このために、ブロック１１３０は、回転情報を使用して回転変換を実行する。並進と回転の両方が実行される場合、並進からの情報とブロック１１２０からの音源距離を既に含む音場の新しいＤｏＡの計算に続いて、回転変換を実行することが好ましい。

次に、ブロック１１４０で、新しい音場記述が生成される。この目的のために、元の音場記述を使用するか、あるいは、音源分離アルゴリズムによって音場記述から分離された音源信号を使用するか、他のアプリケーションを使用できる。基本的に、新しい音場記述は、例えば、アンビソニックス生成器４３０によって取得されるか、ＤｉｒＡＣシンセサイザ４２５によって生成される指向性音場記述であってもよく、または後続のバイノーラルレンダリングで仮想スピーカ表現から生成されるバイノーラル表現であってもよい。

好ましくは、図１０に示すように、特定の音源のボリュームまたは音量を新しい場所、すなわち新しいまたは異なる基準位置に適合させるために、新しい音場記述を生成する際に到来方向ごとの距離も使用される。

図１０は、回転変換が並進変換の後に実行される状況を示しているが、順序は異なる可能性があることに留意されたい。特に、回転変換は、ブロック１１００によって生成された音場のＤｏＡに適用でき、その後に、基準位置から異なる基準位置への対象の並進による追加の並進変換が適用される。

音場のＤｏＡがブロック１１００によって決定されるとすぐに、ブロック１１２０を使用してメタデータから距離情報が取得され、次に、この距離情報は、変更された距離、したがって、特定の基準位置に対する特定の音源の音量の変化を考慮するために、ブロック１１４０で新しい音場記述を生成することによって使用される。基本的に、距離が大きくなると特定の音源信号が減衰し、距離が短くなると音源信号が増幅されると言える。当然、距離に応じた特定の音源の減衰または増幅は距離の変化に比例して行われるが、他の実施形態では、非常に粗い増分での音源信号のこの増幅または減衰にそれほど複雑でない操作を適用できる。このようなそれほど複雑ではない実施態様でも、距離の変化が完全に無視される状況と比較して、優れた結果が得られる。

図１１は、音場計算器のさらに好ましい実施態様を示している。ブロック１２００では、音場からの個々の音源が、例えばバンドごとまたはフルバンドのように決定される。フレームおよびバンドごとの決定が実行されると、ＤｉｒＡＣ解析によってこれを実行できる。フルバンドまたはサブバンドの決定が実行される場合、これはあらゆる種類のフルバンドまたはサブバンドの音源分離アルゴリズムによって実行できる。

ブロック１２１０において、リスナーの並進および／または回転が、例えば頭部追跡により決定される。

ブロック１２２０では、各音源の古い距離は、メタデータを使用して、例えば、三角測量計算にメタデータを使用して決定される。したがって、各バンドは特定の音源であると見なされ（拡散度が特定のしきい値よりも低い場合）、その後に、低い拡散度値を有する各時間／周波数ビンの特定の距離が決定される。

次に、ブロック１２３０で、例えば、図６ｂのコンテキストで説明されるバンドごとのベクトル計算により、音源ごとの新しい距離が取得される。

さらに、ブロック１２４０に示すように、音源ごとの古い方向は、例えば、ＤｉｒＡＣ解析で得られたＤｏＡ計算により、または例えば音源分離アルゴリズムでの到来方向または方向情報解析により決定される。

次に、ブロック１２５０で、例えばバンドまたはフルバンドごとのベクトル計算を実行することにより、音源ごとの新しい方向が決定される。

次に、ブロック１２６０で、並進および回転したリスナーの新しい音場が生成される。これは、例えば、ＤｉｒＡＣ合成でチャネルごとの直接部分をスケーリングすることで実行できる。特定の実施態様に応じて、ブロック１２６０で距離修正を実行することに加えて、または代替として、ブロック１２７０ａ、１２７０ｂまたは１２７０ｃで距離修正を行うことができる。

例えば、音場が単一の音源のみを有すると決定される場合、距離変更はブロック１２７０ａで既に実行されてもよい。

あるいは、個々の音源信号がブロック１２００によって計算される場合、ブロック１２６０で実際の新しい音場が生成される前に、ブロック１２７０ｂで個々の音源に対して距離修正を実行されてもよい。

さらに、例えば、ブロック１２６０の音場生成がスピーカ設定信号またはバイノーラル信号をレンダリングせず、例えばアンビソニックスエンコーダまたは計算器４３０を使用する別の音場記述をレンダリングする場合、ブロック１２６０での生成に続いて距離修正も実行することができ、これはブロック１２７０ｃを意味する。実施態様に応じて、距離の変更をいくつかの変更子に分配することもでき、その結果、特定の音源は、音源と基準位置の間の元の距離と、音源と異なる基準位置の間の新しい距離との差によって導かれる特定の音量にある。

図１２ａは、例えば、２００９年のＩＷＰＡＳＨから先に引用した参考文献「ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ」に最初に開示したＤｉｒＡＣ解析器を示している。

ＤｉｒＡＣ解析器は、バンドフィルタ１３１０のバンク、エネルギー解析器１３２０、強度解析器１３３０、時間平均化ブロック１３４０、拡散度計算器１３５０および方向計算器１３６０を含む。

ＤｉｒＡＣでは、解析と合成の両方が周波数領域で実行される。それぞれ異なるプロパティ内で、音響を周波数バンドに分割する方法がいくつかある。最も一般的に使用される周波数変換には、短時間フーリエ変換（ＳＴＦＴ）および直交ミラーフィルタバンク（ＱＭＦ）が含まれる。これらに加えて、特定の目的に最適化された任意のフィルタでフィルタバンクを設計する完全な自由がある。方向解析の対象は、各周波数バンドで音の到来方向を推定することであり、同時に音が１つまたは複数の方向から同時に到来している場合の推定値である。原則として、これはいくつかの手法で実行できるが、音場のエネルギー解析が適切であることが分かっており、これを図１２ａに示す。１次元、２次元、または３次元の圧力信号と速度信号が単一の位置から取り込まれると、エネルギー解析を実行できる。１次Ｂフォーマット信号では、全方向性信号はＷ信号と呼ばれ、２の平方根でスケールダウンされている。音圧は、

のように推定することができ、ＳＴＦＴドメインで表される。

Ｘ、Ｙ、およびＺチャネルは、デカルト軸に沿って方向付けられたダイポールの指向性パターンを有し、ベクトルＵ＝［Ｘ、Ｙ、Ｚ］を共に形成する。ベクトルは音場速度ベクトルを推定し、ＳＴＦＴドメインでも表現される。音場のエネルギーＥが計算される。Ｂフォーマット信号の取り込みは、指向性マイクの同時配置、または全方向性マイクの狭い間隔のいずれかで取得できる。一部のアプリケーションでは、マイク信号は計算領域で形成、すなわちシミュレートすることができる。

音の方向は、強度ベクトルＩの反対方向であると定義される。方向は、送信されたメタデータの対応する角度方位角と仰角の値として示される。音場の拡散度も、強度ベクトルとエネルギーの期待演算子を使用して計算される。この方程式の結果は、音のエネルギーが単一の方向（拡散度がゼロ）から到達するか、すべての方向（拡散度が１）から到達するかを特徴付ける０と１の間の実数値である。この手順は、完全な３Ｄ以下の速度情報が利用可能な場合に適している。

図１２ｂは、再びバンドフィルタ１３７０のバンク、仮想マイクブロック１４００、直接／拡散シンセサイザブロック１４５０、および特定のスピーカ設定または仮想の意図されたスピーカ設定１４６０を有するＤｉｒＡＣ合成を示す。さらに、拡散度ゲイン変換器１３８０、ベクトルベースの振幅パンニング（ＶＢＡＰ）ゲインテーブルブロック１３９０、マイク補償ブロック１４２０、スピーカゲイン平均化ブロック１４３０および他のチャネルの分配器１４４０が使用される。

スピーカを使用したこのＤｉｒＡＣ合成では、図１２ｂに示す高品質バージョンのＤｉｒＡＣ合成がすべてのＢフォーマット信号を受信し、これに対して、スピーカ設定１４６０の各スピーカ方向について仮想マイク信号が計算される。利用される指向性パターンは通常、ダイポールである。その後に、メタデータに応じて、仮想マイク信号が非線形的に修正される。ＤｉｒＡＣの低ビットレートバージョンは図１２ｂには示されていないが、この状況では、図６に示すようにオーディオの１つのチャネルのみが送信される。処理の違いは、すべての仮想マイク信号が、受信したオーディオの単一チャネルに置き換えられることである。仮想マイク信号は、拡散ストリームと非拡散ストリームの２つのストリームに分けられ、別々に処理される。

非拡散音は、ベクトルベースの振幅パンニング（ＶＢＡＰ）を使用してポイント音源として再現される。パンニングでは、スピーカ固有のゲイン係数を乗算した後に、スピーカのサブセットにモノフォニック音響信号が適用される。ゲイン係数は、スピーカ設定の情報と指定されたパンニング方向を使用して計算される。低ビットレートバージョンでは、入力信号はメタデータによって暗示される方向に単純にパンニングされる。高品質バージョンでは、各仮想マイク信号に対応するゲイン係数が乗算され、これにより、パンニングと同じ効果が得られるが、非線形アーチファクトが発生しにくくなる。

多くの場合、方向性メタデータは急激な時間的変化の影響を受ける。アーチファクトを回避するために、ＶＢＡＰで計算されたスピーカのゲイン係数は、各バンドで約５０サイクル周期に等しい周波数依存時定数との時間積分により平滑化される。これにより、アーチファクトが効果的に除去されるが、ほとんどの場合、方向の変化は平均化しない場合よりも遅いとは感じられない。

拡散音の合成の目的は、リスナーを囲む音の知覚を作成することである。低ビットレートバージョンでは、拡散ストリームは入力信号を非相関化し、すべてのスピーカからそれを再生することにより再生される。高品質バージョンでは、拡散ストリームの仮想マイク信号は既にある程度インコヒーレントであり、わずかに非相関化するだけで済む。この手法は、低ビットレートバージョンよりも、サラウンドリバーブとアンビエント音響の空間品質を向上させる。

ヘッドフォンを使用したＤｉｒＡＣシンセシスの場合、ＤｉｒＡＣは、非拡散ストリーム用のリスナーの周囲に一定量の仮想スピーカ、拡散スチーム用に一定数のスピーカで定式化される。仮想スピーカは、入力信号と測定された頭部伝達関数（ＨＲＴＦ）の畳み込みとして実施される。

いくつかの態様を装置のコンテキストで説明したが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップのコンテキストで説明される態様は、対応するブロックまたは項目または対応する装置の機能の説明も表す。

本発明の拡張音場記述は、デジタル記憶媒体または非一時的記憶媒体に記憶することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。

特定の実施態様に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施は、電子的に読み取り可能な制御信号が格納されており、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する（または協働することができる）デジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行できる。

本発明によるいくつかの実施形態は、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的データキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するように動作する。プログラムコードは、例えば、機械可読なキャリアに格納されてもよい。

他の実施形態は、機械可読なキャリアに格納された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

言い換えれば、したがって、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書に記載の方法の１つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。

さらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。

上述の実施形態は、本発明の原理の単なる例示にすぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。したがって、本明細書の実施形態の説明および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。
参考文

［１］Ｌｉｉｔｏｌａ，Ｔ．，Ｈｅａｄｐｈｏｎｅｓｏｕｎｄｅｘｔｅｒｎａｌｉｚａｔｉｏｎ，Ｐｈ．Ｄ．ｔｈｅｓｉｓ，ＨｅｌｓｉｎｋｉＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ．ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｉｃａｌａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓＥｎｇｉｎｅｅｒｉｎｇＬａｂｏｒａｔｏｒｙｏｆＡｃｏｕｓｔｉｃｓａｎｄＡｕｄｉｏＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．，２００６

［２］Ｂｌａｕｅｒｔ，Ｊ．，ＳｐａｔｉａｌＨｅａｒｉｎｇ－ＲｅｖｉｓｅｄＥｄｉｔｉｏｎ：ＴｈｅＰｓｙｃｈｏｐｈｙｓｉｃｓｏｆＨｕｍａｎＳｏｕｎｄＬｏｃａｌｉｚａｔｉｏｎ，ＴｈｅＭＩＴＰｒｅｓｓ，１９９６，ＩＳＢＮ０２６２０２４１３６

［３］Ｚｈａｎｇ，Ｗ．，Ｓａｍａｒａｓｉｎｇｈｅ，Ｐ．Ｎ．，Ｃｈｅｎ，Ｈ．，ａｎｄＡｂｈａｙａｐａｌａ，Ｔ．Ｄ．，“ＳｕｒｒｏｕｎｄｂｙＳｏｕｎｄ：ＡＲｅ－ｖｉｅｗｏｆＳｐａｔｉａｌＡｕｄｉｏＲｅｃｏｒｄｉｎｇａｎｄＲｅｐｒｏｄｕｃｔｉｏｎ，”ＡｐｐｌｉｅｄＳｃｉｅｎｃｅｓ，７（５），ｐ．５３２，２０１７

［４］Ｂａｔｅｓ，Ｅ．ａｎｄＢｏｌａｎｄ，Ｆ．，“ＳｐａｔｉａｌＭｕｓｉｃ，ＶｉｒｔｕａｌＲｅａｌｉｔｙ，ａｎｄ３６０Ｍｅｄｉａ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｉｎｔ．Ｃｏｎｆ．ｏｎＡｕｄｉｏｆｏｒＶｉｒｔｕａｌａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ，ＬｏｓＡｎｇｅｌｅｓ，ＣＡ，Ｕ．Ｓ．Ａ．，２０１６

［５］Ａｎｄｅｒｓｏｎ，Ｒ．，Ｇａｌｌｕｐ，Ｄ．，Ｂａｒｒｏｎ，Ｊ．Ｔ．，Ｋｏｎｔｋａｎｅｎ，Ｊ．，Ｓｎａｖｅｌｙ，Ｎ．，Ｅｓｔｅｂａｎ，Ｃ．Ｈ．，Ａｇａｒｗａｌ，Ｓ．，ａｎｄＳｅｉｔｚ，Ｓ．Ｍ．，“Ｊｕｍｐ：ＶｉｒｔｕａｌＲｅａｌｉｔｙＶｉｄｅｏ，”ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，３５（６），ｐ．１９８，２０１６

［６］Ｍｅｒｉｍａａ，Ｊ．，Ａｎａｌｙｓｉｓ，Ｓｙｎｔｈｅｓｉｓ，ａｎｄＰｅｒｃｅｐｔｉｏｎｏｆＳｐａｔｉａｌＳｏｕｎｄ：ＢｉｎａｕｒａｌＬｏｃａｌｉｚａｔｉｏｎＭｏｄｅｌｉｎｇａｎｄＭｕｌｔｉｃｈａｎｎｅｌＬｏｕｄｓｐｅａｋｅｒＲｅｐｒｏｄｕｃｔｉｏｎ，Ｐｈ．Ｄ．ｔｈｅｓｉｓ，ＨｅｌｓｉｎｋｉＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，２００６

［７］Ｋｒｏｎｌａｃｈｎｅｒ，Ｍ．ａｎｄＺｏｔｔｅｒ，Ｆ．，“ＳｐａｔｉａｌＴｒａｎｓｆｏｒｍａｔｉｏｎｓｆｏｒｔｈｅＥｎｈａｎｃｅｍｅｎｔｏｆＡｍｂｉｓｏｎｉｃｓＲｅｃｏｒｄｉｎｇｓ，”ｉｎ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐａｔｉａｌＡｕｄｉｏ，Ｅｒｌａｎｇｅｎ，Ｇｅｒｍａｎｙ，２０１４

［８］Ｔｓｉｎｇｏｓ，Ｎ．，Ｇａｌｌｏ，Ｅ．，ａｎｄＤｒｅｔｔａｋｉｓ，Ｇ．，“ＰｅｒｃｅｐｔｕａｌＡｕｄｉｏＲｅｎｄｅｒｉｎｇｏｆＣｏｍｐｌｅｘＶｉｒｔｕａｌＥｎｖｉｒｏｎｍｅｎｔｓ，”ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，２３（３），ｐｐ．２４９－２５８，２００４

［９］Ｔａｙｌｏｒ，Ｍ．，Ｃｈａｎｄａｋ，Ａ．，Ｍｏ，Ｑ．，Ｌａｕｔｅｒｂａｃｈ，Ｃ．，Ｓｃｈｉｓｓｌｅｒ，Ｃ．，ａｎｄＭａｎｏｃｈａ，Ｄ．，“Ｇｕｉｄｅｄｍｕｌｔｉ－ｖｉｅｗｒａｙｔｒａｃｉｎｇｆｏｒｆａｓｔａｕｒａｌｉｚａｔｉｏｎ，”ＩＥＥＥＴｒａｎｓ．Ｖｉｓｕａｌｉｚａｔｉｏｎ＆Ｃｏｍｐ．Ｇｒａｐｈｉｃｓ，１８，ｐｐ．１７９７－１８１０，２０１２

［１０］Ｒｕｎｇｔａ，Ａ．，Ｓｃｈｉｓｓｌｅｒ，Ｃ．，Ｒｅｗｋｏｗｓｋｉ，Ｎ．，Ｍｅｈｒａ，Ｒ．，ａｎｄＭａｎｏｃｈａ，Ｄ．，“ＤｉｆｆｒａｃｔｉｏｎＫｅｒｎｅｌｓｆｏｒＩｎｔｅｒａｃｔｉｖｅＳｏｕｎｄＰｒｏｐａｇａｔｉｏｎｉｎＤｙｎａｍｉｃＥｎｖｉｒｏｎｍｅｎｔｓ，”ＩＥＥＥＴｒａｎｓ．Ｖｉｓｕａｌｉｚａｔｉｏｎ＆Ｃｏｍｐ．Ｇｒａｐｈｉｃｓ，２４（４），ｐｐ．１６１３－１６２２，２０１８

［１１］Ｔｈｉｅｒｇａｒｔ，Ｏ．，Ｋｏｗａｌｃｚｙｋ，Ｋ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“ＡｎＡｃｏｕｓｔｉｃａｌＺｏｏｍｂａｓｅｄｏｎＩｎｆｏｒｍｅｄＳｐａｔｉａｌＦｉｌｔｅｒｉｎｇ，”ｉｎＩｎｔ．ＷｏｒｋｓｈｏｐｏｎＡｃｏｕｓｔｉｃＳｉｇｎａｌＥｎｈａｎｃｅｍｅｎｔ，ｐｐ．１０９－１１３，２０１４

［１２］Ｋｈａｄｄｏｕｒ，Ｈ．，Ｓｃｈｉｍｍｅｌ，Ｊ．，ａｎｄＲｕｎｄ，Ｆ．，“ＡＮｏｖｅｌＣｏｍｂｉｎｅｄＳｙｓｔｅｍｏｆＤｉｒｅｃｔｉｏｎＥｓｔｉｍａｔｉｏｎａｎｄＳｏｕｎｄＺｏｏｍｉｎｇｏｆＭｕｌｔｉｐｌｅＳｐｅａｋｅｒｓ，”Ｒａｄｉｏｅｎｇｉｎｅｅｒｉｎｇ，２４（２），２０１５

［１３］Ｚｉｅｇｌｅｒ，Ｍ．，Ｋｅｉｎｅｒｔ，Ｊ．，Ｈｏｌｚｅｒ，Ｎ．，Ｗｏｌｆ，Ｔ．，Ｊａｓｃｈｋｅ，Ｔ．，ｏｐｈｅｔＶｅｌｄ，Ｒ．，Ｚａｋｅｒｉ，Ｆ．Ｓ．，ａｎｄＦｏｅｓｓｅｌ，Ｓ．，“ＩｍｍｅｒｓｉｖｅＶｉｒｔｕａｌＲｅａｌｉｔｙｆｏｒＬｉｖｅ－ＡｃｔｉｏｎＶｉｄｅｏｕｓｉｎｇＣａｍｅｒａＡｒｒａｙｓ，”ｉｎＩＢＣ，Ａｍｓｔｅｒｄａｍ，Ｎｅｔｈｅｒｌａｎｄｓ，２０１７

［１４］Ｔｈｉｅｒｇａｒｔ，Ｏ．，Ｇａｌｄｏ，Ｇ．Ｄ．，Ｔａｓｅｓｋａ，Ｍ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“Ｇｅｏｍｅｔｒｙ－ＢａｓｅｄＳｐａｔｉａｌＳｏｕｎｄＡｃｑｕｉｓｉｔｉｏｎｕｓｉｎｇＤｉｓｔｒｉｂｕｔｅｄＭｉｃｒｏｐｈｏｎｅＡｒｒａｙｓ，”ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，ＬａｎｇｕａｇｅＰｒｏｃｅｓｓ．，２１（１２），ｐｐ．２５８３－２５９４，２０１３

［１５］Ｋｏｗａｌｃｚｙｋ，Ｋ．，Ｔｈｉｅｒｇａｒｔ，Ｏ．，Ｔａｓｅｓｋａ，Ｍ．，ＤｅｌＧａｌｄｏ，Ｇ．，Ｐｕｌｋｋｉ，Ｖ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“ＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＳｏｕｎｄＰｒｏｃｅｓｓｉｎｇ：ＡＦｌｅｘｉｂｌｅａｎｄＥｆｆｉｃｉｅｎｔＳｏｌｕｔｉｏｎｔｏＳｏｕｎｄＳｃｅｎｅＡｃｑｕｉｓｉｔｉｏｎ，Ｍｏｄｉｆｉｃａｔｉｏｎ，ａｎｄＲｅｐｒｏｄｕｃｔｉｏｎ，”ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓ．Ｍａｇ．，３２（２），ｐｐ．３１－４２，２０１５

［１６］Ｐｕｌｋｋｉ，Ｖ．，“ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ，”Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，５５（６），ｐｐ．５０３－５１６，２００７

［１７］ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ，“ＩＴＵ－ＲＢＳ．１５３４－３，Ｍｅｔｈｏｄｆｏｒｔｈｅｓｕｂｊｅｃｔｉｖｅａｓｓｅｓｓｍｅｎｔｏｆｉｎｔｅｒｍｅｄｉａｔｅｑｕａｌｉｔｙｌｅｖｅｌｏｆａｕｄｉｏｓｙｓｔｅｍｓ，”２０１５

［１８］Ｔｈｉｅｒｇａｒｔ，Ｏ．，ＤｅｌＧａｌｄｏ，Ｇ．，Ｋｕｅｃｈ，Ｆ．，ａｎｄＰｒｕｓ，Ｍ．，“Ｔｈｒｅｅ－ＤｉｍｅｎｓｉｏｎａｌＳｏｕｎｄＦｉｅｌｄＡｎａｌｙｓｉｓｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇＢａｓｅｄｏｎＳｉｇｎａｌＡｄａｐｔｉｖｅＰａｒａｍｅｔｅｒＥｓｔｉｍａｔｏｒｓ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｖ．ＳｐａｔｉａｌＡｕｄｉｏ：ＳｅｎｓｅｔｈｅＳｏｕｎｄｏｆＳｐａｃｅ，２０１０

［１９］Ｋｕｔｔｒｕｆｆ，Ｈ．，ＲｏｏｍＡｃｏｕｓｔｉｃｓ，Ｔａｙｌｏｒ＆Ｆｒａｎｃｉｓ，４ｅｄｉｔｉｏｎ，２０００

［２０］Ｂｏｒβ，Ｃ．，“Ａｐｏｌｙｇｏｎ－ｂａｓｅｄｐａｎｎｉｎｇｍｅｔｈｏｄｆｏｒ３Ｄｌｏｕｄｓｐｅａｋｅｒｓｅｔｕｐｓ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｖ．，ｐｐ．３４３－３５２，ＬｏｓＡｎｇｅｌｅｓ，ＣＡ，ＵＳＡ，２０１４

［２１］Ｒｕｍｍｕｋａｉｎｅｎ，Ｏ．，Ｓｃｈｌｅｃｈｔ，Ｓ．，Ｐｌｉｎｇｅ，Ａ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“ＥｖａｌｕａｔｉｎｇＢｉｎａｕｒａｌＲｅｐｒｏｄｕｃｔｉｏｎＳｙｓｔｅｍｓｆｒｏｍＢｅｈａｖｉｏｒａｌＰａｔｔｅｒｎｓｉｎａＶｉｒｔｕａｌＲｅａｌｉｔｙ－ＡＣａｓｅＳｔｕｄｙｗｉｔｈＩｍｐａｉｒｅｄＢｉｎａｕｒａｌＣｕｅｓａｎｄＴｒａｃｋｉｎｇＬａｔｅｎｃｙ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｖ．１４３，ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２０１７

［２２］Ｅｎｇｅｌｋｅ，Ｕ．，Ｄａｒｃｙ，Ｄ．Ｐ．，Ｍｕｌｌｉｋｅｎ，Ｇ．Ｈ．，Ｂｏｓｓｅ，Ｓ．，Ｍａｒｔｉｎｉ，Ｍ．Ｇ．，Ａｒｎｄｔ，Ｓ．，Ａｎｔｏｎｓ，Ｊ．－Ｎ．，Ｃｈａｎ，Ｋ．Ｙ．，Ｒａｍｚａｎ，Ｎ．，ａｎｄＢｒｕｎｎｓｔｒｏｍ，Ｋ．，“Ｐｓｙｃｈｏｐｈｙｓｉｏｌｏｇｙ－ＢａｓｅｄＱｏＥＡｓｓｅｓｓｍｅｎｔ：ＡＳｕｒｖｅｙ，”ＩＥＥＥＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１１（１），ｐｐ．６－２１，２０１７

［２３］Ｓｃｈｌｅｃｈｔ，Ｓ．Ｊ．ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“Ｓｉｇｎ－ＡｇｎｏｓｔｉｃＭａｔｒｉｘＤｅｓｉｇｎｆｏｒＳｐａｔｉａｌＡｒｔｉｆｉｃｉａｌＲｅｖｅｒｂｅｒａｔｉｏｎｗｉｔｈＦｅｅｄｂａｃｋＤｅｌａｙＮｅｔｗｏｒｋｓ，”ｉｎＰｒｏｃ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｆ．，ｐｐ．１－１０－ａｃｃｅｐｔｅｄ，Ｔｏｋｙｏ，Ｊａｐａｎ，２０１８

［３１］Ｍ．Ａ．Ｇｅｒｚｏｎ，”Ｐｅｒｉｐｈｏｎｙ：Ｗｉｔｈ－ｈｅｉｇｈｔｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎ，”Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，ｖｏｌ．２１，１１０．１，ｐｐ．２－１０，１９７３

［３２］Ｖ．Ｐｕｌｋｋｉ，”Ｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇｉｎｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎａｎｄｓｔｅｒｅｏｕｐｍｉｘｉｎｇ，”ｉｎＰｒｏｃ．ｏｆｔｈｅ２８ｔｈＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，２００６

［３３］ ―，”Ｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ，”ＪｏｕｒｎａｌＡｕｄｉｏＥｎｇ．Ｓｏｃ,, ｖｏｌ．５５，ｎｏ．６，ｐｐ．５０３－５１６，Ｊｕｎ．２００７

［３４］Ｃ．Ｇ．ａｎｄＧ．Ｍ．，”Ｃｏｉｎｃｉｄｅｎｔｍｉｃｒｏｐｈｏｎｅｓｉｍｕｌａｔｉｏｎｃｏｖｅｒｉｎｇｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌｓｐａｃｅａｎｄｙｉｅｌｄｉｎｇｖａｒｉｏｕｓｄｉｒｅｃｔｉｏｎａｌｏｕｔｐｕｔｓ，”Ｕ．Ｓ．Ｐａｔｅｎｔ４０４２７７９，１９７７

［３５］Ｃ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ，”Ｂｉｎａｕｒａｌｃｕｅｃｏｄｉｎｇ－ｐａｒｔｉｉ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，”ＩＥＥＥＴｒａｎｓ．ＳｐｅｅｃｈＡｕｄｉｏＰｒｏｃｅｓｓ,, ｖｏｌ．１１，ｎｏ．６，Ｎｏｖ．２００３

［３６］Ｃ．Ｆａｌｌｅｒ，”Ｐａｒａｍｅｔｒｉｃｍｕｌｔｉｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ：Ｓｙｎｔｈｅｓｉｓｏｆｃｏｈｅｒｅｎｃｅｃｕｅｓ，”ＩＥＥＥＴｒａｎｓ．ＳｐｅｅｃｈＡｕｄｉｏＰｒｏｃｅｓｓ．，ｖｏｌ．１４，ｎｏ．１，Ｊａｎ．２００６

［３７］Ｈ．Ｐ．Ｊ．Ｅ．Ｅ．Ｓｃｈｕｉｊｅｒｓ，Ｊ．Ｂｒｅｅｂａａｒｔ，”Ｌｏｗｃｏｍｐｌｅｘｉｔｙｐａｒａｍｅｔｒｉｃｓｔｅｒｅｏｃｏｄｉｎｇ，”ｉｎＰｒｏｃ．ｏｆｔｈｅ１１６ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｂｅｒｌｉｎ，Ｇｅｒｍａｎｙ，２００４

［３８］Ｖ．Ｐｕｌｋｋｉ，”Ｖｉｒｔｕａｌｓｏｕｎｄｓｏｕｒｃｅｐｏｓｉｔｉｏｎｉｎｇｕｓｉｎｇｖｅｃｔｏｒｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ，”Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ,, ｖｏｌ．４５，ｎｏ．６，ｐｐ．４５６－４６６，Ｊｕｎ．１９９７

［３９］Ｊ．Ｇ．ＴｙｌｋａａｎｄＥ．Ｙ．Ｃｈｏｕｅｉｒｉ，”Ｃｏｍｐａｒｉｓｏｎｏｆｔｅｃｈｎｉｑｕｅｓｆｏｒｂｉｎａｕｒａｌｎａｖｉｇａｔｉｏｎｏｆｈｉｇｈｅｒ－ｏｒｄｅｒａｍｂｉｓｏｎｉｃｓｓｏｕｎｄｆｉｅｌｄｓ，”ｉｎＰｒｏｃ．ｏｆｔｈｅＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｄｉｏｆｏｒＶｉｒｔｕａｌａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ，ＮｅｗＹｏｒｋ，Ｓｅｐ．２０１６．

Claims

拡張音場記述を生成するための装置であって、
少なくとも１つの基準位置についての音場を示す少なくとも１つの音場記述を生成するための音場生成器と、
前記音場の空間情報に関連するメタデータを生成するためのメタデータ生成器と、を含み、
前記少なくとも１つの音場記述および前記メタデータは、前記拡張音場記述を構成する、装置。
前記音場生成器は、前記基準位置についての第１の音場記述と、さらなる基準位置についての第２の音場記述と、を生成するように構成され、前記さらなる基準位置は前記基準位置とは異なり、
前記メタデータ生成器は、前記メタデータとして、前記基準位置および前記さらなる基準位置を個別に決定するか、あるいは、前記基準位置と前記さらなる基準位置との間の距離、または前記基準位置と前記さらなる基準位置との間の位置ベクトルを決定するように構成される、
請求項１に記載の装置。
前記第１の音場記述は第１のアンビソニックス記述であり、前記第２の音場記述は第２のアンビソニックス記述であるか、あるいは前記第１の音場記述および前記第２の音場記述はアンビソニックス記述またはＤｉｒＡＣ記述の一方である、
請求項２に記載の装置。
前記第１の幾何学的記述は、所定の原点から前記第１の音場記述の基準位置に向かう第１のベクトルに関する情報であり、
前記第２の幾何学的記述は、所定の原点から第２の音場記述のさらなる基準位置に向かう第２のベクトルに関する情報である、
請求項１から３のいずれか一項に記載の装置。
前記第１の幾何学的記述は、所定の原点から第１の音場記述の基準位置に向かう第１のベクトル、および前記所定の原点から第２の音場記述のさらなる基準位置に向かう第２のベクトルの一方に関する情報、ならびに前記基準位置と前記さらなる基準位置との間のベクトルに関する情報である、
請求項１から４のいずれか一項に記載の装置。
前記基準位置および前記さらなる基準位置の一方は所定の原点であり、前記メタデータは、前記所定の原点と前記基準位置および前記さらなる基準位置の他方との間のベクトルに関する情報を含む、
請求項１から５のいずれか一項に記載の装置。
前記音場生成器は、実際のマイク装置を使用して、または仮想マイク技術を使用した音響合成によって、前記第１の音場記述または前記第２の音場記述を生成するように構成される、請求項１から６のいずれか一項に記載の装置。
音場記述および前記音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置であって、
前記空間情報、前記音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して前記修正音場を計算するための音場計算器を含む装置。
前記音場計算器は、信号ベースの変換方法を使用して前記修正音場記述を計算するように構成される、
請求項８に記載の装置。
前記音場計算器は、
前記第１の基準位置に関係する第１の音場記述を受け取り、前記基準位置とは異なるさらなる基準位置に関係する第２の音場記述を受け取り、
前記第１の音場記述に音源分離を実行して１つまたは複数の抽出されたオブジェクトの第１のグループを取得し、前記第２の音場記述に音源分離を実行して１つまたは複数の抽出されたオブジェクトの第２のグループを取得し、
前記抽出されたオブジェクトについて到来方向（ＤｏＡ）データを計算し、
前記第１の音場記述の抽出されたオブジェクトの前記第１のグループと前記第２の音場記述の抽出されたオブジェクトの前記第２のグループとを一致させ、
１つまたは複数の一致したオブジェクトの位置を推定し、
前記一致したオブジェクトの前記推定位置および前記異なる基準位置に基づいて、１つまたは複数の一致したオブジェクトを修正する、
ように構成される、請求項８または９に記載の装置。
前記音場計算器は、
前記一致したオブジェクトの到来方向データを計算し、
前記異なる基準位置について前記計算された到来方向データを使用して一致した各オブジェクトの音場記述データを決定する、請求項１０に記載の装置。
前記音場計算器は、１つまたは複数の不一致オブジェクトについて得られた前記到来方向データを使用して、前記不一致オブジェクトの音場データを計算するように構成される、
請求項９から１１のいずれか一項に記載の装置。
前記音場計算器は、前記１つまたは複数の一致するオブジェクトと前記１つまたは複数の不一致オブジェクトの前記音場記述データを組み合わせることにより、前記修正音場記述を計算するように構成される、
請求項９から１２のいずれか一項に記載の装置。
前記音場計算器は、パラメトリックベースの変換方法を実行するように構成される、請求項８に記載の装置。
前記音場計算器は、
音場モデルを仮定し、
前記仮定された音場の信号成分および／またはパラメータを推定し、
前記並進情報または前記異なる基準位置に応じて、前記信号成分および／または前記パラメータを修正し、
前記修正信号成分および／または前記修正パラメータを使用して前記修正音場記述を生成する、
ように構成される、請求項８または１４に記載の装置。
前記音場計算器は、前記音場の１つまたは複数の直接音成分と１つまたは複数の拡散音成分への分解を使用して、あるいは、前記音場の１つまたは複数の直接／主音成分と残留音成分への分解を使用することにより、前記信号成分および／または前記パラメータを推定するように構成され、前記残留音成分は、シングルチャネル信号またはマルチチャネル信号であってもよい、
請求項１５に記載の装置。
前記音場計算器は、前記修正音場記述の回転を適用するように構成される、
請求項８から１６のいずれか一項に記載の装置。
前記修正音場記述はアンビソニックス音場記述である、
請求項８から１２のいずれか一項に記載の装置。
前記音場計算器（４２０）は、
前記音場記述として、第１の音場記述と第２の音場記述を受け取り、
前記第１および前記第２の音場記述の音源分離を実行して、前記第１および前記第２の音場記述の音源と抽出された音源の到来方向（ＤｏＡ）データとを抽出し、
抽出された音源ごとに、前記ＤｏＡデータおよび前記並進情報を使用して、前記異なる位置についての修正ＤｏＡデータを計算し、
前記抽出された音源と前記修正ＤｏＡデータを処理して、前記修正音場記述を取得する、ように構成される、請求項８から１８のいずれか一項に記載の装置。
前記音場計算器（４２０）は、
各音場記述の前記音源分離を個別に実行し、各音場記述のアンビエンス／拡散／残差信号を抽出するように構成される、
請求項８から１９のいずれか一項に記載の装置。
前記並進情報または前記修正音場に対する意図されたリスナーの回転を示す回転情報を提供するための変換インターフェース（４１０）と、
前記音場計算器（４２０）に前記メタデータを提供するためのメタデータサプライヤ（４０２、４００）と、
前記音場計算器（４２０）に前記音場記述を提供するための音場サプライヤ（４０４、４００）と、
前記修正音場記述と、前記並進情報を使用して前記メタデータから導出された修正メタデータと、を含む前記修正音場を出力するための、または各スピーカチャネルが所定のスピーカ位置に関連する複数のスピーカチャネルを出力するための、または前記修正音場のバイノーラル表現を出力するための、出力インターフェース（４２１）と、
をさらに含む、請求項８から２０のいずれか一項に記載の装置。
前記音場記述は、複数の音場成分を含み、前記複数の音場成分は、全方向性成分および少なくとも１つの指向性成分を含み、
前記音場計算器は、
前記音場成分を解析して、異なる周波数ビンについて、到来方向情報を導出するための音場解析器（４２２）と、
前記方向情報およびメタデータを使用して、周波数ビンごとに修正到来方向情報を計算するための並進変換器（４２３）であって、前記メタデータは、距離情報を前記周波数ビンにより表された音源に関連付ける深度マップを含む、並進変換器（４２３）と、
前記音源の前記深度マップによって提供される距離に応じた距離補償情報と、前記修正到来方向情報に関連する前記周波数ビンに関連付けられた新しい距離と、を使用して、前記修正音場を計算するための距離補償器と、
を含む、請求項８から２１のいずれか一項に記載の装置。
前記音場計算器（４２０）は、１つまたは複数の音場について、
前記基準位置から前記音場の前記解析（１１０２）により得られた音源（５１０）を指す第１のベクトルを計算し（１１０４）、
前記第１のベクトルおよび前記並進情報を使用して、前記異なる基準位置（５００）から前記音源（５１０）を指す第２のベクトルを計算し（１１０６）、前記並進情報は、前記基準位置（５２２）から前記異なる基準位置（５００）への並進ベクトルを定義し、
前記異なる基準位置（５００）、前記音源（５１０）の位置、および前記第２のベクトルを使用して、あるいは、前記異なる基準位置（５００）から前記音源（５１０）の位置までの距離および前記第２のベクトルを使用して、距離修正値を計算する（１１０６）、
ように構成される、請求項８から２２のいずれか一項に記載の装置。
第１のベクトルは、到来方向の単位ベクトルに前記メタデータに含まれる距離を乗算することによって計算されるか、または、
第２のベクトルは、前記第１のベクトルから前記並進ベクトルを減算することによって計算されるか、または、
前記距離修正値は、前記第２のベクトルを前記第１のベクトルのノルムで除算することにより計算される、請求項８から２３のいずれか一項に記載の装置。
前記音場計算器（４２０）は、前記並進情報に加えて、回転情報を受け取るように構成され、
前記音場計算器（４２０）は、前記回転情報を使用して回転変換（４２４）を実行し、音場の到来方向データを回転させるように構成され、前記到来方向データは、前記音場記述の音場解析および前記並進情報を使用することにより得られた到来方向データから導出される、
請求項８から２４のいずれか一項に記載の装置。
前記音場計算器（４２０）は、
音場解析により前記音場記述および音源の方向から前記音源を決定し（１２００、１２４０）、
音源について、前記メタデータを使用して前記基準位置から前記音源までの距離を決定し（１２２０）、
前記音源の方向および前記並進情報を使用して、前記異なる基準位置に関連する前記音源の新しい方向を決定し（１２５０）、
前記異なる基準位置に関連する前記音源の新しい距離情報を決定し（１２３０）、
前記音源の前記新しい方向、前記新しい距離情報、および前記音場記述もしくは前記音場記述から導出された前記音源に対応する音源信号を使用して、前記修正音場を生成する（１２６０）、
ように構成される、請求項８から２５のいずれか一項に記載の装置。
前記音場計算器は、
前記音場記述から音源信号を決定し、音解析により前記基準位置に関連する前記音源信号の方向を決定し（１２００）、
前記並進情報を使用して、前記異なる基準位置に関連する前記音源信号の新しい方向を計算し（１２３０）、
前記異なる基準位置に関連する前記音源の距離情報を計算し（１２３０）、
前記距離情報、前記音源信号、前記新しい方向を使用して前記修正音場を合成する（１２６０）、
ように構成される、請求項８から２６のいずれか一項に記載の装置。
前記音場計算器（４２０）は、
再生設定に関連して前記新しい方向により与えられた方向に音源信号をパンニングすることにより、
ならびに前記パンニングを実行する前または前記パンニングを実行した後に、前記距離情報を使用して前記音源信号をスケーリングすることにより、前記修正音場を合成するように構成される、請求項２７に記載の装置。
前記音場計算器（４２０）は、拡散信号を前記音源信号の直接部分に追加するように構成され、前記直接部分は、前記拡散信号に追加される前に前記距離情報によって修正される、
請求項２７または２８に記載の装置。
前記音場計算器（４２０）は、
前記音場記述の時間－周波数変換を実行し、時間フレームの複数の周波数ビンの到来方向を計算し（４２２）、
周波数ビンごとに前記新しい方向を計算（４２３、４２４）し、
周波数ビンごとに前記距離情報を計算し、
周波数ビンのオーディオ信号、前記周波数ビンの前記新しい方向から導出された前記周波数ビンのパンニングゲイン、および前記対応する音源の前記距離情報から導出された前記周波数ビンのスケーリング係数を使用して、周波数ビンごとに直接合成を実行する、
ように構成される、請求項２７から２９のいずれか一項に記載の装置。
前記音場計算器（４２０）は、
前記周波数ビンの前記オーディオ信号から導出された拡散オーディオ信号を使用し、かつ前記周波数ビンの前記音解析によって導出された拡散度パラメータを使用して拡散合成を実行し、前記直接部分と前記拡散部分とを組み合わせて、前記周波数ビンの合成オーディオ信号を取得し、
時間フレームの前記周波数ビンの前記オーディオ信号を使用して周波数－時間変換を実行し、前記修正音場として時間領域合成オーディオ信号を取得する、
ように構成される、請求項３０に記載の装置。
前記音場計算器（４２０）は、音源ごとに、前記異なる基準位置に関連する音場を合成するように構成され、前記合成は、
音源ごとに、前記音源信号の前記新しい方向を使用して音源信号を処理して（４３０）、前記異なる基準位置に関連する前記音源信号の音場記述を取得し、
前記音源信号を処理する前に前記音源信号を修正するか、または前記方向情報を使用して前記音場記述を修正し、
前記音源の前記音場記述を追加して、前記異なる基準位置に関連する修正音場を取得する、
ことを含む、請求項２７から３１のいずれか一項に記載の装置。
前記音解析（１２００）は、音源分離アルゴリズムによって前記音源信号を決定し、前記拡散信号を取得するために前記音場記述から前記音源信号の少なくともいくつかを減算するように構成される、
請求項２７から３２のいずれか一項に記載の装置。
前記音場計算器（４２０）は、一致した各音源の到来方向情報を決定し、
前記到来方向情報および前記少なくとも１つの音場記述の前記メタデータを使用して、音源から前記新しい基準位置までの距離を決定し、
前記音源から前記新しい基準位置までの前記距離を使用してスケーリング係数を決定する、
ように構成される、請求項８から３３のいずれか一項に記載の装置。
前記音場計算器（４２０）は、
前記音場記述に対して音響解析（７００、７４０、７４１）を実行して、１つまたは複数の抽出されたオブジェクトの第１のグループ、または１つまたは複数の抽出されたオブジェクトの到来方向情報を取得し、さらなる基準位置に関連するさらなる音場記述に対して音響解析（７００、７４０、７４１）を実行して、１つまたは複数の抽出されたオブジェクトの第２のグループ、または前記メタデータを使用して１つまたは複数の抽出されたオブジェクトの到来方向情報を取得し、
前記グループからのオブジェクト信号または前記グループからのオブジェクトの到来方向情報を使用して前記第１のグループと前記第２のグループとを一致させて、少なくとも１つの一致したオブジェクトを見いだし（７０４）、
前記メタデータと、前記第１のグループを取得するために前記音響解析を実行して前記一致したオブジェクトについて取得した第１の到来方向情報と、前記第２のグループを取得するために前記音響解析を実行して前記一致したオブジェクトについて取得した第２の到来方向情報と、を使用して前記一致したオブジェクトの推定位置を計算し（７０６、７４６）、
前記推定位置と前記並進情報に基づいて、前記一致したオブジェクトに距離補償処理を適用する（７１０、７４８）、
ように構成される、請求項８から３４のいずれか一項に記載の装置。
前記音響解析は、ＤｉｒＡＣ解析（７４０、７４１）であり、各時間－周波数ビンの信号と、各時間－周波数ビンの到来方向の値と、任意選択で拡散度値が得られ、
個々の時間－周波数ビンごとに前記マッチングが実行され、少なくとも１つのビンが前記一致したオブジェクトとして決定され、
前記少なくとも１つのビンの推定位置が計算される（７４６）、
請求項３５に記載の装置。
前記音響解析は、ブロードバンド音源解析（７００）であり、抽出されたブロードバンド信号と、前記抽出されたブロードバンド信号の到来方向情報と、任意選択で拡散信号とが得られ、
前記音源マッチング（７０４）は、前記第１のグループから抽出されたブロードバンド信号と前記第２のグループから抽出されたブロードバンド信号のペアごとの相関尺度を使用して、前記抽出されたブロードバンド信号に対して実行され、
前記少なくとも１つの一致したブロードバンドオブジェクトの前記推定位置が計算される（７０６）、
請求項３５に記載の装置。
前記音場計算器（４２０）は、前記音場記述から導出された第１の到来方向情報と、前記さらなる音場記述から導出された前記第２の到来情報と、を受け取る三角測量計算を使用して、前記一致したオブジェクトの前記位置の前記計算を実行するように構成され、前記メタデータは、前記基準位置と前記さらなる基準位置との間のベクトルに関する情報が導出され得る情報を含む、
請求項３５から３７のいずれか一項に記載の装置。
前記音場計算器（４２０）は、前記異なる基準位置に関連する一致したオブジェクトの音場記述の計算のために、前記基準位置または前記並進情報によって決定されたリスナー位置への前記さらなる基準位置の距離に応じて、前記音場記述に関連するかまたは前記さらなる音場記述に関連する情報を選択するように構成される、
請求項１から３８のいずれか一項に記載の装置。
前記音場計算器は、
前記基準位置と前記新しいリスナー位置との間の第１の距離を計算し（７２０）、
前記さらなる基準位置と前記新しいリスナー位置との間の第２の距離を計算し（７２２）、
前記第１および前記第２の距離からの距離がより小さい基準位置を有する前記音場記述を選択する（７２４）、
ように構成される、請求項３９に記載の装置。
前記音場計算器は、一致したオブジェクトごとに、前記音場記述および前記さらなる音場記述から導出された前記到来方向情報の一方を使用して、新しい到来方向情報を計算するように構成される、
請求項３５から４０のいずれか一項に記載の装置。
前記音場計算器（４２０）は、一致したオブジェクトごとに、前記新しい到来方向情報を使用して音場記述を計算し、前記一致したオブジェクトの前記推定位置を使用して前記音源信号または前記音源信号の前記音場記述をスケーリングするように構成される、
請求項４０または４１のいずれか一項に記載の装置。
前記音場計算器（４２０）は、前記第１のグループからの各不一致オブジェクトの音場記述を計算し、前記対応する到来方向情報を使用して前記第２のグループからの各不一致オブジェクトの音場記述を計算するように構成される、
請求項３５から４２のいずれか一項に記載の装置。
前記音場計算器（４２０）は、前記一致したオブジェクトの前記音場記述と前記不一致オブジェクトの前記音場記述とを組み合わせる（７１２）ことにより、前記修正音場を計算するように構成される、
請求項４３に記載の装置。
前記音場計算器（４２０）は、前記第１のグループおよび前記第２のグループの少なくとも一方の拡散信号に関する情報を決定するように構成され、
前記音場計算器は、前記拡散信号を、一致したオブジェクトの音場記述または不一致オブジェクトの音場記述に追加するように構成される、
請求項３５から４４のいずれか一項に記載の装置。
拡張音場の記述を生成するための方法であって、
少なくとも１つの基準位置についての音場を示す少なくとも１つの音場記述を生成するステップと、
前記音場の空間情報に関連するメタデータを生成するステップと、を含み、
前記少なくとも１つの音場記述および前記メタデータは、前記拡張音場記述を構成する、方法。
音場記述および前記音場記述の空間情報に関連するメタデータから修正音場記述を生成するための方法であって、前記方法は、
前記空間情報、前記音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して前記修正音場を計算するステップを含む方法。
コンピュータまたはプロセッサで実行される場合に、請求項４６に記載の方法または請求項４７に記載の方法を実行するためのコンピュータプログラム。
少なくとも１つの基準位置に関する音場を示す少なくとも１つの音場記述、および前記音場の空間情報に関連するメタデータを含む、
拡張音場記述。
前記少なくとも１つの音場記述は、前記基準位置についての第１の音場記述と、さらなる基準位置についての第２の音場記述と、を含み、前記さらなる基準位置は前記基準位置とは異なり、
前記メタデータは、前記基準位置および前記さらなる基準位置を個別に、または前記基準位置と前記さらなる基準位置との間の距離を、または前記基準位置と前記さらなる基準位置との間の位置ベクトルを、または前記基準位置と前記さらなる基準位置に関連する情報を含む、
請求項４９に記載の拡張音場記述。