JP7122793B2

JP7122793B2 - 深度拡張ＤｉｒＡＣ技術またはその他の技術を使用して、拡張音場記述または修正音場記述を生成するための概念

Info

Publication number: JP7122793B2
Application number: JP2020500707A
Authority: JP
Inventors: ハーベッツ・エマニュエル; ハル・ユルゲン; プリング・アクセル; ティエガート・オリバー; クーヒ・ファビアン
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2017-07-14
Filing date: 2018-07-13
Publication date: 2022-08-22
Anticipated expiration: 2038-07-13
Also published as: CN111108555B; JP2020527887A; US20200154229A1; AU2018298878A1; AR112556A1; US11477594B2; EP3652737A1; KR102448736B1; TWI684978B; CA3069772C; SG11202000287RA; AU2021218089A1; KR20200041307A; WO2019012135A1; RU2736274C1; TW201919043A; KR20220044393A; CN111108555A; BR112020000779A2; CA3069772A1

Description

本発明は、オーディオ処理に関し、特に、マイクまたは仮想マイク位置などの基準位置に関して定義される音場に関するオーディオ処理に関する。

アンビソニックス信号は、音場の切り捨てられた球面調和分解を含む。アンビソニックスには様々なフレーバーがある。今日では「一次アンビソニックス」（ＦＯＡ）として知られ、４つの信号（すなわち、１つの全方向性信号と最大３つの８桁の方向信号）で構成される「伝統的な」アンビソニックス［３１］がある。より最近のアンビソニックス変形例は「高次アンビソンシス」（ＨＯＡ）として知られ、より多くの信号を伝送することを犠牲にして空間分解能を高め、リスナーのスイートスポット領域を大きくする。一般に、完全に定義されたＮ次のＨＯＡ表現は（Ｎ＋１）^２信号で構成される。

アンビソニックスのアイデアに関連して、方向性オーディオ符号化（ＤｉｒＡＣ）表現は、よりコンパクトなパラメトリックスタイルでＦＯＡまたはＨＯＡ音響シーンを表現するために考案された。より具体的には、空間音響シーンは、音響シーンと各時間－周波数（ＴＦ）ビンの方向と拡散度の関連するサイド情報のダウンミックスを表す１つ（または複数）の送信オーディオチャネルによって表される。ＤｉｒＡＣについてのさらなる情報は、［３２、３３］にある。

ＤｉｒＡＣ［３２］は、様々なマイクシステムおよび任意のスピーカ設定で使用できる。ＤｉｒＡＣシステムの目的は、マルチチャネル／３Ｄスピーカシステムを使用して、既存の音響環境の空間的な印象を可能な限り正確に再現することである。選択された環境内で、応答（連続音またはインパルス応答）は、全方向性マイク（Ｗ）と、音の到来方向と音の拡散度を測定できるマイクのセットで測定される。一般的な方法は、対応するデカルト座標軸に合わせて３つの８の字型マイク（Ｘ、Ｙ、Ｚ）を適用することである［３４］。これを行う方法は、音場マイクを使用することであり、これにより、希望するすべての応答が直接得られる。Ｗ、Ｘ、Ｙ、およびＺ信号は、個別の全方向性マイクのセットから計算することもできる。

ＤｉｒＡＣでは、人間の聴覚システムの周波数選択性に従って、音響信号がまず周波数チャネルに分割される。音の方向と拡散度は、各周波数チャネルの時間に応じて測定される。伝送では、解析された方向および拡散度データと共に、１つまたは複数のオーディオチャネルが送信される。合成では、スピーカに適用されるオーディオは、例えば、全方向性チャネルＷであるか、または、各スピーカの音は、Ｗ、Ｘ、Ｙ、およびＺの重み付き合計として計算することができ、これは、各スピーカの特定の指向特性を有する信号を形成する。各オーディオチャネルは周波数チャネルに分割され、解析された拡散度に応じて、任意選択で拡散ストリームと非拡散ストリームに分割される。拡散ストリームは、例えばバイノーラルキュー符号化［３５－３７］で使用される非相関技術など、音響シーンの拡散知覚を生成する技術で再現される。非拡散音は、方向データ（ＶＢＡＰ［３８］など）に従って点状の仮想音源を生成することを目的とする手法で再現される。

自由度が制限された６ＤｏＦでのナビゲーションのための３つの手法が［３９］で提案されている。単一のアンビソニックス信号が与えられた場合、単一のアンビソニックス信号は以下を使用して計算される。１）仮想スピーカアレイ内でのＨＯＡ再生とリスナーの動きのシミュレーション、２）平面波に沿った計算と変換、３）リスナーに関する音場の再拡張。

さらに、ＤｉｒＡＣ技術については、例えば、出版物「ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ－Ｐｅｒｃｅｐｔｉｏｎ－ＢａｓｅｄＲｅｐｒｏｄｕｃｔｉｏｎｏｆＳｐａｔｉａｌＳｏｕｎｄ」、Ｖ．Ｐｕｌｋｋｉｅｔａｌ、ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎｔｈｅＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｎＳｐａｔｉａｌＨｅａｒｉｎｇ，Ｎｏｖｅｍｂｅｒ１１－１３，２００９，Ｚａｏ，Ｍｉｙａｇｉ，Ｊａｐａｎを参照されたい。この参考文献は、特に空間オーディオ処理のための知覚的に動機付けられた技術として、音場処理に関連する基準位置の例として指向性オーディオ符号化について説明している。

音響シーンの再現は、多くの場合、スピーカの設定に焦点を当てているが、これは、プライベート（リビングルームなど）やプロのコンテキスト（映画館など）での典型的な再現であったためである。ここでは、シーンと再現ジオメトリの関係は静的であり、リスナーが正面方向を見るように強制する２次元画像を伴う。その後に、音響オブジェクトと視覚オブジェクトの空間関係が定義され、制作時に固定される。

仮想現実（ＶＲ）では、ユーザがシーン内を自由に移動できるようにすることで、没入感が明示的に実現される。したがって、ユーザの動きを追跡し、視覚と聴覚の再現をユーザの位置に調整する必要がある。通常、ユーザはヘッドマウントディスプレイ（ＨＭＤ）とヘッドフォンを装着している。ヘッドフォンで没入型の体験をするには、オーディオをバイノーラル化する必要がある。バイノーラル化は、人間の頭、耳、上半身が方向と距離に応じて音源の音をどのように変化させるかのシミュレーションである。これは、相対的な方向の頭部伝達関数（ＨＲＴＦ）で信号を畳み込むことで実現される［１、２］。バイノーラル化により、音は頭の内側からではなく、シーンから来ているように見える［３］。既に良好に対処されている一般的なシナリオは、３６０°ビデオ再生である［４、５］。ここでは、ユーザはＨＭＤを装着しているか、タブレットまたは電話を手に持っている。頭またはデバイスを動かすことにより、ユーザはあらゆる方向を見ることができる。これは、ユーザが３つの運動度（ピッチ、ヨー、ロール）を有するため、３自由度（３ＤｏＦ）のシナリオである。視覚的には、これはユーザの周囲の球体にビデオを投影することで実現される。多くの場合、オーディオはビデオカメラの近くの空間マイク［６］、例えば１次アンビソニックス（ＦＯＡ）で録音される。アンビソニックスドメインでは、ユーザの頭の回転は簡単な方法で適応される［７］。次に、オーディオは、例えば、ユーザの周囲に配置された仮想スピーカにレンダリングされる。次に、これらの仮想スピーカ信号がバイノーラル化される。

最新のＶＲ用途では、６自由度（６ＤｏＦ）が可能である。頭の回転に加えて、ユーザは動き回ることができ、その結果、３次元でのユーザの位置が並進される。６ＤｏＦ再生は、歩行エリアの全体的なサイズによって制限される。多くの場合、この領域はかなり小さく、例えば従来のリビングルームである。６ＤｏＦは、一般的にＶＲゲームで遭遇する。ここでは、シーン全体がコンピュータ生成画像（ＣＧＩ）で合成されている。多くの場合、オーディオはオブジェクトベースのレンダリングを使用して生成され、各オーディオオブジェクトは、追跡データに基づいてユーザからの距離に依存するゲインと相対方向でレンダリングされる。現実性は、人工的な残響と回折によって強化できる［８、９、１０］。

記録されたコンテンツに関して、視聴覚６ＤｏＦ再生を確信させるためのいくつかの明確な課題がある。空間並進ドメインにおける空間音響操作の初期の例は、「音響ズーム」技術の例である［１１、１２］。ここで、リスナーの位置は、画像にズームインするのと同様に、記録された視覚シーンに仮想的に移動する。ユーザは１つの方向または画像部分を選択し、変換されたポイントからこれを聞くことができる。これは、すべての到来方向（ＤｏＡ）が元のズームされていない複製に対して変化していることを伴う。

記録されたコンテンツの６ＤｏＦ再生のための方法は、空間的に分布する記録位置を使用して提案されてきた。ビデオの場合、カメラのアレイを使用して明視野レンダリングを生成できる［１３］。オーディオの場合、同様の設定では、分散マイクアレイまたはアンビソニックスマイクを使用する。そのような録音から任意の位置に置かれた「仮想マイク」の信号を生成することが可能であることが示されている［１４］。

技術的に便利な方法でこのような空間音の修正を実現するために、パラメトリックな音処理または符号化技術を使用できる（概要については［１５］を参照）。指向性オーディオ符号化（ＤｉｒＡＣ）［１６］は、録音をオーディオスペクトルと、音の方向と拡散度に関するパラメトリックなサイド情報で構成される表現に変換する一般的な方法である。これは、音響ズーム［１１］および仮想マイク［１４］用途に使用される。

ここで提案する方法は、単一のＦＯＡマイクの録音から６ＤｏＦ再生を可能にする。単一の空間位置からの録音は、３ＤｏＦ再生または音響ズームに使用されている。しかし、発明者らの知る限り、このようなデータからインタラクティブで完全な６ＤｏＦを再生する方法はこれまで提案されていない。録音中の音源の距離に関する情報を統合することにより、６ＤｏＦ再生を実現する。この距離情報は、変更されたリスナーの視点が正しくマッピングされるように、ＤｉｒＡＣのパラメータ表現に組み込まれる。リスニングテストで評価するために、隠された基準とアンカー（ＭＵＳＨＲＡ）パラダイム［１７］を備えた複数の刺激がＶＲに適合する。ＣＧＩと合成的に生成された音響を使用することにより、比較用のオブジェクトベースの基準を作成することができる。ユーザの追跡位置で仮想ＦＯＡ録音が行われ、６ＤｏＦで調整された信号がレンダリングされる。提案された方法に加えて、距離情報および並進のない再生がリスニングテストの条件として提示された。

アンビソニックスの音場表現（通常のＦＯＡまたはＨＯＡアンビソニックスとして、またはＤｉｒＡＣスタイルのパラメトリック音場表現として）はいずれも、６ＤｏＦ用途に必要なリスナーの位置の並進シフトを可能にする十分な情報を提供しないが、それはこれらのフォーマットでは、オブジェクトの距離も音響シーン内のオブジェクトの絶対位置も決定されないためである。リスナーの位置のシフトは、反対方向の音響シーンの同等のシフトに変換できることに留意されたい。

６ＤｏＦで移動する場合の典型的な問題を図１ｂに示す。音響シーンがアンビソニックスを使用して位置Ａで記述されていると仮定する。この場合、音源Ａと音源Ｂからの音は同じ方向から到着する。すなわち、同じ方向の到来方向（ＤＯＡ）を有する。位置Ｂに移動した場合、音源Ａと音源ＢのＤＯＡは異なる。音場の標準的なアンビソニックス記述を使用して、すなわち、追加情報なしでは、位置Ａのアンビソニックス信号が与えられると、位置Ｂのアンビソニックス信号を計算することはできない。

ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ－Ｐｅｒｃｅｐｔｉｏｎ－ＢａｓｅｄＲｅｐｒｏｄｕｃｔｉｏｎｏｆＳｐａｔｉａｌＳｏｕｎｄ、Ｖ．Ｐｕｌｋｋｉｅｔａｌ、ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎｔｈｅＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｎＳｐａｔｉａｌＨｅａｒｉｎｇ，Ｎｏｖｅｍｂｅｒ１１－１３，２００９，Ｚａｏ，Ｍｉｙａｇｉ，Ｊａｐａｎ

本発明の目的は、改善された、または柔軟な、または効率的な処理を可能にし、一方で拡張音場記述または他方で修正音場記述の生成を提供することである。

この目的は、請求項１の拡張音場記述を生成する装置、請求項１０の修正音場記述を生成する装置、請求項２７の拡張音場記述を生成する方法、請求項２８の修正音場記述を生成する方法、請求項２９のコンピュータプログラム、または請求項３０の拡張音場記述によって達成される。

本発明は、基準位置に関連する典型的な音場記述には、これらの音場記述を処理することができる追加情報が必要であるという知見に基づくものであり、そのようにすれば、元の基準位置になく、別の基準位置に関連しない修正音場記述を算出することができる。この目的のために、この音場の空間情報に関連するメタデータが生成され、メタデータは音場記述と共に、例えば送信または保存できる拡張音場記述に対応する。音場記述およびメタデータ、具体的には音場記述の空間情報に関連するメタデータから、修正音場記述を生成するために、空間情報、音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して、修正音場が計算される。したがって、音場記述と、音場記述の基礎となるこの音場の空間情報に関連するメタデータで構成される拡張音場記述が処理されて、修正音場記述が取得され、修正音場記述は、例えばデコーダ側で提供または使用できる追加の並進情報によって定義される別の基準位置に関連している。

しかし、本発明は、エンコーダ／デコーダのシナリオに関連するだけでなく、拡張音場記述の生成と修正音場記述の生成の両方が基本的に１つの同じ場所で行われるアプリケーションにも適用することができる。修正音場記述は、例えば、修正音場自体の記述、または実際にはチャネル信号、バイノーラル信号の修正音場、または再び関連する基準位置関連の音場、しかし、元の基準位置ではなく新しいまたは異なる基準位置に関連する基準位置に関連する音場であってもよい。このようなアプリケーションは、例えば、メタデータと一緒に音場記述が存在し、リスナーが、音場が与えられた基準位置から出て別の基準位置に移動する仮想現実のシナリオであって、そこでは、仮想エリア内を動き回るリスナーの音場は、現在ユーザが移動した別の基準位置での音場に対応するように計算される。

好ましい実施形態では、音場生成器は、１つもしくは複数のダウンミックス信号および個別方向データ、ならびに任意選択で異なる時間－周波数ビンに対する拡散データを有する音場のＤｉｒＡＣ記述を生成する。このコンテキストでは、メタデータ生成器は、異なる時間－周波数ビンの追加の個々の距離または深度情報をメタデータとして生成するように構成されている。特に、好ましい実施形態では、空間情報に関連するメタデータは、特定の距離を到来方向情報などの特定の位置情報に関連付ける深度マップである。

実施形態では、到来方向は、仰角のみ、方位角のみ、または両方の角度によって与えられ、深度マップは、各位置情報または到来方向情報（ＤｏＡ情報）に、メートル単位の距離、相対距離、量子化された絶対距離、相対距離、または他の任意の距離情報などの特定の距離情報を関連付けて、最後に、音場が関連する基準位置に関する距離を導出することができる。

続いて、他の好ましい実施態様の概要を説明する。

アンビソニックスは、仮想現実、拡張現実、複合現実アプリケーションのコンテキストで、３Ｄオーディオで最も一般的に使用されるフォーマットの１つになった。アンビソニックスフォーマットの出力信号を生成する、様々なオーディオ取得および制作ツールが開発されている。双方向の仮想現実（ＶＲ）アプリケーションでアンビソニックス符号化されたコンテンツを表示するために、アンビソニックスフォーマットは再生用のバイノーラル信号またはチャネルに変換される。前述のアプリケーションでは、リスナーは通常、提示されたシーンにおける自分の向きを対話形式で変更することができ、音響シーンで頭を回転させて３自由度（３ＤｏＦ、すなわち、ピッチ、ヨー、およびロール）を可能にして、適切な音質を経験することができる。これは、頭の向きに従ってレンダリングする前に音響シーンを回転させることで実現され、これは、計算の複雑さを低く抑えて実施することができ、アンビソニックス表現の利点である。しかし、ＶＲなどの新しいアプリケーションでは、方向の変化（いわゆる「６自由度」または６ＤｏＦ）だけでなく、ユーザが音響シーンで自由に移動できるようにすることが望まれる。結果として、音響シーンの遠近感を変更する（すなわち、ｘ、ｙ、またはｚ軸に沿って音響シーン内を仮想的に移動する）ために信号処理が必要である。しかし、アンビソニックスの主な欠点は、フォーマットが音響シーンの単一の視点から音場を記述することである。具体的には、６ＤｏＦで必要とされるような音響シーンをシフト（「並進」）できる音響シーン内の音源の実際の場所に関する情報は含まれていない。本発明の説明は、アンビソニックスのいくつかの拡張を提供して、この問題を克服し、並進も容易にし、したがって真の６ＤｏＦを可能にする。

一次アンビソニックス（ＦＯＡ）録音は、ヘッドフォンで処理および再生できる。それらは、リスナーの頭の向きに合わせて回転させることができる。しかし、仮想現実（ＶＲ）システムでは、リスナーは６自由度（６ＤｏＦ）、すなわち３つの回転自由度と３つの遷移自由度で移動できる。ここで、音源の見かけの角度と距離は、リスナーの位置に依存する。６ＤｏＦを容易にする手法について説明する。特に、ＦＯＡ録音は、リスナーの位置と音源までの距離に関する情報に基づいて修正されるパラメトリックモデルを使用して記述される。この方法は、リスニングテストによって評価され、リスナーが自由に移動できる合成音響シーンの異なるバイノーラルレンダリングを比較する。

さらに好ましい実施形態では、拡張音場記述は、送信または保存のための出力信号を生成するための出力インターフェースによって出力され、出力信号は、時間フレームについて、時間フレームの音場および空間情報から導出された１つまたは複数のオーディオ信号を含む。特に、音場生成器は、さらなる実施形態では、音場から方向データを導出するように適応可能であり、方向データは、ある期間または周波数ビンの音の到来方向を指し、メタデータ生成器は、距離情報を方向データに関連付けるデータ項目として空間情報を導出するように構成される。

特に、このような実施形態では、出力インターフェースは、時間フレームのデータ項目が異なる周波数ビンの方向データにリンクされるように出力信号を生成するように構成される。

さらなる実施形態では、音場生成器はまた、音場の時間フレームの複数の周波数ビンについて拡散度情報を生成するように構成され、メタデータ生成器は、拡散度の値が所定のしきい値または適応しきい値よりも低い場合に、所定の値と異なる、または無限と異なる周波数ビンの距離情報のみを生成するか、または周波数ビンの距離値をとにかく生成するように構成される。したがって、拡散度の高い時間／周波数ビンの場合、距離値がまったく生成されないか、またはデコーダによって特定の方法で解釈される所定の距離値が生成される。したがって、高い拡散度を有する時間／周波数ビンについては、距離に関連するレンダリングは実行されないことが確認されるが、それは、高い拡散度は、そのような時間／周波数ビンに対して、音が特定の局在化した音源から来るのではなく、任意の方向から来るからであり、したがって、音場が元の基準位置で知覚されるか、異なるまたは新しい基準位置で知覚されるかに関係なく同じであるからである。

音場計算器に関して、好ましい実施形態は、並進情報または修正音場に対する意図されたリスナーの回転を示す回転情報を提供するための変換インターフェースと、メタデータを音場計算器に提供するためのメタデータサプライヤと、音場記述を音場計算器に提供するための音場サプライヤと、さらに、修正音場記述および修正メタデータを含む修正音場を出力するための出力インターフェースと、を含み、修正メタデータは、並進情報を使用してメタデータから導出され、または、出力インターフェースは複数のスピーカチャネルを出力し、各スピーカチャネルは、所定のスピーカ位置に関連付けられ、または、出力インターフェースは、修正音場のバイノーラル表現を出力する。

一実施形態では、音場記述は複数の音場成分を含む。複数の音場成分は、全方向性成分と少なくとも１つの指向性成分を含む。そのような音場記述は、例えば、全方向性成分と３つの指向性成分Ｘ、Ｙ、Ｚを有する１次アンビソニックス音場記述であるか、または、そのような音場は、全方向成分、Ｘ、Ｙ、およびＺ方向に関する３つの方向成分と、さらに、Ｘ、Ｙ、Ｚ方向以外の他の方向に関連するさらなる方向性成分と、を含む高次アンビソニックス記述である。

一実施形態では、装置は、音場成分を解析して、異なる時間または周波数ビンについて、到来方向情報を導出するための解析器を含む。装置は、ＤｏＡ情報およびメタデータを使用して周波数または時間ビンごとに修正ＤｏＡ情報を計算するための並進変換器をさらに含み、メタデータは、距離を時間または周波数ビンのＤｏＡ情報に関連付ける深度マップに関連する。

さらに、音場計算器は、周波数または時間ビンの深度マップから、ならびに時間または周波数ビンに関連付けられた新しい距離から提供される距離に依存する距離補償情報を使用して修正音場を計算するための距離補償器を有し、新しい距離は修正ＤｏＡ情報に関連する。

一実施形態では、音場計算器は、基準位置から音場の解析によって得られた音源を指す第１のベクトルを計算する。さらに、音場計算器は、異なる基準位置から音源を指す第２のベクトルを計算し、この計算は第１のベクトルと並進情報を使用して行われる。並進情報は、基準位置から異なる基準位置への並進ベクトルを定義する。そして、別の基準位置から音源までの距離が第２のベクトルを使用して計算される。

さらに、音場計算器は、並進情報に加えて、ピッチ、ヨー、およびロールによって与えられる３つの回転方向のうちの１つでのリスナーの頭の回転を示す回転情報を受け取るように構成される。次に、音場計算器は、回転情報を使用して回転変換を実行し、音場の修正された到来方向データを回転させるように構成され、修正された到来方向データは、音場記述の音解析および並進情報により得られた到来方向データから導出される。

一実施形態では、音場計算器は、音場記述から音源信号を決定し、音解析によって基準位置に関連する音源信号の方向を決定するように構成される。

次に、異なる基準位置に関連する音源の新しい方向が計算され、これはメタデータを使用して行われ、次に、異なる基準位置に関連する音源の距離情報が計算され、その後に、修正音場が距離情報と音源の新しい方向を使用して合成される。

一実施形態では、音場合成は、再生設定に関して新しい方向情報によって与えられる方向に音源信号をパンニングすることによって実行され、音源信号のスケーリングは、パンニングを実行する前またはパンニングを実行した後に距離情報を使用して行われる。

さらなる実施形態では、音源信号の拡散部分が音源信号の直接部分に追加され、直接部分は、拡散部分に追加される前に距離情報によって修正される。

特に、新しい方向情報が各周波数ビンに対して計算されるスペクトル表現で音源合成を実行することが好ましく、各周波数ビンについて距離情報が計算され、周波数ビンのオーディオ信号を使用した各周波数ビンの直接合成が、周波数ビンのオーディオ信号、新しい方向情報から導出された周波数ビンのパンニングゲイン、および周波数ビンの距離情報から導出された周波数ビンのスケーリング係数を使用して実行される。

さらに、周波数ビンからのオーディオ信号から導出された拡散オーディオ信号と、周波数ビンの信号解析から導出された拡散パラメータを使用して拡散合成が実行され、直接信号と拡散信号を組み合わせて時間または周波数ビンの合成オーディオ信号を取得し、次に他の時間／周波数ビンのオーディオ信号を使用して周波数－時間変換を実行して、時間領域の合成オーディオ信号を修正音場として取得する。

したがって、一般に、音場計算器は、例えば、音源ごとに、音源信号の新しい方向を使用して音源信号を処理することにより、異なる基準位置に関連する音場を音源ごとに合成し、異なる／新しい基準位置に関連する音源信号の音場記述を取得するように構成される。さらに、音源信号は、音源信号を処理する前、または方向情報を使用して音源信号を処理した後に修正される。そして最後に、音源の音場記述を一緒に追加して、異なる基準位置に関連する修正音場を取得する。

さらなる実施形態では、音場計算器は、ＤｉｒＡＣ解析または他の任意の音源解析の代わりに、音源分離アルゴリズムを実行する。音源分離アルゴリズムは、最終的には、例えば時間領域または周波数領域の音源信号になる。次に、拡散信号は、元の音場が拡散信号といくつかの音源信号に分解されるように、元の音場から音源信号を減算することによって計算され、各音源信号は特定の方向に関連付けられている。

本発明の好ましい実施形態は、添付の図面に関して以下で説明される。

拡張音場記述を生成する装置の好ましい実施形態を示す図である。本発明の基礎にある例示的な問題を説明する図である。拡張音場記述を生成するための装置の好ましい実施態様を示す図である。オーディオデータ、およびオーディオデータのサイド情報を含む拡張音場記述を示す図である。深度マップなどの空間情報に関連するオーディオデータおよびメタデータを含む拡張音場を示すさらなる図である。メタデータを音場記述に関連付けるための他のフォーマットを示す図である。メタデータを音場記述に関連付けるためのさらなるフォーマットを示す図である。修正音場記述を生成する装置の実施態様を示す図である。修正音場記述を生成するための装置のさらなる実施態様を示す図である。修正音場記述を生成するための装置のさらなる実施形態を示す図である。モノラル信号および到来方向データなどのオーディオ信号から音場記述を生成するための例示的なデバイスを示す図である。空間オーディオの６ＤｏＦ再生を示す図である。拡張音場記述を生成するための装置と、修正音場記述を生成するための装置とを含む第６のＤｏＦ再生の好ましい実施形態を示す図である。仮想現実シーンの表現を示す図である。仮想現実におけるＭＵＳＨＲＡパネルを示す図である。箱ひげ図としてＭＵＳＨＲＡの評価を示す図である。基準レンダリングおよびＤｉｒＡＣの信号経路を示す図である。修正音場記述を生成するための装置の好ましい実施態様を示す図である。新しい／異なる基準位置に対する音源の新しいＤｏＡおよび新しい距離を計算するための好ましい実施態様を示す図である。修正音場記述を生成するための装置のさらに好ましい実施態様を示す図である。従来技術のＤｉｒＡＣ解析の実施態様を示す図である。従来技術のＤｉｒＡＣ合成の実施態様を示す図である。

前述のアンビソニックス／ＤｉｒＡＣ表現に対して６ＤｏＦアプリケーションを有効にするには、変換処理に不足している情報を提供する方法でこれらの表現を拡張する必要がある。この拡張は、例えば、１）オブジェクトの距離または位置を既存のシーン表現に追加すること、および／または２）個々のオブジェクトを分離するプロセスを容易にする情報を追加すること、ができることに留意されたい。

さらに、既存の（非パラメトリックまたはパラメトリック）アンビソニックスシステムの構造を保存／再利用して、以下の意味でこれらの表現／システムとの下位互換性を提供することが実施形態の目的である。

・拡張表現は、既存の非拡張表現（例えば、レンダリング用）に変換できること、ならびに
・拡張表現を使用する場合、既存のソフトウェアおよびハードウェアの実施態様を再利用できること。

以下では、いくつかのアプローチ、すなわち、１つの限定された（しかし非常に単純な）アプローチと、６ＤｏＦを有効にする３つの異なる拡張アンビソニックスフォーマットについて説明する。

先端技術のセクションで説明したように、従来のＤｉｒＡＣは、ＴＦ（時間周波数）ビンごとの方向と拡散度を特徴付けるパラメトリックなサイド情報を搬送する。既存のＤｉｒＡＣフォーマットの拡張は、ＴＦビンのすべてではないが、それぞれまたはいくつかのＴＦビンの深度情報をさらに提供する。方向情報と同様に、深度情報の関連性は実際の拡散度に依存する。拡散度が高いということは、方向と深度の両方が関係しないことを意味する（実際、拡散度の値が非常に高い場合は省略できる）。

深度拡張ＤｉｒＡＣは、ＴＦビンごとに１つのオブジェクトの方向と深度情報のみを搬送することができるため、完全な６ＤｏＦソリューションを提供しないことに留意されたい。

深度情報は、オーディオ信号またはビデオ信号のいずれかから推定することができ（例えば、立体視（３Ｄ）撮像／ビデオまたは明視野で一般的に使用される深度マップ）、あるいは、局所化された音源を使用した音響合成によって音場が生成されたときに、特に手動または自動で追加することができ、出力インターフェース４２８による生成の結果を出力することができることに留意されたい。

図１ａは、少なくとも１つの基準位置に関する音場を示す少なくとも１つの音場記述を生成するための音場（記述）生成器１００を含む、拡張音場記述を生成するための装置を示す。さらに、装置は、音場の空間情報に関するメタデータを生成するためのメタデータ生成器１１０を含む。メタデータは、入力として、音場を受け取るか、その代わりにまたはさらに、音源に関する個別の情報を受け取る。

音場記述生成器１００およびメタデータ生成器１１０の両方の出力は、拡張音場記述を構成する。一実施形態では、音場記述生成器１００およびメタデータ生成器１１０の両方の出力をコンバイナ１２０または出力インターフェース１２０内で結合して、空間メタデータまたはメタデータ生成器１１０によって生成された音場の空間情報を含む拡張音場記述を得ることができる。

図１ｂは、本発明によって対処される状況を示している。例えば、位置Ａは少なくとも１つの基準位置であり、音源Ａと音源Ｂによって音場が生成され、位置Ａにある特定の実際のマイクまたは例えば仮想マイクが音源Ａおよび音源Ｂからの音を検出する。音は、放出音源から来る音の重ね合わせである。これは、音場記述生成器によって生成された音場記述を表す。

さらに、メタデータ生成器は、特定の実施態様により、音源Ａに関する空間情報と、これらの音源から位置Ａなどの基準位置までの距離などの音源Ｂに関する別の空間情報と、を導出する。

当然、基準位置は代わりに位置Ｂであってもよい。次に、実際のマイクまたは仮想マイクを位置Ｂに配置し、音場記述は、例えば、１次アンビソニックス成分または高次アンビソニックス成分、または少なくとも１つの基準位置、つまり位置Ｂに関する音場を記述する可能性を有する他の任意の音響成分で表される音場である。

メタデータ生成器は、音源に関する情報として、音源Ａから位置Ｂまでの距離、または音源Ｂから位置Ｂまでの距離を生成してもよい。音源に関する代替情報は、もちろん、基準位置に対する絶対位置または相対位置であってもよい。基準位置は、一般的な座標系の原点にすることも、一般的な座標系の原点に対して定義された関係に配置することもできる。

他のメタデータには、１つの音源の絶対位置や、第１の音源に対する他の音源の相対位置などがある。

図２は、音場記述生成器の好ましい実施態様を示している。音場記述生成器は、例えば、入力音場から図２に示す１次アンビソニックス表現などの音場成分を、全方向成分ｗ、および３つの方向成分ｘ、ｙ、ｚとして生成する実マイクまたは仮想マイク２００で構成することができる。

この音場記述に基づいて、ダウンミキサーをさらに含むことができる音場解析器２１０は、モノラルまたはステレオダウンミックスと、例えば時間フレームごとまたは周波数ビンごと、または一般に時間／周波数ビンごとの到来方向ＤｏＡパラメータなどの追加パラメータと、さらに、同じまたはより少数の時間／周波数ビンの拡散度情報で構成されるパラメトリック音場記述を生成する。

さらに、メタデータ生成器１１０は、例えば、各到来方向またはＤｏＡ情報に、絶対的または相対的な用語で特定の距離を関連付ける深度マップを生成する深度マップ生成器として実装される。さらに、メタデータ生成器１１０は、好ましい実施形態では、時間／周波数ビンの拡散度パラメータによっても制御される。この実施態様では、メタデータ生成器１１０は、特定の所定のしきい値または適応しきい値よりも高い拡散度を有する時間および／または周波数ビンについての距離情報を生成しないように実装される。これは、特定の時間または周波数ビンが高い拡散度を示す場合、この時間または周波数ビンには局所化された音源は存在せず、すべての方向から来る拡散音のみが存在するという結論を導くことができるという事実によるものである。したがって、このような周波数ビンの時間に対して、メタデータ生成器は、深度マップ内で、図２の「Ｎ．Ａ」で示される値をまったく生成しないか、あるいは、メタデータ生成器は、高い、無限大、または時間／周波数ビンの局所化されていない音源を示す値としてデコーダによって認識される他の値のコードなどの所定の値を有する距離値を導入する。

次に、基準位置に関連する空間パラメータと共に、モノ／ステレオダウンミックス表現に対応する音場解析器２１０によって生成された深度マップおよび音場記述は、コンバイナ１２０内で組み合わされて、拡張音場記述を生成する。

図３ａは、拡張音場記述を含むビットストリームまたは一般的なデータストリームの一例を示している。データストリームは、符号３０２、３０４、３０６で示されるように時間フレームｉ、ｉ＋１などを含み、ブロック３１０、３１２で示されるように対応する時間フレームの関連するサイド情報を含む。この実施形態では、サイド情報は、符号３１４で示されるように時間／周波数ビンごとの到来方向情報、および任意選択で、項目３１６によって示されるように時間／周波数ビンごとの拡散度値を含み、さらに、フレームｉについては、深度マップ３２０を含む。例示的な深度マップも、項目３２２、３２４によって示される図３ａに示されている。項目３２２は、例えば、例示的に１０°の増分で方位角方向に０°から３５０°の間で広がる異なるＤｏＡ情報を示す。加えて、項目３２４は、特定のＤｏＡ値に関連付けられた対応する距離値を示している。このような深度マップは、各高さ増分に対して生成され、最終的に、深度マップは、方位角と仰角の各組み合わせ、すなわち各ＤｏＡ情報に特定の距離値を関連付ける。

当然、深度マップを生成および送信する他のおそらくより効率的な方法を実行することができ、その方法では、通常、特定のしきい値よりも低い拡散度を有する特定の時間フレーム内の周波数ビンに対して発生する各ＤｏＡ値について距離が存在する。

図３ｂは、図２の音場解析器２１０が実際にダウンミックスを生成しないが、ＢフォーマットおよびＡフォーマットまたは特定の期間の高次表現などのその他の完全な表現を生成する別の実施態様を示す。次に、深度マップ３２０ａおよび別の深度マップ３２０ｂが、図３ｂの符号３２６で示されるオーディオ信号表現に関連付けられる。例えば、Ｂフォーマットまたは高次表現が関連付けられている期間が複数の個別の期間を含む場合、およびこれらの期間内に音源の位置の変化が発生した場合、第１の期間ｉの深度マップ３２０ａおよび項目３２０ｂで示される期間ｉ＋１の別の深度マップは、オーディオ信号表現３２６に関連付けられる。概説したように、図３ｂのオーディオ信号表現は、図３ａの表現とは異なるが、それは、図３ａには、ダウンミックスまたはｗ成分の表現と、さらに、異なる時間フレームでの表現のみがあるが、図３ｂには、個々の時間フレームに分離されないが、項目３２６が与えられている期間と比較してより小さな時間増分の深度マップに関連付けられた３つ以上の指向性成分を有する完全な指向性成分表現を有する別のオーディオ信号表現があるからである。図３ｂではシーケンシャルフォーマットとして示されているが、パラレルフォーマットまたはパラレルとシリアルの混合、またはＭＰ４コンテナフォーマットなどの特定の他のフォーマットを使用できることに留意されたい。

図３ｃおよび図３ｄは、メタデータをＢフォーマットまたは高次表現の形式で音場記述に関連付ける他のフォーマットを示している。インデックスｉ、ｉ＋１は時間を表し、インデックス（１）、（２）、（Ｎｉ）は方向を表す。

図４ａは、音場記述および音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置の好ましい実施態様を示している。特に、装置は、メタデータ、音場記述、および基準位置から異なる基準位置への並進を示す並進情報を使用して修正音場を生成する音場計算器４２０を含む。

例えば、図１ｂの位置Ａに関して音場が与えられた場合、異なる基準位置は位置Ｂになり、並進情報は、例えば位置Ａから位置Ｂへの変換を示すベクトルになる。次に、音場計算器４２０は、あたかも位置Ｂにいるリスナーによって知覚されるかのように修正音場を計算し、この計算のために、音場計算器は、位置Ａに関連する音場記述と並進情報、さらに音源Ａと音源Ｂの空間位置に関連するメタデータを有する。

一実施形態では、音場計算器４２０は、例えば図１ａまたは２に関して説明したように拡張音場記述を受信するための入力インターフェース４００に接続され、入力インターフェース４００は、一方で、音場記述、すなわち、図１ａのブロック１００または図２のブロック２１０によって生成されたものを分離する。さらに、入力インターフェース４００は、拡張音場記述、すなわち図３ａの項目３１０、３１２または図３ｂの３２０ａ、３２０ｂからメタデータを分離する。

さらに、変換インターフェース４１０は、並進情報および／または追加のまたは別個の回転情報をリスナーから取得する。変換インターフェース４１０の実施態様は、仮想現実環境における頭部の回転を追跡するだけでなく、ある位置、すなわち図１ｂの位置Ａから別の位置、すなわち図１ｂの位置Ｂへの頭部の並進も追跡する頭部追跡ユニットであってもよい。

図４ｂは、図１ａと同様の別の実施態様を示しているが、エンコーダ／デコーダのシナリオには関係していないが、メタデータサプライヤ４０２によって示されるメタデータの供給が行われる一般的なシナリオに関係しており、音場サプライヤ４０４によって示される音場供給は、符号化または拡張音場記述を分離する特定の入力インターフェースなしで行われるが、例えば、仮想現実アプリケーションなどに存在する実際のシナリオですべて行われる。しかしながら、本発明は、仮想現実アプリケーションに限定されず、第１の基準位置に関連する音場を、異なる第２の基準位置に関連する別の音場に変換するために、基準位置に関連する音場の空間オーディオ処理が有用である他の任意のアプリケーションで実施することもできる。

次に、音場計算器４２０は、修正音場記述を生成するか、あるいは（仮想）スピーカ表現を生成するか、ヘッドフォン再生用の２チャネル表現などのバイノーラル表現を生成する。したがって、音場計算器４２０は、修正音場として、元の音場記述と基本的に同じであるが、今は新しい基準位置に関する修正音場記述を生成することができる。代替的な実施形態では、仮想または実際のスピーカ表現は、５．１方式などの所定のスピーカ設定、またはより多くのスピーカを含み、特に２次元配置だけでなく３次元配置のスピーカ配置、すなわち、スピーカがユーザの位置に対して高くなっているスピーカ配置を備えたスピーカ設定に対して生成することができる。仮想現実アプリケーションに特に役立つ他のアプリケーションは、バイノーラル再生用、すなわち、仮想現実のユーザの頭部に適用できるヘッドフォン用のアプリケーションである。

図４ｃは、ＤｉｒＡＣ解析／合成のコンテキストにおける本発明の好ましい実施を示している。この目的のために、実際のマイクで実際に拾い上げられた、または元々仮想マイクで生成された、または以前に合成され、仮想現実アプリケーションまたは他のアプリケーションで現在使用されている音場記述が、時間周波数変換器４２１に入力される。

次に、ＤｉｒＡＣ解析器４２２は、時間／周波数ビンごとに、到来方向データ項目および拡散度データ項目を生成するように構成される。

深度マップによって与えられるような空間音場情報、例えば、並進変換を実行するブロック４２３、および任意選択でボリュームスケーリング情報を使用して、新しい到来方向の値が計算される。好ましくは、回転変換４２４も同様に実行され、もちろん、一方で並進情報に関連する追跡情報および他方で回転情報がブロック４２３からブロック４２４で使用されて、新しい到来方向データをＤｉｒＡＣシンセサイザブロック４２５への入力として生成する。次いで、さらに、音源と追跡情報によって示される新しい基準位置との間の新しい距離に応じたスケーリング情報もブロック４２３で生成され、ＤｉｒＡＣシンセサイザ４２５内で使用され、最終的に時間／周波数ビンごとにＤｉｒＡＣ合成を実行する。次に、ブロック４２６で、好ましくは、ある所定の仮想スピーカ設定に関して、周波数／時間変換が実行され、次に、ブロック４２７で、バイノーラルヘッドフォン表現のバイノーラルレンダリングが実行される。

さらなる実施形態では、ＤｉｒＡＣシンセサイザは、ＴＦドメインでバイノーラル信号を直接提供する。

ＤｉｒＡＣ解析器の実施態様に応じて、そしてもちろん、ＤｉｒＡＣシンセサイザ４２５の実施態様に応じて、ブロック４２１への入力またはブロック４２１の出力での元の音場をＤｉｒＡＣシンセサイザ４２５に転送することができ、あるいはＤｉｒＡＣ解析器４２２によって生成されたダウンミックス信号は、ＤｉｒＡＣシンセサイザに転送される。

例示的に、後で説明する図６は、ＤｉｒＡＣシンセサイザは、全方向性または圧力成分などのダウンミックス成分でのみ動作するが、図１３ｂに示したさらに別の実施形態では、ＤｉｒＡＣシンセサイザは、音場データ全体、すなわち、図１３ｂのこの実施形態では、全方向成分ｗおよび３つの方向成分ｘ、ｙ、ｚを有するフィールド記述を有する完全な成分表現で動作するという状況を示している。

図４ｄは、ＤｉｒＡＣシンセサイザとは異なる合成を実行するための別の実施態様を示している。例えば、音場解析器が、各音源信号に対して、個別のモノラル信号Ｓと元の到来方向を生成する場合、および、並進情報に応じて、新しい到来方向が計算される場合、例えば図４ｄのアンビソニックス信号生成器４３０を使用して、音源信号の音場記述、すなわち、モノラル信号Ｓであるが、水平角θまたは仰角θと方位角φからなる新しい到来方向（ＤｏＡ）データを生成する。次に、図４ｂの音場計算器４２０によって実行される手順は、例えば、新しい到来方向を有する各音源について一次アンビソニックス音場表現を生成し、次に、音場から新しい基準位置までの距離に応じてスケーリング係数を使用して、音源ごとにさらに修正を行い、次に、個々の音源からのすべての音場を互いに重ね合わせて、最終的に、再度、例えば、特定の新しい基準位置に関連するアンビソニックスの表現で修正音場を取得することができる。

ＤｉｒＡＣ解析器４２２によって処理された各時間／周波数ビンが特定の（バンド幅が制限された）音源を表すと解釈すると、ＤｉｒＡＣシンセサイザ４２５の代わりに、アンビソニックス信号生成器４３０を使用して、各時間／周波数ビンに対して、ダウンミックス信号または圧力信号、またはこの時間／周波数ビンの全方向成分を図４ｄの「モノラル信号Ｓ」として使用する完全なアンビソニックス表現を生成することができる。次に、Ｗ、Ｘ、Ｙ、Ｚ成分のそれぞれに対する周波数－時間変換器４２６での個々の周波数時間変換により、図４ｃに示されているものとは異なる音場記述が得られる。

さらなる実施形態を以下に概説する。目標は、元の録音位置での信号と、録音位置からの音源の距離に関する情報が与えられると、リスナーの位置で仮想バイノーラル信号を取得することである。物理的な音源は、録音位置への角度によって分離可能であると想定されている。

シーンは、マイクの視点（ＰｏＶ）から録音され、この位置は基準座標系の原点として使用される。シーンはリスナーのＰｏＶから再現する必要があり、リスナーは６ＤｏＦで追跡される（図５を参照）。ここでは、説明のために単一の音源が示されているが、この関係は、時間－周波数ビンごとに保持される。

図５は、空間オーディオの６ＤｏＦ再生を示している。音源は、マイクの位置と方向（黒い線と円弧）に対する距離ｄ_ｒのＤｏＡｒ_ｒでマイクによって録音される。これは、ＤｏＡｒ_ｌと距離ｄ_ｌ（破線）を使用して、移動するリスナーに対して相対的に再生する必要がある。これは、リスナーの並進ｌと回転ｏ（点線）を考慮する必要がある。

座標ｄ_ｒ∈Ｒ^３の音源は、単位ベクトル

で表される到来方向（ＤｏＡ）から録音される。このＤｏＡは、録音の解析から推定できる。それは距離

から来ている。この情報は、例えば飛行時間カメラを使用して自動的に推定され、録音位置から各方向ｒをメートル単位で最も近い音源の距離にマッピングする深度マップｍ（ｒ）の形式で距離情報を取得することが仮定される。

リスナーは６ＤｏＦで追跡される。ある時点で、リスナーはマイクに対してｌ∈Ｒ^３の位置にあり、マイクの座標系に対してｏ∈Ｒ^３の回転を有する。録音位置は、表記を簡素化するために座標系の原点として選択される。

したがって、音は異なる距離ｄ_１で再生する必要があり、変化したボリュームと、並進とその後の回転の両方の結果である異なるＤｏＡｒ_１をもたらす。

次のセクションで説明するように、パラメトリック表現に基づいた専用の変換によってリスナーの観点から仮想信号を取得する方法の概要を説明する。

提案された方法は、パラメトリック空間音響符号化の基本的なＤｉｒＡＣ手法に基づいている［１６］。解析されたスペクトルの時間－周波数インスタンスごとに１つの支配的な直接音源があり、これらは独立して処理できると仮定される。録音は、短時間フーリエ変換（ＳＴＦＴ）を使用して時間－周波数表現に変換される。時間フレームインデックスはｎで、周波数インデックスはｋで示される。次に、変換された録音が解析され、複素スペクトルＰ（ｋ、ｎ）の各時間－周波数ビンの方向ｒ_ｒ（ｋ、ｎ）および拡散度ψ（ｋ、ｎ）が推定される。合成では、信号は直接部分と拡散部分とに分割される。ここでは、スピーカの位置に応じて直接部分をパンニングし、拡散部分を追加することにより、スピーカ信号が計算される。

６ＤｏＦのリスナーの観点に従ってＦＯＡ信号を変換する方法は、５つのステップに分割できる（図６を参照）。

図６は、６ＤｏＦ再生の方法を示している。Ｂフォーマットで記録されたＦＯＡ信号は、複素スペクトルの各時間－周波数ビンの方向と拡散度の値を計算するＤｉｒＡＣエンコーダによって処理される。次に、方向ベクトルは、リスナーの追跡された位置によって、距離マップで指定された距離情報に従って変換される。結果として得られる方向ベクトルは、頭部の回転に応じて回転する。最後に、８＋４の仮想スピーカチャネルの信号がＤｉｒＡＣデコーダで合成される。次に、これらはバイノーラル化される。

実施形態では、入力信号はＤｉｒＡＣエンコーダ４２２で解析され、距離情報は距離マップｍ（ｒ）から追加され、次に、リスナーが並進と回転を追跡したものが新規変換４２３、４２４に適用される。ＤｉｒＡＣデコーダ４２５は、８＋４の仮想スピーカ用の信号を合成し、これらのスピーカは、ヘッドフォン再生用にバイノーラル化４２７される。並進後の音響シーンの回転は独立した操作であるため、代替的にバイノーラルレンダラに適用することもできることに留意されたい。６ＤｏＦ用に変換される唯一のパラメータは方向ベクトルである。モデル定義では、拡散部分は等方性で均質であると仮定され、したがって変更されない。

ＤｉｒＡＣエンコーダへの入力は、Ｂフォーマット表現のＦＯＡ音響信号である。これは４つのチャネル、すなわち全方向音圧と３つの１次空間勾配で構成され、特定の仮定の下では粒子速度に比例する。この信号はパラメトリックな方法で符号化される（［１８］を参照）。パラメータは、変換された全方向性信号である複素音圧Ｐ（ｋ、ｎ）および複素粒子速度ベクトルＵ（ｋ，ｎ）＝［Ｕ_Ｘ（ｋ，ｎ），Ｕ_Ｙ（ｋ，ｎ），Ｕ_Ｚ（ｋ，ｎ）］^Ｔは、変換された勾配信号に対応する。

ＤｉｒＡＣ表現は、各時間－周波数ビンでの音波の信号Ｐ（ｋ、ｎ）、拡散度ψ（ｋ、ｎ）、および方向ｒ（ｋ、ｎ）で構成される。後者を導出するには、まず、アクティブな音響強度ベクトルＩ_ａ（ｋ、ｎ）を、圧力ベクトルと速度ベクトル［１８］の複素共役（（・）＊で示す）の積の実部（Ｒｅ（・）で示す）として計算する。

（１）
拡散度は、このベクトル［１８］の変動係数から推定される。

（２）

は、移動平均として実施される、時間フレームに沿った期待演算子を示す。

方向ベースの距離マップを使用して音響を操作することを目的としているため、方向推定の分散は低くなければならない。通常、フレームは短いので、これは必ずしもそうではない。したがって、オプションの実施形態では、移動平均を適用して、平滑化された方向推定値

（ｋ、ｎ）を取得する。信号の直接部分のＤｏＡは、反対方向の単位長さベクトルとして計算される。

（３）
方向は各時間－周波数ビンの単位長さの３次元ベクトルとして符号化されるため、距離情報を統合するのは簡単である。方向ベクトルは、ベクトルの長さが対応する音源ｄ_ｒ（ｋ、ｎ）の距離を表すように、対応するマップエントリと乗算される。

＝

（ｋ、ｎ）

（４）
ここで、ｄ_ｒ（ｋ、ｎ）は、マイクの録音位置から、時間ｎおよび周波数ビンｋでアクティブな音源を指すベクトルである。

リスナーの位置は、現在の処理フレームの追跡システムによってｌ（ｎ）として指定される。音源位置のベクトル表現を使用すると、追跡位置ベクトルｌ（ｎ）を減算して、長さ

の新しい変換方向ベクトルｄ_１（ｋ、ｎ）を生成できる（図１０を参照）。リスナーのＰｏＶから音源までの距離が導出され、ＤｏＡは単一のステップで適応される。

（５）
リアルな再現の重要な側面は、距離の減衰である。減衰は、音源とリスナーとの間の距離の関数であると仮定される［１９］。方向ベクトルの長さは、再生のために減衰または増幅を符号化することである。録音位置までの距離は、距離マップに従ってｄ_ｒ（ｋ、ｎ）で符号化され、再生される距離はｄ_１（ｋ、ｎ）で符号化される。ベクトルを単位長に正規化し、古い距離と新しい距離の比率とを乗算すると、ｄ_１（ｋ、ｎ）を元のベクトルの長さで除算することによって必要な長さが与えられることが分かる。

（６）
リスナーの向きの変更は、次の手順で適用される。トラッキングによって与えられる方向は、原点としての録音位置を基準としたピッチ、ヨー、およびロール

^Ｔで構成されるベクトルとして記述できる。音源方向は、リスナーの方向に従って回転され、これは、２Ｄ回転行列を使用して実施される。

（７）
結果として得られるリスナーのＤｏＡは、単位長に正規化されたベクトルによって与えられる。

（８）
変換された方向ベクトル、拡散度、および複雑なスペクトルを使用して、均一に分散された８＋４仮想スピーカ設定用の信号を合成する。８つの仮想スピーカは、リスナー平面上で４５°の方位角のステップ（仰角０°）で配置され、４つの仮想スピーカは、４５°の仰角で９０°のクロスフォーメーションで配置される。合成は、スピーカチャネル

ごとに直接部分および拡散部分に分割され、

はスピーカの数［１６］である。

（９）
直接部分では、エッジフェージング振幅パンニング（ＥＦＡＰ）パンニングが適用され、仮想スピーカジオメトリ［２０］が与えられると、正しい方向から音が再生される。ＤｏＡベクトルｒ_ｐ（ｋ、ｎ）が与えられると、これは各仮想スピーカチャネル

のパンニングゲインＧ_ｉ（ｒ）を提供する。各ＤｏＡの距離依存ゲインは、結果の方向ベクトルの長さｄ_ｐ（ｋ、ｎ）から導出される。チャネル

の直接合成は次のようになる。

（１０）
ここで、指数γは、通常は約１に設定される調整係数である［１９］。γ＝０の場合、距離依存ゲインはオフになることに留意されたい。

圧力

は、

非相関信号

を生成するために使用される。これらの非相関信号は、拡散成分として個々のスピーカチャネルに追加される。これは標準の方法［１６］に従う。

（１１）
各チャネルの拡散部分と直接部分が一緒に加算され、信号は逆ＳＴＦＴによって時間領域に変換される。これらのチャネル時間領域信号は、バイノーラル化された信号を作成するために、スピーカの位置に応じて左右の耳のＨＲＴＦと畳み込まれる。

評価のために、仮想リビングルームの単一のシーンが再現される。異なるレンダリング条件を使用して、同時にアクティブな３つの音源を再現する。新しいＭＵＳＨＲＡ－ＶＲ技術を使用して、被験者の助けを借りて品質にアクセスした。

実験の仮想環境は、録音位置から異なる距離に３つの音源がある屋内の部屋である。約５０ｃｍに人間の話者がいて、１ｍにラジオ、２ｍに開いた窓がある（図７を参照）。図７は、ＶＲシーンを示している。このシーンでは、音は人、ラジオ、開いている窓から発せられ、各音源には円がマークされている。ユーザは、窓の方の人の周りの破線の長方形でマークされた領域を歩くことができる。

ビジュアルレンダリングは、ＵｎｉｔｙとＨＴＣＶＩＶＥを使用して行われる。オーディオ処理は、仮想スタジオ技術（ＶＳＴ）プラグインとＭａｘ／ＭＳＰを使用して実施される。追跡データと条件は、オープンサウンドコントロール（ＯＳＣ）メッセージを介して交換される。歩行エリアは約２×２ｍである。

静的なオーディオ再生の評価には確立された標準があるが、これらは通常ＶＲに直接適用できない。特に６ＤｏＦの場合、音声のみの評価よりもエクスペリエンスが複雑であり、提示されるコンテンツは各リスナーの固有のモーションパスに依存するため、音声品質の評価のための新しい手法を開発する必要がある。ＶＲでの経路探索［２１］や没入型体験に対する生理学的反応［２２］などの新しい手法が積極的に研究されているが、従来の十分にテストされた手法をＶＲ環境に適合させて、今日行われている開発作業をサポートすることもできる。

ＭＵＳＨＲＡは、音声品質評価からマルチチャネル空間オーディオ設定まで、幅広い使用事例に適用される、広く採用されているオーディオ品質評価方法である［１７］。それは、基準と、同じオーディオコンテンツの複数のレンダリングと、を並べて比較することができ、隠された基準とアンカーテスト項目を使用して絶対的な品質スケールを提供する。このテストでは、ＭＵＳＨＲＡ方法がＶＲ設定に採用されているため、推奨される実施態様からの若干の逸脱が必要である。具体的には、ここで実施されているバージョンでは、オーディオコンテンツのループが許可されておらず、アンカー項目は３ＤｏＦレンダリングである。

異なる条件は、各実行でテスト条件にランダムに割り当てられる。各参加者は、各条件の音質を評価し、０～１００のスケールでスコアを与えるよう求められる。彼らは、条件の１つが実際に基準と同一であり、１００ポイントで得点されることを知っている。最悪の「アンカー」条件は、２０（悪い）以下になり、他のすべての条件はその間にスコアリングする必要がある。

ＶＲのＭＵＳＨＲＡパネルを図８に示す。４つの条件を評価するための図８のスライダには色を付けることができ、それらの下には数値と条件を選択するボタンがある。このパネルは、仮想環境で控えめなインターフェースを使用しながら、いつでもテスト対象システムの評価を実行できるように設計されている。ハンドヘルドコントローラのボタンを押すと、半透明のインターフェースが、ユーザの視野（ＦｏＶ）の目の高さで、自然な表示に適した距離でインスタンス化される。対話を支援するボタンのマウスオーバー状態（非アクティブ、アクティブ、押下、強調表示）を複製するレーザーポインタが存在する。ハンドヘルドコントローラの同じボタンを押すと、パネルは削除されるが、現在の評価と条件選択の再生はすべて維持される。すべての評価は、条件のランダム化の凡例を含むファイルにリアルタイムで記録される。

実験には合計４つの異なる条件が実施された。

ＲＥＦオブジェクトベースのレンダリング。これは基準条件である。Ｂフォーマットは、リスナーの現在位置に合わせてオンザフライで生成され、仮想スピーカを介してレンダリングされる。

Ｃ１３ＤｏＦ再生。リスナーの位置は無視される。すなわち、

、リスナーの頭部の回転

は引き続き適用される。ゲインは、リスナーから２ｍの距離にある音源のゲインに設定される。この条件はアンカーとして使用される。

Ｃ２距離情報なしの６ＤｏＦ再生のために提案された方法。リスナーの位置は、方向ベクトルを変化させるために使用される。すべての音源は、歩行エリアの外側の球にある。球の半径は２ｍに固定され、すなわち、

、距離依存ゲインが適用される（γ＝１）。

Ｃ３距離情報を使用した６ＤｏＦ再生の提案された方法。リスナーの位置

は、方向ベクトルを変化させるために使用される。距離情報ｍ（ｒ）は、リスナー位置（５）で正しいＤｏＡを計算するために使用され、距離依存ゲイン（６）が適用される（γ＝１）。

すべての条件に同じ信号処理パイプラインが使用される。これは、比較が空間再現のみに焦点を合わせ、結果が着色や他の効果の影響を受けないようにするために行われた。パイプラインを図１０に示す。図１０は、基準レンダリングとＤｉｒＡＣの信号経路を示している。基準の場合では、トラッキングデータを使用して、オブジェクトベースのＢフォーマット合成の位置と回転を変化させる（左上）。他の条件Ｃ１～Ｃ３では、追跡データはＤｉｒＡＣドメインに適用される（右）。

２つのＢフォーマット信号は、３つのモノ音源信号から計算される。直接（ドライ）信号はオンラインで計算される。残響（ウェット）信号はオフラインで予め計算される。これらは一緒に追加され、ＤｉｒＡＣによって処理され、ＤｉｒＡＣが仮想スピーカにレンダリングし、バイノーラル化される。違いは、追跡データの適用にある。基準の場合では、それはＢフォーマット信号の合成前に適用され、リスナー位置で仮想的に録音される。それ以外の場合、それはＤｉｒＡＣドメインに適用される。

オブジェクトベースのレンダリングは、基準シナリオとして使用される。事実上、リスナーの頭部にはＢフォーマットのマイクが装着されており、頭部の位置と回転で録音が行われる。これは簡単に実施され、オブジェクトは、追跡されるリスナーの位置を基準にして配置される。ＦＯＡ信号は、距離減衰を伴う各音源から生成される。距離

、方位角θおよび仰角ψの方向の音源信号

の合成直接Ｂフォーマット信号

は次のとおりである。

（１２）
ここで、ｃは音速（ｍ／ｓ）である。その後に、追跡された回転がＦＯＡドメインに適用される［７］。

レンダリングされた室内音響シーンのリアリズムを高めるために、人工的な残響が音源信号に時間不変の方法で追加される。靴箱型の部屋の境界からの初期反射が、正確な遅延、方向、および減衰と共に追加される。遅延残響は、マルチチャネル出力を仮想スピーカの設定に分配する空間フィードバック遅延ネットワーク（ＦＤＮ）で生成される［２３］。周波数に依存する残響時間Ｔ_６０は、９０～１５０ミリ秒で、平均１１０ミリ秒であった。ローパス特性を備えた音色補正フィルタがその後適用された。

次に、各仮想スピーカ信号に式（１２）のようにＤｏＡのＢフォーマットパターンを乗算することにより、８＋４仮想スピーカ設定からＢフォーマットに残響信号を変換する。残響Ｂフォーマット信号が直接信号に追加される。

合計されたＢフォーマットは、ＤｉｒＡＣドメインで処理される。符号化は、高い時間解像度と低い時間エイリアシングのために選択された、１２８バンドの直交ミラーフィルタ（ＱＭＦ）フィルタバンクを使用して行われる。方向と拡散度の両方は、４２ｍｓの移動平均平滑化により推定される。復号化は、８＋４仮想スピーカ信号を生成している。これらの８＋４信号は、バイノーラル再生のためにＨＲＴＦで畳み込まれる。

合計１９人の被験者がシーンを評価した。彼らは２３～４１歳で、３人は女性であり、すべて聴覚障害は報告されていない。ほとんどの参加者は、評価に１０分もかからなかった。音声と視覚が必ずしも一致しないバーチャルリアリティオーディオの評価にそれほど慣れていない被験者は、時間がかかった。

図６は、得られたスコアを箱ひげ図、すなわちＭＵＳＨＲＡの評価（Ｎ＝１９）を箱ひげ図として示している。点線は中央値のスコアを表し、箱は第１から第３の四分位数を表し、ひげは＋／－１．５四分位範囲（ＩＱＲ）にある。

４人が１００未満と評価したが、すべての被験者が基準を最良として正しく識別したことが分かる。録音位置では同じように聞こえたが、他の条件との違いはすべての参加者に明らかであった。距離情報（Ｃ３）を使用したＤｉｒＡＣドメインでの提案された６ＤｏＦ再生は、２番目に高い総合スコアを獲得した。距離情報なしの再生（Ｃ２）または位置追跡なし（Ｃ１）でさえ、ほとんどすべての参加者により低いスコアが付けられた。参加者は、アンカー（Ｃ１）条件に割り当てられた値に同意しなかったことが分かる。１３人が３０未満のスコアを付けたが、他の６人はあまり確信がなく、７０までの値を選択した。

一元配置反復測定分散解析（ＡＮＯＶＡ）により条件の重要な主効果が見いだされた（ｐ＜０．００１、Ｆ＝４３．７５）。事後解析として、９５％の家族単位の信頼レベルで平均値のチューキー多重比較を実行した。条件のすべてのペアが著しく異なり、最も強い（ｐ＜０．００１）ことが分かり、Ｃ２～Ｃ３だけが明らかではなかった（ｐ＜０．０４）。

条件が大きく異なることが分かったとしても、応答のばらつきは比較的大きかった。この理由の１つは、ＶＲを使用した被験者の経験レベルが異なることである。慣らすための事前テストを行うか、経験ごとに被験者をグループ化することが望ましいであろう。しかし、ＶＲおよびリスニングテストの専門家に様々な初心者を使用しながら、重要な効果を生み出したことは、これらの要因に結果が当てはまることを示している。

一部の参加者は、３ＤｏＦ条件をアンカーとして見つけるのが困難であった。これは、ＶＲオーディオの経験不足も反映している可能性がある。しかし、手順を簡素化し、一貫性を確保して、音源のモノミックスなどの追加の非空間アンカーを提供することができる。

提案された再生方法に関して、空間の単一ポイントで録音されたＦＯＡコンテンツを６ＤｏＦで再生できることが分かる。ほとんどのテスト参加者は、理想的なＢフォーマット信号基準をより高く評価したが、提案された方法は、他の条件の中で最も高い平均再生スコアを達成した。提案された方法は、録音の音源がマイクから異なる距離にある場合でも機能する。その場合、距離をメタデータとして記録し、再現する必要がある。結果は、距離の再現が体験の現実性を高めることを示している。歩行エリアでユーザがすべての音源を歩き回ることができる場合には、効果はより強くなる。

６自由度（６ＤｏＦ）でのオーディオ再生の新しい方法が提案された。オーディオは、１つの位置で１次アンビソニックス（ＦＯＡ）として録音され、音源の距離データはサイド情報として取得される。この情報を使用して、パラメトリック指向性オーディオ符号化（ＤｉｒＡＣ）ドメインでのリスナーの生追跡に関してオーディオが再生される。

主観的なテストは、提案された方法がオブジェクトベースのレンダリングに密接にランク付けされることを示した。これは、遠方の情報を考慮すると、提案された再現方法が３自由度を超える仮想再生を正常に提供できることを意味する。

図１１ａは、音場計算器４２０のさらに好ましい実施態様を示している。

音場記述に基づいて、符号１１００でフルバンドの到来方向またはバンドごとの到来方向が決定される。これらの到来方向情報は、音場の到来方向データを表する。この到来方向データに基づいて、並進変換がブロック１１１０で実行される。この目的のために、音場記述のためのメタデータとして含まれる深度マップ１１２０が使用される。深度マップ１１２０に基づいて、ブロック１１１０は、この実施では基準位置から異なる基準位置への並進のみに依存する音場の新しい到来方向データを生成する。この目的のために、ブロック１１１０は、例えば、仮想現実の実施のコンテキストでの追跡により生成された並進情報を受け取る。

好ましくはまたは代わりに、回転データも使用される。このために、ブロック１１３０は、回転情報を使用して回転変換を実行する。並進と回転の両方が実行される場合、並進からの情報と深度マップ１１２０を既に含む音場の新しいＤｏＡの計算に続いて、回転変換を実行することが好ましい。

次に、ブロック１１４０で、新しい音場記述が生成される。この目的のために、元の音場記述を使用するか、あるいは、音源分離アルゴリズムによって音場記述から分離された音源信号を使用するか、他のアプリケーションを使用できる。基本的に、新しい音場記述は、例えば、アンビソニックス生成器４３０によって取得されるか、ＤｉｒＡＣシンセサイザ４２５によって生成される指向性音場記述であってもよく、または後続のバイノーラルレンダリングで仮想スピーカ表現から生成されるバイノーラル表現であってもよい。

好ましくは、図１１ａに示すように、特定の音源のボリュームまたは音量を新しい場所、すなわち新しいまたは異なる基準位置に適合させるために、新しい音場記述を生成する際に到来方向ごとの距離も使用される。

図１１ａは、回転変換が並進変換の後に実行される状況を示しているが、順序は異なる可能性があることに留意されたい。特に、回転変換は、ブロック１１００によって生成された音場のＤｏＡに適用でき、その後に、基準位置から異なる基準位置への対象の並進による追加の並進変換が適用される。

しかしながら、音場のＤｏＡは、回転されたＤｏＡではなく、深度マップ１１２０から対応する距離情報を見つけるために使用されなければならないことに留意されたい。したがって、音場のＤｏＡがブロック１１００によって決定されるとすぐに、深度マップ１１２０を使用することによって距離情報が取得され、次に、この距離情報は、変更された距離、したがって、特定の基準位置に対する特定の音源の音量の変化を考慮するために、ブロック１１４０で新しい音場記述を生成することによって使用される。基本的に、距離が大きくなると特定の音源信号が減衰し、距離が短くなると音源信号が増幅されると言える。当然、距離に応じた特定の音源の減衰または増幅は距離の変化に比例して行われるが、他の実施形態では、非常に粗い増分での音源信号のこの増幅または減衰にそれほど複雑でない操作を適用できる。このようなそれほど複雑ではない実施態様でも、距離の変化が完全に無視される状況と比較して、優れた結果が得られる。

図１１ｂは、音場計算器４２０の好ましい実施態様を示している。ブロック１１０２では、音源分離および各音源の到来方向または一般に方向情報の計算が実行される。次に、ブロック１１０４で、到来方向ベクトルに距離情報ベクトル、すなわち、元の基準位置から音源までのベクトル、すなわち、例えば図５の項目５２０から項目５１０までのベクトルが乗算される。次に、ブロック１１０６において、並進情報、すなわち図５の項目５２０から項目５００へのベクトルが考慮されて、リスナー位置５００から音源位置５１０へのベクトルである新しい変換方向ベクトルが計算される。次に、ブロック１１０８で、ｄ_ｖで示される正しい長さの新しい到来方向ベクトルが計算される。このベクトルはｄ_ｒと同じ方向に向いているが長さが異なり、このベクトルの長さは音源５１０が特定のボリュームで元の音場に録音されているという事実を反映しているため、したがってｄ_ｖの長さは多かれ少なかれ音量の変化を示す。これは、ベクトルｄ_ｌを録音距離ｄ_ｒ、すなわち、マイク５２０から音源５１０までのベクトルｄ_ｒの長さで除算することによって得られる。

図５のように、再生距離が録音距離よりも大きい場合、ｄ_ｖの長さは１より短くなる。これにより、新しいリスナー位置での再生のための音源５１０の減衰が生じる。しかし、再生距離ｄ_ｌが録音距離よりも小さい場合、ブロック１１０８で計算されるｄ_ｖの長さは１より大きくなり、対応するスケーリング係数により音源が増幅される。

図１２は、音場計算器のさらに好ましい実施態様を示している。

ブロック１２００では、音場からの個々の音源が、例えばバンドごとまたはフルバンドのように決定される。フレームおよびバンドごとの決定が実行されると、ＤｉｒＡＣ解析によってこれを実行できる。フルバンドまたはサブバンドの決定が実行される場合、これはあらゆる種類のフルバンドまたはサブバンドの音源分離アルゴリズムによって実行できる。

ブロック１２１０において、リスナーの並進および／または回転が、例えば頭部追跡により決定される。

ブロック１２２０では、各音源の古い距離は、メタデータを使用することにより、例えば、ＤｉｒＡＣ解析の実施において深度マップを使用することにより決定される。したがって、各バンドは特定の音源であると見なされ（拡散度が特定のしきい値よりも低い場合）、その後に、低い拡散度値を有する各時間／周波数ビンの特定の距離が決定される。

次に、ブロック１２３０で、例えば、図１１ｂのコンテキストで説明されるバンドごとのベクトル計算により、音源ごとの新しい距離が取得される。

さらに、ブロック１２４０に示すように、音源ごとの古い方向は、例えば、ＤｉｒＡＣ解析で得られたＤｏＡ計算により、または例えば音源分離アルゴリズムでの到来方向または方向情報解析により決定される。

次に、ブロック１２５０で、例えばバンドまたはフルバンドごとのベクトル計算を実行することにより、音源ごとの新しい方向が決定される。

次に、ブロック１２６０で、並進および回転したリスナーの新しい音場が生成される。これは、例えば、ＤｉｒＡＣ合成でチャネルごとの直接部分をスケーリングすることで実行できる。特定の実施態様に応じて、ブロック１２６０で距離修正を実行することに加えて、または代替として、ブロック１２７０ａ、１２７０ｂまたは１２７０ｃで距離修正を行うことができる。

例えば、音場が単一の音源のみを有すると決定される場合、距離変更はブロック１２７０ａで既に実行されてもよい。

あるいは、個々の音源信号がブロック１２００によって計算される場合、ブロック１２６０で実際の新しい音場が生成される前に、ブロック１２７０ｂで個々の音源に対して距離修正を実行されてもよい。

さらに、例えば、ブロック１２６０の音場生成がスピーカ設定信号またはバイノーラル信号をレンダリングせず、例えばアンビソニックスエンコーダまたは計算器４３０を使用する別の音場記述をレンダリングする場合、ブロック１２６０での生成に続いて距離修正も実行することができ、これはブロック１２７０ｃを意味する。実施態様に応じて、距離の変更をいくつかの変更子に分配することもでき、その結果、特定の音源は、音源と基準位置の間の元の距離と、音源と異なる基準位置の間の新しい距離との差によって導かれる特定の音量にある。

図１３ａは、例えば、２００９年のＩＷＰＡＳＨから先に引用した参考文献「ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ」に最初に開示したＤｉｒＡＣ解析器を示している。

ＤｉｒＡＣ解析器は、バンドフィルタ１３１０のバンク、エネルギー解析器１３２０、強度解析器１３３０、時間平均化ブロック１３４０、拡散度計算器１３５０および方向計算器１３６０を含む。

ＤｉｒＡＣでは、解析と合成の両方が周波数領域で実行される。それぞれ異なるプロパティ内で、音響を周波数バンドに分割する方法がいくつかある。最も一般的に使用される周波数変換には、短時間フーリエ変換（ＳＴＦＴ）および直交ミラーフィルタバンク（ＱＭＦ）が含まれる。これらに加えて、特定の目的に最適化された任意のフィルタでフィルタバンクを設計する完全な自由がある。方向解析の対象は、各周波数バンドで音の到来方向を推定することであり、同時に音が１つまたは複数の方向から同時に到来している場合の推定値である。原則として、これはいくつかの手法で実行できるが、音場のエネルギー解析が適切であることが分かっており、これを図１３ａに示す。１次元、２次元、または３次元の圧力信号と速度信号が単一の位置から取り込まれると、エネルギー解析を実行できる。１次Ｂフォーマット信号では、全方向性信号はＷ信号と呼ばれ、２の平方根でスケールダウンされている。音圧は、

のように推定することができ、ＳＴＦＴドメインで表される。

Ｘ、Ｙ、およびＺチャネルは、デカルト軸に沿って方向付けられたダイポールの指向性パターンを有し、ベクトルＵ＝［Ｘ、Ｙ、Ｚ］を共に形成する。ベクトルは音場速度ベクトルを推定し、ＳＴＦＴドメインでも表現される。音場のエネルギーＥが計算される。Ｂフォーマット信号の取り込みは、指向性マイクの同時配置、または全方向性マイクの狭い間隔のいずれかで取得できる。一部のアプリケーションでは、マイク信号は計算領域で形成、すなわちシミュレートすることができる。

音の方向は、強度ベクトルＩの反対方向であると定義される。方向は、送信されたメタデータの対応する角度方位角と仰角の値として示される。音場の拡散度も、強度ベクトルとエネルギーの期待演算子を使用して計算される。この方程式の結果は、音のエネルギーが単一の方向（拡散度がゼロ）から到達するか、すべての方向（拡散度が１）から到達するかを特徴付ける０と１の間の実数値である。この手順は、完全な３Ｄ以下の速度情報が利用可能な場合に適している。

図１３ｂは、再びバンドフィルタ１３７０のバンク、仮想マイクブロック１４００、直接／拡散シンセサイザブロック１４５０、および特定のスピーカ設定または仮想の意図されたスピーカ設定１４６０を有するＤｉｒＡＣ合成を示す。さらに、拡散度ゲイン変換器１３８０、ベクトルベースの振幅パンニング（ＶＢＡＰ）ゲインテーブルブロック１３９０、マイク補償ブロック１４２０、スピーカゲイン平均化ブロック１４３０および他のチャネルの分配器１４４０が使用される。

スピーカを使用したこのＤｉｒＡＣ合成では、図１３ｂに示す高品質バージョンのＤｉｒＡＣ合成がすべてのＢフォーマット信号を受信し、これに対して、スピーカ設定１４６０の各スピーカ方向について仮想マイク信号が計算される。利用される指向性パターンは通常、ダイポールである。その後に、メタデータに応じて、仮想マイク信号が非線形的に修正される。ＤｉｒＡＣの低ビットレートバージョンは図１３ｂには示されていないが、この状況では、図６に示すようにオーディオの１つのチャネルのみが送信される。処理の違いは、すべての仮想マイク信号が、受信したオーディオの単一チャネルに置き換えられることである。仮想マイク信号は、拡散ストリームと非拡散ストリームの２つのストリームに分けられ、別々に処理される。

非拡散音は、ベクトルベースの振幅パンニング（ＶＢＡＰ）を使用してポイント音源として再現される。パンニングでは、スピーカ固有のゲイン係数を乗算した後に、スピーカのサブセットにモノフォニック音響信号が適用される。ゲイン係数は、スピーカ設定の情報と指定されたパンニング方向を使用して計算される。低ビットレートバージョンでは、入力信号はメタデータによって暗示される方向に単純にパンニングされる。高品質バージョンでは、各仮想マイク信号に対応するゲイン係数が乗算され、これにより、パンニングと同じ効果が得られるが、非線形アーチファクトが発生しにくくなる。

多くの場合、方向性メタデータは急激な時間的変化の影響を受ける。アーチファクトを回避するために、ＶＢＡＰで計算されたスピーカのゲイン係数は、各バンドで約５０サイクル周期に等しい周波数依存時定数との時間積分により平滑化される。これにより、アーチファクトが効果的に除去されるが、ほとんどの場合、方向の変化は平均化しない場合よりも遅いとは感じられない。

拡散音の合成の目的は、リスナーを囲む音の知覚を作成することである。低ビットレートバージョンでは、拡散ストリームは入力信号を非相関化し、すべてのスピーカからそれを再生することにより再生される。高品質バージョンでは、拡散ストリームの仮想マイク信号は既にある程度インコヒーレントであり、わずかに非相関化するだけで済む。この手法は、低ビットレートバージョンよりも、サラウンドリバーブとアンビエント音響の空間品質を向上させる。

ヘッドフォンを使用したＤｉｒＡＣシンセシスの場合、ＤｉｒＡＣは、非拡散ストリーム用のリスナーの周囲に一定量の仮想スピーカ、拡散スチーム用に一定数のスピーカで定式化される。仮想スピーカは、入力信号と測定された頭部伝達関数（ＨＲＴＦ）の畳み込みとして実施される。

いくつかの態様を装置のコンテキストで説明したが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップのコンテキストで説明される態様は、対応するブロックまたは項目または対応する装置の機能の説明も表す。

本発明の拡張音場記述は、デジタル記憶媒体または非一時的記憶媒体に記憶することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。

特定の実施態様に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施は、電子的に読み取り可能な制御信号が格納されており、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する（または協働することができる）デジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行できる。

本発明によるいくつかの実施形態は、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的データキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するように動作する。プログラムコードは、例えば、機械可読なキャリアに格納されてもよい。

他の実施形態は、機械可読なキャリアに格納された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

言い換えれば、したがって、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書に記載の方法の１つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。

さらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。

上述の実施形態は、本発明の原理の単なる例示にすぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。したがって、本明細書の実施形態の説明および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。

参考文

［１］Ｌｉｉｔｏｌａ，Ｔ．，Ｈｅａｄｐｈｏｎｅｓｏｕｎｄｅｘｔｅｒｎａｌｉｚａｔｉｏｎ，Ｐｈ．Ｄ．ｔｈｅｓｉｓ，ＨｅｌｓｉｎｋｉＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ．ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｉｃａｌａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓＥｎｇｉｎｅｅｒｉｎｇＬａｂｏｒａｔｏｒｙｏｆＡｃｏｕｓｔｉｃｓａｎｄＡｕｄｉｏＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．，２００６

［２］Ｂｌａｕｅｒｔ，Ｊ．，ＳｐａｔｉａｌＨｅａｒｉｎｇ－ＲｅｖｉｓｅｄＥｄｉｔｉｏｎ：ＴｈｅＰｓｙｃｈｏｐｈｙｓｉｃｓｏｆＨｕｍａｎＳｏｕｎｄＬｏｃａｌｉｚａｔｉｏｎ，ＴｈｅＭＩＴＰｒｅｓｓ，１９９６，ＩＳＢＮ０２６２０２４１３６

［３］Ｚｈａｎｇ，Ｗ．，Ｓａｍａｒａｓｉｎｇｈｅ，Ｐ．Ｎ．，Ｃｈｅｎ，Ｈ．，ａｎｄＡｂｈａｙａｐａｌａ，Ｔ．Ｄ．，“ＳｕｒｒｏｕｎｄｂｙＳｏｕｎｄ：ＡＲｅｖｉｅｗｏｆＳｐａｔｉａｌＡｕｄｉｏＲｅｃｏｒｄｉｎｇａｎｄＲｅｐｒｏｄｕｃｔｉｏｎ，”ＡｐｐｌｉｅｄＳｃｉｅｎｃｅｓ，７（５），ｐ．５３２，２０１７

［４］Ｂａｔｅｓ，Ｅ．ａｎｄＢｏｌａｎｄ，Ｆ．，“ＳｐａｔｉａｌＭｕｓｉｃ，ＶｉｒｔｕａｌＲｅａｌｉｔｙ，ａｎｄ３６０Ｍｅｄｉａ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｉｎｔ．Ｃｏｎｆ．ｏｎＡｕｄｉｏｆｏｒＶｉｒｔｕａｌａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ，ＬｏｓＡｎｇｅｌｅｓ，ＣＡ，Ｕ．Ｓ．Ａ．，２０１６

［５］Ａｎｄｅｒｓｏｎ，Ｒ．，Ｇａｌｌｕｐ，Ｄ．，Ｂａｒｒｏｎ，Ｊ．Ｔ．，Ｋｏｎｔｋａｎｅｎ，Ｊ．，Ｓｎａｖｅｌｙ，Ｎ．，Ｅｓｔｅｂａｎ，Ｃ．Ｈ．，Ａｇａｒｗａｌ，Ｓ．，ａｎｄＳｅｉｔｚ，Ｓ．Ｍ．，“Ｊｕｍｐ：ＶｉｒｔｕａｌＲｅａｌｉｔｙＶｉｄｅｏ，”ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，３５（６），ｐ．１９８，２０１６

［６］Ｍｅｒｉｍａａ，Ｊ．，Ａｎａｌｙｓｉｓ，Ｓｙｎｔｈｅｓｉｓ，ａｎｄＰｅｒｃｅｐｔｉｏｎｏｆＳｐａｔｉａｌＳｏｕｎｄ：ＢｉｎａｕｒａｌＬｏｃａｌｉｚａｔｉｏｎＭｏｄｅｌｉｎｇａｎｄＭｕｌｔｉｃｈａｎｎｅｌＬｏｕｄｓｐｅａｋｅｒＲｅｐｒｏｄｕｃｔｉｏｎ，Ｐｈ．Ｄ．ｔｈｅｓｉｓ，ＨｅｌｓｉｎｋｉＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，２００６

［７］Ｋｒｏｎｌａｃｈｎｅｒ，Ｍ．ａｎｄＺｏｔｔｅｒ，Ｆ．，“ＳｐａｔｉａｌＴｒａｎｓｆｏｒｍａｔｉｏｎｓｆｏｒｔｈｅＥｎｈａｎｃｅｍｅｎｔｏｆＡｍｂｉｓｏｎｉｃｓＲｅｃｏｒｄｉｎｇｓ，”ｉｎ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐａｔｉａｌＡｕｄｉｏ，Ｅｒｌａｎｇｅｎ，Ｇｅｒｍａｎｙ，２０１４

［８］Ｔｓｉｎｇｏｓ，Ｎ．，Ｇａｌｌｏ，Ｅ．，ａｎｄＤｒｅｔｔａｋｉｓ，Ｇ．，“ＰｅｒｃｅｐｔｕａｌＡｕｄｉｏＲｅｎｄｅｒｉｎｇｏｆＣｏｍｐｌｅｘＶｉｒｔｕａｌＥｎｖｉｒｏｎｍｅｎｔｓ，”ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，２３（３），ｐｐ．２４９－２５８，２００４

［９］Ｔａｙｌｏｒ，Ｍ．，Ｃｈａｎｄａｋ，Ａ．，Ｍｏ，Ｑ．，Ｌａｕｔｅｒｂａｃｈ，Ｃ．，Ｓｃｈｉｓｓｌｅｒ，Ｃ．，ａｎｄＭａｎｏｃｈａ，Ｄ．，“Ｇｕｉｄｅｄｍｕｌｔｉ－ｖｉｅｗｒａｙｔｒａｃｉｎｇｆｏｒｆａｓｔａｕｒａｌｉｚａｔｉｏｎ，”ＩＥＥＥＴｒａｎｓ．Ｖｉｓｕａｌｉｚａｔｉｏｎ＆Ｃｏｍｐ．Ｇｒａｐｈｉｃｓ，１８，ｐｐ．１７９７－１８１０，２０１２

［１０］Ｒｕｎｇｔａ，Ａ．，Ｓｃｈｉｓｓｌｅｒ，Ｃ．，Ｒｅｗｋｏｗｓｋｉ，Ｎ．，Ｍｅｈｒａ，Ｒ．，ａｎｄＭａｎｏｃｈａ，Ｄ．，“ＤｉｆｆｒａｃｔｉｏｎＫｅｒｎｅｌｓｆｏｒＩｎｔｅｒａｃｔｉｖｅＳｏｕｎｄＰｒｏｐａｇａｔｉｏｎｉｎＤｙｎａｍｉｃＥｎｖｉｒｏｎｍｅｎｔｓ，”ＩＥＥＥＴｒａｎｓ．Ｖｉｓｕａｌｉｚａｔｉｏｎ＆Ｃｏｍｐ．Ｇｒａｐｈｉｃｓ，２４（４），ｐｐ．１６１３－１６２２，２０１８

［１１］Ｔｈｉｅｒｇａｒｔ，Ｏ．，Ｋｏｗａｌｃｚｙｋ，Ｋ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“ＡｎＡｃｏｕｓｔｉｃａｌＺｏｏｍｂａｓｅｄｏｎＩｎｆｏｒｍｅｄＳｐａｔｉａｌＦｉｌｔｅｒｉｎｇ，”ｉｎＩｎｔ．ＷｏｒｋｓｈｏｐｏｎＡｃｏｕｓｔｉｃＳｉｇｎａｌＥｎｈａｎｃｅｍｅｎｔ，ｐｐ．１０９－１１３，２０１４

［１２］Ｋｈａｄｄｏｕｒ，Ｈ．，Ｓｃｈｉｍｍｅｌ，Ｊ．，ａｎｄＲｕｎｄ，Ｆ．，“ＡＮｏｖｅｌＣｏｍｂｉｎｅｄＳｙｓｔｅｍｏｆＤｉｒｅｃｔｉｏｎＥｓｔｉｍａｔｉｏｎａｎｄＳｏｕｎｄＺｏｏｍｉｎｇｏｆＭｕｌｔｉｐｌｅＳｐｅａｋｅｒｓ，”Ｒａｄｉｏｅｎｇｉｎｅｅｒｉｎｇ，２４（２），２０１５

［１３］Ｚｉｅｇｌｅｒ，Ｍ．，Ｋｅｉｎｅｒｔ，Ｊ．，Ｈｏｌｚｅｒ，Ｎ．，Ｗｏｌｆ，Ｔ．，Ｊａｓｃｈｋｅ，Ｔ．，ｏｐｈｅｔＶｅｌｄ，Ｒ．，Ｚａｋｅｒｉ，Ｆ．Ｓ．，ａｎｄＦｏｅｓｓｅｌ，Ｓ．，“ＩｍｍｅｒｓｉｖｅＶｉｒｔｕａｌＲｅａｌｉｔｙｆｏｒＬｉｖｅ－ＡｃｔｉｏｎＶｉｄｅｏｕｓｉｎｇＣａｍｅｒａＡｒｒａｙｓ，”ｉｎＩＢＣ，Ａｍｓｔｅｒｄａｍ，Ｎｅｔｈｅｒｌａｎｄｓ，２０１７

［１４］Ｔｈｉｅｒｇａｒｔ，Ｏ．，Ｇａｌｄｏ，Ｇ．Ｄ．，Ｔａｓｅｓｋａ，Ｍ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“Ｇｅｏｍｅｔｒｙ－ＢａｓｅｄＳｐａｔｉａｌＳｏｕｎｄＡｃｑｕｉｓｉｔｉｏｎｕｓｉｎｇＤｉｓｔｒｉｂｕｔｅｄＭｉｃｒｏｐｈｏｎｅＡｒｒａｙｓ，”ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，ＬａｎｇｕａｇｅＰｒｏｃｅｓｓ．，２１（１２），ｐｐ．２５８３－２５９４，２０１３

［１５］Ｋｏｗａｌｃｚｙｋ，Ｋ．，Ｔｈｉｅｒｇａｒｔ，Ｏ．，Ｔａｓｅｓｋａ，Ｍ．，ＤｅｌＧａｌｄｏ，Ｇ．，Ｐｕｌｋｋｉ，Ｖ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“ＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＳｏｕｎｄＰｒｏｃｅｓｓｉｎｇ：ＡＦｌｅｘｉｂｌｅａｎｄＥｆｆｉｃｉｅｎｔＳｏｌｕｔｉｏｎｔｏＳｏｕｎｄＳｃｅｎｅＡｃｑｕｉｓｉｔｉｏｎ，Ｍｏｄｉｆｉｃａｔｉｏｎ，ａｎｄＲｅｐｒｏｄｕｃｔｉｏｎ，”ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓ．Ｍａｇ．，３２（２），ｐｐ．３１－４２，２０１５

［１６］Ｐｕｌｋｋｉ，Ｖ．，“ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ，”Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，５５（６），ｐｐ．５０３－５１６，２００７

［１７］ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ，“ＩＴＵ－ＲＢＳ．１５３４－３，Ｍｅｔｈｏｄｆｏｒｔｈｅｓｕｂｊｅｃｔｉｖｅａｓｓｅｓｓｍｅｎｔｏｆｉｎｔｅｒｍｅｄｉａｔｅｑｕａｌｉｔｙｌｅｖｅｌｏｆａｕｄｉｏｓｙｓｔｅｍｓ，”２０１５

［１８］Ｔｈｉｅｒｇａｒｔ，Ｏ．，ＤｅｌＧａｌｄｏ，Ｇ．，Ｋｕｅｃｈ，Ｆ．，ａｎｄＰｒｕｓ，Ｍ．，“Ｔｈｒｅｅ－ＤｉｍｅｎｓｉｏｎａｌＳｏｕｎｄＦｉｅｌｄＡｎａｌｙｓｉｓｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇＢａｓｅｄｏｎＳｉｇｎａｌＡｄａｐｔｉｖｅＰａｒａｍｅｔｅｒＥｓｔｉｍａｔｏｒｓ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｖ．ＳｐａｔｉａｌＡｕｄｉｏ：ＳｅｎｓｅｔｈｅＳｏｕｎｄｏｆＳｐａｃｅ，２０１０

［１９］Ｋｕｔｔｒｕｆｆ，Ｈ．，ＲｏｏｍＡｃｏｕｓｔｉｃｓ，Ｔａｙｌｏｒ＆Ｆｒａｎｃｉｓ，４ｅｄｉｔｉｏｎ，２０００

［２０］Ｂｏｒβ，Ｃ．，“Ａｐｏｌｙｇｏｎ－ｂａｓｅｄｐａｎｎｉｎｇｍｅｔｈｏｄｆｏｒ３Ｄｌｏｕｄｓｐｅａｋｅｒｓｅｔｕｐｓ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｖ．，ｐｐ．３４３－３５２，ＬｏｓＡｎｇｅｌｅｓ，ＣＡ，ＵＳＡ，２０１４

［２１］Ｒｕｍｍｕｋａｉｎｅｎ，Ｏ．，Ｓｃｈｌｅｃｈｔ，Ｓ．，Ｐｌｉｎｇｅ，Ａ．，ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“ＥｖａｌｕａｔｉｎｇＢｉｎａｕｒａｌＲｅｐｒｏｄｕｃｔｉｏｎＳｙｓｔｅｍｓｆｒｏｍＢｅｈａｖｉｏｒａｌＰａｔｔｅｒｎｓｉｎａＶｉｒｔｕａｌＲｅａｌｉｔｙ－ＡＣａｓｅＳｔｕｄｙｗｉｔｈＩｍｐａｉｒｅｄＢｉｎａｕｒａｌＣｕｅｓａｎｄＴｒａｃｋｉｎｇＬａｔｅｎｃｙ，”ｉｎＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｖ．１４３，ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２０１７

［２２］Ｅｎｇｅｌｋｅ，Ｕ．，Ｄａｒｃｙ，Ｄ．Ｐ．，Ｍｕｌｌｉｋｅｎ，Ｇ．Ｈ．，Ｂｏｓｓｅ，Ｓ．，Ｍａｒｔｉｎｉ，Ｍ．Ｇ．，Ａｒｎｄｔ，Ｓ．，Ａｎｔｏｎｓ，Ｊ．－Ｎ．，Ｃｈａｎ，Ｋ．Ｙ．，Ｒａｍｚａｎ，Ｎ．，ａｎｄＢｒｕｎｎｓｔｒｏｅｍ，Ｋ．，“Ｐｓｙｃｈｏｐｈｙｓｉｏｌｏｇｙ－ＢａｓｅｄＱｏＥＡｓｓｅｓｓｍｅｎｔ：ＡＳｕｒｖｅｙ，”ＩＥＥＥＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１１（１），ｐｐ．６－２１，２０１７

［２３］Ｓｃｈｌｅｃｈｔ，Ｓ．Ｊ．ａｎｄＨａｂｅｔｓ，Ｅ．Ａ．Ｐ．，“Ｓｉｇｎ－ＡｇｎｏｓｔｉｃＭａｔｒｉｘＤｅｓｉｇｎｆｏｒＳｐａｔｉａｌＡｒｔｉｆｉｃｉａｌＲｅｖｅｒｂｅｒａｔｉｏｎｗｉｔｈＦｅｅｄｂａｃｋＤｅｌａｙＮｅｔｗｏｒｋｓ，”ｉｎＰｒｏｃ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．Ｃｏｎｆ．，ｐｐ．１－１０－ａｃｃｅｐｔｅｄ，Ｔｏｋｙｏ，Ｊａｐａｎ，２０１

［３１］Ｍ．Ａ．Ｇｅｒｚｏｎ，“Ｐｅｒｉｐｈｏｎｙ：Ｗｉｔｈ－ｈｅｉｇｈｔｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎ，” Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，ｖｏｌ．２１，１１０．１，ｐｐ．２－１０，１９７３

［３２］Ｖ．Ｐｕｌｋｋｉ，“Ｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇｉｎｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎａｎｄｓｔｅｒｅｏｕｐｍｉｘｉｎｇ，” ｉｎＰｒｏｃ．ｏｆｔｈｅ２８ｔｈＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，２００６

［３３］－，Ｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ，“ＪｏｕｒｎａｌＡｕｄｉｏＥｎｇ．Ｓｏｃ,, ｖｏｌ．５５，ｎｏ．６，ｐｐ．５０３－５１６，Ｊｕｎ．２００７

［３４］Ｃ．Ｇ．ａｎｄＧ．Ｍ．，“Ｃｏｉｎｃｉｄｅｎｔｍｉｃｒｏｐｈｏｎｅｓｉｍｕｌａｔｉｏｎｃｏｖｅｒｉｎｇｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌｓｐａｃｅａｎｄｙｉｅｌｄｉｎｇｖａｒｉｏｕｓｄｉｒｅｃｔｉｏｎａｌｏｕｔｐｕｔｓ，”Ｕ．Ｓ．Ｐａｔｅｎｔ４０４２７７９，１９７７

［３５］Ｃ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ，“Ｂｉｎａｕｒａｌｃｕｅｃｏｄｉｎｇ－ｐａｒｔｉｉ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，”ＩＥＥＥＴｒａｎｓ．ＳｐｅｅｃｈＡｕｄｉｏＰｒｏｃｅｓｓ,, ｖｏｌ．１１，ｎｏ．６，Ｎｏｖ．２００３

［３６］Ｃ．Ｆａｌｌｅｒ，“Ｐａｒａｍｅｔｒｉｃｍｕｌｔｉｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ：Ｓｙｎｔｈｅｓｉｓｏｆｃｏｈｅｒｅｎｃｅｃｕｅｓ，”ＩＥＥＥＴｒａｎｓ．ＳｐｅｅｃｈＡｕｄｉｏＰｒｏｃｅｓｓ．，ｖｏｌ．１４，ｎｏ．１，Ｊａｎ．２００６

［３７］Ｈ．Ｐ．Ｊ．Ｅ．Ｅ．Ｓｃｈｕｉｊｅｒｓ，Ｊ．Ｂｒｅｅｂａａｒｔ，“Ｌｏｗｃｏｍｐｌｅｘｉｔｙｐａｒａｍｅｔｒｉｃｓｔｅｒｅｏｃｏｄｉｎｇ，”ｉｎＰｒｏｃ．ｏｆｔｈｅ１１６ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｂｅｒｌｉｎ，Ｇｅｒｍａｎｙ，２００４

［３８］Ｖ．Ｐｕｌｋｋｉ，“Ｖｉｒｔｕａｌｓｏｕｎｄｓｏｕｒｃｅｐｏｓｉｔｉｏｎｉｎｇｕｓｉｎｇｖｅｃｔｏｒｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ，”Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ,, ｖｏｌ．４５，ｎｏ．６，ｐｐ．４５６－４６６，Ｊｕｎ．１９９７

［３９］Ｊ．Ｇ．ＴｙｌｋａａｎｄＥ．Ｙ．Ｃｈｏｕｅｉｒｉ，“Ｃｏｍｐａｒｉｓｏｎｏｆｔｅｃｈｎｉｑｕｅｓｆｏｒｂｉｎａｕｒａｌｎａｖｉｇａｔｉｏｎｏｆｈｉｇｈｅｒ－ｏｒｄｅｒａｍｂｉｓｏｎｉｃｓｓｏｕｎｄｆｉｅｌｄｓ，”ｉｎＰｒｏｃ．ｏｆｔｈｅＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｄｉｏｆｏｒＶｉｒｔｕａｌａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ，ＮｅｗＹｏｒｋ，Ｓｅｐ．２０１６．

Claims

拡張音場記述を生成するための装置であって、
少なくとも１つの基準位置についての音場を示す少なくとも１つの音場記述を生成するための音場生成器（１００）と、
前記音場の空間情報に関連するメタデータを生成するためのメタデータ生成器（１１０）と、を含み、
前記少なくとも１つの音場記述および前記メタデータは、前記拡張音場記述を構成し、
前記音場生成器（１００）は、前記少なくとも１つの音場記述として、前記音場のＤｉｒＡＣ記述を生成するように構成され、前記ＤｉｒＡＣ記述は、１つもしくは複数のダウンミックス信号および個別方向データ（３２２）、ならびに任意選択で異なる時間－周波数ビンに対する拡散度データを有し、前記メタデータ生成器（１１０）は、前記空間情報に関連する前記メタデータとして、前記異なる時間－周波数ビンの追加の個々の深度情報を生成するように構成され、且つ
前記メタデータ生成器（１１０）は、前記音場生成器（１００）によって使用されるオーディオ信号から、または前記オーディオ信号に関連付けられたビデオ信号から、またはステレオスコピック（３次元）撮像／ビデオもしくは明視野技術で使用される深度マップから、またはコンピュータグラフィックスシーンの幾何学的情報から前記追加の個々の深度情報を推定するように構成されるか、または
前記メタデータ生成器（１１０）は、前記追加の個々の深度情報として、異なる方向を示す前記個別方向データ（３２２）について、対応する距離情報（３２４）を含む深度マップ（３２０）を生成するように構成される、装置。
送信または保存のための出力信号を生成するための出力インターフェース（１２０）をさらに含み、前記出力信号は、時間フレーム（３０２、３０４、３０６）について、前記時間フレーム（３０２、３０４、３０６）の前記少なくとも１つの音場記述としての前記音場および前記メタデータとしての前記異なる時間－周波数ビンの前記追加の個々の深度情報から導出された１つまたは複数のオーディオ信号を含む、請求項１に記載の装置。
前記異なる時間－周波数ビンの前記追加の個々の深度情報は、前記深度マップ（３２０）であり、前記深度マップ（３２０）は、前記個別方向データ（３２２）として複数の到来方向データ項目および複数の関連する距離（３２４）を含み、前記複数の到来方向データ項目の各到来方向データ項目は関連する距離（３２４）を有する、
請求項１または２に記載の装置。
前記音場生成器（１００）は、前記音場の時間フレームの前記異なる時間－周波数ビンについて拡散度値（３１６）を生成するように構成され、
前記メタデータ生成器（１１０）は、前記異なる時間－周波数ビンのある時間－周波数ビンの前記拡散度値（３１６）が拡散度しきい値よりも低い場合に、前記時間－周波数ビンの前記追加の個々の深度情報のみを生成するように構成され、または、前記メタデータ生成器（１１０）は、前記異なる時間－周波数ビンの前記時間－周波数ビンの前記拡散度値（３１６）が拡散度しきい値よりも低い場合に、所定の値とは異なる前記追加の個々の深度情報のみを生成するように構成される、
請求項１から３のいずれか一項に記載の装置。
音場記述および前記音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置であって、
前記装置は、前記空間情報、前記音場記述、およびある基準位置（５２０）から異なる基準位置（５００）への並進を示す並進情報を使用して前記修正音場記述を計算するための音場計算器（４２０）を含み、
前記空間情報は、深度情報を含み、前記音場記述は、異なる時間－周波数ビンの方向データおよび任意選択の拡散度データを有するＤｉｒＡＣ記述を含み、
前記音場計算器（４２０）は、
前記方向データ、前記深度情報、および前記並進情報を使用して、前記異なる時間－周波数ビンの修正方向データを計算し、
前記修正方向データを使用して、前記ＤｉｒＡＣ記述を複数のオーディオチャネルを含む音響記述にレンダリングするか、または、前記異なる時間－周波数ビンの前記方向データの代わりに前記異なる時間－周波数ビンについての前記修正方向データ、および任意選択で、前記ＤｉｒＡＣ記述に含まれているものと同じ拡散度データを使用して、前記ＤｉｒＡＣ記述を送信または保存する、
ように構成される、装置。
前記音場計算器（４２０）は、前記異なる時間－周波数ビンのある時間－周波数ビンについて、前記方向データを維持するか、または前記時間－周波数ビンの前記拡散データに基づいて前記修正方向データを計算する、ように決定するように構成され、前記修正方向データは、所定のまたは適応的な拡散度レベルよりも低い拡散度を示す拡散度データについてのみ計算される、請求項５に記載の装置。
前記並進情報または前記修正音場記述に対する意図されたリスナーの回転を示す回転情報を提供するための変換インターフェース（４１０）と、
前記音場計算器（４２０）に前記メタデータを提供するためのメタデータサプライヤ（４０２、４００）と、
前記音場計算器（４２０）に前記音場記述を提供するための音場サプライヤ（４０４、４００）と、
前記修正音場記述と、前記並進情報を使用して前記メタデータから導出された修正メタデータと、を出力するための、または各スピーカチャネルが所定のスピーカ位置に関連する複数のスピーカチャネルを出力するための、または前記修正音場記述のバイノーラル表現を出力するための、出力インターフェース（４２８）と、
をさらに含む、請求項５または６に記載の装置。
音場記述および前記音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置であって、
前記装置は、前記空間情報、前記音場記述、およびある基準位置（５２０）から異なる基準位置（５００）への並進を示す並進情報を使用して前記修正音場記述を計算するための音場計算器（４２０）を含み、
前記音場記述は、複数の音場成分を含み、前記複数の音場成分は、全方向性成分および少なくとも１つの指向性成分を含み、
前記音場計算器は、
前記音場成分を解析して、異なる周波数ビンについて、到来方向情報を導出するための音場解析器（４２０）と、
前記到来方向情報および前記メタデータを使用して、周波数ビンごとに修正到来方向情報を計算するための並進変換器（４２３）であって、前記メタデータは、距離情報（３２４）を周波数ビンの到来方向情報（３２２）に関連付ける深度マップ（３２０）を含む、並進変換器（４２３）と、
前記周波数ビンの前記深度マップ（３２０）によって提供される前記距離、および前記修正到来方向情報に関連する前記周波数ビンに関連付けられた新しい距離に応じた距離補償情報を使用して、前記修正音場記述を計算するための距離補償器と、を含む、
装置。
音場記述および前記音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置であって、
前記装置は、前記空間情報、前記音場記述、およびある基準位置（５２０）から異なる基準位置（５００）への並進を示す並進情報を使用して前記修正音場記述を計算するための音場計算器（４２０）を含み、前記空間情報は、異なる時間－周波数ビンの深度情報を含み、前記異なる時間－周波数ビンは、時間フレームの異なる周波数ビンを含み、
前記音場計算器（４２０）は、
前記音場記述から音源信号を決定し、音解析により前記基準位置（５２０）に関連する前記音源信号の方向を決定し（１２００）、前記音解析は、前記時間フレームの前記異なる周波数ビンの前記音源信号を取得するための前記音場記述の時間－周波数変換（４２１）と、前記音源信号の前記方向としての前記時間フレームの前記異なる周波数ビンの到来方向データ項目の計算（４２２）とを含み、
対応する周波数ビンの前記深度情報を使用して、前記異なる基準位置（５００）に関連する前記時間フレームの前記異なる周波数ビンの周波数ビンごとに新しい方向を計算し（１２３０、４２３、４２４）、
前記異なる基準位置（５００）に関連する前記時間フレームの前記異なる周波数ビンの周波数ビンごとに前記距離情報を計算し（１２３０）、
前記時間フレームの前記異なる周波数ビンの周波数ビンごとの前記距離情報、前記時間フレームの前記異なる周波数ビンの周波数ビンごとの前記音源信号、および前記時間フレームの前記異なる周波数ビンの周波数ビンごとの前記新しい方向を使用して前記時間フレームの合成された修正音場記述を取得する（１２６０）、
ように構成される、装置。
前記音場計算器（４２０）は、
再生設定に関連して前記新しい方向により与えられた方向に前記音源信号をパンニングすることにより、
ならびに前記パンニングを実行する前または前記パンニングを実行した後に、前記距離情報を使用して前記音源信号をスケーリングすることにより、前記合成された修正音場記述を取得するように構成される、請求項９に記載の装置。
前記音場計算器（４２０）は、拡散信号を前記音源信号の直接部分に追加するように構成され、前記直接部分は、前記拡散信号に追加される前に前記距離情報によって修正される、
請求項９または１０に記載の装置。
前記音場計算器（４２０）は、
前記フレームの対応する周波数ビンの前記合成された修正音場記述を取得する際に（１２６０）、前記対応する周波数ビンの前記音源信号、前記対応する周波数ビンの前記新しい方向から導出された前記対応する周波数ビンのパンニングゲイン、および前記対応する周波数ビンの前記距離情報から導出された前記対応する周波数ビンのスケーリングベクトルを使用して、前記時間フレームの前記異なる周波数ビンの周波数ビンごとに直接合成を実行する、
ように構成される、請求項９から１１のいずれか一項に記載の装置。
前記音場計算器（４２０）は、
前記対応する周波数ビンのオーディオ信号から導出された拡散オーディオ信号を使用し、かつ前記対応する周波数ビンの前記音解析によって導出された拡散度パラメータを使用して拡散合成を実行し、直接オーディオ信号と前記拡散オーディオ信号とを組み合わせて、前記対応する周波数ビンの合成オーディオ信号を取得し、
時間フレームの前記異なる周波数ビンの前記合成オーディオ信号を使用して周波数－時間変換（４２６）を実行し、前記修正音場記述として時間領域合成オーディオ信号を取得する、
ように構成される、請求項１２に記載の装置。
拡張音場の記述を生成するための方法であって、
少なくとも１つの基準位置についての音場を示す少なくとも１つの音場記述を生成するステップと、
前記音場の空間情報に関連するメタデータを生成するステップと、を含み、
前記少なくとも１つの音場記述および前記メタデータは、前記拡張音場記述を構成し、
前記少なくとも１つの音場記述を生成するステップは、前記少なくとも１つの音場記述として、前記音場のＤｉｒＡＣ記述を生成することを含み、前記ＤｉｒＡＣ記述は、１つもしくは複数のダウンミックス信号および個別方向データ（３２２）、ならびに任意選択で異なる時間－周波数ビンに対する拡散度データを有し、前記メタデータを生成するステップは、前記空間情報に関連する前記メタデータとして、前記異なる時間－周波数ビンの追加の個々の深度情報を生成することを含み、且つ
前記メタデータを生成するステップは、前記音場記述を生成するステップによって使用されるオーディオ信号から、または前記オーディオ信号に関連付けられたビデオ信号から、またはステレオスコピック（３次元）撮像／ビデオもしくは明視野技術で使用される深度マップから、またはコンピュータグラフィックスシーンの幾何学的情報から前記追加の個々の深度情報を推定することを含むか、または
前記メタデータを生成するステップは、前記追加の個々の深度情報として、異なる方向を示す前記個別方向データ（３２２）について、対応する距離情報（３２４）を含む深度マップ（３２０）を生成することを含む、方法。
音場記述および前記音場記述の空間情報に関連するメタデータから修正音場記述を生成するための方法であって、前記方法は、
前記空間情報、前記音場記述、およびある基準位置（５２０）から異なる基準位置（５００）への並進を示す並進情報を使用して前記修正音場記述を計算するステップを含み、
前記空間情報は、深度情報を含み、前記音場記述は、異なる時間－周波数ビンの方向データおよび任意選択の拡散度データを有するＤｉｒＡＣ記述を含み、前記修正音場記述を計算するステップは、前記方向データ、前記深度情報、および前記並進情報を使用して、前記異なる時間－周波数ビンの修正方向データを計算すること、および前記修正方向データを使用して、前記ＤｉｒＡＣ記述を複数のオーディオチャネルを含む音響記述にレンダリングするか、または、前記異なる時間－周波数ビンの前記方向データの代わりに前記異なる時間－周波数ビンについての前記修正方向データ、および任意選択で、前記ＤｉｒＡＣ記述に含まれているものと同じ拡散度データを使用して、前記ＤｉｒＡＣ記述を送信または保存することを含むか、
または、
前記音場記述は、複数の音場成分を含み、前記複数の音場成分は、全方向性成分および少なくとも１つの指向性成分を含み、前記修正音場記述を計算するステップは、前記音場成分を解析して、異なる周波数ビンについて、到来方向情報を導出することと、前記到来方向情報および前記メタデータを使用して、周波数ビンごとに修正到来方向情報を計算することと（前記メタデータは、距離情報（３２４）を周波数ビンの到来方向情報（３２２）に関連付ける深度マップ（３２０）を含む）、前記周波数ビンの前記深度マップ（３２０）によって提供される前記距離、および前記修正到来方向情報に関連する前記周波数ビンに関連付けられた新しい距離に応じた距離補償情報を使用して、前記修正音場記述を計算することと、を含むか、
または、
前記空間情報は、異なる時間－周波数ビンの前記深度情報を含み、前記異なる時間－周波数ビンは、時間フレームの異なる周波数ビンを含み、前記修正音場記述を計算するステップは、音場解析により前記音場記述および音源の方向から前記音源を決定すること（１２００、１２４０）と〔前記音解析は、前記時間フレームの前記異なる周波数ビンの前記音源信号を取得するための前記音場記述の時間－周波数変換（４２１）と、前記音源信号の前記方向としての前記時間フレームの前記異なる周波数ビンの到来方向データ項目の計算（４２２）とを含む〕；対応する周波数ビンの前記深度情報を使用して、前記異なる基準位置（５００）に関連する前記時間フレームの前記異なる周波数ビンの周波数ビンごとに新しい方向を計算すること（１２３０、４２３、４２４）と；前記異なる基準位置（５００）に関連する前記時間フレームの前記異なる周波数ビンの周波数ビンごとに前記距離情報を計算すること（１２３０）と；前記時間フレームの前記異なる周波数ビンの周波数ビンごとの前記距離情報、前記時間フレームの前記異なる周波数ビンの周波数ビンごとの前記音源信号、および前記時間フレームの前記異なる周波数ビンの周波数ビンごとの前記新しい方向を使用して前記時間フレームの合成された修正音場記述を取得すること（１２６０）と；を含む、方法。
コンピュータまたはプロセッサで実行される場合に、請求項１４に記載の方法または請求項１５に記載の方法を実行するためのコンピュータプログラム。