JP2022515998A

JP2022515998A - 空間的に拡張された音源を再生するための装置および方法、または、空間的に拡張された音源からビットストリームを生成するための装置および方法

Info

Publication number: JP2022515998A
Application number: JP2021535562A
Authority: JP
Inventors: ユールゲンヘレ; エマヌエルハベツ; セバスチャンシュレッヒト; アレクサンダーアダミ
Original assignee: フラウンホッファー－ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2018-12-19
Filing date: 2019-12-17
Publication date: 2022-02-24
Also published as: SG11202106482QA; KR20210101316A; TWI786356B; AU2019409705A1; MX2021007337A; US11937068B2; WO2020127329A1; JP2024020307A; CA3199318A1; CA3123982C; US20240179486A1; CA3123982A1; KR102659722B1; CN113316943A; US20210289309A1; BR112021011170A2; CN113316943B; TW202027065A; KR20240005112A; ZA202105016B

Abstract

空間内に定義された位置およびジオメトリを有する空間的に拡張された音源を再生するための装置であって、前記装置は、リスナー位置を受信するためのインターフェース（１００）と、リスナー位置、空間的に拡張された音源のジオメトリに関する情報および空間的に拡張された音源の位置に関する情報を使用して、空間的に拡張された音源に関連付けられた二次元または三次元の凸包の投影面への投影を計算するためのプロジェクタ（１２０）と、投影面を使用して、空間的に拡張された音源について少なくとも２つの音源の位置を計算するための音位置計算機（１４０）と、前記位置で少なくとも２つの音源をレンダリングして、２つ以上の出力信号を有する空間的に拡張された音源の再生を得るためのレンダラ（１６０）であって、レンダラ（１６０）は異なる位置に対して異なる音信号を使用するように構成され、異なる音信号は空間的に拡張された音源に関連付けられる、レンダラ（１６０）と、を含む。【選択図】図９

Description

本発明は、オーディオ信号処理に関し、特に、空間的に拡張された音源の符号化または復号化または再生に関する。

いくつかのスピーカまたはヘッドホンに関する音源の再生は、長く研究されてきた。このような設定に関して音源を再生する最も簡単な方法は、それらを点音源、すなわち、非常に（理想的には、無限に）小さい音源としてレンダリングすることである。しかしながら、この理論的概念では、既存の物理的な音源を現実的な方法でモデル化することは困難である。例えば、グランドピアノは、多数の空間的に分散された弦を内部に有する大きな振動木製閉鎖部を有しており、そのため、点音源（特に聴取者（およびマイクロフォン）がグランドピアノに近接している場合）よりも聴覚的にはるかに大きく聞こえる。多くの現実世界の音源は、楽器、機械、オーケストラまたは聖歌隊もしくは周囲音（水滴の音）のようなかなりの大きさ（“空間的な広がり”）を有する。

このような音源の正しい／現実的な再生は、ヘッドホンを使用したバイノーラル再生（すなわち、いわゆる頭部伝達関数ＨＲＴＦまたはバイノーラル室内インパルス応答ＢＲＩＲを使用する）であれ、２個のスピーカ（“ステレオ”）から水平面に配置された多くのスピーカ（“サラウンドサウンド”）および聴取者をすべての三次元内に囲む多くのスピーカ（“３Ｄオーディオ”）に配置された従来のスピーカ設定を使用したものであれ、多くの音の再生方法の目標となっている。

本発明の目的は、おそらく複雑な幾何学的形状を有する空間的に拡張された音源を符号化または再生するための概念を提供することである。

２Ｄ音源幅

このセクションは、聴取者の視点、例えば、０度の仰角で特定の方位角の範囲（従来のステレオ／サラウンドサウンドの場合のような）または特定の範囲の方位角および仰角（３Ｄオーディオまたは仮想現実の場合のように、ユーザの動き、すなわちピッチ／ヨー／ロール軸における頭部の回転が３自由度［“３ＤｏＦ”］の場合）から見た２Ｄ面上の拡張音源をレンダリングすることに関係する方法を説明する。

２つ以上のスピーカの間でパンされる(panned)オーディオオブジェクトの見かけの幅を増加させること（いわゆるファントムイメージまたはファントムソースを生成すること）は、参加チャネル信号の相関を減少させることによって実現することができる(Blauert,(2001),S.241－257)。相関が減少すると、ファントムソースの広がりは、ゼロに近い相関値（かつ、広すぎない開放角度）の場合、スピーカ間の全範囲をカバーするまで増加する。

音源信号(source signal)の非相関のバージョン (decorrelated version) は、適切な非相関フィルタを導き出し、適用することによって得られる。Lauridsen (Lauridsen, 1954) は、信号の２つの非相関のバージョンを得るために、音源信号の時間遅延およびスケーリングされたバージョンをそれ自身に加算／減算することを提案した。より複雑なアプローチは、例えば、Kendall (Kendall, 1995) によって提案された。彼は、乱数列の組み合わせに基づいて、一対の非相関全パスフィルタを反復的に導き出した。Fallerらは、(Baumgarte & Faller, 2003) (Faller & Baumgarte, 2003) において、適切な非相関フィルタ（“ディフューザ”）を提案する。また、Zotterらは、周波数依存位相または振幅差がファントムソースの拡張を実現するために使用される一対のフィルタを導き出した(Zotter & Frank, 2013)。さらに、(Alary, Politis, & Vaelimaeki, 2017) は、(Schlecht, Alary, Vaelimaeki, & Habets, 2018) によってさらに最適化されたベルベットノイズ(velvet noise)に基づく非相関フィルタを提案した。

ファントムソースの対応するチャネル信号の相関を低減することに加えて、オーディオオブジェクトに起因するファントムソースの数を増加させることによって、音源幅(source width)を増加させることもできる。(Pulkki, 1999)では、音源幅は、同じ音源信号を（わずかに）異なる方向にパンすることによって制御される。この方法は、もとは、サウンドシーン内で移動するときに、ＶＢＡＰ－パニング(Pulkki, 1997)音源信号の知覚されたファントムソースの拡散を安定化するために提案された。これは、音源の方向に依存するので、レンダリングされた音源が２つ以上のスピーカによって再生され、知覚される音源幅の望ましくない変化をもたらす可能性があるという利点である。

仮想世界のＤｉｒＡＣ (Pulkki, Laitinen, & Erkut, 2009) は、仮想世界において音声合成のための伝統的な指向性オーディオ符号化（ＤｉｒＡＣ）(Pulkki, 2007) のアプローチの拡張である。空間的範囲をレンダリングするために、音源の指向性サウンドコンポーネントは、音源のオリジナルの方向の周りの特定の範囲内でランダムにパンされ、パン方向は時間および周波数とともに変化する。

同様のアプローチは、(Pihlajamaeki, Santala, & Pulkki, 2014) において追求され、空間的範囲は音源信号の周波数帯域を異なる空間方向にランダムに分散することによって達成される。これは、正確な程度の範囲を制御するのではなく、全ての方向から均等に到来する空間的に分散され、包囲された音を制作することを目的とする方法である。

Verronらは、パンされた相関信号を使用せずに、複数のインコヒーレントなバージョンの音源信号を合成し、聴取者の周りの円上に均一にそれらを分散させ、それらの間を混合することによって、音源の空間的な範囲を実現した。同時にアクティブな音源の数およびゲインは、拡張効果の強度を決定する。この方法は、環境音のためのシンセサイザーへの空間的な拡張として実装された。

３Ｄ音源幅

このセクションは、３Ｄ空間内、すなわち６自由度（“６ＤｏＦ”）を有する仮想現実に必要とされるような立体的な方法で、拡張された音源をレンダリングすることに適する方法を説明する。これは、ユーザの動きの６自由度、すなわちピッチ／ヨー／ロール軸での頭部の回転に加えて、３つの並進運動方向ｘ／ｙ／ｚを意味する。

Potardらは、音源の形状の知覚を研究することによって、音源の１次元パラメータ（すなわち、２つのスピーカ間の幅）としての音源範囲の概念を拡張した(Potard, 2003)。それらは、オリジナルの音源信号に（経時変化する）非相関技術を適用することによって、次いでインコヒーレントな音源を異なる空間位置に配置することによって、および、それらを３次元範囲に与えることによって複数のインコヒーレントな点音源を生成した(Potard & Burnett, 2004)。

ＭＰＥＧ－４ＡｄｖａｎｃｅｄＡｕｄｉｏＢＩＦＳ (Schmidt & Schroeder, 2004) において、体積のある物体／形状（シャック(shuck)、箱、楕円体および円筒）を、いくつかの均等に分散され、非相関の音源で満たすことで、３次元の音源の広がりを想起させることができる。

アンビソニックスを使用して音源の広がりを増加および制御するために、Schmeleら (Schmele & Sayin, 2018) は、入力信号のアンビソニックスの次数を減少させる混合物を提案しており、これは見かけの音源幅を本質的に増加させ、音源信号の非相関のコピーをリスニング空間の周りに分散させる。

別のアプローチはZotterらによって持ち込まれ、彼らはアンビソニックスのために (Zotter & Frank, 2013) において提案された原理（すなわち、周波数依存位相および大きさの差を導き出すフィルタ対を導出し、ステレオ再生設定において、音源の広がりを実現する）を採用した(Zotter F. , Frank, Kronlachner, & Choi, 2014)。

パンニングベースのアプローチ（例えば、(Pulkki, 1997) (Pulkki, 1999) (Pulkki, 2007) (Pulkki, Laitinen, & Erkut, 2009)）に共通する欠点は、リスナー位置に依存することである。スイートスポットから少しでもずれてしまうと、空間イメージは聴取者に最も近いスピーカに崩れてしまう。これは、聴取者が自由に動きまわることを前提とした６自由度（６ＤｏＦ）を有する仮想現実および拡張現実の状況では、それらの適用を大幅に制限する。さらに、ＤｉｒＡＣベースのアプローチ（例えば、(Pulkki, 2007) (Pulkki, Laitinen, & Erkut, 2009)）において時間－周波数ビンを分布させることは、常にファントムソースの空間的な広がりの適切なレンダリングを保証しない。さらに、典型的には、それは音源信号の特質を著しく低下させる。

音源信号の非相関は、通常、以下の方法の１つによって実現される：ｉ）相補的な大きさを有するフィルタペアを導出するステップ（例えば、(Lauridsen, 1954)）、ｉｉ）一定の大きさであるが（ランダムに）スクランブルされた位相を有するすべてのフィルタを使用するステップ（例えば、(Kendall, 1995) (Potard & Burnett, 2004)）、または、ｉｉｉ）音源信号の時間－周波数ビンを空間的にランダムに分散させるステップ（例えば、(Pihlajamaeki, Santala, & Pulkki, 2014)）。

全てのアプローチには、それ自身の意味を持っている：ｉ）に従った音源信号を相補的にフィルタリングすることは、典型的には、非相関信号の変更された知覚される音質につながる。ｉｉ）のようなすべてのパスのフィルタリングは音源信号の音質を維持しているが、スクランブルされた位相はオリジナルの位相関係を混乱させ、特に過渡的な信号について、厳しい時間分散およびスミアリングアーティファクトを引き起こす。空間的に分散する時間－周波数ビンは、いくつかの信号に対して有効であることが証明されているだけでなく、信号の知覚される音質を変更する。さらに、それは、高度な信号依存性を有し、瞬間的な信号に対して厳しいアーチファクトを導入することを示した。

ＡｄｖａｎｃｅｄＡｕｄｉｏＢＥＦＳ((Schmidt & Schroeder, 2004) (Potard, 2003) (Potard & Burnett, 2004))で提案されているように、音源信号の複数の非相関のバージョンを有する体積のある形状を追加することは、互いに非相関の出力信号を生成する多数のフィルタが利用可能であることが前提となっている（典型的には、体積のある形状当たり１０以上の点音源が使用される）。しかしながら、このようなフィルタを見つけることは、些細なタスクではなく、このようなフィルタがより多く必要とされるほどより難しくなる。さらに、音源信号が完全に非相関ではなく、聴取者がこのような形状の周りを移動する場合、例えば（仮想現実の）シナリオにおいて、聴取者への個々の音源の距離は、音源信号の異なる遅延に対応し、聴取者の耳でのそれらの重ね合わせは、音源信号の不快な非定常的な彩色を潜在的に導入する位置に依存するくし形フィルタリングをもたらす。

(Schmele & Sayin, 2018)において、アンビソニックベースの技術を用いて、アンビソニック順序を低下させることによって音源幅を制御することは、２番目から１番目または０番目の順序への遷移に対してのみ可聴効果を有することを示した。さらに、これらの遷移は、音源の広がりとして知覚されるだけでなく、ファントムソースの動きとしても頻繁に知覚される。音源信号の追加の非相関バージョンは、見かけの音源幅の知覚を安定化するのを助けることができるが、ファントムソースの音質を変更するくし形フィルタ効果も導入する。

本発明の目的は、空間的に拡張された音源を再生する、または空間的に拡張された音源からビットストリームを生成する改善された概念を提供することである。

本発明の目的は、請求項１に記載の空間的に拡張された音源を再生するための装置、請求項２７に記載のビットストリームを生成するための装置、請求項３５に記載の空間的に拡張された音源を再生するための方法、請求項３６に記載のビットストリームを生成するための方法、請求項４１に記載のビットストリーム、または請求項４７に記載のコンピュータプログラムによって達成される。

本発明は、空間的に拡張された音源の再生を実現することができ、特に、リスナー位置を使用して空間的に拡張された音源に関連付けられた二次元または三次元の凸包の投影面への投影を計算することによって可能にすることができるという知見に基づいている。この投影は、空間的に拡張された音源のための少なくとも２つの音源の位置を計算するために使用され、少なくとも２つの音源は前記位置でレンダリングされ、空間的に拡張された音源の再生を得て、ここでレンダリングは２つ以上の出力信号をもたらし、異なる位置に対して異なる音信号(sound signal)を使用するが、異なる音信号はそれと同じ空間的に拡張された音源とのすべてに関連付けられる。

一方では、空間的に拡張された音源と（仮想の）リスナー位置との間の経時変化する相対位置が考慮されるので、高品質の二次元または三次元のオーディオ再生が得られる。他方では、空間的に拡張された音源が知覚された音源の広がりに関するジオメトリと、当該技術における周知のレンダラによって容易に実行できる周囲の点音源のような少なくとも２つの音源の数とによって効率的に表現される。特に、当該技術における簡単なレンダラは常にその位置に存在し、特定の出力フォーマットまたはスピーカ設定ついては特定の位置に音源をレンダリングする。例えば、特定の位置で音位置計算機によって計算された２つの音源は、例えば、振幅パンニングによってこれらの位置にレンダリングされてもよい。

例えば、音の位置が５．１出力フォーマットで左と左サラウンドとの間にあり、他の音源が出力フォーマットの右と右サラウンドとの間にある場合、レンダラによって実行される振幅パンニング方法は、一方の音源についての左と左サラウンドチャネルがかなりよく似た信号になり、対応するもう一方の音源についての右と右サラウンドがかなりよく似た信号になり、ユーザは音位置計算機によって計算された位置から来ている音源を知覚する。しかしながら、４つすべての信号が、最終的には、空間的に拡張された音源に関連付けられ、かつ関連するという事実のために、ユーザは音位置計算機によって計算された位置に関連付けられた２つのファントムソースを単に知覚しないが、聴取者は単一の空間的に拡張された音源を知覚する。

空間内のジオメトリに定義された位置を有する空間的に拡張された音源を再生するための装置は、インターフェースと、プロジェクタと、音位置計算機と、レンダラとを含む。本発明は、例えば、ピアノ内で発生する強化されたサウンド状況を考慮することを可能にする。ピアノは大型の装置であり、今まで、ピアノの音は、単一の点音源から来るものとしてレンダリングされているかもしれない。しかしながら、これは、ピアノの真の音響特性を十分に表現していない。本発明によれば、空間的に拡張された音源の例としてのピアノは少なくとも２つの音信号によって示され、ここで、１つの音信号はピアノの左側部分に近接して、すなわち、低音弦に近接して配置されたマイクロフォンによって記録することができ、一方、他の音源は、ピアノの右側部分に近接して、すなわち、高音を生成する高音域の弦の近くに配置された異なる第２のマイクロフォンによって記録することができる。当然のことながら、両方のマイクロフォンは、ピアノ内の反射状況や、低音弦が右マイクロフォンよりも左マイクロフォンに近く、逆も同様であるという事実のために互いに異なる音を記録することになる。しかしながら、一方で、両方のマイクロフォンの信号が、最終的にピアノの独特の音を構成するかなりの量の類似の音成分を有することになるだろう。

本発明によれば、ピアノ等の空間的に拡張された音源を表すビットストリームは、空間的に拡張された音源のジオメトリ情報も記録することによって信号を記録することによって生成され、任意的に、異なるマイクロフォンの位置（または、一般的には、２つの異なる音源に関連付けられた２つの異なる位置）に関連する位置情報も記録することによって、または、（ピアノの）音の知覚される幾何学的形状の記述を提供することによって生成される。音源に対してリスナー位置を反映するために、すなわち、聴取者は、仮想現実または拡張現実、もしくは任意の他のサウンドシーン内を“歩き回る”ことができるため、ピアノ等の空間的に拡張された音源に関連付けられた凸包の投影は、リスナー位置を使用して計算され、少なくとも２つの音源の位置が投影面を使用して計算され、ここで、特に、好ましい実施形態は投影面の周囲の点における音源の配置に関連する。

例示的なピアノの音を二次元または三次元の状態で実際に表現することが、間接的な計算と間接的なレンダリングとを低減することによって可能になり、例えば、聴取者がピアノ等の音源の左側部分に近い場合には、聴取者が知覚する音は、ユーザがピアノ等の音源の右側部分に近い場合またはピアノ等の音源の後ろにいる場合に発生する音とは異なる。

上記の観点から、本発明の概念は、エンコーダ側において、空間的に拡張された音源を特徴付ける方法を提供し、音再生状況内で真の二次元または三次元の設定のために空間的に拡張された音源を使用することを可能にするという点で独特である。さらに、空間的に拡張された音源の高度に柔軟な記述内のリスナー位置の使用は、リスナー位置を使用して二次元または三次元の凸包の投影面への投影を計算することによって、効率的な方法で可能にされる。空間的に拡張された音源のための少なくとも２つの音源の音の位置は投影面を使用して計算され、かつ、少なくとも２つの音源は音位置計算機によって計算された位置でレンダリングされ、ステレオ再生設定または５，７またはそれ以上のチャネル等の２つより多いチャネルを有する再生設定において、ヘッドホンまたは２つ以上のチャネルのマルチチャネル出力信号の２つ以上の出力信号を有する空間的に拡張された音源の再生を得る。

充填された容積のすべての部分に多数の異なる点音源を配置することによって、３Ｄボリュームに音を充填する従来技術の方法と比較して、投影により、多くの音源をモデル化する必要がなく、凸包の投影、すなわち二次元空間のみを埋めればよいため、採用する点音源の数を大幅に減らすことができる。さらに、－極端な場合には－空間的に拡張された音源の左端にある１つの音源と、空間的に拡張された音源の右端にある１つの音源とを単に存在可能である投影の凸包上の音源のみをモデル化することで、必要な点音源の数をさらに減らすことができる。両方の削減ステップは、２つの音響心理学的所見に基づいている。
１．音源の方位角（および仰角）とは対照的に、その距離はあまり確実に知覚することができない。そのため、元の音量を聴取者に対して垂直な平面に投影しても、知覚に大きな変化はない（しかし、レンダリングに必要な点音源の数を減らすことはできる）。
２．点音源として左右に配置された２つの非相関の音は、それらの間の空間を音で知覚的に満たす傾向がある。

さらに、エンコーダ側は、単一の空間的に拡張された音源の特徴付けを可能にするだけでなく、表現として生成されるビットストリームが、好ましくは、それらのジオメトリ情報および位置については、単一の座標系に関連する２つ以上の空間的に拡張された音源についてのすべてのデータを含むことができるという点で柔軟である。デコーダ側では、再生は、単一の空間的に拡張された音源に対して行われるだけでなく、いくつかの空間的に拡張された音源に対して行うことができるが、プロジェクタは、（仮想）リスナー位置を使用して各音源についての投影を計算する。さらに、音位置計算機は、それぞれの空間的に拡張された音源について少なくとも２つの音源の位置を計算し、レンダラは、それぞれの空間的に拡張された音源について計算された全ての音源を、例えば、それぞれの空間的に拡張された音源からの２つ以上の出力信号を、信号ごとまたはチャネルごとに加算し、加算されたチャネルを、バイノーラル再生のために対応するヘッドホンに、またはスピーカ関連の再生設定における対応するスピーカに、もしくは、代替的に、後の使用または送信のために（結合された）２つ以上の出力信号を記憶するストレージに提供することにより、レンダリングすることができる。

生成器側またはエンコーダ側では、空間的に拡張された音源についての圧縮された記述を表すビットストリームを生成するための装置を使用してビットストリームが生成され、ここで、装置は空間的に拡張された音源のための１つ以上の異なる音信号を提供するためのサウンドプロバイダを含み、出力データ形成器は、圧縮されたサウンドシーンを表すビットストリームを生成し、ビットストリームは、好ましくは、ビットレート圧縮エンコーダ、例えばＭＰ３、ＡＡＣ、ＵＳＡＣまたはＭＰＥＧ－Ｈエンコーダによって圧縮される等の圧縮方法で、１つ以上の異なる音信号を含む。さらに、出力データ形成器は、異なる音信号が２つ以上である場合に、好ましくは、空間的に拡張された音源のジオメトリに関する情報に関する、対応する音信号の位置を示す、２つ以上の異なる音信号の各音信号についての任意の個々の位置情報をビットストリームに組み込むように構成される。すなわち、最初の信号は、上記の例ではピアノの左側の部分で記録された信号であり、ピアノの右側で記録された信号である。

しかしながら、代替的に、空間的に拡張された音源のジオメトリとの関係性を有することが好ましいが、位置情報が空間的に拡張された音源のジオメトリに関係する必要はなく、一般的な座標原点に関係することもできる。

さらに、圧縮されたビットストリームを生成するための装置は、空間的に拡張された音源のジオメトリに関する情報を計算するためのジオメトリプロバイダも含み、出力データ形成器は、マイクロフォンによって記録された音信号のような、少なくとも２つの音信号に加えて、ジオメトリに関する情報、各音信号についての個々の位置情報に関する情報をビットストリームに導入するように構成される。しかし、サウンドプロバイダは、必ずしもマイクロフォン信号をピックアップする必要はないが、場合によっては非相関処理を使用してエンコーダ側で音信号を生成することもできる。同時に、空間的に拡張された音信号に対して、少数の音信号のみ、または単一の音信号のみを送信することができ、非相関処理を使用して、再生側で残りの音信号を生成することができる。これは、好ましくは、空間的に拡張された音源ごとにいくつの音信号が含まれているかを音再生装置が常に知っているように、特に音位置計算機内で、いくつの音信号が利用可能であるか、および、いくつの音信号を信号合成または相関処理などによってデコーダ側で導出すべきかを再生装置が決定できるようにビットストリーム中のビットストリーム要素によってシグナリングされることが好ましい。

この実施形態では、再生器は、空間的に拡張された音源に含まれる音信号の数を示すビットストリーム要素をビットストリームに書き込み、デコーダ側では、音再生器はビットストリーム要素をビットストリームから導き、ビットストリーム要素を読み出し、ビットストリーム要素に基づいて、好ましくは周囲の点音源または周囲の音源の間に配置された補助音源のための多くの信号を、ビットストリーム中の少なくとも１つの受信された音信号に基づいて、いくつ算出すべきかを決定する。

次に、本発明の好ましい実施形態を、添付図面を参照して説明する。

図１は、再生側の好ましい実施形態のブロック図の概略である。図２は、異なる数の周囲の点音源を有する球形の空間的に拡張された音源を示す。図３は、いくつかの周囲の点音源を有する楕円体の空間的に拡張された音源を示す。図４は、周囲の点音源の位置に配置された異なる方法を有する線状の空間的に拡張された音源を示す。図５は、周囲の点音源を配置するための異なる方法を有する直方体の空間的に拡張された音源を示す。図６は、異なる距離における球形の空間的に拡張された音源を示す。図７は、近似的なパラメトリック楕円体形状内のピアノ形状の空間的に拡張された音源を示す。図８は、投影された凸包の極値点上に配置された３つの周囲の点音源を有するピアノ形状の空間的に拡張された音源を示す。図９は、空間的に拡張された音源を再生するための装置または方法の好ましい実装を示す。図１０は、空間的に拡張された音源のための圧縮された記述を表すビットストリームを生成するための装置または方法の好ましい実装を示す。図１１は、図１０に示す装置または方法によって生成されるビットストリームの好ましい実装を示す。

図９は、空間内に定義された位置およびジオメトリを有する空間的に拡張された音源を再生するための装置の好ましい実装を示す。装置は、インターフェース１００と、プロジェクタ１２０と、音位置計算機１４０と、レンダラ１６０とを含む。インターフェースは、リスナー位置を受信するように構成される。また、プロジェクタ１２０は、空間内のインターフェース１００によって受信されるリスナー位置、さらに空間的に拡張された音源のジオメトリに関する情報、および、さらに空間的に拡張された音源の位置に関する情報を使用して、空間的に拡張された音源に関連付けられた二次元または三次元の凸包の投影面への投影を計算するように構成される。好ましくは、空間内の空間的に拡張された音源の定義された位置と、さらに空間内の空間的に拡張された音源のジオメトリとは、ビットストリームデマルチプレクサまたはシーンパーサ１８０に到来するビットストリームを介して、空間的に拡張された音源を再生するために受信される。ビットストリームデマルチプレクサ１８０は、ビットストリームから、空間的に拡張された音源のジオメトリの情報を抽出し、この情報をプロジェクタに提供する。さらに、ビットストリームデマルチプレクサは、ビットストリームから空間的に拡張された音源の位置も抽出し、この情報をプロジェクタに転送する。好ましくは、ビットストリームは、少なくとも２つの異なる音源に対する位置情報も含み、好ましくは、ビットストリームデマルチプレクサは、ビットストリームから、少なくとも２つの音源の圧縮された表現を抽出し、少なくとも２つの音源はオーディオデコーダ１９０としてデコーダによって復元／復号される。復号された少なくとも２つの音源は、最終的にレンダラ１６０に転送され、レンダラは音位置計算機１４０によって提供される位置で少なくとも２つの音源をレンダラ１６０へレンダリングする。

図９は、ビットストリームデマルチプレクサ１８０およびオーディオデコーダ１９０を有するビットストリーム関連再生装置を示しているが、再生はエンコーダ／デコーダシナリオとは異なる状況でも行うことができる。例えば、空間内の定義された位置およびジオメトリは、仮想現実または拡張現実シーンのように再生装置に既に存在してもよく、ここで、データはその場で生成され、その場で消費される。ビットストリームデマルチプレクサ１８０およびオーディオデコーダ１９０は実際には必要ではなく、空間的に拡張された音源のジオメトリおよび空間的に拡張された音源の位置の情報は、ビットストリームからの抽出なしに利用可能である。さらに、空間的に拡張された音源のジオメトリの情報に対する少なくとも２つの音源の位置に関連する位置情報は、事前に固定的に取決めされていてもよく、それゆえに、エンコーダからデコーダに送信される必要はなく、または代替的に、このデータがその場で再び生成される。

したがって、実施形態において位置情報のみが提供され、２つ以上の音源信号の場合であっても、この情報を送信する必要はないことに留意されたい。例えば、デコーダまたは再生装置は、左に配置されている投影上の音源としてビットストリーム内の第１の音源信号を常に取得することができる。同様に、ビットストリーム内の第２の音源信号は、右に配置されている投影上の音源として取得することができる。

さらに、音位置計算機は投影面を使用して空間的に拡張された音源に対する少なくとも２つの音源の位置を計算するが、少なくとも２つの音源は必ずしもビットストリームから受信される必要はない。その代わりに、少なくとも２つの音源のうちの単一の音源のみをビットストリームおよび他の音源を介して受信することができ、それ故に、他の位置または位置情報も、ビットストリーム生成器から再生装置にこのような情報を送信する必要がない場合にのみ、再生側で実際に生成することができる。しかしながら、他の実施形態では、すべてのこの情報を送信することができ、さらに、ビットレート要求が厳密でない場合には、１つまたは２つよりも多い数の音信号をビットストリーム内で送信することができ、オーディオデコーダ１９０は、その位置が音位置計算機１４０によって計算される少なくとも２つの音源を表す２つ、３つまたはそれ以上の音信号を復号する。

図１０は、再生がエンコーダ／デコーダのアプリケーション内で適用される場合のこのシナリオのエンコーダ側を示す。図１０は、空間的に拡張された音源について圧縮された記述を表すビットストリームを生成するための装置を示す。特に、サウンドプロバイダ２００および出力データ形成器２４０が提供される。この実装では、空間的に拡張された音源は１つ以上の異なる音信号を有する圧縮された記述によって表され、出力データ形成器は圧縮されたサウンドシーンを表すビットストリームを生成し、ここで、ビットストリームは空間的に拡張された音源に関連する少なくとも１つ以上の異なる音信号およびジオメトリ情報を含む。これは、図９に関して説明された状況を表し、空間的に拡張された音源の位置のような他の全ての情報（図９のブロック１２０の点線の矢印を参照）は、再生側のユーザによって自由に選択可能である。したがって、この空間的に拡張された音源のための少なくとも１つ以上の異なる音信号を有する空間的に拡張された音源の一意の記述を備え、これらの音信号は単に点音源の信号である。

さらに、生成するための装置は、空間的に拡張された音源のジオメトリに関する情報を計算するなどして提供するためのジオメトリプロバイダ２２０を含む。計算とは異なるジオメトリ情報を提供する他の方法は、ユーザによって手動でドラフトされる図またはユーザによって提供される任意の他の情報、例えば、スピーチ、トーン、ジェスチャもしくは任意の他のユーザアクションなどのユーザ入力を受信することを含む。１つ以上の異なる音信号に加えて、ジオメトリに関する情報がビットストリームに組み込まれる。

追加的に、１つ以上の異なる音信号の各音信号についての個々の位置情報に関する情報もビットストリームに組み込まれ、および／または、空間的に拡張された音源についての位置情報もビットストリームに組み込まれる。音源の位置情報は、ジオメトリ情報から分離することができ、またはジオメトリ情報に含めることができる。第１のケースでは、位置情報に関してジオメトリ情報を付与することができる。第２のケースでは、ジオメトリ情報は、例えば、球、座標における中心点および半径または直径を含むことができる。箱状の空間的に拡張された音源については、８つまたは少なくとも１つの角点を絶対座標で与えることができる。

１つ以上の異なる音信号のそれぞれについての位置情報は、好ましくは、空間的に拡張された音源のジオメトリ情報に関連する。しかしながら、代替的に、空間的に拡張された音源の位置またはジオメトリ情報が与えられる同じ座標系に関係する絶対位置情報も有用であり、代替的に、ジオメトリ情報は、相対的な方法ではなく、絶対座標を有する絶対座標系内で与えられてもよい。しかしながら、一般的な座標系に関係しない相対的な方法でこのデータを提供することは、図９のプロジェクタ１２０に向けた点線によって示されるように、彼女自身または彼自身の再生設定において空間的に拡張された音源を位置決めすることをユーザに許容する。

別の実施形態では、図１０のサウンドプロバイダ２００は、空間的に拡張された音源のために少なくとも２つの異なる音信号を提供するように構成され、出力データ形成器は、ビットストリームが好ましくは符号化されたフォーマットで少なくとも２つの異なる音信号と、任意的に、絶対座標または空間的に拡張された音源のジオメトリについて、少なくとも２つの異なる音信号の各音信号の個々の位置情報とを含むように、ビットストリームを生成するように構成される。

一実施形態では、サウンドプロバイダは、個々の複数のマイクロフォン位置または向きで自然音源の記録を実行する、または、例えば図１のアイテム１６４および１６６に関して説明されているように、単一の基礎信号(basis signal)または複数の基礎信号から１つ以上の非相関フィルタによって音信号を導出するために実行するように構成される。生成器で使用される基礎信号は、再生サイトで提供されたまたは生成器から再生装置に送信される基礎信号と同一もしくは異なっていてもよい。

別の実施形態では、ジオメトリプロバイダ２２０は、空間的に拡張された音源のジオメトリから、パラメトリック記述または多角形記述を導出するように構成され、出力データ形成器は、このパラメトリック記述または多角形記述をビットストリームに組み込むように構成される。

さらに、出力データ形成器は、好ましい実施形態において、ビットストリーム要素をビットストリームに組み込むように構成され、ここで、このビットストリーム要素は、ビットストリームに含まれるまたはビットストリームに関連付けられた符号化されたオーディオ信号に含まれる空間的に拡張された音源のための少なくとも１つの異なる音信号の数を示し、ここで、数は１以上である。出力データ形成器によって生成されたビットストリームは、一方ではオーディオ波形データ、他方ではメタデータを有する完全なビットストリームである必要はない。代わりに、ビットストリームは、例えば、それぞれの空間的に拡張された音源の音信号の数についてのビットストリームフィールドと、空間的に拡張された音源についてのジオメトリ情報と、一実施形態では、空間的に拡張された音源についての位置情報も、そして、任意的に、それぞれの音信号およびそれぞれの空間的に拡張された音源についての位置情報と、空間的に拡張された音源についてのジオメトリ情報と、一実施形態では、空間的に拡張された音源についての位置情報も含む別個のメタデータビットストリームのみ存在することもできる。圧縮形式で典型的に利用可能な波形オーディオ信号は、別個のデータストリームまたは別個の送信チャネルによって再生装置に送信され、再生装置は、１つの音源から、符号化されたメタデータを受信し、異なる音源から（符号化された）波形信号を受信する。

さらに、ビットストリーム生成器の実施形態は、コントローラ２５０を含む。コントローラ２５０は、サウンドプロバイダによって提供される音信号の数に関してサウンドプロバイダ２００を制御するように構成される。この方法にしたがって、コントローラ２５０は、追加の特徴を示すハッチングされた線で示された出力データ形成器２４０にビットストリーム要素情報も提供される。出力データ形成器は、コントローラ２５０で制御され、サウンドプロバイダ２００によって提供されるように音信号の数に関する特定の情報をビットストリーム要素に導入する。好ましくは、符号化されたオーディオ音信号を含む出力ビットストリームが外部ビットレートの要求を満たすように、音信号の数が制御される。許容ビットレートが高い場合、サウンドプロバイダは、許可されたビットレートが小さい場合に比べて、より多くの音信号を提供することができる。極端な場合には、サウンドプロバイダは、ビットレート要求が厳密であるとき、空間的に拡張された音源について単一の音信号のみを提供することができる。

再生装置は、対応して設定されたビットストリーム要素を読み取り、レンダラ１６０内で、デコーダ側でおよび送信された音信号を使用して、別の音信号の対応する数を合成しはじめ、最終的には、周囲の点音源の必要な数および任意的に補助音源が生成される。

しかし、ビットレート要求がそれほど厳密ではない場合、コントローラ２５０は、例えば、対応する数の複数のマイクロフォンまたは１つのマイクロフォンの向きによって記録された、多数の異なる音信号を提供するようにサウンドプロバイダを制御することができる。そして、再生側で、非相関処理が全く必要ない、または、わずかしか必要なく、最終的には、再生側での非相関処理が削減される、または、必要がないために、再生装置によってより良い再生品質を得ることができる。一方でビットレートと他方で品質との間のトレードオフは、好ましくは、空間的に拡張された音源ごとの音信号の数を示すビットストリーム要素の機能を介して得られる。

図１１は、図１０に示すビットストリーム生成装置によって生成されたビットストリームの好ましい実施形態を示す。ビットストリームは、例えば、対応するデータを有するＳＥＳＳ₂として示される第２の空間的に拡張された音源４０１を含む。

さらに、図１１は、空間的に拡張された音源の番号１に関してそれぞれの空間的に拡張された音源についての詳細なデータを示す。図１１の例では、２つの音信号は、例えば、空間的に拡張された音源の２つの異なる場所に配置されたマイクロフォンから取り出されたマイクロフォン出力データからビットストリーム生成器で生成されている空間的に拡張された音源のためのものである。第１の音信号は３０１で示される音信号１であり、第２の音信号は３０２で示される音信号２であり、両方の音信号は好ましくはビットレート圧縮のためにオーディオエンコーダを介して符号化される。さらに、アイテム３１１は、例えば、図１０のコントローラ２５０によって制御される、空間的に拡張された音源１についての音信号の数を示すビットストリーム要素を表す。

空間的に拡張された音源のジオメトリ情報は、ブロック３３１に示めされるように組み込まれる。アイテム３０１は、好ましくは、ピアノの例に関して、音信号１については“低音弦に近接すること”を示し、３０２で示される音信号２については“高音弦に近接すること”を示すように、ジオメトリ情報に関連して、音信号についての任意の位置情報を示す。ジオメトリ情報は、例えば、ピアノモデルのパラメトリック表現または多角形表現であってもよく、このピアノモデルは、例えば、グランドピアノまたは（小型の）ピアノとは異なる。アイテム３４１は、空間内に空間的に拡張された音源のための位置に関する任意のデータをさらに示す。述べられているように、図９中のプロジェクタに向けられた点線で示されるような位置情報をユーザが提供する場合には、この位置情報３４１は必要ではない。しかしながら、位置情報３４１がビットストリームに含まれる場合であっても、ユーザはユーザインタラクションによって位置情報を置換または変更することができる。

次に、本発明の好ましい実施形態について説明する。実施形態は、６ＤｏＦＶＲ／ＡＲ（仮想現実／拡張現実）における空間的に拡張された音源のレンダリングに関する。

本発明の好ましい実施形態は、空間的に拡張された音源（ＳＥＳＳ）の再生を強化するように設計された方法、装置またはコンピュータプログラムに関する。特に、本発明の方法または装置の実施形態は、空間的に拡張された音源と仮想リスナー位置との間の経時変化する相対位置を考慮する。言い換えれば、本発明の方法または装置の実施形態は、任意の相対位置で聴取者に対して聴覚的な音源幅が表現されたサウンドオブジェクトの空間的な広がりと一致させることを可能にする。このように、本発明の方法または装置の実施形態は、特に空間的に拡張された音源が伝統的に採用された点音源を補完する６自由度（６ＤｏＦ）の仮想、混合および拡張現実アプリケーションに適用される。

本発明の方法または装置の実施形態は、（好ましくは有意に）非相関信号を提供されるいくつかの周囲の点音源を使用することによって、空間的に拡張された音源をレンダリングする。他の方法とは対照的に、これらの周囲の点音源の位置は、空間的に拡張された音源に対する聴取者の位置に依存する。図１は、本発明の方法または装置の実施形態に係る空間的に拡張された音源レンダラの概観ブロック図を示す。

ブロック図の鍵となる構成要素は以下である：

１．リスナー位置：このブロックは、例えば、仮想現実追跡システムによって測定されるような聴取者の瞬間的な位置を提供する。ブロックは、検出するための検出器１００またはリスナー位置を受信するためのインターフェース１００として実装することができる。

２．空間的に拡張された音源の位置およびジオメトリ：このブロックは、例えば、仮想現実シーン表現の一部としてレンダリングするために空間的に拡張された音源の位置およびジオメトリデータを提供する。

３．投影および凸包の計算：このブロック１２０は、空間的に拡張された音源のジオメトリの凸包を計算し、そのあとリスナー位置に向かう方向に投影する（例えば、“イメージ平面”、以下を参照）。代替的に、同じ機能は、最初にジオメトリをリスナー位置に向かう方向に投影し、そのあと凸包を計算することによって実現することができる。

４．周囲の点音源の位置：このブロック１４０は、前のブロックによって計算された凸包投影データから使用された周囲の点音源の位置を計算する。この計算では、リスナー位置および聴取者の近く／距離を考慮してもよい（以下を参照）。出力は、ｎ個の周囲の点音源の位置である。

５．レンダラコア：レンダラコア１６２は、特定された目標位置にそれらを位置決めすることによって、ｎ個の周囲の点音源の音を頭に描く。これは、例えば、頭部伝達関数を使用するバイノーラルレンダラまたはスピーカ再生（例えば、ベクトルベースの振幅パンニング）のためのレンダラであってもよい。レンダラコアは、ｋ個の入力オーディオ基礎信号（例えば、楽器の録音の非相関信号）およびｍ≧（ｎ－ｋ）の追加的な非相関オーディオ信号からｌ個のスピーカまたはヘッドホン出力信号を生成する。

６．音源基礎信号：このブロック１６４は、互いに（十分に）非相関的であり、レンダリングされる音源を表すｋ個の基礎オーディオ信号についての入力である（例えば、楽器のモノ－ｋ＝１－またはステレオ－ｋ＝２－録音）。ｋ個の基礎オーディオ信号は、例えば、デコーダ側の生成器から受信されるビットストリーム（例えば、図１１の要素３０１，３０２を参照）から得られるか、または外部音源からの再生サイトに提供されることができる。

７．デコリレータ：この任意ブロック１６６は、ｎ個の周囲の点音源をレンダリングするために必要とされる、追加的な非相関オーディオ信号を生成する。

８．信号出力：レンダラは、スピーカ（例えば、ｎ＝５．１）またはバイノーラル（典型的にはｎ＝２）のレンダリングについてｌ個の出力信号を提供する。

図１は、本発明の方法または装置の実施形態のブロック図の概要を示す。破線は、ジオメトリおよび位置等のメタデータの送信を示す。実線は、オーディオの送信を示し、ここで、ｋ、ｌおよびｍは、多数のオーディオチャネルを示す。レンダラコア１６２は、ｋ＋ｍのオーディオ信号およびｎ（＜＝ｋ＋ｍ）の位置データを受信する。ブロック１６２、１６４、１６６は、一般的なレンダラ１６０の一実施形態を共に形成する。

周辺の点音源の位置は、特に空間的な広がりにおいて、空間的に拡張された音源のジオメトリと、空間的に拡張された音源に対する聴取者の相対位置とに依存する。特に、周辺の点音源は、空間的に拡張された音源の凸包の投影の投影面へ配置されてもよい。投影面は、画像平面、すなわち、聴取者から空間的に拡張された音源への直線に垂直な平面または聴取者の頭部の周囲の球面を有してもよい。投影面は、聴取者の頭部の中心から任意の小さな距離に配置される。代替的に、空間的に拡張された音源の投影凸包を、聴取者の頭部の空間的配置からの相対的な球面座標のサブセットである方位角および仰角から計算することができる。以下の例示的な実施例では、より直感的な特性のために、投影面が好ましい。投影された凸包の計算の実施において、より単純な形式化およびより低い計算上の複雑さのために、角度表示が好ましい。空間的に拡張された音源の凸包の投影の両方は、投影された空間的に拡張された音源のジオメトリの凸包と同一であることに留意されたい。すなわち、画像平面への凸包の計算および投影は、いずれの順序においても使用することができる。

周辺の点音源の位置は、以下を含め、様々な方法で、空間的に拡張された音源の凸包の投影上に配置されてもよい。
● それらを凸包投影の周りに均一に配置することができる。
● それらを凸包投影の極値点に配置することできる。
● それらを凸包投影の水平方向および／または垂直方向の極値点に配置することができる（実施例のセクションにおいて図を参照）。

周囲の点音源に加えて、他の補助の点音源も使用することで、追加の計算の複雑さを代償として、強化された音響的充填感を生成することができる。さらに、投影された凸包は、周囲の点音源を配置する前に変更されてもよい。例えば、投影された凸包は、投影された凸包の重心に向かって収縮することができる。このような縮小投影された凸包は、レンダリング方法によって導入される個々の周囲の点音源の追加の空間的広がりを考慮してもよい。凸包の変形は、水平方向と垂直方向とのスケーリングをさらに区別することができる。

空間的に拡張された音源に対するリスナー位置が変化すると、空間的に拡張された音源の投影面への投影はそれに応じて変化する。同様に、周囲の点音源の位置はそれに応じて変化する。周囲の点音源の位置は、好ましくは、空間的に拡張された音源および聴取者の連続的な動きに対して滑らかに変化するように選択される。さらに、空間的に拡張された音源のジオメトリが変更されると、投影された凸包が変化する。これは、投影された凸包を変化させる３Ｄ空間における空間的に拡張された音源のジオメトリの回転を含む。ジオメトリの回転は、空間的に拡張された音源に対するリスナー位置の角度変位に等しく、聴取者と空間的に拡張された音源との相対位置として包括的な方法で参照されるようなものである。例えば、球形の空間的に拡張された音源の周囲の聴取者の円運動は、重心の周囲の点音源の位置を回転させることによって表される。同様に、静止した聴取者を有する空間的に拡張された音源の回転は、結果として周囲の点音源の位置と同じ変化を生じる。

本発明の方法または装置の実施形態によって生成される空間的な広がりは、空間的に拡張された音源と聴取者との間の任意の距離に対して本質的に正しく再現される。当然ながら、ユーザが空間的に拡張された音源に近づいたとき、物理的な現実をモデル化するのに適するように、周囲の点音源の間の開き角度は増加する。

周囲の点音源の角度配置は、投影面上の投影された凸包上の位置によって一意的に決定されるが、周囲の点音源の距離は、さらに、以下の様々な方法で選択されてもよい。

●全ての周囲の点音源は、空間的に拡張された音源全体の距離と等しい距離を有し、例えば、聴取者の頭部に対する空間的に拡張された音源の重心を介して定義される。
●各周囲の点音源の距離は、投影面への周囲の点音源の投影が同じ場所となるよう、空間的に拡張された音源のジオメトリへの投影された凸包の位置の逆投影によって決定される。凸包から空間的に拡張された音源への周囲の点音源の逆投影は必ずしも一意に決定されるとは限らず、追加の投影規則を適用しなければならない（実施例のセクションを参照）。
●周囲の点音源のレンダリングは距離特性を必要としないが、方位角および仰角における相対的な角度配置のみを必要とする場合は、周囲の点音源の距離は全く決定されなくてもよい。

空間的に拡張された音源の幾何学的形状／凸包を特定するために、単純化された１Ｄ、例えば、線、曲線；２Ｄ、例えば、楕円、長方形、多角形；または３Ｄ形状、例えば、楕円体、直方体および多面体を含む近似が使用される（および、おそらく、レンダラまたはレンダラコアに送信される）。空間的に拡張された音源のジオメトリまたは対応する近似の形状は、それぞれ、以下の様々な方法で説明することができる。

●パラメータの説明、すなわち、追加のパラメータを受け入れる数学的な表現を介したジオメトリの定形化。例えば、３Ｄにおける楕円体形状はデカルト座標系上の陰関数によって説明することができ、追加のパラメータは３つすべての方向における主軸の延長である。さらに、パラメータは楕円体面の３Ｄ回転、変形関数を含むことができる。
●多角形の説明、すなわち、線、三角形、正方形、四面体および直方体などの基本的な幾何学的形状の集合。基本的な多角形および多面体をより複雑なジオメトリに連結することもできる。

周囲の点音源の信号は、空間的に拡張された音源の基礎信号から導出される。基礎信号は、以下のような様々な方法で取得することができる：１）単一または複数のマイクロフォンの位置および方向での自然音源の記録（例：実施例で示されるようなピアノ音の記録）；２）人工音源の合成（例：変化するパラメータを伴う音の合成）；３）任意のオーディオ信号の組み合わせ（例：エンジン、タイヤ、ドアなどの自動車の種々の機械的な音）。さらに、追加の周囲の点音源の信号が、複数の非相関フィルタ（以前のセクションを参照）によって基礎信号から人工的に生成されてもよい。

特定のアプリケーションのシナリオでは、６ＤｏＦＶＲ／ＡＲコンテンツのコンパクトで相互利用可能な蓄積／送信を重視する。この場合、チェーン全体が３つのステップから構成される：

１．ビットストリームへの所望の空間的に拡張された音源のオーサリング／符号化するステップ
２．生成されたビットストリームの送信／蓄積するステップ。本発明によれば、ビットストリームは、他の要素を除いて、モノラルまたはステレオのピアノ録音のような、空間的に拡張された音源ジオメトリ（パラメトリックまたは多角形）および関連付けられた音源基礎信号の記述を含む。波形は、ｍｐ３またはＭＰＥＧ－２／４ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）などの知覚オーディオ符号化アルゴリズムを使用して圧縮されてもよい（図１０のアイテム２６０を参照）。
３．前述のような送信されたビットストリームに基づいて、空間的に拡張された音源の復号化／レンダリングするステップ。

前述のコアの方法に加えて、さらなる処理のためのいくつかのオプションが存在する：

オプション１－周囲の点音源の数および位置の動的選択

空間的に拡張された音源に対する聴取者の距離に応じて、周囲の点音源の数を変化させることができる。一例として、空間的に拡張された音源と聴取者とがお互いから遠く離れている場合には、投影された凸包の開き角度（開口）は小さくなり、したがって、より少数の周囲の点音源を有利に選択することができ、計算およびメモリの複雑さを省くことができる。極端な場合には、全ての周囲の点音源は単一の残りの点音源に縮小される。基礎信号と導出された信号との間の干渉が結果として生じる周囲の点音源の信号のオーディオ品質を劣化させないことを保証するために、適切なダウンミキシング技術を適用することができる。同様の技術は、空間的に拡張された音源のジオメトリが聴取者の相対的な視点に依存して非常に不規則である場合、リスナー位置に対して空間的に拡張された音源が近い場合にも適用することができる。例えば、有限長の線である空間的に拡張された音源のジオメトリは、投影面上で単一の点に向かって縮退し得る。一般に、投影された凸包上の周囲の点音源の角度範囲が狭い場合、空間的に拡張された音源をより少ない周囲の点音源によって表すことができる。極端な場合には、全ての周囲の点音源は、単一の残りの点音源に縮小される。

オプション２－広がり補償

各周囲の点音源は、凸包投影の外側に向かって空間的な広がりを示すので、レンダリングされた空間的に拡張された音源の知覚される聴覚イメージの幅は、レンダリングに使用される凸包よりも幾分大きい。これを所望のターゲットジオメトリと調整するために、２つの可能性がある：

１．オーサリング中の補償：コンテンツオーサリング中に、レンダリング方法の追加の広がりが考慮される。具体的には、実際にレンダリングされたサイズが所望のようになるように、コンテンツオーサリング中に、幾分小さい空間的に拡張された音源のジオメトリが選択される。これは、オーサリング環境（例えば、再生スタジオ）におけるレンダラまたはレンダラコアの効果をモニタリングすることによってチェックすることができる。この場合、送信されるビットストリームおよびレンダラまたはレンダラコアは、ターゲットサイズと比較して低減されたターゲットジオメトリを使用する。
２．レンダリング中の補償：空間的に拡張された音源のレンダラまたはレンダラコアは、レンダリング方法によって追加の知覚的な広がりを認識することができ、したがって、この効果を補償することを可能にすることができる。単純な例として、レンダリングのために使用されるジオメトリを、周囲の点音源の配置に適用される前に、
○一定の係数ａ＜１．０（例えば、ａ＝０．９）だけ低減することができる。または、
○一定の開き角度アルファ＝５度だけ低減することができる。
この場合、送信されたビットストリームは、空間的に拡張された音源のジオメトリの最終的なターゲットサイズを含む。

また、これらのアプローチの組み合わせも実現可能である。

オプション３－周囲の点音源の波形の生成

さらに、ピアノのように左側に低音を有したり、逆に右側に低音の音を有したりするような、音の寄与に依存するジオメトリを有する空間的に拡張された音源をモデル化するために、空間的に拡張された音源に対するユーザ位置を考慮することによって、周囲の点音源を提供するための実際の信号を、記録されたオーディオ信号から生成することができる。

例：アップライトピアノの音は、その音響挙動によって特徴付けられる。これは、（少なくとも）２つのオーディオ基礎信号、１つはピアノキーボードの下端近く（“低音”）、および１つはキーボードの上端近く（“高音”）によってもモデル化される。これらの基礎信号は、ピアノ音を記録するときに適切なマイクロフォンの使用によって得ることができ、６ＤｏＦレンダラまたはレンダラコアに送信され、それらの間に十分な相関性があることを保証する。

次に、周囲の点音源の信号は、空間的に拡張された音源に対するユーザ位置を考慮することによって、これらの基礎信号から導出される。

●ユーザがピアノに正面（キーボード）側から対面する場合、２つの周囲の点音源は、ピアノキーボードの左および右の端部の近くで互いに大きく離れている。この場合、低いキーについての基礎信号を左の周囲の点音源に直接供給することができ、高いキーについての基礎信号を右の周囲の点音源を駆動するために直接的に使用することができる。
●聴取者はピアノの周りを右へ約９０度だけ歩くときに、ピアノ音量モデル（例えば、楕円）の投影が側方から見たときに小さくなるので、２つの周囲の点音源は互いに非常に近接してパンニングされる。基礎信号が周囲の点音源の信号を直接的に駆動するために使用され続ける場合、１つの周囲の点音源は主に高い音を含み、他方では、他の１つが大部分の低い音を伝えるだろう。これは物理的な観点から望ましくないので、ピアノの重心に対するユーザの動きと同じ角度だけ、ギブンス回転によって周囲の点音源の信号を形成する２つの基礎信号を回転させることによって、レンダリングを改善することができる。このようにして、両方の信号は同様のスペクトルコンテンツの信号を含み、依然として非相関である（基礎信号が非相関であると仮定する）。

オプション４－レンダリングされた空間的に拡張された音源の後処理

位置依存および方向依存の効果、例えば、空間的に拡張された音源の指向性パターンを考慮するために、実際の信号を前処理または後処理することができる。言い換えると、前述のように、空間的に拡張された音源から発されるすべての音は、例えば、方向依存の音放射パターンを示すように修正することができる。ピアノ信号の場合には、これは、ピアノの背面に向かう放射が、ピアノの前面に向かう放射よりも高周波数コンテンツが少ないことを意味し得る。さらに、周囲の点音源の信号の前処理および後処理は、周囲の点音源の各々に対して個別に調整されてもよい。例えば、指向性パターンを周囲の点音源の各々に対して異なるように選択することができる。ピアノを表す空間的に拡張された音源の所与の例では、低いおよび高いキー範囲の指向性パターンは、上述のように類似していてもよいが、ペダリングノイズのような追加の信号は、より無指向性の指向性パターンを有する。

次に、好ましい実施形態のいくつかの利点が要約される。

空間的に拡張された音源の内部を点音源で完全に埋め尽くす場合（例えば、ＡｄｖａｎｃｅｄＡｕｄｉｏＢＩＦＳで使用されるような）と比較して、計算の複雑さがより低い。

●点音源の信号間の破壊的干渉のより低い可能性
●ビットストリーム情報のコンパクトなサイズ（幾何学的形状の近似、１つ以上の波形）
●ＶＲ／ＡＲレンダリングの目的のために音楽消費のために制作されたレガシー録音（例えば、ピアノのステレオ録音）の使用を可能にする。

次に、様々な実際の実装例が提示される：
●球形の空間的に拡張された音源
●楕円体の空間的に拡張された音源
●線状の空間的に拡張された音源
●直方体の空間的に拡張された音源
●距離依存の周囲の点音源
●ピアノ形状の空間的に拡張された音源

本発明の方法または装置の実施形態で説明したように、周囲の点音源の位置を決定するための上記の様々な方法を適用することができる。以下の実施例は、特定の場合でいくつかの分離された方法を示す。本発明の方法または装置の実施形態の完全な実装では、様々な方法を、計算の複雑さ、適用目的、オーディオ品質および実装の容易さを考慮して、適切に組み合わせることができる。

空間的に拡張された音源のジオメトリは、緑色の表面メッシュとして示されている。なお、メッシュ視覚化は、空間的に拡張された音源のジオメトリが多角形の方法によって記述されることを意味するものではなく、実際には、パラメトリックな仕様から生成されることがあることに留意されたい。リスナー位置は、青色の三角形によって示されている。以下の例では、画面は投影面として選択され、投影面の有限のサブセットを示す透明なグレー面として描かれている。投影面への空間的に拡張された音源の投影されたジオメトリは、緑色の同じ表面メッシュで示されている。投影された凸包上の周囲の点音源は、投影面上で赤色の十字記号として示されている。空間的に拡張された音源のジオメトリへの逆投影された周囲の点音源は、赤色のドットとして示されている。投影された凸包上の対応する周囲の点音源と、空間的に拡張された音源のジオメトリ上の逆投影された周囲の点音源とは、視覚的な対応を識別するのを助けるために、赤色の線によって接続される。関連する全てのオブジェクトの位置は、メータ内のユニットを有するデカルト座標系で示されている。図示された座標系の選択は、関連する計算がデカルト座標で実行されることを意味しない。

図２における最初の例は、球形の空間的に拡張された音源を考慮する。球形の空間的に拡張された音源は、聴取者に対して固定された大きさおよび固定された位置を有する。３つ、５つ、８つの周囲の点音源の３つの異なるセットが、投影された凸包上で選択される。周囲の点音源の３つのセットのすべては、凸包の曲線上に均一な距離をもって選択される。凸包の曲線上の周囲の点音源のオフセット位置は、空間的に拡張された音源のジオメトリの水平方向の広がりが良好に表されるように意図的に選択される。

図２は、凸包上で均一に配置された異なる数の点音源（すなわち、３（上）、５（中）、および８（下））を有する、球形の空間的に拡張された音源を示す。

図３における次の例は、楕円体の空間的に拡張された音源を考慮する。楕円体の空間的に拡張された音源は、３Ｄ空間内の固定された形状、位置および回転を有する。この例では、４つの周囲の点音源が選択される。周囲の点音源の位置を決定する３種類の方法が例示される：

ａ）２つの周囲の点音源が２つの水平方向の極値点に配置され、２つの周囲の点音源が２つの垂直方向の極値点に配置される。一方、極値点の位置決めは単純であり、通常は適切である。この例は、この方法がお互いに相対的に近い周囲の点音源の位置を生成してもよいことを示す。

ｂ）４つの周囲の点音源のすべてが、投影された凸包上に均一に配置される。周囲の点音源の位置のオフセットは、一番上の周囲の点音源がａ）における一番上の周囲の点音源の位置と一致するように選択される。周囲の点音源の位置のオフセットの選択は、周囲の点音源を介して幾何学的形状の表現にかなり影響を与えることが分かる。

ｃ）４つの周囲の点音源のすべては、縮小投影された凸包上に均一に配置される。周囲の点音源のオフセット位置は、ｂ）で選択されたオフセット位置に等しい。投影された凸包の収縮動作は、投影された凸包の重心に向かって、方向に依存しない延伸倍率で予め形成される。

図３は、周囲の点音源の位置を決定する３種類の方法に基づく、４つの周囲の点音源を有する楕円体の空間的に拡張された音源を示す：ａ／上）水平方向および垂直方向の極値点、ｂ／中）凸包上の均一に配置された点、ｃ／下）縮小した凸包上の均一に配置された点。

図４における次の例は、線状の空間的に拡張された音源を考慮する。前の例は、体積のある空間的に拡張された音源のジオメトリを考慮するが、この例は、空間的に拡張された音源のジオメトリを３Ｄ空間内の一次元オブジェクトとして選択することができることを示す。サブ図ａ）は、有限直線の空間的に拡張された音源のジオメトリの極値点上に配置された２つ周囲の点音源を示す。ｂ）２つの周囲の点音源が、有限直線の空間的に拡張された音源のジオメトリの極値点上に配置され、１つの追加の点音源が、線の中心に配置される。本発明の方法または装置の実施形態に記載されるように、空間的に拡張された音源のジオメトリ内に追加の点音源を配置することは、大きな空間的に拡張された音源のジオメトリについて大きなギャップを埋めることを助けることができる。ｃ）ａ）およびｂ）のような同じ線の空間的に拡張された音源のジオメトリが考慮されるが、線状のジオメトリの投影された長さがかなり小さくなるように、聴取者に向かう相対角度が変更される。上述の本発明の方法または装置の実施形態に記載されるように、投影された凸包の縮小されたサイズを、この特定の例では、線状のジオメトリの中心に配置される単一の周囲の点音源によって、周囲の点音源の低減された数によって表すことができる。

図４は、周囲の点音源の位置を配置するための３種類の異なる方法を有する線状の空間的に拡張された音源を示す：ａ／上）投影された凸包上の２つの極値点；ｂ／中）線の中心に追加の点音源を有する投影された凸包上の２つの極値点；ｃ／下）回転した線の投影された凸包が小さすぎて１より大きい周囲の点音源を許容することができない凸包の中心における１つの周囲の点音源。

図５における次の例は、直方体の空間的に拡張された音源を考慮する。直方体の空間的に拡張された音源は、固定された大きさと固定された位置とを有するが、聴取者の相対位置が変化する。サブ図ａ）およびｂ）は、投影された凸包上に４つの周囲の点音源を配置する異なる方法を示す。逆投影された周囲の点音源の位置は、投影された凸包上の選択によって一意に決定される。ｃ）は、十分に分離された逆投影の位置を有さない４つの周囲の点音源を示す。代わりに、周囲の点音源の位置の距離は、空間的に拡張された音源のジオメトリの重心の距離に等しいように選択される。

図５は、周囲の点音源を配置するための３種類の方法を有する直方体の空間的に拡張された音源を示す：ａ／上）水平軸上の２つの周囲の点音源および垂直軸上の２つの周囲の点音源；ｂ／中）投影された凸包の水平方向の極値点上の２つの周囲の点音源および投影された凸包の垂直方向の極値点上の２つの周囲の点音源；ｃ／下）距離が空間的に拡張された音源のジオメトリの重心の距離に等しく選択される逆投影された周囲の点音源。

図６における次の例は、固定されたサイズおよび形状の球形の空間的に拡張された音源を考慮しているが、リスナー位置に対して３つの異なる距離にある。周囲の点音源は、凸包曲線上に均一に配置されている。周囲の点音源の数は、凸包曲線の長さと、可能な周囲の点音源の位置の間の最小距離とから動的に決定される：ａ）４つの周囲の点音源が投影された凸包上で選択されるように、球形の空間的に拡張された音源が近接した距離にある。ｂ）３つの周囲の点音源が投影された凸包上で選択されるように、球形の空間的に拡張された音源が中程度の距離にある。ａ）２つの周囲の点音源のみが投影された凸包上で選択されるように、球形の空間的に拡張された音源が遠距離にある。上述した本発明の方法または装置の実施形態に記載されているように、周囲の点音源の数は、球面角度座標で表される広がりから決定されてもよい。

図６は、等しい大きさであるが、異なる距離にある球形の空間的に拡張された音源を示す：ａ／上）近距離で投影された凸包上に均一に配置される４つの周囲の点音源；ｂ／中）中距離で投影された凸包上に均一に配置される３つの周囲の点音源；ｃ／下）遠距離で投影された凸包上に均一に配置される２つの周囲の点音源。

図７および８における最後の例は、仮想世界内に配置されたピアノ形状の空間的に拡張された音源を考慮する。ユーザは、ヘッドマウントディスプレイ（ＨＭＤ）およびヘッドホンを装着する。仮想現実シーンは、オープンワールドキャンバスと、自由移動領域内のフロアに立設された３Ｄアップライトピアノモデルとから成ることを、ユーザに提示される（図７を参照）。オープンワールドキャンバスは、ユーザの周囲の球体上に投影された球形の静止画像である。この特定の場合には、オープンワールドキャンバスは、白の雲を有する青空を示す。ユーザは、様々な角度からピアノの周りを歩くことができ、見ることができ、聴取することができる。このシーンでは、ピアノは、重心に配置された単一の点音源として、または投影された凸包上に３つの周囲の点音源を有する空間的に拡張された音源としてレンダリングされる（図８を参照）。レンダリング試験は、単一の点音源としてレンダリングすることによりも、周囲の点音源のレンダリング方法の非常に優れたリアリズムを示す。

周囲の点音源の位置の計算を単純化するために、ピアノのジオメトリは、同様の寸法を有する楕円体の形状に抽象化される、図７を参照。さらに、２つの代替の点音源が、同一線上の左右の極値点に配置される、一方、第３の代替の点が極北に残る、図８を参照。この配置は、高度に低減された計算コストで、すべての角度から適切な水平の音源幅を保証する。

図７は、近似的なパラメトリック楕円体形状（赤色メッシュで示す）を有するピアノ形状の空間的に拡張された音源（緑色で示される）を示す。

図８は、投影された凸包の垂直方向の極値点および投影された凸包の垂直方向の頂点上に配置された３つの周囲の点音源を有するピアノ形状の空間的に拡張された音源を示す。なお、より見やすくするために、周囲の点音源は引き伸ばされた投影された凸包上に配置されている。

次に、本発明の実施形態の特有の特徴が提供される。提示された実施形態の特性は以下の通りである：

●空間的に拡張された音源の知覚された音響空間を満たすために、好ましくはその内部全体が非相関の点音源（周囲の点音源）で満たされないが、聴取者に面している場合に（例えば、“聴取者に向かう空間的に拡張された音源の凸包の投影”）、その周囲だけを満たす。具体的には、これは、周囲の点音源の位置が空間的に拡張された音源のジオメトリに付与されていないが、リスナー位置に対する空間的に拡張された音源の相対位置を考慮に入れて動的に計算されることを意味する。
○周囲の点音源の動的計算（数および位置）
●空間的に拡張された音源の形状の近似が使用される（圧縮された表現を使用するシナリオのため：ビットストリームの一部として送信される）。

説明された技術の適用は、オーディオ６ＤｏＦＶＲ／ＡＲの規格の一部とすることができる。この文脈では、古典的な符号化／ビットストリーム／デコーダ（＋レンダラ）のシナリオを有する：

●エンコーダでは、空間的に拡張された音源の形状は、空間的に拡張された音源を特徴付ける
○モノ信号、または、
○ステレオ信号（好ましくは、十分に非相関である）、または、
○より多くの記録された信号（好ましくは、十分に非相関である）
のいずれかであってもよい空間的に拡張された音源の“基本”波形とともにサイド情報として符号化されるだろう。これらの波形を低ビットレートで符号化することができる。
●デコーダ／レンダラにおいて、空間的に拡張された音源の形状および対応する波形は、ビットストリームから取り出され、前述のように、空間的に拡張された音源をレンダリングするために使用される。

使用される実施形態に依存して、および説明された実施形態に対する代替として、インターフェースを、リスナー位置を検出するための実際のトラッカーまたは検出器として実装することができることに留意されたい。しかしながら、聴取位置は、典型的には、外部トラッカー装置から受信され、インターフェースを介して再生装置に提供される。しかし、インターフェースは、外部トラッカーからの出力データに対するデータ入力だけを表すことができ、またはトラッカー自体を表すこともできる。

さらに、概説したように、周囲の音源間に追加の補助音源が必要とされてもよい。

さらに、左右の周囲の音源および任意の（聴取者に対して）水平方向に間隔を置いて配置された補助音源が、垂直方向に間隔を置いて配置された周囲の音源、すなわち、上部および下部の空間的に拡張された音源上の周囲の音源よりも知覚的な印象にとってより重要であることが見出された。例えば、リソースが不足している場合には、処理リソースを節約するために、垂直方向に間隔を置いて配置された周囲の音源を省略することができるので、少なくとも水平方向に間隔を置いて配置された周囲の音源（および任意の補助音源）を使用することが好ましい。

さらに、概説したように、ビットストリーム生成器は、空間的に拡張された音源のための１つの音信号のみを有するビットストリームを生成するように実装することができ、残りの音信号は非相関関係によってデコーダ側または再生側で生成される。単一の信号のみが存在し、空間全体がこの単一の信号と等しく満たされる場合には、任意の位置情報は不要である。しかしながら、このような状況において、図１０の２２０に示されるようなジオメトリ情報計算機によって計算された空間的に拡張された音源のジオメトリに関する少なくとも追加の情報を有することが有益である。

ここで言及しておきたいことは、前で説明したようなすべての代替または態様、および以下の特許請求の範囲における独立請求項によって定義されるすべての態様は、個々に、すなわち、意図された代替、目的または独立請求項以外の他の代替または目的なしで使用できるということである。しかしながら、他の実施形態では、２つ以上の代替または態様または独立請求項を互いに組み合わせることができ、他の実施形態では、すべての態様、または代替およびすべての独立請求項を互いに組み合わせることができる。

発明の符号化された音場の記述は、デジタル記憶媒体または非一時的な記憶媒体に記憶することができ、もしくは、無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で送信することができる。

いくつかの態様が装置の文脈において記載されてきたが、これらの態様は対応する方法の記述も表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの機能に対応する。同様に、方法ステップの文脈において記載された態様は、対応する装置の対応するブロック、アイテムまたは機能の記述も表す。

特定の実現要求に依存して、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に記憶された電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）、デジタル記憶媒体、例えばフロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを用いて実行することができる。

本発明に係るいくつかの実施形態は、本願明細書に記載された方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読取可能な制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、方法の１つを実行するように動作可能であるプログラムコードによるコンピュータプログラム製品として実施することができる。プログラムコードは、例えば機械読取可能なキャリアに記憶することができる。

他の実施形態は、機械読取可能なキャリアまたは非一時的な記憶媒体に記憶された、本願明細書に記載された方法の１つを実行するためのコンピュータプログラムを備える。

言い換えれば、本発明の方法の一実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の方法の更なる実施形態は、それ故に、その上に記録され、本願明細書に記載された方法の１つを実行するためのコンピュータプログラムを備えるデータキャリア（またはデジタル記憶媒体またはコンピュータ読取可能媒体）である。

本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続、例えばインターネットによって転送されるように構成することができる。

更なる実施形態は、本願明細書に記載された方法の１つを実行するように構成されたまたは適合された処理手段、例えばコンピュータまたはプログラマブルロジックデバイスを備える。

更なる実施形態は、本願明細書に記載された方法の１つを実行するためのコンピュータプログラムがその上にインストールされたコンピュータを備える。

いくつかの実施形態において、本願明細書に記載された方法のいくつかまたは全ての機能を実行するために、プログラマブルロジックデバイス（例えばフィールドプログラマブルゲートアレイ）を用いることができる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の１つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。

上記の実施形態は、単に本発明の原理に対して説明したものである。本願明細書に記載された構成および詳細の修正および変更は、当業者にとって明らかであると理解される。それ故に、本発明は、間近に迫った特許請求の範囲のスコープのみによって制限され、本願明細書の実施形態の記載および説明の方法によって表された特定の詳細によって制限されないことが意図される。

参考文献

Alary, B., Politis, A., & Vaelimaeki, V. (2017). Velvet Noise Decorrelator.
Baumgarte, F., & Faller, C. (2003). Binaural Cue Coding－Part I: Psychoacoustic Fundamentals and Design Principles. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 509－519.
Blauert, J. (2001). Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press.
Faller, C., & Baumgarte, F. (2003). Binaural Cue Coding－Part II: Schemes and Applications. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 520－531.
Kendall, G. S. (1995). The Decorrelation of Audio Signals and Its Impact on Spatial Imagery. Computer Music Journal, 19(4), S. p 71－87.
Lauridsen, H. (1954). Experiments Concerning Different Kinds of Room－Acoustics Recording. Ingenioren, 47.
Pihlajamaeki, T., Santala, O., & Pulkki, V. (2014). Synthesis of Spatially Extended Virtual Source with Time－Frequency Decomposition of Mono Signals. Journal of the Audio Engineering Society, 62(7/8), S. 467－484.
Potard, G. (2003). A study on sound source apparent shape and wideness.
Potard, G., & Burnett, I. (2004). Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays.
Pulkki, V. (1997). Virtual Sound Source Positioning Using Vector Base Amplitude Panning. Journal of the Audio Engineering Society, 45(6), S. 456－466.
Pulkki, V. (1999). Uniform spreading of amplitude panned virtual sources.
Pulkki, V. (2007). Spatial Sound Reproduction with Directional Audio Coding. J. Audio Eng. Soc, 55(6), S. 503－516.
Pulkki, V., Laitinen, M.－V., & Erkut, C. (2009). Efficient Spatial Sound Synthesis for Virtual Worlds.
Schlecht, S. J., Alary, B., Vaelimaeki, V., & Habets, E. A. (2018). Optimized Velvet－Noise Decorrelator.
Schmele, T., & Sayin, U. (2018). Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters.
Schmidt, J., & Schroeder, E. F. (2004). New and Advanced Features for Audio Presentation in the MPEG－4 Standard.
Verron, C., Aramaki, M., Kronland－Martinet, R., & Pallone, G. (2010). A 3－D Immersive Synthesizer for Environmental Sounds. Audio, Speech, and Language Processing, IEEE Transactions on, title=A Backward－Compatible Multichannel Audio Codec, 18(6), S. 1550－1561.
Zotter, F., & Frank, M. (2013). Efficient Phantom Source Widening. Archives of Acoustics, 38(1), S. 27－37.
Zotter, F., Frank, M., Kronlachner, M., & Choi, J.－W. (2014). Efficient Phantom Source Widening and Diffuseness in Ambisonics.

Claims

空間内に定義された位置およびジオメトリを有する空間的に拡張された音源を再生するための装置であって、
リスナー位置を受信するためのインターフェース（１００）と、
前記リスナー位置、前記空間的に拡張された音源のジオメトリに関する情報および前記空間的に拡張された音源の位置に関する情報を使用して、前記空間的に拡張された音源に関連付けられた二次元または三次元の凸包の投影面への投影を計算するためのプロジェクタと、
前記投影面を使用して、前記空間的に拡張された音源について少なくとも２つの音源の位置を計算するための音位置計算機と、
前記位置で前記少なくとも２つの音源をレンダリングして、２つ以上の出力信号を有する前記空間的に拡張された音源の再生を得るためのレンダラであって、前記レンダラは異なる前記位置に対して異なる音信号を使用するように構成され、前記異なる音信号は前記空間的に拡張された音源に関連付けられる、レンダラと、
を含む、装置。
前記検出器は追跡システムを使用して前記空間内の瞬間的なリスナー位置を検出するように構成される、または、前記インターフェース（１００）は前記インターフェースを介して入力された位置データを使用するように構成される、請求項１に記載の装置。
シーン記述を受信するように構成される装置であって、前記シーン記述は前記定義された位置に関する前記情報および前記空間的に拡張された音源の前記定義されたジオメトリに関する前記情報、ならびに前記空間的に拡張された音源に関連付けられた少なくとも１つの音信号を含み、
前記装置はさらに、前記シーン記述を解析して、前記定義された位置に関する前記情報（３４１）、前記定義されたジオメトリに関する前記情報（３３１）および前記少なくとも１つの音源信号（３０１，３０２）を取り出すためのシーン記述パーサ（１８０）を備える、または、
前記シーン記述は、前記空間的に拡張された音源について、少なくとも２つの基礎音信号（３０１，３０２）と、前記空間的に拡張された音源のジオメトリに関する前記情報（３３１）についてはそれぞれの基礎音信号の位置情報（３２１）とを含み、また前記音位置計算機（１４０）は、前記投影面を使用して前記少なくとも２つの音源の前記位置を計算するときに、前記少なくとも２つの基礎信号の位置情報を使用するように構成される、請求項１または２に記載の装置。
前記プロジェクタ（１２０）は、前記空間的に拡張された音源の前記ジオメトリに関する情報（３３１）を使用して前記空間的に拡張された音源の前記凸包を計算し、前記リスナー位置を使用して前記凸包を前記聴取者に向かう方向に投影して、前記投影面上に前記二次元または三次元の凸包の前記投影を得るように構成される、または、
前記プロジェクタ（１２０）は、前記空間的に拡張された音源の前記ジオメトリに関する前記情報（３３１）によって定義される前記空間的に拡張された音源のジオメトリを前記リスナー位置に向かう方向に投影し、投影されたジオメトリの前記凸包を計算して、前記投影面上に前記二次元または三次元の凸包の前記投影を得るように構成される、請求項１ないし３のうちのいずれか１項に記載の装置。
前記音位置計算機（１４０）は、前記空間内の前記音源位置を凸包投影データおよび前記リスナー位置から計算するように構成される、請求項１ないし４のうちのいずれか１項に記載の装置。
前記音位置計算機（１４０）は、前記少なくとも２つの音源が周囲の音源であり、且つ前記投影面上に位置するように、前記位置を計算するように構成される、または、
前記音位置計算機（１４０）は、複数の前記周囲の音源のうちの１つの周囲の音源の位置が、前記聴取者に対して前記投影面の右側および／または前記聴取者に対して前記投影面の左側、および／または、前記聴取者に対して前記投影面の頂部、および／または前記聴取者に対して前記投影面の前記底部に配置されるように計算するように構成されることを特徴とする、請求項１ないし５のうちのいずれか１項に記載の装置。
前記レンダラ（１６０）は、
既定のスピーカ設定のためのスピーカ信号を得るための前記音源の前記位置に依存したパンニング動作を使用して、または、
ヘッドホン信号を得るための前記音源の前記位置に依存した、頭部伝達関数を使用するバイノーラルレンダリング動作を使用して、
前記少なくとも２つの音源をレンダリングするように構成される、請求項１ないし６のうちのいずれか１項に記載の装置。
第１の数の関連する音源信号が前記空間的に拡張された音源に関連付けられ、前記第１の数は１以上であり、前記関連する音源信号は同一の空間的に拡張された音源に関連し、
前記音位置計算機（１４０）は、前記空間的に拡張された音源の前記レンダリングに使用される音源の第２の数を決定し、前記第２の数は１よりも大きく、
前記第２の数が前記第１の数よりも大きい場合、前記レンダラ（１６０）は、前記第１の数の音源信号（１６４）のうちの１つ以上から非相関信号を生成するための１つ以上のデコリレータ（１６６）を含む、請求項１ないし７のうちのいずれか１項に記載の装置。
前記インターフェース（１００）は、前記空間内の前記聴取者の経時変化する位置を受信するように構成され、
前記プロジェクタ（１２０）は、前記空間内の経時変化する投影を計算するように構成され、
前記音位置計算機（１４０）は、前記空間内の前記音源の経時変化する数または音源または経時変化する位置を計算するように構成され、
前記レンダラ（１６０）は、前記経時変化する数の音源または前記空間内の前記経時変化する位置の前記少なくとも２つの音源をレンダリングするように構成される、請求項１ないし８のうちのいずれか１項に記載の装置。
前記インターフェース（１００）は、前記リスナー位置を６自由度で受信するように構成され、
前記プロジェクタ（１２０）は、前記６自由度に依存して前記投影を計算するように構成される、請求項１ないし９のうちのいずれか１項に記載の装置。
前記プロジェクタ（１２０）は、
前記聴取者の視線に垂直な平面等の画像平面として前記投影を計算する、または、
前記聴取者の頭部の周囲の球面として前記投影を計算する、または、
前記聴取者の頭部の中心から既定の距離に位置する投影面として前記投影を計算する、または、
聴取者の頭部の空間的配置に対する球面座標から導出される方位角および仰角から空間的に拡張された音源の凸包の前記投影を計算する、
ように構成される、請求項１ないし１０のうちのいずれか１項に記載の装置。
前記音位置計算機（１４０）は、前記位置が前記凸包の前記投影の周囲に均一に分布するように、または、前記位置が前記凸包の投影の極値点または周辺点に配置されるように、または、前記位置が前記凸包の前記投影の水平または垂直の極値点または周辺点に位置するように、前記位置を計算するように構成される、請求項１ないし１１のうちのいずれか１項に記載の装置。
前記音位置計算機（１４０）は、周囲の音源のための位置に加えて、前記聴取者に対して前記凸包の前記投影上、またはその前、またはその後、またはその範囲内に位置する補助音源の位置を決定するように構成される、請求項１ないし１２のうちのいずれか１項に記載の装置。
前記プロジェクタ（１２０）は、水平方向および垂直方向などの異なる方向に、変数または既定の量、もしくは種々の変数または既定の量の分、前記凸包の前記投影を前記凸包または前記投影の重心等に向かって追加的に収縮させるように構成される、請求項１ないし１３のうちのいずれか１項に記載の装置。
前記音位置計算機（１４０）は、前記リスナー位置に対して左側の周囲の音源と右側の周囲の音源との間の前記投影面上に少なくとも１つの追加の補助音源が位置するように計算するように構成される、または、
前記音位置計算機（１４０）は、前記リスナー位置に対して左側の周囲の音源と右側の周囲の音源との間の前記投影面上に少なくとも１つの追加の補助音源が位置するように計算するように構成され、前記左側の周囲の音源と前記右側の周囲の音源との間の中間に単一の追加の補助音源が配置される、もしくは２つ以上の追加の補助音源が前記左側の周囲の音源と前記右側の周囲の音源との間に等間隔に配置される、請求項１ないし１４のうちのいずれか１項に記載の装置。
前記音位置計算機（１４０）は、前記空間的に拡張された音源の周囲の前記聴取者の円運動を前記インターフェースを介して受信した場合、または、固定された聴取者に関して前記空間的に拡張された音源の回転を前記インターフェースを介して受信した場合に、好ましくは前記投影の重心の周囲で、前記空間的に拡張された音源の前記音の位置の回転を実行するように構成される、請求項１ないし１５のうちのいずれか１項に記載の装置。
前記レンダラ（１６０）は各音源について、前記聴取者と前記音源との間の前記距離に依存して開き角度を受信し、前記開き角度に依存して前記音源をレンダリングするように構成される、請求項１ないし１６のうちのいずれか１項に記載の装置。
前記レンダラ（１６０）は各音源についての距離情報を受信するように構成され、
前記レンダラ（１６０）は、前記聴取者のより近くに配置されている音源が、前記聴取者からより遠く配置されかつ同じ音量を有する音源と比較して、より大きい音量でレンダリングされるように、前記距離に依存して前記音源をレンダリングするように構成される、請求項１ないし１７のうちのいずれか１項に記載の装置。
前記音位置計算機（１４０）は、
各音源について、前記聴取者に対する前記空間的に拡張された音源の前記距離と等しい距離を決定する、または、
前記空間的に拡張された音源の前記ジオメトリへの前記投影上の前記音源の位置の逆投影によって、各音源の距離を決定する
ように構成され、
前記レンダラ（１６０）は、前記距離に関する前記情報を使用して前記音源を生成するように構成される、請求項１ないし１８のうちのいずれか１項に記載の装置。
前記ジオメトリに関する前記情報（３３１）は、一次元の線または曲線、楕円、長方形、または多角形、もしくは多角形のグループ等の二次元領域、あるいは楕円体、直方体または多面体等の三次元物体として定義される、および／または、
前記情報は、パラメトリック記述または多角形記述または前記多角形記述のパラメトリック表現として定義される、請求項１ないし１９のうちのいずれか１項に記載の装置。
前記音位置計算機（１４０）は、前記空間的に拡張された音源までの前記聴取者の距離に依存して音源の数を決定するように構成され、前記音源の数は前記聴取者と前記空間的に拡張された音源との間の距離が大きい場合のより小さい数と比べると、距離が小さい場合により大きくなる、請求項１ないし２０のうちのいずれか１項に記載の装置。
前記空間的に拡張された音源によって導入される広がりに関する情報を受信するように構成され、
前記プロジェクタ（１２０）は、前記広がりを少なくとも部分的に補償するために、前記広がりに関する前記情報を使用して、前記凸包または前記投影に収縮動作を適用するように構成される、請求項１ないし２１のうちのいずれか１項に記載の装置。
前記レンダラ（１６０）は、前記音源の前記位置が定義された許容範囲内で互いに同一である場合に、前記空間的に拡張された音源に関連付けられた基礎信号を例えばギブンス回転を使用して合成することによって、前記音源をレンダリングして回転基礎信号を取得し、前記回転基礎信号を前記位置にレンダリングするように構成される、請求項１ないし２２のうちのいずれか１項に記載の装置。
前記レンダラ（１６０）は、位置依存特性または方向依存特性に従って前記少なくとも２つの音源を生成するときに、前処理または後処理を実行するように構成される、請求項１ないし２３のうちのいずれか１項に記載の装置。
前記空間的に拡張された音源は、前記ジオメトリに関する前記情報（３３１）として、前記空間的に拡張された音源が球面、および楕円体、線、直方体またはピアノ形状の空間的に拡張された音源であるとの情報を有する、請求項１ないし２４のうちのいずれか１項に記載の装置。
前記空間的に拡張された音源についての圧縮された記述を表すビットストリームを受信し、ここで前記ビットストリームは、前記ビットストリームまたは前記装置によって受信された符号化されたオーディオ信号に含まれる前記空間的に拡張された音源のための異なる音信号の第１の数を示すビットストリーム要素（３１１）を含み、前記数は１以上であり、
前記ビットストリーム要素（３１１）を読み込んで、前記ビットストリームまたは前記符号化されたオーディオ信号に含まれる前記空間的に拡張された音源のための異なる音信号の前記第１の数を取り出す
ように構成され、
前記音位置計算機（１４０）は、前記空間的に拡張された音源の前記レンダリングに使用される音源の第２の数を決定し、前記第２の数は１よりも大きく、
前記レンダラ（１６０）は、前記ビットストリームから抽出された前記第１の数に依存して、１つ以上の非相関信号の第３の数を生成する（１６４，１６６）ように構成され、前記第３の数は前記第２の数と前記第３の数との間の差から導出される、請求項１ないし２５のうちのいずれか１項に記載の装置。
空間的に拡張された音源についての圧縮された記述を表すビットストリームを生成するための装置であって、前記装置は、
前記空間的に拡張された音源のための１つ以上の異なる音信号を提供するためのサウンドプロバイダ（２００）と、
前記空間的に拡張された音源のジオメトリに関する情報（３３１，３４１）を計算するためのジオメトリプロバイダ（２２０）と、
前記圧縮されたサウンドシーンを表す前記ビットストリームを生成するための出力データ形成器（２４０）であって、前記ビットストリームは前記１つ以上の異なる音信号および前記ジオメトリに関する前記情報（３３１，３４１）を含む、出力データ形成器（２４０）と、
を含む、装置。
前記ジオメトリに関する前記情報（３３１，３４１）は、空間内の前記空間的に拡張された音源の位置を示す位置情報（３４１）を含む、請求項２７に記載の装置。
前記出力データ形成器（２４０）は、前記１つ以上の異なる音信号の各音信号についての前記個々の位置に関する前記情報（３２１）を、前記個々の位置に関する情報（３２１）が対応する前記音信号の前記位置を示すように、前記ビットストリームに組み込むように構成される、請求項２７または２８に記載の装置。
前記サウンドプロバイダ（２００）は、前記空間的に拡張された音源のために少なくとも２つの異なる音信号を提供するように構成され、前記出力データ形成器（２４０）は、前記ビットストリームが前記少なくとも２つの異なる音信号（３０１，３０２）と、前記空間的に拡張された音源の前記ジオメトリに関する前記情報（３３１）については前記少なくとも２つの異なる音信号の各音信号の前記個々の位置に関する情報（３２１）とを含むように、前記ビットストリームを生成するように構成される、請求項２７、２８または２９に記載の装置。
前記サウンドプロバイダ（２００）は、
単一または複数のマイクロフォンの位置または向きで自然音源の記録を実行する、または、
単一または複数の基礎信号から１つ以上の非相関フィルタによって音信号を導出する、
ように構成される、請求項２７ないし３０のうちのいずれか１項に記載の装置。
前記サウンドプロバイダ（２００）は、オーディオ信号エンコーダ（２６０）を使用して前記１つ以上の音信号をビットレート圧縮するように構成され、
前記出力データ形成器（２４０）は、前記ビットレート圧縮された前記空間的に拡張された音源のための１つ以上の音信号（３０１，３０２）を使用するように構成される、請求項２７ないし３１のうちのいずれか１項に記載の装置。
前記ジオメトリプロバイダ（２２０）は、前記空間的に拡張された音源のジオメトリから、パラメトリック記述または多角形記述または前記多角形記述のパラメトリック表現を導出するように構成され、前記出力データ形成器（２４０）は、前記ジオメトリに関する前記情報（３３１，３４１）として、前記パラメトリック記述または前記多角形記述または前記多角形記述の前記パラメトリック表現を前記ビットストリームに組み込むように構成される、請求項２７ないし３２のうちのいずれか１項に記載の装置。
前記出力データ形成器（２４０）は、前記ビットストリームに含まれるまたは前記ビットストリームに関連付けられた符号化されたオーディオ信号に含まれる前記空間的に拡張された音源のための前記１つ以上の異なる音信号の数を示すビットストリーム要素（３１１）を前記ビットストリームに組み込むように構成され、前記数は１以上である、請求項２７ないし３３のうちのいずれか１項に記載の装置。
空間内に定義された位置およびジオメトリを有する空間的に拡張された音源を再生するための方法であって、
リスナー位置を受信するステップと、
前記リスナー位置、前記空間的に拡張された音源のジオメトリに関する情報（３３１）、および前記空間的に拡張された音源の前記位置に関する情報（３４１）を使用して、前記空間的に拡張された音源に関連付けられた二次元または三次元の凸包の投影面上への投影を計算するステップと、
前記投影面を使用して、前記空間的に拡張された音源について少なくとも２つの音源の位置を計算するステップと、
前記位置で前記少なくとも２つの音源をレンダリングして、２つ以上の出力信号を有する前記空間的に拡張された音源の再生を得るためのレンダリングするステップであって、前記レンダリングするステップは異なる前記位置に対して異なる音信号を使用するステップを含み、前記異なる音信号は前記空間的に拡張された音源に関連付けられる、ステップと、
を含む方法。
空間的に拡張された音源について圧縮された記述を表すビットストリームを生成する方法であって、
前記空間的に拡張された音源のための１つ以上の異なる音信号を提供するステップと、
前記空間的に拡張された音源のジオメトリに関する情報（３３１，３４１）を提供するステップと、
前記圧縮されたサウンドシーンを表す前記ビットストリームを生成するステップであって、前記ビットストリームは前記１つ以上の異なる音信号（３０１，３０２）と、前記空間的に拡張された音源の前記ジオメトリに関する前記情報（３３１，３４１）とを含む、ステップと、
を含む方法。
前記空間的に拡張された音源の前記ジオメトリに関する前記情報（３３１，３４１）は、空間内の前記空間的に拡張された音源の位置情報（３４１）を含む、請求項３６に記載の方法。
前記ビットストリームを生成するステップは、前記１つ以上の異なる音信号（３０１，３０２）の各音信号の個々の前記位置に関する情報（３２１）を前記ビットストリームに組み込むステップを含む、請求項３６または３７に記載の方法。
前記提供するステップは、前記空間的に拡張された音源のための少なくとも２つの異なる音信号を提供するステップを含み、前記ビットストリームを生成するステップは、前記ビットストリームが前記少なくとも２つの異なる音信号（３０１，３０２）と、前記少なくとも２つの異なる音信号の各音信号の前記個々の位置情報（３２１）とを含み、前記情報が前記空間的に拡張された音源の前記ジオメトリに関する情報（３３１，３４１）については対応する前記音信号の前記位置を示す、請求項３６、３７または３８に記載の方法。
前記ビットストリームを生成するステップは、前記ビットストリームに含まれるまたは前記ビットストリームに関連付けられた符号化されたオーディオ信号に含まれる前記空間的に拡張された音源のための前記１つ以上の異なる音信号（３０１，３０２）の数を示すビットストリーム要素（３１１）を前記ビットストリームに導入する組み込むステップを含む、請求項３６ないし３９のうちのいずれか１項に記載の方法。
空間的に拡張された音源についての圧縮された記述を表すビットストリームであって、
前記空間的に拡張された音源のための１つ以上の異なる音信号（３０１，３０２）と、
前記空間的に拡張された音源のジオメトリに関する情報（３３１，３４１）と、
を含むビットストリーム。
前記異なる音信号が２つ以上である場合に、対応する前記音信号の位置を示す、前記２つ以上の異なる音信号の各音信号の個々の位置情報（３０１，３０２）をさらに含む、請求項４１に記載のビットストリーム。
前記１つ以上の異なる音信号の各音信号の個々の前記位置に関する情報（３２１）であって、前記個々の位置に関する前記情報（３２１）は前記空間的に拡張された音源の前記ジオメトリに関する前記情報（３３１，３４１）については前記対応する音信号の位置を示す、前記個々の位置に関する情報（３２１）をさらに含む、請求項４１または４２に記載のビットストリーム。
前記空間的に拡張された音源の前記ジオメトリに関する前記情報（３３１，３４１）は前記空間的に拡張された音源の位置情報（３４１）を含む、請求項４１，４２または４３に記載のビットストリーム。
前記空間的に拡張された音源の前記ジオメトリに関する前記情報（３３１，３４１）については前記対応する音信号の第１の位置を示す、第１の音信号（３０１）のための第１の位置情報（３２１）と、
前記空間的に拡張された音源の前記ジオメトリに関する前記情報（３３１３４１）については対応する前記音信号の第２の位置を示す、第２の音信号（３０２）のための第２の位置情報（３２１）であって、前記第２の位置情報は前記第１の位置情報とは異なる、第２の位置情報とを含む、請求項４１ないし４４のいずれか１項に記載のビットストリーム。
前記ビットストリームに含まれる、または前記ビットストリームに関連付けられた符号化されたオーディオ信号に含まれる、前記空間的に拡張された音源のための前記少なくとも１つの異なる音信号の数を示すビットストリーム要素（３１１）をさらに含み、前記数は１または１よりも大きい、請求項４０ないし４５いずれか１項に記載のビットストリーム。
コンピュータまたはプロセッサ上で動作しているときに、請求項３５ないし４０のうちのいずれか１つの方法を実行するためのコンピュータプログラム。