JP6412931B2

JP6412931B2 - 空間的オーディオ・システムおよび方法

Info

Publication number: JP6412931B2
Application number: JP2016520603A
Authority: JP
Inventors: エス．マクグラス，デイヴィッド; クロードマリエッテ，ニコラス
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2013-10-07
Filing date: 2014-10-02
Publication date: 2018-10-24
Anticipated expiration: 2034-10-02
Also published as: HK1222755A1; CN105637901B; EP3056025B1; US9807538B2; EP3056025A2; JP2016536857A; WO2015054033A2; CN105637901A; US20160255454A1; WO2015054033A3

Description

関連出願への相互参照
本願は2013年10月7日に出願された米国仮特許出願第61/887,905号および2014年4月28日に出願された米国仮特許出願第61/985,244号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。

発明の分野
本発明はオーディオ信号処理の分野に関し、詳細には空間的オーディオ・レンダリングおよび配送の効率的な形を開示する。

本明細書を通じた背景技術の議論はいずれも、そのような技術が広く知られているまたは当技術分野における技術常識をなすことの自認と考えられるべきではない。

オーディオおよびビジュアル経験はますます複雑になりつつある。特に、聴取者のまわりのオーディオ素材の空間化はますます高いレベルの複雑さをもって進行してきた。歴史的なモノ、ステレオおよび他のオーディオ・システムから、当該技術は近年ではプロダクション・システムにおける聴取者のまわりのオーディオ源のほとんど完全な空間化を導入するに至っている。

図１は、一般的なオーディオ・ビジュアル呈示の生成および再生の簡略化された構造１を概略的に示している。最初に、オーディオ・ビジュアル呈示をオーサリングするためにコンテンツ生成システムが提供される（２）。オーサリングは通例、聴取者のまわりでのいくつかのオーディオ源の空間化（spatialization）および同期に関わる。次いで、全体的な呈示は、最初に、聴取者／視聴者への再生のためのオーディオおよびビジュアル情報を含む一つまたは複数のファイル形態４に「レンダリング」３される。

レンダリングされたファイルは次いで、さまざまなメディア・レンダリング環境を通じた再生のために配送される。残念ながら、再生環境はそのインフラストラクチャーにおいてきわめて多様でありうる。次いで、レンダリングされたファイルは、対応するレンダリング・エンジン５によってその特定の環境における再生のためにレンダリングされ、該レンダリング・エンジン５は、視聴者のまわりでの意図されたオーディオ・ビジュアル経験の再現のために、一連のスピーカー６およびビジュアル表示要素７による再生のためのスピーカーおよびディスプレイ信号を出力する。

一つの具体的なオーディオ空間化システムはドルビー・アトモス（商標）・システムである。これは、オーディオ・ビジュアル経験のオーディオ・コンテンツのクリエーターがたくさんのオーディオ源を聴取者のまわりに定位することを許容する。そのオーディオ素材の、前記レンダリング・エンジンによる、信号処理ユニットおよびオーディオ放出源によるその後のレンダリングは、聴取者のまわりの位置にオーディオ源を空間化することにおける、コンテンツ・クリエーターの意図を再現することを許容する。

聴取環境において聴取者のまわりに置かれた実際のオーディオ放出源（またはスピーカー）は多様でありかつ位置固有であることがありうる。たとえば、映画シアターは異なる相対位置において聴取者のまわりに置かれた多くのスピーカーを含むことがある。家庭環境では、スピーカー配置は実質的に異なることがある。理想的には、生成されたコンテンツは、もとのコンテンツ・クリエーターの意図を再現するよう多様なスピーカー・アレイにレンダリングされることができる。

一連のオーディオ源をドルビー・アトモス・システムによって提供されるもののようなスピーカー・アレイにレンダリングすることは、いかなるレンダリング・システムの計算資源にも有意な負担をかける可能性が高い。

したがって、送達のポイントにおいて、簡略化されたオーディオ・レンダリング・システムを提供する一般的な必要性がある。

本発明の第一の側面によれば、予期される聴取者のまわりの少なくとも一つの空間化された仮想オーディオ源を、前記聴取者のまわりの一連の中間仮想スピーカー・チャネル（仮想スピーカー）にレンダリングする方法であって、前記オーディオ源を前記聴取者のまわりの一連の面に配置された一連の仮想スピーカーを通じた再生のための中間的な空間的フォーマットにレンダリングする段階であって、各面内での前記仮想スピーカーへのレンダリングはナイキスト・サンプリング定理を満たす度合いまで空間的に平滑化されている一連のパン曲線を利用する、段階を含む、方法が提供される。

前記一連の面は、少なくとも、実質的に聴取者のまわりの水平面と、聴取者の空間的に上方の天井面とを含むことができる。各面内の仮想スピーカーは、聴取者のまわりの等離間の角度間隔で配置されることができる。それらの仮想スピーカーは、予期される聴取者から等距離に配置されることができる。

本発明のあるさらなる側面によれば、予期される聴取者のまわりに位置される少なくとも一つの空間化された仮想オーディオ源を、前記予期される聴取者のまわりの一連の仮想スピーカーにレンダリングする方法であって、（ａ）前記一連の仮想スピーカーを前記予期される聴取者のまわりの一連の水平面に分割する段階と、（ｂ）前記オーディオ源を前記聴取者のまわりの前記一連の面のそれぞれに配置された一連の仮想スピーカーを通じた再生のための中間的な空間的フォーマットにレンダリングする段階とを含み、前記レンダリングは、（ｉ）面レンダリングされた（plane rendered）オーディオ放出を生成する、前記空間化された仮想オーディオ源の前記水平面のそれぞれへの初期パンと；（ｉｉ）前記面レンダリングされたオーディオ放出のそれぞれの、各面内の一連の仮想スピーカー位置へのその後のパンとを含み、前記その後のパンは、前記オーディオ源のナイキスト・サンプリング・レートより低い空間周波数成分を含むよう空間的に平滑化されている一連のパン曲線を利用する、方法が提供される。

初期パンは、前記一連の水平面の間の離散的なパンを含むことができる。

本発明のさらなる側面によれば、中間的な空間的フォーマットの信号の再生方法が提供される。前記信号はいくつかの聴取面を画定する第一の一連のチャネルに分割されており、各聴取面は該面のまわりに（around）離間されている一連の仮想オーディオ源を含み、当該方法は、各面内のスピーカー・オーディオ源の位置を、スピーカーの所望される出力配置にマッピングするようマッピングし直す段階を含む。

本発明のあるさらなる側面によれば、エンコードされたオーディオ・ビットストリームの再生方法が提供される。前記ビットストリームは、聴取者のまわりの一連の面に配置された一連の仮想スピーカーを通じた再生のための中間的な空間的フォーマットのエンコードを含んでおり、各面内の仮想スピーカーは、ナイキスト・サンプリング定理を満たす度合いまで空間的に平滑化されている一連のパン曲線を使って形成された仮想スピーカー・ビットストリームを有し、当該方法は：（ａ）前記ビットストリームを第一の一連のチャネルにデコードする段階であって、各チャネルはいくつかの聴取面と、各面内では一連の対応する仮想スピーカー信号とを画定する、段階と；（ｂ）前記仮想スピーカー信号の重み付けされた和を利用して前記仮想スピーカー信号を混合して、一連の実スピーカーの出力位置に対応する、再マッピングされたスピーカー信号の集合を生成する段階と；（ｃ）前記実スピーカー信号を対応する一連の実スピーカーに出力する段階とを含む。

本発明の実施形態についてここで単に例として、付属の図面を参照して述べる。
オーディオ・ビジュアル経験の生成および再生のプロセスを概略的に示す図である。オブジェクト位置およびスピーカー位置を利用するオーディオ・オブジェクト・パンナー（panner）を概略的に示す図である。スピーカー高さに関する情報をエンコーダが与えられる、空間的パンナーの動作を概略的に示す図である。例示的な積層環フォーマットのパン空間をなす四つの層を示す図である。反時計回りに配列された公称スピーカーの四つの環を示す図である。スピーカーの弧を、角度φにパンされるオーディオ・オブジェクトとともに示す図である。スピーカーA、BおよびCを通る軌跡をもつオブジェクトについてのパン曲線を示す図である。転用可能なスピーカー・アレイのためのパン曲線を示す図である。積層環フォーマットを複数の別個の環としてデコードするためのデコーダを示す図である。天頂スピーカーが存在しない場合に積層環フォーマットをデコードするためのデコーダを示す図である。天頂スピーカーや天井スピーカーが存在しない場合に積層環フォーマットをデコードするためのデコーダを示す図である。

記載される実施形態は、オーディオ・オブジェクトを仮想スピーカー・アレイに再マッピングする方法を提供する。

図２に目を転じると、オーディオ・オブジェクト・パンナー２０が示されている。オーディオ・オブジェクト・パンナー２０は、空間化されたオーディオ・オブジェクトを、聴取環境において聴取者のまわりに置かれた一連のスピーカーにパンする。単一オブジェクトの場合を考えると、オブジェクト・データ情報が入力され（２１）る。これは、N個の出力スピーカーにパンされる、あらかじめ決定された時間変化する位置XYZ_i(t)におけるモノフォニック・オブジェクト（たとえばObject_i）である。ここで、パン利得はスピーカー位置(x₁,y₁,z₁),…,(x_N,y_N,z_N)およびオブジェクト位置XYZ_i(t)の関数として決定される。これらの利得値は時間的に連続的に変化することがある。オブジェクト位置も時間変化しうるからである。したがって、オーディオ・オブジェクト・パンナーは、その機能を実行するために、かなりの計算資源を必要とする。

記載される実施形態は、複数のスピーカー環境を通じた再生能力を保持しつつ、オブジェクト・パンのために必要とされる計算資源を低減する中間的な空間的フォーマット構造を提供する。

記載される実施形態の動作側面が図３に示されている（３０）。これらの実施形態は、パン動作を二つの部分３１、３２に分割する中間的な空間的フォーマット（Intermediate Spatial Format）を使う。空間的パンナー３１と称される第一の部分は時間変化し、オブジェクト位置３３を利用する。第二の部分、スピーカー・デコーダ３２は、固定した行列デコードを利用し、カスタム・スピーカー位置３４に基づいて構成される。これら二つの処理ブロックの間で、オーディオ・オブジェクト・シーンが、Kチャネルの中間的な空間的フォーマット（ISF）３５において表現される。複数のオーディオ・オブジェクト（1≦i≦N_i）が個々の空間的パンナーによって処理され、これらの空間的パンナーの出力が足し合わされてISF信号３５をなしてもよく、一つのKチャネルISF信号集合はN_i個のオブジェクトの重畳を含みうる。

空間的パンナー３１は、再生スピーカーの位置についての詳細な情報を与えられない。しかしながら、いくつかのレベルまたは層に制約された一連の「仮想スピーカー」の位置と、各レベルまたは層内での近似的な分布について想定がされる。

空間的パンナーは再生スピーカーの位置についての詳細な情報を与えられないものの、可能性の高いスピーカー数およびそれらのスピーカーの可能性が高い分布に関していくらかの合理的な想定をすることができる。

結果として得られる再生経験の品質（すなわち、図２のオーディオ・オブジェクト・パンナーにどのくらいよく一致するか）は、ISF内のチャネルの数Kを増すことによって、あるいは最も確からしい再生スピーカー配置についてのより多くの知識を集めることによって、改善できる。特に、ある実施形態では、スピーカー高さがいくつかの面に分割される。

所望される合成音場は、聴取者のまわりの任意の方向から発する一連の音イベントと考えることができる。それらの音イベントの位置は、聴取者を中心とする球の表面上に定義されると考えられることができる。高次アンビソニックス（Higher Order Ambosinics）のような音場フォーマットは、音場が（かなり）任意のスピーカー・アレイを通じてさらにレンダリングされることを許容するような仕方で定義される。しかしながら、考えられている典型的な再生システムは、スピーカーの高さが三つの面（耳高さ面、天井面および床面）において固定されているという意味で制約される可能性が高い。よって、理想的な球状音場の概念は修正されることができる。ここで、音場は、聴取者のまわりの球の表面上のさまざまな高さのところにある環内に位置される音オブジェクトから構成される。

たとえば、天頂環４１、上層環４２、中層環４３および低位環４４をもつ、一つのそのような環の配置が図４に示されている（４０）。必要であれば、完全性（completeness）のため、球の底部の追加的な環も含められることもできる（天底；これも厳密に言えば環ではなく点である）。さらに、他の実施形態においては、追加的なまたはより少数の環が存在していてもよい。

図５は、積層環フォーマットにおいて四つの環５１〜５４をもつスピーカー配置５０の一つの形を示している。この配置はBH9.5.0.1と表わされる。ここで、四つの数字はそれぞれ中部、上部、下部および天頂の環におけるスピーカー・チャネルの数を示す。マルチチャネル・バンドルにおけるチャネルの総数はこれら四つの数の和に等しい（よって、BH9.5.0.1フォーマットは15個のチャネルを含む）。

四つの環すべてを利用するもう一つの例示的なフォーマットはBH15.9.5.1である。このフォーマットについては、チャネルの命名および順序付けは次のようになる：[M1,M2,…M15,U1,U2…U9,L1,L2,…L5,Z1]ここで、チャネルは環（M、U、L、Zの順）に配置されており、各環内では単に昇順に基数で番号付けられる。したがって、各環は、該環のまわりに一様に分散される公称スピーカー・チャネルの集合を入れられると考えられることができる。ここで、各環におけるチャネルは特定のデコード角に対応し、0°の方位角（真正面）に対応するチャネル１で始まり、反時計回りに数える（よってチャネル２は聴取者から見て中央の左になる）。よって、チャネルnの方位角は(n−1)/N×360°である（ここで、Nはその環におけるチャネル数であり、nは1からNまでの範囲内である）。

出力仮想スピーカー信号は、特定のスピーカー配置にデコードされるよう意図された信号と似ているので、「公称スピーカー信号」と称されることができるが、スピーカー・デコーダにおいて代替的なスピーカー・レイアウトにも転用できる。

当業者は、代替的な実施形態では、ある層内の仮想スピーカー・チャネルが、可逆行列演算によって、いくつかの「代替」オーディオ・チャネルに変換されうること、そのため該「代替」チャネルから逆行列マッピングによって、もとの仮想スピーカー・チャネルが復元できることを理解するであろう。一つのそのような「代替」チャネル・フォーマットはBフォーマット（より特定的には、水平Bフォーマット）として当技術分野において知られている。本明細書における、仮想スピーカーのグループの望ましい属性への多くの言及は、Bフォーマット信号にも等しく当てはまる。

したがって、中間的なスピーカー・フォーマットは以下の特徴によって特徴付けることができる。

１）空間的オーディオ・シーンをエンコードするための二つ以上の環の使用。ここで、異なる環は、音場の異なる空間的に別個の成分を表わす。ここで、オーディオ・オブジェクトは、環内では、転用可能なパン曲線に従ってパンされ、オーディオ・オブジェクトは、環どうしの間では、転用可能でないパン曲線（これらの用語はのちに定義する）を使ってパンされる。

２）ここで、「異なる空間的に別個の成分」は、その垂直軸に基づいて分離される（すなわち、鉛直方向に積層された環）。

３）中間的な仮想スピーカー・チャネルの形での各環内の音場要素の伝送が提供される。あるいは各環内での音場要素の伝送は（Bフォーマット信号のような）空間周波数成分の形である。

５）環の諸セグメントを表わす事前計算されたサブマトリクスをはぎ合わせることによる、各環についてのデコード行列の生成。

６）LF溜まり（LF build-up）問題を避けるための、意図的に「疎」である事前計算されたサブマトリックス。

７）第一の環にスピーカーが存在しない場合、ある環から別の環へ音をリダイレクトすること。

実施形態は、「転用可能な（repurposable）」および「転用可能でない（non-repurposable）」スピーカー・パンの側面に依拠する。再生アレイにおける各スピーカーの位置は(x,y,z)座標（これは、アレイの中心に近い候補聴取位置に対する各スピーカーの位置である）を使って表現できる。さらに、(x,y,z)ベクトルは単位ベクトルに変換されることができる。これは事実上、各スピーカー位置を単位球の表面に投影する。

図６を参照するに、オーディオ・オブジェクト６２がいくつかのスピーカー、たとえば６３、６４を通じて逐次的にパンされるシナリオを考えると（ここで、聴取者６１は各スピーカーを順次通過する軌跡を通じて動いているオーディオ・オブジェクト６２の印象を経験することが意図されている）、一般性を失うことなく、これらのスピーカーの単位ベクトルは水平面内の環に沿って配列されることが想定されることができる。よって、オーディオ・オブジェクトの位置はその方位角φの関数として定義されうる。図６の配置では、オーディオ・オブジェクト６２角φはスピーカーA、BおよびCを通過する（これらのスピーカーはそれぞれ方位角φ_A、φ_Bおよびφ_Cに位置している）。

オーディオ・オブジェクト・パンナー（図２に示されるような）は典型的には、角度φの関数であるスピーカー利得を使って、オーディオ・オブジェクトを各スピーカーにパンする。図７は、オーディオ・オブジェクト・パンナーによって使用されうる典型的なパン曲線、たとえば７１を示している。図７に示されるパン曲線は、オーディオ・オブジェクトが物理的なスピーカー位置に一致する位置にパンされるときは、他のすべてのスピーカーを排除してその一致するスピーカーが使用され、オーディオ・オブジェクトが二つのスピーカー位置の間にある角度φにパンされるときは、それら二つのスピーカーのみがアクティブであり、こうしてオーディオ信号のスピーカー・アレイに対する最小限の「分散」を提供する。図７に示されるパン曲線のこうした属性は、パン曲線が高レベルの「離散性」を示すことを含意する。このコンテキストにおいて、「離散性（discreteness）」とは、パン曲線エネルギーの、あるスピーカーとその直近の隣接スピーカーとの間の領域内に制約されている割合を指す。よって、スピーカーBについて、

よって、d_B≦1である。d_B＝1のとき、スピーカーBについてのパン曲線は、φ_Aとφ_C（それぞれスピーカーAとCの角位置）の間の領域のみで非0になるよう（空間的に）完全に制約される。

対照的に、パン曲線の代替的な集合が図８に示されている（８０）。これらのパン曲線は、上記の「離散性」属性を示さない（すなわち、d_B≦1）が、パン曲線が空間的に平滑化されており、空間周波数において制約されておりナイキスト・サンプリング定理を満たすという一つの重要な属性を示す。

たとえば、各パン曲線（図８の８１など）は、F個の項をもつフーリエ級数によって形成されると考えられる（この例ではF＝9）：
gain_A(φ)＝c₀＋c₁*cos(φ)＋s₁*sin(φ)＋c₂*cos(2*φ)＋s₂*sin(2*φ)＋c₃*cos(3*φ)＋s₃*sin(3*φ)＋c₄*cos(4*φ)＋s₄*sin(4*φ)。

これは、N個の信号の形の環について、当該オーディオによって表現されることができる。仮想スピーカーの数Nが周波数成分の数F以上であれば、N個のスピーカーの集合は環のまわりのオーディオの完備な空間的サンプリングを形成したことになり、ナイキスト・サンプリング定理が満たされる。

空間的に帯域制限されているいかなるパン曲線もその空間的なサポートにおいてコンパクトであることはできない。換言すれば、曲線、たとえば図８における８１の「阻止帯域リプル（stop-band-ripple）」、たとえば８２において見られるように、これらのパン曲線はより幅広い角度範囲に分散される。この用語法はフィルタ設計理論からの借用である。該理論では、「阻止帯域リプル」は、利得が0になると期待されるフィルタ動作の領域における（望ましくない）非0の利得をいう。この事例では、用語「阻止帯域リプル」は、図７の「理想的な」曲線が0になる角度領域７２において、図８のパン曲線において現われる８２（望ましくない）0でない利得をいう。ナイキスト・サンプリング基準を満たすことによって、これらのパン曲線、たとえば８１は、より「離散的」でなくなってしまう（図７の「理想的な」曲線よりも大きく分散することの別の言い方）。

しかしながら、これらの曲線を使うことに由来する一つの重要な恩恵がある。適正に「ナイキスト・サンプリングされ」ることで、これらのパン曲線は代替的なスピーカー位置にシフトされることができる。つまり、（円において均等に離間されている）N個のスピーカーのある特定の配置について生成されたスピーカー信号の集合が、異なる角度位置にあるN個のスピーカーの代替的な集合に（N×N行列によって）リミックスされることができる（すなわち、スピーカー・アレイは角度スピーカー位置の新たな集合に回転させられることができ、もとのN個のスピーカー信号をN個のスピーカーの該新たな集合に転用することが可能である）。

一般に、この「転用可能性」属性は、N個のスピーカー信号を、S×N行列を通じて、S個のスピーカーにマッピングし直すことを許容する。ただし、S＞Nの場合、新たなスピーカー・フィードはもとのNチャネルよりも「離散的」であることはない。

これは、以下の定義を導く。転用可能なパン曲線（Repurposable Panning curve）：ナイキスト・サンプリングされており、のちの処理段において代替的なスピーカー位置を目標とすることを許容するパン曲線；転用可能でないパン曲線（Non-Repurposable Panning Curve）：離散性について最適化されているが、離散性を失うことなく代替的なスピーカー・レイアウトに転用可能ではないパン曲線。中間的な仮想スピーカー・チャネル（仮想スピーカー）：転用可能なパン曲線に従って生成されているスピーカー信号。

記載される実施形態は、スピーカー・レイアウトが既知である場合には転用可能でないパン曲線を使用して、よりよい（より離散的な）エンドユーザー聴取経験を提供することができ、そうでない場合には転用可能でないパン曲線が使用されるシステムを利用する。

記載される実施形態は、以下の段階によって（時間変化する）(x,y,z)位置に従って、各オブジェクトを表わす積層環中間空間的フォーマット（Stacked Ring Intermediate Spatial Format）を提供する。

１．オブジェクトiが(x_i,y_i,z_i)に位置しており、この位置は立方体内（よって|x_i|≦1、|y_i|≦1および|z_i|≦1）または単位球内（x_i ²＋y_i ²＋z_i ²≦1）にあると想定される。

２．転用可能でないパン曲線に従って、オブジェクトiについてのオーディオ信号を、ある数（R）の空間的領域のそれぞれにパンするために、垂直位置（z_i）が使われる。

３．各空間的領域（たとえば領域r: 1≦r≦R）（これは図４のように、空間の環状領域内にあるオーディオ成分を表わす）は、オブジェクトiの方位角（φ_i）の関数である転用可能なパン曲線を使って生成されるN_r個の公称スピーカー信号の形で表現される。サイズ0の環（図４では天頂環）という特殊な場合については、環が最大で一つのチャネルを含むので、上記の段階３は簡略化される。

これらの段階は、空間化されたオーディオ信号の、中間的な空間的フォーマットへの予備的なレンダリングとして実行されることができる。

〈積層環中間空間的フォーマット（Stacked-Ring Intermediate Spatial Format）のデコード〉
積層環ISFフォーマットについてのデコード・プロセスは行列混合器として動作できる。よって、各スピーカー・フィードはISF信号の重み付けされた和から作られる。たとえば、BH9.5.0.0フォーマットは次の行列混合器を介してN個のスピーカーにデコードされる。

実際上、いくつかの面の一つに位置されるようスピーカーを制約することが可能である。たとえば、最初のN_M個のスピーカーが中層（耳レベル）面に位置され、他のN−N_M個のスピーカーが天井面のあたりに位置される場合、行列はより疎になる。下記の行列は、積層環フォーマットが二つの環のみからなり、すべてのスピーカーがそれら二つの環に対応する二つの水平面内に位置される場合を示している。

図９は、積層環ISFフォーマット（BH9.5.0.1）において天頂環も存在し、再生スピーカー・アレイに天頂スピーカーが含まれている場合のデコーダ構造の例を示す。天頂データは出力スピーカーに直接渡される（９１）。天頂位置は、一つのスピーカー位置のみからなる特殊な種類の「スピーカー面」と考えられることができる。天井および中レベルのスピーカーはそれぞれ行列混合デコーダ９２、９３にフィードされる。

図９に示される処理要素は線形行列混合器であり、行列の名称はこの例のように定義されている：D_U,5,NUはISF信号の上の（upper）環からの5つのチャネルをN_U個の出力スピーカーにデコードするN_U×5行列である。

天頂スピーカーが存在しない場合、ISF信号のZ1チャネルは他の（非天頂）天井スピーカーに「デコードされる」必要がある。そのような構成は図１０に示されている（１００）。ここでは、天頂信号はN_u個の出力信号１０２にデコード１０１され、これらの出力信号１０２が天井デコーダ１０４からの出力に加えられる（１０３）。

図１１に示されるさらなる例では、再生スピーカー・アレイが天井にスピーカーを含まない場合、すべてのチャネルは中層スピーカーに混合されてもよい。

記載される実施形態が、オーディオ・レンダリング・プロセスの、二つの相異なる構成要素への分離を許容することが見て取れる。最初に、空間化されたオーディオ入力源は、それぞれが仮想スピーカー・レイアウトをもつ一連のあらかじめ決定されたスピーカー面を有する中間的な空間化されたフォーマットにレンダリングされることができる。その後、中間的な空間化されたフォーマットは、出力スピーカー・アレイのカスタム可変形のために、別個のデコード・ユニットによってデコードされることができる。それらのデコード・ユニットは、DSP型環境に組み込まれることができ、空間化されたオーディオ源の知覚を維持しつつ、フルの空間化されたオーディオ源デコーダに比べて低減された計算要求をもつことができる。

中間的な空間的フォーマットは一般に、方位角において転用可能であり、高度角においては転用可能ではない。

中間的な空間的フォーマットは、エコー打ち消しシステムにおける利用に好適であるというさらなる利点をももつ。動的なオーディオ・オブジェクトのフル空間化（たとえば図２）を用いると、エコー打ち消しシステムがオーディオ源に対して作用できない点において困難がある。しかしながら、中間的な空間的フォーマットは、空間的なオーディオ源の仮想化されたスピーカー・レンダリングを提供する。仮想化されたスピーカー・レンダリングは、線形の時間不変な仕方で再生スピーカーにデコードされる仮想スピーカー信号を生成する。よって、信号はその後、一連の仮想スピーカー出力としてエコー・キャンセラーに入力されることができ、エコー・キャンセラーは該仮想スピーカー出力に基づいてエコー打ち消し動作を実施することができる。

〈解釈〉
本明細書を通じて、「一つの実施形態」「いくつかの実施形態」または「ある実施形態」への言及は、その実施形態との関連で記述されている特定の特徴、構造または特性が本発明の少なくとも一つの実施形態に含まれることを意味する。よって、本明細書を通じた随所に「一つの実施形態では」「いくつかの実施形態では」または「ある実施形態では」という句が現われるのは、必ずしもみなが同じ実施形態を指しているのではないが、そうであることもありうる。さらに、具体的な特徴、構造または特性は、一つまたは複数の実施形態において、本開示から当業者には明白であろう任意の好適な仕方で組み合わされてもよい。

本稿での用法では、特に断わりのない限り、共通のオブジェクトを記述する順序形容語「第一」「第二」「第三」などの使用は、単に同様のオブジェクトの異なるインスタンスが言及されていることを示すものであって、そのように記述されるオブジェクトが時間的、空間的、ランキングにおいてまたは他のいかなる仕方においても、所与の序列でなければならないことを含意することは意図されていない。

付属の請求項および本稿の記述において、有するという用語の任意のものは、少なくともその後続の要素／特徴を有するが他のものを排除しないことを意味するオープンな用語である。よって、請求項において使われるときの有するの用語は、その後に挙げられる手段または要素または段階に制限されるものとして解釈されるべきではない。たとえば、AおよびBを有する装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本稿で使われる含むという用語の任意のものも、少なくともその用語に続く要素／特徴を含むが他のものを排除しないことを意味する。よって、含むは、有すると同義であり、有するを意味する。

本稿での用法では、用語「例示的」は、性質を示すのではなく、例を挙げる意味で使われる。すなわち、「例示的実施形態」は、必ず例示的な性質の実施形態であるのではなく、例として与えられている実施形態である。

本発明の例示的実施形態の上記の記述において、開示の流れをよくし、さまざまな発明側面の一つまたは複数のものの理解を助けるため、本発明のさまざまな特徴が時に単一の実施形態、図面またはその記述にまとめられていることを注意しておくべきである。しかしながら、この開示法は、請求される発明が、各請求項に明示的に記載されているよりも多くの事項を必要とするという意図を反映したものと解釈されるものではない。むしろ、付属の請求項が反映するように、発明の諸側面は、単一の上記の開示される実施形態の全事項よりも少ないものに存する。このように、付属の請求項は、ここに明示的に詳細な説明に組み込まれ、各請求項がそれ自身として本発明の別個の実施形態をなす。

さらに、本稿に記載されるいくつかの実施形態が他の実施形態に含まれるいくつかの特徴を含むが他の特徴を含まなくても、異なる実施形態の特徴の組み合わせは本発明の範囲内であり、異なる実施形態をなすことが意図されている。当業者はこれを理解するであろう。たとえば、付属の請求項では、請求される実施形態の任意のものが任意の組み合わせにおいて使用できる。

さらに、実施形態のいくつかは、本稿では方法または方法の要素の組み合わせであって、コンピュータ・システムのプロセッサによってまたは該機能を実行する他の手段によって実装されることができるものとして記述されている。よって、そのような方法または方法の要素を実行するための必要な命令をもつプロセッサは、前記方法または方法の要素を実行する手段をなす。さらに、装置実施形態の本稿に記載される要素は、本発明を実行するための該要素によって実行される機能を実行する手段の一例である。

本稿で与えられる記述では、数多くの個別的詳細が記載される。しかしながら、本発明の実施形態がそうした個別的詳細なしでも実施できることは理解される。他方、本記述の理解をかすませないために、よく知られた方法、構造および技法は詳細に示していない。

同様に、請求項において使われるときの用語、結合されたは、直接接続のみに限定されるものと解釈されるべきではない。用語「結合された」および「接続された」ならびにその派生形が使われることがある。これらの用語は互いの同義語として意図されていないことを理解しておくべきである。よって、装置Bに結合された装置Aという表現は、装置Aの出力が装置Bの入力に直接接続される装置またはシステムに限定されるべきではない。それは、Aの出力とBの入力との間の経路が存在することを意味し、該経路は他の装置または手段を含む経路であってもよい。「結合された」は二つ以上の要素が直接物理的または電気的に接していること、あるいは二つ以上の要素が互いに直接接触してはいないが、それでも互いと協働または相互作用することを意味しうる。

このように、本発明の好ましい実施形態であると思われることを記述してきたが、当業者は本発明の精神から外れることなく、それに他のおよびさらなる修正がなされてもよいことを認識するであろう。それらすべての変更および修正を本発明の範囲内にはいるものとして請求することが意図されている。たとえば、上記の公式はいずれも単に使用されうる手順の代表である。ブロック図から機能が追加または削除されてもよく、機能ブロックの間で動作が交換されてもよい。本発明の範囲内で記述される方法に段階が追加または削除されてもよい。

Claims

予期される聴取者のまわりに位置される少なくとも一つの空間化された仮想オーディオ源を、前記予期される聴取者のまわりの一連の仮想スピーカーにレンダリングする方法であって、当該方法は：
（ａ）前記一連の仮想スピーカーを前記予期される聴取者のまわりの一連の水平面に分割する段階と；
（ｂ）前記オーディオ源を前記聴取者のまわりの前記一連の面のそれぞれに配置された一連の仮想スピーカーを通じた再生のための中間的な空間的フォーマットにレンダリングする段階とを含み、前記レンダリングは：
（ｉ）面レンダリングされたオーディオ放出を生成する、前記空間化された仮想オーディオ源の前記水平面のそれぞれへの初期パンと；
（ｉｉ）前記面レンダリングされたオーディオ放出のそれぞれの、各面内の一連の予期されるスピーカー位置へのその後のパンとを含み、前記その後のパンは、仮想スピーカーの数以下の空間周波数成分の集合から構築される一連のパン曲線を利用する、
方法。
初期パンは、前記一連の水平面の間の離散的なパンを含む、請求項１記載の方法。
前記オーディオ源が、少なくとも一つのオーディオ・オブジェクトと、前記少なくとも一つのオーディオ・オブジェクトの位置を記述するメタデータとを有する、請求項１または２記載の方法。
前記オーディオ源が複数のオーディオ・オブジェクトを含み、前記複数のオーディオ・オブジェクトが足し合わされて前記中間的な空間的フォーマットを生成する、請求項１ないし３のうちいずれか一項記載の方法。
前記中間的な空間的フォーマットがK個のチャネルを含み、前記K個のチャネルのうちの少なくとも一つがオーディオ・オブジェクトの重畳を表わす、請求項１ないし４のうちいずれか一項記載の方法。
前記一連の水平面が、高さスピーカー（height speaker）が位置される可能性が高い離散的な水平面を表わす、請求項１ないし５のうちいずれか一項記載の方法。
前記一連の水平面が少なくとも二つの面を含み、前記少なくとも二つの面のうち少なくとも一つが実質的に前記聴取者のまわりにあり、前記少なくとも二つの面のうち別のものが前記聴取者の空間的に上方にある天井面である、請求項１ないし６のうちいずれか一項記載の方法。
前記一連の水平面が互いに実質的に平行である、請求項１ないし７のうちいずれか一項記載の方法。
予期される聴取者のまわりの少なくとも一つの空間化された仮想オーディオ源を、前記予期される聴取者のまわりの一連の仮想スピーカーにレンダリングする方法であって、当該方法は：
前記オーディオ源を前記聴取者のまわりの一連の面に配置された一連の仮想スピーカーを通じた再生のための中間的な空間的フォーマットにレンダリングする段階を含み、各面内での前記仮想スピーカーへのレンダリングは、仮想スピーカーの数以下の空間周波数成分の集合から構築される一連のパン曲線を利用する、
方法。
前記一連の面は、少なくとも、実質的に前記聴取者のまわりの水平面と、前記聴取者の空間的に上方の天井面とを含む、請求項９記載の方法。
各面内のスピーカーは、前記聴取者のまわりの等離間の角度間隔で配置される、請求項９または１０記載の方法。
予期されるスピーカーは、前記予期される聴取者から等距離に配置される、請求項９ないし１１のうちいずれか一項記載の方法。
エンコードされたオーディオ・ビットストリームの再生方法であって、前記ビットストリームは、聴取者のまわりの一連の面に配置された一連の仮想スピーカーを通じた再生のための中間的な空間的フォーマットのエンコードを含んでおり、各面内の仮想スピーカーは、仮想スピーカーの数以下の空間周波数成分の集合から構築された一連のパン曲線を使って形成された仮想スピーカー・ビットストリームを有し、当該方法は：
（ａ）前記ビットストリームを第一の一連のチャネルにデコードする段階であって、各チャネルはいくつかの聴取面と、各面内では一連の対応する仮想スピーカー信号とを画定する、段階と；
（ｂ）前記仮想スピーカー信号の重み付けされた和を利用して前記仮想スピーカー信号を混合して、一連の実スピーカーの出力位置に対応する、再マッピングされたスピーカー信号の集合を生成する段階と；
（ｃ）前記実スピーカー信号を対応する一連の実スピーカーに出力する段階とを含む、
方法。
前記段階（ａ）がさらに：
少なくとも一つの隣り合う面の前記仮想スピーカー信号を、仮想スピーカー信号の単一の面に併合する段階を含む、
請求項１３記載の方法。
プロセッサによって実行されたときに請求項１ないし１４のうちいずれか一項記載の方法を実行する命令を含む非一時的なコンピュータ可読媒体。