JP6360253B2

JP6360253B2 - サラウンドおよび／または高さスピーカーを含む再生環境におけるオーディオ・オブジェクトのレンダリング

Info

Publication number: JP6360253B2
Application number: JP2017512352A
Authority: JP
Inventors: ジェローンブリーバート，ディルク; マテオスソレ，アントニオ; プルンハーゲン，ヘイコ; エール．トウィンゴ，ニコラ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2014-09-12
Filing date: 2015-09-10
Publication date: 2018-07-18
Anticipated expiration: 2035-09-10
Also published as: JP2017530619A; US20170289724A1; EP3192282A1; CN106688253A; WO2016040623A1

Description

関連出願への相互参照
本願は2014年9月12日に出願されたスペイン国特許出願第P201431322号および2014年11月13日に出願された米国仮特許出願第62/079,265号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。

技術分野
本開示はオーディオ再生データのオーサリングおよびレンダリングに関する。特に、本開示は映画館サウンド再生システムのような再生環境のためのオーディオ再生データをオーサリングおよびレンダリングすることに関する。

1927年に映画に音声が導入されて以来、映画サウンドトラックの芸術的な意図を捉えてそれを映画館環境において再生するために使われる技術は着実に進歩を遂げてきた。1930年代にはディスク上の同期されたサウンドはフィルム上の可変領域サウンドに取って代わられ、それは1940年代にはさらに、劇場の音響の考察および改善されたスピーカー設計により改善された。それとともにマルチトラック録音および方向制御可能な再生（音を動かすために制御トーンを使う）の早期の導入があった。1950年代および1960年代には、フィルムの磁気ストライプにより劇場での多チャネル再生が可能になり、サラウンド・チャネル、高級なシアターでは５つのスクリーン・チャネルまでを導入した。

1970年代には、ドルビーは、ポストプロダクションおよびフィルム上の両方におけるノイズ削減を、３つのスクリーン・チャネルおよびモノのサラウンド・チャネルとの混合をエンコードおよび配布するコスト効率のよい手段とともに、導入した。映画館サウンドの品質は1980年代には、ドルビー・スペクトラル・レコーディング（SR: Spectral Recording）ノイズ削減およびTHXのような認証プログラムによってさらに改善された。ドルビーは1990年代に、離散的な左、中央および右スクリーン・チャネル、左および右のサラウンド・アレイおよび低域効果のためのサブウーファー・チャネルを与える５．１チャネル・フォーマットをもって映画館にデジタル・サウンドをもたらした。2010年に導入されたドルビー・サラウンド７．１は、既存の左および右サラウンド・チャネルを四つの「ゾーン」に分割することによって、サラウンド・チャネルの数を増やした。

チャネル数が増え、スピーカー・レイアウトが平面的な二次元（2D）アレイから高さを含む三次元（3D）アレイに遷移するにつれ、サウンドをオーサリングおよびレンダリングするタスクはますます複雑になってきている。改善された方法および装置が望ましいであろう

V. Pulkki、Compensating Displacement of Amplitude-Panned Virtual Sources、Audio Engineering Society (AES) International Conference on Virtual, Synthetic and Entertainment Audio

本開示に記載される主題のいくつかの側面は、いかなる特定の再生環境をも参照することなく生成されるオーディオ・オブジェクトを含むオーディオ再生データをレンダリングするためのツールにおいて実装されることができる。本稿での用法では、用語「オーディオ・オブジェクト」は、オーディオ・オブジェクト信号および関連するオーディオ・オブジェクト・メタデータのストリームを指してもよい。メタデータは、少なくともオーディオ・オブジェクトの位置を示してもよい。しかしながら、メタデータは、脱相関データ、レンダリング制約条件データ、コンテンツ型データ（たとえばダイアログ、効果など）、利得データ、軌跡データなども示してもよい。いくつかのオーディオ・オブジェクトは静的であってもよく、一方、他のオーディオ・オブジェクトは時間変化するメタデータを有していてもよい：そのようなオーディオ・オブジェクトは、動いてもよく、サイズを変えてもよく、および／または時間とともに変化する他の属性を有していてもよい。

オーディオ・オブジェクトが再生環境においてモニタリングまたは再生されるとき、オーディオ・オブジェクトは、少なくともオーディオ・オブジェクト位置データに従ってレンダリングされてもよい。レンダリング・プロセスは、出力チャネルの集合の各チャネルについての一組のオーディオ・オブジェクト利得値を計算することに関わっていてもよい。各出力チャネルは、再生環境の一つまたは複数の再生スピーカーに対応していてもよい。よって、レンダリング・プロセスは、少なくとも部分的にはオーディオ・オブジェクト・メタデータに基づいてオーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングすることに関わってもよい。スピーカー・フィード信号は、再生環境内の再生スピーカー位置に対応してもよい。

本稿で詳細に述べるように、いくつかの実装では、方法が、オーディオ・オブジェクトを含むオーディオ・データを受領することに関わってもよい。オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するオーディオ・オブジェクト・メタデータを含んでいてもよい。オーディオ・オブジェクト・メタデータは、少なくとも、オーディオ・オブジェクト位置データを含んでいてもよい。本方法は、再生環境における再生スピーカー数の指示と、再生環境内の再生スピーカー位置の指示とを含んでいてもよい再生環境データを受領することに関わっていてもよい。本方法は、少なくとも部分的にはオーディオ・オブジェクト・メタデータに基づいて、オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングすることに関わっていてもよい。各スピーカー・フィード信号は再生環境内の再生スピーカーのうちの少なくとも一つに対応してもよい。

レンダリングは、少なくとも部分的にはオーディオ・オブジェクトについてのオーディオ・オブジェクト位置データに基づいて、そのためにスピーカー・フィード信号がレンダリングされる複数の再生スピーカーを決定することに関わっていてもよい。レンダリングは、少なくとも部分的にはそのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかに基づいて、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト信号に適用する脱相関の量を決定することに関わっていてもよい。脱相関は、オーディオ信号と該オーディオ信号の脱相関されたバージョンとを混合することに関わっていてもよい。

いくつかの実装によれば、そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちのどの再生スピーカーもサラウンド・スピーカーまたは高さスピーカーではない場合には、適用すべき脱相関の量を決定することは、脱相関が適用されないことを決定することに関わっていてもよい。いくつかの例では、適用すべき脱相関の量を決定することは、少なくとも部分的には、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト位置データに基づいていてもよい。

いくつかの実装では、前記オーディオ・オブジェクトの少なくともいくつかに関連する前記オーディオ・オブジェクト・メタデータは、適用すべき脱相関の前記量に関する情報を含んでいてもよい。代替的または追加的に、適用すべき脱相関の量を決定することは、少なくとも部分的には、ユーザー定義のパラメータに基づいていてもよい。

前記オーディオ・オブジェクトの少なくともいくつかは、静的なオーディオ・オブジェクトであってもよい。しかしながら、前記オーディオ・オブジェクトの少なくともいくつかは、時間変化する位置データのような時間変化するメタデータを有する動的なオーディオ・オブジェクトであってもよい。

いくつかの例では、前記再生環境は、映画館サウンド・システム環境またはホームシアター環境であってもよい。前記再生環境はたとえば、ドルビー・サラウンド５．１配位またはドルビー・サラウンド７．１配位を含んでいてもよい。前記再生環境がドルビー・サラウンド５．１配位を含むいくつかの実装では、適用すべき脱相関の量を決定することは、オーディオ・オブジェクトのレンダリングが左前方／左サラウンド・スピーカー対または右前方／右サラウンド・スピーカー対の間のパンに関わるかどうかを決定することに関わっていてもよい。前記再生環境がドルビー・サラウンド７．１配位を含むいくつかの実装では、適用すべき脱相関の量を決定することは、オーディオ・オブジェクトのレンダリングが左前方／左側方サラウンド・スピーカー対、左側方サラウンド／左後方サラウンド・スピーカー対、右前方／右側方サラウンド・スピーカー対または右側方サラウンド／右後方サラウンド・スピーカー対の間のパンに関わるかどうかを決定することに関わっていてもよい。

本開示の少なくともいくつかの側面は、インターフェース・システムおよび論理システムを含む装置において実装されてもよい。論理システムは、汎用単一チップもしくはマルチチップ・プロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールド・プログラマブル・ゲート・アレイ（FPGA）または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理または離散的なハードウェア・コンポーネントのうちの少なくとも一つを含んでいてもよい。インターフェース・システムはネットワーク・インターフェースを含んでいてもよい。いくつかの実装では、本装置はメモリ・システムを含んでいてもよい。インターフェース・システムは、論理システムとメモリ・システムの少なくとも一部（たとえば少なくとも一つのメモリ・デバイス）との間のインターフェースを含んでいてもよい。

論理システムは、インターフェース・システムを介して、オーディオ・オブジェクトを含むオーディオ・データを受領できてもよい。オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するオーディオ・オブジェクト・メタデータを含んでいてもよい。オーディオ・オブジェクト・メタデータは、少なくとも、オーディオ・オブジェクト位置データを含んでいてもよい。

論理システムは、再生環境における再生スピーカー数の指示と、再生環境内の再生スピーカー位置の指示とを含む再生環境データを受領することができてもよい。論理システムは、少なくとも部分的にはオーディオ・オブジェクト・メタデータに基づいて、オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングすることができてもよい。各スピーカー・フィード信号は再生環境内の再生スピーカーのうちの少なくとも一つに対応してもよい。

レンダリングは、少なくとも部分的にはオーディオ・オブジェクトについてのオーディオ・オブジェクト位置データに基づいて、そのためにスピーカー・フィード信号がレンダリングされる複数の再生スピーカーを決定することに関わっていてもよい。レンダリングは、少なくとも部分的にはそのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかに基づいて、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト信号に適用する脱相関の量を決定することに関わっていてもよい。

いくつかの実装では、そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちのどの再生スピーカーもサラウンド・スピーカーまたは高さスピーカーではない場合には、適用すべき脱相関の量を決定することは、脱相関が適用されないことを決定することに関わっていてもよい。いくつかの例では、適用すべき脱相関の量を決定することは、少なくとも部分的には、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト位置データに基づいていてもよい。いくつかの実装では、前記オーディオ・オブジェクトの少なくともいくつかに関連する前記オーディオ・オブジェクト・メタデータは、適用すべき脱相関の前記量に関する情報を含んでいてもよい。代替的または追加的に、適用すべき脱相関の量を決定することは、少なくとも部分的には、ユーザー定義のパラメータに基づいていてもよい。脱相関は、オーディオ信号と該オーディオ信号の脱相関されたバージョンとを混合することに関わっていてもよい。

いくつかの例では、前記再生環境は、映画館サウンド・システム環境またはホームシアター環境であってもよい。前記再生環境はドルビー・サラウンド５．１配位またはドルビー・サラウンド７．１配位を含んでいてもよい。前記再生環境がドルビー・サラウンド５．１配位を含むいくつかの実装では、適用すべき脱相関の量を決定することは、オーディオ・オブジェクトのレンダリングが左前方／左サラウンド・スピーカー対または右前方／右サラウンド・スピーカー対の間のパンに関わるかどうかを決定することに関わっていてもよい。前記再生環境がドルビー・サラウンド７．１配位を含むいくつかの実装では、適用すべき脱相関の量を決定することは、オーディオ・オブジェクトのレンダリングが左前方／左側方サラウンド・スピーカー対、左側方サラウンド／左後方サラウンド・スピーカー対、右前方／右側方サラウンド・スピーカー対または右側方サラウンド／右後方サラウンド・スピーカー対の間のパンに関わるかどうかを決定することに関わっていてもよい。

本稿に記載される方法の一部または全部は、非一時的媒体に記憶される命令（たとえばソフトウェア）に従って一つまたは複数の装置によって実行されてもよい。そのような非一時的媒体は、ランダム・アクセス・メモリ（RAM）デバイス、読み出し専用メモリ（ROM）デバイスなどを含むがそれに限られない、本稿に記載されるようなメモリ・デバイスを含んでいてもよい。たとえば、ソフトウェアは、一つまたは複数のオーディオ・オブジェクトを含むオーディオ・データを受領するよう一つまたは複数の装置を制御するための命令を含んでいてもよい。オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するオーディオ・オブジェクト・メタデータを含んでいてもよい。オーディオ・オブジェクト・メタデータは、少なくとも、オーディオ・オブジェクト位置データを含んでいてもよい。

本ソフトウェアは、再生環境における再生スピーカー数の指示と、再生環境内の再生スピーカー位置の指示とを含む再生環境データを受領し、少なくとも部分的にはオーディオ・オブジェクト・メタデータに基づいて、オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングするための命令を含んでいてもよい。ここで、各スピーカー・フィード信号は再生環境内の再生スピーカーのうちの少なくとも一つに対応する。レンダリングは、少なくとも部分的にはオーディオ・オブジェクトについてのオーディオ・オブジェクト位置データに基づいて、そのためにスピーカー・フィード信号がレンダリングされる複数の再生スピーカーを決定し、少なくとも部分的にはそのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかに基づいて、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト信号に適用する脱相関の量を決定することに関わっていてもよい。

そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちのどの再生スピーカーもサラウンド・スピーカーまたは高さスピーカーではない場合には、適用すべき脱相関の量を決定することは、脱相関が適用されないことを決定することに関わっていてもよい。いくつかの例では、適用すべき脱相関の量を決定することは、少なくとも部分的には、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト位置データに基づいていてもよい。いくつかの実装では、前記オーディオ・オブジェクトの少なくともいくつかに関連する前記オーディオ・オブジェクト・メタデータは、適用すべき脱相関の前記量に関する情報を含んでいてもよい。代替的または追加的に、適用すべき脱相関の量を決定することは、少なくとも部分的には、ユーザー定義のパラメータに基づいていてもよい。脱相関は、オーディオ信号と該オーディオ信号の脱相関されたバージョンとを混合することに関わっていてもよい。

本明細書に記載される主題の一つまたは複数の実装の詳細は、付属の図面および以下の説明において記載される。他の特徴、側面および利点が該説明、図面および請求項から明白となるであろう。以下の図面の相対的な寸法は縮尺通りに描かれていないことがあることを注意しておく。

ドルビー・サラウンド５．１配位をもつ再生環境の例を示す図である。ドルビー・サラウンド７．１配位をもつ再生環境の例を示す図である。ＡおよびＢは、高さスピーカー配位を含むホームシアター再生環境の二つの例を示す図である。仮想再生環境におけるさまざまな高さにおけるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース（GUI）の例を示す図である。別の再生環境の例を示す図である。ＡおよびＢは、再生環境における左／右パンおよび前／後パンの例を示す図である。本稿に記載されるさまざまな方法を実装することのできる装置のコンポーネントの例を与えるブロック図である。オーディオ処理動作の例を与える流れ図である。再生環境におけるスピーカー対に脱相関を選択的に適用することの例を与える図である。オーサリングおよび／またはレンダリング装置のコンポーネントの例を与えるブロック図である。さまざまな図面における同様の参照番号および符号は同様の要素を指示する。

以下の記述は、本開示のいくつかの革新的な側面およびこれら革新的な側面が実装されうるコンテキストの例を記述する目的のためのある種の実装に向けられる。しかしながら、本稿の教示はさまざまな異なる仕方で適用されることができる。たとえば、さまざまな実装が具体的な再生環境を使って記述されているが、本稿の教示は他の既知の再生環境および将来導入されうる再生環境に広く適用可能である。さらに、記載される実装はさまざまなオーサリングおよび／またはレンダリング・ツールにおいて実装されてもよく、それらは多様なハードウェア、ソフトウェア、ファームウェア等で実装されてもよい。したがって、本開示の教示は、図面に示されるおよび／または本稿で記述される実装に限定されることは意図されておらず、むしろ広い適用可能性をもつものである。

図１は、ドルビー・サラウンド５．１配位をもつ再生環境の例を示している。ドルビー・サラウンド５．１は1990年代に開発されたが、この配位はいまだ広く映画館サウンド・システム環境に配備されている。プロジェクター１０５は、たとえば映画のためのビデオ画像をスクリーン１５０に投影するよう構成されていてもよい。オーディオ再生データは、該ビデオ画像と同期され、サウンド・プロセッサ１１０によって処理されてもよい。電力増幅器１１５はスピーカー・フィード信号を再生環境１００のスピーカーに与えてもよい。

ドルビー・サラウンド５．１配位は、左サラウンド・アレイ１２０、右サラウンド・アレイ１２５を含み、そのそれぞれは単一チャネルによって集団駆動されるスピーカーの群を含む。ドルビー・サラウンド５．１配位は左スクリーン・チャネル１３０、中央スクリーン・チャネル１３５および右スクリーン・チャネル１４０についての別個のチャネルをも含む。サブウーファー１４５についての別個のチャネルが低域効果（LFE: low-frequency effects）のために提供される。

2010年に、ドルビーはドルビー・サラウンド７．１を導入することによってデジタル映画館サウンドに対する向上を提供した。図２は、ドルビー・サラウンド７．１配位をもつ再生環境の例を示している。デジタル・プロジェクター２０５はデジタル・ビデオ・データを受領し、ビデオ画像をスクリーン１５０上に投影するよう構成されていてもよい。オーディオ再生データは、サウンド・プロセッサ２１０によって処理されてもよい。電力増幅器２１５がスピーカー・フィード信号を再生環境２００のスピーカーに提供してもよい。

ドルビー・サラウンド７．１配位は、左側方サラウンド・アレイ２２０および右側方サラウンド・アレイ２２５を含み、そのそれぞれは単一チャネルによって駆動されてもよい。ドルビー・サラウンド５．１と同様に、ドルビー・サラウンド７．１配位は左スクリーン・チャネル２３０、中央スクリーン・チャネル２３５、右スクリーン・チャネル２４０およびサブウーファー２４５のための別個のチャネルを含む。しかしながら、ドルビー・サラウンド７．１は、ドルビー・サラウンド５．１の左および右のサラウンド・チャネルを四つのゾーンに分割することによって、サラウンド・チャネルの数を増す。すなわち、左側方サラウンド・アレイ２２０および右側方サラウンド・アレイ２２５に加えて、左後方サラウンド・スピーカー２２４および右後方サラウンド・スピーカー２２６のために別個のチャネルが含まれる。再生環境２００内のサラウンド・ゾーンの数を増すことは、音の定位を著しく改善できる。

より没入的な環境を生成しようとする努力において、いくつかの再生環境は、増加した数のチャネルによって駆動される増加した数のスピーカーをもって構成されることがある。さらに、いくつかの再生環境は、さまざまな高さに配備されるスピーカーを含むことがあり、そのような高さの一部は再生環境の座席領域より上方であることがある。

図３のＡおよびＢは、高さスピーカー配位を含むホームシアター再生環境の二つの例を示している。これらの例では、再生環境３００ａおよび３００ｂは、左サラウンド・スピーカー３２２、右サラウンド・スピーカー３２７、左スピーカー３３２、右スピーカー３４２、中央スピーカー３３７およびサブウーファー１４５を含むドルビー・サラウンド５．１配位の主な特徴を含む。しかしながら、再生環境３００は、高さスピーカーのためのドルビー・サラウンド５．１配位の拡張を含み、これはドルビー・サラウンド５．１．２配位と称されることがある。

図３のＡは、ホームシアター再生環境の天井３６０に取り付けられた高さスピーカーをもつ再生環境の例を示している。この例では、再生環境３００ａは、左上中間（Ltm: left top middle）位置にある高さスピーカー３５２および右上中間（Rtm: right top middle）位置にある高さスピーカー３５７を含んでいる。図３のＢに示される例では、左スピーカー３３２および右スピーカー３４２は、天井３６０から音を反射させるよう構成されたドルビー・エレベーション（Dolby Elevation）・スピーカーである。適正に構成されれば、反射音は、聴取者３６５によって、あたかも音源が天井３６０から発しているかのように知覚されうる。しかしながら、スピーカーの数および配位は単に例として与えられている。いくつかの現行のホームシアター実装は、34個までのスピーカー位置を提供しており、構想されているホームシアター実装はさらに多くのスピーカー位置を許容することがありうる。

よって、現在のトレンドは、より多くのスピーカーおよびより多くのチャネルを含めるだけでなく、異なる高さのスピーカーをも含めるものである。チャネルの数が増し、スピーカー・レイアウトが2Dアレイから3Dアレイに移行するにつれて、サウンドを位置決めし、レンダリングするタスクはますます難しくなる。よって、本願の被譲渡者は、3Dオーディオ・サウンド・システムのための機能を高めるおよび／またはオーサリング複雑さを軽減する、さまざまなツールおよび関連するユーザー・インターフェースを開発した。

図４Ａは、仮想再生環境におけるさまざまな高さにあるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース（GUI）の例を示している。GUI ４００はたとえば、論理システムからの命令に従って、ユーザー入力装置から受領される信号に従って、などにより表示装置上に表示されてもよい。いくつかのそのような装置は図９を参照して後述する。

仮想再生環境４０４のような仮想再生環境への言及に関する本稿での用法では、用語「スピーカー・ゾーン」は概括的に、実際の再生環境の再生スピーカーと一対一対応があってもなくてもよい論理的な構造体を指す。たとえば、「スピーカー・ゾーン位置」は、映画館再生環境の特定の再生スピーカー位置に対応してもしなくてもよい。その代わり、用語「スピーカー・ゾーン位置」は概括的に、仮想再生環境のゾーンを指してもよい。いくつかの実装では、仮想再生環境のスピーカー・ゾーンは、たとえば、二チャネル・ステレオ・ヘッドホンの組を使ってリアルタイムで仮想サラウンド・サウンド環境を生成するドルビー・ヘッドホン（商標）（時にモバイル・サラウンド（商標）と称される）のような仮想化技術の使用を通じて、仮想スピーカーに対応してもよい。GUI ４００には、第一の高さに七つのスピーカー・ゾーン４０２ａがあり、第二の高さに二つのスピーカー・ゾーン４０２ｂがあり、仮想再生環境４０４内のスピーカー・ゾーンは合計九つとなっている。この例では、スピーカー・ゾーン１〜３は仮想再生環境４０４の前方領域４０５にある。前方領域４０５はたとえば、映画館再生環境の、スクリーン１５０が位置する領域、家庭の、テレビジョン・スクリーンが位置する領域などに対応してもよい。

ここで、スピーカー・ゾーン４は概括的には左領域４１０のスピーカーに対応し、スピーカー・ゾーン５は仮想再生環境４０４の右領域４１５のスピーカーに対応する。スピーカー・ゾーン６は左後方領域４１２に対応し、スピーカー・ゾーン７は仮想再生環境４０４の右後方領域４１４に対応する。スピーカー・ゾーン８は上領域４２０ａのスピーカーに対応し、スピーカー・ゾーン９は上領域４２０ｂのスピーカーに対応し、これは、図５Ｄおよび５Ｅに示される仮想天井５２０の領域のような仮想天井領域であってもよい。したがって、図４Ａに示されるスピーカー・ゾーン１〜９の位置は実際の再生環境の再生スピーカーの位置に対応してもしなくてもよい。さらに、他の実装はより多数またはより少数のスピーカー・ゾーンおよび／または高さを含んでいてもよい。

さまざまな実装において、GUI ４００のようなユーザー・インターフェースが、オーサリング・ツールおよび／またはレンダリング・ツールの一部として使用されてもよい。いくつかの実装では、オーサリング・ツールおよび／またはレンダリング・ツールは、一つまたは複数の非一時的な媒体上に記憶されるソフトウェアを介して実装されてもよい。オーサリング・ツールおよび／またはレンダリング・ツールは、（少なくとも部分的には）図９を参照して後述する論理システムおよび他の装置のようなハードウェア、ファームウェアなどによって実装されてもよい。いくつかのオーサリング実装では、関連するオーサリング・ツールが関連するオーディオ・データについてのメタデータを生成するために使用されてもよい。メタデータは、たとえば、三次元空間におけるオーディオ・オブジェクトの位置および／または軌跡を示すデータ、スピーカー・ゾーン制約条件データなどを含んでいてもよい。メタデータは、実際の再生環境の特定のスピーカー・レイアウトに関してではなく、仮想再生環境４０４のスピーカー・ゾーン４０２に関して生成されてもよい。レンダリング・ツールは、オーディオ・データおよび関連するメタデータを受領してもよく、再生環境のためのオーディオ利得およびスピーカー・フィード信号を計算してもよい。そのようなオーディオ利得およびスピーカー・フィード信号は、振幅パン・プロセスに従って計算されてもよい。振幅パン・プロセスは、音が再生環境中の位置Pから来ているような知覚を創り出すことができるものである。たとえば、スピーカー・フィード信号は、次式
x_i(t)＝g_ix(t) i＝1,…,N (式1)
に従って再生環境の再生スピーカー１ないしNに与えられてもよい。

式(1)において、x_i(t)はスピーカーiに加えられるスピーカー・フィード信号を表し、g_iは対応するチャネルの利得因子を表し、x(t)はオーディオ信号を表し、tは時間を表す。利得因子はたとえばここに参照により組み込まれる非特許文献１のSection 2、pp.3-4に記載される振幅パン方法（amplitude panning methods）に従って決定されてもよい。いくつかの実装では、利得は周波数依存であってもよい。いくつかの実装では、x(t)をx(t−Δt)で置き換えることによって時間遅延が導入されてもよい。

いくつかのレンダリング実装では、スピーカー・ゾーン４０２を参照して生成されたオーディオ再生データは、ドルビー・サラウンド５．１配位、ドルビー・サラウンド７．１配位、浜崎２２．２配位または他の配位であってもよい幅広い範囲の再生環境のスピーカー位置にマッピングされうる。たとえば、図２を参照するに、レンダリング・ツールは、スピーカー・ゾーン４および５についてのオーディオ再生データを、ドルビー・サラウンド７．１配位をもつ再生環境の左側方サラウンド・アレイ２２０および右側方サラウンド・アレイ２２５にマッピングしてもよい。スピーカー・ゾーン１、２および３についてのオーディオ再生データは、それぞれ左スクリーン・チャネル２３０、右スクリーン・チャネル２４０および中央スクリーン・チャネル２３５にマッピングされてもよい。スピーカー・ゾーン６および７についてのオーディオ再生データは、左後方サラウンド・スピーカー２２４および右後方サラウンド・スピーカー２２６にマッピングされてもよい。

図４Ｂは、別の再生環境の例を示している。いくつかの実装では、レンダリング・ツールは、スピーカー・ゾーン１、２および３についてのオーディオ再生データを再生環境４５０の対応するスクリーン・スピーカー４５５にマッピングしてもよい。レンダリング・ツールは、スピーカー・ゾーン４および５についてのオーディオ再生データを、左側方サラウンド・アレイ４６０および右側方サラウンド・アレイ４６５にマッピングしてもよく、スピーカー・ゾーン８および９についてのオーディオ再生データを、左頭上スピーカー４７０ａおよび右頭上スピーカー４７０ｂにマッピングしてもよい。スピーカー・ゾーン６および７についてのオーディオ再生データは、左後方サラウンド・スピーカー４８０ａおよび右後方サラウンド・スピーカー４８０ｂにマッピングされてもよい。

いくつかのオーサリング実装では、オーサリング・ツールは、オーディオ・オブジェクトについてのメタデータを生成するために使われてもよい。上記のように、用語「オーディオ・オブジェクト」は、オーディオ・データ信号および関連するメタデータのストリームを指してもよい。メタデータは、オーディオ・オブジェクトの3D位置、オーディオ・オブジェクトのみかけのサイズ、レンダリング制約条件およびコンテンツ型（たとえばダイアログ、効果）などを指示してもよい。実装に依存して、メタデータは、利得データ、軌跡データなどの他の型のデータを含んでいてもよい。いくつかのオーディオ・オブジェクトは静的であってもよく、一方、他のオーディオ・オブジェクトは動いてもよい。オーディオ・オブジェクトは、所与の時点における三次元空間内でのオーディオ・オブジェクトの位置などを示しうる関連するメタデータに従ってオーサリングまたはレンダリングされうる。オーディオ・オブジェクトが再生環境においてモニタリングまたは再生されるとき、オーディオ・オブジェクトは、位置およびサイズ・メタデータに従って、再生環境の再生スピーカー・レイアウトに応じてレンダリングされうる。

図５のＡおよびＢは、再生環境における左／右パンおよび前／後パンの例を示している。再生環境５００内のスピーカーの位置、スピーカーの数などは単に例として示されている。本開示の他の図面と同様に、図５のＡおよびＢの要素は必ずしも縮尺通りに描かれていない。示されている要素間の相対的な距離、角度などは例示として示されている。

この例では、再生環境５００は、左スピーカー５０５、右スピーカー５１０、左サラウンド・スピーカー５１５、右サラウンド・スピーカー５２０、左高さスピーカー５２５および右高さスピーカー５３０を含む。聴取者の頭５３５は再生環境５００の前方領域のほうを向いている。代替的な諸実装は中央スピーカー５０１をも含んでいてもよい。

この例では、左スピーカー５０５、右スピーカー５１０、左サラウンド・スピーカー５１５および右サラウンド・スピーカー５２０はみなxy平面内に位置している。この例では、左スピーカー５０５および右スピーカー５１０はx軸に沿って位置され、一方、左スピーカー５０５および左サラウンド・スピーカー５１５はy軸に沿って位置されている。ここで、左高さスピーカー５２５および右高さスピーカー５３０は聴取者の頭５３５より上方、xy平面から高さzのところに位置されている。この例では、左高さスピーカー５２５および右高さスピーカー５３０は再生環境５００の天井に取り付けられている。

図５のＡに示した例では、左スピーカー５０５および右スピーカー５１０は、再生環境５００における位置Pに位置されるオーディオ・オブジェクト５４５に対応する音を発している。この例では、位置Pは聴取者の頭５３５の前方の、やや右側にある。ここで、Pもx軸に沿って位置する。

たとえば、レンダリング・ツールは、オーディオ・データと、オーディオ・オブジェクト位置データを含むオーディオ・オブジェクト５４５についての関連するオーディオ・オブジェクト・メタデータとを受領していてもよく、オーディオ・オブジェクト５４５に対応する音源が位置Pにあるという知覚を作り出すために、左スピーカー５０５および右スピーカー５１０についてのオーディオ利得およびスピーカー・フィード信号を、振幅パン・プロセスに従って計算していてもよい。そのような音源は本稿では「ファントム像」または「ファントム源」と称されることがある。

数学的には、レンダリングまたはパン動作は次式によって記述できる：
s_i(t)＝Σ_jg_i,j(t)x_j(t) (式2)
式(2)において、g_i,j(t)は一組の時間変化するパン利得を表わし、x(t)は一組のオーディオ・オブジェクト信号を表わし、s_i(t)は結果として得られる一組のスピーカー・フィード信号を表わす。この定式化において、添え字iはスピーカーに対応し、添え字jはオーディオ・オブジェクト・インデックスである。いくつかの例では、パン利得g_i,j(t)は次のように表現されうる：
g_i,j(t)＝F(P,M_j(t)) (式3)
式(3)において、Pはスピーカー位置P_iをもつ一組のスピーカーを表わし、M_j(t)は時間変化するオーディオ・オブジェクト・メタデータを表わし、Fは、本稿でパン・アルゴリズムまたはパン方法とも称されるパン則を表わす。幅広い範囲のパン方法Fが当業者には知られており、正弦‐余弦パン則、正接パン則および正弦パン則NSを含むがそれに限られない。さらに、二次元および三次元パンについて、ベクトル・ベースの振幅パン（VBAP: vector-based amplitude panning）のようなマルチチャネル・パン則が提案されている。

聴取者の脳は、音源を定位するために、振幅の差ならびにスペクトルおよびタイミング手がかりを使うことができる。図５のＡの例のように、音源の左／右位置を決定するために、聴取者の聴覚系は両耳間時間差（ITD: interaural time differences）および両耳間レベル差（ILD: interaural level difference）を解析してもよい。

ここで、たとえば、左スピーカー５０５から音は聴取者の左耳５４０ａに、聴取者の右耳５４０ｂより先に到達する。聴取者の聴覚系および脳は低周波数（たとえば800Hz未満）での位相遅延および高周波数（たとえば1600Hz超）での群遅延からITDを評価しうる。一部の人は10マイクロ秒以下の両耳間時間差を認識できる。

頭の陰または音響的な陰は、音が頭によって妨害されることにより音の振幅が低減した領域である。音は、耳に到達するために、頭の中またはまわりを通ってきたことがありうる。図５のＡに示される例では、右スピーカー５１０からの音は、少なくとも聴取者の頭５３５が聴取者の左耳５４０ａを陰にしているため、聴取者の左耳５４０ａにおけるよりも聴取者の右耳５４０ｂにおいて高いレベルをもつであろう。頭の陰によって引き起こされるILDは一般に周波数依存である。すなわち、ILD効果は典型的には周波数が増すと増大する。

頭の陰の効果は全体的な強度の有意な減衰を引き起こしうるだけでなく、フィルタリング効果をも引き起こすことがありうる。頭の陰になることによるこうしたフィルタリング効果は、音の定位の本質的な要素であることがある。聴取者の脳は、聴取者の左右の耳に聞こえる音の相対的な振幅、音色および位相を評価してもよく、そのような相違に従って音源のみかけの位置を決定しうる。一部の聴取者は、聴取者の前方にある音源について約1度の精度で音源のみかけの位置を決定できてもよい。パン・アルゴリズムは、聴取者の前方のオーディオ・オブジェクト位置のきわめて効果的なレンダリングを生じるために、たとえば再生環境５００のx軸に沿ったオーディオ・オブジェクト位置および／または動きのために、上記の聴覚効果を活用できる。

しかしながら、聴取者は一般に、聴取者の側方に沿った音源についての音の定位については、ずっと低いレベルの精度をもつ。横の音源についての典型的な音の定位の精度は約15度の範囲内である。この、より低い精度は、少なくとも部分的には、ITDおよびILDのような両耳手がかりの相対的な少なさによって引き起こされる。したがって、聴取者の側方に位置される（または横の軌跡に沿って動いている）オーディオ・オブジェクトの成功裏のパンは、聴取者の前方に位置するオーディオ・オブジェクトをパンすることよりも、相対的により困難でありうる。たとえば、知覚されるファントム源位置は曖昧であることがあり、あるいは意図された音位置とは非常に異なることがありうる。

聴取者の横に位置されるオーディオ・オブジェクトをパンすることは、さらなる困難を呈することがある。図５のＢを参照するに、左スピーカー５０５および左サラウンド・スピーカー５１５は、位置P'を有するオーディオ・オブジェクト５４５に対応する音をレンダリングしているものとして示されている。聴取者の頭５３５は位置AとBの間で動くものとして示されている。左スピーカー５０５および左サラウンド・スピーカー５１５からの実線の矢印は、聴取者の頭５３５が位置Aにあるときの聴取者の左耳５４０ａに到達する音を表わし、一方、破線の矢印は、聴取者の頭５３５が位置Bにあるときの聴取者の左耳５４０ａに到達する音を表わす。

この例では、位置Aは再生環境５００の「スイートスポット」に対応し、ここでは左スピーカー５０５からの音波および左サラウンド・スピーカー５１５からの音波が両方とも聴取者の左耳５４０ａまで実質的に同じ距離を進む。この距離は図５ＢではD₁と表わされている。対応する音が左スピーカー５０５および左サラウンド・スピーカー５１５から聴取者の左耳５４０ａまで進むために必要な時間は実質的に同じなので、聴取者の頭５３５がスイートスポットに位置されるときは、左スピーカー５０５および左サラウンド・スピーカー５１５は「遅延整列されて」おり、オーディオ・アーチファクトは生じない。

しかしながら、聴取者の頭５３５が位置Bに動くと、左スピーカー５０５からの音波は聴取者の左耳５４０ａまで距離D₂を進み、左サラウンド・スピーカー５１５からの音波は聴取者の左耳５４０ａまで距離D₃を進む。この例において、D₂はD₃より十分に大きく、位置Bにあるとき、聴取者の頭５３５はもはやスイートスポットにはない。聴取者の頭５３５が位置Bまたはスピーカーが遅延整列されない他の位置にあるとき、図５Ｂに示されるようなオーディオ・オブジェクトの前／後パンの間に、オーディオ信号の周波数内容における「櫛形」〔コーミング（combing）〕アーチファクト（本稿では櫛形フィルタ・ノッチおよびピークとも称される）が生じる。そのような櫛形アーチファクトは、位置P'におけるオーディオ・オブジェクト５４５に対応するもののようなファントム源の知覚される音色を損なうことがあるとともに、全体的なオーディオ・シーンの空間的広がり（spaciousness）のつぶれも引き起こすことがある。

再生環境における前／後パンについてのスイートスポットはしばしばきわめて小さい。よって、聴取者の頭の向きおよび位置の小さな変化でさえ、そのような櫛形フィルタ・ノッチおよびピークを周波数においてシフトさせることがある。たとえば、図５のＢにおける聴取者がシートで前後に体をゆすっていたとすると、聴取者の頭５３５は位置AとBの間で動き、聴取者の頭５３５が位置Aにきたときは櫛形フィルタ・ノッチおよびピークが消失し、次いで聴取者の頭５３５が位置Bに、また位置Bから動く際に、周波数においてシフトしつつ再び現われる。

聴取者の頭が上下に動かされる場合にも同様の現象が起こりうる。図５のＢを参照するに、オーディオ・オブジェクト５４５の位置P'が十分高い（この例では十分なz成分をもつ）場合、パン動作は左スピーカー５０５、左サラウンド・スピーカー５１５および左高さスピーカー５２５についてオーディオ利得およびスピーカー・フィード信号を計算することに関わっていてもよい。聴取者の頭５３５が上下に（たとえばz軸に沿ってまたは実質的にz軸に沿って）動かされたとしたら、櫛形フィルタ・ノッチおよびピークのようなオーディオ・アーチファクトが生じることがあり、周波数においてシフトすることがある。

本稿に記載されるいくつかの実装は、上述した問題への解決策を提供する。いくつかのそのような実装によれば、パン・プロセスの間にそのためにスピーカー・フィード信号が与えられるスピーカーがサラウンド・スピーカーであるかどうかに従って、選択的に脱相関が適用されてもよい。いくつかの実装では、脱相関は、そのようなスピーカーが高さスピーカーであるかどうかに従って選択的に適用されてもよい。いくつかの実装は、櫛形フィルタ・ノッチおよびピークのようなオーディオ・アーチファクトを低減あるいはさらには解消しうる。いくつかのそのような実装は、再生環境の「スイートスポット」のサイズを増大させることがある。

開示される実装は、追加的な潜在的恩恵をもつ。レンダリングされたコンテンツの（たとえばドルビー５．１からステレオへの）ダウンミックスは、前方およびサラウンド・スピーカーの間でパンされるオーディオ・オブジェクトの振幅または「レベル」における増大を引き起こすことがある。この効果は、パン・アルゴリズムが典型的にはエネルギー保存的であり、平方パン利得の和が1に等しいという事実から帰結する。本稿に開示されるいくつかの実装では、レンダリングされた信号をダウンミックスすることに関連する利得積み上がり（gain buildup）は、所与のオーディオ・オブジェクトについてのスピーカー信号の低減した相関のため、低減される。

ファントム源の知覚されるラウドネスはパン利得に依存し、よって知覚される位置に依存する。この位置依存性のラウドネスの理由は、たいていのパン・アルゴリズムはエネルギー保存的であるという事実のためでもある。しかしながら、特に低周波数での音響的な総和は、音響的な加算よりも電気的な加算のように振る舞う。複数のスピーカーの聴取者の耳までの遅延は実質的に同一であり、頭による陰にする効果はほとんどまたは全く起こらないからである。正味の結果は、スピーカー間でパンされるファントム像が一般に、同じ源が実際のスピーカーの一つにまたはその近くにパンされるときよりも大きいものと知覚されるということである。本稿に記載されるいくつかの実装では、動いているオブジェクトの知覚されるラウドネスは、空間的軌跡を通じてより一貫したものとなりうる。

図６は、本稿に記載されるさまざまな方法を実装することのできる装置のコンポーネントの例を与えるブロック図である。装置６００はたとえば、劇場サウンド・システム、家庭サウンド・システムなど（またはその一部）であってもよい。いくつかの例では、本装置は別の装置のコンポーネントにおいて実装されてもよい。

この例では、装置６００はインターフェース・システム６０５および論理システム６１０を含む。論理システム６１０は、汎用の単一チップまたは複数チップ・プロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールド・プログラマブル・ゲート・アレイ（FPGA）または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理および／または離散的なハードウェア・コンポーネントを含んでいてもよい。

この例では、装置６００はメモリ・システム６１５を含む。メモリ・システム６１５は一つまたは複数の好適な型の非一時的な記憶媒体、たとえばフラッシュメモリ、ハードドライブなどを含んでいてもよい。インターフェース・システム６０５は、ネットワーク・インターフェース、論理システムとメモリ・システムとの間のインターフェース、および／または外部装置インターフェース（たとえばユニバーサル・シリアル・バス（USB）インターフェース）を含んでいてもよい。

この例では、論理システム１６０は、インターフェース・システム６０５を介してオーディオ・データおよび他の情報を受領することができる。いくつかの実装では、論理システム６１０は、レンダリング装置を含んでいてもよい（あるいは実装していてもよい）。よって、論理システム６１０は、本稿に記載される方法の一部または全部を実装できてもよい。

いくつかの実装では、論理システム６１０は、一つまたは複数の非一時的媒体に記憶されたソフトウェアに従って本稿に記載される方法の少なくとも一部を実行することができてもよい。非一時的媒体は、ランダム・アクセス・メモリ（RAM）および／または読み出し専用メモリ（ROM）のような、論理システム６１０に付随するメモリを含んでいてもよい。非一時的媒体は、メモリ・システム６１５のメモリを含んでいてもよい。

図７は、オーディオ処理動作の例を与える流れ図である。図７のブロック（および本稿で与える他の流れ図のブロック）はたとえば、図６の論理システム６１０によって、あるいは同様の装置によって実行されてもよい。本稿に記載される他の方法と同様に、図７で概説される方法は、示されるより多数または少数のブロックを含んでいてもよい。さらに、本稿に開示される方法のブロックは、必ずしも示される順序で実行されるのではない。

ここで、ブロック７０５は、オーディオ・オブジェクトを含むオーディオ・データを受領することに関わる。オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するオーディオ・オブジェクト・メタデータを含んでいてもよい。オーディオ・オブジェクト・メタデータは、少なくとも、オーディオ・オブジェクト位置データを含んでいてもよい。ブロック７０５は、図６のインターフェース・システム６０５のようなインターフェース・システムを介してオーディオ・データを受領することに関わっていてもよい。よって、図７の諸ブロックは、図６の一つまたは複数の要素の実装を参照して記述されうる。

いくつかの例では、ブロック７０５において受領されるオーディオ・オブジェクトの少なくともいくつかは静的なオーディオ・オブジェクトであってもよい。しかしながら、オーディオ・オブジェクトの少なくともいくつかは、時間変化するオーディオ・オブジェクト・メタデータ、たとえば時間変化するオーディオ・オブジェクト位置データを示すオーディオ・オブジェクト・メタデータをもつ動的なオーディオ・オブジェクトであってもよい。

ブロック７１０は、再生環境における再生スピーカー数の指示と、再生環境内の再生スピーカー位置の指示とを含む再生環境データを受領することに関わっていてもよい。いくつかの例では、再生環境データはオーディオ・データと一緒に受領されてもよい。しかしながら、いくつかの実装では、再生環境データは別の仕方で受領されてもよい。たとえば、再生環境データは、図６のメモリ・システム６１５のメモリのようなメモリから取得されてもよい。

いくつかの事例では、再生スピーカー位置の指示は、再生環境における再生スピーカーの意図されたレイアウトに対応してもよい。いくつかの例では、再生環境は映画館サウンド・システム環境であってもよい。しかしながら、代替的な例では、再生環境はホームシアター環境または他の型の再生環境であってもよい。いくつかの実装では、再生環境は業界標準、たとえばドルビー規格の配位、浜崎配位などに従って構成されてもよい。たとえば、再生スピーカー位置の指示は、たとえばドルビー・サラウンド５．１配位、ドルビー・サラウンド５．１．２配位（図３のＡおよびＢを参照して上記で論じた高さスピーカーのためのドルビー・サラウンド５．１配位の拡張）、ドルビー・サラウンド７．１配位、ドルビー・サラウンド７．１．２配位または他の再生環境配位の、左、右、中央、サラウンドおよび／または高さスピーカー位置に対応してもよい。いくつかの実装では、再生スピーカー位置の指示は座標および／または他の位置情報を含んでいてもよい。

ブロック７１５は、レンダリング・プロセスに関わってもよい。この例では、ブロック７１５は、少なくとも部分的にはオーディオ・オブジェクト・メタデータに基づいて、オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングすることに関わっていてもよい。各スピーカー・フィード信号は再生環境内の再生スピーカーのうちの少なくとも一つに対応してもよい。たとえば、いくつかの実装では、単一の再生スピーカー位置（たとえば「左サラウンド」）が再生環境の複数の再生スピーカーに対応してもよい。いくつかの例が図１および図２に示され、上記されている。

図７に示した例では、ブロック７１５のレンダリング・プロセスは、少なくとも部分的にはオーディオ・オブジェクトについてのオーディオ・オブジェクト位置データに基づいて、そのためにスピーカー・フィード信号がレンダリングされる複数の再生スピーカーを決定することに関わっていてもよい。この例では、ブロック７１５は、少なくとも部分的にはそのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかに基づいて、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト信号に適用する脱相関の量を決定することに関わっていてもよい。

脱相関プロセスは、いかなる好適な脱相関プロセスであってもよい。たとえば、いくつかの実装では、脱相関プロセスは、一つまたは複数のオーディオ信号に時間遅延、フィルタなどを適用することに関わっていてもよい。脱相関は、オーディオ信号と該オーディオ信号の脱相関されたバージョンとを混合することに関わっていてもよい。

ブロック７１５において、そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちのどの再生スピーカーもサラウンド・スピーカーまたは高さスピーカーではない場合には、適用すべき脱相関の量を決定することは、脱相関が適用されないことを決定することに関わっていてもよい。たとえば、そのためにスピーカー・フィード信号が生成される再生スピーカーが左（前方）スピーカーおよび中央（前方）スピーカーであると判定される場合、いくつかの実装では、脱相関は適用されない（または実質的に適用されない）。

上記のように、左／右パンについては、頭の陰および他の聴覚効果が一般に、オーディオ・オブジェクトの位置の正確なレンダリングを許容する。したがって、いくつかのそのような実装では、左／右パンについては脱相関は適用されない（または実質的に適用されない）。その代わり、相関したスピーカー信号が再生スピーカーに与えられる。よって、そのような状況では、本稿に開示される改善されたレンダラーおよびレガシー・レンダラーは同じ（または実質的に同じ）スピーカー・フィード信号を生成しうる。

しかしながら、レンダリング・プロセスの間にそのためにスピーカー・フィード信号が生成される少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであると判定される場合は、少なくともいくらかの脱相関がオーディオ・オブジェクト信号に適用される。たとえば、レンダリング・プロセスが左サラウンド・スピーカーについてのスピーカー・フィード信号を生成することに関わる場合、いくらかの脱相関が適用される。よって、いくつかのそのような実装では、前／後パンについて脱相関が適用される。脱相関されたスピーカー信号が再生スピーカーに与えられる。スピーカー信号を脱相関することは、遅延不整列に対する感度低下をもたらしうる。したがって、前方スピーカーとサラウンド・スピーカーとの間の到着時間差に起因する櫛形アーチファクトは低減され、あるいは完全に解消されうる。スイートスポットのサイズが増大されうる。いくつかの実装では、動いているオーディオ・オブジェクトの知覚されるラウドネスが、空間的な軌跡を通じてより一貫したものになりうる。

ブロック７１５においていくらかの脱相関が適用されることが決定される場合、脱相関の量は、少なくとも部分的には、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト位置データに基づいていてもよい。いくつかの実装によれば、たとえば、オーディオ・オブジェクト位置データが再生スピーカー位置のいずれかに一致する位置を示す場合、脱相関は適用されない（または実質的に適用されない）。いくつかの例では、オーディオ・オブジェクトは、該オーディオ・オブジェクトの位置と一致する位置をもつ再生スピーカーによってのみ再生される。結果として、そのような状況では、本稿に開示される改善されたレンダラーおよびレガシー・レンダラーは同じ（または実質的に同じ）スピーカー・フィード信号を生成しうる。

いくつかの実装では、適用すべき脱相関の量は他の要因に基づいていてもよい。たとえば、オーディオ・オブジェクトの少なくともいくつかに関連付けられたオーディオ・オブジェクト・メタデータが、適用すべき脱相関の量に関する情報を含んでいてもよい。いくつかの実装では、適用すべき脱相関の量は少なくとも部分的にはユーザーによって定義されたパラメータに基づいていてもよい。

図８は、再生環境においてスピーカー対に選択的に脱相関を適用する例を与えている。この例では、再生環境はドルビー・サラウンド７．１配位にある。ここで、レンダリング・プロセスに関わる場合にそのために脱相関されたスピーカー・フィード信号が与えられるスピーカー対のまわりに破線の楕円が示されている。よって、この例では、適用すべき脱相関の量を決定することは、オーディオ・オブジェクトのレンダリングが左前方／左側方サラウンド・スピーカー対、左側方サラウンド／左後方サラウンド・スピーカー対、右前方／右側方サラウンド・スピーカー対または右側方サラウンド／右後方サラウンド・スピーカー対の間のパンに関わるかどうかを決定することに関わっていてもよい。

代替的な例では、再生環境はドルビー・サラウンド５．１配位を有していてもよい。適用すべき脱相関の量を決定することは、オーディオ・オブジェクトのレンダリングが左前方／左サラウンド・スピーカー対または右前方／右サラウンド・スピーカー対の間のパンに関わるかどうかを決定することに関わっていてもよい。

いくつかの実装によれば、レンダリング・プロセスは公式
s_i(t)＝Σ_jg'_i,j(t)x_j(t)＋Σ_jh_i,j(t)D(x_j(t)) (式4)
に従って実行されてもよい。

式(4)において、g'_i,j(t)およびh_i,j(t)は時間変化するパン利得の集合を表わし、x(t)はオーディオ・オブジェクト信号の集合を表わし、D(x_j(t))は脱相関演算子を表わし、s_i(t)は結果として得られるスピーカー・フィード信号の集合を表わす。上記の式(2)と同様に、添え字iはスピーカーに対応し、添え字jはオーディオ・オブジェクト・インデックスである。D(x_j(t))および／またはh_i,j(t)が0に等しい場合には式(4)は式(2)と同じ結果を与えることが観察されうる。よって、そのような状況では、結果として得られるスピーカー・フィード信号は、この例におけるレガシー・パン・アルゴリズムのものと同じであろう。

いくつかの実装では、入力信号に対する脱相関演算子の効果y(t)＝D(x(t))は次のように表現されてもよい。

＜x(t)y(t)＞＝0 (式5)
＜x²(t)＞＝＜y²(t)＞ (式6)
式(5)および式(6)において、x(t)は入力信号を表わし、y(t)は対応する出力信号を表わし、カレット（＜＞）は囲まれている表式の期待値を示す。

いくつかのそのような実装によれば、脱相関プロセスを使って各スピーカーによって再生されるオブジェクトのエネルギーは、式(2)の「レガシー・パンナー」のエネルギーと同一または実質的に同一である。この条件は
g_i,j ²＝g'_i,j ²＋h_i,j ² (式7)
のように表現されうる。

さらに、いくつかの実装では、脱相関器の寄与は、それらのスピーカー信号がダウンミックスされるときに打ち消される。この条件は
0＝Σ_ih_i,j (式8)
のように表現されうる。

いくつかの実装では、前／後方向のスピーカー対の間の相関（または脱相関）の量は制御可能であってもよい。たとえば、スピーカー対の間の相関（または脱相関）の量は、たとえば次のようにパラメータρに設定されてもよい。

式(9)において、s₁およびs₂はスピーカー対の二つのスピーカーを表わす。よって、そのような実装は、式(2)のレガシー・パンナー（たとえばρ＝1、h_i,j＝0）と、脱相関を選択的に適用することに関わる開示されるパンナー実装のいくつか（たとえばρ＜1）との間のシームレスな遷移を提供できる。

信号x(t)の二つのスピーカーs₁,s₂の間の対ごとのパンを想定すると、利得g'およびhについて次の定式化を使うときに、すべての基準が満たされる。

図９は、オーサリングおよび／またはレンダリング装置のコンポーネントの例を提供するブロック図である。この例において、装置９００はインターフェース・システム９０５を含む。インターフェース・システム９０５は、無線ネットワーク・インターフェースのようなネットワーク・インターフェースを含んでいてもよい。代替的または追加的に、インターフェース・システム９０５はユニバーサル・シリアル・バス（USB）インターフェースまたは別のそのようなインターフェースを含んでいてもよい。

装置９００は論理システム９１０を含む。論理システム９１０は、汎用の単一チップまたは複数チップ・プロセッサのようなプロセッサを含んでいてもよい。論理システム９１０は、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールド・プログラマブル・ゲート・アレイ（FPGA）または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理または離散的なハードウェア・コンポーネントまたはそれらの組み合わせを含んでいてもよい。論理システム９１０は、装置９００の他のコンポーネントを制御するよう構成されていてもよい。図９には装置９００のコンポーネント間のインターフェースは示されていないが、論理システム９１０は、他のコンポーネントとの通信のためのインターフェースをもって構成されていてもよい。それらの他のコンポーネントは、適宜互いとの通信のために構成されていてもいなくてもよい。

論理システム９１０は、本稿に記載される型のオーディオ・レンダリング機能を含むがそれに限られないオーディオ・オーサリングおよび／またはレンダリング機能を実行するよう構成されていてもよい。いくつかのそのような実装では、論理システム９１０は、（少なくとも部分的には）一つまたは複数の非一時的な媒体に記憶されているソフトウェアに従って動作するよう構成されていてもよい。非一時的媒体は、ランダム・アクセス・メモリ（RAM）および／または読み出し専用メモリ（ROM）のような、論理システム９１０に付随するメモリを含んでいてもよい。非一時的媒体は、メモリ・システム９１５のメモリを含んでいてもよい。メモリ・システム９１５は、フラッシュメモリ、ハードドライブなどといった一つまたは複数の好適な型の非一時的記憶媒体を含んでいてもよい。

表示システム９３０は、装置９００の具現に依存して、一つまたは複数の好適な型のディスプレイを含んでいてもよい。たとえば、表示システム９３０は液晶ディスプレイ、プラズマ・ディスプレイ、双安定ディスプレイなどを含んでいてもよい。

ユーザー入力システム９３５は、ユーザーからの入力を受け入れるよう構成された一つまたは複数の装置を含んでいてもよい。いくつかの実装では、ユーザー入力システム９３５は、表示システム９３０のディスプレイにかぶさるタッチスクリーンを含んでいてもよい。ユーザー入力システム９３５はマウス、トラックボール、ジェスチャー検出システム、ジョイスティック、一つまたは複数のGUIおよび／または表示システム９３０上に呈示されるメニュー、ボタン、キーボード、スイッチなどを含んでいてもよい。いくつかの実装では、ユーザー入力システム９３５は、マイクロホン９２５を含んでいてもよい：ユーザーは、マイクロホン９２５を介して装置９００についての音声コマンドを提供してもよい。論理システムは、音声認識のために、そしてそのような音声コマンドに従って装置９００の少なくともいくつかの動作を制御するために構成されていてもよい。

電力システム９４０は、ニッケル‐カドミウム電池またはリチウム・イオン電池のような一つまたは複数の好適なエネルギー蓄積装置を含んでいてもよい。電力システム９４０は電気コンセントから電力を受領するよう構成されていてもよい。

本開示に記載される実装へのさまざまな修正が、当業者にはすぐに明白となりうる。本稿において定義される一般的な原理は、本開示の精神または範囲から外れることなく、他の実装に適用されてもよい。このように、特許請求の範囲は、本稿に示される実装に限定されることは意図されておらず、本開示、本稿に開示される原理および新規な特徴と整合する最も広い範囲を与えられるべきものである。

Claims

オーディオ・オブジェクトを含むオーディオ・データを受領する段階であって、前記オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するオーディオ・オブジェクト・メタデータを含み、前記オーディオ・オブジェクト・メタデータは、少なくとも、オーディオ・オブジェクト位置データを含む、段階と；
再生環境における再生スピーカー数の指示と、再生環境内の再生スピーカー位置の指示とを含む再生環境データを受領する段階と；
少なくとも部分的には前記オーディオ・オブジェクト・メタデータに基づいて、前記オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする段階であって、各スピーカー・フィード信号は再生環境内の再生スピーカーのうちの少なくとも一つに対応する、段階とを含み、
前記レンダリングは：
少なくとも部分的には前記オーディオ・オブジェクトのうちのあるオーディオ・オブジェクトについてのオーディオ・オブジェクト位置データに基づいて、そのためにスピーカー・フィード信号がレンダリングされる複数の再生スピーカーを決定する段階と；
そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかを判定する段階と；
少なくとも部分的にはそのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかに基づいて、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト信号に適用する脱相関の量を決定する段階と；
決定された量の脱相関を、前記オーディオ・オブジェクトに対応する前記オーディオ・オブジェクト信号に適用する脱相関プロセスを実行する段階とを含み、
前記脱相関プロセスは、各スピーカー・フィード信号について、前記オーディオ・オブジェクト信号と前記オーディオ・オブジェクト信号の脱相関されたバージョンとを、前記オーディオ・オブジェクト信号についての時間変化するパン利得および前記オーディオ・オブジェクト信号の前記脱相関されたバージョンについての時間変化するパン利得に従って混合することを含み、前記オーディオ・オブジェクト信号の前記脱相関されたバージョンは脱相関器によって得られ；
前記複数のスピーカー・フィード信号についての前記オーディオ・オブジェクト信号の前記脱相関されたバージョンについてのそれぞれの時間変化するパン利得は総和すると0になり、よって前記脱相関器の寄与は前記複数のスピーカー・フィード信号がダウンミックスされるときには打ち消される、
方法。
そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちのどの再生スピーカーもサラウンド・スピーカーでも高さスピーカーでもないと判定され、適用する脱相関の量を決定することは、脱相関が適用されないことを決定することを含む、請求項１記載の方法。
適用する脱相関の量を決定することは、少なくとも部分的には、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト位置データに基づく、請求項１または２記載の方法。
前記オーディオ・オブジェクトの少なくともいくつかに関連する前記オーディオ・オブジェクト・メタデータは、適用する脱相関の前記量に関する情報を含む、請求項１ないし３のうちいずれか一項記載の方法。
適用する脱相関の量を決定することは、少なくとも部分的には、ユーザー定義のパラメータに基づく、請求項１ないし４のうちいずれか一項記載の方法。
前記オーディオ・オブジェクトの少なくともいくつかは静的なオーディオ・オブジェクトである、請求項１ないし５のうちいずれか一項記載の方法。
前記オーディオ・オブジェクトの少なくともいくつかは、時間変化する位置をもつ動的なオーディオ・オブジェクトである、請求項１ないし６のうちいずれか一項記載の方法。
前記再生環境は、映画館サウンド・システム環境またはホームシアター環境である、請求項１ないし７のうちいずれか一項記載の方法。
前記再生環境がドルビー・サラウンド５．１配位またはドルビー・サラウンド７．１配位を有する、請求項１ないし８のうちいずれか一項記載の方法。
前記再生環境がドルビー・サラウンド５．１配位を有し、適用する脱相関の量を決定することは、前記オーディオ・オブジェクトのレンダリングが左前方／左サラウンド・スピーカー対または右前方／右サラウンド・スピーカー対の間のパンに関わるかどうかを判定することを含む、請求項９記載の方法。
前記再生環境がドルビー・サラウンド７．１配位を有し、適用する脱相関の量を決定することは、前記オーディオ・オブジェクトのレンダリングが左前方／左側方サラウンド・スピーカー対、左側方サラウンド／左後方サラウンド・スピーカー対、右前方／右側方サラウンド・スピーカー対または右側方サラウンド／右後方サラウンド・スピーカー対の間のパンに関わるかどうかを判定することを含む、請求項９記載の方法。
インターフェース・システムおよび論理システムを有する装置であって、前記論理システムは：
前記インターフェース・システムを介して、オーディオ・オブジェクトを含むオーディオ・データを受領する段階であって、前記オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するオーディオ・オブジェクト・メタデータを含み、前記オーディオ・オブジェクト・メタデータは、少なくとも、オーディオ・オブジェクト位置データを含む、段階と；
再生環境における再生スピーカー数の指示と、再生環境内の再生スピーカー位置の指示とを含む再生環境データを受領する段階と；
少なくとも部分的には前記オーディオ・オブジェクト・メタデータに基づいて、前記オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする段階であって、各スピーカー・フィード信号は再生環境内の再生スピーカーのうちの少なくとも一つに対応する、段階とを実行することができ、
前記レンダリングは：
少なくとも部分的には前記オーディオ・オブジェクトのうちのあるオーディオ・オブジェクトについてのオーディオ・オブジェクト位置データに基づいて、そのためにスピーカー・フィード信号がレンダリングされる複数の再生スピーカーを決定する段階と；
そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかを判定する段階と；
少なくとも部分的にはそのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかに基づいて、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト信号に適用する脱相関の量を決定する段階と；
決定された量の脱相関を、前記オーディオ・オブジェクトに対応する前記オーディオ・オブジェクト信号に適用する脱相関プロセスを実行する段階とを含み、
前記脱相関プロセスは、各スピーカー・フィード信号について、前記オーディオ・オブジェクト信号と前記オーディオ・オブジェクト信号の脱相関されたバージョンとを、前記オーディオ・オブジェクト信号についての時間変化するパン利得および前記オーディオ・オブジェクト信号の前記脱相関されたバージョンについての時間変化するパン利得に従って混合することを含み、前記オーディオ・オブジェクト信号の前記脱相関されたバージョンは脱相関器によって得られ；
前記複数のスピーカー・フィード信号についての前記オーディオ・オブジェクト信号の前記脱相関されたバージョンについてのそれぞれの時間変化するパン利得は総和すると0になり、よって前記脱相関器の寄与は前記複数のスピーカー・フィード信号がダウンミックスされるときには打ち消される、
装置。
そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちのどの再生スピーカーもサラウンド・スピーカーでも高さスピーカーでもないと判定され、適用する脱相関の量を決定することは、脱相関が適用されないことを決定することを含む、請求項１２記載の装置。
適用する脱相関の量を決定することは、少なくとも部分的には、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト位置データに基づく、請求項１２または１３記載の装置。
前記オーディオ・オブジェクトの少なくともいくつかに関連する前記オーディオ・オブジェクト・メタデータは、適用する脱相関の前記量に関する情報を含む、請求項１２ないし１４のうちいずれか一項記載の装置。
適用する脱相関の量を決定することは、少なくとも部分的には、ユーザー定義のパラメータに基づく、請求項１２ないし１５のうちいずれか一項記載の装置。
前記オーディオ・オブジェクトの少なくともいくつかは静的なオーディオ・オブジェクトである、請求項１２ないし１６のうちいずれか一項記載の装置。
前記オーディオ・オブジェクトの少なくともいくつかは、時間変化する位置をもつ動的なオーディオ・オブジェクトである、請求項１２ないし１７のうちいずれか一項記載の装置。
前記再生環境は、映画館サウンド・システム環境またはホームシアター環境を含む、請求項１２ないし１８のうちいずれか一項記載の装置。
前記再生環境はドルビー・サラウンド５．１配位またはドルビー・サラウンド７．１配位を有する、請求項１２ないし１９のうちいずれか一項記載の装置。
前記再生環境がドルビー・サラウンド５．１配位を有し、適用する脱相関の量を決定することが、前記オーディオ・オブジェクトのレンダリングが左前方／左サラウンド・スピーカー対または右前方／右サラウンド・スピーカー対の間のパンに関わるかどうかを判定することを含む、請求項２０記載の装置。
前記再生環境がドルビー・サラウンド７．１配位を有し、適用する脱相関の量を決定することは、前記オーディオ・オブジェクトのレンダリングが左前方／左側方サラウンド・スピーカー対、左側方サラウンド／左後方サラウンド・スピーカー対、右前方／右側方サラウンド・スピーカー対または右側方サラウンド／右後方サラウンド・スピーカー対の間のパンに関わるかどうかを判定することを含む、請求項２０記載の装置。
前記論理システムが、汎用単一チップもしくはマルチチップ・プロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールド・プログラマブル・ゲート・アレイ（FPGA）または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理または離散的なハードウェア・コンポーネントのうちの少なくとも一つを含む、請求項１２ないし２２のうちいずれか一項記載の装置。
メモリ・システムをさらに有しており、前記インターフェース・システムは、前記論理システムと前記メモリ・システムの少なくとも一部との間のインターフェースを含む、請求項１２ないし２３のうちいずれか一項記載の装置。
前記インターフェース・システムがネットワーク・インターフェースを含む、請求項１２ないし２４のうちいずれか一項記載の装置。
データ通信のためのインターフェース手段および論理手段を有する装置であって、前記論理手段は：
前記インターフェース手段を介して、オーディオ・オブジェクトを含むオーディオ・データを受領する段階であって、前記オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するオーディオ・オブジェクト・メタデータを含み、前記オーディオ・オブジェクト・メタデータは、少なくとも、オーディオ・オブジェクト位置データを含む、段階と；
再生環境における再生スピーカー数の指示と、再生環境内の再生スピーカー位置の指示とを含む再生環境データを受領する段階と；
少なくとも部分的には前記オーディオ・オブジェクト・メタデータに基づいて、前記オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする段階であって、各スピーカー・フィード信号は再生環境内の再生スピーカーのうちの少なくとも一つに対応する、段階とを実行するためのものであり、
前記レンダリングは：
少なくとも部分的には前記オーディオ・オブジェクトのうちのあるオーディオ・オブジェクトについてのオーディオ・オブジェクト位置データに基づいて、そのためにスピーカー・フィード信号がレンダリングされる複数の再生スピーカーを決定する段階と；
そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかを判定する段階と；
少なくとも部分的にはそのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかに基づいて、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト信号に適用する脱相関の量を決定する段階と；
決定された量の脱相関を、前記オーディオ・オブジェクトに対応する前記オーディオ・オブジェクト信号に適用する脱相関プロセスを実行する段階とを含み、
前記脱相関プロセスは、各スピーカー・フィード信号について、前記オーディオ・オブジェクト信号と前記オーディオ・オブジェクト信号の脱相関されたバージョンとを、前記オーディオ・オブジェクト信号についての時間変化するパン利得および前記オーディオ・オブジェクト信号の前記脱相関されたバージョンについての時間変化するパン利得に従って混合することを含み、前記オーディオ・オブジェクト信号の前記脱相関されたバージョンは脱相関器によって得られ；
前記複数のスピーカー・フィード信号についての前記オーディオ・オブジェクト信号の前記脱相関されたバージョンについてのそれぞれの時間変化するパン利得は総和すると0になり、よって前記脱相関器の寄与は前記複数のスピーカー・フィード信号がダウンミックスされるときに打ち消される、
装置。
そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちのどの再生スピーカーもサラウンド・スピーカーでも高さスピーカーでもないと判定され、適用する脱相関の量を決定することは、脱相関が適用されないことを決定することを含む、請求項２６記載の装置。
適用する脱相関の量を決定することが、少なくとも部分的には、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト位置データに基づく、請求項２６または２７記載の装置。
命令を含む記憶している非一時的媒体であって、前記命令は、少なくとも一つの装置を制御して、以下の動作、すなわち：
オーディオ・オブジェクトを含むオーディオ・データを受領する段階であって、前記オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するオーディオ・オブジェクト・メタデータを含み、前記オーディオ・オブジェクト・メタデータは、少なくとも、オーディオ・オブジェクト位置データを含む、段階と；
再生環境における再生スピーカー数の指示と、再生環境内の再生スピーカー位置の指示とを含む再生環境データを受領する段階と；
少なくとも部分的には前記オーディオ・オブジェクト・メタデータに基づいて、前記オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする段階であって、各スピーカー・フィード信号は再生環境内の再生スピーカーのうちの少なくとも一つに対応する、段階とを実行させるためのものであり、
前記レンダリングは：
少なくとも部分的には前記オーディオ・オブジェクトのうちのあるオーディオ・オブジェクトについてのオーディオ・オブジェクト位置データに基づいて、そのためにスピーカー・フィード信号がレンダリングされる複数の再生スピーカーを決定し；
そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかを判定し；
少なくとも部分的にはそのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちの少なくとも一つの再生スピーカーがサラウンド・スピーカーまたは高さスピーカーであるかどうかに基づいて、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト信号に適用する脱相関の量を決定し；
決定された量の脱相関を、前記オーディオ・オブジェクトに対応する前記オーディオ・オブジェクト信号に適用する脱相関プロセスを実行することを含み、
前記脱相関プロセスは、各スピーカー・フィード信号について、前記オーディオ・オブジェクト信号と前記オーディオ・オブジェクト信号の脱相関されたバージョンとを、前記オーディオ・オブジェクト信号についての時間変化するパン利得および前記オーディオ・オブジェクト信号の前記脱相関されたバージョンについての時間変化するパン利得に従って混合することを含み、前記オーディオ・オブジェクト信号の前記脱相関されたバージョンは脱相関器によって得られ；
前記複数のスピーカー・フィード信号についての前記オーディオ・オブジェクト信号の前記脱相関されたバージョンについてのそれぞれの時間変化するパン利得は総和すると0になり、よって前記脱相関器の寄与は前記複数のスピーカー・フィード信号がダウンミックスされるときに打ち消される、
非一時的媒体。
そのためにスピーカー・フィード信号がレンダリングされる前記複数の再生スピーカーのうちのどの再生スピーカーもサラウンド・スピーカーでも高さスピーカーでもないと判定され、適用する脱相関の量を決定することは、脱相関が適用されないことを決定することを含む、請求項２９記載の非一時的媒体。
適用する脱相関の量を決定することが、少なくとも部分的には、前記オーディオ・オブジェクトに対応するオーディオ・オブジェクト位置データに基づく、請求項２９または３０記載の非一時的媒体。
前記オーディオ・オブジェクトの少なくともいくつかに関連する前記オーディオ・オブジェクト・メタデータは、適用する脱相関の前記量に関する情報を含む、請求項２９ないし３１のうちいずれか一項記載の非一時的媒体。
適用する脱相関の量を決定することは、少なくとも部分的には、ユーザー定義のパラメータに基づく、請求項２９ないし３２のうちいずれか一項記載の非一時的媒体。
前記オーディオ・オブジェクトの少なくともいくつかは静的なオーディオ・オブジェクトである、請求項２９ないし３３のうちいずれか一項記載の非一時的媒体。
前記オーディオ・オブジェクトの少なくともいくつかは、時間変化する位置をもつ動的なオーディオ・オブジェクトである、請求項２９ないし３４のうちいずれか一項記載の非一時的媒体。
前記再生環境は、映画館サウンド・システム環境またはホームシアター環境を含む、請求項２９ないし３５のうちいずれか一項記載の非一時的媒体。
前記再生環境はたとえば、ドルビー・サラウンド５．１配位またはドルビー・サラウンド７．１配位を有する、請求項２９ないし３６のうちいずれか一項記載の非一時的媒体。
前記再生環境がドルビー・サラウンド５．１配位を有し、適用する脱相関の量を決定することが、前記オーディオ・オブジェクトのレンダリングが左前方／左サラウンド・スピーカー対または右前方／右サラウンド・スピーカー対の間のパンに関わるかどうかを判定することを含む、請求項３７記載の非一時的媒体。
前記再生環境がドルビー・サラウンド７．１配位を有し、適用する脱相関の量を決定することが、前記オーディオ・オブジェクトのレンダリングが左前方／左側方サラウンド・スピーカー対、左側方サラウンド／左後方サラウンド・スピーカー対、右前方／右側方サラウンド・スピーカー対または右側方サラウンド／右後方サラウンド・スピーカー対の間のパンに関わるかどうかを判定することを含む、請求項３７記載の非一時的媒体。