JP6804495B2

JP6804495B2 - 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理

Info

Publication number: JP6804495B2
Application number: JP2018152854A
Authority: JP
Inventors: ジェロエンブリーバルト，ディルク; ルー，リエ; エール．トウィンゴ，ニコラ; ソレ，アントニオマテオス
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2013-07-31
Filing date: 2018-08-15
Publication date: 2020-12-23
Anticipated expiration: 2034-07-24
Also published as: JP6388939B2; US20170223476A1; JP2018174590A; KR20160021892A; JP2021036729A; KR20210141766A; RU2716037C2; JP2022136263A; RU2646344C2; US20230353970A1; EP3564951B1; US11736890B2; US10595152B2; US11064310B2; KR102395351B1; CN105431900A; HK1229945A1; RU2016106913A; BR112016001738A2; CN110808055A

Description

関連出願への相互参照
本願は2013年7月31日に出願されたスペイン特許出願第P201331193号および2013年10月2日に出願された米国仮出願第61/885,805号からの優先権を主張する。各出願の内容はここに参照によってその全体において組み込まれる。

技術分野
本開示は、オーディオ・データを処理することに関する。特に、本開示は、拡散したまたは空間的に大きなオーディオ・オブジェクトに対応するオーディオ・データを処理することに関する。

1927年に映画に音声が導入されて以来、映画サウンドトラックの芸術的な意図を捉えてその内容を再現するために使われる技術は着実に進歩を遂げてきた。1970年代には、ドルビーは、３つのスクリーン・チャネルおよびモノのサラウンド・チャネルとの混合をエンコードおよび配布するコスト効率のよい手段を導入した。ドルビーは1990年代に、離散的な左、中央および右スクリーン・チャネル、左および右のサラウンド・アレイおよび低域効果のためのサブウーファー・チャネルを与える５．１チャネル・フォーマットをもって映画館にデジタル・サウンドをもたらした。2010年に導入されたドルビー・サラウンド７．１は、既存の左および右サラウンド・チャネルを四つの「ゾーン」に分割することによって、サラウンド・チャネルの数を増やした。

映画館およびホームシアターのオーディオ再生システムはいずれもますます多用途かつ複雑になりつつある。ホームシアターのオーディオ再生システムはますます多くのスピーカーを含むようになってきている。チャネル数が増し、ラウドスピーカー・レイアウトが平面的な二次元（2D）アレイから高さを含む三次元（3D）アレイに移行するにつれ、再生環境における音の再現はますます複雑なプロセスになりつつある。改善されたオーディオ処理方法が望ましいであろう。

V. Pulkki、Compensating Displacement of Amplitude-Panned Virtual Sources、Audio Engineering Society (AES) International Conference on Virtual, Synthetic and Entertainment Audio Robinson and Vinton、"Automated Speech/Other Discrimination for Loudness Monitoring"、Audio Engineering Society, Preprint number 6437 of Convention 118, May 2005

拡散したまたは空間的に大きなオーディオ・オブジェクトを処理するための改善された方法が提供される。本稿での用法では、用語「オーディオ・オブジェクト」は、オーディオ信号（本稿では「オーディオ・オブジェクト信号」とも称される）および関連するメタデータを指してもよい。関連するメタデータは、いかなる特定の再生環境も参照することなく生成または「オーサリング」されてもよい。関連するメタデータは、オーディオ・オブジェクト位置データ、オーディオ・オブジェクト利得データ、オーディオ・オブジェクト・サイズ・データ、オーディオ・オブジェクト軌跡データなどを含んでいてもよい。本稿での用法では、用語「レンダリング」は、オーディオ・オブジェクトを、特定の再生環境のためのスピーカー・フィード信号に変換するプロセスを指しうる。レンダリング・プロセスは、少なくとも部分的には、前記関連するメタデータに従って、かつ再生環境データに従って実行されてもよい。再生環境データは、再生環境中のスピーカーの数の指示および再生環境内の各スピーカーの位置の指示を含んでいてもよい。

空間的に大きなオーディオ・オブジェクトは、点音源として知覚されることは意図されておらず、その代わり、大きな空間領域をカバーするものとして知覚されるべきである。いくつかの事例では、大きなオーディオ・オブジェクトは聴取者を取り囲むものとして知覚されるべきである。そのようなオーディオ効果は、単なるパンによっては達成可能でないことがあり、むしろ追加的な処理を必要とすることがある。説得力のある空間的なオブジェクト・サイズまたは空間的な拡散性を生成するためには、再生環境におけるスピーカー信号のかなりの割合が互いに独立である、または少なくとも無相関（たとえば、一次の相互相関または共分散に関して独立）であるべきである。シアター用のレンダリング・システムのような十分に複雑なレンダリング・システムはそのような脱相関を提供することができることがある。しかしながら、ホームシアター・システムのために意図されたもののようなそれほど複雑でないレンダリング・システムは十分な脱相関を提供することができないことがありうる。

本稿に記載されるいくつかの実装は、拡散的なまたは空間的に大きなオーディオ・オブジェクトを特殊な処理のために特定することに関わっていてもよい。脱相関プロセスが該大きなオーディオ・オブジェクトに対応するオーディオ信号に対して実行されて、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成してもよい。これらの脱相関された大きなオーディオ・オブジェクトのオーディオ信号はオブジェクト位置と関連付けられていてもよい。オブジェクト位置は静的なまたは時間変化する位置でありうる。関連付けプロセスは、実際の再生スピーカー配位とは独立であってもよい。たとえば、脱相関された大きなオーディオ・オブジェクトのオーディオ信号は、仮想スピーカー位置にレンダリングされてもよい。いくつかの実装では、そのようなレンダリング・プロセスの出力はシーン単純化プロセスに入力されてもよい。

よって、本開示の少なくともいくつかの側面は、オーディオ・オブジェクトを含むオーディオ・データを受領することに関わってもよい方法において実装されてもよい。オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含んでいてもよい。メタデータは少なくともオーディオ・オブジェクト・サイズ・データを含んでいてもよい。

本方法は、オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別し、該大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付けることに関わっていてもよい。関連付けプロセスは、実際の再生スピーカー配位とは独立であってもよい。実際の再生スピーカー配位は、最終的に、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境のスピーカーにレンダリングするために使われてもよい。

本発明は、大きなオーディオ・オブジェクトについての脱相関メタデータを受領することに関わっていてもよい。脱相関プロセスは、少なくとも部分的には、脱相関メタデータに従って実行されてもよい。本方法は、関連付けプロセスから出力されるオーディオ・データをエンコードすることに関わってもよい。いくつかの実装では、エンコード・プロセスは、大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることには関わらなくてもよい。

前記オブジェクト位置は、受領されたオーディオ・オブジェクトのオーディオ・オブジェクト位置データの少なくとも一部に対応する位置を含んでいてもよい。前記オブジェクト位置の少なくとも一部は、静的であってもよい。しかしながら、いくつかの実装では、前記オブジェクト位置の少なくとも一部は時間とともに変化してもよい。

関連付けプロセスは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を仮想スピーカー位置に従ってレンダリングすることに関わっていてもよい。いくつかの例では、受領プロセスは、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を受領することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、受領されたオーディオ・ベッド信号または受領されたオーディオ・オブジェクト信号の少なくとも一部と混合することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を追加的なオーディオ・ベッド信号またはオーディオ・オブジェクト信号として出力することに関わっていてもよい。

本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号にレベル調整プロセスを適用することに関わっていてもよい。いくつかの実装では、大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含んでいてもよく、レベル調整プロセスは少なくとも部分的には、該大きなオーディオ・オブジェクトのオーディオ・オブジェクト・サイズ・メタデータおよびオーディオ・オブジェクト位置メタデータに依存してもよい。

本方法は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトのオーディオ信号を減衰させるまたは削除することに関わっていてもよい。しかしながら、いくつかの実装では、本方法は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトの点源寄与に対応するオーディオ信号を保持することに関わってもよい。

大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含んでいてもよい。いくつかのそのような実装では、本方法は、大きなオーディオ・オブジェクト位置データおよび大きなオーディオ・オブジェクト・サイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算することに関わってもよい。本方法は、少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値量の距離だけ空間的に離間されているオーディオ・オブジェクトについてのオーディオ信号と混合することに関わっていてもよい。

いくつかの実装では、本方法は、脱相関プロセス後にオーディオ・オブジェクト・クラスタリング・プロセスを実行することに関わっていてもよい。いくつかのそのような実装では、オーディオ・オブジェクト・クラスタリング・プロセスは、関連付けプロセス後に実行されてもよい。

本方法はさらに、コンテンツ型を判別するためにオーディオ・データを評価することに関わっていてもよい。いくつかのそのような実装では、脱相関プロセスは、コンテンツ型に応じて選択的に実行されてもよい。たとえば、実行されるべき脱相関の量はコンテンツ型に依存してもよい。脱相関プロセスは遅延、全域通過フィルタ、擬似ランダム・フィルタおよび／または残響アルゴリズムに関わってもよい。

本稿に開示される方法は、ハードウェア、ファームウェア、一つまたは複数の非一時的媒体に記憶されたソフトウェアおよび／またはそれらの組み合わせを介して実装されてもよい。たとえば、本開示の少なくともいくつかの側面は、インターフェース・システムおよび論理システムを含む装置において実装されてもよい。インターフェース・システムはユーザー・インターフェースおよび／またはネットワーク・インターフェースを含んでいてもよい。いくつかの実装では、本装置は、メモリ・システムを含んでいてもよい。インターフェース・システムは、論理システムとメモリ・システムとの間の少なくとも一つのインターフェースを含んでいてもよい。

論理システムは、汎用の単一チップまたは複数チップ・プロセッサのような少なくとも一つのプロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールド・プログラマブル・ゲート・アレイ（FPGA）または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理、離散的なハードウェア・コンポーネントおよび／またはそれらの組み合わせを含んでいてもよい。

いくつかの実装では、論理システムは、インターフェース・システムを介して、オーディオ・オブジェクトを含むオーディオ・データを受領することができてもよい。オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含んでいてもよい。いくつかの実装では、メタデータは、少なくともオーディオ・オブジェクト・サイズ・データを含んでいてもよい。論理システムは、オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きなオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別し、該大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成することができてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付けることができてもよい。

関連付けプロセスは、実際の再生スピーカー配位とは独立であってもよい。たとえば、関連付けプロセスは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、仮想スピーカー位置にレンダリングすることに関わっていてもよい。実際の再生スピーカー配位は、最終的に、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境のスピーカーにレンダリングするために使われてもよい。

論理システムは、大きなオーディオ・オブジェクトについての脱相関メタデータを、インターフェース・システムを介して受領することができてもよい。脱相関プロセスは、少なくとも部分的には、脱相関メタデータに従って実行されてもよい。

論理システムは、関連付けプロセスから出力されるオーディオ・データをエンコードすることができてもよい。いくつかの実装では、エンコード・プロセスは、大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることには関わらなくてもよい。

前記オブジェクト位置の少なくとも一部は、静的であってもよい。大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含んでいてもよい。オブジェクト位置は、受領されたオーディオ・オブジェクトのオーディオ・オブジェクト位置メタデータの少なくとも一部に対応する位置を含んでいてもよい。

受領プロセスは、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を受領することに関わっていてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、受領されたオーディオ・ベッド信号または受領されたオーディオ・オブジェクト信号の少なくとも一部と混合することができてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を追加的なオーディオ・ベッド信号またはオーディオ・オブジェクト信号として出力することができてもよい。

論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号にレベル調整プロセスを適用することができてもよい。レベル調整プロセスは少なくとも部分的には、該大きなオーディオ・オブジェクトのオーディオ・オブジェクト・サイズ・メタデータおよびオーディオ・オブジェクト位置メタデータに依存してもよい。

論理システムは、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトのオーディオ信号を減衰させるまたは削除することができてもよい。しかしながら、本装置は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトの点源寄与に対応するオーディオ信号を保持することができてもよい。

論理システムは、大きなオーディオ・オブジェクト位置データおよび大きなオーディオ・オブジェクト・サイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算することができてもよい。論理システムは、少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定することができてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値量の距離だけ空間的に離間されているオーディオ・オブジェクトについてのオーディオ信号と混合することに関わっていてもよい。

論理システムは、脱相関プロセス後にオーディオ・オブジェクト・クラスタリング・プロセスを実行することができてもよい。いくつかの実装では、オーディオ・オブジェクト・クラスタリング・プロセスは、関連付けプロセス後に実行されてもよい。

論理システムは、コンテンツ型を判別するためにオーディオ・データを評価することができてもよい。脱相関プロセスは、コンテンツ型に応じて選択的に実行されてもよい。たとえば、実行されるべき脱相関の量はコンテンツ型に依存してもよい。脱相関プロセスは遅延、全域通過フィルタ、擬似ランダム・フィルタおよび／または残響アルゴリズムに関わってもよい。

本明細書に記載される主題の一つまたは複数の実装の詳細が、付属の図面および以下の記述において記載される。他の特徴、側面および利点は、該記述、図面および請求項から明白になるであろう。以下の図の相対的な寸法は縮尺通りに描かれていないことがあることを注意しておく。

ドルビー・サラウンド５．１配位をもつ再生環境の例を示す図である。ドルビー・サラウンド７．１配位をもつ再生環境の例を示す図である。ＡおよびＢは、高さスピーカー配位を含むホームシアター再生環境の二つの例を示す図である。仮想再生環境においてさまざまな高さにあるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース（GUI）の例を示す図である。別の再生環境の例を示す図である。空間的に大きなオーディオ・オブジェクトのためのオーディオ処理の例を与える流れ図である。大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。クラスタリング・プロセスを実行できるシステムの例を示すブロック図である。適応的なオーディオ処理システムにおいてオブジェクトおよび／またはベッドをクラスタリングすることのできるシステムの例を示すブロック図である。大きなオブジェクトのための脱相関処理後のクラスタリング・プロセスの例を与えるブロック図である。再生環境に対する仮想源位置の例を示す図である。再生環境に対する仮想源位置の代替的な例を示す図である。オーディオ処理装置のコンポーネントの例を与えるブロック図である。さまざまな図面における同様の参照符号および指定は同様の要素を示す。

以下の記述は、本開示のいくつかの斬新な側面およびこれら斬新な側面が実装されうるコンテキストの例を記述する目的のためのある種の実装に向けられる。しかしながら、本稿の教示はさまざまな異なる仕方で適用されることができる。たとえば、さまざまな実装が具体的な再生環境を使って記述されているが、本稿の教示は他の既知の再生環境および将来導入されうる再生環境に広く適用可能である。さらに、記載される実装は、ハードウェア、ソフトウェア、ファームウェア、クラウド・ベースのシステム等のようなさまざまな装置およびシステムにおいて少なくとも部分的には実装されてもよい。したがって、本開示の教示は、図面に示されるおよび／または本稿で記述される実装に限定されることは意図されておらず、むしろ広い適用可能性をもつものである。

図１は、ドルビー・サラウンド５．１配位をもつ再生環境の例を示している。この例において、再生環境は映画館再生環境である。ドルビー・サラウンド５．１は1990年代に開発されたが、この配位はいまだ広く家庭および映画館の再生環境に配備されている。映画館再生環境では、プロジェクター１０５が、たとえば映画のためのビデオ画像をスクリーン１５０に投影するよう構成されていてもよい。オーディオ・データは、該ビデオ画像と同期され、サウンド・プロセッサ１１０によって処理されてもよい。電力増幅器１１５はスピーカー・フィード信号を再生環境１００のスピーカーに与えてもよい。

ドルビー・サラウンド５．１配位は、左サラウンド・アレイ１２２のための左サラウンド・チャネル１２０および右サラウンド・アレイ１２７のための右サラウンド・チャネル１２５を含む。ドルビー・サラウンド５．１配位は左スピーカー・アレイ１３２のための左チャネル１３０、中央スピーカー・アレイ１３７のための中央チャネル１３５および右スピーカー・アレイ１４２のための右チャネル１４０をも含む。映画館環境では、これらのチャネルはそれぞれ左スクリーン・チャネル、中央スクリーン・チャネルおよび右スクリーン・チャネルと称されることがある。サブウーファー１４５について別個の低域効果（LFE: low-frequency effects）チャネル１４４が設けられる。

2010年に、ドルビーはドルビー・サラウンド７．１を導入することによってデジタル映画館サウンドに対する向上を提供した。図２は、ドルビー・サラウンド７．１配位をもつ再生環境の例を示している。デジタル・プロジェクター２０５はデジタル・ビデオ・データを受領し、ビデオ画像をスクリーン１５０上に投影するよう構成されていてもよい。オーディオ・データは、サウンド・プロセッサ２１０によって処理されてもよい。電力増幅器２１５がスピーカー・フィード信号を再生環境２００のスピーカーに提供してもよい。

ドルビー・サラウンド５．１と同様に、ドルビー・サラウンド７．１配位は、左スピーカー・アレイ１３２のための左チャネル、中央スピーカー・アレイ１３７のための中央チャネル１３５、右スピーカー・アレイ１４２のための右チャネル１４０およびサブウーファー１４５のためのLFEチャネル１４４を含む。ドルビー・サラウンド７．１配位は、左側方サラウンド（Lss: left side surround）・アレイ２２０および右側方サラウンド（Rss: right side surround）・アレイ２２５を含み、そのそれぞれは単一チャネルによって駆動されてもよい。

しかしながら、ドルビー・サラウンド７．１は、ドルビー・サラウンド５．１の左および右のサラウンド・チャネルを四つのゾーンに分割することによって、サラウンド・チャネルの数を増している。すなわち、左側方サラウンド・アレイ２２０および右側方サラウンド・アレイ２２５に加えて、左後方サラウンド（Lrs: left rear surround）・スピーカー２２４および右後方サラウンド（Rrs: right rear surround）・スピーカー２２６のために別個のチャネルが含まれる。再生環境２００内のサラウンド・ゾーンの数を増すことは、音の定位を著しく改善できる。

より没入的な環境を生成しようとする努力において、いくつかの再生環境は、増加した数のチャネルによって駆動される増加した数のスピーカーをもって構成されることがある。さらに、いくつかの再生環境は、さまざまな高さに配備されるスピーカーを含むことがあり、そのようなスピーカーの一部は再生環境の座席領域より上方のエリアからの音を生成するよう構成された「高さスピーカー（height speaker）」であることがある。

図３のＡおよびＢは、高さスピーカー配位を含むホームシアター再生環境の二つの例を示している。これらの例では、再生環境３００ａおよび３００ｂは、左サラウンド・スピーカー３２２、右サラウンド・スピーカー３２７、左スピーカー３３２、右スピーカー３４２、中央スピーカー３３７およびサブウーファー１４５を含むドルビー・サラウンド５．１配位の主な特徴を含む。しかしながら、再生環境３００は、高さスピーカーのためのドルビー・サラウンド５．１配位の拡張を含み、これはドルビー・サラウンド５．１．２配位と称されることがある。

図３のＡは、ホームシアター再生環境の天井３６０に取り付けられた高さスピーカーをもつ再生環境の例を示している。この例では、再生環境３００ａは、左上中間（Ltm: left top middle）位置にある高さスピーカー３５２および右上中間（Rtm: right top middle）位置にある高さスピーカー３５７を含んでいる。図３のＢに示される例では、左スピーカー３３２および右スピーカー３４２は、天井３６０から音を反射させるよう構成されたドルビー・エレベーション（Dolby Elevation）・スピーカーである。適正に構成されれば、反射音は、聴取者３６５によって、あたかも音源が天井３６０から発しているかのように知覚されうる。しかしながら、これらのスピーカーの数および配位は単に例として挙げられている。いくつかの現行のホームシアター実装は、34個までのスピーカー位置を提供しており、構想されているホームシアター実装はさらに多くのスピーカー位置を許容することがありうる。

よって、現在のトレンドは、より多くのスピーカーおよびより多くのチャネルを含めるだけでなく、異なる高さのスピーカーをも含めるものである。チャネルの数が増し、スピーカー・レイアウトが2Dから3Dに移行するにつれて、サウンドを位置決めし、レンダリングするタスクはますます難しくなる。

よって、ドルビーは、3Dオーディオ・サウンド・システムのための機能を高めるおよび／またはオーサリング複雑さを軽減する、ユーザー・インターフェースを含むがそれに限られないさまざまなツールを開発した。いくつかのそのようなツールは、オーディオ・オブジェクトおよび／またはオーディオ・オブジェクトのためのメタデータを生成するために使用されうる。

図４Ａは、仮想再生環境におけるさまざまな高さにあるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース（GUI）の例を示している。GUI ４００はたとえば、論理システムからの命令に従って、ユーザー入力装置から受領される信号に従って、などにより表示装置上に表示されてもよい。いくつかのそのような装置は図１１を参照して後述する。

仮想再生環境４０４のような仮想再生環境への言及に関する本稿での用法では、用語「スピーカー・ゾーン」は概括的に、実際の再生環境の再生スピーカーと一対一対応があってもなくてもよい論理的な構造体を指す。たとえば、「スピーカー・ゾーン位置」は、映画館再生環境の特定の再生スピーカー位置に対応してもしなくてもよい。その代わり、用語「スピーカー・ゾーン位置」は概括的に、仮想再生環境のゾーンを指してもよい。いくつかの実装では、仮想再生環境のスピーカー・ゾーンは、たとえば、二チャネル・ステレオ・ヘッドホンの組を使ってリアルタイムに仮想サラウンド・サウンド環境を生成するドルビー・ヘッドホン（商標）（時にモバイル・サラウンド（商標）と称される）のような仮想化技術の使用を通じて、仮想スピーカーに対応してもよい。GUI ４００には、第一の高さに七つのスピーカー・ゾーン４０２ａがあり、第二の高さに二つのスピーカー・ゾーン４０２ｂがあり、仮想再生環境４０４内のスピーカー・ゾーンは合計九つとなっている。この例では、スピーカー・ゾーン１〜３は仮想再生環境４０４の前方領域４０５にある。前方領域４０５はたとえば、映画館再生環境の、スクリーン１５０が位置する領域、家庭の、テレビジョン・スクリーンが位置する領域などに対応してもよい。

ここで、スピーカー・ゾーン４は概括的には左領域４１０のスピーカーに対応し、スピーカー・ゾーン５は仮想再生環境４０４の右領域４１５のスピーカーに対応する。スピーカー・ゾーン６は左後方領域４１２に対応し、スピーカー・ゾーン７は仮想再生環境４０４の右後方領域４１４に対応する。スピーカー・ゾーン８は上領域４２０ａのスピーカーに対応し、スピーカー・ゾーン９は上領域４２０ｂのスピーカーに対応し、これは仮想天井領域であってもよい。したがって、図４Ａに示されるスピーカー・ゾーン１〜９の位置は実際の再生環境の再生スピーカーの位置に対応してもしなくてもよい。さらに、他の実装はより多数またはより少数のスピーカー・ゾーンおよび／または高さを含んでいてもよい。

本稿に記載されるさまざまな実装において、GUI ４００のようなユーザー・インターフェースが、オーサリング・ツールおよび／またはレンダリング・ツールの一部として使用されてもよい。いくつかの実装では、オーサリング・ツールおよび／またはレンダリング・ツールは、一つまたは複数の非一時的な媒体上に記憶されるソフトウェアを介して実装されてもよい。オーサリング・ツールおよび／またはレンダリング・ツールは、（少なくとも部分的には）図１１を参照して後述する論理システムおよび他の装置のようなハードウェア、ファームウェアなどによって実装されてもよい。いくつかのオーサリング実装では、関連するオーサリング・ツールが関連するオーディオ・データについてのメタデータを生成するために使用されてもよい。メタデータは、たとえば、三次元空間におけるオーディオ・オブジェクトの位置および／または軌跡を示すデータ、スピーカー・ゾーン制約条件データなどを含んでいてもよい。メタデータは、実際の再生環境の特定のスピーカー・レイアウトに関してではなく、仮想再生環境４０４のスピーカー・ゾーン４０２に関して生成されてもよい。レンダリング・ツールは、オーディオ・データおよび関連するメタデータを受領してもよく、再生環境のためのオーディオ利得およびスピーカー・フィード信号を計算してもよい。そのようなオーディオ利得およびスピーカー・フィード信号は、振幅パン・プロセスに従って計算されてもよい。振幅パン・プロセスは、音が再生環境中の位置Pから来ているような知覚を創り出すことができるものである。たとえば、スピーカー・フィード信号は、次式
x_i(t)＝g_ix(t) i＝1,…,N (式1)
に従って再生環境の再生スピーカー１ないしNに与えられてもよい。

式(1)において、x_i(t)はスピーカーiに加えられるスピーカー・フィード信号を表し、g_iは対応するチャネルの利得因子を表し、x(t)はオーディオ信号を表し、tは時間を表す。利得因子はたとえばここに参照により組み込まれる非特許文献１のSection 2、pp.3-4に記載される振幅パン方法（amplitude panning methods）に従って決定されてもよい。いくつかの実装では、利得は周波数依存であってもよい。いくつかの実装では、x(t)をx(t−Δt)で置き換えることによって時間遅延が導入されてもよい。

いくつかのレンダリング実装では、スピーカー・ゾーン４０２を参照して生成されたオーディオ再生データは、ドルビー・サラウンド５．１配位、ドルビー・サラウンド７．１配位、浜崎２２．２配位または他の配位であってもよい幅広い範囲の再生環境のスピーカー位置にマッピングされうる。たとえば、図２を参照するに、レンダリング・ツールは、スピーカー・ゾーン４および５についてのオーディオ再生データを、ドルビー・サラウンド７．１配位をもつ再生環境の左側方サラウンド・アレイ２２０および右側方サラウンド・アレイ２２５にマッピングしてもよい。スピーカー・ゾーン１、２および３についてのオーディオ再生データは、それぞれ左スクリーン・チャネル２３０、右スクリーン・チャネル２４０および中央スクリーン・チャネル２３５にマッピングされてもよい。スピーカー・ゾーン６および７についてのオーディオ再生データは、左後方サラウンド・スピーカー２２４および右後方サラウンド・スピーカー２２６にマッピングされてもよい。

図４Ｂは、別の再生環境の例を示している。いくつかの実装では、レンダリング・ツールは、スピーカー・ゾーン１、２および３についてのオーディオ再生データを再生環境４５０の対応するスクリーン・スピーカー４５５にマッピングしてもよい。レンダリング・ツールは、スピーカー・ゾーン４および５についてのオーディオ再生データを、左側方サラウンド・アレイ４６０および右側方サラウンド・アレイ４６５にマッピングしてもよく、スピーカー・ゾーン８および９についてのオーディオ再生データを、左頭上スピーカー４７０ａおよび右頭上スピーカー４７０ｂにマッピングしてもよい。スピーカー・ゾーン６および７についてのオーディオ再生データは、左後方サラウンド・スピーカー４８０ａおよび右後方サラウンド・スピーカー４８０ｂにマッピングされてもよい。

いくつかのオーサリング実装では、オーサリング・ツールは、オーディオ・オブジェクトについてのメタデータを生成するために使われてもよい。メタデータは、オブジェクトの3D位置、レンダリング制約条件、コンテンツ型（たとえばダイアログ、効果など）および／または他の情報を指示してもよい。実装に依存して、メタデータは、幅データ、利得データ、軌跡データなどの他の型のデータを含んでいてもよい。いくつかのオーディオ・オブジェクトは静的であってもよく、一方、他のオーディオ・オブジェクトは動いてもよい。

オーディオ・オブジェクトは、所与の時点における三次元空間内でのオーディオ・オブジェクトの位置を示す位置メタデータを一般に含む関連するメタデータに従ってレンダリングされる。オーディオ・オブジェクトが再生環境においてモニタリングまたは再生されるとき、オーディオ・オブジェクトは、ドルビー５．１およびドルビー７．１のような伝統的なチャネル・ベースのシステムの場合のようにあらかじめ決められた物理的チャネルに出力されるのではなく、前記位置メタデータに従って、再生環境に存在するスピーカーを使ってレンダリングされる。

位置メタデータに加えて、意図されるオーディオ効果を生成するために他の型のメタデータが必要とされることがある。たとえば、いくつかの実装では、オーディオ・オブジェクトに関連付けられたメタデータは、「幅」と称されることもあるオーディオ・オブジェクト・サイズを示してもよい。サイズ・メタデータは、オーディオ・オブジェクトが占める空間的な面積または体積を示すために使用されてもよい。空間的に大きなオーディオ・オブジェクトは、単にオーディオ・オブジェクト位置メタデータによってのみ定義される位置をもつ点音源としてではなく、大きな空間的領域をカバーするものとして知覚されるべきである。たとえば、いくつかの事例では、大きなオーディオ・オブジェクトは、再生環境のかなりの部分、可能性としては聴取者を取り囲みさえする部分を占めるものとして知覚されるべきである。

人間の聴覚系は、両方の耳に到達する信号の相関またはコヒーレンスの変化に非常に敏感であり、規格化された相関が＋1の値より小さければ、この相関を知覚されるオブジェクト・サイズ属性にマッピングする。したがって、説得力のある空間的オブジェクト・サイズまたは空間的拡散性を作り出すためには、再生環境におけるスピーカー信号のかなりの割合が相互に独立であるまたは少なくとも無相関である（たとえば、一次相互相関または共分散の点で独立）べきである。満足のいく脱相関プロセスは典型的にはかなり複雑であり、通常は時間変化するフィルタに関わる。

映画館サウンドトラックは、数百のオブジェクトを含むことがあり、それぞれが関連付けられた位置メタデータ、サイズ・メタデータおよび可能性としては他の空間的メタデータをもつ。さらに、映画館サウンド・システムは数百のスピーカーを含むことができ、それらのスピーカーは、オーディオ・オブジェクト位置およびサイズの満足のいく知覚を与えるよう個々に制御されうる。したがって、映画館では、数百のスピーカーによって数百のオブジェクトが再生されることがあり、オブジェクトからスピーカーへの信号マッピングは、パン係数の非常に大きな行列からなる。オブジェクトの数がMによって与えられ、スピーカーの数がNによって与えられるとき、この行列はN×N個までの要素をもつ。このことは、拡散したまたは大きなサイズのオブジェクトの再生に関わってくる。説得力のある空間的オブジェクト・サイズまたは空間的拡散性を作り出すためには、N個のスピーカー信号の有意な割合が相互に独立であるまたは少なくとも無相関であるべきである。このことは一般に、多数の（N個までの）独立な脱相関プロセスの使用に関わり、レンダリング・プロセスについての有意な処理負荷を引き起こす。さらに、脱相関の量は各オブジェクトについて異なることがあり、このことがレンダリング・プロセスをさらに複雑にする。商業シアターのためのレンダリング・システムのような十分複雑なレンダリング・システムは、そのような脱相関を与えることができることがある。

しかしながら、ホームシアター・システムのために意図されたもののようなそれほど複雑でないレンダリング・システムは、十分な脱相関を提供できないことがありうる。いくつかのそのようなレンダリング・システムは全く脱相関を提供できない。ホームシアター・システム上で実行されるのに十分単純な脱相関プログラムはアーチファクトを導入することがある。たとえば、ダウンミックス・プロセスに続いて低計算量の脱相関プロセスが用いられる場合には、櫛形フィルタ・アーチファクトが導入されることがある。

もう一つの潜在的な問題は、いくつかの用途では、オブジェクト・ベースのオーディオが後方互換な混合（ドルビー・デジタルまたはドルビー・デジタル・プラスなど）の形で、該後方互換の混合から一つまたは複数のオブジェクトを取り出すための追加的情報で増強されて伝送されるということである。後方互換の混合は通常、脱相関の効果を含めない。いくつかのそのようなシステムでは、オブジェクトの再構成が信頼できるように機能するのは、後方互換な混合が単純なパン手順を使って生成された場合のみである。そのようなプロセスにおける脱相関器の使用は、オーディオ・オブジェクト再構成プロセスを、時には厳しく、損なうことがある。過去には、このことは、後方互換な混合においては脱相関を適用しないことにして、それによりその混合の芸術的意図を損なうか、あるいはオブジェクト再構成プロセスにおける劣化を受け入れるかしかできないということだった。

そのような潜在的な問題に対処するために、本稿に記載されるいくつかの実装は、特殊な処理のために拡散したまたは空間的に大きなオーディオ・オブジェクトを識別することに関わる。そのような方法および装置は、ホームシアターにおいてレンダリングされるべきオーディオ・データのために特に好適でありうる。しかしながら、これらの方法および装置は、ホームシアター用途に限定されるものではなく、広い適用可能性をもつものである。

空間的に拡散した性質のため、大きなサイズをもつオブジェクトは、コンパクトかつ簡潔な位置をもつ点源としては知覚されない。したがって、そのように空間的に拡散したオブジェクトを再生するためには複数のスピーカーが使われる。しかしながら、大きなオーディオ・オブジェクトを再生するために使われる再生環境中のスピーカーの厳密な位置は、コンパクトで小さなサイズのオーディオ・オブジェクトを再生するために使われるスピーカーの位置ほど決定的に重要ではない。よって、大きなオーディオ・オブジェクトの高品質の再生は、脱相関された大きなオーディオ・オブジェクトの信号を再生環境の実際のスピーカーに最終的にレンダリングするために使われる実際の再生スピーカー配位についての事前の知識なしでも可能である。結果として、大きなオーディオ・オブジェクトについての脱相関プロセスは、ホームシアター・システムのような再生環境において聴取者のための再生のためにオーディオ・データをレンダリングするプロセスの前に、「上流」で実行されることができる。いくつかの例では、大きなオーディオ・オブジェクトについての脱相関プロセスは、そのような再生環境への伝送のためにオーディオ・データをエンコードする前に実行される。

そのような実装は、再生環境のレンダラーが高い複雑さの脱相関の機能をもつことを要求しない。それにより、比較的より単純であり、より効率的であり、より安価でありうるレンダリング・プロセスを許容する。後方互換なダウンミックスは、レンダリング側脱相関のためにオブジェクトを再構成する必要なしに、可能な最善の芸術的意図を維持するよう、脱相関の効果を含みうる。高品質脱相関器は、最終的なレンダリング・プロセスの上流で、たとえばサウンド・スタジオにおけるオーサリングまたはポストプロダクション・プロセスの間に、大きなオーディオ・オブジェクトに適用されることができる。そのような脱相関器は、ダウンミックスおよび／または他の下流のオーディオ処理に関して堅牢であってもよい。

図５は、空間的に大きなオーディオ・オブジェクトについてのオーディオ処理の例を与える流れ図である。方法５００の動作は、本稿に記載される他の方法と同様に、必ずしも示された順序で実行されない。さらに、これらの方法は、図示および／または記述されるより多数または少数のブロックを含んでいてもよい。これらの方法は、少なくとも部分的には、図１１に示され、後述する論理システム１１１０のような論理システムによって実装されてもよい。そのような論理システムは、オーディオ処理システムのコンポーネントであってもよい。代替的または追加的に、そのような方法は、ソフトウェアが記憶されている非一時的媒体を介して実装されてもよい。ソフトウェアは、少なくとも部分的には、本稿に記載される方法を実行するよう一つまたは複数の装置を制御するための命令を含んでいてもよい。

この例では、方法５００は、オーディオ・オブジェクトを含むオーディオ・データを受領することに関わるブロック５０５で始まる。該オーディオ・データはオーディオ処理システムによって受領されてもよい。この例では、オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するメタデータを含む。ここで、関連するメタデータは、オーディオ・オブジェクト・サイズ・データを含む。関連するメタデータは、三次元空間におけるオーディオ・オブジェクトの位置を示すオーディオ・オブジェクト位置データ、脱相関メタデータ、オーディオ・オブジェクト利得情報なども含んでいてもよい。オーディオ・データは、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号も含んでいてもよい。

この実装では、ブロック５１０は、オーディオ・オブジェクト・サイズ・データに基づいて、閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別することに関わる。たとえば、ブロック５１０は、数値的なオーディオ・オブジェクト・サイズ値が所定のレベルを超えるかどうかを判定することに関わっていてもよい。数値的なオーディオ・オブジェクト・サイズ値はたとえば、オーディオ・オブジェクトが占める再生環境の部分に対応してもよい。代替的または追加的に、ブロック５１０は、フラグ、脱相関メタデータなどのような別の型の指示が、オーディオ・オブジェクトが閾値サイズより大きいオーディオ・オブジェクト・サイズをもつことを示しているかどうかを判定することに関わっていてもよい。方法５００の議論の多くは単一の大きなオーディオ・オブジェクトを処理することに関わるが、同じ（または同様の）処理が複数の大きなオーディオ・オブジェクトに適用されてもよいことは認識されるであろう。

この例では、ブロック５１５は、大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行し、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成することに関わる。いくつかの実装では、脱相関プロセスは、少なくとも部分的には、受領された脱相関メタデータに従って実行されてもよい。脱相関プロセスは、遅延、全域通過フィルタ、擬似ランダム・フィルタおよび／または残響アルゴリズムに関わってもよい。

ここで、ブロック５２０では、脱相関された大きなオーディオ・オブジェクトのオーディオ信号はオブジェクト位置と関連付けられる。この例では、関連付けプロセスは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境の実際の再生スピーカーに最終的にレンダリングするために使用されうる実際の再生スピーカー配位とは独立である。しかしながら、いくつかの代替的な実装では、オブジェクト位置は、実際の再生スピーカー位置と対応してもよい。たとえば、いくつかのそのような代替的な実装によれば、オブジェクト位置は、一般的に使われる再生スピーカー配位の再生スピーカー位置と対応していてもよい。ブロック５０５においてオーディオ・ベッド信号が受領される場合、前記オブジェクト位置は、前記オーディオ・ベッド信号の少なくともいくつかに対応する再生スピーカー位置と対応してもよい。代替的または追加的に、オブジェクト位置は、受領されたオーディオ・オブジェクトのオーディオ・オブジェクト位置データの少なくとも一部に対応する位置であってもよい。よって、前記オブジェクト位置の少なくともいくつかが静的であってもよく、前記オブジェクト位置の少なくともいくつかが時間とともに変化してもよい。いくつかの実装では、ブロック５２０は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値距離だけ空間的に隔てられたオーディオ・オブジェクトについてのオーディオ信号と混合することに関わってもよい。

いくつかの実装では、ブロック５２０は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、仮想スピーカー位置に応じてレンダリングすることに関わってもよい。いくつかのそのような実装は、大きなオーディオ・オブジェクト位置データおよび大きなオーディオ・オブジェクト・サイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算することに関わってもよい。そのような実装は、少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定することに関わっていてもよい。いくつかの例が後述される。

いくつかの実装は、関連付けプロセスから出力されたオーディオ・データをエンコードすることに関わっていてもよい。いくつかのそのような実装によれば、エンコード・プロセスは、オーディオ・オブジェクトのオーディオ信号および関連するメタデータをエンコードすることに関わる。いくつかの実装では、エンコード・プロセスはデータ圧縮プロセスを含む。データ圧縮プロセスは可逆であっても、不可逆であってもよい。いくつかの実装では、データ圧縮プロセスは量子化プロセスに関わる。いくつかの例によれば、エンコード・プロセスは大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることには関わらなくてもよい。

いくつかの実装は、本稿で「シーン単純化」プロセスとも称されるオーディオ・オブジェクト・クラスタリング・プロセスを実行することに関わる。たとえば、オーディオ・オブジェクト・クラスタリング・プロセスはブロック５２０の一部であってもよい。エンコードに関わる実装については、エンコード・プロセスは、オーディオ・オブジェクト・クラスタリング・プロセスから出力されるオーディオ・データをエンコードすることに関わってもよい。いくつかのそのような実装では、オーディオ・オブジェクト・クラスタリング・プロセスは脱相関プロセス後に実行されてもよい。シーン単純化プロセスを含め方法５００の諸ブロックに対応するプロセスのさらなる例は後述する。

図６Ａ〜図６Ｆは、本稿に記載される大きなオーディオ・オブジェクトを処理することのできるオーディオ処理システムのコンポーネントの例を示すブロック図である。これらのコンポーネントは、たとえば、ハードウェア、ファームウェア、一つまたは複数の非一時的媒体に記憶されたソフトウェアおよび／またはそれらの組み合わせを介して実装されてもよいオーディオ処理システムの論理システムのモジュールに対応していてもよい。論理システムは、汎用の単一チップまたは複数チップ・プロセッサのような一つまたは複数のプロセッサを含んでいてもよい。論理システムは、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールド・プログラマブル・ゲート・アレイ（FPGA）または他のプログラム可能型論理デバイスをを含んでいてもよい。

図６Ａでは、オーディオ処理システム６００は、大きなオーディオ・オブジェクト６０５のような大きなオーディオ・オブジェクトを検出することができる。検出プロセスは、図５のブロック５１０を参照して述べたプロセスの一つと実質的に同様であってもよい。この例では、大きなオーディオ・オブジェクト６０５のオーディオ信号は、脱相関システム６１０によって脱相関されて、脱相関された大きなオーディオ・オブジェクト信号６１１を生成する。脱相関システム６１０は、少なくとも部分的には、大きなオーディオ・オブジェクト６０５についての受領された脱相関メタデータに従って脱相関プロセスを実行してもよい。脱相関プロセスは、遅延、全域通過フィルタ、擬似ランダム・フィルタまたは残響アルゴリズムの一つまたは複数に関わってもよい。

オーディオ処理システム６００は、この例では他のオーディオ・オブジェクトおよび／またはベッド６１５である他のオーディオ信号を受領することもできる。ここで、他のオーディオ・オブジェクトは、オーディオ・オブジェクトを大きなオーディオ・オブジェクトとして特徴付けるための閾値サイズを下回るサイズをもつオーディオ・オブジェクトである。

この例では、オーディオ処理システム６００は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号６１１を他のオブジェクト位置と関連付けることができる。オブジェクト位置は静的であってもよく、あるいは時間とともに変化してもよい。関連付けプロセスは、図５のブロック５２０を参照して上述したプロセスの一つまたは複数と同様であってもよい。

関連付けプロセスは混合プロセスに関わってもよい。混合プロセスは、少なくとも部分的には、大きなオーディオ・オブジェクト位置と別のオブジェクト位置との間の距離に基づいていてもよい。図６Ａに示される実装では、オーディオ処理システム６００は、脱相関された大きなオーディオ・オブジェクト信号６１１を、オーディオ・オブジェクトおよび／またはベッド６１５に対応する少なくともいくつかのオーディオ信号と混合することができる。たとえば、オーディオ処理システム６００は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号６１１を、その大きなオーディオ・オブジェクトからある閾値量の距離だけ空間的に離れている他のオーディオ・オブジェクトについてのオーディオ信号と混合することができてもよい。

いくつかの実装では、関連付けプロセスはレンダリング・プロセスに関わっていてもよい。たとえば、関連付けプロセスは、仮想スピーカー位置に従って脱相関された大きなオーディオ・オブジェクトのオーディオ信号をレンダリングすることに関わってもよい。レンダリング・プロセス後は、脱相関システム６１０によって受領された大きなオーディオ・オブジェクトに対応するオーディオ信号を保持する必要がないことがある。よって、オーディオ処理システム６００は、脱相関プロセスが脱相関システム６１０によって実行された後、大きなオーディオ・オブジェクト６０５のオーディオ信号を減衰させるまたは削除するよう構成されていてもよい。あるいはまた、オーディオ処理システム６００は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクト６０５のオーディオ信号の少なくとも一部（たとえば、大きなオーディオ・オブジェクト６０５の点源寄与に対応するオーディオ信号）を保持するよう構成されていてもよい。

この例では、オーディオ処理システム６００は、オーディオ・データをエンコードすることができるエンコーダ６２０を含む。ここで、エンコーダ６２０は、関連付けプロセス後にオーディオ・データをエンコードするよう構成される。この実装では、エンコーダ６２０は、オーディオ圧縮プロセスをオーディオ・データに適用することができる。エンコードされたオーディオ・データ６２２は、記憶されるおよび／または下流の処理、再生などのために他のオーディオ処理システムに伝送されることができる。

図６Ｂに示される実装では、オーディオ処理システム６００はレベル調整の機能をもつ。この例では、レベル調整システム６１２は、脱相関システム６１０の出力のレベルを調整するよう構成される。レベル調整プロセスは、もとの内容でのオーディオ・コンテンツのメタデータに依存してもよい。この例では、レベル調整プロセスは、少なくとも部分的には、大きなオーディオ・オブジェクト６０５のオーディオ・オブジェクト・サイズ・メタデータおよびオーディオ・オブジェクト位置メタデータに依存する。そのようなレベル調整は、オーディオ・オブジェクトおよび／またはベッド６１５のような他のオーディオ・オブジェクトへの脱相関器出力の配送を最適化するために使用されることができる。結果として得られるレンダリングの空間的な拡散性を改善するために、空間的に遠い他のオブジェクト信号への複数の脱相関器出力を混合することを選んでもよい。

代替的または追加的に、レベル調整プロセスは、脱相関された大きなオーディオ・オブジェクト６０５に対応する音が、ある方向から諸スピーカーによって再生されるだけであることを保証するために使われてもよい。これは、所望される方向または位置の近傍におけるオブジェクトに脱相関器出力を加えるだけであることによって達成されうる。そのような実装では、大きなオーディオ・オブジェクト６０５の位置メタデータは、その音が到来する知覚される方向に関する情報を保存するために、レベル調整プロセスの考慮に入れられる。そのような実装は、中間サイズのオブジェクトについて、たとえば大きいと見なされるが、そのサイズが再現／再生環境全体を含むほどには大きくないオーディオ・オブジェクトについて、適切でありうる。

図６Ｃに示される実装では、オーディオ処理システム６００は脱相関プロセスの間に追加的なオブジェクトまたはベッド・チャネルを生成することができる。そのような機能は、たとえば前記他のオーディオ・オブジェクトおよび／またはベッド６１５が好適または最適でない場合に、望ましいことがありうる。たとえば、いくつかの実装では、脱相関された大きなオーディオ・オブジェクトの信号６１１は、仮想スピーカー位置に対応してもよい。前記他のオーディオ・オブジェクトおよび／またはベッド６１５が、所望される仮想スピーカー位置に十分に近い位置に対応しない場合、脱相関された大きなオーディオ・オブジェクトの信号６１１は、新たな仮想スピーカー位置に対応してもよい。

この例では、大きなオーディオ・オブジェクト６０５はまず、脱相関システム６１０によって処理される。その後、脱相関されたオーディオ・オブジェクトの信号６１１に対応する追加的なオブジェクトまたはベッド・チャネルがエンコーダ６２０に提供される。この例では、脱相関された大きなオーディオ・オブジェクトの信号６１１は、エンコーダ６２０に送られる前にレベル調整を受ける。脱相関された大きなオーディオ・オブジェクトの信号６１１は、ベッド・チャネル信号および／またはオーディオ・オブジェクト信号であってもよく、この後者は静的なまたは動きのあるオブジェクトに対応しうる。

いくつかの実装では、エンコーダ６２０に出力されるオーディオ信号は、もとの大きなオーディオ・オブジェクトの信号の少なくとも一部を含んでいてもよい。上記のように、オーディオ処理システム６００は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクト６０５の点源寄与に対応するオーディオ信号を保持することができてもよい。これは、たとえば、種々の信号が異なる度合いで互いに相関していることがありうるので、有益でありうる。したがって、大きなオーディオ・オブジェクト６０５に対応するもとのオーディオ信号の少なくとも一部（たとえば点源寄与）をそのまま通過させて、それを別個にレンダリングすることが有益でありうる。そのような実装では、脱相関された諸信号および大きなオーディオ・オブジェクト６０５に対応するもとの諸信号を平準化することが有利であることがある。

一つのそのような例が図６Ｄに示されている。この例では、もとの大きなオーディオ・オブジェクトの信号６１３の少なくとも一部が、レベル調整システム６１２ａによる第一の平準化プロセスにかけられ、脱相関された大きなオーディオ・オブジェクトの信号６１１がレベル調整システム６１２ｂによる平準化プロセスにかけられる。ここで、レベル調整システム６１２ａおよびレベル調整システム６１２ｂは、出力オーディオ信号をエンコーダ６２０に与える。レベル調整システム６１２ｂの出力は、この例では、前記他のオーディオ・オブジェクトおよび／またはベッド６１５と混合もされる。

いくつかの実装では、オーディオ処理システム６００は、コンテンツ型を判別する（または少なくとも推定する）ために入力オーディオ・データを評価することができてもよい。脱相関プロセスは、少なくとも部分的にはコンテンツ型に基づいていてもよい。いくつかの実装では、脱相関プロセスは、コンテンツ型に応じて選択的に実行されてもよい。たとえば、入力オーディオ・データに対して実行されるべき脱相関の量は、少なくとも部分的にはコンテンツ型に依存してもよい。たとえば、一般に、発話については脱相関の量を下げることが望まれるであろう。

一つの例が図６Ｅに示されている。この例では、メディア・インテリジェンス・システム６２５が、オーディオ信号を評価して、コンテンツ型を推定することができる。たとえば、メディア・インテリジェンス・システム６２５は、大きなオーディオ・オブジェクト６０５に対応するオーディオ信号を評価して、コンテンツ型が発話、音楽、サウンド効果などであるかどうかを推定することができてもよい。図６Ｅに示される例では、メディア・インテリジェンス・システム６２５は、コンテンツ型の推定に応じてオブジェクトの脱相関もしくはサイズ処理の量を制御するために制御信号６２７を送ることができる。

たとえば、メディア・インテリジェンス・システム６２５が、大きなオーディオ・オブジェクト６０５のオーディオ信号が発話に対応すると推定する場合、メディア・インテリジェンス・システム６２５は、これらの信号についての脱相関の量は低減されるべきであることまたはこれらの信号は脱相関されるべきではないことを示す制御信号６２７を送ってもよい。信号が発話信号である確からしさを自動的に決定するさまざまな方法が使用されうる。ある実施形態によれば、メディア・インテリジェンス・システム６２５は、少なくとも部分的には中央チャネルにおけるオーディオ情報に基づいて発話確からしさ値を生成することができる発話確からしさ推定器を含んでいてもよい。いくつかの例は、非特許文献２によって記述されている。

いくつかの実装では、制御信号６２７は、レベル調整の量を指示してもよく、および／または脱相関された大きなオーディオ・オブジェクトの信号６１１をオーディオ・オブジェクトおよび／またはベッド６１５についてのオーディオ信号と混合するためのパラメータを指示してもよい。

代替的または追加的に、大きなオーディオ・オブジェクトについての脱相関の量は、「ステム」、「タグ」またはコンテンツ型の他の明示的な指示に基づいていてもよい。コンテンツ型のそのような明示的な指示はたとえば、コンテンツ制作者によって（たとえばポストプロダクション・プロセスの間に）生成されて、対応するオーディオ信号と一緒にメタデータとして伝送されてもよい。いくつかの実装では、そのようなメタデータは人間が読むことができるものであってもよい。たとえば、人間が読むことのできるステムまたはタグは、事実上、「これはダイアログである」、「これは特殊効果である」、「これは音楽である」などを明示的に示すものであってもよい。

いくつかの実装は、何らかの観点で、たとえば空間位置、空間的サイズまたはコンテンツ型に関して同様であるオブジェクトを組み合わせるクラスタリング・プロセスに関わっていてもよい。クラスタリングのいくつかの例が図７および図８を参照して下記で記述される。図６Ｆに示される例では、オブジェクトおよび／またはベッド６１５ａがクラスタリング・プロセス６３０に入力される。クラスタリング・プロセス６３０からは、より少数のオブジェクトおよび／またはベッド６１５ｂが出力される。オブジェクトおよび／またはベッド６１５ｂに対応するオーディオ・データは、平準化された脱相関された大きなオーディオ・オブジェクトの信号６１１と混合される。いくつかの代替的な実装では、クラスタリング・プロセスは脱相関プロセスに後続してもよい。一つの例が図９を参照して後述される。そのような実装はたとえば、ダイアログが、中央スピーカーに近くない位置または大きなクラスター・サイズなど、望ましくないメタデータをもつクラスターに混合されることを防ぎうる。

〈オブジェクト・クラスタリングを通じたシーン単純化〉
以下の記述の目的のためには、用語「クラスタリング」および「グループ化」または「組み合わせ」は、適応的なオーディオ再生システムにおける伝送およびレンダリングのために適応的なオーディオ・コンテンツのユニット中のデータの量を低減するために、オブジェクトおよび／またはベッド（チャネル）を組み合わせることを記述するために交換可能に使われ；用語「低減」は、オブジェクトおよびベッドのそのようなクラスタリングを通じて適応的なオーディオのシーン単純化を実行する工程を指すために使用されうる。本記述を通じた用語「クラスタリング」「グループ化」または「組み合わせ」は、オブジェクトまたはベッド・チャネルの単一のクラスターへの厳密に一意的な割り当てのみに限定されず、オブジェクトまたはベッド・チャネルは、オブジェクトまたはベッド信号の出力クラスターまたは出力ベッド信号への相対的な寄与を決定する重みまたは利得ベクトルを使って、二つ以上の出力ベッドまたはクラスターにわたって分散されてもよい。

ある実施形態では、適応的なオーディオ・システムは、オブジェクト・クラスタリングおよびチャネル・ベッドおよびオブジェクトの組み合わせによって作り出される空間的シーンの知覚的に透明な単純化を通じて、オブジェクト・ベースのオーディオ・コンテンツの帯域幅を低減するよう構成される少なくとも一つのコンポーネントを含む。該コンポーネント（単数または複数）によって実行されるオブジェクト・クラスタリング・プロセスは、空間位置、オブジェクト・コンテンツ型、時間的属性、オブジェクト・サイズおよび／またはその他を含みうるオブジェクトについてのある種の情報を使って、同様のオブジェクトを、もとのオブジェクトを置き換えるオブジェクト・クラスターにグループ化することによって、空間的シーンの複雑さを低減する。

もとの複雑なベッドおよびオーディオ・トラックに基づいて説得力のあるユーザー経験を配送し、レンダリングするための標準的なオーディオ符号化のための追加的なオーディオ処理は、一般に、シーン単純化および／またはオブジェクト・クラスタリングと称される。この処理の主要な目的は、再生装置に送達される個々のオーディオ要素（ベッドおよびオブジェクト）の数を減らすが、それでももともとオーサリングされたコンテンツとレンダリングされる出力との間の知覚される差が最小化されるように十分な空間的情報を保持するクラスタリングまたはグループ化技法を通じて、空間的シーンを低減することである。

シーン単純化プロセスは、空間位置、時間的属性、コンテンツ型、サイズおよび／または他の適切な特性といったオブジェクトについての情報を使って動的にオブジェクトを低減された数にクラスタリングして、低減された帯域幅のチャネルまたは符号化システムにおいてオブジェクト＋ベッドのコンテンツのレンダリングを容易にすることができる。このプロセスは、次のクラスタリング動作のうちの一つまたは複数を実行することによって、オブジェクトの数を減らすことができる：（１）オブジェクトをオブジェクトにクラスタリングする；（２）オブジェクトをベッドとクラスタリングする；（３）オブジェクトおよび／またはベッドをオブジェクトにクラスタリングする。さらに、オブジェクトは、二つ以上のクラスターにわたって分配されることができる。プロセスは、オブジェクトのクラスタリングおよびクラスタリング解除を制御するために、オブジェクトについての時間的情報を使ってもよい。

いくつかの実装では、オブジェクト・クラスターは構成要素となるオブジェクトの個々の波形およびメタデータ要素を、単一の等価な波形およびメタデータのセットで置き換えて、N個のオブジェクトについてのデータが、単一のオブジェクトについてのデータで置き換えられるようにする。これにより本質的にはオブジェクト・データをNから1に圧縮する。代替的または追加的に、オブジェクトまたはベッド・チャネルは、（たとえば振幅パン技法を使って）二つ以上のクラスターにわたって分配されてもよい。これは、M＜Nとして、オブジェクト・データをNからMに減らす。クラスタリング・プロセスは、クラスタリングによる圧縮とクラスタリングされたオブジェクトの音の劣化との間のトレードオフを決定するために、クラスタリングされるオブジェクトの位置、ラウドネスまたは他の特性における変化に起因する歪みに基づく誤差メトリックを使ってもよい。いくつかの実施形態では、クラスタリング・プロセスは、同期的に実行されることができる。代替的または追加的に、クラスタリング・プロセスは、クラスタリングを通じたオブジェクト単純化を制御するために聴覚的シーン解析（ASA: auditory scene analysis）および／またはイベント境界検出を使うことによるなどの、イベント駆動であってもよい。

いくつかの実施形態では、プロセスは、エンドポイント・レンダリング・アルゴリズムおよび／または装置の知識を、クラスタリングを制御するために利用してもよい。このようにして、再生装置のある種の特性または属性が、クラスタリング・プロセスに情報を与えるために使用されてもよい。たとえば、スピーカーとヘッドフォンあるいは他のオーディオ・ドライバとで異なるクラスタリング方式が利用されてもよく、可逆符号化と不可逆符号化とで異なるクラスタリング方式が使われてもよい、などとなる。

図７は、クラスタリング・プロセスを実行することのできるシステムの例を示すブロック図である。図７に示されるように、システム７００は、低下した帯域幅で出力オーディオ信号を生成するために入力オーディオ信号を処理するエンコーダ７０４およびデコーダ７０６段を含む。いくつかの実装では、部分７２０および部分７３０は異なる位置にあってもよい。たとえば、部分７２０はポスト・プロダクション・オーサリング・システムに対応してもよく、部分７３０はホームシアター・システムのような再生環境に対応してもよい。図７に示される例では、入力信号の一部７０９が既知の圧縮技法を通じて処理されて、圧縮されたオーディオ・ビットストリーム７０５を生成する。この圧縮されたオーディオ・ビットストリーム７０５がデコーダ段７０６によってデコードされて出力７０７の少なくとも一部を生成してもよい。そのような既知の圧縮技法は、入力オーディオ・コンテンツ７０９を解析し、オーディオ・データを量子化し、次いでオーディオ・データ自身に対してマスキングなどの圧縮技法を実行することに関わってもよい。圧縮技法は不可逆であっても可逆であってもよく、ユーザーが192kbps、256kbps、512kbpsなどといった圧縮された帯域幅を選択することを許容しうるシステムにおいて実装されてもよい。

適応オーディオ・システムにおいて、入力オーディオの少なくとも一部は、オーディオ・オブジェクトを含む入力信号７０１を含み、該オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含む。メタデータは、オブジェクト空間位置、オブジェクト・サイズ、コンテンツ型、ラウドネスなどといった、関連するオーディオ・コンテンツのある種の特性を定義する。いかなる実際的な数のオーディオ・オブジェクト（たとえば数百のオブジェクト）が再生のために上記システムを通じて処理されてもよい。幅広い多様な再生システムおよび伝送媒体における多数のオブジェクトの正確な再生を容易にするために、システム７００は、もとのオブジェクトをより少数のオブジェクト・グループに組み合わせることによってオブジェクトの数を、オブジェクトのより少ない、より扱いやすい数まで削減するクラスタリング・プロセスまたはコンポーネント７０２を含む。

このように、クラスタリング・プロセスはオブジェクトのグループを構築して、個々の入力オブジェクト７０１のもとのセットから、より少数の出力グループ７０３を生成する。クラスタリング・プロセス７０２は本質的には、オーディオ・データ自身のほかにオブジェクトのメタデータを処理して、削減された数のオブジェクト・グループを生成する。任意の時点におけるどのオブジェクトが他のオブジェクトと最も適切に組み合わされるかを決定するために、メタデータが解析され、組み合わされる諸オブジェクトについての対応する諸オーディオ波形が合計されて、代替オブジェクトまたは組み合わされたオブジェクトを生成してもよい。この例では、組み合わされたオブジェクト・グループは次いでエンコーダ７０４に入力され、該エンコーダ７０４が、デコーダ７０６への伝送のためのオーディオおよびメタデータを含むビットストリーム７０５を生成するよう構成される。

一般に、オブジェクト・クラスタリング・プロセス７０２を組み込む適応オーディオ・システムは、もとの空間的オーディオ・フォーマットからメタデータを生成する諸コンポーネントを含む。システム７００は、通常のチャネル・ベースのオーディオ要素およびオーディオ・オブジェクト符号化要素の両方を含む一つまたは複数のビットストリームを処理するよう構成されたオーディオ処理システムの一部を含む。諸オーディオ・オブジェクト符号化要素を含む拡張層が、チャネル・ベースのオーディオ・コーデック・ビットストリームまたはオーディオ・オブジェクト・ビットストリームに加えられてもよい。よって、この例では、ビットストリーム７０５は、既存のスピーカーおよびドライバ設計または個々に指定可能なドライバおよびドライバ定義を利用する次世代スピーカーと一緒に使うためのレンダラーによって処理されるべき拡張層を含む。

この空間的オーディオ・プロセッサからの空間的オーディオ・コンテンツは、オーディオ・オブジェクト、チャネルおよび位置メタデータを含んでいてもよい。オブジェクトがレンダリングされるとき、該オブジェクトは、位置メタデータおよび再生スピーカーの位置に従って、一つまたは複数のスピーカーに割り当てられてもよい。サイズ・メタデータのような追加的なメタデータがオブジェクトに関連付けられていて、再生位置を変更したりまたは他の仕方で再生のために使われるスピーカーを制限したりしてもよい。メタデータは、空間的パラメータ（たとえば位置、サイズ、速度、強度、音色など）を制御するレンダリング手がかりを提供し、聴取環境におけるどのドライバ（単数または複数）またはスピーカー（単数または複数）が披露の間にそれぞれの音を再生するかを指定するエンジニアのミキシング入力に応答して、オーディオ・ワークステーションにおいて生成されてもよい。該メタデータは、空間的オーディオ・プロセッサによるパッケージングおよび転送のために、ワークステーションにおいてそれぞれのオーディオ・データと関連付けられてもよい。

図８は、適応オーディオ処理システムにおけるオブジェクトおよび／またはベッドをクラスタリングできるシステムの例を示すブロック図である。図８に示される例では、シーン単純化タスクを実行することのできるオブジェクト処理コンポーネント８０６は、任意の数の入力オーディオ・ファイルおよびメタデータを読み込む。入力オーディオ・ファイルは入力オブジェクト８０２および関連付けられたオブジェクト・メタデータを含み、ベッド８０４および関連付けられたベッド・メタデータを含んでいてもよい。このように、この入力ファイル／メタデータは、「ベッド」または「オブジェクト」トラックに対応する。

この例では、オブジェクト処理コンポーネント８０６は、より少数の出力オブジェクトおよびベッド・トラックを生成するために、メディア・インテリジェンス／コンテンツ分類、空間的歪み解析およびオブジェクト選択／クラスタリング情報を組み合わせることができる。具体的には、オブジェクトは一緒にクラスタリングされて、新たな等価な諸オブジェクトまたは諸オブジェクト・クラスター８０８を、関連付けられたオブジェクト／クラスター・メタデータとともに生成することができる。これらのオブジェクトは、ベッドへのダウンミックス〔下方混合〕のために選択されることもできる。これは、図８では、出力ベッド・オブジェクトおよび関連付けられたメタデータ８２０を形成するためにベッド８１２との組み合わせ８１８のためにレンダラー８１６に入力される下方混合されたオブジェクト８１０の出力として示されている。出力ベッド構成８２０（たとえば、ドルビー5.1配位）は必ずしも、たとえばAtmos映画館については9.1であることができる入力ベッド構成と一致する必要はない。この例では、入力トラックからのメタデータを組み合わせることによって、出力トラックについて新しいメタデータが生成され、入力トラックからのオーディオを組み合わせることによって、出力トラックについて新しいオーディオ・データも生成される。

この実装では、オブジェクト処理コンポーネント８０６はある種の処理構成設定情報８２２を使うことができる。そのような処理構成設定情報８２２は出力オブジェクトの数、フレーム・サイズおよびある種のメディア・インテリジェンス設定を含んでいてもよい。メディア・インテリジェンスとは、コンテンツ型（すなわち、ダイアログ／音楽／効果／など）、領域（セグメント／分類）、前処理結果、聴覚的シーン解析結果および他の同様の情報といった、オブジェクトの（またはオブジェクトに関連付けられた）パラメータまたは特性を含むことができる。たとえば、オブジェクト処理コンポーネント８０６は、どのオーディオ信号が発話、音楽および／または特殊効果音に対応するかを判別することができてもよい。この実装では、オブジェクト処理コンポーネント８０６は、オーディオ信号を解析することによって、少なくともいくつかのそのような特性を決定することができる。代替的または追加的に、オブジェクト処理コンポーネント８０６は、タグ、ラベルなどといった関連付けられたメタデータに従って少なくともいくつかのそのような特性を決定することができてもよい。

ある代替的な実施形態では、単純化メタデータ（たとえば、どのオブジェクトがどのクラスターに属するか、どのオブジェクトがベッドにレンダリングされるか、など）のほかにすべてのもとのトラックへの参照を保持することによって、オーディオ生成は猶予されることができる。そのような情報は、たとえば、スタジオとエンコード・ハウスとの間で、または他の同様のシナリオにおいてシーン単純化プロセスの機能を分散させるために有用であることがある。

図９は、大きなオブジェクトについての脱相関プロセスに後続するクラスタリング・プロセスの例を与えるブロック図である。オーディオ処理システム６００のブロックは、非一時的媒体に記憶されているハードウェア、ファームウェア、ソフトウェアなどの任意の適切な組み合わせを介して実装されうる。たとえば、オーディオ処理システム６００のブロックは、図１１を参照して後述するような論理システムおよび／または他の要素を介して実装されてもよい。

この実装では、オーディオ処理システム６００は、オーディオ・オブジェクトO₁ないしO_Mを含むオーディオ・データを受領する。ここで、オーディオ・オブジェクトはオーディオ・オブジェクト信号と、少なくともオーディオ・オブジェクト位置メタデータを含む関連するメタデータとを含む。この例では、大きなオブジェクト検出モジュール９０５は、少なくとも部分的には、オーディオ・オブジェクト・サイズ・メタデータに基づいて、ある閾値サイズより大きいサイズをもつ大きなオーディオ・オブジェクト６０５を判別することができる。該大きなオーディオ・オブジェクト検出モジュール９０５は、たとえば図５のブロック５１０を参照して上記したように機能してもよい。

この実装では、モジュール９１０は、大きなオーディオ・オブジェクト６０５のオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号６１１を生成することができる。この例では、モジュール９１０はまた、大きなオーディオ・オブジェクト６０５のオーディオ信号を仮想スピーカー位置にレンダリングすることができる。よって、この例では、モジュール９１０によって出力される脱相関された大きなオーディオ・オブジェクトのオーディオ信号６１１は、仮想スピーカー位置と対応する。オーディオ・オブジェクト信号を仮想スピーカー位置にレンダリングすることのいくつかの例についてここで図１０Ａおよび図１０Ｂを参照して記述する。

図１０Ａは、再生環境に対する仮想源位置の例を示している。再生環境は実際の再生環境または仮想再生環境でありうる。仮想源位置１００５およびスピーカー位置１０２５は単に例である。しかしながら、この例では、再生環境は仮想再生環境であり、スピーカー位置１０２５は仮想スピーカー位置に対応する。

いくつかの実装では、仮想源位置１００５はすべての方向において一様に離間されていてもよい。図１０Ａに示した例では、仮想源位置１００５はx、y、z軸に沿って一様に離間している。仮想源位置１００５はN_xかけるN_yかけるN_z個の仮想源位置１００５の直方体グリッドをなしてもよい。いくつかの実装では、Nの値は5ないし100の範囲であってもよい。Nの値は、少なくとも部分的には、再生環境における（または再生環境にあると期待される）スピーカー数に依存してもよい。すなわち、各スピーカー位置の間に二つ以上の仮想源位置１００５を含めることが望ましいことがありうる。

しかしながら、代替的な実装では、仮想源位置１００５は異なる仕方で離間されていてもよい。たとえば、いくつかの実装では、仮想源位置１００５はxおよびy軸に沿って第一の一様な離間を、z軸に沿って第二の一様な離間を有していてもよい。他の実装では、仮想源位置１００５は非一様に離間されていてもよい。

この例では、オーディオ・オブジェクト体積１０２０ａは、オーディオ・オブジェクトのサイズに対応する。オーディオ・オブジェクト１０１０は、オーディオ・オブジェクト体積１０２０ａによって囲まれる諸仮想源位置１００５に従ってレンダリングされてもよい。図１０Ａに示される例では、オーディオ・オブジェクト体積１０２０ａは、再生環境１０００ａの全部ではなく一部を占める。大きなオーディオ・オブジェクトは再生環境１０００ａのより多くの部分（またはその全部）を占めてもよい。いくつかの例では、オーディオ・オブジェクト１０１０が点源に対応する場合には、オーディオ・オブジェクト１０１０はサイズ0を有していてもよく、オーディオ・オブジェクト体積１０２０ａは0に設定されてもよい。

いくつかのそのような実装によれば、オーサリング・ツールは、オーディオ・オブジェクト・サイズがあるサイズ閾値以上であるときに脱相関がオンにされるべきであり、オーディオ・オブジェクト・サイズが該サイズ閾値を下回っている場合には脱相関がオフにされるべきであることを（たとえば関連するメタデータに含まれる脱相関フラグを介して）指示することによって、オーディオ・オブジェクト・サイズを脱相関とリンクさせてもよい。いくつかの実装では、脱相関は、サイズ閾値および／または他の入力値に関するユーザー入力に従って制御されてもよい（たとえば、増大、減少または無効化されてもよい）。

この例では、仮想源位置１００５は、仮想源体積１００２内で定義される。いくつかの実装では、仮想源体積は、その中でオーディオ・オブジェクトが動くことができる体積と対応してもよい。図１０Ａに示される例では、再生環境１０００ａおよび仮想源体積１００２ａは同一の広がりをもち、よって仮想源位置１００５のそれぞれは再生環境１０００ａ内のある位置に対応する。しかしながら、代替的な実装では、再生環境１０００ａおよび仮想源体積１００２は同一の広がりでなくてもよい。

たとえば、仮想源位置１０００５のいくつかは再生環境の外部の位置に対応してもよい。図１０Ｂは、再生環境に対する仮想源位置の代替的な例を示している。この例では、仮想源体積１００２ｂは再生環境１０００ｂの外側に広がっている。オーディオ・オブジェクト体積１０２０ｂ内の仮想源位置１００５のいくつかは再生環境１０００ｂの内部に位置しており、オーディオ・オブジェクト体積１０２０ｂ内の他の仮想源位置１００５は再生環境１０００ｂの外部に位置している。

他の実装では、仮想源位置１００５はxおよびy軸に沿って第一の一様な離間を有し、z軸に沿って第二の一様な離間を有していてもよい。仮想源位置１００５はN_xかけるN_yかけるN_z個の仮想源位置１００５の直方体グリッドをなしてもよい。たとえば、いくつかの実装では、xまたはy軸に沿ってよりもz軸に沿ってより少数の仮想源位置１００５があってもよい。いくつかのそのような実装では、Nの値は10ないし100の範囲であってもよい。一方、Ｍの値は5ないし10の範囲であってもよい。

いくつかの実装は、オーディオ・オブジェクト体積１０２０内の仮想源位置１００５のそれぞれについて利得値を計算することに関わる。いくつかの実装では、再生環境（これは実際の再生環境であっても仮想再生環境であってもよい）の複数の出力チャネルの各チャネルについて利得値が、オーディオ・オブジェクト体積１０２０内の仮想源位置１００５のそれぞれについて、計算される。いくつかの実装では、利得値は、オーディオ・オブジェクト体積１０２０内の各仮想源位置１００５に位置する点源についての利得値を計算するためにベクトル・ベースの振幅パン（VBAP: vector-based amplitude panning）アルゴリズム、ペア毎パン（pairwise panning）アルゴリズムまたは同様のアルゴリズムを適用することによって計算されてもよい。他の実装では、オーディオ・オブジェクト体積１０２０内の各仮想源位置１００５に位置する点源についての利得値を計算するために分離可能（separable）アルゴリズム。本稿での用法では、「分離可能」アルゴリズムというのは、所与のスピーカーの利得が複数の因子（たとえば三つの因子）の積として表現でき、各因子が仮想源位置１００５の座標の一つのみに依存するものである。例は、ProTools（商標）ソフトウェアを含むがそれに限られないさまざまな既存のミキシング・コンソール・パナーおよびAMS Neveによって提供されるデジタル・フィルム・コンソールにおいて実装されるパナーにおいて実装されているアルゴリズムを含む。

再び図９に戻ると、この例では、オーディオ処理システム６００はベッド・チャネルB₁ないしB_Nならびに低域効果（LFE）チャネルをも受領する。オーディオ・オブジェクトおよびベッド・チャネルは、たとえば図７および図８を参照して上述したような、シーン単純化または「クラスタリング」プロセスに従って処理される。しかしながら、この例では、LFEチャネルはクラスタリング・プロセスに入力されず、代わりにエンコーダ６２０にそのまま渡される。

この実装では、ベッド・チャネルB₁ないしB_Nはモジュール９１５によって静的なオーディオ・オブジェクト９１７に変換される。モジュール９２０は、大きなオブジェクト検出モジュール９０５が大きなオーディオ・オブジェクトではないと判定したオーディオ・オブジェクトに加えて静的なオーディオ・オブジェクト９１７を受領する。ここで、モジュール９２０は、この例では仮想スピーカー位置に対応する脱相関された大きなオーディオ・オブジェクトの信号６１１をも受領する。

この実装では、モジュール９２０は、静的なオブジェクト９１７、受領されたオーディオ・オブジェクトおよび脱相関された大きなオーディオ・オブジェクトの信号６１１をクラスターC₁ないしC_Pにレンダリングすることができる。一般に、モジュール９２０は、受領されたオーディオ・オブジェクトの数より少数のクラスターを出力する。この実装では、モジュール９２０は、たとえば図５のブロック５２０を参照して上記したように、脱相関された大きなオーディオ・オブジェクトの信号６１１を適切なクラスターの位置と関連付けることができる。

この例では、クラスターC₁ないしC_PおよびLFEチャネルのオーディオ・データがエンコーダ６２０によってエンコードされて、再生環境９２５に伝送される。いくつかの実装では、再生環境９２５はホームシアター・システムを含んでいてもよい。オーディオ処理システム９３０は、エンコードされたオーディオ・データを受領し、デコードするとともに、デコードされたオーディオ・データを、再生環境９２５の実際の再生スピーカー構成、たとえば再生環境９２５の実際の再生スピーカーのスピーカー位置、スピーカー機能（たとえばベース再生能力）などに応じてレンダリングすることができる。

図１１は、オーディオ処理システムのコンポーネントの例を与えるブロック図である。この例では、オーディオ処理システム１１００はインターフェース・システム１１０５を含む。インターフェース・システム１１０５は無線ネットワーク・インターフェースのようなネットワーク・インターフェースを含んでいてもよい。代替的または追加的に、インターフェース・システム１１０５は、ユニバーサル・シリアル・バス（USB）インターフェースまたは他のそのようなインターフェースを含んでいてもよい。

オーディオ処理システム１１００は論理システム１１１０を含む。論理システム１１１０は、汎用の単一チップまたは複数チップ・プロセッサのようなプロセッサを含んでいてもよい。論理システム１１１０は、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールド・プログラマブル・ゲート・アレイ（FPGA）または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理または離散的なハードウェア・コンポーネントまたはそれらの組み合わせを含んでいてもよい。論理システム１１１０は、オーディオ処理システム１１００の他のコンポーネントを制御するよう構成されていてもよい。図１１にはオーディオ処理システム１１００のコンポーネント間のインターフェースは示されていないが、論理システム１１１０は、他のコンポーネントとの通信のためのインターフェースをもって構成されていてもよい。それらの他のコンポーネントは、適宜互いとの通信のために構成されていてもいなくてもよい。

論理システム１１１０は、本稿に記載される型の機能を含むがそれに限られないオーディオ処理機能を実行するよう構成されていてもよい。いくつかのそのような実装では、論理システム１１１０は、（少なくとも部分的には）一つまたは複数の非一時的な媒体に記憶されているソフトウェアに従って動作するよう構成されていてもよい。非一時的媒体は、ランダム・アクセス・メモリ（RAM）および／または読み出し専用メモリ（ROM）のような、論理システム１１１０に付随するメモリを含んでいてもよい。非一時的媒体は、メモリ・システム１１１５のメモリを含んでいてもよい。メモリ・システム１１１５は、フラッシュメモリ、ハードドライブなどといった一つまたは複数の好適な型の非一時的記憶媒体を含んでいてもよい。

表示システム１１３０は、オーディオ処理システム１１００の具現に依存して、一つまたは複数の好適な型のディスプレイを含んでいてもよい。たとえば、表示システム１１３０は液晶ディスプレイ、プラズマ・ディスプレイ、双安定ディスプレイなどを含んでいてもよい。

ユーザー入力システム１１３５は、ユーザーからの入力を受け入れるよう構成された一つまたは複数の装置を含んでいてもよい。いくつかの実装では、ユーザー入力システム１１３５は、表示システム１１３０のディスプレイにかぶさるタッチスクリーンを含んでいてもよい。ユーザー入力システム１１３５はマウス、トラックボール、ジェスチャー検出システム、ジョイスティック、一つまたは複数のGUIおよび／または表示システム１１３０上に呈示されるメニュー、ボタン、キーボード、スイッチなどを含んでいてもよい。いくつかの実装では、ユーザー入力システム１１３５は、マイクロホン１１２５を含んでいてもよい：ユーザーは、マイクロホン１１２５を介してオーディオ処理システム１１００についての音声コマンドを提供してもよい。論理システムは、音声認識のために、そしてそのような音声コマンドに従ってオーディオ処理システム１１００の少なくともいくつかの動作を制御するために構成されていてもよい。いくつかの実装では、ユーザー入力システム１１３５はユーザー・インターフェースであり、したがってインターフェース・システム１１０５の一部であると考えられてもよい。

電力システム１１４０は、ニッケル‐カドミウム電池またはリチウム・イオン電池のような一つまたは複数の好適なエネルギー蓄積装置を含んでいてもよい。電力システム１１４０は電気コンセントから電力を受領するよう構成されていてもよい。

本開示に記載される実装へのさまざまな修正が、当業者にはすぐに明白となりうる。本稿において定義される一般的な原理は、本開示の精神または範囲から外れることなく、他の実装に適用されてもよい。このように、特許請求の範囲は、本稿に示される実装に限定されることは意図されておらず、本稿に開示される開示、原理および新規な特徴と整合する最も広い範囲を与えられるべきものである。

いくつかの態様を記載しておく。
〔態様１〕
オーディオ・オブジェクトを含み、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を含むオーディオ・データを受領する工程であって、前記オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含み、前記メタデータは少なくともオーディオ・オブジェクト・サイズ・データを含む、工程と；
前記オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別する工程と；
前記大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成する工程と；
前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付ける工程であって、該関連付けるプロセスは、実際の再生スピーカー配位とは独立であり、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、前記オーディオ・ベッド信号または前記オーディオ・オブジェクト信号の少なくとも一部と混合することを含む、工程と；
前記関連付けるプロセスから出力されるオーディオ・データをエンコードする工程であって、該エンコードするプロセスはデータ圧縮プロセスを含み、前記大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることは含まない、工程とを含む、
方法。
〔態様２〕
前記大きなオーディオ・オブジェクトについての脱相関メタデータを受領する工程をさらに含み、前記脱相関プロセスは、少なくとも部分的には、前記脱相関メタデータに従って実行される、態様１記載の方法。
〔態様３〕
前記オブジェクト位置のうち少なくともいくつかは静的である、態様１または２記載の方法。
〔態様４〕
前記オブジェクト位置のうち少なくともいくつかは時間とともに変化する、態様１ないし３のうちいずれか一項記載の方法。
〔態様５〕
前記関連付けるプロセスは、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を仮想スピーカー位置に従ってレンダリングすることを含む、態様１ないし４のうちいずれか一項記載の方法。
〔態様６〕
前記実際の再生スピーカー配位が、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境のスピーカーにレンダリングするために使われる、態様１ないし５のうちいずれか一項記載の方法。
〔態様７〕
前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を追加的なオーディオ・ベッド信号またはオーディオ・オブジェクト信号として出力する工程をさらに含む、態様１ないし６のうちいずれか一項記載の方法。
〔態様８〕
前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号にレベル調整プロセスを適用する工程をさらに含む、態様１ないし７のうちいずれか一項記載の方法。
〔態様９〕
前記大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含み、前記レベル調整プロセスは少なくとも部分的には、前記大きなオーディオ・オブジェクトの前記オーディオ・オブジェクト・サイズ・メタデータおよび前記オーディオ・オブジェクト位置メタデータに依存する、態様８記載の方法。
〔態様１０〕
前記脱相関プロセスが実行された後、前記大きなオーディオ・オブジェクトのオーディオ信号を減衰させるまたは削除する工程をさらに含む、態様１ないし９のうちいずれか一項記載の方法。
〔態様１１〕
前記脱相関プロセスが実行された後、前記大きなオーディオ・オブジェクトの点源寄与に対応するオーディオ信号を保持する工程をさらに含む、態様１ないし１０のうちいずれか一項記載の方法。
〔態様１２〕
前記大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含み、当該方法はさらに：
前記大きなオーディオ・オブジェクトの位置データおよび前記大きなオーディオ・オブジェクトのサイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算する工程と；
少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定する工程とを含む、
態様１ないし１１のうちいずれか一項記載の方法。
〔態様１３〕
前記脱相関プロセスの後にオーディオ・オブジェクト・クラスタリング・プロセスを実行する工程をさらに含む、態様１ないし１２のうちいずれか一項記載の方法。
〔態様１４〕
前記オーディオ・オブジェクト・クラスタリング・プロセスは、前記関連付けるプロセスの後に実行される、態様１３記載の方法。
〔態様１５〕
コンテンツ型を判別するために前記オーディオ・データを評価する工程をさらに含み、前記脱相関プロセスは、コンテンツ型に応じて選択的に実行される、態様１ないし１４のうちいずれか一項記載の方法。
〔態様１６〕
実行される脱相関の量がコンテンツ型に依存する、態様１５記載の方法。
〔態様１７〕
前記脱相関プロセスは遅延、全域通過フィルタ、擬似ランダム・フィルタまたは残響アルゴリズムのうちの一つまたは複数に関わる、態様１ないし１６のうちいずれか一項記載の方法。
〔態様１８〕
前記大きなオーディオ・オブジェクトのメタデータがオーディオ・オブジェクト位置メタデータを含み、当該方法は、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値量の距離だけ空間的に離間されているオーディオ・オブジェクトについてのオーディオ信号と混合する工程をさらに含む、態様１ないし１７のうちいずれか一項記載の方法。
〔態様１９〕
インターフェース・システムと；
論理システムとを有する装置であって、前記論理システムは：
前記インターフェース・システムを介して、オーディオ・オブジェクトを含み、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を含むオーディオ・データを受領する工程であって、前記オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含み、前記メタデータは、少なくともオーディオ・オブジェクト・サイズ・データを含む、工程と；
前記オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きなオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別する工程と；
前記大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成する工程と；
前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付ける工程であって、該関連付けるプロセスは、実際の再生スピーカー配位とは独立であり、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、前記オーディオ・ベッド信号または前記オーディオ・オブジェクト信号の少なくとも一部と混合することを含む、工程と；
前記関連付けるプロセスから出力されるオーディオ・データをエンコードする工程であって、該エンコードするプロセスはデータ圧縮プロセスを含み、前記大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることは含まない、工程とを実行可能である、
装置。
〔態様２０〕
ソフトウェアが記憶されている非一時的媒体であって、前記ソフトウェアは、少なくとも一つを制御して：
オーディオ・オブジェクトを含み、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を含むオーディオ・データを受領する工程であって、前記オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含み、前記メタデータは少なくともオーディオ・オブジェクト・サイズ・データを含む、工程と；
前記オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別する工程と；
前記大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成する工程と；
前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付ける工程であって、該関連付けるプロセスは、実際の再生スピーカー配位とは独立であり、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、前記オーディオ・ベッド信号または前記オーディオ・オブジェクト信号の少なくとも一部と混合することを含む、工程と；
前記関連付けるプロセスから出力されるオーディオ・データをエンコードする工程であって、該エンコードするプロセスは、データ圧縮プロセスを含み、前記大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることは含まない、工程とを実行させるための命令を含む、
非一時的媒体。

Claims

少なくとも一つのオーディオ・オブジェクトおよび該少なくとも一つのオーディオ・オブジェクトに関連するメタデータを含むオーディオ・データを受領する段階であって、前記メタデータは前記少なくとも一つのオーディオのサイズに関係するデータを含む、段階と；
前記メタデータのフラグに基づいて、前記少なくとも一つのオーディオ・オブジェクトのサイズがある閾値サイズより大きいことを判別する段階と；
前記少なくとも一つのオーディオ・オブジェクトに対して脱相関を実行して、脱相関されたオーディオ・オブジェクト・オーディオ信号を決定する段階と；
前記脱相関されたオーディオ・オブジェクト・オーディオ信号を少なくとも前記少なくとも一つのオーディオ・オブジェクトについてのオーディオ信号と混合して、レンダリングのための混合オーディオ信号を決定する段階とを含む、
方法。
前記少なくとも一つのオーディオ・オブジェクトが少なくとも一つのオブジェクト位置に関連付けられており、前記少なくとも一つのオブジェクト位置のうち少なくとも一つは静的である、請求項１記載の方法。
前記少なくとも一つのオーディオ・オブジェクトが少なくとも一つのオブジェクト位置に関連付けられており、前記少なくとも一つのオブジェクト位置のうち少なくとも一つは時間とともに変化する、請求項１記載の方法。
実際の再生スピーカー配位が、前記混合オーディオ信号を再生環境のスピーカーにレンダリングするために使われる、請求項１記載の方法。
前記脱相関されたオーディオ・オブジェクト・オーディオ信号にレベル調整プロセスを適用する段階をさらに含む、請求項１記載の方法。
脱相関を実行することが、遅延およびフィルタのうちの少なくとも一方を含む、請求項１記載の方法。
脱相関を実行することが、全域通過フィルタおよび擬似ランダム・フィルタのうちの少なくとも一方を含む、請求項１記載の方法。
脱相関を実行することが、残響プロセスを含む、請求項１記載の方法。
前記混合オーディオ信号を仮想スピーカー位置に従ってレンダリングすることをさらに含む、請求項１記載の方法。
インターフェース・システムと；
論理システムとを有する装置であって、前記論理システムは：
前記インターフェース・システムを介して、少なくとも一つのオーディオ・オブジェクトおよび該少なくとも一つのオーディオ・オブジェクトに関連するメタデータを含むオーディオ・データを受領する段階であって、前記メタデータは、前記少なくとも一つのオーディオのサイズに関係するデータを含む、段階と；
前記メタデータのフラグに基づいて、前記少なくとも一つのオーディオ・オブジェクトのサイズがある閾値サイズより大きいことを判別する段階と；
前記少なくとも一つのオーディオ・オブジェクトに対して脱相関を実行して、脱相関されたオーディオ・オブジェクト・オーディオ信号を決定する段階と；
前記脱相関されたオーディオ・オブジェクト・オーディオ信号を少なくとも前記少なくとも一つのオーディオ・オブジェクトについてのオーディオ信号と混合して、レンダリングのための混合オーディオ信号を決定する段階とを実行するよう構成されている、
装置。
前記少なくとも一つのオーディオ・オブジェクトが少なくとも一つのオブジェクト位置に関連付けられており、前記少なくとも一つのオブジェクト位置のうち少なくとも一つは静的である、請求項１０記載の装置。
前記少なくとも一つのオーディオ・オブジェクトが少なくとも一つのオブジェクト位置に関連付けられており、前記少なくとも一つのオブジェクト位置のうち少なくとも一つは時間とともに変化する、請求項１０記載の装置。
実際の再生スピーカー配位が、前記混合オーディオ信号を再生環境のスピーカーにレンダリングするために使われる、請求項１０記載の装置。
前記論理システムがさらに：
前記脱相関されたオーディオ・オブジェクト・オーディオ信号にレベル調整プロセスを適用するよう構成されている、
請求項１０記載の装置。
脱相関を実行することが、遅延およびフィルタのうちの少なくとも一方を含む、請求項１０記載の装置。
脱相関を実行することが、全域通過フィルタおよび擬似ランダム・フィルタのうちの少なくとも一方を含む、請求項１０記載の装置。
前記論理システムがさらに：
前記混合オーディオ信号を仮想スピーカー位置に従ってレンダリングするよう構成されている、
請求項１０記載の装置。
ソフトウェアが記憶されている非一時的な媒体であって、前記ソフトウェアは、少なくとも一つの装置を制御して：
少なくとも一つのオーディオ・オブジェクトおよび該少なくとも一つのオーディオ・オブジェクトに関連するメタデータを含むオーディオ・データを受領する段階であって、前記メタデータは前記少なくとも一つのオーディオのサイズに関係するデータを含む、段階と；
前記メタデータのフラグに基づいて、前記少なくとも一つのオーディオ・オブジェクトのサイズがある閾値サイズより大きいことを判別する段階と；
前記少なくとも一つのオーディオ・オブジェクトに対して脱相関を実行して、脱相関されたオーディオ・オブジェクト・オーディオ信号を決定する段階と；
前記脱相関されたオーディオ・オブジェクト・オーディオ信号を少なくとも前記少なくとも一つのオーディオ・オブジェクトについてのオーディオ信号と混合して、レンダリングのための混合オーディオ信号を決定する段階とを実行させるための命令を含む、
非一時的な媒体。