JP6190947B2

JP6190947B2 - オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化

Info

Publication number: JP6190947B2
Application number: JP2016513405A
Authority: JP
Inventors: プルンハーゲン，ヘイコ; クヨーリング，クリストファー; ヒルヴォーネン，トニ; ヴィレモーズ，ラルス; ジェローエンブリーバート，ディルク; ヨナスサミュエルソン，レイフ
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2013-05-24
Filing date: 2014-05-23
Publication date: 2017-08-30
Anticipated expiration: 2034-05-23
Also published as: CN105229732B; US9892737B2; KR101760248B1; BR112015029129A2; ES2640815T3; EP3005356A1; US20160125887A1; BR112015029129B1; CN105229732A; RU2015150055A; WO2014187990A1; RU2630754C2; BR122020017144B1; JP2016522911A; EP3005356B1; KR20160003058A; HK1213685A1

Description

関連出願への相互参照
本願は2013年5月24日に出願された米国仮特許出願第61/827,246号、2013年10月21日に出願された米国仮特許出願第61/827,246号、2014年4月1日に出願された米国仮特許出願第61/973,623号の出願日の利益を主張するものであり、そのそれぞれはここにその全体において参照によって組み込まれる。

技術分野
本開示は概括的にはオーディオ・オブジェクトを含むオーディオ・シーンの符号化に関する。詳細には、オーディオ・オブジェクトのエンコードおよびデコードのためのエンコーダ、デコーダおよび関連する方法に関する。

オーディオ・シーンは一般にオーディオ・オブジェクトおよびオーディオ・チャネルを含む。オーディオ・オブジェクトは、時間とともに変わりうる関連付けられた空間位置をもつオーディオ信号である。オーディオ・チャネルは、三つの前方スピーカー、二つのサラウンド・スピーカーおよび低域効果スピーカーをもついわゆる5.1スピーカー配位のようなマルチチャネル・スピーカー配位のチャネルに直接対応するオーディオ信号である。

オーディオ・オブジェクトの数は典型的には非常に多い、たとえば数百個のオーディオ・オブジェクトのオーダーであることがあるので、オーディオ・オブジェクトがデコーダ側で効率的に再構築されることを許容する符号化方法が必要とされている。オーディオ・オブジェクトをエンコーダ側でマルチチャネル・ダウンミックスに（すなわち、5.1配位のようなある種のマルチチャネル・スピーカー配位のチャネルに対応する複数のオーディオ・チャネルに）組み合わせて、デコーダ側で該マルチチャネル・ダウンミックスからパラメトリックにオーディオ・オブジェクトを再構成する提案がされている。

そのようなアプローチの利点は、オーディオ・オブジェクト再構成をサポートしないレガシー・デコーダがマルチチャネル・ダウンミックスを直接、マルチチャネル・スピーカー配位での再生のために使用しうるということである。例として、5.1ダウンミックスは、5.1配位のラウドスピーカーで直接再生されうる。

だが、このアプローチの欠点は、マルチチャネル・ダウンミックスがデコーダ側でオーディオ・オブジェクトの十分良好な再構成を与えないことがあるということである。たとえば、5.1配位の左前方スピーカーと同じ水平位置をもつが垂直位置は異なる二つのオーディオ・オブジェクトを考える。これらのオブジェクトは典型的には5.1ダウンミックスの同じチャネルに組み合わされる。これは、同じダウンミックス・チャネルから二つのオーディオ・オブジェクトの近似を再構成する必要があるデコーダ側でのオーディオ・オブジェクト再構成にとっては困難な状況をなす。このプロセスは完璧な再構成を保証できず、時には耳に聞こえるアーチファクトにつながることさえある。

このように、オーディオ・オブジェクトの効率的かつ改善された再構成を提供するエンコード／デコード方法が必要とされている。

たとえばダウンミックスからのオーディオ・オブジェクトの再構成の際、しばしばサイド情報またはメタデータが用いられる。そのようなサイド情報の形および内容はたとえば再構成されるオーディオ・オブジェクトの忠実さおよび／または再構成の実行の計算量に影響する。したがって、再構成されるオーディオ・オブジェクトの忠実さを高めることを許容するおよび／または再構成の計算量を軽減することを許容する新しい、代替的なサイド情報フォーマットをもつエンコード／デコード方法を提供することが望ましい。

ここで例示的な実施形態について付属の図面を参照して述べる。
例示的な実施形態に基づくエンコーダの概略図である。例示的な実施形態に基づくオーディオ・オブジェクトの再構成をサポートするデコーダの概略図である。例示的な実施形態に基づくオーディオ・オブジェクトの再構成をサポートしない低計算量デコーダの概略図である。例示的な実施形態に基づくオーディオ・シーンの単純化のための逐次的に配列されたクラスタリング・コンポーネントを有するエンコーダの概略図である。例示的な実施形態に基づくオーディオ・シーンの単純化のための並列に配置されたクラスタリング・コンポーネントを有するエンコーダの概略図である。メタデータ・インスタンスのセットのためのレンダリング行列を計算する典型的な既知のプロセスを示す図である。オーディオ信号のレンダリングにおいて用いられる係数曲線の導出を示す図である。ある例示的な実施形態に基づくメタデータ・インスタンス補間方法を示す図である。例示的な実施形態に基づく追加的なメタデータ・インスタンスの導入の例を示す図である。例示的な実施形態に基づく追加的なメタデータ・インスタンスの導入の例を示す図である。ある例示的な実施形態に基づく、低域通過フィルタをもつサンプルホールド回路を使う補間方法を示す図である。すべての図面は概略的であり、一般に、本開示を明快にするために必要な部分を示すのみである。一方、他の部分は省略されたり示唆されるだけであったりすることがある。特に断わりのない限り、同様の参照符号は異なる図面における同様の部分を指す。

上記に鑑み、オーディオ・オブジェクトの効率的な改善された再構成を許容するおよび／または再構成されるオーディオ・オブジェクトの忠実さを高めることを許容するおよび／または再構成の計算量を軽減することを許容するエンコーダ、デコーダおよび関連する方法を提供することが目的である。

〈Ｉ．概観――エンコーダ〉
第一の側面によれば、オーディオ・オブジェクトをエンコードするためのエンコード方法、エンコーダおよびコンピュータ・プログラム・プロダクトが提供される。

例示的な実施形態によれば、オーディオ・オブジェクトをデータ・ストリームにエンコードする方法であって：
N＞1であるとして、N個のオーディオ・オブジェクトを受領する段階と；
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算する段階と；
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算する段階と；
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、方法が提供される。

上記の構成では、M個のダウンミックス信号は、いかなるラウドスピーカー配位とも独立にN個のオーディオ・オブジェクトから形成される。これは、M個のダウンミックス信号が、M個のチャネルをもつスピーカー配位のチャネルでの再生に好適なオーディオ信号に制約されないことを含意する。その代わり、M個のダウンミックス信号は、たとえばN個のオーディオ・オブジェクトのダイナミクスに適応し、デコーダ側でのオーディオ・オブジェクトの再構成を改善するようある基準に従ってより自由に選択されうる。

5.1配位の左前方スピーカーと同じ水平位置をもつが垂直位置は異なる二つのオーディオ・オブジェクトをもつ例に戻ると、提案される方法は、第一のオーディオ・オブジェクトを第一のダウンミックス信号に入れ、第二のオーディオ・オブジェクトを第二のダウンミックス信号に入れることを許容する。これは、デコーダにおけるオーディオ・オブジェクトの完璧な再構成を可能にする。一般に、そのような完璧な再構成は、アクティブなオーディオ・オブジェクトの数がダウンミックス信号の数を超えない限り、可能である。アクティブなオーディオ・オブジェクトの数のほうが多い場合には、提案される方法は、デコーダにおいて再構成されたオーディオ・オブジェクトにおいて生じる可能な近似誤差が、再構成されたオーディオ・シーンに対して全く知覚的影響を与えないまたは可能な最小の知覚的影響を与えるように、同じダウンミックス信号に混合される必要のあるオーディオ・オブジェクトの選択を許容する。

M個のダウンミックス信号が適応的であることの第二の利点は、ある種のオーディオ・オブジェクトが他のオーディオ・オブジェクトと厳密に別個のままにしておくことができることである。たとえば、ダイアログが空間的属性に関して正確にレンダリングされ、デコーダにおけるオブジェクト処理を許容することを保証するために、任意のダイアログ・オブジェクトをバックグラウンド・オブジェクトと別個にしておくことが有利であることがある。オブジェクト処理はたとえば、了解性を改善するための、ダイアログ向上またはダイアログ・ラウドネスの増大である。他の応用（たとえばカラオケ）では、一つまたは複数のオブジェクトの完全なミュートを許容することが有利でありうる。これも、そのようなオブジェクトが他のオブジェクトと混合されないことを要求する。特定のスピーカー配位に対応するマルチチャネル・ダウンミックスを使う通常の方法は、他のオーディオ・オブジェクトとの混合中に存在するオーディオ・オブジェクトの完全なミュートは許容しない。

ダウンミックス信号という語は、ダウンミックス信号が他の信号の混合、すなわち組み合わせであることを反映している。単語「ダウン」は、ダウンミックス信号の数Mが典型的にはオーディオ・オブジェクトの数Nより少ないことを示す。

例示的な実施形態によれば、本方法は、さらに、各ダウンミックス信号を空間位置に関連付け、ダウンミックス信号の前記空間位置を前記データ・ストリーム中に前記ダウンミックス信号のためのメタデータとして含めることを含んでいてもよい。これは、レガシー再生システムの場合に低計算量のデコードが使用されることを許容するので有利である。より精密には、ダウンミックス信号に関連付けられたメタデータは、デコーダ側で、ダウンミックス信号を、レガシー再生システムのチャネルにレンダリングするために使われてもよい。

例示的な実施形態によれば、N個のオーディオ・オブジェクトは、該N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、ダウンミックス信号に関連付けられる空間位置はN個のオーディオ・オブジェクトの空間位置に基づいて計算される。よって、ダウンミックス信号は、N個のオーディオ・オブジェクトの空間位置に依存する空間位置をもつオーディオ・オブジェクトとして解釈されてもよい。

さらに、N個のオーディオ・オブジェクトの空間位置およびM個のダウンミックス信号に関連付けられた空間位置は時間変化してもよい。すなわち、オーディオ・フレームの時間フレームの間で変動してもよい。換言すれば、ダウンミックス信号は、時間フレームの間で変化する関連付けられた位置をもつ動的オーディオ・オブジェクトと解釈されてもよい。これは、ダウンミックス信号が固定した空間的なラウドスピーカー位置に対応する従来技術のシステムと対照的である。

典型的には、サイド情報も時間変化し、それによりオーディオ・オブジェクトの再構成を支配するパラメータが時間的に変化することを許容する。

エンコーダは、ダウンミックス信号の計算について異なる基準を適用してもよい。N個のオーディオ・オブジェクトがN個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられる例示的な実施形態によれば、M個のダウンミックス信号を計算するための前記基準は、N個のオーディオ・オブジェクトの空間的近接性に基づいていてもよい。たとえば、互いに近接しているオーディオ・オブジェクトは同じダウンミックス信号に組み合わされてもよい。

N個のオーディオ・オブジェクトに関連付けられたメタデータがさらに、N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含む例示的な実施形態によれば、M個のダウンミックス信号を計算するための前記基準はさらに、N個のオーディオ・オブジェクトの前記重要性値に基づいていてもよい。たとえば、N個のオーディオ・オブジェクトのうち最も重要なもの（単数または複数）はダウンミックス信号に直接マッピングされてもよく、一方、残りのオーディオ・オブジェクトは残りのダウンミックス信号を形成するために組み合わされる。

特に、例示的な実施形態によれば、M個のダウンミックス信号を計算する段階は、N個のオーディオ・オブジェクトの空間的近接性およびもし該当すれば重要性値に基づいてN個のオーディオ・オブジェクトをM個のクラスターと関連付け、各クラスターについてのダウンミックス信号を、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせを形成することによって計算することを含む第一のクラスタリング手順を含む。いくつかの場合には、オーディオ・オブジェクトは高々一つのクラスターの一部をなしうる。他の場合には、オーディオ・オブジェクトはいくつかのクラスターの一部をなしてもよい。このようにして、オーディオ・オブジェクトから種々のグループ、すなわちクラスターが形成される。各クラスターは、ダウンミックス信号によって表わされることができ、該ダウンミックス信号はオーディオ・オブジェクトと考えられてもよい。このクラスタリング・アプローチは、各ダウンミックス信号を、そのダウンミックス信号に対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される空間位置に関連付けることを許容する。この解釈では、第一のクラスタリング手順は、このように、N個のオーディオ・オブジェクトの次元をM個のオーディオ・オブジェクトに、柔軟な仕方で低減する。

各ダウンミックス信号に関連付けられた空間位置はたとえば、そのダウンミックス信号に対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置の重心または重み付けされた重心として計算されてもよい。重みはたとえば、オーディオ・オブジェクトの重要性値に基づいていてもよい。

例示的な実施形態によれば、N個のオーディオ・オブジェクトは、N個のオーディオ・オブジェクトの空間位置を入力としてもつK平均アルゴリズムを適用することによって、M個のクラスターに関連付けられる。

オーディオ・シーンは、膨大な数のオーディオ・オブジェクトを有することがあるので、本方法は、オーディオ・シーンの次元を減らし、それによりオーディオ・オブジェクトを再構成するときのデコーダ側での計算量を低減するためのさらなる策を講じてもよい。特に、本方法はさらに、第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすための第二のクラスタリング手順を有していてもよい。

ある実施形態によれば、第二のクラスタリング手順は、M個のダウンミックス信号の計算に先立って実行される。よって、その実施形態では、第一の複数のオーディオ・オブジェクトはオーディオ・シーンのもとのオーディオ・オブジェクトに対応し、第二の、低減した複数のオーディオ・オブジェクトは、M個のダウンミックス信号が計算されるベースとなるN個のオーディオ・オブジェクトに対応する。さらに、そのような実施形態では、N個のオーディオ・オブジェクトに基づいて形成された（デコーダにおいて再構成されるべき）前記一組のオーディオ・オブジェクトは、N個のオーディオ・オブジェクトに対応する、すなわち等しい。

もう一つの実施形態によれば、第二のクラスタリング手順は、M個のダウンミックス信号の計算と並列に実行される。そのような実施形態では、M個のダウンミックス信号が計算されるベースとなるN個のオーディオ・オブジェクトも第二のクラスタリング手順に入力される前記第一の複数のオーディオ・オブジェクトも、オーディオ・シーンのもとのオーディオ・オブジェクトに対応する。さらに、そのような実施形態では、N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクト（デコーダにおいて再構成されるもの）は、前記第二の複数のオーディオ・オブジェクトに対応する。よって、このアプローチでは、M個のダウンミックス信号は、低減した数のオーディオ・オブジェクトに基づいてではなく、オーディオ・シーンのもとのオーディオ・オブジェクトに基づいて計算される。

例示的な実施形態によれば、第二のクラスタリング手順は：
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と；
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と；
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と；
前記第二の複数のオーディオ・オブジェクトについての空間位置を含むメタデータを計算する段階であって、前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置が、対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される、段階と；
前記第二の複数のオーディオ・オブジェクトについてのメタデータを前記データ・ストリーム中に含める段階とを含む。

換言すれば、第二のクラスタリング手順は、等しいまたは非常に近い位置をもつオブジェクトのような、オーディオ・シーンに存在する空間的な冗長性を活用する。さらに、前記第二の複数のオーディオ・オブジェクトを生成するときに、オーディオ・オブジェクトの重要性値が考慮に入れられてもよい。

上述したように、オーディオ・シーンはオーディオ・チャネルを含んでいてもよい。そのようなオーディオ・チャネルは、静的な位置、すなわちオーディオ・チャネルに対応するラウドスピーカーの位置に関連付けられたオーディオ・オブジェクトと考えられてもよい。より詳細には、第二のクラスタリング手順はさらに：
少なくとも一つのオーディオ・チャネルを受領する段階と；
前記少なくとも一つのオーディオ・チャネルのそれぞれを、そのオーディオ・チャネルのラウドスピーカー位置に対応する静的な空間位置をもつオーディオ・オブジェクトに変換する段階と；
変換された少なくとも一つのオーディオ・チャネルを前記第一の複数のオーディオ・オブジェクトに含める段階とを含んでいてもよい。

このようにして、本方法は、オーディオ・チャネルもオーディオ・オブジェクトも含むオーディオ・シーンのエンコードを許容する。

例示的な実施形態によれば、例示的な実施形態に基づくデコード方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。

例示的な実施形態によれば、オーディオ・オブジェクトをデータ・ストリームにエンコードするためのエンコーダであって：
N＞1であるとして、N個のオーディオ・オブジェクトを受領するよう構成された受領コンポーネントと；
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算するよう構成されたダウンミックス・コンポーネントと；
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算するよう構成された解析コンポーネントと；
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有する、エンコーダが提供される。

〈ＩＩ．概観――デコーダ〉
第二の側面によれば、マルチチャネル・オーディオ・コンテンツをデコードするためのデコード方法、デコーダおよびコンピュータ・プログラム・プロダクトが提供される。

第二の側面は、一般に第一の側面と同じ特徴および利点をもちうる。

例示的な実施形態によれば、エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダにおける方法であって：
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領する段階と；
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階とを含む、方法が提供される。

例示的な実施形態によれば、前記データ・ストリームはさらに、前記M個のダウンミックス信号に関連付けられた空間位置を含む前記M個のダウンミックス信号についてのメタデータを含み、当該方法はさらに：
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されている場合には、前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する前記段階を実行し、
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されていない場合には、前記M個のダウンミックス信号についての前記メタデータを、前記M個のダウンミックス信号を再生システムの出力チャネルにレンダリングするために使うことを含む。

例示的な実施形態によれば、前記M個のダウンミックス信号に関連付けられた空間位置は時間変化する。

例示的な実施形態によれば、前記サイド情報は時間変化する。

例示的な実施形態によれば、前記データ・ストリームはさらに、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの空間位置を含む、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトについてのメタデータを含み、当該方法はさらに、
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての前記メタデータを、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、再生システムの出力チャネルにレンダリングするために使うことを含む。

例示的な実施形態によれば、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトに等しい。

例示的な実施形態によれば、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの組み合わせである複数のオーディオ・オブジェクトを含み、その数はNより少ない。

例示的な実施形態によれば、エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダであって：
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領するよう構成された受領コンポーネントと；
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成するよう構成された再構成コンポーネントとを有する、デコーダが提供される。

〈ＩＩＩ．概観――サイド情報およびメタデータについてのフォーマット〉
第三の側面によれば、オーディオ・オブジェクトをエンコードするためのエンコード方法、エンコーダおよびコンピュータ・プログラム・プロダクトが提供される。

第三の側面に基づく方法、エンコーダおよびコンピュータ・プログラム・プロダクトは一般に、第一の側面に基づく方法、エンコーダおよびコンピュータ・プログラム・プロダクトと共通する特徴および利点をもちうる。

例示的な実施形態によれば、オーディオ・オブジェクトをデータ・ストリームとしてエンコードする方法であって：
N＞1であるとして、N個のオーディオ・オブジェクトを受領する段階と；
M≦Nであるとして、前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算する段階と；
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変のサイド情報を計算する段階と；
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、方法が提供される。

本例示的実施形態では、本方法はさらに、前記データ・ストリーム中に：
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンスと；
各サイド情報インスタンスについての、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含めることを含む。

本例示的実施形態では、前記サイド情報は時間可変である、たとえば時間変化し、オーディオ・オブジェクトの前記再構成を支配するパラメータが時間的に変化することを許容する。このことは、前記の諸サイド情報インスタンスの存在によって反映される。現在の再構成設定からそれぞれの所望される再構成設定への遷移を開始する時点および完了する時点を定義する遷移データを含むサイド情報フォーマットを用いることによって、現在の再構成設定と単一のサイド情報インスタンスによって指定される単一の所望される再構成設定とに基づいて、すなわち他のいかなるサイド情報インスタンスの知識もなしに、補間が実行されうるという意味で、サイド情報インスタンスどうしが互いにより独立にされる。

したがって、提供されるサイド情報フォーマットは、既存のサイド情報インスタンスどうしの間の追加的なサイド情報インスタンスの計算／導入を容易にする。特に、提供されるサイド情報フォーマットは、再生品質に影響することなく、追加的なサイド情報インスタンスの計算／導入を許容する。本開示では、既存のサイド情報インスタンスどうしの間の新たなサイド情報インスタンスを計算／導入するプロセスは、サイド情報の「再サンプリング」と称される。サイド情報の再サンプリングはしばしば、ある種のオーディオ処理タスクの間に必要とされる。たとえば、オーディオ・コンテンツがたとえばカット／マージ／混合によって編集されるとき、そのような編集はサイド情報インスタンスの間で生起することがある。この場合、サイド情報の再サンプリングが必要とされることがある。もう一つのそのような事例は、オーディオ信号および関連付けられたサイド情報がフレーム・ベースのオーディオ・コーデックを用いてエンコードされるときである。この場合、伝送の際のフレーム損失の耐性を改善するために、各オーディオ・コーデック・フレームについて、好ましくはそのコーデック・フレームの先頭のタイムスタンプをもつ、少なくとも一つのサイド情報インスタンスをもつことが望ましい。たとえば、オーディオ信号／オブジェクトは、ビデオ・コンテンツを含むオーディオビジュアル信号またはマルチメディア信号の一部であってもよい。そのような用途では、オーディオ・コンテンツのフレーム・レートを、ビデオ・コンテンツのフレーム・レートに一致するよう修正することが望ましいことがある。それにより、サイド情報の対応する再サンプリングが望ましいことがありうる。

ダウンミックス信号およびサイド情報が含められるデータ・ストリームは、たとえば、ビットストリーム、特に記憶されるまたは伝送されるビットストリームであってもよい。

前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算するというのは、M個のダウンミックス信号のそれぞれが、前記N個のオーディオ・オブジェクトの一つまたは複数のオーディオ内容の組み合わせ、たとえば線形結合を形成することによって得られることを意味する。換言すれば、N個のオーディオ・オブジェクトのそれぞれが必ずM個のダウンミックス信号のそれぞれに寄与する必要はない。

ダウンミックス信号という語は、ダウンミックス信号が他の信号の混合、すなわち組み合わせであることを反映している。ダウンミックス信号はたとえば、他の信号の加法的混合であってもよい。単語「ダウン」は、ダウンミックス信号の数Mが典型的にはオーディオ・オブジェクトの数Nより少ないことを示す。

ダウンミックス信号は、たとえば、前記第一の側面内の例示的実施形態の任意のものに基づいて、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ信号の組み合わせを形成することによって計算されてもよい。あるいはまた、ダウンミックス信号は、ダウンミックス信号がM個のチャネルをもつスピーカー配位のチャネル上での再生のために好適であるように前記N個のオーディオ信号の組み合わせを形成することによって計算されてもよい。この後者は本稿では後方互換なダウンミックスと称される。

二つの独立に割り当て可能な部分を含む遷移データというのは、それら二つの部分が互いに独立に割り当て可能である、すなわち互いとは独立に割り当てられてもよいことが意図されている。しかしながら、遷移データのそれらの部分がたとえばメタデータのサイド情報の他の型についての遷移データの部分と一致してもよいことは理解される。

本例示的実施形態では、遷移データの二つの独立に割り当て可能な部分は、組み合わさって、遷移を開始する時点および遷移を完了する時点を定義する。すなわち、これら二つの時点は、遷移データの前記二つの独立に割り当て可能な部分から導出可能である。

ある例示的実施形態によれば、本方法はさらに、第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすためのクラスタリング手順を含んでいてもよい。ここで、前記N個のオーディオ・オブジェクトは、前記第一の複数のオーディオ・オブジェクトまたは前記第二の複数のオーディオ・オブジェクトをなす。前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記第二の複数のオーディオ・オブジェクトに一致する。本例示的実施形態では、クラスタリング手順は：
前記第二の複数のオーディオ・オブジェクトについての空間位置を含む時間可変なクラスター・メタデータを計算する段階と；
前記デコーダに伝送するために、前記データ・ストリーム中に：
第二の組のオーディオ・オブジェクトをレンダリングするためのそれぞれの所望されるレンダリング設定を指定する複数のクラスター・メタデータ・インスタンスと；
各クラスター・メタデータ・インスタンスについての、現在のレンダリング設定から、そのクラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始する時点およびそのクラスター・メタデータ・インスタンスによって指定される前記所望されるレンダリング設定への前記遷移を完了する時点を、組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含める段階とを含む。

オーディオ・シーンは、膨大な数のオーディオ・オブジェクトを有することがあるので、本方法は、前記第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすことによってオーディオ・シーンの次元を減らすためのさらなる策を講じてもよい。本例示的実施形態では、前記N個のオーディオ・オブジェクトに基づいて形成され、前記ダウンミックス信号および前記サイド情報に基づいてデコーダ側で再構成される前記一組のオーディオ・オブジェクトは、前記第二の複数のオーディオ・オブジェクトと一致する。該第二の複数のオーディオ・オブジェクトは、前記第一の複数のオーディオ信号によって表わされるオーディオ・シーンの簡略化および／またはより低次元の表現に対応し、デコーダ側での再構成のための計算量が軽減される。

前記クラスター・メタデータを前記データ・ストリームに含めることは、たとえば前記ダウンミックス信号および前記サイド情報に基づいて前記第二の組のオーディオ信号が再構成されたあとに、デコーダ側での前記第二の組のオーディオ信号のレンダリングを許容する。

前記サイド情報と同様に、本例示的実施形態における前記クラスター・メタデータは時間可変である、たとえば時間変化し、前記第二の複数のオーディオ・オブジェクトの前記レンダリングを支配するパラメータが時間的に変化することを許容する。前記ダウンミックス・メタデータについてのフォーマットは、前記サイド情報についてと同様であってもよく、同じまたは対応する利点を有していてもよい。特に、本例示的実施形態において提供されるクラスター・メタデータの形は、クラスター・メタデータの再サンプリングを容易にする。クラスター・メタデータの再サンプリングは、たとえば、前記クラスター・メタデータおよび前記サイド情報に関連するそれぞれの遷移を開始および完了する共通の時点を提供するために、および／または前記クラスター・メタデータを、関連付けられたオーディオ信号のフレーム・レートに調整するために用いられてもよい。

ある例示的実施形態によれば、前記クラスタリング手順はさらに：
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と；
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と；
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と；
前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置を、それぞれのクラスターに関連付けられた、すなわちそのオーディオ・オブジェクトが代表するクラスターに関連付けられた諸オーディオ・オブジェクトの空間位置に基づいて計算する段階とを含む。

換言すれば、このクラスタリング手順は、等しいまたは非常に近い位置をもつオブジェクトのような、オーディオ・シーンに存在する空間的な冗長性を活用する。さらに、前記第二の複数のオーディオ・オブジェクトを生成するときに、オーディオ・オブジェクトの重要性値が考慮に入れられてもよい。これについては上記第一の側面における例示的実施形態との関連で述べた。

前記第一の複数のオーディオ・オブジェクトを少なくとも一つのクラスターと関連付けることは、前記第一の複数のオーディオ・オブジェクトのそれぞれを前記少なくとも一つのクラスターのうちの一つまたは複数と関連付けることを含む。いくつかの場合には、オーディオ・オブジェクトは高々一つのクラスターの一部をなしうる。他の場合には、オーディオ・オブジェクトはクラスタリング手順の一部としていくつかのクラスターの間で分割されてもよい。

前記第一の複数のオーディオ・オブジェクトの空間的近接性は、前記第一の複数のオーディオ・オブジェクトのうちのそれぞれのオーディオ・オブジェクトの間の距離および／またはそれらの相対位置に関係していてもよい。たとえば、互いに近いオーディオ・オブジェクトは、同じクラスターと関連付けられてもよい。

オーディオ・オブジェクトが、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるとは、そのオーディオ・オブジェクトに関連付けられたオーディオ・コンテンツ／信号が、そのクラスターに関連付けられたそれぞれのオーディオ・オブジェクトに関連付けられたオーディオ・コンテンツ／信号の組み合わせとして形成されうることを意味する。

ある例示的な実施形態によれば、それぞれのクラスター・メタデータ・インスタンスのために遷移データによって定義されるそれぞれの時点は、対応するサイド情報インスタンスのために遷移データによって定義されるそれぞれの時点と一致してもよい。

サイド情報およびクラスター・メタデータに関連付けられる遷移を開始および完了するのに同じ時点を用いることにより、サイド情報およびクラスター・メタデータの、合同再サンプリングのような合同処理が容易にされる。

さらに、サイド情報およびクラスター・メタデータに関連付けられる遷移を開始および完了するのに同じ時点を使うことは、デコーダ側での合同再構成およびレンダリングを容易にする。たとえば、再構成およびレンダリングがデコーダ側で合同動作として実行される場合、再構成およびレンダリングのための合同設定が、それぞれのサイド情報インスタンスおよびメタデータ・インスタンスについて決定されうるおよび／または再構成およびレンダリングのための合同設定の間の補間が、それぞれの設定について別個に補間を実行する代わりに用いられうる。そのような合同補間は、補間する必要のある係数／パラメータが少なくなるので、デコーダ側での計算量を減らしうる。

ある例示的な実施形態によれば、クラスタリング手順は、M個のダウンミックス信号の計算に先立って実行されてもよい。本例示的実施形態では、前記第一の複数のオーディオ・オブジェクトはオーディオ・シーンのもとのオーディオ・オブジェクトに対応し、前記M個のダウンミックス信号が計算されるベースとなるN個のオーディオ・オブジェクトは前記第二の、低減した複数のオーディオ・オブジェクトをなす。よって、本例示的実施形態では、N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクト（デコーダで再構成されるもの）は、前記N個のオーディオ・オブジェクトと一致する。

あるいはまた、クラスタリング手順は、M個のダウンミックス信号の計算と並列に実行されてもよい。本代替的実施形態によれば、M個のダウンミックス信号が計算されるベースとなるN個のオーディオ・オブジェクトは、オーディオ・シーンのもとのオーディオ・オブジェクトに対応する前記第一の複数のオーディオ・オブジェクトをなす。よって、このアプローチでは、M個のダウンミックス信号は、低減した数のオーディオ・オブジェクトに基づいてではなく、オーディオ・シーンのもとのオーディオ・オブジェクトに基づいて計算される。

ある例示的な実施形態によれば、本方法はさらに：
各ダウンミックス信号を、前記ダウンミックス信号をレンダリングするための時間可変な空間位置に関連付ける段階と；
前記ダウンミックス信号の前記空間位置を含むダウンミックス・メタデータを前記データ・ストリームにさらに含める段階とを含み、
当該方法はさらに、前記データ・ストリームに：
前記ダウンミックス信号をレンダリングするためのそれぞれの所望されるダウンミックス・レンダリング設定を指定する複数のダウンミックス・メタデータ・インスタンスと；
各ダウンミックス・メタデータ・インスタンスについての、現在のダウンミックス・レンダリング設定から、そのダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を開始する時点および前記ダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含めることを含む。

ダウンミックス・メタデータを前記データ・ストリームに含めることは、レガシー再生設備の場合に低計算量のデコードが使用されることを許容する点で有利である。より正確には、ダウンミックス・メタデータは、ダウンミックス信号をレガシー再生システムのチャネルにレンダリングするために、デコーダ側で使用されうる。すなわち、典型的には計算的により複雑な動作であるN個のオブジェクトに基づいて形成された前記複数のオーディオ・オブジェクトを再構成することがない。

本例示的実施形態によれば、M個のダウンミックス信号に関連付けられた空間位置は時間可変である、たとえば時間変化してもよく、ダウンミックス信号は、時間フレームまたはダウンミックス・メタデータ・インスタンスの間で変化しうる関連付けられた位置をもつ動的オーディオ・オブジェクトと解釈されてもよい。これは、ダウンミックス信号が固定した空間的なラウドスピーカー位置に対応する従来技術のシステムと対照的である。より進化した機能をもつデコード・システムでは、同じデータ・ストリームが、オブジェクト指向の仕方で再生されうることが想起される。

いくつかの例示的実施形態では、N個のオーディオ・オブジェクトは、N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられていてもよく、ダウンミックス信号に関連付けられた空間位置はたとえば、N個のオーディオ・オブジェクトの空間位置に基づいて計算されてもよい。このように、ダウンミックス信号は、N個のオーディオ・オブジェクトの空間位置に依存する空間位置をもつオーディオ・オブジェクトと解釈されてもよい。

ある例示的実施形態によれば、それぞれのダウンミックス・メタデータ・インスタンスについての遷移データによって定義されるそれぞれの時点は、対応するサイド情報インスタンスについての遷移データによって定義されるそれぞれの時点と一致してもよい。サイド情報およびダウンミックス・メタデータに関連付けられる遷移を開始および完了するのに同じ時点を用いることにより、サイド情報およびダウンミックス・メタデータの合同処理、たとえば再サンプリングが容易になる。

ある例示的実施形態によれば、それぞれのダウンミックス・メタデータ・インスタンスについての遷移データによって定義されるそれぞれの時点は、対応するクラスター・メタデータ・インスタンスについての遷移データによって定義されるそれぞれの時点と一致してもよい。クラスター・メタデータおよびダウンミックス・メタデータに関連付けられる遷移を開始および終了するのに同じ時点を用いることにより、クラスター・メタデータおよびダウンミックス・メタデータの合同処理、たとえば再サンプリングが容易になる。

例示的な実施形態によれば、N＞1として、N個のオーディオ・オブジェクトをデータ・ストリームとしてエンコードするエンコーダが提供される。本エンコーダは：
M≦Nであるとして、前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算するよう構成されているダウンミックス・コンポーネントと；
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変のサイド情報を計算するよう構成されている解析コンポーネントと；
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有しており、
前記多重化コンポーネントは、前記デコーダへの伝送のために、前記データ・ストリーム中に：
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンスと；
各サイド情報インスタンスについての、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含めるよう構成される。

第四の側面によれば、マルチチャネル・オーディオ・コンテンツをデコードするためのデコード方法、デコーダおよびコンピュータ・プログラム・プロダクトが提供される。

第四の側面に基づく方法、デコーダおよびコンピュータ・プログラム・プロダクトは、第三の側面に基づく方法、エンコーダおよびコンピュータ・プログラム・プロダクトと協働することが意図されており、対応する特徴および利点をもちうる。

第四の側面に基づく方法、デコーダおよびコンピュータ・プログラム・プロダクトは、一般に、第二の側面に基づく方法、デコーダおよびコンピュータ・プログラム・プロダクトと共通の特徴および利点をもちうる。

例示的な実施形態によれば、データ・ストリームに基づいてオーディオ・オブジェクトを再構成する方法であって：
N＞1およびM≦Nであるとして、N個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変なサイド情報とを含むデータ・ストリームを受領する段階と；
前記M個のダウンミックス信号および前記サイド情報に基づいて、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階とを含み、
前記データ・ストリームは、複数のサイド情報インスタンスを含み、前記データ・ストリームはさらに、各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含み、
前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階は：
現在の再構成設定に従って再構成を実行し；
あるサイド情報インスタンスについての遷移データによって定義される時点において、前記現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始し；
そのサイド情報インスタンスについての前記遷移データによって定義される時点において前記遷移を完了することを含む。

上記のように、現在の再構成設定からそれぞれの所望される再構成設定への遷移を開始する時点および完了する時点を定義する遷移データを含むサイド情報フォーマットを用いることにより、たとえばサイド情報の再サンプリングが容易になる。

データ・ストリームは、たとえば、エンコーダ側で生成されたビットストリームの形で受領されてもよい。

前記M個のダウンミックス信号および前記サイド情報に基づいて、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階は、たとえば、サイド情報に基づいて決定される係数を用いてダウンミックス信号の少なくとも一つの線形結合を形成することを含んでいてもよい。前記M個のダウンミックス信号および前記サイド情報に基づいて、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階は、たとえば、サイド情報に基づいて決定される係数を用いて、ダウンミックス信号および任意的には該ダウンミックス信号から導出される一つまたは複数の追加的な（たとえば脱相関された）信号の少なくとも一つの線形結合を形成することを含んでいてもよい。

ある例示的実施形態によれば、データ・ストリームはさらに、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての時間可変なクラスター・メタデータを含んでいてもよい。クラスター・メタデータは、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての空間位置を含む。データ・ストリームは、複数のクラスター・メタデータ・インスタンスを含んでいてもよく、データ・ストリームはさらに、各クラスター・メタデータ・インスタンスについて、現在のレンダリング設定から、そのクラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始する時点およびそのクラスター・メタデータ・インスタンスによって指定される前記所望されるレンダリング設定への前記遷移を完了する時点を、組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含んでいてもよい。

本方法はさらに：
前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、あらかじめ定義されたチャネル配位の出力チャネルにレンダリングするために前記クラスター・メタデータを使うことを含んでいてもよく、該レンダリングは：
現在のレンダリング設定に従ってレンダリングを実行し；
あるクラスター・メタデータ・インスタンスについての遷移データによって定義される時点において、前記現在のレンダリング設定から、そのクラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始し；
そのクラスター・メタデータ・インスタンスについての前記遷移データによって定義される時点において前記所望されるレンダリング設定への前記遷移を完了することを含む。

前記あらかじめ定義されたチャネル配位は、たとえば、特定の再生システムと互換な、すなわち特定の再生システムでの再生に好適な、出力チャネルの配位に対応してもよい。

前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、あらかじめ定義されたチャネル配位の出力チャネルにレンダリングすることは、たとえば、レンダラーにおいて、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、クラスター・メタデータの制御のもとでレンダラーの出力チャネル（のあらかじめ定義された配位）にマッピングすることを含んでいてもよい。

前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトをレンダリングすることは、たとえば、クラスター・メタデータに基づいて決定される係数を用いて、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトの線形結合を形成することを含んでいてもよい。

ある例示的実施形態によれば、それぞれのクラスター・メタデータ・インスタンスについての遷移データによって定義されるそれぞれの時点は、対応するサイド情報インスタンスについて前記遷移データによって定義されるそれぞれの時点と一致してもよい。

ある例示的実施形態によれば、本方法はさらに：
前記再構成の少なくとも一部および前記レンダリングの少なくとも一部を、それぞれ現在の再構成設定および現在のレンダリング設定に関連する再構成行列およびレンダリング行列の行列積として形成される第一の行列に対応する組み合わされた動作として実行し；
あるサイド情報インスタンスおよびあるクラスター・メタデータ・インスタンスについての遷移データによって定義される時点において、前記現在の再構成およびレンダリング設定から、それぞれそのサイド情報インスタンスおよびそのクラスター・メタデータ・インスタンスによって指定される所望される再構成設定およびレンダリング設定への組み合わされた遷移を開始し；
そのサイド情報インスタンスおよびそのクラスター・メタデータ・インスタンスについての前記遷移データによって定義される時点において前記組み合わされた遷移を完了することを含み、前記組み合わされた遷移は、前記第一の行列の行列要素と、それぞれ前記所望される再構成設定および前記所望されるレンダリング設定に関連する再構成行列およびレンダリング行列の行列積として形成される第二の行列の行列要素との間を補間することを含む。

再構成設定およびレンダリング設定の別個の遷移ではなく、上記の意味での組み合わされた遷移を実行することにより、より少数のパラメータ／係数を補間すればよくなり、計算量の低減が許容される。

本例示的実施形態において言及されるような再構成行列またはレンダリング行列のような行列は、たとえば、単一行または単一列からなっていてもよく、よってベクトルに対応していてもよいことは理解しておくものとする。

ダウンミックス信号からのオーディオ・オブジェクトの再構成はしばしば、異なる周波数帯域において異なる再構成行列を用いることによって実行される。一方、レンダリングはしばしば、すべての周波数について同じレンダリング行列を用いることによって実行される。そのような場合、再構成およびレンダリングの組み合わされた動作に対応する行列、たとえば本例示的実施形態において言及した上記第一および第二の行列は、典型的には周波数依存であってもよい。すなわち、異なる周波数帯域については、行列要素の異なる値が典型的には用いられてもよい。

ある例示的実施形態によれば、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトと一致してもよい。すなわち、本方法は、前記M個のダウンミックス信号および前記サイド情報に基づいて前記N個のオーディオ・オブジェクトを再構成することを含んでいてもよい。

あるいはまた、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの組み合わせである、N個より少ない複数のオーディオ・オブジェクトを含んでいてもよい。すなわち、本方法は、前記M個のダウンミックス信号および前記サイド情報に基づいて前記N個のオーディオ・オブジェクトのこれらの組み合わせを再構成することを含んでいてもよい。

ある例示的実施形態によれば、データ・ストリームはさらに、前記M個のダウンミックス信号に関連付けられた時間可変な空間位置を含む前記M個のダウンミックス信号についてのダウンミックス・メタデータを含んでいてもよい。データ・ストリームは、複数のダウンミックス・メタデータ・インスタンスを含んでいてもよく、データ・ストリームはさらに、各ダウンミックス・メタデータ・インスタンスについて、現在のダウンミックス・レンダリング設定から、そのダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を開始する時点およびそのダウンミックス・メタデータ・インスタンスによって指定される前記所望されるダウンミックス・レンダリング設定への前記遷移を完了する時点を、組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含んでいてもよい。

本方法はさらに：
デコーダがオーディオ・オブジェクト再構成をサポートするよう動作可能である（または構成されている）場合、再構成する段階を、前記M個のダウンミックス信号および前記サイド情報、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトに基づいて実行し；
デコーダがオーディオ・オブジェクト再構成をサポートするよう動作可能でない（または構成されていない）場合、前記ダウンミックス・メタデータおよび前記M個のダウンミックス信号を前記M個のダウンミックス信号のレンダリングのために出力することを含んでいてもよい。

デコーダがオーディオ・オブジェクト再構成をサポートするよう動作可能であり、データ・ストリームがさらに、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトに関連付けられたクラスター・メタデータをさらに含む場合、デコーダはたとえば、再構成された一組のオーディオ・オブジェクトのレンダリングのために、再構成された一組のオーディオ・オブジェクト、クラスター・メタデータを出力してもよい。

デコーダがオーディオ・オブジェクト再構成をサポートするよう動作可能でない場合には、たとえばサイド情報および該当するならクラスター・メタデータを破棄して、前記ダウンミックス・メタデータおよび前記M個のダウンミックス信号を出力として提供してもよい。その場合、出力は、レンダラーによって、前記M個のダウンミックス信号をレンダラーの出力チャネルにレンダリングするために用いられてもよい。

任意的に、本方法はさらに、前記ダウンミックス・メタデータに基づいて、あらかじめ定義された出力配位の出力チャネル、たとえばレンダラーの出力チャネルに、あるいはデコーダの出力チャネルに（デコーダがレンダリング機能をもつ場合）、前記M個のダウンミックス信号をレンダリングすることを含んでいてもよい。

例示的実施形態によれば、データ・ストリームに基づいてオーディオ・オブジェクトを再構成するデコーダが提供される。本デコーダは：
N＞1およびM≦Nであるとして、N個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変なサイド情報とを含むデータ・ストリームを受領するよう構成されている受領コンポーネントと；
前記M個のダウンミックス信号および前記サイド情報に基づいて、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成するよう構成されている再構成コンポーネントとを有し、
前記データ・ストリームは、関連する複数のサイド情報インスタンスを含み、前記データ・ストリームはさらに、各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含む。

再構成コンポーネントは、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成することを、少なくとも：
現在の再構成設定に従って再構成を実行し；
あるサイド情報インスタンスについての遷移データによって定義される時点において、前記現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始し；
そのサイド情報インスタンスについての前記遷移データによって定義される時点において前記遷移を完了することによって行なうよう構成されている。

ある例示的実施形態によれば、上記第三または第四の側面における方法はさらに、一つまたは複数の追加的なサイド情報インスタンスであって、該一つまたは複数の追加的なサイド情報インスタンスの直前または直後のサイド情報インスタンスと実質的に同じ再構成設定を指定するものを生成することを含んでいてもよい。同様の仕方で追加的なクラスター・メタデータ・インスタンスおよび／またはダウンミックス・メタデータ・インスタンスが生成される例示的実施形態も構想される。

上記のように、より多くのサイド情報インスタンスを生成することによる前記サイド情報の再サンプリングは、いくつかの状況において有利でありうる。たとえばオーディオ信号／オブジェクトおよび関連するサイド情報がフレーム・ベースのオーディオ・コーデックを使ってエンコードされるとき、各オーディオ・コーデック・フレームについて少なくとも一つのサイド情報インスタンスをもつことが望ましいので、そのような構成が有利でありうる。エンコーダ側では、解析コンポーネントによって提供されるサイド情報インスタンスは、たとえば、ダウンミックス・コンポーネントによって提供されるダウンミックス信号のフレーム・レートと一致しないような仕方で時間的に分布していることがありうる。よって、サイド情報は、ダウンミックス信号の各フレームについて少なくとも一つのサイド情報インスタンスがあるよう新たなサイド情報インスタンスを導入することによって、有利に再サンプリングされうる。同様に、デコーダ側では、受領されたサイド情報インスタンスは、たとえば、受領されたダウンミックス信号のフレーム・レートと一致しないような仕方で時間的に分布していることがありうるので、サイド情報は、ダウンミックス信号の各フレームについて少なくとも一つのサイド情報インスタンスがあるよう新たなサイド情報インスタンスを導入することによって、有利に再サンプリングされうる。

追加的なサイド情報インスタンスは、たとえば、選択された時点について：該追加的なサイド情報インスタンスの直後のサイド情報インスタンスをコピーし、選択された時点および前記直後のサイド情報インスタンスについての遷移データによって定義される時点に基づいてその追加的なサイド情報インスタンスについての遷移データを決定することによって、生成されてもよい。

第五の側面によれば、データ・ストリーム中でM個のオーディオ信号と一緒にエンコードされたサイド情報をトランスコードするための方法、装置およびコンピュータ・プログラム・プロダクトが提供される。

第五の側面に基づく方法、装置およびコンピュータ・プログラム・プロダクトは、第三および第四の側面に基づく方法、エンコーダ、デコーダおよびコンピュータ・プログラム・プロダクトと協働することが意図されており、対応する特徴および利点をもちうる。

例示的な実施形態によれば、データ・ストリームにおいてM個のオーディオ信号と一緒にエンコードされたサイド情報をトランスコードする方法が提供される。本方法は：
データ・ストリームを受領する段階と；
前記データ・ストリームから、M≧1として、M個のオーディオ信号と、前記M個のオーディオ信号からの、一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む、関連する時間可変なサイド情報とを抽出する段階であって、抽出されたサイド情報は：
前記オーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンス；および
各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含む、段階と；
一つまたは複数の追加的なサイド情報インスタンスであって、該一つまたは複数の追加的なサイド情報インスタンスの直前または直後のサイド情報インスタンスと実質的に同じ再構成設定を指定する追加的なサイド情報インスタンスを生成する段階と；
前記M個のオーディオ信号および前記サイド情報をデータ・ストリームに含める段階とを含む。

本例示的実施形態では、前記一つまたは複数の追加的なサイド情報インスタンスは、前記サイド情報が受領されたデータ・ストリームから抽出された後に生成されてもよく、生成された一つまたは複数の追加的なサイド情報インスタンスは次いで、前記M個のオーディオ信号および他のサイド情報インスタンスと一緒にデータ・ストリーム中に含められてもよい。

第三の側面に関連して上記したように、より多くのサイド情報インスタンスを生成することによるサイド情報の再サンプリングは、いくつかの状況において有利でありうる。たとえばオーディオ信号／オブジェクトおよび関連するサイド情報がフレーム・ベースのオーディオ・コーデックを使ってエンコードされるとき、各オーディオ・コーデック・フレームについて少なくとも一つのサイド情報インスタンスをもつことが望ましいので、そのような構成が有利でありうる。

データ・ストリームがさらに、第三および第四の側面との関係で述べたクラスター・メタデータおよび／またはダウンミックス・メタデータを含む実施形態も構想される。本方法はさらに、前記追加的なサイド情報インスタンスが生成される仕方と同様に、追加的なダウンミックス・メタデータ・インスタンスおよび／またはクラスター・メタデータ・インスタンスを生成することを含む。

ある例示的実施形態によれば、前記M個のオーディオ信号は、第一のフレーム・レートに従って、受領されたデータ・ストリーム中で符号化されていてもよく、本方法はさらに：
前記M個のオーディオ信号を処理して、前記M個のダウンミックス信号が符号化されているフレーム・レートを前記第一のフレーム・レートとは異なる第二のフレーム・レートに変える段階と；
少なくとも、前記一つまたは複数の追加的なサイド情報インスタンスを生成することによって、前記第二のフレーム・レートに一致するおよび／または前記第二のフレーム・レートと互換になるよう、前記サイド情報を再サンプリングする段階とを含んでいてもよい。

第三の側面との関係で上記したように、オーディオ信号を処理してオーディオ信号の符号化に使われるフレーム・レートを変える、たとえば修正されたフレーム・レートが、前記オーディオ信号が属するオーディオビジュアル信号のビデオ・コンテンツのフレーム・レートに一致するようにすることがいくつかの状況では有利でありうる。各サイド情報インスタンスについての遷移データの存在は、第三の側面との関係で上記したように、サイド情報の再サンプリングを容易にする。サイド情報は、たとえば、処理されたオーディオ信号の各フレームについて少なくとも一つのサイド情報インスタンスがあるよう、追加的なサイド情報インスタンスを生成することによって、新たなフレーム・レートに一致するよう再サンプリングされてもよい。

例示的実施形態によれば、データ・ストリームにおいてM個のオーディオ信号と一緒にエンコードされたサイド情報をトランスコードする装置が提供される。

本装置は：
データ・ストリームを受領し、前記データ・ストリームから、M≧1として、M個のオーディオ信号と、前記M個のオーディオ信号からの、一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む、関連する時間可変なサイド情報とを抽出するよう構成された受領コンポーネントを有しており、抽出されたサイド情報は：
前記オーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンス；および
各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含む。

本装置はさらに：
一つまたは複数の追加的なサイド情報インスタンスであって、該一つまたは複数の追加的なサイド情報インスタンスの直前または直後のサイド情報インスタンスと実質的に同じ再構成設定を指定する追加的なサイド情報インスタンスを生成するよう構成されている再サンプリング・コンポーネントと；
前記M個のオーディオ信号および前記サイド情報をデータ・ストリームに含めるよう構成されている多重化コンポーネントとを有する。

ある例示的実施形態によれば、第三、第四または第五の側面における方法は、さらに：第一のサイド情報インスタンスによって指定される第一の所望される再構成設定と、前記第一のサイド情報インスタンスの直後の一つまたは複数のサイド情報インスタンスによって指定される一つまたは複数の所望される再構成設定との間の差を計算し；計算された差があらかじめ定義された閾値より低いことに応答して前記一つまたは複数のサイド情報インスタンスを除去することを含んでいてもよい。クラスター・メタデータ・インスタンスおよび／またはダウンミックス・メタデータ・インスタンスが類似の仕方で除去される例示的実施形態も構想されている。

本例示的実施形態に基づいてサイド情報インスタンスを除去することにより、たとえばデコーダ側での再構成の際に、これらのサイド情報インスタンスに基づく無用な計算が回避されうる。あらかじめ定義された閾値を適切な（たとえば十分低い）レベルに設定することにより、再構成されたオーディオ信号の再生品質および／または忠実度は少なくとも近似的には維持されながらも、サイド情報インスタンスは除去されうる。

所望される再構成設定の間の差はたとえば、再構成の一部として用いられる一組の計数についてのそれぞれの値の間の差に基づいて計算されてもよい。

第三、第四または第五の側面における例示的実施形態によれば、各サイド情報インスタンスについての遷移データの前記二つの独立に割り当て可能な部分は：
所望される再構成設定への遷移を開始する時点を示すタイムスタンプと、所望される再構成設定への遷移を完了する時点を示すタイムスタンプ；
所望される再構成設定への遷移を開始する時点を示すタイムスタンプと、所望される再構成設定への遷移を開始する時点から所望される再構成設定に達するための継続時間を示す補間継続時間パラメータ；または
所望される再構成設定への遷移を完了する時点を示すタイムスタンプと、所望される再構成設定への遷移を開始する時点から所望される再構成設定に達するための継続時間を示す補間継続時間パラメータであってもよい。

換言すれば、遷移を開始および終了する時点は、それぞれの時点を示す二つのタイムスタンプによってまたはそれらのタイムスタンプの一方と遷移の継続時間を示す補間継続時間パラメータとの組み合わせによって、前記遷移データにおいて定義されうる。

それぞれのタイムスタンプはたとえば、M個のダウンミックス信号および／またはN個のオーディオ・オブジェクトを表わすために用いられる時間ベースを参照することによってそれぞれの時点を示してもよい。

第三、第四または第五の側面における例示的実施形態によれば、各クラスター・メタデータ・インスタンスについての遷移データの前記二つの独立に割り当て可能な部分は：
所望されるレンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を完了する時点を示すタイムスタンプ；
所望されるレンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を開始する時点から所望されるレンダリング設定に達するための継続時間を示す補間継続時間パラメータ；または
所望されるレンダリング設定への遷移を完了する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を開始する時点から所望されるレンダリング設定に達するための継続時間を示す補間継続時間パラメータであってもよい。

第三、第四または第五の側面における例示的実施形態によれば、各ダウンミックス・メタデータ・インスタンスについての遷移データの前記二つの独立に割り当て可能な部分は：
所望されるダウンミックス・レンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を完了する時点を示すタイムスタンプ；
所望されるダウンミックス・レンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を開始する時点から所望されるダウンミックス・レンダリング設定に達するための継続時間を示す補間継続時間パラメータ；または
所望されるダウンミックス・レンダリング設定への遷移を完了する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を開始する時点から所望されるダウンミックス・レンダリング設定に達するための継続時間を示す補間継続時間パラメータであってもよい。

例示的実施形態によれば、前記第三、第四または第五の側面における方法のいずれかの方法を実行するための命令をもつコンピュータ可読媒体を含むコンピュータ・プログラム・プロダクトが提供される。

〈ＩＶ．例示的実施形態〉
図１は、ある例示的実施形態に基づく、オーディオ・オブジェクト１２０をデータ・ストリーム１４０にエンコードするエンコーダ１００を示している。エンコーダ１００は、受領コンポーネント（図示せず）、ダウンミックス・コンポーネント１０２、エンコーダ・コンポーネント１０４、解析コンポーネント１０６および多重化コンポーネント１０８を有する。オーディオ・データの一つの時間フレームをエンコードするためのエンコーダ１００の動作を下記で述べるが、下記の方法は時間フレーム・ベースで繰り返されることは理解される。同じことは図２〜図５の説明にも当てはまる。

受領コンポーネントは、複数のオーディオ・オブジェクト（N個のオーディオ・オブジェクト）１２０およびそれらのオーディオ・オブジェクト１２０に関連するメタデータ１２２を受領する。本稿での用法でのオーディオ・オブジェクトは、典型的には時間とともに（時間フレームと時間フレームの間で）変わる関連付けられた空間位置、すなわち動的な空間位置をもつオーディオ信号をいう。オーディオ・オブジェクト１２０に関連付けられたメタデータ１２２は典型的には、オーディオ・オブジェクト１２０が、デコーダ側で再生のためにどのようにレンダリングされるべきかを記述する情報を含む。特に、オーディオ・オブジェクト１２０に関連付けられたメタデータ１２２は、オーディオ・シーンの三次元空間内でのオーディオ・オブジェクト１２０の空間位置についての情報を含む。空間位置はデカルト座標において、あるいは方位角および高度のような方向角に任意的に距離で補足したものによって表現されることができる。オーディオ・オブジェクト１２０に関連付けられたメタデータ１２２はさらに、オブジェクト・サイズ、オブジェクト・ラウドネス、オブジェクト重要性、オブジェクト・コンテンツ型、ダイアログ向上の適用もしくはあるラウドスピーカーのレンダリングからの除外（いわゆるゾーン・マスク）などの個別的なレンダリング指示および／または他のオブジェクト属性を含んでいてもよい。

図４を参照して述べるように、これらのオーディオ・オブジェクト１２０は、オーディオ・シーンの簡略化された表現に対応してもよい。

N個のオーディオ・オブジェクト１２０はダウンミックス・コンポーネント１０２に入力される。ダウンミックス・コンポーネント１０２は、N個のオーディオ・オブジェクト１２０の組み合わせ、典型的には線形結合を形成することによって、M個のダウンミックス信号を計算する。たいていの場合、データ・ストリーム１４０に含まれるデータの量が低減されるよう、ダウンミックス信号１２４の数はオーディオ・オブジェクト１２０の数より少ない。すなわちM＜Nである。しかしながら、データ・ストリーム１４０の目標ビットレートが高い用途については、ダウンミックス信号１２４の数はオブジェクト１２０の数に等しくてもよい。すなわちM＝Nとなる。

ダウンミックス・コンポーネント１０２はさらに、ここでL個の補助オーディオ信号１２７とラベル付けされる一つまたは複数の補助オーディオ信号１２７を計算してもよい。補助オーディオ信号１２７の役割は、デコーダ側でのN個のオーディオ・オブジェクト１２０の再構成を改善することである。補助オーディオ信号１２７は、N個のオーディオ・オブジェクト１２０の一つまたは複数に、直接またはこれらの組み合わせとして、対応してもよい。たとえば、補助オーディオ信号１２７は、ダイアログに対応するオーディオ・オブジェクト１２０など、N個のオーディオ・オブジェクト１２０のうちの特に重要なものに対応してもよい。重要性は、N個のオーディオ・オブジェクト１２０に関連付けられるメタデータ１２２によって反映されても、あるいはそれから導出されてもよい。

M個のダウンミックス信号１２４および存在すればL個の補助信号１２７は、その後、ここでコア・エンコーダとラベル付けされるエンコーダ・コンポーネント１０４によってエンコードされて、M個のエンコードされたダウンミックス信号１２６およびL個のエンコードされた補助信号１２９を生成してもよい。エンコーダ・コンポーネント１０４は、当技術分野で知られている知覚的オーディオ・コーデックであってもよい。既知の知覚的オーディオ・コーデックの例はドルビー・デジタルおよびMPEG AACを含む。

いくつかの実施形態では、ダウンミックス・コンポーネント１０２はさらに、M個のダウンミックス信号１２４をメタデータ１２５に関連付けてもよい。特に、ダウンミックス・コンポーネント１０２は、各ダウンミックス信号１２４を空間位置に関連付け、該空間位置をメタデータ１２５に含めてもよい。オーディオ・オブジェクト１２０に関連付けられたメタデータ１２２と同様に、ダウンミックス信号１２４に関連付けられたメタデータ１２５も、サイズ、ラウドネス、重要性および／または他の属性に関係するパラメータを含んでいてもよい。

特に、ダウンミックス信号１２４に関連付けられた空間位置は、N個のオーディオ・オブジェクト１２０の空間位置に基づいて計算されてもよい。N個のオーディオ・オブジェクト１２０の空間位置は動的であってもよい、すなわち時間変化してもよく、M個のダウンミックス信号１２４に関連付けられた空間位置も動的であってもよい。換言すれば、M個のダウンミックス信号１２４はそれ自身がオーディオ・オブジェクトとして解釈されてもよい。

解析コンポーネント１０６は、M個のダウンミックス信号１２４およびもし存在すればL個の補助信号１２９からのN個のオーディオ・オブジェクト１２０（またはN個のオーディオ・オブジェクト１２０の知覚的に好適な近似）の再構成を許容するパラメータを含むサイド情報１２８を計算する。サイド情報１２８も時間可変であってもよい。たとえば、解析コンポーネント１０６は、パラメトリック符号化のための任意の既知の技法に従ってM個のダウンミックス信号１２４、もしあればL個の補助信号１２７およびN個のオーディオ・オブジェクト１２０を解析することによってサイド情報１２８を計算してもよい。あるいはまた、解析コンポーネント１０６は、N個のオーディオ・オブジェクトおよび（時間変化する）ダウンミックス行列を提供することによるなど該N個のオーディオ・オブジェクトからM個のダウンミックス信号がどのように生成されたかについての情報を解析することによって、サイド情報１２８を計算してもよい。その場合、M個のダウンミックス信号１２４は、解析コンポーネント１０６への入力として厳密には要求されない。

M個のエンコードされたダウンミックス信号１２６、L個のエンコードされた補助信号１２９、サイド情報１２８、N個のオーディオ・オブジェクトに関連付けられたメタデータ１２２およびダウンミック信号に関連付けられたメタデータ１２５は次いで多重化コンポーネント１０８に入力され、該多重化コンポーネント１０８は、多重化技法を使って、その入力データを単一のデータ・ストリーム１４０に含める。このように、データ・ストリーム１４０は四つの型のデータを含みうる。
ａ）M個のダウンミックス信号１２６（および任意的にL個の補助信号１２９）
ｂ）M個のダウンミックス信号に関連付けられたメタデータ１２５
ｃ）M個のダウンミックス信号からN個のオーディオ・オブジェクトを再構成するためのサイド情報１２８
ｄ）N個のオーディオ・オブジェクトに関連付けられたメタデータ１２２。

上述したように、オーディオ・オブジェクトを符号化するためのいくつかの従来技術のシステムは、M個のダウンミックス信号が、M個のチャネルをもつスピーカー配位のチャネルでの再生に好適なように選ばれることを要求する。これは本稿で後方互換なダウンミックスと称される。そのような従来技術の要求は、オーディオ・オブジェクトがあらかじめ定義された仕方でのみ組み合わされうるという点で、ダウンミックス信号の計算を制約する。よって、従来技術によれば、ダウンミックス信号は、デコーダ側でのオーディオ・オブジェクトの再構成を最適にするという観点から選択されるのではない。

従来技術のシステムとは異なり、ダウンミックス・コンポーネント１０２は、N個のオーディオ・オブジェクトに関して信号適応的な仕方でM個のダウンミックス信号１２４を計算する。特に、ダウンミックス・コンポーネント１０２は、各時間フレームについて、M個のダウンミックス信号１２４を、現在何らかの基準を最適化するオーディオ・オブジェクト１２０の組み合わせとして計算してもよい。基準は典型的には、5.1または他のラウドスピーカー配位のようないかなるラウドスピーカー配位とも独立であるよう定義される。これは、M個のダウンミックス信号１２４またはそのうちの少なくとも一つが、Mチャネルをもつスピーカー配位のチャネルでの再生に好適であるオーディオ信号に制約されないことを含意する。よって、ダウンミックス・コンポーネント１０２は、たとえばデコーダ側でのオーディオ・オブジェクト１２０の再構成を改善するために、M個のダウンミックス信号１２４を、N個のオーディオ・オブジェクト１２０の時間変動（N個のオーディオ・オブジェクトの空間位置を含むメタデータ１２２の時間変動を含む）に適応させてもよい。

ダウンミックス・コンポーネント１０２は、M個のダウンミックス信号を計算するために異なる基準を適用してもよい。一例によれば、M個のダウンミックス信号は、該M個のダウンミックス信号に基づくN個のオーディオ・オブジェクトの再構成が最適化されるよう、計算されてもよい。たとえば、ダウンミックス・コンポーネント１０２は、N個のオーディオ・オブジェクト１２０およびM個のダウンミックス信号１２４に基づく該N個のオーディオ・オブジェクトの再構成から形成される再構成誤差を最小にしてもよい。

別の例によれば、基準はN個のオーディオ・オブジェクト１２０の空間位置に、特に空間的近接性に基づく。上記で論じたように、N個のオーディオ・オブジェクト１２０は、該N個のオーディオ・オブジェクト１２０の空間位置を含む関連付けられたメタデータ１２２を有する。該メタデータ１２２に基づいて、N個のオーディオ・オブジェクト１２０の空間的近接性が導出されてもよい。

より詳細には、ダウンミックス・コンポーネント１０２は、M個のダウンミックス信号１２４を決定するために、第一のクラスタリング手順を適用してもよい。第一のクラスタリング手順は、N個のオーディオ・オブジェクト１２０を、空間的近接性に基づいてM個のクラスターに関連付けることを含んでいてもよい。関連付けられたメタデータ１２２によって表わされる、オブジェクト・サイズ、オブジェクト・ラウドネス、オブジェクト重要性を含む前記N個のオーディオ・オブジェクト１２０のさらなる属性も、オーディオ・オブジェクト１２０をM個のクラスターに関連付ける際に、考慮に入れられてもよい。

一例によれば、よく知られたK平均アルゴリズムが、N個のオーディオ・オブジェクトのメタデータ１２２（空間位置）を入力として、N個のオーディオ・オブジェクト１２０を空間的近接性に基づいてM個のクラスターに関連付けるために使われてもよい。N個のオーディオ・オブジェクト１２０の前記さらなる属性は、K平均アルゴリズムにおける重み付け因子として使われてもよい。

別の例によれば、第一のクラスタリング手順は、メタデータ１２２によって与えられるオーディオ・オブジェクトの重要性を選択基準として使う選択手順に基づいていてもよい。より詳細には、ダウンミックス・コンポーネント１０２は、最も重要な諸オーディオ・オブジェクト１２０をそのまま通過させ、M個のダウンミックス信号のうちの一つまたは複数がN個のオーディオ・オブジェクト１２０の一つまたは複数に対応するようにしてもよい。残りの、それほど重要でないオーディオ・オブジェクトは、上記で論じたように、空間的近接性に基づいてクラスターに関連付けられてもよい。

オーディオ・オブジェクトをクラスタリングするさらなる例は、米国仮特許出願第61/865,072号および同出願の優先権を主張するその後の出願において与えられている。

別の例によれば、第一のクラスタリング手順は、あるオーディオ・オブジェクト１２０をM個のクラスターのうちの二つ以上に関連付けてもよい。たとえば、オーディオ・オブジェクト１２０は、M個のクラスターにわたって分配されてもよい。ここで、分配はたとえば、オーディオ・オブジェクト１２０の空間位置に、また任意的にはオブジェクト・サイズ、オブジェクト・ラウドネス、オブジェクト重要性などを含むオーディオ・オブジェクトのさらなる属性にも依存する。分配は割合によって反映されてもよい。たとえば、オーディオ・オブジェクトは三つのクラスターに割合20%、30%、50%に従って分配される。

ひとたびN個のオーディオ・オブジェクト１２０がM個のクラスターに関連付けられたら、ダウンミックス・コンポーネント１０２は、各クラスターについてのダウンミックス信号１２４を、そのクラスターに関連付けられたオーディオ・オブジェクト１２０の組み合わせ、典型的には線形結合を形成することによって計算する。典型的には、ダウンミックス・コンポーネント１０２は、オーディオ・オブジェクト１２０に関連付けられたメタデータ１２２に含まれるパラメータを、組み合わせを形成するときの重みとして使ってもよい。例として、あるクラスターに関連付けられているオーディオ・オブジェクト１２０はオブジェクト・サイズ、オブジェクト・ラウドネス、オブジェクト重要性、オブジェクト位置、クラスターに関連付けられた空間位置に対するオブジェクトからの距離（詳細は後述）などに従って重み付けされてもよい。オーディオ・オブジェクト１２０がM個のクラスターにわたって分配される場合には、分配を反映する割合が、組み合わせを形成するときの重みとして使われてもよい。

第一のクラスタリング手順は、M個のダウンミックス信号１２４のそれぞれの空間位置との関連付けを簡単に許容するという点で有利である。たとえば、ダウンミックス・コンポーネント１０２は、クラスターに対応するダウンミックス信号１２４の空間位置を、そのクラスターに関連付けられたオーディオ・オブジェクト１２０の空間位置に基づいて計算してもよい。そのクラスターに関連付けられているオーディオ・オブジェクトの空間位置の重心または重み付けされた重心がこの目的のために使われてもよい。重み付けされた重心の場合には、クラスターに関連付けられたオーディオ・オブジェクト１２０の組み合わせを形成するときと同じ重みが使われてもよい。

図２は、図１のエンコーダ１００に対応するデコーダ２００を示している。デコーダ２００は、オーディオ・オブジェクト再構成をサポートする型のものである。デコーダ２００は、受領コンポーネント２０８、デコーダ・コンポーネント２０４および再構成コンポーネント２０６を有する。デコーダ２００はさらに、レンダラー２１０を有していてもよい。あるいはまた、デコーダ２００は再生システムの一部をなすレンダラー２１０に結合されてもよい。

受領コンポーネント２０８は、エンコーダ１００からデータ・ストリーム２４０を受領するよう構成されている。受領コンポーネント２０８は、受領されたデータ・ストリーム２４０をその成分に多重分離するよう構成された多重分離〔デマルチプレックス〕コンポーネントを有する。該成分は、この場合は、M個のエンコードされたダウンミックス信号２２６と、任意的にL個のエンコードされた補助信号２２９と、M個のダウンミックス信号およびL個の補助信号からのN個のオーディオ・オブジェクトの再構成のためのサイド情報２２８と、該N個のオーディオ・オブジェクトに関連付けられたメタデータ２２２である。

デコーダ・コンポーネント２０４はM個のエンコードされたダウンミックス信号２２６および任意的にL個の補助信号２２７を処理してM個のダウンミックス信号２２４を生成する。上記でさらに論じたように、M個のダウンミックス信号２２４は、N個のオーディオ・オブジェクトからエンコーダ側で適応的に、すなわち、いかなるラウドスピーカー配位とも独立な基準に従ってN個のオーディオ・オブジェクトの組み合わせを形成することによって、形成されたものである。

次いで、オブジェクト再構成コンポーネント２０６は、エンコーダ側で導出されたサイド情報２２８によって案内されてM個のダウンミックス信号２２４および任意的にL個の補助信号２２７に基づいてN個のオーディオ・オブジェクト２２０（またはこれらのオーディオ・オブジェクトの知覚的に好適な近似）を再構成する。オブジェクト再構成コンポーネント２０６は、オーディオ・オブジェクトのそのようなパラメトリックな再構成のための任意の既知の技法を適用しうる。

次いで、再構成されたN個のオーディオ・オブジェクト２２０は、再生のために好適なマルチチャネル出力信号２３０を生成するために、オーディオ・オブジェクト２２２に関連付けられたメタデータ２２２および再生システムのチャネル配位についての知識を使ってレンダラーによって処理される。典型的なスピーカー再生配位は22.2および11.1を含む。サウンドバー・スピーカー・システムまたはヘッドフォン（バイノーラル呈示）での再生は、そのような再生システムのための専用レンダラーを用いても可能である。

図３は、図１のエンコーダ１００に対応する低計算量デコーダ３００を示している。デコーダ３００はオーディオ・オブジェクト再構成をサポートしない。デコーダ３００は、受領コンポーネント３０８およびデコーダ・コンポーネント３０４を有する。デコーダ３００はさらに、レンダラー３１０を有していてもよい。あるいはまた、該デコーダは再生システムの一部をなすレンダラー３１０に結合されてもよい。

上記で論じたように、後方互換なダウンミックス（5.1ダウンミックスのような）、すなわちM個のチャネルをもつ再生システム上での直接再生のために好適なM個のダウンミックス信号を含むダウンミックスを使う従来技術のシステムは、（たとえば5.1マルチチャネル・ラウドスピーカー・セットアップしかサポートしない）レガシー再生システムのための低計算量のデコードを簡単に可能にする。そのような従来技術のシステムは典型的には、後方互換なダウンミックス信号自身をデコードし、サイド情報（図２の項目２２８参照）およびオーディオ・オブジェクトに関連付けられているメタデータ（図２の項目２２２参照）といったデータ・ストリームの追加的な部分を破棄する。しかしながら、ダウンミックス信号が上記のように適応的に形成されるとき、ダウンミックス信号は一般に、レガシー・システム上での直接再生のためには好適ではない。

デコーダ３００は、特定の再生配位のみをサポートするレガシー再生システム上での再生のために適応的に形成されるM個のダウンミックス信号の低計算量デコードを許容するデコーダの例である。

受領コンポーネント３０８は、図１のエンコーダ１００のようなエンコーダからビットストリーム３４０を受領する。受領コンポーネント３０８は、ビットストリーム３４０をその成分に多重分離する。この場合は、受領コンポーネント３０８は、エンコードされたM個のダウンミックス信号３２６およびM個のダウンミックス信号に関連付けられたメタデータ３２５を保持するだけである。L個の補助信号（図２の項目２２９参照）、N個のオーディオ・オブジェクトに関連付けられているメタデータ（図２の項目２２２参照）およびサイド情報（図２の項目２２８参照）といった、データ・ストリーム３４０の他の成分は破棄される。

デコーダ・コンポーネント３０４はM個のエンコードされたダウンミックス信号３２６をデコードしてM個のダウンミックス信号３２４を生成する。次いで、M個のダウンミックス信号は、ダウンミックス・メタデータと一緒に、（典型的にはM個のチャネルをもつ）M個のダウンミックス信号をレガシー再生フォーマットに対応するマルチチャネル出力３３０にレンダリングするレンダラー３１０に入力される。ダウンミックス・メタデータ３２５はM個のダウンミックス信号３２４の空間位置を含むので、レンダラー３１０は典型的には図２のレンダラー２１０と同様であってもよい。唯一の違いは、レンダラー３１０は、オーディオ・オブジェクト２２０およびその関連付けられたメタデータ２２２の代わりに、今やM個のダウンミックス信号３２４および該M個のダウンミックス信号３２４に関連付けられたメタデータ３２５を入力として取るということである。

図１との関連で上述したように、N個のオーディオ・オブジェクト１２０は、オーディオ・シーンの簡略化された表現に対応してもよい。

一般に、オーディオ・シーンは、オーディオ・オブジェクトおよびオーディオ・チャネルを含んでいてもよい。オーディオ・チャネルとは、ここでは、マルチチャネル・スピーカー配位のあるチャネルに対応するオーディオ信号を意味する。そのようなマルチチャネル・スピーカー配位の例は22.2配位、11.1配位などを含む。オーディオ・チャネルは、そのチャネルのスピーカー位置に対応する空間位置をもつ静的なオーディオ・オブジェクトとして解釈してもよい。

いくつかの場合には、オーディオ・シーン内のオーディオ・オブジェクトおよびオーディオ・チャネルの数は、100を超えるオーディオ・オブジェクトおよび1〜24のオーディオ・チャネルなど、膨大であることがある。これらのオーディオ・オブジェクト／チャネルのすべてがデコーダ側で再構成される場合、大量の計算パワーが必要とされる。さらに、オブジェクト・メタデータおよびサイド情報に関連付けられた帰結するデータ・レートは、多数のオブジェクトが入力として与えられる場合には、一般に、非常に大きい。このため、デコーダ側で再構成されるべきオーディオ・オブジェクトの数を減らすために、オーディオ・シーンを簡略化することが有利である。この目的のために、エンコーダは、第二のクラスタリング手順に基づいてオーディオ・シーン内のオーディオ・オブジェクトの数を減らすクラスタリング・コンポーネントを有していてもよい。第二のクラスタリング手順は、等しいまたは非常に近い位置をもつオーディオ・オブジェクトなど、オーディオ・シーン内に存在する空間的冗長性を活用することをねらいとする。追加的に、オーディオ・オブジェクトの知覚的重要性が考慮に入れられてもよい。一般に、そのようなクラスタリング・コンポーネントは、図１のダウンミックス・コンポーネント１０２と逐次的にまたは並列に配置されうる。逐次的な配置は図４を参照して述べる。並列な配置は図５を参照して述べる。

図４はエンコーダ４００を示している。図１を参照して述べたコンポーネントに加えて、エンコーダ４００は、クラスタリング・コンポーネント４０９を有する。クラスタリング・コンポーネント４０９は、ダウンミックス・コンポーネント１０２と逐次的に配置されている。つまり、クラスタリング・コンポーネント４０９の出力がダウンミックス・コンポーネント１０２に入力される。

クラスタリング・コンポーネント４０９は、オーディオ・オブジェクト４２１ａおよび／またはオーディオ・チャネル４２１ｂを、オーディオ・オブジェクト４２１ａの空間位置を含む関連付けられたメタデータ４２３と一緒に、入力として受ける。クラスタリング・コンポーネント４０９は、各オーディオ・チャネル４２１ｂをオーディオ・チャネル４２１ｂに対応するスピーカー位置の空間位置に関連付けることによって、オーディオ・チャネル４２１ｂを静的なオーディオ・オブジェクトに変換する。オーディオ・オブジェクト４２１ａおよびオーディオ・チャネル４２１ｂから形成された静的なオーディオ・オブジェクトは、第一の複数のオーディオ・オブジェクト４２１と見ることができる。

クラスタリング・コンポーネント４０９は一般に、前記第一の複数のオーディオ・オブジェクト４２１を、ここでは図１のN個のオーディオ・オブジェクト１２０に対応する第二の複数のオーディオ・オブジェクトに減らす。この目的のため、クラスタリング・コンポーネント４０９は第二のクラスタリング手順を適用してもよい。

第二のクラスタリング手順は一般に、ダウンミックス・コンポーネント１０２に関して上記した第一のクラスタリング手順と同様である。したがって、第一のクラスタリング手順の記述は第二のクラスタリング手順にも当てはまる。

特に、第二のクラスタリング手順は、第一の複数のオーディオ・オブジェクト１２１を、第一の複数のオーディオ・オブジェクト１２１の空間的近接性に基づいて、少なくとも一つのクラスター、ここではN個のクラスターに関連付けることを含む。さらに上記で述べたように、クラスターとの関連付けは、メタデータ４２３によって表わされる、オーディオ・オブジェクトの他の属性にも基づいていてもよい。次いで、各クラスターは、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせ（線形結合）であるオブジェクトによって表わされる。図示した例では、N個のクラスターがあるのでN個のオーディオ・オブジェクト１２０が生成される。クラスタリング・コンポーネント４０９はさらに、そのように生成されたN個のオーディオ・オブジェクト１２０についてのメタデータ１２２を計算する。メタデータ１２２は、N個のオーディオ・オブジェクト１２０の空間位置を含む。N個のオーディオ・オブジェクト１２０のそれぞれの空間位置は、対応するクラスターに関連付けられているオーディオ・オブジェクトの空間位置に基づいて計算されてもよい。例として、空間位置は、図１を参照して上記でさらに説明したように、クラスターに関連付けられているオーディオ・オブジェクトの空間位置の重み付けされた重心として計算されてもよい。

クラスタリング・コンポーネント４０９によって生成されるN個のオーディオ・オブジェクト１２０は次いで、図１を参照してさらに述べたように、ダウンミックス・コンポーネント１２０に入力される。

図５はエンコーダ５００を示している。図１を参照して述べたコンポーネントに加えて、エンコーダ５００は、クラスタリング・コンポーネント５０９を有する。クラスタリング・コンポーネント５０９は、ダウンミックス・コンポーネント１０２と並列に配置されている。つまり、ダウンミックス・コンポーネント１０２とクラスタリング・コンポーネント５０９は同じ入力をもつ。

入力は、図１のN個のオーディオ・オブジェクト１２０に対応する第一の複数のオーディオ・オブジェクトを、該第一の複数のオーディオ・オブジェクトの空間位置を含むメタデータ１２２と一緒に含む。第一の複数のオーディオ・オブジェクト１２０は、図４の第一の複数のオーディオ・オブジェクト１２１と同様に、オーディオ・オブジェクトおよび静的なオーディオ・オブジェクトに変換されるオーディオ・チャネルを含む。ダウンミックス・コンポーネント１０２がオーディオ・シーンの簡略化されたバージョンに対応する低減した数のオーディオ・オブジェクトに対して作用する図４の逐次的な配置とは対照的に、図５のダウンミックス・コンポーネント１０２は、M個のダウンミックス信号１２４を生成するためにオーディオ・シーンのフル・オーディオ・コンテンツに対して作用する。

クラスタリング・コンポーネント５０９は機能において図４を参照して述べたクラスタリング・コンポーネント４０９と同様である。特に、クラスタリング・コンポーネント５０９は、上記の第二のクラスタリング手順を適用することによって、第一の複数のオーディオ・オブジェクト１２０を、ここではK個のオーディオ・オブジェクトによって示されている第二の複数のオーディオ・オブジェクト５２１に減らす。典型的にはM＜K＜N（高ビット用途についてはM≦K≦N）である。このように、第二の複数のオーディオ・オブジェクト５２１は、N個のオーディオ・オブジェクト１２６に基づいて形成された一組のオーディオ・オブジェクトである。さらに、クラスタリング・コンポーネント５０９は、第二の複数のオーディオ・オブジェクト５２１の空間位置を含む第二の複数のオーディオ・オブジェクト５２１（K個のオーディオ・オブジェクト）についてのメタデータ５２２を計算する。メタデータ５２２は、多重分離コンポーネント１０８によってデータ・ストリーム５４０に含められる。解析コンポーネント１０６は、M個のダウンミックス信号１２４からの第二の複数のオーディオ・オブジェクト５２１、すなわち前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクト（ここではK個のオーディオ・オブジェクト）の再構成を可能にするサイド情報５２８を計算する。サイド情報５２８は、多重化コンポーネント１０８によってデータ・ストリーム５４０に含められる。上記でさらに論じたように、解析コンポーネント１０６はたとえばサイド情報５２８を、第二の複数のオーディオ・オブジェクト５２１およびM個のダウンミックス信号１２４を解析することによって導出してもよい。

エンコーダ５００によって生成されるデータ・ストリーム５４０は、図２のデコーダまたは図３のデコーダ３００によってデコードされうる。しかしながら、図２の再構成されたオーディオ・オブジェクト（N個のオーディオ・オブジェクトとラベル付けられる）は今や図５の第二の複数のオーディオ・オブジェクト５２１（K個のオーディオ・オブジェクトとラベル付けされる）に対応し、該オーディオ・オブジェクトに関連付けられたメタデータ２２２（N個のオーディオ・オブジェクトのメタデータとラベル付けられる）は今や図５の第二の複数のオーディオ・オブジェクトのメタデータ５２２（K個のオーディオ・オブジェクトのメタデータとラベル付けされる）に対応する。

オブジェクト・ベースのオーディオ・エンコード／デコード・システムでは、オブジェクトに関連付けられたサイド情報またはメタデータは典型的には、付随するデータ・レートを制限するために、時間的に比較的低頻度で（まれに）更新される。オブジェクト位置についての典型的な更新間隔は、オブジェクトの速度、要求される位置精度、メタデータの記憶もしくは伝送のための利用可能な帯域幅などに依存して、10から500ミリ秒の間の範囲でありうる。そのようなまれな、またさらには不規則なメタデータ更新は、二つの相続くメタデータ・インスタンスの中間のオーディオ・サンプルについて、メタデータおよび／またはレンダリング行列（すなわち、レンダリングにおいて用いられる行列）の補間を必要とする。補間なしでは、レンダリング行列における結果的なステップごとの変化が、ステップごとの行列更新によって導入されるスペクトル・スプラッター（splatter）の結果として、望ましくないスイッチング・アーチファクト、クリック音、ジッパー・ノイズまたは他の望ましくないアーチファクトを引き起こすことがありうる。

図６は、一組のメタデータ・インスタンスに基づく、オーディオ信号またはオーディオ・オブジェクトのレンダリングのためのレンダリング行列を計算するための典型的な既知のプロセスを示している。図６に示されるように、一組のメタデータ・インスタンス（m1ないしm4）６１０は、時間軸６２０に沿ってその位置によって示される一組の時点（t1ないしt4）に対応する。その後、各メタデータ・インスタンスは、該メタデータ・インスタンスと同じ時点において有効なそれぞれのレンダリング行列（c1ないしc4）６３０またはレンダリング設定に変換される。こうして、図のように、メタデータ・インスタンスm1は時点t1におけるレンダリング行列c1を生成し、メタデータ・インスタンスm2は時点t2におけるレンダリング行列c2を生成し、などとなる。簡単のため、図６は各メタデータ・インスタンスm1ないしm4について一つのレンダリング行列しか示していない。しかしながら、実際的なシステムでは、レンダリング行列c1は、出力信号y_j(t)を生成するためにそれぞれのオーディオ信号x_i(t)に適用されるべき一組のレンダリング行列係数または利得係数c_1,i,jを含んでいてもよい。

y_j(t)＝Σ_i x_i(t)c_1,i,j
レンダリング行列６３０は一般に、異なる時点における利得値を表わす係数を含む。メタデータ・インスタンスは、所定の離散的な時点において定義され、メタデータ時点の中間のオーディオ・サンプルについては、レンダリング行列６３０をつなぐ破線６４０によって示されるように、レンダリング行列は補間される。そのような補間は線形に実行することができるが、他の補間方法（帯域制限された補間、正弦／余弦補間など）が使われることもできる。メタデータ・インスタンス（および対応するレンダリング行列）の間の時間間隔は、「補間継続時間」と称される。そのような期間は一様であってもよく、あるいは時刻t2とt3の間の補間継続時間に比べて時刻t3とt4の間の補間継続時間がより長いなど、異なっていてもよい。

多くの場合、メタデータ・インスタンスからのレンダリング行列係数の計算はよく定義されるが、（補間された）レンダリング行列が与えられてメタデータ・インスタンスを計算する逆のプロセスはしばしば困難であるか、またはさらには不可能である。これに関し、メタデータからレンダリング行列を生成するプロセスは時に暗号学的一方向性関数と見なされることができる。既存のメタデータ・インスタンスの間の新しいメタデータ・インスタンスを計算するプロセスは、メタデータの「再サンプリング」と称される。メタデータの再サンプリングはしばしば、ある種のオーディオ処理タスクの間に必要となる。たとえば、オーディオ・コンテンツがカット／マージ／混合などにより編集されるとき、そのような編集はメタデータ・インスタンスの中間のところで生起することがある。この場合、メタデータの再サンプリングが必要とされる。もう一つのそのような事例はオーディオおよび関連付けられたメタデータがフレーム・ベースのオーディオ・コーデックを用いてエンコードされるときである。この場合、伝送の間のフレーム損失に対する耐性を改善するために、各オーディオ・コーデック・フレームについて、好ましくはそのコーデック・フレームの先頭にタイムスタンプをもつ少なくとも一つのメタデータ・インスタンスをもつことが望ましい。さらに、メタデータの補間は、二値のメタデータのような、標準的な技法が二回目毎に多少なりとも正しくない値を導出することになるある種の型のメタデータについても効果がない。たとえば、0排除マスク（zero exclusion masks）のような二値フラグがある種の時点においてある種のオブジェクトをレンダリングから排除するために使われる場合、レンダリング行列係数からまたはメタデータの近隣のインスタンスからメタデータの有効な集合を推定することは事実上不可能である。これは図６では、時刻t3とt4の間の補間継続時間におけるレンダリング行列係数からメタデータ・インスタンスm3aを外挿または導出する失敗した試行として示されている。図６に示されるように、メタデータ・インスタンスm_xは、ある種の離散的な時点t_xにおいてのみ確定的に定義され、それが関連付けられた一組の行列係数c_xを生じる。これらの離散的な時刻t_xの中間では、行列係数の諸セットが、過去または将来のメタデータ・インスタンスに基づいて補間される必要がある。しかしながら、上記のように、現在のメタデータ補間方式は、メタデータ補間プロセスにおける不可避的な不正確さに起因する空間的オーディオ品質の損失を被る。例示的な実施形態に基づく代替的な補間方式について図７〜図１１を参照して下記に述べる。

図１〜図５を参照して述べた例示的な実施形態では、N個のオーディオ・オブジェクト１２０、２２０に関連付けられたメタデータ１２２、２２２およびK個のオブジェクト５２２に関連付けられたメタデータ５２２は、少なくともいくつかの例示的実施形態では、クラスタリング・コンポーネント４０９および５０９に発し、クラスター・メタデータと称されてもよい。さらに、ダウンミックス信号１２４、３２４に関連付けられたメタデータ１２５、３２５はダウンミックス・メタデータと称されてもよい。

図１、図４および図５を参照して述べたように、ダウンミックス・コンポーネント１０２は、N個のオーディオ・オブジェクト１２０の組み合わせを信号適応的な仕方で、すなわちいかなるラウドスピーカー配位とも独立な基準に従って、形成することによって、M個のダウンミックス信号１２４を計算してもよい。ダウンミックス・コンポーネント１０２のそのような動作は、第一の側面における例示的な実施形態の特徴である。他の側面における例示的な実施形態によれば、ダウンミックス・コンポーネント１０２はたとえば、信号適応的な仕方で、あるいはM個のダウンミックス信号がM個のチャネルをもつスピーカー配位のチャネルでの再生に好適なように、すなわち後方互換なダウンミックスとして、N個のオーディオ・オブジェクト１２０の組み合わせを形成することによって、M個のダウンミックス信号１２４を計算してもよい。

ある例示的な実施形態では、図４を参照して述べたエンコーダ４００は、再サンプリングのために、すなわち追加的なメタデータおよびサイド情報インスタンスを生成するために特に好適なメタデータおよびサイド情報フォーマットを用いる。本例示的実施形態では、解析コンポーネント１０６は、N個のオーディオ・オブジェクト１２０を再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンスと、各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含む形で、サイド情報１２８を計算する。本例示的実施形態では、各サイド情報インスタンスについての前記遷移データの前記二つの独立に割り当て可能な部分は：所望される再構成設定への遷移を開始する時点を示すタイムスタンプと、所望される再構成設定への遷移を開始する時点から所望される再構成設定に到達するための継続時間を示す補間継続時間パラメータとである。遷移が起こる期間は、本例示的実施形態では、遷移が始まるべき時刻と遷移期間の長さによって一意的に定義される。サイド情報１２８のこの特定の形は、図７〜図１１を参照して後述する。この遷移期間を一意的に定義するいくつかの他の方法があることは理解される。たとえば、該期間の開始、終了または中間点の形の基準点に該期間の長さを付したものが前記遷移データにおいて、該期間を一意的に定義するために用いられてもよい。あるいはまた、前記期間の始点および終点が、該期間を一意的に定義するために用いられてもよい。

本例示的実施形態では、クラスタリング・コンポーネント４０９は第一の複数のオーディオ・オブジェクト４２１を、ここでは図１のN個のオーディオ・オブジェクト１２０に対応する第二の複数のオーディオ・オブジェクトに減らす。クラスタリング・コンポーネント４０９は、生成されたN個のオーディオ・オブジェクト１２０についてのクラスター・メタデータ１２２を計算する。該メタデータは、デコーダ側のレンダラー２１０においてN個のオーディオ・オブジェクト１２２のレンダリングを可能にする。クラスタリング・コンポーネント４０９は、クラスター・メタデータ１２２を、N個のオーディオ・オブジェクト１２０をレンダリングするためのそれぞれの所望されるレンダリング設定を指定する複数のクラスター・メタデータ・インスタンスと、各クラスター・メタデータ・インスタンスについて、現在のレンダリング設定から、そのクラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始する時点および所望されるレンダリング設定までの該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含む形で、クラスター・メタデータ１２２を提供する。本例示的実施形態では、各クラスター・メタデータ・インスタンスについての前記遷移データの前記二つの独立に割り当て可能な部分は：所望されるレンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を開始する時点から所望されるレンダリング設定に到達するための継続時間を示す補間継続時間パラメータとである。クラスター・メタデータ１２２のこの特定の形は、図７〜図１１を参照して後述する。

本例示的実施形態では、ダウンミックス・コンポーネント１０２は各ダウンミックス信号１２４を空間位置に関連付け、該空間位置を、デコーダ側でのレンダラー３１０においてM個のダウンミックス信号のレンダリングを許容するダウンミックス・メタデータ１２５に含める。ダウンミックス・コンポーネント１０２は、ダウンミックス信号をレンダリングするためのそれぞれの所望されるダウンミックス・レンダリング設定を指定する複数のダウンミックス・メタデータ・インスタンスと、各ダウンミックス・メタデータ・インスタンスについて、現在のダウンミックス・レンダリング設定から、そのダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を開始する時点および所望されるダウンミックス・レンダリング設定までの該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含む形で、ダウンミックス・メタデータ１２５を提供する。本例示的実施形態では、各ダウンミックス・メタデータ・インスタンスについての前記遷移データの前記二つの独立に割り当て可能な部分は：所望されるダウンミックス・レンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を開始する時点から所望されるダウンミックス・レンダリング設定に到達するための継続時間を示す補間継続時間パラメータとである。

本例示的実施形態では、同じフォーマットがサイド情報１２８、クラスター・メタデータ１２２およびダウンミックス・メタデータ１２５について用いられる。このフォーマットが、オーディオ信号のレンダリングのためのメタデータに関し、これから図７〜図１１を参照して記述される。しかしながら、図７〜図１１を参照して記述される以下の例において、「オーディオ信号のレンダリングのためのメタデータ」のような用語および表現は、「オーディオ・オブジェクトの再構成のためのサイド情報」、「オーディオ・オブジェクトのレンダリングのためのクラスター・メタデータ」または「ダウンミックス信号のレンダリングのためのダウンミックス・メタデータ」のような対応する用語または表現によって置き換えられてもよいことは理解される。

図７は、ある例示的な実施形態に基づく、オーディオ信号のレンダリングにおいて用いられる係数曲線の、メタデータに基づく導出を示している。図７に示されるように、たとえば一意的な時間サンプルに関連付けられた異なる時点t_xにおいて生成されるメタデータ・インスタンスm_xのセットは、変換器７１０によって対応する行列係数値c_xの諸セットに変換される。係数のこれらのセットは、オーディオ・コンテンツがレンダリングされるべき再生システムにおけるさまざまなスピーカーおよびドライバにオーディオ信号をレンダリングするために用いられる、利得因子とも称される利得値を表わす。次いで、補間器７２０が利得因子c_xを補間して、離散的な時刻t_xの間の係数曲線を生成する。ある実施形態では、各メタデータ・インスタンスm_xに関連付けられたタイムスタンプt_xは、ランダムな時点、クロック回路によって生成される同期的な諸時点、フレーム境界のようなオーディオ・コンテンツに関係した時間イベントまたは他の任意の適切な時間をもつイベントに対応してもよい。上記のように、図７を参照して与えられる説明は、オーディオ・オブジェクトの再構成のためのサイド情報にも同様に当てはまる。

図８は、ある実施形態に基づくメタデータ・フォーマットを示している（そして、上記のように、以下の説明は対応するサイド情報フォーマットにも同様に当てはまる）。これは、上記のように、現在の方法に付随する補間問題の少なくともいくつかに対処する。それは、遷移もしくは補間の開始時刻としてのタイムスタンプを定義し、各メタデータ・インスタンスを、遷移継続時間または補間継続時間（「ライプ・サイズ」とも称される）を表わす補間継続時間パラメータをもって増強することによる。図８に示されるように、メタデータ・インスタンスm2ないしm4（８１０）のセットは、レンダリング行列c2ないしc4（８３０）のセットを指定する。各メタデータ・インスタンスは、特定の時点t_xにおいて生成され、各メタデータ・インスタンスはそのタイムスタンプに関して定義される。t2に対するm2、t3に対するm3などである。関連付けられたレンダリング行列８３０は、それぞれの補間継続時間d2、d3、d4（８４０）の間の遷移を実行した後に、各メタデータ・インスタンス８１０の関連付けられたタイムスタンプ（t1ないしt4）から生成される。補間継続時間（またはランプ・サイズ）を示す補間継続時間パラメータは、各メタデータ・インスタンスと一緒に含められる。すなわち、メタデータ・インスタンスm2はd2を含み、m3はd3を含み、などとなる。概略的に、このことはm_x＝(metadata(t_x),d_x)→c_xのように表現できる。このようにして、メタデータは本質的には、現在のレンダリング設定（たとえば前のメタデータから帰結する現在のレンダリング行列）から新しいレンダリング設定（たとえば現在のメタデータから帰結する新しいレンダリング行列）にどのように進むかの概略を提供する。各メタデータ・インスタンスは、該メタデータ・インスタンスが受領された瞬間に対する将来のある指定された時点において発効することが意図されており、係数曲線は係数の前の状態から導出される。よって、図８において、m2は継続時間d2後にc2を生成し、m3は継続時間d3後にc3を生成し、m4は継続時間d4後にc4を生成する。補間のためのこの方式では、前のメタデータが知られている必要はなく、前のレンダリング行列またはレンダリング状態だけが要求される。用いられる補間は、システム制約条件および構成に依存して線形または非線形でありうる。

図８のメタデータ・フォーマットは、図９に示されるメタデータの無損失な再サンプリングを許容する。図９は、例示的な実施形態に基づく、メタデータの無損失な処理の第一の例を示している（そして、上記のように、以下の説明は対応するサイド情報フォーマットにも同様に当てはまる）。図９は、補間継続時間d2ないしd4を含む、それぞれ将来のレンダリング行列c2ないしc4を指すメタデータ・インスタンスm2ないしm4を示している。メタデータ・インスタンスm2ないしm4のタイムスタンプはt2ないしt4として与えられている。図９の例では、時刻t4aにおけるメタデータ・インスタンスm4aが加えられる。そのようなメタデータは、システムのエラー耐性を向上させるまたはメタデータ・インスタンスをオーディオ・フレームの先頭／末尾に同期させるなど、いくつかの理由で加えられうる。たとえば、時刻t4aは、メタデータに関連付けられたオーディオ・コンテンツを符号化するために用いられるオーディオ・コーデックが新しいフレームを開始する時刻を表わしてもよい。無損失な動作のために、m4aのメタデータ値はm4のと同一である（すなわち、いずれも目標レンダリング行列c4を記述する）が、その点に到達するための時間d4aはd4−d4aだけ短縮されている。換言すれば、メタデータ・インスタンスm4aは、前のメタデータ・インスタンスm4のと同一であり、よってc3とc4の間の補間曲線は変更されない。しかしながら、新たな補間継続時間d4aはもとの継続時間d4より短い。これは、事実上、メタデータ・インスタンスのデータ・レートを増大させる。これは、誤り訂正のようなある種の状況において有益でありうる。

無損失なメタデータ補間の第二の例が図１０に示されている（そして、上記のように、以下の説明は対応するサイド情報フォーマットにも同様に当てはまる）。この例では、この例では、目標は二つのメタデータ・インスタンスm3およびm4の中間にメタデータm3aの新たなセットを含めることである。図１０は、ある時間期間にわたってレンダリング行列が不変のままである場合を示している。したがって、この状況では、新たなセットのメタデータm3aの値は、補間継続時間m3aを除いて以前のメタデータm3のものと同一である。補間継続時間d3aの値は、t4〜t3aに対応する値に、すなわち次のメタデータ・インスタンスm4に関連付けられた時刻t4と新たなセットのメタデータm3aに関連付けられた時刻t3aとの間の差に設定されるべきである。図１０に示される場合は、たとえば、オーディオ・オブジェクトが静的であり、オーサリング・ツールがこの静的な性質のためそのオブジェクトについての新しいメタデータを送るのを停止するときに生起しうる。そのような場合、たとえばメタデータをコーデック・フレームと同期させるために、新たなメタデータ・インスタンスm3aを挿入することが望ましいことがありうる。

図８ないし図１０に示した例では、現在から望まれるレンダリング行列またはレンダリング状態への補間は、線形補間によって実行された。他の例示的実施形態では、異なる補間方式が使われてもよい。あるそのような代替的な補間方式は、サンプルホールド回路をその後の低域通過フィルタと組み合わせたものを使う。図１１は、ある例示的な実施形態に基づく、低域通過フィルタと一緒にサンプルホールド回路を使う補間方式を示している（そして、上記のように、以下の説明は対応するサイド情報フォーマットにも同様に当てはまる）。図１１に示されるように、メタデータ・インスタンスm2ないしm4は、サンプルホールド・レンダリング行列係数c2およびc3に変換される。サンプルホールド・プロセスは、係数状態をすぐに所望される状態にジャンプさせ、その結果、図のようなステップ毎の曲線１１１０となる。この曲線１１１０はその後、低域通過フィルタリングされて、なめらかな、補間された曲線１１２０が得られる。補間フィルタ・パラメータ（たとえば、カットオフ周波数または時定数）は、時間サンプルおよび補間継続時間パラメータに加えて、メタデータの一部として信号伝達されることができる。システムの要求およびオーディオ信号の特性に依存して異なるパラメータが使用されてもよいことが理解される。

ある例示的実施形態では、補間継続時間またはランプ・サイズは、0の値または実質的に0に近い値を含むいかなる実際的な値をもつこともできる。そのような小さな補間継続時間は、ファイルの最初のサンプルにおいてすぐにレンダリング行列を設定することまたはストリームの編集、スプライシングまたは連結を許容することを可能にするための初期化のような場合に特に有用である。この型の破壊的編集では、レンダリング行列を瞬間的に変更できることは、編集後のコンテンツの空間的属性を維持するために有益である。

ある例示的実施形態では、本稿に記載される補間方式は、メタデータ・ビットレートを低下させる間引き方式におけるように、メタデータ・インスタンスの除去（および同様に上記のようにサイド情報インスタンスの除去）と互換である。メタデータ・インスタンスの除去は、システムが初期フレーム・レートより低いフレーム・レートで再サンプリングすることを許容する。この場合、エンコーダによって提供されるメタデータ・インスタンスおよびその関連付けられた補間継続時間データは、ある種の特性に基づいて除去されうる。たとえば、エンコーダにおける解析コンポーネントは、信号の有意な停滞の期間があるかどうかを判定するためにオーディオ信号を解析し、そのような場合、デコーダ側へのデータの伝送の帯域幅要求を減らすために、すでに生成されたある種のメタデータ・インスタンスを除去してもよい。メタデータ・インスタンスの除去は、代替的または追加的に、デコーダにおいてまたはトランスコードにおいてなど、エンコーダとは別個のコンポーネントにおいて実行されてもよい。トランスコーダは、エンコーダによって生成または追加されたメタデータ・インスタンスを除去してもよく、オーディオ信号を第一のレートから第二のレートに再サンプリングするデータ・レート変換器において用いられてもよい。ここで、第二のレートは第一のレートの整数倍であってもなくてもよい。どのメタデータ・インスタンスを除去するかを決定するためにオーディオ信号を解析する代わりに、エンコーダ、デコーダまたはトランスコーダはメタデータを解析してもよい。たとえば、図１０を参照するに、第一のメタデータ・インスタンスm3によって指定される第一の所望される再構成設定c3（または再構成行列）と、第一のメタデータ・インスタンスm3の直後のメタデータ・インスタンスm3aおよびm4によって指定される所望される再構成設定c3aおよびc4（または再構成行列）との間の差が計算されてもよい。この差はたとえば、それぞれのレンダリング行列に行列ノルムを用いることによって計算されてもよい。差が、たとえば再構成されるオーディオ信号の認容される歪みに対応する、あらかじめ定義された閾値より低ければ、第一のメタデータ・インスタンスm2に続くメタデータ・インスタンスm3aおよびm4は除去されてもよい。図１０に示した例では、第一のメタデータ・インスタンスm3の直後のメタデータ・インスタンスm3aは第一のメタデータ・インスタンスm3aと同じレンダリング設定を指定し（c3＝c3a）、よって除去される。一方、次のメタデータ設定m4は異なるレンダリング設定c4を指定し、用いられる閾値に依存して、メタデータとして保持されてもよい。

図２を参照して記述されたデコーダ２００では、オブジェクト再構成コンポーネント２０６は、M個のダウンミックス信号２２４およびサイド情報に基づいてN個のオーディオ・オブジェクト２２０を再構成することの一部として補間を用いてもよい。図７〜図１１を参照して述べた補間方式と同様に、N個のオーディオ・オブジェクト２２０の再構成はたとえば：現在の再構成設定に基づいて再構成を実行し；サイド情報インスタンスについて遷移データによって定義される時点において、現在の再構成設定から前記サイド情報インスタンスによって指定される所望される再構成設定への遷移を開始し；前記サイド情報インスタンスについて前記遷移データによって定義される時点において前記所望される再構成設定への前記遷移を完了することを含んでいてもよい。

同様に、レンダラー２１０は、再生のために好適なマルチチャネル出力信号２３０を生成するために、再構成されたN個のオーディオ・オブジェクト２２０をレンダリングすることの一部として補間を用いてもよい。図７〜図１１を参照して述べた補間方式と同様に、レンダリングは：現在のレンダリング設定に基づいてレンダリングを実行し；クラスター・メタデータ・インスタンスについて遷移データによって定義される時点において、現在のレンダリング設定から前記クラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始し；前記クラスター・メタデータ・インスタンスについて前記遷移データによって定義される時点において前記所望されるレンダリング設定への前記遷移を完了することを含んでいてもよい。

いくつかの実施形態では、オブジェクト再構成部２０６およびレンダラー２１０は分離可能なユニットであってもよく、および／または別個のプロセスとして実行される動作に対応していてもよい。他の例示的実施形態では、オブジェクト再構成部２０６およびレンダラー２１０は、単一のユニットまたはプロセスとして具現され、再構成およびレンダリングが組み合わされた動作として実行されるのでもよい。そのような例示的実施形態では、レンダリング行列および再構成行列に対して別個に補間を実行するのではなく、再構成およびレンダリングのために用いられる行列は単一の行列に組み合わされて、それが補間されてもよい。

図３を参照して記述される低計算量デコーダ３００では、レンダラー３１０が、M個のダウンミックス信号３２４をマルチチャネル出力３３０にレンダリングすることの一部として補間を実行してもよい。図７〜図１１を参照して述べた補間方式と同様に、レンダリングは：現在のダウンミックス・レンダリング設定に基づいてレンダリングを実行し；ダウンミックス・メタデータ・インスタンスについて遷移データによって定義される時点において、現在のダウンミックス・レンダリング設定から前記ダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を開始し；前記ダウンミックス・メタデータ・インスタンスについて前記遷移データによって定義される時点において前記所望されるダウンミックス・レンダリング設定への前記遷移を完了することを含んでいてもよい。先述したように、レンダラー３１０は、デコーダ３００に含まれてもよく、あるいは別個の装置／ユニットであってもよい。レンダラー３１０がデコーダ３００とは別個である例示的実施形態では、デコーダは、レンダラー３１０におけるM個のダウンミックス信号のレンダリングのために、ダウンミックス・メタデータ３２５およびM個のダウンミックス信号３２４を出力してもよい。

〈等価物、拡張、代替その他〉
上記の記述を吟味すれば、当業者には本開示のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、本開示はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本開示の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。

さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する当業者によって、開示される実施形態に対する変形が理解され、実施されることができる。請求項において、「有する／含む」の語は他の要素またはステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項に記載されているというだけの事実がこれらの施策の組み合わせが有利に使用できないことを示すものではない。

上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働していくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体（または非一時的な媒体）および通信媒体（または一時的な媒体）を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク（DVD）または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。

すべての図面は概略的であり、一般に、本開示を明快にするために必要な部分を示すだけである。一方、他の部分は省略されたり、単に示唆するに留めたりすることもある。特に断わりのない限り、同様の参照符号は異なる図面において同様の部分を指す。
いくつかの態様を記載しておく。
〔態様１〕
オーディオ・オブジェクトをデータ・ストリームにエンコードする方法であって：
N＞1であるとして、N個のオーディオ・オブジェクトを受領する段階と；
M個のダウンミックス信号を計算する段階であって、M≦Nであり、該計算は、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによる、段階と；
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算する段階と；
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、
方法。
〔態様２〕
各ダウンミックス信号を空間位置に関連付け、前記ダウンミックス信号の前記空間位置を前記データ・ストリーム中に前記ダウンミックス信号のためのメタデータとして含めることをさらに含む、態様１記載の方法。
〔態様３〕
前記N個のオーディオ・オブジェクトは、該N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、前記ダウンミックス信号に関連付けられる前記空間位置は前記N個のオーディオ・オブジェクトの空間位置に基づいて計算される、態様２記載の方法。
〔態様４〕
前記N個のオーディオ・オブジェクトの空間位置および前記M個のダウンミックス信号に関連付けられた空間位置は時間変化する、態様３記載の方法。
〔態様５〕
前記サイド情報が時間変化する、態様１ないし４のうちいずれか一項記載の方法。
〔態様６〕
前記N個のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性に基づく、態様１ないし５のうちいずれか一項記載の方法。
〔態様７〕
前記N個のオーディオ・オブジェクトに関連付けられた前記メタデータがさらに、前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含み、前記M個のダウンミックス信号を計算するための前記基準はさらに、前記N個のオーディオ・オブジェクトの前記重要性値に基づく、態様６記載の方法。
〔態様８〕
前記M個のダウンミックス信号を計算する段階は、前記N個のオーディオ・オブジェクトの空間的近接性およびもし該当すれば重要性値に基づいて前記N個のオーディオ・オブジェクトをM個のクラスターと関連付け、各クラスターについてのダウンミックス信号を、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせを形成することによって計算することを含む、態様６または７記載の方法。
〔態様９〕
各ダウンミックス信号は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置に基づいて計算される空間位置に関連付けられる、態様８記載の方法。
〔態様１０〕
各ダウンミックス信号に関連付けられる空間位置は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置の重心または重み付けされた重心として計算される、態様９記載の方法。
〔態様１１〕
前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置を入力としてもつK平均アルゴリズムを適用することによって、前記M個のクラスターに関連付けられる、態様８ないし１０のうちいずれか一項記載の方法。
〔態様１２〕
第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすための第二のクラスタリング手順をさらに有し、前記第一および第二の複数のオーディオ・オブジェクトの一方が前記N個のオーディオ・オブジェクトに対応する、態様１ないし１１のうちいずれか一項記載の方法。
〔態様１３〕
前記第二のクラスタリング手順は：
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と；
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と；
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と；
前記第二の複数のオーディオ・オブジェクトについての空間位置を含むメタデータを計算する段階であって、前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置が、対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される、段階と；
前記第二の複数のオーディオ・オブジェクトについてのメタデータを前記データ・ストリーム中に含める段階とを含む、
態様１２記載の方法。
〔態様１４〕
前記第二のクラスタリング手順はさらに：
少なくとも一つのオーディオ・チャネルを受領する段階と；
前記少なくとも一つのオーディオ・チャネルのそれぞれを、そのオーディオ・チャネルのラウドスピーカー位置に対応する静的な空間位置をもつオーディオ・オブジェクトに変換する段階と；
変換された少なくとも一つのオーディオ・チャネルを前記第一の複数のオーディオ・オブジェクトに含める段階とを含む、
態様１３記載の方法。
〔態様１５〕
前記第二の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記N個のオーディオ・オブジェクトに対応する、態様１２ないし１４のうちいずれか一項記載の方法。
〔態様１６〕
前記第一の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記第二の複数のオーディオ・オブジェクトに対応する、態様１２ないし１４のうちいずれか一項記載の方法。
〔態様１７〕
態様１ないし１６のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
〔態様１８〕
オーディオ・オブジェクトをデータ・ストリームにエンコードするためのエンコーダであって：
N＞1であるとして、N個のオーディオ・オブジェクトを受領するよう構成された受領コンポーネントと；
M個のダウンミックス信号を計算するよう構成されたダウンミックス・コンポーネントであって、M≦Nであり、前記計算は、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによる、ダウンミックス・コンポーネントと；
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算するよう構成された解析コンポーネントと；
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有する、
エンコーダ。
〔態様１９〕
エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダにおける方法であって：
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領する段階と；
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する段階とを含む、
方法。
〔態様２０〕
前記データ・ストリームはさらに、前記M個のダウンミックス信号に関連付けられた空間位置を含む前記M個のダウンミックス信号についてのメタデータを含み、当該方法はさらに：
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されている場合には、前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する前記段階を実行し、
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されていない場合には、前記M個のダウンミックス信号についての前記メタデータを、前記M個のダウンミックス信号を再生システムの出力チャネルにレンダリングするために使うことを含む、
態様１９記載の方法。
〔態様２１〕
前記M個のダウンミックス信号に関連付けられた前記空間位置が時間変化する、態様２０記載の方法。
〔態様２２〕
前記サイド情報が時間変化する、態様１９ないし２１のうちいずれか一項記載の方法。
〔態様２３〕
前記データ・ストリームはさらに、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトの空間位置を含む、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについてのメタデータを含み、当該方法はさらに、
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての前記メタデータを、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、再生システムの出力チャネルにレンダリングするために使うことを含む、
態様１９ないし２２のうちいずれか一項記載の方法。
〔態様２４〕
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトに等しい、態様１９ないし２３のうちいずれか一項記載の方法。
〔態様２５〕
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの組み合わせである複数のオーディオ・オブジェクトを含み、その数はNより少ない、態様１９ないし２３のうちいずれか一項記載の方法。
〔態様２６〕
態様１９ないし２５のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
〔態様２７〕
エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダであって：
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領するよう構成された受領コンポーネントと；
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するよう構成された再構成コンポーネントとを有する、
デコーダ。

Claims

オーディオ・オブジェクトをデータ・ストリームにエンコードする方法であって：
N＞1であるとして、N個のオーディオ・オブジェクトを受領する段階と；
M個のダウンミックス信号を計算する段階であって、M≦Nであり、該計算は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することにより、前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置および前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含むメタデータに関連付けられており、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの前記重要性値に基づく、段階と；
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算する段階と；
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、
方法。
前記M個のダウンミックス信号のうちの一つが前記N個のオーディオ・オブジェクトのうちの一つに対応し、前記N個のオーディオ・オブジェクトのうちの前記一つは、前記N個のオーディオ・オブジェクトのうち前記N個のオーディオ・オブジェクトの他のものとの関係で最も重要であるオーディオ・オブジェクトである、請求項１記載の方法。
各ダウンミックス信号を空間位置に関連付け、前記ダウンミックス信号の前記空間位置を前記データ・ストリーム中に前記ダウンミックス信号のためのメタデータとして含めることをさらに含む、請求項１または２記載の方法。
前記N個のオーディオ・オブジェクトは、該N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、前記ダウンミックス信号に関連付けられる前記空間位置は前記N個のオーディオ・オブジェクトの空間位置に基づいて計算される、請求項３記載の方法。
前記N個のオーディオ・オブジェクトの空間位置および前記M個のダウンミックス信号に関連付けられた空間位置は時間変化する、請求項４記載の方法。
前記サイド情報が時間変化する、請求項１ないし５のうちいずれか一項記載の方法。
前記M個のダウンミックス信号を計算する段階は、前記N個のオーディオ・オブジェクトの空間的近接性および重要性値に基づいて前記N個のオーディオ・オブジェクトをM個のクラスターと関連付け、各クラスターについてのダウンミックス信号を、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせを形成することによって計算することを含む、請求項１ないし６のうちいずれか一項記載の方法。
各ダウンミックス信号は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置に基づいて計算される空間位置に関連付けられる、請求項７記載の方法。
各ダウンミックス信号に関連付けられる空間位置は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置の重心または重み付けされた重心として計算される、請求項８記載の方法。
前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置を入力としてもつK平均アルゴリズムを適用することによって、前記M個のクラスターに関連付けられる、請求項７ないし９のうちいずれか一項記載の方法。
第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすための第二のクラスタリング手順をさらに有し、前記第一および第二の複数のオーディオ・オブジェクトの一方が前記N個のオーディオ・オブジェクトに対応する、請求項１ないし１０のうちいずれか一項記載の方法。
前記第二のクラスタリング手順は：
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と；
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と；
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と；
前記第二の複数のオーディオ・オブジェクトについての空間位置を含むメタデータを計算する段階であって、前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置が、対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される、段階と；
前記第二の複数のオーディオ・オブジェクトについてのメタデータを前記データ・ストリーム中に含める段階とを含む、
請求項１１記載の方法。
前記第二のクラスタリング手順はさらに：
少なくとも一つのオーディオ・チャネルを受領する段階と；
前記少なくとも一つのオーディオ・チャネルのそれぞれを、そのオーディオ・チャネルのラウドスピーカー位置に対応する静的な空間位置をもつオーディオ・オブジェクトに変換する段階と；
変換された少なくとも一つのオーディオ・チャネルを前記第一の複数のオーディオ・オブジェクトに含める段階とを含む、
請求項１２記載の方法。
前記第二の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記N個のオーディオ・オブジェクトに対応する、請求項１１ないし１３のうちいずれか一項記載の方法。
前記第一の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記第二の複数のオーディオ・オブジェクトに対応する、請求項１１ないし１３のうちいずれか一項記載の方法。
コンピュータに請求項１ないし１５のうちいずれか一項記載の方法を実行させるためのコンピュータ・プログラム。
オーディオ・オブジェクトをデータ・ストリームにエンコードするためのエンコーダであって：
N＞1であるとして、N個のオーディオ・オブジェクトを受領するよう構成された受領コンポーネントと；
M個のダウンミックス信号を計算するよう構成されたダウンミックス・コンポーネントであって、M≦Nであり、前記計算は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することにより、前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置および前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含むメタデータに関連付けられており、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの前記重要性値に基づく、ダウンミックス・コンポーネントと；
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算するよう構成された解析コンポーネントと；
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有する、
エンコーダ。
エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダにおける方法であって：
M個のダウンミックス信号を含むデータ・ストリームを受領する段階であって、前記M個のダウンミックス信号は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであり、M≦Nであり、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す前記N個のオーディオ・オブジェクトの重要性値に基づく、段階と；
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を受領する段階と；
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する段階とを含む、
方法。
前記M個のダウンミックス信号のうちの一つが前記N個のオーディオ・オブジェクトのうちの一つに対応し、前記N個のオーディオ・オブジェクトのうちの前記一つは、前記N個のオーディオ・オブジェクトのうち前記N個のオーディオ・オブジェクトの他のものとの関係で最も重要であるオーディオ・オブジェクトである、請求項１８記載の方法。
前記データ・ストリームはさらに、前記M個のダウンミックス信号に関連付けられた空間位置を含む前記M個のダウンミックス信号についてのメタデータを含み、当該方法はさらに：
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されている場合には、前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する前記段階を実行し、
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されていない場合には、前記M個のダウンミックス信号についての前記メタデータを、前記M個のダウンミックス信号を再生システムの出力チャネルにレンダリングするために使うことを含む、
請求項１８または１９記載の方法。
前記M個のダウンミックス信号に関連付けられた前記空間位置が時間変化する、請求項２０記載の方法。
前記サイド情報が時間変化する、請求項１８ないし２１のうちいずれか一項記載の方法。
前記データ・ストリームはさらに、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトの空間位置を含む、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについてのメタデータを含み、当該方法はさらに、
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての前記メタデータを、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、再生システムの出力チャネルにレンダリングするために使うことを含む、
請求項１８ないし２２のうちいずれか一項記載の方法。
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトに等しい、請求項１８ないし２３のうちいずれか一項記載の方法。
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの組み合わせである複数のオーディオ・オブジェクトを含み、その数はNより少ない、請求項１８ないし２３のうちいずれか一項記載の方法。
コンピュータに請求項１８ないし２５のうちいずれか一項記載の方法を実行させるためのコンピュータ・プログラム。
エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダであって：
M個のダウンミックス信号を含むデータ・ストリームを受領するよう構成された受領コンポーネントを有しており、前記M個のダウンミックス信号は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであり、M≦Nであり、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの重要性値に基づき、
前記受領コンポーネントはさらに、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を受領するよう構成されており、
当該デコーダはさらに、
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するよう構成された再構成コンポーネントを有する、
デコーダ。