JP2016509249A

JP2016509249A - 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング

Info

Publication number: JP2016509249A
Application number: JP2015549414A
Authority: JP
Inventors: ジークロケット，ブレット; ジェイシーフェルドット，アラン; アールツインゴス，ニコラス; ウィルソン，ロンダ; イエルーンブリーバート，ディルク; ルー，リエ; チェン，リアンウ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2012-12-21
Filing date: 2013-11-25
Publication date: 2016-03-24
Anticipated expiration: 2033-11-25
Also published as: WO2014099285A1; EP2936485B1; CN104885151B; US20150332680A1; US9805725B2; EP2936485A1; JP6012884B2; CN104885151A

Abstract

諸実施形態は、オブジェクト・オーディオ・データおよび関連付けられたメタデータを有するオブジェクトの初期の空間的位置を判別する段階と、それらのオブジェクトの知覚的重要性を判別する段階と、オーディオ・オブジェクトをそれらのオブジェクトの判別された知覚的重要性に基づいていくつかのクラスターにグループ化する段階とを含む、オブジェクト・ベースのオーディオをレンダリングする方法に向けられる。グループ化は、相対的に高い知覚的重要性をもつオブジェクトについて、初期の空間的位置からクラスター内における第二の空間的位置までオブジェクトを動かすことによって引き起こされる空間的誤差が最小化されるようにされる。知覚的重要性は少なくとも部分的には、オブジェクトの部分ラウドネスおよびオブジェクトのコンテンツ・セマンティクスに基づく。

Description

関連出願への相互参照
本願は2012年12月21日に出願された米国仮特許出願第61/745,401号および2013年8月12日に出願された米国仮出願第61/885,072号の優先権の利益を主張するものである。両出願はここに参照によってその全体において組み込まれる。

発明の技術分野
一つまたは複数の実施形態は概括的にはオーディオ信号処理に関し、より詳細には、効率的な符号化および／またはさまざまな再生システムを通じたレンダリングのためにオブジェクト・ベースのオーディオ・データを圧縮するために、知覚的基準に基づいてオーディオ・オブジェクトをクラスタリングすることに関する。

オブジェクト・ベースのオーディオの到来は、オーディオ・データの量およびハイエンド再生システム内でのこのデータのレンダリングの複雑さを著しく増大させた。たとえば、映画サウンドトラックは、スクリーン上の異なる位置から発し、背景音楽および周辺効果と組み合わさって全体的な聴覚経験を作り出す、スクリーン上の画像、ダイアログ、ノイズおよびサウンド効果に対応する多くの異なる音要素を含むことがある。正確な再生は、音が、音源位置、強度、動きおよび奥行きに関して、できるだけスクリーン上に示されているものに密接に対応するような仕方で再生されることを要求する。オブジェクト・ベースのオーディオは、オーディオ・コンテンツを聴取環境中の個々のスピーカーへのスピーカー・フィードの形で送りよって個々のオーディオ・オブジェクトの空間的な再生に関して比較的制限されている伝統的なチャネル・ベースのオーディオ・システムに対して、著しい改善を表わす。

デジタル映画館の導入および三次元（「3D」）コンテンツの開発は、音についての新たなスタンダードを作り出した。たとえば、コンテンツ・クリエーターにとってのより大きな創造性を許容する複数チャネル・オーディオの組み込みや、聴衆にとってより包み込むような、リアルな聴覚経験などである。空間的オーディオを配送する手段として伝統的なスピーカー・フィードおよびチャネル・ベースのオーディオを超えて拡張することは枢要であり、聴取者が所望される再生構成を選択することを許容し、オーディオが選ばれた構成について個別的にレンダリングされる、モデル・ベースのオーディオ記述にかなりの関心が寄せられてきた。音の空間的呈示はオーディオ・オブジェクトを利用する。オーディオ・オブジェクトは、見かけの源位置（たとえば3D座標）、見かけの源幅および他のパラメータの、関連付けられたパラメトリックな源記述をもつオーディオ信号である。さらなる進展として、次世代空間的オーディオ（「適応オーディオ（adaptive audio）」とも称される）フォーマットが開発されている。これは、オーディオ・オブジェクトについての位置メタデータとともに、オーディオ・オブジェクトおよび伝統的なチャネル・ベースのスピーカー・フィード（ベッド）の混合を含む。

いくつかのサウンドトラックでは、オーディオを含むいくつかの（たとえば7、9または11個の）ベッド・チャネルがあることがある。さらに、オーサリング・システムの機能に基づいて、レンダリングの間に組み合わされて空間的に多様かつ没入的なオーディオ経験を生成する数十またはさらには数百の個々のオーディオ・オブジェクトがあることがある。いくつかの配送および伝送システムでは、ほとんどまたは全くオーディオ圧縮なしですべてのオーディオ・ベッドおよびオブジェクトを伝送するのに十分大きい利用可能な帯域幅があることがある。しかしながら、ブルーレイ・ディスク、放送（ケーブル、衛星および地上波）、モバイル（3Gおよび4G）およびオーバーザトップ（OTTまたはインターネット）配送のようないくつかの場合には、オーサリングの時点で生成されたベッドおよびオブジェクト情報のすべてをデジタル的に伝送するための利用可能な帯域幅に対する著しい制限があることがある。必要とされる帯域幅を減らすためにオーディオ符号化方法（不可逆または可逆）がオーディオに適用されてもよいが、オーディオ符号化は、特にモバイル3Gおよび4Gネットワークのような非常に限られたネットワーク上でオーディオを伝送するために必要とされる帯域幅を減らすのに十分でないことがある。

クラスタリングによって入力オブジェクトおよびベッドの数を出力オブジェクトのより小さな集合に縮小するためにいくつかの従来の方法が開発されている。本質的には、同様の空間的またはレンダリング属性をもつオブジェクトが単一のまたはより少数の新しい、併合されたオブジェクトに組み合わされる。併合プロセスは、オーディオ信号を組み合わせること（たとえば総和による）およびパラメトリックな源記述（たとえば平均することによる）を包含する。これら以前の方法におけるクラスターへのオブジェクトの割り当ては、空間的近接性に基づく。すなわち、個々には各オブジェクトについての小さな空間的誤差を保証しつつ、同様のパラメトリック位置データをもつ諸オブジェクトは一つのクラスターに組み合わされる。このプロセスは一般に、コンテンツ中のすべての知覚的に有意なオブジェクトの空間的位置がそのようなクラスタリングを合理的な程度に小さな誤差をもって許容する限りは有効である。しかしながら、疎な空間的分布を有する同時にアクティブな多数のオブジェクトがある非常に複雑なコンテンツでは、ほどほどの空間的誤差しか許容されない場合には、そのようなコンテンツを正確にモデル化するための必要とされる出力クラスターの数は著しくなることがある。あるいはまた、帯域幅または複雑さの制約条件に起因するなどして、出力クラスターの数が制約される場合には、制約されたクラスタリング・プロセスおよび著しい空間的誤差のため、複雑なコンテンツは劣化した空間的品質をもって再生されることがある。よって、その場合、クラスターを定義するために近接性のみを使うことは、しばしば、最適でない結果を返す。この場合、オブジェクトの空間的位置だけではなく、オブジェクト自身の重要性が、クラスタリング・プロセスの知覚される品質を最適化するために考慮に入れられるべきである。

クラスタリング・プロセスを改善するために他の解決策も開発されている。一つのそのような解決策は、マスキングのためまたはオブジェクトがサイレントであるためなどで知覚的に有意でないオブジェクトを除去する選別（culling）プロセスである。このプロセスはクラスタリング・プロセスを改善する助けになるものの、知覚的に有意なオブジェクトの数が利用可能な出力クラスターより多い場合には、改善されたクラスタリング結果を提供しない。

背景セクションにおいて論じられた主題は、単に背景セクションにおいて言及されていることの結果として従来技術であると想定されるべきではない。同様に、背景セクションにおいて言及されているまたは背景セクションの主題に関連する問題は、従来技術において以前に認識されていたと想定されるべきではない。背景セクションにおける主題は単に種々のアプローチを表わすものであり、それらのアプローチ自身も発明であることがある。

いくつかの実施形態は、再生システムにおいてレンダリングされるべき第一の数のオーディオ・オブジェクトを同定する段階であって、各オーディオ・オブジェクトはオーディオ・データおよび関連付けられたメタデータを含む、段階と；各オーディオ・オブジェクトについての関連付けられたメタデータ内にエンコードされたある種のパラメータについての誤差閾値を定義する段階と；前記誤差閾値に基づいて、前記第一の数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトを低下した数のオーディオ・オブジェクトにグループ化して、前記再生システムを通じて伝送されるオーディオ・オブジェクトについてのデータの量が減らされるようにする段階とを実行することによって、再生システムにおけるレンダリングのためにオブジェクト・ベースのオーディオ・データを圧縮することに向けられる。

いくつかの実施形態はさらに、定義された時間間隔でいくつかのオブジェクトのうちの各オブジェクトの空間的位置を同定する段階と、オブジェクトの諸対の間の最大距離および／または該グループ化によって前記オブジェクトに関連付けられたある種の他の特性に対して引き起こされる歪み誤差に基づいて、前記オブジェクトのうちの少なくともいくつかを一つまたは複数の時間変化するクラスターにグループ化する段階とを実行することによってオブジェクト・ベースのオーディオをレンダリングすることに向けられる。

いくつかの実施形態は、オーディオ・シーン内のオブジェクトの知覚的な重要性を決定する段階であって、前記オブジェクトはオブジェクト・オーディオ・データおよび関連付けられたメタデータを含む、段階と、前記オブジェクトの決定された知覚的な重要性に基づいてある種のオーディオ・オブジェクトをオーディオ・オブジェクトのクラスターに組み合わせる段階であって、クラスターの数は、前記オーディオ・シーン内のもとのオブジェクトの数よりも少ない、段階とを実行することによって、再生システムにおけるレンダリングのためにオブジェクト・ベースのオーディオ・データを圧縮する方法に向けられる。この方法では、前記知覚的重要性は、それぞれのオブジェクトのラウドネス値およびコンテンツ型の少なくとも一方から導出される値であってもよく、前記コンテンツ型はダイアログ、音楽、サウンド効果、周辺音およびノイズのうちの少なくとも一つである。

本方法のある実施形態では、コンテンツ型は、前記オーディオ・オブジェクトについての入力オーディオ信号を受領するオーディオ分類プロセスによって決定され、前記ラウドネスは前記入力オーディオ信号の諸臨界周波数帯域における励起レベルの計算に基づいて知覚的モデルによって得られ、本方法はさらに、前記オーディオ・オブジェクトのうちの第一のオブジェクトのまわりのクラスターについての重心を定義し、前記オーディオ・オブジェクトのすべての励起を総合する（aggregating）ことを含む。前記ラウドネス値は、少なくとも部分的には、それぞれのオブジェクトの他のオブジェクトへの空間的な近接性に依存してもよく、該空間的近接性は、少なくとも部分的には、それぞれのオブジェクトについての前記関連付けられたメタデータの位置メタデータ値によって定義されてもよい。組み合わせる工程は、各クラスタリングされるオブジェクトに関連付けられたある種の空間的誤差を引き起こしうる。ある実施形態では、本方法はさらに、相対的に高い知覚的重要性のオブジェクトについて空間的誤差が最小化されるようオブジェクトをクラスタリングすることを含む。ある実施形態では、オブジェクトの決定された知覚的重要性は、オーディオ・シーン内の諸オブジェクトの相対的な空間的位置に依存し、組み合わせる段階はさらに、いくつかの重心を決定する段階であって、各重心は複数のオーディオ・オブジェクトをグループ化するためのクラスターの中心を含み、重心位置は他のオーディオ・オブジェクトに対する一つまたは複数のオーディオ・オブジェクトの知覚的重要性に依存する、段階と、オブジェクト信号を前記諸クラスターを横断して分配することによって、前記オブジェクトを一つまたは複数のクラスターにグループ化する段階とを含む。クラスタリングはさらに、オブジェクトを最も近い近傍オブジェクトとグループ化することまたはパン方法を使ってオブジェクトを一つまたは複数のクラスターを通じて配送することを含む。

オーディオ・オブジェクトを組み合わせる工程は、同じクラスター内の諸構成要素オブジェクトについてのオーディオ・データを具現する諸波形を一緒に組み合わせて、諸構成要素オブジェクトの組み合わされた波形を有する置換オブジェクトを形成する段階と、同じクラスター内の諸構成要素オブジェクトについてのメタデータを一緒に組み合わせて、諸構成要素オブジェクトについてのメタデータの置換セットを形成する段階とを含んでいてもよい。

いくつかの実施形態はさらに、いくつかの重心を定義する段階であって、各重心は複数のオーディオ・オブジェクトをグループ化するためのクラスターの中心を含む、段階と、各オブジェクトの、前記複数のオーディオ・オブジェクトのうちの他のオブジェクトに対する第一の空間的位置を決定する段階と、前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの相対的重要性を決定する段階であって、前記相対的重要性はオブジェクトの相対的な空間的位置に依存する、段階と、いくつかの重心を定義する段階であって、各重心は複数のオーディオ・オブジェクトをグループ化するためのクラスターの中心を含み、重心位置は一つまたは複数のオーディオ・オブジェクトの相対的な重要性に依存する、段階と、オブジェクト信号を前記諸クラスターを横断して分配することによって、前記オブジェクトを一つまたは複数のクラスターにグループ化する段階とを実行することによって、オブジェクト・ベースのオーディオをレンダリングする方法に向けられる。この方法はさらに、前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの部分ラウドネスと、前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトのコンテンツ型および関連付けられたコンテンツ型重要性とを決定する段階を含んでいてもよい。ある実施形態では、各オーディオ・オブジェクトの部分ラウドネスおよびコンテンツ型は組み合わされて、それぞれのオーディオ・オブジェクトの相対的重要性を決定する。オブジェクトは、相対的に高い知覚的重要性のオブジェクトについて空間的誤差が最小化されるよう、クラスタリングされる。ここで、空間的誤差は、オブジェクトを、他のオブジェクトとクラスタリングされるときに、第一の知覚される源位置から第二の知覚される源位置に動かすことによって引き起こされうるものである。

上記の圧縮する方法またはレンダリングする方法についての実施形態を実装するシステムまたはデバイスおよびコンピュータ可読媒体について、いくつかのさらなる実施形態が記述される。

本稿に記載される方法およびシステムは、進んだコンテンツ作成ツールの組によって可能にされる新しいスピーカーおよびチャネル構成ならびに新しい空間的記述フォーマットを含む適応オーディオ・システムに基づく、更新されたコンテンツ作成ツール、配送方法および向上されたユーザー経験を含む、オーディオ・フォーマットおよびシステムにおいて実装されうる。そのようなシステムでは、オーディオ・ストリーム（一般にチャネルおよびオブジェクトを含む）は、オーディオ・ストリームの所望される位置を含むコンテンツ・クリエーターまたはサウンド・ミキサーの意図を記述するメタデータとともに、伝送される。位置は、（あらかじめ定義されたチャネル構成内からの）名前を付けられたチャネルとしてまたは三次元（3D）空間位置情報として表現されることができる。

参照による組み込み
本明細書において言及される各刊行物、特許および／または特許出願はここに参照によって、個々の各刊行物および／または特許出願が具体的かつ個別的に参照によって組み込まれることが示されている場合と同じ程度にその全体において組み込まれる。

以下の図面では、同様の参照符号が同様の要素を指すために使われる。以下の図はさまざまな例を描いているが、前記一つまたは複数の実装は図面に描かれる例に限定されるものではない。
ある実施形態のもとでの、適応オーディオ混合を生成するためのチャネルおよびオブジェクト・ベースのデータの組み合わせを示す図である。ある実施形態のもとでの、適応オーディオ・コンテンツをレンダリングするためのコーデック回路との関連での、クラスタリング・プロセスのブロック図である。ある実施形態のもとでの、適応オーディオ処理システムにおけるオブジェクトおよびベッドのクラスタリングを示す図である。ある実施形態のもとでの、全体的な適応オーディオ・レンダリング・システムにおける適応オーディオ・データのクラスタリングを示す図である。Ａは、ある実施形態のもとでの、組み合わされたオブジェクトを生成するための二つのオブジェクトについてのオーディオ信号およびメタデータの組み合わせを示す図である。Ｂは、ある実施形態のもとでの、クラスタリング・プロセスのための例示的なメタデータ定義および組み合わせ方法を示す表である。ある実施形態のもとでの、クラスタリング・プロセスによって用いられるクラスタリング方式のブロック図である。ＡおよびＢは、ある実施形態のもとでの、周期的な時間区間の間の、オブジェクトのクラスターへのグループ化を示す図である。ある実施形態のもとでの、定義されたオブジェクト境界および誤差閾値との関係での、オブジェクトのクラスターへのグループ化を示す図の一つである。ある実施形態のもとでの、定義されたオブジェクト境界および誤差閾値との関係での、オブジェクトのクラスターへのグループ化を示す図の一つである。ある実施形態のもとでの、定義されたオブジェクト境界および誤差閾値との関係での、オブジェクトのクラスターへのグループ化を示す図の一つである。ある実施形態のもとでの、オブジェクトおよびベッドをクラスタリングする方法を示すフローチャートである。ある実施形態のもとでの、空間的近接性に加えて知覚的重要性に基づいてオブジェクトおよびベッド・チャネルをクラスターにクラスタリングするシステムを示す図である。ある実施形態のもとでの、オーディオ・オブジェクトを出力クラスターにクラスタリングするためのプロセス・フローの構成要素を示す図である。ある実施形態のもとでの、オーディオ分類コンポーネントの機能図である。ある実施形態のもとでの、コンテンツ型およびラウドネスの知覚的因子に基づいてオーディオ・オブジェクトを処理する全体的な方法を示すフローチャートである。ある実施形態のもとでの、クラスター重心を計算し、選択された重心にオブジェクトを割り当てるプロセスを示すフローチャートである。ＡおよびＢは、ある実施形態のもとでの、ある種の知覚的基準に基づく、オブジェクトのクラスターへのグループ化を示す図である。ある実施形態のもとでの、オブジェクトおよびベッドをクラスタリングする方法を示すフローチャートである。ある実施形態のもとでの、エンドポイント装置機能に基づくクラスタリングされたオブジェクト・データのレンダリングを示す図である。

オブジェクト・ベースのオーディオ・データについてオブジェクト・クラスタリング・ベースの圧縮方式のためのシステムおよび方法が記述される。クラスタリング方式の諸実施形態は、オブジェクトをクラスターに割り当てるためにオブジェクトの知覚的重要性を利用し、位置および近接性に基づくクラスタリング方法に対して拡張する。知覚ベースのクラスタリング・システムは、近接性ベースのクラスタリングを、各オブジェクトのオーディオ信号から導出される知覚的相関量で増強し、知覚的に有意なオブジェクトの数が出力クラスターの数より多いときのような制約された条件においてオブジェクトのクラスターへの改善された割り当てを導出する。

オーディオ処理システムのある実施形態では、オブジェクト組み合わせまたはクラスタリング・プロセスは、部分的には、オブジェクトの空間的近接性によって、かつある種の知覚的基準によっても制御される。一般に、オブジェクトのクラスタリングの結果として、ある量の誤差が生じる。すべての入力オブジェクトが、他のオブジェクトとクラスタリングされるときに空間的忠実性を維持することはできないからである。特に多数のオブジェクトが疎に分布している用途ではそうである。相対的に高い知覚される重要性をもつオブジェクトは、クラスタリング・プロセスでの空間的／知覚的誤差の最小化に関して、優遇される。オブジェクトの重要性は、シーン内の他のオブジェクトの間でのマスキング効果を考慮に入れたときの、オブジェクトの知覚されるラウドネスである部分ラウドネス（partial loudness）ならびにコンテンツ・セマンティクスまたは型（たとえば、ダイアログ、音楽、効果など）のような因子に基づくことができる。

本稿に記載される一つまたは複数の実施形態の諸側面は、ソフトウェア命令を実行する一つまたは複数のコンピュータまたは処理装置を含むミキシング、レンダリングおよび再生システムにおいて源オーディオ情報を処理するオーディオまたはオーディオビジュアル（AV）システムにおいて実装されてもよい。記載される実施形態のいずれも、単独でまたは互いと一緒に任意の組み合わせにおいて使用されてもよい。さまざまな実施形態が、本明細書の一つまたは複数の場所で論じられるまたは暗示されることがありうる従来技術でのさまざまな欠点によって動機付けられていることがありうるが、それらの実施形態は必ずしもこれらの欠点のいずれかに取り組むものではない。つまり、種々の実施形態は本明細書において論じられることがある種々の欠点に取り組むことがある。いくつかの実施形態は、本明細書において論じられることがあるいくつかの欠点または一つだけの欠点に部分的に取り組むだけであることがあり、いくつかの実施形態はこれらの欠点のどれにも取り組まないこともある。

本記述の目的のためには、以下の用語は関連付けられた意味をもつ：用語「チャネル」および「ベッド」は、オーディオ信号にメタデータを加えたものを意味する。メタデータにおいて、位置はチャネル識別子、たとえば左前方または右上方サラウンドとして符号化される。「チャネル・ベースのオーディオ」は、関連付けられた公称位置をもつスピーカー・ゾーンのあらかじめ定義されたセット、たとえば5.1、7.1などを通じた再生のためにフォーマットされたオーディオである。用語「オブジェクト」または「オブジェクト・ベースのオーディオ」は、見かけの源位置（たとえば3D座標）、見かけの源幅などといったパラメトリックな源記述をもつ一つまたは複数のオーディオ・チャネルを意味する。「適応オーディオ」は、チャネル・ベースのおよび／またはオブジェクト・ベースのオーディオ信号に、オーディオ・ストリームに位置が空間内の3D位置として符号化されているメタデータを加えたものを使って、再生環境に基づいてオーディオ信号をレンダリングするメタデータを加えたものを意味する。「レンダリング」は、スピーカー・フィードとして使われる電気信号への変換を意味する。

ある実施形態では、オブジェクト・クラスタリングを使ったシーン単純化プロセスは、「空間的オーディオ・システム」または「適応オーディオ・システム」と称されることがある音フォーマットおよび処理システムと協働するよう構成されているオーディオ・システムの一部として実装される。そのようなシステムは、向上した聴衆没入感、より大きな芸術的制御ならびにシステム柔軟性およびスケーラビリティーを許容するためのオーディオ・フォーマットおよびレンダリング技術に基づく。全体的な適応オーディオ・システムは一般に、通常のチャネル・ベースのオーディオ要素およびオーディオ・オブジェクト符号化要素の両方を含む一つまたは複数のビットストリームを生成するよう構成されたオーディオ・エンコード、配送およびデコード・システムを含む。そのような組み合わされたアプローチは、別個に実施されるチャネル・ベースまたはオブジェクト・ベースのアプローチのいずれと比べても、より大きな符号化効率およびレンダリング柔軟性を提供する。本願の実施形態との関連で使用されてもよい適応オーディオ・システムの例は、2012年6月27日に出願された、「適応オーディオ信号生成、符号化およびレンダリングのためのシステムおよび方法」と題する係属中の国際特許出願第PCT/US2012/044388号において記述されている。同出願はここに参照によって組み込まれる。適応オーディオ・システムおよび関連付けられたオーディオ・フォーマットの例示的な実装は、ドルビー（登録商標）Atmos（商標）プラットフォームである。そのようなシステムは、9.1サラウンド・システムまたは同様のサラウンドサウンド構成として実装されてもよい高さ（上下）次元を組み込む。

オーディオ・オブジェクトは、聴取環境における一つまたは複数の特定の物理的位置から発するように知覚されうる個々の音要素または音要素の集合と考えることができる。そのようなオブジェクトは静的（すなわち、定常）または動的（すなわち、動いている）であることができる。オーディオ・オブジェクトは、他の機能とともに所与の時点における音の位置を定義するメタデータによって制御される。オブジェクトが再生されるとき、オブジェクトは、必ずしもあらかじめ定義された物理チャネルに出力されるのではなく、位置メタデータに従って、存在している諸スピーカーを使ってレンダリングされる。セッションにおけるトラックがオーディオ・オブジェクトであることができ、標準的なパン・データが位置メタデータと類似する。このように、スクリーン上に配置されるコンテンツは、チャネル・ベースのコンテンツと事実上同じようにしてパンされうるが、サラウンドに配置されるコンテンツは、所望されるなら個別のスピーカーにレンダリングされることができる。オーディオ・オブジェクトの使用は離散的な効果に対する制御を提供するものの、サウンドトラックの他の諸側面は、チャネル・ベースの環境において、より効果的に機能しうる。たとえば、多くの環境効果または残響は実際には、個々のドライバではなくスピーカーのアレイにフィードされることから裨益する。これらはアレイを満たすのに十分な幅をもつオブジェクトとして扱われることができるが、いくつかのチャネル・ベースの機能を保持することが有益である。

適応オーディオ・システムは、オーディオ・オブジェクトに加えて「ベッド」をサポートするよう構成される。ここで、ベッド（bed）は、事実上、チャネル・ベースのサブミックスまたはステムである。これらは、コンテンツ・クリエーターの意図に依存して、個々にまたは単一のベッドに組み合わされて、最終的な再生（レンダリング）のために送達されることができる。これらのベッドは、5.1、7.1および9.1ならびに頭上スピーカーを含むアレイのような種々のチャネル・ベースの構成において生成されることができる。図１は、ある実施形態のもとでの、適応オーディオ混合を生成するためのチャネルおよびオブジェクト・ベースのデータの組み合わせを示している。プロセス１００において示されるように、たとえばパルス符号変調（PCM）されたデータの形で提供される5.1または7.1サラウンドサウンド・データであってもよいチャネル・ベースのデータ１０２は、オーディオ・オブジェクト・データ１０４と組み合わされて、適応オーディオ混合１０８を生成する。オーディオ・オブジェクト・データ１０４は、もとのチャネル・ベースのデータの要素を、オーディオ・オブジェクトの位置に関するある種のパラメータを指定する関連するメタデータと組み合わせることによって生成される。図１において概念的に示されるように、オーサリング・ツールは、スピーカー・チャネル・グループおよびオブジェクト・チャネルの組み合わせを同時に含むオーディオ・プログラムを生成する能力を提供する。たとえば、オーディオ・プログラムは、任意的に諸グループ（または諸トラック、たとえばステレオまたは5.1トラック）に編成されている一つまたは複数のチャネル、一つまたは複数のスピーカー・チャネルについての記述メタデータ、一つまたは複数のオブジェクト・チャネルおよび一つまたは複数のオブジェクト・チャネルについての記述メタデータを含むことができる。

適応オーディオ・システムは、空間的オーディオを配送する手段としてのスピーカー・フィードを越えて拡張され、個別のニーズおよびシステム制約条件に適合する再生構成を調整するために進んだモデル・ベースのオーディオ記述を使い、オーディオが個々の構成のために特にレンダリングされることができるようにする。オーディオ信号の空間的効果は、聴取者にとっての没入的経験を提供することにおいて枢要である。閲覧スクリーンまたは部屋の特定の領域から発することが意図される音は、その同じ相対位置に位置されるスピーカー（単数または複数）を通じて再生されるべきである。よって、モデル・ベースの記述における音イベントの主要なオーディオ・メタデータは位置である。ただし、サイズ、配向、速度および音響分散（acoustic dispersion）のような他のパラメータが記述されることもできる。

上記のように、適応オーディオ・コンテンツは、いくつかのベッド・チャネル１０２を、レンダリングの間に組み合わされて空間的に多様でかつ没入的なオーディオ経験を作り出す多くの個々のオーディオ・オブジェクト１０４とともに含んでいてもよい。大量の処理帯域幅のある映画館環境では、事実上、任意の数のベッドおよびオブジェクトがシアター内で生成され、正確にレンダリングされることができる。しかしながら、映画館または他の複雑なオーディオ・コンテンツが家庭または個人的な聴取環境における配送および再生のために制作される際には、そのような装置およびメディアの比較的制限された処理帯域幅は、このコンテンツの最適なレンダリングまたは再生を妨げる。たとえば、消費者およびプロフェッショナルの用途のために使われる典型的な伝送媒体は、ブルーレイ・ディスク、放送（ケーブル、衛星および地上波）、モバイル（3Gおよび4G）およびオーバーザトップ（OTT）またはインターネット配送を含む。これらの媒体チャネルは、適応オーディオ・コンテンツのベッドおよびオブジェクト情報のすべてをデジタル的に伝送するための利用可能な帯域幅に対して著しい制限を課すことがある。諸実施形態は、そのままでオーディオ・ベッドおよびオブジェクト・データのすべてをレンダリングするためには十分大きな利用可能な帯域幅を有さないことがある伝送システムを通じて配送されうるよう、複雑な適応オーディオ・コンテンツを圧縮する機構に向けられる。

現行のモノフォニック、ステレオおよびマルチチャネル・オーディオ・コンテンツでは、上述した送達方法およびネットワークの帯域幅制約条件は、必要とされる帯域幅を配送方法の利用可能な帯域幅にマッチするよう低下させるために、一般にオーディオ符号化が必要とされるようなものである。現在の映画館システムは、典型的な7.1映画館フォーマットのための10Mbpsのオーダーの帯域幅で、圧縮されていないオーディオ・データを提供することができる。この容量と比較して、さまざまな他の送達方法および再生システムについての利用可能な帯域幅は実質的に少ない。たとえば、ディスク・ベースの帯域幅は、数百kbpsから数十Mbpsのオーダーである。放送帯域幅は数百kbpsから数十kbpsのオーダーである。OTTインターネット帯域幅は数百kbpsから数Mbpsのオーダーである。モバイル（3G/4G）はたった数百kbpsから数十kbpsのオーダーである。適応オーディオはフォーマットの一部である追加的なオーディオ・エッセンスを含むので、すなわちチャネル・ベッド１０２に加えてオブジェクト１０４を含むので、伝送帯域幅に対するすでに著しい制約条件は、通常のチャネル・ベースのオーディオ・フォーマットを超えて一層厳しくなり、低下した帯域幅の伝送および再生システムにおける正確な再生を容易にするために、オーディオ符号化ツールに加えて、追加的な帯域幅削減が必要とされる。

〈オブジェクト・クラスタリングを通じたシーン単純化〉
ある実施形態では、適応オーディオ・システムは、オブジェクト・クラスタリングと、チャネル・ベッドおよびオブジェクトの組み合わせによって作り出される空間的シーンの、知覚的に透明な単純化とを通じてオブジェクト・ベースのオーディオ・コンテンツの帯域幅を削減するコンポーネントを提供する。前記コンポーネントによって実行されるオブジェクト・クラスタリング・プロセスは、同様のオブジェクトをグループ化してもとのオブジェクトの代わりとなるオブジェクト・クラスターにすることによって空間的シーンの複雑さを低下させるために、空間的位置、コンテンツ型、時間的属性、オブジェクト幅およびラウドネスを含むオブジェクトについてのある種の情報を使う。

もとの複雑なベッドおよびオーディオ・トラックに基づいて説得力のあるユーザー経験を配送およびレンダリングするための標準的なオーディオ符号化のための追加的なオーディオ処理は、一般に、シーン単純化および／またはオブジェクト・クラスタリングと称される。この処理の目的は、再生装置に送達される個別のオーディオ要素（ベッドおよびオブジェクト）の数を減らすが、それでももともとオーサリングされたコンテンツとレンダリングされる出力との間の知覚される差が最小化されるよう十分な空間的情報を保持するクラスタリングまたはグループ化技法を通じて、空間的シーンを削減することである。

シーン単純化プロセスは、オブジェクトを削減された数に動的にクラスタリングするために空間的位置、時間的属性、コンテンツ型、幅および他の適切な特性を含む当該オブジェクトについての情報を使って、低下した帯域幅のチャネルまたは符号化システムにおける、オブジェクトにベッドを加えたコンテンツのレンダリングを容易にする。このプロセスは、以下のクラスタリング動作を実行することによってオブジェクトの数を削減することができる：（１）オブジェクトをオブジェクトにクラスタリングする；（２）オブジェクトをベッドとクラスタリングする；（３）オブジェクトおよびベッドをオブジェクトにクラスタリングする。さらに、オブジェクトは、二つ以上のクラスターにわたって分配されることができる。上記プロセスはさらに、オブジェクトのクラスタリングおよび脱クラスタリングを制御するために、オブジェクトについてのある種の時間的および／または知覚的情報を使う。オブジェクト・クラスターは、構成要素オブジェクトの個々の波形およびメタデータ要素を、単一の等価な波形およびメタデータ・セットで置き換え、それによりN個のオブジェクトについてのデータが単一のオブジェクトについてのデータで置き換えられ、本質的に、オブジェクト・データをNから1に圧縮する。上述したように、代替的または追加的に、オブジェクトまたはベッド・チャネルは（たとえば振幅パン技法を使って）二つ以上のクラスターにわたって分配されてもよい。それによりオブジェクト・データはNからMに圧縮される。ここで、M＜Nである。クラスタリング・プロセスは、クラスタリング圧縮とクラスタリングされたオブジェクトの音劣化との間の最適なトレードオフを決定するために、クラスタリングされるオブジェクトの位置、ラウドネスまたは他の特性における変化に起因する歪みに基づく誤差メトリックを利用する。クラスタリング・プロセスは、同期的に実行されることができ、あるいはイベント駆動であって、たとえばクラスタリングを通じたオブジェクト単純化を制御するために聴覚的シーン解析（ASA: auditory scene analysis）およびイベント境界検出を使うことによることができる。いくつかの実施形態では、上記プロセスは、クラスタリングを制御するために、エンドポイント・レンダリング・アルゴリズムおよび装置の知識を利用してもよい。このようにして、再生装置のある種の特性または属性が、クラスタリング・プロセスに情報を与えるために使われてもよい。たとえば、ヘッドフォンまたは他のオーディオ・ドライバに比してスピーカーについては異なるクラスタリング方式が利用されてもよく、あるいは不可逆符号化に比して可逆符号化については異なるクラスタリング方式が利用されてもよい、など。

以下の記述の目的のためには、用語「クラスタリング」および「グループ化」または「組み合わせること」は、適応オーディオ再生システムにおける伝送およびレンダリングのために適応オーディオ・コンテンツの単位内のデータの量を削減するためのオブジェクトおよび／またはベッド（チャネル）の組み合わせを記述するために交換可能に使用される。用語「圧縮」または「削減」は、オブジェクトおよびベッドのそのようなクラスタリングを通じて適応オーディオのシーン単純化を実行する工程を指すために使われることがある。本記述を通じて用語「クラスタリング」、「グループ化」または「組み合わせること」は、オブジェクトまたはベッド・チャネルの単一のクラスターのみへの厳密に一意的な割り当てに限定されるものではない。そうではなく、オブジェクトまたはベッド・チャネルは、重みまたは利得ベクトルを使って二つ以上の出力ベッドまたはクラスターにわたって分配されてもよい。該重みまたは利得ベクトルは、オブジェクトまたはベッド信号の、出力クラスターまたは出力ベッド信号への相対的な寄与を決定する。

図２Ａは、ある実施形態のもとでの、適応オーディオ・コンテンツのレンダリングのためのコーデック回路との関連でクラスタリング・プロセスを実行するクラスタリング・コンポーネントのブロック図である。描画２００に示されるように、回路２００は、低下した帯域幅で出力オーディオ信号を生成するために入力オーディオ信号を処理するエンコーダ２０４およびデコーダ２０６段を含む。図２Ａに示される例については、入力信号の一部２０９が既知の圧縮技法を通じて処理されて、圧縮されたオーディオ・ビットストリーム２０５を生成してもよい。この圧縮されたオーディオ・ビットストリーム２０５がデコーダ段２０６によってデコードされて出力２０７の少なくとも一部を生成する。そのような既知の圧縮技法は、入力オーディオ・コンテンツ２０９を解析し、オーディオ・データを量子化し、次いでオーディオ・データ自身に対してマスキングなどの圧縮技法を実行することに関わる。圧縮技法は不可逆であっても可逆であってもよく、ユーザーが192kbps、256kbps、512kbpsなどといった圧縮された帯域幅を選択することを許容しうるシステムにおいて実装される。

適応オーディオ・システムにおいて、入力オーディオの少なくとも一部は、オーディオおよびメタデータからなるオブジェクトを含む入力信号２０１を含む。メタデータは、オブジェクト空間位置、コンテンツ型、ラウドネスなどといった、関連するオーディオ・コンテンツのある種の特性を定義する。いかなる実際的な数のオーディオ・オブジェクト（たとえば数百のオブジェクト）が再生のために上記システムを通じて処理されてもよい。幅広い多様な再生システムおよび伝送媒体におけるこれら多数のオブジェクトの正確な再生を容易にするために、システム２００は、もとのオブジェクトをより少数のオブジェクト・グループに組み合わせることによってオブジェクトの数を、オブジェクトのより少ない、より扱いやすい数まで削減するクラスタリング・プロセスまたはコンポーネント２０２を含む。このように、クラスタリング・プロセスはオブジェクトのグループを構築して、個々の入力オブジェクト２０１のもとのセットから、より少数の出力グループ２０３を生成する。クラスタリング・プロセス２０２は本質的には、オーディオ・データ自身のほかにオブジェクトのメタデータを処理して、削減された数のオブジェクト・グループを生成する。任意の時点におけるどのオブジェクトが他のオブジェクトと最も適切に組み合わされるかを決定するために、メタデータが解析され、次いで、組み合わされる諸オブジェクトのための対応する諸オーディオ波形が合計されて、代替オブジェクトまたは組み合わされたオブジェクトを生成する。組み合わされたオブジェクト・グループは次いでエンコーダ２０４に入力され、該エンコーダ２０４が、デコーダ２０６への伝送のためのオーディオおよびメタデータを含むビットストリーム２０５を生成する。

一般に、オブジェクト・クラスタリング・プロセス２０２を組み込む適応オーディオ・システムは、もとの空間的オーディオ・フォーマットからメタデータを生成する諸コンポーネントを含む。コーデック回路２００は、通常のチャネル・ベースのオーディオ要素およびオーディオ・オブジェクト符号化要素の両方を含む一つまたは複数のビットストリームを処理するよう構成されたオーディオ・レンダリング・システムの一部を含む。諸オーディオ・オブジェクト符号化要素を含む拡張層が、チャネル・ベースのオーディオ・コーデック・ビットストリームまたはオーディオ・オブジェクト・ビットストリームのいずれか一方に加えられる。このアプローチは、既存のスピーカーおよびドライバ設計または個々に指定可能なドライバおよびドライバ定義を利用する次世代スピーカーと一緒に使うためのレンダラーによって処理されるべき拡張層を含むビットストリーム２０５を可能にする。この空間的オーディオ・プロセッサからの空間的オーディオ・コンテンツは、オーディオ・オブジェクト、チャネルおよび位置メタデータを含む。オブジェクトがレンダリングされるとき、該オブジェクトは、位置メタデータおよび再生スピーカーの位置に従って、一つまたは複数のスピーカーに割り当てられる。追加的なメタデータがオブジェクトに関連付けられていて、再生位置を変更したりまたは他の仕方で再生のために使われるスピーカーを制限したりしてもよい。メタデータは、空間的パラメータ（たとえば位置、速度、強度、音色など）を制御するレンダリング手がかりを提供し、聴取環境におけるどのドライバ（単数または複数）またはスピーカー（単数または複数）が披露の間にそれぞれの音を再生するかを指定するエンジニアのミキシング入力に応答して、オーディオ・ワークステーションにおいて生成されてもよい。該メタデータは、空間的オーディオ・プロセッサによるパッケージングおよび転送のために、ワークステーションにおいてそれぞれのオーディオ・データと関連付けられる。

図２Ｂは、ある実施形態のもとでの、適応オーディオ処理システムにおけるオブジェクトおよびベッドのクラスタリングを示している。描画２５０に示されるように、ある種のシーン単純化タスクを実行するオブジェクト処理コンポーネント２５６は、任意の数の入力オーディオ・ファイルおよびメタデータを読み込む。入力オーディオ・ファイルは入力オブジェクト２５２および関連付けられたオブジェクト・メタデータならびにベッド２５４および関連付けられたベッド・メタデータを含む。このように、この入力ファイル／メタデータは、「ベッド」または「オブジェクト」トラックに対応する。オブジェクト処理コンポーネント２５６は、より少数の出力オブジェクトおよびベッド・トラックを生成するために、メディア・インテリジェンス／コンテンツ分類、空間的歪み解析およびオブジェクト選択／クラスタリングを組み合わせる。具体的には、オブジェクトは一緒にクラスタリングされて、新たな等価な諸オブジェクトまたは諸オブジェクト・クラスター２５８を、関連付けられたオブジェクト／クラスター・メタデータとともに生成することができる。これらのオブジェクトは、ベッドへの「下方混合」のために選択されることもできる。これは、出力ベッド・オブジェクトおよび関連付けられたメタデータ２７０を形成するためにベッド２６２との組み合わせ２６８のためにレンダラー２６６に入力される下方混合されたオブジェクト２６０の出力として示されている。出力ベッド構成２７０（たとえば、家庭用の典型的な5.1）は必ずしも、たとえばAtmos（商標）映画館であることができる入力ベッド構成と一致する必要はない。入力トラックからのメタデータを組み合わせることによって、出力トラックについて新しいメタデータが生成される。入力トラックからのオーディオを組み合わせることによって、出力トラックについて新しいオーディオも生成される。

オブジェクト処理コンポーネント２５６はある種の処理構成設定情報２７２を利用する。ある実施形態では、これは出力オブジェクトの数、フレーム・サイズおよびある種のメディア・インテリジェンス設定を含む。メディア・インテリジェンスとは、コンテンツ型（すなわち、ダイアログ／音楽／効果など）、領域（セグメント／分類）、前処理結果、聴覚的シーン解析結果および他の同様の情報といった、オブジェクトに関連付けられたいくつかのパラメータまたは特性を含むことができる。

ある代替的な実施形態では、単純化メタデータ（たとえば、どのオブジェクトがどのクラスターに属するか、どのオブジェクトがベッドにレンダリングされるか、など）のほかにすべてのもとのトラックへの参照を保持することによって、オーディオ生成は猶予されることができる。これは、スタジオとエンコード・ハウスとの間で、または他の同様のシナリオにおいて単純化プロセスを分散させるために有用であることがある。

図２Ｃは、ある実施形態のもとでの、全体的な適応オーディオ・レンダリング・システムにおける適応オーディオ・データのクラスタリングを示している。全体的な処理システム２２０は、ポストプロダクション２２１、伝送（送達／ストリーミング）２２３および再生システム２２５（家庭／シアター／スタジオ）という三つの主要な段を有する。図２Ｃに示されるように、もとの数のオブジェクトを削減された数のオブジェクトまたはオブジェクト・クラスターに組み合わせることによってオーディオ・コンテンツを単純化するための動的クラスタリング・プロセスは、これらの段の一つまたは任意のものの間に実行されてもよい。

ポストプロダクション段２２１では、映画館および／または家庭ベースの適応オーディオ・コンテンツであることができる入力オーディオ・データ２２２がメタデータ生成プロセス２２４に入力される。このプロセスは、位置、幅、脱相関およびレンダリング・モード情報を含むオブジェクトについての空間的メタデータと、コンテンツ型、オブジェクト境界および相対的重要性（エネルギー／ラウドネス）を含むコンテンツ・メタデータとを生成する。次いで、クラスタリング・プロセス２２６が入力データに適用されて、ある種のオブジェクトをその空間的近接性、時間的近接性または他の特性に基づいて一緒に組み合わせることによって、全体的な数の入力オブジェクトをより少数のオブジェクトに削減する。クラスタリング・プロセス２２６は、システムにおいて入力データが処理される際にコンスタントなまたは定期的なプロセスとしてクラスタリングを実行する動的クラスタリング・プロセスであってもよく、目標クラスター数、オブジェクト／クラスターに対する重要性重み付け、フィルタリング効果などといったある種の制約条件を指定するユーザー入力２２８を利用してもよい。ポストプロダクション段は、混合、脱相関、リミッターなどといったクラスターのある種の処理を提供するクラスター下方混合ステップをも含んでいてもよい。ポストプロダクション段は、オーディオ・エンジニアがクラスタリング・プロセスの結果をモニタリングまたは傾聴して、結果が十分でない場合に入力データ２２２またはユーザー入力２２８を修正することを許容するレンダリング／モニタリング・オプション２３２を含んでいてもよい。

伝送段２２３は一般に、生データからコーデックへのインターフェーシング２３４および適切なコーデック（たとえばTrueHD、ドルビー・デジタル＋など）を使った当該デジタル・データの送達またはストリーミングのための適切な出力フォーマットへのオーディオ・データのパッケージング２３６を含む。伝送段２２３では、さらなる動的クラスタリング・プロセス２３８がポストプロダクション段２２１の間に生成されたオブジェクトに適用されてもよい。

再生システム２２５は伝送されたデジタル・オーディオ・データを受領し、適切な設備（たとえば増幅器およびスピーカー）を通じた再生のために最終的なレンダリング・ステップ２４２を実行する。この段の間に、ある種のユーザー入力２４４および再生システム（計算）機能２４５情報を使って、オブジェクトをクラスターにさらにグループ化するために、追加的な動的クラスタリング・プロセス２４０が適用されてもよい。

ある実施形態では、伝送または再生段のいずれかにおいて実行されるクラスタリング・プロセス２４０および２３８は、形成されるクラスターの数および／またはクラスタリングを実行するために使われる情報の量および型の点で、オブジェクト・クラスタリングの量がポストプロダクションのクラスタリング・プロセス２２６に比べて制限されていてもよいという意味で、制限されたクラスタリング・プロセスであってもよい。

図３のＡは、ある実施形態のもとでの、組み合わされたオブジェクトを生成するための二つのオブジェクトについてのオーディオ信号およびメタデータの組み合わせを示している。描画３００に示されるように、第一のオブジェクトは、波形３０２として示されるオーディオ信号を、各定義された時間期間（たとえば20ミリ秒）についてのメタデータ３１２とともに含む。よって、たとえば、波形３０２が60ミリ秒のオーディオ・クリップである場合、第一のオブジェクトについては、MD1、MD2およびMD3と表わされる三つの異なるメタデータ・インスタンスがある。同じ時間区間について、第二のオブジェクトはオーディオ波形３０４およびMDa、MDbおよびMDcと表わされる三つの異なる対応するメタデータ・インスタンスを含む。クラスタリング・プロセス２０２は、これら二つのオブジェクトを組み合わせて、波形３０６および関連付けられたメタデータ３１６を含む組み合わされたオブジェクトを作り出す。ある実施形態では、もとの第一および第二の波形３０２および３０４がそれらの波形を合計することによって組み合わされて、組み合わされた波形３０６を生成する。あるいはまた、それらの波形は、システム実装に依存して他の波形組み合わせ方法によって組み合わされることができる。第一および第二のオブジェクトについての各期間におけるメタデータも組み合わされて、MD1a、MD2bおよびMD3cと表わされる組み合わされたメタデータ３１６を生成する。メタデータ要素の組み合わせは、定義されたアルゴリズムまたは組み合わせ関数に従って実行され、システム実装に依存して変わることができる。種々の型のメタデータはさまざまな異なる仕方で組み合わされることができる。

図３のＢは、ある実施形態のもとでの、クラスタリング・プロセスについての例示的なメタデータ定義および組み合わせ方法を示す表である。テーブル３５０の列３５２に示されるように、メタデータ定義は、他にもある可能なメタデータ型の中でも、オブジェクト位置、オブジェクト幅、オーディオ・コンテンツ型、ラウドネス、レンダリング・モード、制御信号のようなメタデータ型を含む。メタデータ定義は、各メタデータ型に関連付けられたある種の値を定義する要素を含む。各メタデータ型についての例示的なメタデータ要素はテーブル３５０の列３５４に挙げられている。二つ以上のオブジェクトがクラスタリング・プロセス２０２において一緒に組み合わされるとき、それぞれのメタデータ要素は、定義された組み合わせ方式を通じて組み合わされる。各メタデータ型についての例示的な組み合わせ方式がテーブル３５０の列３５６に挙げられている。図３のＢに示されるように、二つ以上のオブジェクトの位置および幅はそれぞれ、組み合わされたオブジェクトの位置および幅を導出する重み付けされた平均を通じて組み合わされてもよい。位置に関しては、クラスタリングされる（構成要素）オブジェクトを包含する重心の幾何学的中心が、置換オブジェクトの位置を表わすために使用できる。メタデータの組み合わせは、構成要素オブジェクトのメタデータの（相対的な）寄与を決定するために重みを用いてもよい。そのような重みは、一つまたは複数のオブジェクトおよび／またはベッド・チャネルの（部分）ラウドネスから導出されてもよい。

組み合わされたオブジェクトのラウドネスは、構成要素オブジェクトのラウドネスを平均または合計することによって導出されてもよい。ある実施形態では、信号のラウドネス・メトリックは、信号の知覚的なエネルギーを表わし、これは周波数に基づいて重み付けされたエネルギーの指標である。よって、ラウドネスは、聴取者による音の知覚に対応する、スペクトル的に重み付けされたエネルギーである。代替的な実施形態では、ラウドネスの代わりにまたはラウドネスとともに、上記プロセスは信号の純粋なエネルギー（RMSエネルギー）または信号エネルギーの他の何らかの指標を、オブジェクトの重要性を決定する際の因子として使ってもよい。さらに代替的な実施形態では、組み合わされたオブジェクトのラウドネスは、クラスタリングされる諸オブジェクトの部分ラウドネス・データから導出される。ここで、部分ラウドネス（partial loudness）は、音響心理学的原理に基づく、オブジェクトおよびベッドの完全なセットのコンテキストにおけるオブジェクトの（相対的な）ラウドネスを表わす。よって、テーブル３５０に示されるように、ラウドネス・メタデータ型は、絶対ラウドネス、部分ラウドネスまたは組み合わされたラウドネス・メタデータ定義として具現されうる。オブジェクトの部分ラウドネス（または相対的重要性）は、重要性メトリックとしてクラスタリングのために、またはレンダリング・システムがすべてのオブジェクトを個々にレンダリングするための十分な機能をもたない場合にオブジェクトを選択的にレンダリングするための手段として、使用されることができる。

他のメタデータ型は他の組み合わせ方法を必要とすることがある。たとえば、ある種のメタデータは、論理演算または算術演算を通じて組み合わされることはできず、よって選択がなされる必要がある。たとえば、あるモードであるか別のモードであるかのいずれかであるレンダリング・モードの場合には、優勢なオブジェクトのレンダリング・モードが、組み合わされたオブジェクトのレンダリング・モードとなるよう割り当てられてもよい。制御信号などといった他の型のメタデータは、用途およびメタデータ特性に依存して選択または組み合わされうる。

コンテンツ型に関しては、オーディオは一般に、ダイアログ、音楽、周辺音、特殊効果などといったいくつかの定義されたコンテンツ型の一つに分類される。オブジェクトは、その期間を通じてコンテンツ型を変えてもよいが、どの特定の時点においても、それは一般にはコンテンツの一つの型のみである。コンテンツ型はこのように、オブジェクトが任意の時点においてコンテンツのある特定の型である確率として表現される。よって、たとえば、コンスタントなダイアログ・オブジェクトは百パーセントの確率のダイアログ・オブジェクトとして表現されることになる一方、ダイアログから音楽に変容するオブジェクトは五十パーセント・ダイアログ／五十パーセント音楽として表現されてもよい。異なるコンテンツ型をもつオブジェクトのクラスタリングは、各コンテンツ型についてのそれぞれの確率を平均し、最も優勢なオブジェクトについてのコンテンツ型確率またはコンテンツ型指標の他の何らかの論理的な組み合わせを選択することによって実行されることができる。コンテンツ型は、n次元ベクトルとして表現されてもよい（nは異なるコンテンツ型の総数であり、たとえばダイアログ／音楽／周辺音／効果の場合には4）。次いで、クラスタリングされる諸オブジェクトのコンテンツ型が適切なベクトル演算を実行することによって導出される。テーブル３５０に示されるように、コンテンツ型メタデータは、組み合わされたコンテンツ型メタデータ定義として具現されてもよい。ここで、コンテンツ型の組み合わせは組み合わされる諸確率分布（たとえば音楽、発話などの諸確率のベクトル）を反映する。

オーディオの分類に関し、ある実施形態では、上記プロセスは、信号を解析し、信号の特徴を識別し、オブジェクトの特徴が特定のクラスの特徴にどのくらいよく一致するかを判別するために、識別された特徴を既知のクラスの特徴と比較するよう、時間フレーム毎に作用する。特徴が特定のクラスにどのくらいよく一致するかに基づいて、分類器は、オブジェクトが特定のクラスに属する確率を同定できる。たとえば、時刻t＝Tにおいて、オブジェクトの特徴がダイアログ特徴に非常によく合う場合、オブジェクトは高い確率でダイアログとして分類されることになる。時刻＝T＋Nにおいて、オブジェクトの特徴が音楽特徴に非常によく合う場合、オブジェクトは高い確率で音楽として分類されることになる。最後に、時刻T＝T＋2Nにおいて、オブジェクトの特徴がダイアログとも音楽とも特によく合わない場合には、オブジェクトは50%音楽および50%ダイアログとして分類されてもよい。

図３のＢにおけるメタデータ定義の一覧は、ある種の例示的なメタデータ定義を例解することを意図されており、ドライバ定義（数、特性、位置、投射角）、部屋およびスピーカー情報を含む較正情報および他の任意の適切なメタデータといった、他の多くのメタデータ要素も可能である。

ある実施形態では、図２Ａを参照するに、クラスタリング・プロセス２０２は、コーデックのエンコーダ２０４およびデコーダ２０６段とは別個のコンポーネントまたは回路において提供される。コーデック２０４は、既知の圧縮技法を使った圧縮のために生のオーディオ・データ２０９を処理するとともに、オーディオおよびメタデータ定義を含む適応オーディオ・データ２０１を処理するよう構成されていてもよい。一般に、クラスタリング・プロセスは、エンコーダ段２０４の前にオブジェクトをグループにクラスタリングし、クラスタリングされた諸オブジェクトをデコーダ段２０６後にレンダリングするエンコーダ前およびデコーダ後プロセスとして実装されてもよい。あるいはまた、クラスタリング・プロセス２０２は、統合されたコンポーネントとして、エンコーダ２０４段の一部として含められてもよい。

図４は、ある実施形態のもとでの、図２のクラスタリング・プロセスによって用いられるクラスタリング方式のブロック図である。描画４００に示されるように、第一のクラスタリング方式４０２は、個々のオブジェクトを他のオブジェクトとクラスタリングして、削減された情報で伝送されることのできるオブジェクトの一つまたは複数のクラスターを形成することに焦点を当てる。この削減は、複数のオブジェクトを記述する、より少ないオーディオまたはより少ないメタデータの形であることができる。オブジェクトのクラスタリングの一つの例は、空間的に関係しているオブジェクトをグループ化する、すなわち、同様の空間的位置に位置しているオブジェクトを組み合わせることである。ここで、空間的位置が「同様」であることは、構成要素オブジェクトを置換クラスターによって定義される位置にシフトさせることに起因する歪みに基づいて、最大誤差閾値によって定義される。

第二のクラスタリング方式４０４は、空間的に多様でありうるオーディオ・オブジェクトを、固定した空間的位置を表わすチャネル・ベッドと組み合わせることが適切であるときを判別する。この型のクラスタリングの例は、もともと三次元空間中を横切っていくものとして表現されていることがありうるオブジェクトを伝送するための十分な利用可能な帯域幅がなく、代わりに、そのオブジェクトをその水平面上への投影中に混合するというものである。これは、一つまたは複数のオブジェクトが静的なチャネル中に動的に混合されることを許容し、それにより伝送される必要のあるオブジェクトの数を削減する。

第三のクラスタリング方式４０６は、ある種の既知のシステム特性の事前の知識を使う。たとえば、エンドポイント・レンダリング・アルゴリズムおよび／または再生システム中の再生装置の知識が、クラスタリング・プロセスを制御するために使用されてもよい。たとえば、典型的な家庭シアター構成は、固定した位置に位置される物理的なスピーカーに依拠する。これらのシステムは、室内のいくつかのスピーカーの不在を埋め合わせて、室内に存在する聴取者仮想スピーカーを与えるためのアルゴリズムを使うスピーカー仮想化アルゴリズムにも依拠することがある。スピーカーの空間的多様性および仮想化アルゴリズムの正確さといった情報が既知であれば、スピーカー構成および仮想化アルゴリズムは限られた知覚的経験を聴取者に提供することができるだけなので、削減された数のオブジェクトを送ることが可能でありうる。この場合、ベッドにオブジェクトを加えたフルの表現を送ることは帯域幅の浪費になることがあり、よってある程度のクラスタリングが適切であろう。他の型の既知の情報がこのクラスタリング方式において使われることもできる。たとえば、クラスタリングを制御するためのオブジェクト（単数または複数）のコンテンツ型またはクラスタリングを制御するためのオブジェクト（単数または複数）の幅である。この実施形態のために、コーデック回路２００は、再生装置に基づいて出力オーディオ信号２０７を適応させるよう構成されていてもよい。この機能は、ユーザーまたは他のプロセスが、グループ化されたクラスター２０３の数および圧縮されたオーディオ２１１についての圧縮率を定義することを許容する。種々の伝送媒体および再生装置が著しく異なる帯域幅容量をもつことがあるので、標準的な圧縮アルゴリズムおよびオブジェクト・クラスタリング両方についての柔軟な圧縮方式が有利でありうる。たとえば、入力が第一の数、たとえば100のもとのオブジェクトを含んでいる場合、クラスタリング・プロセスは、ブルーレイ・システムのために20個の組み合わされたグループ２０３を、あるいは携帯電話再生のために10個のオブジェクトなどを生成するよう構成されていてもよい。クラスタリング・プロセス２０２は、段階的により少数のクラスタリングされたグループ２０３を生成するよう再帰的に適用されてもよい。それにより、異なる再生用途のために出力信号２０７の異なるセットが提供されうる。

第四のクラスタリング方式４０８は、オブジェクトの動的なクラスタリングおよび脱クラスタリングを制御するために時間的情報を使うことを含む。ある実施形態では、クラスタリング・プロセスは、規則的な間隔または周期で実行される（たとえば10ミリ秒毎に一回）。あるいはまた、個々のオブジェクトの継続時間に基づいて最適なクラスタリング構成を決定するためにオーディオ・コンテンツを解析して処理するために、聴覚的シーン解析（ASA）および聴覚的イベント境界検出のような技法を含む他の時間的イベントが使われることができる。

描画４００において示される諸方式が、クラスタリング・プロセス２０２によって、スタンドアローンの工程として、あるいは一つまたは複数の他の方式との組み合わせにおいて実行されることができることを注意しておくべきである。これらの方式はまた、他の方式に対していかなる順序で実行されてもよく、クラスタリング・プロセスの実行のためにいかなる特定の順序も必須とはされない。

クラスタリングが空間的位置に基づく場合４０２については、もとのオブジェクトはクラスターにグループ化され、それらのクラスターについて空間的重心が動的に構築される。重心の位置がそのグループの新たな位置になる。そのグループについてのオーディオ信号は、そのグループに属する各オブジェクトについてのすべてのもとのオーディオ信号のミックスダウンである。各クラスターは、そのもとのコンテンツを近似するが、もとの入力オブジェクトと同じコア属性／データ構造を共有する新たなオブジェクトと見ることができる。結果として、各オブジェクト・クラスターはオブジェクト・レンダラーによって直接処理されることができる。

ある実施形態では、クラスタリング・プロセスは、もとの数のオーディオ・オブジェクトおよび／またはベッド・チャネルを、目標数の新たな等価なオブジェクトおよびベッド・チャネルに動的にグループ化する。たいていの実際上の応用では、目標数はもとの数より実質的に少ない。たとえば、100個のもとの入力トラックが20個以下の組み合わされたグループに組み合わされる。これらの解決策は、ベッドおよびオブジェクト・チャネルの両方がクラスタリング・プロセスに対して入力および／または出力として利用可能であるシナリオに当てはまる。オブジェクトおよびベッド・トラックの両方をサポートする第一の解決策は、入力ベッド・トラックを、空間内の固定したあらかじめ定義された位置をもつオブジェクトとして処理するというものである。これは、システムが、たとえばオブジェクトおよびベッドの両方を含むシーンを、目標数のオブジェクト・トラックのみに単純化することを許容する。しかしながら、クラスタリング・プロセスの一部として、出力ベッド・トラックの数を保存することが望ましいこともありうる。その場合、より重要でないオブジェクトは、前置プロセスとして、ベッド・トラックに直接レンダリングされることができ、一方、最も重要な諸オブジェクトは、より少ない目標数の等価なオブジェクト・トラックにさらにクラスタリングされることができる。結果として得られるクラスターのいくつかが高い歪みをもつ場合、それらのクラスターは、後置プロセスとしてベッドにレンダリングされることもできる。このほうがもとのコンテンツのよりよい近似につながりうるからである。誤差／歪みは時間変化する関数なので、この決定は、時間変化する仕方でなされることができる。

ある実施形態では、クラスタリング・プロセスは、すべての個々の入力トラック（オブジェクトまたはベッド）２０１のオーディオ・コンテンツおよび付属のメタデータ（たとえばオブジェクトの空間的位置）を解析して、所与の誤差メトリックを最小にする等価な数の出力オブジェクト／ベッド・トラックを導出することに関わる。基本的な実装では、誤差メトリックは、クラスタリングされるオブジェクトをシフトさせることに起因する空間的歪みに基づき、時間を追った各オブジェクトの重要性の指標によってさらに重み付けされることができる。オブジェクトの重要性は、ラウドネス、コンテンツ型および他の有意な因子といったオブジェクトの他の特性を表わすことができる。あるいはまた、これら他の因子は、空間的な誤差メトリックと組み合わされることのできる別個の誤差メトリックを形成することができる。

〈誤差計算〉
クラスタリング・プロセスは本質的には、システムを通じて伝送されるデータの量を削減するが、もとのオブジェクトをより少数のレンダリングされるオブジェクトに組み合わせることに起因するある程度のコンテンツ劣化を本来的に導入する、不可逆圧縮方式の型を表わす。上記のように、オブジェクトのクラスタリングに起因する劣化は、誤差メトリックによって定量化される。もとのオブジェクトの比較的少数の組み合わされたグループへの削減が大きいほど、および／またはもとのオブジェクトを組み合わされたグループにする空間的縮退の量が大きいほど、一般に、誤差が大きくなる。ある実施形態では、クラスタリング・プロセスにおいて使われる誤差メトリックは、式(1)に示されるように表現される。

E(s,c)[t]＝Importance_s[t]*dist(s,c)[t] (1)。

上記のように、オブジェクトは、他のオブジェクトと一緒に単一のクラスターにグループ化されるのではなく、二つ以上のクラスターにわたって分配されてもよい。インデックスsをもつオブジェクト信号x(s)[t]が二つ以上のクラスターcにわたって分配されるとき、代表クラスター・オーディオ信号y(c)[t]は振幅利得g(s,c)[t]を使って、式(2)に示されるように、
y(c)[t]＝sum_s g(s,c)[t]*x(s)[t] (2)
である。各クラスターcについての誤差メトリックE(s,c)[t]は、式(1)で表わされる諸項の、振幅利得g(s,c)[t]の関数である重みによる重み付けされた組み合わせであることができ、式(3)に示されるようになる：
E(s,c)[t]＝sum_s（f(g(s,c)[t])*Importance_s[t]*dist(s,c)[t]） (3)。

ある実施形態では、クラスタリング・プロセスは、幅または広がり（spread）パラメータをもつオブジェクトをサポートする。幅は、ピンポイント源としてではなく、見かけの空間的広がりをもつ音としてレンダリングされるオブジェクトのために使われる。幅パラメータが増すにつれて、レンダリングされる音はより空間的に拡散したものとなり、結果として、その特定の位置はそれほど有意でなくなる。よって、幅が増すにつれてより多くの位置誤差を支持するよう、クラスタリング歪みメトリックに幅を含めることが有利である。誤差表現E(s,c)はよって、式(4)に示されるように、幅メトリックを取り入れるよう修正されることができる：
E(s,c)[t]＝Importance_s[t]*（α*(1−Width_s[t])*dist(s,c)[t]＋(1−α)*Width_s[t]） (4)。

上記の式(1)および(3)において、重要性因子sはオブジェクトの相対重要性であり、cはクラスターの重心であり、dist(s,c)はオブジェクトとクラスターの重心との間の三次元的なユークリッド距離である。これらの量すべては、[t]の項によって表わされるように、時間的に変化する。オブジェクトの位置に対するサイズの相対的な重みを制御するために、重み付け項αが導入されることもできる。

重要性関数Importance_s[t]は、信号のラウドネスのような信号ベースのメトリックを、各オブジェクトが当該混合の残りに対してどのくらい顕著であるかの、より高レベルの指標と組み合わせたものであることができる。たとえば、同様の信号が一緒にグループ化される傾向となるよう、入力オブジェクトの各対について計算されるスペクトル類似性指標がさらにラウドネス・メトリックに重み付けすることができる。たとえば映画コンテンツについては、スクリーン上のオブジェクトに対してより大きな重要性を与えることが望ましいこともあり、その場合、上記重要性は、前方中央オブジェクトについて最大になりオブジェクトがスクリーン外に移るにつれて減衰していく、方向性のドット積項によってさらに重み付けされることができる。

クラスターを構築するとき、クラスタリングが時間的に一貫するよう、重要性関数は、比較的長い時間窓（たとえば0.5秒）にわたって時間的に平滑化される。このコンテキストでは、オブジェクト開始および停止時刻の先読みまたは事前の知識を含めることが、クラスタリングの精度を改善できる。対照的に、クラスター重心の等価な空間的位置は、重要性関数のより高いレートの推定を使うことによって、より高いレート（10ないし40ミリ秒）で適応されることができる。重要性メトリックにおける突然の変化または増加（たとえば過渡検出器を使う）は、上記の比較的長い時間窓を一時的に短くしたり、あるいは該長い時間窓との関係で任意の解析状態をリセットしたりしてもよい。

上記のように、コンテンツ型のような他の情報も、追加的な重要性重み付け項として誤差メトリックに含められることができる。たとえば、映画サウンドトラックでは、ダイアログが音楽およびサウンド効果より重要であると考えられることがある。したがって、対応するオブジェクトの相対的な重要性を増加させることによって、一つまたは若干数のダイアログのみのクラスター内にダイアログを分離することが好ましいであろう。各オブジェクトの相対的重要性は、ユーザーによって提供されるまたは手動で調節されることもできる。同様に、ユーザーが望むなら、もとのオブジェクトの特定の部分集合だけがクラスタリングまたは単純化されることができ、一方、他のオブジェクトは個々にレンダリングされるオブジェクトとして保持されることになる。コンテンツ型情報は、オーディオ・コンテンツを分類するためにメディア・インテリジェンス技法を使って自動的に生成されることもできる。

誤差メトリックE(s,c)は、組み合わされたメタデータ要素に基づくいくつかの誤差成分の関数であることができる。このように、距離以外の他の情報がクラスタリング誤差において考慮されることができる。たとえば、ダイアログ、音楽、効果などといったオブジェクト型に基づいて、異なるオブジェクトではなく、同様のオブジェクトが一緒にクラスタリングされてもよい。両立しない異なる型のオブジェクトを組み合わせる結果として出力音の歪みまたは劣化が生じることがある。誤差は、クラスタリングされるオブジェクトの一つまたは複数についての不適切なまたは最適でないレンダリング・モードに起因して導入されることもある。同様に、特定の諸オブジェクトについてのある種の制御信号が、クラスタリングされるオブジェクトについて、度外視され、または妥協されることがある。このように、あるオブジェクトがクラスタリングされるときに組み合わされる各メタデータ要素についての誤差の和を表わす全体的な誤差項が定義されてもよい。全体的な誤差の例示的な表式は式(5)に示される：
E_overallt]＝ΣE_MDn (5)。

式(5)において、MDnは、あるクラスター内に併合される各オブジェクトについて組み合わされるN個のメタデータ要素の特定のメタデータ要素を表わし、E_MDnはそのメタデータをクラスター中の他のオブジェクトについての対応するメタデータ値と組み合わせることに付随する誤差を表わす。この誤差値は、平均されるメタデータ値（たとえば位置／ラウドネス）については百分率値として、あるいはある値または別の値として選択されるメタデータ値（たとえばレンダリング・モード）については二値の0パーセントもしくは100パーセント値として、表わされてもよく、あるいは他の任意の適切な誤差メトリックであってもよい。図３のＢに示されるメタデータ要素については、全体的な誤差は式(6)に示されるように表わすことができる：
E_overallt]＝E_spatial＋E_loudness＋E_rendering＋E_control (6)。

空間的誤差以外の種々の誤差成分が、オブジェクトのクラスタリングおよび脱クラスタリングのための基準として使用されることができる。たとえば、ラウドネスが、クラスタリング挙動を制御するために使われてもよい。個別ラウドネス（specific loudness）は、音響心理学的原理に基づくラウドネスの知覚的な指標である。種々のオブジェクトの個別ラウドネスを測定することによって、オブジェクトの知覚されるラウドネスが、該オブジェクトがクラスタリングされるか否かを案内しうる。たとえば、ラウドネスが大きいオブジェクトは、その空間的な軌跡が修正される場合に、聴取者にとって、より明白になる可能性が高い。一方、より静かなオブジェクトについては逆のことが一般に成り立つ。したがって、個別ラウドネスは、オブジェクトのクラスタリングを制御するための、空間的誤差に加えた重み付け因子として使われることができる。もう一つの例は、オブジェクト型である。ここで、オブジェクトのいくつかの型は、その空間的編成が修正される場合に、より知覚されやすくなりうる。たとえば、人間は発話信号に対して非常に敏感であり、これらの型のオブジェクトは、空間的知覚がそれほど鋭敏でないノイズ様または周辺効果のような他のオブジェクトとは異なる仕方で扱われる必要があることがある。したがって、オブジェクトのクラスタリングを制御するために、空間的誤差に加えて、オブジェクト型（発話、効果、周辺音など）が重み付け因子として使われることができる。

クラスタリング・プロセス２０２は、このように、オブジェクトのある種の特性と、超えられることのできない定義された誤差量とに基づいて、オブジェクトをクラスターに組み合わせる。図３のＡに示されるように、時間的にオブジェクト・グループ化を最適にするために、種々のまたは周期的な時間間隔でオブジェクト・グループをコンスタントに構築するために、クラスタリング・プロセス２０２は動的にオブジェクト・グループ２０３を再計算する。代替または組み合わされたオブジェクト・グループは、構成要素オブジェクトのメタデータの組み合わせを表わす新たなメタデータ・セットと、構成要素オブジェクト・オーディオ信号の総和を表わすオーディオ信号とを表わす。図３のＡに示される例は、組み合わされたオブジェクト３０６が、特定の時点についてのもとのオブジェクト３０２および３０４を組み合わせることによって導出される場合を例示している。のちの時点において、組み合わされたオブジェクトは、クラスタリング・プロセスによって実行される動的な処理に依存して、一つまたは複数の他のまたは異なるもとのオブジェクトを組み合わせることによって導出されることができる。

ある実施形態では、クラスタリング・プロセスは、10ミリ秒毎に一度または他の任意の適切な時間期間など、規則的な周期的間隔で、オブジェクトを解析し、クラスタリングを実行する。図５のＡおよびＢは、ある実施形態のもとでの、周期的な時間間隔の間にオブジェクトをクラスターにグループ化することを示している。特定の諸時点におけるオブジェクトの位置または場所をプロットする描画５００に示されるように、さまざまなオブジェクトが任意の一つの時点において種々の位置に存在することがあり、それらのオブジェクトは、図５のＡに示されるように異なる幅のものであることができる。図５のＡにおいて、オブジェクトO₃は他のオブジェクトより大きい幅をもつように示されている。クラスタリング・プロセスは、定義された最大誤差閾値に関して、互いに十分に空間的に近い諸オブジェクトの諸グループを形成するために、オブジェクトを解析する。互いから誤差閾値５０２によって定義される距離以内分離したオブジェクトは、一緒にクラスタリングされる資格がある。よって、オブジェクトO₁およびO₃はオブジェクト・クラスターA内に一緒にクラスタリングされることができ、オブジェクトO₄およびO₅は異なるオブジェクト・クラスターB内に一緒にクラスタリングされることができる。これらのクラスターは、ある時刻（たとえばT＝0ミリ秒）におけるそれらのオブジェクトの相対位置に基づいて形成される。次の時間期間においては、それらのオブジェクトは、移動しているまたはメタデータ特性の一つまたは複数の点で変化していることがありうる。その場合、オブジェクト・クラスターは定義し直されてもよい。各オブジェクト・クラスターは、構成要素オブジェクトを、異なる波形とメタデータのセットで置き換える。このように、オブジェクト・クラスターAは、オブジェクトO₁ないしO₃のそれぞれについての個々の波形およびメタデータの代わりにレンダリングされる、波形とメタデータのセットを含む。

図５のＢは、次の時間期間（たとえばTime＝10ミリ秒）におけるオブジェクトの異なるクラスタリングを示している。描画５５０の例では、オブジェクトO₅はオブジェクトO₄から離れ、別のオブジェクト、オブジェクトO₆に近い近傍内に移っている。この場合、オブジェクト・クラスターBは今ではオブジェクトO₅ないしO₆を含み、オブジェクトO₄は脱クラスタリングされ、スタンドアローン・オブジェクトとしてレンダリングされる。他の因子も、オブジェクトが脱クラスタリングされたり、あるいはオブジェクトがクラスターを変えたりするようにすることがある。たとえば、オブジェクトの幅またはラウドネス（または他のパラメータ）がその近隣オブジェクトと比べて十分大きいまたは異なるようになることがあり、そうすれば、該オブジェクトはもはやそれらの近隣オブジェクトと一緒にクラスタリングされるべきではない。このように、図５のＢに示されるように、オブジェクトO₃が十分幅広になってもよく、オブジェクト・クラスターAから脱クラスタリングされて単独でレンダリングされる。図５のＡ〜Ｂにおける水平軸が時間を表わすのではなく、視覚的な編成および議論のために複数のオブジェクトを空間的に分布させる次元として使われていることを注意しておくべきである。これらの描画のトップ全体が、全オブジェクトの時刻tにおける瞬間またはスナップショットおよびそれらのオブジェクトがどのようにクラスタリングされるかを表わしている。

図５のＡないしＢに示されるような時間期間毎にクラスタリングを実行する代わりに、クラスタリング・プロセスは、オブジェクトに関連するトリガー条件またはイベントに基づいてオブジェクトをクラスタリングしてもよい。一つのそのようなトリガー条件は、各オブジェクトについての開始および停止時刻である。図６Ａないし６Ｃは、ある実施形態のもとでの、定義されたオブジェクト境界および誤差閾値との関係で、オブジェクトをクラスターにグループ化することを示している。閾ステップとして、各オブジェクトは、特定の時間期間内に定義される必要がある。さまざまな異なる方法が時間においてオブジェクトを定義するために使用されうる。ある実施形態では、オブジェクト開始／停止の時間的情報が、クラスタリング・プロセスのためにオブジェクトを定義するために使われることができる。この方法は、オーディオ・オブジェクトの開始点および停止点を定義する明示的な時間ベースの境界情報を利用する。あるいはまた、時間においてオブジェクトを定義するイベント境界を識別するために、聴覚的シーン解析技法が使用されることができる。そのような技法は、特許文献１において記述されている。該文献はここに参照によって組み込まれ、物件Bとして本明細書に添付される。検出された聴覚的シーン・イベント境界は、オーディオにおける知覚的な変化がある、時間において知覚的に有意な瞬間であり、これが、聴取者に聞こえないオーディオに対して変化がなされることができる、オーディオ内での「知覚的マスキング」を提供するために使用されることができる。

図６Ａないし６Ｃは、ある実施形態のもとでの、クラスタリング・プロセスを使ったオーディオ・オブジェクトのクラスタリングを制御するための、聴覚的シーン解析およびオーディオ・イベント検出または他の同様の方法の使用を示している。これらの図の例は、クラスターを定義し、定義された誤差閾値に基づいてオブジェクト・クラスターからオーディオ・オブジェクトを除去するために、検出された聴覚的イベントを使うことを概観している。図６Ａは、特定の時刻（t）における空間的誤差のプロットにおけるオブジェクト・クラスターの生成を示す描画６００である。二つのオーディオ・オブジェクト・クラスターがクラスターAおよびクラスターBと表わされ、オブジェクト・クラスターAが四つのオーディオ・オブジェクトO₁ないしO₄から構成され、オブジェクト・クラスターBが三つのオーディオ・オブジェクトO₅ないしO₇から構成される。描画６００の縦方向の次元は空間的誤差を示し、これはある空間的オブジェクトがクラスタリングされるオブジェクトの残りのものからどのくらい似ていないかの指標であり、そのオブジェクトをクラスターから除去するために使われることができる。描画６００には、さまざまな個々のオブジェクトO₁ないしO₇についての検出された聴覚的イベント境界６０４も示されている。各オブジェクトがオーディオ波形を表わすので、任意の所与の時点において、オブジェクトが検出された聴覚的イベント境界６０４をもつことが可能である。描画６００に示されるように、時刻＝tにおいては、オブジェクトO₁およびO₆が、それらのオーディオ信号のそれぞれにおいて、検出された聴覚的イベント境界をもつ。図６Ａ〜６Ｃにおける横軸は時間を表わすのではなく、視覚的な編成および議論のために複数のオブジェクトを空間的に分布させる次元として使われていることを注意しておくべきである。この描画のトップ全体が、全オブジェクトの時刻tにおける瞬間またはスナップショットおよびそれらのオブジェクトがどのようにクラスタリングされるかを表わしている。

図６Ａに示されるように、空間的誤差閾値６０２がある。この値は、クラスターからオブジェクトを除去するために超過される必要がある誤差の大きさを表わす。すなわち、あるオブジェクトが、この誤差閾値６０２を超える量だけ潜在的なクラスター中の他のオブジェクトから離れていれば、そのオブジェクトはそのクラスターに含められない。このように、図６Ａの例については、個々のオブジェクトのいずれも、閾値６０２によって示される空間的誤差閾値を超える空間的誤差をもたず、したがって、脱クラスタリングは起こらない。

図６Ｂは、図６Ａのクラスタリング例を時刻＝t＋Nにおいて示している。この時刻は、tより何らかの有限の時間だけ後であり、オブジェクトO₁ないしO₃およびO₅ないしO₇については、各オブジェクトの空間的誤差がわずかに変化している。この例において、オブジェクトO₄は、上記のあらかじめ定義された空間的誤差閾値６２２を超える空間的誤差をもつ。時刻＝t＋Nでは、聴覚的イベント境界はオブジェクトO₂およびO₄について検出されていることを注意しておくべきである。このことは、時刻＝t＋Nにおいては、O₄についての波形におけるイベント境界によって作り出される知覚的マスキングが、当該オブジェクトがクラスターから除去されることを許容することを示している。オブジェクトO₄はt＜時刻＜t＋Nの間に空間的誤差閾値を超えたことがありうるが、聴覚的イベントは検出されなかったので、該オブジェクトはオブジェクト・クラスターA内に残っていたことを注意しておく。この場合、クラスタリング・プロセスは、オブジェクトO₄がクラスターAから除去される（脱クラスタリングされる）ようにする。図６Ｃに示されるように、オブジェクト・クラスターAからオブジェクトO₄を除去した結果として、時刻＝t＋N＋1において新たなオブジェクト・クラスタリング編成が生じる。この時点において、オブジェクトO₄は、レンダリングされる単一のオブジェクトとして存在してもよいし、あるいは好適なクラスターがあれば別のオブジェクト・クラスター中に統合されてもよい。

適応オーディオ・システムでは、ある種のオブジェクトは、固定されたオブジェクト、たとえば特定のスピーカー・フィードに関連付けられているチャネル・ベッドとして定義されてもよい。ある実施形態では、クラスタリング・プロセスは、ベッドと動的オブジェクトの相互作用を考慮に入れ、オブジェクトがクラスタリングされたオブジェクトとグループ化されると大きすぎる誤差を生じる（たとえば、そのオブジェクトが外れているオブジェクトである）ときは、そのオブジェクトは代わりにあるベッドに混合される。図７は、ある実施形態のもとでの、オブジェクトおよびベッドをクラスタリングする方法を示すフローチャートである。図７に示される方法７００では、ベッドは固定位置のオブジェクトとして定義されることが想定される。次いで、外れているオブジェクトは、該オブジェクトが他のオブジェクトとクラスタリングするための誤差閾値より上であれば、一つまたは複数の適切なベッドとクラスタリングされる（混合される）（工程７０２）。次いで、該ベッド・チャネル（単数または複数）は、クラスタリング後に上記オブジェクト情報でラベル付けされる（工程７０４）。次いで、プロセスは、オーディオをより多くのチャネルにレンダリングし、追加的チャネルをオブジェクトとしてクラスタリングし（工程７０６）、アーチファクト／脱相関、位相歪みなどを避けるために下方混合またはスマート・ダウンミックスに対してダイナミックレンジ管理を実行する（工程７０８）。工程７１０では、プロセスは2パスの選別／クラスタリング・プロセスを実行する。ある実施形態では、これは、N個の最も顕著なオブジェクトを別個に保持し、残りのオブジェクトをクラスタリングすることに関わる。こうして、工程７１２では、プロセスは、それほど顕著でないオブジェクトのみをグループまたは固定されたベッドにクラスタリングする。固定されたベッドは、動いているオブジェクトまたはクラスタリングされたオブジェクトに加えられることができ、これは、ヘッドフォン仮想化のような個別的なエンドポイント装置にとってより好適でありうる。何個のオブジェクトが、そしてどのオブジェクトが一緒にクラスタリングされるかおよびどこでそれらがクラスタリング後に空間的にレンダリングされるかの特性として、オブジェクト幅が使われてもよい。

ある実施形態では、オブジェクト信号ベースの顕著性（saliency）は、混合の平均スペクトルと、各オブジェクトのスペクトルとの間の差であり、顕著性メタデータ要素がオブジェクト／クラスターに追加されてもよい。相対ラウドネスは、各オブジェクトが最終的な混合に寄与するエネルギー／ラウドネスの割合である。相対ラウドネス・メタデータ要素もオブジェクト／クラスターに加えられることができる。本プロセスは次いで、マスクされる源を選別するおよび／または最も重要な諸源を保存するために顕著性によってソートすることができる。クラスターは、重要性が低い／顕著性が低い源をさらに減衰させることによって単純化されることができる。

クラスタリング・プロセスは、一般に、オーディオ符号化に先立つデータ・レート削減のための手段として使われる。ある実施形態では、オブジェクト・クラスタリング／グループ化は、デコード中に、エンドポイント装置のレンダリング機能に基づいて使われる。完全な映画館再生環境、家庭シアター・システム、ゲーム・システムおよびパーソナル・ポータブル装置およびヘッドフォン・システムからの任意のものといったさまざまな異なるエンドポイント装置が、本稿に記載されるようなクラスタリング・プロセスを用いるレンダリング・システムとの関連で使用されうる。このように、レンダリングに先立って、レンダラーの機能を超過しないために、ブルーレイ・プレーヤーのような装置においてオブジェクトおよびベッドをデコードする間に、同じクラスタリング技法が利用されうる。一般に、オブジェクトおよびベッド・オーディオ・フォーマットのレンダリングは、各オブジェクトが、各オブジェクトの空間的情報の関数としてレンダラーに関連付けられたチャネルの何らかの集合にレンダリングされることを要求する。このレンダリングの計算コストは、オブジェクトの数とともにスケーリングし、したがって、いかなるレンダリング装置も該レンダリング装置がレンダリングすることができるオブジェクトの何らかの最大数をもち、該最大数は該レンダリング装置の計算機能の関数である。AVRのようなハイエンド・レンダラーは、多数のオブジェクトを同時にレンダリングできる高度なプロセッサを含むことがある。ボックス内家庭シアター（HTIB: home theater in a box）またはサウンドバーのようなそれほど高価でない装置は、より限られたプロセッサのため、より少数のオブジェクトをレンダリングできることがある。したがって、レンダラーがデコーダに対して、自分が受け容れることができるオブジェクトおよびベッドの最大数を通信することが有利である。この数がデコードされたオーディオに含まれているオブジェクトおよびベッドの数より少ない場合には、デコーダは、総数を通信された最大まで減らすよう、レンダラーへの送信に先立って、オブジェクトおよびベッドのクラスタリングを適用してもよい。機能のこの通信は、内蔵ブルーレイ・プレーヤーを含んでいるHTIBのような単一の装置内での別個のデコードおよびレンダリングのソフトウェア・コンポーネント間で、あるいはスタンドアローンのブルーレイ・プレーヤーとAVRのような二つの別個の装置の間でHDMIのような通信リンクを通じて、行なわれうる。オブジェクトおよびクラスターに関連付けられたメタデータは、レンダラーによってクラスター数を最適に削減するよう情報を指示または提供してもよい。それはたとえば、重要性の順序を列挙すること、クラスターの（相対的）重要性を信号伝達することまたはレンダリングされるべきクラスターの全体的な数を削減するためにどのクラスターが逐次的に組み合わされるべきかを指定することによる。これについては、図１５を参照して後述する。

いくつかの実施形態では、クラスタリング・プロセスは、各オブジェクトに内在的な情報以外に何ら追加的情報なしに、デコーダ段２０６において実行されてもよい。しかしながら、このクラスタリングの計算コストは、節約しようとしているレンダリング・コスト以上であることがありうる。より計算効率のよい実施形態は、計算資源がずっと大きいことがありうるエンコード側２０４で階層的なクラスタリング方式を計算し、どのようにしてオブジェクトおよびベッドを漸進的により少数にクラスタリングするかをデコーダに指示するメタデータをエンコードされたビットストリームとともに送ることに関わる。たとえば、メタデータは、まずオブジェクト2をオブジェクト10と併合せよ、第二に、結果として得られるオブジェクトをオブジェクト5と併合せよ、などと述べるものであってもよい。

ある実施形態では、オブジェクトは、オブジェクト・トラック内に含まれるオーディオのある種の属性を表わすために該オブジェクトに関連付けられた一つまたは複数の時間変化するラベルを有していてもよい。上記のように、オブジェクトは、ダイアログ、音楽、効果、背景などといったいくつかのディスクリートなコンテンツ型の一つにカテゴリー分けされてもよく、これらの型がクラスタリングを案内するのを助けるために使われてもよい。同時に、これらのカテゴリーはレンダリング・プロセスの間に有用であってもよい。たとえば、ダイアログ向上アルゴリズムは、ダイアログとラベル付けされたオブジェクトに対してのみ適用されうる。しかしながら、オブジェクトがクラスタリングされるときは、クラスターは複数の異なるラベルをもつオブジェクトから構成されることがありうる。クラスターにラベル付けするために、いくつかの技法を用いることができる。たとえば、最大量のエネルギーをもつオブジェクトのラベルを選択することによって、クラスターについての単一のラベルが選ばれてもよい。この選択も時間変化してもよい。その場合、単一のラベルがクラスターの継続期間中に規則的な時間間隔で選ばれ、各特定の区間において、ラベルがその特定の区間内で最大エネルギーをもつオブジェクトから選ばれる。場合によっては、単一のラベルでは十分でないことがあり、新しい、組み合わされたラベルが生成されてもよい。たとえば、規則的な間隔で、その区間の間、クラスターに寄与するすべてのオブジェクトのラベルがクラスターに関連付けられてもよい。あるいはまた、これら寄与するラベルのそれぞれに重みが関連付けられてもよい。たとえば、重みは、その特定の型に属する全体的なエネルギーの割合に等しく設定されてもよい：たとえば、50%ダイアログ、30%音楽および20%効果。そのようなラベル付けは、その後、レンダラーによって、より柔軟な仕方で使用されうる。たとえば、ダイアログ向上アルゴリズムは、少なくとも50%ダイアログを含むクラスタリングされたオブジェクト・トラックに対してのみ適用されうる。

ひとたび種々のオブジェクトを組み合わせるクラスターが定義されたら、各クラスターについて等価なオーディオ・データが生成される必要がある。ある実施形態では、図３のＡに示されるように、組み合わされたオーディオ・データは単にクラスター中の各もとのオブジェクトについてのもとのオーディオ・コンテンツの和である。しかしながら、この単純な技法はデジタル・クリッピングにつながりうる。この可能性を緩和するために、いくつかの異なる技法が用いられることができる。たとえば、レンダラーが浮動オーディオ・データをサポートする場合、高ダイナミックレンジ（high dynamic range）情報が記憶され、のちの処理段において使われるべく、レンダラーに渡されることができる。限られたダイナミックレンジしか利用可能でない場合には、結果として得られる信号を制限するまたは結果として得られる信号を固定でも動的でもよい何らかの量だけ減衰させることが望ましい。この後者の場合、減衰係数は動的利得としてオブジェクト・データ中に運び込まれる。場合によっては、構成要素信号の直接的な和は櫛形フィルタリング・アーチファクトにつながることがある。この問題は、和を取る前に脱相関フィルタまたは同様のプロセスを適用することによって緩和できる。下方混合に起因する音色変化を緩和するもう一つの方法は、和をとる前にオブジェクト信号の位相整列を使うことである。櫛形フィルタリングまたは音色変化を解決するさらにもう一つの方法は、合計された信号のスペクトルおよび個々のオブジェクト信号のスペクトルに応答して、合計されたオーディオ信号に対して周波数依存重みを適用することによって、振幅またはパワー無償総和（complimentary summation）を施行し直すことである。

下方混合を生成するとき、プロセスはさらに、データの圧縮を増すために、クラスターのビット深さを削減することができる。これは、ノイズ整形（noise-shaping）または同様のプロセスを通じて実行されることができる。ビット深さ削減は、構成要素オブジェクトより少数のビットをもつクラスターを生成する。たとえば、一つまたは複数の24ビット・オブジェクトが16または20ビットとして表現されるクラスターにグループ化されることができる。クラスターの重要性またはエネルギーまたは他の因子に依存して、異なるクラスターおよびオブジェクトについて異なるビット削減方式が使用されてもよい。さらに、下方混合を生成するとき、結果として得られる下方混合信号が、固定数のビットを用いたデジタル表現によって表現できる受け容れ可能な範囲外のサンプル値をもつことがある。そのような場合、範囲外のサンプル値を防止するために、下方混合信号は、ピーク制限器を使って制限されたり、あるいはある量だけ（一時的に）減衰されてもよい。適用された減衰の量はクラスター・メタデータに含められてもよく、そうすればレンダリング、符号化または他のその後のプロセスの際に取り消す（または逆にする）ことができる。

ある実施形態では、クラスタリング・プロセスはポインタ機構を用いてもよい。それによれば、メタデータはデータベースまたは他の記憶に記憶されている特定のオーディオ波形へのポインタを含む。オブジェクトのクラスタリングは、組み合わされたメタデータ要素によって適切な波形をポイントすることによって実行される。そのようなシステムは、オーディオ・コンテンツの事前計算されたデータベースを生成し、符号化器およびデコーダ段からオーディオ波形を送信し、次いでクラスタリングされた諸オブジェクトについての特定のオーディオ波形へのポインタを使ってデコード段においてクラスターを構築するアーカイブ・システムにおいて実装されることができる。この型の機構は、異なるエンドポイント装置のためのオブジェクト・ベースのオーディオのパッケージングを容易にするシステムにおいて使われることができる。

クラスタリング・プロセスは、エンドポイント・クライアント装置上でクラスタリングし直すことを許容するよう適応されることもできる。一般には代替クラスターがもとのオブジェクトを置き換えるが、この実施形態については、クラスタリング・プロセスは、各オブジェクトに関連付けられた誤差情報をも送る。クライアントが、オブジェクトが個々にレンダリングされたオブジェクトであるかクラスタリングされたオブジェクトであるか否かを判定できるようにするためである。誤差値が0であれば、クラスタリングがなかったことが推定できる。しかしながら、誤差値が何らかの量に等しければ、そのオブジェクトは何らかのクラスタリングの結果であることが推定できる。次いで、クライアントにおけるレンダリング判断は、誤差の大きさに基づくことができる。一般に、クラスタリング・プロセスはオフライン・プロセスとして実行される。あるいはまた、コンテンツが生成される際のライブ・プロセスとして実行されてもよい。この実施形態については、クラスタリング・コンポーネントは、コンテンツ作成および／またはレンダリング・システムの一部として提供されてもよいツールまたはアプリケーションとして実装されてもよい。

〈知覚ベースのクラスタリング〉
ある実施形態では、クラスタリング方法は、制約された条件においてオブジェクトおよび／またはベッド・チャネルを組み合わせるよう構成される。たとえば、入力オブジェクトは、オブジェクトの多さおよび／またはその空間的に疎な分布のために、空間的な誤差基準を破ることなくしてはクラスタリングされることができない。そのような条件では、クラスタリング・プロセスは、（メタデータから導出される）空間的近接性によって制御されるばかりでなく、対応するオーディオ信号導出された知覚的基準によって補強される。より具体的には、コンテンツ中の高い（知覚される）重要性をもつオブジェクトは、空間的誤差を最小化することに関して、低い重要性をもつオブジェクトに対して優遇される。重要性を定量化することの例は、部分ラウドネスおよびセマンティクス（コンテンツ型）を含むがそれに限られない。

図８は、ある実施形態のもとでの、空間的近接性に加えて知覚的重要性に基づいてオブジェクトおよびベッド・チャネルをクラスターにクラスタリングするシステムを示している。図８に示されるように、システム３６０は前処理ユニット３６６と、知覚的重要性コンポーネント３７６と、クラスタリング・コンポーネント３８４とを有している。チャネル・ベッドおよびまたはオブジェクト３６４は関連付けられたメタデータ３６２とともに、前処理ユニット３６６に入力されて、それらの相対的な知覚的重要性を決定するために処理され、次いで他のベッド／オブジェクトとクラスタリングされて、出力ベッドおよび／またはオブジェクトのクラスター（これは単独オブジェクトからなっていてもよく、あるいはオブジェクトの集合からなっていてもよい）を、これらのクラスターについての関連付けられたメタデータ３９０とともに、生成する。ある例示的な実施形態または実装では、入力は11.1ベッド・チャネルおよび128以上のオーディオ・オブジェクトからなっていてもよく、出力は合計11〜15個のオーダーの信号を各クラスターについての関連付けられたメタデータとともに含むクラスターおよびベッドの集合を含んでいてもよい。ただし、実施形態はこれに限定されるものではない。メタデータは、オブジェクト位置、サイズ、ゾーン・マスク、脱相関器フラグ、スナップ・フラグなどを指定する情報を含んでいてもよい。

前処理ユニット３６６は、他にもあるコンポーネントの中でも、メタデータ処理器３６８、オブジェクト脱相関ユニット３７７、オフライン処理ユニット３７２および信号セグメンテーション・ユニット３７４のような個々の機能コンポーネントを含んでいてもよい。メタデータ出力更新レート３９６のような外部データが前処理器３６６に提供されてもよい。知覚的重要性コンポーネント３７６は、他にもあるコンポーネントの中でも、重心初期化コンポーネント３７８，部分ラウドネス・コンポーネント３８０およびメディア・インテリジェンス・ユニット３８２を有する。出力ベッドおよびオブジェクト構成データ３９８のような外部データが知覚的重要性コンポーネント３７６に提供されてもよい。クラスタリング・コンポーネント３８４は、信号併合３８６およびメタデータ併合３８８コンポーネントを有する。これらのコンポーネントは、クラスタリングされたベッド／オブジェクトを形成して、組み合わされたベッド・チャネルおよびオブジェクトについてのメタデータ３９０およびクラスター３９２を生成する。

部分ラウドネス（partial loudness）に関し、オブジェクトの知覚されるラウドネスは、通例、他のオブジェクトのコンテキストにおいて低下する。たとえば、オブジェクトは、シーン内に存在する他のオブジェクトおよび／またはベッド・チャネルによって（部分的に）マスクされることがある。ある実施形態では、高い部分ラウドネスをもつオブジェクトが、空間的誤差最小化に関し、低い部分ラウドネスをもつオブジェクトより優遇される。このように、相対的にマスクされていない（すなわち、知覚的にラウドネスがより大きい）オブジェクトはクラスタリングされる可能性が低くなり、一方、相対的にマスクされているオブジェクトはクラスタリングされる可能性がより高くなる。このプロセスは、好ましくは、マスキングの空間的側面を含む。たとえば、マスクされるオブジェクトとマスクするオブジェクトが異なる空間的属性をもつ場合にマスキングからの解放を含む。換言すれば、ある関心オブジェクトのラウドネスに基づく重要性は、そのオブジェクトが他のオブジェクトから空間的に離れているときは、他のオブジェクトが関心オブジェクトの直近にあるときに比べ、より高くなる。

ある実施形態では、オブジェクトの部分ラウドネス（partial loudness）は空間的マスキング解除現象をもって拡張された個別ラウドネス（specific loudness）を含む。下記の式で与えられるように、二つのオブジェクトの間の空間的距離に基づくマスキングの量を表現するために、マスキングからのバイノーラル解放が導入される：
N'_k(b)＝(A＋ΣE_m(b))^α＋(A＋ΣE_m(b)(1−f(k,m)))^α
。

上式において、最初の和はすべてのmについて実行され、二番目の和はすべてのm≠kについて実行される。項E_m(b)はオブジェクトmの励起を表わし、項Aは絶対聴覚閾値（absolute hearing threshold）を反映し、項(1−f(k,m))はマスキングからの解放を表わす。この式に関するさらなる詳細は、下記で論じられる。

コンテンツ・セマンティクスまたはオーディオ型に関し、ダイアログはしばしば背景音楽、周辺音、効果または他の型のコンテンツより重要である（またはより注意を引く）と考えられる。したがって、オブジェクトの重要性は、その（信号）コンテンツに依存し、相対的に重要でないオブジェクトは重要なオブジェクトよりも、クラスタリングされる可能性が高い。

オブジェクトの知覚的重要性は、オブジェクトの知覚されるラウドネスおよびコンテンツ重要性を組み合わせることによって導出されることができる。たとえば、ある実施形態では、コンテンツ重要性は、ダイアログ信頼スコアに基づいて導出されることができ、この導出されたコンテンツ重要性に基づいて利得値（dB単位）が推定されることができる。次いで、オブジェクトのラウドネスまたは励起は、推定されたラウドネスによって修正されることができ、修正されたラウドネスはオブジェクトの最終的な知覚的重要性を表わす。

図９は、ある実施形態のもとでの、知覚的重要性を使ったオブジェクト・クラスタリング・プロセスの機能コンポーネントを示している。描画９００に示されるように、入力オーディオ・オブジェクト９０２はクラスタリング・プロセス９０４を通じて出力クラスター９１０に組み合わされる。クラスタリング・プロセス９０４は、少なくとも部分的には、オブジェクト信号および任意的にはそのパラメトリックなオブジェクト記述から生成される重要性メトリック９０８に基づいて、オブジェクト９０２をクラスタリングする。これらのオブジェクト信号およびパラメトリックなオブジェクト記述は、クラスタリング・プロセス９０４が使うための重要性メトリック９０８を生成する重要性推定９０６機能に入力される。出力クラスター９１０は、もとの入力オブジェクト構成よりコンパクトな表現（たとえば、より少数のオーディオ・チャネル）をなし、こうして、記憶および伝送要件の低減ならびに、特に限られた処理機能をもつおよび／またはバッテリーで動作する消費者ドメイン装置上でのコンテンツの再現のための計算およびメモリ要件の低減を許容する。

ある実施形態では、重要性推定９０６およびクラスタリング９０４のプロセスは時間の関数として実行される。この実施形態については、入力オブジェクト９００のオーディオ信号は、ある解析コンポーネントにかけられる個々のフレームにセグメント分解される。そのようなセグメント分解は、時間領域波形に対して適用されてもよいが、フィルタバンクまたは他の任意の変換領域を使って適用されてもよい。重要性推定機能９０６は、コンテンツ型および部分ラウドネスを含む入力オーディオ・オブジェクト９０２の一つまたは複数の特性に基づいて機能する。

図１１は、ある実施形態のもとでの、コンテンツ型およびラウドネスという知覚的因子に基づいてオーディオ・オブジェクトを処理する全体的な方法を示すフローチャートである。方法１１００の全体的な諸工程は、入力オブジェクトのコンテンツ型を推定し（１１０２）、次いで、コンテンツ・ベースのオブジェクトの重要性を推定する（１１０４）ことを含む。ブロック１１０６に示されるように、オブジェクトの部分ラウドネスが計算される。部分ラウドネスは、システム構成に依存して、コンテンツ分類と並行して、あるいはコンテンツ分類の前または後に計算されることができる。ラウドネス指標およびコンテンツ解析は次いで組み合わされて（１１０８）、ラウドネスおよびコンテンツに基づく全体的な重要性を導出する。これは、オブジェクトの計算されたラウドネスを、そのオブジェクトがコンテンツに起因して知覚的に重要である確率によって修正することによってなされてもよい。ひとたび組み合わされたオブジェクト重要性が決定されたら、オブジェクトは、ある種のクラスタリング・プロセスに依存して、他のオブジェクトとクラスタリングされるまたはクラスタリングされないことができる。ラウドネスに基づくオブジェクトの過度のクラスタリングおよび非クラスタリングを防止するために、コンテンツ重要性に基づいてラウドネスをなめらかにする平滑化動作が使われてもよい（１１１０）。ラウドネス平滑化に関し、オブジェクトの相対的重要性に基づいて時定数が選択される。重要なオブジェクトについては、ゆっくり平滑化する大きな時定数が選択されることができ、それにより重要なオブジェクトは一貫して、クラスター重心として選択されることができる。コンテンツ重要性に基づいて適応的な時定数が使われてもよい。オブジェクトの平滑化されたラウドネスおよびコンテンツ重要性が次いで、適切な出力クラスターを形成するために使われる（１１１２）。方法６００に示された主たるプロセス工程の各工程の諸側面は、下記でより詳細に述べる。システム制約条件および用途の要件に依存して、必要であれば、プロセス１１００のある種の工程が省略されてもよいことを注意しておくべきである。たとえば、知覚的重要性をコンテンツ型または部分ラウドネスのうちの一方のみに基づくようにすることがありうる基本的なシステムや、ラウドネス平滑化を要求しないものである。

オブジェクト・コンテンツ型の推定（１１０２）に関し、コンテンツ型（たとえばダイアログ、音楽およびサウンド効果）は、オーディオ・オブジェクトの重要性を示すための枢要な情報を提供する。たとえば、ダイアログは通例、ストーリーを伝えるので、映画における最も重要な構成要素であり、適正な再生は典型的には、ダイアログが他の動いているオーディオ・オブジェクトと一緒に動き回ることを許容しないことを要求する。図９における重要性推定機能９０６は、オーディオ・オブジェクトがダイアログであるか否かを、あるいは重要なまたは重要でない型のオブジェクトの他の何らかの型を判定するためにオーディオ・オブジェクトのコンテンツ型を自動的に推定するオーディオ分類コンポーネントを含んでいる。

図１０は、ある実施形態のもとでの、オーディオ分類コンポーネントの機能図である。描画１０００に示されるように、入力オーディオ信号１００２は、入力オーディオ信号の時間的、スペクトル的および／または空間的属性を表わす特徴を抽出する特徴抽出モジュールにおいて処理される。各目標オーディオ型の統計的な属性を表わす事前トレーニングされたモデル１００６の集合も提供される。図１０の例については、モデルはダイアログ、音楽、サウンド効果およびノイズを含むが、他のモデルも可能であり、モデル・トレーニングのためにはさまざまな機械学習技法が適用されることができる。モデル情報１００６および抽出された特徴１００４はモデル比較モジュール１００８に入力される。このモジュール１００８は入力オーディオ信号の特徴を各目標オーディオ型のモデルと比較し、各目標オーディオ型の信頼スコアを計算し、最良一致した諸オーディオ型を推定する。各目標オーディオ型についての信頼スコアがさらに推定される。これは、識別されるべきオーディオ・オブジェクトと目標オーディオ型との間の確率または一致レベルを表わし、0から1（または他の任意の適切な範囲）の値をもつ。信頼スコアは、種々の機械学習方法に依存して計算されることができる。たとえば、ガウシアン混合モデル（GMM: Gaussian Mixture Model）については事後確率が直接、信頼スコアとして使われることができ、サポートベクターマシン（SVM: Support Vector Machine）およびエイダブースト（AdaBoost）については信頼値を近似するためにシグモイド当てはめが使われることができる。他の同様の機械学習方法も使用できる。モデル比較モジュール１００８の出力１０１０は、入力オーディオ信号１００２についてオーディオ型（単数または複数）およびその関連付けられた信頼スコア（単数または複数）を含む。

コンテンツ・ベースのオーディオ・オブジェクト重要性を推定することに関し、ダイアログ指向の用途のためには、上記のようにオーディオ中でダイアログが最も重要な成分であると想定して、コンテンツ・ベースのオーディオ・オブジェクト重要性は、ダイアログ信頼スコアのみに基づいて計算される。他の用途では、コンテンツの好まれる型に依存して、種々のコンテンツ型信頼スコアが使用されうる。ある実施形態では、下記の式で与えられるようなシグモイド関数が利用される：

上式において、l_kはオブジェクトkの推定されたコンテンツ・ベースの重要性であり、p_kはオブジェクトkが発話／ダイアログからなることの対応する推定される確率であり、AおよびBは二つのパラメータである。

閾値cより小さいダイアログ確率スコアをもつものについてはコンテンツ・ベースの重要性を一貫して0に近くさらに設定するために、上記の公式は次のように修正できる：

ある実施形態では、定数cはc＝0.1の値を取ることができ、二つのパラメータAおよびBは定数であるまたは確率スコアp_kに基づいて適応的に調整されることができる。

オブジェクト部分ラウドネスを計算することに関し、複雑な聴覚的シーンにおけるあるオブジェクトの部分ラウドネスを計算する一つの方法は、臨界帯域（b）における励起レベルE(b)の計算に基づく。ある関心オブジェクトについての励起レベルE_obj(b)および残りすべての（マスキング）信号の励起E_noise(b)は結果として、次式で与えられるような、帯域bにおける個別ラウドネス（specific loudness）N'(b)を与える：
N'(b)＝C［(GE_obj＋GE_noise＋A)^α−A^α］−C［(GE_noise＋A)^α−A^α］
ここで、G、C、Aおよびαはモデル・パラメータである。その後、部分ラウドネス（partial loudness）Nは、諸臨界帯域を通じて個別ラウドネスN'(b)を合計することによって次のように得られる：
N＝Σ_bN'(b)
。

聴覚的シーンが励起レベルE_k(b)をもつK個のオブジェクトからなるとき（k＝1,…,K）、記法の簡単のため、モデル・パラメータGおよびCが＋1に等しいとすると、オブジェクトkの個別ラウドネスN'_k(b)は
N'_k(b)＝(A＋Σ_mE_m(b))^α−(−E_k(b)＋A＋Σ_mE_m(b))^α
によって与えられる。

上式の第一項は聴覚的シーンの全体的な励起に、絶対聴覚閾値を反映する励起Aを加えたものを表わす。第二項は関心オブジェクトkを除いた全体的な励起を反映し、よって、第二項はオブジェクトkに適用される「マスキング項」として解釈されることができる。この定式化は、マスキングからのバイノーラル解放を考慮しない。マスキングからの解放は、次式によって与えられるように、関心オブジェクトkが別のオブジェクトmから遠方である場合に上記のマスキング項を低減させることによって組み込まれることができる：
N'_k(b)＝(A＋Σ_mE_m(b))^α−(−E_k(b)＋A＋Σ_mE_m(b)(1−f(k,m)))^α
。

上式において、f(k,m)は、オブジェクトkおよびオブジェクトmが同じ位置をもつ場合には0に等しく、オブジェクトkとmの間の空間的距離の増大とともに＋1まで増大する値に等しい関数である。異なる言い方をすれば、関数f(k,m)はオブジェクトkおよびmのパラメトリック位置における距離の関数としてマスキング解除の量を表わす。あるいはまた、f(k,m)の最大値は、空間的に離れているオブジェクトについての空間的マスキング解除の量における上限を反映するために0.995のような＋1よりわずかに小さい値に制限されてもよい。

ラウドネスの計算は、定義されたクラスター重心によって考慮に入れられることができる。一般に、重心は、クラスターの中心を表わす属性空間における位置であり、属性は、測定（たとえば、ラウドネス、コンテンツ型など）に対応する値のセットである。個々のオブジェクトの部分ラウドネスは、オブジェクトがクラスタリングされている場合および目標が、可能な最良のオーディオ品質を与える、クラスターおよび関連付けられたパラメトリック位置の制約されたセットを導出することである場合には、限られた有意性しかない。ある実施形態では、より典型的なメトリックは、特定のクラスター位置（または重心）によって考慮に入れられる、その位置の近傍における全励起を総合する部分ラウドネスである。上記の場合と同様に、クラスター重心cによって考慮に入れられる部分ラウドネスは次のように表現できる：
N'_c(b)＝(A＋Σ_mE_m(b))^α−(A＋Σ_mE_m(b)(1−f(k,m)))^α
。

このコンテキストにおいて、出力ベッド・チャネル（たとえば、再生システムにおける特定のラウドスピーカーによって再現されるべき出力チャネル）は、目標ラウドスピーカーの位置に対応する固定した位置をもつ重心と見なすことができる。同様に、入力ベッド信号は、対応する再生ラウドスピーカーの位置に対応する位置をもつオブジェクトと見なすことができる。よって、オブジェクトおよびベッド・チャネルは、ベッド・チャネル位置が固定されているという制約条件のもとで、厳密に同じ解析にかけられることができる。

ある実施形態では、ラウドネスおよびコンテンツ解析データは、図１１のブロック１１０８に示されるように、組み合わされたオブジェクト重要性値を導出するために組み合わされる。部分ラウドネスおよびコンテンツ解析に基づくこの組み合わされた値は、オブジェクトのラウドネスおよび／または励起を、そのオブジェクトが知覚的に重要である確率によって修正することによって得られる。たとえば、オブジェクトkの励起は次のように修正されることができる：
E'_k(b)＝E_k(b)g(l_k)
。

上式において、l_kはオブジェクトkのコンテンツ・ベースのオブジェクト重要性であり、E'_k(b)は修正された励起レベルであり、g(.)はコンテンツ重要性を励起レベル修正にマッピングする関数である。ある実施形態では、g(.)は、コンテンツ重要性をdb単位での利得と解釈する指数関数である。

g(l_k)＝10^Glk
ここで、Gはコンテンツ・ベースのオブジェクト重要性に対するもう一つの利得であり、これは最良のパフォーマンスを得るために調整されることができる。

もう一つの実装では、g(.)は：
g(l_k)＝1＋G・l_k
のような線形関数である。

上記の式は単に可能な実施形態の例である。代替的な方法は、励起の代わりにラウドネスに適用されることができ、単純な積に関わる以外の情報の組み合わせ法を含んでいてもよい。

図１１にも示されるように、諸実施形態は、コンテンツ重要性（１１１０）に基づいてラウドネスを平滑化する方法をも含む。ラウドネスは、通例、オブジェクト位置の急速な変化を避けるために、諸フレームわたって平滑化される。平滑化プロセスの時定数は、コンテンツ重要性に基づいて適応的に調節されることができる。このようにして、より重要なオブジェクトについては、時定数はより大きくなる（ゆっくり平滑化する）ことができ、それにより、より重要なオブジェクトは、諸フレームにわたって、一貫して、クラスター重心として選択されることができる。ダイアログは通例、話された言葉と合間を交互するので、これは、ダイアログについての重心選択の安定性をも改善する。ここで、合間にはラウドネスは低いことがあるので、他のオブジェクトが重心として選択されることになる。その結果として、最終的に選択された重心がダイアログと他のオブジェクトとの間で切り替わることになり、よって潜在的な不安定性を引き起こす。

ある実施形態では、時定数はコンテンツ・ベースのオブジェクト重要性と
τ＝τ₀＋l_k・τ₁
のように正の相関をもつ。

上式では、τは推定された重要性依存の時定数であり、τ₀およびτ₁はパラメータである。さらに、コンテンツ重要性に基づく励起／ラウドネス・レベル修正と同様に、適応的な時定数方式は、ラウドネスまたは励起のいずれかに対して適用されることもできる。

上記のように、オーディオ・オブジェクトの部分ラウドネスは、定義されたクラスター重心に関して計算される。ある実施形態では、クラスター重心計算は、クラスターの総数が制約されているときに、諸重心の最大部分ラウドネスを考慮に入れる、クラスター重心の部分集合が選択されるよう、実行される。図１２は、ある実施形態のもとでの、クラスター重心を計算し、オブジェクトを選択された重心に割り当てるプロセスを示すフローチャートである。プロセス１２００は、オブジェクト・ラウドネス値に基づいて重心の限られたセットを導出する実施形態を示している。本プロセスは、該限られたセットにおける重心の最大数を定義することによって始まる（１２０１）。これは、空間的誤差のようなある種の基準が破られないよう、オーディオ・オブジェクトのクラスタリングを制約する。各オーディオ・オブジェクトについて、本プロセスは、そのオブジェクトの位置における重心が与えられたときに考慮に入れられるラウドネスを計算する（１２０２）。本プロセスは次いで、最大ラウドネスを考慮に入れる重心であって、任意的にはコンテンツ型について修正されたものを選択し（１２０４）、選択された重心によって考慮に入れられる全励起を除去する（１２０６）。このプロセスは、判断ブロック１２０８において判定されるところによりブロック１２０１において定義された重心の最大数が得られるまで、繰り返される。

代替的な実施形態では、ラウドネス処理は、空間領域においてすべての可能な位置のサンプリングに対してラウドネス解析を実行し、続いてすべての位置にわたって極大を選択することに関わることができる。あるさらなる代替的な実施形態では、ホッホバウム（Hochbaum）重心選択がラウドネスで増強される。ホッホバウム重心選択は、互いに対する最大距離をもつ位置のセットの選択に基づく。このプロセスは、重心を選択するための距離メトリックにラウドネスを乗算または加算することによって増強されることができる。

図１２に示されるように、ひとたび上記最大数の重心が処理されたら、オーディオ・オブジェクトは適切な選択された重心に割り当てられる（１２１０）。この方法のもとでは、クラスター重心の適正な部分集合が選択されたら、オブジェクトは、そのオブジェクトを最も近い近隣の重心に加えるまたはそのオブジェクトを重心のセットまたは部分集合中に混合することによって、重心に割り当てられることができる。それはたとえば、三角形分割、ベクトル分解の使用またはそのオブジェクトの空間的誤差を最小にするための他の任意の手段による。

図１３のＡおよびＢは、ある実施形態のもとでの、ある種の知覚的基準に基づく、オブジェクトのクラスターへのグループ分けを示している。描画１３００は、X/Y空間座標系として表わされる二次元オブジェクト空間における種々のオブジェクトの位置を示す。オブジェクトの相対サイズはそれらの相対的な知覚的重要性を表わし、より大きなオブジェクト（たとえば１３０６）はより小さなオブジェクト（たとえば１３０４）より高い重要性があるようになっている。ある実施形態では、知覚的重要性は、それぞれのオブジェクトの相対的な部分ラウドネス値およびコンテンツ型に基づく。クラスタリング・プロセスは、より大きな空間的誤差を許容する諸クラスター（オブジェクトの諸グループ）を形成するためにオブジェクトを解析する。ここで、空間的誤差は、最大誤差閾値１３０２との関係で定義されうる。誤差閾値、クラスターの最大数および他の同様の基準のような適切な基準に基づいて、オブジェクトはいくつもある配置でクラスタリングされうる。

図１３のＢは、クラスタリング基準のある特定のセットについて、図１３のＡのオブジェクトのある可能なクラスタリングを示している。描画１３５０は、描画１３００における七つのオブジェクトの、クラスターA〜Dと表わされる四つの別個のクラスターへのクラスタリングを示している。図１３のＢに示される例については、クラスターAは、より大きな空間的誤差を許容する低重要性オブジェクトの組み合わせを表わし；クラスターCおよびDは別個にレンダリングされるべきであるほど高い重要性がある源に基づくクラスターであり；クラスターBは、低重要性オブジェクトが高重要性オブジェクトとグループ化されることができる場合を表わしている。図１３のＢの構成は、図１３のＡのオブジェクトについてのある可能なクラスタリング方式のほんの一例を表わすことが意図されており、多くの異なるクラスタリング配置が選択されることができる。

ある実施形態では、クラスタリング・プロセスは、オブジェクトをクラスタリングするために、X/Y平面内でn個の重心を選択する。ここで、nはクラスター数である。本プロセスは、最高の重要性または考慮される最大ラウドネスに対応するn個の重心を選択する。次いで、残りのオブジェクトは（１）最も近い近隣重心または（２）パン技法によるクラスター重心中へのレンダリングに従ってクラスタリングされる。このように、オーディオ・オブジェクトは、クラスタリングされるオブジェクトのオブジェクト信号を最も近い重心に加えるまたは該オブジェクト信号をクラスターの（サブ）セットに混合することによって、クラスターに割り当てられることができる。選択されるクラスターの数は、動的であってもよく、クラスター中の空間的誤差を最小にする混合利得を通じて決定されてもよい。クラスター・メタデータは、クラスターに存在するオブジェクトの重み付けされた平均からなる。重みは、知覚されるラウドネスならびにオブジェクト位置、サイズ、ゾーン、排除マスク（exclusion mask）および他のオブジェクト特性に基づいていてもよい。一般に、オブジェクトのクラスタリングは、主として、オブジェクト重要性に依存してもよく、一つまたは複数のオブジェクトは複数の出力クラスターにわたって分散されてもよい。すなわち、オブジェクトは一つのクラスターに加えられてもよく（一意的にクラスタリングされる）、あるいは二つ以上のクラスターにわたって分配されてもよい（非一意的にクラスタリングされる）。

図１３のＡおよびＢに示されるように、クラスタリング・プロセスは、もとの数のオーディオ・オブジェクトおよび／またはベッド・チャネルを目標数の新しい等価なオブジェクトおよびベッド・チャネルに動的にグループ化する。たいていの実際的な用途では、目標数はもとの数より実質的に少ない。たとえば、100個のもとの入力トラックが20個以下の組み合わされたグループに組み合わされる。これらの解決策は、ベッドおよびオブジェクト・チャネルの両方がクラスタリング・プロセスに対して入力および／または出力として利用可能であるシナリオに当てはまる。オブジェクトおよびベッド・トラックの両方をサポートする第一の解決策は、入力ベッド・トラックを、空間内の固定したあらかじめ定義された位置をもつオブジェクトとして処理するというものである。これは、システムが、たとえばオブジェクトおよびベッドの両方を含むシーンを、目標数のオブジェクト・トラックのみに単純化することを許容する。しかしながら、クラスタリング・プロセスの一部として、出力ベッド・トラックの数を保存することが望ましいこともありうる。その場合、より重要でないオブジェクトは、前置プロセスとして、ベッド・トラックに直接レンダリングされることができ、一方、最も重要な諸オブジェクトは、より少ない目標数の等価なオブジェクト・トラックにさらにクラスタリングされることができる。結果として得られるクラスターのいくつかが高い歪みをもつ場合、それらのクラスターは、後置プロセスとしてベッドにレンダリングされることもできる。このほうがもとのコンテンツのよりよい近似につながりうるからである。誤差／歪みは時間変化する関数なので、この決定は、時間変化する仕方でなされることができる。

ある実施形態では、クラスタリング・プロセスは、すべての個々の入力トラック（オブジェクトまたはベッド）のオーディオ・コンテンツおよび付属のメタデータ（たとえばオブジェクトの空間的位置）を解析して、所与の誤差メトリックを最小にする等価な数の出力オブジェクト／ベッド・トラックを導出することに関わる。基本的な実装では、誤差メトリック１３０２は、クラスタリングされるオブジェクトをシフトさせることに起因する空間的歪みに基づき、時間を追った各オブジェクトの重要性の指標によってさらに重み付けされることができる。オブジェクトの重要性は、ラウドネス、コンテンツ型および他の有意な因子といったオブジェクトの他の特性を表わすことができる。あるいはまた、これら他の因子は、空間的な誤差メトリックと組み合わされることのできる別個の誤差メトリックを形成することができる。

〈オブジェクトおよびチャネル処理〉
適応オーディオ・システムでは、ある種のオブジェクトは固定されたオブジェクト、たとえば特定のスピーカー・フィードに関連付けられているチャネル・ベッドとして定義されてもよい。ある実施形態では、クラスタリング・プロセスは、ベッドと動的オブジェクトの相互作用を考慮に入れ、オブジェクトがクラスタリングされたオブジェクトとグループ化されるときに大きすぎる誤差を生じる（たとえば、そのオブジェクトが外れているオブジェクトである）ときは、そのオブジェクトは代わりにあるベッドに混合される。図１４は、ある実施形態のもとでの、オーディオ・オブジェクトおよびベッドをクラスタリングするプロセス・フローの構成要素を示している。図１４に示される方法１４００では、ベッドは固定位置のオブジェクトとして定義されることが想定される。次いで、外れているオブジェクトは、該オブジェクトが他のオブジェクトとクラスタリングするための誤差閾値より上であれば、一つまたは複数の適切なベッドとクラスタリングされる（混合される）（１４０２）。次いで、該ベッド・チャネル（単数または複数）は、クラスタリング後に上記オブジェクト情報でラベル付けされる（１４０４）。次いで、プロセスは、オーディオをより多くのチャネルにレンダリングし、追加的チャネルをオブジェクトとしてクラスタリングし（１４０６）、アーチファクト／脱相関、位相歪みなどを避けるために下方混合またはスマート・ダウンミックスに対してダイナミックレンジ管理を実行する（１４０８）。本プロセスは2パスの選別／クラスタリング・プロセスを実行する（１４１０）。ある実施形態では、これは、N個の最も顕著なオブジェクトを別個に保持し、残りのオブジェクトをクラスタリングすることに関わる。こうして、本プロセスは、それほど顕著でないオブジェクトのみをグループまたは固定されたベッドにクラスタリングする（１４１２）。固定されたベッドは、動いているオブジェクトまたはクラスタリングされたオブジェクトに加えられることができ、これは、ヘッドフォン仮想化のような個別的なエンドポイント装置にとってより好適でありうる。何個のオブジェクトが、そしてどのオブジェクトが一緒にクラスタリングされるかおよびどこでそれらがクラスタリング後に空間的にレンダリングされるかの特性として、オブジェクト幅が使われてもよい。

〈再生システム〉
上記で論じたように、さまざまな異なるエンドポイント装置が、本稿に記載されるようなクラスタリング・プロセスを用いるレンダリング・システムとの関連で使用されてもよく、そのような装置はクラスタリング・プロセスに影響しうるある種の機能を有していてもよい。図１５は、ある実施形態のもとでの、エンドポイント装置機能に基づく、クラスタリングされたデータ・のレンダリングを示している。描画１５００に示されるように、ブルーレイ・ディスク・デコーダ１５０２は、サウンドバー、家庭シアター（home theater）・システム、個人用再生装置または他の何らかの制限された処理再生システム１５０４を通じたレンダリングのために、クラスタリングされたベッドおよびオブジェクトを含む単純化されたオーディオ・シーン・コンテンツを生成する。エンドポイント装置の特性および機能は、レンダラー機能情報１５０８として、デコーダ段１５０２に送信し返される。オブジェクトのクラスタリングが、使用される特定のエンドポイント装置に基づいて最適に実行されることができるようにするためである。

本クラスタリング・プロセスの諸側面を用いる適応オーディオ・システムは、一つまたは複数の捕捉、前処理、オーサリングおよび符号化コンポーネントを通じて生成されるオーディオ・コンテンツをレンダリングおよび再生するよう構成されている再生システムを有していてもよい。適応オーディオ前処理器は、入力オーディオの解析を通じて適切なメタデータを自動的に生成する源分離およびコンテンツ型検出機能を含んでいてもよい。たとえば、位置メタデータは、チャネル対間の相関した入力の相対的なレベルの解析を通じて多チャネル記録から導出されてもよい。発話または音楽のようなコンテンツ型の検出は、たとえば、特徴抽出および分類によって達成されてもよい。ある種のオーサリング・ツールは、サウンド・エンジニアの創造的な意図の入力および符号化を最適化することによって、オーディオ・プログラムをオーサリングすることを許容し、サウンド・エンジニアが、事実上任意の再生環境における再生のために最適化されている最終的なオーディオ・ミックスを一度で生成することを許容する。これは、オーディオ・オブジェクトおよびもとのオーディオ・コンテンツに関連付けられておりもとのオーディオ・コンテンツと一緒にエンコードされる位置データの使用を通じて達成されることができる。聴衆席のまわりに音を正確に配置するために、サウンド・エンジニアは、再生環境の実際の制約条件および特徴に基づいて、音が最終的にどのようにレンダリングされるかに対する制御を必要とする。適応オーディオ・システムは、サウンド・エンジニアが、オーディオ・コンテンツがどのようにデザインされ、オーディオ・オブジェクトおよび位置データの使用を通じて混合されるかを変えることを許容することによって、これを提供する。ひとたび適応オーディオ・コンテンツがオーサリングされ、適切なコーデック装置において符号化されたら、該オーディオ・コンテンツは、再生システムのさまざまなコンポーネントにおいてデコードされ、レンダリングされる。

一般に、再生システムはいかなる業務用または消費者用オーディオ・システムであってもよく、これは家庭シアター（たとえばA/V受領器、サウンドバーおよびブルーレイ）、Eメディア（たとえばヘッドフォン再生を含むPC、タブレット、モバイル）、放送（たとえばTVおよびセットトップボックス）、音楽、ゲーミング、ライブ音、ユーザー生成コンテンツなどを含みうる。適応オーディオ・コンテンツは、すべてのエンドポイント装置のための消費者聴衆のための向上した没入感、オーディオ・コンテンツ・クリエーターにとっての拡張された芸術的制御、改善されたレンダリングのための改善されたコンテンツ依存（記述）メタデータ、消費者再生システムのための拡張された柔軟性およびスケーラビリティー、音色保存およびマッチングならびにユーザー位置および対話に基づくコンテンツの動的レンダリングの機会を提供する。本システムは、コンテンツ・クリエーターのための新たなミキシング・ツール、頒布および再生のための更新された新しいパッケージングおよび符号化ツール、家庭内動的混合およびレンダリング（種々の消費者構成について適切）、追加的なスピーカー位置および設計を含む、いくつかのコンポーネントを含む。

本稿に記載されたオーディオ環境の諸側面は、適切なスピーカーおよび再生装置を通じたオーディオまたはオーディオ／ビジュアル・コンテンツの再生を表わし、聴取者が捕捉されたコンテンツの再生を経験している任意の環境を表わしうる。該環境はたとえば、映画館、コンサートホール、野外シアター、家または部屋、聴取ブース、自動車、ゲーム・コンソール、ヘッドフォンまたはヘッドセット・システム、公共案内（PA: public address）システムまたは他の任意の再生環境などである。オブジェクト・ベースのオーディオおよびチャネル・ベースのオーディオを含む空間的オーディオ・コンテンツは、何らかの関係したコンテンツ（たとえば関連付けられたオーディオ、ビデオ、グラフィックなど）との関連で使用されてもよく、あるいはスタンドアローンのオーディオ・コンテンツをなしていてもよい。再生環境は、ヘッドフォンまたは近距離場モニタ（near field monitors）から小さなまたは大きな部屋、自動車、野外アリーナ、コンサートホールなど、いかなる適切な聴取環境であってもよい。

本稿に記載されるシステムの諸側面は、デジタルのまたはデジタイズされたオーディオ・ファイルを処理するための適切なコンピュータ・ベースの音処理ネットワーク環境において実装されてもよい。適応オーディオ・システムの諸部分は、コンピュータ間で伝送されるデータをバッファリングおよびルーティングするはたらきをする一つまたは複数のルーター（図示せず）を含め、いかなる所望される数の個別の機械を有する一つまたは複数のネットワークを含んでいてもよい。そのようなネットワークは、さまざまな異なるネットワーク・プロトコル上に構築されてもよく、インターネット、広域ネットワーク（WAN）、ローカル・エリア・ネットワーク（LAN）またはその任意の組み合わせであってもよい。ネットワークがインターネットを含むある実施形態では、一つまたは複数の機械がウェブ・ブラウザー・プログラムを通じてインターネットにアクセスするよう構成されていてもよい。

コンポーネント、ブロック、プロセスまたは他の機能コンポーネントの一つまたは複数が、システムのプロセッサ・ベースのコンピューティング装置の実行を制御するコンピュータ・プログラムを通じて実装されてもよい。本稿に開示される様々な機能が、その挙動、レジスタ転送、論理コンポーネントおよび／または他の特性に関し、ハードウェア、ファームウェアの任意の数の組み合わせを使っておよび／またはさまざまな機械可読もしくはコンピュータ可読媒体において具現されたデータおよび／または命令として記述されてもよいことも注意しておくべきである。そのようなフォーマットされたデータおよび／または命令が具現されうるコンピュータ可読媒体は、光学式、磁気式または半導体記憶媒体のようなさまざまな形の物理的な（非一時的な）不揮発性の記憶媒体を含むがそれに限られるものではない。

文脈が明瞭にそうでないことを要求するのでない限り、本記述および請求項を通じて、単語「有する」「含む」などは、排他的もしくは網羅的な意味ではなく包含的な意味に解釈されるものとする。すなわち、「……を含むがそれに限定されない」の意味である。単数または複数を使った単語は、それぞれ複数または単数をも含む。さらに、「本稿で」「以下で」「上記で」「下記で」および類似の意味の単語は、全体としての本願を指すのであって、本願のいかなる特定の部分を指すものでもない。単語「または」が二つ以上の項目のリストを参照して使われるとき、その単語は該単語の以下の解釈のすべてをカバーする：リスト中の項目の任意のもの、リスト中の項目のすべておよびリスト中の項目の任意の組み合わせ。

一つまたは複数の実装が、例として、個別的な実施形態を用いて記載されているが、一つまたは複数の実装は開示される実施形態に限定されないことは理解されるものとする。逆に、当業者に明白であろうさまざまな修正および類似の構成をカバーすることが意図されている。したがって、付属の請求項の範囲は、そのようなすべての修正および類似の構成を包含するような最も広い解釈を与えられるべきである。

Claims

オブジェクト・ベースのオーディオ・データを圧縮する方法であって：
レンダリングされるべき第一の複数の固定チャネルおよびオーディオ・オブジェクトを同定する段階であって、各オーディオ・オブジェクトはオーディオ・データおよび関連付けられたメタデータを含む、段階と；
各オーディオ・オブジェクトについての関連付けられたメタデータ内にエンコードされた一つまたは複数のパラメータについての誤差閾値を定義する段階と；
前記誤差閾値に基づいて、前記第一の複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトを減らされた複数の固定チャネルまたはオーディオ・オブジェクトにグループ化する段階とを含む、
方法。
前記一つまたは複数のパラメータは、位置、幅、ラウドネス、コンテンツ型およびレンダリング・モードのうちの少なくとも一つまたは複数を含む、請求項１記載の方法。
オーディオ・オブジェクトをグループ化することが、オーディオ・オブジェクトを組み合わせて前記減らされた複数のオーディオ・オブジェクトを含む複数のクラスターにすることを含み、各クラスターは、各クラスター内の他のオーディオ・オブジェクトと関連付けられている構成要素オーディオ・オブジェクトを含み、それぞれのオーディオ・オブジェクトをそれぞれのクラスター中に組み合わせることによって引き起こされる前記一つまたは複数のパラメータの変化に起因して、各誤差閾値についての前記一つまたは複数のパラメータの各パラメータについての誤差閾値が超過されないようにされる、請求項２記載の方法。
前記減らされた複数のオーディオ・オブジェクトが構成要素オブジェクトの一つまたは複数のクラスターを含み、構成要素オブジェクトをそれぞれのクラスターにグループ化することが、それぞれのオーディオ・オブジェクトの位置パラメータに関連付けられた誤差閾値内で他のオブジェクトに空間的に近接しているオーディオ・オブジェクトを同じクラスターの一部となるよう割り当てることを含む、請求項２記載の方法。
オーディオ・オブジェクトをグループ化することが：
同じクラスター内の諸構成要素オブジェクトについてのオーディオ・データを具現する諸波形を一緒に組み合わせて、諸構成要素オブジェクトの組み合わされた波形を有する置換オブジェクトを形成する段階と；
同じクラスター内の諸構成要素オブジェクトについてのメタデータを一緒に組み合わせて、諸構成要素オブジェクトについてのメタデータの置換セットを形成する段階とを含む、
請求項４記載の方法。
オーディオ・オブジェクトをグループ化する前記段階がさらに、少なくとも一つのオブジェクトを前記複数のクラスターのうちの二つ以上のクラスター中に分配することを含む、請求項３記載の方法。
構成要素オブジェクトについての前記メタデータが、組み合わされるメタデータの型に依存する組み合わせ操作または選択操作の一方を使って組み合わされる、請求項６記載の方法。
前記置換オブジェクトの位置についてのメタデータの前記置換セットが、構成要素オブジェクトの各位置の平均を取ることによって導出され、前記置換オブジェクトの幅についてのメタデータの前記置換セットが、構成要素オブジェクトのそれぞれの幅の組み合わせを取ることによって導出され、前記置換オブジェクトのラウドネスについてのメタデータの前記置換セットが、構成要素オブジェクトのラウドネスの組み合わせを取ることによって導出され、前記置換オブジェクトのコンテンツ型についてのメタデータの前記置換セットが、支配的な構成要素オブジェクトのコンテンツ型を選択することによって導出され、前記置換オブジェクトのレンダリング・モードについてのメタデータの前記置換セットが、支配的な構成要素オブジェクトのレンダリング・モードを選択することによって導出される、請求項７記載の方法。
前記支配的な構成要素オブジェクトが、同じクラスター内の他の構成要素オブジェクトに比して大きな個別ラウドネスを有する構成要素オブジェクトを含み、前記個別ラウドネスは、音響心理学理論に基づくラウドネスの知覚的な指標である、請求項８記載の方法。
前記誤差閾値は、対応するオーディオ・オブジェクトが再生システムにおいてレンダリングされるときに該対応するオーディオ・オブジェクトの過度の歪みを引き起こすような、当該オーディオ・オブジェクトを一つまたは複数のオブジェクトとグループ化することに起因するそれぞれのメタデータ値の逸脱の最大量である、請求項３記載の方法。
前記誤差閾値は、クラスター内の少なくとも一つの構成要素オブジェクトの、該クラスターの中心点までの距離と、当該構成要素オブジェクトの、当該クラスター内の他の構成要素オブジェクトまたはベッドに比しての重要性との関数として表現される誤差メトリックによって表わされる、請求項１０記載の方法。
前記構成要素オブジェクトの重要性が、当該クラスター内のその構成要素オブジェクトの相対エネルギーまたはラウドネスの一方の関数である、請求項１１記載の方法。
前記複数のクラスターのクラスターの少なくとも一つが、前記オーディオ・オブジェクトの最低のビット深さより少数のビットを使ってエンコードされる低減ビット深さクラスターである、請求項３記載の方法。
前記複数のクラスターは、周期的な時間間隔およびイベント駆動のスケジュールの一方に基づいて時間的に変化し、前記イベント駆動のスケジュールは、各構成要素オブジェクトの定義されたオブジェクト境界に関する、当該クラスターの各構成要素オブジェクトの開始点および停止点を含む、請求項３記載の方法。
各構成要素オブジェクトの開始点および停止点が、該構成要素オブジェクトのラウドネス・レベルまたはエネルギー・レベルの一方を使って決定される、請求項１４記載の方法。
定義された時間間隔で複数のオブジェクトの各オブジェクトの空間的位置を同定する段階と；
オブジェクトの対の間の最大距離に基づいて、前記複数のオブジェクトのうちのオブジェクトを一つまたは複数の時間変化するクラスターにグループ化する段階とを含む、
オブジェクト・ベースのオーディオを処理する方法。
前記定義された時間間隔は：規則的な時間期間と、前記複数のオブジェクトの各オブジェクトについてのオブジェクト境界によって定義されるイベント駆動のスケジュールとのうちの一方を含む、請求項１６記載の方法。
各オブジェクトについての前記オブジェクト境界は、それぞれのオブジェクトのラウドネス・レベルまたはエネルギー・レベルの一方を使って決定される開始点および停止点を含む、請求項１７記載の方法。
各オブジェクトは、オーディオ・データを表現する波形要素と、該オブジェクトの一つまたは複数の特性をエンコードするメタデータ要素とを有する適応オーディオ・オブジェクトである、請求項１８記載の方法。
前記一つまたは複数の特性は、オブジェクトが再生システムにおいてレンダリングされる際のオブジェクトの位置、幅、ラウドネス、コンテンツ型およびレンダリング・モードのうちの少なくとも一つまたは複数を含む、請求項１９記載の方法。
前記複数のオブジェクトのうちのオブジェクトをグループ化する段階が：
各オブジェクトについての波形を組み合わせて、クラスタリングされたオブジェクトについての組み合わされた波形を形成する段階と；
各オブジェクトについてのメタデータ要素を組み合わせて、前記クラスタリングされたオブジェクトについての組み合わされたメタデータ要素を形成する段階とを含む、
請求項１９記載の方法。
各特性に関連付けられたクラスター歪み誤差を定義する段階と；
オブジェクトをクラスター内の一つまたは複数の他のオブジェクトとグループ化することが、それぞれのクラスター歪み誤差を超過するような当該オブジェクトの特性の変化を引き起こすかどうかを判定する段階と；
前記オブジェクトを、次回の区間において当該クラスター内の前記一つまたは複数の他のオブジェクトから脱クラスタリングする段階とをさらに含む、
請求項２１記載の方法。
前記組み合わされたメタデータが、クラスタリングされたオブジェクトの特性に依存する組み合わせまたは選択操作の一方を使って形成される、請求項２１記載の方法。
クラスタリングされたオブジェクトの位置についての組み合わされたメタデータが、オブジェクトの各位置の平均を取ることによって導出され、クラスタリングされたオブジェクトの幅についての組み合わされたメタデータが、オブジェクトのそれぞれの幅の平均を取ることによって導出され、クラスタリングされたオブジェクトのラウドネスについての組み合わされたメタデータが、オブジェクトのラウドネスの平均を取ることによって導出され、クラスタリングされたオブジェクトのコンテンツ型についての組み合わされたメタデータが、当該クラスター内の支配的なオブジェクトのコンテンツ型を選択することによって導出され、クラスタリングされたオブジェクトのレンダリング・モードについての組み合わされたメタデータが、前記支配的なオブジェクトのレンダリング・モードを選択することによって導出される、請求項２３記載の方法。
前記支配的なオブジェクトが、当該クラスター内の他のオブジェクトに比して大きな個別ラウドネスを有するオブジェクトであり、前記個別ラウドネスは、音響心理学理論に基づくラウドネスの知覚的な指標である、請求項２４記載の方法。
前記一つまたは複数のオブジェクト・クラスターを、再生システムを通じたレンダリングのためにコーデック回路内でエンコーダ段からデコーダ段に伝送する段階をさらに含む、請求項１６記載の方法。
定義された時間間隔で複数のオブジェクトの各オブジェクトの空間的位置を同定する第一のレンダリング・コンポーネントと；
オブジェクトの対の間の最大距離に基づいて、前記複数のオブジェクトのうちのオブジェクトを一つまたは複数の時間変化するクラスターにグループ化するクラスタリング・コンポーネントとを有する、
オブジェクト・ベースのオーディオをレンダリングするシステム。
前記定義された時間間隔は：規則的な時間期間と、前記複数のオブジェクトの各オブジェクトについてのオブジェクト境界によって定義されるイベント駆動のスケジュールとのうちの一方を含み、各オブジェクトについての前記オブジェクト境界は、それぞれのオブジェクトのラウドネス・レベルまたはエネルギー・レベルの一方を使って決定される開始点および停止点を含む、請求項２７記載のシステム。
各オブジェクトは、オーディオ・データを表わす波形要素と、該オブジェクトの一つまたは複数の特性をエンコードするメタデータ要素とを有する適応オーディオ・オブジェクトであり、前記一つまたは複数の特性は、オブジェクトが再生システムにおいてレンダリングされる際のオブジェクトの位置、幅、ラウドネス、コンテンツ型およびレンダリング・モードのうちの少なくとも一つまたは複数を含む、請求項２８記載のシステム。
前記複数のオブジェクトのうちのオブジェクトをグループ化することが：
各オブジェクトについての波形を合計して、クラスタリングされたオブジェクトについての合計された波形を形成し；
各オブジェクトについてのメタデータ要素を組み合わせて、前記クラスタリングされたオブジェクトについての組み合わされたメタデータ要素を形成することを含む、
請求項２９記載のシステム。
前記組み合わされたメタデータが、クラスタリングされたオブジェクトの特性に依存する組み合わせまたは選択操作の一方を使って形成され、クラスタリングされたオブジェクトの位置についての組み合わされたメタデータが、オブジェクトの各位置の平均を取ることによって導出され、クラスタリングされたオブジェクトの幅についての組み合わされたメタデータが、オブジェクトのそれぞれの幅の平均を取ることによって導出され、クラスタリングされたオブジェクトのラウドネスについての組み合わされたメタデータが、オブジェクトのラウドネスの平均を取ることによって導出され、クラスタリングされたオブジェクトのコンテンツ型についての組み合わされたメタデータが、当該クラスター内の支配的なオブジェクトのコンテンツ型を選択することによって導出され、クラスタリングされたオブジェクトのレンダリング・モードについての組み合わされたメタデータが、前記支配的なオブジェクトのレンダリング・モードを選択することによって導出される、請求項３０記載のシステム。
前記オブジェクトの少なくともいくつかが、オーディオ・コンテンツをスピーカー・フィードを通じて、サラウンドサウンド構成に配置された個々のドライバに伝送するためのチャネル・ベッドを含み、前記オブジェクトの他の少なくともいくつかが、見かけの三次元源位置および見かけの源幅を含む関連付けられたパラメトリックな源記述をもつオブジェクト・ベースの静的または動的なオーディオ・オブジェクトを含む、請求項３０記載のシステム。
ユーザーに対して前記オーディオ・コンテンツを出力する前記再生システムのエンドポイント装置の一つまたは複数の再生特性を検出する第二のレンダリング・コンポーネントをさらに有する、請求項３２記載のシステム。
前記エンドポイント装置の前記再生特性が、オブジェクトの前記グループ化を修正するために前記クラスタリング・コンポーネントによって使用される、請求項３３記載のシステム。
前記エンドポイント装置が、デジタル・メディア・ディスク・プレーヤー、家庭シアター・システム、サウンドバー、パーソナル音楽デバイスおよび映画館サウンド・システムからなる群から選択される、請求項３４記載のシステム。
オブジェクト・ベースのオーディオ・データを圧縮する方法であって：
オーディオ・シーン内のオブジェクトの知覚的重要性を判別する段階であって、前記オブジェクトはオブジェクト・オーディオ・データおよび関連付けられたメタデータを含む、段階と；
前記オブジェクトの判別された知覚的重要性に基づいて、ある種のオーディオ・オブジェクトをオーディオ・オブジェクトのクラスターに組み合わせる段階であって、クラスターの数はオーディオ・シーン内のオブジェクトのもとの数より少ない、段階とを含む、
方法。
前記知覚的重要性が、前記オブジェクトの前記オブジェクト・オーディオ・データから導出される、請求項３６記載の方法。
前記知覚的重要性が、それぞれのオブジェクトのラウドネス値およびコンテンツ型の少なくとも一方から導出される値であり、前記コンテンツ型が、ダイアログ、音楽、サウンド効果、周辺音およびノイズからなる群から選択される、請求項３６記載の方法。
前記オブジェクトの判別される知覚的重要性が、オーディオ・シーンにおける前記オブジェクトの相対的な空間的位置に依存し、前記組み合わせる段階が：
いくつかの重心を決定する段階であって、前記重心は複数のオーディオ・オブジェクトをグループ化するクラスターの中心であり、重心位置は、一つまたは複数のオーディオ・オブジェクトの他のオーディオ・オブジェクトに対する知覚的重要性に依存する、段階と；
オブジェクト信号を諸クラスターを横断して分配することによって前記オブジェクトを一つまたは複数のクラスターにグループ化する段階とを含む、
請求項３６記載の方法。
クラスター・メタデータが、高い知覚的重要性の一つまたは複数のオブジェクトによって決定される、請求項３８記載の方法。
前記コンテンツ型がオーディオ分類プロセスによって決定され、前記ラウドネス値が知覚的モデルによって得られる、請求項４０記載の方法。
前記知覚的モデルが、前記入力オーディオ信号の諸臨界周波数帯域における励起レベルの計算に基づき、当該方法がさらに：
前記オーディオ・オブジェクトのうちの第一のオブジェクトのまわりのクラスターについての重心を定義する段階と；
前記オーディオ・オブジェクトのすべての励起を総合する段階とを含む、
請求項４１記載の方法。
前記ラウドネス値が少なくとも部分的には、それぞれのオブジェクトの、他のオブジェクトへの空間的近接性に依存する、請求項３８記載の方法。
前記空間的近接性が、少なくとも部分的には、それぞれのオブジェクトの関連付けられたメタデータの位置メタデータ値によって定義される、請求項４３記載の方法。
前記組み合わせる段階が、各クラスタリングされたオブジェクトに関連するある空間的誤差を引き起こし、さらに、当該方法がさらに、相対的に高い知覚的重要性のオブジェクトについて空間的誤差が最小化されるようオブジェクトをクラスタリングすることを含む、請求項３６記載の方法。
最高の知覚的重要性をもつオブジェクトを、最高の知覚的重要性をもつオブジェクトを含むクラスターのクラスター重心として選択すること、あるいは最大ラウドネスをもつオブジェクトを、該最大ラウドネスをもつオブジェクトを含むクラスターについてのクラスター重心として選択することのうちの一方をさらに含む、請求項４５記載の方法。
クラスタリングがさらに：オブジェクトを最も近い近隣とグループ化すること、あるいはパン方法を使ってオブジェクトを一つまたは複数のクラスターにわたって分配することのうちの一方を含む、請求項４６記載の方法。
前記励起レベル、前記ラウドネスまたはそれから導出される属性を、グループ化されたオブジェクトの相対的な知覚的重要性によって導出される時定数に基づいて平滑化することをさらに含む、請求項４２記載の方法。
オブジェクト・ベースのオーディオを処理する方法であって：
各オブジェクトの、前記複数のオーディオ・オブジェクトの他のオブジェクトに対する第一の空間的位置を決定する段階と；
前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの相対的重要性を決定する段階であって、前記相対的重要性は、オブジェクトの前記相対的な空間位置に依存する、段階と；
いくつかの重心を決定する段階であって、各重心は複数のオーディオ・オブジェクトをグループ化するクラスターの中心であり、重心位置は一つまたは複数のオーディオ・オブジェクトの前記相対的重要性に依存する、段階と；
オブジェクト信号を複数のクラスターを横断して分配することによって、前記オブジェクトを一つまたは複数のクラスターにグループ化する段階とを含む、
方法。
前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの部分ラウドネスを決定する段階をさらに含み、オブジェクトの前記部分ラウドネスは少なくとも部分的には、一つまたは複数の他のオブジェクトのマスキング効果に基づく、請求項４９記載の方法。
前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトのコンテンツ型および関連付けられたコンテンツ型重要性を判別する段階をさらに含む、請求項４９記載の方法。
各オーディオ・オブジェクトの前記部分ラウドネスおよび前記コンテンツ型を組み合わせてそれぞれのオーディオ・オブジェクトの前記相対的重要性を決定する段階をさらに含む、請求項４９記載の方法。
前記コンテンツ型が、ダイアログ、音楽、サウンド効果、周辺音およびノイズからなる群から選択される、請求項５２記載の方法。
前記部分ラウドネスが、前記入力オーディオ信号の諸臨界周波数帯域における励起レベルの計算に基づく知覚的モデルによって得られ、当該方法がさらに：
前記オーディオ・オブジェクトのうちの第一のオブジェクトのまわりのクラスターについての重心を定義する段階と；
前記オーディオ・オブジェクトのすべての励起を総合する段階とを含む、
請求項５０記載の方法。
前記オブジェクトをグループ化することが、各クラスタリングされたオブジェクトに関連するある空間的誤差を引き起こし、さらに、当該方法がさらに、相対的に高い知覚的重要性のオブジェクトについて空間的誤差が最小化されるよう前記オブジェクトをグループ化することを含む、請求項４９記載の方法。
最高の知覚的重要性をもつオブジェクトを、最高の知覚的重要性をもつオブジェクトを含むクラスターのクラスター重心として選択すること、あるいは最大ラウドネスをもつオブジェクトを、該最大ラウドネスをもつオブジェクトを含むクラスターについてのクラスター重心として選択することのうちの一方をさらに含む、請求項５５記載の方法。
前記オーディオ・オブジェクトをグループ化することが：
同じクラスター内の構成要素オブジェクトについてのオーディオ・データを具現する波形を一緒に組み合わせてそれらの構成要素オブジェクトの組み合わされた波形をもつ置換オブジェクトを形成する段階と；
同じクラスター内の構成要素オブジェクトについてのメタデータを組み合わせて、それらの構成要素オブジェクトについてのメタデータの置換セットを形成する段階とを含む、
請求項４９記載の方法。
オブジェクト・ベースのオーディオをレンダリングするシステムであって：
オーディオ・シーン内のオブジェクトの知覚的重要性を決定する第一のレンダリング・コンポーネントであって、前記オブジェクトはオブジェクト・オーディオ・データおよび関連付けられたメタデータを含む、コンポーネントと；
あるオーディオ・オブジェクトを、前記オブジェクトの決定された知覚的重要性に基づいてオーディオ・オブジェクトのクラスターに組み合わせるクラスタリングとを有しており、クラスターの数は前記オーディオ・シーン内のオブジェクトのもとの数より少ない、
システム。
前記知覚的重要性は前記オブジェクトのオブジェクト・オーディオ・データから導出される、請求項５８記載のシステム。
前記知覚的重要性は、それぞれのオブジェクトのラウドネス値およびコンテンツ型の少なくとも一方から導出された値であり、前記コンテンツ型は、ダイアログ、音楽、サウンド効果、周辺音およびノイズからなる群から選択される、請求項５８記載のシステム。
前記コンテンツ型を判別するオーディオ分類コンポーネントをさらに有する請求項６０記載のシステムであって、前記オーディオ分類コンポーネントは：
前記オーディオ・オブジェクトについての入力オーディオ信号を受領するインターフェースと；
前記インターフェースに結合され、前記入力オーディオ信号の時間的、スペクトル的および空間的属性のうちの少なくとも一つを表わす特徴を抽出する特徴抽出モジュールと；
前記特徴抽出モジュールに結合され、コンテンツ型グループに対応する各目標オーディオ型の統計的属性を表わす事前トレーニングされたモデルのセットを記憶しているデータ記憶部と；
前記特徴抽出モジュールに結合され、前記入力オーディオ信号の抽出された特徴を、各目標オーディオ型の前記モデルと比較して、各目標オーディオ型についての信頼スコアを計算し、各目標オーディオ型についての信頼スコアに基づいて最良一致のオーディオ型を推定する比較器とを有する、
システム。
前記ラウドネス値が、前記入力オーディオ信号の諸臨界周波数帯域における励起レベルの計算に基づく知覚的モデルによって得られ、当該システムが、前記オーディオ・オブジェクトのうちの第一のオブジェクトのまわりのクラスターについての重心を定義し、前記オーディオ・オブジェクトの全励起を総合するよう構成されている、請求項６０記載のシステム。
同じクラスター内の構成要素オブジェクトについてのオーディオ・データを具現する波形を一緒に組み合わせてそれらの構成要素オブジェクトの組み合わされた波形をもつ置換オブジェクトを形成し、同じクラスター内の構成要素オブジェクトについてのメタデータを組み合わせてそれらの構成要素オブジェクトについてのメタデータの置換セットを形成するよう構成されている第二のレンダリング・コンポーネントをさらに有する、請求項５８記載のシステム。