JP2015530043A

JP2015530043A - 個々に指定可能なドライバへの上方混合されたコンテンツの反射されたおよび直接的なレンダリング

Info

Publication number: JP2015530043A
Application number: JP2015528714A
Authority: JP
Inventors: ブランドンランドー，ジョシュア; フェラーズ，マシュー
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2012-08-31
Filing date: 2013-08-26
Publication date: 2015-10-08
Anticipated expiration: 2033-08-26
Also published as: US20150271620A1; WO2014035902A2; EP2891335A2; CN104604253A; JP6186436B2; US9532158B2; EP2891335B1; WO2014035902A3; HK1207780A1

Abstract

聴取環境において空間的オーディオ・コンテンツをレンダリングするシステムの諸実施形態が記述される。システムは、聴取領域における再生位置を指定する情報を含む複数のオーディオ・チャネルを生成するよう構成されたレンダリング・コンポーネントと、前記複数のオーディオ・チャネルを受領し、各オーディオ・チャネルについて、ドライバ・エネルギーの大半を聴取領域の一つまたは複数の表面から反射させるよう構成された少なくとも一つの反射サブチャネルおよびドライバ・エネルギーの大半を前記再生位置まで直接伝搬させるよう構成された少なくとも一つの直接サブチャネルを生成する上方混合器コンポーネントとを含む。

Description

関連出願への相互参照
本願は、2012年8月31日に出願された米国仮特許出願第61/695,998号への優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。

発明の分野
一つまたは複数の実装は概括的にはオーディオ信号処理に、より詳細には個々にアドレッシング可能なドライバを通じて反射されたオーディオおよび直接オーディオをレンダリングするための上方混合システムに関する。

背景セクションで論じられる主題は、単に背景セクションでの言及の結果として従来技術であると想定されるべきではない。同様に、背景セクションにおいて言及されるまたは背景セクションの主題に関連する問題は、従来技術において前から認識されていたと想定されるべきではない。背景セクションにおける主題は、単に種々のアプローチを表わしており、それら自身も発明であることがありうる。

映画サウンドトラックは通例、スクリーン上の種々の位置から発するスクリーン上の像、ダイアログ、ノイズおよび音響効果に対応する多くの異なる音要素を含み、背景音楽および環境効果と組み合わさって、全体的な聴衆体験を作り出す。正確な再生は、音源位置、強度、動きおよび奥行きに関して、スクリーン上に示されるものにできるだけ近く対応する仕方で音が再現されることを要求する。伝統的なチャネル・ベースのオーディオ・システムは、スピーカー・フィードの形のオーディオ・コンテンツを再生環境中の個々のスピーカーに送る。デジタル映画館の導入により、映画館サウンドについての新たな標準が作り出されている。たとえば、複数チャネルのオーディオの組み込みにより、コンテンツ・クリエーターにとってはより大きな創造性が許容され、聴衆にとってはより包み込むような、リアルな聴覚体験が許容される。空間的オーディオを配送するための手段としての伝統的スピーカー・フィードおよびチャネル・ベースのオーディオを越えて拡張することは決定的に重要であり、聴取者が、自分が選んだ構成のために特にレンダリングされたオーディオをもつ所望される再生構成を選択できるようにする、モデル・ベースのオーディオ記述にかなりの関心が寄せられてきた。聴取者体験をさらに改善するため、真の三次元（「3D」）または仮想3D環境における音の再生が、ますます多くの研究および開発がされる領域となっている。音の空間的呈示は、オーディオ・オブジェクトを利用する。オーディオ・オブジェクトとは、見かけの源位置（たとえば3D座標）、見かけの源幅および他のパラメータの関連付けられたパラメトリックな源記述をもつオーディオ信号である。オブジェクト・ベースのオーディオは、デジタル映画、ビデオ・ゲーム、シミュレータのような多くのマルチメディア・アプリケーションのために使用でき、スピーカーの数およびその配置が一般に、比較的小さな聴取環境の限界によって制限または制約されている家庭環境において特に重要である。

映画館環境におけるサウンド・システムを改善し、映画サウンドトラックについてのクリエーターの芸術的意図をより正確に捕捉し、再現するためにさまざまな技術が開発されている。たとえば、オーディオ・オブジェクトと伝統的なチャネル・ベースのスピーカー・フィードとの混合を、オーディオ・オブジェクトについての位置メタデータとともに含む次世代空間的オーディオ（「適応オーディオ」とも称される）フォーマットが開発されている。空間的オーディオ・デコーダでは、チャネルは関連付けられたスピーカーに直接送られる（適切なスピーカーが存在する場合）または既存のスピーカー・セットに下方混合〔ダウンミックス〕され、オーディオ・オブジェクトはデコーダによって柔軟な仕方でレンダリングされる。3D空間内の位置軌跡のような各オブジェクトに関連付けられたパラメトリックな源記述が、デコーダに接続されたスピーカーの数および位置とともに、入力として受けられる。すると、レンダラーは、パン則のようなある種のアルゴリズムを利用して、各オブジェクトに関連付けられたオーディオを、取り付けられた一組のスピーカーを横断して分布させる。このようにして、各オブジェクトのオーサリングされた空間的意図が、聴取室に存在する特定のスピーカー配位を通じて最適に呈示される。

しかしながら、現在のシステムは主として、聴取領域にいる聴取者に音を直接伝搬させる前方発射または直接発射スピーカーを使うために開発されている。これは、直接伝搬よりも表面からの反射のためにより適切なコンテンツによって提供されうる空間的効果を減じてしまう。したがって、必要とされるのは、より没入的または包括的な空間的聴取体験を提供するための、反射されたレンダリングされた音および直接的なレンダリングされた音の両方を利用するシステムである。

聴取環境において空間的オーディオ・コンテンツをレンダリングするシステムおよび方法の諸実施形態が記述される。システムは、それぞれのオーディオ・チャネルの聴取領域における再生位置を指定する情報を含む複数のオーディオ・チャネルを生成するよう構成されたレンダリング・コンポーネントと、前記複数のオーディオ・チャネルを受領し、各オーディオ・チャネルについて、ドライバ・エネルギーの大半を聴取領域の一つまたは複数の表面から反射させるよう構成された少なくとも一つの反射されるサブチャネルおよびドライバ・エネルギーの大半を前記再生位置まで直接伝搬させるよう構成された少なくとも一つの直接サブチャネルを生成する上方混合器コンポーネントと、それぞれ前記少なくとも反射されるサブチャネルおよび前記少なくとも一つの直接サブチャネルを使う、前記一つまたは複数の表面からの音波の伝搬のための少なくとも一つの反射されるドライバおよび前記再生位置までの直接の音波の伝搬のための少なくとも一つの直接ドライバを有する、前記上方混合器コンポーネントに結合された個々にアドレッシング可能なドライバのアレイとを有する。信号の上方混合のコンテキストにおいて、反射される音響波は任意的に、特定の表面からの反射と、向き付けられていないドライバからのエネルギーの一般的拡散につながる任意の表面からの反射との間の区別をできない。後者の場合、このドライバに関連付けられる音波は理想的には無方向である。すなわち、拡散波形をなす。拡散波形とは、音が単一の方向から来るのではない波形である。

方法は、オーディオ・レンダラーから複数の入力オーディオ・チャネルを受領する段階と；第一の分解プロセスにおいて、各入力オーディオ・チャネルを、少なくとも一つの反射されるサブチャネルおよび少なくとも一つの直接サブチャネルに分割する段階と；前記反射されるサブチャネルおよび直接サブチャネルによって生成される音波の伝搬において費やされるエネルギーの量が前記第一の分解プロセスの間、保存されることを検証する段階と；聴取領域における聴取者のまわりに音を空間的に像形成するために反射されるサブチャネルと直接サブチャネルの最適な混合が得られるまで、その後の分解プロセスにおいて各サブチャネルをそれぞれのサブチャネルにさらに分割する段階とを含む。

本稿に記載される上方混合プロセスのシステムおよび方法は、更新されたコンテンツ生成ツール、新しいスピーカーおよびチャネル構成を含む適応オーディオ・システムに基づく配送方法および向上したユーザー経験を含むオーディオ・フォーマットおよびシステムにおいて、また映画館サウンド・ミキサーのために作り出された進んだコンテンツ生成ツールの組によって可能にされる新しい空間的記述フォーマットにおいて使用されうる。オーディオ・ストリーム（一般にチャネルおよびオブジェクトを含む）は、オーディオ・ストリームの所望される位置を含むコンテンツ・クリエーターまたはサウンド・ミキサーの意図を記述するメタデータとともに、伝送される。位置は、（あらかじめ定義されたチャネル構成設定のうちからの）名前を付けられたチャネルとして、あるいは3D空間位置情報として表現されることができる。このチャネル・プラス・オブジェクトのフォーマットは、チャネル・ベースおよびモデル・ベースのオーディオ・シーン記述方法両方の最良の部分を提供する。諸実施形態は特に、直接（前方発射）ドライバおよび反射される（上方発射または側方発射）ドライバの両方を含むスピーカーまたはドライバ・アレイを通じて再生されることが意図されている、反射される音および直接音を含む適応オーディオ・コンテンツをレンダリングするためのシステムおよび方法に向けられる。

参照による組み込み
本明細書において言及される各刊行物、特許および／または特許出願は、個々の各刊行物および／または特許出願が具体的かつ個別的に参照によって組み込まれることが指示される場合と同じように、ここに参照によってその全体において組み込まれる。

以下の図面において、同様の参照符号は同様の要素を指すために使われる。以下の図面はさまざまな例を描いているが、一つまたは複数の実装は図面に描かれる例に限定されるものではない。
高さチャネルの再生のための高さスピーカーを提供するサラウンド・システム（たとえば9.1サラウンド）における例示的なスピーカー配置を示す図である。ある実施形態のもとでの、適応オーディオ混合を生成するためのチャネルおよびオブジェクト・ベースのデータの組み合わせを示す図である。ある実施形態のもとでの、適応オーディオ・システムにおいて使うための再生アーキテクチャのブロック図である。ある実施形態のもとでの、聴取環境における使用のために、映画館ベースのオーディオ・コンテンツを適応させる機能コンポーネントを示すブロック図である。ある実施形態のもとでの、図３Ａのコンポーネントの詳細なブロック図である。ある実施形態のもとでの、適応オーディオ環境の機能コンポーネントのブロック図である。ある実施形態のもとでの、レンダリング機能の一部がスピーカー・ユニットにおいて実行される分散式レンダリング・システムを示す図である。例示的な家庭シアター環境における適応オーディオ・システムの展開を示す図である。家庭シアターにおけるオーバーヘッド・スピーカーをシミュレートするために反射された音を使う、上方発射ドライバの使用を示す図である。Ａは、ある実施形態のもとでの、反射される音レンダラーを有する適応オーディオ・システムにおける使用のための第一の構成にある複数のドライバを有するスピーカーを示す図である。Ｂは、ある実施形態のもとでの、反射される音レンダラーを有する適応オーディオ・システムにおける使用のための複数のエンクロージャーに分散されたドライバを有するスピーカーを示す図である。Ｃは、ある実施形態のもとでの、反射される音レンダラーを使う適応オーディオ・システムにおいて使用されるサウンドバーについての例示的な構成を示す図である。聴取室内に配置される上方発射ドライバを含む個々にアドレッシング可能なドライバを有するスピーカーの例示的な配置を示す図である。Ａは、ある実施形態のもとでの、反射されるオーディオのために複数のアドレッシング可能なドライバを利用する適応オーディオ5.1システムについてのスピーカー構成を示す図である。Ｂは、ある実施形態のもとでの、反射されるオーディオのために複数のアドレッシング可能なドライバを利用する適応オーディオ7.1システムについてのスピーカー構成を示す図である。ある実施形態のもとでの、双方向相互接続の組成を示す図である。ある実施形態のもとでの、適応オーディオ・システムにおける使用のための自動的な構成設定およびシステム較正プロセスを示す図である。ある実施形態のもとでの、適応オーディオ・システムにおいて使われる較正方法のためのプロセス・ステップを示す流れ図である。例示的なテレビジョンおよびサウンドバー使用事例における適応オーディオ・システムの使用を示す図である。ある実施形態のもとでの、適応オーディオ・システムにおける三次元的なバイノーラル・ヘッドホン仮想化の簡略化された表現を示す図である。ある実施形態のもとでの、聴取環境についての反射された音レンダラーを利用する適応オーディオ・システムにおける使用のためのある種のメタデータ定義を示す表である。ある実施形態のもとでの、入力チャネルをサブチャネルに分割するプロセスを示すフローチャートである。ある実施形態のもとでの、複数のオーディオ・チャネルを処理して複数の反射されたおよび直接的なサブチャネルにする上方混合器システムを示す図である。ある実施形態のもとでの、入力チャネルをサブチャネルに分解するプロセスを示すフローチャートである。

諸オーディオ・チャネルを、聴取環境における空間的オーディオ効果を生成するために反射される音をレンダリングする適応オーディオ・システムにおける使用のために反射されるサブチャネルおよび直接サブチャネルに因子分解することに基づく上方混合器のためのシステムおよび方法が記述されるが、用途はそれに限定されるものではない。本稿に記載される一つまたは複数の実施形態の諸側面は、ソフトウェア命令を実行する一つまたは複数のコンピュータまたは処理装置を含む混合体、レンダリングおよび再生システムにおいて源オーディオ情報を処理するオーディオまたはオーディオビジュアル・システムにおいて実装されてもよい。記載される実施形態の任意のものは、単独で、あるいは任意の組み合わせにおいて互いと一緒に使用されうる。さまざまな実施形態は本明細書の一つまたは複数の箇所で議論または暗示されることがある従来技術のさまざまな欠点によって動機付けられたことがあるが、実施形態は必ずしもこれらの欠点のいずれかに対処するものではない。換言すれば、種々の実施形態は、明細書で論じていることがありうる種々の欠点に対処することがある。いくつかの実施形態は、明細書で論じていることがありうるいくつかの欠点またはたった一つの欠点に部分的に対処するだけであることがあり、いくつかの実施形態はこれらの欠点のいずれにも対処しないことがありうる。

本記述の目的のためには、以下の用語は関連する意味をもつ：用語「チャネル」は、オーディオ信号に位置がチャネル識別子、たとえば左前方または右上サラウンドとして符号化されているメタデータを加えたものを意味する；「チャネル・ベースのオーディオ」は、関連付けられた公称位置をもつスピーカー・ゾーンのあらかじめ定義された集合、たとえば5.1、7.1などを通じた再生のためにフォーマットされているオーディオである；用語「オブジェクト」または「オブジェクト・ベースのオーディオ」は、見かけの源位置（たとえば3D座標）、見かけの源幅などのようなパラメトリックな源記述をもつ一つまたは複数のオーディオ・チャネルを意味する；「適応オーディオ」は、チャネル・ベースおよび／またはオブジェクト・ベースのオーディオ信号にメタデータを加えたものを意味し、該メタデータは、オーディオ・ストリームに位置が空間内の3D位置として符号化されているメタデータを加えたものを使って、再生環境に基づいてオーディオ信号をレンダリングする；「聴取環境」は、オーディオ・コンテンツを単独でまたはビデオもしくは他のコンテンツと一緒に再生するために使用されることができ、家庭、映画館、劇場、講堂、スタジオ、ゲーム・コンソールなどにおいて具現されることができる部屋のような、任意の開放された、部分的に囲まれたまたは完全に囲まれた領域を意味する。そのような領域は、その中に配置される、壁またはバッフルのような、音波を直接反射または拡散反射できる一つまたは複数の表面を有することがある。

〈適応オーディオ・フォーマットおよびシステム〉
ある実施形態では、諸オーディオ・チャネルを反射されるサブチャネルおよび直接サブチャネルに因子分解するための上方混合器が、「空間的オーディオ・システム」または「適応オーディオ・システム」と称されてもよい音フォーマットおよび処理システムとともに機能するよう構成されているオーディオ・システムにおいて使用されてもよい。そのようなシステムは、向上した聴衆没入、より大きな芸術的制御およびシステムの柔軟性およびスケーラビリティを許容するためのオーディオ・フォーマットおよびレンダリング技術に基づく。全体的な適応オーディオ・システムは一般に、オーディオ・エンコード、配送およびデコード・システムを有する。該システムは、通常のチャネル・ベースのオーディオ要素およびオブジェクト・オーディオ符号化要素の両方を含む一つまたは複数のビットストリームを生成するよう構成されている。そのような組み合わされたアプローチは、チャネル・ベースまたはオブジェクト・ベースのアプローチを別々に採用するのに比べ、より大きな符号化効率およびレンダリング柔軟性を提供する。本願の実施形態との関連で使用されうる適応オーディオ・システムの一例は、2012年8月20日に出願され、「適応オーディオ信号生成、符号化およびレンダリングのためのシステムおよび方法」という名称の米国仮特許出願第61/636,429号に記載されている。同出願の内容はここに参照によって組み込まれる。

適応オーディオ・システムおよび関連したオーディオ・フォーマットの例示的な実装は、ドルビー（登録商標）・アトモス（商標）プラットフォームである。そのようなシステムは、9.1サラウンド・システムまたは同様のサラウンドサウンド配位として実装されうる高さ（上下）次元を組み込む。図１は、高さチャネルの再生のための高さスピーカーを設ける、現在のサラウンド・システム（たとえば9.1サラウンド）におけるスピーカー配置を示している。9.1システム１００のスピーカー配位は、床面における五つのスピーカー１０２および高さ面における四つのスピーカー１０４から構成される。一般に、これらのスピーカーは、室内において、多少なりとも正確に、任意の位置から発するよう設計される音を生成するために使用されうる。図１に示されるようなあらかじめ定義されたスピーカー配位は、自然に、所与の音源の位置を正確に表わす能力を制限することがある。たとえば、音源は、左スピーカー自身よりさらに左にパンされることはできない。これはすべてのスピーカーに当てはまり、したがってその中に下方混合が制約される一次元（たとえば左右）、二次元（たとえば前後）または三次元（たとえば左右、前後、上下）の幾何形状をなす。そのようなスピーカー配位において、さまざまな異なるスピーカー配位および型が使用されてもよい。たとえば、ある種の向上したオーディオ・システムは、9.1、11.1、13.1、19.4または他の配位でスピーカーを使用してもよい。スピーカー型は、フルレンジ直接スピーカー、スピーカー・アレイ、サラウンド・スピーカー、サブウーファー、ツイーターおよび他の型のスピーカーを含んでいてもよい。

オーディオ・オブジェクトは、聴取環境における一つまたは複数の特定の物理的位置から発するように知覚されうる音要素の群と考えることができる。そのようなオブジェクトは静的（すなわち、定常）または動的（すなわち、動いている）であることができる。オーディオ・オブジェクトは、他の機能とともに所与の時点における音の位置を定義するメタデータによって制御される。オブジェクトが再生されるとき、オブジェクトは、必ずしもあらかじめ定義された物理チャネルに出力されるのではなく、位置メタデータに従って、存在している諸スピーカーを使ってレンダリングされる。セッションにおけるトラックがオーディオ・オブジェクトであることができ、標準的なパン・データが位置メタデータと類似する。このように、スクリーン上に配置されるコンテンツは、チャネル・ベースのコンテンツと事実上同じようにしてパンされうるが、サラウンドに配置されるコンテンツは、所望されるなら個別のスピーカーにレンダリングされることができる。オーディオ・オブジェクトの使用は離散的な効果について所望される制御を提供するものの、サウンドトラックの他の諸側面は事実上、チャネル・ベースの環境において機能しうる。たとえば、多くの環境効果または残響は実際に、スピーカーのアレイにフィードされることから裨益する。これらはアレイを満たすのに十分な幅をもつオブジェクトとして扱われることができるが、いくつかのチャネル・ベースの機能を保持することが有益である。

適応オーディオ・システムは、オーディオ・オブジェクトに加えて「ベッド」をサポートするよう構成される。ここで、ベッド（bed）は、事実上、チャネル・ベースのサブミックスまたはステムである。これらは、コンテンツ・クリエーターの意図に依存して、個々にまたは単一のベッドに組み合わされて、最終的な再生（レンダリング）のために送達されることができる。これらのベッドは、5.1、7.1および9.1ならびに図１に示されるような頭上スピーカーを含むアレイのような異なるチャネル・ベースの構成において生成されることができる。図２は、ある実施形態のもとでの、適応オーディオ混合を生成するためのチャネルおよびオブジェクト・ベースのデータの組み合わせを示している。プロセス２００において示されるように、たとえばパルス符号変調（PCM）されたデータの形で提供される5.1または7.1サラウンドサウンド・データであってもよいチャネル・ベースのデータ２０２は、オーディオ・オブジェクト・データ２０４と組み合わされて、適応オーディオ混合２０８を生成する。オーディオ・オブジェクト・データ２０４は、もとのチャネル・ベースのデータの要素を、オーディオ・オブジェクトの位置に関するある種のパラメータを指定する関連するメタデータと組み合わせることによって生成される。図２において概念的に示されるように、オーサリング・ツールは、スピーカー・チャネル・グループおよびオブジェクト・チャネルの組み合わせを同時に含むオーディオ・プログラムを生成する能力を提供する。たとえば、オーディオ・プログラムは、任意的に諸グループ（またはトラック、たとえばステレオまたは5.1トラック）に編成されている一つまたは複数のチャネル、一つまたは複数のスピーカー・チャネルについての記述メタデータ、一つまたは複数のオブジェクト・チャネルおよび一つまたは複数のオブジェクト・チャネルについての記述メタデータを含むことができる。

適応オーディオ・システムは、空間的オーディオを配送する手段としての単純な「スピーカー・フィード」を事実上越えて進み、聴取者に、自分の個別のニーズもしくは予算に合致する再生構成を選択し、オーディオを自分の個別に選んだ構成のために特にレンダリングさせる自由を許容する、進んだモデル・ベースのオーディオ記述が開発されている。高いレベルでは、四つの主たる空間的オーディオ記述フォーマットがある：（１）スピーカー・フィード。ここではオーディオは公称スピーカー位置に位置されるラウドスピーカーのために意図された信号として記述される；（２）マイクロホン・フィード。ここでは、オーディオは、あらかじめ定義された構成（マイクロホンの数およびそれらの相対位置）において実際のまたは仮想のマイクロホンによって捕捉される信号として記述される；（３）モデル・ベースの記述。ここでは、オーディオは記述される時間および位置におけるオーディオ・イベントのシーケンスを使って記述される；（４）バイノーラル。ここでは、オーディオは聴取者の二つの耳に到達する信号によって記述される。

四つの記述フォーマットは、しばしば以下の共通のレンダリング技術に関連付けられる。ここで、用語「レンダリング」は、スピーカー・フィードとして使われる電気信号への変換を意味する。（１）パン。ここでは、オーディオ・ストリームは、一組のパン則および既知のもしくは仮定されるスピーカー位置を使ってスピーカー・フィードに変換される（典型的には配送前にレンダリングされる）；（２）アンビソニックス。ここでは、マイクロホン信号がラウドスピーカーのスケーラブルなアレイのためのフィードに変換される（典型的には配送後にレンダリングされる）；（３）波面合成（WFS: Wave Field Synthesis）。ここでは、音場を合成するために、音イベントが適切なスピーカー信号に変換される（典型的には配送後にレンダリングされる）；（４）バイノーラル。ここでは、L/Rバイノーラル信号がL/Rの耳に、典型的にはヘッドホンを通じて、だが漏話打ち消しとの関連でスピーカーをも通じて、送達される。

一般に、任意のフォーマットが別のフォーマットに変換されることができ（ただし、これは盲目的な源分離または同様の技術を必要とすることがある）、上述した技術の任意のものを使ってレンダリングされることができる。しかしながら、実際上は、すべての変換が良好な結果を与えるわけではない。スピーカー・フィード・フォーマットは、簡単かつ効果的なので、最も一般的である。最良の音結果（すなわち、最も正確かつ信頼できる）は、スピーカー・フィードを混合／監視し、次いで配送することによって達成される。それは、コンテンツ・クリエーターと聴取者との間で処理が必要とされないからである。再生システムが事前に知られていれば、スピーカー・フィード記述は最高の忠実度を提供するが、再生システムおよびその構成はしばしば前もっては知られていない。対照的に、モデル・ベースの記述は、再生システムについて何の仮定もせず、よって複数のレンダリング技術に合うよう最も簡単に応用されるので、最も適応可能である。モデル・ベースの記述は、効率的に空間的情報を補足することができるが、オーディオ源の数が増すにつれて非常に非効率的になる。

適応オーディオ・システムは、チャネルおよびモデル・ベースのシステム両方の恩恵を組み合わせる。具体的な恩恵は、高い音質、同じチャネル構成を使って、レンダリング構成への下方適応をもつ単一の目録項目を混合およびレンダリングするときの芸術的意図の最適な再現、システム・パイプラインへの比較的低い影響およびより細かい水平スピーカー空間分解能および新たな高さチャネルを介して増大した没入感を含む。適応オーディオ・システムは、次のことを含むいくつかの新たな特徴を提供する：特定の映画館レンダリング構成に合わせた下方および上方適応を用いた単一の目録項目、すなわち、遅延レンダリングおよび再生環境における利用可能なスピーカーの最適な使用；チャネル間相関（ICC: inter-channel correlation）アーチファクトを回避するための最適化された下方混合を含む、増大した包み込み；ステアスルー（steer-thru）アレイを介した増大した空間的分解能（たとえば、オーディオ・オブジェクトがサラウンド・アレイ内の一つまたは複数のラウドスピーカーに動的に割り当てられることを許容する）；および高分解能の中央または同様のスピーカー構成を介した増大した前方チャネル分解能。

オーディオ信号の空間的効果は、聴取者のための没入的な体験を提供する際に決定的に重要である。閲覧スクリーンまたは部屋の特定の領域から発することが意図された音は、同じ相対位置に位置されているスピーカー（単数または複数）を通じて再生されるべきである。よって、モデル・ベースの記述における音イベントの主たるオーディオ・メタデータは位置である。ただし、サイズ、配向、速度および音響分散といった他のパラメータが記述されることもできる。位置を伝達するために、モデル・ベースの3Dオーディオ空間的記述は、3D座標系を必要とする。伝送のために使われる座標系（たとえばユークリッド、球面、円筒）は、一般に、便利さまたはコンパクトさのために選ばれるが、レンダリング処理のために他の座標系が使われてもよい。座標系に加えて、空間においてオブジェクトの位置を表現するためには、参照フレームが必要とされる。システムが多様な異なる環境において位置ベースの音を正確に再現するためには、適正な参照フレームの選択が決定的であることがある。他者中心参照フレームでは、オーディオ源位置は、部屋の壁または隅、標準スピーカー位置およびスクリーン位置のようなレンダリング環境内の特徴を基準として定義される。自己中心参照フレームでは、位置は、「私の前方」、「やや左」など、聴取者の観点に対して表現される。空間的知覚（聴覚その他）の科学的研究によれば、自己中心的な観点がほぼ普遍的に使われることが示されている。しかしながら、映画館については、他者中心参照フレームが一般にはより適切である。たとえば、オーディオ・オブジェクトの精密な位置は、スクリーン上に関連するオブジェクトがあるときに最も重要になる。他者中心参照を使うときは、すべての聴取位置についてまた任意のスクリーン・サイズについて、音はスクリーン上の同じ相対位置に、たとえば「スクリーンの中央から三分の一左に」定位される。もう一つの理由は、ミキサーは他者中心で考え、ミキシングする傾向があり、パン・ツールは他者中心フレーム（すなわち、部屋の壁）でレイアウトされており、ミキサーはそのようにレンダリングされること、たとえば「この音はスクリーン上であるべき」、「この音はスクリーン外であるべき」または「左の壁から」などを期待するということである。

映画館環境における他者中心参照フレームの使用にもかかわらず、自己中心参照フレームが有用かつより適切でありうるいくつかのケースがある。それは、筋立てに関係しない音、すなわち「ストーリー空間」に存在しない音、たとえばムード音楽を含む。それについては、自己中心的に一様な呈示が望ましいことがある。もう一つのケースは、自己中心表現を必要とする近距離場効果（たとえば聴取者の左耳における羽音を立てる蚊）である。さらに、無限遠の音源（および結果として生じる平面波）は、一定の自己中心的位置（たとえば左方30度）からくるように感じられ、そのような音は他者中心よりも自己中心で記述するほうが簡単である。場合によっては、公称聴取位置が定義されている限り他者中心参照フレームを使うことが可能である。一方、いくつかの例は、まだレンダリングすることが可能でない自己中心表現を必要とする。他者中心参照はより有用かつ適切でありうるものの、自己中心表現を含む多くの新しい特徴がある種の応用および聴取環境においてはより望ましいことがありうるので、オーディオ表現は拡張可能であるべきである。

適応オーディオ・システムの実施形態は、自己中心参照を使って最適な忠実度のためおよび拡散または複雑な多点源（たとえばスタジアムの群衆、環境）のレンダリングのための推奨されるチャネル構成と、増大した空間的分解能およびスケーラビリティを効率的に可能にする他者中心のモデル・ベースの音記述とを含む、ハイブリッドの空間的記述アプローチを含む。図３のシステムは、オーディオが後処理および／または増幅およびスピーカー段に送られるのに先立つ、レガシーのオブジェクトおよびチャネル・オーディオ・デコード、オブジェクト・レンダリング、チャネル再マッピングおよび信号処理を実行する処理ブロックを含む。

再生システム３００は、一つまたは複数の捕捉、前処理、オーサリングおよび符号化コンポーネントを通じて生成されるオーディオ・コンテンツをレンダリングおよび再生するよう構成されている。適応オーディオ前処理器は、源分離およびコンテンツ型検出機能を含んでいてもよい。これは、入力オーディオの解析を通じて適切なメタデータを自動的に生成する。たとえば、位置メタデータが、多チャネル録音から、チャネル対の間の相関した入力の相対レベルの解析を通じて導出されてもよい。発話または音楽などのようなコンテンツ型の検出は、たとえば、特徴抽出および分類によって達成されてもよい。ある種のオーサリング・ツールは、サウンド・エンジニアの創造的な意図の入力および符号化を最適化し、事実上任意の再生環境における再生のために最適化されている最終的なオーディオ・ミックスを一度で生成することを許容することによってオーディオ・プログラムのオーサリングを許容する。これは、オーディオ・オブジェクトならびにもとのオーディオ・コンテンツと関連付けられ、該もとのオーディオ・コンテンツとともにエンコードされている位置データの使用を通じて達成できる。聴空間のあたりに音を正確に配置するために、サウンド・エンジニアは、再生環境の実際の制約条件および特徴に基づく、音が最終的にどのようにレンダリングされるかについての制御を必要とする。適応オーディオ・システムは、オーディオ・オブジェクトおよび位置データの使用を通じて、サウンド・エンジニアがオーディオ・コンテンツがどのように設計され、ミキシングされるかを変えることを許容することによってこの制御を提供する。ひとたび適応オーディオ・コンテンツがオーサリングされ、適切なコーデック装置において符号化されたら、それは再生システム３００のさまざまなコンポーネントにおいてデコードされ、レンダリングされる。

図３に示されるように、（１）レガシーのサラウンドサウンド・オーディオ３０２、（２）オブジェクト・メタデータ３０４を含むオブジェクト・オーディオおよび（３）チャネル・メタデータ３０６を含むチャネル・オーディオが、処理ブロック３１０内のデコーダ段３０８、３０９に入力される。オブジェクト・メタデータはオブジェクト・レンダラー３１２においてレンダリングされ、一方、チャネル・メタデータは必要に応じて再マッピングされてもよい。部屋構成情報３０７は、オブジェクト・レンダラーおよびチャネル再マッピング・コンポーネントに与えられる。ハイブリッド・オーディオ・データは次いで、Bチェーン処理段３１６およびスピーカー３１８を通じた再生に先立って、等化器およびリミッター３１４のような一つまたは複数の信号処理段を通じて処理される。システム３００は、適応オーディオのための再生システムの例を表わしており、他の構成、コンポーネントおよび相互接続も可能である。

図３のシステムは、レンダラーが、任意的なチャネル・ベースのオーディオ・コンテンツとの関連でオブジェクト・ベースのオーディオ・コンテンツを処理するためにオブジェクト・メタデータを入力オーディオ・チャネルに適用するコンポーネントを有している実施形態を示している。諸実施形態は、入力オーディオ・チャネルがレガシーのチャネル・ベースのコンテンツのみを含み、レンダラーが、サラウンドサウンド配位のドライバのアレイに伝送するためのスピーカー・フィードを生成するコンポーネントを有するケースに向けられてもよい。この場合、入力は必ずしもオブジェクト・ベースのコンテンツではなく、ドルビー・デジタル（商標）およびドルビー・デジタル・プラス（商標）または同様のシステムにおいて提供されるようなレガシーの5.1または7.1（または他の非オブジェクト・ベースの）コンテンツである。

〈再生アプリケーション〉
上述したように、適応オーディオ・フォーマットおよびシステムの初期の実装は、新規のオーサリング・ツールを使ってオーサリングされ、適応オーディオ・シネマ・エンコーダを使ってパッケージングされ、PCMもしくは独自の可逆コーデックを使って既存のデジタル・シネマ・イニシアチブ（DCI: Digital Cinema Initiative）頒布機構を使って配送されるコンテンツ・キャプチャ（オブジェクトおよびチャネル）を含むデジタル・シネマ（Dシネマ）コンテキストにある。この場合、オーディオ・コンテンツは、デジタル映画館でデコードおよびレンダリングされて、没入的な空間的オーディオ映画館体験を作り出すことが意図される。しかしながら、アナログ・サラウンドサウンド、デジタル多チャネル・オーディオなどといった以前の映画館改善と同様、適応オーディオ・フォーマットによって提供される向上されたユーザー体験を、家庭にいるユーザーに直接送達することが肝要である。これは、フォーマットおよびシステムのある種の特性が、より制限された聴取環境における使用のために適応されることを要求する。たとえば、家庭、部屋、小さな聴空間または同様の場所は、映画館または劇場環境に比べ、低下したスペース、音響属性および設備機能を有することがある。記述の目的のため、用語「消費者ベースの環境」は、家、スタジオ、部屋、コンソール・エリア、聴空間などといった、通常の消費者またはプロフェッショナルが使うための聴取環境を含む、任意の非映画館環境を含むことが意図される。オーディオ・コンテンツは単独で調達され、レンダリングされてもよいし、あるいはグラフィック・コンテンツ、たとえば静止画像、イルミネーション、ビデオなどと関連付けられていてもよい。

図４Ａは、ある実施形態のもとでの、聴取環境における使用のために、映画館ベースのオーディオ・コンテンツを適応させる機能コンポーネントを示すブロック図である。図４Ａに示されるように、典型的には映画サウンドトラックを含む映画館コンテンツは、ブロック４０２において適切な設備およびツールを使って捕捉および／またはオーサリングされる。適応オーディオ・システムでは、このコンテンツは、ブロック４０４において、エンコード／デコードおよびレンダリング・コンポーネントおよびインターフェースを通じて処理される。結果として得られるオブジェクトおよびチャネル・オーディオ・フィードは、次いで、映画館または劇場における適切なスピーカーに送られる（４０６）。システム４００において、映画館コンテンツは、家庭シアター・システム４１６のような聴取環境における再生のためにも処理される。該聴取環境は、限られたスペース、減ったスピーカー数などのため、コンテンツ・クリエーターによって意図された音コンテンツの全部を再生するほどの包括性または機能はもたないものとする。しかしながら、諸実施形態は、聴取環境の低下した能力によって課される制約を最小化する仕方でもとのオーディオ・コンテンツがレンダリングされることを許容し、利用可能な設備を最大化する仕方で位置手がかりが処理されることを許容するシステムおよび方法に向けられる。図４Ａに示されるように、映画館オーディオ・コンテンツは、映画館から消費者への変換器コンポーネント４０８を通じて処理される。ここでは、消費者コンテンツ符号化およびレンダリング・チェーン４１４において処理される。このチェーンは、ブロック４１２において捕捉および／またはオーサリングされるオリジナルのオーディオ・コンテンツをも処理する。オリジナルのコンテンツおよび／または変換された映画館コンテンツは次いで、聴取環境４１６において再生される。このようにして、たとえ家庭または聴取環境４１６の、可能性としては制限されているスピーカー構成を使ってであっても、オーディオ・コンテンツにおいて符号化されている関連する空間的情報が、より没入的な仕方で音をレンダリングするために使用されることができる。

図４Ｂは、図４Ａのコンポーネントをより詳細に示している。図４Ｂは、消費者エコシステムを通じた適応オーディオ映画館コンテンツについての例示的な配送機構を示している。描画４２０に示されるように、もとの映画館およびTVコンテンツは捕捉４２２され、映画館体験４２７または聴取環境体験４３４を提供するための多様な異なる環境での再生のためにオーサリング４２３される。同様に、ある種のユーザー作成コンテンツ（UGC: user generated content）または消費者コンテンツが捕捉４２３され、聴取環境４３４での再生のためにオーサリング４２５される。映画館環境４２７における再生のための映画館コンテンツは既知の映画館プロセッサ４２６を通じて処理される。しかしながら、システム４２０では、映画館オーサリング・ツール・ボックス４２３の出力は、オーディオ・オブジェクトと、オーディオ・チャネルと、サウンド・ミキサーの芸術的意図を伝達するメタデータとからなるものでもある。これは、再生のための当該映画館コンテンツの複数のバージョンを作り出すために使用できる、中二階式のオーディオ・パッケージと考えることができる。ある実施形態では、この機能は、映画館から消費者への適応オーディオ変換器４３０によって提供される。この変換器は、適応オーディオ・コンテンツへの入力をもち、それから所望される消費者エンドポイント４３４のための適切なオーディオおよびメタデータ・コンテンツを抽出する。この変換器は、消費者配送機構およびエンドポイントに依存して、別個の、可能性としては異なるオーディオおよびメタデータ出力を生成する。

システム４２０の例に示されるように、映画館から消費者への変換器４３０はピクチャー（たとえば放送、ディスク、OTTなど）およびゲーム・オーディオ・ビットストリーム生成モジュール４２８のための音をフィードする。映画館コンテンツを送達するために適切なこれら二つのモジュールは、複数の配送パイプライン４３２中にフィードされることができる。それらのパイプラインはみな消費者エンドポイントに送達しうる。たとえば、適応オーディオ映画館コンテンツは、チャネル、オブジェクトおよび関連するメタデータを伝達するよう修正されてもよいが、ドルビー・デジタル・プラスのような放送目的に好適なコーデックを使ってエンコードされてもよく、ケーブルまたは衛星を介して放送チェーンを通じて送信され、次いで家庭シアターまたはテレビジョン再生のために家庭でデコードされ、レンダリングされる。同様に、同じコンテンツは、帯域幅が制限されているオンライン配送のために好適なコーデックを使ってエンコードされることができ、その場合、3Gまたは4Gモバイル・ネットワークを通じて送信され、次いでヘッドホンを使ってのモバイル装置を介した再生のためにデコードおよびレンダリングされる。TV、ライブ放送、ゲームおよび音楽のような他のコンテンツ源も、次世代オーディオ・フォーマットのためのコンテンツを生成および提供するために本適応オーディオ・フォーマットを使ってもよい。

図４Ｂのシステムは、家庭シアター（たとえばA/V受信器、サウンドバーおよびブルーレイ）、Eメディア（たとえばヘッドホン再生を含むPC、タブレット、モバイル）、放送（たとえばTVおよびセットトップボックス）、音楽、ゲーム、ライブな音、ユーザー作成コンテンツなどを含みうるオーディオ・エコシステム全体を通じて高められたユーザー体験を提供する。そのようなシステムは：すべてのエンドポイント装置のための聴衆のための向上した没入感、オーディオ・コンテンツ・クリエーターのための拡張された芸術的制御、改善されたレンダリングのための改善されたコンテンツ依存（コンテンツを記述する）メタデータ、再生システムのための拡張された柔軟性およびスケーラビリティ、音質保存およびマッチングならびにユーザー位置および対話に基づくコンテンツの動的レンダリングの機会を提供する。本システムは、コンテンツ・クリエーターのための新しいミキシング・ツール、配送および再生のための更新された新しいパッケージングおよび符号化ツール、（種々の構成に適切な）家庭内での動的ミキシングおよびレンダリング、追加的なスピーカー位置および設計を含む。

適応オーディオ・エコシステムは、より幅広い数のエンドポイント装置および使用事例を横断したコンテンツ生成、パッケージング、配送および再生／レンダリングを含む適応オーディオ・フォーマットを使う、完全に包括的で、エンドツーエンドの次世代オーディオ・システムであるよう構成される。図４Ｂに示されるように、本システムは、いくつかの異なる使用事例４２２および４２４から、該使用事例のために捕捉されたコンテンツを起源とする。これらの捕捉点は、映画館、TV、ライブ放送（および音）、UGC、ゲームおよび音楽を含むすべての関連するコンテンツ・フォーマットを含む。コンテンツは、エコシステムを通過する際、いくつかの鍵となるフェーズを経る。それらのフェーズは、前処理およびオーサリング・ツール、変換ツール（すなわち、映画館のための適応オーディオ・コンテンツの、消費者コンテンツ配送アプリケーションへの変換）、特定的な適応オーディオ・パッケージング／ビットストリーム・エンコード（これはオーディオ・エッセンス・データおよび追加的なメタデータおよびオーディオ再生情報を補足する）、さまざまなオーディオ・チャネルを通じた効率的な配送のための既存のまたは新しいコーデック（たとえば、DD+（商標）、TrueHD、ドルビー・パルス（商標））を使った配送エンコード、関連する配送チャネル（たとえば、放送、ディスク、モバイル、インターネットなど）を通じた伝送、そして最後に、空間的オーディオ体験の恩恵を提供する、コンテンツ・クリエーターによって定義された適応オーディオ・ユーザー体験を再現および伝達する、エンドポイントを意識したダイナミック・レンダリングといったものである。適応オーディオ・システムは、幅広く多様な多数の消費者エンドポイントのためのレンダリングの間に使用されることができ、適用されるレンダリング技法は、エンドポイント装置に依存して最適化されることができる。たとえば、家庭シアター・システムおよびサウンドバーは、さまざまな位置にある2個、3個、5個、7個またはさらには9個の別個のスピーカーをもつことがある。他の多くの型のシステムは二つのスピーカーしかもたないし（たとえば、テレビ、ラップトップ、ミュージック・ドック）、ほとんどすべての普通に使われる装置はヘッドホン出力をもつ（たとえば、PC、ラップトップ、タブレット、携帯電話、音楽プレーヤーなど）。

消費者オーディオのための現在のオーサリングおよび配送システムは、オーディオ・エッセンス（すなわち、再生システムによって再生される実際のオーディオ）において伝達されるコンテンツの型の限られた知識を用いて、あらかじめ定義され固定されたスピーカー位置への再生のために意図されているオーディオを生成および送達する。しかしながら、適応オーディオ・システムは、固定したスピーカー位置固有のオーディオ（左チャネル、右チャネルなど）と、位置、サイズおよび速度を含む一般化された3D空間的情報をもつオブジェクト・ベースのオーディオ要素との両方のためのオプションを含む、オーディオ生成への新しいハイブリッド式のアプローチを提供する。このハイブリッド式のアプローチは、忠実度（固定されたスピーカー位置によって提供される）およびレンダリングにおける柔軟性（一般化されたオーディオ・オブジェクト）のためのバランスされたアプローチを提供する。このシステムはまた、コンテンツ生成／オーサリングの時点でコンテンツ・クリエーターによってオーディオ・エッセンスと対にされる新しいメタデータを介して、オーディオ・コンテンツについての追加的な有用な情報をも提供する。この情報は、レンダリングの間に使用されることのできる、当該オーディオの属性についての詳細な情報を提供する。そのような属性は、コンテンツ型（たとえば、ダイアログ、音楽、効果、効果音付加、背景／環境など）ならびに空間的属性のようなオーディオ・オブジェクト情報（たとえば、3D位置、オブジェクト・サイズ、速度など）および有用なレンダリング情報（たとえば、スピーカー位置にスナップ、チャネル重み、利得、ベース管理情報など）を含んでいてもよい。オーディオ・コンテンツおよび再生意図メタデータは、コンテンツ・クリエーターによって手動で生成されるまたはオーサリング・プロセスの間にバックグラウンドで実行されることができる自動的なメディア・インテリジェンス・アルゴリズムの使用を通じて生成され、所望されるなら最終的な品質管理フェーズの間にコンテンツ・クリエーターによって吟味されることができる。

図４Ｃは、ある実施形態のもとでの、適応オーディオ環境の機能コンポーネントのブロック図である。描画４５０に示されるように、システムは、ハイブリッドのオブジェクトおよびチャネル・ベース・オーディオ・ストリーム両方を担持するエンコードされたビットストリーム４５２を処理する。ビットストリームは、レンダリング／信号処理ブロック４５４によって処理される。ある実施形態では、この機能ブロックの少なくとも一部が図３に示されるレンダリング・ブロック３１２において実装されてもよい。レンダリング機能４５４は、適応オーディオのためのさまざまなレンダリング・アルゴリズムおよび上方混合、直接音対反射音の処理などといったある種の後処理アルゴリズムを実装する。レンダラーからの出力は、双方向相互接続４５６を通じてスピーカー４５８に与えられる。ある実施形態では、スピーカー４５８は、サラウンドサウンドまたは同様の構成に配置されうるいくつかの個別ドライバを有する。ドライバは個々にアドレッシング可能であり、個々のエンクロージャーまたは多ドライバ・キャビネットもしくはアレイにおいて具現されてもよい。システム４５０は、レンダリング・プロセスを較正するために使用できる部屋特性の測定を提供するマイクロホン４６０をも含んでいてもよい。システム構成設定および較正機能は、ブロック４６２において提供される。これらの機能は、レンダリング・コンポーネントの一部として含まれてもよいし、あるいはレンダラーに機能的に結合された別個のコンポーネントとして実装されてもよい。双方向相互接続４５６は、スピーカー環境（聴取室）から較正コンポーネント４６２に戻るフィードバック信号経路を提供する。

〈分散式／中央集中式レンダリング〉
ある実施形態では、レンダラー４５４は、ネットワークに関連付けられた中央プロセッサにおいて具現される機能プロセスを有する。あるいはまた、レンダラーは、個々にアドレッシング可能なオーディオ・ドライバのアレイの各ドライバ内にあるまたは各ドライバに結合された回路によって少なくとも部分的に実行される機能プロセスを含んでいてもよい。中央集中式プロセスの場合、レンダリング・データは、個々のオーディオ・チャネルを通じて送られるオーディオ信号の形で個々のドライバに送られる。分散式処理の場合、中央プロセッサはレンダリングを実行しなくてもよいし、あるいはオーディオ・データの少なくとも何らかの部分的なレンダリングを実行して、最終的なレンダリングはドライバにおいて実行されるのでもよい。この場合、オンボード処理機能を可能にするために、電力を受けたスピーカー／ドライバが必要とされる。一つの例示的な実装は、統合されたマイクロホンをもつスピーカーの使用である。ここで、レンダリングは、マイクロホン・データに基づいて適応され、調整はスピーカー自身においてなされる。これは、較正および／または構成設定目的のためにマイクロホン信号を中央レンダラーに送り返す必要をなくす。

図４Ｄは、ある実施形態のもとでの、レンダリング機能の一部がスピーカー・ユニットにおいて実行される分散式レンダリング・システムを示している。描画４７０に示されるように、エンコードされたビットストリーム４７１は、部分的レンダリング・コンポーネントを含む信号処理段４７２に入力される。部分的レンダラーは、レンダリング機能のいかなる適切な割合を実行してもよい。全くレンダリングを実行しないまたは50%もしくは75%までなどである。次いで、もとのエンコードされたビットストリームまたは部分的にレンダリングされたビットストリームが相互接続４７６を通じてスピーカー４７２に伝送される。この実施形態では、スピーカーは、ドライバおよび直接電源接続もしくはオンボード・バッテリーを含む自己電力ユニットである。スピーカー・ユニット４７２は、一つまたは複数の統合されたマイクロホンをも含んでいる。レンダラーおよび任意的な較正機能４７４もスピーカー・ユニット４７２に統合されている。レンダラー４７４は、部分的レンダラー４７２によってレンダリングが実行されたとしたらどのくらいのレンダリングが実行されたかに依存して、エンコードされたビットストリームに対して最終的なまたは完全なレンダリング動作を実行する。完全な分散式実装では、スピーカー較正ユニット４７４は、マイクロホンによって生成される音情報を使って、スピーカー・ドライバ４７２に対して直接的に較正を実行してもよい。この場合、相互接続４７６は単に一方向相互接続であってもよい。代替的なまたは部分的に分散式の実装では、統合されたまたは他のマイクロホンが音情報を、信号処理段４７２に付随する任意的な較正ユニット４７３に与え返してもよい。その場合、相互接続４７６は双方向相互接続である。

〈聴取環境〉
適応オーディオ・システムの実装は、多様な異なる環境において展開されることが意図されている。これらは、三つの主要な応用領域を含む：完全な映画館または家庭シアター・システム、テレビジョンおよびサウンドバーならびにヘッドホンである。図５は、例示的な映画館または家庭シアター環境における適応オーディオ・システムの展開を示している。図５のシステムは、適応オーディオ・システムによって提供されうるコンポーネントおよび機能の上位集合を表わしており、ある種の側面はユーザーの必要性に基づいて縮小されたりまたは除去されたりしてもよく、それでいて向上された体験を提供しうる。システム５００は、多様な異なるキャビネットまたはアレイ５０４内にさまざまな異なるスピーカーおよびドライバを含む。スピーカーは、前方、側方および上方発射オプションならびにある種のオーディオ処理技法を使うオーディオの動的仮想化を提供する個々のドライバを含む。描画５００は、標準的な9.1スピーカー構成において展開されるいくつかのスピーカーを示している。これらは、左右の高さスピーカー（LH、RH）、左右のスピーカー（L、R）、中央スピーカー（修正された中央スピーカーとして示されている）および左右のサラウンドおよび後方スピーカー（LS、RS、LBおよびRB；低域要素（low frequency effect）LFEは図示していない）を含む。

図５は、部屋またはシアターの中央位置において使われる中央チャネル・スピーカー５１０の使用を示している。ある実施形態では、このスピーカーは、修正された中央チャネルまたは高分解能中央チャネル５１０を使って実装される。そのようなスピーカーは、スクリーン上のビデオ・オブジェクトの動きにマッチする、アレイを通じたオーディオ・オブジェクトの離散的なパンを許容する、個々にアドレッシング可能なスピーカーをもつ前方発射中央チャネル・アレイであってもよい。そのようなスピーカーは、側方発射スピーカーをも含んでいてもよい高分解能中央チャネル（HRC: high-resolution center channel）スピーカーとして具現されてもよい。これらは、HRCスピーカーが、中央スピーカーとしてのみならず、サウンドバー機能のあるスピーカーとしても使用される場合に、アクティブ化され、使用されることができる。HRCスピーカーは、オーディオ・オブジェクトについて二次元の高分解能のパン・オプションを提供するよう、スクリーン５０２の上および／または横に組み込まれてもよい。中央スピーカー５１０は、追加的なドライバをも含み、別個にコントロールされるサウンド・ゾーンをもつ操縦可能な音ビームを実装することができる。

システム５００は、聴取者の真正面または前方近くに位置されてもよい近距離場効果（NFE: near field effect）スピーカー５１２をも含む。適応オーディオでは、オーディオ・オブジェクトを単に部屋の周縁にロックさせておくのではなく、オーディオ・オブジェクトを室内に持ち込むことが可能である。したがって、オブジェクトを三次元空間を通じて移動させることがオプションとなる。一例では、オブジェクトがLスピーカーに発し、NFEスピーカーを通じて部屋を横切り、RSスピーカーで終わりうる。無線の、バッテリーで電源を受けるスピーカーのようなさまざまな異なるスピーカーが、NFEスピーカーとしての使用のために好適であってもよい。

図５は、聴取環境における没入的なユーザー体験を提供するための動的スピーカー仮想化の使用を示している。動的スピーカー仮想化は、適応オーディオ・コンテンツによって提供されるオブジェクト空間的情報に基づくスピーカー仮想化アルゴリズム・パラメータの動的な制御を通じて可能にされる。この動的仮想化は図５ではLおよびRスピーカーについて示されている。ここではそれを、部屋の横に沿って動くオブジェクトの知覚を生成するためと考えることが自然である。各関連オブジェクトのために別個の仮想化器が使用されてもよく、多オブジェクト仮想化効果を作り出すために組み合わされた信号がLおよびRスピーカーに送られることができる。動的仮想化効果はLおよびRスピーカーならびに（二つの独立した入力をもつ）ステレオ・スピーカーであることが意図されているNFEスピーカーについて示されている。このスピーカーは、オーディオ・オブジェクト・サイズおよび位置情報とともに、拡散したまたは点源の近距離場オーディオ体験を作り出すために使用されることができる。同様の仮想化効果は、システム中の他のスピーカーの任意のものまたは全部に適用されることもできる。ある実施形態では、カメラが追加的な聴取者位置および素性情報を提供してもよく、該情報が、ミキサーの芸術的意図に対してより忠実な、より説得力のある体験を提供するために適応オーディオ・レンダラーによって使用されることができる。

適応オーディオ・レンダラーは、混合と再生システムとの間の空間的関係を理解する。再生環境のいくつかの例では、図１に示されるように、頭上位置を含む部屋のすべての関連領域において離散的なスピーカーが利用可能であってもよい。離散的なスピーカーがある種の位置で利用可能なこれらの場合、レンダラーは、パンまたはスピーカー仮想化アルゴリズムの使用を通じて二つ以上のスピーカーの間にファントム像を生成するのではなく、オブジェクトを、最も近いスピーカーに「スナップ」させるよう構成されることができる。これは、混合の空間的表現をわずかにゆがめるが、レンダラーに、意図されないファントム像を避けることを許容することにもなる。たとえば、混合段の左スピーカーの角度位置が再生システムの左スピーカーの角度位置に対応しない場合、この機能を有効にすれば、初期の左チャネルの一定のファントム像をもつことが避けられる。

多くの場合、天井取り付けの頭上スピーカーのようなある種のスピーカーは利用可能ではない。この場合、既存の床または壁に取り付けられたスピーカーを通じて頭上オーディオ・コンテンツを再現するために、ある種の仮想化技法がレンダラーによって実装される。ある実施形態では、適応オーディオ・システムは、各スピーカーについて前方発射機能と頂部（または「上方」）発射機能の両方を含めることを通じた標準的構成への修正を含む。伝統的な家庭用途では、スピーカー製造業者は、前方発射トランスデューサ以外の新しいドライバ構成を導入しようと試みてきて、もとのオーディオ信号（またはそれらへの修正）のどれがこれらの新しいドライバに送られるべきかを特定しようとするという問題に直面してきた。適応オーディオ・システムでは、どのオーディオ・オブジェクトが標準的な水平面より上でレンダリングされるべきかに関する非常に具体的な情報がある。ある実施形態では、適応オーディオ・システムに存在する高さ情報が上方発射ドライバを使ってレンダリングされる。

同様に、側方発射スピーカーが、環境効果のようなある種の他のコンテンツをレンダリングするために使用できる。側方発射ドライバは、聴取室の壁または他の表面から反射される音のようなある種の反射されるコンテンツをレンダリングするためにも使用できる。

上方発射ドライバの一つの利点は、天井に位置する頭上／高さスピーカーの存在をシミュレートするために、硬い天井表面から音を反射させるために使用されることができるということである。適応オーディオ・コンテンツの魅力的な一つの属性は、空間的に多様なオーディオが頭上スピーカーのアレイを使って再現されるということである。しかしながら、上記のように、多くの場合、頭上スピーカーを設置することは、家庭環境においてはあまりに高価または非実際的である。水平面内に通常通りに位置されるスピーカーを使って高さスピーカーをシミュレートすることによって、説得力のある3D体験が、位置決めが簡単なスピーカーを用いて作り出されることができる。この場合、適応オーディオ・システムは、オーディオ・オブジェクトおよびその空間的再生情報が上方発射ドライバによって再生されるオーディオを生成するために使われるという意味で新しい仕方で、上方発射／高さシミュレート・ドライバを使っている。この同じ利点は、ある種の残響効果を生成するために壁から音を反射させる側方発射スピーカーの使用を通じてより没入的な体験を提供しようと試みることにおいて実現されることができる。

図６は、家庭シアターにおいて単一の頭上スピーカーをシミュレートするために反射された音を使う上方発射ドライバの使用を示している。複数のシミュレートされた高さスピーカーを作り出すために、いくつの上方発射ドライバが組み合わせて使用されてもよいことを注意しておくべきである。あるいはまた、いくつかの上方発射ドライバが、ある種の音強度または効果を達成するために、天井の実質的に同じスポットに音を送信するよう構成されてもよい。描画６００は、通常の聴取位置６０２が室内の特定の位置に位置されている例を示している。システムは、高さ手がかりを含むオーディオ・コンテンツを送信するためのいかなる高さスピーカーも含まない。代わりに、スピーカー・キャビネットまたはスピーカー・アレイ６０４は、前方発射ドライバ（単数または複数）とともに上方発射ドライバを含む。上方発射ドライバは、その音波６０６を天井６０８の特定の点に送り、その点において音波が反射されて下の聴取位置６０２に戻ってくるよう（位置および傾斜角に関して）構成される。天井が、音を下の室内に十分に反射するよう適切な素材および組成でできていることが想定される。上方発射ドライバの関連する特性（たとえば、サイズ、パワー、位置など）は、天井組成、部屋サイズおよび聴取環境の他の関連する特性に基づいて選択されてもよい。図６では一つの上方発射ドライバしか示されていないが、いくつかの実施形態では、複数の上方発射ドライバが再生システム中に組み込まれてもよい。図６は、上方発射スピーカーが示されている実施形態を図示しているが、実施形態は、部屋の壁から音を反射させるために側方発射スピーカーが使われるシステムにも向けられることを注意しておくべきである。

〈スピーカー構成〉
適応オーディオ・システムの主たる配慮は、スピーカー構成である。システムは個々にアドレッシング可能なドライバを利用し、そのようなドライバのアレイが、直接音源および反射音源両方の組み合わせを提供するよう構成される。システム・コントローラ（たとえばA/V受信器、セットトップボックス）への双方向リンクが、オーディオおよび構成データがスピーカーに送られ、スピーカーおよびセンサー情報がコントローラに送り返され、能動的な閉ループ・システムを作り出すことを許容する。

記述の目的のため、用語「ドライバ」は、電気的なオーディオ入力信号に応答して音を生成する単一の電気音響トランスデューサを意味する。ドライバは、いかなる適切な型、幾何構成およびサイズで実装されてもよく、ホーン、コーン、リボン・トランスデューサなどを含んでいてもよい。用語「スピーカー」は、単体エンクロージャー内の一つまたは複数のドライバを意味する。図７のＡは、ある実施形態のもとでの、第一の構成において複数のドライバをもつスピーカーを示している。図７のＡに示されるように、スピーカー・エンクロージャー７００は、該エンクロージャー内に取り付けられたいくつかの個々のドライバを有する。典型的には、エンクロージャーは、ウーファー、中域スピーカーまたはツイーターまたはその任意の組み合わせのような一つまたは複数の前方発射ドライバ７０２を含む。一つまたは複数の側方発射ドライバ７０４も含まれてもよい。前方および側方発射ドライバは典型的には、エンクロージャーの面と面一で取り付けられ、スピーカーによって画定される鉛直面から垂直外方に音を投射する。これらのドライバは通例、キャビネット７００内に恒久的に固定されている。反射された音のレンダリング機能をもつ適応オーディオ・システムについては、一つまたは複数の上方に傾斜したドライバ７０６も設けられる。これらのドライバは、図６に示されるように、天井に向けて上向きの角度で音を投射し、天井で音がはね返って下の聴取者に届くことができるよう位置される。傾斜の度合いは、部屋特性およびシステム要求に依存して設定されてもよい。たとえば、上方ドライバ７０６は30度から60度までの間上方に傾けられてもよく、前方発射ドライバ７０２から生成された音波との干渉を最小にするよう、スピーカー・エンクロージャー７００内で前方発射ドライバ７０２の上に位置されてもよい。上方発射ドライバ７０６は固定された角度で設置されてもよく、あるいは傾斜角が手動で調整されうるように設置されてもよい。代替的に、上方発射ドライバの傾斜角および投射方向の自動的または電気的な制御を許容するために、サーボ機構が使用されてもよい。環境音のようなある種の音について、上方発射ドライバは、スピーカー・エンクロージャー７００の上表面から真上に向けられて、「頂部発射」ドライバと称されうるものを作り出してもよい。この場合、天井の音響特性に依存して、音の大きな割合がスピーカー上に反射して戻ってくることがある。しかしながら、たいていの場合、天井からの反射を通じて音を室内の異なるまたはより中心の位置に投射するのを助けるために、図６に示されるように、何らかの傾斜角が使用されるのが通例である。

図７のＡは、スピーカーおよびドライバ構成の一例を示すことが意図されており、他の多くの構成が可能である。たとえば、上方発射ドライバは、既存のスピーカーと一緒の使用を許容するよう、独自のエンクロージャー内に設けられてもよい。図７のＢは、ある実施形態のもとでの、複数のエンクロージャー内に分散されているドライバをもつスピーカー・システムを示している。図７のＢに示されるように、上方発射ドライバ７１２は別個のエンクロージャー７１０内に設けられ、該別個のエンクロージャーは前方および／または側方発射ドライバ７１６および７１８をもつエンクロージャー７１４に近接してまたはその上に置かれることができる。ドライバは、多くの家庭シアター環境において使われるようなスピーカー・サウンドバー内に囲まれてもよい。サウンドバー内にはいくつかの小型または中程度のサイズのドライバが単一の水平または鉛直エンクロージャー内で軸に沿って配列されている。図７のＣは、ある実施形態のもとでの、サウンドバー内のドライバの配置を示している。この例では、サウンドバー・エンクロージャー７３０は、側方発射ドライバ７３４、上方発射ドライバ７３６および前方発射ドライバ（単数または複数）７３２を含む水平サウンドバーである。図７のＣは、単に例示的な構成であることが意図されており、前方、側方および上方発射という各機能について現実的な任意の数のドライバが使用されうる。

図７のＡ〜Ｃの実施形態について、ドライバは、要求される周波数応答特性やサイズ、電力定格、コンポーネント・コストなどといった他の任意の関連する制約条件に依存して、いかなる適切な形状、サイズおよび型であってもよいことを注意しておくべきである。

典型的な適応オーディオ環境では、いくつかのスピーカー・エンクロージャーが聴取室内に含まれるであろう。図８は、個々にアドレッシング可能なドライバを有するスピーカーの例示的な配置を示しており、聴取室内に配置される上方発射ドライバを含んでいる。図８に示されるように、部屋８００は四つの個別スピーカー８０６を含み、それぞれが少なくとも一つの前方発射、側方発射および上方発射ドライバを有する。部屋は、中央スピーカー８０２およびサブウーファーまたはLFE ８０４のようなサラウンドサウンド用途のために使われる固定されたドライバをも含んでいてもよい。図８において見て取れるように、部屋およびそれぞれのスピーカー・ユニットのサイズに依存して、室内でのスピーカー８０６を適正に配置すれば、いくつかの上方発射および側方発射ドライバからの天井および壁での音の反射から帰結する、リッチなオーディオ環境を提供できる。スピーカーは、コンテンツ、部屋のサイズ、聴取者位置、音響特性および他の関連するパラメータに依存して、適切な表面平面上の一つまたは複数の点からの反射を提供するようねらいを付けられることができる。

適応オーディオ・システムにおいて使用されるスピーカーは、既存のサラウンドサウンド構成（たとえば5.1、7.1、9.1など）に基づく構成を使ってもよい。この場合、既知のサラウンドサウンドの慣習のようにしていくつかのドライバが設けられ、定義され、直接（前方発射）コンポーネントとともに反射された（上方発射および側方発射）音コンポーネントについて追加的なドライバおよび定義が提供される。

図９のＡは、ある実施形態のもとでの、反射されたオーディオのための複数のアドレッシング可能なドライバを利用する適応オーディオ5.1システムのためのスピーカー構成を示している。構成９００では、LFE ９０１、中央スピーカー９０２、L/R前方スピーカー９０４／９０６およびL/R後方スピーカー９０８／９１０を含む標準的な5.1スピーカー・フットプリントが、八つの追加的なドライバとともに設けられる。全部で14個のアドレッシング可能なドライバが与えられる。これら八つの追加的なドライバは、各スピーカー・ユニット９０２〜９１０内の「前方」（または「前」）ドライバに加えた「上方」および「側方」と印される。直接前方ドライバは、適応オーディオ・オブジェクトおよび高度の指向性をもつよう設計された他の任意のコンポーネントを含むサブチャネルによって駆動される。上方発射（反射）ドライバは、より無指向的または無方向であるサブチャネル・コンテンツを含むことができるが、それに限定されるものではない。例は、背景音楽または環境音を含む。システムへの入力がレガシーのサラウンドサウンド・コンテンツである場合には、このコンテンツは、直接サブチャネルおよび反射されるサブチャネルに知的に因子分解され、適切なドライバにフィードされる。

直接サブチャネルについては、スピーカー・エンクロージャーは、ドライバの中央軸（median axis）が部屋の「スイートスポット」または音響中心を二等分するドライバを含む。上方発射ドライバは、ドライバの中央面と音響中心との間の角度が45ないし180度の範囲の何らかの角度であるよう位置される。ドライバを180度に位置させる場合、該後ろを向くドライバは、後方の壁から反射することによって音の拡散を提供できる。この構成は、上方発射ドライバの直接ドライバとの時間整列後は、先に到着する信号成分がコヒーレントであり、一方、遅く到着する成分は部屋によって与えられる自然な拡散から裨益するという音響上の原理を利用する。

適応オーディオ・システムによって与えられる高さ手がかりを達成するために、上方発射ドライバは、水平面から上方に角度を付けられることができ、極端な場合には、真上に放射して、エンクロージャーの真上に配置される平坦な天井または音響拡散体（acoustic diffuser）のような反射面から反射するよう位置決めされることができる。追加的な指向性を提供するために、中央スピーカーは、高分解能の中央チャネルを提供するためにスクリーンを横断して音を操縦する能力をもつ（図７のＣに示されるような）サウンドバー構成を利用することができる。

図９のＡの5.1構成は、標準的な7.1構成と同様の二つの追加的な後方エンクロージャーを加えることによって拡張されることができる。図９のＢは、ある実施形態のもとでの、反射されたオーディオについての複数のアドレッシング可能なドライバを利用する適応オーディオ7.1システムについてのスピーカー構成を示している。構成９２０において示されるように、二つの追加的なエンクロージャー９２２および９２４は、「左横サラウンド」および「右横サラウンド」位置に配置され、横スピーカーは、既存の前方および後方対の間の中間で天井からはね返るよう設定された前方エンクロージャーおよび上方発射ドライバと同様の仕方で、側方の壁を向く。追加的な対が横または後方の壁に沿った隙間を埋めるそのような増分的な追加は、所望されるだけ何度でも行なうことができる。図９のＡおよびＢは、聴取環境についての適応オーディオ・システムにおける上方および側方発射スピーカーとの関連で使用できる拡張されたサラウンドサウンド・スピーカー・レイアウトの可能な構成のいくつかの例を示すのみであり、他の多くも可能である。

上記のn.1構成に対する代替として、より柔軟なポッド・ベースのシステムが利用されてもよい。それによれば、各ドライバが独自のエンクロージャー内に含まれ、該エンクロージャーが任意の便利な位置に配置されることができる。これは、図７のＢに示されるようなドライバ構成を使う。これらの個々のユニットは次いで、n.1構成と同様の仕方でクラスタリングされてもよいし、あるいは部屋のあたりに個々に拡散されることができる。それらのポッドは必ずしも部屋の端に位置されることに制約されず、部屋内の任意の表面（たとえば、コーヒーテーブル、本棚など）に配置されることもできる。そのようなシステムは、拡張するのが簡単であり、ユーザーがより没入的な体験を作り出すために時間をかけてより多くのスピーカーを追加していくことを許容する。スピーカーが無線であれば、ポッド・システムは充電目的のために諸スピーカーをドッキングさせる能力を含むことができる。この設計では、それらのポッドは、可能性としてはステレオ音楽を聴くために、充電する間は、単一のスピーカーとして作用するよう、一緒にドッキングされることができ、その後、適応オーディオ・コンテンツのためにドッキング解除され、部屋のあたりに位置されることができる。

上方発射アドレッシング可能ドライバを使う適応オーディオ・システムの構成設定可能性および正確さを向上させるために、レンダリング・アルゴリズムにおいて使用されることができる特性についてレンダラーに通知するよう、いくつかのセンサーおよびフィードバック装置がエンクロージャーに追加されることができる。たとえば、各エンクロージャーに設置されたマイクロホンにより、システムは、三角測量およびエンクロージャー自身のHRTF様の機能を使って、互いに対するスピーカーの相対位置とともに、部屋の位相、周波数および残響特性を測定できる。慣性センサー（たとえばジャイロスコープ、コンパスなど）は、エンクロージャーの方向および角度を検出するために使用されることができる；光学的および視覚的センサー（たとえばレーザー・ベースの赤外線距離計を使う）は部屋自身に対する位置情報を提供するために使用されることができる。これらは、システムにおいて使用されることのできる追加的なセンサーのほんのいくつかの可能性を表わしており、他も可能である。

そのようなセンサー・システムは、ドライバの位置および／またはエンクロージャーの音響修正手段（modifiers）が電気機械的サーボを介して自動的に調整可能であることを許容することによってさらに向上されることができる。これは、ドライバの指向性が、壁および他のドライバに対する室内での位置付けに合うよう、実行時に変更されることを許容する（「能動ステアリング」）。同様に、任意の部屋構成における最適な再生のための正しい周波数および位相応答を提供するために任意の音響修正手段（バッフル、ホーンまたは導波路など）がチューニングされることができる（「能動チューニング」）。能動ステアリングおよび能動チューニングはいずれも、（たとえば、自動EQ〔等化〕／自動部屋構成システムとの関連での）初期の部屋構成の間に、あるいはレンダリングされるコンテンツに応答した再生の間に、実行されることができる。

〈双方向相互接続〉
ひとたび構成されたら、スピーカーはレンダリング・システムに接続される必要がある。伝統的な相互接続は典型的には二つの型のものである：受動スピーカーのためのスピーカー・レベル入力および能動スピーカーのためのライン・レベル入力である。図４のＣに示されるように、適応オーディオ・システム４５０は、双方向相互接続機能を含む。この相互接続は、レンダリング段４５４と増幅器／スピーカー４５８およびマイクロホン段４６０との間の物理的および論理的接続の組内で具現される。各スピーカー・キャビネット内の複数のドライバをアドレッシングする能力は、音源とスピーカーとの間のこうした知的な相互接続によってサポートされる。双方向相互接続は、音源（レンダラー）からスピーカーへの信号の伝送が、制御信号およびオーディオ信号の両方を含むことを許容する。スピーカーから音源への信号は、制御信号およびオーディオ信号の両方からなる。ここで、この場合のオーディオ信号は、任意的な組み込みマイクロホンを源とするオーディオである。少なくともスピーカー／ドライバが別個に電力を受けない場合、双方向相互接続の一部として電力が提供されてもよい。

図１０は、ある実施形態のもとでの双方向相互接続の組成を示す描画１０００である。レンダラーに増幅器／音プロセッサ・チェーンを加えたものを表わしうる音源１００２は、一対の相互接続リンク１００６および１００８を通じてスピーカー・キャビネット１００４に論理的および物理的に結合される。音源１００２からスピーカー・キャビネット１００４内のドライバ１００５への相互接続１００６は、各ドライバについての電気音響信号、一つまたは複数の制御信号および任意的な電力を含む。スピーカー・キャビネット１００４から音源１００２に戻る相互接続１００８は、マイクロホン１００７またはレンダラーの較正のための他のセンサーまたは同様の音処理機能からの音信号を含む。フィードバック相互接続１００８は、相互接続１００６を通じてドライバに設定された音信号を修正または処理するためにレンダラーによって使用されるある種のドライバ定義およびパラメータをも含む。

ある実施形態では、システムの各キャビネット内の各ドライバは、システム・セットアップの間に識別子（たとえば数値の割り当て）を割り当てられる。各スピーカー・キャビネットも一意的に同定されることができる。この数値割り当ては、スピーカー・キャビネットによって、どのオーディオ信号が当該キャビネット内のどのドライバに送られるかを決定するために使用される。割り当ては、適切なメモリ装置においてスピーカー・キャビネット内で記憶される。あるいはまた、各ドライバは、独自の識別子をローカル・メモリに記憶するよう構成されてもよい。ドライバ／スピーカーがローカルな記憶容量をもたないようなさらなる代替では、識別子は音源１００２内のレンダリング段または他のコンポーネントに記憶されることができる。スピーカー発見プロセスの間、各スピーカー（または中央データベース）は音源によってそのプロファイルを問い合わせされる。プロファイルは、スピーカー・キャビネットまたは他の定義されたアレイ内のドライバの数、各ドライバの音響特性（たとえば、ドライバ型、周波数応答など）、スピーカー・キャビネットの正面の中心に対する各ドライバの中心のx,y,z位置、定義された平面（たとえば天井、床、キャビネット鉛直軸など）に関する各ドライバの角度およびマイクロホンの数およびマイクロホン特性を含む、ある種のドライバ定義を定義する。他の関連するドライバおよびマイクロホン／センサー・パラメータも定義されてもよい。ある実施形態では、ドライバ定義およびスピーカー・キャビネット・プロファイルは、レンダラーによって使われる一つまたは複数のXML文書として表現されてもよい。

ある可能な実装では、インターネット・プロトコル（IP）制御ネットワークが音源１００２とスピーカー・キャビネット１００４との間に作り出される。各スピーカー・キャビネットおよび音源は、単一のネットワーク・エンドポイントとして作用し、初期化または電源投入の際にリンク・ローカルな（link-local）アドレスを与えられる。音源が、ネットワーク上で各スピーカーを位置特定することを許容するために、無構成ネットワーキング（zeroconf）のような自動発見機構が使用されてもよい。無構成ネットワーキングは、手動の操作者介入または特殊な構成設定サーバーなしで使用可能なIPネットワークを自動的に作り出すプロセスの例であり、他の同様の技法が使われてもよい。知的なネットワーク・システムを与えられると、複数の源がIPネットワーク上でスピーカーとして存在しうる。これは、複数の源が、「マスター」オーディオ源（たとえば伝統的なA/V受信器）を通じて音をルーティングすることなく、スピーカーを直接駆動することを許容する。別の源がそれらのスピーカーをアドレッシングしようと試みる場合、すべての源の間で通信が実行され、どの源が現在「アクティブ」であるか、アクティブであることが必要かどうかおよび新しい音源に制御が遷移されることができるかどうかを決定する。源は、製造の際に、その分類に基づいて優先度をあらかじめ割り当てられていてもよい。たとえば、遠隔通信源は、娯楽源より高い優先度を有してもよい。典型的な家庭環境のような複数部屋環境では、全体的な環境内のすべてのスピーカーは、単一のネットワーク上に存在していてもよいが、同時にアドレッシングされる必要はなくてもよい。セットアップおよび自動構成の間、相互接続１００８を通じて提供し返された音レベルが、どのスピーカーが同じ物理的空間内に位置されるかを決定するために使用できる。ひとたびこの情報が決定されたら、スピーカーはクラスターにまとめられてもよい。この場合、クラスターIDが割り当てられ、ドライバ定義の一部とされることができる。クラスターIDは各スピーカーに送られ、各クラスターは音源１００２によって同時にアドレッシングされることができる。

図１０に示されるように、任意的な電力信号が双方向相互接続を通じて伝送されることができる。スピーカーは受動（音源からの外部電力を必要とする）または能動（電気コンセントからの電力を必要とする）でありうる。スピーカー・システムが無線サポートのない能動スピーカーからなる場合、スピーカーへの入力はIEEE802.3準拠の有線イーサネット〔登録商標〕入力からなる。スピーカー・システムが無線サポートのある能動スピーカーからなる場合、スピーカーへの入力はIEEE802.11準拠の無線イーサネット〔登録商標〕入力または代替的にWISA機関によって規定された無線規格からなる。受動スピーカーは、直接、音源によって与えられる適切な電力信号を提供されてもよい。

〈システム構成および較正〉
図４のＣに示されるように、適応オーディオ・システムの機能は較正機能４６２を含む。この機能は、図１０に示されるマイクロホン１００７および相互接続１００８リンクによって可能にされる。システム１０００内のマイクロホン・コンポーネントの機能は、全体的なシステム応答を導出するために、部屋内の個々のドライバの応答を測定することである。この目的のために、単一マイクロホンまたはマイクロホン・アレイを含む複数のマイクロホン・トポロジーが使用できる。最も単純な場合は、部屋の中心に位置された単一の無指向性マイクロホンが各ドライバの応答を測定するために使用されるというものである。部屋および再生条件がより洗練された解析を保証するなら、複数のマイクロホンが代わりに使用できる。複数マイクロホンについての最も便利な位置は、部屋内で使用される特定のスピーカー構成の物理的なスピーカー・キャビネット内である。各エンクロージャー内に設置されるマイクロホンは、システムが、部屋内の複数の位置において、各ドライバの応答を測定することを許容する。このトポロジーに対する代替は、部屋内の考えられる聴取者位置に置かれた複数の無指向性測定マイクロホンを使うものである。

マイクロホン（単数または複数）は、レンダラーおよび後処理アルゴリズムの自動構成および較正を可能にするために使われる。適応オーディオ・システムでは、レンダラーは、ハイブリッドのオブジェクトおよびチャネル・ベースのオーディオ・ストリームを、一つまたは複数の物理的スピーカー内での、特定のアドレッシング可能なドライバについて指定された個々のオーディオ信号に変換することを受け持つ。後処理コンポーネントは：遅延、等化、利得、スピーカー仮想化および上方混合を含んでいてもよい。スピーカー構成は、しばしば、ハイブリッドのオブジェクトおよびチャネル・ベースのオーディオ・ストリームを個々のドライバ毎のオーディオ信号に変換してオーディオ・コンテンツの最適な再生を提供するためにレンダラー・コンポーネントが使うことのできるクリティカルな情報を表わす。システム構成（system configuration）情報は：（１）システム中の物理的なスピーカーの数、（２）各スピーカー中の個々にアドレッシング可能なドライバの数および（３）部屋の幾何構成に対する個々にアドレッシング可能な各ドライバの位置および方向を含む。他の特性も可能である。図１１は、ある実施形態のもとでの、自動構成およびシステム較正コンポーネントの機能を示している。描画１１００に示されるように、一つまたは複数のマイクロホンのアレイ１１０２は構成および較正コンポーネント１１０４に音響情報を提供する。この音響情報は、聴取環境のある種の関連する特性を捕捉する。構成および較正コンポーネント１１０４は次いで、この情報をレンダラー１１０６および任意の関連する後処理コンポーネント１１０８に与え、最終的にスピーカーに送られるオーディオ信号が調整され、聴取環境のために最適化されるようにする。

システム内の物理的なスピーカーの数および各スピーカー内の個々にアドレッシング可能なドライバの数は、物理的なスピーカー属性である。これらの属性は、スピーカーから双方向相互接続４５６を介してレンダラー４５４に直接送信される。レンダラーおよびスピーカーは共通の発見プロトコルを使い、それによりスピーカーがシステムから接続または切断されるとき、レンダラーはその変化を通知され、しかるべくシステムを構成し直すことができる。

聴取室の幾何構成（サイズおよび形状）は、構成および較正プロセスにおいて必要な情報項目である。幾何構成は、いくつかの異なる仕方で決定されることができる。手動構成モードでは、部屋についての最小外包立方体（minimum bounding cube）の幅、長さおよび高さが聴取者または技術者によって、レンダラーまたは適応オーディオ・システム内の他の処理ユニットに入力を提供するユーザー・インターフェースを通じて、システムに入力される。さまざまな異なるユーザー・インターフェース技法およびツールがこの目的のために使用されうる。たとえば、部屋の幾何構成は、部屋の幾何構成を自動的にマッピングおよびトレーシングするプログラムによってレンダラーに送られることができる。そのようなシステムは、コンピュータビジョン、ソナーおよび3Dレーザー・ベースの物理的マッピングの組み合わせを使ってもよい。

部屋の幾何構成内のスピーカーの位置を使って、直接および反射される（上方発射）ドライバを含む個々にアドレッシング可能な各ドライバのためのオーディオ信号を導出する。直接ドライバは、その分散パターンの大半が反射面（床、壁または天井など）によって拡散される前に聴取位置に交わるようねらいをつけられるものである。反射されるドライバは、その分散パターンの大半が、図６に示されるように聴取位置に交わる前に反射されるようにねらいをつけられるものである。システムが手動構成モードにあれば、各直接ドライバのための3D座標がUIを通じてシステムに入力されてもよい。反射ドライバについては、一次反射の3D座標がUIに入力される。部屋の諸表面への拡散ドライバ（diffuse driver）の分散パターン（dispersion pattern）を視覚化するために、レーザーまたは同様の技法が、使用されてもよい。それにより3D座標が測定され、システムに手動で入力されることができる。

ドライバの位置およびねらい付けは、典型的には、手動または自動の技法を使って実行される。場合によっては、慣性センサーが各スピーカーに組み込まれてもよい。この態様では、中央スピーカーは「マスター」として指定され、そのコンパス測定が基準と考えられる。すると、他のスピーカーは、その個々にアドレッシング可能なドライバのそれぞれについての分散パターンおよびコンパス位置を送信する。部屋の幾何構成と結合して、中央スピーカーの基準角度と各追加ドライバの間の差が、システムがドライバが直接であるか反射であるかを自動的に決定するために十分な情報を提供する。

スピーカー位置構成は、3D位置（すなわち、アンビソニック）マイクロホンが使われる場合には、フルに自動化されうる。この態様では、システムは、各ドライバに試験信号を送り、応答を記録する。マイクロホン型に依存して、信号はx,y,z表現に変換される必要があることがある。これらの信号は解析されて、優勢な最初の到着音のx,y,z成分を見出す。部屋の幾何構成と結合されて、これは通例、システムが直接だろうと反射だろうとすべてのスピーカー位置についての3D座標を自動的に設定するための十分な情報を提供する。部屋の幾何構成に依存して、ただ一つの技法を単独で使うよりも、スピーカー座標を構成するための記載された三つの方法のハイブリッドの組み合わせが、より有効であることがある。

スピーカー構成情報は、レンダラーを構成するために必要とされる一つのコンポーネントである。スピーカー較正情報も、後処理チェーン：遅延、等化および利得を構成するために必要である。図１２は、ある実施形態のもとでの、単一のマイクロホンを使った自動スピーカー較正を実行するプロセス段階を示すフローチャートである。この態様では、遅延、等化および利得は、聴取位置の中央に位置される単一の無指向性測定マイクロホンを使うシステムによって、自動的に計算される。描画１２００に示されるように、プロセスは、各単一のドライバ単独についての室内インパルス応答を測定することによって始まる（ブロック１２０２）。次いで、各ドライバの遅延が、音響インパルス応答（マイクロホンで捕捉される）の、直接捕捉された電気インパルス応答との相互相関のピークのオフセットを見出すことによって計算される（ブロック１２０４）。ブロック１２０６では、計算された遅延が、直接捕捉された（基準）インパルス応答に適用される。プロセスは次いで、測定されたインパルス応答に適用されたときにそれと直接捕捉（基準）インパルス応答との間の最小差につながる広帯域および帯域毎の利得値を決定する（ブロック１２０８）。これは、測定されたインパルス応答と基準インパルス応答の窓掛けされたFFTを取り、二つの信号の間のビン毎の大きさ比を計算し、ビン毎の大きさ比にメジアン・フィルタを適用し、完全にある帯域内にはいるビンのすべてについての利得を平均することによって帯域毎の利得値を計算し、すべての帯域毎利得の平均を取ることによって高帯域利得を計算し、高帯域利得を諸帯域毎利得から引き、小部屋用Xカーブ（2kHzより上で−2dB／オクターブ）を適用することによってできる。ひとたびこれらの利得値がブロック１２０８において決定されたら、プロセスは、その最小遅延を他の遅延から引くことによって、最終的な遅延値を決定する。よって、システム内の少なくとも一つのドライバは常に追加的な遅延0をもつことになる。

複数のマイクロホンを使う自動較正の場合、遅延、等化および利得は、複数の無指向性測定マイクロホンを使って、システムによって自動的に計算される。プロセスは実質的に単一マイクロホン技法と同一であるが、各マイクロホンについて繰り返され、結果が平均される。

〈代替的なアプリケーション〉
部屋またはシアター全体において適応オーディオ・システムを実装する代わりに、テレビジョン、コンピュータ、ゲーム・コンソールまたは同様の装置のようなより局在化したアプリケーションにおいて適応オーディオ・システムの諸側面を実装することが可能である。このケースは事実上、閲覧スクリーンまたはモニタ表面に対応する平坦な面内に配列されたスピーカーに依拠する。図１３は、例示的なテレビジョンおよびサウンドバー消費者使用ケースにおける適応オーディオ・システムの使用を示している。一般に、テレビジョン使用ケースは、設備（テレビ・スピーカー、サウンドバー・スピーカーなど）のしばしば低下した品質および空間的分解能の点で限定されていることがある（たとえばサラウンドまたは後方スピーカーがない）スピーカー位置／構成（単数または複数）に基づいて、没入的な消費者体験を作り出すことに対して困難を呈する。図１３のシステム１３００は、標準的なテレビジョンの左および右の位置にあるスピーカー（TV-LおよびTV-R）ならびに左および右の上方発射ドライバ（TV-LHおよびTV-RH）を含んでいる。テレビジョン１３０２は、何らかの種類の高さアレイにおけるサウンドバー１３０４またはスピーカーをも含んでいてもよい。一般に、テレビジョン・スピーカーのサイズおよび品質は、コスト制約および設計選択に起因して、単独のまたは家庭シアター・スピーカーに比べて低下している。しかしながら、動的仮想化の使用がこうした不足を克服する助けとなりうる。図１３では、動的仮想化効果は、TV-LおよびTV-Rスピーカーについて示されている。これにより、特定の聴取位置１３０８にいる人々は、水平面内で個々にレンダリングされる適切なオーディオ・オブジェクトに関連付けられた水平要素を聞くことになる。さらに、適切なオーディオ・オブジェクトに関連付けられた高さ要素が、LHおよびRHドライバによって送信される反射されたオーディオを通じて正しくレンダリングされる。テレビジョンLおよびRスピーカーにおけるステレオ仮想化の使用は、LおよびR家庭シアター・スピーカーと同様である。ここでは、適応オーディオ・コンテンツによって与えられるオブジェクト空間的情報に基づくスピーカー仮想化アルゴリズム・パラメータの動的制御を通じて潜在的に没入的な動的スピーカー仮想化ユーザー体験が可能でありうる。この動的仮想化は、オブジェクトが部屋の側面に沿って動いている知覚を作り出すために使用されうる。

テレビジョン環境は、サウンドバー１３０４内に示されるようなHRCスピーカーをも含んでいてもよい。そのようなHRCスピーカーは、HRCアレイを通じたパンを許容する操縦可能なユニットであってもよい。スクリーン上のビデオ・オブジェクトの動きにマッチするアレイを通じたオーディオ・オブジェクトの離散的なパンを許容する個々にアドレッシング可能なスピーカーをもつ前方発射中央チャネルを有することによる、（特により大きなスクリーンにとっての）恩恵がありうる。このスピーカーは、側方発射スピーカーをももつよう示されている。これらは、スピーカーがサウンドバーとして使われる場合にアクティブ化され、使用されることができる。それにより、側方発射ドライバが、サラウンドまたは後方スピーカーの欠如に起因するさらなる没入感を与える。動的仮想化概念もHRC／サウンドバー・スピーカーについて示されている。動的仮想化は、前方発射スピーカー・アレイの最も遠い側面上のLおよびRスピーカーについて示されている。ここでもまた、これは、部屋の面に沿って動いているオブジェクトの知覚を作り出すために使用されることができる。この修正された中央スピーカーは、より多くのスピーカーを含み、別個に制御される音ゾーンをもつ操縦可能な音ビームを実装することもできる。また、図１３の例示的実装には、主たる聴取位置１３０８の前方に位置するNFEスピーカー１３０６も示されている。NFEスピーカーを含めることは、音を部屋の前方から離し、聴取者のより近くに動かすことによって、適応オーディオ・システムによって与えられるより大きな包み込みを提供しうる。

ヘッドホン・レンダリングに関し、適応オーディオ・システムは空間的位置にHRTFをマッチさせることによって、クリエーターのもとの意図を維持する。オーディオがヘッドホンを通じて再生されるときは、オーディオを処理する頭部伝達関数（HRTF: Head Related Transfer Function）の適用によって、バイノーラル空間的仮想化が達成されることができ、標準的なステレオ・ヘッドホンを通じてではなく、三次元空間において再生されるオーディオの知覚を作り出す知覚的な手がかりを加える。空間的再生の精度は、適切なHRTFの選択に依存する。該選択は、オーディオ・チャネルまたはレンダリングされるオブジェクトの空間的位置を含むいくつかの因子に基づいて変わりうる。適応オーディオ・システムによって提供される空間的情報を使う結果、3D空間を表わす諸HRFTの一つ――または連続して変化する数――の選択が得られ、再生体験を大幅に改善する。

システムは、案内された、三次元のバイノーラル・レンダリングおよび仮想化を加えることをも容易にする。空間的レンダリングの場合と同様に、新しい修正されたスピーカー型および位置を使って、三次元HRTFの使用を通じて、水平面および鉛直軸の両方からくる音をシミュレートする手がかりを作り出すことが可能である。チャネルおよび固定スピーカー位置情報レンダリングを与えるだけの以前のオーディオ・フォーマットはより制限されていた。適応オーディオ・フォーマット情報を用いて、バイノーラルの三次元レンダリング・ヘッドホンは、オーディオのどの要素が水平および垂直面の両方においてレンダリングされるのに好適であるかを指示するために使用されることができる詳細かつ有用な情報をもつ。一部のコンテンツは、より大きな包み込み感を提供するために、頭上スピーカーの使用に依拠することがある。これらのオーディオ・オブジェクトおよび情報は、ヘッドホンを使っているときに聴取者の頭の上であるように知覚されるバイノーラル・レンダリングのために使用されることができる。

図１４は、ある実施形態のもとでの、適応オーディオ・システムにおける使用のための三次元バイノーラル・ヘッドホン仮想化体験の簡略化された表現を示している。図１４に示されるように、適応オーディオ・システムからのオーディオを再生するために使用されるヘッドホン・セット１４０２は、標準的なx,y平面およびz平面におけるオーディオ信号１４０４を含む。それにより、ある種のオーディオ・オブジェクトまたは音に関連付けられた高さが再生され、それによりそれらがx,yで発した音の上または下で発しているかのように聞こえる。

〈メタデータ定義〉
ある実施形態では、適応オーディオ・システムは、もとの空間的オーディオ・フォーマットからメタデータを生成するコンポーネントを含む。システム３００の方法およびコンポーネントは、通常のチャネル・ベースのオーディオ要素およびオーディオ・オブジェクト符号化要素の両方を含む一つまたは複数のビットストリームを処理するよう構成されたオーディオ・レンダリング・システムを有する。オーディオ・オブジェクト符号化要素を含む新しい拡張層が定義され、チャネル・ベースのオーディオ・コーデック・ビットストリームまたはオーディオ・オブジェクト・ビットストリームのいずれかに加えられる。このアプローチは、前記拡張層を含むビットストリームが、既存のスピーカーおよびドライバ設計または個々にアドレッシング可能なドライバおよびドライバ定義を利用する次世代スピーカーと一緒に使うためのレンダラーによって処理されることを可能にする。空間的オーディオ・プロセッサからの空間的オーディオ・コンテンツは、オーディオ・オブジェクト、チャネルおよび位置メタデータを含む。オブジェクトがレンダリングされるとき、オブジェクトは、位置メタデータおよび再生スピーカーの位置に従って、一つまたは複数のスピーカーに割り当てられる。再生位置を変更するまたは他の仕方で再生のために使用されるスピーカーを制限するために、追加的なメタデータがオブジェクトに関連付けられていてもよい。メタデータは、エンジニアのミキシング入力に応答してオーディオ・ワークステーションにおいて生成され、空間的パラメータ（たとえば位置、速度、強度、音色など）を制御し、聴取環境におけるどのドライバ（単数または複数）またはスピーカー（単数または複数）が展示の際にそれぞれの音を再生するかを指定するレンダリング手がかりを提供する。メタデータは、空間的オーディオ・プロセッサによるパッケージングおよび輸送のために、ワークステーション内でそれぞれのオーディオ・データに関連付けられる。

図１５は、ある実施形態のもとでの、諸聴取環境についての、適応オーディオ・システムにおける使用のためのある種のメタデータ定義を示す表である。表１５００に示されるように、メタデータ定義は：オーディオ・コンテンツ型、ドライバ定義（数、特性、位置、投射角）、能動ステアリング／チューニングのための制御信号および部屋およびスピーカー情報を含む較正情報を含む。

〈上方混合〔アップミキシング〕〉
適応オーディオ・レンダリング・システムの諸実施形態は、オーディオ・チャネルを反射および直接サブチャネルに因子分解することに基づく上方混合器を含む。直接サブチャネルは、入力チャネルのうち、聴取者に早期反射音響波形を送達するドライバにルーティングされる部分である。反射されるまたは拡散サブチャネルは、もとのオーディオ・チャネルのうち、ドライバのエネルギーの主要部分を近くの表面および壁から反射させることが意図されている部分である。よって、反射サブチャネルは、もとのチャネルのうち、局所的な音響環境中への拡散後に聴取者に到達することが好ましい、あるいは表面（たとえば天井）のある点から室内の別の位置に特定的に反射される部分をいう。各サブチャネルは、独立したスピーカー・ドライバにルーティングされる。一方のサブチャネルについてのドライバの、他方のサブチャネルのドライバに対する物理的な動作は、それぞれの到来信号に音響的空間的ダイバーシチを加えるからである。ある実施形態では、反射サブチャネル（単数または複数）は、聴取者に到達する前の音波の反射のために、聴取室内のある表面に向けられているスピーカー・ドライバに送られる。そのようなドライバは、天井に向けた上方発射ドライバまたは所望される位置への音の間接的伝送のために壁もしくは他の表面に向けられている側方発射ドライバまたさらには前方発射ドライバであることができる。

図１６は、ある実施形態のもとで、入力チャネルをサブチャネルに分解するプロセスを示すフローチャートである。全体的なシステムは、複数の入力チャネルに対して作用するよう設計される。ここで、入力チャネルは、空間ベースのオーディオ・コンテンツのためのハイブリッドのオーディオ・ストリームを含む。プロセス１６００に示されるように、これらの段階は、動作の逐次順において諸入力チャネルを諸サブチャネルに分解または分割することを含む。ブロック１６０２では、入力チャネルは、粗い分解段階において、拒否されるサブチャネルと直接サブチャネルとの間の第一の分割に分けられる。この当初の分解は、次いで、その後の分解段階であるブロック１６０４において洗練される。ブロック１６０６では、プロセスは、反射されたサブチャネルと直接サブチャネルの間の結果として得られた分割が最適であるか否かを判定する。その分割がまだ最適でない場合には、追加的な分解段階１６０４が実行される。ブロック１６０６において、反射されたサブチャネルと直接サブチャネルとの間の分解が最適であると判定されたら、適切なスピーカー・フィードが生成され、反射サブチャネルと直接サブチャネルの最終的な混合に伝送される。

分解プロセス１６００に関し、プロセスの各段において、反射サブチャネルと直接サブチャネルの間でエネルギー保存が保持されることを注意しておくことが重要である。この計算のために、変数αが、入力チャネルのうち直接サブチャネルに関連付けられる部分として定義され、βが、拡散サブチャネルに関連付けられる部分として定義される。すると、決定されたエネルギー保存との関係は、次式によって表わせる。

上記の式において、xは入力チャネル、kは変換インデックスである。ある実施形態では、解は、複素離散フーリエ変換係数、実数ベースのMDCT変換係数またはQMF（quadrature mirror filter［直交ミラー・フィルタ］）サブバンド係数（実または複素）のいずれかの形の周波数領域の量に対して計算される。よって、このプロセスにおいて、入力チャネルに対しては順変換が適用され、出力サブチャネルに対しては対応する逆変換が適用されることが想定される。

図１８は、ある実施形態のもとで、入力チャネルをサブチャネルに分解するプロセスを示すフローチャート１８００である。各入力チャネルについて、システムは二つの最も近い隣接チャネル間のチャネル間相関（ICC）を計算する（ステップ１８０２）。ICCは普通、次式に従って計算される。

ここで、s_Diはインデックスiの入力チャネルについての周波数領域係数であり、s_Djはインデックスjの、次の空間的に隣接する入力オーディオ・チャネルについての係数である。E{}演算子は期待値演算子であり、設定された数のオーディオ・ブロックにわたる固定した平均化を使って実装される、あるいは平滑化アルゴリズムとして実装されることができる。平滑化アルゴリズムでは、平滑化は、諸ブロックを横断して、各周波数領域係数について実施される。この平滑化器は、無限インパルス応答（IIR: infinite impulse response）フィルタ・トポロジーを使う指数関数的平滑化器として実装されることができる。

これら二つの隣接チャネルのICCの間の幾何平均が計算され、この値は−1から1までの間の数である。次いで、αの値が、1.0とこの平均との間の差として設定される。ICCはおおまかには、信号のうちどのくらいが二つのチャネルの間で共通であるかを記述するものである。より高いチャネル間相関をもつ諸信号は反射チャネルにルーティングされ、近傍チャネルに比して独特な諸信号は直接サブチャネルにルーティングされる。この動作は、次の擬似コードに従って記述できる。

if (pICC*nICC ＞ 0.0f)
alpha(i)＝1.0f−sqrt(pICC*nICC);
else
alpha(i)＝1.0f−sqrt(fabs(pICC*nICC));
上記のコード・セグメントにおいて、pICCは現在の入力チャネルiに空間的に隣接するi−1入力チャネルのICCを指し、nICCは現在の入力チャネルiに空間的に隣接するi＋1のインデックスをもつ入力チャネルのICCを指す。ステップ１８０４では、システムは、各入力チャネルについて過渡的なスケーリング項を計算する。これらのスケーリング因子は、反射対直接の混合計算に寄与する。ここで、スケーリングの量は該過渡量におけるエネルギーに比例する。一般には、過渡信号は直接サブチャネルにルーティングされることが望まれる。よって、肯定的な過渡検出の場合、αは1.0（またはより弱い過渡量については1.0近く）に設定されるスケーリング因子sf.に比較される。このことは、次の式に示される。ここで、インデックスiは入力チャネルiに対応する。

α_i＝max(α_i,sf_i)
各過渡スケーリング因子sfは、該スケーリング因子が該過渡後にどのように時間発展するかを制御するための、保持パラメータおよび減衰パラメータをもつ。これら保持および減衰パラメータは、一般に、ミリ秒のオーダーであるが、αの公称値まで減衰して戻るのは、まるまる一秒ほどまで延びることがある。ブロック１８０２において計算されたα値および１８０４において計算された過渡スケーリング因子を使って、システムは各入力チャネルを反射サブチャネルと直接サブチャネルに、両サブチャネルの間の合計エネルギーが保存されるように、分割する（ステップ１８０６）。

任意的なステップとして、反射されるチャネルはさらに残響および非残響成分に分解されることができる（ステップ１８０８）。非残響サブチャネルは、直接サブチャネルに足し戻されてもよいし、あるいは出力において専用のドライバに送られてもよい。入力信号を反響させるためにどの線形変換が適用されたかはわからないことがあるので、盲目的な脱畳み込みまたは関係したアルゴリズム（盲目的源分離（blind source separation）など）が適用される。

第二の任意的なステップは、諸ブロックを横断した各周波数領域変換に対して作用する脱相関器を使って、反射されるチャネルを、直接チャネルからさらに脱相関させるものである（ステップ１８１０）。ある実施形態では、脱相関器は、いくつかの遅延要素（ミリ秒単位での遅延が、ブロック整数遅延に、根底にある時間から周波数への変換の長さを乗算したものに対応する）と、制約されたZ領域円内で時間の関数として任意に動くことができるフィルタ係数をもつ全通過IIR（無限インパルス応答）フィルタとから構成される。ステップ１８１２では、システムは、反射されるチャネルおよび直接チャネルに対して等化および遅延関数を実行する。通常の場合では、直接サブチャネルは、直接ドライバからの音響波面が聴取位置において（平均二乗エネルギー誤差の意味で）主たる反射エネルギー波面と位相コヒーレントになることを許容する量だけ遅延される。同様に、反射されるチャネルには、反射されるサブチャネルと直接サブチャネルとの間の音色を最もよくマッチさせるために、部屋の期待される（または測定される）拡散性（diffuseness）を補償するよう、等化が適用される。

図１７は、ある実施形態のもとでの、複数のオーディオ・チャネルを処理して複数の反射されるサブチャネルおよび直接サブチャネルにする上方混合器システムを示している。システム１７００に示されるように、N個の入力チャネル１７０２について、K個のサブチャネルが生成される。各入力チャネルについて、システムは反射される（「拡散」とも称される）サブチャネルおよび直接サブチャネルを生成し、K×N個のサブチャネル１７２０の全出力となる。典型的な場合では、K＝2であり、これは一つの反射されるサブチャネルおよび一つの直接サブチャネルを許容する。N個の入力チャネルはICC計算コンポーネント１７０６および過渡スケーリング項情報計算器１７０４に入力される。コンポーネント１７０８においてα係数が計算され、分割プロセス１７１０への入力のために過渡スケーリング項と組み合わされる。このプロセス１７１０はN個の入力チャネルを反射される出力および直接出力に分割し、結果としてN個の反射されるチャネルおよびN個の直接チャネルが得られる。システムは、N個の反射されるチャネルに対して盲目的な脱畳み込みプロセス１７１２を、次いでこれらのチャネルに対して脱相関演算１７１６を実行する。音響チャネル前処理器１７１８はN個の直接チャネルおよび脱相関されたN個の反射チャネルを受け、K×N個のサブチャネル１７２０を生成する。

もう一つのオプションは、室内に存在することができる環境感知マイクロホンの使用を通じてアルゴリズムを制御することである。これは、部屋の直接音対残響比（DR比）の計算を許容する。DR比により、拡散サブチャネルと直接サブチャネルとの間の最適な分割を決定するにあたっての最終的な制御が可能になる。具体的には、きわめて残響の多い部屋については、拡散サブチャネルが聴取者位置に適用される、より多くの拡散を有し、よって拡散サブチャネルと直接サブチャネルの間の混合が盲目的な脱畳み込みおよび脱相関ステップにおいて影響されることがありうると想定することは合理的である。特に、反射される音響エネルギーがほとんどない部屋については、拡散サブチャネルにルーティングされる信号の量は増大させることができる。さらに、音響環境中のマイクロホン・センサーが、拡散サブチャネルに適用されるべき最適な等化を決定できる。適応等化器は、拡散サブチャネルが最適に遅延され、等化され、それにより両サブチャネルからの波面が聴取位置において位相コヒーレントな仕方で組み合わされることを保証することができる。

〈特徴および機能〉
上述したように、適応オーディオ・エコシステムは、コンテンツ・クリエーターがメタデータを介して、混合の空間的意図（位置、サイズ、速度など）をビットストリーム内に埋め込むことを許容する。これにより、オーディオの空間的再生における信じられないほどの柔軟性が許容される。空間的レンダリングの観点からは、適応オーディオ・フォーマットにより、コンテンツ・クリエーターは、再生システムの幾何構成がオーサリング・システムと同一でないことにより引き起こされる空間的ゆがみを避けるために、室内のスピーカーの正確な位置に合わせて混合を適応させることができる。スピーカー・チャネルのためのオーディオのみが送られる現行のオーディオ再生システムでは、コンテンツ・クリエーターの意図は、固定したスピーカー位置以外の室内の諸位置についてはわからない。現行のチャネル／スピーカー・パラダイムのもとでは、わかっている唯一の情報は、特定のオーディオ・チャネルが室内のあらかじめ定義された位置をもつ特定のスピーカーに送られるべきであるということである。適応オーディオ・システムでは、生成および配送パイプラインを通じて伝達されるメタデータを使って、再生システムは、コンテンツ・クリエーターのもとの意図にマッチする仕方でコンテンツを再生するために、この情報を使用することができる。たとえば、スピーカー間の関係が種々のオーディオ・オブジェクトについて知られる。オーディオ・オブジェクトについての空間的位置を与えることによって、コンテンツ・クリエーターの意図がわかり、これが、その位置を含むスピーカー構成に「マッピング」されることができる。動的レンダリングするオーディオ・レンダリング・システムでは、このレンダリングは、追加的スピーカーを加えることによって更新され、改善されることができる。

本システムは、案内された三次元の空間的レンダリングを加えることをも可能にする。新しいスピーカー設計および構成の使用を通じてより没入的なオーディオ・レンダリング体験を作り出そうとする多くの試みがあった。これらは、バイポールおよびダイポール・スピーカー、側方発射、後方発射および上方発射ドライバの使用を含む。以前のチャネルおよび固定スピーカー位置システムでは、オーディオのどの要素がこれらの修正されるスピーカーに送られるべきかを決定することは、最善でも当て推量であった。適応オーディオ・フォーマットを使うと、レンダリング・システムは、オーディオ（オブジェクトまたはその他）のどの要素が新しいスピーカー構成に送られるのに好適かの詳細かつ有用な情報をもつ。すなわち、システムは、どのオーディオ信号が前方発射ドライバに送られ、どれが上方発射ドライバに送られるかについての制御を許容する。たとえば、適応オーディオ映画館コンテンツは、より大きな包み込み感を与えるために頭上スピーカーの使用に大きく頼っている。これらのオーディオ・オブジェクトおよび情報は、同様の効果を作り出すために、消費者空間において反射されたオーディオを提供するよう上方発射ドライバに送られてもよい。

本システムは、再生システムの正確なハードウェア構成に合わせて混合を適応させることをも許容する。テレビジョン、家庭シアター、サウンドバー、ポータブル音楽プレーヤー・ドックなどといった消費者レンダリング設備において多くの異なる可能なスピーカー型および構成が存在している。これらのシステムがチャネル固有のオーディオ情報（すなわち、左右チャネルまたは標準的な多チャネル・オーディオ）を送られるとき、システムは、レンダリング設備の機能に適切にマッチするよう該オーディオを処理する必要がある。典型的な例は、標準的なステレオ（左、右）オーディオが、三つ以上のスピーカーをもつサウンドバーに送られるときである。スピーカー・チャネルについてのオーディオのみが送られる現行のシステムでは、コンテンツ・クリエーターの意図は未知であり、向上した設備によって可能にされる、より没入的なオーディオ体験は、ハードウェア上での再生のためにオーディオをどのように修正するかの仮定をするアルゴリズムによって作り出さねばならない。この一つの例は、チャネル・ベースのオーディオをもとのチャネル・フィード数より多くのスピーカーに「上方混合」するPLII、PLII-zまたは次世代サラウンドの使用である。生成および配送パイプラインを通じて伝達されるメタデータを使う適応オーディオ・システムでは、再生システムは、コンテンツ・クリエーターのもともとの意図によりよくマッチする仕方でコンテンツを再生するためにこの情報を使うことができる。たとえば、いくつかのサウンドバーは、包み込み感を作り出すために側方発射スピーカーをもつ。適応オーディオでは、適切なオーディオのみをこれらの側方発射スピーカーに送るTVまたはA/V受信器のようなレンダリング・システムによって制御されるときに、空間的情報およびコンテンツ型情報（すなわち、ダイアログ、音楽、環境効果など）がサウンドバーによって使用されることができる。

適応オーディオによって伝達される空間的情報は、存在するスピーカーの位置および型に対する意識をもってのコンテンツの動的なレンダリングを許容する。さらに、聴取者（単数または複数）のオーディオ再生設備に対する関係についての情報が今や潜在的に利用可能であり、レンダリングにおいて使用されてもよい。たいていのゲーム・コンソールは、室内の人物の位置および素性を判別することのできるカメラ・アクセサリおよび知的な画像処理を含んでいる。この情報は、聴取者の位置に基づいてコンテンツ・クリエーターの創造的な意図をより正確に伝達するようレンダリングを変更するために、適応オーディオ・システムによって使用されてもよい。たとえば、ほとんどすべての場合において、再生のためにレンダリングされるオーディオは、聴取者が、しばしば各スピーカーから等距離でありコンテンツ生成の際にサウンド・ミキサーが位置していたのと同じ位置である理想的な「スイートスポット」に位置していることを想定する。しかしながら、多くの場合、人々はこの理想的な位置にいるのではなく、その体験はミキサーの創造的な意図にマッチしない。典型的な例は、聴取者が、リビングルームにおいて部屋の左側で椅子またはカウチに座っているときである。この場合、左側のより近いスピーカーから再生される音は、より大きく知覚され、オーディオ・ミックスの空間的な知覚を左側にゆがめる。聴取者の位置を理解することによって、システムはオーディオのレンダリングを調整し、左のスピーカーでの音のレベルを下げ、右のスピーカーのレベルを上げて、オーディオ・ミックスのバランスを直し、知覚的に正しくすることができる。聴取者のスイートスポットからの距離を補償するためにオーディオを遅延させることも可能である。聴取者位置は、カメラまたはレンダリング・システムに聴取者位置を合図する何らかの組み込み信号伝達をもつ修正されたリモコンの使用を通じて検出されることができる。

聴取位置に音を伝えるために標準的なスピーカーおよびスピーカー位置を使うことに加えて、聴取者位置およびコンテンツに依存して変わる音場「ゾーン」を作り出すために、ビーム・ステアリング技術を使うことも可能である。オーディオ・ビーム形成は、スピーカーのアレイ（典型的には8ないし16個の水平方向に離間したスピーカー）を使い、操縦可能な音ビームを作り出すために位相操作および処理を使う。ビーム形成スピーカー・アレイは、当該オーディオが主として可聴であるオーディオ・ゾーンの生成を許容し、それが、選択的な処理によって特定の音またはオブジェクトを特定の空間的位置に向けるために使用できる。ある明らかな使用ケースは、サウンドトラック中のダイアログをダイアログ向上後処理アルゴリズムを使って処理して、そのオーディオ・オブジェクトのビームを聴覚障害のあるユーザーに直接向けるというものである。

〈行列エンコード〉
いくつかの場合には、オーディオ・オブジェクトは適応オーディオ・コンテンツの所望されるコンポーネントであってもよいが、帯域幅制限に基づき、チャネル／スピーカー・オーディオおよびオーディオ・オブジェクトの両方を送ることが可能でないことがある。過去には、所与の配送システムについて可能であるよりも多くのオーディオ情報を伝達するために、行列エンコードが使われたことがある。たとえば、サウンド・ミキサーによって多チャネル・オーディオが生成された映画の初期にはそうであったが、フィルム・フォーマットはステレオ・オーディオを提供するだけであった。多チャネル・オーディオを二つのステレオ・チャネルに知的に下方混合するために行列エンコードが使われた。該ステレオ・チャネルはその後ある種のアルゴリズムで処理されて、該ステレオ・オーディオから上記多チャネル・ミックスの近い近似を再生成する。同様に、諸オーディオ・オブジェクトを基本スピーカー・チャネルに知的に下方混合し、適応オーディオ・メタデータおよび洗練された時間および周波数敏感な次世代サラウンド・アルゴリズムを通じてそれらのオブジェクトを抽出し、それらを消費者ベースの適応オーディオ・レンダリング・システムで正しく空間的にレンダリングすることが可能である。

さらに、オーディオについての伝送システムの帯域幅制限があるときは（たとえば3Gおよび4G無線アプリケーション）、個々のオーディオ・オブジェクトと一緒に行列エンコードされる空間的に多様な多チャネル・ベッドを送信することからも恩恵がある。そのような伝送方法論の一つの使用ケースは、二つの相異なるオーディオ・ベッドおよび複数のオーディオ・オブジェクトを用いたスポーツ放送の送信についてであろう。オーディオ・ベッドは、二つの異なるチーム観覧席セクションにおいて捕捉された多チャネル・オーディオを表現することができ、オーディオ・オブジェクトは一方または他方のチームに同情的でありうる異なるアナウンサーを表わすことができる。二つ以上のオブジェクトと一緒の各ベッドの5.1表現の標準的な符号化を使うことは、伝送システムの帯域幅制約条件を超えることがある。この場合、5.1ベッドのそれぞれがステレオ信号に行列エンコードされたとしたら、もともと5.1チャネルとして捕捉された二つのベッドが、二チャネル・ベッド1、二チャネル・ベッド2、オブジェクト1およびオブジェクト2として、5.1＋5.1＋2すなわち12.1チャネルではなくたった4チャネルのオーディオとして、送信されることができる。

〈位置およびコンテンツ依存の処理〉
適応オーディオ・エコシステムは、コンテンツ・クリエーターが個々のオーディオ・オブジェクトを生成し、再生システムに伝達されることのできる該コンテンツについての情報を加えることを許容する。これは、再生前のオーディオの処理において多大な柔軟性を許容する。処理は、オブジェクト位置およびサイズに基づくスピーカー仮想化の動的な制御を通じて、オブジェクトの位置および型に適応されることができる。スピーカー仮想化とは、仮想スピーカーが聴取者によって知覚されるようオーディオを処理する方法をいう。この方法は、しばしば、源オーディオがサラウンド・スピーカー・チャネル・フィードを含む多チャネル・オーディオであるときにステレオ・スピーカー再生のために使われる。仮想スピーカー処理は、サラウンド・スピーカー・チャネル・オーディオを修正して、ステレオ・スピーカーで再生されたときに、聴取者の横および後方にサラウンド・オーディオ要素が仮想化されて、あたかもそこに位置する仮想スピーカーがあるかのようにする。現在のところ、サラウンド・スピーカーの意図される位置が固定されていたので、仮想スピーカー位置の位置属性は静的である。しかしながら、適応オーディオ・コンテンツでは、種々のオーディオ・オブジェクトの空間的位置は動的であり、相異なる（すなわち、各オブジェクトに対して一意的）。仮想スピーカー仮想化のような後処理が今では、各オブジェクトについてのスピーカー位置角のようなパラメータを動的に制御し、次いでいくつかの仮想化されたオブジェクトのレンダリングされる出力を組み合わせることによって、より情報を与えられた仕方で制御でき、サウンド・ミキサーの意図をより密接に表わす、より没入的なオーディオ体験を作り出することがありうる。

オーディオ・オブジェクトの標準的な水平仮想化に加えて、固定チャネルおよび動的オブジェクト・オーディオを処理する知覚的高さ手がかりを使い、通常の水平面内位置にあるステレオ・スピーカーの標準的な対から、オーディオの高さ再生の知覚を得ることが可能である。

ある種の効果または向上プロセスは、オーディオ・コンテンツの適切な型に、慎重な判断に基づいて適用されることができる。たとえば、ダイアログ向上は、ダイアログ・オブジェクトのみに適用されてもよい。ダイアログ向上とは、ダイアログを含むオーディオを処理して、ダイアログの可聴性および／または了解性が高められるおよびまたは改善されるようにする方法をいう。多くの場合、ダイアログに適用されるオーディオ処理は、ダイアログでないオーディオ・コンテンツ（すなわち、音楽、環境効果など）については不適切であり、不快な可聴アーチファクトにつながりうる。適応オーディオでは、オーディオ・オブジェクトは、コンテンツ片にダイアログを含むのみであり、レンダリング・ソリューションがダイアログ・コンテンツのみにダイアログ向上を選択的に適用するよう、しかるべくラベル付けされることができる。さらに、オーディオ・オブジェクトがダイアログのみである（しばしばそうであるようにダイアログおよび他のコンテンツの混合物ではない）場合には、ダイアログ向上処理はダイアログのみを処理することができる（それにより、他の任意のコンテンツに対して実行されている処理があればそれを制限する）。

同様に、オーディオ応答または等化管理は特定のオーディオ特性に合わせて調整されることもできる。たとえば、オブジェクトの型に基づいて特定のオブジェクトをターゲットとする低音管理（フィルタリング、減衰、利得）である。低音管理とは、特定のコンテンツ片におけるベース（または低めの）周波数のみを選択的に単離し、処理することをいう。現在のオーディオ・システムおよび送達機構では、これはオーディオの全部に適用される「盲目的な」プロセスである。適応オーディオでは、低音管理が適切である特定のオーディオ・オブジェクトがメタデータによって同定されることができ、レンダリング処理が適切に適用されることができる。

適応オーディオ・システムは、オブジェクト・ベースのダイナミックレンジ圧縮をも容易にする。伝統的なオーディオ・トラックはコンテンツ自身と同じ継続時間をもつ。一方、オーディオ・オブジェクトはコンテンツにおける限られた長さの時間にわたって現われることがある。オブジェクトに関連付けられるメタデータは、その平均およびピーク信号振幅についてのレベル関係情報およびその開始またはアタック時刻（特に過渡的素材の場合）を含んでいてもよい。この情報は、圧縮器が、その圧縮および時定数（アタック、リリースなど）を、コンテンツによりよく適合するよう、よりよく適応させることを許容する。

本システムはまた、自動的なラウドスピーカー‐部屋等化をも容易にする。ラウドスピーカーおよび部屋の音響は、音に可聴な特色を導入し、それにより再生される音の音色に影響することに有意な役割を演じる。さらに、該音響は、部屋の反射およびラウドスピーカー指向性のため位置依存であり、この変化のため、知覚される音色は異なる聴取位置について著しく異なることになる。本システムにおいて提供される自動EQ（自動部屋等化）機能は、自動的なラウドスピーカー‐部屋スペクトル測定および等化、自動化された時間遅延補償（これは適正な音像形成および可能性としては最小二乗に基づく相対スピーカー位置検出を提供する）およびレベル設定、ラウドスピーカー・ヘッドルーム機能に基づく低音リダイレクションならびにメイン・ラウドスピーカーのサブウーファー（単数または複数）との最適なスプライシングを通じて、これらの問題のいくつかを緩和する助けとなる。家庭シアターまたは他の聴取環境において、適応オーディオ・システムは、次のようなある種の追加的な機能を含む：（１）再生部屋音響に基づく自動化された目標カーブ計算（これは、家庭内聴取室における等化のための研究中の未決の問題と考えられる）、（２）時間‐周波数解析を使ったモーダル減衰制御の影響、（３）包み込み／広がり／源幅／了解性を支配する測定値から導出されるパラメータの理解およびこれらを制御することによる可能な最良の聴取体験の提供、（４）前方と「他の」ラウドスピーカーとの間のマッチする音色のための頭部モデルを組み込んだ方向性フィルタリング、（５）聴取者に対する離散的なセットアップにおけるラウドスピーカーの空間的位置の検出および空間的リマッピング（たとえば、サミット（Summit）・ワイヤレスが例となろう）。ラウドスピーカー間の音色のミスマッチは、前方アンカー・ラウドスピーカー（たとえば中央）とサラウンド／後方／ワイド／高さラウドスピーカーとの間のある種のパンされるコンテンツ上で特に明らかにされる。

いくつかのオーディオ要素の再生される空間的位置がスクリーン上の画像要素にマッチする場合、全体として、適応オーディオ・システムは、特に家庭環境におけるより大きなスクリーン・サイズにより、説得力のあるオーディオ／ビデオ再生体験をも可能にする。一例は、映画またはテレビジョン番組におけるダイアログをスクリーン上で話している人物またはキャラクターと空間的に一致させることである。通常のスピーカー・チャネル・ベースのオーディオでは、スクリーン上の人物またはキャラクターの位置にマッチするためにダイアログがどこに空間的に位置されるべきかを決定するための簡単な方法はない。適応オーディオ・システムにおいて利用可能なオーディオ情報を用いれば、ますます大きなサイズの画面をもつようになっている家庭シアター・システムにおいてであっても、この型のオーディオ／ビジュアル整列は簡単に達成できる。視覚的な位置およびオーディオの空間的整列は、自動車、トラック、アニメーションなどといった、キャラクター／ダイアログでないオブジェクトについても使用できる。

適応オーディオ・エコシステムは、コンテンツ・クリエーターが個々のオーディオ・オブジェクトを生成し、再生システムに伝達されることのできるコンテンツについての情報を加えることを許容することによって、向上されたコンテンツ管理をも許容する。これは、オーディオのコンテンツ管理における大幅な柔軟性を許容する。コンテンツ管理の観点からは、適応オーディオは、ダイアログ・オブジェクトを置換するだけでオーディオ・コンテンツの言語を変更し、コンテンツ・ファイル・サイズを縮小するおよび／またはダウンロード時間を短縮するなどのさまざまなことを可能にする。映画、テレビジョンおよび他の娯楽番組は典型的には国際的に頒布される。これはしばしば、コンテンツ片における言語がどこで再生されるかに依存して変更されることを要求する（フランスで上映される映画についてはフランス語、ドイツで上映されるテレビ番組についてはドイツ語など）。今日、これはしばしば、各言語について完全に独立したオーディオ・サウンドトラックが生成され、パッケージングされ、頒布されることを要求する。適応オーディオ・システムおよびオーディオ・オブジェクトの本来的な概念により、コンテンツ片のダイアログが独立したオーディオ・オブジェクトとなることができる。これは、音楽、効果などといったオーディオ・サウンドトラックの他の要素を更新または変更することなく、コンテンツの言語が簡単に変更されることを許容する。これは、外国語のみならず、ある種の聴衆のために不適切な言辞、ターゲット決めされた広告などにも当てはまる。

本稿に記載されるオーディオ環境の諸側面は、適切なスピーカーおよび再生装置を通じたオーディオまたはオーディオ／ビジュアル・コンテンツの再生を表わし、映画館、コンサート・ホール、野外シアター、家庭または部屋、聴取ブース、自動車、ゲーム・コンソール、ヘッドホンまたはヘッドセット・システム、パブリック・アドレス（PA）システムまたは他の任意の再生環境のような捕捉されたコンテンツの再生を聴取者が体験する任意の環境を表わしうる。諸実施形態は、主として、空間的オーディオ・コンテンツがテレビジョン・コンテンツに関連する家庭シアター環境における例および実装に関して記述してきたが、実施形態は他のシステムでも実装されうることは注意しておくべきである。オブジェクト・ベースのオーディオおよびチャネル・ベースのオーディオを含む空間的オーディオ・コンテンツは、任意の関係したコンテンツ（関連したオーディオ、ビデオ、グラフィックなど）との関連で使用されてもよいし、あるいは単体のオーディオ・コンテンツをなしてもよい。再生環境は、ヘッドホンまたは近距離場モニタから大小の部屋、自動車、戸外アリーナ、コンサート・ホールなどまでの任意の適切な聴取環境でありうる。

本稿に記載されるシステムの諸側面は、デジタルまたはデジタイズされたオーディオ・ファイルを処理するための適切なコンピュータ・ベースの音処理ネットワーク環境において実装されうる。適応オーディオ・システムの諸部分は、コンピュータ間で伝送されるデータをバッファリングおよびルーティングするはたらきをする一つまたは複数のルータ（図示せず）を含む、任意の所望される数の個別の機械を有する一つまたは複数のネットワークを含んでいてもよい。そのようなネットワークは、さまざまな異なるネットワーク・プロトコルの上に構築されてもよく、インターネット、広域ネットワーク（WAN）、ローカル・エリア・ネットワーク（LAN）またはその任意の組み合わせであってもよい。ネットワークがインターネットを含むある実施形態では、一つまたは複数の機械がウェブ・ブラウザ・プログラムを通じてインターネットにアクセスするよう構成されていてもよい。

上記のコンポーネント、ブロック、プロセスまたは他の機能構成要素の一つまたは複数は、システムのプロセッサ・ベースのコンピューティング装置の実行を制御するコンピュータ・プログラムを通じて実装されてもよい。本稿に開示されるさまざまな機能は、ハードウェア、ファームウェアのいくつもある組み合わせを使っておよび／またはさまざまな機械可読もしくはコンピュータ可読媒体において具現されたデータおよび／または命令として、挙動上の、レジスタ転送、論理コンポーネントおよび／または他の特性を用いて記載されることがあることを注意しておくべきである。そのようなフォーマットされたデータおよび／または命令が具現されうるコンピュータ可読媒体は、光学式、磁気式もしくは半導体記憶媒体のようなさまざまな形の物理的（非一時的）、不揮発性記憶媒体を含むがそれに限定されない。

文脈がそうでないことを明確に要求するのでないかぎり、本記述および請求項を通じて、単語「有する」「含む」などは、排他的もしくは網羅的な意味ではなく包含的な意味に解釈されるものとする。すなわち、「……を含むがそれに限定されない」の意味である。単数または複数を使った単語は、それぞれ複数または単数をも含む。さらに、「本稿で」「以下で」「上記で」「下記で」および類似の意味の単語は、全体としての本願を指すのであって、本願のいかなる特定の部分を指すものでもない。単語「または」が二つ以上の項目のリストを参照して使われるとき、その単語は該単語の以下の解釈のすべてをカバーする：リスト中の項目の任意のもの、リスト中の項目のすべておよびリスト中の項目の任意の組み合わせ。

一つまたは複数の実装が、例として、個別的な実施形態を用いて記載されているが、一つまたは複数の実装は開示される実施形態に限定されないことは理解されるものとする。逆に、当業者に明白であろうさまざまな修正および類似の構成をカバーすることが意図されている。したがって、付属の請求項の範囲は、そのようなすべての修正および類似の構成を包含するような最も広い解釈を与えられるべきである。

映画館環境におけるサウンド・システムを改善し、映画サウンドトラックについてのクリエーターの芸術的意図をより正確に捕捉し、再現するためにさまざまな技術が開発されている。たとえば、オーディオ・オブジェクトと伝統的なチャネル・ベースのスピーカー・フィードとの混合を、オーディオ・オブジェクトについての位置メタデータとともに含む次世代空間的オーディオ（「適応オーディオ」とも称される）フォーマットが開発されている。空間的オーディオ・デコーダでは、チャネルは関連付けられたスピーカーに直接送られる（適切なスピーカーが存在する場合）または既存のスピーカー・セットに下方混合〔ダウンミックス〕され、オーディオ・オブジェクトはデコーダによって柔軟な仕方でレンダリングされる。3D空間内の位置軌跡のような各オブジェクトに関連付けられたパラメトリックな源記述が、デコーダに接続されたスピーカーの数および位置とともに、入力として受けられる。すると、レンダラーは、パン則のようなある種のアルゴリズムを利用して、各オブジェクトに関連付けられたオーディオを、取り付けられた一組のスピーカーを横断して分布させる。このようにして、各オブジェクトのオーサリングされた空間的意図が、聴取室に存在する特定のスピーカー配位を通じて最適に呈示される。
米国特許出願公開第2011/216925号は、仮想サラウンドを生成するシステムを記載している。米国特許出願公開第2010/135510号は、オブジェクト・ベースのオーディオ・コンテンツを生成し、再生する装置を記載している。米国特許第5809150号は、サラウンドサウンド・ラウドスピーカー・システムを記載している。米国特許出願公開第2007/0230724号は、ラウドスピーカーの指向性を制御する方法を記載している。米国特許出願公開第2009/0080666号は環境信号を抽出する方法を記載している。国際公開第2009/056858号は、サウンド・プロジェクターのためのセットアップを記載している。欧州出願公開第1667488号は、音響特性を補正するシステムを記載している。米国特許出願公開第2010/0177903号は、サラウンドサウンド・オーディオ・チャネルを導出する方法を記載している。

Claims

オーディオ信号を処理するシステムであって、
それぞれのオーディオ・チャネルの聴取領域における再生位置を指定する情報を含む複数のオーディオ・チャネルを生成するよう構成されたレンダリング・コンポーネントと；
前記複数のオーディオ・チャネルを受領し、各オーディオ・チャネルについて、ドライバ・エネルギーの大半を前記聴取領域の一つまたは複数の表面から反射させるよう構成された少なくとも一つの反射サブチャネルおよびドライバ・エネルギーの大半を前記聴取領域内の前記再生位置まで直接伝搬させるよう構成された少なくとも一つの直接サブチャネルを生成する上方混合器コンポーネントとを有する、
システム。
それぞれ前記少なくとも反射サブチャネルおよび前記少なくとも一つの直接サブチャネルを使う、前記一つまたは複数の表面からの音波の伝搬のための少なくとも一つの反射ドライバおよび前記再生位置までの直接の音波の伝搬のための少なくとも一つの直接ドライバを有する、前記上方混合器コンポーネントに結合された個々にアドレッシング可能なドライバのアレイをさらに有する、請求項１記載のシステム。
前記オーディオ・チャネルはチャネル・ベースのオーディオおよび／またはオブジェクト・ベースのオーディオを含み、前記再生位置を指定する情報は、各オーディオ・チャネルに関連付けられた一つまたは複数のメタデータ集合においてエンコードされており、さらに、前記チャネル・ベースのオーディオの前記再生位置は、スピーカー・アレイ内のスピーカーのスピーカー指定を含み、前記オブジェクト・ベースのオーディオの前記再生位置は三次元空間内の位置を含む、請求項２記載のシステム。
オーディオ・ドライバの前記アレイは、定義されたオーディオ・サラウンドサウンド構成に従って前記聴取領域のあたりに分布しており、前記聴取領域は：家庭、映画館、シアター、業務用スタジオおよびオーディオ聴取コンソールのうちの一つを含み、さらに、前記オーディオ・ストリームは：映画館コンテンツ、家庭環境における再生のために変換された映画館コンテンツ、テレビジョン・コンテンツ、ユーザー作成コンテンツ、コンピュータ・ゲーム・コンテンツおよびデジタル・ストリーミング・オーディオ・コンテンツからなる群から選択されるオーディオ・コンテンツを含む、請求項３記載のシステム。
オーディオ・ストリームの前記再生位置は、前記聴取領域において知覚的に人の頭の上の位置を含み、前記少なくとも一つの反射ドライバは、前記位置に向けた下方反射のために前記聴取領域の天井に向けて音波を投射するよう構成された上方発射ドライバを含む、請求項４記載のシステム。
前記上方発射ドライバに伝送される前記オーディオ・ストリームに関連付けられたメタデータ集合は、前記反射に関する一つまたは複数の特性を定義する、請求項５記載のシステム。
オーディオ・ストリームの前記再生位置は、前記聴取領域において人を知覚的に取り巻く位置を含み、前記少なくとも一つの反射ドライバは、前記位置に向けた反射のために前記聴取領域の壁に向けて音波を投射するよう構成されている側方発射ドライバを含む、請求項４記載のシステム。
前記側方発射ドライバに伝送される前記オーディオ・ストリームに関連付けられたメタデータ集合は、前記反射に関する一つまたは複数の特性を定義する、請求項７記載のシステム。
オーディオ・レンダラーから複数の入力オーディオ・チャネルを受領する段階と；
第一の分解プロセスにおいて、各入力オーディオ・チャネルを、少なくとも一つの反射サブチャネルおよび少なくとも一つの直接サブチャネルに分割する段階と；
前記反射サブチャネルおよび直接サブチャネルによって生成される音波の伝搬において費やされるエネルギーの量が前記第一の分解プロセスの間、保存されることを検証する段階と；
聴取領域における聴取者のまわりに音を空間的に像形成するために反射サブチャネルと直接サブチャネルの最適な混合が得られるまで、その後の分解プロセスにおいて各サブチャネルをそれぞれのサブチャネルにさらに分割する段階とを含む、
方法。
前記サブチャネルの各サブチャネルに対応するオーディオ信号を個々にアドレッシング可能なドライバのアレイに伝送する段階をさらに含み、前記アレイは、一つまたは複数の表面からの音波の伝搬のための少なくとも一つの反射ドライバおよび前記位置までの直接の音波の伝搬のための少なくとも一つの直接ドライバを有する、請求項９記載の方法。
前記少なくとも一つの反射サブチャネルは、ドライバ・エネルギーの大半を前記聴取領域の前記一つまたは複数の表面から反射させるよう構成されており、前記少なくとも一つの直接サブチャネルは、ドライバ・エネルギーの大半を前記聴取領域内の前記位置まで直接伝搬させるよう構成されている、請求項１０記載の方法。
前記反射サブチャネルおよび直接サブチャネルによって生成される音波の伝搬において費やされるエネルギーの量が、周波数領域変換プロセスを使って決定される、請求項９記載の方法。
各入力チャネルについて、二つの最も近い隣接チャネルの間のチャネル間相関値を計算して一対のサブチャネル間の共通信号の量を決定する段階と；
各入力チャネルについて、一つまたは複数の過渡スケーリング項を計算する段階であって、スケーリング項は、各入力チャネルについての過渡成分におけるエネルギーに比例する値を表わす、段階と；
前記チャネル間相関値および十分大きな過渡スケーリング項を使って、前記一対のサブチャネル間のエネルギーの和が保存されるという制約条件を用いて、前記直接サブチャネル出力に向けられる部分を増加させ、一方、前記反射サブチャネルに向けられる部分を減少させることによって、前記入力オーディオ・チャネルの混合を変更する段階と；
前記反射サブチャネルおよび直接サブチャネルに対して等化および遅延プロセスを実行して、直接ドライバの主波面が前記位置における主たる反射エネルギーと位相コヒーレントになるようにする段階とをさらに含む、
請求項９記載の方法。
各反射サブチャネルを少なくとも一つの残響サブチャネルおよび少なくとも一つの非残響サブチャネルに分解する段階をさらに含む、請求項１３記載の方法。
諸ブロックを横断する周波数領域変換プロセスの各周波数領域変換に対して作用する脱相関器機能を使って、前記直接チャネルから前記反射チャネルを脱相関させる段階をさらに含む、請求項１３記載の方法。
前記レンダラーが、任意的なチャネル・ベースのオーディオ・コンテンツとの関連でオブジェクト・ベースのオーディオ・コンテンツを処理するために前記入力オーディオ・チャネルにオブジェクト・メタデータを適用するコンポーネントを有する、請求項９記載の方法。
前記入力オーディオ・チャネルがレガシーのチャネル・ベースのコンテンツを含み、前記レンダラーが、サラウンドサウンド構成におけるドライバのアレイへの伝送のためのスピーカー・フィードを生成するコンポーネントを有する、請求項９記載の方法。
前記聴取領域の直接対残響比の計算を助けるために前記聴取領域にマイクロホンを配備する段階と；
前記直接対残響比を使って、聴取者のまわりの音の空間的な像形成のための反射サブチャネルと直接サブチャネルの最適な混合を決定する段階とをさらに含む、
請求項１３記載の方法。
オーディオ・レンダラーから複数の入力オーディオ・チャネルを受領する受領器段と；
第一の分解プロセスにおいて、各入力オーディオ・チャネルを、少なくとも一つの反射サブチャネルおよび少なくとも一つの直接サブチャネルに分割する分割器コンポーネントと；
前記反射サブチャネルおよび直接サブチャネルによって生成される音波の伝搬において費やされるエネルギーの量が前記第一の分解プロセスの間、保存されることを検証する際に使う一つまたは複数のエネルギー値を計算するエネルギー計算段と；
前記複数の入力オーディオ・チャネルの各チャネルについて少なくとも一つのサブチャネルに対応するいくつかのサブチャネルを生成する出力段とを有する、
システム。
聴取領域における聴取者のまわりに音を空間的に像形成するために反射サブチャネルと直接サブチャネルの最適な混合が得られるまで、その後の分解プロセスにおいて各サブチャネルをそれぞれのサブチャネルに分割するコンポーネントをさらに有する、請求項１９記載のシステム。
前記エネルギー計算段が：
各入力チャネルについて、一対のサブチャネル間の共通信号の量を決定するよう二つの最も近い隣接チャネルの間の値を計算するチャネル間相関ユニットと；
各入力チャネルについて、一つまたは複数の過渡スケーリング項を計算する過渡値計算器であって、スケーリング項は、各入力チャネルについての過渡成分におけるエネルギーに比例する値を表わし、前記チャネル間相関値および前記過渡スケーリング項は、前記一対のサブチャネル間のエネルギーの和が保存されるという制約条件を用いて、前記直接サブチャネル出力に向けられる部分を増加させ、一方、前記反射サブチャネルに向けられる部分を減少させることによって、前記入力オーディオ・チャネルの混合を変更するために使われる、過渡値計算器と；
前記反射サブチャネルおよび直接サブチャネルに対して等化および遅延プロセスを実行して、直接ドライバの主波面が前記位置における主たる反射エネルギーと位相コヒーレントになるようにするコンポーネントとを有する、
請求項２０記載のシステム。
前記聴取領域の直接対残響比の計算を助けるために前記聴取領域に配備されたマイクロホンと；
前記直接対残響比を使って、聴取者のまわりの音の空間的な像形成のための反射サブチャネルと直接サブチャネルの最適な混合を決定する制御コンポーネントとをさらに有する、
請求項２１記載のシステム。
前記聴取領域を囲む部屋における当該システムの諸コンポーネントをつなぐネットワークと；
前記部屋のあたりでの配送のための個々にアドレッシング可能なドライバのアレイであって、各ドライバは前記ネットワークの通信プロトコル内で一意的に同定され、前記アレイの第一の部分は、前記部屋内のある位置に音を直接伝送するよう構成されたドライバを含み、前記アレイの第二の部分は、前記部屋の内側表面からの反射後に前記位置に音を伝送するよう構成されたドライバを含む、アレイとをさらに有する、
請求項１９記載のシステム。
オーディオ・ストリームの前記再生位置は、前記聴取領域において知覚的に人の頭の上の位置を含み、ドライバの前記アレイのうち少なくとも一つのドライバは、前記部屋内の聴取領域に向けた下方反射のために前記部屋の天井に向けて音波を投射するよう構成されている、請求項２３記載のシステム。
オーディオ・ストリームの前記再生位置は、前記聴取領域において人を知覚的に取り巻く位置を含み、ドライバの前記アレイのうち少なくとも一つのドライバは、前記部屋内のある位置に向けた反射のために前記部屋の壁に向けて音波を投射するよう構成されている、請求項２３記載のシステム。