JP2015530825A

JP2015530825A - 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム

Info

Publication number: JP2015530825A
Application number: JP2015529994A
Authority: JP
Inventors: エスメタ，スリパル; ジークロケット，ブレット; ホークス，スペンサー; シーフェルドット，アラン; シャヴァンヌ，クリストフ; フィリップブラウン，シー; ビーランドー，ジョシュア; バスラー，ブラッド; マーリエ，スチュワート
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2012-08-31
Filing date: 2013-08-28
Publication date: 2015-10-15
Anticipated expiration: 2033-08-28
Also published as: EP3253079B1; US11178503B2; HK1248046A1; EP4207817A1; WO2014036121A1; US20200382892A1; EP2891338A1; JP6085029B2; EP2891338B1; CN104604257B; US20190349701A1; US20150223002A1; US10959033B2; US20180077511A1; US20220030373A1; US9826328B2; US10412523B2; EP3253079A1; CN104604257A; HK1205845A1

Abstract

記載の実施形態は、聴取環境内の聴取領域への反射のために前記聴取環境内の１又は複数の面に向けて音波を発するよう構成される少なくとも１つのドライバを含む個々にアドレス可能なドライバと、オーディオストリーム及び前記オーディオストリームの各々に関連付けられ個々のオーディオストリームの再生位置を指定する１又は複数のメタデータセットを受信し処理するよう構成されるレンダラと、前記レンダラに結合され前記１又は複数のメタデータセットに従って前記オーディオストリームを前記オーディオドライバのアレイに対応する複数のオーディオフィードにレンダリングするよう構成される再生システムと、を有するシステムを通じてオブジェクトに基づくオーディオコンテンツをレンダリングするシステムである。

Description

１又は複数の実施形態は、概して、オーディオ信号処理に関し、より詳細には、個々にアドレス可能なドライバを通じて適応型オーディオコンテンツをレンダリングするシステムに関する。

背景技術の部分で議論される主題は、単に背景技術の部分で言及された結果として従来技術であると考えられるべきではない。同様に、背景技術の部分で又は背景技術の部分の主題に関連して言及される問題は、当分野で従来認識されていたと考えられるべきではない。背景技術の部分の主題は、それ自体が発明であり得る異なるアプローチを単に表すだけである。

映画サウンドトラックは、通常、スクリーン上の画像、会話、雑音、並びに全体的視聴経験を生成するためにスクリーン上の異なる場所から発し背景音楽及び環境効果と結合する音響効果に対応する多くの異なる音要素を有する。正確な再生は、音が音源位置、強度、動き及び深さに関してスクリーン上に示されるものの可能な限り近くに対応するように再生されることを要求する。伝統的なチャネルに基づくオーディオシステムは、スピーカフィードの形式で再生環境の個々のスピーカへオーディオコンテンツを送信する。

デジタルシネマの導入は、コンテンツクリエイタのより大きな創造性及び視聴者の更なる包み込む現実的聴覚経験を可能にするためにオーディオの複数チャネルの混和のような映画音響の新しい標準を生み出した。空間的音響を分配する手段としての、伝統的なスピーカフィード及びチャネルに基づくオーディオを超える拡張は、重要である。リスナの選択した構成専用にレンダリングされるオーディオを有する所望の再生構成をリスナに選択させるモデルに基づくオーディオ記述に有意な関心がある。リスナ経験を更に向上するために、現実の３次元（「３Ｄ」）又は仮想３Ｄ環境での音の再生は、増大する研究及び開発分野になってきている。音の空間的提示は、オーディオオブジェクトを利用する。オーディオオブジェクトは、明白な音源位置（例えば、３Ｄ座標）、明白な音源幅、及び他のパラメータの関連するパラメータ音源記述を有するオーディオ信号である。オブジェクトに基づくオーディオは、デジタルムービー、ビデオゲーム、シミュレータのような多くのマルチメディアアプリケーションのために用いることができ、比較的小さな聴取環境の制限によりスピーカの数及びそれらの配置が通常限られる又は制約される家庭環境で特に重要である。

種々の技術が、映画環境におけるサウンドシステムを向上するために、及び動画サウンドトラックでクリエイタの芸術的意図をより正確にキャプチャ及び再現するために開発されている。例えば、次世代空間オーディオ（「適応型オーディオ」としても表される）フォーマットが開発されている。該フォーマットは、オーディオオブジェクトの位置メタデータとともに、オーディオオブジェクトと伝統的なチャネルに基づくスピーカフィードとのミックスを有する。空間オーディオデコーダでは、チャネルは、（適切なスピーカが存在する場合には）それらの関連するスピーカへ直接送信され又は存在するスピーカセットへダウンミックスされ、オーディオオブジェクトは柔軟な方法でデコーダによりレンダリングされる。３Ｄ空間における位置軌道のような各オブジェクトに関連するパラメータ音源記述は、デコーダに結合されるスピーカの数及び位置と共に入力として取り入れられる。次に、レンダラは、パニング法則（panning law）のような特定のアルゴリズムを用いて、取り付けられたスピーカセットに渡り各オブジェクトに関連するオーディオを分配する。このように、各オブジェクトの生み出された空間的意図は、視聴室に存在する特定のスピーカ構成に渡り最適に提示される。

現在の空間的オーディオシステムは、通常、映画使用のために開発されており、したがって、大きな空間での展開及び視聴室の至る所に分配される複数スピーカのアレイを含む比較的高価な機器の使用を含む。現在製造されている映画コンテンツの量の増加は、ストリーミング技術及びＢｌｕｅ−ｒａｙ（登録商標）のような高機能メディア技術を通じて家庭環境での再生のために利用可能になっている。さらに、３Ｄテレビジョン及び高機能コンピュータゲーム及びシミュレータのような新生技術は、家庭及び他の消費者（非映画／劇場）環境における大型スクリーンモニタ、サラウンドサウンド受信機及びスピーカアレイのような比較的高機能な機器の使用を促している。しかしながら、機器コスト、設置の複雑さ、及び部屋の大きさは、多くの家庭環境における空間オーディオの完全な利用を妨げる現実的な制約である。例えば、高機能なオブジェクトに基づくオーディオシステムは、通常、頭上スピーカ又はハイトスピーカを用いて、リスナの頭上で発生することを意図される音を再生する。多くの場合、及び特に家庭環境では、このようなハイトスピーカは利用可能ではない。この場合、このような音オブジェクトが床又は壁に取り付けられるスピーカによってのみ再生されるならば、ハイト情報は失われる。

したがって、配列スピーカシステム、ヘッドフォン、並びに限られた若しくは頭上スピーカを有しない再生のためのスピーカアレイ全体の一部のみを含む他の聴取環境のような、種々の異なる聴取環境において適応型オーディオシステムの完全な空間情報を再現できるシステムが必要である。

記載のシステム及び方法は、新しいスピーカ及びチャネル構成並びに映画サウンドミキサのために生成される一式の高機能コンテンツ生成ツールにより可能になる新しい空間記述フォーマットを含む適応型オーディオシステムに基づく最新のコンテンツ生成ツール、分配方法及び拡張ユーザ経験を含む空間オーディオフォーマット及びシステムのためのものである。実施形態は、映画に基づく適応型オーディオコンセプトを、ホームシアター（例えば、Ａ／Ｖ受信機、サウンドバー、及びＢｌｕｅ−ｒａｙ（登録商標）プレイヤ）、電子媒体（例えば、ＰＣ、タブレット、モバイル装置、及びヘッドフォン再生）、放送（例えば、ＴＶ及びセットトップボックス）、音楽、ゲーム、ライブサウンド、ユーザの生成したコンテンツ（user generated content：「ＵＧＣ」）、等を含む他のオーディオ再生エコシステムに拡張するシステムを有する。家庭環境システムは、劇場用コンテンツとの互換性を提供するコンポーネントを有し、及び創造的意図を伝達するためのコンテンツ生成情報、オーディオオブジェクト、オーディオフィード、空間レンダリング情報、及び会話、音楽、環境等のようなコンテンツ種類を示すコンテンツ依存メタデータに関する媒体知的情報を含むメタデータ定義を特徴とする。適応型オーディオ定義は、（大きさ、速度及び三次元空間内の位置のような）空間レンダリング情報に関連付けられるオーディオチャネル及びオーディオオブジェクトによる、標準的なスピーカフィードを有しても良い。複数のレンダリング技術をサポートする新規なスピーカレイアウト（又はチャネル構成）及び付随する新しい空間記述フォーマットも記載される。オーディオストリーム（通常、チャネル及びオブジェクトを有する）は、オーディオストリームの所望の位置を含む、コンテンツクリエイタ又はサウンドミキサの意図を記述するメタデータと一緒に送信される。位置は、（所定のチャネル構成からの）指名チャネルとして又は３Ｄ空間位置情報として表現できる。このチャネル及びオブジェクトフォーマットは、チャネルに基づく及びモデルに基づくオーディオシーン記述方法の両者の最善を提供する。

実施形態は、具体的には、頭上又は天井に取り付けられたスピーカを通じて再生されるようにされる頭上音を含む適応型オーディオコンテンツをレンダリングするシステムに関する。利用可能な頭上スピーカを有しない家庭又は他の小規模聴取環境では、頭上音は、聴取環境の天井又は１又は複数の他の面から音を反射するよう構成されるスピーカドライバにより再現される。

以下の図中で、同様の参照符号は同様の要素を表すために用いられる。以下の図面は種々の例を示すが、１又は複数の実装は図中に示される例に限定されない。
ハイトチャネルの再生のためのハイトスピーカを設けたサラウンドシステム（例えば、９．１サラウンド）内の例示的なスピーカ配置を示す。一実施形態における、適応型オーディオミックスを生成するためのチャネルとオブジェクトに基づくデータとの組合せを示す。一実施形態における、適応型オーディオシステムで使用する再生アーキテクチャのブロック図である。一実施形態における、聴取環境で使用する、オーディオコンテンツに基づき映画を適応する機能コンポーネントを示すブロック図である。一実施形態における、図３Ａのコンポーネントの詳細なブロック図である。一実施形態における、適応型オーディオ環境の機能コンポーネントのブロック図である。一実施形態における、レンダリング機能の一部がスピーカユニット内で実行される分散型レンダリングシステムを示す。例示的なホームシアター環境における適応型オーディオシステムの展開を示す。ホームシアターにおける頭上スピーカをシミュレートするために反射音を用いるアップワードファイアリング（upward−firing）ドライバの使用を示す。一実施形態における、反射音レンダラを有する適応型オーディオシステムで使用する第１の構成の複数のドライバを有するスピーカを示す。一実施形態における、反射音レンダラを有する適応型オーディオシステムで使用する複数の筐体に分配されるドライバを有するスピーカシステムを示す。一実施形態における、反射音レンダラを用いる適応型オーディオシステムで使用されるサウンドバーの例示的な構成を示す。視聴室内に配置されるアップワードファイアリングドライバを含む個々にアドレス可能なドライバを有するスピーカの例示的な配置を示す。一実施形態における、反射オーディオのための複数のアドレス可能なドライバを用いる適応型オーディオ５．１システムのスピーカ構成を示す。一実施形態における、反射オーディオのための複数のアドレス可能なドライバを用いる適応型オーディオ７．１システムのスピーカ構成を示す。一実施形態における、双方向相互接続の組成を示す図である。一実施形態における、適応型オーディオシステムで使用する自動構成及びシステム較正処理を示す。一実施形態における、適応型オーディオシステムで使用される較正方法の処理ステップを示すフロー図である。例示的なテレビジョン及びサウンドバー使用例における適応型オーディオシステムの使用を示す。一実施形態における、適応型オーディオシステムにおける３次元バイノーラルヘッドフォン仮想化の簡略表現を示す。一実施形態における、ヘッドフォンレンダリングシステムのブロック図である。一実施形態における、ヘッドフォンレンダリングシステムで使用するＢＲＩＲフィルタの構成を示す。ヘッドフォンレンダリングシステムの実施形態で用いることができる、自由空間内の入射平面波の基本頭部及び胴モデルを示す。一実施形態における、ＨＲＴＦフィルタで使用する耳介特徴の構造モデルを示す。一実施形態における、特定の聴取環境のための反射音レンダラを用いる適応型オーディオシステムで使用する特定のメタデータ定義を示すテーブルである。一実施形態における、結合フィルタの周波数応答を示すグラフである。一実施形態における、入力チャネルをサブチャネルに分離する処理を示すフローチャートである。一実施形態における、複数のオーディオチャネルを複数の反射及び直接サブチャネルに処理するアップミキサを示す。一実施形態における、入力チャネルをサブチャネルに分解する処理を示すフローチャートである。一実施形態における、反射ハイトスピーカを用いたオブジェクトに基づくオーディオの仮想レンダリングのためのスピーカ構成を示す。

頭上スピーカを有しない適応型オーディオシステムで反射音をレンダリングする適応型オーディオシステムのためのシステム及び方法が記載される。本願明細書に記載される１又は複数の実施形態の態様は、ソフトウェア命令を実行する１又は複数のコンピュータ若しくは処理装置を含む、ミキシング、レンダリング、及び再生システムにおいてソースオーディオ情報を処理するオーディオ又はオーディオ−ビジュアルシステムに実装されても良い。記載の実施形態のいずれも、単独で又は任意の組合せで一緒に用いられても良い。種々の実施形態が本願明細書の１又は複数の箇所で議論され又は暗に示され得る従来技術に伴う種々の欠点により動機付けられるが、実施形態は必ずしもこれらの欠点のいずれかを解決するものではない。言い換えると、異なる実施形態は、本願明細書で議論され得る異なる欠点を解決しても良い。幾つかの実施形態は、本願明細書で議論される幾つかの欠点を部分的にのみ又は１つの欠点のみを解決しても良い。また、幾つかの実施形態は、これらの欠点のいずれも解決しなくても良い。

この記載の目的のために、以下の用語は関連する意味を有する。用語「チャネル」は、オーディオ信号及びメタデータを意味し、メタデータ内に位置がチャネル識別子、例えば左前又は右上サラウンドとして符号化される。「チャネルに基づくオーディオ」は、関連する名目位置、例えば５．１、７．１、等を有するスピーカゾーンの所定のセットを通じた再生のためにフォーマット化されたオーディオである。用語「オブジェクト」又は「オブジェクトに基づくオーディオ」は、明白なソース位置（例えば、３Ｄ座標）、明白なソース幅、等のようなパラメータソース記述を有する１又は複数のオーディオチャネルを意味する。「適応型オーディオ」は、チャネルに基づく及び／又はオブジェクトに基づくオーディオ信号及びメタデータを意味し、オーディオストリーム及びメタデータを用いて再生環境に基づきオーディオ信号をレンダリングし、メタデータ内には位置が空間内の３Ｄ座標として符号化される。「聴取環境」は、オーディオコンテンツのみ、又はビデオ若しくは他のコンテンツを有するオーディオコンテンツを再生するために使用でき、家庭、映画館、劇場、公会堂、スタジオ、ゲーム端末、等で実現できる部屋のような任意の開かれた、部分的に閉じられた、又は完全に閉じられた領域を意味する。このような領域は、その中に配置される、音波を直接若しくは乱反射できる壁又はバッフルのような１又は複数の面を有し得る。

＜適応型オーディオフォーマット及びシステム＞
実施形態は、向上した聴衆没入、高い芸術的制御、並びにシステム柔軟性及び拡張性を可能にする、オーディオフォーマット及びレンダリング技術に基づく「空間オーディオシステム」又は「適応型オーディオシステム」として言及され得るサウンドフォーマット及び処理システムと共に動作するよう構成される反射音レンダリングシステムに関する。適応型オーディオシステム全体は、概して、オーディオ符号化分散（distribution）と、伝統的なチャネルに基づくオーディオ要素とオーディオオブジェクト符号化要素との両方を含む１又は複数のビットストリームを生成するよう構成される復号化システムとを有する。このような結合されたアプローチは、別個に用いられるチャネルに基づく若しくはオブジェクトに基づくアプローチに比べて、高いコーディング効率及びレンダリングの柔軟性を提供する。本発明の実施形態と関連して用いられ得る適応型オーディオシステムの一例は、係属中の国際公開公報ＷＯ２０１３／００６３８、２０１３年１月１０日発行に記載されている。該国際公開公報は、参照により本願明細書に組み込まれる。

適応型オーディオシステム及び関連するオーディオフォーマットの例示的な実装は、Ｄｏｌｂｙ（登録商標）Ａｔｍｏｓ（商標）プラットフォームである。このようなシステムは、９．１サラウンドシステム又は同様のサラウンドサウンド構成として実装され得るハイト（上（ｕｐ）／下（ｄｏｗｎ））次元を組み込む。図１は、ハイトチャネルの再生のためのハイトスピーカを設けたサラウンドシステム（例えば、９．１サラウンド）内の本発明のスピーカ配置を示す。９．１システム１００のスピーカ構成は、床面にある５個のスピーカと、ハイト面にある４個のスピーカと、を有する。通常、これらのスピーカは、部屋内で大体正確に任意の位置から発するよう設計される音を生成するために用いられ得る。

図１に示すような所定のスピーカ構成は、所与の音源の位置を正確に表現する能力を必然的に制限し得る。例えば、音源は、左のスピーカ自体より更に左にパンできない。これは各スピーカに適用される。したがって、１次元（例えば、左−右）、２次元（例えば、前−後）、又は３次元（例えば、左−右、前−後、上下）幾何学的形状を形成し、ダウンミックスは制限される。種々の異なるスピーカ構成及び種類は、このようなスピーカ構成で使用できる。例えば、特定の拡張オーディオシステムは、９．１、１１．１、１３．１、１９．４又は他の構成でスピーカを用いても良い。スピーカ種類は、全範囲直接スピーカ、スピーカアレイ、サラウンドスピーカ、サブウーファ、ツイータ、及び他の種類のスピーカを有し得る。

オーディオオブジェクトは、聴取環境内の特定の物理位置又は場所から発すると知覚され得る音要素群と考えることができる。このようなオブジェクトは、静的（つまり、止まっている）又は動的（つまり、動いている）であり得る。オーディオオブジェクトは、他の機能と一緒に、所与の時点における音の位置を定めるメタデータにより制御される。オブジェクトが再生されるとき、それらは、必ずしも所定の物理チャネルに出力されるのではなく、存在するスピーカを用いて、位置メタデータに従ってレンダリングされる。セッション中のトラックは、オーディオオブジェクトであり得る。標準パニングデータは、位置メタデータに類似する。このように、スクリーンに配置されるコンテンツは、チャネルに基づくコンテンツと同じ方法で効果的にパンされ得る。しかし、サラウンドに配置されるコンテンツは、必要に応じて、個々のスピーカにレンダリングされ得る。オーディオオブジェクトの使用は離散効果の所望の制御を提供するが、サウンドトラックの他の特徴は、チャネルに基づく環境で効果的に機能しても良い。例えば、多くの環境効果又は反響は、スピーカのアレイに供給されることにより実際に恩恵を受ける。これらはアレイを満たすのに十分な幅を有するオブジェクトとして取り扱うことができるが、特定のチャネルに基づく機能を保持することは有利である。

適応型オーディオシステムは、オーディオオブジェクトに加えて「ベッド（beds）」をサポートするよう構成される。ここで、ベッドは効果的なチャネルに基づくサブミックス又はステムである。これらは、コンテンツクリエイタの意図に依存して個々の又は単一のベッドに結合されて最終的な再生（レンダリング）のために供給され得る。これらのベッドは、図１に示すような５．１、７．１、及び９．１並びに頭上スピーカを含むアレイのような異なるチャネルに基づく構成で生成され得る。図２は、一実施形態における、適応型オーディオミックスを生成するためのチャネルとオブジェクトに基づくデータとの組合せを示す。処理２００に示すように、チャネルに基づくデータ２０２は、例えばパルス符号変調（pulse−code modulate：ＰＣＭ）データの形式で提供される５．１又は７．１サラウンドサウンドデータであっても良く、オーディオオブジェクトデータ２０４と結合されて適応型オーディオミックス２０８を生成する。オーディオオブジェクトデータ２０４は、元のチャネルに基づくデータの要素を、オーディオオブジェクトの場所に関する特定のパラメータを指定する関連メタデータと結合することにより生成される。図２に概念的に示すように、オーサリングツールは、同時にスピーカチャネルグループとオブジェクトチャネルとの組合せを含むオーディオプログラムを生成する能力を提供する。例えば、オーディオプログラムは、任意でグループ（又はトラック、例えばステレオ若しくは５．１トラック）に編成される１又は複数のスピーカチャネル、１又は複数のスピーカチャネルの記述メタデータ、１又は複数のオブジェクトチャネル、及び１又は複数のオブジェクトチャネルの記述メタデータを含み得る。

適応型オーディオシステムは、空間オーディオを分配する手段として単純な「スピーカフィード」を超えて効果的に動く。そして、高機能なモデルに基づくオーディオ記述が開発され、リスナに、彼らの個々の必要又は予算に適する再生構成を選択する自由を与え、彼らの個々の選択した構成専用にオーディオをレンダリングさせる。上位レベルでは、４つの主な空間オーディオ記述フォーマットがある。（１）スピーカフィード。オーディオは、名目スピーカ位置に置かれたラウドスピーカ用の信号として記述される。（２）マイクロフォンフィード。オーディオは、所定の構成（マイクロフォンの数及びそれらの相対位置）の９個の現実又は仮想マイクロフォンによりキャプチャされる信号として記述される。（３）モデルに基づく記述。オーディオは、記述される時間及び位置におけるオーディオイベントのシーケンスの観点で記述される。（４）バイノーラル。オーディオは、リスナの２つの耳に到着する信号により記述される。

４つの記述フォーマットは、以下の一般的レンダリング技術に関連付けられる場合が多い。ここで、用語「レンダリング」は、スピーカフィードとして用いられる電気信号への変換を意味する。（１）パニング。オーディオストリームは、パニング法セット及び知られている又は想定されるスピーカ位置を用いてスピーカフィードに変換される（通常、分配の前にレンダリングされる）。（２）Ambisonics。マイクロフォン信号は、ラウドスピーカの拡張可能アレイへのフィードに変換される（通常、分配の後にレンダリングされる）。（３）ＷＦＳ（Wave Field Synthesis）。サウンドイベントは、音場を合成するために適切なスピーカ信号に変換される（通常、分配の後にレンダリングされる）。（４）バイノーラル。Ｌ／Ｒバイノーラル信号は、通常はヘッドフォンを通じて、クロストーク除去と関連してスピーカを通じても、Ｌ／Ｒ耳に分配される。

通常、任意のフォーマットは別のフォーマットに変換でき（これはブラインド音源分離又は同様の技術を必要とし得る）、前述の技術のうちの任意のものを用いてレンダリングできる。しかしながら、実際に全ての変換が良好な結果を生じるわけではない。スピーカフィードフォーマットは、単純且つ効率的であるために最も一般的である。最良の音響結果（つまり、最も正確且つ信頼性のある）は、スピーカフィードにミキシングし／モニタし、次にスピーカフィードを直接分配することにより達成される。これは、コンテンツクリエイタとリスナとの間にいかなる処理も必要ないからである。再生システムが予め分かる場合は、スピーカフィード記述は、最高の忠実性を提供する。しかしながら、再生システム及びその構成は事前に分からない場合が多い。対照的に、モデルに基づく記述は最も順応性がある。なぜなら、モデルに基づく記述は、再生システムに関するいかなる仮定も行わず、したがって複数のレンダリング技術に最も容易に適用されるからである。モデルに基づく記述は、空間情報を効率的にキャプチャするが、音源の数が増加するにつれ非常に非効率になる。

適応型オーディオシステムは、チャネル及びモデルに基づくシステムの両者の利益を、高音質、同じチャネル構成を用いてミキシング及びレンダリングするときに芸術的意図の最適な再現、レンダリング構成への下方適応を有する単一インベントリ（inventory）、システムパイプラインに与える比較的小さな影響、及び精細水平スピーカ空間分解能及び新しいハイトチャネルによる没入の増大を含む特定の利益と結合する。適応型オーディオシステムは、特定の映画レンダリング構成への下方及び上方適応を有する単一インベントリ、つまり遅延レンダリング及び再生環境で利用可能なスピーカの最適な使用と、チャネル間相関（inter−channel correlation：ＩＣＣ）アーティファクトを回避するための最適なダウンミキシングを含む包み込まれた状態の向上と、スティアスルー（steer−thru）アレイによる空間分解能の向上（例えば、オーディオオブジェクトをサラウンドアレイ内の１又は複数のラウドスピーカに動的に割り当て可能にする）と、高分解能中心又は同様のスピーカ構成によるフロントチャネル分解能の向上と、を含む幾つかの新しい特徴を提供する。

オーディオ信号の空間的効果は、リスナに没入経験を提供するのに重要である。閲覧スクリーン又は視聴室の特定領域から発することが意図される音は、それと同じ相対位置に置かれたスピーカを通じて再生されるべきである。したがって、モデルに基づく記述における音イベントの主要オーディオメタデータは位置であるが、大きさ、方位、速度及び音響分散のような他のパラメータも記述できる。位置を伝達するために、モデルに基づく３Ｄオーディオ空間記述は、３Ｄ座標系を必要とする。送信のために用いられる座標系（例えば、ユークリッド、球、円筒）は、通常、便宜又は簡潔さのために選択される。しかしながら、他の座標系がレンダリング処理のために用いられても良い。座標系に加えて、基準のフレームが、空間内のオブジェクトの位置を表すために必要である。種々の異なる環境で位置に基づく音を正確に再現するシステムでは、正しい基準のフレームを選択することが重要であり得る。他者中心的（allocentric）基準フレームでは、オーディオソース位置は、部屋の壁及び角、標準的なスピーカ位置、及びスクリーン位置のようなレンダリング環境内の特徴に対して定められる。自己中心的（egocentric）基準フレームでは、位置は、「私の前」、「少し左」、等のようなリスナの観点に対して表される。空間認知（オーディオ及びその他）の科学的研究は、自己中心的認知が殆ど例外なく用いられていることを示している。しかしながら、映画では、他者中心的基準フレームは、通常、より適切である。例えば、オーディオオブジェクトの正確な位置は、関連するオブジェクトがスクリーン上にあるとき最も重要である。他者中心的基準を用いるとき、聴取位置毎に、及び任意のスクリーンサイズで、音は、スクリーン上の同じ相対位置、例えば「スクリーンの中間の左３分の１」にあると特定される。別の理由は、ミキサが他者中心的表現で考えミキシングする傾向にあること、パニングツールは他者中心的フレーム（つまり、部屋の壁）と共に設計されること、ミキサはそれらがそのようにレンダリングされることを期待すること、例えば「この音はスクリーン上にあるべきである」、「この音はスクリーンから外れているべきである」又は「左の壁から」、等である。

映画環境での他者中心的基準フレームの使用にもかかわらず、自己中心的基準フレームが有用であり、より適切であり得る幾つかの例がある。これらは、自己中心的な一様な提示が望ましい非物語世界の音、つまり「物語空間」に存在しない音、例えばムード音楽を含む。別の例は、自己中心的提示を必要とする近接場効果（例えば、リスナの左耳の中でブンブンいう蚊）である。さらに、無限に遠い音源（及びその結果生じる平面波）は、一定の自己中心的位置（例えば、左に３０度）から来るように思われる。このような音は、他者中心的表現より自己中心的な表現で容易に記述される。幾つかの例では、名目聴取位置が定められる限り、他者中心的基準フレームを用いることが可能である。一方、幾つかの例は、未だレンダリングすることが出来ない自己中心的表現を必要とする。他者中心的基準はより有用且つ適切であり得るが、特定のアプリケーション及び聴取環境において自己中心的表現を含む多くの新しい特徴がより望ましいので、オーディオ表現は拡張可能であるべきである。

適応型オーディオシステムの実施形態は、最適音質のための及び自己中心的基準を用いた拡散する又は複雑な多点源（例えば、スタジアムの観衆、雰囲気）のレンダリングのための推奨チャネル構成、並びに空間分解能及び拡張性の向上を効率的に可能にするために他者中心的なモデルに基づく音記述を含むハイブリッド空間記述アプローチを含む。図３は、一実施形態における、適応型オーディオシステムで使用する再生アーキテクチャのブロック図である。図３のシステムは、オーディオが後処理及び／又は増幅及びスピーカ段へ送信される前に、従来のオブジェクト及びチャネルオーディオ復号化、オブジェクトレンダリング、チャネル再マッピング、及び信号処理を実行する処理ブロックを有する。

再生システム３００は、１又は複数のキャプチャ、前処理、オーサリング及び符号化コンポーネントを通じて生成されるオーディオコンテンツをレンダリング及び再生するよう構成される。適応型オーディオプリプロセッサは、入力オーディオの分析を通じて自動的に適切なメタデータを生成するソース分離及びコンテンツ種類検出機能を有しても良い。例えば、位置メタデータは、チャネル対間の相関入力の相対レベルの分析を通じてマルチチャネルレコーディングから導出されても良い。スピーチ又は音楽のようなコンテンツ種類の検出は、例えば特徴抽出及び分類により達成されても良い。特定のオーサリングツールは、音響技師の創造的意図の入力及び体系化を最適化して、事実上任意の再生環境での再生に最適化されると、彼に最終的なオーディオミックスを生成させることにより、オーディオプログラムのオーサリングを可能にする。これは、オーディオオブジェクト、及び元のオーディオコンテンツに関連付けられ共に符号化される位置データの使用を通じて達成できる。公会堂のあちこちに音を正確に配置するために、音響技師は、再生環境の実際の制約及び特徴に基づき音が最終的にどのようにレンダリングされるかを制御する必要がある。適応型オーディオシステムは、オーディオオブジェクト及び位置データの使用を通じてオーディオコンテンツがどのように設計されミックスされるかを音響技師に変更させることにより、この制御を提供する。適応型オーディオコンテンツは、オーサリングされ適切なコーデック装置で符号化されると、再生システム３００の種々のコンポーネントで復号化されレンダリングされる。

図３に示すように、（１）レガシーサラウンドサウンドオーディオ３０２、（２）オブジェクトメタデータを含むオブジェクトオーディオ３０４、及び（３）チャネルメタデータを含むチャネルオーディオ３０６は、処理ブロック３１０内のデコーダ段３０８、３０９に入力される。オブジェクトメタデータは、オブジェクトレンダラ３１２でレンダリングされる。一方、チャネルメタデータは必要に応じて再マッピングされても良い。部屋構成情報３０７は、オブジェクトレンダラ及びチャネル再マッピングコンポーネントに供給される。次に、ハイブリッドオーディオデータは、Ｂチェイン処理段３１６への出力及びスピーカ３１８を通じた再生の前に、等化器及びリミッタ３１４のような１又は複数の信号処理段を通じて処理される。システム３００は、適応型オーディオのための再生システムの一例を表す。他の構成、コンポーネント、及び相互接続も可能である。

＜再生アプリケーション＞
上述のように、適応型オーディオフォーマット及びシステムの初期実装は、新規なオーサリングツールを用いてオーサリングされ、適応型オーディオシネマエンコーダを用いてパッケージされ、及びＰＣＭ又は独自仕様の無損失コーデックを用いて既存のＤＣＩ（Digital Cinema Initiative）分配メカニズムを用いて分配されるコンテンツキャプチャ（オブジェクト及びチャネル）を含むデジタルシネマ（D−cinema）の環境である。この例では、オーディオコンテンツは、没入型空間オーディオシネマ経験を生成するために、デジタルシネマで復号化及びレンダリングされることを意図している。しかしながら、アナログサラウンドサウンド、デジタル多チャネルオーディオ、等のような以前のシネマの進歩と共に、家庭にいるリスナに直接に適応型オーディオフォーマットにより提供される向上したユーザ経験を供給する要請がある。これは、フォーマット及びシステムの特定の特徴がより限られた聴取環境での使用に適応されることを要求する。例えば、家庭、部屋、小さな公会堂、又は類似の場所は、映画館又は劇場環境と比べて削減された空間、音響特性、及び機器能力を有し得る。説明の目的で、用語「消費者に基づく環境」は、家、スタジオ、部屋、操作領域、公会堂、等のような本職の顧客又はプロによる使用のための聴取環境を有する任意の非映画館環境を含むことを意図する。オーディオコンテンツは、単独で調達されレンダリングされても良く、或いは、グラフィックコンテンツ、例えば静止画像、光ディスプレイ、ビデオ、等に関連付けられても良い。

図４Ａは、一実施形態における、聴取環境で使用する、オーディオコンテンツに基づき映画を適応する機能コンポーネントを示すブロック図である。図４Ａに示すように、ブロック４０２で、通常動画像サウンドトラックを有する映画コンテンツは、適切な機器及びツールを用いてキャプチャ及び／又はオーサリングされる。適応型オーディオシステムでは、ブロック４０４で、このコンテンツは、符号化／復号化及びレンダリングコンポーネント及びインタフェースを通じて処理される。結果として生じるオブジェクト及びチャネルオーディオフィードは、次に、４０６で映画館又は劇場内の適切なスピーカに送信される。システム４００では、４１６で、映画コンテンツも、ホームシアターシステムのような聴取環境での再生のために処理される。聴取環境は、総合的ではなく、或いは、限られた空間、少ないスピーカ数、等によりコンテンツクリエイタにより意図されたサウンドコンテンツの全てを再現する能力がない。しかしながら、実施形態は、聴取環境の減少した能力により課される制約を最小限にするように元のオーディオコンテンツをレンダリング可能にする、並びに利用可能な機器を最大限にするように位置キューを処理可能にするシステム及び方法を対象とする。図４Ａに示すように、映画オーディオコンテンツは、映画−消費者変換器コンポーネント４０８を通じて処理される。ここで、映画オーディオコンテンツは消費者コンテンツ符号化及びレンダリングチェーン４１４内で処理される。このチェーンは、ブロック４１２でキャプチャされ及び／又はオーサリングされた元の消費者オーディオコンテンツも処理する。次に４１６で、元の消費者コンテンツ及び／又は変換された映画コンテンツは、聴取環境で再生される。このように、オーディオコンテンツ内に符号化された関連空間情報は、家庭又は他の消費者聴取環境の場合によっては限られたスピーカ構成を用いても、４１６で、より没入型方法で音をレンダリングするために用いることができる。

図４Ｂは、図４Ａのコンポーネントをより詳細に示す。図４Ｂは、消費者エコシステム全体を通して適応型オーディオ映画コンテンツの例示的な分配メカニズムを示す。図４２０に示すように、元の映画及びＴＶコンテンツは、種々の異なる環境における再生のために、４２２でキャプチャされ、４２３でオーサリングされ、４２７で映画経験を又は４３４で消費者環境経験を提供する。同様に、特定のユーザにより生成されたコンテンツ（user generated content：ＵＧＣ）又は消費者コンテンツは、４３４での聴取環境における再生のために、４２３でキャプチャされ、４２５でオーサリングされる。例えば映画環境４２７における再生のための映画コンテンツは、知られている映画処理４２６を通じて処理される。しかしながら、システム４２０で、映画オーサリングツールボックス４２３の出力は、サウンドミキサの芸術的意図を伝達するオーディオオブジェクト、オーディオチャネル、及びメタデータも有する。これは、再生のための映画コンテンツの複数のバージョンを生成するために用いることができる２階正面席（mezzanine）スタイルのオーディオパッケージとして考えることができる。一実施形態では、この機能は、映画−消費者適応型オーディオ変換器４３０により提供される。この変換器は、適応型オーディオコンテンツへの入力を有し、それから所望の消費者エンドポイント４３４のための適切なオーディオ及びメタデータコンテンツを抜き出す。変換器は、消費者分配メカニズム及びエンドポイントに依存して、別個の及び場合によっては異なるオーディオ及びメタデータ出力を生成する。

システム４２０の例に示すように、映画−消費者変換器４３０は、画像（例えば、ブロードキャスト、ディスク、ＯＴＴ、等）及びゲームオーディオビットストリーム生成モジュール４２８に音を供給する。これらの２個のモジュールは、映画コンテンツを配信するのに適し、複数の分配パイプライン４３２に供給できる。複数の分配パイプライン４３２の全部は、消費者エンドポイントに分配しても良い。例えば、適応型オーディオ映画コンテンツは、ＤｏｌｂｙＤｉｇｉｔａｌＰｌｕｓのようなブロードキャスト目的に適するコーデックを用いて符号化されても良く、チャネル、オブジェクト及び関連メタデータを伝達するために変更されても良く、ブロードキャストチェーンを通じてケーブル又は衛星を介して送信され、次にホームシアター又はテレビジョン再生のために家庭で復号化及びレンダリングされる。。同様に、同じコンテンツは、帯域幅の限られたオンライン配信に適したコーデックを用いて符号化され、次に３Ｇ又は４Ｇモバイルネットワークを通じて送信され、次にヘッドフォンを用いたモバイル装置による再生のために復号化及びレンダリングされる。ＴＶ、ライブ放送、ゲーム及び音楽のような他のコンテンツソースも、次世代空間オーディオフォーマットのコンテンツを生成し提供するために、適応型オーディオフォーマットを用いても良い。

図４Ｂのシステムは、ホームシアター（例えば、Ａ／Ｖ受信機、サウンドバー、及びＢｌｕＲａｙ（登録商標））、電子メディア（例えば、ＰＣ、タブレット、ヘッドフォン再生を含むモバイル）、ブロードキャスト（ＴＶ及びセットトップボックス）、音楽、ゲーム、ライブサウンド、ユーザの生成したコンテンツ、等を含み得るオーディオエコシステム全体を通して拡張されたユーザ経験を提供する。このようなシステムは、全てのエンドポイント装置の聴衆の没入の拡張、オーディオコンテンツクリエイタの芸術的制御の拡張、レンダリングの向上のためのコンテンツ依存（記述）メタデータの改良、再生システムの柔軟性及び拡張性の拡張、音質維持及び整合、並びにユーザ位置及び相互作用に基づくコンテンツの動的レンダリングのための機会を提供する。システムは、コンテンツクリエイタのための新しいミキシングツール、分配及び再生、（異なる聴取環境構成に適する）家庭内動的ミキシング及びレンダリング、追加スピーカ位置及び設計のための更新された新しいパッケージ及び符号化ツールを含む幾つかのコンポーネントを有する。

適応型オーディオエコシステムは、多数のエンドポイント装置及び使用例に渡るコンテンツ生成、パッケージング、分配及び再生／レンダリングを含む適応型オーディオフォーマットを用いて完全に包括的なエンドツーエンド次世代オーディオシステムであるよう構成される。図４Ｂに示すように、システムは、多数の異なる使用例から及びそれらのためにキャプチャされたコンテンツに端を発する。これらのキャプチャポイントは、映画、ＴＶ、生放送（及び音）、ＵＧＣ、ゲーム及び音楽を含む全ての関連するコンテンツフォーマットを有する。コンテンツは、エコシステムを通過するとき、前処理及びオーサリングツール、変換ツール（つまり、映画−消費者コンテンツ分配アプリケーションのための適応型オーディオコンテンツの変換）、特定適応型オーディオパッケージング／ビットストリーム符号化（オーディオ基本データを追加メタデータ及びオーディオ再現情報とともにキャプチャする）、種々のオーディオチャネルを通じた効率的な分配、関連分配チャネル（例えば、ブロードキャスト、ディスク、モバイル、インターネット、等）を通じた送信、及び空間オーディオ経験の利益を提供するコンテンツクリエイタにより定められた適応型オーディオユーザ経験を再現し伝達するために最終的なエンドポイントを意識した動的レンダリングのための既存の又は新しいコーデック（例えば、ＤＤ＋、ＴｒｕｅＨＤ、ＤｏｌｂｙＰｕｌｓｅ）を用いた分配符号化のような幾つかの主要段階を通る。適応型オーディオシステムは、広範囲に変化する数の消費者エンドポイントのためのレンダリング中に用いることができ、適用されるレンダリング技術は、エンドポイント装置に依存して最適化できる。例えば、ホームシアターシステム及びサウンドバーは、２、３、５、７又は９個のスピーカを種々の位置に有しても良い。多くの他の種類のシステムは２個のスピーカのみを有し（例えば、ＴＶ、ラップトップ、音楽ドック）、殆ど全ての一般的に用いられる装置はヘッドフォン出力を有する（例えば、ＰＣ、ラップトップ、タブレット、携帯電話機、音楽プレイヤ、等）。

非映画オーディオのための現在のオーサリング及び分配システムは、オーディオエッセンス（つまり、再現システムにより再生される実際のオーディオ）の中で伝達されるコンテンツの種類についての限られた知識しか有しないで、所定の及び固定されたスピーカ位置への再現用のオーディオを生成し分配する。しかしながら、適応型オーディオシステムは、固定スピーカ位置専用オーディオ（左チャネル、右チャネル、等）と、位置、サイズ及び速度を含む汎用３Ｄ空間情報を有するオブジェクトに基づくオーディオ要素との両者の選択を有する新しいハイブリッドアプローチをオーディオ生成に提供する。このハイブリッドアプローチは、（固定スピーカ位置により提供される）忠実性及び（汎用オーディオオブジェクトを）レンダリングする際の柔軟性のバランスのとれたアプローチを提供する。このシステムは、コンテンツ生成／オーサリングのときにコンテンツクリエイタによりオーディオエッセンスと対にされる新しいメタデータにより、オーディオコンテンツに関する追加の有用な情報も提供する。この情報は、レンダリング中に用いることができるオーディオの属性に関する詳細情報を提供する。このような属性は、コンテンツ種類（例えば、会話、音楽、効果、フォーレイ（Foley）、背景／雰囲気、等）、並びに空間属性（例えば、３Ｄ位置、オブジェクトサイズ、速度、等）のようなオーディオオブジェクト情報及び有用なレンダリング情報（例えば、スピーカ位置への素早い動き、チャネル重み、利得、低音管理情報、等）を有しても良い。オーディオコンテンツ及び再現意図メタデータは、コンテンツクリエイタにより手動で生成でき又はオーサリング処理中にバックグラウンドで実行され得る自動メディア知能アルゴリズムの使用を通じて生成でき、そして必要に応じて最終品質制御段階中にコンテンツクリエイタにより見直され得る。

図４Ｃは、一実施形態における、適応型オーディオ環境の機能コンポーネントのブロック図である。図４５０に示すように、システムは、ハイブリッドオブジェクト及びチャネルに基づくオーディオストリームの両方を伝達する符号化ビットストリーム４５２を処理する。ビットストリームは、レンダリング／信号処理ブロック４５４により処理される。一実施形態では、この機能ブロックの少なくとも一部は、図３に示すレンダリングブロック３１２内で実施されても良い。レンダリング機能４５４は、適応型オーディオのための種々のレンダリングアルゴリズム、並びにアップミキシング、反射音向け処理、等のような特定の後処理アルゴリズムを実装する。レンダラからの出力は、双方向相互接続４５６を通じてスピーカ４５８に供給される。一実施形態では、スピーカ４５８は、サラウンドサウンド又は同様の構成に配置され得る多数の個々のドライバを有する。ドライバは、個々にアドレス可能であり、個々の筐体又は複数ドライバキャビネット若しくはアレイで具現化されても良い。システム４５０は、レンダリング処理を較正するために用いることができる、部屋の特性の測定を提供するマイクロフォン４６０を有しても良い。システム構成及び較正機能は、ブロック４６２で提供される。これらの機能は、レンダリングコンポーネントの部分として含まれても良い。或いは、これらの機能は、レンダラに機能的に結合される別個のコンポーネントとして実装されても良い。双方向相互接続４５６は、スピーカ環境（視聴室）から較正コンポーネント４６２へのフィードバック信号経路を提供する。

＜分散／集中レンダリング＞
一実施形態では、レンダラ４５４は、ネットワークに関連付けられた中央プロセッサに埋め込まれた機能処理を有する。代替で、レンダラは、個々にアドレス可能なオーディオドライバのアレイのうちの各ドライバの中の又はそれに結合された回路により少なくとも部分的に実行される機能処理を有しても良い。集中型処理の場合には、レンダリングデータは、個々のオーディオチャネルにより送信されるオーディオ信号の形式で個々のドライバに送信される。分散型処理の実施形態では、中央プロセッサは、ドライバで実行される最終的なレンダリングを有するオーディオデータのいかなるレンダリングも又は少なくとも部分的レンダリングしか実行しない。この例では、給電されるスピーカ／ドライバは、オンボード処理機能を有効にする必要がある。１つの例示的な実装は、統合マイクロフォンを有するスピーカの使用である。ここで、レンダリングは、マイクロフォンデータに基づき適応され、調整は、スピーカ自体の中で行われる。これは、較正及び／又は構成目的で中央レンダラへマイクロフォン信号を返送する必要を除去する。

図４Ｄは、一実施形態における、レンダリング機能の一部がスピーカの中で実行される分散型レンダリングシステムを示す。図４７０に示すように、符号化ビットストリーム４７１は、部分的レンダリングコンポーネントを含む信号処理段４７２に入力される。部分的レンダラは、レンダリングを全く実行しない或いは最大５０％又は７５％までのように、レンダリング機能の任意の適切な割合を実行しても良い。次に、元の符号化ビットストリーム又は部分的レンダリングビットストリームは、相互接続４７６を介してスピーカ４７２へ送信される。本実施形態では、スピーカは、ドライバ及び直流電源又はオンボードバッテリを有する電源内蔵式ユニットである。スピーカユニット４７２は、１又は複数の統合マイクロフォンも含む。レンダラ及び任意的な較正機能４７４は、スピーカユニット４７２に統合される。レンダラ４７４は、必要に応じて、どのようにどれだけレンダリングが部分的レンダラ４７２により実行されるかに依存して符号化ビットストリームに対して最終的な又は完全なレンダリング動作を実行する。完全な分散型実装では、スピーカ較正ユニット４７４は、スピーカドライバ４７２に較正を直接実行するために、マイクロフォンにより生成される音情報を用いても良い。この例では、相互接続４７６は、単方向相互接続のみであっても良い。代替の又は部分的な分散型実装では、統合又は他のマイクロフォンは、信号処理段４７２に関連付けられら任意的な較正ユニット４７３へ音情報を供給して戻しても良い。この例では、相互接続４７６は双方向相互接続である。

＜聴取環境＞
適応型オーディオシステムの実装は、種々の異なる聴取環境で展開されることを意図している。これらは、消費者アプリケーションの３つの主要な分野、つまりホームシアターシステム、テレビジョン及びサウンドバー、及びヘッドフォンを有し、映画館、劇場、スタジオ、及び他の大規模若しくはプロ環境も含み得る。図５は、例示的なホームシアター環境における適応型オーディオシステムの展開を示す。図５のシステムは、適応型オーディオシステムにより提供され得るコンポーネント及び機能の上位集合を示す。特定の特徴は、拡張された経験を提供しながら、ユーザの必要に基づき削減又は除去されても良い。システム５００は、種々の異なるキャビネット又はアレイ５０４の中に種々の異なるスピーカ及びドライバを有する。スピーカは、フロント、サイド及びアップワードファイアリング、並びに特定のオーディオ処理技術を用いるオーディオの動的仮想化を提供する個々のドライバを有する。図５００は、標準的な９．１スピーカ構成で展開される多数のスピーカを示す。これらは、左及び右ハイトスピーカ（ＬＨ、ＲＨ）、左及び右スピーカ（Ｌ、Ｒ）、中央スピーカ（変更された中央スピーカとして示す）、並びに左及び右サラウンド及びバックスピーカ（ＬＳ、ＬＲ、ＬＢ及びＲＢ、低周波数要素ＬＦＥは示さない）を含む。

図５は、部屋又は劇場の中央位置で用いられる中央チャネルスピーカ５１０の使用を示す。一実施形態では、このスピーカは、変更された中央チャネル又は高分解能中央チャネル５１０を用いて実装される。このようなスピーカは、スクリーン上のビデオオブジェクトの動きに適合するアレイを通じたオーディオオブジェクトの離散的パンを可能にする個々にアドレス可能なスピーカを有するフロントファイアリング中央チャネルアレイであっても良い。これは、参照することによりここに組み込まれる国際特許公報ＷＯ２０１１／１１９４０１、２０１１年９月２９日発行に記載されているような高分解能中央チャネル（high−resolution center channel：ＨＲＣ）スピーカとして具現化されても良い。ＨＲＣスピーカ５１０は、図示のようにサイドファイアリングスピーカを有しても良い。これらは、ＨＲＣスピーカが中央スピーカとしてだけではなくサウンドバー能力を有するスピーカとしても用いられる場合に、起動され使用され得る。ＨＲＣスピーカは、オーディオオブジェクトの２次元高分解能パニングオプションを提供するために、スクリーン５０２の上及び／又は横に組み込まれても良い。中央スピーカ５１０は、追加ドライバを有し、別個に制御される音ゾーンを有するステアリング可能なサウンドビームを実装し得る。

システム５００は、着席位置の正面にあるテーブル上のようなリスナの正面右に又は正面近くに配置され得る近接場効果（near field effect：ＮＦＥ）スピーカ５１２も有する。適応型オーディオでは、オーディオオブジェクトを部屋の周囲に単に固定させるだけではなく、部屋の中に持ってくることが可能である。したがって、３次元空間を通してオブジェクトをトラバースするというオプションがある。一例は、オブジェクトがＬスピーカで生じ、ＮＦＥスピーカを通じて部屋を通って伝わり、ＲＳスピーカで終わる場合である。種々の異なるスピーカは、無線バッテリ式スピーカのようなＮＦＥスピーカとしての使用に適しても良い。

図５は、ホームシアター環境における没入型ユーザ経験を提供するための動的スピーカ仮想化の使用を示す。動的スピーカ仮想化は、適応型オーディオコンテンツにより提供されるオブジェクト空間情報に基づくスピーカ仮想化アルゴリズムパラメータの動的制御を通じて実現される。この動的仮想化は、Ｌ及びＲスピーカについて図５に示される。これは、部屋の側面に沿って移動するオブジェクトの知覚を生成するためのものであると考えるのが自然である別個の仮想化器が関連オブジェクト毎に使用され、結合された信号は、複数オブジェクト仮想化効果を生成するためにＬ及びＲスピーカへ送信され得る。動的仮想化効果は、Ｌ及びＲスピーカ、並びに（２個の独立した入力を有する）ステレオスピーカであることが意図されるＮＦＥスピーカについて示される。このスピーカは、オーディオオブジェクト及び位置情報と共に、拡散又は点源近距離オーディオ経験を生成するために用いられ得る。同様の仮想化効果は、システム内の任意の又は全部の他のスピーカにも適用できる。一実施形態では、カメラは、ミキサの芸術的意図により忠実により感動的な経験を提供するために、適応型オーディオレンダラにより使用され得る追加リスナ位置及び識別情報を提供しても良い。

適応型オーディオレンダラは、ミックスと再生システムとの間の空間的関係を理解する。再生環境の幾つかの例では、離散的スピーカは、図１に示すような頭上位置を含む部屋の全ての関連領域で利用可能であっても良い。離散的スピーカが特定の位置で利用可能なこれらの例では、レンダラは、パニング又はスピーカ仮想化アルゴリズムの使用を通じて２以上のスピーカの間のファントム像を生成する代わりに、最も近いスピーカにオブジェクトを「素早く動かす（snap）」よう構成できる。これは、ミックスの空間的表現を僅かに歪めるが、レンダラが意図しないファントム像を回避できるようにする。例えば、ミキシング段の左スピーカの角度位置が再生システムの左スピーカの角度位置に対応しない場合、この機能の有効化は、初期左チャネルの一定のファントム像を有することを回避し得る。

しかしながら、多くの場合、及び特に家庭環境で、天井に取り付けられる頭上スピーカのような特定のスピーカは利用可能ではない。この例では、特定の仮想化技術は、既存の床又は壁に取り付けられるスピーカを通じて頭上オーディオコンテンツを再現するためにレンダラにより実装される。一実施形態では、適応型オーディオシステムは、各スピーカのフロントファイアリング能力及びトップ（又は「アップワード」）ファイアリング能力の両方の包含を通じて標準的構成への変更を含む。伝統的な家庭用アプリケーションでは、スピーカ製造者は、フロントファイアリングトランスデューサ以外の新しいドライバ構成を導入しようと試みており、元のオーディオ信号（又はそれらに対する変更）のうちのどれがこれらの新しいドライバへ送信されるべきかを特定しようとする問題に直面している。適応型オーディオシステムでは、どのオーディオオブジェクトが標準的な水平面の上でレンダリングされるかに関する非常に特有の情報が存在する。一実施形態では、適応型オーディオシステムに存在するハイト情報は、アップワードファイアリングドライバを用いてレンダリングされる。同様に、サイドファイアリングスピーカは、雰囲気効果のような特定の他のコンテンツをレンダリングするために用いることができる。

アップワードファイアリングドライバの１つの利点は、それらが、天井に位置付けられる頭上／ハイトスピーカの存在をシミュレートするために、堅い天井面から音を反射するのに用いることができることである。適応型オーディオコンテンツの有力な属性は、空間的に多様なオーディオが頭上スピーカのアレイを用いて再現されることである。しかしながら、上述のように、多くの例では、頭上スピーカの設置は、家庭環境では高価であり又は実用的でない。名目上水平面に位置付けられるスピーカを用いてハイトスピーカをシミュレートすることにより、感動的な３Ｄ経験が位置付けし易いスピーカにより生成できる。この例では、適応型オーディオシステムは、オーディオオブジェクト及びそれらの空間的再現情報がアップワードファイアリングドライバにより再現されるオーディオを生成するために用いられる新しい方法で、アップワードファイアリング／ハイトシミュレートドライバを用いている。

図６は、ホームシアターにおける単一の頭上スピーカをシミュレートするために反射音を用いるアップワードファイアリングドライバの使用を示す。留意すべきことに、複数のシミュレートされたハイトスピーカを生成するために、任意の数のアップワードファイアリングドライバが組み合わされて用いられ得る。代替で、アップワードファイアリングドライバの数は、特定の音強度又は効果を達成するために、天井の実質的に同じ点に音を送信するよう構成されても良い。

図６００は、通常の聴取位置６０２が部屋内の特定の場所に位置する例を示す。システムは、ハイトキューを含むオーディオコンテンツを送信するいかなるハイトスピーカも有しない。代わりに、スピーカキャビネット又はスピーカアレイ６０４は、フロントファイアリングドライバと一緒にアップワードファイアリングドライバを有する。アップワードファイアリングドライバは、その音波６０６を（位置及び傾き角度に関して）天井の特定の点６０８まで送信するよう構成される。音波は、聴取位置６０２に反射され戻ってくる。天井は、部屋へ音を適切に反射するために適切な材料及び構成を有すると想定される。アップワードファイアリングドライバの関連特性（例えば、サイズ、パワー、位置、等）は、天井の構成、部屋の大きさ、及び聴取環境の他の関連特性に基づき選択されても良い。１つのアップワードファイアリングドライバのみが図６に示されたが、幾つかの実施形態では、複数のアップワードファイアリングドライバが再現システムに組み込まれても良い。

一実施形態では、適応型オーディオシステムは、ハイト要素を提供するために、アップワードファイアリングドライバを用いる。一般的に、知覚ハイトキューをアップワードファイアリングドライバに供給されるオーディオ信号に導入するために信号処理を組み込むことは、仮想ハイト信号の位置決め及び知覚される質を向上する。例えば、ハイトキューフィルタを生成するために、パラメトリック知覚バイノーラル聴覚モデルが開発されている。該モデルは、アップワードファイアリングドライバにより再現されているオーディオを処理するために用いられるとき、再現の知覚品質を向上する。一実施形態では、ハイトキューフィルタは、物理的スピーカ位置（大体、リスナと同じ高さ）及び反射スピーカ位置（リスナより上）の両方から導出される。物理的スピーカ位置について、方向フィルタは、外耳（又は耳介）のモデルに基づいて決定される。次に、このフィルタの逆変換が決定され、物理スピーカからハイトキューを除去するために用いられる。次に、反射スピーカ位置について、第２の方向フィルタは、外耳の同じモデルを用いて決定される。このフィルタは、直接適用され、音がリスナの上にあった場合に耳が受けるキューを基本的に再現する。実際には、これらのフィルタは、単一フィルタが、（１）物理的スピーカ位置からハイトキューを除去するとともに（２）反射スピーカ位置からのハイトキューを挿入できるように、結合されても良い。図１６は、結合フィルタの周波数応答を示すグラフである。結合フィルタは、適用されるフィルタの攻撃性（aggressiveness）又は量に関して特定の調整能力を認めるように用いられても良い。例えば、幾つかの例では、物理的スピーカからの音の一部のみがリスナに直接到着する（残りの部分は天井から反射されている）ので、物理的スピーカハイトキューを完全に除去しない、又は反射スピーカハイトキューを完全に適用しないことが有利であっても良い。

＜スピーカ構成＞
個人使用又は類似の用途のための適応型オーディオシステムの主要な検討事項は、スピーカ構成である。一実施形態では、システムは、個別にアドレス可能なドライバを用いる。このようなドライバのアレイは、直接及び反射音源の両方の組合せを提供するよう構成される。システム制御部（例えば、Ａ／Ｖ受信機、セットトップボックス）への双方向リンクは、オーディオ及び構成データをスピーカへ送信させ、スピーカ及びセンサ情報を制御部に返送させ、積極的な閉ループシステムを生成する。

説明を目的として、用語「ドライバ」は、電気オーディオ入力信号に応答して音を生成する単一の電子音響トランスデューサを意味する。ドライバは、任意の適切な種類、ジオメトリ、及びサイズで実装されても良く、ホーン、コーン、リボントランスデューサ、等を有しても良い。用語「スピーカ」は、単一の筐体の中にある１又は複数のドライバを意味する。図７Ａは、一実施形態における、第１の構成の複数のドライバを有するスピーカを示す。図７Ａに示すように、スピーカ筐体７００は、筐体内に取り付けられた多数の個別のドライバを有する。通常、筐体は、低音域用スピーカ、中音域スピーカ若しくは高音域用スピーカ、又はそれらの任意の組合せのような１又は複数のフロントファイアリングドライバ７０２を有する。１又は複数のサイドファイアリングドライバ７０４も含まれても良い。フロント及びサイドファイアリングドライバは、通常、筐体の側面にぴったりくっついて取り付けられ、それらがスピーカにより定められる垂直面から垂直に出て行く音を発射するように、及びこれらのドライバがキャビネット７００内に通常恒久的に固定されるようにする。反射音のレンダリングを特色とする適応型オーディオシステムでは、１又は複数のアップワードチルトドライバ７０６も設けられる。これらのドライバは、図６に示したように、それらがある角度で天井へと音を発射し、次に天井で音が跳ね返ってリスナへと戻ってくるように、位置付けられる。傾きの程度は、部屋特性及びシステム要件に依存して設定されても良い。例えば、アップワードドライバ７０６は、フロントファイアリングドライバ７０２から生成される音波との干渉を最小限にするように、３０乃至６０度の間で上に傾けられても良く、スピーカ筐体７００内のフロントファイアリングドライバ７０２の上に位置付けられても良い。アップワードファイアリングドライバ７０６は、固定角度で設置されても良く、或いは傾き角が手動で調整できるように設置されても良い。代替で、アップワードファイアリングドライバの傾き角及び発射方向の自動又は電気制御を可能にするために、サーボ機構が用いられても良い。環境音のような特定の音について、アップワードファイアリングドライバは、所謂「トップファイアリング」ドライバを生成するために、スピーカ筐体７００の上面の外側へ一直線に向けて方向付けられても良い。この例では、大きな音成分は、天井の音響特性に依存して、スピーカ上へと反射して戻ってきても良い。しかしながら、多くの例では、図６に示したように、部屋内の異なる若しくは更に中央位置への天井からの反射を通じて音を発射するのを助けるために、通常、特定の傾き角が用いられる。

図７Ａは、スピーカ及びドライバ構成の一例を示すことを意図する。多くの他の構成も可能である。例えば、アップワードファイアリングドライバは、既存のスピーカと共に使用できるように、自身の筐体内に設けられても良い。図７Ｂは、一実施形態における、複数の筐体の中に分散されたドライバを有するスピーカシステムを示す。図７Ｂに示すように、アップワードファイアリングドライバ７１２は、別の筐体７１０の中に設けられる。別の筐体７１０は、フロント及び／又はサイドファイアリングドライバ７１６及び７１８を有する筐体７１４に近接して又はその上に配置できる。多くのホームシアター環境で用いられるように、ドライバは、多数の小型又は中型の大きさのドライバが単一水平又は垂直筐体内の軸に沿って配列されるスピーカサウンドバー内に入れられても良い。図７Ｃは、一実施形態における、サウンドバー内のドライバの配置を示す。本例では、サウンドバー筐体７３０は、サイドファイアリングドライバ７３４、アップワードファイアリングドライバ７３６、及びフロントファイアリングドライバ７３２を有する水平サウンドバーである。図７Ｃは、単なる例示的構成を意図する。機能の各々−フロント、サイド及びアップワードファイアリング−について任意の実際のドライバ数が用いられても良い。

図７Ａ−７Ｃの実施形態について、要求される周波数応答特性並びにサイズ、電力定格、コンポーネントコスト等のような任意の他の関連制約に依存して、ドライバは任意の適切な形状、サイズ及び種類であっても良いことに留意すべきである。

標準的な適応型オーディオ環境では、多数のスピーカ筐体が、部屋内に含まれる。図８は、部屋内に配置されるアップワードファイアリングドライバを含む個々にアドレス可能なドライバを有するスピーカの例示的な配置を示す。図８に示すように、部屋８００は、それぞれ少なくとも１つのフロントファイアリング、サイドファイアリング、及びアップワードファイアリングドライバを有する４個の別個のスピーカ８０６を有する。部屋は、中央スピーカ８０２及びサブウーファー若しくはＬＦＥ８０４のようなサラウンドサウンドアプリケーションのために用いられる固定ドライバを有しても良い。図８から分かるように、部屋及び個々のスピーカユニットの大きさに依存して、部屋内のスピーカ８０６の適正な配置は、多数のアップワードファイアリングドライバからの音の天井での反射によりもたらされる豊かなオーディオ環境を提供できる。スピーカは、コンテンツ、部屋の大きさ、リスナ位置、音響特性、及び他の関連パラメータに依存して、天井面にある１又は複数の点からの反射を提供することを目的とし得る。

ホームシアター又は類似の環境のための適応型オーディオシステムで用いられるスピーカは、既存のサラウンドサラウンド構成（例えば、５．１、７．１、９．１等）に基づく構成を用いても良い。この例では、多数のドライバが、知られているサラウンドサウンド習慣により設けられ定められ、アップワードファイアリングサウンドコンポーネントのために追加ドライバが設けられ定められる。

図９Ａは、一実施形態における、反射オーディオのための複数のアドレス可能なドライバを用いる適応型オーディオ５．１システムのスピーカ構成を示す。構成９００では、ＬＦＥ９０１、中央スピーカ９０２、Ｌ／Ｒフロントスピーカ９０４／９０６、及びＬ／Ｒリアスピーカ９０８／９１０を有する標準的な５．１ラウドスピーカ設置面積は、８個の追加ドライバを設けられ、合計１４個のアドレス可能なドライバを与える。これらの８個の追加ドライバは、各スピーカユニット９０２−９１０内の「フォワード」（又は「フロント」）に加えて「アップワード」及び「サイドワード」と示される。直接フォワードドライバは、高度な指向性を有するよう設計される適応型オーディオオブジェクト及び任意の他のコンポーネントを含むサブチャネルにより駆動され得る。アップワードファイアリング（反射）ドライバは、更に全方向性の又は指向性のないサブチャネルコンテンツを有し得るが、これらに限定されない。例は、背景音楽又は環境音を有し得る。システムへの入力がレガシーサラウンドサウンドコンテンツを有する場合、このコンテンツは、方向及び反射サブチャネルに知的に織り込まれ、適切なドライバへ供給され得る。

直接サブチャネルのために、スピーカ筐体は、ドライバの中央軸が「スイートスポット」又は部屋の音響的中心を二等分するドライバを有し得る。アップワードファイアリングドライバは、ドライバの中央軸と音響的中心との間の角度が４５乃至１８０度の範囲内の特定の角度になるよう、位置付けられ得る。ドライバを１８０度に位置付ける例では、背面ドライバは、背面の壁からの反射により音拡散を提供し得る。この構成は、アップワードファイアリングドライバを直接ドライバと時間的に整合した後に、早く到着する信号成分がコヒーレントであり、一方、遅く到着する成分が部屋により提供される自然拡散からの恩恵を受けるという音響原理を利用する。

適応型オーディオシステムにより提供されるハイトキューを達成するために、アップワードファイアリングドライバは、水平面から上方に傾けられ、本例では一直線に発し、平坦な天井のような反射面又は筐体の直ぐ上に配置された音響拡散器から反射するよう位置付けられ得る。追加の指向性を提供するために、中央スピーカは、高分解能中央チャネルを提供するためにスクリーンに渡り音をステアリングする能力を有する（図７Ｃに示すような）サウンドバー構成を用い得る。

図９Ａの５．１構成は、標準的な７．１構成と類似の２個の追加背面筐体を追加することにより拡張され得る。図９Ｂは、このような一実施形態における、反射オーディオのための複数のアドレス可能なドライバを用いる適応型オーディオ７．１システムのスピーカ構成を示す。構成９２０に示すように、２個の追加筐体９２２及び９２４は、既存のフロント及びリアのペアの間の中間で天井から跳ね返るよう設定されるフロント筐体及びアップワードファイアリングドライバと同様に、サイドスピーカが側壁の方を向いている「左サイドサラウンド」及び「右サイドサラウンド」位置に配置される。このような増加的追加は、必要なだけ何回でも行うことができ、追加ペアは側壁又は後壁に沿ったギャップを満たす。図９Ａ及び９Ｂは、聴取環境のための適応型オーディオシステム内でアップワード及びサイドファイアリングスピーカと共に用いることができる拡張サラウンドサウンドスピーカレイアウトの可能な構成のうちの幾つかの例のみを示す。多くの他の構成も可能である。

上述のｎ．１構成の代替として、より柔軟なポッド（pod）に基づくシステムが用いられても良い。これにより、各ドライバは自身の筐体に入れられ、都合の良い場所に取り付けることができる。これは、図７Ｂに示すようなドライバ構成を用い得る。これらの個々のユニットは、同様の方法でｎ．１構成にクラスタ化されても良く、或いは部屋内に個々に散らばっても良い。ポッドは、必ずしも部屋の端に配置されることに限定されず、聴取環境内の任意の面（例えば、コーヒーテーブル、本棚、等）に配置され得る。このようなシステムは、拡張が容易であり、更に没入型経験を生成するために時間の経過と共にユーザが更に多くのスピーカを追加できるようにする。スピーカが無線である場合、ポッドシステムは、再充電目的でスピーカをドッキングする能力を有し得る。この設計では、ポッドは一緒にドッキングされ、おそらくステレオ音楽を聴くために、それらが再充電している間、それらが単一のスピーカのように動作するようにし、次に、ドッキングから外され、適応型オーディオコンテンツのための部屋内に位置付けられ得る。

アップワードファイアリングアドレス可能ドライバを用いて適応型オーディオシステムの設定可能性及び精度を拡張するために、多数のセンサ及びフィードバック装置が、レンダリングアルゴリズムで用いられ得る特性をレンダラに知らせるために、筐体に追加され得る。例えば、各筐体内に設置されるマイクロフォンは、システムが、三角測量及び筐体自体のＨＲＴＦのような機能を用いて、スピーカの互いに対する位置と共に、部屋の位相、周波数、及び反響特性を測定できるようにし得る。慣性センサ（例えば、ジャイロスコープ、コンパス、等）は、筐体の方向及び角度を検出するために用いられ得る。光及び視覚センサ（例えば、レーザに基づく赤外線レンジファインダ）は、部屋自体に対する位置情報を提供するために用いられ得る。これらの代表は、システム内で用いられ得る追加センサのほんの少数の可能性であり、他のセンサも可能である。

このようなセンサシステムは、ドライバの位置及び／又は筐体の音響変更因子を電子機械サーボにより自動的に調整可能にすることにより更に拡張できる。これは、壁及び他のドライバに対する部屋内のドライバの位置決めを適合させるために、ドライバの指向性を実行時に変更させ得る（「アクティブステアリング」）。同様に、（バッフル、ホーン、又は導波管のような）任意の音響変更因子は、任意の部屋構成における最適な再生のための正しい周波数及び位相応答を提供するために調整され得る（「アクティブチューニング」）。アクティブステアリング及びアクティブチューニングの両者は、初期部屋構成の間（自動ＥＱ／自動部屋構成システムと共に）、又はコンテンツがレンダリングされるのに応答して再生中に実行され得る。

＜双方向相互接続＞
一旦構成されると、スピーカは、レンダリングシステムに接続されなければならない。伝統的な相互接続は、通常、２種類ある。つまり、パッシブスピーカのためのスピーカレベル入力と、アクティブスピーカのためのラインレベル入力である。図４Ｃに示すように、適応型オーディオシステム４５０は、双方向相互接続機能を有する。この相互接続は、レンダリング段４５４と増幅器／スピーカ４５８及びマイクロフォン段４６０との間の物理及び論理接続のセット内に実装される。各スピーカキャビネット内の複数のドライバをアドレスする能力は、音源とスピーカとの間のこれらの知的相互接続によりサポートされる。双方向相互接続は、音源からスピーカ（レンダラ）への信号の送信が制御信号とオーディオ信号の両方を含むことを可能にする。スピーカから音源への信号は、制御信号とオーディオ信号の両方を有する。ここで、この例におけるオーディオ信号は、任意的な内蔵マイクロフォンから調達されるオーディオである。電力は、少なくともスピーカ／ドライバが別個に電力供給されない例では、双方向相互接続の部分として供給されても良い。

図１０は、一実施形態における、双方向相互接続の組成を示す図１０００である。音源１００２は、レンダラ及び増幅器／サウンドプロセッサチェーンを表しても良く、相互接続リンク１００６及び１００８の対を通じてスピーカキャビネット１００４に論理的及び物理的に結合される。音源１００２からスピーカキャビネット１００４内のドライバ１００５への相互接続１００６は、各ドライバの電子音響信号、１又は複数の制御信号、及び光パワーを有する。スピーカキャビネット１００４から音源１００２へ戻る相互接続１００８は、マイクロフォン１００７又はレンダラの較正若しくは他の同様のサウンドプロセッシング機能のための他のセンサからのサウンド信号を有する。フィードバック相互接続１００８は、相互接続１００６を介してドライバに設定される音信号を変更又は処理するために、レンダラにより用いられる特定のドライバ定義及びパラメータも有する。

一実施形態では、システムのキャビネットの各々の中の各ドライバは、システムセットアップ中に識別子（例えば、数値割り当て）を割り当てられる。各スピーカキャビネットは、ユニークに識別できる。この数値割り当ては、どのオーディオ信号がキャビネット内のどのドライバへ送信されるべきかを決定するために、スピーカキャビネットにより用いられる。割り当ては、スピーカキャビネット内で適切なメモリ装置に格納される。代替で、各ドライバは、ローカルメモリに自身の識別子を格納するよう構成されても良い。更なる代替では、ドライバ／スピーカがローカル記憶能力を有しない例のように、識別子は、レンダリング段又は音源１００２内の他のコンポーネントに格納され得る。スピーカ発見処理中、各スピーカ（又は中央データベース）は、そのプロファイルについて音源により問い合わせられる。プロファイルは、スピーカキャビネット又は他の定められたアレイ内のドライバの数、各ドライバの音響特性（例えば、ドライバ種類、周波数応答、等）、スピーカキャビネットの前面中心に対する各ドライバの中心のｘ、ｙ、ｚ位置、定められた面（例えば、天井、床、キャビネット垂直軸、等）に対する各ドライバの角度、並びにマイクロフォンの数及びマイクロフォン特性を含む特定のドライバ定義を定める。他の関連ドライバ及びマイクロフォン／センサパラメータも定められても良い。一実施形態では、ドライバ定義及びスピーカキャビネットプロファイルは、レンダラにより用いられる１又は複数のＸＭＬ文書として表現されても良い。

１つの可能な実装では、インターネットプロトコル（ＩＰ）制御ネットワークは、音源１００２とスピーカキャビネット１００４との間に生成される。各スピーカキャビネット及び音源は、単一ネットワークエンドポイントとして動作し、初期化又は電源を入れられるとリンクローカルアドレスを与えられる。ゼロコンフィギュレーションネットワーキング（zeroconf）のような自動発見機構は、音がネットワーク上の各スピーカに調達されるようにするために用いられても良い。ゼロコンフィギュレーションネットワーキングは、手動のオペレータ介入又は専用構成サーバを有しないで使用可能なＩＰネットワークを自動的に生成する処理の一例である。他の同様の技術が用いられても良い。知的ネットワークシステムが与えられると、複数のソースは、スピーカとしてＩＰネットワーク上に存在しても良い。これは、複数のソースが、「マスタ」オーディオソース（例えば、伝統的なＡ／Ｖ受信機）を通じて音をルーティングすることなく、スピーカを直接駆動できるようにする。別のソースがスピーカをアドレス指定しようとする場合、どのソースが現在「アクティブ」であるか、アクティブであることが必要か否か、及び制御を新しい音源に移すことができるか否か、を決定するために、通信は全てのソース間で実行される。ソースは、それらの分類に基づき製造中に優先度を予め割り当てられても良い。例えば、通信ソースは、娯楽ソースより高い優先度を有しても良い。標準的な家庭環境のような複数の部屋の環境では、環境全体の中の全てのスピーカは、単一のネットワーク上に存在しても良いが、同時にアドレスされる必要はない。セットアップ及び自動構成中、相互接続１００８を介して戻される音レベルは、どのスピーカが同じ物理空間内に配置されているかを決定するために用いることができる。この情報が決定されると、スピーカはクラスタにグループ化されても良い。この例では、クラスタＩＤが割り当てられ、ドライバ定義の部分を成す。クラスタＩＤは、各スピーカに送られる。各クラスタは、音源１００２により同時にアドレスされ得る。

図１０に示すように、任意的なパワー信号は、双方向相互接続を介して送信できる。スピーカは、パッシブ（音源からの外部電力を必要とする）又はアクティブ（電気コンセントからの電力を必要とする）であっても良い。スピーカシステムが無線サポートを有しないアクティブスピーカを有する場合、スピーカへの入力は、ＩＥＥＥ８０２．３に準拠した有線Ｅｔｈｅｒｎｅｔ（登録商標）入力を有する。スピーカシステムが無線サポートを有するアクティブスピーカを有する場合、スピーカへの入力は、ＩＥＥＥ８０２．３に準拠した無線Ｅｔｈｅｒｎｅｔ（登録商標）入力、又は代替でＷＩＳＡ組織により策定された無線規格を有する。パッシブスピーカは、音源により直接提供される適切な電力信号により供給されても良い。

＜システム構成及び較正＞
図４Ｃに示すように、適応型オーディオシステムの機能は、較正機能４６２を有する。この機能は、図１０に示されるマイクロフォン１００７及び相互接続１００８リンクにより有効にされる。システム１００の中のマイクロフォンコンポーネントの機能は、全体的なシステム応答を得るために、部屋内の個々のドライバの応答を測定することである。複数のマイクロフォントポロジは、この目的のために用いることができ、単一のマイクロフォン又はマイクロフォンのアレイを含む。最も単純な例は、部屋の中心に位置付けられた単一の全方向性測定マイクロフォンが、各ドライバの応答を測定するために用いられる場合である。部屋及び再生条件が更に精細な分析を保証する場合、代わりに複数のマイクロフォンを用いることができる。複数のマイクロフォンにとって最も都合の良い場所は、部屋内で用いられる特定のスピーカ構成の物理的スピーカキャビネット内である。各筐体内に設置されたマイクロフォンは、システムが部屋内の複数の位置で各ドライバの応答を測定できるようにする。このトポロジの代替は、部屋内のリスナの位置に大体位置付けられた複数の全方向性測定マイクロフォンを用いることである。

マイクロフォンは、レンダラ及び後処理アルゴリズムの自動構成及び較正を有効にするために用いられる。適応型オーディオシステムでは、レンダラは、１又は複数の物理スピーカ内で、ハイブリッドオブジェクト及びチャネルに基づくオーディオストリームを、特定のアドレス可能ドライバのために設計された個々のオーディオ信号に変換する。後処理コンポーネントは、遅延、等化、利得、スピーカ仮想化、及びアップミキシングを有しても良い。スピーカ構成は、オーディオコンテンツの最適な再生を提供するために、レンダラコンポーネントがハイブリッドオブジェクト及びチャネルに基づくオーディオストリームを個々のドライバ毎オーディオ信号に変換するために用いることができる、重要情報を表す場合が多い。システム構成情報は、（１）システム内の物理スピーカの数、（２）各スピーカ内の個々のアドレス可能なドライバの数、（３）部屋形状に対する、各個々にアドレス可能なドライバの位置及び方向、を有する。他の特性も可能である。図１１は、一実施形態における自動構成及びシステム較正コンポーネントの機能を示す。図１１００に示すように、１又は複数のマイクロフォンのアレイ１１０２は、構成及び較正コンポーネント１１０４に音響情報を提供する。この音響情報は、聴取環境の特定の関連特性をキャプチャする。次に、構成及び較正コンポーネント１１０４は、この情報をレンダラ１１０６及び任意の関連後処理コンポーネント１１０８に供給し、最終的にスピーカへ送られるオーディオ信号が聴取環境のために調整され最適化されるようにする。

システム内の物理スピーカの数及び各スピーカ内の個々にアドレス可能なドライバの数は、物理的スピーカ特性である。これらの特性は、スピーカから双方向相互接続４５６を介してレンダラ４５４へ直接送信される。レンダラ及びスピーカは、共通発見プロトコルを用いる。したがって、スピーカが接続される又はシステムから切断されるとき、レンダラは変化を通知され、相応してシステムを再構成できる。

視聴室のジオメトリ（大きさ及び形状）は、構成及び較正処理において必要な情報項目である。ジオメトリは、多数の異なる方法で決定できる。手動較正モードでは、部屋の最小境界立方体（bounding cube）の幅、長さ及び高さは、レンダラ又は適応型オーディオシステム内の他の処理ユニットへの入力を提供するユーザインタフェースを通じてリスナ又は技師によりシステムに入力される。種々の異なるユーザインタフェース技術及びツールがこの目的のための用いられても良い。例えば、部屋ジオメトリは、部屋のジオメトリを自動的にマッピング又はトレースするプログラムによりレンダラへ送信され得る。このようなシステムは、コンピュータビジョン、ソナー、及び３Ｄレーザに基づく物理的マッピングの組合せを用いても良い。

レンダラは、部屋ジオメトリ内のスピーカの位置を用いて、直接及び反射（アップワードファイアリング）ドライバの両者を含む各個々にアドレス可能なドライバのオーディオ信号を引き出す。直接ドライバは、それらの拡散パターンの大部分が、（床、壁又は天井のような）１又は複数の反射面により拡散される前に、聴取位置と交差するよう意図されたドライバである。反射ドライバは、それらの拡散パターンの大部分が、図６に示したような聴取位置と交差する前に、反射されるよう意図されたドライバである。システムが手動構成モードである場合、各直接ドライバの３Ｄ座標は、ＵＩを通じてシステムに入力されても良い。反射ドライバでは、一次反射の３Ｄ座標がＵＩに入力される。レーザ又は類似の技術は、部屋の面上に拡散ドライバの拡散パターンを視覚化するために用いられても良い。したがって、３Ｄ座標が測定でき、システムに手動で入力できる。

ドライバ位置及び照準は、通常、手動又は自動技術を用いて実行される。幾つかの例では、慣性センサは、各スピーカに組み込まれても良い。このモードでは、中央スピーカは、「マスタ」として設計され、そのコンパス測定は、基準として考えられる。次に、他のスピーカは、それらの個々にアドレス可能なドライバの各々の拡散パターン及びコンパス位置を送信する。部屋ジオメトリと結合して、中央スピーカの基準角と各追加ドライバとの間の差分は、ドライバが直接又は反射であるかをシステムが自動的に決定するのに十分な情報を提供する。

スピーカ位置構成は、３Ｄ位置（つまり、Ambisonic）マイクロフォンが用いられる場合、完全に自動化されても良い。このモードでは、システムは、各ドライバへテスト信号を送信し、応答を記録する。マイクロフォン種類に依存して、信号は、ｘ、ｙ、ｚ表現に変換される必要があっても良い。これらの信号は、主要な最初の到来のｘ、ｙ、ｚ成分を見付けるために分析される。部屋ジオメトリと結合して、これは、通常、全てのスピーカ位置の３Ｄ座標、直接又は反射をシステムが自動的に設定するのに十分な情報を提供する。部屋ジオメトリに依存して、スピーカ座標を構成する３つの記載の方法のハイブリッドな組合せは、１つのみの技術を単独で用いるよりも一層効率的であり得る。

スピーカ構成情報は、レンダラを構成するために必要な１つの成分である。スピーカ較正情報も、後処理チェーン、つまり遅延、等化、及び利得を構成するために必要である。図１２は、一実施形態における、単一マイクロフォンを用いる自動スピーカ較正を実行する処理ステップを示すフローチャートである。このモードでは、遅延、等化及び利得は、聴取環境の中央に置かれた単一の全方位測定マイクロフォンを用いてシステムにより自動的に計算される。図１２００に示すように、処理は、ブロック１２０２で、各単一のドライバ単独の部屋インパルス応答を測定することにより開始する。次に、ブロック１２０４で、各ドライバの遅延は、直接キャプチャされる電気インパルス応答を有する（マイクロフォンによりキャプチャされる）音響インパルス応答の相互相関のピークのオフセットを見付けることにより計算される。ブロック１２０６で、計算された遅延は、直接キャプチャされた（基準）インパルス応答に適用される。次に、ブロック１２０８で、処理は、広帯域及び帯域毎利得値を決定する。広帯域及び帯域毎利得値は、測定されたインパルス応答に適用されると、測定されたインパルス応答と直接キャプチャされた（基準）インパルス応答との間の最小差分を生じる。これは、測定された及び基準インパルス応答の窓関数を掛けたＦＦＴを行い、２つの信号間のビン毎の大きさの比を計算し、ビン毎の大きさの比にメジアンフィルタを提供し、１つの帯域内に完全に含まれるビンの全部について利得を平均化することにより帯域毎の利得値を計算し、全ての帯域毎利得の平均を取ることにより広帯域利得を計算し、帯域毎利得から広帯域利得を減算し、狭い部屋のＸ曲線（２ｋＨｚより上の−２ｄＢ／オクターブ）を適用することにより、行うことができる。ブロック１２０８で利得値が決定されると、処理は、ブロック１２１０で、最小遅延を他者から減算することにより、システム内の少なくとも１つのドライバが常にゼロ追加遅延を有するように、最終遅延値を決定する。

複数のマイクロフォンを用いる自動較正の例では、遅延、等化、及び利得は、複数の全方向性測定マイクロフォンを用いてシステムにより自動的に計算される。処理は、単一のマイクロフォン技術と実質的に同じであり、マイクロフォンの各々について繰り返され、結果が平均化されることを受け入れる。

＜代替再生システム＞
部屋又は劇場全体に適応型オーディオシステムを実装する代わりに、テレビジョン、コンピュータ、ゲーム端末、又は類似の装置のような、より局所的なアプリケーション内で適応型オーディオシステムの態様を実装することも可能である。この例は、事実上、閲覧スクリーン又はモニタ表面に対応する平坦な面内に配列されるスピーカに依る。図１３は、例示的なテレビジョン及びサウンドバー使用例における適応型オーディオシステムの使用を示す。概して、テレビジョン使用例は、空間分解能の点で制限され得る（つまり、サラウンド又はバックスピーカを有しない）、削減される場合の多い機器（ＴＶ、スピーカ、サウンドバースピーカ、等）品質及びスピーカ位置／構成に基づく没入型聴取経験を生成することの挑戦を提供する。図１３のシステム１３００は、標準的なテレビジョンの左及び右位置（ＴＶ−Ｌ及びＴＶ−Ｒ）並びに左及び右アップワードファイアリングドライバ（ＴＶ−ＬＨ及びＴＶ−ＲＨ）にあるスピーカを有する。テレビジョン１３０２は、サウンドバー１３０４又はある種のハイトアレイのスピーカも有しても良い。通常、テレビジョンスピーカのサイズ及び品質は、単独の又はホームシアタースピーカと比べて、コスト制約及び設計選択により削減される。しかしながら、動的仮想化の使用は、これらの欠点を克服するのを助ける。図１３で、動的仮想化効果は、ＴＶ−Ｌ及びＴＶ−Ｒスピーカについて示される。したがって、特定の聴取環境１３０８内にいる人々は、水平面内で個々にレンダリングされる適切なオーディオオブジェクトに関連する水平要素を聞くだろう。さらに、適切なオーディオオブジェクトに関連するハイト要素は、ＬＨ及びＲＨドライバにより送信される反射オーディオを通じて正しくレンダリングされる。テレビジョンＬ及びＲスピーカにおけるステレオ仮想化の使用は、可能な没入型動的スピーカ仮想化ユーザ経験が適応型オーディオコンテンツにより提供されるオブジェクト空間情報に基づくスピーカ仮想化アルゴリズムパラメータの動的制御を通じて可能であるＬ及びＲホームシアタースピーカと同様である。この動的仮想化は、部屋の側面に沿って移動するオブジェクトの知覚を生成するために用いられても良い。

テレビジョン環境は、サウンドバー１３０４内に示すようなＨＲＣスピーカも有しても良い。このようなＨＲＣスピーカは、ＨＲＣアレイを通じてパニングを可能にするステアリング可能なユニットであっても良い。スクリーン上のビデオオブジェクトの動きに適合するアレイを通じたオーディオオブジェクトの離散的パンを可能にする個々にアドレス可能なスピーカを有するフロントファイアリング中央チャネルアレイを有することにより、（特により大きなスクリーンで）有利である。このスピーカは、サイドファイアリングスピーカを有するとして示される。これらは、スピーカがサウンドバーとして用いられる場合に起動され使用され得る。したがって、サイドファイアリングドライバは、サラウンド又はバックスピーカの欠如によるより多くの没入を提供する。動的仮想化の概念は、ＨＥＣ／サウンドバースピーカについて示される。動的仮想化は、フロントファイアリングスピーカアレイの最遠側面にあるＬ及びＲスピーカについて示される。再び、これは、部屋の側面に沿って移動するオブジェクトの知覚を生成するために用いられても良い。この変更された中央スピーカは、より多くのスピーカを有し、別個に制御される音ゾーンを有するステアリング可能なサウンドビームを実装し得る。図１３の例示的実装にも示されるように、ＮＦＥスピーカ１３０６は主聴取位置１３０８の前に置かれる。ＮＦＥスピーカの包含は、部屋の前から離れリスナに近付くよう音を移動することにより、適応型オーディオシステムにより提供される更なる没入を提供し得る。

ヘッドフォンレンダリングに対して、適応型オーディオシステムは、ＨＲＴＦを空間位置に適合することによりクリエイタの元の意図を維持する。オーディオがヘッドフォンにより再現されるとき、バイノーラル空間仮想化は、頭部伝達関数（Head Related Transfer Function：ＨＲＴＦ）の適用により達成できる。ＨＲＴＦは、オーディオを処理し、標準的なステレオヘッドフォンを介してではなく三次元空間で再生されているオーディオの知覚を生成する知覚キューを追加する。空間再現の精度は、レンダリングされているオーディオチャネル又はオブジェクトの空間位置を含む幾つかの要因に基づき変化し得る適切なＨＲＴＦの選択に依存する。適応型オーディオシステムにより提供される空間情報の使用は、再現経験を大幅に向上するために３Ｄ空間を表現する１つの又は連続的に変化する数のＨＲＴＦの選択をもたらし得る。

システムは、誘導三次元バイノーラルレンダリング及び仮想化を追加するのも助ける。空間レンダリングと同様に、新しい変更されたスピーカ種類及び位置を用いると、三次元ＨＲＴＦの使用を通じて、水平面及び垂直軸の両方から来る音をシミュレートするためのキューを生成することが可能である。チャネル及び固定スピーカ位置情報レンダリングのみを提供する前のオーディオフォーマットは、更に限定されている。

＜ヘッドフォンレンダリングシステム＞
適応型オーディオフォーマット情報により、バイノーラル三次元レンダリングヘッドフォンシステムは、オーディオのどの要素が水平及び垂直面の両方でレンダリングするのに適切かを指示するために用いることができる詳細且つ有用な情報を有する。特定のコンテンツは、より大きな包み込みの感覚を提供するために、頭上スピーカの使用に頼っても良い。これらのオーディオオブジェクト及び情報は、ヘッドフォンを使用するときリスナの頭上にあると知覚されるバイノーラルレンダリングのために用いることができる。図１４Ａは、一実施形態における、適応型オーディオシステムで使用する３次元バイノーラルヘッドフォン仮想化経験の簡略表現を示す。図１４Ａに示すように、適応型オーディオシステムからのオーディオを再現するために使用されるヘッドフォンセット１４０２は、標準的なｘ、ｙ平面内の並びにｚ平面内のオーディオ信号１４０４を有する。したがって、特定のオーディオオブジェクト又は音に関連するハイトは、それらがｘ、ｙ起源の音の上又は下から出ているかのうように再生される。

図１４Ｂは、一実施形態における、ヘッドフォンレンダリングシステムのブロック図である。図１４１０に示すように、ヘッドフォンレンダリングシステムは、Ｎチャネルベッド１４１２と位置及び／又は軌道メタデータを含むＭ個のオブジェクト１４１４との組合せである入力信号を取り入れる。Ｎチャネルベッドの各チャネルについて、レンダリングシステムは、左及び右ヘッドフォンチャネル信号１４２０を計算する。時間的に不変であるバイノーラル部屋インパルス応答（binaural room impulse response：ＢＲＩＲ）フィルタ１４１３は、Ｎ個のベッド信号の各々に適用される。時間的に変化するＢＲＩＲフィルタ１４１５は、Ｍ個のオブジェクト信号に適用される。ＢＲＩＲフィルタ１４１３及び１３１５は、リスナに彼が特定のオーディオ特性を有する部屋（例えば、小さな劇場、大きなコンサートホール、アリーナ、等）の中に居る印象を提供するよう機能し、音源の効果及びリスナの頭部及び耳の効果を含む。ＢＲＩＲフィルタの各々からの出力は、左及び右チャネルミキサ１４１６及び１４１７に入力される。次に、ミックスされた信号は、左及び右ヘッドフォンチャネル信号、Ｌ_ｈ、Ｒ_ｈ１４２０を生成するために、個々のヘッドフォン等化処理１４１８及び１４１９を通じて等化される。

図１４Ｃは、一実施形態における、ヘッドフォンレンダリングシステムで使用するＢＲＩＲフィルタの構成を示す。図１４３０に示すように、ＢＲＩＲは、基本的に、直接経路応答１４３２と、部屋内の鏡面反射効果を１４３４及び拡散効果１４３６を含む反射との和１４３８である。和で用いられる各経路は、ソース伝達関数、部屋面応答（直接経路１４３２以外）、距離応答、及びＨＲＴＦを含む。各ＨＲＴＦは、無響条件下にいるリスナに対して指定されたソース方位角及び高度について、リスナの左及び右外耳道への入り口で正しい応答を生成するよう設計される。ＢＲＩＲは、部屋内の位置にいるリスナに対して、部屋内のソース位置、ソース指向性及び方位について、リスナの左及び右外耳道への入り口で正しい応答を生成するよう設計される。

Ｎ個のベッド信号の各々に適用されるＢＲＩＲフィルタは、オーディオシステムの特定のチャネルに関連付けられた特定位置に固定される。例えば、中央チャネル信号に適用されるＢＲＩＲフィルタは、０度方位角及び０度高度に位置するソースに対応しても良い。したがって、リスナは、中央チャネルに対応する音がリスナの直ぐ前にあるソースから来るという印象を得る。同様に、左及び右チャネルに適用されるＢＲＩＲフィルタは、＋／−３０度方位角に位置するソースに対応しても良い。Ｍ個のオブジェクト信号の各々に適用されるＢＲＩＲフィルタは、時間とともに変化し、各オブジェクトに関連付けられた位置及び／又は軌道データに基づき適応される。例えば、オブジェクト１の位置データは、時間ｔ０でオブジェクトがリスナの直ぐ後ろにあることを示しても良い。このような例では、リスナの直ぐ後ろの位置に対応するＢＲＩＲフィルタは、オブジェクト１に適用される。さらに、オブジェクト１の位置データは、時間ｔ１でオブジェクトがリスナの直ぐ上にあることを示しても良い。このような例では、リスナの直ぐ上の位置に対応するＢＲＩＲフィルタは、オブジェクト１に適用される。同様に、残りのオブジェクト２−ｍの各々について、各オブジェクトの時間とともに変化する位置データに対応するＢＲＩＲフィルタが適用される。

図１４Ｂを参照すると、Ｎ個のベッドチャネル及びＭ個のオブジェクトの各々に対応する左耳信号が生成された後、それらは、全体の左耳信号を形成するために、ミキサ１４１６で一緒にミックスされる。同様に、Ｎ個のベッドチャネル及びＭ個のオブジェクトの各々に対応する右耳信号が生成された後、それらは、左ヘッドフォントランスデューサからリスナの左耳外耳道の入り口までの全体的な伝達関数を形成するために、ミキサ１４１７で一緒にミックスされる。この信号は、左ヘッドフォントランスデューサを通じてプレイされる。同様に、全体の右耳信号は、右ヘッドフォントランスデューサからリスナの右耳外耳道の入り口への音響伝達関数を補償するために、等化される１４１９。そして、この信号は、右ヘッドフォントランスデューサを通じてプレイされる。最終的な結果は、リスナに包み込むような３Ｄオーディオサウンドシーンを提供する。

＜ＨＲＴＦフィルタセット＞
聴取環境内の実際のリスナに関して、人間の胴、頭及び耳介（外耳）は、頭部関連伝達関数（周波数領域における、head−related transfer function：ＨＲＴＦ）又は頭部関連インパルス応答（時間領域における、head−related impulse response：ＨＲＩＲ）をシミュレートするためにレイトレーシング及び他の技術を用いてモデル化できる境界セットを生成する。これらの要素（胴、頭、及び耳介）は、モデルを後に単一のＨＲＩＲに構造的に結合させる方法で個々にモデル化できる。このようなモデルは、擬人化された測定（頭半径、首高さ、等）に基づく高度なカスタム化を可能にし、水平（アジマス）面内の局所化に必要なバイノーラルキュー並びに垂直（高度）面内の弱い低周波数キューを提供する。図１４Ｄは、ヘッドフォンレンダリングシステムの実施形態とともに使用できる自由空間内の入射平面波１４４２の基本頭部及び胴モデル１４４０を示す。

耳介は強力な高度キュー、並びに前後キューを提供することが知られている。これらは、通常、周波数に関連し音源高度が動くにつれて動くノッチのセットである場合の多い周波数領域においてスペクトル特徴として記述される。これらの特徴は、ＨＲＩＲを用いて時間領域にも存在する。それらは、高度が変化するにつれ強力な体系的な方法で動くインパルス応答内のピーク及び落下（dip）のセットとして見える（アジマス変化に対応する幾つかの弱い動きも存在する）。

一実施形態では、ヘッドフォンレンダリングシステムとともに使用するＨＲＴＦフィルタセットは、耳介の特徴に関するデータを集めるために、一般的に利用可能なＨＲＴＦデータベースを用いて構築される。データベースは、共通座標系に変換され、外れ値サブジェクトは除去される。選択された座標系は、「両耳間の軸」に沿っており、高度特徴を任意の所与のアジマスについて独立に追跡できるようにする。インパルス応答は、抽出され、時間を揃えられ、各空間位置についてオーバーサンプリングされる。頭部影及び胴反射の影響は、可能な限り除去される。全てのサブジェクトに渡り、任意の所与の空間位置について、特徴の加重平均が実行され、重み付けは、高度とともに変化する特徴が大きな重みを与えられるように行われる。次に、結果は、平均化され、フィルタリングされ、ダウンサンプリングされて共通のサンプルレートに戻される。人間の人体測定についての平均測定値は、頭部及び胴モデルのために用いられ、平均化された胴データと結合される。図１４Ｅは、一実施形態における、ＨＲＴＦフィルタとともに使用する耳介特徴の構造モデルを示す。一実施形態では、構造モデル１４５０は、聴取環境内のドライバの構成を最適化するために部屋モデル化ソフトウェアとともに使用する及びスピーカ又はヘッドフォンを用いた再生のためにオブジェクトをレンダリングするためのフォーマットにエクスポートできる。

一実施形態では、ヘッドフォンレンダリングシステムは、バイノーラルレンダリングの向上のために、ＨＥＴＦを補償する方法を含む。この方法は、Ｚ領域におけるＨＥＴＦの補償フィルタをモデル化し及び引き出す。ＨＥＴＦは、ヘッドフォンの内部表面と関連する外耳の表面との間の反射により影響を受ける。バイノーラルレコーディングが、例えばＢ＆Ｋ４１００ダミーヘッドからとして、外耳道を遮断するために入り口で生成される場合、ＨＥＴＦは、ヘッドフォンの入力から遮断された外耳道の入り口における音圧信号への伝達関数として定められる。バイノーラルレコーディングは、例えば「ＨＡＴＳ音響」ダミーヘッドからとして、鼓膜において生成される場合、ＨＥＴＦは、ヘッドフォンの入力から鼓膜における音圧信号への伝達関数として定められる。

ヘッドフォン内部表面の反射係数（Ｒ１）が周波数に依存し、外耳表面又は鼓膜の反射係数（Ｒ２）も周波数に依存することを考慮すると、Ｚ領域で、ヘッドフォンからの反射係数と外耳表面からの反射係数との積（つまり、Ｒ１＊Ｒ２）は、１次無限インパルス応答（Infinite Impulse Response：ＩＩＲ）フィルタとしてモデル化できる。さらに、ヘッドフォンの内部表面からの反射と外耳の表面からの反射との間に時間遅延があること、及びそれらの間の２次及びより高次の反射が存在することを考慮すると、Ｚ領域のＨＥＴＦは、異なる時間遅延及び次数を有する反射係数の積の和により形成される高次のＩＩＲフィルタＨ（ｚ）としてモデル化される。さらに、ＨＥＴＦの逆フィルタは、Ｈ（ｚ）の逆数であるＩＩＲフィルタＥ（ｚ）を用いてモデル化される。

ＨＥＴＦの測定したインパルス応答から、処理は、ＨＥＴＦの逆フィルタの時間領域インパルス応答であるｅ（ｎ）を得る。したがって、ＨＥＴＦの位相及び振幅スペクトル応答の両方が等化される。これは、更に、一例として、Ponyの方法を用いてｅ（ｎ）シーケンスから逆フィルタＥ（ｚ）のパラメータを引き出す。安定なＥ（ｚ）を得るために、Ｅ（ｚ）の次数は正しい数に設定され、ｅ（ｎ）の最初のＭ個のサンプルのみがＥ（ｚ）のパラメータを引き出すのに選択される。

このヘッドフォン補償方法は、ＨＥＴＦの位相及び振幅スペクトルの両方を等化する。さらに、補償フィルタとして記載のＩＩＲフィルタＥ（ｚ）を用いることにより、ＦＩＲフィルタの代わりに、等価な補償を達成するために、他の方法と比べて、少ない計算コスト及び短い時間遅延しか課さない。

＜メタデータ定義＞
一実施形態では、適応型オーディオシステムは、元の空間オーディオフォーマットからメタデータを生成するコンポーネントを有する。システム３００の方法及びコンポーネントは、従来のチャネルに基づくオーディオ要素及びオーディオオブジェクト符号化要素の両方を含む１又は複数のビットストリームを処理するよう構成されるオーディオレンダリングシステムを有する。オーディオオブジェクト符号化要素を含む新しい拡張層が定められ、チャネルに基づくオーディオコーデックビットストリーム又はオーディオオブジェクトビットストリームのうちの１つに追加される。このアプローチは、既存のスピーカ及びドライバ設計又は個々にアドレス可能なドライバ及びドライバ定義を利用する次世代スピーカと一緒に使用するために、拡張層を含むビットストリームがレンダラにより処理できるようにする。空間オーディオプロセッサからの空間オーディオコンテンツは、オーディオオブジェクト、チャネル、及び位置メタデータを有する。オブジェクトは、レンダリングされるとき、位置メタデータ及び再生スピーカの位置に従って１又は複数のスピーカを割り当てられる。追加メタデータは、再生位置を変更するために、或いは再生のために使用されるべきスピーカを限定するために、オブジェクトに関連付けられても良い。メタデータは、空間パラメータ（例えば、位置、速度、強度、音質、等）を制御し並びに聴取環境内のどのドライバ若しくはスピーカが公開中に個々の音を再生するかを指定するレンダリングキューを提供するための技師のミキシング入力に応答して、オーディオワークステーション内で生成される。メタデータは、空間オーディオプロセッサによるパッケージング及び転送のためにワークステーションにおいて個々のオーディオデータに関連付けられる。

図１５は、一実施形態における、聴取環境のための適応型オーディオシステムで使用する特定のメタデータ定義を示すテーブルである。テーブル１５００に示す用に、メタデータ定義は、オーディオコンテンツ種類、ドライバ定義（数、特性、位置、発射角）、アクティブステアリング／チューニングのための制御信号、及び部屋及びスピーカ情報を含む較正情報、を有する。

＜アップミキシング＞
適応型オーディオレンダリングシステムの実施形態は、オーディオチャネルの反射及び直接サブチャネルへの分解（factoring）に基づくアップミキサを有する。直接サブチャネルは、リスナに初期反射音響波を供給するドライバへルーティングされる入力チャネルの部分である。反射又は拡散サブチャネルは、知覚の面及び壁から反射されるドライバのエネルギの主要部分を有すると考えられる元のオーディオチャネルの部分である。したがって、反射サブチャネルは、局所的音響環境への拡散の後、リスナに到着することが好ましい、又は特に、面（例えば天井）上の点から部屋内の別の場所へ反射される元のチャネルの部分を表す。他のサブチャネルのドライバの物理的方位に対する１つのサブチャネルのドライバの物理的方位は、各入来信号に音響空間ダイバーシティを追加するので、各サブチャネルは独立したスピーカドライバへルーティングされる。一実施形態では、反射サブチャネルは、所望の場所への音の間接送信のために面に向けられた１又は複数のアップワードファイアリングスピーカへ送られる。

留意すべきことに、アップミキシング信号の文脈では、反射音響波形は、任意で、特定の面からの反射と通常は無向ドライバからのエネルギの拡散をもたらす任意の面からの反射との間を区別しない。後者の例では、このドライバに関連付けられた音波は、理想的には、無向性である（つまり、拡散波形は、音が単一の方向から来るのではないものである）。

図１７は、一実施形態における、入力チャネルをサブチャネルに分解する処理を示すフローチャートである。全体のシステムは、複数の入力チャネルに対して動作するよう設計される。入力チャネルは、空間に基づくオーディオコンテンツのハイブリッドオーディオストリームを有する。処理１７００に示すように、ステップは、動作の順において順次、入力チャネルをサブチャネルに分解又は分離するステップを有する。ブロック１７０２で、入力チャネルは、粗分解ステップにおいて、反射サブチャネルと直接サブチャネルとの間で第１の分離に分けられる。次に、元の分解は、後続のステップ、ブロック１７０４で洗練される。ブロック１７０６で、処理は、反射サブチャネルと直接サブチャネルとの間の結果として生じた分離が最適か否かを決定する。分離が未だ最適でない場合、追加分解ステップ１７０４が実行される。ブロック１７０６で、反射と直接サブチャネルとの間の分解が最適であると決定された場合、適切なスピーカフィードが生成され、反射及び直接サブチャネルの最終的なミックスへ送信される。

分解処理１７００に関して、留意すべき重要なことは、処理の各段階で、エネルギ保存が、反射サブチャネルと直接サブチャネルとの間で保存されることである。この計算のために、変数ａは直接サブチャネルに関連する入力チャネルの部分として定義され、〜は拡散サブチャネルに関連する部分として定義される。決定されたエネルギ保存に対する関係は、次に、次式に従って表すことができる。

ここで次式の通りである。

上式で、ｘは入力チャネルであり、ｋは変換インデックスである。一実施形態では、解は、複素離散フーリエ変換係数、実数に基づくＭＤＣＴ変換係数、又はＱＭＦ（quadrature mirror filter）サブバンド係数（実数又は複素数）の形式で、周波数領域の量について計算されるしたがって、処理中、フォワード変換が入力チャネルに適用され、対応する逆変換が出力サブチャネルに適用されると考えられる。

図１９は、一実施形態における、入力チャネルをサブチャネルに分解する処理を示すフローチャート１９００である。各入力チャネルについて、システムは、ステップ１９０２で、２つの最近隣接チャネルの間のチャネル間相関（Inter−Channel Correlation：ＩＣＣ）を計算する。ＩＣＣは、一般的に、次式に従って計算される。

ここで、Ｓ_Ｄｉはインデックスｉの入力チャネルの周波数領域係数であり、Ｓ_Ｄｊはインデックスｊの次の空間的に隣接する入力オーディオチャネルの係数である。Ｅ｛｝演算子は期待値演算子であり、オーディオのブロックの設定数に渡る固定平均（fixed averaging）を用いて実施でき、又は平滑化がブロックに渡り各周波数領域係数について行われる平滑化アルゴリズムとして実装できる。この平滑化は、無限インパルス応答（ＩＩＲ）フィルタ技術を用いて指数関数的平滑化として実装できる。

これら２つの隣接チャネルのＩＣＣ間の幾何平均が計算され、この値は−１と１との間の数である。ａの値は、次に、１．０とこの平均との間の差分として設定される。ＩＣＣは、概して、どのようにどれだけ、信号が２つのチャネルの間で共通かを記述する。高いチャネル間相関を有する信号は、反射チャネルへルーティングされる。一方、近くのチャネルに対してユニークな信号は、直接サブチャネルへルーティングされる。この動作は、以下の例示的な擬似コードに従って記述できる。

ここで、ｐＩＣＣは現在の入力チャネルｉに空間的に隣接するｉ−１入力チャネルのＩＣＣを表し、ｎｉＣＣは現在の入力チャネルｉに空間的に隣接するｉ＋１とインデックス付けされた入力チャネルのＩＣＣを表す。ステップ１９０４で、システムは、各入力チャネルの過渡（transient）スケーリング項を計算する。これらのスケーリング因子は、反射対直接ミックス計算に貢献する。ここで、スケーリングの量は、過渡におけるエネルギに比例する。通常、過渡信号は直接サブチャネルへルーティングされることが望ましい。したがって、ａは、正の過渡検出のイベントで、１．０（又は弱い過渡に対しては１．０近く）に設定されるスケーリング因子ｓｆと比較される。

ここで、インデックスｉは入力チャネルｉに対応する。各過渡スケーリング因子ｓｆは、過渡の後にどのようにスケーリング因子が時間に渡り展開するかを制御するために、保持パラメータ（holdparameter）、及び減衰パラメータを有する。これらの保持及び減衰パラメータは、通常、ミリ秒程度であるが、ａの名目値に戻る減衰は、１秒より上に向かって広がり得る。ブロック１９０２で計算したａの値及び１９０４で計算した過渡スケーリング因子を用いて、システムは、ステップ１９０６で、サブチャネル間の合計エネルギが保存されるように、各入力チャネルを反射及び直接サブチャネルに分離する。

任意的なステップとして、ステップ１９０８で、反射チャネルは、反響及び非反響成分に更に分解できる。非反響サブチャネルは、加算されて直接サブチャネルに戻されるか、又は出力にある専用ドライバへ送信される。入力信号を反響させるためにどの線形変換が適用されたが分からないので、ブラインドデコンボリューション又は（ブラインドソース分離のような）関連アルゴリズムが適用される。

第２の任意的なステップは、ステップ１９１０で、ブロックに渡り各周波数領域変換に対して動作する無相関器を用いて、直接チャネルから反射チャネルを更に無相関させる。一実施形態では、無相関器は、多数の遅延要素（ミリ秒の遅延は、基本時間−周波数変換の長さにより乗算されたブロック整数遅延に対応する）、及び時間の関数で制限されたＺ領域の円の中で任意に動くことができるフィルタ係数を有する全域通過ＩＩＲ（無限インパルス応答）フィルタを有する。ステップ１９１２で、システムは、反射及び直接チャネルに等化及び遅延機能を実行する。通常の例では、直接サブチャネルは、聴取位置において直接ドライバからの音響波面を基本反射エネルギ波面と（平均二乗エネルギ誤差の意味で）位相コヒーレントにする量だけ遅延される。同様に、等化は、反射及び直接サブチャネルの間の音質を最適に合致するために、部屋の期待（又は測定）拡散を補償するよう反射チャネルに適用される。

図１８は、一実施形態における、複数のオーディオチャネルを複数の反射及び直接サブチャネルに処理するアップミキサシステムを示す。システム１８００に示すように、Ｎ個の入力チャネル１８０２に対して、Ｋ個のサブチャネルが生成される。各入力チャネルについて、システムは、反射（「拡散」とも称される）及び直接サブチャネルを生成し、全部でＫ＊Ｎ個のサブチャネル１８２０を出力する。標準的な例では、Ｋ＝２であり、１個の反射サブチャネル及び１個の直接サブチャネル考慮に入れる。Ｎ個の入力チャネルは、ＩＣＣ計算コンポーネント１８０６、並びに過渡スケーリング項情報コンピュータ１８０４に入力される。ａ個の係数は、コンピュータ１８０８で計算され、分離処理１８１０への入力のために過渡スケーリング項と結合される。この処理１８１０は、Ｎ個の入力チャネルを反射及び直接出力に分離し、Ｎ個の反射チャネル及びＮ個の直接チャネルを生じる。システムは、Ｎ個の反射チャネルに対してブラインドデコンボリューション処理１８１２を実行し、次にこれらのチャネルに無相関演算１８１６を実行する。音響チャネルプリプロセッサ１８１８は、Ｎ個の直接チャネル及び無相関されたＮ個の反射チャネルを受け入れ、Ｋ＊Ｎ個のサブチャネル１８２０を生成する。

別の選択肢は、部屋の中に存在し得る環境感知マイクロフォンの使用を通じてアルゴリズムを制御することである。これは、部屋の直接−反響（direct−to−reverberant：ＤＲ）比の計算を可能にする。ＤＲ比により、第１の制御は、拡散サブチャネルと直接サブチャネルとの間の最適な分離を決定するときに可能であり得る。特に、反響の多い部屋では、拡散サブチャネルはリスナ位置に適用されるより多くの拡散を有し、したがって、拡散サブチャネルと直接サブチャネルとの間のミックスは、ブラインドデコンボリューション及び無相関ステップにおいて影響を受け得ると想定することが妥当である。具体的には、非常に僅かな反射音響エネルギしか有しない部屋では、拡散サブチャネルへルーティングされる信号の量は、増大し得る。さらに、音響環境内のマイクロフォンセンサは、拡散サブチャネルに適用されるべき最適な等化を決定し得る。適応型等化器は、両方のサブチャネルからの波面が聴取位置で位相コヒーレントに結合するように、拡散サブチャネルが最適に遅延され等化されることを保証し得る。

＜仮想化器＞
一実施形態では、適応型オーディオ処理システムは、音を反射するよう構成される１又は複数の個々にアドレス可能なドライバを有しても良い複数のラウドスピーカ対を介してオブジェクトに基づくオーディオを仮想レンダリングするコンポーネントを有する。このコンポーネントは、各オブジェクトのバイノーラルレンダリング、その後の、結果として生じるステレオバイノーラル信号の対応する多数のスピーカ対に供給する複数のクロストーク除去回路間のパニングを通じてオブジェクトに基づくオーディオの仮想レンダリングを実行する。

これは、単に単一のスピーカ対を用いる従来の仮想化器と比べて、クロストークキャンセラのスイートスポットの内側にいるリスナ及び外側にいるリスナの両者の空間的印象を向上する。

言い換えると、クロストーク除去が、クロストークキャンセラの設計において想定されるスピーカに対する位置に座っているリスナに大きく依存するという欠点を克服する。リスナがこの所謂「スイートスポット」に座っていない場合、クロストーク除去効果は部分的又は全面的に落とされ、バイノーラル信号により意図される空間的印象は、リスナによって知覚されない。これは、特に複数のリスナで問題である。この場合、リスナのうちの１人だけがスイートスポットを実質的に占有し得る。

空間オーディオ再現システムでは、スイートスポットは、２個より多いスピーカを利用することにより、１より多いリスナに拡張され得る。これは、５．１サラウンドシステムのように、大きなスイートスポットを２個より多いスピーカで囲むことにより達成される場合が最も多い。このようなシステムでは、例えば後方から聞こえることが意図される音は、全てのリスナの背後に物理的に配置されるスピーカにより生成される。したがって、全てのリスナは、これらの音が背後から来るように知覚する。他方で、ステレオラウドスピーカを介した仮想空間レンダリングでは、背後からのオーディオの知覚は、バイノーラル信号を生成するために用いられるＨＲＴＦにより制御され、スイートスポットにいるリスナにより正しく知覚されるだけである。スイートスポットの外側にいるリスナは、彼らの前にあるステレオスピーカから音が出てくるように知覚する可能性が高い。しかしながら、上述のように、このようなサラウンドシステムの設置は、多くの消費者にとって現実的ではなく、或いは、彼らは単に、多くの場合テレビジョンディスプレイと同一場所にある聴取環境の前に全てのスピーカを置き続けることを好み得る。仮想空間レンダリングと関連して複数のスピーカ対を用いることにより、一実施形態における仮想化器は、全ての利用されるスピーカ対を実質的に同一場所に配置する方法で、スイートスポットの外側にいるリスナのために２個より多いスピーカの利益を結合し、スイートスポットの内側にいるリスナの経験を維持又は向上する。

一実施形態では、仮想空間レンダリングは、各オーディオオブジェクトから生成されるバイノーラル信号を複数のクロストークキャンセラの間でパニングすることにより、複数のラウドスピーカ対に拡張される。クロストークキャンセラ間でのパニングは、各オブジェクトに関連付けられたバイノーラルフィルタ対を選択するために用いられたのと同じ位置である、各オーディオオブジェクトに関連付けられた位置により制御される。複数のクロストークキャンセラは、それぞれ意図される聴取位置に対して異なる物理位置及び／又は方位を有する対応する複数のスピーカ対のために設計され、それらに供給される。空間内の種々の位置にある複数のオブジェクトは、同時にレンダリングされても良い。この例では、バイノーラル信号は、オブジェクト信号と適用されるそれらの関連するＨＲＴＦとの和により表現されても良い。複数オブジェクトバイノーラル信号により、Ｍ個のスピーカ対を有するシステムにおける、スピーカ信号を生成するための完全なレンダリングチェーンは、次式で表すことができる。

ｏ_ｉ＝Ｎ個のうちｉ番目のオブジェクトのオーディオ信号
Ｂ_ｉ＝＝ＨＲＴＦ｛ｐｏｓ（ｏ_ｉ）｝により与えられるｉ番目のオブジェクトのバイノーラルフィルタ対
α_ｉｊ＝ｊ番目のクロストークキャンセラへのｉ番目のオブジェクトのパニング係数
Ｃ_ｊ＝ｊ番目のスピーカ対のクロストークキャンセラ行列
ｓ_ｊ＝ｊ番目のスピーカ対に送られるステレオスピーカ信号
各オブジェクトｉに関連付けられたＭ個のパニング係数は、次式の場合によっては時間とともに変化するオブジェクト位置を入力として取り入れるパニング関数を用いて計算される。

一実施形態では、Ｎ個のオブジェクト信号Ｏ_ｉの各々について、オブジェクト位置ｐｏｓ（ｏ_ｉ）に応じて選択されたバイノーラルフィルタ対Ｂ_ｉは、先ず、バイノーラル信号を生成するために適用される。同時に、パニング関数は、オブジェクト位置ｐｏｓ（ｏ_ｉ）に基づきＭ個のパニング係数α_ｉｌ．．．α_ｉＭを計算する。各パニング係数は、別個にバイノーラル信号を乗算してＭ個のスケーリングされたバイノーラル信号を生成する。Ｍ個のクロストークキャンセラＣ_ｊの各々について、Ｎ個全部のオブジェクトからｊ番目にスケーリングされたバイノーラル信号が加算される。次に、この加算された信号は、ｊ番目のスピーカ対を通じて再生されるｊ番目のスピーカ信号対ｓ_ｊを生成するために、クロストークキャンセラにより処理される。

複数のラウドスピーカ対の利益をスイートスポットの外側にいるリスナにまで拡張するために、パニング関数は、これらのリスナへのオブジェクトの所望の物理位置を伝達するのを助ける方法で、スピーカ対にオブジェクト信号を分配するよう構成される。例えば、オブジェクトが頭上から聞こえるようにする場合、パニング器は、全てのリスナにとって高さの感覚を最も効果的に再現するスピーカ対にオブジェクトをパニングすべきである。オブジェクトが横から聞こえるようにする場合、パニング器は、全てのリスナにとって幅の感覚を最も効果的に再現するスピーカ対へオブジェクトをパニングすべきである。より一般的には、パニング関数は、パニング関数の最適なセットを計算するために、各オブジェクトの所望の空間位置を各ラウドスピーカ対の空間再現能力と比較すべきである。

一実施形態では、３個のスピーカ対が用いられ、全てがリスナの前の同一場所に置かれる。図２０は、一実施形態における、反射ハイトスピーカを用いるオブジェクトに基づくオーディオの仮想レンダリングのためのスピーカ構成を示す。スピーカアレイ又はサウンドバー２００２は、多数の同一場所に置かれるドライバを有する。図２０００に示すように、第１のドライバ対２００８はリスナ２００１に向かって前方を向き、第２のドライバ対２００６は横を向き、第３のドライバ対２００４は真っ直ぐ又はある角度で上方を向く。これらの対は、フロント、サイド、及びハイトとラベル付けされ、それぞれクロストークキャンセラＣ_Ｆ、Ｃ_Ｓ、及びＣ_Ｈに関連付けられる。

スピーカ対の各々に関連付けられたクロストークキャンセラの生成、並びに各オーディオオブジェクトのバイノーラルフィルタの両者について、パラメータ球面頭部モデルＨＲＴＦが用いられる。これらのＨＲＴＦは、リスナの正中面に対するオブジェクトの角度のみに依存する。図２０に示すように、この正中面における角度は、ゼロ度であると定められ、左への角度は負として定められ、右への角度は正として定められる。ドライバレイアウト２０００では、ドライバ角θｃは、３個全てのドライバ対について同じである。したがって、クロストークキャンセラ行列Ｃは３個全ての対について同じである。各対がほぼ同じ位置に存在しなかった場合、角度は、各対について異なるように設定され得る。

各オーディオオブジェクト信号ｏ_ｉには、デカルト座標｛ｘ_ｉ，ｙ_ｉ，ｚ_ｉ｝で与えられる場合によっては時間とともに変化する位置が関連付けられる。好適な実施形態で用いられるパラメータＨＲＴＦは高度キューを含まないので、オブジェクト位置のｘ及びｙ座標のみが、ＨＲＴＦ関数からバイノーラルフィルタ対を計算する際に用いられる。これらの｛ｘ_ｉ，ｙ_ｉ｝座標は、等価な半径及び角度｛ｒ_ｉ，θ_ｉ｝に変換される。ここで、半径は、０と１の間にあるよう正規化される。パラメータは、リスナからの距離に依存しない。したがって、次式のように、半径は左及び右バイノーラルフィルタの計算に組み込まれない。

半径がゼロのとき、バイノーラルフィルタは単に全周波数に渡り１つであり、リスナは両耳で等しくオブジェクト信号が聞こえる。これは、オブジェクト位置がリスナの正に頭の中に位置する場合に対応する。半径が１のとき、フィルタは、角度θ_ｉで定められたパラメータＨＲＴＦに等しい。半径項の二乗根をとることは、フィルタのこの補間をＨＲＴＦへ向けてバイアスする。これは、空間情報を良好に保存する。留意すべきことに、パラメータＨＲＴＦモデルは距離キューを組み込まないので、この計算が必要である。異なるＨＲＴＦセットは、このようなキューを組み込み得る。この場合、上式により記述される補間は必要ない。

各オブジェクトについて、３個のクロストークキャンセラの各々のパニング係数は、各キャンセラの方向に対してオブジェクト位置｛ｘ_ｉ，ｙ_ｉ，ｚ_ｉ｝から計算される。アップワードファイアリングドライバ対２００４は、天井から音を反射することにより上方からの音を伝達するようにされる。したがって、その関連するパニング係数は、高度座標ｚ_ｉに比例する。フロント及びサイドファイアリングドライバ対２００６、２００８のパニング係数は、｛ｘ_ｉ，ｙ_ｉ｝座標から導出されるオブジェクト角度θ_ｉにより支配される。θ_ｉの絶対値が３０度より小さい場合、オブジェクトは、フロント対２００８へ完全にパニングされる。θ_ｉの絶対値が３０乃至９０度の間である場合、オブジェクトは、フロント対及びサイド対の間でパニングされる。θ_ｉの絶対値が９０度より大きいとき、オブジェクトは、サイド対２００６へ完全にパニングされる。このパニングアルゴリズムにより、スイートスポット内のリスナは、３個全てのクロストークキャンセラの恩恵を受ける。さらに、高度の知覚はアップワードファイアリング対に追加され、サイドファイアリング対はサイド及びバックにミックスされるオブジェクトの拡散の要素を追加し、知覚される包み込みを向上し得る。スイートスポットの外側にいるリスナについては、キャンセラはそれらの効果の多くを失うが、リスナは、アップワードファイアリングドライバ対２００４からの高度の知覚、並びにフロントからサイドへのパニングからの直接及び拡散音の間の変化を理解できる。

一実施形態では、上述の仮想化技術は、上述のように、固定チャネル信号とのダイナミックオブジェクト信号の混合を含む適応型オーディオフォーマットに適用される。固定チャネル信号は、固定空間位置を各チャネルに割り当てることにより処理されても良い。

図２０に示すように、好適なドライバレイアウトは、単一の別個の中央スピーカも有しても良い。この例では、中央チャネルは、別個に処理されるのではなく、中央スピーカに直接ルーティングされても良い。純粋なチャネルに基づくレガシー信号がシステムにおいてレンダリングされる例では、各オブジェクト位置が静的なので、全処理要素は時間に渡り一定である。この例では、３個全ての要素は、システムの起動時に１回、予め計算されても良い。さらに、バイノーラルフィルタ、パニング係数、及びクロストークキャンセラは、各固定オブジェクトについて、Ｍ個の固定フィルタ対に予め結合されても良い。

図２０は、オブジェクトに基づくオーディオの仮想レンダリングのためのシステムと関連して用いられる単に１つの可能なドライバレイアウトを示す。多くの他の構成も可能である。例えば、スピーカのサイド対は排除され、前方を向いているスピーカ及び上方を向いているスピーカのみが残されても良い。また、上方を向いている対は、前方を向いている対の上にある天井の近くに配置され及びリスナを直接指しているスピーカ対で置き換えられても良い。この構成は、例えばテレビジョンスクリーンのサイドに沿って、下から上に間隔を開けて置かれた複数のスピーカ対に拡張されても良い。

＜特徴及び能力＞
上述のように、適応型オーディオエコシステムは、コンテンツクリエイタがミックスの空間的意図（位置、大きさ、速度、等）をメタデータによりビットストリーム内に埋め込むことを可能にする。これは、オーディオの空間的再現における驚くべき量の柔軟性を可能にする。空間レンダリングの観点から、適応型オーディオフォーマットは、オーサリングシステムと同一でない再生システムのジオメトリにより引き起こされる空間的歪みを回避するために、コンテンツクリエイタが部屋内のスピーカの正確な位置にミックスを適応できるようにする。スピーカチャネルのオーディオのみが送信される現在の消費者オーディオ再現では、固定スピーカ位置以外の部屋内の位置について、コンテンツクリエイタの意図は不明である。現在のチャネル／スピーカの枠組みでは、分かっている情報は、特定のオーディオチャネルが部屋内の所定の位置を有する特定のスピーカへ送信されるべきであることのみである。適応型オーディオシステムでは、生成及び分配パイプラインを通じて伝達されるメタデータを用いて、再現システムは、コンテンツクリエイタの元の意図に合致するようにコンテンツを再現するためにこの情報を使用できる。例えば、異なるオーディオオブジェクトについて、スピーカ間の関係が分かっている。オーディオオブジェクトの空間位置を提供することにより、コンテンツクリエイタの意図が分かり、これは、スピーカの位置を含むユーザのスピーカ構成に「マッピング」できる。動的レンダリングオーディオレンダリングシステムにより、このレンダリングは、追加スピーカを追加することにより更新され向上できる。

システムは、誘導三次元バイノーラルレンダリングを追加するのも可能にする。新しいスピーカ設計及び構成の使用を通じて、一層の没入型オーディオレンダリング経験を生成する多くの試みがなされている。これらは、バイポール及びダイポールスピーカ、サイドファイアリング、リアファイアリング及びアップワードファイアリングドライバの使用を含む。前のチャネル及び固定スピーカ位置システムでは、オーディオのどの要素がこれらの変更されたスピーカへ送信されるべきかの決定は、良くても当て推量であった。適応型オーディオフォーマットを用いると、レンダリングシステムは、オーディオのどの要素が新しいスピーカ構成へ送信されるのに適するかの詳細且つ有用な情報を有する。つまり、システムは、どのオーディオ信号がフロントファイアリングドライバへ送信されるべきか、及びどれがアップワードファイアリングドライバへ送信されるべきかについての制御を可能にする。例えば、適応型オーディオ映画コンテンツは、一層大きな包み込みの感覚を提供するために、頭上スピーカの使用に大いに依存する。これらのオーディオオブジェクト及び情報は、同様の効果を生成するよう聴取環境内の反射オーディオを提供するために、アップワードファイアリングドライバへ送信されても良い。

システムは、再現システムの正確なハードウェア構成にミックスを適応するのも可能にする。テレビジョン、ホームシアター、サウンドバー、ポータブル音楽プレイヤドック、等のような、消費者レンダリン機器における多くの異なる可能なスピーカ種類及び構成が存在する。これらのシステムがチャネル固有オーディオ情報（つまり、左及び右チャネル、又は標準的な多チャネルオーディオ）を送信するとき、システムは、レンダリング機器の能力に適切に適合するためにオーディオを処理しなければならない。標準的な例は、標準的なステレオ（左、右）オーディオが２以上のスピーカを有するサウンドバーへ送信されるときである。スピーカチャネルのオーディオのみが送信される現在のシステムでは、コンテンツクリエイタの意図は不明であり、場合によっては拡張機器により可能になる一層の没入型オーディオ経験は、ハードウェアでの再現のためにオーディオをどのように変更するかを推測するアルゴリズムにより生成されなければならない。これの一例は、チャネルに基づくオーディオを元のチャネルフィード数より多いスピーカに「アップミックス」するためにＰＬＩＩ、ＰＬＩＩ−ｚ、又は次世代サラウンドを使用することである。適応型オーディオシステムでは、生成及び分配パイプライン全体を通して伝達されるメタデータを用いて、再現システムは、コンテンツクリエイタの元の意図により厳密に合致するようにコンテンツを再現するためにこの情報を使用できる。例えば、幾つかのサウンドバーは、包み込みの感覚を生成するためにサイドファイアリングスピーカを有する。適応型オーディオでは、空間情報及びコンテンツ種類情報（つまり、会話、音楽、環境効果、等）は、適切なオーディオのみをこれらのサイドファイアリングスピーカへ送信するようＴＶ又はＡ／Ｖ受信機のようなレンダリングシステムにより制御されるとき、サウンドバーにより使用できる。

適応型オーディオにより伝達される空間情報は、スピーカの存在の位置及び種類を意識したコンテンツの動的レンダリングを可能にする。さらに、１又は複数のリスナのオーディオ再現機器に対する関係についての情報は、いまや潜在的に利用可能であり、レンダリングで使用できる。殆どのゲーム端末は、部屋内の人の位置及び同一性を決定できるカメラ付属物及び知的画像処理を有する。この情報は、リスナの位置に基づきコンテンツクリエイタの創造的意図を一層正確に伝達するようレンダリングを変更するために、適応型オーディオシステムにより使用されても良い。例えば、殆ど全ての場合に、再生のためにレンダリングされるオーディオは、多くの場合各スピーカから等距離であり且つコンテンツ作成中にサウンドミキサが居たのと同じ位置である理想的な「スイートスポット」にリスナが位置すると想定する。しかしながら、多くの場合、人々がこの理想的な位置に存在せず、彼らの経験はミキサの創造的意図に合致しない。標準的な例は、リスナがリビングルームの椅子又はソファの上で部屋の左側に座っているときである。この例では、左にあるより近いスピーカから再現されている音は、より大きく、オーディオミックスの空間的知覚が左に歪んで知覚されるだろう。リスナの位置を理解することにより、システムは、オーディオミックスのバランスを取り戻し知覚的に正しくするために、左スピーカで音レベルを下げ且つ右スピーカで音レベルを上げるよう、オーディオのレンダリングを調整し得る。スイートスポットからリスナまでの距離を補償するためにオーディオを遅延することも可能である。リスナ位置は、カメラ、又はリスナ位置をレンダリングシステムにシグナリングする組み込み式シグナリングを有する特定の変更されたリモートコントロールの使用を通じて検出される。

標準的なスピーカ及びスピーカ位置の使用に加えて、聴取位置をアドレスするために、リスナ位置及びコンテンツに依存して変化する音場「ゾーン」を生成するようビームステアリング技術を用いることも可能である。オーディオビームフォーミングは、スピーカのアレイ（通常、８乃至１６個の水平方向に間隔をあけられたスピーカ）を用い、及びステアリングサウンドビームを生成するために位相操作及び処理を用いる。ビームフォーミングスピーカアレイは、選択的処理により特定の音又はオブジェクトを特定の空間位置へ向けるために使用できる、オーディオが主として可聴であるオーディオゾーンの生成を可能にする。明らかな使用例は、会話増強後処理アルゴリズムを用いてサウンドトラック内の会話を処理し、そのオーディオオブジェクトを聴覚障害ユーザに直接向けることである。

＜行列符号化＞
幾つかの例では、オーディオオブジェクトは、適応型オーディオコンテンツの所望の成分であっても良い。しかしながら、帯域幅の制限に基づき、チャネル／スピーカオーディオ及びオーディオオブジェクトの両方を送信できなくても良い。過去に、行列符号化は、所与の分配システムで可能なより多くのオーディオ情報を伝達するために使用されてきた。例えば、これは、多チャネルオーディオがサウンドミキサにより生成されたがフィルムフォーマットはステレオオーディオを提供するだけだった映画の初期における場合である。行列符号化は、多チャネルオーディオを２つのステレオチャネルに知的にダウンミックスするために使用された。これは、次に、ステレオオーディオから多チャネルミックスの厳密な近似を再生成するために特定のアルゴリズムにより処理された。同様に、オーディオオブジェクトを基本スピーカチャネルに知的にダウンミックスすること、並びに適応型オーディオメタデータ及び高機能な時間及び周波数に敏感な次世代サラウンドアルゴリズムを通じて、オブジェクトを抽出しそれらを適応型オーディオレンダリングシステムで正しく空間的にレンダリングすることが可能である。

さらに、オーディオのための送信システム（例えば３Ｇ及び４Ｇ無線アプリケーション）の帯域幅制限があるとき、個々のオーディオオブジェクトと一緒に行列符号化された空間的に多様性のある多チャネルベッドを送信することから利益を得る。このような送信方法の１つの使用例は、２つの異なるオーディオベッド及び複数のオーディオオブジェクトを有するスポーツ放送の送信である。オーディオベッドは、２つの異なるチームの屋外観覧席部分でキャプチャされた多チャネルオーディオを表し得る。オーディオオブジェクトは、一方の又は他方のチームに共感する異なるアナウンサーを表し得る。標準的な符号化を用い、２以上のオブジェクトと一緒の各ベッドの５．１表現は、送信システムの帯域制限を超過し得る。この例では、５．１ベッドの各々がステレオ信号に行列符号化された場合、元々５．１チャネルとしてキャプチャされた２つのベッドは、５．１＋５．１＋２又は１２．１チャネルの代わりに、オーディオの４個のチャネルのみとして、２チャネルベッド１、２チャネルベッド２、オブジェクト１、及びオブジェクト２として送信され得る。

＜位置及びコンテンツ依存処理＞
適応型オーディオエコシステムは、コンテンツクリエイタが、個々のオーディオオブジェクト生成し、再現システムへ伝達できるコンテンツに関する情報を追加することを可能にする。これは、再現の前にオーディオの処理において多くの柔軟性を可能にする。処理は、オブジェクト位置及び大きさに基づき、スピーカ仮想化の動的制御を通じて、オブジェクトの位置及び種類に適応され得る。スピーカ仮想化は、仮想スタイラスがリスナに知覚されるように、オーディオを処理する方法を表す。この方法は、多くの場合、ソースオーディオがサラウンドスピーカチャネルフィードを有する多チャネルオーディオであるとき、ステレオスピーカ再現のために用いられる。仮想スピーカ処理は、サラウンドスピーカチャネルオーディオを変更して、ステレオスピーカで再生されるとき、サラウンドオーディオ要素がリスナの横及び後ろに仮想化され、まるでそこに仮想スピーカが配置されているかのようにする。現在、サラウンドスピーカの意図される位置が固定されているので、仮想スピーカ位置の位置属性は静的である。しかしながら、適応型オーディオコンテンツでは、異なるオーディオオブジェクトの空間位置は、動的であり異なる（つまり、各オブジェクトに対してユニークである）。仮想スピーカ仮想化のような後処理は、各オブジェクトのスピーカ位置角度のようなパラメータを動的に制御し、次に幾つかの仮想化オブジェクトのレンダリングされた出力を結合してサウンドミキサの意図をより厳密に表現するより一層の没入型オーディオ経験を生成することにより、より一層情報に基づく方法で制御できる。

オーディオオブジェクトの標準的な水平方向の仮想化に加えて、固定チャネル及び動的オブジェクトオーディオを処理し及びノーマル、水平面、位置にあるステレオスピーカの標準的な対からオーディオのハイト再現の知覚を得る知覚ハイトキューを用いることが可能である。

特定の効果又は拡張処理は、適切な種類のオーディオコンテンツに慎重に適用できる。例えば、会話増強は、会話オブジェクトのみに適用されても良い。
会話増強は、会話の可聴性及び／又は明瞭度が増大され及び／又は向上されるような、会話を含むオーディオを処理する方法を表す。多くの例では、会話に適用されるオーディオ処理は、非会話オーディオコンテンツ（つまり、音楽、環境効果、等）には不適切であり、好ましくない可聴アーティファクトを生じ得る。適応型オーディオにより、オーディオオブジェクトは、コンテンツ片の中に会話のみを含み、相応してラベル付けできる。したがって、レンダリングソリューションは、会話コンテンツにのみ会話増強を選択的に適用し得る。さらに、オーディオオブジェクトが会話のみである場合（及び会話と多のコンテンツとの混合ではない、よくある場合）、会話増強処理は、もっぱら会話を処理できる（それにより、任意の多のコンテンツに対して実行される任意の処理を制限する）。

同様に、オーディオ応答又は等化管理も、特定のオーディオ特性に合わせることができる。例えば、特定のオブジェクトを対象とするそれらの種類に基づく低音管理（フィルタリング、減衰、利得）である。低音管理は、特定のコンテンツ片の中の低音（又は低い）周波数のみを選択的に分離し処理することを表す。現在のオーディオシステム及び分配機構では、これは、全てのオーディオに適用される「ブラインド」処理である。適応型オーディオでは、低音管理が適切である特定のオーディオオブジェクトは、適切に適用されるレンダリング処理及びメタデータにより識別される。

適応型オーディオシステムは、オブジェクトに基づくダイナミックレンジ圧縮も実現する。伝統的なオーディオトラックは、コンテンツ自体と同じ期間を有する。一方、オーディオオブジェクトは、コンテンツの中の限られた時間量の間、生じ得る。オブジェクトに関連付けられたメタデータは、その平均及びピーク信号振幅並びにその（特に、遷移素材の）開始若しくは立ち上がり時間に関するレベル関連情報を有しても良い。この情報は、コンプレッサがその圧縮及び時間制約（立ち上がり、リリース、等）をコンテンツに良好に適合するよう良好に適応することを可能にし得る。

システムは、自動ラウドスピーカ−部屋等化を実現する。ラウドスピーカ及び部屋音響は、可聴彩色（coloration）を音に導入し、それにより再現される音の音質に影響を与えるのに重要な役割を果たす。さらに、音響は、部屋反射及びラウドスピーカ指向性変動により、並びにこの変動により知覚される音質が異なる聴取位置で有意に変化するために、位置に依存する。システム内に設けられるAutoEQ（automatic room equalization）機能は、自動ラウドスピーカ−部屋スペクトル測定及び等化、自動時間遅延補償（適正な画像及び場合によっては相対的スピーカ位置検出に基づく最小二乗を提供する）、及びレベル設定、ラウドスピーカ上部空間能力に基づく低音リダイレクト、並びにサブウーファーを有する主要ラウドスピーカの最適な継ぎ合わせを通じて、これらの問題の幾つかを軽減するのを助ける。ホームシアター又は他の聴取環境では、適応型オーディオシステムは次のような特定の追加機能を有する。（１）再生部屋−音響に基づく自動目標曲線計算（これは、家庭視聴室における等化についての研究の公の問題である）、（２）時間−周波数分析を用いたモーダル減少制御の影響、（３）包み込み／広大さ／ソース幅／明瞭度を支配する測定から導出されるパラメータの理解、並びに最良の可能な聴取経験を提供するためのこれらの制御、（４）フロント及び「他の」ラウドスピーカの間の音質を整合するためのヘッドモデルを組み込む指向性フィルタリング、及び（５）リスナに対する離散的セットアップにおけるラウドスピーカの空間的位置の検出、及び空間再マッピング、である。ラウドスピーカ間の音質の不整合は、基本的に、フロント−アンカラウドスピーカ（例えば、センタ）とサラウンド／バック／ワイド／ハイトラウドスピーカとの間でパンされる特定のコンテンツについて明らかになる。

概して、適応型オーディオシステムは、幾つかのオーディオ要素の再現される空間位置がスクリーン上の画像要素に合致する場合、特に家庭環境における大きなスクリーンサイズで、感動的なオーディオ／ビデオ再現経験を可能にする。一例は、映画又はテレビ番組中の会話を、スクリーン上で話している人又はキャラクタと空間的に一致させることである。通常のスピーカチャネルに基づくオーディオでは、スクリーン上の人又はキャラクタの位置と一致するよう、会話が空間的に位置付けられるべき場所を決定する容易な方法が存在しない。適応型オーディオシステムで利用可能なオーディオ情報により、この種のオーディオ／ビジュアル位置合わせは、従来より大きなサイズのスクリーンを特色とするホームシアターシステムにおいても、容易に達成され得る。視覚位置及びオーディオ空間位置合わせは、車、トラック、アニメーション、等のような非キャラクタ／会話オブジェクトにも使用され得る。

適応型オーディオエコシステムは、コンテンツクリエイタが、個々のオーディオオブジェクト生成し、再現システムへ伝達できるコンテンツに関する情報を追加することを可能にすることにより、拡張コンテンツ管理も可能にする。これは、オーディオのコンテンツ管理における驚くべき量の柔軟性を可能にする。コンテンツ管理の観点から、適応型オーディオは、コンテンツファイルサイズを縮小する及び／又はダウンロード時間を削減するために会話オブジェクトを置換するだけで、オーディオコンテンツの言語を変更するような様々なことを可能にする。フィルム、テレビジョン、及び他の娯楽プログラムは、通常、国際的に分配される。これは、コンテンツ片の中の言語が、コンテンツが再現される場所に依存して変化されることを要求する（フランスで見られるフィルムではフランス語、ドイツで見られるＴＶ番組ではドイツ語、等）。今日、これは、多くの場合、各言語毎に、完全に独立なオーディオサウンドトラックが生成され、パッケージされ、分配されることを必要とする。適応型オーディオシステム及びオーディオオブジェクト特有のコンセプトにより、コンテンツ片の会話は、独立なオーディオオブジェクトであり得る。これは、音楽、効果、等のようなオーディオサウンドトラックの他の要素を更新又は変更することなく、コンテンツの言語を容易に変更できるようにする。これは、外国言語にのみ適用されるのではなく、特定の聴衆にとって不適切な言語、目標広告、等にも適用される。

実施形態は、ヘッドフォン対でオブジェクトに基づく音をレンダリングするシステムも対象とする。該システムは、第１の複数の入力チャネル及び第２の複数のオーディオオブジェクトを含む入力信号を受信する入力段と、前記第１の複数の入力チャネルの各々について左及び右ヘッドフォンチャネル信号を計算する第１のプロセッサと、前記複数の第１の入力チャネルの各信号に時間的に不変のバイノーラル部屋インパルス応答（binaural room impulse response：ＢＲＩＲ）フィルタを適用し、前記第２の複数のオブジェクトの各オブジェクトに時間的に変化するＢＲＩＲフィルタを適用して、左耳信号及び右耳信号のセットを生成する第２のプロセッサと、を有する。前記システムは、前記左耳信号を一緒にミキシングして全体の左耳信号を形成する左チャネルミキサと、右耳信号を一緒にミキシングして全体の右耳信号を形成する右チャネルミキサと、前記全体の左耳信号を等化して、ヘッドフォンの左トランスデューサからリスナの左耳の入り口までの音響伝達関数を補償する左サイド等化器と、前記ヘッドフォンの右トランスデューサから前記リスナの右耳の入り口までの音響伝達関数を補償する右サイド等化器と、を更に有しても良い。このようなシステムでは、ＢＲＩＲフィルタは、直接経路応答と１又は複数の反射経路応答とを一緒に加算するよう構成される加算回路を有しても良い。ここで、１又は複数の反射経路応答は、リスナが位置する聴取環境の鏡面反射効果及び拡散効果を有する。直接経路及び１又は複数の反射経路は、それぞれ、ソース伝達関数、距離応答、及び頭部関連伝達関数（head related transfer function：ＨＲＴＦ）を有しても良い。１又は複数の反射経路は、それぞれ、聴取環境内に配置される１又は複数の面の面応答を更に有する。ＢＲＩＲフィルタは、聴取環境内の特定の位置にいるリスナについて、ソース位置、ソース指向性、及びソース方向について、リスナの左及び右耳における正しい応答を生成するよう構成されても良い。

本願明細書に記載のオーディオ環境の態様は、適切なスピーカ及び再生装置を通じたオーディオ又はオーディオ／ビジュアルコンテンツの再生を表し、映画館、コンサートホール、屋外劇場、家庭又は部屋、視聴室、車、ゲーム端末、ヘッドフォン若しくはヘッドセットシステム、場内放送（public address：ＰＡ）システム、又は任意の他の再生環境のような、リスナがキャプチャされたコンテンツの再生を経験する任意の環境を表しても良い。実施形態は、主に、空間オーディオコンテンツがテレビジョンコンテンツに関連付けられるホームシアター環境での例及び実装に関して記載されたが、実施形態は環境内に実装され得ることに留意すべきである。オブジェクトに基づくオーディオ及びチャネルに基づくオーディオを有する空間オーディオコンテンツは、任意の関連するコンテンツ（関連するオーディオ、ビデオ、グラフィック、等）と関連して用いられても良く、或いは、スタンドアロンオーディオコンテンツを構成しても良い。再生環境は、ヘッドフォン又は近距離モニタから狭い若しくは広い部屋、車、野外アリーナ、コンサートホール、等まで、任意の適切な聴取環境であっても良い。

本願明細書に記載のシステムの態様は、デジタル又はデジタル化されたオーディオファイルを処理する適切なコンピュータに基づくサウンド処理ネットワーク環境で実装されても良い。適応型オーディオシステムの部分は、コンピュータ間で送信されるデータのバッファリング及びルーティングを供する１又は複数のルータ（図示しない）を含む任意の所望の数の個々の機械を有する１又は複数のネットワークを有しても良い。このようなネットワークは、種々の異なるネットワークプロトコルに基づき構築されても良く、インターネット、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）又はそれらの任意の組合せであっても良い。ネットワークがインターネットを有する一実施形態では、１又は複数の機械は、ウェブブラウザプログラムを通じてインターネットにアクセスするよう構成されても良い。

コンポーネント、プロセス、又は他の機能的コンポーネントのうちの１又は複数は、システムのプロセッサに基づくコンピューティング装置の実行を制御するコンピュータプログラムを通じて実装されても良い。理解されるべきことに、本願明細書に記載の種々の機能は、ハードウェア、ファームウェアの任意の数の組合せを用いて、及び／又は種々の機械可読若しくはコンピュータ可読媒体に具現化されるデータ及び／又は命令として、それらの動作、レジスタ転送、ロジックコンポーネント、及び／又は他の特性の観点で記載され得る。このようなフォーマット化されたデータ及び／又は命令が具現化され得るコンピュータ可読媒体は、光、磁気又は半導体記憶媒体のような種々の形式の物理（非一時的）不揮発性記憶媒体を含むが、これらに限定されない。

文脈上特に断らない限り、説明及び請求の範囲を通じて、語「有する（comprise、comprising）」等は、包含的意味であると見なされるべきであり、排他的若しくは網羅的意味ではなく、つまり「を含むが、限定されない」の意味である。単数又は複数の数を用いる語は、複数又は単数の数をそれぞれ含み得る。さらに、語「本願明細書で（herein）」、「以下では（hereunder）」、「上述の（above）」、「以下の（below）」、及び同様の意味の語は、本願を全体として表し、本願の任意の特定の部分を表すものではない。語「又は、若しくは（or）」が２以上の項目のリストを参照するのに用いられるとき、その語は、語の次の解釈のうちの全部を含む。リスト内の項目のうちの任意のもの、リスト内の項目のうちの全部、リスト内の項目の任意の組合せ。

１又は複数の実装が例として及び特定の実施形態の観点から記載されたが、１まｔの実装は開示の実施形態に限定されないことが理解されるべきである。むしろ、当業者に明らかなように種々の変更及び同様の配置を包含することを意図する。したがって、添付の請求項の範囲は、このような変更及び同様の配置の全ての包含するよう広義に解釈することがふさわしい。

［関連出願の参照］
本願は、米国仮特許出願番号６１／６９６，０５６、出願日２０１２年８月３１日の優先権の利益を主張する。該米国仮特許出願は参照されることにより本願明細書に組み込まれる。

［関連出願］
本願明細書で言及される各公報、特許、及び／又は特許出願は、参照により、各々個々の公報及び／又は特許出願が具体的に及び個々に参照により組み込まれるべきであると示されるように、それらの全体が本願明細書に組み込まれる。

Claims

反射音を用いた空間オーディオに基づく音の再生のためのシステムであって、
聴取環境内の前記システムのネットワーク接続コンポーネントと、
前記聴取環境に渡る分散のための個々にアドレス可能なオーディオドライバのアレイであって、各ドライバは、前記ネットワークの通信プロトコルの中で定められるユニークな識別子と関連付けられ、前記アレイの第１の部分は、前記聴取環境内の位置に音を直接送信するよう構成されるドライバを有し、前記アレイの第２の部分は、前記聴取環境の１又は複数の面からの反射の後に、前記位置に音を送信するよう構成されるドライバを有する、アレイと、
前記ドライバのアレイに結合され、前記空間オーディオに基づく音のオーディオストリームを、前記オーディオストリーム及び前記聴取環境の１又は複数の特性に基づき、前記アレイの前記第１の部分又は前記アレイの前記第２の部分にルーティングするよう構成されるレンダラと、
を有するシステム。
前記オーディオストリームは、チャネルに基づくオーディオ又はオブジェクトに基づくオーディオとして識別され、前記チャネルに基づくオーディオの再生位置は、前記ドライバのアレイの中のドライバのスピーカ指定を有し、前記オブジェクトに基づくオーディオの再生位置は、三次元空間内の位置を有する、請求項１に記載のシステム。
前記オーディオストリームは、１又は複数のメタデータセットに従って、前記オーディオドライバのアレイに対応する複数のオーディオフィードに関連する、請求項２に記載のシステム。
オーディオストリームの前記再生位置は、前記聴取環境内の人の頭上で知覚される位置を有し、前記ドライバのアレイのうちの少なくとも１つのドライバは、前記聴取環境内の聴取領域への反射のために、前記聴取環境の天井へ向けて音波を発するよう構成され、前記オーディオストリームに関連付けられたメタデータセットは、少なくとも１つのドライバへ送信され、前記反射に関する１又は複数の特性を定める、請求項３に記載のシステム。
前記少なくとも１つのオーディオドライバは、スピーカ筐体内のスタンドアロン型ドライバ、及び単一のスピーカ筐体内の１又は複数のフロントファイアリングドライバの知覚に置かれたドライバ、のうちの１つに組み込まれるアップワードファイアリングドライバを有する請求項４に記載のシステム。
前記オーディオドライバのアレイは、定められたオーディオサラウンドサウンド構成に従って前記聴取環境に渡り分散され、前記聴取環境は、開かれた空間、部分的に閉じられた部屋、及び完全に閉じられた部屋のうちの１つを有し、さらに、前記オーディオストリームは、家庭環境での再生のために変換された映画コンテンツ、テレビジョンコンテンツ、ユーザの生成したコンテンツ、コンピュータゲームコンテンツ、及び音楽を有するグループから選択されたオーディオコンテンツを有する、請求項５に記載のシステム。
前記メタデータセットは、空間オーディオ情報のオブジェクトに基づくストリームに関連するメタデータ要素を有する基本メタデータセットを補足し、前記オブジェクトに基づくストリームの前記メタデータ要素は、対応するオブジェクトに基づく音の前記再生を制御し、音位置、音幅、及び音速度のうちの１又は複数を有する空間パラメータを指定し、前記メタデータセットは、前記空間オーディオ情報のチャネルに基づくストリームに関連するメタデータ要素を更に有し、各チャネルに基づくストリームに関連する前記メタデータ要素は、定められたサラウンドサウンド構成における前記オーディオドライバのサラウンドサウンドチャネルの指定を有する、請求項６に記載のシステム。
前記聴取環境内に配置され、前記聴取環境のオーディオ特性をカプセル化する聴取環境構成情報を得るよう構成されるマイクロフォンと、
前記マイクロフォンに結合され、前記少なくとも１つのオーディオドライバへ送信される前記オーディオストリームに関連する前記メタデータセットを定め又は変更するために前記聴取環境構成情報を受信し処理するよう構成される較正コンポーネントと、
を有する請求項１に記載のシステム。
前記個々にアドレス可能なオーディオドライバの一部を含むサウンドバーであって、前記サウンドバーの前記アドレス可能なオーディオドライバのうちの少なくとも１つを通じたオーディオの再生のために高分解能中央チャネルを有する、サウンドバー、を更に有する請求項１に記載のシステム。
前記レンダラは、前記ネットワークに関連付けられた中央プロセッサに埋め込まれる機能処理を有する、請求項１に記載のシステム。
個々にアドレス可能なオーディオドライバの前記アレイの各ドライバに結合された回路により実行される機能処理を有する、請求項１に記載のシステム。
直接サブチャネル及び反射サブチャネルの間のエネルギ保存を維持する反復処理を通じて、変換動作を用いて、前記オーディオストリームを複数の前記直接サブチャネル及び複数の前記反射サブチャネルに分解するよう構成されるアップミキサコンポーネント、を更に有する請求項１に記載のシステム。
前記少なくとも１つのドライバは、ドライバ位置からハイトキューを削除し反射スピーカ位置からのハイトキューで少なくとも部分的に置換するために補償される、請求項１に記載のシステム。
複数のオーディオオブジェクトのうちの各オブジェクトのバイノーラルレンダリングを実行し及び結果として生じるステレオバイノーラル信号をアドレス可能なドライバの前記第１の部分及び前記第２の部分に結合された複数のクロストーク除去回路間でパニングすることにより、前記第１の部分及び前記第２の部分の両方の１又は複数の個々にアドレス可能なドライバを含む複数のラウドスピーカ対により、オブジェクトに基づくオーディオを仮想的にレンダリングするコンポーネント、を更に有する請求項１に記載のシステム。
聴取環境内でオブジェクトに基づく音をレンダリングするシステムであって、
オブジェクトに基づく及びチャネルに基づくチャネル及びメタデータ要素をカプセル化する符号化ビットストリームを受信するレンダラと、
前記聴取環境における音の発射のために、１又は複数のスピーカ筐体内に入れられた個々にアドレス可能なオーディオドライバのアレイと、
前記アレイを前記レンダラに結合し、ネットワーク通信プロトコルをサポートするよう構成される相互接続回路と、
前記聴取環境に関する音情報を受信し、前記音情報に応じて１又は複数のメタデータ要素を変更するよう構成される較正コンポーネントと、
前記聴取環境内に配置され、前記較正コンポーネントのために前記音情報を生成するよう構成される少なくとも１つのマイクロフォンと、
前記オブジェクトに基づくチャネルの各オブジェクトのバイノーラルレンダリングを実行し、結果として生じるステレオバイノーラル信号を前記個々にアドレス可能なドライバに関連付けられたクロストーク除去回路の間でパニングするよう構成される仮想レンダリングコンポーネントと、
を有するシステム。
前記レンダラは、前記ネットワークに結合されるレンダリングコンポーネントの中に中央処理ユニットとして埋め込まれ、前記相互接続回路は、前記アレイと前記レンダラとの間の双方向相互接続を有する、請求項１５に記載のシステム。
前記レンダラは、前記１又は複数のスピーカ筐体のうちの各スピーカ筐体内に実装されるレンダリングコンポーネントの中に少なくとも部分的に埋め込まれ、前記アレイは複数の給電されたドライバを有する、請求項１５に記載のシステム。
各スピーカ筐体は、該スピーカ筐体の個々の音情報を生成するマイクロフォンを有し、前記較正コンポーネントは、各スピーカ筐体内に埋め込まれ、さらに、前記相互接続回路は、前記レンダラと前記アレイとの間の単方向相互接続を有する、請求項１７に記載のシステム。
前記アレイの少なくとも１つのオーディオドライバは、前記聴取環境内の聴取領域への反射のために前記聴取環境の天井へ向けて音波を発するよう較正されるアップワードファイアリングドライバを有する、請求項１５に記載のシステム。
前記聴取環境の大きさ及び領域情報を提供する少なくとも１つのセンサを用いた前記ドライバの配置のためのマッピングコンポーネント、を更に有し、前記少なくとも１つのセンサは、光センサ及び音響センサを有するグループから選択される、請求項１９に記載のシステム。
前記レンダラは、メタデータに従って、前記オーディオコンテンツを有するオーディオストリームを、ユニークにアドレス可能なオーディオドライバの前記アレイに対応する複数のオーディオフィードにレンダリングするよう構成され、前記メタデータは、どの個々のオーディオストリームがそれぞれ個々のアドレス可能なオーディオドライバへ送信されるべきかを指定する、請求項２０に記載のシステム。
前記聴取環境は、開かれた空間、部分的に閉じられた部屋、及び完全に閉じられた部屋のうちの１つを有し、前記レンダラ及び再生コンポーネントは、家庭オーディオシステムの部分を有し、さらに、前記オーディオストリームは、家庭環境での再生のために変換された映画コンテンツ、テレビジョンコンテンツ、ユーザの生成したコンテンツ、コンピュータゲームコンテンツ、及び音楽を有するグループから選択されるオーディオコンテンツを有する、請求項２１に記載のシステム。
前記少なくとも１つのオーディオドライバは、前記聴取環境の床面に対するサウンドファイアリング角に関して調整可能な筐体内の手動調整可能オーディオトランスデューサ、及び前記サウンドファイアリング角に関して自動的に調整可能な筐体内の電気的制御可能なオーディオトランスデューサ、のうちの１つを有する、請求項２２に記載のシステム。
聴取環境におけるオーディオコンテンツの再生のためのスピーカシステムであって、
筐体と、
前記筐体内に配置され、前記筐体の軸に対して少なくとも２つの異なる方向に音を発するよう構成される複数の個々にアドレス可能なドライバであって、前記複数の個々にアドレス可能なドライバのうちの少なくとも１つのドライバは、前記聴取環境内にいるリスナに音が届く前に、前記聴取環境の少なくとも１つの面から音を反射するよう構成される、複数の個々にアドレス可能なドライバと、
を有するスピーカシステム。
前記聴取環境の音響特性を測定するよう構成されるマイクロフォン、を更に有する請求項２４に記載のスピーカシステム。
前記筐体内に設けられ、中央プロセッサからオーディオストリームを受信し及び前記複数の個々にアドレス可能なドライバへの送信のためにスピーカフィード信号を生成するよう構成される部分的レンダリングコンポーネント、を更に有する請求項２５に記載のスピーカシステム。
前記少なくとも１つのドライバは、アップワードファイアリングドライバ、サイドファイアリングドライバ、及びフロントファイアリングドライバのうちの１つを有する、請求項２６に記載のスピーカシステム。
前記アップワードファイアリングドライバは、音波が前記筐体の水平軸に対して３５乃至９０度の角度で主に伝搬するよう、方向付けられる、請求項２７に記載のスピーカシステム。
前記筐体は、サウンドバーを実装し、少なくとも１つのドライバは、高分解能中央チャネルドライバを有する、請求項２８に記載のスピーカシステム。
各個々にアドレス可能なドライバは、前記スピーカシステムをレンダラに結合する双方向相互接続によりサポートされるネットワークプロトコルに従って、ユニークに識別される、請求項２９に記載のスピーカシステム。