JP2023164976A

JP2023164976A - オーディオ信号処理システム及び方法

Info

Publication number: JP2023164976A
Application number: JP2023145272A
Authority: JP
Inventors: キューロビンソン，チャールズ; q robinson Charles; エールトウィンゴ，ニコラ; R Tsingos Nicolas; シャバニュ，クリストフ; Chabanne Christophe
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2011-07-01
Filing date: 2023-09-07
Publication date: 2023-11-14
Also published as: HUE054452T2; KR102406776B1; RU2617553C2; US10904692B2; CN105792086A; KR102608968B1; AU2023200502A1; KR102003191B1; JP2017215592A; TW201909658A; EP4404594A2; HK1219604A1; SG10201604679UA; AU2019204012A1; AU2019204012B2; JP2016165117A; AU2012279357B2; JP2021073496A; US9622009B2; IL295733B1

Abstract

【課題】シネマサウンドフォーマットと、空間記述フォーマットを含むオーディオ信号を処理するシステム及び方法を提供する。【解決手段】複数のモノラルオーディオストリームと、関連するメタデータとを有するオーサリングコンポーネントは、再生ロケーションを示す適応的オーディオミックスを生成する。その一部分はチャンネルベースオーディオとして識別され、他の部分はオブジェクトベースオーディオとして識別される。再生ロケーションは、スピーカの指定及び３次元空間中のロケーションを含む。メタデータは、オブジェクトベースのモノラルオーディオストリームのそれぞれが、複数のスピーカフィードのうちの一以上の特定のスピーカのいずれにもレンダリングされないように、各モノラルオーディオストリームを複数のスピーカのうちの一以上の特定のスピーカにレンダリングすることが禁止されるかどうかを示す。【選択図】図３

Description

一または複数の実施形態は、概してオーディオ信号処理に関し、より具体的には、シネマ、ホーム、及びその他の環境で用いるためのハイブリッドオブジェクト及びチャンネルベースオーディオ処理に関する。

背景技術セクションで説明する主題は、背景技術セクションで言及するからというだけで先行技術であると考えてはならない。同様に、背景技術セクションで言及する、または背景技術セクションの主題に関連する問題は、先行技術で事前に認識されていたと間が手はならない。背景技術セクションの主題は、単に複数の異なるアプローチを表し、それ自体も発明であり得る。

フィルム付きサウンドの登場以来、映画サウンドトラックに関するクリエータの芸術的意図を捉え、それをシネマ環境で正確に再現するのに用いられる技術は安定的に進化してきた。シネマサウンドの基本的役割は、スクリーンに映されるストーリーをサポートすることである。典型的なシネマサウンドトラックは、スクリーン上の要素が画像に対応する異なる多くのサウンド要素である、会話、ノイズ、異なるオンスクリーン要素から発せられバックグラウンドミュージックや周辺効果と結びついて全体的な聴衆体験を形成するサウンドエフェクトを含む。クリエータやプロデューサの芸術的意図は、音源位置、強さ、動き、その他の同様なパラメータに関して、スクリーンに映されるものにできるだけ近く対応するように、これらのサウンドを再生させる望みを表している。

現在のシネマオーサリング、配信、及び再生には、真に没入的な実物そっくりなオーディオの生成を制約する制限がある。従来のチャンネルベースオーディオシステムは、ステレオや５．１システムなどの再生環境の個別のスピーカにスピーカフィードの形式でオーディオコンテンツを送る。デジタルシネマの登場でフィルム上のサウンドについて、オーディオの１６チャンネルまでの組み込みなど、新しい標準が生まれ、コンテンツクリエータに大きなクリエイティビティを与え、聴衆により包囲的かつ現実的な音響体験を与えている。７．１サラウンドシステムの登場により、既存の左右のサラウンドチャンネルを４つのゾーンに分割して、サウンドデザイナーとミキサーの範囲を増大してシアターにおけるオーディオ要素のポジショニングを制御することにより、サラウンドチャンネル数を増やす新しいフォーマットが提供された。

リスナの体験をさらに向上するため、仮想的な３次元環境におけるサウンドの再生が研究開発のエリアになった。サウンドの空間表現は、オーディオオブジェクトを利用する。オーディオオブジェクトは、オーディオ信号と、それに関連する、見かけのソース位置（例えば、３Ｄ座標）、見かけのソース幅、及びその他のパラメータのパラメトリックソース記述である。オブジェクトベースオーディオは、デジタルムービー、ビデオゲーム、シミュレーション、３Ｄビデオなど現在の多くのマルチメディアアプリケーションにますます使われつつある。

空間的オーディオを配信する手段として、従来のスピーカフィードやチャンネルベースオーディオを越える拡張が必須であり、モデルベースオーディオ記述に大きな関心が寄せられている。モデルベースオーディオ記述は、リスナ／エギジビタに、個別のニーズやバジェットに合った再生構成を選択させ、オーディオを彼らが選択した構成でレンダさせる自由を約束ものである。ハイレベルでは、現在、４つのメイン空間的オーディオ記述フォーマットがある：予定（nominal）スピーカ位置のスピーカを意図した信号としてオーディオが記述されるスピーカフィード；
所定アレイ中の仮想または実際のマイクロホンによりキャプチャされた信号としてオーディオが記述されるマイクロホンフィード；
記述された位置におけるオーディオイベントのシーケンスについてオーディオが記述されるモデルベース記述；及び
リスナの耳に届く信号によりオーディオが記述されるバイノーラル。これらの４つの記述フォーマットは、オーディオ信号をスピーカフィードに変換する一または複数のレンダリング技術と関連付けられることが多い。現在のレンダリング技術には、オーディオストリームが一組のパニング則（panning laws）と既知のまたは仮定のスピーカ位置とを用いてスピーカフィードに変換される（一般的には配信前にレンダされる）パニング（panning）；マイクロホン信号を変換してスケーラブルなスピーカアレイ用にフィードする（一般的には、配信後にレンダされる）Ａｍｂｉｓｏｎｉｃｓ；サウンドイベントがサウンドフィールドを合成するために適当なスピーカ信号に変換される（一般的には配信後にレンダされる）ＷＦＳ（wave field synthesis）；一般的にはヘッドホンを用いるが、スピーカとクロストークキャンセレーションも用いられ、Ｌ／Ｒ（左／右）バイノーラル信号が左右の耳に送られる（配信の前または後にレンダされる）バイノーラルがある。これらのフォーマットのうち、単純かつ有効なので、スピーカフィードフォーマットが最も一般的である。（最も正確かつ最も信頼できる）最高の音的結果は、ミキシング／モニタリング及びスピーカフィードへの直接の配信により実現できる。コンテンツクリエータとリスナとの間の処理がないからである。再生システムが予め分かっている場合、スピーカフィード記述は一般的に最も高い忠実性を提供する。しかし、多くの実際のアプリケーションでは、再生システムは分からない。モデルベース記述は、最も適応的であると思われる。レンダリング技術に関する仮定をせず、そのためにどのレンダリング技術にも容易に適用できるからである。モデルベース記述は空間的情報を効率的に捕捉するが、音源の数が増えるにつれて、非効率的になる。

長年にわたって、シネマシステムでは、レフト、センター、ライト、及び場合によっては「インナーレフト」と「インナーライト」チャンネルの形式の離散的スクリーンチャンネルを用いてきた（have featured）。これらの離散的ソースは、一般的に、サウンドをスクリーンの異なるエリアに正確に配置し、サウンドがロケーション間を移動またはパン（panned）するにつれ音質マッチングをさせるのに十分な周波数応答とパワーハンドリングを有する。リスナ体験を向上する最近の開発では、リスナに対する、サウンドのロケーションを正確に再生する試みがなされている。５．１システムでは、サラウンド「ゾーン」は複数のスピーカの配列を有し、そのすべてがレフトサラウンドゾーンとライトサラウンドゾーンのそれぞれにおいて同じオーディオ情報を有する。かかる配列（arrays）は「環境の（ambient）」または拡散したサラウンド効果には有効化も知れないが、日常では、サウンド効果はランダムに配置された点音源から発せられる。例えば、レストランでは、そこら中から環境音楽が流されている一方で、捉えにくいが個別のサウンドが、例えば、ある点からは人の話し声、他の点からはお皿にナイフが当たる音などが、複数の点から発せられる。かかるサウンドを観客席の周りに直接配置できれば、気づくほど明らかでなくても現実感が高くなる。オーバーヘッドサウンドもサラウンドデフィニションの重要な成分である。実世界では、サウンドはすべての方向から発せられ、必ずしも単一の水平面からではない。サウンドが頭上から、すなわち「上半球」から聞こえると、現実感が高くなる。しかし、現在のシステムは、異なる様々な再生環境において異なるオーディオタイプのサウンドの真に正確な再生は提供できない。既存のシステムを用いてサウンドのロケーションの正確な表現を試みるには、大量の処理、実際の再生環境に関する知識、及び設定が必要であり、ほとんどのアプリケーションでは現在のレンダリングシステムは実用的ではない。

必要なものは、複数のスクリーンチャンネルをサポートして、オンスクリーンサウンドや会話のデフィニションを増やしオーディオ・ビジュアルコヒーレンスを向上するシステムと、音源をサラウンドゾーン中のどこにでも正確に配置して、スクリーンから部屋へオーディオ・ビジュアルトランジションを向上する能力とである。例えば、スクリーン上のキャラクタが部屋の中で音源の方を見ている場合、サウンドエンジニア（「ミキサ」）はそのサウンドを正確に配置して、そのキャラクタの視線と一致し、その効果が観衆中で一貫しているようにする能力を有するべきである。しかし、従来の５．１または７．１サラウンドサウンドミックスでは、その効果はリスナの着席位置に大きく依存するので、大規模なリスニング環境では不利である。サラウンドの分解能を高くすると、単一のリスナが「スイートスポット」にいると仮定してコンテンツを作成する従来のアプローチとは反対に、ルームセントリックにサウンドを用いる新しい機会が生まれる。

空間的問題とは別に、現在の技術水準のマルチチャンネルシステムは、音質に関しても問題がある。例えば、壊れたパイプから蒸気が漏れるシューという音などの音質（timbral quality）は、複数のスピーカの配列により再生しなければならない。単一のスピーカにサウンドを向ける能力により、ミキサーは、配列再生（array reproduction）のアーティファクトを無くし、聴衆により現実的な体験を届ける機会を与えられる。従来、複数のサラウンドスピーカは、オーディオ周波数の同じフルレンジと、大きなスクリーンチャンネルがサポートするレベルをサポートしない。歴史的には、これはミキサーの問題となり、スクリーンから部屋にフルレンジサウンドを自由に動かす能力を低減してきた。結果として、シアターのオーナーは、自分のサラウンドチャンネル構成をアップグレードしようとは感じず、より音質の高い装置の普及の妨げになっていた。
［関連出願との相互参照］

本願は、２０１１年７月１日出願の米国仮出願第６１／５０４，００５と２０１２年４月２０日出願の米国仮出願第６１／６３６，４２９号の優先権を主張するものであり、両出願はその全体をあらゆる目的において参照援用する。

シネマサウンドフォーマットと、新しいスピーカレイアウト（チャンネル構成）及び関連する空間記述フォーマットを含む処理システムのためのシステムと方法を説明する。複数のレンダリング技術をサポートする適応的オーディオシステム及びフォーマットを定義する。オーディオストリームは、オーディオストリームの所望の位置を含む「ミキサーの意図」を記述するメタデータとともに伝送される。その位置は、（予め画定されたチャンネル構成内から）指定されたチャンネルとして、または３次元位置情報として、表される。このチャンネル及びオブジェクトフォーマットにより、チャンネルベース及びモデルベースのオーディオシーン記述方法が最適に結合される。適応的オーディオシステム用のオーディオデータは、複数の独立したモノフォニックオーディオストリームを含む。各ストリームは、ストリームがチャンネルベースストリームかオブジェクトベースストリームかを示す、関連するメタデータを有する。チャンネルベースストリームはチャンネル名により符号化されたレンダリング情報を有する。

オブジェクトベースストリームは、別の関連メタデータに符号化された数学的式により符号化されたロケーション情報を有する。元の独立な複数のオーディオストリームは、オーディオデータの全部を含む単一のシリアルビットストリームとしてパッケージされる。この構成により、サウンドが、他者中心的参照枠によりレンダされる。サウンドのレンダリングロケーションは、ミキサーの意図に対応するように、再生環境（例えば、部屋のサイズ、形など）の特性に基づく。オブジェクト位置メタデータは、適応的オーディオコンテンツを再生するように設定された部屋における利用可能なスピーカ位置を用いて、サウンドを正しく再生するのに必要な、適切な他者中心的参照枠情報を含む。これにより、サウンドが、サウンドエンジニアが体験したミックス環境とは異なるかも知れない再生環境に合わせて、最適にミックスされる。

適応的オーディオシステムは、改善された部屋等化（room equalization）とサラウンドバス管理（surround bass management）などの利益により、ミキサーにより音色マッチングに関して考えなくてもスピーカを（オンスクリーンであろうとオフスクリーンであろうと）自由にアドレスできるように、異なる部屋におけるオーディオの品質を改善する。適応的オーディオシステムは、従来のチャンネルベースのワークフローに、動的オーディオオブジェクトの柔軟性とパワーを加える。これらのオーディオオブジェクトにより、クリエータは、オーバーヘッドスピーカを含む再生スピーカ構成にかかわらず、個別のサウンド要素を制御できる。また、このシステムは、ポストプロダクションプロセスに新しい効率を導入し、それによりサウンドエンジニアは、自分の意図の全部を効率的に捕捉して、サラウンドサウンド７．１及び５．１バージョンをリアルタイムでモニターし、または自動生成できる。

この適応的オーディオシステムは、デジタルシネマプロセッサ内で、単一のトラックファイルにオーディオのエッセンスと芸術的意図をカプセル化することにより、配信を単純化する。この単一トラックファイルは、広い範囲のシアター構成において忠実に再生できる。このシステムは、ミックスとレンダが同じチャンネル構成とレンダリング構成への下向き適応された単一のインベントリを用いる時、すなわちダウンミキシング時、芸術的意図の最適な再生を提供する。

これらの利点及びその他の利点は、シネマサウンドプラットフォームに関連する実施形態を通して提供され、現在のシステム限界を解決し、現在利用できるシステムを越えるオーディオ体験を届ける。

以下の図面では、同じ参照番号は同じ要素を参照するのに用いられる。以下の図面は様々な例を示すが、一または複数のインプリメンテーションは、図面に示された例に限定されない。
一実施形態による、適応的オーディオシステムを利用するオーディオ生成及び再生環境のトップレベルの概要を示す図である。一実施形態による、適応的オーディオミックスを作成するチャンネル及びオブジェクトベースデータの結合を示す図である。一実施形態による、適応的オーディオコンテンツを生成、パッケージ、及びレンダリングするワークフローを示すブロック図である。一実施形態による、適応的オーディオシステムのレンダリング段階を示すブロック図である。一実施形態による、適応的オーディオシステムのメタデータタイプ及び関連メタデータ要素を列記した表である。一実施形態による、適応的オーディオシステムのポストプロダクション及びマスタリングを示す図である。一実施形態による、適応的オーディオファイルを用いるデジタルシネマパッケージングプロセスのワークフロー例を示す図である。典型的な観客席における適応的オーディオシステムと用いるために示唆されたスピーカロケーションのレイアウト例を示す上面図である。典型的な観客席で用いるために示唆されたスクリーンのスピーカロケーションの配置例を示す前面図である。典型的な観客席における適応的オーディオシステムで用いるために示唆されたスピーカロケーションのレイアウト例を示す側面図である。一実施形態による、基準点に対するトップサラウンドスピーカとサイドサラウンドスピーカの配置例を示す図である。

適応的オーディオシステム及び方法と、関連オーディオ信号と、複数のレンダリング技術をサポートするデータフォーマットとを説明する。ここに説明する一または複数の実施形態の態様は、ソフトウェア命令を実行する一または複数のコンピュータまたは処理デバイスを含むミキシング、レンダリング、及び再生システムにおいて、ソースオーディオ情報を処理するオーディオまたはオーディオビジュアルシステムでインプリメントできる。説明する実施形態のどれも、それだけで、または互いに組み合わせて用いることができる。先行技術の様々な欠陥により様々な実施形態が動機付けられ、これらは本明細書の一または複数の箇所で説明されるが、実施形態は必ずしもこれらの欠陥を解消するものでなくてもよい。言い換えると、異なる実施形態は本明細書で説明される異なる欠陥を解消するものである。ある実施形態は、本明細書で説明するある欠陥を部分的に解消するだけであってもよく、１つの欠陥だけを解消するものであってもよく、ある実施形態はこれらの欠陥をどれも解消しないものであってもよい。

本説明の目的において、以下の用語は関連付けられた意味を有する：
チャンネルまたはオーディオチャンネル：例えば、レフトフロントやライトトップサラウンドなど、位置がチャンネルＩＤとしてコード化されたモノフォニックオーディオ信号またはオーディオストリーム及びメタデータ。チャンネルオブジェクトは複数のスピーカを駆動し、例えば、レフトサラウンドチャンネル（Ｌｓ）はＬｓ配列中のすべてのスピーカをフィードする。

チャンネル構成：関連するノミナルロケーション、例えば、５．１、７．１などを有する所定の一組のスピーカゾーン；
５．１は、レフトとライトのチャンネル、センターチャンネル、２つのサラウンドチャンネル、及びサブウーファチャンネルを有する６チャンネルサラウンドサウンドオーディオシステムを言う；
７．１は、５．１システムに２つの追加的サラウンドチャンネルを追加する８チャンネルサラウンドシステムを言う。５．１及び７．１構成の例は、ドルビー（登録商標）サラウンドシステムを含む。

スピーカ：オーディオ信号をレンダ（render）する一オーディオトランスデューサまたは複数のトランスデューサの組。

スピーカゾーン：一または複数のスピーカの配列は、一意的に参照でき、シネマで一般的に見られるように、レフトサラウンドなどの単一のオーディオ信号を受け取り、具体的にオブジェクトレンダリングのために除外または含める。

スピーカチャンネルまたはスピーカフィードチャンネル：画定されたスピーカ構成内における指定されたスピーカまたはスピーカゾーンに関連するオーディオチャンネル。スピーカチャンネルは関連するスピーカゾーンを用いてノミナル（nominally）にレンダされる。

スピーカチャンネルグループ：チャンネル構成に対応する一または複数のスピーカチャンネルの組（例えば、ステレオトラック、モノトラックなど）。

オブジェクトまたはオブジェクトチャンネル：数値的ソース記述を有する一または複数のオーディオチャンネルであって、明らかなソース位置（例えば、３Ｄ座標）、明らかなソース幅など。位置が空間内の３Ｄ位置としてコード化されたメタデータを有するオーディオストリーム。
オーディオプログラム：完全なセットになったスピーカチャンネル及び／またはオブジェクトチャンネルと所望の空間的オーディオプレゼンテーションを記述する関連メタデータ。

他者中心基準（allocentric reference）：レンダリング環境内の例えば部屋の壁や角、標準的スピーカロケーション、スクリーンロケーション（例えば、部屋のフロントレフトコーナー）などにあるフィーチャに対しオーディオオブジェクトが画定された空間的基準。

自己中心基準（egocentric reference）：オーディオオブジェクトが、（観客）リスナの視点に対して画定された、リスナに対する角度（例えば、リスナの３０°右）で指定されることが多い空間的基準。

フレーム：フレームは、オーディオプログラム全体が分割された、独立して復号可能なセグメント。オーディオフレームレートと境界は一般的にはビデオフレームと合わせられる（aligned）。

適応的オーディオ：チャンネルベース及び／またはオブジェクトベースのオーディオ信号及び再生環境に基づきオーディオ信号をレンダするメタデータ。

ここに説明するシネマサウンドフォーマットと処理システムは、「適応的オーディオシステム」とも呼ばれ、新しい空間的オーディオ記述とレンダリング技術を利用して、観客の没頭を強くし、芸術的な制御を大きくし、システムの柔軟性とスケーラビリティを高め、設置と維持を容易にする。シネマオーディオプラットフォームの実施形態には、ミキシングツール、パッカー／エンコーダ、アンパック／デコーダ、シアター内ファイナルミックス・レンダリングコンポーネント、新しいスピーカデザイン、ネットワークされた増幅器を含む複数の個別のコンポーネントが含まれる。システムには、コンテンツクリエータとエギジビタ（exhibitors）により用いられる新しいチャンネル構成の示唆が含まれている。本システムは、下記の複数のフィーチャをサポートするモデルベース記述を利用する。レンダリング構成への下向き及び上向き適応した、利用可能スピーカの最適な使用を可能にする単一のインベントリ；
チャンネル間相関を回避する最適化されたダウンミキシングを含む改善されたサウンドエンベロープメント（envelopment）；
ステアスルー（steer-thru）アレイ（例えば、サラウンドアレイ中の一または複数のスピーカに動的に割り当てられたオーディオオブジェクト）による高くした空間的解像度；
代替的レンダリング方法のサポート。

図１は、一実施形態による、適応的オーディオシステムを利用するオーディオ生成及び再生環境のトップレベルの概要を示す図である。図１に示したように、包括的エンド・ツー・エンド環境１００は、幅広いエンドポイントデバイス及びユースケースにわたるコンテンツ作成、パッケージング、配信及び再生／レンダリングコンポーネントを含む。全体的システム１００は、異なるユーザ体験１１２を含む多数の異なるユースケースから補足されるコンテンツを端緒とする。コンテンツキャプチャ要素１０２は、例えば、シネマ、ＴＶ、ライブ放送、ユーザ作成コンテンツ、記録されたコンテンツ、ゲーム、音楽などを含み、オーディオ／ビジュアルコンテンツまたは純粋なオーディオコンテンツを含む。コンテンツは、システム１００内をキャプチャ段階１０２から最終的ユーザ体験１１２まで進むにつれて、個別のシステムコンポーネントを通り、複数のキー処理ステップを通過する。これらのプロセスステップには、オーディオの前処理１０４、オーサリングツール及び処理１０６、例えばオーディオデータ、追加的メタデータ及び再生情報、及びオブジェクトチャンネルなどをキャプチャするオーディオコーデックによる符号化１０８が含まれる。圧縮（ロッシーまたはロスレス）、暗号化などの様々な処理効果は、様々な媒体による効率的かつセキュアな配信のため、オブジェクトチャンネルに適用される。適当なエンドポイント特有の復号及びレンダリングプロセス１１０が適用され、適応的オーディオユーザ体験１１２を再生し届ける。オーディオ体験１１２は、適切なスピーカと再生デバイスによるオーディオまたはオーディオ／ビジュアルコンテンツの再生を表し、キャプチャされたコンテンツの再生をリスナが体験する、シネマ、コンサートホール、アウトドアシアタ、家または部屋、リスニングブース、自動車、ゲームコンソール、ヘッドホンまたはヘッドセットシステム、パブリックアドレス（ＰＡ）システム、またはその他の再生環境などの任意の環境を表す。

システム１００の実施形態は、マルチチャンネルオーディオプログラムの効率的な配信と記憶ができ、そのため「ハイブリッド」コーデックと呼ばれることがあるオーディオコーデック１０８を含む。コーデック１０８は、従来のチャンネルベースのオーディオデータを関連メタデータと結合して、ミキシング環境と異なるかも知れない環境におけるレンダリング及び再生のために適応され最適化されたオーディオの生成と配信を容易にするオーディオオブジェクトを作成する。これにより、サウンドエンジニアは、リスナの実際のリスニング環境に基づいて、最終的なオーディオがリスナにどのように聞こえるかに関する自分の意図をエンコード（encode）できる。

従来のチャンネルベースオーディオコーデックは、オーディオプログラムがリスナに対して所定の位置でスピーカアレイにより再生されるという仮定の下に動作する。完全なマルチチャンネルオーディオプログラムを生成するため、サウンドエンジニアは、一般的に、多数のオーディオストリーム（例えば、会話、音楽、効果音）をミックスして、総合的に望ましいインプレッションを作成する。オーディオミキシングの決定は、一般的に、具体的なシアターの５．１または７．１システムなど所定の位置のスピーカアレイにより再生されたオーディオプログラムを聞くことにより、なされる。最終的なミックスされた信号は、オーディオコーデックへの入力となる。再生の場合、スピーカがその所定一に配置された時にのみ、空間的に正確なサウンドフィールドが実現される。

オーディオオブジェクトコーディングと呼ばれる新しいオーディオコーディング形式により、別のオーディオストリームの形式でエンコーダへの入力として、区別できる音源（オーディオオブジェクト）が供給される。オーディオオブジェクトの例は、会話トラック、単一インスツルメント、個別のサウンド効果音、そのたのポイントソースを含む。各オーディオオブジェクトは、空間的パラメータに関連し、サウンド位置、サウンド幅、及びベロシティ情報を含むがこれらに限定されない。オーディオオブジェクトと関連パラメータは、配信と格納のためにコード化される。最終的オーディオオブジェクトミキシングとレンダリングは、オーディオ配信チェーンの受信端で、オーディオプログラム再生の一部として行われる。このステップは、実際のスピーカ位置の知識に基づき、結果がユーザ特有のリスニング条件に合わせてカスタマイズできるオーディオ配信システムである。チャンネルベースとオブジェクトベースの２つのコーディング形式は、異なる入力信号条件で最適に動作する。チャンネルベースオーディオコーダは、一般的に、異なるオーディオソースの高密度のミクスチャを含む入力信号のコーディングでより効率的である。逆に、オーディオオブジェクトコーダは、少数の方向性が高い音源のコーディングにより効率的である。

一実施形態では、これらの方法とシステム１００のコンポーネントは、従来のチャンネルベースオーディオ要素とオーディオオブジェクトコーディング要素との両方を含む一または複数のビットストリームを生成するように構成されたオーディオ符号化、配信、及び復号システムを有する。かかる組合せアプローチにより、チャンネルベースアプローチまたはオブジェクトベースアプローチのどちらと比較しても、コーディング効率とレンダリングの柔軟性が高くなる。

説明の実施形態の他の態様には、所定のチャンネルベースオーディオコーデックを後方互換に拡張して、オーディオオブジェクトコーディング要素を含めることが含まれる。オーディオオブジェクトコーディング要素を含む新しい「拡張レイヤ」が定義され、チャンネルベースオーディオコーデックビットストリームの「ベース」または「後方互換」レイヤに追加される。このアプローチにより、レガシーコーデックにより処理される拡張レイヤを含む一または複数のビットストリームを可能にし、一方、新しいデコーダを有するユーザにはエンハンスされたリスナ体験を提供する。エンハンスされたリスナ体験の一例には、オーディオオブジェクトレンダリングの制御が含まれる。このアプローチの追加的利点は、チャンネルベースオーディオコーデックでエンコードされたマルチチャンネルオーディオを復号／ミキシング／再符号化しなくても、オーディオオブジェクトが配信チェーンのどこで追加または修正されてもよいことである。

基準枠に関して、オーディオ信号の空間効果はリスナに没頭体験を提供するのに重要である。ビューイングスクリーンまたは部屋のある領域から発するように意図されたサウンドは、同じ相対的ロケーションに配置されたスピーカにより発せられるべきである。このように、モデルベース記述のサウンドイベントのプライマリオーディオメタデータは、位置であるが、他のパラメータ、例えば、サイズ、方向、ベロシティ、及び音響分散なども記述され得る。位置を伝えるため、モデルベースの３Ｄオーディオ空間記述は３Ｄ座標系を必要とする。伝送に用いられる座標系（ユークリッド、球面など）は一般的に便利さとコンパクト性で選択されるが、レンダリング処理には他の座標系を用いても良い。座標系に加え、空間内でオブジェクトのロケーションを表すのに基準枠が必要である。様々な異なる環境においてシステムがポジションベースサウンドを正確に再生するため、適当な参照枠の選択が重要な要因である。他者中心参照枠では、部屋の壁やコーナー、標準的スピーカロケーション、スクリーンロケーションなどレンダリング環境内のフィーチャに対して、音源位置が画定される。自己中心的参照枠では、リスナの視点で、例えば「私の前、少し左」などのようにロケーションが表される。空間知覚（オーディオその他）の化学的研究により、自己中心的パースペクティブがほとんど世界的に使われている。しかし、シネマの場合、複数の理由により他者中心が一般的に適切である。例えば、スクリーン上に関連オブジェクトがある場合、オーディオオブジェクトの正確なロケーションが最も重要である。他者中心基準を用いると、すべてのリスニング位置に対して、及び任意のスクリーンサイズに対して、サウンドはスクリーン上の同じ相対位置に、例えば、スクリーンの真ん中の３分の１左に、局在する。他の理由は、ミキサーが他者中心で考えてミキシングし、パンニングツール（panning tolls）が他者中心枠（部屋の壁）で構成され、及びミキサーが、このサウンドはオンスクリーンで、このサウンドはオフスクリーンで、または左の壁からなどとレンダリングされることを期待することである。

シネマ環境において他者中心参照枠の使用にかかわらず、自己中心参照枠が有用でありより適切である場合がある。これらには、非物語世界の音、すなわち、「物語世界」ではないサウンド、例えば、ムード音楽が含まれ、これらについては自己中心的一様なプレゼンテーションが望ましい。他の場合は、自己中心表現を必要とするニアフィールド効果（例えば、リスナの左耳でぶんぶん音をたてている蚊）である。現在、ヘッドホンや非常にニアフィールドなスピーカを用いないでかかるサウンドフィールドをレンダする手段はない。また、無限に遠い音源（及びその結果の平面波）は、一定の自己中心位置（例えば、左に３０°）から来るように見え、かかるサウンドは他者中心項よりも自己中心項で記述する方がやさしい。

ある場合には、ノミナルなリスニング位置が画定される限り、他者中心参照枠の使用が可能であり、一方、ある例では、まだレンダできない自己中心表現を必要とする。他者中心参照はより有用かつ適当であるが、オーディオ表現は伸縮可能であるべきである。あるアプリケーションやリスニング環境では、自己中心的表現を含む多くの新しいフィーチャが望ましいからである。適応的オーディオシステムの実施形態は、最適な忠実度のため、自己中心参照を用いて拡散したまたは複雑なマルチポイントソース（例えば、スタジアムの群衆、雰囲気など）の及び他者中心的モデルベースサウンド記述をレンダリングして、空間的解像度とスケーラビリティを高めるための推奨チャンネル構成を含むハイブリッド空間的記述アプローチを含む。

システムコンポーネント
図１を参照して、元のサウンドコンテンツデータ１０２は、最初に、前処理ブロック１０４で処理される。システム１００の前処理ブロック１０４は、オブジェクトチャンネルフィルタリングコンポーネントを含む。多くの場合、オーディオオブジェクトは個別の音源を含み、独立したサウンドのパンニングを可能にする。ある場合には、自然なまたは「プロダクション」サウンドを用いてオーディオプログラムを製作する時など、個別のサウンドオブジェクトを複数の音源を含むレコーディングから抽出する必要がある。実施形態には、より複雑な信号から独立なソース信号を分離（isolate）する方法が含まれる。独立したソース信号から分離すべき望ましくない要素には、他の独立した音源と背景ノイズが含まれるがこれらに限定されない。また、リバーブは除かれて「ドライな」音源が回復される。

プリプロセッサ１０４もソース分離及びコンテンツタイプ検出機能を含む。このシステムは、入力オーディオの分析によるメタデータの自動生成を提供する。位置メタデータは、マルチチャンネルレコーディングから、チャンネルペア間の対応する入力の相対レベルの分析により、求められる。「話し」や「音楽」などのコンテンツタイプの検出は、例えば、特徴抽出と分類により実現できる。

オーサリングツール
オーサリングツールブロック１０６は、サウンドエンジニアの創造的意図の入力とコード化を最適化し、そのエンジニアに現実的に任意の再生環境での再生に最適化された最終的オーディオミックスを生成させることにより、オーディオプログラムのオーサリングを改善するフィーチャを含む。これは、オーディオオブジェクトと、元のオーディオコンテンツに関連し符号化されていた位置データの使用により実現できる。サウンドを観客席に正しく配置するため、サウンドエンジニアは、再生環境の実際の制約と特徴に基づきサウンドが結局どのようにレンダされるか制御する必要がある。適応的オーディオシステムは、サウンドエンジニアに、オーディオオブジェクトと位置データの使用によりオーディオコンテンツが設計されミックスされるしかたを変更させることにより、この制御を提供する。

オーディオオブジェクトは、観客席の物理的ロケーションから発すると知覚されるサウンド要素のグループと考えることができる。かかるオブジェクトは静的であってもよいし、動いても良い。適応的オーディオシステム１００において、オーディオオブジェクトはメタデータにより制御される。このメタデータは、なかんずく、所与の時点におけるサウンドの位置の詳細である。オブジェクトは、シアターにおいてモニターされまたは再生される時、必ずしも物理的チャンネルに出力されるのではなく、そこにあるスピーカを用いて位置メタデータによりレンダされる、セッション中のトラックはオーディオオブジェクトであり、標準的パンニングデータは位置メタデータに類似している。このように、スクリーン上に配置されるコンテンツは、チャンネルベースコンテンツと事実上同じようにパンされるが、サラウンドに配置されたコンテンツは、必要なら個別のスピーカにレンダされ得る。オーディオオブジェクトの使用により、個々の効果の所望の制御がでくるが、映画サウンドトラックの他の側面は、チャンネルベース環境において有効に機能する。例えば、多くのアンビエント効果や反響は、スピーカの配列に入力されることにより実際の利益がある。これらはアレイを満たすのに十分な幅を有するオブジェクトとして扱えるが、チャンネルベース機能をすこし保持するとよい。

一実施形態では、適応的オーディオシステムは、オーディオオブジェクトに加えて「ベッド（beds）」をサポートする。ここで、ベッドは、事実上チャンネルベースのサブミックスまたはシュテム（stems）である。これらは、最終的再生（レンダリング）のために、コンテンツクリエータの意図に応じて、個別に、または単一のベッドに結合されて、配信できる。これらのベッドは、５．１、７．１などの異なるチャンネルベース構成で生成でき、９．１などのより大きいフォーマット及びオーバーヘッドスピーカを含む配列に拡張可能である。

図２は、一実施形態による、適応的オーディオミックスを作成するチャンネル及びオブジェクトベースデータの結合を示す図である。プロセス２００で示したように、チャンネルベースデータ２０２は、例えばパルスコード変調（ＰＣＭ）データの形式で提供される５．１または７．１サラウンドサウンドデータであるが、オーディオオブジェクトデータ２０４と結合され、適応的オーディオミックス２０８を形成する。オーディオオブジェクトデータ２０４は、元のチャンネルベースデータの要素を、オーディオオブジェクトのロケーションに関するパラメータを規定する関連メタデータと結合することにより生成される。

図２に概念的に示したように、オーサリングツールは、スピーカチャンネルグループとオブジェクトチャンネルのコンビネーションを同時に含むオーディオプログラムを生成する能力を提供する。例えば、オーディオプログラムは、任意的に複数のグループ（または、ステレオや５．１トラックなどのトラック）にオーガナイズされた一または複数のスピーカチャンネル、一または複数のスピーカチャンネルの記述的メタデータ、一または複数のオブジェクトチャンネル、及び一または複数のオブジェクトチャンネルの記述的メタデータを含み得る。一オーディオプログラム中で、各スピーカチャンネルグループ、及び各オブジェクトチャンネルは、一または複数の異なるサンプルレートを用いて表される。例えば、デジタルシネマ（Ｄシネマ）アプリケーションは、４８ｋＨｚと９６ｋＨｚのサンプルレートをサポートするが、他のサンプルレートをサポートしてもよい。さらにまた、異なるサンプルレートを有するチャンネルの取り込み、記憶、及び編集もサポートできる。

オーディオプログラムの生成は、サウンドデザインのステップを要する。これは、サウンド要素をレベル調整された構成サウンド要素の和として結合し、新しい所望のサウンド効果を生成するステップを含む。適応的オーディオシステムのオーサリングツールは、サウンド効果の生成を、スペーシオビジュアル（spatio-visual）サウンドデザイングラフィカルユーザインタフェースを用いて、相対的位置でサウンドオブジェクトのコレクションとして可能とする。例えば、発音オブジェクト（例えば、車）のビジュアル表現を、オーディオ要素（排気音、タイヤの音、エンジン雑音）をサウンドと適切な空間的位置（テールパイプ、タイヤ、ボンネットのところ）を含むオブジェクトチャンネルとして、アセンブルするテンプレートとして用いることができる。個別のオブジェクトチャンネルはグループとしてリンク及び操作できる。オーサリングツール１０６は、サウンドエンジニアが制御情報を入力しミックスパラメータを見て、システム機能を改善することができる複数のユーザインタフェース要素を含む。また、サウンドデザイン及びオーサリングプロセスは、オブジェクトチャンネルとスピーカチャンネルをグループとしてリンクし操作できるようにすることにより、改善される。一例は、オブジェクトチャンネルを、関連する反響信号を含む一組のスピーカチャンネルを有する個々のドライな音源と結合することである。

オーディオオーサリングツール１０６は、一般的にはミキシングと呼ばれる、複数のオーディオチャンネルを結合する機能をサポートする。ミキシングの複数の方法がサポートされ、従来のレベルベースミキシングとラウドネスベ―スミキシングを含む。レベルベースミキシングでは、ワイドバンドスケーリングがオーディオチャンネルに適用され、スケールされたオーディオチャンネルが足し合わせられる。各チャンネルのワイドバンドスケールファクタを選択して、得られるミクスト信号の絶対レベルと、ミクスト信号中のミックスされたチャンネルの相対レベルを制御する。ラウドネスベースミキシングでは、周波数依存振幅スケーリングを用いて、一または複数の入力信号が修正される。入力サウンドの知覚される音色は保存しつつ、周波数依存振幅を選択して所望の知覚される絶対ラウドネス及び相対ラウドネスを提供する。

オーサリングツールにより、スピーカチャンネルとスピーカチャンネルグループを生成できる。これにより、メタデータは、各スピーカチャンネルグループと関連する。各スピーカチャンネルグループは、コンテンツタイプに応じてタグできる。コンテンツタイプはテキスト記述を介して拡張可能である。コンテンツタイプは、会話、音楽、効果音を含むがこれらに限定されない。各スピーカチャンネルグループには、あるチャンネル構成から他のチャンネル構成にどのようにアップミックスするかに関する一意的な命令が割り当てられ、アップミキシングはN個のチャンネルのうちのM個のオーディオチャンネルの生成として定義される。ここで、Ｍ＞Ｎである。アップミックス命令は、次のものを含むがこれらに限定されない：アップミキシングが許可されているかを示すイネーブル／ディスエーブルフラグ；
各入出力チャンネル間のマッピングを制御するアップミックスマトリックス；及び
デフォルトのイネーブルとマトリックス設定はコンテンツタイプに基づき割り当てられる、例えば音楽についてのみアップミキシングをイネーブルにする。また、各スピーカチャンネルグループには、あるチャンネル構成から他のチャンネル構成にどのようにダウンミックスするかに関する一意的な命令が割り当てられ、ダウンミキシングはＸ個のチャンネルのうちのＹ個のオーディオチャンネルの生成として定義される。ここで、Ｙ＜Ｘである。ダウンミックス命令は、次の事項を含むがこれらに限定されない：各入出力チャンネル間のマッピングを制御するマトリックス；及び
デフォルトマトリックス設定は、コンテンツタイプ、例えば会話に基づき割り当てでき、スクリーンにダウンミックスする；
効果はスクリーンからダウンミックスされる。各スピーカチャンネルは、レンダリング中のバス管理をディスエーブルするメタデータフラグと関連付けられる。

実施形態には、オブジェクトチャンネルとオブジェクトチャンネルグループの生成を可能にする機能を含む。この発明により、メタデータは、各オブジェクトチャンネルグループと関連する。各オブジェクトチャンネルグループは、コンテンツタイプに応じてタグできる。コンテンツタイプは、テキスト記述を介して拡張可能である。コンテンツタイプは会話、音楽、及び効果を含むがこれらに限定されない。各オブジェクトチャンネルグループには、オブジェクトがどのようにレンダされるべきか記述するメタデータを割り当てられる。

所望の明らかなソース位置を示す位置情報が提供される。位置は、自己中心的または他人中心的参照枠を用いて示せる。自己中心参照は、ソース位置がリスナに参照されるときに適当である。自己中心的位置の場合、位置記述には球面座標が有用である。他人中心参照は、シネマ及びその他のオーディオ／ビジュアルプレゼンテーションの典型的参照枠であり、ソース位置は、ビジュアルディスプレイスクリーンや部屋の境界などのプレゼンテーション環境中のオブジェクトに対して参照される。位置の補間を可能とする、または「スナップ・ツー・モード（snap to mode）」を可能にするなどのその他のレンダリング決定を使用するための３次元（３Ｄ）トラジェクトリ情報が提供される。所望の明らかに知覚されるオーディオソースサイズを示すサイズ情報が提供される。

サウンドエンジニアまたはミキサーによる、（ある程度空間的な正確性を犠牲にして）ただ１つのスピーカによりオブジェクトをレンダリングさせる意図を示す「最も近いスピーカへのスナップ（snap to closest speaker）」コントロールにより空間的量子化がされる許可された空間的歪みの限界は、エレベーションとアジマスの許容閾値により示せ、閾値を過ぎると、「スナップ」機能が生じない。距離閾値に加え、クロスフェードレートパラメータを示して、所望の位置がスピーカ間を動く時、動いているオブジェクトがあるスピーカから他のスピーカにどのくらい速く移行するか制御する
一実施形態では、ある位置メタデータには、従属空間メタデータを用いる。例えば、「スレーブ」オブジェクトを、そのスレーブオブジェクトが従うべき「マスター」オブジェクトと関連づけて、そのスレーブオブジェクトに対してメタデータを自動的に生成できる。タイムラグや相対スピードをスレーブオブジェクトに割り当てることができる。複数のオブジェクトのセットまたはグループに対し、音響重心を画定できるメカニズムを設けて、オブジェクトが他のオブジェクトの周りを動くように知覚されるように、オブジェクトをレンダすることもできる。かかる場合には、一または複数のオブジェクトが一オブジェクトまたは支配点などの画定されたエリアまたは部屋のドライエリアの周りを回転する。究極のロケーション情報は、他のオブジェクトに対するロケーションとは反対に、部屋に対するロケーションとして表されるが、レンダリング段階で音響重心を用いて、適切な各オブジェクトベースサウンドのロケーション情報を決める。

オブジェクトは、レンダされるとき、位置メタデータ及び再生スピーカのロケーションにより一または複数のスピーカに割り当てられる。追加的メタデータは、オブジェクトに関連付けられ、使用されるスピーカを限定する。制約の使用により、示されたスピーカの使用を禁止でき、または単に示されたスピーカを阻止できる（制約を使用しない場合よりもそのスピーカへのエネルギーを少なくする）。制約されるスピーカセットは、指定スピーカまたはスピーカゾーン（例えば、Ｌ、Ｃ、Ｒなど）、または前壁、後壁、左壁、右壁、天井、床、室内のスピーカなどのスピーカエリアを含むがこれらに限定されない。同様に、複数のサウンド要素の所望のミックスを規定する過程では、他の「マスキング」サウンド要素があるために、一または複数の要素を聞こえなくするまたは「マスク」することが可能である。例えば、マスクされた要素は、検出された時、グラフィカルディスプレイを介してユーザに識別され得る。

別途説明するように、広いバラエティのスピーカインストレーションとチャンネル構成におけるレンダリングに、オーディオプログラム記述を適応できる。オーディオプログラムをオーサリングする時、期待の再生構成にいてプログラムをレンダリングする効果をモニターして、所望の結果が実現されていることを確認することが重要である。この発明は、ターゲット再生構成を選択してその結果をモニターする機能を含む。また、このシステムは、自動的に、期待される各再生構成で生成されるワーストケース（すなわち、最高）信号レベルをモニターして、クリッピングやリミッティングが起これば、表示を提供できる。

図３は、一実施形態による、適応的オーディオコンテンツを生成、パッケージ、及びレンダリングするワークフローを示すブロック図である。図３のワークフロー３００は、生成／オーサリング、パッケージング、及びエギジビションとラベルされた３つの区別できるタスクグループに分割されている。一般的に、図２に示したベッドとオブジェクトのハイブリッドモデルにより、ほとんどのサウンドデザイン、編集、プリミキシング、ファイナルミキシングが今日行われているのと同様に行われ、本プロセスに過度なオーバーヘッドを加えない。一実施形態では、サウンドプロダクションと処理機器と共に使われるソフトウェア、ファームウェア、または回路の形式で、適応的オーディオ機能が提供され、かかる機器は新しいハードウェアシステムであってもよく、または既存のシステムをアップデートする。例えば、プラグインアプリケーションがデジタルオーディオワークステーションのために提供され、サウンドデザインと編集内の既存のパンニング方法は変わらなくても良い。このように、ベッドとオブジェクトを両方とも５．１または同様のサラウンド対応の編集室にあるワークステーション内に入れることが可能である。オブジェクトオーディオ及びメタデータは、ダビングシアターにおいて、プリミックス及びファイナルミックス段階の準備のセッションで記録される。

図３に示したように、製作またはオーサリングタスクには、ユーザによる、例えば以下の例ではサウンドエンジニアによるミキシングコントロール３０２の、ミキシングコンソールまたはオーディオワークステーション３０４への入力を含む。一実施形態では、メタデータは、魅しキングコンソール面に集積され、これによりチャンネルストリップのフェーダ、パンニング、及びオーディオ処理がベッドまたはシュテムとオーディオオブジェクトと協働できる。メタデータは、コンソール面またはワークステーションユーザインタフェースのいずれかを用いて編集でき、サウンドはレンダリング及びマスタリングユニット（ＲＭＵ）３０６を用いてモニターされる。ベッドとオブジェクトのオーディオデータ及び関連メタデータは、マスタリングセッション中に記録され、「プリントマスター」を生成する。このプリントマスターは、適応的オーディオミックス３１０とその他の任意のレンダされた派生物（サラウンド７．１または５．１シアター用ミックス）３０８を含む。既存のオーサリングツール（例えば、ProToolsなどのデジタルオーディオワークステーション）を用いて、サウンドエンジニアは、ミックスセッション中の個々のオーディオトラックをラベルできる。実施形態は、ユーザがトラック中の個々のサブセグメントをラベルして、オーディオ要素の発見または素早い特定を支援することにより、このコンセプトを拡張する。メタデータの定義または生成を可能にするミキシングコンソールへのユーザインタフェースを、グラフィカルユーザインタフェース要素、物理的コントロール（例えば、スライダやノブ）、またはこれらの任意の組合せにより実施できる。

パッケージング段階において、プリントマスターファイルは、デジタルシネマパッケージング施設に送るため、オーディオコンテンツのインテグリティを保証するために、業界標準のＭＸＦラッピングプロシージャを用いてラップされ、ハッシュされ、任意的に暗号化される。このステップは、デジタルシネマプロセッサ（ＤＣＰ）３１２または任意の適切なオーディオプロセッサにより、シアター３１８に備えられた標準サラウンドサウンド、適応的オーディオ対応シアター３２０、またはその他の再生環境など、最終的な再生環境に応じて行える。図３に示したように、プロセッサ３１２は、エギジビション環境に応じて適当なオーディオ信号３１４と３１６を出力する。

一実施形態では、適応的オーディオプリントマスターは、標準的ＤＣＩ準拠パルスコード変調（ＰＣＭ）ミックスとともに適応的オーディオミックスを含む。ＰＣＭミックスは、ダビングシアターのレンダリング及びマスタリングユニットによりレンダでき、または必要に応じて別個のミックスパスにより生成できる。ＰＣＭオーディオは、デジタルシネマプロセッサ３１２中の標準的メインオーディオトラックファイルを形成し、適応的オーディオは突いて蚊的トラックファイルを形成する。かかるトラックファイルは、既存の業界標準に準拠しており、それを使えないＤＣＩ準拠サーバにより無視される。

シネマ再生環境の例では、適応的オーディオトラックファイルを含むＤＣＰは、サーバにより有効なパッケージとして認識され、サーバに取り込まれ、適応的オーディオシネマプロセッサにストリーミングされる。リニアＰＣＭと適応的オーディオファイルを両方とも利用できるシステムは、必要に応じてそれらを切り換えることができる。エギジビション段階への配信のため、適応的オーディオパッケージングスキームにより、単一タイプのパッケージがシネマに配信できる。ＤＣＰパッケージは、ＰＣＭと適応的オーディオファイルの両方を含む。鍵デリバリーメッセージ（ＫＤＭ）などのセキュリティ鍵の利用を組み込み、ムービーコンテンツその他の同様のコンテンツのセキュアデリバリーを可能にする。

図３に示したように、サウンドエンジニアが、オーディオワークステーション３０４により、オーディオコンテンツのレンダリングと再生に関する自分の意図を表現できるようにすることにより、適応的オーディオメソドロジーが実現される。入力コントロールを制御することにより、エンジニアは、リスニング環境に応じて、オーディオオブジェクトとサウンド要素がどこでどのように再生されるか、規定することができる。メタデータは、エンジニアのミキシング入力３０２に応じて、オーディオワークステーション３０４において生成され、空間的パラメータ（例えば、位置、ベロシティ、強さ、音色など）を制御し、エギジビション中に、リスニング環境のどのスピーカまたはスピーカグループがそれぞれのサウンドを発する（play）するか規定するレンダリングキューを提供する。メタデータは、ＤＣＰ３１２によるパッケージングと伝送のために、ワークステーション３０４またはＲＭＵ３０６において、それぞれのオーディオデータと関連付けられる。

エンジニアによるワークステーション３０４の制御を提供するグラフィカルユーザインタフェース及びソフトウェアツールは、図１のオーサリングツール１０６の少なくとも一部を有する。

ハイブリッドオーディオコーデック
図１に示したように、プロセッサ１００はハイブリッドオーディオコーデック１０８を含む。このコンポーネントは、従来のチャンネルベースのオーディオ要素とオーディオオブジェクトコーディング要素の両方を含む単一ビットストリームを生成するように構成されたオーディオ符号化、配信、及び復号システムを有する。ハイブリッドオーディオコーディングシステムは、第１の符号化プロトコル（チャンネルベース）により符号化されたオーディオデータを復号するように構成された第１のデコーダと、一または複数の第２の符号化プロトコル（オブジェクトベース）により符号化されたオーディオデータを復号するように構成された一または複数の第２のデコーダとに、同時にコンパチブルである（すなわち、それらにより復号可能な）単一の（一体化された）ビットストリームを生成するように構成されたチャンネルベースの符号化システムを中心に作られている。ビットストリームは、第１のデコーダにより復号可能な（どの第２のデコーダによっても無視される）（データバーストの形式の）符号化データと、一または複数の第２のデコーダにより復号可能な（第１のデコーダにより無視される）（例えば、他のデータバーストである）符号化データとを両方とも含み得る。第１と一または複数の第２のデコーダからの復号されたオーディオ及び関連情報（メタデータ）を、チャンネルベース及びオブジェクトベースの情報が両方とも同時にレンダされ、ハイブリッドコーディングシステムに提供された（すなわち、３Ｄ空間またはリスニング環境内の）環境、チャンネル、空間情報、オブジェクトのファクシミリを生成するように、結合できる。

コーデック１０８は、コード化されたオーディオ情報と、複数組のチャンネル位置（スピーカ）に関する情報を含むビットストリームを生成する。一実施形態では、一組のチャンネル位置は一定であり、チャンネルベースの符号化プロトコルに用いられ、一方、他の一組のチャンネル位置は適応的であり、オーディオオブジェクトのチャンネル構成が（そのオブジェクトがサウンドフィールドのどこに配置されるかに応じて）時間の関数として変化してもよいように、オーディオオブジェクトベースの符号化プロトコルに用いられる。このように、ハイブリッドオーディオコーディングシステムは、再生用に２組のスピーカロケーションに関する情報を担っており、一組は一定であり他の組のサブセットであってもよい。レガシーコード化されたオーディオ情報をサポートしているデバイスは、一定のサブセットからオーディオ情報を復号してレンダし、一方、より大きなセットをサポートできるデバイスは、そのより大きなセットから異なるスピーカに時間に依存して割り当てられた追加的コード化されたオーディオ情報を復号してレンダする。さらに、このシステムは、システム及び／またはデバイス内に同時に存在する第１の及び一または複数の第２のデコーダに依存しない。よって、第１のプロトコルをサポートしているデコーダのみを含むレガシー及び／または既存のデバイス／システムは、従来のチャンネルベースの再生システムを介してレンダされる完全にコンパチブルなサウンドフィールドを作る。この場合、ハイブリッドビットストリームプロトコルの未知のまたはサポートされていない部分（すなわち、第２の符号化プロトコルにより表現されたオーディオ情報）は、第１のハイブリッド符号化プロトコルをサポートしているシステムまたはデバイスデコーダにより無視される。

他の一実施形態では、コーデック１０８は、（第１のプロトコルをサポートする）第１の符号化サブシステムが、ハイブリッドエンコーダ中にある第１と一または複数の第２のエンコーダの両方により表されたすべてのサウンドフィールド情報（チャンネル及びオブジェクト）の結合表現（combined representation）を含むモードで動作するように構成されている。これにより、（典型的には一または複数の第２のエンコーダプロトコルに担われる）オーディオオブジェクトが第１のプロトコルのみをサポートするデコーダ内で表現されレンダされることにより、ハイブリッドビットストリームが、第１のエンコーダサブシステムのプロトコルのみをサポートするデコーダと後方互換性を含む。

さらに他の一実施形態では、コーデック１０８は、二以上の符号化サブシステムを含む。これらのサブシステムの各々は、異なるプロトコルによりオーディオデータを符号化するように構成され、複数のサブシステムの出力を結合してハイブリッドフォーマットの（一体化された）ビットストリームを生成する。

この実施形態の利益の一つは、ハイブリッドコード化されたオーディオビットストリームが、各々が第１の符号化プロトコルにより符号化されたデータのみを従来からサポートする広い範囲のコンテンツ配信システムで搬送できることである。これにより、ハイブリッドコーディングシステムをサポートするために、システム及び／またはトランスポートレベルのプロトコルの修正／変更が必要でなくなる。

オーディオ符号化システムは、一般的に、標準化されたビットストリーム要素を利用して、ビットストリーム自体中の追加的（任意の）データの伝送を可能にする。この追加的（任意の）データは、ビットストリーム中に含まれる符号化オーディオの復号中にはスキップ（すなわち、無視）されるが、復号以外の目的に用いられる。異なるオーディオコーディング標準は、一意的な用語体系を用いてこれらの追加的データフィールドを表す。この一般タイプのビットストリーム要素には、補助データ、スキップフィールド、データストリーム要素、フィル要素、付随的データ、及びサブストリーム要素を含むが、これらに限定されない。特に断らなければ、本文書において「補助データ」との表現の利用は、あるタイプやフォーマットの追加的データを示唆するのではなく、本発明に関連する実施例の一部または全部を含む一般的な表現として解釈すべきである。

結合されたハイブリッドコーディングシステムビットストリーム中の第１の符号化プロトコルの「補助的」ビットストリームを介してイネーブルされたデータチャンネルは、（一または複数の第２の符号化プロトコルで符号化された）一または複数の（独立のまたは従属した）オーディオビットストリームを担い得る。一または複数の第２のオーディオビットストリームは、Ｎ個のサンプルブロックに分割でき、第１のビットストリームの「補助データ」フィールドに多重される。第１のビットストリームは、適当な（準拠した）デコーダにより復号される。また、第１のビットストリームの補助データは、抽出され、一または複数の第２のオーディオビットストリームに再結合され、一または複数の第２のビットストリームのシンタックスをサポートしているプロセッサにより復号され、共にまたは独立に結合及びレンダされる。さらに、第１のビットストリームのデータのブロックが第２のビットストリームの補助データに多重されるように、第１と第２のビットストリームの役割を逆転することも可能である。

第２の符号化プロトコルに関連するビットストリーム要素も、その基礎をなすオーディオの情報（メタデータ）特性を担い搬送する。その情報は、所望の音源位置、ベロシティ、及びサイズを含むがこれらに限定されない。このメタデータは、復号とレンダリングのプロセスで利用され、適応可能なビットストリーム中に担われた関連オーディオオブジェクトの適切な（すなわち、元の）位置を再生する。また、上記のメタデータは、ハイブリッドストリームにある一または複数の第２のビットストリームに含まれたオーディオオブジェクトに適用可能であり、これを第１の符号化プロトコルに関連するビットストリーム要素内に担うことも可能である。

ハイブリッドコーディングシステムの第１と第２の符号化プロトコルのどちらかまたは両方に関連するビットストリーム要素は、空間パラメータ（すなわち、信号プロパティ自体のエッセンス）と、ハイブリッドコード化されたオーディオビットストリーム中に担われるオーディオクラスの形式で、基礎となるオーディオエッセンスタイプを記述するさらに別の情報とを特定するコンテキストメタデータを担う／搬送する。かかるメタデータは、例えば、話された会話、音楽、音楽ごしの会話、拍手、歌う声などの存在を示し、ハイブリッドコーディングシステムの上流または下流の、相互接続された前または後処理モジュールを適応的に修正するのに利用できる。

一実施形態では、コーデック１０８は、コーディングに利用できるビットが一または複数のプロトコルをサポートしている符号化サブシステムの全部または一部間で「共有」されている共有または共通ビットプールで動作するように構成されている。かかるコーデックは、一体化されたビットストリームの全体的な音質を最適化するために、符号化サブシステム間で（共通の「共有」ビットプールから）利用可能なビットを記述する。例えば、第１の時間区間中、コーデックは、第１の符号化サブシステムにより多い利用可能ビットを割り当て、残りのサブシステムにより少ない利用可能ビットを割り当て、第２の時間区間中、コーデックは、第１の符号化サブシステムにより少ない利用可能ビットを割り当て、残りのサブシステムにより多い利用可能ビットを割り当ててもよい。符号化サブシステム間でビットをいかに割り当てるかという決定は、例えば、共有ビットプールの統計的分析及び／または各サブシステムにより符号化されたオーディオコンテンツの分析の結果に依存する。コーデックは、符号化サブシステムの出力を多重することにより構成された一体化ビットストリームが規定時間区間にわたり一定のフレーム長さ／ビットレートを維持するように、共有プールからのビットを割り当てる。また、ある場合には、一体化されたビットストリームのフレーム長さ／ビットレートが規定時間区間にわたり変化することも可能である。

別の一実施形態では、コーデック１０８は、（第１の符号化プロトコルをサポートしているデコーダが復号する）符号化されたデータストリームの独立サブストリームとして構成され送信された第１の符号化プロトコルにより符号化されたデータと、（第１のプロトコルをサポートしているデコーダが無視する）符号化されたデータストリームの独立なまたは従属するサブストリームとして送られた第２のプロトコルにより符号化されたデータとを含む、一体化されたビットストリームを生成する。より一般的に、一クラスの実施形態において、コーデックは、二以上の独立または従属したサブストリーム（各サブストリームは異なるまたは同じ符号化プロトコルにより符号化されたデータを含む）を含む一体化されたビットストリームを生成する。

さらに別の一実施形態では、コーデック１０８は、（一意的ビットストリーム識別子と関連する第１の符号化プロトコルをサポートするデコーダが復号する）一意的ビットストリーム識別子で構成され送信された第１の符号化プロトコルにより符号化されたデータと、一意的なビットストリーム識別子と構成され送信された第２のプロトコルにより符号化された、第１のプロトコルをサポートするデコーダは無視するデータとを含む、一体化されたビットストリームを生成する。より一般的に、一クラスの実施形態において、コーデックは、二以上のサブストリーム（各サブストリームは異なるまたは同じ符号化プロトコルにより符号化されたデータを含み、各々が一意的なビットストリーム識別子を担う）を含む一体化されたビットストリームを生成する。上記の一体化されたビットストリームを生成する方法とシステムにより、ハイブリッドビットストリーム中でどのインターリービング及び／またはプロトコルが利用されたか、（デコーダに）曖昧さ無くシグナリングする機能が提供される（例えば、ＡＵＸデータ、ＳＫＩＰ、ＤＳＥ、またはサブストリームアプローチを利用するかシグナリングする）。

本ハイブリッドコーディングシステムは、一または複数の第２のプロトコルをサポートしているビットストリームのデ・インターリービング／デ・マルチプレクシングと、メディア配信システムにわたり見つかる処理ポイントにおいて（第１のプロトコルをサポートしている）第１のビットストリームへの再インターリービング／再マルチプレクシングをサポートするように構成されている。また、ハイブリッドコーデックは、異なるサンプルレートのオーディオ入力ストリームをビットストリームに符号化できるように構成されている。これにより、生来的に異なる帯域幅を有する信号を含む音源を効率的にコーディングして配信する手段を提供する。例えば、ダイアローグトラックは、一般的には、音楽や効果トラックよりも、生来的に低い帯域幅を有する。
レンダリング
一実施形態では、本適応的オーディオシステムにより、複数の（例えば、１２８までの）トラックを、通常はベッドとオブジェクトの組合せとして、パッケージングすることができる。適応的オーディオシステム用のオーディオデータの基本的フォーマットは、複数の独立したモノフォニックオーディオストリームを含む。各ストリームは、ストリームがチャンネルベースストリームかオブジェクトベースストリームかを規定する、関連するメタデータを有する。チャンネルベースストリームは、チャンネル名またはラベルにより符号化されたレンダリング情報を有する。オブジェクトベースストリームは、別の関連メタデータに符号化された数学的式により符号化されたロケーション情報を有する。元の独立な複数のオーディオストリームは、順序付けられた、オーディオデータの全部を含む単一のシリアルビットストリームとしてパッケージされる。この適応的データ構成により、サウンドが、他者中心的参照枠によりレンダされる。サウンドの最終的レンダリングロケーションは、ミキサーの意図に対応するように、再生環境に基づく。このように、サウンドは、ラベルされたスピーカやスピーカグループ（例えば、レフトサラウンド）ではなく、再生する部屋の参照枠（例えば、左壁の中央）から発するように規定できる。オブジェクト位置メタデータは、適応的オーディオコンテンツを再生するように設定された部屋における利用可能なスピーカ位置を用いて、サウンドを正しく再生するのに必要な、適切な他者中心的参照枠情報を含む。

レンダラは、オーディオトラックを符号化するビットストリームを取り、信号タイプによりそのコンテンツを処理する。ベッドはアレイに送られる。アレイは、潜在的にここのオブジェクトとは異なる遅延及び等化処理を要する。本プロセスは、これらのベッドとオブジェクトの、複数の（６４までの）スピーカ出力へのレンダリングをサポートする。図４は、一実施形態による、適応的オーディオシステムのレンダリング段階を示すブロック図である。図４のシステム４００に示したように、適応的オーディオ信号４０２を有する１２８までのオーディオトラックなどの複数の入力信号は、ＲＭＵ３０６とプロセッサ３１２などのシステム３００の製作、オーサリング、及びパッケージング段階のコンポーネントにより提供される。これらの信号は、レンダラ４０４により利用されるチャンネルベースのベッドとオブジェクトを含む。チャンネルベースのオーディオ（ベッド）とオブジェクトは、異なるオーディオコンポーネントの出力レベルまたは振幅を制御するレベルマネージャ４０６に入力される。あるオーディオコンポーネントは、アレイ補正コンポーネント４０８により処理される。適応的オーディオ信号は、Ｂチェーン処理コンポーネント４１０を通してパスされる。Ｂチェーン処理コンポーネント４１０は、複数の（例えば、６４までの）スピーカフィード出力信号を生成する。一般的に、Ｂチェインフィードは、フィルムストックのサウンドトラックを構成するＡチェインコンテンツに対して、パワーアンプ、クロスオーバー、及びスピーカにより処理された信号を指す。

一実施形態では、レンダラ４０４は、シアターのサラウンドスピーカをその最高の能力までインテリジェントに使うレンダリングアルゴリズムを実行する。サラウンドスピーカのパワーハンドリングと周波数応答を改善し、シアターの各出力チャンネルまたはスピーカの同じモニタリング基準レベルを維持することにより、スクリーンとサラウンドスピーカ間でパン（panned）されるオブジェクトは、自分の音圧レベルを維持して、シアターの全体的な音圧レベルを上げること無く、音色をよりマッチさせることができる。適当に規定されたサラウンドスピーカのアレイは、サラウンド７．１または５．１サウンドトラック（すなわち、基準レベルの２０ｄB上）中で利用可能な最大ダイナミックレンジを再生するのに一般的には十分なヘッドルームを有するが、単一のサラウンドスピーカが大型のマルチウェイスクリーンスピーカと同じヘッドルームを有する可能性は低い。結果として、サラウンドフィールドに配置されたオブジェクトが、単一のサラウンドスピーカを用いて得られるより大きい音圧を必要とする場合がある。これらの場合には、レンダラは、必要な音圧レベルを実現するため、適当な数のスピーカにわたりサウンドを分散する。適応的オーディオシステムは、サラウンドスピーカの品質とパワーハンドリングを改善して、レンダリングの忠実性を改善する。適応的オーディオシステムは、各サラウンドスピーカが改善されたパワーハンドリングを実現できる、同時に任意的により小さなスピーカキャビネットを利用できる、任意的なリアサブウーファの使用によるサラウンドスピーカのバスマネージメントをサポートする。また、現在のプラクティスよりもスクリーン近くにサイドサラウンドスピーカの追加して、オブジェクトがスクリーンからサラウンドにスムースに移行することを確保する。

オーディオオブジェクトのロケーション情報を規定するメタデータをレンダリングプロセスで使うことにより、システム４００は、コンテンツクリエータが既存のシステムを越えて動く包括的かつ柔軟な方法を提供する。前述の通り、現在のシステムは、あるスピーカロケーションに固定されたオーディオを、オーディオエッセンス（再生されるオーディオの部分）で搬送されるコンテンツのタイプについての限定的知識だけで、生成して配信する。適応的オーディオシステム１００は、特定スピーカロケーションオーディオ（レフトチャンネル、ライトチャンネル等）と、サイズとベロシティを含むがこれらに限定されない一般化空間情報を有するオブジェクト指向オーディオ要素との両方のオプションを含む新しいハイブリッドアプローチを提供する。このハイブリッドアプローチは、（固定スピーカロケーションにより提供される）忠実性と（一般化オーディオオブジェクトの）レンダリングにおける柔軟性に対するバランスが取れたアプローチを提供する。また、このシステムは、コンテンツ制作時におけるコンテンツクリエータによるオーディオエッセンスとペアになったオーディオコンテンツに関する追加的な有用な情報を提供する。この情報は、レンダリング中に非常にパワフルな方法で用いられるオーディオの属性に関するパワフルで詳細な情報を提供する。かかる属性には、コンテンツタイプ（会話、音楽、効果、フォーリィ（Foley）、背景／周囲など）、空間属性（３Ｄ位置、３Ｄサイズ、ベロシティ）、レンダリング情報（スピーカロケーションへのスナップ、チャンネル重み、ゲイン、バスマネージメント情報など）を含むが、これらに限定されない。

ここに説明する適応的オーディオシステムは、幅広く可変する数のエンドポイントによりレンダするのに使えるパワフルな情報を提供する。多くの場合、適用される最適なレンダリング方法は、エンドポイントデバイスに大きく依存する。例えば、ホームシアタシステムとサウンドバーは、２、３、５、７または９個の別個のスピーカを有することがある。テレビジョン、コンピュータ、及びミュージックドックなどの他の多くのタイプのシステムは、２つのスピーカのみを有し、ほとんどすべての一般に使われるデバイス（ＰＣ、ラップトップ、タブレット、携帯電話、ミュージックプレーヤなど）はバイノーラルヘッドホン出力を有する。しかし、今日販売されている従来のオーディオ（モノ、ステレオ、５．１、７．１チャンネル）の場合、エンドポイントデバイスは単純化した決定をする必要があることが多く、特定チャンネル／スピーカ形式で配信されているオーディオをレンダ及び再生する妥協をする。また、配信されている実際のコンテンツ（会話、音楽、周囲など）に関して搬送される情報はほとんどまたは全く無く、オーディオ再生についてコンテンツクリエータの意図に関する情報はほとんどまたは全く無い。しかし、適応的オーディオシステム１００は、この情報と、潜在的にオーディオオブジェクトへのアクセスを提供する。これらを用いて、人を引きつける次世代のユーザ体験を創造できる。

システム１００により、コンテンツクリエータは、一意的及びパワフルなメタデータと適応的オーディオ伝送フォーマットにより、位置サイズ、ベロシティなどのメタデータを用いてビットストリーム中に、ミックスの空間的意図を組み込める。これにより、オーディオの空間再生に大きな柔軟性ができる。空間レンダリングの立場から、適応的オーディオにより、再生システムのジオメトリがオーサリングシステムのジオメトリと同じでない場合に生じる空間的歪みを回避するため、ミックスの適応を、部屋におけるスピーカの厳密な位置にすることができる。一スピーカチャンネルのオーディオのみが送られる現在のオーディオ再生システムでは、コンテンツクリエータの意図は分からない。システム１００は、生成及び配信パイプラインで搬送されたメタデータを用いる。適応的オーディオ対応（adaptive audio-aware）再生システムは、このメタデータ情報を用いて、コンテンツクリエータの元の意図に合うように、コンテンツを再生する。同様に、ミックスを再生システムの厳密なハードウェア構成に適応させることができる。現在、テレビジョン、ホームシアタ、サウンドバー、ポータブルミュージックプレーヤドックなど、レンダリング機器には多くの異なるスピーカ構成とタイプがある。これらのシステムは、今日、特定チャンネルオーディオ情報（すなわち、レフト及びライトチャンネルオーディオまたはマルチチャンネルオーディオ）を送る時、オーディオを処理して、レンダリング機器の能力に適宜マッチさせなければならない。一例は、標準的なステレオオーディオが三以上のスピーカを有するサウンドバーに送られる時である。一スピーカチャンネルのオーディオのみが送られる現在のオーディオ再生では、コンテンツクリエータの意図は分からない。生成及び配信パイプラインにより搬送されたメタデータの使用により、適応的オーディオ対応再生システムは、この情報を用いて、コンテンツクリエータの元の意図にマッチするように、コンテンツを再生する。例えば、あるサウンドバーは、横向きのスピーカを有し、包み込まれた感じを生じる。適応的オーディオでは、空間情報とコンテンツタイプ（周囲効果など）をサウンドバーにより用いて、適切なオーディオのみをこれらの横向き（side firing）スピーカに送ることができる。

適応的オーディオシステムにより、すべてのフロント／バック、レフト／ライト、アップ／ダウン、ニア／ファーディメンションで無制限の補間をできる。現在のオーディオ再生システムでは、リスナが２つのスピーカの間にいると感じるようにオーディオを配置することが望ましいオーディオをどのように処理するかに関する情報は無い。現在、特定のスピーカのみに割り当てられたオーディオでは、空間的量子化ファクタが導入される。適応的オーディオでは、オーディオの空間的位置付けが正確に分かり、オーディオ再生システムにおいて適宜再生できる。

ヘッドホンレンダリングに関して、クリエータの意図は、頭部伝達関数（ＨＲＴＦ）を空間位置にマッチングすることにより実現される。オーディオがヘッドホンで再生される時、頭部伝達関数の適用により、空間的仮想化が実現できる。頭部伝達関数は、オーディオを処理し、オーディオがヘッドホンではなく３Ｄ空間で発せられているような感じを生じる知覚的キューを付け加える。空間再生の正確性は、空間的位置を含む複数のファクタに基づき変化し得る適当なＨＲＴＦの選択に依存する。適応的オーディオシステムにより提供される空間情報を用いると、一または連続的に変化する数のＨＲＴＦが選択され、再生体験が大幅に改善される。

適応的オーディオシステムにより搬送される空間情報は、コンテンツクリエータにより、人を引きつけるエンターテイメント体験（フィルム、テレビジョン、音楽など）の生成に使われるだけでなく、ビルディングや地理的関心地点などの物理的オブジェクトに対してリスナがどこに配置しているかを示すことができる。これにより、ユーザは、現実世界に関する、すなわち拡張現実に関する仮想化されたオーディオ体験とインターラクトできる。

実施形態は、オブジェクトオーディオデータが利用できない場合にのみメタデータを読むことにより、エンハンスされたアップミキシングをすることにより、空間的アップミキシングを可能にする。すべてのオブジェクトの位置とそのタイプを知ることにより、アップミキサは、チャンネルベーストラック中の要素を差別化できる。既存のアップミキシングアルゴリズムは、オーディオコンテンツタイプなど、及びオーディオストリーム中の異なる要素の位置などの情報を推論し、可聴アーティファクトが最小限のまたは無い高品質アップミックスを生成しなければならない。多くの場合、推論される情報は不正確または不適当である。適応的オーディオでは、オーディオコンテンツタイプ、空間的位置、ベロシティ、オーディオオブジェクトサイズなどに関するメタデータから得られる追加情報を、アップミキシングアルゴリズムにより用いて、高品質の再生結果を生成することができる。また、本システムは、スクリーンのオーディオオブジェクトをビジュアル要素に正確に位置付けすることにより、オーディオをビデオに空間的にマッチさせる。この場合、オーディオ要素の再生される空間的ロケーションがスクリーン上の画像要素にマッチする場合、人を引きつけるオーディオ／ビデオ再生体験が可能であり、特にスクリーンサイズが大きい場合にそうである。一例は、フィルムまたはテレビジョンプログラム中の会話を、スクリーン上で話している人やキャラクタと空間的に一致させることである。通常のスピーカチャンネルベースオーディオでは、スクリーン上の人やキャラクタのロケーションにマッチさせるために、会話が空間的にどこに配置されるべきかを決定する簡単な方法は無い。適応的オーディオで利用可能なオーディオ情報を用いて、かかるオーディオ／ビジュアルアライメントが実現できる。また、ビジュアル位置及びオーディオ空間アライメントを、自動車、トラック、アニメーションなどの非キャラクタ／会話オブジェクトに用いることもできる。

空間マスキング処理がシステム１００により促進される。適応的オーディオメタデータによるミックスの空間的意図の知識は、そのミックスを任意のスピーカ構成に適応できることを意味するからである。しかし、人は再生システムの制約により、同じロケーションまたはほとんど同じロケーションにおけるオブジェクトをダウンミックスする危険を冒す。例えば、サラウンドチャンネルがなければ、レフトリアにパンされることを意図されたオブジェクトは、レフトフロントにダウンミックスされ、同時にレフトフロントで音量がより大きな要素がしょうじた場合、ダウンミックスされたオブジェクトはマスクされ、ミックスから消える。適応的オーディオメタデータを用いて、空間マスキングがレンダラにより予定され、各オブジェクトの空間及び／またはラウドネスダウンミックスパラメータが調整されるので、ミックスのすべてのオーディオ要素は、元のミックスと同じくらい知覚可能のままである。レンダラは、ミックスと再生システムとの間の空間的関係を理解しているので、二以上のスピーカ間にファントムイメージを生成する替わりに、最も近いスピーカにオブジェクトを「スナップ」する機能を有する。これは、ミックスの空間表現を少し歪めるが、レンダラが意図しないファントムイメージを回避できる。例えば、ミキシング段階のレフトスピーカの角度位置が、再生システムのレフトスピーカの角度位置に対応しない場合、最も近いスピーカへのスナップ機能を用いて、再生システムにミキシング段階のレフトチャンネルの一定のファントムイメージを再生させることを回避できる。

コンテンツ処理に関して、適応的オーディオシステム１００により、コンテンツクリエータは、個々のオーディオオブジェクトを生成し、コンテンツに関する情報を追加でき、再生システムに搬送できる。これにより、再生前のオーディオの処理の柔軟性が大きくなる。コンテンツ処理とレンダリングの立場から、適応的オーディオシステムにより処理をオブジェクトの対応に適応させることが可能である。例えば、会話エンハンスメントは会話オブジェクトのみに適用できる。会話エンハンスメントは、会話の可聴性及び／または明瞭性が高く及び／または向上するように、会話を含むオーディオを処理する方法を指す。多くの場合、会話に適用されるオーディオ処理は、非会話オーディオコンテンツ（すなわち、音楽、周囲効果など）には不適当であり、好ましくない可聴アーティファクトが生じることがある。適応的オーディオでは、オーディオオブジェクトは、一コンテンツに会話のみを含み、レンダリングソリューションが会話コンテンツのみに会話エンハンスメントを選択的に適用するように、適宜ラベルできる。また、オーディオオブジェクトが会話のみである（かつ、多くの場合のように、会話とその他のコンテンツのミクスチャではない）場合、会話エンハンスメント処理は、排他的に会話を処理できる（それにより、他のコンテンツに処理がされることを制限する）。同様に、バスマネージメント（フィルタリング、減衰、利得）は、それらのタイプに基づきオブジェクトにターゲットにできる。バスマネージメントは、一コンテンツ中のバス（以下の）周波数のみを選択的に隔離して処理することを指す。現在のオーディオシステムと配信メカニズムでは、これはすべてのオーディオに適用される「ブラインド」プロセスである。適応的オーディオでは、バスマネージメントが適当であるオーディオオブジェクトは、メタデータにより特定でき、レンダリング処理を適当に適用できる。

また、適応的オーディオシステム１００は、オブジェクトベースの動的レンジ補正と選択的アップミキシングを提供する。従来のオーディオトラックは、コンテンツ自体と同じ長さを有するが、オーディオオブジェクトはコンテンツ中の限られた時間のみに生じることもある。オブジェクトと関連したメタデータは、その平均に関する情報と、ピーク信号振幅と、及びその開始またはアタック時間（特に、遷移素材の場合）を含む。この情報により、コンプレッサは、その圧縮と時定数（アタック、リリースなど）をコンテンツにより合うように適応する。選択的アップミキシングの場合、コンテンツクリエータは、適応的オーディオビットストリームに、オブジェクトがアップミックスされるべきか否かを示すことを選択するかも知れない。この情報により、適応的オーディオレンダラとアップミキサは、クリエータの意図をリスペクトしつつ、どのオーディオ要素が安全にアップミックスできるか、判断できる。

また、実施形態により、適応的オーディオシステムは、複数の利用可能なレンダリングアルゴリズム及び／またはサラウンドサウンドフォーマットから、好ましいレンダリングアルゴリズムを選択できる。利用可能なレンダリングアルゴリズムの例には、バイノーラル、ステレオダイポール、Ａｍｂｉｓｏｎｉｃｓ、ＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓ（ＷＦＳ）、マルチチャンネルパンニング、位置メタデータを有する未加工シュテム（raw stems）などがある。他には、デュアルバランスやベクトルベース振幅パンニングがある。

バイノーラル配信フォーマットは、左右の耳における信号に関して、サウンドフィールドの２チャンネル表現を用いる。バイノーラル情報は耳内レコーディングにより生成でき、またはＨＲＴＦモデルを用いて合成できる。バイノーラル表現の再生は、一般的にはヘッドホンにより、またはクロストークキャンセレーションを用いることにより行われる。任意のスピーカ設定による再生には、関連サウンドフィールド及び／または信号ソースを決定する信号分析が必要である。

ステレオダイポールレンダリング法は、バイノーラル信号を、（例えば、センターから±１０°離れたところの）ステレオスピーカで再生できるようにするトランスオーラルクロストークキャンセレーションプロセスである。

Ａｍｂｉｓｏｎｉｃｓは、Ｂフォーマットと呼ばれる４チャンネルで符号化された（配信フォーマット及びレンダリング方法）である。第１のチャンネルＷは、無指向性圧力信号である；第２のチャンネルＸは、フロント及びバック情報を含む指向性圧力グラジエントである；第３のチャンネルＹは、レフトとライトを含む、Ｚはアップとダウンを含む。これらのチャンネルは、ある点における完全なサウンドフィールドの一次サンプルを画定する。Ａｍｂｉｓｏｎｉｃｓは、利用可能なすべてのスピーカを用いて、スピーカアレイ内のサンプリング（または合成）されたサウンドフィールドを、一部のスピーカがプッシュしている時に、他のスピーカがプルするように再生成する。

ＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓは、セカンダリソースによる所望のウェーブフィールドの正確な構成に基づく、サウンド再生のレンダリング方法である。ＷＦＳは、ホイヘンスの原理に基づき、リスニングスペースを取り囲み、個々の各サウンドウェーブを再生成するように、統制された位相制御された方法で動作する（数十または数百の）スピーカアレイとして実装される。

マルチチャンネルパンニングは、配信フォーマット及び／またはレンダリング方法であり、チャンネルベースオーディオと呼ばれる。この場合、サウンドは、リスナからある画定された角度にある複数のスピーカにより、同数の個別ソースとして表現される。コンテンツクリエータ／ミキサーは、隣接するチャンネル間で信号をパンニングして方向キューを与えることにより、仮想イメージを生成できる；早期の反響やリバーブなどを多くのチャンネルにミックスして方向及び環境キューを提供する。

位置データを有するローシュテム（raw stems with position metadata）は、配信フォーマットであり、オブジェクトベースオーディオとも呼ばれる。このフォーマットでは、区別できる「接近したマイク」によるサウンドソースが、位置及び環境メタデータにより表される。メタデータと再生機器とリスニング環境とに基づき、仮想ソースがレンダされる。

適応的オーディオフォーマットは、マルチチャンネルパンニングフォーマットとローシュテムフォーマットのハイブリッドである。本実施形態のレンダリング方法はマルチチャンネルパンニングである。オーディオチャンネルに対して、レンダリング（パンニング）はオーサリング時に行われ、一方、オブジェクトに対して、レンダリング（パンニング）は再生時に行われる。

メタデータ及び適応的オーディオ伝送フォーマット
上記の通り、メタデータは、生成段階中に生成され、オーディオオブジェクトの位置情報をエンコードし、オーディオプログラムに付随してオーディオプログラムのレンダリングを支援し、具体的には、幅広い再生装置と再生環境におけるオーディオプログラムのレンダリングを可能にするようにオーディオプログラムを記述する。メタデータは、所与のプログラムに対して、及びポストプロダクション中にそのオーディオを生成、収集、編集及び操作する絵できた及びミキサーに対して生成される。適応的オーディオフォーマットの重要な特徴は、ミックス環境と異なる再生システム及び環境に、オーディオがどのようにトランスレートされるかを制御する能力である。具体的には、あるシネマは、ミックス環境よりも機能が劣るかも知れない。

適応的オーディオレンダラは、ミキサーの意図を再生成するのに利用できる装置を最大限利用するように設計されている。さらに、適応的オーディオオーサリングツールにより、ミキサーは、様々な再生構成においてミックスがどのようにレンダされるかをプリビュー及び調整できる。すべてのメタデータ値は、再生環境とスピーカ構成を条件とすることができる。例えば、あるオーディオ要素の異なるミックスレベルは、再生構成またはモードに基づき規定できる。一実施形態では、条件付き再生モードのリストは拡張可能であり、（１）チャンネルベースのみ再生：５．１、７．１、７．１（高さ）、９．１；（２）個別スピーカ再生：３Ｄ、２Ｄ（高さ無し）を含む。

一実施形態では、メタデータは、適応的オーディオコンテンツの異なる側面を制御または支配し、プログラムメタデータ、オーディオメタデータ、（チャンネル及びオブジェクトの）レンダリングメタデータを含む異なるタイプに基づき組織化される。各タイプのメタデータは、識別子（ＩＤ）により参照される特性の値を与える一または複数のメタデータアイテムを含む。図５は、一実施形態による、適応的オーディオシステムのメタデータタイプ及び関連メタデータ要素を列記した表である。

図５の表５００に示したように、第１タイプのメタデータはプログラムメタデータである。これは、フレームレート、トラック亜クンと、拡張可能チャンネル記述、及びミックス段階記述を規定する複数のメタデータ要素を含む。フレームレートメタデータ要素は、フレーム／秒（ｆｐｓ）の単位でオーディオコンテンツのフレームレートを規定する。生のオーディオフォーマットは、オーディオまたはメタデータのフレーミングを含まない。オーディオは、オーディオセグメント（オブジェクトの長さ）ではなく、フルトラック（リールまたはフィーチャ全体の長さ）として供給されるからである。生のフォーマットは、適応的オーディオエンコーダが、実際のフレームレートを含む、オーディオとメタデータをフレームできるようにするのに必要なすべての情報を担う必要がある。表１は、フレームレートメタデータ要素のＩＤ、値例、及び説明を示す。

トラックカウントメタデータ要素はフレーム中のオーディオトラックの数を示す。適応的オーディオデコーダ／プロセッサの例は、同時に１２８個のオーディオトラックまでサポートでき、一方、適応的オーディオフォーマットは任意数のオーディオトラックをサポートする。表２は、トラックカウントメタデータ要素のＩＤ、値例、及び説明を示す。

チャンネルベースオーディオは、非標準チャンネルに割り当て可能であり、拡張可能チャンネル記述メタデータ要素によりミックスは新しいチャンネル位置を使える。各拡張チャンネルについて、表３に示したように、次のメタデータが提供される：

ミックス段階記述メタデータ要素は、あるスピーカがパスバンドのパワーの半分を再生する周波数を規定する。表４は、ミックス段階記述メタデータ要素のＩＤ、値例、及び説明を示すが、ここでLF=Low Frequency;HF=High Frequency;３dB point=スピーカパスバンドのエッジである。

図５に示したように、第２タイプのメタデータはオーディオメタデータである。各チャンネルベースまたはオブジェクトベースオーディオ要素は、オーディオエッセンスとメタデータよりなる。オーディオエッセンスは多くのオーディオトラックのうちの一に担われたモノフォニックオーディオストリームである。関連メタデータは、オーディオエッセンスがどのように格納されるか（オーディオメタデータ、例えばサンプルレート）、またはそれがどうレンダされるべきか（レンダリングメタデータ、例えば所望のオーディオソース位置）を記述する。一般的に、オーディオトラックはオーディオプログラムの長さにわたり連続的である。プログラムエディタまたはミキサーは、オーディオ要素のトラックへの割り当ての責任を有する。トラック使用は粗いことが期待される。すなわち、同時トラック使用のメジアンは１６ないし３２だけだろう。典型的な実装では、オーディオはロスレスエンコーダを用いて効率的に送信される。しかし、別の実装も可能であり、例えば、コード化されていないオーディオデータやロッシーコード化したオーディオデータを伝送することも可能である。典型的な実装では、フォーマットは、１２８オーディオトラックまで有する。ここで、各トラックは単一のサンプルレートと単一のデーディングシステムを有する。各トラックは、フィーチャの長さだけ続く（明示的なリールサポートは無い）。オブジェクトからトラックへのマッピング（時間多重）は、コンテンツクリエータ（ミキサー）の責任である。

図３に示したように、オーディオメタデータは、サンプルの要素、ビットデプス、及びコーディングシステムを含む。表５は、サンプルレートメタデータ要素のＩＤ、値例、及び説明を示す。

表６は、ビットデプス（bit depth）メタデータ要素のＩＤ、値例、及び説明を示す（ＰＣＭとロスレス圧縮の場合）。

表７は、コーディングシステムメタデータ要素のＩＤ、値例、及び説明を示す。

図５に示したように、第３タイプのメタデータはレンダリングメタデータである。レンダリングメタデータは、レンダラが再生環境にかかわらず元のミキサーの意図にできるだけ近くマッチさせるのを助ける値を規定する。一組のメタデータ要素は、チャンネルベースオーディオとオブジェクトベースオーディオとで異なる。第１のレンダリングメタデータフィールドは、表８に示したように、２つのタイプのオーディオ、すなわちチャンネルベースまたはオブジェクトベースを選択する。

チャンネルベースオーディオのレンダリングメタデータは、オーディオソース位置を一または複数のスピーカ位置として規定する位置メタデータ要素を含む。表９は、チャンネルベースの場合に位置メタデータ要素のIDと値を示す。

また、チャンネルベースオーディオのレンダリングメタデータは、表１０に示すように、チャンネルベースオーディオの再生に関する特性を規定するレンダリング制御要素を含む。

オブジェクトベースオーディオの場合、メタデータはチャンネルベースオーディオと同じような要素を含む。表１１はオブジェクト位置メタデータ要素のＩＤと値を与える。オブジェクト位置は３通りの方法、すなわち３次元座標、平面及び２次元座標、または直線及び１次元座標のうちの一で記述される。レンダリング方法は、位置情報タイプに基づき適応できる。

オブジェクトレンダリング制御メタデータ要素のＩＤと値を表１２に示す。これらの値は、オブジェクトベースオーディオのレンダリングを制御し最適かする追加的手段を与える。

一実施形態では、上記の、図５に示したメタデータは、オーディオストリームが、適応的オーディオシステムによりミキサーにより生成されたメタデータを解釈することにより処理されるように、対応するオーディオコンテンツに関連する、またはインデックスされた一または複数のファイルとして生成され格納される。留意点として、上記のメタデータは、ＩＤ、値、及び定義の一例であり、適応オーディオシステムで使用するため、他のまたは追加的なメタデータ要素が含まれても良い。

一実施形態では、２（またはそれ以上）の組のメタデータ要素は、チャンネル及びオブジェクトベースのオーディオストリームのそれぞれに関連する。第１組のメタデータは、再生環境の第１の条件の複数のオーディオストリームに適用され、第２組のメタデータは、再生環境の第２の条件の複数のオーディオストリームに適用される。再生環境の条件に基づき、あるオーディオストリームに対して、第２のまたはその後の組のメタデータ要素は、第１の組のメタデータ要素を置き換える。条件には、ルームサイズ、形状、室内の材料組成、部屋に人がいるか否かとその密度、周囲のノイズ特性、周囲の光特性、及び再生環境のサウンドまたはさらにはムードに影響するその他のファクタが含まれる。

ポストプロダクションとマスタリング
適応的オーディオ処理システム１００のレンダリング段階１１０は、ファイナルミックスの生成につながるポストプロダクションステップを含む。シネマアプリケーションでは、ムービーミックスで用いるサウンドの３つのメインカテゴリーは、会話、音楽、そして効果である。効果は、会話や音楽でないサウンド（例えば、周囲のノイズ、背景／シーンノイズ）よりなる。サウンド効果はサウンドデザイナーにより録音または合成され、または効果ライブラリから得られるソースであってもよい。具体的なノイズソース（例えば、足音、ドアなど）を含む効果のサブグループは、フォーリー（Foley）として知られ、フォーリーアクターにより演技される。レコーディングエンジニアにより異なるタイプのサウンドが、適宜、マークされ、パンされる。

図６は、一実施形態による、適応的オーディオシステムのポストプロダクションのワークフロー例を示す図である。図６００に示したように、音楽、会話、フォーリー及び効果の個別サウンドコンポーネントはすべて、ファイナルミックス６０６中に、ダビングシアターに集められる。再レコーディングミキサ６０４は、個別サウンドオブジェクトと位置データとともにプレミックス（「ミックスマイナス」としても知られている）を用いて、例えば、会話、音楽、効果、フォーリー及び背景サウンドとしてシュテムを生成する。ファイナルミックス６０６を形成するのに加えて、音楽及びすべての効果シュテムを、ムービーのダビングされた言語のバージョンの生成の基礎として用いることができる。各シュテムは、チャンネルベースのベッドと、メタデータを有する複数のオーディオオブジェクトよりなる。シュテムが合成されファイナルミックスを形成する。オーディオワークステーションとミキシングコンソールの両方からのオブジェクトパンニング情報を用いて、レンダリング及びマスタリングユニット６０８は、ダビングシアターのスピーカロケーションにオーディオをレンダする。このレンダリングにより、ミキサーは、チャンネルベースベッドとオーディオオブジェクトがどう合成されるか聞くことができ、また、異なる構成にレンダする能力も提供する。ミキサーは、関連プロファイルのデフォルトになる条件付きメタデータを用いて、コンテンツがサラウンドチャンネルにどうレンダされるか制御できる。このように、ミキサーは、すべてのスケーラブル環境において映画がどのように再生されるかの完全な制御を保持する。モニタリングステップが、再レコーディングステップ６０４と最終ミックスステップ６０６のいずれかまたは両方の後に含まれ、ミキサーが、これらのステップのそれぞれで生成された中間コンテンツを聞いて評価できる。

マスタリングセッション中、シュテム、オブジェクト、及びメタデータは、適応的オーディオパッケージ６１４に集められる。適応的オーディオパッケージ６１４はプリントマスター６１０により生成される。このパッケージも、後方互換（レガシー５．１または７．１）サラウンドサウンドシアタミックス６１２を含む。レンダリング／マスタリングユニット（RMU）６０８は、必要に応じて、この出力をレンダできる。それにより、既存のチャンネルベースのデリバラブルの生成において追加のワークフローステップが必要なくなる。一実施形態では、オーディオファイルは、標準的なマテリアルエクスチェンジフォーマット（MXF）ラッピングを用いてパッケージされる。また、適応的オーディオミックスマスタファイルを用いて、コンシューママルチチャンネルミックスやステレオミックスなど、その他のデリバラブルを生成できる。インテリジェントプロファイル及び条件付きメタデータにより、かかるミックスを生成するのに必要な時間を大幅に短縮できる制御されたレンダリングができる。

一実施形態では、パッケージングシステムを用いて、適応的オーディオミックスを含むデリバラブルのために、デジタルシネマパッケージを生成する。オーディオトラックファイルは、共にロックされ、適応的オーディオトラックファイルとの同期エラーを防ぐことを助ける。ある分野では、パッケージングフェース中、メインオーディオトラックファイルへの聴覚障害者（HI）や視覚障害者ナレーション（VI-N）トラックの追加などトラックファイルの追加が必要である。

一実施形態では、再生環境のスピーカアレイは、確立されたサラウンドサウンド標準により配置及び設計された任意数のサラウンドサウンドスピーカを含み得る。オブジェクトベースオーディオコンテンツの正確なレンダリング用の任意数の追加スピーカは、再生環境の条件に基づき配置され得る。これらの追加スピーカは、サウンドエンジニアによりセットアップされ、このセットアップは、適応オーディオのオブジェクトベース成分をスピーカアレイ全体中の一または複数のスピーカにレンダするために、システムにより使用されるセットアップファイルの形式でシステムに提供される。セットアップファイルには、少なくともスピーカ指定、チャンネルの個別スピーカへのマッピング、スピーカグループに関する情報、再生環境へのスピーカの相対的な位置に基づくランタイムマッピングのリストが含まれる。ランタイムマッピングは、点音源オブジェクトベースオーディオコンテンツを、サウンドエンジニアにより意図されたサウンドの知覚ロケーションに最も近いスピーカにレンダするシステムのスナップ・ツー（snap-to）機能により利用される。

図７は、一実施形態による、適応的オーディオファイルを用いるデジタルシネマパッケージングプロセスのワークフロー例を示す図である。図７００に示したように、適応的オーディオファイルと５．１または７．１サラウンドサウンドオーディオファイルの両方を含むオーディオファイルがラッピング／暗号化ブロック７０４に入力される。一実施形態では、ブロック７０６におけるデジタルシネマパッケージの生成時、（適当な追加トラックが付加された）PCM MXFファイルが、既存のプラクティスにより、SMPTE仕様を用いて暗号化される。適応的オーディオＭＸＦは、補助トラックファイルとしてパッケージされ、ＳＭＰＴＥ仕様による対称コンテンツキーを用いて、任意的に暗号化される。この単一ＤＣＰ７０８は、デジタルシネマイニシアティブ（ＤＣＩ）準拠サーバに送られる。一般的に、適当でないインストレーションは、適応的オーディオサウンドトラックを含む追加的トラックファイルを単に無視し、標準的再生のために既存の主オーディオトラックファイルを使用する。適当な適応的オーディオプロセッサを備えたインストレーションは、適用可能であれば、必要に応じて標準的オーディオトラックに戻り、適応的オーディオサウンドトラックを受け取り再生できる。また、ラッピング／暗号化コンポーネント７０４は、デジタルシネマサーバで用いるための適当なセキュリティキーを生成するため、配信ＫＤＭブロック７１０に直接入力する。字幕７１４や画像７１６などのその他のムービー要素またはファイルは、オーディオファイル７０２ととものラップされ、暗号化される。この場合、画像ファイル７１６の場合、圧縮７１２などの処理ステップが含まれる。

コンテンツマネージメントに関して、適応的オーディオシステム１００により、コンテンツクリエータは、個々のオーディオオブジェクトを生成し、コンテンツに関する情報を追加でき、再生システムに搬送できる。これにより、オーディオのコンテンツマネージメントに大きな柔軟性ができる。コンテンツマネージメントの観点から、適応的オーディオ方法により複数の異なる機能が可能になる。これらには、スペース節約、ダウンロード効率、地理的再生適応などのために会話オブジェクトを置き換えるだけでコンテンツの言語を変更することが含まれる。フィルム、テレビジョン、及びその他のエンターテイメントプログラムは、一般的には国際的に配信される。これには、再生される所に応じて（フランスで表示されるフィルムの場合はフランス語、ドイツで表示されるテレビプログラムの場合はドイツ語など）、コンテンツ中の言語を変更する必要があることが多い。このため、今日では、完全に独立したオーディオサウンドトラックが生成され、パッケージされ、配信される。適応的オーディオとオーディオオブジェクトの本来的なコンセプトで、コンテンツの会話は独立したオーディオオブジェクトであり得る。これにより、コンテンツの言語は、音楽、効果などのオーディオサウンドトラックのその他の要素を更新したり変更したりしなくても、容易に変更できる。これは外国語に適用されるだけでなく、ある聴衆（例えば、子供のテレビジョンショー、航空会社用のムービーなど）、ターゲットされた広告などにたいして不適当な言葉にも適用できる。

インストレーション及び機器検討
適応的オーディオファイルフォーマットと関連プロセッサにより、シアター機器をどうインストールし、較正し、維持するかを変更できる。より多くの潜在的スピーカ出力の導入により、一実施形態では、適応的オーディオシステムは最適化された１／１２オクターブバンド等化エンジンを用いる。シアターのサウンドをより正確にバランスさせるため、６４出力まで処理できる。また、本システムは、観客席で再生されたサウンドを通して、シネマプロセッサ出力から、個別のスピーカ出力のスケジュールされたモニタリングをできる。適当なアクションが取られるように、ローカルまたはネットワークの警告を生成できる。柔軟なレンダリングシステムは、再生チェーンから故障したスピーカやアンプを自動的に除外し、それを回避してレンダでき、ショーを継続できる。

シネマプロセッサは、適応的オーディオデータをストリーミングするため、既存の８×ＡＥＳメインオーディオ接続及びイーサネット（登録商標）接続でデジタルシネマサーバと接続できる。サラウンド７．１または５．１接続の再生は、既存のＰＣＭ接続を用いる。適応的オーディオデータは、デコーディングとレンダリングのため、シネマプロセッサにイーサネット（登録商標）でストリーミングされ、サーバとシネマプロセッサとの間の接続により、オーディオを特定し同期できる。適応的オーディオトラック再生に何か問題が発生した場合には、サウンドは、ドルビーサラウンド７．１または５．１ＰＣＭオーディオに戻される。

５．１及び７．１サラウンドサウンドシステムに関して実施形態を説明したが、留意点として、９．１、１１．１及び１３．１及びそれ以降を含む他の多くの現在ある及び将来現れるサラウンド構成を実施形態と共に用いることができる。

適応的オーディオシステムは、それによりコンテンツクリエータとエギジビタが両方とも、異なる再生スピーカ構成においてサウンドコンテンツをどうレンダするか決定できるように設計されている。使用されるスピーカ出力チャンネルの理想的な数は部屋のサイズにより変わる。よって、推奨するスピーカ配置は、サイズ、コンポジション、シーティング構成、環境、平均聴衆サイズなど多くのファクタに依存する。例示のみを目的として、代表的なスピーカ構成とレイアウトや例をここで説明するが、特許請求する実施形態の範囲を限定することを意図するものではない。

適応的オーディオシステムのスピーカの推奨レイアウトは、既存のシネマシステムと互換であり、これは既存の５．１及び７．１チャンネルベースフォーマットの再生を悪くしないために必須である。適応的オーディオサウンドエンジニアの意図及び７．１及び５．１コンテンツのミキサーの意図を保存するため、新しいスピーカロケーションの導入を急ごうとして、既存スクリーンチャンネルの位置をあまり大きく変えるべきではない。利用できる６４出力チャンネルすべてを用いるのと対照的に、適応的オーディオフォーマットは、シネマで７．１などのスピーカ構成に正確にレンダできるので、アンプやスピーカを変更しなくても、このフォーマット（及び関連ベネフィット）を既存のシアターで用いることができる。

異なるスピーカロケーションの有効性は、シアター設計に応じて異なり、現在のところ業界で指定されたチャンネルの理想的な数や配置は無い。適応的オーディオは、再生チャンネル数が限定されていたり、多くのチャンネルが柔軟な構成になっているかにかかわらず、様々な観客席での正確な再生に真に適応可能かつ能力があることを意図されている。

図８は、典型的な観客席において適応的オーディオシステムと用いる示唆されたスピーカロケーションのレイアウト例を示す上面図８００である。また、図９は、その観客席のスクリーンにおける示唆されたスピーカロケーションのレイアウト例を示す前面図９００である。以下に参照する基準位置は、スクリーンのセンターライン上、スクリーンから後壁までの距離の２／３の位置に対応する。標準的スクリーンスピーカ８０１は、スクリーンに対して通常の位置に示されている。スクリーン面におけるエレベーションの知覚の研究から、スクリーンの後の追加的スピーカ８０４は、例えば（７０ｍｍフィルムフォーマットのレフトエキストラ及びライトエキストラチャンネルのロケーションにある）レフトセンター（Ｌｃ）及びライトセンター（Ｒｃ）スクリーンスピーカは、スクリーンにわたるスムースなパンをするのに有益であることが分かっている。かかる任意的スピーカは、特に１２ｍ（４０ｆｔ．）より大きいスクリーンを有する観客席では、推奨できる。すべてのスクリーンスピーカは、基準位置に向かうような角度にするべきである。スクリーンの後のサブウーファ８１０の推奨配置は、部屋の中心に対して対称なキャビネット配置を維持し、定在波の刺激を防止することを含め、変わらない。追加的サブウーファ８１６をシアターの後に配置してもよい。

サラウンドスピーカ８０２は、アンプラックに個別にワイヤリングされ、可能であれば、製造者の仕様に応じてスピーカのパワーハンドリングにマッチしたパワー増幅の専用チャンネルを用いて、個別に増幅されるべきである。理想的には、サラウンドスピーカは、各個別スピーカのＳＰＬを処理し、可能であればより広い周波数応答を有するように規定されるべきである。平均的サイズのシアターのための大まかなやり方として、サラウンドスピーカのスペーシングは２ないし３ｍ（６‘６“ないし９’９”）で、左右のサラウンドスピーカは対称に配置されるべきである。しかし、サラウンドスピーカのスペ―シングは、スピーカ間の絶対的な距離を用いるのではなく、隣接スピーカ間のリスナからの角度として有効に考えられる。観客席全体の最適な再生のため、隣接スピーカ間の角度距離は、主リスニングエリアの４隅それぞれから視て、３０°以下である。５０°までのスペーシングで良い結果が得られる。各サラウンドゾーンに対して、スピーカは、可能であれば、シーティングエリアに隣接して等しいリニアスペーシングを維持すべきである。リスニングエリアを越えるリニアスペーシング、例えば前列とスクリーンとの間は、少し大きくできる。図１１は、一実施形態による、基準点に対するトップサラウンドスピーカ８０８とサイドサラウンドスピーカ８０６の配置例を示す図である。

追加的サイドサラウンドスピーカ８０６は、観客席の後までの距離の約１／３から始めるという現在推奨されているプラクティスより、スクリーンにより近く配置すべきである。これらのスピーカは、ドルビーサラウンド７．１または５．１サウンドトラックの再生中にサイドサラウンドとして用いないが、スクリーンスピーカからサラウンドゾーンにオブジェクトをパンニングする時、スムースなトランジションと改善された音色マッチングを可能にする。空間の印象を最大化するため、次の制約下、サラウンドアレイはできる限り低く配置されるべきである：アレイの前にあるサラウンドスピーカの仮想的配置は、スクリーンスピーカ音響センターの高さに近く、スピーカの指向性に応じてシーティングエリアにわたり十分なカバレッジを維持するのに純分高い。サラウンドスピーカの垂直配置は、図１０に示したように、フロントからバックまで直線を形成するように、かつ（一般的には）サラウンドスピーカの相対的エレベーションがリスナの上で、シーティングエレベーションが大きくなるにつれ、シネマの後に向けて維持されるように傾いていなければならない。図１０は、典型的な観客席において適応的オーディオシステムとともに用いるための、示唆されたスピーカロケーションのレイアウト例の側面図である。実際には、これは、最も簡単には、最も前の及び最も後のサラウンドスピーカのエレベーションを選択し、残りのスピーカをこれらの点の間に一列に配置することにより実現できる。

シーティングエリアに各スピーカの最適なカバレッジを提供するため、サイドサラウンド８０６、リアスピーカ８１６、及びトップサラウンド８０８は、スペーシング、位置、角度などに関する画定されたガイドラインの下、シアターの基準位置に向いていなくてはならない。

適応的オーディオシネマシステムとフォーマットの実施形態により、ミキサーに新しいパワフルなオーサリングツールを提供し、各部屋のスピーカレイアウトと特性にサウンドトラックの音質及びサラウンド効果を最適化する柔軟なレンダリングエンジンを備えた新しいシネマプロセッサを提供することにより、現在のシステムより、聴衆の没頭のレベルを高くできる。また、本システムは、現在のプロダクション及び配信ワークフローへの後方互換性を維持し、それに対するインパクトを最小化する。

実施形態を、適応的オーディオコンテンツがデジタルシネマ処理システムにおいて仕様されるフィルムコンテンツに関連しているシネマ環境の例と実装に関して説明したが、留意点として、実施形態は非シネマ環境でも実施できる。オブジェクトベースオーディオとチャンネルベースオーディオを含む適応的オーディオコンテンツは、任意の関連コンテンツ（関連オーディオ、ビデオ、グラフィックスなど）と共に用いることができ、またはスタンドアロンのオーディオコンテンツを構成してもよい。再生環境は、ヘッドホンやニアフィールドモニタから小さいまたは大きい部屋、車、屋外アリーナ、コンサートホールまでの適当なリスニング環境である。

システム１００の態様は、デジタルまたはデジタル化されたオーディオファイルを処理する適当なコンピュータベースのサウンド処理ネットワーク環境で実施できる。適応可能オーディオシステムの部分には、コンピュータ間を伝送されるデータをバッファしルーティングする役割を果たす一または複数のルータ（図示せず）を含む、所望数の個別マシンを含む一または複数のネットワークを含む。かかるネットワークは、異なる様々なネットワークプロトコル上に構成され、インターネット、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）またはこれらの任意の組合せであり得る。ネットワークがインターネットである一実施形態では、一または複数のマシンがウェブブラウザプログラムを通してインターネットにアクセスするように構成されている。

一または複数のコンポーネント、ブロック、プロセッサ、その他の機能的コンポーネントは、システムのプロセッサベースコンピューティングデバイスの実行を制御するコンピュータプログラムにより実施される。留意点として、ここに開示の様々な機能は、振る舞い、レジスタトランスファ、ロジックコンポーネント、及び／またはその他の特性に関して、ハードウェア、ファームウェア、及び／または様々なマシン読み取り可能またはコンピュータ読み取り可能媒体に化体されたデータ及び／または命令の任意の数の組合せを用いて記述できる。かかるフォーマットされたデータ及び／または命令が化体されたコンピュータ読み取り可能媒体は、様々な形式の物理的（非一時的）、不揮発性記憶媒体であって、例えば光、磁気、または半導体ストレージ媒体を含むがこれに限定されない。

コンテキストから明確に要求されない限り、本明細書と特許請求の範囲にわたり、「comprise」、「comprising」などの言葉は、包含する意味であり、排他するまたは網羅する意味ではない；すなわち、「including, but not limited to」という意味である。単数または複数の単語は、それぞれ複数または単数の場合を含む。また、「herein」、「hereunder」、「above」、「below」などの単語は、本願を全体として参照するものであり、本願の特定の部分を参照するものではない。単語「or」は、２以上のアイテムのリストを参照して用いられる時、そのリスト中の任意のアイテム、そのリスト中の任意のアイテム及びそのリスト中のアイテムの任意の組合せというこの単語の解釈のすべてをカバーする。
一または複数の実装を実施例により、及び具体的な実施形態に関して説明したが、言うまでもなく、一または複数の実装は開示の実施形態に限定されない。反対に、本技術分野の当業者には明らかな様々な修正や同様の構成をカバーすることを意図している。それゆえ、添付した特許請求の範囲は、かかる修正と同様の構成とをすべて含むように、最も広く解釈すべきである。
上記の実施形態に関し付記する。
（付記１）オーディオ信号を処理するシステムであって、
複数のオーディオ信号を受け取り、複数のモノフォニックオーディオストリームと、各オーディオストリームに関連しそれぞれのオーディオストリームの再生ロケーションを規定する一または複数のメタデータセットとを生成するように構成されたオーサリングコンポーネントと、
前記オーディオストリームはチャンネルベースオーディオまたはオブジェクトベースオーディオとして特定され、
前記チャンネルベースのオーディオの再生ロケーションは、スピーカアレイ中の複数のスピーカのスピーカ指定を含み、前記オブジェクトベースオーディオは３次元空間中のロケーションを含み、
第１セットのメタデータは前記複数のオーディオストリームのうちの一または複数にデフォルトで適用され、前記再生環境の条件が前記再生環境の前記一条件にマッチするとき、第２セットのメタデータは再生環境の一条件に関連し、前記第１セットの替わりに前記複数のオーディオストリームのうちの一または複数に適用され、
前記オーサリングコンポーネントに結合し、前記複数のモノフォニックオーディオストリームと一または複数のデータセットをカプセル化するビットストリームを受け取り、前記再生環境の条件に基づき、前記一または複数のメタデータセットにより前記再生環境のスピーカに対応する複数のスピーカフィードに前記オーディオストリームをレンダするように構成されたレンダリングシステムとを有する、システム。
（付記２）各メタデータセットは、各オブジェクトベースストリームに関連するメタデータ要素を含み、各オブジェクトベースストリームのメタデータは対応するオブジェクトベースサウンドの再生を制御する空間パラメータを規定し、サウンド位置、サウンド幅、及びサウンドベロシティのうちの一または複数を有し、
各メタデータセットは、各チャンネルベースストリームに関連するメタデータ要素を含み、前記スピーカアレイは画定されたサラウンドサウンド構成で構成され、
各チャンネルベースストリームに関連するメタデータ要素は、画定されたサラウンドサウンド標準によるスピーカアレイ中のスピーカのサラウンドサウンドチャンネルの指定を含む、
付記１に記載のシステム。
（付記３）前記スピーカアレイは、前記再生環境の条件に基づきユーザからのセットアップ命令に関連する再生環境中に配置されたオブジェクトベースストリームの再生用の追加的スピーカを含み、
前記再生条件は、前記再生環境の部屋のサイズと形状、占有状態、周辺ノイズを含む変数に依存し、
前記システムは、ユーザから、少なくともスピーカ指定、チャンネルの前記スピーカアレイの個別スピーカへのマッピング、スピーカグループに関する情報、再生環境へのスピーカの相対的な位置に基づくランタイムマッピングのリストが含まれるセットアップファイルを受け取る、
付記１に記載のシステム。
（付記４）前記オーサリングコンポーネントは、前記元のオーディオコンテンツを含むオーディオストリームの再生レベルを規定するようにユーザにより操作可能なコントロールを有するミキシングコンソールを含み、
各オブジェクトベースストリームに関連するメタデータ要素は、前記ユーザによる前記ミキシングコンソールコントロールへの入力があると、自動的に生成される、
付記１に記載のシステム。
（付記５）前記メタデータセットは、前記スピーカアレイの第１の構成から前記スピーカアレイの第２の構成への変更により、前記チャンネルベースオーディオストリームと前記オブジェクトベースオーディオストリームのうち少なくとも一のアップミキシングまたはダウンミキシングを可能にするメタデータを含む、
付記１に記載のシステム。
（付記６）前記コンテンツタイプは、会話、音楽、及び効果よりなるグループから選択され、各コンテンツタイプはチャンネルベースストリームまたはオブジェクトベースストリームのそれぞれのセットに化体され、
各コンテンツタイプのサウンドコンポーネントは、前記スピーカアレイ中で指定された一または複数のスピーカグループのうちの画定されたスピーカグループに送信される、
付記３に記載のシステム。
（付記７）前記スピーカアレイのスピーカは、前記再生環境内の複数の位置に配置され、
各オブジェクトベースストリームに関連するメタデータ要素は、一または複数のサウンドコンポーネントが、前記ポジションメタデータにより示される、前記サウンドコンポーネントの意図された再生ロケーションに最も近いスピーカにより再生するために、スピーカフィードにレンダされることを規定する、
付記６に記載のシステム。
（付記８）前記再生ロケーションは、前記再生環境または前記再生環境を包み込む面内のスクリーンに対する空間位置であり、
前記面は、前面、後面、左面、右面、上面、及び下面を含む、
付記１に記載のシステム。
（付記９）前記オーサリングコンポーネントと前記レンダリングコンポーネントに結合し、前記複数のオーディオストリームとメタデータとを受け取り、前記複数のオーディオストリームを順序づけて含む単一のデジタルビットストリームを生成するように構成されたコーデックをさらに有する、
付記１に記載のシステム。
（付記１０）前記レンダリングコンポーネントは、さらに、前記レンダリングコンポーネントにより利用されるレンダリングアルゴリズムを選択する手段をさらに有し、前記レンダリングアルゴリズムは、バイノーラル、ステレオダイポール、Ａｍｂｉｓｏｎｉｃｓ、ＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓ（ＷＦＳ）、マルチチャンネルパンニング、位置メタデータを有するローシュテム、デュアルバランス、及びベクトルベース振幅パンニングよりなるグループから選択される、
付記９に記載のシステム。
（付記１１）各オーディオストリームの再生ロケーションは、自己中心参照枠または他者中心参照枠のいずれかに対して独立に規定され、
自己中心参照枠は前記再生環境のリスナに対して取られ、
前記他者中心参照枠は前記再生環境の特性に対して取られる、
付記１に記載のシステム。
（付記１２）オーディオ信号を処理するシステムであって、
複数のオーディオ信号を受け取り、複数のモノフォニックオーディオストリームと、各オーディオストリームに関連しそれぞれのオーディオストリームの再生ロケーションを規定するメタデータとを生成するように構成されたオーサリングコンポーネントと、
前記オーディオストリームはチャンネルベースオーディオまたはオブジェクトベースオーディオとして特定され、
前記チャンネルベースのオーディオの再生ロケーションは、スピーカアレイ中の複数のスピーカのスピーカ指定を含み、前記オブジェクトベースオーディオは３次元空間中のロケーションを含み、
各オブジェクトベースオーディオストリームは、前記スピーカアレイの少なくとも一スピーカでレンダされ、
前記オーサリングコンポーネントに結合し、前記複数のモノフォニックオーディオストリームとメタデータとをカプセル化したビットストリームを受け取り、前記オーディオストリームを再生環境のスピーカに対応する複数のスピーカフィードにレンダし、
前記スピーカアレイのスピーカは、前記再生環境内の複数の位置に配置され、
各オブジェクトベースストリームに関連するメタデータ要素は、一または複数のサウンドコンポーネントが、オブジェクトベースストリームが、意図された再生ロケーションに最も近いスピーカに有効にスナップされるように、前記サウンドコンポーネントの意図された再生ロケーションに最も近いスピーカにより再生するために、スピーカフィードにレンダされることを規定する、システム。
（付記１３）前記メタデータは２以上のメタデータセットを含み、前記レンダリングシステムは前記再生環境の条件に基づき前記２以上のメタデータセットのうちの一により、前記オーディオストリームをレンダし、
第１セットのメタデータは、前記再生環境の第１の条件の複数のオーディオストリームのうちの１以上に適用され、第２セットのメタデータは、前記再生環境の第２の条件の複数のオーディオストリームのうちの１以上に適用され、
各メタデータセットは、各オブジェクトベースストリームに関連するメタデータ要素を含み、各オブジェクトベースストリームのメタデータは対応するオブジェクトベースサウンドの再生を制御する空間パラメータを規定し、サウンド位置、サウンド幅、及びサウンドベロシティのうちの一または複数を有し、
各メタデータセットは、各チャンネルベースストリームに関連するメタデータ要素を含み、前記スピーカアレイは画定されたサラウンドサウンド構成で構成され、
各チャンネルベースストリームに関連するメタデータ要素は、画定されたサラウンドサウンド標準によるスピーカアレイ中のスピーカのサラウンドサウンドチャンネルの指定を含む、
付記１２に記載のシステム。
（付記１４）前記スピーカアレイは、前記再生環境の条件に基づきユーザからのセットアップ命令に関連する再生環境中に配置されたオブジェクトベースストリームの再生用の追加的スピーカを含み、
前記再生条件は、前記再生環境の部屋のサイズと形状、占有状態、周辺ノイズを含む変数に依存し、
前記システムは、ユーザから、少なくともスピーカ指定、チャンネルの前記スピーカアレイの個別スピーカへのマッピング、スピーカグループに関する情報、再生環境へのスピーカの相対的な位置に基づくランタイムマッピングのリストが含まれるセットアップファイルを受け取る、
前記サウンドコンポーネントの意図された再生ロケーションに最も近いスピーカによる再生のためにスピーカフィードにレンダされたオブジェクトストリームは、前記追加的スピーカの単一のスピーカにスナップする、
付記１２に記載のシステム。
（付記１５）前記意図された再生ロケーションは、前記再生環境または前記再生環境を包み込む面内のスクリーンに対する空間位置であり、
前記面は、前面、後面、左面、上面、及び下面を含む、
付記１４に記載のシステム。
（付記１６）オーディオ信号を処理するシステムであって、
複数のオーディオ信号を受け取り、複数のモノフォニックオーディオストリームと、各オーディオストリームに関連しそれぞれのオーディオストリームの再生ロケーションを規定するメタデータとを生成するように構成されたオーサリングコンポーネントと、
前記オーディオストリームはチャンネルベースオーディオまたはオブジェクトベースオーディオとして特定され、
前記チャンネルベースのオーディオの再生ロケーションは、スピーカアレイ中の複数のスピーカのスピーカ指定を含み、前記オブジェクトベースオーディオは前記スピーカアレイを含む再生環境に対する３次元空間中のロケーションを含み、
各オブジェクトベースオーディオストリームは、前記スピーカアレイの少なくとも一スピーカでレンダされ、
前記オーサリングコンポーネントに結合され、前記再生環境内の複数のスピーカとそれぞれのロケーションのリストを含むスピーカのオーディオチャンネルに対する第１のマップと、複数のモノフォニックオーディオストリームとメタデータとをカプセル化したビットストリームとを受け取り、スピーカの相対的位置に基づく前記再生環境へのランタイムマッピングと前記再生環境の条件とにより、前記再生環境のスピーカに対応する複数のスピーカフィードに前記オーディオストリームをレンダするように構成されたレンダリングシステムとを有する、システム。
（付記１７）前記再生環境の条件は、前記再生環境の部屋のサイズと形状、占有状態、材料構成、周辺ノイズを含む変数に依存する、
付記１６に記載のシステム。
（付記１８）前記第１のマップは、少なくとも、スピーカ指定と、前記スピーカアレイの個別のスピーカへのチャンネルのマッピングとのリストと、スピーカのグルーピングに関する情報とを含むセットアップファイルに規定されている、
付記１７に記載のシステム。
（付記１９）前記意図された再生ロケーションは、前記再生環境または前記再生環境を含むエンクロージャの面内のスクリーンに対する空間位置であり、
前記面は、前記エンクロージャの前面、後面、サイド面、上面、及び下面を含む、
付記１８に記載のシステム。
（付記２０）前記スピーカアレイは、画定されたサラウンドサウンド構成に配置されたスピーカを有し、
各チャンネルベースストリームに関連するメタデータ要素は、画定されたサラウンドサウンド標準によるスピーカアレイ中のスピーカのサラウンドサウンドチャンネルの指定を含み、
オブジェクトベースストリームは前記スピーカアレイの追加的スピーカにより再生され、
前記ランタイムマッピングは、前記スピーカアレイのうちのどの個別スピーカが再生プロセス中に対応するオブジェクトベースストリームを再生するか動的に決定する、
付記１９に記載のシステム。
（付記２１）レンダリングするオーディオ信号をオーサリングする方法であって、
複数のオーディオ信号を受け取る段階と、
複数のモノフォニックオーディオストリームと、各オーディオストリームに関連する一または複数のメタデータセットを生成し、それぞれのオーディオストリームの再生ロケーションを規定する段階と、
前記オーディオストリームはチャンネルベースオーディオまたはオブジェクトベースオーディオとして特定され、
前記チャンネルベースのオーディオの再生ロケーションは、スピーカアレイ中の複数のスピーカのスピーカ指定を含み、前記オブジェクトベースオーディオは前記スピーカアレイを含む再生環境に対する３次元空間中のロケーションを含み、
第１セットのメタデータは、前記再生環境の第１の条件の複数のオーディオストリームのうちの１以上に適用され、第２セットのメタデータは、前記再生環境の第２の条件の複数のオーディオストリームのうちの１以上に適用され、
前記再生環境の条件に基づき、前記一または複数のメタデータセットにより前記再生環境のスピーカに対応する複数のスピーカフィードに前記オーディオストリームをレンダするように構成されたレンダリングシステムへの送信のために、ビットストリームに前記複数のモノフォニックオーディオストリームと一または複数のメタデータのセットをカプセル化する段階と、を有する方法。
（付記２２）各メタデータセットは、各オブジェクトベースストリームに関連するメタデータ要素を含み、各オブジェクトベースストリームのメタデータは対応するオブジェクトベースサウンドの再生を制御する空間パラメータを規定し、サウンド位置、サウンド幅、及びサウンドベロシティのうちの一または複数を有し、
各メタデータセットは、各チャンネルベースストリームに関連するメタデータ要素を含み、前記スピーカアレイは画定されたサラウンドサウンド構成で構成され、
各チャンネルベースストリームに関連するメタデータ要素は、画定されたサラウンドサウンド標準によるスピーカアレイ中のスピーカのサラウンドサウンドチャンネルの指定を含む、
付記２１に記載の方法。
（付記２３）前記スピーカアレイは、再生環境中に配置されたオブジェクトベースストリームの再生用の追加的スピーカを含み、前記方法は、さらに、前記再生環境の条件に基づきユーザからのセットアップ命令を受け取る段階をさらに有し、
前記再生条件は、前記再生環境の部屋のサイズと形状、占有状態、周辺ノイズを含む変数に依存し、
前記セットアップ命令は、さらに、少なくともスピーカ指定、チャンネルの前記スピーカアレイの個別スピーカへのマッピング、スピーカグループに関する情報、再生環境へのスピーカの相対的な位置に基づくランタイムマッピングのリストを含む、
付記２１に記載の方法。
（付記２４）前記元のオーディオコンテンツを含むオーディオストリームの再生レベルを規定するようにユーザにより操作されたなコントロールを有するミキシングコンソールから、受け取る段階と、
前記ユーザ入力の受け取った時に、生成された各オブジェクトベースストリームに関連するメタデータ要素を自動的に生成する段階とを有する、
付記２３に記載の方法。
（付記２５）オーディオ信号をレンダリングする方法であって、
複数のオーディオ信号を受け取り、複数のモノフォニックオーディオストリームと、各オーディオストリームに関連し、それぞれのオーディオストリームの再生ロケーションを規定する一または複数のメタデータセットとを生成するように構成されたオーサリングコンポーネントから、複数のモノフォニックオーディオストリームと一または複数のメタデータセットをビットストリームにカプセル化したビットストリームを受け取る段階と、
前記オーディオストリームはチャンネルベースオーディオまたはオブジェクトベースオーディオとして特定され、
前記チャンネルベースのオーディオの再生ロケーションは、スピーカアレイ中の複数のスピーカのスピーカ指定を含み、前記オブジェクトベースオーディオは前記スピーカアレイを含む再生環境に対する３次元空間中のロケーションを含み、
第１セットのメタデータは、前記再生環境の第１の条件の複数のオーディオストリームのうちの１以上に適用され、第２セットのメタデータは、前記再生環境の第２の条件の複数のオーディオストリームのうちの１以上に適用され、
前記再生環境の条件に基づき、前記一または複数のメタデータセットにより、前記再生環境中のスピーカに対応する複数のスピーカフィードに前記複数のオーディオストリームをレンダリングする段階とを有する、方法。
（付記２６）オーサリングコンポーネントで処理される複数のモノフォニックオーディオストリームを含むオーディオコンテンツを生成する方法であって、
前記モノフォニックオーディオストリームは少なくとも１つのチャンネルベースオーディオストリームと少なくとも１つのオブジェクトベースオーディオストリームとを含み、前記方法は、
前記複数のオーディオストリームの各オーディオストリームがチャンネルベースストリームかオブジェクトベースストリームか示す段階と、
各チャンネルベースストリームに、チャンネルベースストリームを再生環境中の一または複数のスピーカにレンダするチャンネル位置を規定するメタデータ要素を関連付ける段階と、
各オブジェクトベースストリームに、前記再生環境のサイズと寸法に関して規定された他者中心参照枠に対し、それぞれのオブジェクトベースストリームを前記再生環境内の一または複数のスピーカにレンダするために、オブジェクトベース一を規定する一または複数のメタデータ要素を関連づける段階と、
前記複数のモノフォニックオーディオストリームと、関連するメタデータとを信号にアセンブルする段階とを有する、方法。
（付記２７）前記再生環境は、前記再生環境を化体するエンクロージャの基準点に対して、画定されたロケーションと方向に配置されたスピーカのアレイを含む、
付記２６に記載の方法。
（付記２８）前記スピーカアレイの第１セットのスピーカは、画定されたサラウンドサウンドシステムに応じて構成されたスピーカを有し、
前記スピーカアレイの第２セットのスピーカは、適応的オーディオスキームに応じて構成されたスピーカを有する、
付記２７に記載の方法。
（付記２９）前記複数のモノフォニックオーディオストリームのセットのオーディオタイプを画定するステップと、
前記オーディオタイプは、会話、音楽、及び効果よりなるグループから選択され、
オーディオストリームのセットのオーディオタイプに基づいて、前記オーディオストリームのセットをスピーカのセットに送信する段階を有する、
付記２８に記載の方法。
（付記３０）前記モノフォニックオーディオストリームの再生レベルを規定するユーザにより操作可能なコントロールを有するミキシングコンソールにインプリメントされたオーサリングコンポーネントにより、前記メタデータ要素を自動的に生成する段階をさらに有する、
付記２９に記載の方法。
（付記３１）エンコーダにおいて、単一デジタルビットストリームに複数のモノフォニックオーディオストリームと関連メタデータ要素をパッケージングする段階をさらに有する、
付記３０に記載の方法。
（付記３２）オーディオコンテンツを生成する方法であって、
チャンネルベース及びオブジェクトベースコンテンツの両方をハンドリングするハイブリッドオーディオシステムにおいて処理するためにオーディオコンテンツのプログラミングに関連づけられた第１のメタデータグループ中の一または複数のメタデータ要素の値を決定する段階と、
前記ハイブリッドオーディオシステムのオーディオコンテンツの記憶及びレンダリング特性に関連する第２のメタデータグループの一または複数のメタデータ要素の値を決定する段階と、
前記チャンネルベース及びオブジェクトベースオーディオコンテンツをレンダリングするため、オーディオソース位置及びコントロール情報に関連する第３のメタデータグループの一または複数のメタデータ要素の値を決定する段階とを有する、方法。
（付記３３）前記チャンネルベースオーディオコンテンツをレンダリングするためのオーディオソース位置は、サラウンドサウンドスピーカシステムのスピーカに関連する名称を含み、
前記名称は、前記再生環境の基準点に対するスピーカのロケーションを画定する、
付記３２に記載の方法。
（付記３４）前記チャンネルベースオーディオコンテンツをレンダするコントロール情報は、異なるサラウンドサウンド構成でオーディオコンテンツをレンダリングするためのアップミックス及びダウンミックス情報を含み、
前記メタデータは、アップミックス及び／またはダウンミックス機能をイネーブルまたはディスエーブルするメタデータを含む、
付記３３に記載の方法。
（付記３５）前記オブジェクトベースオーディオコンテンツをレンダするオーディオソース位置は、前記オブジェクトベースオーディオコンテンツのサウンドコンポーネントの再生の意図された再生ロケーションを規定する一または複数の数学的関数に関連する値を有する、
付記３２に記載の方法。
（付記３６）前記数学的関数は、ｘ、ｙ、ｚ座標値として規定された３次元座標と、面の定義と一セットの２次元座標、曲線の定義と一セットの１次元リニア位置座標と、前記再生環境中のスクリーン上のスカラー位置とよりなるグループから選択される、
付記３５に記載の方法。
（付記３７）前記オブジェクトベースオーディオコンテンツをレンダするコントロール情報は、前記サウンドコンポーネントが再生される再生環境内の個別のスピーカまたはスピーカグループを規定する値を有する、
付記３６に記載の方法。
（付記３８）前記オブジェクトベースオーディオコンテンツをレンダするコントロール情報は、さらに、前記再生環境内の最も近いスピーカまたは最も近いスピーカグループにスナップされるサウンドソースを規定するバイナリ値を含む、
付記３７に記載の方法。
（付記３９）オーディオトランスポートプロトコルを画定する方法であって、
チャンネルベース及びオブジェクトベースコンテンツの両方をハンドリングするハイブリッドオーディオシステムにおいて処理するためにオーディオコンテンツのプログラミングに関連づけられた第１のメタデータグループ中の一または複数のメタデータ要素の値を画定する段階と、
前記ハイブリッドオーディオシステムのオーディオコンテンツの記憶及びレンダリング特性に関連する第２のメタデータグループの一または複数のメタデータ要素の値を画定する段階と、
前記チャンネルベース及びオブジェクトベースオーディオコンテンツをレンダリングするため、オーディオソース位置及びコントロール情報に関連する第３のメタデータグループの一または複数のメタデータ要素の値を画定する段階とを有する、方法。

Claims

オーディオ信号を処理するシステムであって、
レンダリングシステムを有し、前記レンダリングシステムは、
複数のモノラルオーディオストリームを表す符号化されたオーディオデータを含み、前記モノラルオーディオストリームの各々に関連付けられ、それぞれのモノラルオーディオストリームの再生位置を示すメタデータをさらに含むビットストリームを受信することであって、前記複数のモノラルオーディオストリームの少なくともいくつかはオブジェクトベースオーディオとして識別され、オブジェクトベースモノラルオーディオストリームの前記再生位置は３次元空間内の位置を含む、受信することと
前記符号化されたオーディオデータを復号して、前記複数のモノラルオーディオストリームを提供する、複合することと
前記複数のモノラルオーディオストリームを再生環境にあるスピーカに対応する複数のスピーカフィードにレンダリングすることであって、前記スピーカは前記再生環境中の特定の位置に配置され、それぞれのオブジェクトベースのモノラルオーディオストリームに関連付けられた一以上の追加のメタデータ要素は、前記それぞれのオブジェクトベースのモノラルオーディオストリームが前記複数のスピーカフィードのうちの一以上の特定のスピーカフィードのいずれにもレンダリングされないように、前記それぞれのモノラルオーディオストリームを前記複数のスピーカフィードのうちの一以上の特定のスピーカフィードにレンダリングすることが禁止されるかどうかを示す、レンダリングすることと
を行うように構成された、システム。
各オブジェクトベースのモノラルオーディオストリームに関連付けられた前記メタデータ要素は、サウンド位置、サウンド幅、およびベロシティのうちの一以上を含む、対応するサウンド成分の再生を制御する空間パラメータをさらに示す、請求項１に記載のシステム。
複数のオブジェクトベースのモノラルオーディオストリームの各々についての前記再生位置は、自己中心参照枠または他者中心参照枠のいずれかに関して独立して指定され、前記自己中心参照枠は、前記再生環境におけるリスナに関して取られ、前記他者中心参照枠は、前記再生環境の特性に関して取られる、請求項１に記載のシステム。
レンダリングのためのオーディオコンテンツをオーサリングする方法であって
複数のオーディオ信号を受信することと
複数のモノラルオーディオストリームと、前記複数のモノラルオーディオストリームの各々に関連付けられ、それぞれのモノラルオーディオストリームの再生位置を示すメタデータとを生成することであって、前記複数のモノラルオーディオストリームの少なくともいくつかはオブジェクトベースオーディオとして識別され、前記オブジェクトベースオーディオの前記再生位置は３次元空間における位置を含む、生成することと
前記複数のモノラルオーディオストリームを符号化して、符号化されたオーディオデータを提供することと
再生環境内のスピーカに対応する複数のスピーカフィードに前記複数のモノラルオーディオストリームをレンダリングするように構成されたレンダリングシステムに送信するために、前記符号化されたオーディオデータおよび前記メタデータをビットストリーム内にカプセル化することであって、前記スピーカは前記再生環境内の特定の位置に配置され、それぞれのオブジェクトベースのモノラルオーディオストリームに関連付けられた一以上の追加のメタデータ要素は、前記それぞれのオブジェクトベースのモノラルオーディオストリームが前記複数のスピーカフィードのうちの一以上の特定のスピーカフィードのいずれにもレンダリングされないように、前記それぞれのモノラルオーディオストリームを前記複数のスピーカフィードのうちの一以上の特定のスピーカフィードにレンダリングすることが禁止されるかどうかを示す、カプセル化することと
を含む方法。
オーディオ信号をレンダリングする方法であって
複数のモノラルオーディオストリームを表す符号化されたオーディオデータを含み、前記モノラルオーディオストリームの各々に関連付けられ、それぞれのモノラルオーディオストリームの再生位置を示すメタデータをさらに含むビットストリームを受信することであって、前記複数のモノラルオーディオストリームの少なくともいくつかはオブジェクトベースオーディオとして識別され、オブジェクトベースモノラルオーディオストリームの前記再生位置は３次元空間内の位置を含む、受信することと
前記符号化されたオーディオデータを復号して、前記複数のモノラルオーディオストリームを提供する、復号することと
前記複数のモノラルオーディオストリームを再生環境にあるスピーカに対応する複数のスピーカフィードにレンダリングすることであって、前記スピーカは前記再生環境中の特定の位置に配置され、それぞれのオブジェクトベースのモノラルオーディオストリームに関連付けられた一以上の追加のメタデータ要素は、前記それぞれのオブジェクトベースのモノラルオーディオストリームが前記複数のスピーカフィードのうちの一以上の特定のスピーカフィードのいずれにもレンダリングされないように、前記それぞれのモノラルオーディオストリームを前記複数のスピーカフィードのうちの一以上の特定のスピーカフィードにレンダリングすることが禁止されるかどうかを示す、レンダリングすることと
を含む方法。
各オブジェクトベースのモノラルオーディオストリームに関連付けられた前記メタデータ要素は、サウンド位置、サウンド幅、およびベロシティのうちの一以上を含む、対応するサウンド成分の再生を制御する空間パラメータをさらに示す、請求項５に記載の方法。
複数のオブジェクトベースのモノラルオーディオストリームの各々についての前記再生位置は、再生環境内のスクリーンまたは前記再生環境を囲む面に対する空間位置を含み、前記面は、前面、後面、左面、右面、上面及び下面を含み、及び／又は自己中心参照枠または他者中心参照枠のいずれかに対して独立して指定され、前記自己中心参照枠は、前記再生環境におけるリスナに対して取られ、前記他者中心参照枠は、前記再生環境の特性に対して取られる、請求項５に記載の方法。
一連の命令を含む非一時的コンピュータ可読記憶媒体であって、オーディオ信号を処理するシステムによって実行されると、前記一連の命令は、前記システムに、請求項４ないし７いずれか一項に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。
コンピュータで実行されると、前記コンピュータに、請求項４ないし７いずれか一項に記載の方法を実行させるコンピュータプログラム。