JP6655748B2

JP6655748B2 - 向上した３ｄオーディオ作成および表現のためのシステムおよびツール

Info

Publication number: JP6655748B2
Application number: JP2019127462A
Authority: JP
Inventors: エールトウィンゴ，ニコラ; キューロビンソン，チャールズ; ダヴリュースカーフ，ジャーゲン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2011-07-01
Filing date: 2019-07-09
Publication date: 2020-02-26
Anticipated expiration: 2032-06-27
Also published as: TW202310637A; US20160037280A1; JP7224411B2; US9549275B2; US20210400421A1; IL254726B; TW201811071A; JP2023052933A; KR20220061275A; BR112013033835A2; KR20230096147A; KR20190134854A; KR101547467B1; JP2016007048A; US20200045495A9; EP2727381A2; RU2018130360A; KR20150018645A; MX2022005239A; IL290320B1

Description

関連出願への相互参照
本願は2011年7月1日に出願された米国仮出願第61/504,005号および2012年4月20日に出願された米国仮出願第61/636,076号の優先権を主張するものである。両出願はここに参照によってあらゆる目的について全体において組み込まれる。

技術
本開示は、オーディオ再生データのオーサリングおよびレンダリングに関する。特に、本開示は、映画館サウンド再生システムのような再生環境のためのオーディオ再生データのオーサリングおよびレンダリングに関する。

1927年に映画に音声が導入されて以来、映画サウンドトラックの芸術的な意図を捉えてそれを映画館環境で再現するために使われる技術は着実に進歩を遂げてきた。1930年代にはディスク上の同期されたサウンドはフィルム上の可変領域サウンドに取って代わられ、それは1940年代にはさらに、劇場の音響の考察および改善されたスピーカー設計により改善された。それとともにマルチトラック録音および方向制御可能な再生（音を動かすために制御トーンを使う）の早期の導入があった。1950年代および1960年代には、フィルムの磁気ストライプにより劇場での多チャネル再生が可能になり、サラウンド・チャネル、高級なシアターでは５つのスクリーン・チャネルまでを導入した。

1970年代には、ドルビーは、ポストプロダクションおよびフィルム上の両方におけるノイズ削減を、３つのスクリーン・チャネルおよびモノのサラウンド・チャネルとの混合をエンコードおよび配布するコスト効率のよい手段とともに、導入した。映画館サウンドの品質は1980年代には、ドルビー・スペクトラル・レコーディング（SR: Spectral Recording）ノイズ削減およびTHXのような認証プログラムによってさらに改善された。ドルビーは1990年代に、離散的な左、中央および右スクリーン・チャネル、左および右のサラウンド・アレイおよび低域効果のためのサブウーファー・チャネルを与える５．１チャネル・フォーマットをもって映画館にデジタル・サウンドをもたらした。2010年に導入されたドルビー・サラウンド７．１は、既存の左および右サラウンド・チャネルを四つの「ゾーン」に分割することによって、サラウンド・チャネルの数を増やした。

V. Pulkki、Compensating Displacement of Amplitude-Panned Virtual Sources、Audio Engineering Society (AES) International Conference on Virtual, Synthetic and Entertainment Audio D. de Vries、Wave Field Synthesis、AES Monograph 1999

チャネル数が増え、スピーカー・レイアウトが平面的な二次元（2D）アレイから高さを含む三次元（3D）アレイに遷移するにつれ、サウンドを位置決めし、レンダリングするタスクはますます難しくなる。改善されたオーディオ・オーサリングおよびレンダリング方法が望ましいであろう。

本開示において記述される主題のいくつかの側面は、オーディオ再生データをオーサリングおよびレンダリングするためのツールにおいて実装できる。そのようないくつかのオーサリング・ツールは、オーディオ再生データが幅広い多様な再生環境のために一般化されることを許容する。そのような実装のいくつかによれば、オーディオ再生データは、オーディオ・オブジェクトについてのメタデータを生成することによってオーサリングされる。メタデータは、スピーカー・ゾーンを参照して生成されてもよい。レンダリング・プロセスの間、オーディオ再生データは特定の再生環境の再生スピーカー・レイアウトに従って再生されてもよい。

本稿に記載されるいくつかの実装は、インターフェース・システムおよび論理システムを含む装置を提供する。論理システムは、インターフェース・システムを介して、一つまたは複数のオーディオ・オブジェクトおよび関連するメタデータを含むオーディオ再生データならびに再生環境データを受け取るよう構成されていてもよい。再生環境データは、再生環境における再生スピーカーの数の指示および再生環境内の各再生スピーカーの位置の指示を含んでいてもよい。論理システムは、少なくとも部分的には関連するメタデータおよび再生環境データに基づいて、オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングするよう構成されていてもよい。ここで、各スピーカー・フィード信号は、再生環境内の再生スピーカーの少なくとも一つに対応する。論理システムは、仮想スピーカー位置に対応するスピーカー利得を計算するよう構成されていてもよい。

再生環境はたとえば、映画館サウンド・システム環境であってもよい。再生環境はドルビー・サラウンド５．１構成、ドルビー・サラウンド７．１構成または浜崎２２．２サラウンド・サウンド構成を有していてもよい。再生環境データは、再生スピーカー位置を示す再生スピーカー・レイアウト・データを含んでいてもよい。再生環境データは、再生スピーカー領域および該再生スピーカー領域と一致する再生スピーカー位置を示す再生スピーカー・ゾーン・レイアウト・データを含んでいてもよい。

メタデータは、オーディオ・オブジェクト位置を単一の再生スピーカー位置にマッピングするための情報を含んでいてもよい。レンダリングは、所望されるオーディオ・オブジェクト位置、該所望されるオーディオ・オブジェクト位置から参照位置までの距離、オーディオ・オブジェクトの速度またはオーディオ・オブジェクト・コンテンツ型の一つまたは複数に基づいて総合利得を生成することに関わってもよい。メタデータは、オーディオ・オブジェクトの位置を一次元曲線または二次元面に制約するためのデータを含んでいてもよい。メタデータはオーディオ・オブジェクトについての軌跡データを含んでいてもよい。

レンダリングは、スピーカー・ゾーン制約条件を課すことに関わってもよい。たとえば、装置はユーザー入力システムを含んでいてもよい。いくつかの実装によれば、レンダリングは、ユーザー入力システムから受領される、スクリーンから部屋へのバランス（screen-to-room balance）制御データに従ってスクリーンから部屋へのバランス制御を適用することに関わっていてもよい。

本装置はディスプレイ・システムを含んでいてもよい。論理システムは、再生環境の動的な三次元ビューを表示するようディスプレイ・システムを制御するよう構成されていてもよい。

レンダリングは、三次元のうち一つまたは複数の次元方向でのオーディオ・オブジェクトの広がりを制御することに関わってもよい。レンダリングは、スピーカー過負荷に応答して動的なオブジェクト・ブロッビング（blobbing）に関わってもよい。レンダリングは、オーディオ・オブジェクト位置を再生環境のスピーカー・アレイの平面にマッピングすることに関わってもよい。

本装置は、メモリ・システムのメモリ・デバイスのような一つまたは複数の非一時的な記憶媒体を含んでいてもよい。メモリ・デバイスはたとえば、ランダム・アクセス・メモリ（RAM）、読み出し専用メモリ（ROM）、フラッシュメモリ、一つまたは複数のハードドライブなどを含んでいてもよい。インターフェース・システムは、論理システムと、一つまたは複数のそのようなメモリ・デバイスとの間のインターフェースを含んでいてもよい。インターフェース・システムは、ネットワーク・インターフェースをも含んでいてもよい。

メタデータは、スピーカー・ゾーン制約メタデータを含んでいてもよい。論理システムは、以下の動作を実行することによって選択されたスピーカー・フィード信号を減衰させるよう構成されていてもよい：選択されたスピーカーからの寄与を含む第一の利得を計算し；選択されたスピーカーからの寄与を含まない第二の利得を計算し；第一の利得を第二の利得とブレンドする。論理システムは、オーディオ・オブジェクト位置についてパン規則を適用するか、オーディオ・オブジェクト位置を単一のスピーカー位置にマッピングするかを決定するよう構成されていてもよい。論理システムは、オーディオ・オブジェクト位置の第一の単一のスピーカー位置へのマッピングから第二の単一のスピーカー位置へ遷移するときに、スピーカー利得における遷移をなめらかにするよう構成されていてもよい。論理システムは、オーディオ・オブジェクト位置を単一のスピーカー位置にマッピングすることと、オーディオ・オブジェクト位置についてパン規則を適用することとの間で遷移するときに、スピーカー利得における遷移をなめらかにするよう構成されていてもよい。論理システムは、仮想スピーカー位置の間の一次元曲線に沿った諸オーディオ・オブジェクト位置についてスピーカー利得を計算するよう構成されていてもよい。

本稿に記載されるいくつかの方法は、一つまたは複数のオーディオ・オブジェクトおよび関連するメタデータを含むオーディオ再生データを受領し、再生環境における再生スピーカーの数の指示を含む再生環境データを受領することに関わる。再生環境データは、再生環境内の各再生スピーカーの位置の指示を含んでいてもよい。これらの方法は、少なくとも部分的には関連するメタデータに基づいて、オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングすることに関わっていてもよい。各スピーカー・フィード信号は、再生環境内の再生スピーカーの少なくとも一つに対応してもよい。再生環境は、映画館サウンド・システム環境であってもよい。

レンダリングは、所望されるオーディオ・オブジェクト位置、該所望されるオーディオ・オブジェクト位置から参照位置までの距離、オーディオ・オブジェクトの速度またはオーディオ・オブジェクト・コンテンツ型の一つまたは複数に基づいて総合利得を生成することに関わってもよい。メタデータは、オーディオ・オブジェクトの位置を一次元曲線または二次元面に制約するためのデータを含んでいてもよい。レンダリングは、スピーカー・ゾーン制約条件を課すことに関わってもよい。

いくつかの実装は、ソフトウェアが記憶されている一つまたは複数の非一時的な媒体において具現されてもよい。ソフトウェアは、以下の動作を実行するよう一つまたは複数の装置を制御する命令を含んでいてもよい：一つまたは複数のオーディオ・オブジェクトおよび関連するメタデータを含むオーディオ再生データを受領し；再生環境における再生スピーカーの数の指示および再生環境内の各再生スピーカーの位置の指示を含む再生環境データを受領し；少なくとも部分的には関連するメタデータに基づいて、オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする。各スピーカー・フィード信号は、再生環境内の再生スピーカーの少なくとも一つに対応してもよい。再生環境は、たとえば、映画館サウンド・システム環境であってもよい。

レンダリングは、所望されるオーディオ・オブジェクト位置、該所望されるオーディオ・オブジェクト位置から参照位置までの距離、オーディオ・オブジェクトの速度またはオーディオ・オブジェクト・コンテンツ型の一つまたは複数に基づいて総合利得を生成することに関わってもよい。メタデータは、オーディオ・オブジェクトの位置を一次元曲線または二次元面に制約するためのデータを含んでいてもよい。レンダリングは、スピーカー・ゾーン制約条件を課すことに関わってもよい。レンダリングは、スピーカー過負荷に応答して動的なオブジェクト・ブロッビング（blobbing）に関わってもよい。

代替的なデバイスおよび装置が本稿に記載される。いくつかのそのような装置は、インターフェース・システム、ユーザー入力システムおよび論理システムを含んでいてもよい。論理システムは、インターフェース・システムを介してオーディオ・データを受領し、ユーザー入力システムまたはインターフェース・システムを介してオーディオ・オブジェクトの位置を受領し、三次元空間におけるオーディオ・オブジェクトの位置を決定するよう構成されていてもよい。該決定は、前記位置を、三次元空間内の一次元曲線または二次元面に制約することに関わっていてもよい。論理システムは、少なくとも部分的にはユーザー入力システムを介して受領されたユーザー入力に基づいて、オーディオ・オブジェクトに関連するメタデータを生成するよう構成されていてもよい。前記メタデータは、三次元空間におけるオーディオ・オブジェクトの位置を示すデータを含む。

メタデータは、三次元空間内でのオーディオ・オブジェクトの時間変化する位置を示す軌跡データを含んでいてもよい。論理システムは、ユーザー入力システムを介して受領されたユーザー入力に従って軌跡データを計算するよう構成されていてもよい。軌跡データは、複数の時点における三次元空間内での位置の集合を含んでいてもよい。軌跡データは、初期位置、速度データおよび加速度データを含んでいてもよい。軌跡データは、初期位置および三次元空間における諸位置および対応する時間を定義する式を含んでいてもよい。

本装置は、ディスプレイ・システムを含んでいてもよい。論理システムは、軌跡データに従ってオーディオ・オブジェクト軌跡を表示するようディスプレイ・システムを制御するよう構成されていてもよい。

論理システムは、ユーザー入力システムを介して受領されたユーザー入力に従って、スピーカー・ゾーン制約メタデータを生成するよう構成されていてもよい。スピーカー・ゾーン制約メタデータは、選択されたスピーカーを無効にするためのデータを含んでいてもよい。論理システムは、オーディオ・オブジェクト位置を単一のスピーカーにマッピングすることによってスピーカー・ゾーン制約メタデータを生成するよう構成されていてもよい。

本装置は、サウンド再生システムを含んでいてもよい。論理システムは、少なくとも部分的には前記メタデータに従ってサウンド再生システムを制御するよう構成されていてもよい。

オーディオ・オブジェクトの位置は、一次元曲線に制約されてもよい。論理システムはさらに、該一次元曲線に沿った諸仮想スピーカー位置を生成するよう構成されていてもよい。

代替的な方法が本稿に記載される。いくつかのそのような方法は、オーディオ・データを受領し、オーディオ・オブジェクトの位置を受領し、三次元空間におけるオーディオ・オブジェクトの位置を決定することに関わる。該決定は、前記位置を、三次元空間内の一次元曲線または二次元面に制約することに関わっていてもよい。これらの方法は、少なくとも部分的にはユーザー入力に基づいて、オーディオ・オブジェクトに関連するメタデータを生成することに関わってもよい。

メタデータは、三次元空間内でのオーディオ・オブジェクトの位置を示すデータを含んでいてもよい。メタデータは、三次元空間内でのオーディオ・オブジェクトの時間変化する位置を示す軌跡データを含んでいてもよい。メタデータの生成は、たとえばユーザー入力に従って、スピーカー・ゾーン制約メタデータを生成することに関わってもよい。スピーカー・ゾーン制約メタデータは、選択されたスピーカーを無効にするためのデータを含んでいてもよい。

オーディオ・オブジェクトの位置は、一次元曲線に制約されてもよい。これらの方法は、該一次元曲線に沿った諸仮想スピーカー位置を生成することに関わってもよい。

本開示の他の側面が、ソフトウェアが記憶されている一つまたは複数の非一時的な媒体において具現されてもよい。ソフトウェアは、以下の動作を実行するよう一つまたは複数の装置を制御する命令を含んでいてもよい：オーディオ・データを受領し、オーディオ・オブジェクトの位置を受領し、三次元空間におけるオーディオ・オブジェクトの位置を決定する。該決定は、前記位置を、三次元空間内の一次元曲線または二次元面に制約することに関わっていてもよい。ソフトウェアは、オーディオ・オブジェクトに関連するメタデータを生成するよう一つまたは複数の装置を制御する命令を含んでいてもよい。メタデータは、少なくとも部分的にはユーザー入力に基づいて生成されてもよい。

オーディオ・オブジェクトの位置は、一次元曲線に制約されてもよい。ソフトウェアは、該一次元曲線に沿った諸仮想スピーカー位置を生成するよう一つまたは複数の装置を制御する命令を含んでいてもよい。

本明細書に記載される主題の一つまたは複数の実装の詳細は、付属の図面および以下の説明において記載される。他の特徴、側面および利点が該説明、図面および請求項から明白となるであろう。以下の図面の相対的な寸法は縮尺通りに描かれていないことがあることを注意しておく。

ドルビー・サラウンド５．１配位をもつ再生環境の例を示す図である。ドルビー・サラウンド７．１配位をもつ再生環境の例を示す図である。浜崎２２．２サラウンド・サウンド配位をもつ再生環境の例を示す図である。仮想再生環境におけるさまざまな高さにおけるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース（GUI）の例を示す図である。別の再生環境の例を示す図である。三次元空間の二次元面に制約されている位置をもつオーディオ・オブジェクトに対応するスピーカー応答の例を示す図である。三次元空間の二次元面に制約されている位置をもつオーディオ・オブジェクトに対応するスピーカー応答の例を示す図である。三次元空間の二次元面に制約されている位置をもつオーディオ・オブジェクトに対応するスピーカー応答の例を示す図である。オーディオ・オブジェクトが制約されうる二次元面の例を示す図である。オーディオ・オブジェクトが制約されうる二次元面の例を示す図である。オーディオ・オブジェクトの位置を二次元面に制約するプロセスの一例を概説する流れ図である。オーディオ・オブジェクト位置を単一のスピーカー位置または単一のスピーカー・ゾーンにマッピングするプロセスの一例を概説する流れ図である。仮想スピーカーを確立し、使用するプロセスを概説する流れ図である。Ａ〜Ｃは、線端点にマッピングされた仮想スピーカーおよび対応するスピーカー応答の例を示す図である。Ａ〜Ｃは、オーディオ・オブジェクトを動かすために仮想ひも（tether）を使う例を示す図である。オーディオ・オブジェクトを動かすために仮想ひも（tether）を使うプロセスを概説する流れ図である。オーディオ・オブジェクトを動かすために仮想ひも（tether）を使う代替的なプロセスを概説する流れ図である。図１０Ｂで概説されたプロセスの例を示す図である。図１０Ｂで概説されたプロセスの例を示す図である。図１０Ｂで概説されたプロセスの例を示す図である。仮想再生環境においてスピーカー・ゾーン制約条件を適用する例を示す図である。スピーカー・ゾーン制約条件を適用するいくつかの例を概説する流れ図である。仮想再生環境の二次元ビューと三次元ビューの間で切り換えることのできるGUIの例を示す図である。仮想再生環境の二次元ビューと三次元ビューの間で切り換えることのできるGUIの例を示す図である。再生環境の二次元および三次元描画の組み合わせを示す図である。再生環境の二次元および三次元描画の組み合わせを示す図である。再生環境の二次元および三次元描画の組み合わせを示す図である。図１３Ｃ〜１３Ｅに示されるもののようなGUIを呈示するよう装置を制御するプロセスを概説する流れ図である。再生環境についてオーディオ・オブジェクトをレンダリングするプロセスを概説する流れ図である。Ａは、仮想再生環境におけるオーディオ・オブジェクトおよび関連するオーディオ・オブジェクト幅の例を示す図であり、Ｂは、Ａに示したオーディオ・オブジェクト幅に対応する拡散（spread）プロファイルの例を示す図である。オーディオ・オブジェクトをブロッビングするプロセスを概説する流れ図である。ＡおよびＢは、三次元仮想再生環境に位置されるオーディオ・オブジェクトの例を示す図である。諸パン・モードに対応する諸ゾーンの例を示す図である。Ａ〜Ｄは、種々の位置にあるオーディオ・オブジェクトに近距離場および遠距離場パン技法を適用する例を示す図である。スクリーンから部屋へのバイアス制御プロセスにおいて使用されうる再生環境のスピーカー・ゾーンを示す図である。オーサリングおよび／またはレンダリング装置のコンポーネントの例を与えるブロック図である。Ａは、オーディオ・コンテンツ生成のために使用されうるいくつかのコンポーネントを表すブロック図であり、Ｂは再生環境におけるオーディオ再生のために使用されうるいくつかのコンポーネントを表すブロック図である。さまざまな図面における参照番号および符号は同様の要素を指示する。

以下の記述は、本開示のいくつかの斬新な側面およびこれら斬新な側面が実装されうるコンテキストの例を記述する目的のためのある種の実装に向けられる。しかしながら、本稿の教示はさまざまな異なる仕方で適用されることができる。たとえば、さまざまな実装が具体的な再生環境を使って記述されているが、本稿の教示は他の既知の再生環境および将来導入されうる再生環境に広く適用可能である。同様に、グラフィカル・ユーザー・インターフェース（GUI）の例が本稿に呈示されており、そのいくつかはスピーカー位置、スピーカー・ゾーンなどの例を提供しているが、他の実装も発明者によって考えられている。さらに、記載される実装はさまざまなオーサリングおよび／またはレンダリング・ツールにおいて実装されてもよく、それらは多様なハードウェア、ソフトウェア、ファームウェア等で実装されてもよい。したがって、本開示の教示は、図面に示されるおよび／または本稿で記述される実装に限定されることは意図されておらず、むしろ広い適用可能性をもつものである。

図１は、ドルビー・サラウンド５．１配位をもつ再生環境の例を示している。ドルビー・サラウンド５．１は1990年代に開発されたが、この配位はいまだ広く映画館サウンド・システム環境に配備されている。プロジェクター１０５は、たとえば映画のためのビデオ画像をスクリーン１５０に投影するよう構成されていてもよい。オーディオ再生データは、該ビデオ画像と同期され、サウンド・プロセッサ１１０によって処理されてもよい。電力増幅器１１５はスピーカー・フィード信号を再生環境１００のスピーカーに与えてもよい。

ドルビー・サラウンド５．１配位は、左サラウンド・アレイ１２０、右サラウンド・アレイ１２５を含み、そのそれぞれは単一チャネルによって集団駆動される。ドルビー・サラウンド５．１配位は左スクリーン・チャネル１３０、中央スクリーン・チャネル１３５および右スクリーン・チャネル１４０についての別個のチャネルをも含む。サブウーファー１４５についての別個のチャネルが低域効果（LFE: low-frequency effects）のために提供される。

2010年に、ドルビーはドルビー・サラウンド７．１を導入することによってデジタル映画館サウンドに対する向上を提供した。図２は、ドルビー・サラウンド７．１配位をもつ再生環境の例を示している。デジタル・プロジェクター２０５はデジタル・ビデオ・データを受領し、ビデオ画像をスクリーン１５０上に投影するよう構成されていてもよい。オーディオ再生データは、サウンド・プロセッサ２１０によって処理されてもよい。電力増幅器２１５がスピーカー・フィード信号を再生環境２００のスピーカーに提供してもよい。

ドルビー・サラウンド７．１配位は、左側方サラウンド・アレイ２２０、右側方サラウンド・アレイ２２５を含み、そのそれぞれは単一チャネルによって駆動されてもよい。ドルビー・サラウンド５．１と同様に、ドルビー・サラウンド７．１配位は左スクリーン・チャネル２３０、中央スクリーン・チャネル２３５、右スクリーン・チャネル２４０およびサブウーファー２４５のための別個のチャネルをも含む。しかしながら、ドルビー・サラウンド７．１は、ドルビー・サラウンド５．１の左および右のサラウンド・チャネルを四つのゾーンに分割することによって、サラウンド・チャネルの数を増している。すなわち、左側方サラウンド・アレイ２２０および右側方サラウンド・アレイ２２５に加えて、左後方サラウンド・スピーカー２２４および右後方サラウンド・スピーカー２２６のための別個のチャネルが含まれる。再生環境２００内のサラウンド・ゾーンの数を増すことは、音の定位を著しく改善できる。

より没入的な環境を生成しようとする努力において、いくつかの再生環境は、増加した数のチャネルによって駆動される増加した数のスピーカーをもって構成されることがある。さらに、いくつかの再生環境は、さまざまな高さに配備されるスピーカーを含むことがあり、そのような高さの一部は再生環境の座席領域より上方であることがある。

図３は、浜崎２２．２サラウンド・サウンド配位をもつ再生環境の例を示している。浜崎２２．２は日本のNHK放送技術研究所において、超高精細度テレビジョンのサラウンド・サウンド・コンポーネントとして開発された。浜崎２２．２は24個のスピーカー・チャネルを提供し、それらは三層に配置されたスピーカーを駆動するために使用されうる。再生環境３００の上スピーカー層３１０は9チャネルによって駆動されうる。中スピーカー層３２０は10チャネルによって駆動されうる。下スピーカー層３３０は5チャネルによって駆動されうるが、そのうち2チャネルはサブウーファー３４５ａおよび３４５ｂ用である。

よって、現在のトレンドは、より多くのスピーカーおよびより多くのチャネルを含めるだけでなく、異なる高さのスピーカーをも含めるものである。チャネルの数が増し、スピーカー・レイアウトが2Dアレイから3Dアレイに遷移するにつれて、サウンドを位置決めし、レンダリングするタスクはますます難しくなる。

本開示は、3Dオーディオ・サウンド・システムのための機能を高めるおよび／またはオーサリング複雑さを軽減するさまざまなツールおよび関係するユーザー・インターフェースを提供する。

図４Ａは、仮想再生環境におけるさまざまな高さにあるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース（GUI）の例を示している。GUI ４００はたとえば、論理システムからの命令、ユーザー入力装置から受領される信号などに従って、表示装置上に表示されてもよい。そのようないくつかの装置は図２１を参照して後述する。

仮想再生環境４０４のような仮想再生環境への言及に関する本稿での用法では、用語「スピーカー・ゾーン」は概括的に、実際の再生環境の再生スピーカーと一対一対応があってもなくてもよい論理的な構造体を指す。たとえば、「スピーカー・ゾーン位置」は、映画館再生環境の特定の再生スピーカー位置に対応してもしなくてもよい。その代わり、用語「スピーカー・ゾーン位置」は概括的に、仮想再生環境のゾーンを指してもよい。いくつかの実装では、仮想再生環境のスピーカー・ゾーンは、たとえば二チャネル・ステレオ・ヘッドホンの組を使ってリアルタイムに仮想サラウンド・サウンド環境を生成するドルビー・ヘッドホン（商標）（時にモバイル・サラウンド（商標）と称される）のような仮想化技術の使用を通じて仮想スピーカーに対応してもよい。GUI ４００には、第一の高さに七つのスピーカー・ゾーン４０２ａがあり、第二の高さに二つのスピーカー・ゾーン４０２ｂがあり、仮想再生環境４０４内のスピーカー・ゾーンは合計九つとなっている。この例では、スピーカー・ゾーン１〜３は仮想再生環境４０４の前方領域４０５にある。前方領域４０５はたとえば、映画館再生環境の、スクリーン１５０が位置する領域、家庭のテレビジョン・スクリーンが位置する領域などに対応してもよい。

ここで、スピーカー・ゾーン４は概括的には左領域４１０のスピーカーに対応し、スピーカー・ゾーン５は仮想再生環境４０４の右領域４１５のスピーカーに対応する。スピーカー・ゾーン６は左後方領域４１２に対応し、スピーカー・ゾーン７は仮想再生環境４０４の右後方領域４１４に対応する。スピーカー・ゾーン８は上領域４２０ａのスピーカーに対応し、スピーカー・ゾーン９は上領域４２０ｂのスピーカーに対応し、これは図５Ｄおよび５Ｅに示される仮想天井５２０の領域のような仮想天井領域であってもよい。したがって、下記でより詳細に述べるように、図４Ａに示されるスピーカー・ゾーン１〜９の位置は実際の再生環境の再生スピーカーの位置に対応してもしなくてもよい。さらに、他の実装はより多数またはより少数のスピーカー・ゾーンおよび／または高さを含んでいてもよい。

本稿に記載されるさまざまな実装において、GUI ４００のようなユーザー・インターフェースが、オーサリング・ツールおよび／またはレンダリング・ツールの一部として使用されてもよい。いくつかの実装では、オーサリング・ツールおよび／またはレンダリング・ツールは、一つまたは複数の非一時的な媒体上に記憶されるソフトウェアを介して実装されてもよい。オーサリング・ツールおよび／またはレンダリング・ツールは、（少なくとも部分的には）図２１を参照して後述する論理システムおよび他の装置のようなハードウェア、ファームウェアなどによって実装されてもよい。いくつかのオーサリング実装では、関連するオーサリング・ツールが関連するオーディオ・データについてのメタデータを生成するために使用されてもよい。メタデータは、たとえば、三次元空間におけるオーディオ・オブジェクトの位置および／または軌跡を示すデータ、スピーカー・ゾーン制約条件データなどを含んでいてもよい。メタデータは、実際の再生環境の特定のスピーカー・レイアウトに関してではなく、仮想再生環境４０４のスピーカー・ゾーン４０２に関して生成されてもよい。レンダリング・ツールは、オーディオ・データおよび関連するメタデータを受領してもよく、再生環境のためのオーディオ利得およびスピーカー・フィード信号を計算してもよい。そのようなオーディオ利得およびスピーカー・フィード信号は、振幅パン・プロセスに従って計算されてもよい。振幅パン・プロセスは、音が再生環境中の位置Pから来ているような知覚を創り出すことができるものである。たとえば、スピーカー・フィード信号は、次式
x_i(t)＝g_ix(t) i＝1,…,N (式1)
に従って再生環境の再生スピーカー１ないしNに与えられてもよい。

式(1)において、x_i(t)はスピーカーiに加えられるスピーカー・フィード信号を表し、g_iは対応するチャネルの利得因子を表し、x(t)はオーディオ信号を表し、tは時間を表す。利得因子はたとえばここに参照により組み込まれる非特許文献１のSection 2、pp.3-4に記載される振幅パン方法（amplitude panning methods）に従って決定されてもよい。いくつかの実装では、利得は周波数依存であってもよい。いくつかの実装では、x(t)をx(t−Δt)で置き換えることによって時間遅延が導入されてもよい。

いくつかのレンダリング実装では、スピーカー・ゾーン４０２を参照して生成されたオーディオ再生データは、ドルビー・サラウンド５．１配位、ドルビー・サラウンド７．１配位、浜崎２２．２配位または他の配位であってもよい幅広い範囲の再生環境のスピーカー位置にマッピングされうる。たとえば、図２を参照するに、レンダリング・ツールは、スピーカー・ゾーン４および５についてのオーディオ再生データを、ドルビー・サラウンド７．１配位をもつ再生環境の左側方サラウンド・アレイ２２０および右側方サラウンド・アレイ２２５にマッピングしてもよい。スピーカー・ゾーン１、２および３についてのオーディオ再生データは、それぞれ左スクリーン・チャネル２３０、右スクリーン・チャネル２４０および中央スクリーン・チャネル２３５にマッピングされてもよい。スピーカー・ゾーン６および７についてのオーディオ再生データは、左後方サラウンド・スピーカー２２４および右後方サラウンド・スピーカー２２６にマッピングされてもよい。

図４Ｂは、別の再生環境の例を示している。いくつかの実装では、レンダリング・ツールは、スピーカー・ゾーン１、２および３についてのオーディオ再生データを再生環境４５０の対応するスクリーン・スピーカー４５５にマッピングしてもよい。レンダリング・ツールは、スピーカー・ゾーン４および５についてのオーディオ再生データを、左側方サラウンド・アレイ４６０および右側方サラウンド・アレイ４６５にマッピングしてもよく、スピーカー・ゾーン８および９についてのオーディオ再生データを、左頭上スピーカー４７０ａおよび右頭上スピーカー４７０ｂにマッピングしてもよい。スピーカー・ゾーン６および７についてのオーディオ再生データは、左後方サラウンド・スピーカー４８０ａおよび右後方サラウンド・スピーカー４８０ｂにマッピングされてもよい。

いくつかのオーサリング実装では、オーサリング・ツールは、オーディオ・オブジェクトについてのメタデータを生成するために使われてもよい。本稿での用法では、用語「オーディオ・オブジェクト（audio object）」はオーディオ・データおよび関連するメタデータのストリームを指す。メタデータは典型的にはオブジェクトの3D位置、レンダリング制約条件およびコンテンツ型（たとえばダイアログ、効果など）を指示する。実装に依存して、メタデータは、幅データ、利得データ、軌跡データなどの他の型のデータを含んでいてもよい。いくつかのオーディオ・オブジェクトは静的であってもよく、一方、他のオーディオ・オブジェクトは動いてもよい。オーディオ・オブジェクトの詳細は、所与の時点における三次元空間内でのオーディオ・オブジェクトの位置などを示しうる関連するメタデータに従ってオーサリングまたはレンダリングされてもよい。オーディオ・オブジェクトが再生環境においてモニタリングまたは再生されるとき、オーディオ・オブジェクトは、ドルビー５．１やドルビー７．１のような伝統的なチャネル・ベースのシステムの場合のように所定の物理的チャネルに出力されるのではなく、再生環境に存在する再生スピーカーを使って、位置メタデータに従ってレンダリングされうる。

さまざまなオーサリングおよびレンダリング・ツールが、GUI ４００と実質的に同じであるGUIを参照して本願で記述されるが、GUIを含むがGUIに限定されない他のさまざまなインターフェースがこれらオーサリングおよびレンダリング・ツールと関連して使用されうる。いくつかのそのようなツールは、さまざまな型の制約条件を適用することによってオーサリング・プロセスを単純化することができる。いくつかの実装についてこれから、図５Ａ以下を参照して述べる。

図５Ａ〜５Ｃは、三次元空間の二次元面に制約された位置をもつオーディオ・オブジェクトに対応するスピーカー応答の例を示している。二次元面はこの例では半球である。これらの例において、スピーカー応答は、各スピーカーがスピーカー・ゾーン１〜９の一つに対応する９スピーカー配位を想定してレンダラーによって計算されている。しかしながら、本稿の他所で述べているように、一般には、仮想再生環境のスピーカー・ゾーンと再生環境における再生スピーカーとの間に一対一のマッピングがなくてもよい。まず図５Ａを参照するに、オーディオ・オブジェクト５０５が仮想再生環境４０４の左前部の位置に示されている。よって、スピーカー・ゾーン１に対応するスピーカーは実質的な利得を示し、スピーカー・ゾーン３および４に対応するスピーカーは中程度の利得を示す。

この例において、オーディオ・オブジェクト５０５の位置は、オーディオ・オブジェクト５０５上にカーソル５１０を置いて、オーディオ・オブジェクト５０５を仮想再生環境４０４のxy平面内の所望される位置に「ドラッグ」することによって変えられる。オブジェクトが再生環境の中央に向けてドラッグされるにつれて、オブジェクトは半球の表面にもマッピングされ、その高さが増す。ここで、オーディオ・オブジェクト５０５の高さ増は、オーディオ・オブジェクト５０５を表す円の直径の増大によって示されている。すなわち、図５Ｂおよび５Ｃに示されるように、オーディオ・オブジェクト５０５が仮想再生環境４０４の頂部の中央にドラッグされるにつれ、オーディオ・オブジェクト５０５はますます大きく見える。代替的または追加的に、オーディオ・オブジェクト５０５の高さは、色、明るさ、数値による高さ指示などの変化によって示されてもよい。オーディオ・オブジェクト５０５が図５Ｃに示されるように仮想再生環境４０４の頂部中央に位置されるときは、スピーカー・ゾーン８および９に対応するスピーカーが実質的な利得を示し、他のスピーカーはほとんどまたは全く利得を示さない。

この実装では、オーディオ・オブジェクト５０５の位置は、球面、楕円面、円錐面、円筒面、楔形などといった二次元面に制約される。図５Ｄおよび５Ｅは、オーディオ・オブジェクトが制約されうる二次元面の例を示している。図５Ｄおよび５Ｅは、仮想再生環境４０４を通じた断面図であり、前領域４０５が左に示されている。図５Ｄおよび５Ｅでは、図５Ａ〜５Ｃに示したx-y軸の配向との一貫性を保持するために、y-z軸のy値は仮想再生環境４０４の前領域４０５の方向に増大する。

図５Ｄに示される例では、二次元面５１５ａは楕円面のセクションである。図５Ｅに示される例では、二次元面５１５ｂは楔形のセクションである。しかしながら、図５Ｄおよび５Ｅに示される二次元面５１５の形、配向および位置は単に例である。代替的な実装では、二次元面５１５の少なくとも一部が仮想再生環境４０４の外に延びてもよい。いくつかのそのような実装では、二次元面５１５は仮想天井５２０の上に延びてもよい。よって、その中に二次元面５１５が延在する三次元空間は、必ずしも仮想再生環境４０４の体積と同じ広がりでない。さらに他の実装では、オーディオ・オブジェクトは曲線、直線などといった一次元特徴に制約されてもよい。

図６Ａは、オーディオ・オブジェクトの位置を二次元面に制約するプロセスの一例を概説する流れ図である。本稿で与える他の流れ図と同様、プロセス６００の動作は必ずしも図示した順序で実行されるのではない。さらに、プロセス６００（および本稿で与えられる他のプロセス）は、図に示されているおよび／または記述されているものより多数または少数の動作を含んでいてもよい。この例では、ブロック６０５ないし６２２はオーサリング・ツールによって実行され、ブロック６２４ないし６３０はレンダリング・ツールによって実行される。オーサリング・ツールおよびレンダリング・ツールは、単一の装置において、あるいは二つ以上の装置において実装されてもよい。図６Ａ（および本稿で与えられている他の流れ図）は、オーサリング・プロセスとレンダリング・プロセスが逐次的に実行されるような印象を与えるかもしれないが、多くの実装では、オーサリング・プロセスとレンダリング・プロセスは実質的に同時に実行される。オーサリング・プロセスおよびレンダリング・プロセスは対話的であってもよい。たとえば、オーサリング処理の結果がレンダリング・ツールに送られてもよく、レンダリング・ツールの対応する結果がユーザーによって評価されてもよく、ユーザーはこれらの結果に基づいてさらなるオーサリングを実行してもよい、など。

ブロック６０５では、オーディオ・オブジェクト位置が二次元面に制約されるべきであるという指示が受領される。この指示は、たとえば、オーサリングおよび／またはレンダリング・ツールを提供するよう構成されている装置の論理システムによって受領されてもよい。本稿に記載される他の実装と同様に、論理システムは、非一時的媒体に記憶されているソフトウェアの命令、ファームウェアなどに従って動作してもよい。前記指示は、ユーザーからの入力に応答したユーザー入力装置（タッチスクリーン、マウス、トラックボール、ジェスチャー認識装置など）からの信号であってもよい。

任意的なブロック６０７において、オーディオ・データが受領される。オーディオ・データは、メタデータ・オーサリング・ツールに時間同期されている別の源（たとえばミキシング・コンソール）から直接レンダラーに行ってもよいので、ブロック６０７はこの例では任意的である。いくつかのそのような実装では、各オーディオ・ストリームを対応する入来メタデータ・ストリームに結び付けてオーディオ・オブジェクトを形成する暗黙的な機構が存在してもよい。たとえば、メタデータ・ストリームは、それが表すオーディオ・オブジェクトについての識別子、たとえば1からNの数値を含んでいてもよい。レンダリング装置がやはり1からNの番号を付されたオーディオ入力をもって構成される場合、レンダリング・ツールは自動的に、オーディオ・オブジェクトが、ある数値（たとえば1）で同定されるメタデータ・ストリームと、第一のオーディオ入力上で受領されるオーディオ・データとによって形成されていると想定してもよい。同様に、番号2として同定されている任意のメタデータ・ストリームが、第二のオーディオ入力チャネル上で受領されるオーディオとオブジェクトを形成してもよい。いくつかの実装では、オーディオおよびメタデータは、オーサリング・ツールによって事前パッケージングされてオーディオ・オブジェクトを形成してもよく、該オーディオ・オブジェクトがレンダリング・ツールに与えられてもよい、たとえばTCP/IPパケットとしてネットワークを通じて送られてもよい。

代替的な実装では、オーサリング・ツールはネットワーク上でメタデータを送るだけでもよく、レンダリング・ツールは別の源から（たとえばパルス・コード変調（PCM）ストリームを介して、アナログ・オーディオ等を介してなど）オーディオを受領してもよい。そのような実装では、レンダリング・ツールが、オーディオ・データおよびメタデータをグループ化してオーディオ・オブジェクトを形成するよう構成されていてもよい。オーディオ・データはたとえば、インターフェースを介して論理システムによって受領されてもよい。インターフェースはたとえば、ネットワーク・インターフェース、オーディオ・インターフェース（たとえば、AES/EBUとしても知られるオーディオ・エンジニアリング協会およびヨーロッパ放送連合（Audio Engineering Society and the European Broadcasting Union）によって開発されたAES3規格を介した、マルチチャネル・オーディオ・デジタル・インターフェース（MADI: Multichannel Audio Digital Interface）プロトコルを介した、アナログ信号を介したなどの通信のために構成されたインターフェース）または論理システムとメモリ装置の間のインターフェースであってもよい。この例では、レンダラーによって受領されるデータは少なくとも一つのオーディオ・オブジェクトを含む。

ブロック６１０では、オーディオ・オブジェクト位置の(x,y)または(x,y,z)座標が受領される。ブロック６１０はたとえば、図５Ａ〜５Ｃを参照して上記したように、オーディオ・オブジェクトの初期位置を受領することに関わっていてもよい。ブロック６１０はまた、ユーザーがオーディオ・オブジェクトを位置させたまたは位置させ直したという指標を受領することに関わっていてもよい。オーディオ・オブジェクトの座標はブロック６１５において二次元面にマッピングされる。二次元面は図５Ｄおよび５Ｅを参照して上記したものと同様であってもよいし、あるいは異なる二次元面であってもよい。この例では、xy平面の各点は単一のz値にマッピングされる。よって、ブロック６１５はブロック６１０において受領されるxおよびy座標をzの値にマッピングすることに関わる。他の実装では、異なるマッピング・プロセスおよび／または座標系が使用されてもよい。オーディオ・オブジェクトは、ブロック６１５において決定される(x,y,z)位置において表示されてもよい（ブロック６２０）。オーディオ・データおよびブロック６１５において決定されたマッピングされた(x,y,z)位置を含むメタデータは、ブロック６２１において記憶されてもよい。オーディオ・データおよびメタデータはレンダリング・ツールに送られてもよい（ブロック６２２）。いくつかの実装では、メタデータは、いくつかのオーサリング処理が実行されている間に、たとえばオーディオ・オブジェクトが位置付けされ、制約され、GUI ４００に表示されているなどの間に、連続的に送られてもよい。

ブロック６２３では、オーサリング・プロセスが続くかどうかが決定される。たとえば、ユーザーがもはやオーディオ・オブジェクト位置を二次元面に制約することを望まないことを指示するユーザー・インターフェースからの入力を受領したら、オーサリング・プロセスは終了してもよい（ブロック６２５）。そうでなければ、オーサリング・プロセスは、たとえばブロック６０７またはブロック６１０に戻ることによって続いてもよい。いくつかの実装では、オーサリング・プロセスが続くか否かによらず、レンダリング処理は続いてもよい。いくつかの実装では、オーディオ・オブジェクトはオーサリング・プラットフォーム上のディスクに記録されてもよく、次いで専用のサウンド・プロセッサまたはサウンド・プロセッサ、たとえば図２のサウンド・プロセッサ２１０のようなサウンド・プロセッサに接続された映画館サーバーから、展示目的のために再生されてもよい。

いくつかの実装では、レンダリング・ツールは、オーサリング機能を提供するよう構成されている装置上で走るソフトウェアであってもよい。他の実装では、レンダリング・ツールは別の装置上で提供されてもよい。オーサリング・ツールとレンダリング・ツールの間の通信のために使用される通信プロトコルの型は、両方のツールが同じ装置上で走っているかあるいはネットワークを通じて通信しているかに従って変わりうる。

ブロック６２６では、オーディオ・データおよびメタデータ（ブロック６１５で決定された(x,y,z)位置を含む）がレンダリング・ツールによって受領される。代替的な実装では、オーディオ・データおよびメタデータはレンダリング・ツールによって別個に受領され、暗黙的な機構を通じてオーディオ・オブジェクトとして解釈されてもよい。上記のように、たとえば、メタデータ・ストリームがオーディオ・オブジェクト識別コード（たとえば1,2,3等）を含んでいてもよく、レンダリング・システム上の第一、第二、第三のオーディオ入力（すなわち、デジタルまたはアナログのオーディオ接続）にそれぞれ取り付けられて、スピーカーに対してレンダリングされることのできるオーディオ・オブジェクトを形成してもよい。

プロセス６００のレンダリング処理（および本稿に記載される他のレンダリング処理）の間、パン利得の式（panning gain equations）が、特定の再生環境の再生スピーカー・レイアウトに従って適用されてもよい。よって、レンダリング・ツールの論理システムは、再生環境における再生スピーカーの数の指示および該再生環境内の各再生スピーカーの位置の指示を含む再生環境データを受領してもよい。これらのデータはたとえば、論理システムによってアクセス可能なメモリに記憶されているデータ構造にアクセスすることによって受領されても、あるいはインターフェース・システムを介して受領されてもよい。

この例において、オーディオ・データに適用（ブロック６３０）すべき利得値を決定する（ブロック６２８）するために(x,y,z)位置についてパン利得の式が適用される。いくつかの実装では、利得値に応答してレベルにおいて調整されたオーディオ・データが再生スピーカーによって、たとえばレンダリング・ツールの論理システムと通信するよう構成されたヘッドホンのスピーカー（または他のスピーカー）によって再生されてもよい。いくつかの実装では、再生スピーカー位置は、上記の仮想再生環境４０４のような仮想再生環境のスピーカー・ゾーンに対応してもよい。対応するスピーカー応答は、たとえば図５Ａ〜５Ｃに示したような表示装置上に表示されてもよい。

ブロック６３５では、プロセスが続くかどうかが決定される。たとえば、プロセスは、ユーザーがもはやレンダリング・プロセスを続けることを望んでいないことを指示するユーザー・インターフェースからの入力を受領したときに終了してもよい（ブロック６４０）。そうでなければ、プロセスは、たとえばブロック６２６に戻ることによって続いてもよい。論理システムが、ユーザーが対応するオーサリング・プロセスに戻ることを望んでいるという指示を受領する場合には、プロセス６００はブロック６０７またはブロック６１０に戻ってもよい。

他の実装は、さまざまな他の型の制約条件を課すことまたはオーディオ・オブジェクトについての他の型の制約メタデータを生成することに関わってもよい。図６Ｂは、オーディオ・オブジェクト位置を単一のスピーカー位置にマッピングするプロセスの一例を概説する流れ図である。このプロセスは本稿では「スナッピング（snapping）」と称されることもある。ブロック６５５では、オーディオ・オブジェクト位置が単一のスピーカー位置または単一のスピーカー・ゾーンにスナップされてもよいという指示が受領される。この例では、この指示は、オーディオ・オブジェクト位置が、適宜、単一のスピーカー位置にスナップされるというものである。この指示は、オーサリング・ツールを提供するよう構成されている装置の論理システムによって受領されてもよい。この指示は、ユーザー入力装置から受領される入力に対応してもよい。しかしながら、この指示は、オーディオ・オブジェクトのカテゴリー（たとえば弾丸音、発声）および／またはオーディオ・オブジェクトの幅に対応してもよい。カテゴリーおよび／または幅に関する情報は、たとえば、オーディオ・オブジェクトについてのメタデータとして受領されてもよい。そのような実装では、ブロック６５７はブロック６５５より前に行われてもよい。

ブロック６５６では、オーディオ・データが受領される。オーディオ・オブジェクト位置の座標がブロック６５７において受領される。この例では、オーディオ・オブジェクト位置は、ブロック６５７において受領される座標に従って表示される（ブロック６５８）。オーディオ・オブジェクト座標およびスナップ機能を示すスナップ・フラグを含むメタデータがブロック６５９において保存される。オーディオ・データおよびメタデータはオーサリング・ツールによってレンダリング・ツールに送られる（ブロック６６０）。

ブロック６６２では、オーサリング・プロセスが続くかどうかが決定される。たとえば、ユーザーがもはやオーディオ・オブジェクト位置をスピーカー位置にスナップさせることを望まないことを指示するユーザー・インターフェースからの入力を受領したら、オーサリング・プロセスは終了してもよい（ブロック６６３）。そうでなければ、オーサリング・プロセスは、たとえばブロック６６５に戻ることによって続いてもよい。いくつかの実装では、オーサリング・プロセスが続くか否かによらず、レンダリング処理は続いてもよい。

ブロック６６４では、オーサリング・ツールによって送られたオーディオ・データおよびメタデータがレンダリング・ツールによって受領される。ブロック６６５では、オーディオ・オブジェクト位置をスピーカー位置にスナップさせるかどうかが（たとえば論理システムによって）決定される。この決定は、少なくとも部分的には、オーディオ・オブジェクト位置と再生環境の最も近い再生スピーカー位置との間の距離に基づいていてもよい。

この例では、ブロック６６５においてオーディオ・オブジェクト位置をスピーカー位置にスナップさせることが決定された場合、ブロック６７０においてオーディオ・オブジェクト位置はスピーカー位置、一般にはオーディオ・オブジェクトについて受領される意図される(x,y,z)位置に最も近いスピーカー位置にマッピングされる。この場合、このスピーカー位置によって再生されるオーディオ・データについての利得は1.0となる。一方、他のスピーカーによって再生されるオーディオ・データの利得はゼロとなる。代替的な実装では、オーディオ・オブジェクト位置はブロック６７０において、スピーカー位置の群にマッピングされてもよい。

たとえば、再び図４Ｂを参照するに、ブロック６７０は、オーディオ・オブジェクトの位置を左頭上スピーカー４７０ａの一つにスナップさせることに関わってもよい。あるいはまた、ブロック６７０は、オーディオ・オブジェクトの位置をある単一のスピーカーと近隣スピーカー、たとえば１つまたは２つの近隣のスピーカーとにスナップさせることに関わってもよい。よって、対応するメタデータは、再生スピーカーの小さな群におよび／または個々の再生スピーカーに適用されてもよい。

しかしながら、ブロック６６５において、オーディオ・オブジェクト位置がスピーカー位置にスナップされないと決定される場合、たとえば、そうしたとしたら当該オブジェクトについて受領されたもとの意図された位置に比して位置の大きな食い違いが生ずる場合、パン規則が適用される（ブロック６７５）。パン規則は、オーディオ・オブジェクト位置および該オーディオ・オブジェクトの他の特性（幅、ボリュームなど）に従って適用されてもよい。

ブロック６７５から決定された利得データは、ブロック６８１でオーディオ・データに適用されてもよく、結果が保存されてもよい。いくつかの実装では、結果として生ずるオーディオ・データは、論理システムとの通信のために構成されているスピーカーによって再生されてもよい。ブロック６８５において、プロセス６５０が続くことが決定される場合、プロセス６５０はブロック６６４に戻って、レンダリング処理を続けてもよい。あるいはまた、プロセス６５０はブロック６５５に戻ってオーサリング処理を再開してもよい。

プロセス６５０は、さまざまな型の平滑化処理に関わってもよい。たとえば、論理システムは、オーディオ・オブジェクト位置のマッピングを第一の単一のスピーカー位置から第二の単一のスピーカー位置に遷移するときにオーディオ・データに適用される利得における遷移をなめらかにするよう構成されていてもよい。再び図４Ｂを参照するに、オーディオ・オブジェクトの位置が最初は左頭上スピーカー４７０ａの一つにマッピングされていたのが、のちに右後方サラウンド・スピーカー４８０ｂの一つにマッピングされる場合、論理システムは、オーディオ・オブジェクトが突然あるスピーカー（またはスピーカー・ゾーン）から別のものに「ジャンプする」ように感じられないよう、スピーカー間の遷移をなめらかにしてもよい。いくつかの実装では、この平滑化は、クロスフェード・レート・パラメータに従って実装されてもよい。

いくつかの実装では、論理システムは、オーディオ・オブジェクト位置を単一のスピーカー位置にマッピングすることと、オーディオ・オブジェクト位置についてパン規則を適用することとの間で遷移するときに、オーディオ・データに適用される利得における遷移をなめらかにするよう構成されていてもよい。たとえば、ブロック６６５でその後、オーディオ・オブジェクトの位置が、最も近いスピーカーからあまりに遠いと判定される位置に動かされたと判定された場合、オーディオ・オブジェクト位置についてのパン規則がブロック６７５において適用されてもよい。しかしながら、スナッピングからパンへの（またはその逆の）遷移をするとき、論理システムは、オーディオ・データに適用される利得における遷移をなめらかにするよう構成されていてもよい。プロセスは、たとえばユーザー・インターフェースからの対応する入力の受領に際して、ブロック６９０において終了してもよい。

いくつかの代替的な実装は、論理的な制約条件を生成することに関わっていてもよい。いくつかの事例では、たとえば、サウンド・ミキサーは、特定のパン処理の間に使われるスピーカーの集合に対する、より明示的なコントロールを所望してもよい。いくつかの実装は、ユーザーが、スピーカーのセットとパン・インターフェースの間で一次元または二次元の「論理マッピング」を生成することを許容する。

図７は、仮想スピーカーを確立し、使用するプロセスを概説する流れ図である。図８のＡ〜Ｃは、線端点にマッピングされた仮想スピーカーおよび対応するスピーカー・ゾーン応答の例を示す。まず図７のプロセス７００を参照するに、ブロック７０５において、仮想スピーカーを生成する指示が受領される。指示はたとえば、オーサリング装置の論理システムによって受領されてもよく、ユーザー入力装置から受領される入力に対応してもよい。

ブロック７１０において、仮想スピーカー位置の指示が受領される。たとえば、図８のＡを参照するに、ユーザーは、カーソル５１０を仮想スピーカー８０５ａの位置に位置付け、たとえばマウス・クリックを介してその位置を選択するために、入力装置を使ってもよい。ブロック７１５では、この例では追加的な仮想スピーカーが選択されることが（たとえばユーザー入力に従って）決定される。プロセスはブロック７１０に戻り、ユーザーはこの例では図８のＡに示される仮想スピーカー８０５ｂの位置を選択する。

この事例では、ユーザーは、二つの仮想スピーカー位置を確立することを望むだけである。よって、ブロック７１５において、さらなる仮想スピーカーは選択されないことが（たとえばユーザー入力に従って）決定される。図８のＡに示されるように、仮想スピーカー８０５ａおよび８０５ｂの位置をつなぐポリライン（polyline）８１０が表示されてもよい。いくつかの実装では、オーディオ・オブジェクト５０５の位置はポリライン８１０に制約される。いくつかの実装では、オーディオ・オブジェクト５０５の位置はパラメトリック曲線上に制約されてもよい。たとえば、一組の制御点がユーザー入力に従って提供されてもよく、スプラインのような曲線当てはめアルゴリズムを使ってパラメトリック曲線を決定してもよい。ブロック７２５では、ポリライン８１０に沿ったオーディオ・オブジェクト位置の指示が受領される。いくつかのそのような実装では、位置は0と1の間のスカラー値として示される。ブロック７２５において、オーディオ・オブジェクトの(x,y,z)座標と、仮想スピーカーによって定義されるポリラインとが表示されてもよい。オーディオ・データと、得られたスカラー位置および仮想スピーカーの(x,y,z)座標を含む関連するメタデータとが表示されてもよい（ブロック７２７）。ここで、オーディオ・データおよびメタデータは適切な通信プロトコルを介してブロック７２８においてレンダリング・ツールに送られてもよい。

ブロック７２９では、オーサリング・プロセスが続くかどうかが決定される。続かない場合、プロセス７００は終了してもよく（ブロック７３０）、あるいはレンダリング処理に続いてもよい。これはユーザー入力に従う。しかしながら、上記のように、多くの実装では、少なくともいくつかのレンダリング処理がオーサリング処理と並行して実行されてもよい。

ブロック７３２では、オーディオ・データおよびメタデータがレンダリング・ツールによって受領される。ブロック７３５では、オーディオ・データに適用される利得が各仮想スピーカー位置について計算される。図８のＢは仮想スピーカー８０５ａの位置についてのスピーカー応答を示している。図８のＣは、仮想スピーカー８０５ｂの位置についてのスピーカー応答を示している。この例では、本稿に記載する他の多くの例と同様、示されるスピーカー応答は、GUI ４００のスピーカー・ゾーンについて示される位置に対応する位置をもつ再生スピーカーについてのものである。ここで、仮想スピーカー８０５ａおよび８０５ｂならびに線８１０は、スピーカー・ゾーン８および９に対応する位置をもつ再生スピーカーに近くない平面内に位置されている。よって、これらのスピーカーについての利得は図８のＢやＣには示されていない。

ユーザーがオーディオ・オブジェクト５０５を線８１０に沿った他の位置に動かすとき、論理システムは、たとえばオーディオ・オブジェクト・スカラー位置パラメータに従ってこれらの位置に対応するクロスフェードを計算する（ブロック７４０）。いくつかの実装では、ペアごとのパン則（pair-wise panning law）（たとえばエネルギーを保存する正弦または冪乗則）が、仮想スピーカー８０５ａの位置についてのオーディオ・データに適用される利得と仮想スピーカー８０５ｂの位置についてのオーディオ・データに適用される利得との間でブレンドするために使われてもよい。

ブロック７４２において、プロセス７００を続けるかどうかが（たとえばユーザー入力に従って）決定されてもよい。ユーザーはたとえば、レンダリング処理を続けるまたはオーサリング処理に戻るオプションを（たとえばGUIを介して）呈示されてもよい。プロセス７００が続かないことが決定される場合には、プロセスは終了する（ブロック７４５）。

速く動くオーディオ・オブジェクト（たとえば自動車、ジェットなどに対応するオーディオ・オブジェクト）をパンするとき、オーディオ・オブジェクト位置が一時に一点ずつユーザーによって選択されるとしたら、なめらかな軌跡をオーサリングすることが難しいことがある。オーディオ・オブジェクト軌跡におけるなめらかさの欠如は、知覚される音像に影響することがある。よって、本稿において提供されるいくつかのオーサリング実装は、結果として得られるパン利得をなめらかにするために、オーディオ・オブジェクトの位置に低域通過フィルタを適用する。代替的なオーサリング実装は、オーディオ・データに適用される利得に低域通過フィルタを適用する。

他のオーサリング実装はユーザーが、オーディオ・オブジェクトをつかむこと、引っ張ること、投げることまたはオーディオ・オブジェクトと同様に対話することをシミュレートすることを許容してもよい。そのようないくつかの実装は、速度、加速、運動量、運動エネルギー、力の印加などを記述するために使われる規則セットのようなシミュレートされる物理法則の適用に関わってもよい。

図９のＡ〜Ｃは、オーディオ・オブジェクトをドラッグするために仮想ひも（tether）を使う例を示している。図９のＡでは、仮想ひも９０５がオーディオ・オブジェクト５０５とカーソル５１０との間に形成される。この例では、仮想ひも９０５は仮想ばね定数をもつ。いくつかのそのような実装では、仮想ばね定数はユーザー入力に従って選択可能であってもよい。

図９のＢは、その後の時点におけるオーディオ・オブジェクト５０５およびカーソル５１０を示している。このあと、ユーザーはカーソル５１０をスピーカー・ゾーン３のほうに動かしている。ユーザーはカーソル５１０をマウス、ジョイスティック、トラックボール、ジェスチャー検出装置または他の型のユーザー入力装置を使って動かしてもよい。仮想ひも９０５は伸長されており、オーディオ・オブジェクト５０５はスピーカー・ゾーン８の近くに動かされている。オーディオ・オブジェクト５０５は図９のＡおよびＢにおいてほぼ同じサイズである。これは、（この例では）オーディオ・オブジェクト５０５の高さが実質的に変化しなかったことを示している。

図９のＣは、よりあとの時点におけるオーディオ・オブジェクト５０５およびカーソル５１０を示している。このあと、ユーザーはカーソルをスピーカー・ゾーン９をめぐって動かしている。仮想ひも９０５はさらに伸長されている。オーディオ・オブジェクト５０５は下方に動かされており、このことは、オーディオ・オブジェクト５０５のサイズの減少によって示されている。オーディオ・オブジェクト５０５はなめらかな弧で動かされた。この例は、そのような実装の一つの潜在的な恩恵を示す。それは、ユーザーが単に一点ずつオーディオ・オブジェクト５０５についての位置を選択する場合よりもなめらかな軌跡においてオーディオ・オブジェクト５０５が動かされうるということである。

図１０Ａは、オーディオ・オブジェクトを動かすために仮想ひもを使うプロセスを概説する流れ図である。プロセス１０００は、オーディオ・データが受領されるブロック１００５をもって始まる。ブロック１００７では、オーディオ・オブジェクトとカーソルとの間に仮想ひもを取り付ける指示が受領される。この指示は、オーサリング装置の論理システムによって受領されてもよく、ユーザー入力装置から受領された入力に対応してもよい。図９のＡを参照するに、ユーザーはカーソル５１０をオーディオ・オブジェクト５０５の上に位置させ、次いでユーザー入力装置またはGUIを介して、仮想ひも９０５がカーソル５１０とオーディオ・オブジェクト５０５との間に形成されるべきであることを指示してもよい。カーソルおよびオブジェクト位置データが受領されてもよい。（ブロック１０１０）
この例では、カーソル５１０が動かされるにつれて、カーソル速度および／または加速度データが論理システムによって、カーソル位置データに従って計算されてもよい。（ブロック１０１５）オーディオ・オブジェクト５０５についての位置データおよび／または軌跡データは、仮想ひも９０５の仮想ばね定数ならびにカーソル位置、速度および加速度データに従って計算されてもよい。いくつかのそのような実装は、オーディオ・オブジェクト５０５に仮想質量を割り当てることに関わっていてもよい（ブロック１０２０）。たとえば、カーソル５１０が比較的一定の速度で動かされる場合、仮想ひも９０５は伸長しなくてもよく、オーディオ・オブジェクト５０５は比較的一定の速度で引っ張られてもよい。カーソル５１０が加速する場合には、仮想ひも９０５は伸長されてもよく、仮想ひも９０５によって対応する力がオーディオ・オブジェクト５０５に適用されてもよい。カーソル５１０の加速と仮想ひも９０５によって加えられる力との間には時間遅れがあってもよい。代替的な実装では、オーディオ・オブジェクト５０５の位置および／または軌跡は、異なる仕方で、たとえば仮想ばね定数を仮想ひも９０５に割り当てることなく、オーディオ・オブジェクト５０５に摩擦および／または慣性規則を適用することによって、などで決定されてもよい。

オーディオ・オブジェクト５０５およびカーソル５１０の離散的な諸位置および／または軌跡が表示されてもよい（ブロック１０２５）。この例では、論理システムは、ある時間間隔でオーディオ・オブジェクト位置をサンプリングする（ブロック１０３０）。いくつかのそのような実装では、ユーザーがサンプリングのための時間間隔を決定してもよい。オーディオ・オブジェクト位置および／または軌跡メタデータなどが保存されてもよい（ブロック１０３４）。

ブロック１０３６では、このオーサリング・モードが続くかどうかが決定される。ユーザーがそう望む場合には、たとえばブロック１００５またはブロック１０１０に戻ることによって、プロセスは続いてもよい。そうでない場合には、プロセス１０００は終了してもよい（ブロック１０４０）。

図１０Ｂは、オーディオ・オブジェクトを動かすために仮想ひもを使う代替的なプロセスを概説する流れ図である。図１０Ｃ〜１０Ｅは、図１０Ｂで概説されるプロセスの例を示す。まず図１０Ｂを参照するに、プロセス１０５０は、オーディオ・データが受領されるブロック１０５５をもって始まる。ブロック１０５７では、オーディオ・オブジェクトとカーソルとの間に仮想ひもを取り付ける指示が受領される。この指示は、オーサリング装置の論理システムによって受領されてもよく、ユーザー入力装置から受領された入力に対応してもよい。図１０Ｃを参照するに、たとえば、ユーザーはカーソル５１０をオーディオ・オブジェクト５０５の上に位置させ、次いでユーザー入力装置またはGUIを介して、仮想ひも９０５がカーソル５１０とオーディオ・オブジェクト５０５との間に形成されるべきであることを指示してもよい。

ブロック１０６０において、カーソルおよびオブジェクト位置データが受領されてもよい。ブロック１０６２では、論理システムは、オーディオ・オブジェクト５０５が指示された位置、たとえばカーソル５１０によって指示される位置に保持されるべきであるという指示を（たとえばユーザー入力装置またはGUIを介して）受領してもよい。ブロック１０６５では、論理装置は、カーソル５１０が新たな位置に動かされたという指示を受領し、該新たな位置はオーディオ・オブジェクト５０５の位置とともに表示されてもよい（ブロック１０６７）。図１０Ｄを参照するに、たとえば、カーソル５１０は仮想再生環境４０４の左側から右側に動いている。しかしながら、オーディオ・オブジェクト５１０はいまだ図１０Ｃで示される同じ位置に保持されている。結果として、仮想ひも９０５は実質的に伸長されている。

ブロック１０６９では、論理システムは、オーディオ・オブジェクト５０５が解放されるべきであるという指示を（たとえばユーザー入力装置またはGUIを介して）受領する。論理システムは、結果として得られるオーディオ・オブジェクト位置および／または軌跡データを計算してもよく、それは表示されてもよい（ブロック１０７５）。結果として得られる表示は図１０Ｅに示されるものと同様であってもよく、それは仮想再生環境４０４を横断してなめらかかつ高速に動くオーディオ・オブジェクト５０５を示す。論理システムは、オーディオ・オブジェクト位置および／または軌跡メタデータをメモリ・システムに保存してもよい（ブロック１０８０）。

ブロック１０８５では、オーサリング・プロセス１０５０が続くかどうかが決定される。論理システムが、ユーザーがそう望んでいるという指示を受領する場合には、プロセスは続く。たとえば、プロセス１０５０は、ブロック１０５５またはブロック１０６０に戻ることによって続いてもよい。そうでない場合には、オーサリング・ツールはオーディオ・データおよびメタデータをレンダリング・ツールに送ってもよく（ブロック１０９０）、その後、プロセス１０５０は終了してもよい（１０９５）。

オーディオ・オブジェクトの知覚される動きの本物らしさを最適化するために、オーサリング・ツール（またはレンダリング・ツール）のユーザーに、再生環境中のスピーカーの部分集合を選択させ、アクティブなスピーカーの集合を選ばれた部分集合に限定させることが望ましいことがある。いくつかの実装では、スピーカー・ゾーンおよび／またはスピーカー・ゾーンの群が、オーサリングまたはレンダリング処理の間、アクティブまたは非アクティブと指定されてもよい。たとえば、図４Ａを参照するに、前領域４０５、左領域４１０、右領域４１５および／または上領域４２０のスピーカー・ゾーンは、群として制御されてもよい。スピーカー・ゾーン６および７（および他の実装ではスピーカー・ゾーン６と７の間に位置される一つまたは複数の他のスピーカー・ゾーン）を含む背後領域のスピーカー・ゾーンも群として制御されてもよい。特定のスピーカー・ゾーンに、あるいは複数のスピーカー・ゾーンを含む領域に対応するスピーカー全部を動的に有効化または無効化するためのユーザー・インターフェースが提供されてもよい。

いくつかの実装では、オーサリング装置（またはレンダリング装置）の論理システムは、ユーザー入力システムを介して受領されるユーザー入力に従ってスピーカー・ゾーン制約メタデータを生成するよう構成されていてもよい。スピーカー・ゾーン制約メタデータは、選択されたスピーカー・ゾーンを無効にするためのデータを含んでいてもよい。そのようないくつかの実装について、これから図１１および図１２を参照して述べる。

図１１は、仮想再生環境においてスピーカー・ゾーン制約を適用する例を示している。いくつかのそのような実装において、ユーザーは、マウスのようなユーザー入力装置を使ってGUI ４００のようなGUIにおける表現をクリックすることによって、スピーカー・ゾーンを選択することができてもよい。ここではユーザーは仮想再生環境４０４の側方にあるスピーカー・ゾーン４および５を無効にしている。スピーカー・ゾーン４および５は、映画館サウンド・システム環境のような物理的な再生環境におけるスピーカーの大半（または全部）に対応してもよい。この例において、ユーザーはまた、オーディオ・オブジェクト５０５の位置を、線１１０５に沿った位置に制約している。側壁に沿ったスピーカーの大半または全部が無効にされていると、スクリーン１５０から仮想再生環境４０４の背後へのパンは、側方スピーカーを使わないよう制約される。これは、幅広い聴衆領域にとって、特にスピーカー・ゾーン４および５に対応する再生スピーカーの近くに座っている観衆にとって、前から後への改善された知覚される動きを生成しうる。

いくつかの実装では、スピーカー・ゾーン制約はすべての再レンダリング・モードを通じて実行されてもよい。たとえば、スピーカー・ゾーン制約は、より少数のゾーンがレンダリングのために利用可能であるときの、たとえば７または５個のゾーンしか呈さないドルビー・サラウンド７．１または５．１配位についてレンダリングするときの状況において実行されてもよい。スピーカー・ゾーン制約は、より多数のゾーンがレンダリングのために利用可能であるときに実行されてもよい。よって、スピーカー・ゾーン制約は、再レンダリングをガイドして、伝統的な「上方混合／下方混合〔アップミキシング／ダウンミキシング〕」プロセスへの盲目的でない解決策を提供する方法と見ることもできる。

図１２は、スピーカー・ゾーン制約規則を適用するいくつかの例を概説する流れ図である。プロセス１２００は、スピーカー・ゾーン制約規則を適用するために一つまたは複数の指示が受領されるブロック１２０５をもって始まる。指示は、オーサリングまたはレンダリング装置の論理システムによって受領されてもよく、ユーザー入力装置から受領された入力に対応してもよい。たとえば、指示は、非アクティブにすべき一つまたは複数のスピーカー・ゾーンのユーザーによる選択に対応してもよい。いくつかの実装では、ブロック１２０５は、たとえば後述するように、どの型のスピーカー・ゾーン制約規則が適用されるべきかの指示を受領することに関わっていてもよい。

ブロック１２０７では、オーディオ・データがオーサリング・ツールによって受領される。オーディオ・オブジェクト位置が、たとえばオーサリング・ツールのユーザーからの入力に従って、受領され（ブロック１２１０）、表示されてもよい（ブロック１２１５）。位置データはこの例では(x,y,z)座標である。ここでは、選択されたスピーカー・ゾーン制約規則についてのアクティブおよび非アクティブなスピーカー・ゾーンもブロック１２１５において表示される。ブロック１２２０では、オーディオ・データおよび関連するメタデータが保存される。この例において、メタデータはオーディオ・オブジェクト位置と、スピーカー・ゾーン同定フラグを含んでいてもよいスピーカー・ゾーン制約メタデータとを含む。

いくつかの実装では、スピーカー・ゾーン制約メタデータは、レンダリング・ツールが、たとえば選択された（無効にされた）スピーカー・ゾーンのすべてのスピーカーを「オフ」、他のすべてのスピーカー・ゾーンを「オン」であると見なすことによって、二値的に利得を計算するようパンの式（panning equations）を適用すべきであることを指示してもよい。論理システムは、選択されたスピーカー・ゾーンを無効にするためのデータを含むスピーカー・ゾーン制約メタデータを生成するよう構成されていてもよい。

代替的な実装では、スピーカー・ゾーン制約メタデータは、レンダリング・ツールが、無効にされた諸スピーカー・ゾーンの諸スピーカーからの一定度合いの寄与を含むブレンドされた仕方で利得を計算するようパンの式を適用することを指示してもよい。たとえば、論理システムは、レンダリング・ツールが以下の処理を実行することによって選択されたスピーカー・ゾーンを減衰させるべきであることを指示するスピーカー・ゾーン制約メタデータを生成するよう構成されていてもよい：選択された（無効にされた）スピーカー・ゾーンからの寄与を含む第一の利得を計算し；選択されたスピーカー・ゾーンからの寄与を含まない第二の利得を計算し；第一の利得を第二の利得とブレンドする。いくつかの実装では、選択されたスピーカー・ゾーンからのある範囲の潜在的な寄与を許容するために、（選択された最小値から選択された最大値までの）第一の利得および／または第二の利得にバイアスが適用されてもよい。

この例では、ブロック１２２５において、オーサリング・ツールはオーディオ・データおよびメタデータをレンダリング・ツールに送る。次いで、論理システムはオーサリング・プロセスが続くかどうかを決定してもよい（ブロック１２２７）。論理システムが、ユーザーがそうすることを望むという指示を受領する場合に、オーサリング・プロセスは続いてもよい。そうでない場合には、オーサリング・プロセスは終了してもよい（ブロック１２２９）。いくつかの実装では、レンダリング処理はユーザー入力に従って続けられてもよい。

オーサリング・ツールによって生成されたオーディオ・データおよびメタデータを含むオーディオ・オブジェクトは、ブロック１２３０において、レンダリング・ツールによって受領される。この例では、特定のオーディオ・オブジェクトについての位置データがブロック１２３５において受領される。レンダリング・ツールの論理システムは、スピーカー・ゾーン制約規則に従って、オーディオ・オブジェクト位置データについての利得を計算するためにパンの式を適用してもよい。

ブロック１２４５では、計算された利得がオーディオ・データに適用される。論理システムは、利得、オーディオ・オブジェクト位置およびスピーカー・ゾーン制約メタデータをメモリ・システムに保存してもよい。いくつかの実装では、オーディオ・データはスピーカー・システムによって再生されてもよい。対応するスピーカー応答は、いくつかの実装ではディスプレイ上に示されてもよい。

ブロック１２４８では、プロセス１２００が続くかどうかが決定される。論理システムが、ユーザーがそうすることを望むという指示を受領する場合に、プロセスは続いてもよい。たとえば、レンダリング・プロセスは、ブロック１２３０またはブロック１２３５に戻ることによって続いてもよい。ユーザーが対応するオーサリング・プロセスに戻ることを望んでいるという指示が受領される場合には、プロセスはブロック１２０７またはブロック１２１０に戻ってもよい。それ以外の場合には、プロセス１２００は終了してもよい（ブロック１２５０）。

三次元仮想再生環境においてオーディオ・オブジェクトを位置付けおよびレンダリングするタスクはますます難しくなる。難しさの一部は、GUIにおいて仮想再生環境を表現することにおける困難に関係する。本稿で提供されるいくつかのオーサリングおよびレンダリング実装はユーザーが二次元スクリーン空間のパンと三次元部屋空間のパンとの間で切り換えることを許容する。そのような機能は、ユーザーにとって便利であるGUIを提供しつつ、オーディオ・オブジェクトの位置付けの正確さを保存する助けとなりうる。

図１３Ａおよび１３Ｂは、仮想再生環境の二次元ビューと三次元ビューの間で切り換えることのできるGUIの例を示している。図１３Ａを参照するに、GUI ４００はスクリーン上の画像１３０５を描いている。この例では、画像１３０５は剣歯虎の画像である。仮想再生環境４０４のこの上面図では、ユーザーはオーディオ・オブジェクト５０５がスピーカー・ゾーン１の近くであることを容易に観察できる。高さはたとえば、オーディオ・オブジェクト５０５のサイズ、色または他の何らかの属性によって推定されうる。しかしながら、この位置の、画像１３０５の位置に対する関係は、このビューでは判別するのが難しいことがありうる。

この例では、GUI ４００は、軸１３１０のような軸のまわりに動的に回転されるように見えることができる。図１３Ｂは、回転プロセス後のGUI １３００を示している。このビューでは、ユーザーは画像１３０５をより明瞭に見ることができ、画像１３０５からの情報を使ってオーディオ・オブジェクト５０５をより正確に位置付けすることができる。この例において、オーディオ・オブジェクトは剣歯虎が見ている先の音に対応する。仮想再生環境４０４の上面図とスクリーン・ビューとの間で切り換えることができることは、ユーザーが、スクリーン上の材料からの情報を使って、オーディオ・オブジェクト５０５についての適正な高さを迅速かつ正確に選択することを許容する。

オーサリングおよび／またはレンダリングのためのさまざまな他の便利なGUIが本稿で提供される。図１３Ｃ〜１３Ｅは、再生環境の二次元および三次元描画の組み合わせを示している。まず図１３Ｃを参照するに、仮想再生環境４０４の上面図がGUI １３１０の左領域に描かれている。GUI １３１０はまた、仮想（または実際の）再生環境の三次元描画１３４５をも含んでいる。三次元描画１３４５の領域１３５０はGUI ４００のスクリーン１５０に一致する。オーディオ・オブジェクト５０５の位置、特にその高さは、三次元描画１３４５において明瞭に見て取ることができる。この例では、オーディオ・オブジェクト５０５の幅（width）も三次元描画１３４５において示されている。

スピーカー・レイアウト１３２０はスピーカー位置１３２４ないし１３４０を描いている。各位置は、仮想再生環境４０４におけるオーディオ・オブジェクト５０５の位置に対応する利得を示すことができる。いくつかの実装では、スピーカー・レイアウト１３２０はたとえば、ドルビー・サラウンド５．１配位、ドルビー・サラウンド７．１配位、ドルビー７．１配位に頭上スピーカーを増強したものなどといった実際の再生環境の諸再生スピーカー位置を表していてもよい。論理システムが、仮想再生環境４０４におけるオーディオ・オブジェクト５０５の位置の指示を受領するとき、論理システムは、この位置を、スピーカー・レイアウト１３２０のスピーカー位置１３２４ないし１３４０についての利得にマッピングするよう構成されていてもよい。これはたとえば上記の振幅パン・プロセスによる。たとえば、図１３Ｃにおいて、スピーカー位置１３２５、１３３５および１３３７はそれぞれ、オーディオ・オブジェクト５０５の位置に対応する利得を指示する色の変化をもつ。

ここで図１３Ｄを参照するに、オーディオ・オブジェクトはスクリーン１５０の背後の位置に動かされている。たとえば、ユーザーは、カーソルをGUI ４００内のオーディオ・オブジェクト５０５に置き、該オブジェクトを新たな位置にドラッグすることによって、オーディオ・オブジェクト５０５を動かしたのでもよい。この新たな位置も、新たな配向に回転された三次元描画１３４５において示されている。スピーカー・レイアウト１３２０の応答は、図１３Ｃおよび１３Ｄにおいて実質的に同じに見えてもよい。しかしながら、実際のGUIでは、スピーカー位置１３２５、１３３５および１３３７は、オーディオ・オブジェクト５０５の新たな位置によって引き起こされる対応する利得の差を指示するために（異なる明るさまたは色など）異なる見え方を有していてもよい。

ここで図１３Ｅを参照するに、オーディオ・オブジェクト５０５は仮想再生環境４０４の右後方部分における位置に急速に動いていてもよい。図１３Ｅに描かれる瞬間には、スピーカー位置１３２６がオーディオ・オブジェクト５０５の現在位置に応答しており、スピーカー位置１３２５および１３３７はいまだオーディオ・オブジェクト５０５の以前の位置に応答している。

図１４Ａは、図１３Ｃ〜１３Ｅに示されるもののようなGUIを呈示するための装置を制御するプロセスを概説する流れ図である。プロセス１４００は、オーディオ・オブジェクト位置、スピーカー・ゾーン位置および再生環境についての再生スピーカー位置を表示するための一つまたは複数の指示が受領されるブロック１４０５において始まる。スピーカー・ゾーン位置は、たとえば図１３Ｃ〜１３Ｅに示されるような、仮想再生環境および／または実際の再生環境に対応してもよい。指示はレンダリングおよび／またはオーサリング装置の論理システムによって受領されてもよく、ユーザー入力装置から受領される入力に対応してもよい。たとえば、該指示は、再生環境構成のユーザーによる選択に対応してもよい。

ブロック１４０７では、オーディオ・データが受領される。オーディオ・オブジェクト位置データおよび幅がブロック１４１０において、たとえばユーザー入力に従って受領される。ブロック１４１５では、オーディオ・オブジェクト、スピーカー・ゾーン位置および再生スピーカー位置が表示される。オーディオ・オブジェクト位置は、たとえば図１３Ｃ〜１３Ｅに示されるような二次元および／または三次元ビューにおいて表示されてもよい。幅データは、オーディオ・オブジェクト・レンダリングに使われうるのみならず、オーディオ・オブジェクトがどのように表示されるかにも影響してもよい（図１３Ｃ〜１３Ｅの三次元描画１３４５におけるオーディオ・オブジェクト５０５の描画を参照）。

オーディオ・データおよび関連するメタデータが記録されてもよい（ブロック１４２０）。ブロック１４２５では、オーサリング・ツールはオーディオ・データおよびメタデータをレンダリング・ツールに送る。次いで、論理システムは、オーサリング・プロセスが続くかどうかを決定してもよい（ブロック１４２７）。論理システムが、ユーザーがそうすることを望んでいるという指示を受領する場合に、オーサリング・プロセスは（たとえばブロック１４０５に戻ることによって）続いてもよい。そうでない場合には、オーサリング・プロセスは終了してもよい（ブロック１４２９）。

オーサリング・ツールによって生成されたオーディオ・データおよびメタデータを含むオーディオ・オブジェクトは、ブロック１４３０においてレンダリング・ツールによって受領される。この例では、特定のオーディオ・オブジェクトについての位置データがブロック１４３５において受領される。レンダリング・ツールの論理システムは、幅メタデータに従って、オーディオ・オブジェクト位置データについての諸利得を計算するためにパンの式を適用してもよい。

いくつかのレンダリング実装では、論理システムは、スピーカー・ゾーンを再生環境の再生スピーカーにマッピングしてもよい。たとえば、論理システムは、スピーカー・ゾーンおよび対応する再生スピーカー位置を含むデータ構造にアクセスしてもよい。さらなる詳細および例は図１４Ｂを参照して後述する。

いくつかの実装では、オーディオ・オブジェクトの位置、幅および／または再生環境のスピーカー位置のような他の情報に従って、たとえば論理システムによって、パンの式が適用されてもよい（ブロック１４４０）。ブロック１４４５では、オーディオ・データは、ブロック１４４０において得られた利得に従って処理される。結果として得られるオーディオ・データの少なくとも一部は、もし望まれるなら、オーサリング・ツールから受領される対応するオーディオ・オブジェクト位置データおよび他のメタデータとともに記憶されてもよい。オーディオ・データはスピーカーによって再生されてもよい。

次いで論理システムは、プロセス１４００が続くかどうかを決定してもよい（ブロック１４４８）。たとえば論理システムがユーザーがそうすることを望んでいるという指示を受領する場合、プロセス１４００は続いてもよい。そうでない場合には、プロセス１４００は終了してもよい（ブロック１４４９）。

図１４Ｂは、ある再生環境についてオーディオ・オブジェクトをレンダリングするプロセスを概説する流れ図である。プロセス１４５０は、ある再生環境についてオーディオ・オブジェクトをレンダリングするための一つまたは複数の指示が受領されるブロック１４５５において始まる。指示はレンダリング装置の論理システムによって受領されてもよく、ユーザー入力装置から受領される入力に対応してもよい。たとえば、該指示は、再生環境構成の、ユーザーによる選択に対応してもよい。

ブロック１４５７では、（一つまたは複数のオーディオ・オブジェクトおよび関連するメタデータを含む）オーディオ再生データが受領される。ブロック１４６０において再生環境データが受領されてもよい。再生環境データは、再生環境における再生スピーカーの数の指標および再生環境内の各再生スピーカーの位置の指標を含んでいてもよい。再生環境は映画館サウンド・システム環境、家庭シアター環境などであってもよい。いくつかの実装では、再生環境データは、再生スピーカー・ゾーンおよび該スピーカー・ゾーンに対応する再生スピーカー位置を示す再生スピーカー・ゾーン・レイアウト・データを含んでいてもよい。

再生環境はブロック１４６５において表示されてもよい。いくつかの実装では、再生環境は、図１３Ｃ〜１３Ｅに示されたスピーカー・レイアウト１３２０と同様の仕方で表示されてもよい。

ブロック１４７０では、オーディオ・オブジェクトは、前記再生環境のための一つまたは複数のスピーカー・フィード信号にレンダリングされてもよい。いくつかの実装では、オーディオ・オブジェクトに関連するメタデータは、上記のような仕方でオーサリングされたものであってもよく、メタデータはスピーカー・ゾーンに対応する（たとえばGUI ４００のスピーカー・ゾーン１〜９に対応する）利得データを含んでいてもよい。論理システムは、スピーカー・ゾーンを再生環境の再生スピーカーにマッピングしてもよい。たとえば、論理システムは、メモリに記憶された、スピーカー・ゾーンおよび対応する再生スピーカー位置を含むデータ構造にアクセスしてもよい。レンダリング装置は、それぞれが異なるスピーカー配位に対応する、多様なそのようなデータ構造を有していてもよい。いくつかの実装では、レンダリング装置は、ドルビー・サラウンド５．１配位、ドルビー・サラウンド７．１配位および／または浜崎２２．２サラウンド・サウンド配位のような多様な標準的な再生環境配位についてそのようなデータ構造を有していてもよい。

いくつかの実装では、オーディオ・オブジェクトについてのメタデータは、オーサリング・プロセスからの他の情報を含んでいてもよい。たとえば、メタデータはスピーカー制約条件データを含んでいてもよい。メタデータは、オーディオ・オブジェクト位置を単一の再生スピーカー位置または単一の再生スピーカー・ゾーンにマッピングするための情報を含んでいてもよい。メタデータは、オーディオ・オブジェクトの位置を一次元曲線または二次元面に制約するデータを含んでいてもよい。メタデータはオーディオ・オブジェクトについての軌跡データを含んでいてもよい。メタデータはコンテンツ型（たとえば、対話、音楽または効果）についての識別子を含んでいてもよい。

よって、レンダリング・プロセスは、たとえばスピーカー・ゾーン制約を課すために、メタデータの使用に関わってもよい。いくつかのそのような実装では、レンダリング装置は、ユーザーに、メタデータによって指示される制約を修正する、たとえばスピーカー制約条件を修正し、しかるべく再レンダリングするオプションを提供してもよい。レンダリングは、所望されるオーディオ・オブジェクト位置、所望されるオーディオ・オブジェクト位置から参照位置までの距離、オーディオ・オブジェクトの速度またはオーディオ・オブジェクト・コンテンツ型の一つまたは複数に基づいて総合利得を生成することに関わってもよい。再生スピーカーの対応する応答が表示されてもよい（ブロック１４７５）。いくつかの実装では、論理システムは、レンダリング・プロセスの結果に対応する音を再生するよう、スピーカーを制御してもよい。

ブロック１４８０では、論理システムは、プロセス１４５０が続くかどうかを決定してもよい。たとえば、論理システムが、ユーザーがそうすることを望むという指示を受領する場合に、プロセス１４５０は続いてもよい。たとえば、プロセス１４５０は、ブロック１４５７またはブロック１４６０に戻ることによって続いてもよい。そうでない場合には、プロセス１４５０は終了してもよい（ブロック１４８５）。

拡散および見かけの源幅の制御は、いくつかの既存のサラウンド・サウンド・オーサリング／レンダリング・システムの特徴である。本開示では、用語「拡散（spread）」は、音像をぼかすために同じ信号を複数のスピーカーにわたって分散させることをいう。用語「幅（width）」は、見かけの幅制御のために出力信号を各チャネルに脱相関させることをいう。幅は、各スピーカー・フィード信号に加えられる脱相関の量を制御する追加的なスカラー値であってもよい。

本稿に記載されるいくつかの実装は、3D軸方向の拡散制御（3D axis oriented spread control）を提供する。一つのそのような実装についてここで図１５のＡおよびＢを参照して述べる。図１５のＡは、仮想再生環境におけるオーディオ・オブジェクトおよび関連付けられたオーディオ・オブジェクト幅の例を示している。ここで、GUI ４００は、オーディオ・オブジェクト５０５のまわりに広がっている楕円体１５０５を示しており、これがオーディオ・オブジェクト幅を示す。オーディオ・オブジェクト幅は、オーディオ・オブジェクト・メタデータによって指示されてもよく、および／またはユーザー入力に従って受領されてもよい。この例では、楕円体１５０５のxおよびy寸法は異なっているが、他の実装ではこれらの寸法は同じであってもよい。楕円体１５０５のz寸法は図１５のＡには示していない。

図１５のＢは、図１５のＡに示されるオーディオ・オブジェクト幅に対応する拡散プロファイルの例を示している。拡散は、三次元ベクトル・パラメータとして表現されてもよい。この例では、拡散プロファイル１５０７は、たとえばユーザー入力に従って、三つの次元方向に沿って独立して制御されることができる。xおよびy軸に沿っての利得は図１５のＢにおいて曲線１５１０および１５２０のそれぞれの高さによって示されている。各サンプル１５１２についての利得は、拡散プロファイル１５０７内での対応する円１５１５のサイズによっても示される。スピーカー１５１０の応答は、図１５のＢの灰色の網掛けによって示されている。

いくつかの実装では、拡散プロファイル１５０７は各軸についての分離可能な積分によって実装されてもよい。いくつかの実装によれば、パンするときの音色の食い違いを避けるために、スピーカー配置の関数として最小拡散値が自動的に設定されてもよい。代替的または追加的に、映画における高速で動いている画像がぼやけて見えるのと同様に、オーディオ・オブジェクト速度が増すにつれてオブジェクトがますます空間的に広がるよう、パンされるオーディオ・オブジェクトの速度の関数として最小拡散値が自動的に設定されてもよい。

本稿に記載されるようなオーディオ・オブジェクトに基づくオーディオ・レンダリング実装を使うとき、潜在的に多数のオーディオ・トラックおよび付随するメタデータ（三次元空間内でのオーディオ・オブジェクト位置を指示するメタデータを含むがそれに限られない）が、混合されずに再生環境に送達されてもよい。リアルタイム・レンダリング・ツールは、再生環境に関するそのようなメタデータおよび情報を使って、各オーディオ・オブジェクトの再生を最適化するためのスピーカー・フィード信号を計算してもよい。

多数のオーディオ・オブジェクトが混合されてスピーカー出力にされる場合、デジタル領域（たとえばデジタル信号がアナログ変換の前にクリッピングされることがある）またはアナログ領域において、増幅されたアナログ信号が再生スピーカーによって再生されるときに、過負荷が起こることがある。いずれの場合も、可聴な歪みにつながるが、それは望ましくない。アナログ領域における過負荷は、再生スピーカーを損傷することもありうる。

よって、本稿に記載されるいくつかの実装は、再生スピーカー過負荷に応答した、動的オブジェクトの「ブロッビング（blobbing）」に関わる。オーディオ・オブジェクトが所与の拡散プロファイルをもってレンダリングされるとき、いくつかの実装では、全体的な一定のエネルギーを維持しながら、増大した数の近隣の再生スピーカーにエネルギーが向けられてもよい。たとえば、オーディオ・オブジェクトについてのエネルギーがN個の再生スピーカーにわたって一様に拡散されたとすると、各再生スピーカー出力に1/√Nの利得をもって寄与しうる。このアプローチは、追加的な混合「余地（headroom）」を与え、クリッピングのような再生スピーカー歪みを軽減または防止することができる。

数値的な例を使うと、スピーカーが、1.0より大きな入力を受け取る場合にクリッピングを起こすとする。二つのオブジェクトがスピーカーＡに混合されることが指示されており、一方がレベル1.0で、他方がレベル0.25であるとする。ブロッビングが使用されなかったとすると、スピーカーＡにおける混合レベルは合計1.25になり、クリッピングが生じる。しかしながら、第一のオブジェクトが別のスピーカーＢを用いてブロッビングされれば、（いくつかの実装によれば）各スピーカーは当該オブジェクトを0.707において受領することになる。結果として、追加的なオブジェクトを混合するためのスピーカーＡにおける追加的な「余地」を与える。すると、第二のオブジェクトは、クリッピングすることなくスピーカーＡに安全に混合されることができる。スピーカーＡについての混合レベルは0.707＋0.25＝0.957となるからである。

いくつかの実装では、オーサリング段階の間、各オーディオ・オブジェクトは、スピーカー・ゾーンの部分集合に（または全スピーカー・ゾーンに）所与の混合利得をもって混合されてもよい。したがって、各スピーカーに寄与するすべてのオブジェクトの動的なリストが構築されることができる。いくつかの実装では、このリストは、たとえば信号のもとの二乗平均平方根（RMS: root mean square）レベルに混合利得を乗算した積を使って、エネルギー・レベルの降順にソートされてもよい。他の実装では、リストは、オーディオ・オブジェクトに割り当てられた相対的重要さなどの他の基準に従ってソートされてもよい。

レンダリング・プロセスの間は、所与の再生スピーカー出力について過負荷が検出されたら、オーディオ・オブジェクトのエネルギーはいくつかの再生スピーカーにまたがって拡散されてもよい。たとえば、オーディオ・オブジェクトのエネルギーは、過負荷の量および所与の再生スピーカーへの各オーディオ・オブジェクトの相対寄与に比例する幅もしくは拡散因子を使って拡散されてもよい。同じオーディオ・オブジェクトがいくつかの過負荷の再生スピーカーに寄与している場合には、その幅または拡散因子はいくつかの実装では、加法的に増大させられて、オーディオ・データの次のレンダリングされるフレームに適用される。

一般に、硬リミッタは、閾値を越えるいかなる値も、その閾値にクリッピングする。上記の例のように、スピーカーがレベル1.25の混合オブジェクトを受領し、最大レベル1.0しか許容できない場合、オブジェクトは1.0に「硬リミッティング」される。軟リミッタは、よりなめらかな、聴覚的により快適な結果を与えるために、絶対的な閾値に到達する前にリミッティングを適用しはじめる。軟リミッタは、クリッピングが起こるときより前になめらかに利得を低下させ、それによりクリッピングを避けるために、「先読み（look ahead）」を使って将来のクリッピングが起こりうるときを予測してもよい。

空間的な正確さ／鮮鋭さの劣化を避けながら可聴な歪みを制限するよう、硬リミッタまたは軟リミッタと関連して、本稿で提供されるさまざまな「ブロッビング」実装が使用されてもよい。グローバルな拡散やリミッタのみの使用とは異なり、ブロッビング実装は音の大きなオブジェクトまたは所与のコンテンツ型のオブジェクトを選択的にターゲットとすることができる。そのような実装はミキサーによって制御されてもよい。たとえば、オーディオ・オブジェクトについてのスピーカー・ゾーン制約メタデータが、再生スピーカーのある部分集合が使用されるべきでないことを指示する場合、レンダリング装置は、ブロッビング方法を実装することに加えて、対応するスピーカー・ゾーン制約規則を適用してもよい。

図１６は、オーディオ・オブジェクトをブロッビングするプロセスを概説する流れ図である。プロセス１６００は、オーディオ・オブジェクト・ブロッビング機能をアクティブ化するという一つまたは複数の指示が受領されるブロック１６０５で始まる。該指示は、レンダリング装置の論理システムによって受領されてもよく、ユーザー入力装置から受領される入力に対応していてもよい。いくつかの実装では、指示は、再生環境構成の、ユーザーによる選択を含んでいてもよい。代替的な実装では、ユーザーは、再生環境構成を以前に選択していてもよい。

ブロック１６０７では、オーディオ再生データ（一つまたは複数のオーディオ・オブジェクトおよび関連するメタデータを含む）が受領される。いくつかの実装では、メタデータは、たとえば上記のような、スピーカー・ゾーン制約メタデータを含んでいてもよい。この例では、ブロック１６１０において、オーディオ・オブジェクト位置、時間および拡散データがオーディオ再生データからパースされる（parsed）（または他の仕方で、たとえばユーザー・インターフェースからの入力を介して受領される）。

再生スピーカー応答は、たとえば上記のように、オーディオ・オブジェクト・データについてパンの式を適用することによって当該再生環境構成について決定される（ブロック１６１２）。ブロック１６１５では、オーディオ・オブジェクト位置および再生スピーカー応答が表示される（ブロック１６１５）。再生スピーカー応答は、論理システムとの通信のために構成されているスピーカーを介して再生されてもよい。

ブロック１６２０では、論理システムは、再生環境のいずれかの再生スピーカーについて過負荷が検出されるかどうかを判定する。もしそうであれば、上記のようなオーディオ・オブジェクト・ブロッビング規則が、過負荷が検出されなくなるまで、適用される（ブロック１６２５）。ブロック１６３０において、望むなら、オーディオ・データ出力は保存されてもよく、再生スピーカーに出力されてもよい。

ブロック１６３５では、論理システムは、プロセス１６００が続くかどうかを決定してもよい。たとえば、論理システムが、ユーザーがそうすることを望んでいるという指示を受け取る場合に、プロセス１６００は続いてもよい。たとえば、プロセス１６００は、ブロック１６０７またはブロック１６１０に戻ることによって続いてもよい。そうでない場合には、プロセス１６００は終了してもよい（ブロック１６４０）。

いくつかの実装は、三次元空間においてオーディオ・オブジェクト位置をイメージングするために使われることができる、拡張されたパン利得の式（panning gain equations）を提供する。いくつかの例についてここで図１７のＡおよびＢを参照して述べる。図１７のＡおよびＢは、三次元仮想環境内に位置されているオーディオ・オブジェクトの例を示している。まず図１７のＡを参照するに、オーディオ・オブジェクト５０５の位置が、仮想再生環境４０４内に見られる。この例では、スピーカー・ゾーン１〜７は、一平面内に位置しており、スピーカー・ゾーン８および９は図１７のＢに示されるように別の平面内に位置している。しかしながら、スピーカー・ゾーン、平面などの数は単に例として示されているのであって、本稿に記載される概念はスピーカー・ゾーン（または個々のスピーカー）の異なる数および二つより多くの高さ平面（elevation planes）にも拡張されうる。

この例では、0から1までの範囲でありうる高さパラメータ「z」がオーディオ・オブジェクトの位置を諸高さ平面にマッピングする。この例では、値z＝0がスピーカー・ゾーン１〜７を含む基礎平面に対応し、値z＝1がスピーカー・ゾーン８および９を含む頭上平面に対応する。0と1の間のeの値は、基礎平面内のスピーカーのみを使って生成される音像と頭上平面内のスピーカーのみを使って生成される音像との間のブレンドに対応する。

図１７のＢに示される例では、オーディオ・オブジェクト５０５についての高さパラメータは値0.6をもつ。よって、ある実装では、第一の音像は、基礎平面内のオーディオ・オブジェクト５０５の(x,y)座標に従って、基礎平面についてのパンの式を使って生成されてもよい。第二の音像は、頭上平面内のオーディオ・オブジェクト５０５の(x,y)座標に従って、頭上平面についてのパンの式を使って生成されてもよい。結果的な音像は、オーディオ・オブジェクト５０５の各平面への近さに応じて第一の音像を第二の音像と組み合わせることによって生成されてもよい。高さzの、エネルギーまたは振幅保存の関数が適用されてもよい。たとえば、zが0から1までの範囲で変わりうるとして、第一の音像の利得値はcos(z*π/2)を乗算されてもよく、第二の音像の利得値はsin(z*π/2)を乗算されてもよい。それにより、両者の平方の和は1となる（エネルギー保存）。

本稿に記載される他の実装は、二つ以上のパン技法に基づく利得を計算し、一つまたは複数のパラメータに基づいて総合利得を生成することに関わっていてもよい。パラメータは次の一つまたは複数を含んでいてもよい：所望されるオーディオ・オブジェクト位置、所望されるオーディオ・オブジェクト位置から参照位置までの距離、オーディオ・オブジェクトの速さもしくは速度またはオーディオ・オブジェクト・コンテンツ型。

いくつかのそのような実装についてここで図１８以下を参照して述べる。図１８は、種々のパン・モードに対応するゾーンの例を示している。これらのゾーンのサイズ、形および広がりは単に例として挙げられている。この例では、ゾーン１８０５内に位置するオーディオ・オブジェクトについては近距離場パン方法（near-field panning methods）が適用され、ゾーン１８１０外のゾーン１８１５内に位置するオーディオ・オブジェクトについては遠距離場パン方法（far-field panning methods）が適用される。

図１９のＡ〜Ｄは、種々の位置におけるオーディオ・オブジェクトへの近距離場および遠距離場パン方法の適用の例を示している。まず図１９のＡを参照するに、オーディオ・オブジェクトは実質的に仮想再生環境１９００の外である。この位置は、図１８のゾーン１８１５に対応する。したがって、一つまたは複数の遠距離場パン方法がこの例では適用される。いくつかの実装では、遠距離場パン方法は、当業者に既知のベクトル・ベースの振幅パン（VBAP: vector-based amplitude panning）の式に基づいていてもよい。たとえば、遠距離場パン方法は、ここに参照によって組み込まれる非特許文献１のp.4、Section 2.3に記載されるVBAPの式に基づいていてもよい。代替的な実装では、遠距離場および近距離場のオーディオ・オブジェクトをパンするために他の方法、たとえば対応する音響平面または球面波の合成に関わる方法が使用されてもよい。ここに参照によって組み込まれる非特許文献２が関連する方法を記述している。

ここで図１９のＢを参照するに、オーディオ・オブジェクトは仮想再生環境１９００の内部である。この位置は、図１８のゾーン１８０５に対応する。したがって、一つまたは複数の近距離場パン方法がこの例では適用される。いくつかのそのような近距離場パン方法は、仮想再生環境１９００内のオーディオ・オブジェクト５０５を囲むいくつかのスピーカー・ゾーンを使う。

いくつかの実装では、近距離場パン方法は、「デュアル・バランス」パンおよび二組の利得の組み合わせに関わってもよい。図１９のＢに描かれる例では、第一の組の利得は、y軸に沿ったオーディオ・オブジェクト５０５の諸位置を囲む二組のスピーカー・ゾーンの間の前後バランスに対応する。対応する応答は、仮想再生環境１９００の、スピーカー・ゾーン１９１５および１９６０以外のすべてのスピーカー・ゾーンに関わる。

図１９のＣに描かれる例では、第二の組の利得は、x軸に沿ったオーディオ・オブジェクト５０５の諸位置を囲む二組のスピーカー・ゾーンの間の左右バランスに対応する。対応する応答はスピーカー・ゾーン１９０５ないし１９２５に関わる。図１９のＤは、図１９のＢおよびＣに示される応答を組み合わせた結果を示している。

オーディオ・オブジェクトが仮想再生環境１９００にはいるまたは仮想再生環境１９００を出る際に異なるパン・モードの間でブレンドすることが望ましいことがある。よって、近距離場パン方法および遠距離場パン方法に従って計算された利得のブレンドが、ゾーン１８１０内に位置されるオーディオ・オブジェクトに適用される（図１８参照）。いくつかの実装では、ペアごとのパン則（pair-wise panning law）（たとえばエネルギーを保存する正弦または冪乗則）が、近距離場パン方法および遠距離場パン方法に従って計算された利得の間でブレンドするために使われてもよい。代替的な実装では、ペアごとのパン則は、エネルギーを保存するのではなく、振幅を保存してもよい。よって、平方和が1に等しくなるのではなく、和が1に等しくなる。たとえば両方のパン方法を独立に使ってオーディオ信号を処理し、二つの結果として得られるオーディオ信号をクロスフェードするよう、結果的な処理された信号をブレンドすることも可能である。

コンテンツ・クリエーターおよび／またはコンテンツ再生者が簡単に、所与のオーサリングされた軌跡について種々の再レンダリングを微調整できるようにする機構を提供することが望ましいことがありうる。映画のためのミキシングのコンテキストでは、スクリーンから部屋への（screen-to-room）エネルギー・バランスの概念が重要であると考えられる。いくつかの事例では、所与のサウンド軌跡（あるいは「パン」）の自動的な再レンダリングが、再生環境における再生スピーカーの数に依存して異なるスクリーンから部屋へのバランス（screen-to-room balance）につながる。いくつかの実装によれば、スクリーンから部屋へのバイアスは、オーサリング・プロセスの間に生成されるメタデータに従って制御される。代替的な実装によれば、スクリーンから部屋へのバイアスは、メタデータに応答するのではなく、もっぱらレンダリング側で（すなわち、コンテンツ再生者の制御のもとで）制御されてもよい。

よって、本稿に記載されるいくつかの実装は、スクリーンから部屋へのバイアス制御（screen-to-room bias control）の一つまたは複数の形を提供する。いくつかのそのような実装では、スクリーンから部屋へのバイアスは、スケーリング処理として実装されてもよい。たとえば、スケーリング処理は、前後方向に沿ったオーディオ・オブジェクトのもとの意図された軌跡および／またはパン利得を決定するためのレンダラーにおいて使用されるスピーカー位置のスケーリングに関わってもよい。いくつかのそのような実装では、スクリーンから部屋へのバイアス制御は、0から最大値（たとえば1）までの間の可変値であってもよい。変動は、たとえば、GUI、仮想的もしくは物理的なスライダー、ノブなどを用いて制御可能であってもよい。

代替的または追加的に、スクリーンから部屋へのバイアス制御は、何らかの形のスピーカー領域制約を使って実装されてもよい。図２０は、スクリーンから部屋へのバイアス制御プロセスにおいて使用されうる再生環境のスピーカー・ゾーンを示す。この例では、前方スピーカー領域２００５および後方スピーカー領域２０１０（または２０１５）が確立されうる。スクリーンから部屋へのバイアスは、選択されたスピーカー領域の関数として調整されてもよい。いくつかのそのような実装では、スクリーンから部屋へのバイアスは、前方スピーカー領域２００５と後方スピーカー領域２０１０（または２０１５）との間のスケーリング処理として実装されてもよい。代替的な実装では、スクリーンから部屋へのバイアスは、たとえばユーザーが前側バイアス、後側バイアスまたはバイアスなしを選択できるようにすることによって、二値的に実装されてもよい。それぞれの場合についてのバイアス設定は、前方スピーカー領域２００５および後方スピーカー領域２０１０（または２０１５）についてのあらかじめ決定された（そして一般には0でない）バイアス・レベルに対応していてもよい。本質的には、そのような実装は、連続値のスケーリング処理ではなく（またはそれに加えて）、スクリーンから部屋へのバイアス制御のための三つの事前セット（pre-sets）を提供しうる。

いくつかのそのような実装によれば、オーサリングGUI（たとえば４００）において、側壁を前側壁および後側壁に分割することによって、二つの追加的な論理的スピーカー・ゾーンが生成されてもよい。いくつかの実装では、二つの追加的な論理的スピーカー・ゾーンは、レンダラーの左壁／左サラウンド・サウンドおよび右壁／右サラウンド・サウンド領域に対応する。これら二つの論理的なスピーカー・ゾーンのどちらがアクティブであるかのユーザー選択に依存して、レンダリング・ツールは、ドルビー５．１またはドルビー７．１配位にレンダリングするときに、（たとえば上記のような）事前セット・スケーリング因子（preset scaling factors）を適用することができる。レンダリング・ツールは、たとえば物理的なスピーカー配位が側壁上に一つしか物理的スピーカーを有さないなどのためにこれら二つの余剰の論理的ゾーンの定義をサポートしないような再生環境のためにレンダリングするときに、そのような事前セット・スケーリング因子を適用してもよい。

図２１は、オーサリングおよび／またはレンダリング装置のコンポーネントの例を与えるブロック図である。この例では、装置２１００はインターフェース・システム２１０５を含む。インターフェース・システム２１０５は、無線ネットワーク・インターフェースのようなネットワーク・インターフェースを含んでいてもよい。代替的または追加的に、インターフェース・システム２１０５はユニバーサル・シリアル・バス（USB）インターフェースまたは他のそのようなインターフェースを含んでいてもよい。

装置２１００は論理システム２１１０を含む。論理システム２１１０は、汎用の単一チップまたは複数チップ・プロセッサのようなプロセッサを含んでいてもよい。論理システム２１１０は、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールド・プログラマブル・ゲート・アレイ（FPGA）または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理または離散的なハードウェア・コンポーネントまたはそれらの組み合わせを含んでいてもよい。論理システム２１１０は、装置２１００の他のコンポーネントを制御するよう構成されていてもよい。装置２１００のコンポーネントの間のインターフェースは図２１には示されていないが、論理システム２１１０は、他のコンポーネントとの通信のためのインターフェースをもつよう構成されていてもよい。他のコンポーネントは、適宜、互いとの通信のために構成されていてもいなくてもよい。

論理システム２１１０は、本稿に記載されるオーディオ・オーサリングおよび／またはレンダリング機能を含むがこれに限られないオーディオ・オーサリングおよび／またはレンダリング機能を実行するよう構成されていてもよい。いくつかのそのような実装では、論理システム２１１０は、（少なくとも部分的には）一つまたは複数の非一時的媒体に記憶されたソフトウェアに従って動作するよう構成されていてもよい。非一時的媒体は、ランダム・アクセス・メモリ（RAM）および／または読み出し専用メモリ（ROM）のような、論理システム２１１０に付随するメモリを含んでいてもよい。非一時的媒体は、メモリ・システム２１１５のメモリを含んでいてもよい。メモリ・システム２１１５は、フラッシュメモリ、ハードドライブなどの、一つまたは複数の好適な型の非一時的な記憶媒体を含んでいてもよい。

表示システム２１３０は、装置２１００の具現に依存して、一つまたは複数の好適な型のディスプレイを含んでいてもよい。たとえば、表示システム２１３０は液晶ディスプレイ、プラズマ・ディスプレイ、双安定ディスプレイなどを含んでいてもよい。

ユーザー入力システム２１３５は、ユーザーからの入力を受け入れるよう構成された一つまたは複数の装置を含んでいてもよい。いくつかの実装では、ユーザー入力システム２１３５は、表示システム２１３０のディスプレイにかぶさるタッチスクリーンを含んでいてもよい。ユーザー入力システム２１３５はマウス、トラックボール、ジェスチャー検出システム、ジョイスティック、一つまたは複数のGUIおよび／または表示システム２１３０上に呈示されるメニュー、ボタン、キーボード、スイッチなどを含んでいてもよい。いくつかの実装では、ユーザー入力システム２１３５は、マイクロホン２１２５を含んでいてもよい：ユーザーは、マイクロホン２１２５を介して装置２１００についての音声コマンドを提供してもよい。論理システムは、音声認識のために、そしてそのような音声コマンドに従って装置２１００の少なくともいくつかの動作を制御するために構成されていてもよい。

電力システム２１４０は、ニッケル‐カドミウム電池またはリチウム・イオン電池のような一つまたは複数の好適なエネルギー蓄積装置を含んでいてもよい。電力システム２１４０は電気コンセントから電力を受領するよう構成されていてもよい。

図２２のＡは、オーディオ・コンテンツ生成のために使用されてもよいいくつかの構成要素を表すブロック図である。システム２２００はたとえば、ミキシング・スタジオおよび／またはダビング・ステージにおけるオーディオ・コンテンツ生成のために使われてもよい。この例では、システム２２００は、オーディオおよびメタデータ・オーサリング・ツール２２０５およびレンダリング・ツール２２１０を含む。この実装では、オーディオおよびメタデータ・オーサリング・ツール２２０５およびレンダリング・ツール２２１０は、それぞれオーディオ接続インターフェース２２０７および２２１２を含み、該オーディオ接続インターフェースはAES/EBU、MADI、アナログなどを介した通信のために構成されていてもよい。オーディオおよびメタデータ・オーサリング・ツール２２０５およびレンダリング・ツール２２１０は、それぞれネットワーク・インターフェース２２０９および２２１７を含み、該ネットワーク・インターフェースはTCP/IPまたは他の任意の好適なプロトコルを介してメタデータを送受信するよう構成されていてもよい。インターフェース２２２０はオーディオ・データをスピーカーに出力するよう構成されている。

システム２２００はたとえば、ProTools（商標）システムのような、プラグインとしてメタデータ生成ツール（すなわち、本稿に記載されたパン手段〔パンナー〕のような）を走らせる既存のオーサリング・システムを含んでいてもよい。パン手段は、レンダリング・ツール２２１０に接続されたスタンドアローン・システム（たとえばPCまたはミキシング・コンソール）上で走ることもでき、あるいはレンダリング・ツール２２１０と同じ物理装置上で走ることもできる。後者の場合、パン手段およびレンダラーは、たとえば共有メモリを通じた、ローカルな接続を使うことができる。パン手段GUIは、タブレット装置、ラップトップなどの上でリモートにされることができる。レンダリング・ツール２２１０は、レンダリング・ソフトウェアを実行するよう構成されたサウンド・プロセッサを含むレンダリング・システムを有していていもよい。レンダリング・システムはたとえば、オーディオ入出力のためのインターフェースおよび適切な論理システムを含むパーソナル・コンピュータ、ラップトップなどを含んでいてもよい。

図２２Ｂは、再生環境（たとえば映画シアター）におけるオーディオ再生のために使用されうるいくつかのコンポーネントを表しているブロック図である。システム２２５０は、この例では、映画館サーバー２２５５およびレンダリング・システム２２６０を含む。映画館サーバー２２５５およびレンダリング・システム２２６０は、それぞれネットワーク・インターフェース２２５７および２２６２を含み、該ネットワーク・インターフェースはTCP/IPまたは他の任意の好適なプロトコルを介してオーディオ・オブジェクトを送受信するよう構成されていてもよい。インターフェース２２６４はオーディオ・データをスピーカーに出力するよう構成されている。

本開示に記載される実装へのさまざまな修正が、当業者にはすぐに明白となりうる。本稿において定義される一般的な原理は、本開示の精神または範囲から外れることなく、他の実装にも適用されてもよい。このように、特許請求の範囲は、本稿に示される実装に限定されることは意図されておらず、本稿に開示される開示、原理および新規な特徴と整合する最も広い範囲を与えられるべきものである。

いくつかの態様を記載しておく。
〔態様１〕
インターフェース・システムおよび論理システムを有する装置であって：
前記論理システムは：
前記インターフェース・システムを介して、一つまたは複数のオーディオ・オブジェクトおよび関連するメタデータを含むオーディオ再生データを受領する段階と；
前記インターフェース・システムを介して、再生環境における再生スピーカーの数の指示および再生環境内の各再生スピーカーの位置の指示を含む再生環境データを受領する段階と；
少なくとも部分的には前記関連するメタデータに基づいて、前記オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする段階とを実行するよう構成されており、
各スピーカー・フィード信号は、再生環境内の再生スピーカーの少なくとも一つに対応する、
装置。
〔態様２〕
前記再生環境は映画館サウンド・システム環境である、態様１記載の装置。
〔態様３〕
前記再生環境はドルビー・サラウンド５．１構成、ドルビー・サラウンド７．１構成または浜崎２２．２サラウンド・サウンド構成を有する、態様１記載の装置。
〔態様４〕
前記再生環境データは、再生スピーカー位置を示す再生スピーカー・レイアウト・データを含む、態様１記載の装置。
〔態様５〕
前記再生環境データは、再生スピーカー領域および該再生スピーカー領域に対応する再生スピーカー位置を示す再生スピーカー・ゾーン・レイアウト・データを含む、態様１記載の装置。
〔態様６〕
前記メタデータは、オーディオ・オブジェクト位置を単一の再生スピーカー位置にマッピングするための情報を含む、態様５記載の装置。
〔態様７〕
前記レンダリングは、所望されるオーディオ・オブジェクト位置、該所望されるオーディオ・オブジェクト位置から参照位置までの距離、オーディオ・オブジェクトの速度またはオーディオ・オブジェクト・コンテンツ型のうちの一つまたは複数に基づいて総合利得を生成することを含む、態様１記載の装置。
〔態様８〕
前記メタデータは、オーディオ・オブジェクトの位置を一次元曲線または二次元面に制約するためのデータを含む、態様１記載の装置。
〔態様９〕
前記メタデータはオーディオ・オブジェクトについての軌跡データを含む、態様１記載の装置。
〔態様１０〕
前記レンダリングは、スピーカー・ゾーン制約を課すことを含む、態様１記載の装置。
〔態様１１〕
ユーザー入力システムをさらに有する態様１記載の装置であって、前記レンダリングが、前記ユーザー入力システムから受領される、スクリーンから部屋へのバランス制御データに従ってスクリーンから部屋へのバランス制御を適用することを含む、装置。
〔態様１２〕
ディスプレイ・システムをさらに有する態様１記載の装置であって、前記論理システムは、前記再生環境の動的な三次元ビューを表示するよう前記ディスプレイ・システムを制御するよう構成されている、装置。
〔態様１３〕
前記レンダリングは、三次元のうち一つまたは複数の次元方向でのオーディオ・オブジェクト拡散を制御することを含む、態様１記載の装置。
〔態様１４〕
前記レンダリングは、スピーカー過負荷に応答した動的なオブジェクト・ブロッビングを含む、態様１記載の装置。
〔態様１５〕
前記レンダリングは、オーディオ・オブジェクト位置を前記再生環境のスピーカー・アレイの平面にマッピングすることを含む、態様１記載の装置。
〔態様１６〕
メモリ・デバイスをさらに有する態様１記載の装置であって、前記インターフェース・システムは、前記論理システムと前記メモリ・デバイスとの間のインターフェースを有する、態様１記載の装置。
〔態様１７〕
前記インターフェース・システムはネットワーク・インターフェースを有する、態様１記載の装置。
〔態様１８〕
態様１記載の装置であって、前記メタデータは、スピーカー・ゾーン制約メタデータを含み、前記論理システムは：
選択されたスピーカーからの寄与を含む第一の利得を計算し；
選択されたスピーカーからの寄与を含まない第二の利得を計算し；
前記第一の利得を前記第二の利得とブレンドする処理を実行することによって、
選択されたスピーカー・フィード信号を減衰させるよう構成されている、装置。
〔態様１９〕
態様１記載の装置であって、前記メタデータは、スピーカー・ゾーン制約メタデータを含み、前記論理システムは、オーディオ・オブジェクト位置についてパン規則を適用するか、オーディオ・オブジェクト位置を単一のスピーカー位置にマッピングするかを決定するよう構成されている、装置。
〔態様２０〕
態様１９記載の装置であって、前記論理システムは、オーディオ・オブジェクト位置の第一の単一のスピーカー位置へのマッピングから第二の単一のスピーカー位置へ遷移するときに、スピーカー利得における遷移をなめらかにするよう構成されている、装置。
〔態様２１〕
態様１９記載の装置であって、前記論理システムは、オーディオ・オブジェクト位置を単一のスピーカー位置にマッピングすることと、オーディオ・オブジェクト位置についてのパン規則を適用することとの間で遷移するときに、スピーカー利得における遷移をなめらかにするよう構成されている、装置。
〔態様２２〕
前記論理システムが、仮想スピーカー位置に対応するスピーカー利得を計算するようさらに構成されている、態様１ないし２１のうちいずれか一項記載の装置。
〔態様２３〕
態様２２記載の装置であって、前記論理システムが、仮想スピーカー位置の間の一次元曲線に沿った諸オーディオ・オブジェクト位置についてスピーカー利得を計算するようさらに構成されている、装置。
〔態様２４〕
一つまたは複数のオーディオ・オブジェクトおよび関連するメタデータを含むオーディオ再生データを受領する段階と；
再生環境における再生スピーカーの数の指示および再生環境内の各再生スピーカーの位置の指示を含む再生環境データを受領する段階と；
少なくとも部分的には前記関連するメタデータに基づいて、前記オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする段階とを含み、
各スピーカー・フィード信号は、再生環境内の再生スピーカーの少なくとも一つに対応する、
方法。
〔態様２５〕
前記再生環境は、映画館サウンド・システム環境である、態様２４記載の方法。
〔態様２６〕
前記レンダリングは、所望されるオーディオ・オブジェクト位置、該所望されるオーディオ・オブジェクト位置から参照位置までの距離、オーディオ・オブジェクトの速度またはオーディオ・オブジェクト・コンテンツ型のうちの一つまたは複数に基づいて総合利得を生成することを含む、態様２４記載の方法。
〔態様２７〕
前記メタデータは、オーディオ・オブジェクトの位置を一次元曲線または二次元面に制約するためのデータを含む、態様２４記載の方法。
〔態様２８〕
前記レンダリングは、スピーカー・ゾーン制約を課すことを含む、態様２４記載の方法。
〔態様２９〕
ソフトウェアが記憶されている非一時的な媒体であって、前記ソフトウェアは：
一つまたは複数のオーディオ・オブジェクトおよび関連するメタデータを含むオーディオ再生データを受領する段階と；
再生環境における再生スピーカーの数の指示および再生環境内の各再生スピーカーの位置の指示を含む再生環境データを受領する段階と；
少なくとも部分的には前記関連するメタデータに基づいて、前記オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする段階とを実行するための命令を含み、
各スピーカー・フィード信号は、再生環境内の再生スピーカーの少なくとも一つに対応する、
非一時的な媒体。
〔態様３０〕
前記再生環境は、映画館サウンド・システム環境である、態様２９記載の非一時的な媒体。
〔態様３１〕
前記レンダリングは、所望されるオーディオ・オブジェクト位置、該所望されるオーディオ・オブジェクト位置から参照位置までの距離、オーディオ・オブジェクトの速度またはオーディオ・オブジェクト・コンテンツ型のうちの一つまたは複数に基づいて総合利得を生成することを含む、態様２９記載の非一時的な媒体。
〔態様３２〕
前記メタデータは、オーディオ・オブジェクトの位置を一次元曲線または二次元面に制約するためのデータを含む、態様２９記載の非一時的な媒体。
〔態様３３〕
前記レンダリングは、スピーカー・ゾーン制約を課すことを含む、態様２９記載の非一時的な媒体。
〔態様３４〕
前記レンダリングは、スピーカー過負荷に応答しての動的なオブジェクト・ブロッビングを含む、態様２９記載の非一時的な媒体。
〔態様３５〕
インターフェース・システム、ユーザー入力システムおよび論理システムを有する装置であって、前記論理システムは：
前記インターフェース・システムを介してオーディオ・データを受領する段階と；
前記ユーザー入力システムまたは前記インターフェース・システムを介してオーディオ・オブジェクトの位置を受領する段階と；
三次元空間における前記オーディオ・オブジェクトの位置を決定する段階であって、該決定は、前記位置を、三次元空間内の一次元曲線または二次元面に制約することを含む、段階と；
少なくとも部分的には前記ユーザー入力システムを介して受領されたユーザー入力に基づいて、前記オーディオ・オブジェクトに関連するメタデータを生成する段階であって、前記メタデータは、三次元空間における前記オーディオ・オブジェクトの位置を示すデータを含む、段階とを実行するよう構成されている、
装置。
〔態様３６〕
前記メタデータは、三次元空間内での前記オーディオ・オブジェクトの時間変化する位置を示す軌跡データを含む、態様３５記載の装置。
〔態様３７〕
前記論理システムは、前記ユーザー入力システムを介して受領されたユーザー入力に従って前記軌跡データを計算するよう構成されている、態様３６記載の装置。
〔態様３８〕
前記軌跡データは、複数の時点における三次元空間内での位置の集合を含む、態様３６記載の装置。
〔態様３９〕
前記軌跡データは、初期位置、速度データおよび加速度データを含む、態様３６記載の装置。
〔態様４０〕
前記軌跡データは、初期位置および三次元空間における諸位置および対応する時間を定義する式を含む、態様３６記載の装置。
〔態様４１〕
ディスプレイ・システムをさらに有する態様３６記載の装置であって、前記論理システムは、前記軌跡データに従ってオーディオ・オブジェクト軌跡を表示するよう前記ディスプレイ・システムを制御するよう構成されている、装置。
〔態様４２〕
前記論理システムは、前記ユーザー入力システムを介して受領されたユーザー入力に従って、スピーカー・ゾーン制約メタデータを生成するよう構成されている、態様３５記載の装置。
〔態様４３〕
前記スピーカー・ゾーン制約メタデータは、選択されたスピーカーを無効にするためのデータを含む、態様４２記載の装置。
〔態様４４〕
前記論理システムは、オーディオ・オブジェクト位置を単一のスピーカーにマッピングすることによってスピーカー・ゾーン制約メタデータを生成するよう構成されている、態様４２記載の装置。
〔態様４５〕
サウンド再生システムをさらに有する態様３５記載の装置であって、前記論理システムは、少なくとも部分的には前記メタデータに従って前記サウンド再生システムを制御するよう構成されている、装置。
〔態様４６〕
前記オーディオ・オブジェクトの位置は一次元曲線に制約されており、前記論理システムはさらに、該一次元曲線に沿った諸仮想スピーカー位置を生成するよう構成されている、態様３５記載の装置。
〔態様４７〕
オーディオ・データを受領する段階と；
オーディオ・オブジェクトの位置を受領する段階と；
三次元空間における前記オーディオ・オブジェクトの位置を決定する段階であって、該決定は、前記位置を、三次元空間内の一次元曲線または二次元面に制約することを含む、段階と；
少なくとも部分的にはユーザー入力に基づいて、前記オーディオ・オブジェクトに関連するメタデータを生成する段階であって、前記メタデータは、三次元空間内での前記オーディオ・オブジェクトの位置を示すデータを含む、段階とを含む、
方法。
〔態様４８〕
前記メタデータは、三次元空間内での前記オーディオ・オブジェクトの時間変化する位置を示す軌跡データを含む、態様４７記載の方法。
〔態様４９〕
前記メタデータの生成が、ユーザー入力に従って、スピーカー・ゾーン制約メタデータを生成することを含み、前記スピーカー・ゾーン制約メタデータは、選択されたスピーカーを無効にするためのデータを含む、態様４７記載の方法。
〔態様５０〕
前記オーディオ・オブジェクトの位置が一次元曲線に制約され、該一次元曲線に沿った諸仮想スピーカー位置を生成することをさらに含む、態様４７記載の方法。
〔態様５１〕
ソフトウェアが記憶されている非一時的な媒体であって、前記ソフトウェアは：
オーディオ・データを受領する段階と；
オーディオ・オブジェクトの位置を受領する段階と；
三次元空間における前記オーディオ・オブジェクトの位置を決定する段階であって、該決定は、前記位置を、三次元空間内の一次元曲線または二次元面に制約することを含む、段階と；
少なくとも部分的にはユーザー入力に基づいて前記オーディオ・オブジェクトに関連するメタデータを生成する段階であって、前記メタデータは、三次元空間内での前記オーディオ・オブジェクトの位置を示すデータを含む、段階とを実行するための命令を含む、
非一時的な媒体。
〔態様５２〕
前記メタデータが、三次元空間内での前記オーディオ・オブジェクトの時間変化する位置を示す軌跡データを含む、態様５１記載の非一時的な媒体。
〔態様５３〕
前記メタデータの生成は、ユーザー入力に従って、スピーカー・ゾーン制約メタデータを生成することを含み、前記スピーカー・ゾーン制約メタデータは、選択されたスピーカーを無効にするためのデータを含む、態様５１記載の非一時的な媒体。
〔態様５４〕
前記オーディオ・オブジェクトの位置は、一次元曲線に制約され、該一次元曲線に沿った諸仮想スピーカー位置を生成することをさらに含む、態様５１記載の非一時的な媒体。

Claims

一つまたは複数のオーディオ・オブジェクトおよび該一つまたは複数のオーディオ・オブジェクトのそれぞれに関連付けられたメタデータを含むオーディオ再生データを受領する段階と；
再生環境における再生スピーカーの数の指示および前記再生環境内の各再生スピーカーの位置の指示を含む再生環境データを受領する段階と；
各オーディオ・オブジェクトに振幅パン・プロセスを適用することにより前記オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする段階であって、前記振幅パン・プロセスは少なくとも部分的には各オーディオ・オブジェクトに関連付けられたメタデータおよび前記再生環境内の各再生スピーカーの位置に基づき、各スピーカー・フィード信号は、前記再生環境内の再生スピーカーの少なくとも一つに対応する、段階とを含み、
各オーディオ・オブジェクトに関連付けられたメタデータは、前記再生環境内でのそのオーディオ・オブジェクトの意図された再生位置を示すオーディオ・オブジェクト座標と、三次元のうち二つ以上の次元方向でのオーディオ・オブジェクトの拡散を示すメタデータとを含み、前記オーディオ・オブジェクトの拡散は前記二つ以上の次元方向において同じであり、前記レンダリングする段階は、前記メタデータに応じて前記二つ以上の次元方向での前記オーディオ・オブジェクトの拡散を制御することを含む、
方法。
インターフェース・システムと；
論理システムとを有する装置であって、前記論理システムは：
一つまたは複数のオーディオ・オブジェクトおよび該一つまたは複数のオーディオ・オブジェクトのそれぞれに関連付けられたメタデータを含むオーディオ再生データを、前記インターフェース・システムを介して受領する段階と；
再生環境における再生スピーカーの数の指示および前記再生環境内の各再生スピーカーの位置の指示を含む再生環境データを、前記インターフェース・システムを介して受領する段階と；
各オーディオ・オブジェクトに振幅パン・プロセスを適用することにより前記オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする段階であって、前記振幅パン・プロセスは少なくとも部分的には各オーディオ・オブジェクトに関連付けられたメタデータおよび前記再生環境内の各再生スピーカーの位置に基づき、各スピーカー・フィード信号は、前記再生環境内の再生スピーカーの少なくとも一つに対応する、段階とを実行するよう構成されており、
各オーディオ・オブジェクトに関連付けられたメタデータは、前記再生環境内でのそのオーディオ・オブジェクトの意図された再生位置を示すオーディオ・オブジェクト座標と、三次元のうち二つ以上の次元方向でのオーディオ・オブジェクトの拡散を示すメタデータとを含み、前記オーディオ・オブジェクトの拡散は前記二つ以上の次元方向において同じであり、前記レンダリングする段階は、前記メタデータに応じて前記二つ以上の次元方向での前記オーディオ・オブジェクトの拡散を制御することを含む、
装置。
オーディオ信号処理装置によって実行されたときに該オーディオ信号処理装置に方法を実行させる命令のシーケンスを有する非一時的媒体であって、前記方法は：
一つまたは複数のオーディオ・オブジェクトおよび該一つまたは複数のオーディオ・オブジェクトのそれぞれに関連付けられたメタデータを含むオーディオ再生データを受領する段階と；
再生環境における再生スピーカーの数の指示および前記再生環境内の各再生スピーカーの位置の指示を含む再生環境データを受領する段階と；
各オーディオ・オブジェクトに振幅パン・プロセスを適用することにより前記オーディオ・オブジェクトを一つまたは複数のスピーカー・フィード信号にレンダリングする段階であって、前記振幅パン・プロセスは少なくとも部分的には各オーディオ・オブジェクトに関連付けられたメタデータおよび前記再生環境内の各再生スピーカーの位置に基づき、各スピーカー・フィード信号は、前記再生環境内の再生スピーカーの少なくとも一つに対応する、段階とを含み、
各オーディオ・オブジェクトに関連付けられたメタデータは、前記再生環境内でのそのオーディオ・オブジェクトの意図された再生位置を示すオーディオ・オブジェクト座標と、三次元のうち二つ以上の次元方向でのオーディオ・オブジェクトの拡散を示すメタデータとを含み、前記オーディオ・オブジェクトの拡散は前記二つ以上の次元方向において同じであり、前記レンダリングする段階は、前記メタデータに応じて前記二つ以上の次元方向での前記オーディオ・オブジェクトの拡散を制御することを含む、
媒体。