JP2016518067A

JP2016518067A - 没入型オーディオの残響音場を管理する方法

Info

Publication number: JP2016518067A
Application number: JP2016506304A
Authority: JP
Inventors: ギブンスレツドマン，ウイリアム
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-04-05
Filing date: 2013-07-25
Publication date: 2016-06-20
Also published as: KR20150139849A; RU2015146300A; WO2014163657A1; CN105210388A; CA2908637A1; MX2015014065A; US20160050508A1; EP2982138A1

Abstract

オーディオ・プログラムのオーディオ音声を観客席で再生する方法は、どの音声が先行音で、どの音声が後続音であるか（例えば銃声とその跳弾など）を判定するために、オーディオ・プログラムのオーディオ音声を検査することから始まる。先行音のオーディオ音声および後続音のオーディオ音声は、観客席の音声再生デバイスによって再生され、観客が後続音のオーディオ音声より先に先行音のオーディオ音声を聞くように、後続音のオーディオ音声は、観客席の音声再生デバイスからの距離に従って、先行音のオーディオ音声に対して遅延される。

Description

関連出願の相互参照
本願は、２０１３年４月５日出願の米国仮特許出願第６１／８０８７０９号の米国特許法第１１９条（ｅ）による優先権を主張するものであり、その教示内容は本明細書に組み込まれるものである。

本発明は、映画の上映中にオーディオを提示する技術に関する。

映画フィルムの音声トラックをミキシングおよび編集するとき、これらの作業を行うサウンド・エンジニアは、後にその映画を見ることになる観客にとって楽しい環境を創出したいと思う。多くの場合には、サウンド・エンジニアは、映画の環境の中に没入しているように観客に感じさせる音声アレイを提示することによって、この目的を効果的に達成することができる。没入型音声環境では、第１の音声が第２の音声と緊密な意味関係を有し、両者が例えば約１００ミリ秒などの時間内に順番に出現しなければならないようなシナリオは、大きく分けて２つ存在する。第１に、個々のオーディオ要素が、時間的に互いに特定の配列を有することがある（例えば、銃声の直後に跳弾の音が続くなど）。これらの音声は、空間的には離散的な位置をとる可能性がしばしばある（例えば、カウボーイからの銃声は、左側で発生したように感じ、それに続く跳弾は、右側にいる蛇の近くで発生したように感じるなど）。この効果は、これらの音声を異なるスピーカに向けることによって生じさせることができる。このような状況では、銃声は、跳弾より先である。従って、銃声は「先行音」となり、跳弾は「後続音」となる。

緊密な音声関係の第２の例は、ダビング中（すなわち後日に会話をレコーディングし直す場合）やフォーリー効果の作成中など、映画のセット以外の場所で音声製作が行われる場合に生じる可能性がある。このようにして作製された音声が、描写されているシーンの中で生じていないのではないかと観客が疑わないようにするだけの十分な説得力を持って聞こえるようにするために、サウンド・エンジニアは、一般に、反響（例えばエコー）および／または残響を追加することによって、このような音声を強調することになる。現場でレコーディングされた音声は、実際の状況に存在する残響を含む可能性がある。スタジオでレコーディングされた音声が映画セットでレコーディングされた音声と調和するためには、その音声が完全に異なる音源から出ているという現実ではなく、シーン内で発生しているのだということを、微妙に、場合によっては意識下でほのめかすために、このような強調が必要になる。多くの場合には、この強調がなければ、その音声の特徴自体が、その音が人工のものであることを観客に気付かせ、体験を損なう可能性がある。その性質上、反響／エコー／残響は、先行音声に対応する後続音声となる。

音声トラックの作製中に、サウンド・エンジニアは、ミキシング・ステージの中央のコンソールのところに座り、個々の音声（本明細書では「先行音」および「後続音」とそれぞれ呼ぶこともある、先行音声および後続音声の両方を含む）を時間的に配列する役割を担当する。さらに、サウンド・エンジニアは、例えば銃声をスクリーンのところにあるスピーカにパンし、跳弾を部屋の後方にあるスピーカにパンするなど、望ましい場合には音声を空間中で配列する役割も担当する。しかし、緊密な意味関係を有する２つの音声が異なるスピーカで再生されるときに、問題が生じる可能性がある。サウンド・エンジニアが作製する音声トラックは、標準的な映画劇場の構成を前提としている。しかし、その音声トラックは、後に映画フィルム（ディジタル配信の場合を含む）に取り込まれたときに、様々な大きさの多数の劇場に配布されることになる。

ほとんどの場合には、ほとんどの観客は、サウンド・エンジニアと同様に、劇場の中央付近に座る。簡素化のために、サウンド・エンジニアが、音声トラックを制作する間、スクリーンと部屋の後方のスピーカとの間の、サウンド・エンジニアにとってスクリーンのところの先行音の銃声が先に聞こえ、その後、約２０ミリ秒後にミキシング・ステージの後方から後続音の跳弾音が聞こえる場所に座るという例を考慮する。これを、サウンド・エンジニアが座っていた劇場の中央より１列後方に座っている観客の体験と比較する。大まかな近似では、音声は、約１フィート／ミリ秒で進むので、座る位置が一列後方になるにつれて（一列あたり約３フィート）、観客には、スクリーンからの音声が聞こえるのが３ミリ秒遅くなり、部屋の後方からの音声が聞こえるのは３ミリ秒早くなる。従って、劇場の中央より一列だけ後方に座っている観客は、後方のスピーカにより近く、前方のスピーカからより離れているので、先行音との相対的な関係において、後続音が約６ミリ秒早く聞こえることになる。観客が５列後方に座っていたら、その観客の座席位置では、先行音声と後続音声との間に３０ミリ秒の差分遅延が生じ、これは、その位置に座っている観客には銃声より１０ミリ秒も早く跳弾が聞こえるほどになる。

「ハース効果」と呼ばれる音響心理学の原理によれば、同じ音声または類似の音声が複数の音源から生じたとき（１つの音声の全く同じ２つのコピー、または例えば先行音およびその後続音の残響）、聞いている人間に最初に聞こえる音声が、その音声の知覚される方向を確立する。この効果により、サウンド・エンジニアが意図した先行音声の空間的配置は、後続音声を送り出すスピーカの付近に座っている観客については、かなり乱されてしまう可能性もある。ハース効果により、一部の観客は、先行音声の音源を後続音声の音源として知覚する可能性がある。一般に、サウンド・エンジニアは、劇場の座席変更を十分に考慮する機会がない。サウンド・エンジニアがミキシング・ステージの周りを動き回って、様々な位置で音声トラックを聞く時間をとることができることはまれである。さらに、サウンド・エンジニアがそのようなことを行った場合には、ミキシング・ステージは、それより大きい劇場、または最も代表的な大きさの劇場を表現するものではなくなってしまう。従って、サウンド・エンジニアによる先行音声の空間的配置は、ミキシング・ステージ内の全ての座席について正しく対応していないこともあり、また、それより大きな劇場の全ての座席にも対応していないことがある。

大規模な劇場公開用の現代のサラウンド・サウンド・システム（特定の会場用の実験的な専用ミキサではないもの）が最初に登場したのは１９７０年代の後半で、スクリーンのところに複数のスピーカを配置し、劇場の後方にサラウンド・スピーカを配置していた。このようなサウンド・システムでは、「観客席の前から後ろまでの音声経路長の７５％」というのが、後方スピーカの遅延線の推奨標準となった（１９７８年１０月１０日出願のＡｌｌａｎによる英国特許第２００６５８３号）。さらに最近の構成については、この勧告は、さらに詳細になっている。サラウンド・スピーカ用のプログラムは、最後方の隅の座席までの最短サラウンド音声経路長とその座席から最も遠いスクリーン・スピーカまでの音声経路長との間の差に対応する時間の長さ以上の遅延がなければならない。

このようにサラウンド・チャネルを特定の量だけ遅延させるという方法は、サラウンド・チャネル（「サラウンド」とも呼ばれる）の後続音声に対するスクリーン・スピーカ・チャネル（「メイン」とも呼ばれる）の先行音声のハース効果に対処するものである。（あるいは、音声トラックのタイムラインにおいて後続音声を先行音声より後に配置することも、サラウンドで再生される後続音声によって、サラウンドの付近に座っている観客が、対応する先行音声が劇場の側方または後方から発生したと知覚してしまうリスクを軽減する助けになるが、このような方法では、劇場の構成について特定の想定をしなければならず、所与のオフセットでは、特定のサイズの劇場までしかうまくいかない）。残念ながら、サラウンド・チャネルへのオーディオを遅延させる方法は、メインから発生するもの以外の先行音声、またはサラウンド以外の後続音声についてはうまくいかない。

２０１３年１月１０日に出願され、ＤｏｌｂｙＬａｂｏｒａｔｏｒｉｅｓＬｉｃｅｎｓｉｎｇＣｏｒｐｏｒａｔｉｏｎに譲渡された、「ＳｙｓｔｅｍａｎｄＴｏｏｌｓｆｏｒＥｎｈａｎｃｅｄ３ＤＡｕｄｉｏＡｕｔｈｏｒｉｎｇａｎｄＲｅｎｄｅｒｉｎｇ」と題する、Ｔｓｉｎｇｏｓ他による国際特許出願第ＷＯ２０１３／００６３３０号は、ＤｏｌｂｙＬａｂｏｒａｔｏｒｉｅｓによって販売されている「Ａｔｍｏｓ」オーディオ・システムの基礎を教示しているが、先行音声および後続音声の音源を観客に誤って知覚させてしまうという前述の問題には対処していない。ドイツのエアフルトのＩＯＳＯＮＯ社は、他の企業とともに、密なスピーカのアレイが観客を取り囲み、各音声ごとに、その音声の伝搬をサポートする面を有する複数のスピーカが、それぞれその音声を表すオーディオ信号の正確なコピーを再現する、波面合成パラダイムを促進している。各スピーカは、一般に、ホイヘンスの原理に基づいて計算されたわずかに異なる遅延を有し、各スピーカは、そのスピーカが複数のスピーカのうちの最も遠いスピーカと比べてどれくらい音声の仮想位置に近いかに基づく位相遅延を有するオーディオ信号を発出する。これらの遅延は、一般に、音声の位置ごとに変化する。波面合成パラダイムは、このようなスピーカの挙動を必要とするが、１つの音声の位置しか考慮しておらず、このようなシステムで、先行音／後続音の関係を有する２つの異なる音声を扱うのは容易ではない。

オーディオ・プログラムでは、２つの音声が、例えば銃声と跳弾、あるいは直接音声（最初に到着する）と残響音場（最初の反射を含む）など、先行音と後続音としての関係を有することがある。簡単に言うと、本発明の原理の好ましい態様によれば、オーディオ・プログラムのオーディオ音声を観客席で再生する方法は、どの音声が先行音で、どの音声が後続音であるかを判定するために、オーディオ・プログラムのオーディオ音声を検査することから始まる。先行音のオーディオ音声および後続音のオーディオ音声は、劇場内の音声再生デバイスによって再生され、観客が後続音のオーディオ音声より先に先行音のオーディオ音声を聞くように、後続音のオーディオ音声は、観客席内の音声再生デバイスからの距離に従って、先行音のオーディオ音声に対して遅延される。

没入型音声トラックの準備およびミキシングが行われるミキシング・ステージのスピーカの配置を含む例示的なフロア平面図である。没入型音声トラックが映画の上映と関連付けて再生される映画館のスピーカの配置を含む例示的なフロア平面図である。没入型音声トラックのレンダリングに関連するカメラの配置を含む映画のセットの想像上のシナリオを示す図である。没入型音声トラックのミキシングに関連して後続音声を独立オブジェクトとして管理する音声トラック・オーサリング・ツールの例示的なユーザ・インタフェースの一部分を示す図である。図４Ａで管理される音声の例示的なコンパクト化された表現を示す図である。没入型音声トラックのミキシングに関連して後続音声を１つまたは複数の集合チャネルとして管理する音声トラック・オーサリング・ツールの例示的なユーザ・インタフェースの一部分を示す図である。図５Ａで管理される音声の例示的なコンパクト化された表現を示す図である。没入型音声トラックのオーサリングおよびレンダリングを行いながら後続音声を管理する例示的なプロセスを流れ図の形態で示す図である。後続音声を記述するメタデータを含む、ピクチャおよび没入型音声トラックを有する映画の組成を記憶する１組の複数のデータ・ファイルの例示的な一部分を示す図である。劇場への引き渡しに適した没入型オーディオ・トラックを表す単一のデータ・ファイルの例示的な一部分を示す図である。単一のフレームの間の音声オブジェクトの例示的なシーケンスを示す図である。図９の音声オブジェクトの位置のエントリを含むメタデータであって、これらのエントリを補間し、後続音声オブジェクトにフラグ付けするメタデータの表を示す図である。

図１は、映画のポストプロダクションに関連して没入型音声トラックのミキシングを行うタイプのミキシング・ステージ１００を示す図である。ミキシング・ステージ１００は、サウンド・エンジニアがオーディオ・コンソール１２０において没入型オーディオをミキシングする間に映画を表示するための投影スクリーン１０１を含む。複数のスピーカ（例えばスピーカ１０２）が、投影スクリーン１０１の背後に存在し、追加の複数のスピーカ（例えばスピーカ１０３）が、ミキシング・ステージの周りの様々な位置に存在する。さらに、１つまたは複数のスピーカ（例えばスピーカ１０４）が、ミキシング・ステージ１００の天井にも存在することがある。

サウンド・エンジニアなどの人員は、主として両開きドア１１２を通してミキシング・ステージ１００に出入りする。ミキシング・ステージ１００への第２の両開きドア１１３は、通常は非常出口となる追加の出入り口となる。ミキシング・ステージ１００は、例えば座席１１０、１１１、および１３０を含む座席列などの座席列の形態をした座席を含み、これにより、人が座席に座ってスクリーン１０１を見ることができる。通常は、１台または複数台の車椅子（図示せず）を収容するために、座席間に隙間が存在する。

ミキシング・ステージ１００は、典型的な映画館とほぼ同じレイアウトを有するが、例外として、座席列１１０またはその付近に座った１人または複数人のサウンド・エンジニアがオーディオ音声シーケンシングおよびミキシングを行って映画の没入型音声トラックを作製することを可能にするミキシング・コンソール１２０がある。ミキシング・ステージ１００は、例えば座席１３０など、最も遠いスピーカ１３２までの距離ｄ_１Ｍと最も近いスピーカ１３１までの距離ｄ_２Ｍとの間のワースト・ケースの差が最大値となるように位置決めされた少なくとも１つの座席を含む。必ずそうなるというわけではないが、通常は、ワースト・ケースの距離の差を有する座席は、ミキシング・ステージ１００の最後方の隅に位置する。横方向に対称であるので、もう一方の最後方の隅の座席も、最も遠いスピーカと最も近いスピーカとの間のワースト・ケースの差が最大となることが多い。以下ではミキシング・ステージ１００の「差分距離」（δｄ_Ｍ）と呼ぶ、このワースト・ケースの差は、δｄ_Ｍ＝ｄ_１Ｍ−ｄ_２Ｍという数式で与えられる。差分距離δｄ_Ｍは、スピーカの位置および座席配置など、特定のミキシング・ステージの幾何学的形状によって決まる。

図２は、観客に映画を上映するように設計されたタイプの劇場２００（例えば上映観客席または会場）を示す図である。図２に示す劇場２００は、図１のミキシング・ステージ１００と共通する特徴を多数有する。従って、劇場２００は、投影スクリーン２０１と、スクリーン２０１の背後の複数のスピーカ（例えばスピーカ２０２）と、部屋の周囲の複数のスピーカ（例えばスピーカ２０３）と、天井のスピーカ（例えばスピーカ２０４）とを有する。劇場２００は、１つまたは複数の主要入口２１２と、１つまたは複数の非常出口２１３とを有する。映画ファンを収容するために、劇場は、例えば座席２１０、２１１、および２３０など、多くの座席を有する。座席２１０は、劇場の中央付近に位置する。

図２の劇場２００の幾何学的形状およびスピーカ・レイアウトは、通常は、図１のミキシング・ステージ１００のものとは異なる。この点で、劇場２００は、通常は、数式δｄ_Ｅ＝（ｄ_１Ｅ−ｄ_２Ｅ）で与えられる異なる差分距離δｄ_Ｅを有する。ここで、ｄ_１Ｅは、座席２３０からスピーカ２３２までの距離であり、ｄ_２Ｅは、座席２３０からスピーカ２３１までの距離である。座席２３０の左側の座席の方が、わずかではあるがスピーカ２３２からさらに遠くに位置しているが、この座席は、スピーカ２３１からも離れて位置している。従って、図２に示す構成を有する劇場２００では、座席２３０が、ワースト・ケース差分距離（この例では、この距離は、横方向反対側の対称位置を有する後部列座席でもほぼ再現される）を有する。

ミキシング・ステージ１００および劇場２００のそれぞれの中のスピーカの数、ならびにそれらの配列および間隔は、多くの可能な例のうちの２つの表したものである。ただし、このスピーカの数、ならびにそれらの配列および間隔は、本発明の原理に従って先行オーディオ音声および後続オーディオ音声を再現する際に重要な役割を果たさない。一般に、スピーカの数をこれより増やし、スピーカの間の間隔をさらに一様にし、狭くすれば、没入型オーディオ環境をさらに良好にすることができる。異なる拡散性を有する異なるパニング法（ｐａｎｎｉｎｇｆｏｒｍｕｌａ）は、位置および明瞭性の印象を変化させる役に立つことがある。

図１を参照すると、座席１３０までの距離を考慮しなければ、ミキシング・ステージ１００内で座席１１０に座って作業をしているサウンド・エンジニアは、再生したときに、多くの場合に、劇場２００内の座席２１０またはその付近の別の座席に座って聞いている人にはほぼ同じように、且つ満足できるように聞こえる没入型音声トラックを製作することができる。かなりの程度まで、ミキシング・ステージ１００の中央に位置する座席１１０は、ミキシング・ステージ内の対向するスピーカからほぼ同じ距離に位置し、同様に、図２の劇場２００内の中央に位置する座席２１０とその会場内の対向するスピーカとの間の距離も、ほぼ対照的であるので、このような結果になる。しかし、前から後ろまでの長さと横方向の幅との間の比が異なる劇場では、中央の座席１１０と１２０でも、先行音声および後続音声に関して言えば、パフォーマンスに差が出る可能性がある。

図１のミキシング・ステージ１００および図２の劇場２００における中央に位置する座席（例えば、それぞれ座席１１０および２１０）は、任意の２つのスピーカの間の差分距離が、それぞれワースト・ケースの座席１３０および２３０より小さい。その結果として、スピーカ間遅延は、中央に位置する座席に座って聞いている人が経験するものはかなり小さくなるようであるが、座席が中央位置から離れるほど悪化する。ミキシング・ステージ１００および劇場２００の両方において座席の列の間の距離が約３６インチであると仮定すると、差分距離δｄ_Ｍは、約２１インチになり、δｄ_Ｅは、約３７インチになる。音声がミリ秒あたり約１フィート進むと仮定すると、図１のミキシング・ステージ１００のワースト・ケースの座席１３０では、前方スピーカ１３２および後方スピーカ１３１から同時に発出された音声は、２１ミリ秒ずれて到着することになる（後方スピーカ１３１からの音声が先に到着する）。図２を参照すると、図２の劇場２００のワースト・ケースの座席２３０では、前方スピーカ２３２および後方スピーカ２３１から同時に発出された音声は、３７ミリ秒ずれて到着する（この場合も、後方スピーカ２３１からの音声が先に到着する）。従って、これらの座席については、ミキシング・ステージ１００および劇場２００の前方スピーカ１３２および２３２からの音声の方が、差分距離で測定してより遠くまで進まなければならないので、これらの設備では、後方スピーカ１３１および２３１からの音声より後に到着する。

一般に、このより遠くのスピーカからの音声の伝搬時間は、大きな問題にはならない。ただし、発出されている２つの音声が同じ音声である場合には、これらのワースト・ケースの座席に座っている観客は、通常は、近くのスピーカがこれらの音声の元々の音源であるものと知覚する。同様に、発出される２つの音声が先行音および後続音である場合には、第１の音声とその残響の場合と同様に、あるいは２つの異なる音声であるが関連する音声の場合（例えば銃声と跳弾の場合）と同様に、先に到着する音声が、通常は先行音声の音源として知覚される位置を規定することになる。何れの場合も、より遠くにあるスピーカが音声の音源であると意図されていた場合には、伝搬時間による遅延によって知覚音源がより近くにあるスピーカになってしまうので、音源に関する聞いている人の知覚に問題が生じることになる。

図１の座席１１０からコンソール１２０上でミキシングを行う間に、サウンド・エンジニアは、この問題を知覚しない。サウンド・エンジニアが座席１３０に座ってそこからミキシングを行う（リモート・コントロールによって行うか、コンソール１２０を移動させて行うかは問わない）、または少なくともその座席からミキシングを評価する場合でも、満足できる結果が得られるかどうかの判定は、劇場におけるワースト・ケース差分距離がミキシング・ステージ１００におけるワースト・ケース差分距離を超えない（すなわちδｄ≦δｄ_Ｍ）ワースト・ケースの座席までしか行われない。それでも、ほとんどのサウンド・エンジニアは、そのような労力は払わない。極端な座席位置をテストする時間をとるには、製作スケジュールが厳し過ぎ、人員が忙し過ぎるからである。

従来は、サラウンド音声を利用する音声トラックでは、すなわち部屋の後方および側方のスピーカ（例えばスピーカ１０３）の列が、スクリーンの背後の個々のスピーカ（例えばスピーカ１０２）と関連付けられたチャネルとは区別される特定のオーディオ・サラウンド・チャネルにそれぞれ対応する１つ、２つ、または３つのグループに分割される場合には、全てのサラウンド・チャネルは、全てδｄの測定値または近似値に依拠する様々な数式によって劇場の幾何学的形状から導出される長さの時間だけ遅延することになる。サラウンド・チャネルが他のオーディオ・チャネルに符号化されるマトリクス化システムの場合には、差分距離δｄ（またはその近似値）は、マトリクス化システムが受ける不完全なチャネルの分離によるクロストークを吸収するために付加される追加の量を有することになる。その結果として、図２の劇場２００のような劇場は、サラウンド・チャネルを約３７ミリ秒だけ遅延させ、図１のミキシング・ステージ１００は、そのサラウンド・チャネルを約２１ミリ秒だけ遅延させることになる。このような設定により、音声が音声トラックの厳密な時間的優先順位に従い、且つ全ての先行音声がスクリーン・スピーカ（例えば図１のスピーカ１０２および図２の２０２）から生じる限り、音声がスクリーンではなく周囲から生じているように聞こえる状況は発生しない。没入型音声システムでは、先行音声がスクリーン外で発生する可能性があり、その一部は、スクリーン上か否かを問わず他の場所に配置された対応する後続音声を有するので、サラウンド音声チャネル（すなわちスクリーン上ではないオーディオ・チャネル）を遅延させても十分な解決策にはならない。

図３は、カメラ位置３１０に配置されたカメラを含む、映画のセットの想像上のシーン３００を示す図である。シーン３００が撮影中の実際の映画のセットを表していると仮定すると、いくつかの音声は、カメラ３１０の位置の周辺の至る所から発生している可能性が高い。シーンを再生しながらレコーディングを行う、あるいはサウンド・エンジニアがオフ・カメラ（またはオン・カメラの場合もある）の音声を別に受け取ったと仮定すると、サウンド・エンジニアは、それらの音声をコンパイルして１つの没入型音声トラックにする。

図３に示すように、シーン３００は、建物３０２に隣接する駐車場３０１で発生する。シーン３００内には、２人の人物３３０および３６０が、カメラ３１０の視野３１２内に立っている。このシーンの間に、車両３２０（オフ・カメラ）が、車両のエンジンの音声３２２（「ブルルン」）が聞こえてくるように、シーン中の位置３２１に接近する。車両の接近に促されて、第１の人物３３０は、警告３３１を叫ぶ（「気をつけろ！」）。これに応答して、車両３２０の運転者は、車両から方向３４２に銃３４０を発砲し、銃声音３４１および跳弾音３５０を生じる。第２の人物３６０は、やじ３６１を叫ぶ（「外れたぞ！」）。車両３２０の運転者は、建物３０２を避けるためにハンドルを切り、方向３２４にスリップして、ブレーキ音３２５を生じ、最終的にクラッシュ音３２７を生じる。

このようなシーンの没入型音声トラックを構築する過程では、サウンド・エディタは、非拡散音声のいくつかについて大きな表面からの反射音を表現するために、いくつかの残響チャネルを提供することを選ぶことがある。この例では、サウンド・エンジニアは、直接経路３３２だけでなく第１の反射経路３３３（建物３０２からの跳ね返り）からの警告３３１を観客に聞かせることを選ぶ。同様に、サウンド・エンジニアは、直接経路３４３だけでなく第１の反射経路３４４（やはり建物３０２からの反射）からの銃声３４１を観客に聞かせたいと思うこともある。サウンド・エンジニアは、これらの反射のそれぞれを独立して空間展開する（すなわち反射音を直接音とは異なるスピーカに移動させる）こともできる。ただし、観客には、直接経路３６２だけでなく第１の反射経路３６３（駐車場の表面からの反射）からのやじ３６１が聞こえなければならない。従って、この反射は、直接経路３６２から聞こえるやじ３６１より遅れて到着するが、ほぼ同じ方向から（すなわち同じ１つまたは複数のスピーカから）聞こえなければならない。没入型音声トラックのミキシングに関連する製作プロセスの一部として、サウンド・エンジニアは、エンジン音３２２、ブレーキ音３２５、クラッシュ音３２７、または跳弾音３５０など特定の音声については、残響を提供しないことを選ぶことができる。むしろ、サウンド・エンジニアは、これらの音声を、直接経路３２３、３２６、３２８、および３５１をそれぞれ有する空間展開された音声オブジェクトとして個別に扱うことができる。さらに、車両３２０が動いているために、その移動している車両に関連する対応する音声オブジェクトも、静止位置ではなく経時的な軌道（図示せず）を有するので、サウンド・エンジニアは、エンジン音３２２およびブレーキ音３２５を進行する音声として扱うことができる。

個々の没入型音声技術の性質および実施態様によっては、空間的位置決め制御により、サウンド・エンジニアは、デカルト座標および極座標を含むことがある１つまたは複数の異なる表現によって、音声を位置決めすることができることがある。これらに限定されるわけではないが、以下のオーディオ・オブジェクトの空間的位置決めのための可能な表現の例を考慮されたい。
・音声は、例えば以下の表現のうちの何れかを用いて、実質的に水平な平面内に厳密に位置することがある（すなわち２Ｄ位置決め）。
ａ_２Ｄ）｛ｘ，ｙ｝座標としての表現（例えば劇場の中心を｛０，０｝とし、例えば１１０や２１０などの中央の座席からスクリーンまでの距離に単位距離スケーリングして、スクリーンの中心が｛１，０｝になり、観客席の後部中央が｛−１，０｝となるようにする）。
ｂ_２Ｄ）厳密な方位角｛θ｝としての表現（例えば劇場の中央の座席１１０、２１０を原点とし、ゼロ度（０°）が画面の中央に向かうものとする）。従って、音声は劇場の真ん中またはその他の所定の中心を中心とする円上に配置される。
ｃ_２Ｄ）水平平面内の配置の異なる表現である、方位角および距離｛θ，ｒ｝としての表現。
・あるいは、音声は、例えば以下の表現のうちの何れかを用いて、３次元空間内に位置することがある。
ａ_３Ｄ）｛ｘ，ｙ，ｚ｝座標としての表現。
ｂ_３Ｄ）方位角および仰角｛θ，φ｝としての表現。この場合、劇場の真ん中またはその他の所定の中心を中心とする球面上に音声を位置決めすることができる。
ｃ_３Ｄ）方位角、仰角、および距離｛θ，φ，ｒ｝としての表現。

２次元表現のうちの１つに高さ座標（ａ_２Ｄとａ_３Ｄの間の関係）を加えて、準３次元音声位置の表現を行うこともできる。ただし、いくつかの実施形態では、高さ座標は、例えば「高」または「中」など、いくつかの離散値のうちの１つしか取り得ないこともある。ｂ_２Ｄおよびｂ_３Ｄなどの表現は、その位置がそれぞれ単位円または単位球上にあるとさらに定められた状態での方向しか規定しないが、その他の例示的な表現は、距離と、ひいては位置とをさらに規定する。

音声オブジェクト位置のその他の表現としては、四元数、ベクトル行列、連鎖座標系（ｃｈａｉｎｅｄｃｏｏｒｄｉｎａｔｅｓｙｓｔｅｍｓ）（ビデオ・ゲームでよく見られる）などが挙げられるが、これらも同様に有用である。さらに、場合によってはある程度の損失がある場合もあるが（例えば任意の３Ｄ表現から２Ｄ表現になる場合、または距離を表すことができる表現から距離を表さない表現になる場合など）、これらの表現の多くの間での変換も可能である。本発明の原理では、音声オブジェクトの位置の実際の表現は、ミキシング中にも、没入型音声トラックを再生するときにも、重要な役割を持たず、ミキシングまたは再生プロセスにおいていかなる中間的な変換が使用されても構わない。

例えば、表１は、図３に示すシーン３００で提供される可能性がある音声オブジェクトの位置の表現を示す表である。表１の位置の表現では、上記のうち、系ｂ_２Ｄを使用している。

図４Ａは、図３のシーン３００のミキシング・セッション４００を管理するためにサウンド・エンジニアが使用する音声トラック・オーサリング・ツールの例示的なユーザ・インタフェースを示す図であり、図４Ａの列４２０は、それぞれシーン中の１１個の別個の音声のそれぞれのための「チャネル」（チャネル１〜１１）と示された１１個の行を示している。いくつかの状況では、１つのチャネルが複数の別々の音声を含むこともあるが、同じチャネルを共有するそれらの音声は、タイムライン（図４Ａには図示せず）の異なる部分を占めることになる。図４Ａのブロック４０１〜４１１は、割り当てられたチャネルのそれぞれの特定のオーディオ要素を示し、これらの要素は、必要に応じて波形として現れることもある（図示せず）。ブロック４０１〜４１１の左端および右端は、左から右に進むタイムライン４２４上の各オーディオ要素の開始点および終了点をそれぞれ表す。なお、本明細書全体を通じて、タイムライン（例えばタイムライン４２４）に沿った項目の持続時間は、正確な縮尺では示されておらず、特に、これらの要素は、本発明の原理に適合し、さらに明確に本発明の原理を示すように、場合によっては不均一に圧縮してあることに留意されたい。

列４２１では、別個の音声は（それぞれのチャネルを介して）割り当てられたオブジェクト１〜１０に対応する。サウンド・エンジニアは、列４２１中の音声オブジェクトを、各オブジェクトに、例えば上述のフォーマットのうちの１つ（例えば表１の方位値）で２Ｄまたは３Ｄの座標を与えることによって音響空間中に位置決めすることができる。座標は、固定であってもよいし、経時変化してもよい。いくつかの場合には、映画のスクリーン（例えば図１のスクリーン１０１および図２のスクリーン２０１）上の画像が、図３のカメラ３１０の動き（図示せず）によって変わるときに、通常は音声オブジェクトの全てまたは大部分の位置の更新を行って、カメラの視野に対するシーン内のそれらの位置を維持する。従って、カメラが時計回りに９０°回転した場合には、音声は観客席の周りで反時計回りに９０°回転して、例えばやじ３６１など、それまではスクリーン上にあった音声が、カメラの移動後は、観客席の左壁上の適当な位置から生じるようになる。

図４Ａのオーディオ要素４０１は、図３のシーン３００のための音楽（すなわちスコア）を含む。いくつかの場合には、サウンド・エンジニアは、スコアを複数のチャネル（例えばステレオ）に分離することができ、特定の楽器を個々のオブジェクトに割り当てて、例えば弦楽器が打楽器とは別の位置になるようにすることもできる（図示せず）。オーディオ要素４０２は、例えば遠くの交通雑音など、個別の呼出しを必要としない一般的な周囲音声を含む。オーディオ要素４０１の音楽の場合と同様に、周囲音トラックも、複数のチャネルを包含することがあるが、一般には、聞いている観客が位置を特定できないように、非常に拡散した設定を有することになる。いくつかの実施形態では、音楽チャネルおよび周囲音チャネルが複数のオブジェクト（例えば図４Ａに示すようにオブジェクト１、オブジェクト２）を有し、これらのオブジェクトが所望の音声再現に適した設定を有する。他の実施形態では、サウンド・エンジニアは、音楽および周囲音を、静的座標であるか動的座標であるかとは関わりなく、特定のスピーカで再生されるように事前にミキシングすることができる（例えば音楽は、図１のスピーカ１０２および図２のスピーカ２０２など、スクリーンの背後のスピーカから出るようにし、周囲音は、観客席を取り囲むスピーカ群（例えば図１のスピーカ１０３および図２のスピーカ２０３など）から出るようにすることができる）。この後者の実施形態が、特殊なオブジェクトが特定のスピーカまたはスピーカ群に対してオーディオをレンダリングする音声オブジェクト構成を利用するかどうか、あるいはサウンド・エンジニアが、５．１標準または７．１標準に合わせた従来のミキシングを手作業で行うかは、設計選択または芸術的な好みの問題となる。

残りのオーディオ要素４０３〜４１１は、それぞれ、図３のシーン３００に示す音声のうちの１つを表し、図４Ａの割り当てられた音声オブジェクト３〜１０に対応する。ここで、各音声オブジェクトは、シーン３００中の音声の位置に対応する静的または動的な座標を有する。図４Ａでは、オーディオ要素４０３は、図３のエンジン音３２２（オブジェクト３に割り当てられる）に対応するオーディオ・データを表す。上記の座標系ｂ_２Ｄを使用すると、オブジェクト３は、約｛−１１５°｝の座標を有し（表１参照）、この座標は、エンジン音オブジェクト３２２が図３の移動する車両３２０とともに移動するので、ある程度変化することになる。オーディオ要素４０４は、ブレーキ音３２５を表し、割り当てられたオブジェクト４に対応する。このオブジェクトは、約｛−１６０°｝の座標を有することになる。ブレーキ音３２５も、エンジン音３２２と同様に移動する。オーディオ要素４０５は、図３の銃声３４１を表し、静止座標｛−１４０°｝を有する割り当てられたオブジェクト５に対応し、オーディオ要素４０６は、反射経路３４４から聞こえる図３の銃声３４１のエコーを表現するために、オーディオ要素４０５から導出される残響効果を含む。オーディオ要素４０５は、静止座標｛１５０°｝を有する割り当てられたオブジェクト６に対応する。オーディオ要素４０６を生成するために使用される残響効果はフィードバックを利用するので、この残響効果は、音声オーディオ要素４０５よりかなり長く続くことができる。オーディオ要素４０７は、銃声３４１に対応する跳弾３５０を表す。オーディオ要素は、静止座標｛−２０°｝を有する割り当てられたオブジェクト７に対応する。

チャネル８のオーディオ要素４０８は、図３の叫び声３３１を表し、静止座標｛３０°｝を有する割り当てられたオブジェクト８に対応する。サウンド・エンジニアは、オーディオ要素４０８から導出されるチャネル９の残響効果として、オーディオ要素４０９を、経路３３３を通って到着するように聞こえる叫び声３３１のエコーに提供する。チャネル９は、静止座標｛５０°｝を有する割り当てられた音声オブジェクト９に対応する。最後に、チャネル１０のオーディオ要素４１０は、やじ３６１を含み、オーディオ要素４１１は、残響効果の処理後にオーディオ要素４１０から導出され、チャネル１１に戻される、やじ３６１のエコーを含む。やじ３６１およびそのエコーの両方の方向はほぼ同じ経路３６２および３６３に沿っているので、サウンド・エンジニアは、これら２つのオーディオ要素４１０および４１１を、この例では静止位置座標｛−１０°｝を有する共通の音声オブジェクト１０に割り当てることができる。これは、場合によっては、サウンド・エンジニアが、複数のチャネル（例えばチャネル１０、１１）を１つの音声オブジェクト（例えばオブジェクト１０）に割り当てることができることを例示している。

図４Ａの列４２２では、チェックボックスの形態をした例示的なユーザ・インタフェースが、チャネルが別のチャネルの後続音を表すか否かをサウンド・エンジニアが指定するための機構を提供している。チャネル５および銃声３４１のオーディオ要素４０５に対応するマークされていないチェックボックス４２５は、オーディオ要素４０５が後続音声を構成しないことを示している。逆に、チャネル６および銃声３４１のエコーのオーディオ要素４０６に対応するマークされているチェックボックス４２６と、チャネル７および跳弾３５０のオーディオ要素４０７に対応するマークされているチェックボックス４２７とは、オーディオ要素４０６および４０７が後続音声を構成していることを示している。同様に、サウンド・エンジニアは、チャネル９を後続音声として指定する。

これらの音声を後続音として指定し、この指定を関連するチャネル、オブジェクト、またはオーディオ要素に関連するメタデータとして送出することは、図６を参照してさらに詳細に述べるように、音声トラックのレンダリング中に非常に重要となる。音声を後続音として指定すると、音声トラックの再生に関連して特定の会場（例えばミキシング・ステージ１００および劇場２００）におけるワースト・ケース差分距離（例えばδｄ_Ｍ、δｄ_Ｅ）に基づく時間の長さだけ、後続音声を残りの音声より遅延させるのに役立つ。後続音声を遅延させることにより、会場内にいかなる差分距離があっても、いかなる観客にも、後続音声がそれと関係する先行音声より先に聞こえることはなくなる。なお、この例示的な実施形態では、特定の後続音に対応する先行音（およびその逆）について記していないが、いくつかの実施形態（後述）では、特定の先行音／後続音の関係が必要となることに留意されたい。例えばあるチャネル（例えば４０６、４０９）の導出が別のチャネル（例えばそれぞれ４０５、４０８）に由来するものであることをシステムが知ることができる場合など、いくつかの場合には、後続音であるとする指定を自動的に適用することができる。

具体的な例として、図４Ａのオーディオ要素４０５で表され、オブジェクト５に割り当てられた静止座標｛−１４０°｝に基づいて図２の劇場２００で後方スピーカ２３１またはその付近でレンダリングされる、図３の銃声３４１を考慮されたい。銃声３４１は、オーディオ要素４０６によって表されるエコー、およびオーディオ要素４０７によって表される跳弾の両方の先行音を構成する。先行音声、または後続音声以外の音声であるので、銃声３４１を表すオーディオ要素４０５は、チェックボックス４２５がマークされない（従って、このオーディオ要素が後続音声と見なされることはない）。サウンド・エンジニアは、チェックボックス４２６および４２７をそれぞれマークすることによって、エコー４０６および跳弾４０７の両方を後続音声として指定する。いくつかの実施形態では、単に要素４０６および４０７が後続音であると示すだけでなく、オーディオ要素４０５と４０６の間、およびオーディオ要素４０５と４０７の間の先行音／後続音の関係が記されることもある（図示せず）。例えば跳弾のオーディオ要素４０７がタイムライン４２４上で銃声のオーディオ要素４０５より先に配置される場合（図示せず）などに警告（図示せず）を与える以外の目的では、先行音と後続音との関係を記す必要はない。

映画の上映中（および劇場２００における関連する音声トラックの対応する再生中）に、（例えばチェックボックスがマークされることによって）後続音声としてタグ付けされたオーディオ要素はそれぞれ、δｄ_Ｅが劇場２００のワースト・ケース差分距離であるので、約δｄ_Ｅに対応する時間だけ遅延することになり、この遅延は、劇場内のいかなる観客にも、後続音声がそれに対応する先行音より先に聞こえないようにすることを保証するのに十分に長い。この構成には、一部のスピーカからの後続音に付与される遅延を最小限に抑えるという利点がある。

他の実施形態では、図２の劇場２００などの会場内の各スピーカまたはスピーカ群を制御するオーディオ・プロセッサ（図示せず）は、そのスピーカについてのワースト・ケース差分距離（δｄ）について、またはそれに対応する遅延について、予め設定された値を有し、特定のスピーカを通して再現されるように選択された任意の後続音声は対応する遅延を受けるが、非後続音声は遅延されないようにすることにより、そのスピーカによって再現される後続音が、劇場内のいかなる観客にも、対応する先行音がどのスピーカから再現されるかに関わらず、その先行音より先に聞こえないことを確実にすることができる。

さらに他の実施形態では、会場内の各スピーカまたはスピーカ群を制御するオーディオ・プロセッサ（図示せず）は、そのスピーカ（またはスピーカ群）の他の各スピーカ（または他のスピーカ群）に対する差分距離について、またはそれに対応する遅延について、予め設定された値を有し、特定のスピーカを通して再現されるように選択された任意の後続音声がそのスピーカ（またはスピーカ群）および対応する先行音を再生しているスピーカ（またはスピーカ群）に対応する遅延を受けるようにすることにより、そのスピーカから発出される後続音が、劇場内のいかなる観客にも、対応する先行音がそのスピーカ（またはスピーカ群）から聞こえる前に聞こえないことを確実にすることができる。この構成には、後続音に付与される遅延を最小限に抑えるという利点があるが、各後続音が、対応する先行音と明示的に関連付けられている必要がある。

タイムラインにおいて各オーディオ要素４０１〜４１１に個別のチャネルを提供するように各音声オブジェクト１〜１０を別々に管理する図４Ａの音声トラック・オーサリング・ツールは、大きな有用性を有する。しかし、このツールで作製される音声トラックは、劇場２００内での映画の上映と関連付けて音声トラックをレンダリングする、またはミキシング用観客席１００内で音声トラックをレンダリングするレンダリング・ツールのリアルタイム能力を超えることがある（図６を参照して後述する）。音声トラックに関連して使用される「レンダリング」という用語は、上述のように後続音声を遅延させることも含めて、音声トラック中の音声（オーディオ）要素を様々なスピーカを通して再現することを指す。例えば、同時に管理されることが許容されるチャネルまたは音声オブジェクトの数について、制約が存在することもある。このような状況では、音声トラック・オーサリング・ツールは、図４Ｂに示すように、より少ない数のチャネル１ｂ〜７ｂ（列４７０の各行）および／またはより少ない数の音声オブジェクト（列４７１のオブジェクト１ｂ〜７ｂ）を有するコンパクトな表現４５０をもたらすことができる。図４Ｂに示すコンパクトな表現は、各音声オブジェクトと、１つのチャネルを関連付ける。チャネルおよび／またはオーディオ要素の使用を少なくするために、個々のオーディオ要素４０１〜４１１は、オーディオ要素４５１〜４６０にコンパクト化される。例えば、音楽および周囲音のオーディオ要素４０１および４０２は、それぞれ図３のシーン３００の全長におよび、それ以上コンパクト化することができないので、それぞれオーディオ要素４５１および４５２になる。各オーディオ要素は、依然として当初のチャネル数を占め、この実施形態では、それぞれが、依然として同じ音声オブジェクト（ここではオブジェクト１ｂ／２ｂと名称が変更されている）に対応する。

以前はそれぞれ離散したオブジェクト３および４と関連付けられた別個のチャネル３および４の別個のオーディオ要素４０３および４０４として提供されていたエンジン音３２２およびブレーキ音３２５については、状況が異なる。これらの音声は、タイムライン４２４上で重ならないので、タイムライン４７４において、少なくともそのタイムライン中でオーディオ要素４５３に対応する間隔の間はエンジン音３２２の位置に対応し、その後、少なくともオーディオ要素４５４に対応する間隔の間はブレーキ音３２５の位置に対応する動的位置を有する、オブジェクト３ｂに関連付けられた１つのチャネル３ｂに統合することができる。統合されたオーディオ要素４５３および４５４は、図４Ａのミキシング・セッション４００におけるそれぞれの由来を示す注釈を有することができる。オーディオ要素４５３および４５４の注釈は、それぞれ元のオブジェクト＃３および＃４を示すことにより、統合された没入型音声トラック表現４５０からミキシング・セッション４００を少なくとも部分的には復元するための手掛かりを与える。なお、オーディオ要素４５３と４５４の間には、後続音声に適用されることもあるタイムライン位置の任意のオフセットを吸収するのに十分なギャップが存在するが、この例では、オーディオ要素４５３も４５４も後続音ではないことに留意されたい。

同様に、以前はそれぞれ離散したオブジェクト８および５と関連付けられたチャネル８および５の別個のオーディオ要素４０８および４０５として提供されていた警告の叫び声３３１および銃声３４１も、共通のチャネル４ｂおよびオブジェクト４ｂに統合することができる。この場合も、オーディオ要素４０８および４０５はそれぞれ、通常は、それぞれの元のオブジェクト指定を示す注釈を有する。この注釈は、チャネルの関連付けを反映することもできる（図示せず。オブジェクト８およびオブジェクト５との元の関連付けのみを示す）。統合チャネル３ｂの場合と同様に、チャネル４ｂに関連付けられたオーディオ要素は、重なり合わず、サウンド・エンジニアが一方または他方の音声要素を後続音声として指定した場合に備えて（この場合も、この例には当てはまらない）、十分な隙間を維持している。

警告の叫び声３３１のエコーおよび銃声３４１のエコー（ともに図３）の場合には、それぞれ、ミキシング・セッション４００のユーザ・インタフェースにおける指示（例えばチェックボックス４２６）に対応する、オーディオ要素（例えばオーディオ要素４５６）と関連付けられたメタデータ（例えばメタデータ４７６）による後続音声としての指定を有する。オーディオ要素４０７によって表される跳弾３５０は、跳弾を表すオーディオ要素が、チャネル１ｂ〜５ｂのそれぞれにおいて少なくとも１つのオーディオ要素（例えばオーディオ要素４５１、４５２、４５３、４５５、および４５６のうちの１つ）と重なり、実質的に同様のオブジェクト位置がないので、チャネル１ｂ〜５ｂに統合できる位置がない。このために、オブジェクト６ｂに関連付けられたチャネル６ｂのオーディオ要素４５７に対応する跳弾３５０は、チェックボックス４２７に与えられた指示に基づいて、この音声が後続音声であると指定する関連するメタデータ４７７を有することになる。

以前は別個のチャネル１０および１１として扱われていたやじ３６１およびそのエコーは、図３で同じような方向３６２および３６３から発生するので、同じオブジェクト１０に割り当てられていた。図４Ｂの統合フォーマット４５０では、サウンド・エンジニアは、離散したオーディオ要素４１０および４１１を、オブジェクト７ｂに関連付けられたチャネル７ｂに対応する１つのオーディオ要素４６０にミキシングする。オーディオ要素４６０は実質的にオブジェクト４５５とは重ならないが、この実施形態では、オブジェクトが後続音声としてマークされる場合に備えて、あるいは図６を参照して述べるようにリアルタイム・レンダリング・ツールがある位置（銃声３４１の位置など）から別の位置（やじ３６１の位置など）へどの程度の速さで不連続にジャンプするかということに関して懸念がある場合に備えて、オーディオ要素４６０をチャネル４ｂにさらに統合することは行われない。なお、オブジェクト＃１０との当初の共通の関連付けを復元することは依然として可能であるが、このミキシングしたトラックを元の離散したオーディオ要素４１０および４１１に分離することはできない。従って、いくつかの実施形態では、図４Ａに示すミキシング・セッション４００は、実質的にその図に示すチャネル、オブジェクト、オーディオ要素、およびメタデータ（例えばチェックボックス４２２）に対応する非圧縮フォーマットで保管されることになり、この非圧縮フォーマット、または図４Ｂに示す圧縮フォーマットの何れかを、劇場に送られる配布パッケージで使用することもできる。

図５Ａは、後続音声が共通バス上に現れるが個別には定位されないパラダイムを使用する、ミキシング・セッション５００のためのオーサリング・ツールの別のユーザ・インタフェースを示す図である。従って、例えば、銃声３４１のエコーは、実質的に方向３４４に対応するものだけでなく、会場内の多数のスピーカから発生する。図５Ａのミキシング・セッション５００中には、図４Ａのミキシング・セッション４００中と同様に、各オーディオ要素５０１〜５１１は、列５２０中のチャネル１〜１１の離散した１つに出現し、タイムライン５２４に沿って位置する。ただし、定位されるのはこれらの音声の一部だけであるので、全てのチャネルが列５２１中の音声オブジェクト１〜６のうちの対応する１つとの関連付けを有するわけではない。以前の例と同様に、チェックボックスがマークされるか（例えばチェックボックス５２６）、マークされないか（例えばチェックボックス５２５）、によって示されるように、各オーディオ要素は、後続音声であるか否かの指定（列５２２）を有することができる。

チャネル１の音楽用のオーディオ要素５０１の場合には、オブジェクト１との関連付けは、スコアをステレオで提示する、または特定の位置を用いてその他の方法で提示するのに役立ち得る。対照的に、チャネル２の周囲音要素５０２は、オブジェクトとの関連付けを有さず、レンダリング・ツールは、この要素を、再生中に、例えば全てのスピーカ、スクリーンの背後以外の全てのスピーカ、または無指向性の音声をレンダリングする際に使用されるように予め決定された別のスピーカ群から来る、無指向性の音声として解釈する可能性がある。

図５Ａを参照すると、エンジン音３２２、ブレーキ音３２５、銃声３４１、警告の叫び声３３１、およびやじ３６１（全て図３）は、それぞれ音声オブジェクト２、３、４、５、および６に関連付けられたチャネル３、４、５、８、および１０のオーディオ要素５０３、５０４、５０５、５０８、および５１０を含む。これらの音声は、非後続音声を構成し、オーサリング・ツールは、これらの音声を、図４Ａに関連して述べたのと同様の方法で扱うことになる。

ただし、図５Ａのオーサリング・ツールは、銃声３４１のエコー、跳弾３５０、警告の叫び声３３１のエコー、およびやじ３６１のエコーは、それぞれチャネル６、７、９、および１１で別々に扱う。これらの音声はそれぞれ、（例えばサウンド・エンジニアがチェックボックス５２６および５２７にマークすることによって）後続音声としてタグ付けされる。その結果として、レンダリング・ツールは、音声トラックが再生される会場（例えば図１のミキシング・ステージ１００または劇場２００）について予め決定されたδｄに従って、対応するオーディオ要素５０６、５０７、５０９、および５１１のそれぞれを遅延させる。レンダリング・ツールは、周囲音チャネル２と同じ無指向性の方法に従ってチャネル６、７、９、および１１をレンダリングするが、周囲音オーディオ要素５０２は、後続音声を構成せず、いかなる遅延を施す必要もない。

従って、後続音バスを有するコンパクトな表現５５０では、図５Ｂに示すように、ともに列５７１の周囲音処理割当て５７４および後続音バス処理割当て５７５の追加により、列５７０中の離散チャネル１ｂ〜５ｂおよび列５７１中の音声オブジェクト１ｂ〜３ｂの数をさらに減少させることができる。ここで、これらのオーディオ要素は、タイムライン５２４に沿ったそれらの配列５７３を保持する。例えば、音楽スコアのオーディオ要素５５１は、演奏中にスコアを定位化するために列５７１中のオブジェクト１ｂと関連するチャネル１ｂに出現する。チャネル２ｂの周囲音要素５５２は、周囲音処理割当て５７４によって上述のように無指向に再生される（例えば、上映している観客席内のスピーカのうち無指向性オーディオに使用される所定の部分で再生されることを示す）。

図５Ｂのオーサリング・ツールは、エンジン音３２２およびやじ３６１を列５７０のチャネル３ｂにコンパクト化することができ、両者はともにオブジェクト２ｂに割り当てられ、オブジェクト２ｂは、少なくともオーディオ要素５５３の持続時間の間は、エンジン音３２２に適した位置をとる。その後、オブジェクト２ｂは、少なくともオーディオ要素５６０の持続時間の間は、やじ３６１に適した位置をとる。なお、図５Ｂの表現５５０において共通のチャネルにコンパクト化するものとして選択されたオーディオ要素は、図４Ｂの表現４５０で選択されたものと異なっていてもよいことに留意されたい。同様に、オーサリング・ツールは、警告の叫び声３３１、銃声３４１、およびブレーキ音３２５を、列５７１中のオブジェクト３ｂに割り当てられた列５７０中のチャネル４ｂ上のオーディオ要素５５８、５５５、および５５４としてそれぞれコンパクト化することができる。これらの音声は、タイムライン５２４上で重ならないので、オブジェクト３ｂには、シーン３００中のそれぞれの位置に問題なく切り替わるのに十分な時間がある。

図５Ｂのコンパクト表現５５０中のチャネル５ｂは、後続音処理指定５７５を有する。従って、チャネル５ｂのオーディオは、周囲音チャネル２ｂと同様に定位のための処理を受けることになる。換言すれば、オーディオ・レンダリング・ツールは、このオーディオを、無指向に再現するための所定のスピーカ群に送る。チャネル２ｂと同様に、後続音バス・チャネル５ｂは、図５Ａの個々のオーディオ要素５０６、５０７、５０９、および５１１（それぞれ図５Ｂに示すオーディオ要素５５６、５５７、５６１、および５５９に対応する）のミックスを含む、１つのオーディオ要素５７６を有することができる。なお、オーディオ要素５５６、５５７、および５６１はタイムライン５２４上で重なるが、サウンド・エンジニアが（例えばチェックボックス５２６をマークすることによって）それらを後続音として指定しているので、これらの後続音声は、無指向に再現される。１つのオーディオ要素５７６だけは、これらの後続音声を表現するために依然として必要である。

会場（例えば図１のミキシング・ステージ１００または図２の劇場２００）で演奏するために、レンダリング・ツールは、リアルタイムのものであっても、その他のものであっても、チャネル５ｂの後続音バスのオーディオ要素５７６を、その会場の所定のδｄに基づく長さの時間だけ、その他のオーディチャネル１ｂ〜４ｂに対して相対的に遅延させる。この機構を用いると、座席に関わらず、後続音声が対応する先行音声より先に聞こえる観客はいなくなる。従って、没入型音声トラック中の先行音声の位置は、普通ならδｄによって指向性の先行音声を再現しているスピーカから最も遠く離れた会場の部分に座っている観客の間で生じる可能性がある望ましくない音響心理学のハース効果に対抗して、維持される。

図４Ｂのコンパクト表現４５０の方が、劇場での提示により適していることがある。図５Ｂのさらにコンパクトな表現５５０も、劇場での提示に適してはいるが、音声オブジェクトの処理にかかる負担が少ないので、民生用にも適用可能である。いくつかの実施形態では、例えば追加の無指向性チェックボックス（図示せず）を図５Ａのユーザ・インタフェース５００に設けて、オペレータ（例えばサウンド・エンジニア）がいくつかの後続音声を無指向と指定することができる、ハイブリッド手法が有用である。

図５Ａおよび図５Ｂでは、いくつかのチャネルは、列５２１または５７１のオブジェクトといかなる関連付けも有していない。しかし、これらのチャネルも、上記で示した没入型の２Ｄまたは３Ｄの空間座標系を用いて定位を実現するものだけでなく、依然として音声オブジェクトとの関連付けを有する。上述のように、これらの音声オブジェクト（例えばチャネル２およびオーディオ要素５０２）は、周囲音挙動を有する。後続音バスに送られるチャネルは、映画の提示が行われる会場に適したδｄに対応する遅延を含む周囲音挙動を有することになる。上述のように、図４Ａの音楽要素４０１（または図５Ａの音楽要素５０１）に関連付けられたオブジェクト１は、ステレオ・オーディオ要素を会場内の特定のスピーカ（例えばスクリーンの背後の左端のスピーカおよび右端のスピーカ）にマッピングする静的設定を有することができる。同様に、左側のサラウンド・スピーカまたは頭上のスピーカ１０４／２０４など、特定のスピーカ群にマッピングされたオーディオ要素を有する音声オブジェクト（図示せず）が存在することもある。これらの簡略化されたマッピングは何れも、没入型の（２Ｄまたは３Ｄで位置決めされた）オブジェクトから独立して使用してもよいし、あるいはそれらと関連付けて使用してもよく、また、これらの簡略化されたマッピングは何れも後続音の指標とともに適用してもよい。

図６は、次の２つの部分を含む残響音声を管理するための、本発明の原理による、没入型音声提示プロセス６００の各ステップを示す流れ図である。すなわち、第１の部分は、オーサリング・ツールを表現するオーサリング部分６１０を含み、第２の部分は、リアルタイムまたはその他のレンダリング・ツールを表現するレンダリング部分６２０を含む。通信プロトコル６３１は、リアルタイムまたはリアルタイムに近い編集セッション中に起こる可能性があるオーサリング部分６１０とレンダリング部分６２０の間の移行を管理するが、あるいは、配布パッケージ６３０を使用して上映会場に配布することもある。通常は、プロセス６００のオーサリング部分６１０の各ステップは、パーソナル・コンピュータまたはワークステーション・コンピュータ（図示せず）で実行され、レンダリング部分６２０の各ステップは、その出力が後述の方法で様々なスピーカの増幅器などを駆動するオーディオ・プロセッサ（図示せず）によって実行される。

改良された没入型音声提示プロセス６００は、ステップ６１１中に実行されて開始され、その後、オーサリング・ツール６１０が、音声トラックに適したオーディオ要素をタイムラインに沿って（例えばオーディオ要素４０１〜４１１を図４Ａのタイムライン４２４に沿って）配列する。ステップ６１２で、オーサリング・ツールは、ユーザ入力に応答して、第１のオーディオ要素（例えば銃声３４１のオーディオ要素４０５）を第１の音声オブジェクト（例えば列４２１のオブジェクト５）に割り当てる。ステップ６１３で、オーサリング・ツールは、第１の位置（例えば方位＝−１４０°、すなわち線３４３に沿った位置）または第１の経時的な軌道を、第１のオブジェクトに割り当てる。

ステップ６１４で、オーサリング・ツールは、ユーザ入力に従って、第２のオーディオ要素（例えば銃声３４１のエコーの４０６）を第２の音声オブジェクト（例えば列４２１のオブジェクト５）に割り当てる。ステップ６１５で、オーサリング・ツールは、第２の位置（例えば方位＝１５０°、すなわち線３４４に沿った位置）または第２の経時的な軌道を、第２のオブジェクトに割り当てる。

ステップ６１６で、オーサリング・ツールは、第２のオーディオ要素（例えば４０６）が、後続音声、この場合は第１のオーディオ要素（例えば４０５）の後続音声を構成するかどうかを判定する。オーサリング・ツールは、この判定を、列４２０のチャネル５と６の間の所定の関係（例えばチャネル６は、チャネル５から送られる音声から導出される音声効果の戻り（ｓｏｕｎｄｅｆｆｅｃｔｒｅｔｕｒｎ）を表すなど）から、自動的に行うことができ、その場合には、第１のオーディオ要素と第２のオーディオ要素とが、アプリオリに分かるように先行音声と後続音声としての関係を有することになる。オーサリング・ツールは、オーディオ音声を検査して、１つのトラック上の音声が別のトラック上の音声と高い相関を有していることを発見することによって、一方の音声を他方の音声の後続音として自動的に識別することもできる。

あるいは、オーサリング・ツールは、例えばサウンド・エンジニアがミキシング・セッション４００のユーザ・インタフェースにマーク（４２６）して第２の音声要素４０６が後続音声要素を構成すると指定する場合など、オーサリング・ツールを操作するサウンド・エンジニアが手作業で入力する指示に基づいて、音声が後続音声を構成するかどうかの判定を行うこともできるが、手作業による指示は対応する先行音声を具体的に特定する必要はない。さらに別の代替形態では、オーサリング・ツールは、オーディオ要素４０６にタグ付けして、そのオーディオ要素を、その音声要素の先行音声を指定していることもしていないこともある別のチャネルから導出される音声効果の戻りであると指定することもできる。この判定の結果は、（例えば図４Ａのマークされたチェックボックス４２６、または図５Ａのチェックボックス５２６によって）ユーザ・インタフェースに現れることができ、図４Ｂのオーディオ要素４５６に関連付けられた後続音メタデータ・フラグ４７６の形態で記憶される、またはオーディオ要素５０６を図５Ｂのように構成要素５５６として後続音バス５７５にミックスすることができる。

図６のステップ６１７で、オーサリング・ツール６１０は、第１および第２のオーディオ・オブジェクトを符号化する。この例では、図４Ａおよび図４Ｂを参照すると、この符号化では、割り当てられた第１および第２のオーディオ要素４０５および４０６も含む図４Ａの列４２１のオブジェクト５および６と、第１および第２のオブジェクト位置（または軌道）のメタデータと、後続音メタデータ・フラグ４２６とを必要とする。オーサリング・ツールは、これらの項目を、レンダリング・ツール６２０に送信するために通信プロトコル６３１または配布パッケージ６３０中に符号化する。この符号化は、非圧縮状態で、図４Ａのユーザ・インタフェースに提示される情報に直接的に類似する表現を有していてもよいし、あるいは図４Ｂの例示的な表現のようにさらにコンパクトに表現することもできる。

図５Ａおよび図５Ｂの代替例を参照すると、ステップ６１７で、オーサリング・ツールは、割り当てられたオーディオ要素５０５および対応する位置（または軌道）のメタデータも含めて、図５Ａの列５２１の第１のオブジェクト４を符号化する。第２のオブジェクト（銃声３４１のエコーを含む）の符号化では、これは、ステップ６１６の判定（マーク５２６で示される）によって、列５２０のチャネル６および対応するオーディオ要素５０６がその構成要素となる、割り当てられたオーディオ要素５０６と、図５Ｂの後続音バス・オブジェクト５７５について規定された「周囲音」の定位とを含む。これにより、オーディオ要素５０６から導出（すなわちミキシング）された構成要素オーディオ要素５５６を含む、オーディオ要素５７６を有する後続音バス・オブジェクト５７５が生じる。この代替形態でも、オーサリング・ツールは、これらの項目を、レンダリング・ツール６２０に送信するために通信プロトコル６３１または配布パッケージ６３０中に符号化する。この符号化は、非圧縮状態で、図５Ａのユーザ・インタフェースに提示される情報に直接的に類似する表現を有していてもよいし（すなわち、後続音バス・オブジェクトに割り当てられた構成要素オーディオ要素が、またミキシングされていない場合）、あるいは図５Ｂの例示的な表現のようにさらにコンパクトに表現することもできる（すなわち、後続音バス・オブジェクトに割り当てられた構成要素オーディオ要素がミキシングされて複合オーディオ要素５７６を構成する場合）。

レンダリング・ツール６２０は、ステップ６２１の実行時に動作を開始し、このステップで、レンダリング・ツールは、通信プロトコル６３１または配布パッケージ６３０中の音声オブジェクトおよびメタデータを受信する。ステップ６２２で、レンダリング・ツールは、各音声オブジェクトを、映画の提示が行われる会場（例えば図１のミキシング・ステージ１００または図２の劇場２００）内の１つまたは複数のスピーカにマッピング（例えば「パン」）する。一実施形態では、このマッピングは、位置、２Ｄか３Ｄか、および音声オブジェクトが静止しているか経時変化するかを含むことができる、音声オブジェクトを記述するメタデータによって決まる。同じ実施形態、または異なる実施形態では、レンダリング・ツールは、規約または標準に基づいて所定の方法で特定の音声オブジェクトをマッピングする。同じ実施形態、または異なる実施形態では、このマッピングは、メタデータによって決まることもあるが、２Ｄ位置か３Ｄ位置かではなく、従来のスピーカのグループ分けに基づくこともある（例えば、メタデータは、無指向性の周囲音に割り当てられたスピーカ群、または「左側サラウンド」と指定されたスピーカ群の音声オブジェクトを示すこともできる）。マッピング・ステップ６２２で、レンダリング・ツールは、どのスピーカが、またどんな振幅で、対応するオーディオ要素を再現するかを決定する。

ステップ６２３で、レンダリング・ツールは、音声オブジェクトが後続音声を構成するかどうか（すなわち、音声オブジェクトが、後続音バスの場合のように後続音声であると予め決められているかどうか、またはそのように特定する例えば図４Ｂの４７６のようなタグを有するかどうか）を判定する。後続音声を構成する場合には、ステップ６２４で、レンダリング・ツールは、音声トラックの再現が行われている特定の会場（例えば図１のミキシング・ステージ１００または図２の劇場２００）についての所定の情報に基づいて遅延を決定する。会場が単一のワースト・ケース差分距離（例えばδｄ_Ｍまたはδｄ_Ｅ）で特徴付けられる実施形態では、レンダリング・ツールは、対応する遅延を、後続音声オブジェクトに関連付けられたオーディオ要素の再生に適用する。なお、これは、同じスピーカにマッピングされた、他のタグ付けされていない（非後続の）音声には影響を及ぼさないことに留意されたい。会場が、特定のスピーカまたはスピーカ群（例えば左壁のスピーカ）に対応するワースト・ケース差分距離によって特徴付けられる別の実施形態では、レンダリング・ツールは、対応するワースト・ケース差分距離に従って、その特定のスピーカにマッピングされた後続音声オブジェクトを遅延させる。

さらに別の実施形態では、会場は、会場内の各スピーカ（またはスピーカ群）の他のスピーカ（またはスピーカ群）に対するワースト・ケース差分距離によって特徴付けられる。例えば、ワースト・ケース差分距離は、図２の劇場２００の左壁のスピーカ群と右列の天井スピーカ２０４との間の距離に対応することがある。なお、このようなワースト・ケース差分距離は、必ずしも反射的であるとは限らないことに留意されたい。観客が劇場２００の右半分の天井スピーカ２０４を左壁の任意のスピーカ２０３よりできるだけ早く聞くことができる座席が、ワースト・ケース差分距離を生じる。しかし、その値は、観客が左壁のスピーカを右半分の天井スピーカよりできるだけ早く聞くことができる別の座席については、同じである必要はない。このような包括的な会場の特徴を利用するためには、後続音声オブジェクトのメタデータは、対応する先行音声オブジェクトの識別をさらに含んでいなければならない。この情報が利用可能であれば、レンダリング・ツールは、ステップ６２４で、対応する先行音にマッピングされたスピーカに対する後続音声にマッピングされたスピーカのワースト・ケース差分距離に基づいて、後続音声に遅延を適用することができる。

ステップ６２５で、レンダリング・ツールは、遅延していない非後続音声オブジェクトおよび後続音声オブジェクトを、ステップ６２４で適用された遅延に応じて処理して、任意の特定のスピーカを駆動するために生成された信号が、そのスピーカにマッピングされた音声オブジェクトの和（または加重和）を含むようにする。なお、連続的な範囲［０．０、１．０］を有することもあれば、離散値（例えば０．０または１．０）しか許容しないこともある利得の集合として、音声オブジェクトをスピーカの集合にマッピングすることについて論じている著者がいることに留意されたい。いくつかのパニング法は、この２つまたは３つのスピーカのそれぞれに関して非ゼロの、ただしフル利得（ｆｕｌｌｇａｉｎ）未満（すなわち０．０＜利得＜１．０）を適用することによって（これらの利得は等しくなくてもよい）、音声の見かけの音源を２つまたは３つのスピーカの間に配置しようと試みる。多くのパニング法は、他のスピーカの利得をゼロに設定するが、音声が拡散として受信される場合には、これは当てはまらないこともある。この没入型音声提示プロセスは、ステップ６２７の実行後に終了する。

図７は、図６のオーサリング部分６１０の間に使用することができる、通常はデータ・シーケンス７１０（信号またはファイルを含むこともある）として配列される、タイムライン７０１に沿ったピクチャのシーケンス７１１を含む動画の組成の例示的な一部分７００を示す図である。ほとんどのシステムでは、編集単位７０２は、フレーム１つ分の間隔に対応するので、この組成の他の全ての構成要素（例えばオーディオ、メタデータ、および本明細書では述べていない他の要素）の符号化は、編集単位７０２に対応する時間の長さ、例えば毎秒２４フレームの割合で流れるように意図されたピクチャを有する通常の動画の組成では１／２４秒に対応するチャンクで行われる。

この例では、シーケンス７１１中の個々のピクチャは、ＳＭＰＴＥ標準「３３６Ｍ−２００７ＤａｔａＥｎｃｏｄｉｎｇＰｒｏｔｏｃｏｌＵｓｉｎｇＫｅｙ−Ｌｅｎｇｔｈ−Ｖａｌｕｅ」に記載されるキー・レングス・バリュー（Ｋｅｙ−Ｌｅｎｇｔｈ−Ｖａｌｕｅ）（ＫＬＶ）プロトコルに従って符号化される。ＫＬＶは、多数の様々な種類のデータの符号化に適用可能であり、信号ストリームおよびファイルの両方を符号化することができる。「キー」フィールド７１２は、この標準では画像データを識別するために確保された固有識別子を構成する。フィールド７１２のものと異なる固有識別子は、後述のように、その他の種類のデータを識別する役に立つ。キーの直後に続く「長さ」フィールド７１３は、画像データの長さを記述し、画像データの長さは、ピクチャごとに同じでなくてもよい。「値」フィールド７１４は、１フレームの画像を表すデータを含む。タイムライン７０１に沿って連続するフレームは、それぞれ同じキー値で始まる。

この動画の組成の例示的な一部分７００は、この動画に対応するピクチャのシーケンス７１１に付随する没入型音声トラック・データ７２０をさらに含み、この没入型音声トラック・データ７２０は、ディジタル・オーディオ部分７３１および７４１と、それぞれに対応するメタデータ７３５および７４５とを含む。後続音声および非後続音声は両方とも、関連付けられたメタデータを有する。例えばデータ値７３０などの対データ値は、独立したチャネル（例えば図４Ａの列４２０のチャネル５）であるか統合されたチャネル（例えば図４Ｂの列４７０のチャネル４ｂ）であるかに関わらず、１つの音声チャネルの記憶された値を表す。対データ値７４０は、別の音声チャネルの記憶された値を表す。省略記号７３９は、図示していない他のオーディオとメタデータの対を示している。この没入型音声トラック・データ７２０も、タイムライン７０１に沿って位置し、データ７１０中のピクチャと同期している。オーディオ・データおよびメタデータは、編集単位のサイズのチャンクに分離される。７３０などの音声チャネル・データ対は、用途に応じて、ファイルとして記憶する、または信号として送信することができる。

この例では、オーディオ・データおよびメタデータのＫＬＶチャンクへの符号化は、別々に行われる。例えば、キー・フィールド７３２で始まる、対データ７３０中の、図４Ａのオブジェクト１に関連付けられたチャネル１に割り当てられたオーディオ要素は、キー・フィールド７１２とは異なる固有識別子を有する。これらのオーディオ要素は、画像を構成しないので、異なる識別子、すなわちオーディオ・データを識別するためにこの標準で確保されている識別子を有する。このオーディオ・データは、長さフィールド７３３およびオーディオ・データ値７３４も有する。この例では、編集単位の持続時間を１／２４秒とし、ディジタル・オーディオ・サンプリング・レートを毎秒４８０００サンプルとし、圧縮を行わないものと仮定すると、値フィールド７３４は、一定のサイズを有することになる。従って、長さフィールド７３３は、オーディオ・データ７３１の全体を通じて一定の値を有することになる。各メタデータ・チャンクは、キー・フィールド７３６で始まり、このキー・フィールドは、フィールド７３２および７１２とは異なる値を有する。（オーディオおよび画像データの場合とは異なり、適当な音声オブジェクト・メタデータ・キー・フィールド識別子を確保している標準化団体はない。）実施態様に応じて、メタデータ７３５中のメタデータ値フィールド７３８は、長さフィールド７３７にそれに応じて表される一貫したサイズまたは可変のサイズを有することができる。

図４Ａのオブジェクト１０に対応するオーディオ・データと音声オブジェクト・メタデータの対７４０は、図４Ａの列４２０のチャネル１０と１１の混合を含むオーディオ・データ７４１を含む。キー・フィールド７４２は、ともにオーディオを符号化するので、フィールド７３２と同じキー・フィールド識別子を使用することができる。長さフィールド７４３は、オーディオ・データ値７４４のサイズを指定し、この例では、オーディオ・データ値７４４は、長さフィールド７３３と同じサイズを有し、オーディオ・データ７４１の全体を通じて一定である。これは、その結果得られる音声オブジェクトは混合された２つのオーディオ要素５１０および５１１を含むが、オーディオのパラメータはオーディオ・データ７３１とオーディオ・データ７４１とで同じであるからである。キー・フィールド７４６中の識別子は、キー・フィールド７３７と同様に、メタデータ７４５を識別し、長さ７４７から、メタデータの全体を通じて一定であるか否かに関わらず、メタデータ値７４８のサイズが分かる。

図７では、編集単位７０２は、タイムライン７０１に沿った時間の単位を表す。編集単位７０２の境界を示す矢印の先から上に延びる点線は、データのサイズが等しいということではなく、時間的な整列を示している。（実際には、フィールド７１４中の画像データのサイズは、通常は、オーディオ・データ値７３４および７４４の集合体オーディオ・データを超え、この集合体オーディオ・データのサイズは、メタデータ値７３８および７４８中のメタデータを超えるが、これらは全て、実質的に同じ、実質的に同期した時間間隔を表している。）

組成の非圧縮表現は、個々の音声オブジェクトの容易な編集、およびボリュームの改変を可能にするはずであるので、オーサリング・プロセス６１０においてオーサリング・ツールなしで有用な役割を果たす。さらに、この組成の表現は、オーディオ効果の性質の残響用の改変（例えば銃声３４１のエコーの生成）、およびメタデータの改変（例えば特定の時点で新たな位置または軌道を与えるなど）なども可能にする。ただし、特に配布パッケージ６３０の形態でオーサリング・ツールからレンダリング・ツールに渡されるときには、図４Ｂおよび図５Ｂに示すコンパクト化された表現が示唆するように、オーディオ・オブジェクト・データセット７２０中に提供されるデータの異なる配列が有用であることもある。

図７は、各アセット（ピクチャ、音声、対応するメタデータ）が別々の表現されたデータの配列であり、メタデータは、オーディオ・データから分離されており、各オーディオ・オブジェクトは分離した状態に保たれている、これは、説明および議論を分かりやすくするために選択したものであり、編集ユニットごとにインタリーブされるオーディオ・チャネルのそれぞれについてデータを有する１つのアセットとして音声トラックを表現する方がより典型的である、例えば８チャネル（左、右、中央、低周波数効果、左サラウンド、右サラウンド、聴覚障害者用、および説明ナレーション）を有するものなど、音声トラックについて従来技術で一般に行われているものとは対照的である。このより一般的なインタリーブ配列に慣れている人は、インタリーブされた各チャネルの編集単位のオーディオ・データをそれぞれ含むチャンクのシーケンスを１つのオーディオ・トラックが含むような代替の実施形態を提供するには、図７の表現をどのように修正すればよいか理解するであろう。同様に、１つのメタデータ・トラックが、やはりインタリーブされた各チャネルごとに編集単位のメタデータをそれぞれ含む複数のチャンクを含む。図７には示していないが、当技術分野では十分に理解されているのは、個々のアセット・トラック・ファイル（例えば７１１、７３１、７３５、７４１、７４５など。図７のように離散的か、上述のようにインタリーブされるかは問わない）を識別し、（例えば各アセット・トラック・ファイルで使用される最初の編集単位を識別することによって）それらの相対的な関連付けおよび相対的な同期を指定するために配布パッケージ６３０で使用されるコンポジション・プレイリスト（ｃｏｍｐｏｓｉｔｉｏｎｐｌａｙｌｉｓｔ）（ＣＰＬ）ファイルである。

図８は、例示的な組成についての没入型オーディオ・トラックを表す、ここでは上映劇場への配布に適した単一の没入型オーディオ音声トラック・データ・ファイル８２０として与えられるオーディオ・オブジェクトを表すデータの別の代替の実施形態を示す図である。この実施形態では、没入型オーディオ音声トラック・データ・ファイル８２０のフォーマットは、ここでは没入型オーディオ音声トラック・データに新たに適用されるＳＭＰＴＥ標準「３７７−１−２００９ＭａｔｅｒｉａｌＥｘｃｈａｎｇｅＦｏｒｍａｔ（ＭＸＦ）−ＦｉｌｅＦｏｒｍａｔＳｐｅｃｉｆｉｃａｔｉｏｎ」に準拠する。劇場で再生するためには、没入型音声トラックのレンダリングは、編集単位ごとにエッセンス（ｅｓｓｅｎｃｅ）（オーディオおよびメタデータ）をインタリーブしなければならない。これにより、ファイルの単一のデータ・ストリームが、例えばシステムが図７の多くの分離したデータ要素の間でスキップすることを必要とするのではなく、全ての必要な情報を必要な順序で表現するので、レンダリング・プロセス６２０の詳細な実施態様が大幅に効率化される。

没入型音声トラック・ファイル８２０の作製は、最初にステップ８０１で最初の編集単位７０２中の各音声オブジェクトの全てのメタデータを収集することによって進行することができる。なお、ファイル８２０で使用される編集単位７０２は、図７で使用したのと同じ編集単位であることに留意されたい。最初の編集ユニット７０２中の全ての音声オブジェクト・データ（メタデータおよびオーディオ要素）のラッピングでは、音声オブジェクト・メタデータの集合（例えばアレイ）が提示されることを示す新たなキー・フィールド識別子８０３を有する新たなＫＬＶチャンク８０４が組み立てられ、チャンク８０４の値部分は、最初の編集単位の各オブジェクト（例えばオブジェクト１〜オブジェクト１０）の複数の同じ大きさの値部分（例えばメタデータ値７３８および７４８）からなる。この全オブジェクト・メタデータ要素８０４は、各音声オブジェクトに対応するオーディオ・チャネル・データより先行し、ステップ８０５で最初の編集ユニット中のディジタル・オーディオ・データ・チャンクを完全にコピーしたＫＬＶチャンクの形態をとる。従って、キー・フィールド７３２は、そのオーディオ・データ値７３４を有する最初に見えるキー・フィールドとなり、そのオーディオ・データ値７４４を有するキー・フィールド７４２は、最後に見えるフィールドとなる。

この実施形態では、全オブジェクト・メタデータ要素８０４中の長さを使用して、提示される個々のオーディオ・チャネル要素（例えば８０５）の数を予測することができ、代替の実施形態では、このチャネルの数は、経時変化できることもある。この代替の場合では、特定の編集単位のオブジェクトと関連付けられたオーディオがない（例えば、図４Ａでは、タイムライン４２４の最初からオーディオ要素４０８および４０９の最初までに列４２１のオーディオ・オブジェクト３から１０のうちの何れかと関連付けられたオーディオがない）とオーサリング・ツール６１０が判定すると、オブジェクトが関連付けられたオーディオ要素を有さない各編集単位のそのようなオブジェクトのそれぞれについて、何れにしても静寂の表現しか含まないので、そのオブジェクト（例えばオブジェクト１０）のメタデータを、全オブジェクト・メタデータ要素８０４から省略し、対応する各オブジェクト・オーディオ要素も同様に省略することができる。非常に複雑なシーンの相当数の独立した音声オブジェクト（例えば１２８個のオブジェクト）を送出することができることもある没入型オーディオ・システムでは、より代表的なシーンは、１０個未満の同時の音声オブジェクトを有することもあり、これは、普通なら、静寂を表現するパディングのチャネルを少なくとも１１８個必要とし、メモリの浪費につながるものである。このような間隔におけるこれらのオブジェクトを省略することで、配布パッケージ６３０のサイズを大幅に減少させる経済性を実現する。さらに別の代替の実施形態では、全オブジェクト・メタデータ要素８０４は、可能な限り最大数のメタデータ要素を常に含むことができ、従って、一定のサイズを維持することができるが、各オブジェクト（例えば７３８）のメタデータは、そのオブジェクトが静寂になっており、従って現在の編集単位中に対応する各オブジェクト・オーディオ要素（例えば８０５）を有していないか否かを示す指示（図示せず）をさらに含むこともある。メタデータは対応するオーディオ・データより遥に小さいので、このさらに別の代替の表現でも、大幅な節約が得られ、いくつかの点で、その結果得られる没入型オーディオ・トラック・ファイルの構文解析に必要な処理を簡略化することができる。

８０２の展開図に示すように完全にポピュレートされるかどうかに関わらず、あるいは上述のように任意のメタデータおよび／またはオーディオ要素が静寂であるとして省略されているかどうかに関わらず、最初の編集単位７０２に対応するラッピングされたメタデータおよびオーディオ・データは、エッセンス・コンテナ８１０に、よりコンパクトな複合チャンク８０２として示される。いくつかの実施形態では、例えばチャンク８０２の先頭に追加のキーおよび長さを設けることにより、さらに別のＫＬＶラッピング・レイヤ（図示せず）を設けることができ、このキーは、マルチ・オーディオ・オブジェクト・チャンクの識別子に対応し、長さは、この編集単位中に存在する全ての各オブジェクト・オーディオ要素８０５のサイズと一体化された全オブジェクト・メタデータ要素８０４のサイズを表す。連続する各編集単位の没入型オーディオも、編集単位Ｎによってパッケージ化される。ＭＸＦ標準、およびディジタル映画オーディオ配布の慣例によれば、ＭＸＦファイル８２０は、ＭＸＦファイル８２０の種類および構造を示す記述子８２２を含み、ファイル・フッタ８２２において、コンテナ８１０内の各編集単位のエッセンスのオフセットを提示するインデックス・テーブル８２３を提供する。すなわち、コンテナに表される連続した各編集単位７０２のキー・フィールドの最初のバイトのエッセンス・コンテナ８１０へのオフセットが存在する。このようにして、再生システムは、チャンク（例えば８０２）のサイズが編集単位ごとに変化する場合でも、映画の任意の所与のフレームについて、より容易且つ迅速に正しいメタデータおよびオーディオ・データにアクセスすることができる。各編集単位の開始時に全オブジェクト・メタデータ要素８０４を提供することにより、それを、直ちに入手可能であり、オーディオ・データ（例えばチャンク８０５中のもの）がレンダリングされる前に様々なパニングおよびその他のアルゴリズムを構成するために使用することができる音声オブジェクト・メタデータにすることができるという利点が得られる。これにより、音声定位処理で何が必要になっても、ベスト・ケース・セットアップ時間が可能になる。

図９は、１つの編集単位（例えば１／２４秒）またはそれより長い持続時間を含むことがある、ある時間間隔の間の音声オブジェクトについての、図１のミキシング・ステージ１００内の例示的な軌道９１０（位置のシーケンス）を示す、図１のミキシング・ステージ１００の簡略化したフロア平面図９００を示す図である。軌道９１０に沿った瞬間位置は、１つまたは複数の異なる方法のうちの１つに従って決定することができる。このミキシング・ステージ１００の簡略化フロア平面図９００では、分かりやすくするために、多くの細部が省略されている。サウンド・エンジニアは、ミキシング・コンソール１２０を操作する間、座席１１０に座っている。提示中の特定の関心のある間隔の間、音声オブジェクトは、軌道９１０に沿って進行することが望ましい。従って、音声は、間隔の開始時の位置９０１（方位９３０沿い）で開始され、間隔の真ん中で位置９０２を通過し、その後間隔が終了するときに位置９０３（方位９３１沿い）に出現するものとする。軌道９１０の拡大図では、この音声オブジェクトの進行がさらに詳細に分かる。図９に示す中間位置９１１〜９１６と、位置９０１〜９０３とは、この間隔の全体を通じて一様な間隔で決定された瞬間位置を表している。一実施形態では、中間位置９１１〜９１６は、点９０１と９０２の間、および点９０２と９０３の間の、直線補間として現れる。さらに洗練された補間であれば、さらに滑らかに軌道９１０に従うことができるが、それほど洗練されていないものでも、位置９０１から直接位置９０３までの直線補間９２０を実行することができる。さらに洗練された補間では、さらに高次の平滑化を行うために、次の間隔および前の間隔における間隔の真ん中の位置（それぞれ位置９０７および９０５）を考慮することもある。このような表現は、ある時間間隔にわたる位置メタデータの経済的な表現を提供するが、それでも、それらを使用するための計算コストはそれほどではない。このような中間位置９１１〜９１６の計算は、オーディオのサンプリング・レートで行うことができ、その後に、オーディオ・マッピングのパラメータの調整（ステップ６２２）、およびそれに従ったオーディオの処理（ステップ６２５）を行うことができる。

図１０は、編集単位を含むことができる１つの間隔の間の１つの音声オブジェクトの位置および後続音メタデータを担持するのに適した音声オブジェクト・メタデータ構造１０００を示す図である。従って、１つの編集単位の間隔の持続時間を固定すると、データ構造１０００の内容は、７３８および７４８などの音声オブジェクト・メタデータ値を表す音ができる。図９の軌道９１０に従うように規定された音声オブジェクトについては、位置Ａは、位置データ１００１によって、この例では方位角、仰角、および距離｛θ，φ，ｒ｝を含む上記の表現ｃ_３Ｄを用いて記述される。図９では、この規約は、考慮している会場について、単位距離は、会場の中央から（例えば座席１１０から）スクリーン（例えば１０１）までの距離に対応すると想定している。見かけの距離を使用して、距離効果を導入することもできる（より遠いと考えられる音声を、より近いと考えられる音声より小さくしたり、またはかなり遠く離れている音声について高周波数を自動的に減衰させたりすることができる）が、これは厳密には必要ではない。この例では、この編集単位について、位置Ａは、位置９０１に対応し、位置データ１００２によって記述される位置Ｂは、位置９０２に対応し、位置データ１００３によって記述される位置Ｃは、位置９０３に対応する。平滑化モード選択子１００４は、（ａ）静止位置（例えば音声が全体を通じて位置Ａに現れる）、（ｂ）２点線形補間（例えば音声が軌道９２０に沿って遷移する）、（ｃ）３点線形補間（例えば点９０１、９１１〜９１３、９０２、９１４〜９１６、９０３を含む）、（ｄ）平滑化された軌道（例えば軌道９１０沿い）、または（ｅ）さらに平滑化された軌道（例えば、平滑化の際に、次の間隔の始点９０６および真ん中の点９０７と同様に、前の間隔のメタデータの真ん中の点９０５および終点９０４を考慮する）から選択することができる。

補間モード（すなわち平滑化モード選択子１００４）は、時間とともに変化することができる。例えば、図４Ｂのオブジェクト３ｂでは、平滑化モードは、オーディオ要素４５３の間隔の全体を通じて滑らかにして、観客が車のエンジン音３２２を彼らの背後に知覚するようにすることもできる。しかし、オーディオ要素４５４の開始位置からの移行は、（ブレーキ音３２５の）オーディオ・オブジェクト４５４の持続時間の全体を通じて滑らかになる前に、不連続になることもある。さらに、異なるレンダリング機器では、補間（平滑化）モードが異なることもある。例えば、線形補間９２０は、軌道９１０に沿った滑らかな補間より簡潔である。従って、本発明の原理の実施形態では、滑らかな補間を提供する機能によって少ない数のチャネルを扱うより、より単純な補間でより多くのチャネルを扱うこともできる。

図１０の音声オブジェクト・メタデータ構造１０００は、図６のステップ６２３で試験される後続音フラグ１００５をさらに含む。後続音フラグ１００５は、オーディオ要素（例えばオーディオ要素４５９）の再生を通じて同じ値を有するが、その後に非後続音のオーディオ要素（例えば、オーディオ要素４５５および４５６がチャネルを交換する図４Ｂへの修正を仮定した場合には、オーディオ要素４５５）が続く場合には、状態を変化させることもある。

音声オブジェクト・メタデータ構造１０００には示していないが、上述したいくつかの実施形態では、構造１０００は、対応する音声オブジェクトが、現在８０５のようなオーディオ要素を有しておらず、従って静寂であることを示すフラグをさらに含むことになる。これにより、その結果得られるアセット・ファイル８２０はかなりの程度コンパクト化することができる。別の実施形態では、構造１０００は、対応するオブジェクト（例えばオブジェクト１）の識別子をさらに含み、普通なら静寂になるオーディオ要素を省略するだけでなく、静寂のオブジェクトをメタデータから省略することができるようにして、さらなるコンパクト化を可能にしながら、ステップ６２２のオブジェクト・マッピングおよびステップ６２５のオーディオ処理に十分な情報を提供するようにする。

以上、映画の上映中にオーディオを提示するための技術、さらに詳細には、観客が後続オーディオ音声より先に先行オーディオ音声を聞くように、観客席内の音声再現デバイスからの距離に応じて、後続オーディオ音声を先行オーディオ音声に対して相対的に遅延させる技術について説明した。

Claims

オーディオ・プログラムのオーディオ音声を会場内で再生する方法であって、
どの音声が先行音で、どの音声が後続音であるかを判定するために、前記オーディオ・プログラムのオーディオ音声を検査するステップと、
前記先行音および後続音のオーディオ音声を再生するステップであって、観客が後続音のオーディオ音声より先に先行音のオーディオ音声を聞くように、前記会場内の音声再生デバイスからの距離に従って、前記後続音のオーディオ音声を前記先行音のオーディオ音声に対して遅延させる、前記ステップと、
を含む、前記方法。
前記オーディオ音声を検査するステップが、前記音声が先行音であるか後続音であるかを識別する、前記オーディオ音声に付随するメタデータを検査するステップを含む、請求項１に記載の方法。
前記オーディオ音声を検査するステップが、別の音声との所定の関係に基づいて、オーディオ音声を後続音として自動的に指定するステップを含む、請求項１に記載の方法。
前記再生するステップが、前記先行音声および後続音声を異なるオーディオ再生デバイスにマッピングするステップを含む、請求項１に記載の方法。
前記マッピングするステップが、前記先行音声および後続音声のうちの少なくとも１つが前記メタデータに従って前記会場に対して進む軌道を定めるステップを含む、請求項４に記載の方法。
各オーディオ再生デバイスを、そのオーディオ再現デバイスにマッピングされた全ての音声の和に従って生成された信号によって駆動するステップをさらに含む、請求項４に記載の方法。
各音声の軌道を定める前記ステップが、少なくともデカルト座標および極座標のうちの１つにおける方向を決定するステップを含む、請求項５に記載の方法。
没入型音声トラックを会場内で映画と関連付けて再生するようにオーサリングする方法であって、
前記没入型音声トラックに含める音声を収集するステップと、
音声が先行音および後続音であることを識別する、前記収集した音声のメタデータを生成するステップと、
前記音声および関連付けられたメタデータを、それらの音声が再生される時に応じて複数の単位中に時間順に配列するステップとを含む、方法。
前記メタデータが手動で作成される、請求項８に記載の方法。
前記メタデータが、どの音声が後続音であるかを具体的に指定することによって手動で作成される、請求項９に記載の方法。
前記メタデータが、オーディオ音声間の所定の関係に従って自動的に作成される、請求項８に記載の方法。
前記メタデータが、音声が前記会場内を進む軌道を定める情報を含む、請求項８に記載の方法。
前記軌道を定める前記情報が、少なくともデカルト座標および極座標のうちの１つにおける方向を含む、請求項１２に記載の方法。
前記配列された音声およびメタデータを、通信プロトコルまたは配布パッケージのうちの１つに符号化するステップをさらに含む、請求項８に記載の方法。
前記オーディオ音声を検査するステップが、メタデータ中に指定されている別の音声との関係に基づいてオーディオ音声が後続音であると自動的に指定するステップを含む、請求項１に記載の方法。
前記判定するステップの結果として、どの音声が先行音で、どの音声が後続音であるかを示す、前記音声と関連付けられたメタデータを生成するステップをさらに含む、請求項１に記載の方法。
前記オーディオ音声を検査するステップが、別の音声との所定の関係に基づいて、オーディオ音声を後続音であると自動的に指定するステップを含む、請求項１６に記載の方法。
前記オーディオ音声を検査するステップが、オーサリング・ツールのユーザ・インタフェースを介して、どのオーディオ音声が後続音のオーディオ音声であるかに関するユーザからの指示を受け取るステップを含む、請求項１６に記載の方法。