JP2016518067A - 没入型オーディオの残響音場を管理する方法 - Google Patents

没入型オーディオの残響音場を管理する方法 Download PDF

Info

Publication number
JP2016518067A
JP2016518067A JP2016506304A JP2016506304A JP2016518067A JP 2016518067 A JP2016518067 A JP 2016518067A JP 2016506304 A JP2016506304 A JP 2016506304A JP 2016506304 A JP2016506304 A JP 2016506304A JP 2016518067 A JP2016518067 A JP 2016518067A
Authority
JP
Japan
Prior art keywords
audio
sound
subsequent
metadata
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016506304A
Other languages
English (en)
Inventor
ギブンス レツドマン,ウイリアム
ギブンス レツドマン,ウイリアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2016518067A publication Critical patent/JP2016518067A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/05Application of the precedence or Haas effect, i.e. the effect of first wavefront, in order to improve sound-source localisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

オーディオ・プログラムのオーディオ音声を観客席で再生する方法は、どの音声が先行音で、どの音声が後続音であるか(例えば銃声とその跳弾など)を判定するために、オーディオ・プログラムのオーディオ音声を検査することから始まる。先行音のオーディオ音声および後続音のオーディオ音声は、観客席の音声再生デバイスによって再生され、観客が後続音のオーディオ音声より先に先行音のオーディオ音声を聞くように、後続音のオーディオ音声は、観客席の音声再生デバイスからの距離に従って、先行音のオーディオ音声に対して遅延される。

Description

関連出願の相互参照
本願は、2013年4月5日出願の米国仮特許出願第61/808709号の米国特許法第119条(e)による優先権を主張するものであり、その教示内容は本明細書に組み込まれるものである。
本発明は、映画の上映中にオーディオを提示する技術に関する。
映画フィルムの音声トラックをミキシングおよび編集するとき、これらの作業を行うサウンド・エンジニアは、後にその映画を見ることになる観客にとって楽しい環境を創出したいと思う。多くの場合には、サウンド・エンジニアは、映画の環境の中に没入しているように観客に感じさせる音声アレイを提示することによって、この目的を効果的に達成することができる。没入型音声環境では、第1の音声が第2の音声と緊密な意味関係を有し、両者が例えば約100ミリ秒などの時間内に順番に出現しなければならないようなシナリオは、大きく分けて2つ存在する。第1に、個々のオーディオ要素が、時間的に互いに特定の配列を有することがある(例えば、銃声の直後に跳弾の音が続くなど)。これらの音声は、空間的には離散的な位置をとる可能性がしばしばある(例えば、カウボーイからの銃声は、左側で発生したように感じ、それに続く跳弾は、右側にいる蛇の近くで発生したように感じるなど)。この効果は、これらの音声を異なるスピーカに向けることによって生じさせることができる。このような状況では、銃声は、跳弾より先である。従って、銃声は「先行音」となり、跳弾は「後続音」となる。
緊密な音声関係の第2の例は、ダビング中(すなわち後日に会話をレコーディングし直す場合)やフォーリー効果の作成中など、映画のセット以外の場所で音声製作が行われる場合に生じる可能性がある。このようにして作製された音声が、描写されているシーンの中で生じていないのではないかと観客が疑わないようにするだけの十分な説得力を持って聞こえるようにするために、サウンド・エンジニアは、一般に、反響(例えばエコー)および/または残響を追加することによって、このような音声を強調することになる。現場でレコーディングされた音声は、実際の状況に存在する残響を含む可能性がある。スタジオでレコーディングされた音声が映画セットでレコーディングされた音声と調和するためには、その音声が完全に異なる音源から出ているという現実ではなく、シーン内で発生しているのだということを、微妙に、場合によっては意識下でほのめかすために、このような強調が必要になる。多くの場合には、この強調がなければ、その音声の特徴自体が、その音が人工のものであることを観客に気付かせ、体験を損なう可能性がある。その性質上、反響/エコー/残響は、先行音声に対応する後続音声となる。
音声トラックの作製中に、サウンド・エンジニアは、ミキシング・ステージの中央のコンソールのところに座り、個々の音声(本明細書では「先行音」および「後続音」とそれぞれ呼ぶこともある、先行音声および後続音声の両方を含む)を時間的に配列する役割を担当する。さらに、サウンド・エンジニアは、例えば銃声をスクリーンのところにあるスピーカにパンし、跳弾を部屋の後方にあるスピーカにパンするなど、望ましい場合には音声を空間中で配列する役割も担当する。しかし、緊密な意味関係を有する2つの音声が異なるスピーカで再生されるときに、問題が生じる可能性がある。サウンド・エンジニアが作製する音声トラックは、標準的な映画劇場の構成を前提としている。しかし、その音声トラックは、後に映画フィルム(ディジタル配信の場合を含む)に取り込まれたときに、様々な大きさの多数の劇場に配布されることになる。
ほとんどの場合には、ほとんどの観客は、サウンド・エンジニアと同様に、劇場の中央付近に座る。簡素化のために、サウンド・エンジニアが、音声トラックを制作する間、スクリーンと部屋の後方のスピーカとの間の、サウンド・エンジニアにとってスクリーンのところの先行音の銃声が先に聞こえ、その後、約20ミリ秒後にミキシング・ステージの後方から後続音の跳弾音が聞こえる場所に座るという例を考慮する。これを、サウンド・エンジニアが座っていた劇場の中央より1列後方に座っている観客の体験と比較する。大まかな近似では、音声は、約1フィート/ミリ秒で進むので、座る位置が一列後方になるにつれて(一列あたり約3フィート)、観客には、スクリーンからの音声が聞こえるのが3ミリ秒遅くなり、部屋の後方からの音声が聞こえるのは3ミリ秒早くなる。従って、劇場の中央より一列だけ後方に座っている観客は、後方のスピーカにより近く、前方のスピーカからより離れているので、先行音との相対的な関係において、後続音が約6ミリ秒早く聞こえることになる。観客が5列後方に座っていたら、その観客の座席位置では、先行音声と後続音声との間に30ミリ秒の差分遅延が生じ、これは、その位置に座っている観客には銃声より10ミリ秒も早く跳弾が聞こえるほどになる。
「ハース効果」と呼ばれる音響心理学の原理によれば、同じ音声または類似の音声が複数の音源から生じたとき(1つの音声の全く同じ2つのコピー、または例えば先行音およびその後続音の残響)、聞いている人間に最初に聞こえる音声が、その音声の知覚される方向を確立する。この効果により、サウンド・エンジニアが意図した先行音声の空間的配置は、後続音声を送り出すスピーカの付近に座っている観客については、かなり乱されてしまう可能性もある。ハース効果により、一部の観客は、先行音声の音源を後続音声の音源として知覚する可能性がある。一般に、サウンド・エンジニアは、劇場の座席変更を十分に考慮する機会がない。サウンド・エンジニアがミキシング・ステージの周りを動き回って、様々な位置で音声トラックを聞く時間をとることができることはまれである。さらに、サウンド・エンジニアがそのようなことを行った場合には、ミキシング・ステージは、それより大きい劇場、または最も代表的な大きさの劇場を表現するものではなくなってしまう。従って、サウンド・エンジニアによる先行音声の空間的配置は、ミキシング・ステージ内の全ての座席について正しく対応していないこともあり、また、それより大きな劇場の全ての座席にも対応していないことがある。
大規模な劇場公開用の現代のサラウンド・サウンド・システム(特定の会場用の実験的な専用ミキサではないもの)が最初に登場したのは1970年代の後半で、スクリーンのところに複数のスピーカを配置し、劇場の後方にサラウンド・スピーカを配置していた。このようなサウンド・システムでは、「観客席の前から後ろまでの音声経路長の75%」というのが、後方スピーカの遅延線の推奨標準となった(1978年10月10日出願のAllanによる英国特許第2006583号)。さらに最近の構成については、この勧告は、さらに詳細になっている。サラウンド・スピーカ用のプログラムは、最後方の隅の座席までの最短サラウンド音声経路長とその座席から最も遠いスクリーン・スピーカまでの音声経路長との間の差に対応する時間の長さ以上の遅延がなければならない。
このようにサラウンド・チャネルを特定の量だけ遅延させるという方法は、サラウンド・チャネル(「サラウンド」とも呼ばれる)の後続音声に対するスクリーン・スピーカ・チャネル(「メイン」とも呼ばれる)の先行音声のハース効果に対処するものである。(あるいは、音声トラックのタイムラインにおいて後続音声を先行音声より後に配置することも、サラウンドで再生される後続音声によって、サラウンドの付近に座っている観客が、対応する先行音声が劇場の側方または後方から発生したと知覚してしまうリスクを軽減する助けになるが、このような方法では、劇場の構成について特定の想定をしなければならず、所与のオフセットでは、特定のサイズの劇場までしかうまくいかない)。残念ながら、サラウンド・チャネルへのオーディオを遅延させる方法は、メインから発生するもの以外の先行音声、またはサラウンド以外の後続音声についてはうまくいかない。
2013年1月10日に出願され、Dolby Laboratories Licensing Corporationに譲渡された、「System and Tools for Enhanced 3D Audio Authoring and Rendering」と題する、Tsingos他による国際特許出願第WO2013/006330号は、Dolby Laboratoriesによって販売されている「Atmos」オーディオ・システムの基礎を教示しているが、先行音声および後続音声の音源を観客に誤って知覚させてしまうという前述の問題には対処していない。ドイツのエアフルトのIOSONO社は、他の企業とともに、密なスピーカのアレイが観客を取り囲み、各音声ごとに、その音声の伝搬をサポートする面を有する複数のスピーカが、それぞれその音声を表すオーディオ信号の正確なコピーを再現する、波面合成パラダイムを促進している。各スピーカは、一般に、ホイヘンスの原理に基づいて計算されたわずかに異なる遅延を有し、各スピーカは、そのスピーカが複数のスピーカのうちの最も遠いスピーカと比べてどれくらい音声の仮想位置に近いかに基づく位相遅延を有するオーディオ信号を発出する。これらの遅延は、一般に、音声の位置ごとに変化する。波面合成パラダイムは、このようなスピーカの挙動を必要とするが、1つの音声の位置しか考慮しておらず、このようなシステムで、先行音/後続音の関係を有する2つの異なる音声を扱うのは容易ではない。
オーディオ・プログラムでは、2つの音声が、例えば銃声と跳弾、あるいは直接音声(最初に到着する)と残響音場(最初の反射を含む)など、先行音と後続音としての関係を有することがある。簡単に言うと、本発明の原理の好ましい態様によれば、オーディオ・プログラムのオーディオ音声を観客席で再生する方法は、どの音声が先行音で、どの音声が後続音であるかを判定するために、オーディオ・プログラムのオーディオ音声を検査することから始まる。先行音のオーディオ音声および後続音のオーディオ音声は、劇場内の音声再生デバイスによって再生され、観客が後続音のオーディオ音声より先に先行音のオーディオ音声を聞くように、後続音のオーディオ音声は、観客席内の音声再生デバイスからの距離に従って、先行音のオーディオ音声に対して遅延される。
没入型音声トラックの準備およびミキシングが行われるミキシング・ステージのスピーカの配置を含む例示的なフロア平面図である。 没入型音声トラックが映画の上映と関連付けて再生される映画館のスピーカの配置を含む例示的なフロア平面図である。 没入型音声トラックのレンダリングに関連するカメラの配置を含む映画のセットの想像上のシナリオを示す図である。 没入型音声トラックのミキシングに関連して後続音声を独立オブジェクトとして管理する音声トラック・オーサリング・ツールの例示的なユーザ・インタフェースの一部分を示す図である。 図4Aで管理される音声の例示的なコンパクト化された表現を示す図である。 没入型音声トラックのミキシングに関連して後続音声を1つまたは複数の集合チャネルとして管理する音声トラック・オーサリング・ツールの例示的なユーザ・インタフェースの一部分を示す図である。 図5Aで管理される音声の例示的なコンパクト化された表現を示す図である。 没入型音声トラックのオーサリングおよびレンダリングを行いながら後続音声を管理する例示的なプロセスを流れ図の形態で示す図である。 後続音声を記述するメタデータを含む、ピクチャおよび没入型音声トラックを有する映画の組成を記憶する1組の複数のデータ・ファイルの例示的な一部分を示す図である。 劇場への引き渡しに適した没入型オーディオ・トラックを表す単一のデータ・ファイルの例示的な一部分を示す図である。 単一のフレームの間の音声オブジェクトの例示的なシーケンスを示す図である。 図9の音声オブジェクトの位置のエントリを含むメタデータであって、これらのエントリを補間し、後続音声オブジェクトにフラグ付けするメタデータの表を示す図である。
図1は、映画のポストプロダクションに関連して没入型音声トラックのミキシングを行うタイプのミキシング・ステージ100を示す図である。ミキシング・ステージ100は、サウンド・エンジニアがオーディオ・コンソール120において没入型オーディオをミキシングする間に映画を表示するための投影スクリーン101を含む。複数のスピーカ(例えばスピーカ102)が、投影スクリーン101の背後に存在し、追加の複数のスピーカ(例えばスピーカ103)が、ミキシング・ステージの周りの様々な位置に存在する。さらに、1つまたは複数のスピーカ(例えばスピーカ104)が、ミキシング・ステージ100の天井にも存在することがある。
サウンド・エンジニアなどの人員は、主として両開きドア112を通してミキシング・ステージ100に出入りする。ミキシング・ステージ100への第2の両開きドア113は、通常は非常出口となる追加の出入り口となる。ミキシング・ステージ100は、例えば座席110、111、および130を含む座席列などの座席列の形態をした座席を含み、これにより、人が座席に座ってスクリーン101を見ることができる。通常は、1台または複数台の車椅子(図示せず)を収容するために、座席間に隙間が存在する。
ミキシング・ステージ100は、典型的な映画館とほぼ同じレイアウトを有するが、例外として、座席列110またはその付近に座った1人または複数人のサウンド・エンジニアがオーディオ音声シーケンシングおよびミキシングを行って映画の没入型音声トラックを作製することを可能にするミキシング・コンソール120がある。ミキシング・ステージ100は、例えば座席130など、最も遠いスピーカ132までの距離d1Mと最も近いスピーカ131までの距離d2Mとの間のワースト・ケースの差が最大値となるように位置決めされた少なくとも1つの座席を含む。必ずそうなるというわけではないが、通常は、ワースト・ケースの距離の差を有する座席は、ミキシング・ステージ100の最後方の隅に位置する。横方向に対称であるので、もう一方の最後方の隅の座席も、最も遠いスピーカと最も近いスピーカとの間のワースト・ケースの差が最大となることが多い。以下ではミキシング・ステージ100の「差分距離」(δd)と呼ぶ、このワースト・ケースの差は、δd=d1M−d2Mという数式で与えられる。差分距離δdは、スピーカの位置および座席配置など、特定のミキシング・ステージの幾何学的形状によって決まる。
図2は、観客に映画を上映するように設計されたタイプの劇場200(例えば上映観客席または会場)を示す図である。図2に示す劇場200は、図1のミキシング・ステージ100と共通する特徴を多数有する。従って、劇場200は、投影スクリーン201と、スクリーン201の背後の複数のスピーカ(例えばスピーカ202)と、部屋の周囲の複数のスピーカ(例えばスピーカ203)と、天井のスピーカ(例えばスピーカ204)とを有する。劇場200は、1つまたは複数の主要入口212と、1つまたは複数の非常出口213とを有する。映画ファンを収容するために、劇場は、例えば座席210、211、および230など、多くの座席を有する。座席210は、劇場の中央付近に位置する。
図2の劇場200の幾何学的形状およびスピーカ・レイアウトは、通常は、図1のミキシング・ステージ100のものとは異なる。この点で、劇場200は、通常は、数式δd=(d1E−d2E)で与えられる異なる差分距離δdを有する。ここで、d1Eは、座席230からスピーカ232までの距離であり、d2Eは、座席230からスピーカ231までの距離である。座席230の左側の座席の方が、わずかではあるがスピーカ232からさらに遠くに位置しているが、この座席は、スピーカ231からも離れて位置している。従って、図2に示す構成を有する劇場200では、座席230が、ワースト・ケース差分距離(この例では、この距離は、横方向反対側の対称位置を有する後部列座席でもほぼ再現される)を有する。
ミキシング・ステージ100および劇場200のそれぞれの中のスピーカの数、ならびにそれらの配列および間隔は、多くの可能な例のうちの2つの表したものである。ただし、このスピーカの数、ならびにそれらの配列および間隔は、本発明の原理に従って先行オーディオ音声および後続オーディオ音声を再現する際に重要な役割を果たさない。一般に、スピーカの数をこれより増やし、スピーカの間の間隔をさらに一様にし、狭くすれば、没入型オーディオ環境をさらに良好にすることができる。異なる拡散性を有する異なるパニング法(panning formula)は、位置および明瞭性の印象を変化させる役に立つことがある。
図1を参照すると、座席130までの距離を考慮しなければ、ミキシング・ステージ100内で座席110に座って作業をしているサウンド・エンジニアは、再生したときに、多くの場合に、劇場200内の座席210またはその付近の別の座席に座って聞いている人にはほぼ同じように、且つ満足できるように聞こえる没入型音声トラックを製作することができる。かなりの程度まで、ミキシング・ステージ100の中央に位置する座席110は、ミキシング・ステージ内の対向するスピーカからほぼ同じ距離に位置し、同様に、図2の劇場200内の中央に位置する座席210とその会場内の対向するスピーカとの間の距離も、ほぼ対照的であるので、このような結果になる。しかし、前から後ろまでの長さと横方向の幅との間の比が異なる劇場では、中央の座席110と120でも、先行音声および後続音声に関して言えば、パフォーマンスに差が出る可能性がある。
図1のミキシング・ステージ100および図2の劇場200における中央に位置する座席(例えば、それぞれ座席110および210)は、任意の2つのスピーカの間の差分距離が、それぞれワースト・ケースの座席130および230より小さい。その結果として、スピーカ間遅延は、中央に位置する座席に座って聞いている人が経験するものはかなり小さくなるようであるが、座席が中央位置から離れるほど悪化する。ミキシング・ステージ100および劇場200の両方において座席の列の間の距離が約36インチであると仮定すると、差分距離δdは、約21インチになり、δdは、約37インチになる。音声がミリ秒あたり約1フィート進むと仮定すると、図1のミキシング・ステージ100のワースト・ケースの座席130では、前方スピーカ132および後方スピーカ131から同時に発出された音声は、21ミリ秒ずれて到着することになる(後方スピーカ131からの音声が先に到着する)。図2を参照すると、図2の劇場200のワースト・ケースの座席230では、前方スピーカ232および後方スピーカ231から同時に発出された音声は、37ミリ秒ずれて到着する(この場合も、後方スピーカ231からの音声が先に到着する)。従って、これらの座席については、ミキシング・ステージ100および劇場200の前方スピーカ132および232からの音声の方が、差分距離で測定してより遠くまで進まなければならないので、これらの設備では、後方スピーカ131および231からの音声より後に到着する。
一般に、このより遠くのスピーカからの音声の伝搬時間は、大きな問題にはならない。ただし、発出されている2つの音声が同じ音声である場合には、これらのワースト・ケースの座席に座っている観客は、通常は、近くのスピーカがこれらの音声の元々の音源であるものと知覚する。同様に、発出される2つの音声が先行音および後続音である場合には、第1の音声とその残響の場合と同様に、あるいは2つの異なる音声であるが関連する音声の場合(例えば銃声と跳弾の場合)と同様に、先に到着する音声が、通常は先行音声の音源として知覚される位置を規定することになる。何れの場合も、より遠くにあるスピーカが音声の音源であると意図されていた場合には、伝搬時間による遅延によって知覚音源がより近くにあるスピーカになってしまうので、音源に関する聞いている人の知覚に問題が生じることになる。
図1の座席110からコンソール120上でミキシングを行う間に、サウンド・エンジニアは、この問題を知覚しない。サウンド・エンジニアが座席130に座ってそこからミキシングを行う(リモート・コントロールによって行うか、コンソール120を移動させて行うかは問わない)、または少なくともその座席からミキシングを評価する場合でも、満足できる結果が得られるかどうかの判定は、劇場におけるワースト・ケース差分距離がミキシング・ステージ100におけるワースト・ケース差分距離を超えない(すなわちδd≦δd)ワースト・ケースの座席までしか行われない。それでも、ほとんどのサウンド・エンジニアは、そのような労力は払わない。極端な座席位置をテストする時間をとるには、製作スケジュールが厳し過ぎ、人員が忙し過ぎるからである。
従来は、サラウンド音声を利用する音声トラックでは、すなわち部屋の後方および側方のスピーカ(例えばスピーカ103)の列が、スクリーンの背後の個々のスピーカ(例えばスピーカ102)と関連付けられたチャネルとは区別される特定のオーディオ・サラウンド・チャネルにそれぞれ対応する1つ、2つ、または3つのグループに分割される場合には、全てのサラウンド・チャネルは、全てδdの測定値または近似値に依拠する様々な数式によって劇場の幾何学的形状から導出される長さの時間だけ遅延することになる。サラウンド・チャネルが他のオーディオ・チャネルに符号化されるマトリクス化システムの場合には、差分距離δd(またはその近似値)は、マトリクス化システムが受ける不完全なチャネルの分離によるクロストークを吸収するために付加される追加の量を有することになる。その結果として、図2の劇場200のような劇場は、サラウンド・チャネルを約37ミリ秒だけ遅延させ、図1のミキシング・ステージ100は、そのサラウンド・チャネルを約21ミリ秒だけ遅延させることになる。このような設定により、音声が音声トラックの厳密な時間的優先順位に従い、且つ全ての先行音声がスクリーン・スピーカ(例えば図1のスピーカ102および図2の202)から生じる限り、音声がスクリーンではなく周囲から生じているように聞こえる状況は発生しない。没入型音声システムでは、先行音声がスクリーン外で発生する可能性があり、その一部は、スクリーン上か否かを問わず他の場所に配置された対応する後続音声を有するので、サラウンド音声チャネル(すなわちスクリーン上ではないオーディオ・チャネル)を遅延させても十分な解決策にはならない。
図3は、カメラ位置310に配置されたカメラを含む、映画のセットの想像上のシーン300を示す図である。シーン300が撮影中の実際の映画のセットを表していると仮定すると、いくつかの音声は、カメラ310の位置の周辺の至る所から発生している可能性が高い。シーンを再生しながらレコーディングを行う、あるいはサウンド・エンジニアがオフ・カメラ(またはオン・カメラの場合もある)の音声を別に受け取ったと仮定すると、サウンド・エンジニアは、それらの音声をコンパイルして1つの没入型音声トラックにする。
図3に示すように、シーン300は、建物302に隣接する駐車場301で発生する。シーン300内には、2人の人物330および360が、カメラ310の視野312内に立っている。このシーンの間に、車両320(オフ・カメラ)が、車両のエンジンの音声322(「ブルルン」)が聞こえてくるように、シーン中の位置321に接近する。車両の接近に促されて、第1の人物330は、警告331を叫ぶ(「気をつけろ!」)。これに応答して、車両320の運転者は、車両から方向342に銃340を発砲し、銃声音341および跳弾音350を生じる。第2の人物360は、やじ361を叫ぶ(「外れたぞ!」)。車両320の運転者は、建物302を避けるためにハンドルを切り、方向324にスリップして、ブレーキ音325を生じ、最終的にクラッシュ音327を生じる。
このようなシーンの没入型音声トラックを構築する過程では、サウンド・エディタは、非拡散音声のいくつかについて大きな表面からの反射音を表現するために、いくつかの残響チャネルを提供することを選ぶことがある。この例では、サウンド・エンジニアは、直接経路332だけでなく第1の反射経路333(建物302からの跳ね返り)からの警告331を観客に聞かせることを選ぶ。同様に、サウンド・エンジニアは、直接経路343だけでなく第1の反射経路344(やはり建物302からの反射)からの銃声341を観客に聞かせたいと思うこともある。サウンド・エンジニアは、これらの反射のそれぞれを独立して空間展開する(すなわち反射音を直接音とは異なるスピーカに移動させる)こともできる。ただし、観客には、直接経路362だけでなく第1の反射経路363(駐車場の表面からの反射)からのやじ361が聞こえなければならない。従って、この反射は、直接経路362から聞こえるやじ361より遅れて到着するが、ほぼ同じ方向から(すなわち同じ1つまたは複数のスピーカから)聞こえなければならない。没入型音声トラックのミキシングに関連する製作プロセスの一部として、サウンド・エンジニアは、エンジン音322、ブレーキ音325、クラッシュ音327、または跳弾音350など特定の音声については、残響を提供しないことを選ぶことができる。むしろ、サウンド・エンジニアは、これらの音声を、直接経路323、326、328、および351をそれぞれ有する空間展開された音声オブジェクトとして個別に扱うことができる。さらに、車両320が動いているために、その移動している車両に関連する対応する音声オブジェクトも、静止位置ではなく経時的な軌道(図示せず)を有するので、サウンド・エンジニアは、エンジン音322およびブレーキ音325を進行する音声として扱うことができる。
個々の没入型音声技術の性質および実施態様によっては、空間的位置決め制御により、サウンド・エンジニアは、デカルト座標および極座標を含むことがある1つまたは複数の異なる表現によって、音声を位置決めすることができることがある。これらに限定されるわけではないが、以下のオーディオ・オブジェクトの空間的位置決めのための可能な表現の例を考慮されたい。
・音声は、例えば以下の表現のうちの何れかを用いて、実質的に水平な平面内に厳密に位置することがある(すなわち2D位置決め)。
2D){x,y}座標としての表現(例えば劇場の中心を{0,0}とし、例えば110や210などの中央の座席からスクリーンまでの距離に単位距離スケーリングして、スクリーンの中心が{1,0}になり、観客席の後部中央が{−1,0}となるようにする)。
2D)厳密な方位角{θ}としての表現(例えば劇場の中央の座席110、210を原点とし、ゼロ度(0°)が画面の中央に向かうものとする)。従って、音声は劇場の真ん中またはその他の所定の中心を中心とする円上に配置される。
2D)水平平面内の配置の異なる表現である、方位角および距離{θ,r}としての表現。
・あるいは、音声は、例えば以下の表現のうちの何れかを用いて、3次元空間内に位置することがある。
3D){x,y,z}座標としての表現。
3D)方位角および仰角{θ,φ}としての表現。この場合、劇場の真ん中またはその他の所定の中心を中心とする球面上に音声を位置決めすることができる。
3D)方位角、仰角、および距離{θ,φ,r}としての表現。
2次元表現のうちの1つに高さ座標(a2Dとa3Dの間の関係)を加えて、準3次元音声位置の表現を行うこともできる。ただし、いくつかの実施形態では、高さ座標は、例えば「高」または「中」など、いくつかの離散値のうちの1つしか取り得ないこともある。b2Dおよびb3Dなどの表現は、その位置がそれぞれ単位円または単位球上にあるとさらに定められた状態での方向しか規定しないが、その他の例示的な表現は、距離と、ひいては位置とをさらに規定する。
音声オブジェクト位置のその他の表現としては、四元数、ベクトル行列、連鎖座標系(chained coordinate systems)(ビデオ・ゲームでよく見られる)などが挙げられるが、これらも同様に有用である。さらに、場合によってはある程度の損失がある場合もあるが(例えば任意の3D表現から2D表現になる場合、または距離を表すことができる表現から距離を表さない表現になる場合など)、これらの表現の多くの間での変換も可能である。本発明の原理では、音声オブジェクトの位置の実際の表現は、ミキシング中にも、没入型音声トラックを再生するときにも、重要な役割を持たず、ミキシングまたは再生プロセスにおいていかなる中間的な変換が使用されても構わない。
例えば、表1は、図3に示すシーン300で提供される可能性がある音声オブジェクトの位置の表現を示す表である。表1の位置の表現では、上記のうち、系b2Dを使用している。
Figure 2016518067
図4Aは、図3のシーン300のミキシング・セッション400を管理するためにサウンド・エンジニアが使用する音声トラック・オーサリング・ツールの例示的なユーザ・インタフェースを示す図であり、図4Aの列420は、それぞれシーン中の11個の別個の音声のそれぞれのための「チャネル」(チャネル1〜11)と示された11個の行を示している。いくつかの状況では、1つのチャネルが複数の別々の音声を含むこともあるが、同じチャネルを共有するそれらの音声は、タイムライン(図4Aには図示せず)の異なる部分を占めることになる。図4Aのブロック401〜411は、割り当てられたチャネルのそれぞれの特定のオーディオ要素を示し、これらの要素は、必要に応じて波形として現れることもある(図示せず)。ブロック401〜411の左端および右端は、左から右に進むタイムライン424上の各オーディオ要素の開始点および終了点をそれぞれ表す。なお、本明細書全体を通じて、タイムライン(例えばタイムライン424)に沿った項目の持続時間は、正確な縮尺では示されておらず、特に、これらの要素は、本発明の原理に適合し、さらに明確に本発明の原理を示すように、場合によっては不均一に圧縮してあることに留意されたい。
列421では、別個の音声は(それぞれのチャネルを介して)割り当てられたオブジェクト1〜10に対応する。サウンド・エンジニアは、列421中の音声オブジェクトを、各オブジェクトに、例えば上述のフォーマットのうちの1つ(例えば表1の方位値)で2Dまたは3Dの座標を与えることによって音響空間中に位置決めすることができる。座標は、固定であってもよいし、経時変化してもよい。いくつかの場合には、映画のスクリーン(例えば図1のスクリーン101および図2のスクリーン201)上の画像が、図3のカメラ310の動き(図示せず)によって変わるときに、通常は音声オブジェクトの全てまたは大部分の位置の更新を行って、カメラの視野に対するシーン内のそれらの位置を維持する。従って、カメラが時計回りに90°回転した場合には、音声は観客席の周りで反時計回りに90°回転して、例えばやじ361など、それまではスクリーン上にあった音声が、カメラの移動後は、観客席の左壁上の適当な位置から生じるようになる。
図4Aのオーディオ要素401は、図3のシーン300のための音楽(すなわちスコア)を含む。いくつかの場合には、サウンド・エンジニアは、スコアを複数のチャネル(例えばステレオ)に分離することができ、特定の楽器を個々のオブジェクトに割り当てて、例えば弦楽器が打楽器とは別の位置になるようにすることもできる(図示せず)。オーディオ要素402は、例えば遠くの交通雑音など、個別の呼出しを必要としない一般的な周囲音声を含む。オーディオ要素401の音楽の場合と同様に、周囲音トラックも、複数のチャネルを包含することがあるが、一般には、聞いている観客が位置を特定できないように、非常に拡散した設定を有することになる。いくつかの実施形態では、音楽チャネルおよび周囲音チャネルが複数のオブジェクト(例えば図4Aに示すようにオブジェクト1、オブジェクト2)を有し、これらのオブジェクトが所望の音声再現に適した設定を有する。他の実施形態では、サウンド・エンジニアは、音楽および周囲音を、静的座標であるか動的座標であるかとは関わりなく、特定のスピーカで再生されるように事前にミキシングすることができる(例えば音楽は、図1のスピーカ102および図2のスピーカ202など、スクリーンの背後のスピーカから出るようにし、周囲音は、観客席を取り囲むスピーカ群(例えば図1のスピーカ103および図2のスピーカ203など)から出るようにすることができる)。この後者の実施形態が、特殊なオブジェクトが特定のスピーカまたはスピーカ群に対してオーディオをレンダリングする音声オブジェクト構成を利用するかどうか、あるいはサウンド・エンジニアが、5.1標準または7.1標準に合わせた従来のミキシングを手作業で行うかは、設計選択または芸術的な好みの問題となる。
残りのオーディオ要素403〜411は、それぞれ、図3のシーン300に示す音声のうちの1つを表し、図4Aの割り当てられた音声オブジェクト3〜10に対応する。ここで、各音声オブジェクトは、シーン300中の音声の位置に対応する静的または動的な座標を有する。図4Aでは、オーディオ要素403は、図3のエンジン音322(オブジェクト3に割り当てられる)に対応するオーディオ・データを表す。上記の座標系b2Dを使用すると、オブジェクト3は、約{−115°}の座標を有し(表1参照)、この座標は、エンジン音オブジェクト322が図3の移動する車両320とともに移動するので、ある程度変化することになる。オーディオ要素404は、ブレーキ音325を表し、割り当てられたオブジェクト4に対応する。このオブジェクトは、約{−160°}の座標を有することになる。ブレーキ音325も、エンジン音322と同様に移動する。オーディオ要素405は、図3の銃声341を表し、静止座標{−140°}を有する割り当てられたオブジェクト5に対応し、オーディオ要素406は、反射経路344から聞こえる図3の銃声341のエコーを表現するために、オーディオ要素405から導出される残響効果を含む。オーディオ要素405は、静止座標{150°}を有する割り当てられたオブジェクト6に対応する。オーディオ要素406を生成するために使用される残響効果はフィードバックを利用するので、この残響効果は、音声オーディオ要素405よりかなり長く続くことができる。オーディオ要素407は、銃声341に対応する跳弾350を表す。オーディオ要素は、静止座標{−20°}を有する割り当てられたオブジェクト7に対応する。
チャネル8のオーディオ要素408は、図3の叫び声331を表し、静止座標{30°}を有する割り当てられたオブジェクト8に対応する。サウンド・エンジニアは、オーディオ要素408から導出されるチャネル9の残響効果として、オーディオ要素409を、経路333を通って到着するように聞こえる叫び声331のエコーに提供する。チャネル9は、静止座標{50°}を有する割り当てられた音声オブジェクト9に対応する。最後に、チャネル10のオーディオ要素410は、やじ361を含み、オーディオ要素411は、残響効果の処理後にオーディオ要素410から導出され、チャネル11に戻される、やじ361のエコーを含む。やじ361およびそのエコーの両方の方向はほぼ同じ経路362および363に沿っているので、サウンド・エンジニアは、これら2つのオーディオ要素410および411を、この例では静止位置座標{−10°}を有する共通の音声オブジェクト10に割り当てることができる。これは、場合によっては、サウンド・エンジニアが、複数のチャネル(例えばチャネル10、11)を1つの音声オブジェクト(例えばオブジェクト10)に割り当てることができることを例示している。
図4Aの列422では、チェックボックスの形態をした例示的なユーザ・インタフェースが、チャネルが別のチャネルの後続音を表すか否かをサウンド・エンジニアが指定するための機構を提供している。チャネル5および銃声341のオーディオ要素405に対応するマークされていないチェックボックス425は、オーディオ要素405が後続音声を構成しないことを示している。逆に、チャネル6および銃声341のエコーのオーディオ要素406に対応するマークされているチェックボックス426と、チャネル7および跳弾350のオーディオ要素407に対応するマークされているチェックボックス427とは、オーディオ要素406および407が後続音声を構成していることを示している。同様に、サウンド・エンジニアは、チャネル9を後続音声として指定する。
これらの音声を後続音として指定し、この指定を関連するチャネル、オブジェクト、またはオーディオ要素に関連するメタデータとして送出することは、図6を参照してさらに詳細に述べるように、音声トラックのレンダリング中に非常に重要となる。音声を後続音として指定すると、音声トラックの再生に関連して特定の会場(例えばミキシング・ステージ100および劇場200)におけるワースト・ケース差分距離(例えばδd、δd)に基づく時間の長さだけ、後続音声を残りの音声より遅延させるのに役立つ。後続音声を遅延させることにより、会場内にいかなる差分距離があっても、いかなる観客にも、後続音声がそれと関係する先行音声より先に聞こえることはなくなる。なお、この例示的な実施形態では、特定の後続音に対応する先行音(およびその逆)について記していないが、いくつかの実施形態(後述)では、特定の先行音/後続音の関係が必要となることに留意されたい。例えばあるチャネル(例えば406、409)の導出が別のチャネル(例えばそれぞれ405、408)に由来するものであることをシステムが知ることができる場合など、いくつかの場合には、後続音であるとする指定を自動的に適用することができる。
具体的な例として、図4Aのオーディオ要素405で表され、オブジェクト5に割り当てられた静止座標{−140°}に基づいて図2の劇場200で後方スピーカ231またはその付近でレンダリングされる、図3の銃声341を考慮されたい。銃声341は、オーディオ要素406によって表されるエコー、およびオーディオ要素407によって表される跳弾の両方の先行音を構成する。先行音声、または後続音声以外の音声であるので、銃声341を表すオーディオ要素405は、チェックボックス425がマークされない(従って、このオーディオ要素が後続音声と見なされることはない)。サウンド・エンジニアは、チェックボックス426および427をそれぞれマークすることによって、エコー406および跳弾407の両方を後続音声として指定する。いくつかの実施形態では、単に要素406および407が後続音であると示すだけでなく、オーディオ要素405と406の間、およびオーディオ要素405と407の間の先行音/後続音の関係が記されることもある(図示せず)。例えば跳弾のオーディオ要素407がタイムライン424上で銃声のオーディオ要素405より先に配置される場合(図示せず)などに警告(図示せず)を与える以外の目的では、先行音と後続音との関係を記す必要はない。
映画の上映中(および劇場200における関連する音声トラックの対応する再生中)に、(例えばチェックボックスがマークされることによって)後続音声としてタグ付けされたオーディオ要素はそれぞれ、δdが劇場200のワースト・ケース差分距離であるので、約δdに対応する時間だけ遅延することになり、この遅延は、劇場内のいかなる観客にも、後続音声がそれに対応する先行音より先に聞こえないようにすることを保証するのに十分に長い。この構成には、一部のスピーカからの後続音に付与される遅延を最小限に抑えるという利点がある。
他の実施形態では、図2の劇場200などの会場内の各スピーカまたはスピーカ群を制御するオーディオ・プロセッサ(図示せず)は、そのスピーカについてのワースト・ケース差分距離(δd)について、またはそれに対応する遅延について、予め設定された値を有し、特定のスピーカを通して再現されるように選択された任意の後続音声は対応する遅延を受けるが、非後続音声は遅延されないようにすることにより、そのスピーカによって再現される後続音が、劇場内のいかなる観客にも、対応する先行音がどのスピーカから再現されるかに関わらず、その先行音より先に聞こえないことを確実にすることができる。
さらに他の実施形態では、会場内の各スピーカまたはスピーカ群を制御するオーディオ・プロセッサ(図示せず)は、そのスピーカ(またはスピーカ群)の他の各スピーカ(または他のスピーカ群)に対する差分距離について、またはそれに対応する遅延について、予め設定された値を有し、特定のスピーカを通して再現されるように選択された任意の後続音声がそのスピーカ(またはスピーカ群)および対応する先行音を再生しているスピーカ(またはスピーカ群)に対応する遅延を受けるようにすることにより、そのスピーカから発出される後続音が、劇場内のいかなる観客にも、対応する先行音がそのスピーカ(またはスピーカ群)から聞こえる前に聞こえないことを確実にすることができる。この構成には、後続音に付与される遅延を最小限に抑えるという利点があるが、各後続音が、対応する先行音と明示的に関連付けられている必要がある。
タイムラインにおいて各オーディオ要素401〜411に個別のチャネルを提供するように各音声オブジェクト1〜10を別々に管理する図4Aの音声トラック・オーサリング・ツールは、大きな有用性を有する。しかし、このツールで作製される音声トラックは、劇場200内での映画の上映と関連付けて音声トラックをレンダリングする、またはミキシング用観客席100内で音声トラックをレンダリングするレンダリング・ツールのリアルタイム能力を超えることがある(図6を参照して後述する)。音声トラックに関連して使用される「レンダリング」という用語は、上述のように後続音声を遅延させることも含めて、音声トラック中の音声(オーディオ)要素を様々なスピーカを通して再現することを指す。例えば、同時に管理されることが許容されるチャネルまたは音声オブジェクトの数について、制約が存在することもある。このような状況では、音声トラック・オーサリング・ツールは、図4Bに示すように、より少ない数のチャネル1b〜7b(列470の各行)および/またはより少ない数の音声オブジェクト(列471のオブジェクト1b〜7b)を有するコンパクトな表現450をもたらすことができる。図4Bに示すコンパクトな表現は、各音声オブジェクトと、1つのチャネルを関連付ける。チャネルおよび/またはオーディオ要素の使用を少なくするために、個々のオーディオ要素401〜411は、オーディオ要素451〜460にコンパクト化される。例えば、音楽および周囲音のオーディオ要素401および402は、それぞれ図3のシーン300の全長におよび、それ以上コンパクト化することができないので、それぞれオーディオ要素451および452になる。各オーディオ要素は、依然として当初のチャネル数を占め、この実施形態では、それぞれが、依然として同じ音声オブジェクト(ここではオブジェクト1b/2bと名称が変更されている)に対応する。
以前はそれぞれ離散したオブジェクト3および4と関連付けられた別個のチャネル3および4の別個のオーディオ要素403および404として提供されていたエンジン音322およびブレーキ音325については、状況が異なる。これらの音声は、タイムライン424上で重ならないので、タイムライン474において、少なくともそのタイムライン中でオーディオ要素453に対応する間隔の間はエンジン音322の位置に対応し、その後、少なくともオーディオ要素454に対応する間隔の間はブレーキ音325の位置に対応する動的位置を有する、オブジェクト3bに関連付けられた1つのチャネル3bに統合することができる。統合されたオーディオ要素453および454は、図4Aのミキシング・セッション400におけるそれぞれの由来を示す注釈を有することができる。オーディオ要素453および454の注釈は、それぞれ元のオブジェクト#3および#4を示すことにより、統合された没入型音声トラック表現450からミキシング・セッション400を少なくとも部分的には復元するための手掛かりを与える。なお、オーディオ要素453と454の間には、後続音声に適用されることもあるタイムライン位置の任意のオフセットを吸収するのに十分なギャップが存在するが、この例では、オーディオ要素453も454も後続音ではないことに留意されたい。
同様に、以前はそれぞれ離散したオブジェクト8および5と関連付けられたチャネル8および5の別個のオーディオ要素408および405として提供されていた警告の叫び声331および銃声341も、共通のチャネル4bおよびオブジェクト4bに統合することができる。この場合も、オーディオ要素408および405はそれぞれ、通常は、それぞれの元のオブジェクト指定を示す注釈を有する。この注釈は、チャネルの関連付けを反映することもできる(図示せず。オブジェクト8およびオブジェクト5との元の関連付けのみを示す)。統合チャネル3bの場合と同様に、チャネル4bに関連付けられたオーディオ要素は、重なり合わず、サウンド・エンジニアが一方または他方の音声要素を後続音声として指定した場合に備えて(この場合も、この例には当てはまらない)、十分な隙間を維持している。
警告の叫び声331のエコーおよび銃声341のエコー(ともに図3)の場合には、それぞれ、ミキシング・セッション400のユーザ・インタフェースにおける指示(例えばチェックボックス426)に対応する、オーディオ要素(例えばオーディオ要素456)と関連付けられたメタデータ(例えばメタデータ476)による後続音声としての指定を有する。オーディオ要素407によって表される跳弾350は、跳弾を表すオーディオ要素が、チャネル1b〜5bのそれぞれにおいて少なくとも1つのオーディオ要素(例えばオーディオ要素451、452、453、455、および456のうちの1つ)と重なり、実質的に同様のオブジェクト位置がないので、チャネル1b〜5bに統合できる位置がない。このために、オブジェクト6bに関連付けられたチャネル6bのオーディオ要素457に対応する跳弾350は、チェックボックス427に与えられた指示に基づいて、この音声が後続音声であると指定する関連するメタデータ477を有することになる。
以前は別個のチャネル10および11として扱われていたやじ361およびそのエコーは、図3で同じような方向362および363から発生するので、同じオブジェクト10に割り当てられていた。図4Bの統合フォーマット450では、サウンド・エンジニアは、離散したオーディオ要素410および411を、オブジェクト7bに関連付けられたチャネル7bに対応する1つのオーディオ要素460にミキシングする。オーディオ要素460は実質的にオブジェクト455とは重ならないが、この実施形態では、オブジェクトが後続音声としてマークされる場合に備えて、あるいは図6を参照して述べるようにリアルタイム・レンダリング・ツールがある位置(銃声341の位置など)から別の位置(やじ361の位置など)へどの程度の速さで不連続にジャンプするかということに関して懸念がある場合に備えて、オーディオ要素460をチャネル4bにさらに統合することは行われない。なお、オブジェクト#10との当初の共通の関連付けを復元することは依然として可能であるが、このミキシングしたトラックを元の離散したオーディオ要素410および411に分離することはできない。従って、いくつかの実施形態では、図4Aに示すミキシング・セッション400は、実質的にその図に示すチャネル、オブジェクト、オーディオ要素、およびメタデータ(例えばチェックボックス422)に対応する非圧縮フォーマットで保管されることになり、この非圧縮フォーマット、または図4Bに示す圧縮フォーマットの何れかを、劇場に送られる配布パッケージで使用することもできる。
図5Aは、後続音声が共通バス上に現れるが個別には定位されないパラダイムを使用する、ミキシング・セッション500のためのオーサリング・ツールの別のユーザ・インタフェースを示す図である。従って、例えば、銃声341のエコーは、実質的に方向344に対応するものだけでなく、会場内の多数のスピーカから発生する。図5Aのミキシング・セッション500中には、図4Aのミキシング・セッション400中と同様に、各オーディオ要素501〜511は、列520中のチャネル1〜11の離散した1つに出現し、タイムライン524に沿って位置する。ただし、定位されるのはこれらの音声の一部だけであるので、全てのチャネルが列521中の音声オブジェクト1〜6のうちの対応する1つとの関連付けを有するわけではない。以前の例と同様に、チェックボックスがマークされるか(例えばチェックボックス526)、マークされないか(例えばチェックボックス525)、によって示されるように、各オーディオ要素は、後続音声であるか否かの指定(列522)を有することができる。
チャネル1の音楽用のオーディオ要素501の場合には、オブジェクト1との関連付けは、スコアをステレオで提示する、または特定の位置を用いてその他の方法で提示するのに役立ち得る。対照的に、チャネル2の周囲音要素502は、オブジェクトとの関連付けを有さず、レンダリング・ツールは、この要素を、再生中に、例えば全てのスピーカ、スクリーンの背後以外の全てのスピーカ、または無指向性の音声をレンダリングする際に使用されるように予め決定された別のスピーカ群から来る、無指向性の音声として解釈する可能性がある。
図5Aを参照すると、エンジン音322、ブレーキ音325、銃声341、警告の叫び声331、およびやじ361(全て図3)は、それぞれ音声オブジェクト2、3、4、5、および6に関連付けられたチャネル3、4、5、8、および10のオーディオ要素503、504、505、508、および510を含む。これらの音声は、非後続音声を構成し、オーサリング・ツールは、これらの音声を、図4Aに関連して述べたのと同様の方法で扱うことになる。
ただし、図5Aのオーサリング・ツールは、銃声341のエコー、跳弾350、警告の叫び声331のエコー、およびやじ361のエコーは、それぞれチャネル6、7、9、および11で別々に扱う。これらの音声はそれぞれ、(例えばサウンド・エンジニアがチェックボックス526および527にマークすることによって)後続音声としてタグ付けされる。その結果として、レンダリング・ツールは、音声トラックが再生される会場(例えば図1のミキシング・ステージ100または劇場200)について予め決定されたδdに従って、対応するオーディオ要素506、507、509、および511のそれぞれを遅延させる。レンダリング・ツールは、周囲音チャネル2と同じ無指向性の方法に従ってチャネル6、7、9、および11をレンダリングするが、周囲音オーディオ要素502は、後続音声を構成せず、いかなる遅延を施す必要もない。
従って、後続音バスを有するコンパクトな表現550では、図5Bに示すように、ともに列571の周囲音処理割当て574および後続音バス処理割当て575の追加により、列570中の離散チャネル1b〜5bおよび列571中の音声オブジェクト1b〜3bの数をさらに減少させることができる。ここで、これらのオーディオ要素は、タイムライン524に沿ったそれらの配列573を保持する。例えば、音楽スコアのオーディオ要素551は、演奏中にスコアを定位化するために列571中のオブジェクト1bと関連するチャネル1bに出現する。チャネル2bの周囲音要素552は、周囲音処理割当て574によって上述のように無指向に再生される(例えば、上映している観客席内のスピーカのうち無指向性オーディオに使用される所定の部分で再生されることを示す)。
図5Bのオーサリング・ツールは、エンジン音322およびやじ361を列570のチャネル3bにコンパクト化することができ、両者はともにオブジェクト2bに割り当てられ、オブジェクト2bは、少なくともオーディオ要素553の持続時間の間は、エンジン音322に適した位置をとる。その後、オブジェクト2bは、少なくともオーディオ要素560の持続時間の間は、やじ361に適した位置をとる。なお、図5Bの表現550において共通のチャネルにコンパクト化するものとして選択されたオーディオ要素は、図4Bの表現450で選択されたものと異なっていてもよいことに留意されたい。同様に、オーサリング・ツールは、警告の叫び声331、銃声341、およびブレーキ音325を、列571中のオブジェクト3bに割り当てられた列570中のチャネル4b上のオーディオ要素558、555、および554としてそれぞれコンパクト化することができる。これらの音声は、タイムライン524上で重ならないので、オブジェクト3bには、シーン300中のそれぞれの位置に問題なく切り替わるのに十分な時間がある。
図5Bのコンパクト表現550中のチャネル5bは、後続音処理指定575を有する。従って、チャネル5bのオーディオは、周囲音チャネル2bと同様に定位のための処理を受けることになる。換言すれば、オーディオ・レンダリング・ツールは、このオーディオを、無指向に再現するための所定のスピーカ群に送る。チャネル2bと同様に、後続音バス・チャネル5bは、図5Aの個々のオーディオ要素506、507、509、および511(それぞれ図5Bに示すオーディオ要素556、557、561、および559に対応する)のミックスを含む、1つのオーディオ要素576を有することができる。なお、オーディオ要素556、557、および561はタイムライン524上で重なるが、サウンド・エンジニアが(例えばチェックボックス526をマークすることによって)それらを後続音として指定しているので、これらの後続音声は、無指向に再現される。1つのオーディオ要素576だけは、これらの後続音声を表現するために依然として必要である。
会場(例えば図1のミキシング・ステージ100または図2の劇場200)で演奏するために、レンダリング・ツールは、リアルタイムのものであっても、その他のものであっても、チャネル5bの後続音バスのオーディオ要素576を、その会場の所定のδdに基づく長さの時間だけ、その他のオーディチャネル1b〜4bに対して相対的に遅延させる。この機構を用いると、座席に関わらず、後続音声が対応する先行音声より先に聞こえる観客はいなくなる。従って、没入型音声トラック中の先行音声の位置は、普通ならδdによって指向性の先行音声を再現しているスピーカから最も遠く離れた会場の部分に座っている観客の間で生じる可能性がある望ましくない音響心理学のハース効果に対抗して、維持される。
図4Bのコンパクト表現450の方が、劇場での提示により適していることがある。図5Bのさらにコンパクトな表現550も、劇場での提示に適してはいるが、音声オブジェクトの処理にかかる負担が少ないので、民生用にも適用可能である。いくつかの実施形態では、例えば追加の無指向性チェックボックス(図示せず)を図5Aのユーザ・インタフェース500に設けて、オペレータ(例えばサウンド・エンジニア)がいくつかの後続音声を無指向と指定することができる、ハイブリッド手法が有用である。
図5Aおよび図5Bでは、いくつかのチャネルは、列521または571のオブジェクトといかなる関連付けも有していない。しかし、これらのチャネルも、上記で示した没入型の2Dまたは3Dの空間座標系を用いて定位を実現するものだけでなく、依然として音声オブジェクトとの関連付けを有する。上述のように、これらの音声オブジェクト(例えばチャネル2およびオーディオ要素502)は、周囲音挙動を有する。後続音バスに送られるチャネルは、映画の提示が行われる会場に適したδdに対応する遅延を含む周囲音挙動を有することになる。上述のように、図4Aの音楽要素401(または図5Aの音楽要素501)に関連付けられたオブジェクト1は、ステレオ・オーディオ要素を会場内の特定のスピーカ(例えばスクリーンの背後の左端のスピーカおよび右端のスピーカ)にマッピングする静的設定を有することができる。同様に、左側のサラウンド・スピーカまたは頭上のスピーカ104/204など、特定のスピーカ群にマッピングされたオーディオ要素を有する音声オブジェクト(図示せず)が存在することもある。これらの簡略化されたマッピングは何れも、没入型の(2Dまたは3Dで位置決めされた)オブジェクトから独立して使用してもよいし、あるいはそれらと関連付けて使用してもよく、また、これらの簡略化されたマッピングは何れも後続音の指標とともに適用してもよい。
図6は、次の2つの部分を含む残響音声を管理するための、本発明の原理による、没入型音声提示プロセス600の各ステップを示す流れ図である。すなわち、第1の部分は、オーサリング・ツールを表現するオーサリング部分610を含み、第2の部分は、リアルタイムまたはその他のレンダリング・ツールを表現するレンダリング部分620を含む。通信プロトコル631は、リアルタイムまたはリアルタイムに近い編集セッション中に起こる可能性があるオーサリング部分610とレンダリング部分620の間の移行を管理するが、あるいは、配布パッケージ630を使用して上映会場に配布することもある。通常は、プロセス600のオーサリング部分610の各ステップは、パーソナル・コンピュータまたはワークステーション・コンピュータ(図示せず)で実行され、レンダリング部分620の各ステップは、その出力が後述の方法で様々なスピーカの増幅器などを駆動するオーディオ・プロセッサ(図示せず)によって実行される。
改良された没入型音声提示プロセス600は、ステップ611中に実行されて開始され、その後、オーサリング・ツール610が、音声トラックに適したオーディオ要素をタイムラインに沿って(例えばオーディオ要素401〜411を図4Aのタイムライン424に沿って)配列する。ステップ612で、オーサリング・ツールは、ユーザ入力に応答して、第1のオーディオ要素(例えば銃声341のオーディオ要素405)を第1の音声オブジェクト(例えば列421のオブジェクト5)に割り当てる。ステップ613で、オーサリング・ツールは、第1の位置(例えば方位=−140°、すなわち線343に沿った位置)または第1の経時的な軌道を、第1のオブジェクトに割り当てる。
ステップ614で、オーサリング・ツールは、ユーザ入力に従って、第2のオーディオ要素(例えば銃声341のエコーの406)を第2の音声オブジェクト(例えば列421のオブジェクト5)に割り当てる。ステップ615で、オーサリング・ツールは、第2の位置(例えば方位=150°、すなわち線344に沿った位置)または第2の経時的な軌道を、第2のオブジェクトに割り当てる。
ステップ616で、オーサリング・ツールは、第2のオーディオ要素(例えば406)が、後続音声、この場合は第1のオーディオ要素(例えば405)の後続音声を構成するかどうかを判定する。オーサリング・ツールは、この判定を、列420のチャネル5と6の間の所定の関係(例えばチャネル6は、チャネル5から送られる音声から導出される音声効果の戻り(sound effect return)を表すなど)から、自動的に行うことができ、その場合には、第1のオーディオ要素と第2のオーディオ要素とが、アプリオリに分かるように先行音声と後続音声としての関係を有することになる。オーサリング・ツールは、オーディオ音声を検査して、1つのトラック上の音声が別のトラック上の音声と高い相関を有していることを発見することによって、一方の音声を他方の音声の後続音として自動的に識別することもできる。
あるいは、オーサリング・ツールは、例えばサウンド・エンジニアがミキシング・セッション400のユーザ・インタフェースにマーク(426)して第2の音声要素406が後続音声要素を構成すると指定する場合など、オーサリング・ツールを操作するサウンド・エンジニアが手作業で入力する指示に基づいて、音声が後続音声を構成するかどうかの判定を行うこともできるが、手作業による指示は対応する先行音声を具体的に特定する必要はない。さらに別の代替形態では、オーサリング・ツールは、オーディオ要素406にタグ付けして、そのオーディオ要素を、その音声要素の先行音声を指定していることもしていないこともある別のチャネルから導出される音声効果の戻りであると指定することもできる。この判定の結果は、(例えば図4Aのマークされたチェックボックス426、または図5Aのチェックボックス526によって)ユーザ・インタフェースに現れることができ、図4Bのオーディオ要素456に関連付けられた後続音メタデータ・フラグ476の形態で記憶される、またはオーディオ要素506を図5Bのように構成要素556として後続音バス575にミックスすることができる。
図6のステップ617で、オーサリング・ツール610は、第1および第2のオーディオ・オブジェクトを符号化する。この例では、図4Aおよび図4Bを参照すると、この符号化では、割り当てられた第1および第2のオーディオ要素405および406も含む図4Aの列421のオブジェクト5および6と、第1および第2のオブジェクト位置(または軌道)のメタデータと、後続音メタデータ・フラグ426とを必要とする。オーサリング・ツールは、これらの項目を、レンダリング・ツール620に送信するために通信プロトコル631または配布パッケージ630中に符号化する。この符号化は、非圧縮状態で、図4Aのユーザ・インタフェースに提示される情報に直接的に類似する表現を有していてもよいし、あるいは図4Bの例示的な表現のようにさらにコンパクトに表現することもできる。
図5Aおよび図5Bの代替例を参照すると、ステップ617で、オーサリング・ツールは、割り当てられたオーディオ要素505および対応する位置(または軌道)のメタデータも含めて、図5Aの列521の第1のオブジェクト4を符号化する。第2のオブジェクト(銃声341のエコーを含む)の符号化では、これは、ステップ616の判定(マーク526で示される)によって、列520のチャネル6および対応するオーディオ要素506がその構成要素となる、割り当てられたオーディオ要素506と、図5Bの後続音バス・オブジェクト575について規定された「周囲音」の定位とを含む。これにより、オーディオ要素506から導出(すなわちミキシング)された構成要素オーディオ要素556を含む、オーディオ要素576を有する後続音バス・オブジェクト575が生じる。この代替形態でも、オーサリング・ツールは、これらの項目を、レンダリング・ツール620に送信するために通信プロトコル631または配布パッケージ630中に符号化する。この符号化は、非圧縮状態で、図5Aのユーザ・インタフェースに提示される情報に直接的に類似する表現を有していてもよいし(すなわち、後続音バス・オブジェクトに割り当てられた構成要素オーディオ要素が、またミキシングされていない場合)、あるいは図5Bの例示的な表現のようにさらにコンパクトに表現することもできる(すなわち、後続音バス・オブジェクトに割り当てられた構成要素オーディオ要素がミキシングされて複合オーディオ要素576を構成する場合)。
レンダリング・ツール620は、ステップ621の実行時に動作を開始し、このステップで、レンダリング・ツールは、通信プロトコル631または配布パッケージ630中の音声オブジェクトおよびメタデータを受信する。ステップ622で、レンダリング・ツールは、各音声オブジェクトを、映画の提示が行われる会場(例えば図1のミキシング・ステージ100または図2の劇場200)内の1つまたは複数のスピーカにマッピング(例えば「パン」)する。一実施形態では、このマッピングは、位置、2Dか3Dか、および音声オブジェクトが静止しているか経時変化するかを含むことができる、音声オブジェクトを記述するメタデータによって決まる。同じ実施形態、または異なる実施形態では、レンダリング・ツールは、規約または標準に基づいて所定の方法で特定の音声オブジェクトをマッピングする。同じ実施形態、または異なる実施形態では、このマッピングは、メタデータによって決まることもあるが、2D位置か3D位置かではなく、従来のスピーカのグループ分けに基づくこともある(例えば、メタデータは、無指向性の周囲音に割り当てられたスピーカ群、または「左側サラウンド」と指定されたスピーカ群の音声オブジェクトを示すこともできる)。マッピング・ステップ622で、レンダリング・ツールは、どのスピーカが、またどんな振幅で、対応するオーディオ要素を再現するかを決定する。
ステップ623で、レンダリング・ツールは、音声オブジェクトが後続音声を構成するかどうか(すなわち、音声オブジェクトが、後続音バスの場合のように後続音声であると予め決められているかどうか、またはそのように特定する例えば図4Bの476のようなタグを有するかどうか)を判定する。後続音声を構成する場合には、ステップ624で、レンダリング・ツールは、音声トラックの再現が行われている特定の会場(例えば図1のミキシング・ステージ100または図2の劇場200)についての所定の情報に基づいて遅延を決定する。会場が単一のワースト・ケース差分距離(例えばδdまたはδd)で特徴付けられる実施形態では、レンダリング・ツールは、対応する遅延を、後続音声オブジェクトに関連付けられたオーディオ要素の再生に適用する。なお、これは、同じスピーカにマッピングされた、他のタグ付けされていない(非後続の)音声には影響を及ぼさないことに留意されたい。会場が、特定のスピーカまたはスピーカ群(例えば左壁のスピーカ)に対応するワースト・ケース差分距離によって特徴付けられる別の実施形態では、レンダリング・ツールは、対応するワースト・ケース差分距離に従って、その特定のスピーカにマッピングされた後続音声オブジェクトを遅延させる。
さらに別の実施形態では、会場は、会場内の各スピーカ(またはスピーカ群)の他のスピーカ(またはスピーカ群)に対するワースト・ケース差分距離によって特徴付けられる。例えば、ワースト・ケース差分距離は、図2の劇場200の左壁のスピーカ群と右列の天井スピーカ204との間の距離に対応することがある。なお、このようなワースト・ケース差分距離は、必ずしも反射的であるとは限らないことに留意されたい。観客が劇場200の右半分の天井スピーカ204を左壁の任意のスピーカ203よりできるだけ早く聞くことができる座席が、ワースト・ケース差分距離を生じる。しかし、その値は、観客が左壁のスピーカを右半分の天井スピーカよりできるだけ早く聞くことができる別の座席については、同じである必要はない。このような包括的な会場の特徴を利用するためには、後続音声オブジェクトのメタデータは、対応する先行音声オブジェクトの識別をさらに含んでいなければならない。この情報が利用可能であれば、レンダリング・ツールは、ステップ624で、対応する先行音にマッピングされたスピーカに対する後続音声にマッピングされたスピーカのワースト・ケース差分距離に基づいて、後続音声に遅延を適用することができる。
ステップ625で、レンダリング・ツールは、遅延していない非後続音声オブジェクトおよび後続音声オブジェクトを、ステップ624で適用された遅延に応じて処理して、任意の特定のスピーカを駆動するために生成された信号が、そのスピーカにマッピングされた音声オブジェクトの和(または加重和)を含むようにする。なお、連続的な範囲[0.0、1.0]を有することもあれば、離散値(例えば0.0または1.0)しか許容しないこともある利得の集合として、音声オブジェクトをスピーカの集合にマッピングすることについて論じている著者がいることに留意されたい。いくつかのパニング法は、この2つまたは3つのスピーカのそれぞれに関して非ゼロの、ただしフル利得(full gain)未満(すなわち0.0<利得<1.0)を適用することによって(これらの利得は等しくなくてもよい)、音声の見かけの音源を2つまたは3つのスピーカの間に配置しようと試みる。多くのパニング法は、他のスピーカの利得をゼロに設定するが、音声が拡散として受信される場合には、これは当てはまらないこともある。この没入型音声提示プロセスは、ステップ627の実行後に終了する。
図7は、図6のオーサリング部分610の間に使用することができる、通常はデータ・シーケンス710(信号またはファイルを含むこともある)として配列される、タイムライン701に沿ったピクチャのシーケンス711を含む動画の組成の例示的な一部分700を示す図である。ほとんどのシステムでは、編集単位702は、フレーム1つ分の間隔に対応するので、この組成の他の全ての構成要素(例えばオーディオ、メタデータ、および本明細書では述べていない他の要素)の符号化は、編集単位702に対応する時間の長さ、例えば毎秒24フレームの割合で流れるように意図されたピクチャを有する通常の動画の組成では1/24秒に対応するチャンクで行われる。
この例では、シーケンス711中の個々のピクチャは、SMPTE標準「336M−2007 Data Encoding Protocol Using Key−Length−Value」に記載されるキー・レングス・バリュー(Key−Length−Value)(KLV)プロトコルに従って符号化される。KLVは、多数の様々な種類のデータの符号化に適用可能であり、信号ストリームおよびファイルの両方を符号化することができる。「キー」フィールド712は、この標準では画像データを識別するために確保された固有識別子を構成する。フィールド712のものと異なる固有識別子は、後述のように、その他の種類のデータを識別する役に立つ。キーの直後に続く「長さ」フィールド713は、画像データの長さを記述し、画像データの長さは、ピクチャごとに同じでなくてもよい。「値」フィールド714は、1フレームの画像を表すデータを含む。タイムライン701に沿って連続するフレームは、それぞれ同じキー値で始まる。
この動画の組成の例示的な一部分700は、この動画に対応するピクチャのシーケンス711に付随する没入型音声トラック・データ720をさらに含み、この没入型音声トラック・データ720は、ディジタル・オーディオ部分731および741と、それぞれに対応するメタデータ735および745とを含む。後続音声および非後続音声は両方とも、関連付けられたメタデータを有する。例えばデータ値730などの対データ値は、独立したチャネル(例えば図4Aの列420のチャネル5)であるか統合されたチャネル(例えば図4Bの列470のチャネル4b)であるかに関わらず、1つの音声チャネルの記憶された値を表す。対データ値740は、別の音声チャネルの記憶された値を表す。省略記号739は、図示していない他のオーディオとメタデータの対を示している。この没入型音声トラック・データ720も、タイムライン701に沿って位置し、データ710中のピクチャと同期している。オーディオ・データおよびメタデータは、編集単位のサイズのチャンクに分離される。730などの音声チャネル・データ対は、用途に応じて、ファイルとして記憶する、または信号として送信することができる。
この例では、オーディオ・データおよびメタデータのKLVチャンクへの符号化は、別々に行われる。例えば、キー・フィールド732で始まる、対データ730中の、図4Aのオブジェクト1に関連付けられたチャネル1に割り当てられたオーディオ要素は、キー・フィールド712とは異なる固有識別子を有する。これらのオーディオ要素は、画像を構成しないので、異なる識別子、すなわちオーディオ・データを識別するためにこの標準で確保されている識別子を有する。このオーディオ・データは、長さフィールド733およびオーディオ・データ値734も有する。この例では、編集単位の持続時間を1/24秒とし、ディジタル・オーディオ・サンプリング・レートを毎秒48000サンプルとし、圧縮を行わないものと仮定すると、値フィールド734は、一定のサイズを有することになる。従って、長さフィールド733は、オーディオ・データ731の全体を通じて一定の値を有することになる。各メタデータ・チャンクは、キー・フィールド736で始まり、このキー・フィールドは、フィールド732および712とは異なる値を有する。(オーディオおよび画像データの場合とは異なり、適当な音声オブジェクト・メタデータ・キー・フィールド識別子を確保している標準化団体はない。)実施態様に応じて、メタデータ735中のメタデータ値フィールド738は、長さフィールド737にそれに応じて表される一貫したサイズまたは可変のサイズを有することができる。
図4Aのオブジェクト10に対応するオーディオ・データと音声オブジェクト・メタデータの対740は、図4Aの列420のチャネル10と11の混合を含むオーディオ・データ741を含む。キー・フィールド742は、ともにオーディオを符号化するので、フィールド732と同じキー・フィールド識別子を使用することができる。長さフィールド743は、オーディオ・データ値744のサイズを指定し、この例では、オーディオ・データ値744は、長さフィールド733と同じサイズを有し、オーディオ・データ741の全体を通じて一定である。これは、その結果得られる音声オブジェクトは混合された2つのオーディオ要素510および511を含むが、オーディオのパラメータはオーディオ・データ731とオーディオ・データ741とで同じであるからである。キー・フィールド746中の識別子は、キー・フィールド737と同様に、メタデータ745を識別し、長さ747から、メタデータの全体を通じて一定であるか否かに関わらず、メタデータ値748のサイズが分かる。
図7では、編集単位702は、タイムライン701に沿った時間の単位を表す。編集単位702の境界を示す矢印の先から上に延びる点線は、データのサイズが等しいということではなく、時間的な整列を示している。(実際には、フィールド714中の画像データのサイズは、通常は、オーディオ・データ値734および744の集合体オーディオ・データを超え、この集合体オーディオ・データのサイズは、メタデータ値738および748中のメタデータを超えるが、これらは全て、実質的に同じ、実質的に同期した時間間隔を表している。)
組成の非圧縮表現は、個々の音声オブジェクトの容易な編集、およびボリュームの改変を可能にするはずであるので、オーサリング・プロセス610においてオーサリング・ツールなしで有用な役割を果たす。さらに、この組成の表現は、オーディオ効果の性質の残響用の改変(例えば銃声341のエコーの生成)、およびメタデータの改変(例えば特定の時点で新たな位置または軌道を与えるなど)なども可能にする。ただし、特に配布パッケージ630の形態でオーサリング・ツールからレンダリング・ツールに渡されるときには、図4Bおよび図5Bに示すコンパクト化された表現が示唆するように、オーディオ・オブジェクト・データセット720中に提供されるデータの異なる配列が有用であることもある。
図7は、各アセット(ピクチャ、音声、対応するメタデータ)が別々の表現されたデータの配列であり、メタデータは、オーディオ・データから分離されており、各オーディオ・オブジェクトは分離した状態に保たれている、これは、説明および議論を分かりやすくするために選択したものであり、編集ユニットごとにインタリーブされるオーディオ・チャネルのそれぞれについてデータを有する1つのアセットとして音声トラックを表現する方がより典型的である、例えば8チャネル(左、右、中央、低周波数効果、左サラウンド、右サラウンド、聴覚障害者用、および説明ナレーション)を有するものなど、音声トラックについて従来技術で一般に行われているものとは対照的である。このより一般的なインタリーブ配列に慣れている人は、インタリーブされた各チャネルの編集単位のオーディオ・データをそれぞれ含むチャンクのシーケンスを1つのオーディオ・トラックが含むような代替の実施形態を提供するには、図7の表現をどのように修正すればよいか理解するであろう。同様に、1つのメタデータ・トラックが、やはりインタリーブされた各チャネルごとに編集単位のメタデータをそれぞれ含む複数のチャンクを含む。図7には示していないが、当技術分野では十分に理解されているのは、個々のアセット・トラック・ファイル(例えば711、731、735、741、745など。図7のように離散的か、上述のようにインタリーブされるかは問わない)を識別し、(例えば各アセット・トラック・ファイルで使用される最初の編集単位を識別することによって)それらの相対的な関連付けおよび相対的な同期を指定するために配布パッケージ630で使用されるコンポジション・プレイリスト(composition playlist)(CPL)ファイルである。
図8は、例示的な組成についての没入型オーディオ・トラックを表す、ここでは上映劇場への配布に適した単一の没入型オーディオ音声トラック・データ・ファイル820として与えられるオーディオ・オブジェクトを表すデータの別の代替の実施形態を示す図である。この実施形態では、没入型オーディオ音声トラック・データ・ファイル820のフォーマットは、ここでは没入型オーディオ音声トラック・データに新たに適用されるSMPTE標準「377−1−2009 Material Exchange Format(MXF)−File Format Specification」に準拠する。劇場で再生するためには、没入型音声トラックのレンダリングは、編集単位ごとにエッセンス(essence)(オーディオおよびメタデータ)をインタリーブしなければならない。これにより、ファイルの単一のデータ・ストリームが、例えばシステムが図7の多くの分離したデータ要素の間でスキップすることを必要とするのではなく、全ての必要な情報を必要な順序で表現するので、レンダリング・プロセス620の詳細な実施態様が大幅に効率化される。
没入型音声トラック・ファイル820の作製は、最初にステップ801で最初の編集単位702中の各音声オブジェクトの全てのメタデータを収集することによって進行することができる。なお、ファイル820で使用される編集単位702は、図7で使用したのと同じ編集単位であることに留意されたい。最初の編集ユニット702中の全ての音声オブジェクト・データ(メタデータおよびオーディオ要素)のラッピングでは、音声オブジェクト・メタデータの集合(例えばアレイ)が提示されることを示す新たなキー・フィールド識別子803を有する新たなKLVチャンク804が組み立てられ、チャンク804の値部分は、最初の編集単位の各オブジェクト(例えばオブジェクト1〜オブジェクト10)の複数の同じ大きさの値部分(例えばメタデータ値738および748)からなる。この全オブジェクト・メタデータ要素804は、各音声オブジェクトに対応するオーディオ・チャネル・データより先行し、ステップ805で最初の編集ユニット中のディジタル・オーディオ・データ・チャンクを完全にコピーしたKLVチャンクの形態をとる。従って、キー・フィールド732は、そのオーディオ・データ値734を有する最初に見えるキー・フィールドとなり、そのオーディオ・データ値744を有するキー・フィールド742は、最後に見えるフィールドとなる。
この実施形態では、全オブジェクト・メタデータ要素804中の長さを使用して、提示される個々のオーディオ・チャネル要素(例えば805)の数を予測することができ、代替の実施形態では、このチャネルの数は、経時変化できることもある。この代替の場合では、特定の編集単位のオブジェクトと関連付けられたオーディオがない(例えば、図4Aでは、タイムライン424の最初からオーディオ要素408および409の最初までに列421のオーディオ・オブジェクト3から10のうちの何れかと関連付けられたオーディオがない)とオーサリング・ツール610が判定すると、オブジェクトが関連付けられたオーディオ要素を有さない各編集単位のそのようなオブジェクトのそれぞれについて、何れにしても静寂の表現しか含まないので、そのオブジェクト(例えばオブジェクト10)のメタデータを、全オブジェクト・メタデータ要素804から省略し、対応する各オブジェクト・オーディオ要素も同様に省略することができる。非常に複雑なシーンの相当数の独立した音声オブジェクト(例えば128個のオブジェクト)を送出することができることもある没入型オーディオ・システムでは、より代表的なシーンは、10個未満の同時の音声オブジェクトを有することもあり、これは、普通なら、静寂を表現するパディングのチャネルを少なくとも118個必要とし、メモリの浪費につながるものである。このような間隔におけるこれらのオブジェクトを省略することで、配布パッケージ630のサイズを大幅に減少させる経済性を実現する。さらに別の代替の実施形態では、全オブジェクト・メタデータ要素804は、可能な限り最大数のメタデータ要素を常に含むことができ、従って、一定のサイズを維持することができるが、各オブジェクト(例えば738)のメタデータは、そのオブジェクトが静寂になっており、従って現在の編集単位中に対応する各オブジェクト・オーディオ要素(例えば805)を有していないか否かを示す指示(図示せず)をさらに含むこともある。メタデータは対応するオーディオ・データより遥に小さいので、このさらに別の代替の表現でも、大幅な節約が得られ、いくつかの点で、その結果得られる没入型オーディオ・トラック・ファイルの構文解析に必要な処理を簡略化することができる。
802の展開図に示すように完全にポピュレートされるかどうかに関わらず、あるいは上述のように任意のメタデータおよび/またはオーディオ要素が静寂であるとして省略されているかどうかに関わらず、最初の編集単位702に対応するラッピングされたメタデータおよびオーディオ・データは、エッセンス・コンテナ810に、よりコンパクトな複合チャンク802として示される。いくつかの実施形態では、例えばチャンク802の先頭に追加のキーおよび長さを設けることにより、さらに別のKLVラッピング・レイヤ(図示せず)を設けることができ、このキーは、マルチ・オーディオ・オブジェクト・チャンクの識別子に対応し、長さは、この編集単位中に存在する全ての各オブジェクト・オーディオ要素805のサイズと一体化された全オブジェクト・メタデータ要素804のサイズを表す。連続する各編集単位の没入型オーディオも、編集単位Nによってパッケージ化される。MXF標準、およびディジタル映画オーディオ配布の慣例によれば、MXFファイル820は、MXFファイル820の種類および構造を示す記述子822を含み、ファイル・フッタ822において、コンテナ810内の各編集単位のエッセンスのオフセットを提示するインデックス・テーブル823を提供する。すなわち、コンテナに表される連続した各編集単位702のキー・フィールドの最初のバイトのエッセンス・コンテナ810へのオフセットが存在する。このようにして、再生システムは、チャンク(例えば802)のサイズが編集単位ごとに変化する場合でも、映画の任意の所与のフレームについて、より容易且つ迅速に正しいメタデータおよびオーディオ・データにアクセスすることができる。各編集単位の開始時に全オブジェクト・メタデータ要素804を提供することにより、それを、直ちに入手可能であり、オーディオ・データ(例えばチャンク805中のもの)がレンダリングされる前に様々なパニングおよびその他のアルゴリズムを構成するために使用することができる音声オブジェクト・メタデータにすることができるという利点が得られる。これにより、音声定位処理で何が必要になっても、ベスト・ケース・セットアップ時間が可能になる。
図9は、1つの編集単位(例えば1/24秒)またはそれより長い持続時間を含むことがある、ある時間間隔の間の音声オブジェクトについての、図1のミキシング・ステージ100内の例示的な軌道910(位置のシーケンス)を示す、図1のミキシング・ステージ100の簡略化したフロア平面図900を示す図である。軌道910に沿った瞬間位置は、1つまたは複数の異なる方法のうちの1つに従って決定することができる。このミキシング・ステージ100の簡略化フロア平面図900では、分かりやすくするために、多くの細部が省略されている。サウンド・エンジニアは、ミキシング・コンソール120を操作する間、座席110に座っている。提示中の特定の関心のある間隔の間、音声オブジェクトは、軌道910に沿って進行することが望ましい。従って、音声は、間隔の開始時の位置901(方位930沿い)で開始され、間隔の真ん中で位置902を通過し、その後間隔が終了するときに位置903(方位931沿い)に出現するものとする。軌道910の拡大図では、この音声オブジェクトの進行がさらに詳細に分かる。図9に示す中間位置911〜916と、位置901〜903とは、この間隔の全体を通じて一様な間隔で決定された瞬間位置を表している。一実施形態では、中間位置911〜916は、点901と902の間、および点902と903の間の、直線補間として現れる。さらに洗練された補間であれば、さらに滑らかに軌道910に従うことができるが、それほど洗練されていないものでも、位置901から直接位置903までの直線補間920を実行することができる。さらに洗練された補間では、さらに高次の平滑化を行うために、次の間隔および前の間隔における間隔の真ん中の位置(それぞれ位置907および905)を考慮することもある。このような表現は、ある時間間隔にわたる位置メタデータの経済的な表現を提供するが、それでも、それらを使用するための計算コストはそれほどではない。このような中間位置911〜916の計算は、オーディオのサンプリング・レートで行うことができ、その後に、オーディオ・マッピングのパラメータの調整(ステップ622)、およびそれに従ったオーディオの処理(ステップ625)を行うことができる。
図10は、編集単位を含むことができる1つの間隔の間の1つの音声オブジェクトの位置および後続音メタデータを担持するのに適した音声オブジェクト・メタデータ構造1000を示す図である。従って、1つの編集単位の間隔の持続時間を固定すると、データ構造1000の内容は、738および748などの音声オブジェクト・メタデータ値を表す音ができる。図9の軌道910に従うように規定された音声オブジェクトについては、位置Aは、位置データ1001によって、この例では方位角、仰角、および距離{θ,φ,r}を含む上記の表現c3Dを用いて記述される。図9では、この規約は、考慮している会場について、単位距離は、会場の中央から(例えば座席110から)スクリーン(例えば101)までの距離に対応すると想定している。見かけの距離を使用して、距離効果を導入することもできる(より遠いと考えられる音声を、より近いと考えられる音声より小さくしたり、またはかなり遠く離れている音声について高周波数を自動的に減衰させたりすることができる)が、これは厳密には必要ではない。この例では、この編集単位について、位置Aは、位置901に対応し、位置データ1002によって記述される位置Bは、位置902に対応し、位置データ1003によって記述される位置Cは、位置903に対応する。平滑化モード選択子1004は、(a)静止位置(例えば音声が全体を通じて位置Aに現れる)、(b)2点線形補間(例えば音声が軌道920に沿って遷移する)、(c)3点線形補間(例えば点901、911〜913、902、914〜916、903を含む)、(d)平滑化された軌道(例えば軌道910沿い)、または(e)さらに平滑化された軌道(例えば、平滑化の際に、次の間隔の始点906および真ん中の点907と同様に、前の間隔のメタデータの真ん中の点905および終点904を考慮する)から選択することができる。
補間モード(すなわち平滑化モード選択子1004)は、時間とともに変化することができる。例えば、図4Bのオブジェクト3bでは、平滑化モードは、オーディオ要素453の間隔の全体を通じて滑らかにして、観客が車のエンジン音322を彼らの背後に知覚するようにすることもできる。しかし、オーディオ要素454の開始位置からの移行は、(ブレーキ音325の)オーディオ・オブジェクト454の持続時間の全体を通じて滑らかになる前に、不連続になることもある。さらに、異なるレンダリング機器では、補間(平滑化)モードが異なることもある。例えば、線形補間920は、軌道910に沿った滑らかな補間より簡潔である。従って、本発明の原理の実施形態では、滑らかな補間を提供する機能によって少ない数のチャネルを扱うより、より単純な補間でより多くのチャネルを扱うこともできる。
図10の音声オブジェクト・メタデータ構造1000は、図6のステップ623で試験される後続音フラグ1005をさらに含む。後続音フラグ1005は、オーディオ要素(例えばオーディオ要素459)の再生を通じて同じ値を有するが、その後に非後続音のオーディオ要素(例えば、オーディオ要素455および456がチャネルを交換する図4Bへの修正を仮定した場合には、オーディオ要素455)が続く場合には、状態を変化させることもある。
音声オブジェクト・メタデータ構造1000には示していないが、上述したいくつかの実施形態では、構造1000は、対応する音声オブジェクトが、現在805のようなオーディオ要素を有しておらず、従って静寂であることを示すフラグをさらに含むことになる。これにより、その結果得られるアセット・ファイル820はかなりの程度コンパクト化することができる。別の実施形態では、構造1000は、対応するオブジェクト(例えばオブジェクト1)の識別子をさらに含み、普通なら静寂になるオーディオ要素を省略するだけでなく、静寂のオブジェクトをメタデータから省略することができるようにして、さらなるコンパクト化を可能にしながら、ステップ622のオブジェクト・マッピングおよびステップ625のオーディオ処理に十分な情報を提供するようにする。
以上、映画の上映中にオーディオを提示するための技術、さらに詳細には、観客が後続オーディオ音声より先に先行オーディオ音声を聞くように、観客席内の音声再現デバイスからの距離に応じて、後続オーディオ音声を先行オーディオ音声に対して相対的に遅延させる技術について説明した。

Claims (18)

  1. オーディオ・プログラムのオーディオ音声を会場内で再生する方法であって、
    どの音声が先行音で、どの音声が後続音であるかを判定するために、前記オーディオ・プログラムのオーディオ音声を検査するステップと、
    前記先行音および後続音のオーディオ音声を再生するステップであって、観客が後続音のオーディオ音声より先に先行音のオーディオ音声を聞くように、前記会場内の音声再生デバイスからの距離に従って、前記後続音のオーディオ音声を前記先行音のオーディオ音声に対して遅延させる、前記ステップと、
    を含む、前記方法。
  2. 前記オーディオ音声を検査するステップが、前記音声が先行音であるか後続音であるかを識別する、前記オーディオ音声に付随するメタデータを検査するステップを含む、請求項1に記載の方法。
  3. 前記オーディオ音声を検査するステップが、別の音声との所定の関係に基づいて、オーディオ音声を後続音として自動的に指定するステップを含む、請求項1に記載の方法。
  4. 前記再生するステップが、前記先行音声および後続音声を異なるオーディオ再生デバイスにマッピングするステップを含む、請求項1に記載の方法。
  5. 前記マッピングするステップが、前記先行音声および後続音声のうちの少なくとも1つが前記メタデータに従って前記会場に対して進む軌道を定めるステップを含む、請求項4に記載の方法。
  6. 各オーディオ再生デバイスを、そのオーディオ再現デバイスにマッピングされた全ての音声の和に従って生成された信号によって駆動するステップをさらに含む、請求項4に記載の方法。
  7. 各音声の軌道を定める前記ステップが、少なくともデカルト座標および極座標のうちの1つにおける方向を決定するステップを含む、請求項5に記載の方法。
  8. 没入型音声トラックを会場内で映画と関連付けて再生するようにオーサリングする方法であって、
    前記没入型音声トラックに含める音声を収集するステップと、
    音声が先行音および後続音であることを識別する、前記収集した音声のメタデータを生成するステップと、
    前記音声および関連付けられたメタデータを、それらの音声が再生される時に応じて複数の単位中に時間順に配列するステップとを含む、方法。
  9. 前記メタデータが手動で作成される、請求項8に記載の方法。
  10. 前記メタデータが、どの音声が後続音であるかを具体的に指定することによって手動で作成される、請求項9に記載の方法。
  11. 前記メタデータが、オーディオ音声間の所定の関係に従って自動的に作成される、請求項8に記載の方法。
  12. 前記メタデータが、音声が前記会場内を進む軌道を定める情報を含む、請求項8に記載の方法。
  13. 前記軌道を定める前記情報が、少なくともデカルト座標および極座標のうちの1つにおける方向を含む、請求項12に記載の方法。
  14. 前記配列された音声およびメタデータを、通信プロトコルまたは配布パッケージのうちの1つに符号化するステップをさらに含む、請求項8に記載の方法。
  15. 前記オーディオ音声を検査するステップが、メタデータ中に指定されている別の音声との関係に基づいてオーディオ音声が後続音であると自動的に指定するステップを含む、請求項1に記載の方法。
  16. 前記判定するステップの結果として、どの音声が先行音で、どの音声が後続音であるかを示す、前記音声と関連付けられたメタデータを生成するステップをさらに含む、請求項1に記載の方法。
  17. 前記オーディオ音声を検査するステップが、別の音声との所定の関係に基づいて、オーディオ音声を後続音であると自動的に指定するステップを含む、請求項16に記載の方法。
  18. 前記オーディオ音声を検査するステップが、オーサリング・ツールのユーザ・インタフェースを介して、どのオーディオ音声が後続音のオーディオ音声であるかに関するユーザからの指示を受け取るステップを含む、請求項16に記載の方法。
JP2016506304A 2013-04-05 2013-07-25 没入型オーディオの残響音場を管理する方法 Pending JP2016518067A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361808709P 2013-04-05 2013-04-05
US61/808,709 2013-04-05
PCT/US2013/051929 WO2014163657A1 (en) 2013-04-05 2013-07-25 Method for managing reverberant field for immersive audio

Publications (1)

Publication Number Publication Date
JP2016518067A true JP2016518067A (ja) 2016-06-20

Family

ID=48918476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016506304A Pending JP2016518067A (ja) 2013-04-05 2013-07-25 没入型オーディオの残響音場を管理する方法

Country Status (9)

Country Link
US (1) US20160050508A1 (ja)
EP (1) EP2982138A1 (ja)
JP (1) JP2016518067A (ja)
KR (1) KR20150139849A (ja)
CN (1) CN105210388A (ja)
CA (1) CA2908637A1 (ja)
MX (1) MX2015014065A (ja)
RU (1) RU2015146300A (ja)
WO (1) WO2014163657A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020045126A1 (ja) * 2018-08-30 2020-03-05 ソニー株式会社 情報処理装置および方法、並びにプログラム
KR102680422B1 (ko) * 2018-08-30 2024-07-03 소니그룹주식회사 정보 처리 장치 및 방법, 그리고 프로그램

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015207271A1 (en) 2014-01-16 2016-07-28 Sony Corporation Sound processing device and method, and program
US10261519B2 (en) * 2014-05-28 2019-04-16 Harman International Industries, Incorporated Techniques for arranging stage elements on a stage
US9560467B2 (en) * 2014-11-11 2017-01-31 Google Inc. 3D immersive spatial audio systems and methods
ES2797224T3 (es) 2015-11-20 2020-12-01 Dolby Int Ab Renderización mejorada de contenido de audio inmersivo
EP3209035A1 (en) * 2016-02-19 2017-08-23 Thomson Licensing Method, computer readable storage medium, and apparatus for multichannel audio playback adaption for multiple listening positions
WO2017173776A1 (zh) * 2016-04-05 2017-10-12 向裴 三维环境中的音频编辑方法与系统
WO2017192972A1 (en) 2016-05-06 2017-11-09 Dts, Inc. Immersive audio reproduction systems
EP3293987B1 (en) * 2016-09-13 2020-10-21 Nokia Technologies Oy Audio processing
CN106448687B (zh) * 2016-09-19 2019-10-18 中科超影(北京)传媒科技有限公司 音频制作及解码的方法和装置
EP3523793A2 (en) * 2016-10-06 2019-08-14 IMAX Theatres International Limited Cinema light emitting screen and sound system
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US10531219B2 (en) * 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US10841726B2 (en) 2017-04-28 2020-11-17 Hewlett-Packard Development Company, L.P. Immersive audio rendering
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
CN107182003B (zh) * 2017-06-01 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 机载三维通话虚拟听觉处理方法
WO2019035622A1 (ko) * 2017-08-17 2019-02-21 가우디오디오랩 주식회사 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
US10531209B1 (en) 2018-08-14 2020-01-07 International Business Machines Corporation Residual syncing of sound with light to produce a starter sound at live and latent events
US10880594B2 (en) * 2019-02-06 2020-12-29 Bose Corporation Latency negotiation in a heterogeneous network of synchronized speakers
GB2582910A (en) * 2019-04-02 2020-10-14 Nokia Technologies Oy Audio codec extension
EP4085660A4 (en) 2019-12-30 2024-05-22 Comhear Inc. METHOD FOR PROVIDING A SPATIAL SOUND FIELD
US11246001B2 (en) 2020-04-23 2022-02-08 Thx Ltd. Acoustic crosstalk cancellation and virtual speakers techniques
US11564052B2 (en) 2021-01-21 2023-01-24 Biamp Systems, LLC Loudspeaker array passive acoustic configuration procedure
CN117812504B (zh) * 2023-12-29 2024-06-18 恩平市金马士音频设备有限公司 一种基于物联网的音频设备音量数据管理系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2006583B (en) 1977-10-14 1982-04-28 Dolby Lab Licensing Corp Multi-channel sound systems
CA3157717A1 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
CA3151342A1 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
WO2013006323A2 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation Equalization of speaker arrays

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020045126A1 (ja) * 2018-08-30 2020-03-05 ソニー株式会社 情報処理装置および方法、並びにプログラム
JPWO2020045126A1 (ja) * 2018-08-30 2021-08-10 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
US11368806B2 (en) 2018-08-30 2022-06-21 Sony Corporation Information processing apparatus and method, and program
US11849301B2 (en) 2018-08-30 2023-12-19 Sony Group Corporation Information processing apparatus and method, and program
JP7491216B2 (ja) 2018-08-30 2024-05-28 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
KR102680422B1 (ko) * 2018-08-30 2024-07-03 소니그룹주식회사 정보 처리 장치 및 방법, 그리고 프로그램

Also Published As

Publication number Publication date
KR20150139849A (ko) 2015-12-14
RU2015146300A (ru) 2017-05-16
WO2014163657A1 (en) 2014-10-09
CN105210388A (zh) 2015-12-30
CA2908637A1 (en) 2014-10-09
MX2015014065A (es) 2016-11-25
US20160050508A1 (en) 2016-02-18
EP2982138A1 (en) 2016-02-10

Similar Documents

Publication Publication Date Title
JP2016518067A (ja) 没入型オーディオの残響音場を管理する方法
JP7033170B2 (ja) 適応オーディオ・コンテンツのためのハイブリッドの優先度に基づくレンダリング・システムおよび方法
RU2741738C1 (ru) Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала
US9299353B2 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US7756275B2 (en) Dynamically controlled digital audio signal processor
CN105578380A (zh) 用于自适应音频信号产生、编码和呈现的系统和方法
RU2820838C2 (ru) Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала
Ott et al. Spatial audio production for immersive fulldome projections
Candusso Designing sound for 3D films
Vilkaitis et al. Ambisonic Sound Design for Theatre with Virtual Reality Demonstration-A Case Study
Stevenson Spatialisation, Method and Madness Learning from Commercial Systems
Scott Audio in 2011