JP5688030B2

JP5688030B2 - 三次元音場の符号化および最適な再現の方法および装置

Info

Publication number: JP5688030B2
Application number: JP2011542729A
Authority: JP
Inventors: ソレ，アントニオマテオス; アルボ，パウアルミ
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2008-12-30
Filing date: 2009-12-29
Publication date: 2015-03-25
Anticipated expiration: 2029-12-29
Also published as: CN102326417B; WO2010076040A1; RU2011131868A; UA106598C2; RU2533437C2; EP2205007A1; EP2382803A1; CN102326417A; JP2012514358A; EP2205007B1; EP2382803B1; US9299353B2; US20110305344A1; MX2011007035A

Description

本発明は、三次元音場の符号化、配信および復号化を改良するための技術に関する。特に、本発明は、呈示（再生）用配置（ｅｘｈｉｂｉｔｉｏｎｓｅｔｕｐ）に依存しない仕方で、空間情報を有するオーディオ信号を符号化し、所与の呈示システム（マルチスピーカ配置またはヘッドフォン）に最適に復号化する技術に関する。

マルチチャンネルの再生および聴取に際して、リスナーは一般に複数のスピーカに囲まれている。再生に際しての一般的な目的の１つとしては、リスナーが音源の意図された場所（たとえば、楽団の演奏者の場所）を知覚できる音場を構築することである。様々なスピーカ配置により様々な空間的印象を創造することができる。たとえば、標準的なステレオ配置は、２つのスピーカ間の空間においては音場面を納得のいくように再現することができるが、２つのスピーカの外側の角度ではそのような目的は達成できない。

より多くのスピーカでリスナーを囲む配置は、より広い角度範囲においてより良い空間的印象を実現できる。たとえば、最も周知のマルチスピーカ配置規格の１つとして、リスナーの周り−３０、０、３０、−１１０、１１０度（０度は正面方向を示す）の方位角に位置した５つのスピーカからなるサラウンド５．１（ＩＴＵ−Ｒ７７５−１）がある。しかしながら、このようなスピーカ配置はリスナーの水平面より高い音声に対処できない。

リスナーの臨場感を高めるために、現在の傾向としては、様々な高さのスピーカを含む多くのスピーカ配置を活用することにある。ＮＨＫ（日本）のハマサキによって開発された２２．２システムはその一例である。２２．２システムは、３つの異なる高さに位置する合計２４のスピーカからなる。

そのような配置に関して、商業用用途における空間オーディオを作成するための現在のパラダイムとしては、再生時に使用される各チャンネルに１つのオーディオトラックを割り当てることである。たとえば、２つのオーディオトラックがステレオ配置に必要であり、６つのオーディオトラックが５．１配置において必要とされる等である。これらのトラックは、放送用の録音段階において直接作成することもできるが、通常は編集段階で得られる。留意すべきは、多くの場合、同一のオーディオチャンネルを再生するために２、３のスピーカが使用されることである。これは、各サラウンドチャンネルが３つ以上のスピーカを介して再生される５．１映画館ほとんどの場合がそうである。従って、このような場合、スピーカの数は６つより多い可能性があるが、異なるオーディオチャンネルの数は６つのままであり、再生される異なる信号は合計６つのみである。

この１トラック−１チャンネルパラダイムの重要点の一つは、録音および編集段階においてなされる作業を、コンテンツが呈示される呈示用配置と結びつけるということである。たとえば、放送に際しての録音段階において、使用されるマイクロフォンの種類や位置およびそれらが組み合わされる仕方は、コンテンツが再生されるであろう配置の関数として決定される。同様に、メディアの作成において、編集技術者は、コンテンツが呈示される配置の詳細を知る必要があり、そして全てのチャンネルを管理する必要がある。それに合わせてコンテンツが調整されているように呈示用マルチスピーカ配置を正しく設定できないと、再生品質が低下してしまう。コンテンツを異なる配置において呈示する場合、異なるバージョンを編集において作成する必要がある。これによりコストが高くなり消費時間も増えてしまう。

この１トラック−１チャンネルパラダイムの別の重要点は、必要なデータのサイズである。まず、追加の符号化を行わない場合、このパラダイムはチャンネルと同じだけのオーディオトラックを必要とする。一方、異なるバージョンが提供される場合、それらは別々に提供されるか、いくらかのダウンミックスが行われる必要がある。別々に提供される場合は、さらにデータサイズが増えてしまい、ダウンミックスが行われる場合は、得られる品質を損なってしまう。

最後に、この１トラック−１チャンネルパラダイムの別の不都合な点は、この方法で作成されたコンテンツは将来性がないということである。たとえば、５．１配置用に作成された所与のフィルムに存在する６つのトラックは、リスナーの上方に位置する音源を含まず、異なる高さのスピーカによる配置を十分に活用しない。

現在、呈示システムに依存しない空間オーディオを提供することができる２、３の技術が存在する。おそらく最も簡便な技術は、いわゆるＶＢＡＰ法（Ｖｅｃｔｏｒ−ＢａｓｅｄＡｍｐｌｉｔｕｄｅＰａｎｎｉｎｇ）の様な、振幅パンニングである。これは、同一のモノラル信号を、各スピーカの音量を調節しながら、音源が位置するように意図される位置に、より近いスピーカへ送信することに基づく。このようなシステムは、二次元または三次元（高さを有する）配置において、典型的には、２つまたは３つのより近いスピーカをそれぞれ選択することにより機能することができる。この方法の１つの効果は、大きなスイート・スポットが得られるということである。つまり、意図された方向から聞こえてくるように音声を知覚できる、広い領域がスピーカ配置内にある。しかしながら、この方法は、反響室に存在するもののような反響音場を再現するのにも、大きな広がりを有する音源にも適していない。音源より発せられた音声のせいぜい最初の反響は、これらの方法により再生することができるが、これは費用のかかる低品質な解決策である。

アンビソニックス（Ａｍｂｉｓｏｎｉｃｓ）は、呈示システムに依存しない空間オーディオを提供することができる別の技術である。アンビソニックスは、ＭｉｃｈａｅｌＧｅｒｚｏｎによって７０年代に案出され、完全な符号化−復号化連鎖法を提供する。符号化時に、ある点における音場の球面調和関数の１セットが保存される。ゼロ次（Ｗ）は、その点において全指向性マイクロフォンが録音するということを示す。３つの信号（Ｘ，Ｙ，Ｚ）からなる１次は、直交軸で揃えられ、その点において３つの８の字形マイクロフォンが録音するということを示す。高次信号は、より複雑なパターンのマイクロフォンが録音するということを示す。各次数の信号のいくつかのサブセットのみが使用される、混合次数アンビソニックス符号化が存在する。たとえば、１次アンビソニックスにおいてＷ、Ｘ、Ｙ信号のみを使用して、Ｚ信号が無視されることがある。１次より大きい信号は、編集中または音場シミュレーションによって簡単に生成されるが、マイクロフォンにより実音場で録音する際に生成するのはより難しい。実際、ゼロおよび１次信号を計測することができるマイクロフォンのみが、まさに最近まで商業用用途に利用可能とされてきた。１次アンビソニックスマイクロフォンの例としては、Ｓｏｕｎｄｆｉｅｌｄ、および、より最近はＴｅｔｒａＭｉｃが挙げられる。復号化時、マルチスピーカ配置（スピーカの数および位置）が特定されると、各スピーカに送られるべき信号が、一般的には完全な配置により生成される音場が、意図された音場（編集時に作成された音場、または、録音時の信号からの音場）に可能な限り近づく要請のもとに、決定される。呈示システムに依存しないことに加え、この技術の更なる利点は、これにより提供される高レベルの操作性（基本的にはサウンドスケープ回転およびズーム）であり、反響音場を正確に再現できるということである。

しかしながら、アンビソニックス技術には主に２つのデメリットがある。つまり、狭域音源を再生することができないこと、およびスイート・スポットが小さいということである。狭域または広域音源の概念は、本明細書では、知覚できる音像の角度幅を指して使用している。第１の問題は、超狭域音源を再生しようとしても、アンビソニックス復号化は、音源の意図された位置に近いスピーカ以外のスピーカもＯＮしてしまうということに起因する。第２の問題は、スイート・スポットにおいては、各スピーカから出る音波が同位相で足し合わされ所望の音場を作成するが、スイート・スポット外においては、音波は正しい位相では干渉しないということに起因する。これは音色を変化させ、より重要には、周知の音響心理的効果により、音声がリスナーに近いスピーカから聞こえてくるように知覚される傾向にある。固定サイズの聴取室に関して言えば、両方の問題を軽減するための唯一の方法は、使用されるアンビソニックス次数を増やすことである。しかし、これは、使用されるチャンネルおよびスピーカの数も著しく増やすことを意味する。

なお、任意の音場を正確に再現することができる別の技術、いわゆるＷＦＳ（ＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓ）が存在する。しかしながら、この技術はスピーカ間の間隔を１５〜２０ｃｍ未満にしなければならない。スピーカ同士を接近させなければならず（結果として品質低下）、必要なスピーカの数を莫大に増加させる（現在の用途では１００〜５００のスピーカを必要とする）という事実があり、その用途はとても高級で特別なイベントに制限される。

望ましいことは、呈示用配置（二次元または三次元）に依存することなく配信され得る空間オーディオコンテンツを提供することができ、呈示用配置が特定されたなら、その性能を十分に発揮して全ての種類の音場（狭域音源、反響音場または拡散音場）を、空間内の全てのリスナーに対して再現し得るよう、すなわち、大きなスイート・スポットを有して、且つ、大量のスピーカを要さないで再現できるよう、復号化できる技術を提供することである。これにより、現在ある全ての、および将来のマルチスピーカ配置に容易に適合するという意味において、将来性のあるコンテンツが作成可能となる。さらに、映画館またはホームユーザは、自身が選んだ配置の能力を十分に発揮させられる多くのコンテンツが出てくるであろうという確信のもとで、要求や目的に合うマルチスピーカ配置を選択することができる。

空間情報を有するオーディオを、呈示用配置に依存しない仕方で符号化し、異なる高さのスピーカを有する配置やヘッドフォンを含む任意の所与の呈示用配置に、最適に復号化および再生する方法および装置を提供する。

本発明は、所与のいくつかの入力されたオーディオ素材を、２つのグループ、つまり、高い指向性定位を必要とするオーディオを含む第１グループ、および、低次アンビソニックス技術により提供された定位で十分であるオーディオを含む第２グループに割り当てることにより、オーディオ素材を呈示用配置に依存しないフォーマットに符号化する方法に基づく。

第１グループにおける全てのオーディオは、関連のメタデータを有する独立したモノラルオーディオトラックのセットとして符号化される。以下に記載されるように、いくつかの制限が特定の実施形態では課されているが、独立したモノラルオーディオトラックの数は制限されない。メタデータは、このような各オーディオトラックが再生される正確な瞬間に関する情報、および、少なくとも各瞬間における信号の起点方向を示す空間情報を含む。第２グループにおける全てのオーディオは、所与の次数のアンビソニックス信号を表現するオーディオトラックのセットに符号化される。特定の実施形態では、２セット以上のアンビソニックチャンネルが使用され得るが、理想的には、１セットのアンビソニックスチャンネルが使用される。

再生時に、呈示システムが把握されると、オーディオチャンネルの第１グループは、音源の意図された位置の周りにある少数のスピーカを使用する標準のパンニングアルゴリズムを使用して、復号化され再生される。オーディオチャンネルの第２グループは、所与の呈示システムに最適化されたアンビソニックス復号器を使用して、復号化され再生される。

本方法および装置は、以下に記載されるように上記課題を解決する。

第一に、一般的な作成におけるオーディオの録音、編集、および配信段階を、コンテンツが呈示される配置に、依存しないものとすることができる。この事実の一般的な利点の一つは、この方法により作成されたコンテンツは、現在ある、または将来のあらゆる任意のマルチスピーカ配置に、適合できるという意味において、将来性があるということである。この特性は、アンビソニックス技術によっても満たされる。

第二に、かなり狭域の音源を正しく再生することができる。これらは、関連の指向性メタデータを有する個々のオーディオトラックに符号化され、二次元または三次元のＶＢＡＰ法のような、音源の意図された位置の周りの少数のスピーカを使用する復号化アルゴリズムが可能となる。これに対して、アンビソニックスは、同じ結果を得るためには、高次アンビソニックスの使用を必要とし、これにともなって関連トラック数、データ、および復号化の複雑さが増加する。

第三に、本方法および装置は、ほとんどの場合において大きなスイート・スポットを提供でき、これにより最適な音場が再現されるエリアを拡大できる。これは、スイート・スポットの低減に関与するオーディオの全ての部分を、第１グループのオーディオトラックに配分することにより達成される。たとえば、図８に示され、以下に記載される本実施形態においては、ダイアログの直音が、聞こえてくる方向に関する情報を有する独立したオーディオトラックとして符号化され、反響部分は１次アンビソニックストラックのセットとして符号化される。従って、聴取者のほとんどは、この音源の直音を正確な位置から、意図された方向の周りの２、３のスピーカから聞こえてくるように知覚する。このように、直音から、逆相着色（ｏｕｔ−ｏｆ−ｐｈａｓｅｃｏｌｏｕｒａｔｉｏｎ）および先行音効果が排除されることにより、音像は正しい位置にとどめられる。

第四に、１トラック−１チャンネルパラダイム、および、より高次のアンビソニックス符号化と比較すると、本方法を使用することにより、マルチスピーカオーディオ符号化のほとんどの場合において、符号化されたデータの量は低減する。この事実は、記憶および配信の目的において好都合である。このデータサイズ低減の理由は２つある。まず一つには、高指向性オーディオを狭域オーディオプレイリストへ割り当てることにより、広域の、拡散した、または高くない指向性オーディオからなるサウンドスケープの残りの部分の再現には、１次アンビソニックスのみを使用することが可能となる。従って、１次アンビソニックスグループの４つのトラックで十分である。対照的に、高次アンビソニックスは、狭域音源を正しく再現するのに必要であり、これは、たとえば３次アンビソニックスには１６のオーディオチャンネル、４次アンビソニックスには２５のオーディオチャンネルを必要とする。もう一つの理由は、同時に再生する必要のある狭域音源の数は、多くの場合少ないことである。これは、たとえば映画のような場合であり、ダイアログおよび２，３の特殊なサウンド効果のみが、一般的に狭域オーディオプレイリストに割り当てられる。さらに、狭域オーディオプレイリストグループにおける全てのオーディオは、その音源の持続時間にのみ対応する長さを有する個々のトラックのセットである。たとえば、１シーンにおいて３秒現れる車に対応するオーディオは３秒しか続かない。そのため、２２．２配置のフィルムのサウンドトラックが作成される映画用途の例においては、１トラック−１チャンネルパラダイムは２４のオーディオトラックを必要とし、３次アンビソニックス符号化は１６のオーディオトラックを必要とする。これに対し、本提案にかかる呈示用配置に依存しないフォーマットにおいては、フルレングスの僅か４つのオーディオトラック、および、選択された狭域音源の意図された持続時間をカバーするためにのみ最小限にされた異なる長さの独立したオーディオトラックのセットを、必要とするだけである。

図１は、初期オーディオトラックの所与のセットを選択および符号化し、最終的に、任意の呈示用配置において最適にそれらを復号化および再生する方法の一実施形態を示す。図２は、空間情報を有する狭域オーディオプレイリストおよびアンビソニックストラックの２つのグループのオーディオを有する、本提案にかかる呈示用配置に依存しないフォーマットのスキームを示す。図３は、オーディオの各グループを処理するために異なるアルゴリズムを使用する復号器を示す。図４は、オーディオの２つのグループを再符号化できる方法の実施形態を示す。図５は、呈示用配置に依存しないフォーマットが、ディスクまたは他の種類のメモリに記憶された完全なオーディオファイルの代わりに、オーディオストリームに基づくことができる実施形態を示す。図６は、任意の呈示用配置においてコンテンツを再生することができる復号器に、呈示用配置に依存しないフォーマットが入力される、上記方法の更なる実施形態を示す。図７は、オーディオの両グループに関する簡単な操作に対応する、回転工程に関するいくつかの技術的詳細を示す。図８は、オーディオビジュアル編集フレームワークにおける上記方法の実施形態を示す。図９は、仮想シーン（たとえば、アニメ映画または３Ｄゲーム）におけるオーディオ作成および編集の一部としての、上記方法の更なる実施形態を示す。図１０は、デジタル映画サーバーの一部としての、上記方法の更なる実施形態を示す。図１１は配信前にコンテンツを復号化できる、映画用の上記方法のさらに別の実施形態を示す。

図１は、初期オーディオトラックの所与のセットを選択および符号化し、最終的に任意の呈示用配置において最適にそれらを復号化および再生する、本方法の一実施形態を示す。つまり、利用可能なスピーカに合わせて、できる限りスイート・スポットを拡大することにより、所与のスピーカ位置に、空間音場をできる限り良好に再現する。たとえば、任意の指向性パターンまたは周波数応答を有する任意の種類のマイクロフォンを使用することにより、あるいは、任意の次数または混合次数のアンビソニックス信号のセットを伝送することができるアンビソニックスマイクロフォンを使用することにより、また或いは、合成により生成されたオーディオや反響室のような効果を使用することにより、初期オーディオを任意の音源から発生させることができる。

選択および符号化工程は、初期オーディオから２つのグループのトラックを生成することからなる。第１グループは、限られた定位を必要とするオーディオの部分からなり、第２グループは所与のアンビソニックス次数の指向性で十分である残りのオーディオからなる。第１グループに割り当てられたオーディオ信号は、時間に沿ったその起点の方向やその初期再生時間に関する空間メタデータを伴って、モノラルオーディオトラックに保持される。

選択は、ユーザによって行われる工程であるが、ある種類の初期オーディオでは、デフォルト動作で行われる。一般的な場合（すなわち、非アンビソニックスオーディオトラックの場合）、ユーザは、初期オーディオ、その音源方向、上述した符号化グループに対応する音源の種類（すなわち、狭域音源またはアンビソニックス音源）の各項目を定義する。方向角は、たとえば、リスナーに対する音源の方位角および高度により定義することができ、トラック毎の固定値または時変データとして特定することができる。トラックのいくつかに指向性がない場合、たとえば、そのようなトラックを所与の固定された特定方向に割り当てることにより、デフォルト割り当てを定義することができる。

場合によっては、方向角は広がりパラメータに関連し得る。広域、狭域という用語は、本明細書においては、音源の知覚される音像の角度幅と理解されたい。たとえば、広がりを測る方法は、区間［０，１］における値を使用する。このとき、値０は完全な指向性音（つまり、ただ１つの区別可能な方向から発せられる音声）を示し、値１は同じエネルギーであらゆる方向から到着する音声を示す。

初期トラックのいくつかの種類には、デフォルト動作が定義される。たとえば、ステレオペアとして特定されたトラックは、それぞれＬチャンネルおよびＲチャンネルに、−３０度および３０度の方位角でアンビソニックスグループに割り当てることができる。サラウンド５．１（ＩＴＵ−Ｒ７７５−１）として特定されたトラックは、同様に、−３０、０、３０、−１１０、１１０度の方位角にマッピングすることができる。最終的に、１次アンビソニックス（Ｂフォーマット）として特定されたトラックは、さらなる指向性情報を必要とせずアンビソニックスグループに割り当てることができる。

図１の符号化工程は、上記ユーザが定義した情報を取り込み、図２で示したような、空間情報を有する呈示用配置に依存しないオーディオフォーマットを出力する。第１グループの符号化工程の出力は、所与の参照システムに対する起点方向、またはオーディオの広がり特性を含む関連空間メタデータを有する、異なる音源に対応するオーディオ信号を有するモノラルオーディオトラックのセットである。第２グループのオーディオの変換工程の出力は、アンビソニックスグループにおける全ての音源の混合次数に対応する、選択された次数のアンビソニックストラック（たとえば、１次アンビソニックスが選択された場合４つのトラック）のセットである。

符号化工程の出力は、次に、選択された呈示用配置に関する情報を使用する復号器によって使用され、この配置の各チャンネルにつき１つのオーディオトラックまたはオーディオストリームを作成する。

図３は、異なるアルゴリズムを使用して、オーディオの各グループを処理する復号器を示す。アンビソニックストラックのグループは、特定の配置に適したアンビソニックス復号器を使用して復号化される。狭域オーディオプレイリストにおけるトラックは、この目的に適したアルゴリズムを用いて復号化され、つまり、これらは各トラックのメタデータ空間情報を使用して、通常、各トラックの意図された位置の周りのきわめて少数のスピーカを使用して復号化する。このようなアルゴリズムの１例としては、ＶＢＡＰ法が挙げられる。時間メタデータを使用して、正しい時点でこのような各オーディオの再生を開始する。復号化されたチャンネルは最後に、スピーカまたはヘッドフォンに再生のために送られる。

図４は、２つのグループのオーディオが再符号化され得る方法の更なる実施形態を示す。一般的な再符号化工程は、関連する指向性メタデータを有するＮ個の異なるオーディオトラックを含む狭域オーディオプレイリスト、および所与の次数Ｐと所与のタイプの混合次数Ａ（たとえば、ゼロ次および１次の全てのトラックを含むが、２次信号に対応するトラックは２つしか含まない）のアンビソニックストラックのセットを入力として取り込む。再符号化工程の出力は、関連する指向性メタデータを有するＭ個の異なるオーディオトラックを含む狭域オーディオプレイリスト、および所与の次数Ｑと所与のタイプの混合次数Ｂのアンビソニックストラックのセットである。再符号化工程において、Ｍ、Ｑ、ＢはそれぞれＮ、Ｐ、Ａとは異なり得る。

たとえば、含まれるデータの数を減らすため再符号化が用いられ得る。これは、たとえば狭域オーディオプレイリストに含まれる１以上のオーディオトラックを選択し、それらを、モノラルトラックに関連した指向性情報を利用するモノラル−アンビソニックス変換により、アンビソニックスグループに割り当てることにより達成される。この場合、再符号化された狭域オーディオのアンビソニックスへの割り当てにより、Ｍ＜Ｎを満たすことができる。同じ目的により、例えば、平面的な呈示用配置において再生される必要があるもののみを保持しておくことにより、アンビソニックストラックの数を減らすことができる。所与の次数Ｐのアンビソニックス信号の数が（Ｐ＋１）２である時、平面配置への削減により、その数を１＋２Ｐに減らすことができる。

再符号化工程の別の用途としては、所与の狭域オーディオプレイリストに必要とされる同時オーディオトラックの削減である。たとえば、放送用途において、同時に再生できるオーディオトラックの数を限定することが望ましい場合がある。これもまた、狭域オーディオプレイリストのいくつかのトラックを、アンビソニックグループに割り当てることにより解決される。

場合によっては、狭域オーディオプレイリストは、これが含むオーディオの関連性（狭域音源用のアルゴリズムを用いて復号化される各オーディオについて、それがどの程度重要かということを示す）を示すメタデータを含むことができる。このメタデータは、少なくとも関連のあるオーディオをアンビソニックスグループに自動的に割り当てることに用いられ得る。

再符号化工程のさらに別の使用としては、単純に、ユーザが、狭域オーディオプレイリストにおけるオーディオをアンビソニックスグループに割り当てることができ、または、美的目的のために、アンビソニックスグループの次数や混合次数タイプを変更することができる。さらに、アンビソニックスグループから狭域オーディオプレイリストへ、オーディオを割り当てることも可能である。１つの可能性としてはゼロ次のトラックの一部分だけを選択して、その空間メタデータと手動で関連付けることが可能であり、別の可能性としては、ＤｉｒＡＣアルゴリズムのような、アンビソニックストラックから音源の位置を推定するアルゴリズムを使用することが可能である。

図５は、本提案にかかる呈示用配置に依存しないフォーマットが、ディスクまたは他の種類のメモリに記憶された完全なオーディオファイルの代わりに、オーディオストリームに基づくことができる、本発明のさらなる実施形態を示す。放送シナリオにおいて、オーディオのバンド幅は限定および固定されており、それ故、同時に流れ得るオーディオチャンネルの数が限定される。本提案にかかる方法は、まず、利用可能なオーディオストリームを２つのグループ、すなわち、狭域オーディオストリームおよびアンビソニックスストリームに分離し、次に、中間ファイルに基づく呈示用配置に依存しないフォーマットを、限定された数のストリームに再符号化する。

このような再符号化は、上記段落において説明された技術を使用し、必要な場合は、狭域オーディオ部分（低関連トラックをアンビソニックスグループに再割り当てすることにより）と、アンビソニックス部分（アンビソニックス成分を除去することにより）との、両方の同時トラックの数を低減することができる。

オーディオストリーミングは、連続ストリームにおける狭域オーディオトラックを連結させる必要性、および、利用可能なストリーミング設備において狭域オーディオ指向性メタデータを再符号化する必要性のような、更なる特異性を有する。オーディオストリーミングフォーマットによりそのような指向性メタデータをストリーミングできない場合、単一のオーディオトラックを確保し、正しい方法で符号化されたこのメタデータを搬送するべきである。

以下の簡単な例で、これについてより詳細に説明する。１次アンビソニックス（４チャンネル）および最大４つの同時チャンネルを有する狭域オーディオプレイリストを使用する、本提案にかかる呈示用配置に依存しないフォーマットの映画のサウンドトラックについて考える。このサウンドトラックは、デジタルテレビの６チャンネルのみを使用して流される。図５に示すように、再符号化は３つのアンビソニックスチャンネル（Ｚチャンネルを除去）および２つの狭域オーディオチャンネル（つまり、最大２つの同時トラックをアンビソニックスグループに再割り当てする）を使用する。

場合によっては、本提案にかかる呈示用配置に依存しないフォーマットは、圧縮されたオーディオデータを利用することができる。圧縮されたオーディオデータは、本提案にかかる呈示用配置に依存しないフォーマットの両フレーバー（つまり、ファイルに基づくもの、またはストリームに基づくもの）において使用可能である。心理音響的圧縮フォーマットが使用される場合、圧縮は空間が再現される品質に影響を及ぼす可能性がある。

図６は、上記方法の更なる実施形態として、任意の呈示用配置においてコンテンツを再生することができる復号器に、呈示用配置に依存しないフォーマットを入力するものを示す。呈示用配置は、多数の異なる方法にて特定され得る。この復号器は、サラウンド５．１（ＩＴＵ−Ｒ７７５−１）のような、ユーザが簡単にユーザの呈示用配置と適合するように選択することができる標準プリセットを有することができる。この選択により、場合によっては、ある程度の調整でユーザの特定の配置におけるスピーカの位置を微調整することができる。場合によっては、ユーザは、たとえば音声、超音波、または赤外線技術により、各スピーカの位置を突き止めることができる何らかの自動検出システムを使用することもある。呈示用配置の仕様は無制限回数、再構成することができ、これにより、ユーザは現在および将来のマルチスピーカ配置に適合させることができる。復号器は複数の出力を有しているので、異なる配置における同時再生に関して、異なる復号化工程を同時に行うことができる。理想的には、復号化は、プレイアウトシステムのあらゆる可能な等化の前に行う。

再生システムがヘッドフォンである場合、復号化は標準のバイノーラル技術によりなされる。頭部伝達関数（ＨＲＴＦ）の１つまたは様々なデータベースを用いて、本方法において提案されたオーディオの両グループ（狭域オーディオプレイリストおよびアンビソニックストラック）に適合したアルゴリズムを用いて、空間音声を生成することができる。これは、通常、最初に、上述のアルゴリズムを用いて仮想マルチスピーカ配置へ復号化し、次に仮想スピーカの位置に対応するＨＲＴＦを用いて、各チャンネルをコンボリュートすることにより達成される。

マルチスピーカ配置またはヘッドフォンへの呈示に関して、上記方法の更なる一実施形態は、呈示段階における全体のサウンドスケープの最終回転を可能にする。これは多数の方法において有用である。ある用途においては、ヘッドフォンを装着したユーザは、その頭の向きに関するパラメータを測定し、それに従って、全体のサウンドスケープを回転させる頭部追跡機構を有することができる。

図７は、オーディオの両グループ対する簡単な操作に対応する、回転工程に関するいくつかの技術的詳細を示す。アンビソニックストラックの回転は、異なる回転マトリクスを全てのアンビソニックス次数に適用することにより行われる。これは周知の手順である。一方、狭域オーディオプレイリストにおける各トラックに関連付けられた空間メタデータは、所与の方向を向くリスナーが知覚する音源の方位角および高度を、簡単にコンピュータ計算することによって修正することができる。これも簡単な標準的計算である。

図８は、オーディオビジュアル編集フレームワークにおける上記方法の実施形態を示す。ユーザは、デジタルオーディオワークステーションであり得る編集ソフトウェアに、全てのオーディオコンテンツを有する。ユーザは、標準のまたは専用のプラグインを用いて、定位が必要な各音源の方向を特定する。本提案にかかる中間の呈示用配置に依存しないフォーマットを生成するために、モノラルトラックプレイリストにおいて符号化されるオーディオ、およびアンビソニックスグループにおいて符号化されるオーディオを選択する。この割り当ては様々な方法によりなされる。一実施形態においては、ユーザは、プラグインを介して指向性係数を各音源に割り当て、次に、これを用いて、所与の値より大きい指向性係数を有する全ての音源を狭域オーディオプレイリストに割り当て、残りをアンビソニックスグループに自動的に割り当てる。別の実施形態においては、いくつかのデフォルト割り当てをソフトウェアにより行う。たとえば、ユーザによって別段指定されない限り、全てのオーディオの反響部分、およびアンビソニックスマイクロフォンを使用して最初に録音された全てのオーディオを、アンビソニックスグループに割り当てることができる。または、全ての割り当てを手動で行う。

割り当てが終わると、ソフトウェアは専用のプラグインを使用して、狭域オーディオプレイリストおよびアンビソニックストラックを生成する。この手順において、狭域オーディオプレイリストの空間的特性に関するメタデータが符号化される。同様に、アンビソニックスグループに割り当てられる音源の方向、および場合によっては広がりが、標準アルゴリズムによる、モノラルまたはステレオからアンビソニックスへの変換に使用される。これにより、オーディオ編集段階の出力は、狭域オーディオプレイリストおよび所与の次数および混合次数のアンビソニックスチャンネルのセットを有する、中間の呈示用配置に依存しないフォーマットである。

本実施形態において、これは２セット以上のアンビソニックスチャンネルを生成するための、将来的な再バージョニングに有用であり得る。たとえば、同一の映画の異なる言語バージョンを作成する場合、アンビソニックストラックの第２セットにおいて、反響部分を含むダイアログに関する全てのオーディオを符号化するのに有用である。この方法を用いて、異なる言語バージョンを作成するために必要な変更は、狭域オーディオプレイリストに含まれるドライダイアログ、および第２セットのアンビソニックスに含まれるダイアログの反響部分を、置き換えることのみである。

図９は、仮想シーン（たとえば、アニメ映画または３Ｄゲーム）におけるオーディオ作成および編集の一部としての、上記方法の更なる実施形態を示す。仮想シーン内においては、音源、リスナーの位置および向きに関する情報が利用可能である。場合によっては、そのシーンの三次元形状およびそのシーンに存在する構成要素に関する情報が利用可能である。反響は、空間内音響シミュレーションを用いて、場合によっては自動的に計算され得る。本文意においては、サウンドスケープを、ここで提案された中間の呈示用配置に依存しないフォーマットへ符号化することは、簡便化され得る。また、各音源にオーディオトラックを割り当てることができ、それぞれの位置および向きから自動的に簡単に推測することにより、後に編集時に特定する必要なく、各瞬間におけるリスナーに対する音源の位置を符号化することができる。各音源の直音および特定数の１次反射音を狭域オーディオプレイリストに割り当て、反響の残り部分をアンビソニックスグループに割り当てることによって、どのくらいの反響がアンビソニックスグループにおいて符号化されるかを判定することができる。

図１０は、デジタル映画サーバーの一部としての上記方法の更なる実施形態を示す。この場合、同一のオーディオコンテンツは、狭域オーディオプレイリストおよびアンビソニックストラックのセットからなる、上記の呈示用配置に依存しないフォーマットで映画館に配信することができる。各映画館は、手動またはある種の自動検出機構により入力することができる、それぞれが特別なマルチスピーカ配置の仕様を有する復号器を有することができる。特に、配置の自動検出は、各スピーカに必要な等化を同時に計算するシステムに簡単に埋め込むことができる。このステップは所与の映画館における各スピーカのインパルス応答を測定し、スピーカ位置と、その等化に必要な逆フィルターの両方を推測することからなる。複数の既存の技術（正弦スイープやＭＬＳシーケンスのような）を用いてなされ得る、インパルス応答の測定や対応するスピーカ位置の推測は、頻繁に為される必要がある手順ではなく、空間や配置の特性を変更する際にのみ為される必要がある手順である。いかなる場合も、復号器は配置の仕様を有し、その後、コンテンツは１トラック−１チャンネルフォーマットに最適に復号化することができ、再生の準備が整う。

図１１は、配信前にコンテンツを復号化できる、映画用の、上記方法のさらに別の実施形態を示す。この場合、復号器は各映画における配置の仕様を把握する必要があり、これにより複数の１トラック−１チャンネルバージョンのコンテンツを生成し、その後に配信することができる。この用途は、たとえば、本提案にかかる呈示用配置に依存しないフォーマットに適合する復号器を有さない映画館に、コンテンツを配信するのに有用である。これを配信する前に、ある特定の配置に適合したオーディオの品質を、確認または認証するのに有用となる可能性もある。

上記方法のさらなる実施形態において、狭域オーディオプレイリストのいくつかは、元々のマスタープロジェクトに再分配する必要なく再編集することができる。たとえば、音源の位置やその広がりを示すメタデータのいくつかは修正され得る。

前述は、特定の実施形態に基づき特別に示され、記述されたものであり、形態および詳細の様々な他の変更が本発明の精神および範囲から逸脱することなく為され得ることは、当業者に理解されるであろう。本明細書に開示された上位概念から逸脱することなく、別の実施形態に適合するために様々な変更がなされ得、それらは上記の特許請求の範囲に包含されることも理解されたい。

Claims

オーディオ信号および関連する空間情報を再生配置に依存しないフォーマットに符号化する方法であって、
高指向性オーディオ信号を第１セットとして第１グループに割り当て、第１グループを、録音位置に対する各トラックの信号の起点方向およびその初期再生時間を示す関連のメタデータを有するモノラルオーディオトラックのセットとして符号化すること、および
残りのオーディオ信号を第２セットとして第２グループに割り当て、第２グループを、所与の次数および混合次数のアンビソニックストラックの少なくとも１セットとして符号化すること、
を含む、
指向性に基づいてオーディオ信号を第１グループ及び第２グループの何れかに割り当て、２つのグループのトラックを生成すること、を備える前記方法。
モノラルオーディオトラックのセットにおけるトラックと関連付けられた広がりパラメータを符号化することをさらに含む、請求項１に記載の方法。
第１セットにおける各トラックの指向性パラメータを、固定された特定の値または時変値として符号化すること、または、
モノラルオーディオトラックのセットにおけるトラックと関連付けられた指向性パラメータを符号化すること、または、
第１セットにおけるトラックの信号の起点方向を、所定のルールに従って割り当てること
をさらに含む、請求項２に記載の方法。
それぞれトラックに関連付けられた複数の音源を含むシーンの任意の三次元表現および音源の位置から、第１セットにおけるトラックの信号の起点方向を導出することをさらに含む、請求項３に記載の方法。
アンビソニックスの次数、混合次数の種類、トラック関連ゲイン、トラック順序付けという、使用されるアンビソニックスフォーマットの仕様を示すメタデータを符号化すること、または、
アンビソニックストラックに関連した初期再生時間を符号化すること
をさらに含む、請求項４に記載の方法。
関連の指向性データを有する入力されたモノラル信号を、所与の次数および混合次数のアンビソニックストラックに符号化すること、または、
任意の入力されたマルチチャンネル信号を、所与の次数および混合次数のアンビソニックストラックに符号化すること、または、
任意の次数および混合次数の任意の入力されたアンビソニックス信号を、異なり得る所与の次数および混合次数のアンビソニックストラックに符号化すること
をさらに含む、請求項５に記載の方法。
モノラルトラックのセットに関連した、広がりパラメータおよび場合によっては他の空間メタデータを、特定された広がりに適した復号化アルゴリズムを使用するために使用することをさらに含む、請求項２に記載の方法。
再生配置に依存しないフォーマットを所与のマルチスピーカー配置に復号化することをさらに含み、
前記復号化が
狭域音源を再生するのに適したアルゴリズムを使用して、モノラルトラックのセットを復号化するため、および
トラックの次数、混合次数および特定された配置に適合されたアルゴリズムによりアンビソニックストラックのセットを復号化するために、
マルチスピーカー位置の仕様を使用する、請求項７に記載の方法。
サウンドスケープ全体の回転を行うために回転制御パラメータを使用することをさらに含み、回転制御パラメータは頭部追跡装置から生成される、請求項８に記載の方法。
スピーカーの位置を自動的に導出して復号器により使用される配置の仕様を定義するための技術を使用することをさらに含む、請求項８に記載の方法。
ステレオおよびサラウンド５．１、ＩＴＵ−Ｒ７７５−１という標準的な再生配置プリセットを使用すること、または、
頭部伝達関数データベースを使用して、標準的なバイノーラル技術により、ヘッドフォンに復号化すること
をさらに含む、請求項８に記載の方法。
復号化の出力は、直接再生されず、オーディオトラックのセットとして記憶される、請求項８または１１に記載の方法。
オーディオ信号の全てまたは一部が圧縮されたオーディオフォーマットに符号化される、請求項１、６、または１１に記載の方法。
オーディオ信号および関連の空間情報を再生配置に依存しないフォーマットに符号化するためのオーディオ符号化器であって、
高指向性オーディオ信号を第１セットとして第１グループに割り当て、および、第１グループを、指向性情報および初期再生時間情報を有するモノラルトラックのセットに符号化するための符号化器、
残りのオーディオ信号を第２セットとして第２グループに割り当て、および、第２グループを、任意の次数および混合次数のアンビソニックストラックスのセットに符号化するための符号化器、および
指向性に基づいて第１および第２セットの何れかに割り当てられたオーディオ信号を含む２つのグループのトラックを生成するための符号化器、
を含む前記オーディオ符号化器。
再生配置に依存しないフォーマットをＮ個のチャンネルを有する所与の再生システムに復号するためのオーディオ復号器であって、
前記再生配置に依存しないフォーマットが請求項１に記載された方法に従って、及び／又は請求項１４に記載されたオーディオ符号化器によって生成され、
前記オーディオ復号器が、
再生配置の仕様に基づき、指向性情報および初期再生時間情報を有するモノラルトラックのセットをＮ個のオーディオチャンネルに復号化するための復号器、
再生配置の仕様に基づき、アンビソニックストラックのセットをＮ個のオーディオチャンネルに復号化するための復号器、および
Ｎ個の出力オーディオチャンネルを生成するために、２つの上記復号器の出力をミキシングして、再生および記憶に供するミキサー、
を含む、オーディオ復号器。
空間オーディオを再生配置に依存しないフォーマットに符号化および再符号化し、任意のマルチスピーカー配置またはヘッドフォンに復号化および再生するシステムであって、
オーディオ信号のセットおよび関連の空間情報を再生配置に依存しないフォーマットに符号化する、請求項１４に記載のオーディオ符号化器、および
再生配置に依存しないフォーマットを、マルチスピーカー配置またはヘッドフォンである所与の再生システムに復号化する、請求項１５に記載のオーディオ復号器
を含む、前記システム。
請求項１から１３のいずれかに記載の方法をコンピュータ上で実行するためのコンピュータプログラム。