JP5688030B2 - 三次元音場の符号化および最適な再現の方法および装置 - Google Patents

三次元音場の符号化および最適な再現の方法および装置 Download PDF

Info

Publication number
JP5688030B2
JP5688030B2 JP2011542729A JP2011542729A JP5688030B2 JP 5688030 B2 JP5688030 B2 JP 5688030B2 JP 2011542729 A JP2011542729 A JP 2011542729A JP 2011542729 A JP2011542729 A JP 2011542729A JP 5688030 B2 JP5688030 B2 JP 5688030B2
Authority
JP
Japan
Prior art keywords
audio
tracks
encoding
playback
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011542729A
Other languages
English (en)
Other versions
JP2012514358A (ja
JP2012514358A5 (ja
Inventor
ソレ,アントニオ マテオス
ソレ,アントニオ マテオス
アルボ,パウ アルミ
アルボ,パウ アルミ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of JP2012514358A publication Critical patent/JP2012514358A/ja
Publication of JP2012514358A5 publication Critical patent/JP2012514358A5/ja
Application granted granted Critical
Publication of JP5688030B2 publication Critical patent/JP5688030B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、三次元音場の符号化、配信および復号化を改良するための技術に関する。特に、本発明は、呈示(再生)用配置(exhibition setup)に依存しない仕方で、空間情報を有するオーディオ信号を符号化し、所与の呈示システム(マルチスピーカ配置またはヘッドフォン)に最適に復号化する技術に関する。
マルチチャンネルの再生および聴取に際して、リスナーは一般に複数のスピーカに囲まれている。再生に際しての一般的な目的の1つとしては、リスナーが音源の意図された場所(たとえば、楽団の演奏者の場所)を知覚できる音場を構築することである。様々なスピーカ配置により様々な空間的印象を創造することができる。たとえば、標準的なステレオ配置は、2つのスピーカ間の空間においては音場面を納得のいくように再現することができるが、2つのスピーカの外側の角度ではそのような目的は達成できない。
より多くのスピーカでリスナーを囲む配置は、より広い角度範囲においてより良い空間的印象を実現できる。たとえば、最も周知のマルチスピーカ配置規格の1つとして、リスナーの周り−30、0、30、−110、110度(0度は正面方向を示す)の方位角に位置した5つのスピーカからなるサラウンド 5.1(ITU−R775−1)がある。しかしながら、このようなスピーカ配置はリスナーの水平面より高い音声に対処できない。
リスナーの臨場感を高めるために、現在の傾向としては、様々な高さのスピーカを含む多くのスピーカ配置を活用することにある。NHK(日本)のハマサキによって開発された22.2システムはその一例である。22.2システムは、3つの異なる高さに位置する合計24のスピーカからなる。
そのような配置に関して、商業用用途における空間オーディオを作成するための現在のパラダイムとしては、再生時に使用される各チャンネルに1つのオーディオトラックを割り当てることである。たとえば、2つのオーディオトラックがステレオ配置に必要であり、6つのオーディオトラックが5.1配置において必要とされる等である。これらのトラックは、放送用の録音段階において直接作成することもできるが、通常は編集段階で得られる。留意すべきは、多くの場合、同一のオーディオチャンネルを再生するために2、3のスピーカが使用されることである。これは、各サラウンドチャンネルが3つ以上のスピーカを介して再生される5.1映画館ほとんどの場合がそうである。従って、このような場合、スピーカの数は6つより多い可能性があるが、異なるオーディオチャンネルの数は6つのままであり、再生される異なる信号は合計6つのみである。
この1トラック−1チャンネルパラダイムの重要点の一つは、録音および編集段階においてなされる作業を、コンテンツが呈示される呈示用配置と結びつけるということである。たとえば、放送に際しての録音段階において、使用されるマイクロフォンの種類や位置およびそれらが組み合わされる仕方は、コンテンツが再生されるであろう配置の関数として決定される。同様に、メディアの作成において、編集技術者は、コンテンツが呈示される配置の詳細を知る必要があり、そして全てのチャンネルを管理する必要がある。それに合わせてコンテンツが調整されているように呈示用マルチスピーカ配置を正しく設定できないと、再生品質が低下してしまう。コンテンツを異なる配置において呈示する場合、異なるバージョンを編集において作成する必要がある。これによりコストが高くなり消費時間も増えてしまう。
この1トラック−1チャンネルパラダイムの別の重要点は、必要なデータのサイズである。まず、追加の符号化を行わない場合、このパラダイムはチャンネルと同じだけのオーディオトラックを必要とする。一方、異なるバージョンが提供される場合、それらは別々に提供されるか、いくらかのダウンミックスが行われる必要がある。別々に提供される場合は、さらにデータサイズが増えてしまい、ダウンミックスが行われる場合は、得られる品質を損なってしまう。
最後に、この1トラック−1チャンネルパラダイムの別の不都合な点は、この方法で作成されたコンテンツは将来性がないということである。たとえば、5.1配置用に作成された所与のフィルムに存在する6つのトラックは、リスナーの上方に位置する音源を含まず、異なる高さのスピーカによる配置を十分に活用しない。
現在、呈示システムに依存しない空間オーディオを提供することができる2、3の技術が存在する。おそらく最も簡便な技術は、いわゆるVBAP法(Vector−Based Amplitude Panning)の様な、振幅パンニングである。これは、同一のモノラル信号を、各スピーカの音量を調節しながら、音源が位置するように意図される位置に、より近いスピーカへ送信することに基づく。このようなシステムは、二次元または三次元(高さを有する)配置において、典型的には、2つまたは3つのより近いスピーカをそれぞれ選択することにより機能することができる。この方法の1つの効果は、大きなスイート・スポットが得られるということである。つまり、意図された方向から聞こえてくるように音声を知覚できる、広い領域がスピーカ配置内にある。しかしながら、この方法は、反響室に存在するもののような反響音場を再現するのにも、大きな広がりを有する音源にも適していない。音源より発せられた音声のせいぜい最初の反響は、これらの方法により再生することができるが、これは費用のかかる低品質な解決策である。
アンビソニックス(Ambisonics)は、呈示システムに依存しない空間オーディオを提供することができる別の技術である。アンビソニックスは、Michael Gerzonによって70年代に案出され、完全な符号化−復号化連鎖法を提供する。符号化時に、ある点における音場の球面調和関数の1セットが保存される。ゼロ次(W)は、その点において全指向性マイクロフォンが録音するということを示す。3つの信号(X,Y,Z)からなる1次は、直交軸で揃えられ、その点において3つの8の字形マイクロフォンが録音するということを示す。高次信号は、より複雑なパターンのマイクロフォンが録音するということを示す。各次数の信号のいくつかのサブセットのみが使用される、混合次数アンビソニックス符号化が存在する。たとえば、1次アンビソニックスにおいてW、X、Y信号のみを使用して、Z信号が無視されることがある。1次より大きい信号は、編集中または音場シミュレーションによって簡単に生成されるが、マイクロフォンにより実音場で録音する際に生成するのはより難しい。実際、ゼロおよび1次信号を計測することができるマイクロフォンのみが、まさに最近まで商業用用途に利用可能とされてきた。1次アンビソニックスマイクロフォンの例としては、Soundfield、および、より最近はTetraMicが挙げられる。復号化時、マルチスピーカ配置(スピーカの数および位置)が特定されると、各スピーカに送られるべき信号が、一般的には完全な配置により生成される音場が、意図された音場(編集時に作成された音場、または、録音時の信号からの音場)に可能な限り近づく要請のもとに、決定される。呈示システムに依存しないことに加え、この技術の更なる利点は、これにより提供される高レベルの操作性(基本的にはサウンドスケープ回転およびズーム)であり、反響音場を正確に再現できるということである。
しかしながら、アンビソニックス技術には主に2つのデメリットがある。つまり、狭域音源を再生することができないこと、およびスイート・スポットが小さいということである。狭域または広域音源の概念は、本明細書では、知覚できる音像の角度幅を指して使用している。第1の問題は、超狭域音源を再生しようとしても、アンビソニックス復号化は、音源の意図された位置に近いスピーカ以外のスピーカもONしてしまうということに起因する。第2の問題は、スイート・スポットにおいては、各スピーカから出る音波が同位相で足し合わされ所望の音場を作成するが、スイート・スポット外においては、音波は正しい位相では干渉しないということに起因する。これは音色を変化させ、より重要には、周知の音響心理的効果により、音声がリスナーに近いスピーカから聞こえてくるように知覚される傾向にある。固定サイズの聴取室に関して言えば、両方の問題を軽減するための唯一の方法は、使用されるアンビソニックス次数を増やすことである。しかし、これは、使用されるチャンネルおよびスピーカの数も著しく増やすことを意味する。
なお、任意の音場を正確に再現することができる別の技術、いわゆるWFS(Wave Field Synthesis)が存在する。しかしながら、この技術はスピーカ間の間隔を15〜20cm未満にしなければならない。スピーカ同士を接近させなければならず(結果として品質低下)、必要なスピーカの数を莫大に増加させる(現在の用途では100〜500のスピーカを必要とする)という事実があり、その用途はとても高級で特別なイベントに制限される。
望ましいことは、呈示用配置(二次元または三次元)に依存することなく配信され得る空間オーディオコンテンツを提供することができ、呈示用配置が特定されたなら、その性能を十分に発揮して全ての種類の音場(狭域音源、反響音場または拡散音場)を、空間内の全てのリスナーに対して再現し得るよう、すなわち、大きなスイート・スポットを有して、且つ、大量のスピーカを要さないで再現できるよう、復号化できる技術を提供することである。これにより、現在ある全ての、および将来のマルチスピーカ配置に容易に適合するという意味において、将来性のあるコンテンツが作成可能となる。さらに、映画館またはホームユーザは、自身が選んだ配置の能力を十分に発揮させられる多くのコンテンツが出てくるであろうという確信のもとで、要求や目的に合うマルチスピーカ配置を選択することができる。
空間情報を有するオーディオを、呈示用配置に依存しない仕方で符号化し、異なる高さのスピーカを有する配置やヘッドフォンを含む任意の所与の呈示用配置に、最適に復号化および再生する方法および装置を提供する。
本発明は、所与のいくつかの入力されたオーディオ素材を、2つのグループ、つまり、高い指向性定位を必要とするオーディオを含む第1グループ、および、低次アンビソニックス技術により提供された定位で十分であるオーディオを含む第2グループに割り当てることにより、オーディオ素材を呈示用配置に依存しないフォーマットに符号化する方法に基づく。
第1グループにおける全てのオーディオは、関連のメタデータを有する独立したモノラルオーディオトラックのセットとして符号化される。以下に記載されるように、いくつかの制限が特定の実施形態では課されているが、独立したモノラルオーディオトラックの数は制限されない。メタデータは、このような各オーディオトラックが再生される正確な瞬間に関する情報、および、少なくとも各瞬間における信号の起点方向を示す空間情報を含む。第2グループにおける全てのオーディオは、所与の次数のアンビソニックス信号を表現するオーディオトラックのセットに符号化される。特定の実施形態では、2セット以上のアンビソニックチャンネルが使用され得るが、理想的には、1セットのアンビソニックスチャンネルが使用される。
再生時に、呈示システムが把握されると、オーディオチャンネルの第1グループは、音源の意図された位置の周りにある少数のスピーカを使用する標準のパンニングアルゴリズムを使用して、復号化され再生される。オーディオチャンネルの第2グループは、所与の呈示システムに最適化されたアンビソニックス復号器を使用して、復号化され再生される。
本方法および装置は、以下に記載されるように上記課題を解決する。
第一に、一般的な作成におけるオーディオの録音、編集、および配信段階を、コンテンツが呈示される配置に、依存しないものとすることができる。この事実の一般的な利点の一つは、この方法により作成されたコンテンツは、現在ある、または将来のあらゆる任意のマルチスピーカ配置に、適合できるという意味において、将来性があるということである。この特性は、アンビソニックス技術によっても満たされる。
第二に、かなり狭域の音源を正しく再生することができる。これらは、関連の指向性メタデータを有する個々のオーディオトラックに符号化され、二次元または三次元のVBAP法のような、音源の意図された位置の周りの少数のスピーカを使用する復号化アルゴリズムが可能となる。これに対して、アンビソニックスは、同じ結果を得るためには、高次アンビソニックスの使用を必要とし、これにともなって関連トラック数、データ、および復号化の複雑さが増加する。
第三に、本方法および装置は、ほとんどの場合において大きなスイート・スポットを提供でき、これにより最適な音場が再現されるエリアを拡大できる。これは、スイート・スポットの低減に関与するオーディオの全ての部分を、第1グループのオーディオトラックに配分することにより達成される。たとえば、図8に示され、以下に記載される本実施形態においては、ダイアログの直音が、聞こえてくる方向に関する情報を有する独立したオーディオトラックとして符号化され、反響部分は1次アンビソニックストラックのセットとして符号化される。従って、聴取者のほとんどは、この音源の直音を正確な位置から、意図された方向の周りの2、3のスピーカから聞こえてくるように知覚する。このように、直音から、逆相着色(out−of−phase colouration)および先行音効果が排除されることにより、音像は正しい位置にとどめられる。
第四に、1トラック−1チャンネルパラダイム、および、より高次のアンビソニックス符号化と比較すると、本方法を使用することにより、マルチスピーカオーディオ符号化のほとんどの場合において、符号化されたデータの量は低減する。この事実は、記憶および配信の目的において好都合である。このデータサイズ低減の理由は2つある。まず一つには、高指向性オーディオを狭域オーディオプレイリストへ割り当てることにより、広域の、拡散した、または高くない指向性オーディオからなるサウンドスケープの残りの部分の再現には、1次アンビソニックスのみを使用することが可能となる。従って、1次アンビソニックスグループの4つのトラックで十分である。対照的に、高次アンビソニックスは、狭域音源を正しく再現するのに必要であり、これは、たとえば3次アンビソニックスには16のオーディオチャンネル、4次アンビソニックスには25のオーディオチャンネルを必要とする。もう一つの理由は、同時に再生する必要のある狭域音源の数は、多くの場合少ないことである。これは、たとえば映画のような場合であり、ダイアログおよび2,3の特殊なサウンド効果のみが、一般的に狭域オーディオプレイリストに割り当てられる。さらに、狭域オーディオプレイリストグループにおける全てのオーディオは、その音源の持続時間にのみ対応する長さを有する個々のトラックのセットである。たとえば、1シーンにおいて3秒現れる車に対応するオーディオは3秒しか続かない。そのため、22.2配置のフィルムのサウンドトラックが作成される映画用途の例においては、1トラック−1チャンネルパラダイムは24のオーディオトラックを必要とし、3次アンビソニックス符号化は16のオーディオトラックを必要とする。これに対し、本提案にかかる呈示用配置に依存しないフォーマットにおいては、フルレングスの僅か4つのオーディオトラック、および、選択された狭域音源の意図された持続時間をカバーするためにのみ最小限にされた異なる長さの独立したオーディオトラックのセットを、必要とするだけである。
図1は、初期オーディオトラックの所与のセットを選択および符号化し、最終的に、任意の呈示用配置において最適にそれらを復号化および再生する方法の一実施形態を示す。 図2は、空間情報を有する狭域オーディオプレイリストおよびアンビソニックストラックの2つのグループのオーディオを有する、本提案にかかる呈示用配置に依存しないフォーマットのスキームを示す。 図3は、オーディオの各グループを処理するために異なるアルゴリズムを使用する復号器を示す。 図4は、オーディオの2つのグループを再符号化できる方法の実施形態を示す。 図5は、呈示用配置に依存しないフォーマットが、ディスクまたは他の種類のメモリに記憶された完全なオーディオファイルの代わりに、オーディオストリームに基づくことができる実施形態を示す。 図6は、任意の呈示用配置においてコンテンツを再生することができる復号器に、呈示用配置に依存しないフォーマットが入力される、上記方法の更なる実施形態を示す。 図7は、オーディオの両グループに関する簡単な操作に対応する、回転工程に関するいくつかの技術的詳細を示す。 図8は、オーディオビジュアル編集フレームワークにおける上記方法の実施形態を示す。 図9は、仮想シーン(たとえば、アニメ映画または3Dゲーム)におけるオーディオ作成および編集の一部としての、上記方法の更なる実施形態を示す。 図10は、デジタル映画サーバーの一部としての、上記方法の更なる実施形態を示す。 図11は配信前にコンテンツを復号化できる、映画用の上記方法のさらに別の実施形態を示す。
図1は、初期オーディオトラックの所与のセットを選択および符号化し、最終的に任意の呈示用配置において最適にそれらを復号化および再生する、本方法の一実施形態を示す。つまり、利用可能なスピーカに合わせて、できる限りスイート・スポットを拡大することにより、所与のスピーカ位置に、空間音場をできる限り良好に再現する。たとえば、任意の指向性パターンまたは周波数応答を有する任意の種類のマイクロフォンを使用することにより、あるいは、任意の次数または混合次数のアンビソニックス信号のセットを伝送することができるアンビソニックスマイクロフォンを使用することにより、また或いは、合成により生成されたオーディオや反響室のような効果を使用することにより、初期オーディオを任意の音源から発生させることができる。
選択および符号化工程は、初期オーディオから2つのグループのトラックを生成することからなる。第1グループは、限られた定位を必要とするオーディオの部分からなり、第2グループは所与のアンビソニックス次数の指向性で十分である残りのオーディオからなる。第1グループに割り当てられたオーディオ信号は、時間に沿ったその起点の方向やその初期再生時間に関する空間メタデータを伴って、モノラルオーディオトラックに保持される。
選択は、ユーザによって行われる工程であるが、ある種類の初期オーディオでは、デフォルト動作で行われる。一般的な場合(すなわち、非アンビソニックスオーディオトラックの場合)、ユーザは、初期オーディオ、その音源方向、上述した符号化グループに対応する音源の種類(すなわち、狭域音源またはアンビソニックス音源)の各項目を定義する。方向角は、たとえば、リスナーに対する音源の方位角および高度により定義することができ、トラック毎の固定値または時変データとして特定することができる。トラックのいくつかに指向性がない場合、たとえば、そのようなトラックを所与の固定された特定方向に割り当てることにより、デフォルト割り当てを定義することができる。
場合によっては、方向角は広がりパラメータに関連し得る。広域、狭域という用語は、本明細書においては、音源の知覚される音像の角度幅と理解されたい。たとえば、広がりを測る方法は、区間[0,1]における値を使用する。このとき、値0は完全な指向性音(つまり、ただ1つの区別可能な方向から発せられる音声)を示し、値1は同じエネルギーであらゆる方向から到着する音声を示す。
初期トラックのいくつかの種類には、デフォルト動作が定義される。たとえば、ステレオペアとして特定されたトラックは、それぞれLチャンネルおよびRチャンネルに、−30度および30度の方位角でアンビソニックスグループに割り当てることができる。サラウンド5.1(ITU−R775−1)として特定されたトラックは、同様に、−30、0、30、−110、110度の方位角にマッピングすることができる。最終的に、1次アンビソニックス(Bフォーマット)として特定されたトラックは、さらなる指向性情報を必要とせずアンビソニックスグループに割り当てることができる。
図1の符号化工程は、上記ユーザが定義した情報を取り込み、図2で示したような、空間情報を有する呈示用配置に依存しないオーディオフォーマットを出力する。第1グループの符号化工程の出力は、所与の参照システムに対する起点方向、またはオーディオの広がり特性を含む関連空間メタデータを有する、異なる音源に対応するオーディオ信号を有するモノラルオーディオトラックのセットである。第2グループのオーディオの変換工程の出力は、アンビソニックスグループにおける全ての音源の混合次数に対応する、選択された次数のアンビソニックストラック(たとえば、1次アンビソニックスが選択された場合4つのトラック)のセットである。
符号化工程の出力は、次に、選択された呈示用配置に関する情報を使用する復号器によって使用され、この配置の各チャンネルにつき1つのオーディオトラックまたはオーディオストリームを作成する。
図3は、異なるアルゴリズムを使用して、オーディオの各グループを処理する復号器を示す。アンビソニックストラックのグループは、特定の配置に適したアンビソニックス復号器を使用して復号化される。狭域オーディオプレイリストにおけるトラックは、この目的に適したアルゴリズムを用いて復号化され、つまり、これらは各トラックのメタデータ空間情報を使用して、通常、各トラックの意図された位置の周りのきわめて少数のスピーカを使用して復号化する。このようなアルゴリズムの1例としては、VBAP法が挙げられる。時間メタデータを使用して、正しい時点でこのような各オーディオの再生を開始する。復号化されたチャンネルは最後に、スピーカまたはヘッドフォンに再生のために送られる。
図4は、2つのグループのオーディオが再符号化され得る方法の更なる実施形態を示す。一般的な再符号化工程は、関連する指向性メタデータを有するN個の異なるオーディオトラックを含む狭域オーディオプレイリスト、および所与の次数Pと所与のタイプの混合次数A(たとえば、ゼロ次および1次の全てのトラックを含むが、2次信号に対応するトラックは2つしか含まない)のアンビソニックストラックのセットを入力として取り込む。再符号化工程の出力は、関連する指向性メタデータを有するM個の異なるオーディオトラックを含む狭域オーディオプレイリスト、および所与の次数Qと所与のタイプの混合次数Bのアンビソニックストラックのセットである。再符号化工程において、M、Q、BはそれぞれN、P、Aとは異なり得る。
たとえば、含まれるデータの数を減らすため再符号化が用いられ得る。これは、たとえば狭域オーディオプレイリストに含まれる1以上のオーディオトラックを選択し、それらを、モノラルトラックに関連した指向性情報を利用するモノラル−アンビソニックス変換により、アンビソニックスグループに割り当てることにより達成される。この場合、再符号化された狭域オーディオのアンビソニックスへの割り当てにより、M<Nを満たすことができる。同じ目的により、例えば、平面的な呈示用配置において再生される必要があるもののみを保持しておくことにより、アンビソニックストラックの数を減らすことができる。所与の次数Pのアンビソニックス信号の数が(P+1)2である時、平面配置への削減により、その数を1+2Pに減らすことができる。
再符号化工程の別の用途としては、所与の狭域オーディオプレイリストに必要とされる同時オーディオトラックの削減である。たとえば、放送用途において、同時に再生できるオーディオトラックの数を限定することが望ましい場合がある。これもまた、狭域オーディオプレイリストのいくつかのトラックを、アンビソニックグループに割り当てることにより解決される。
場合によっては、狭域オーディオプレイリストは、これが含むオーディオの関連性(狭域音源用のアルゴリズムを用いて復号化される各オーディオについて、それがどの程度重要かということを示す)を示すメタデータを含むことができる。このメタデータは、少なくとも関連のあるオーディオをアンビソニックスグループに自動的に割り当てることに用いられ得る。
再符号化工程のさらに別の使用としては、単純に、ユーザが、狭域オーディオプレイリストにおけるオーディオをアンビソニックスグループに割り当てることができ、または、美的目的のために、アンビソニックスグループの次数や混合次数タイプを変更することができる。さらに、アンビソニックスグループから狭域オーディオプレイリストへ、オーディオを割り当てることも可能である。1つの可能性としてはゼロ次のトラックの一部分だけを選択して、その空間メタデータと手動で関連付けることが可能であり、別の可能性としては、DirACアルゴリズムのような、アンビソニックストラックから音源の位置を推定するアルゴリズムを使用することが可能である。
図5は、本提案にかかる呈示用配置に依存しないフォーマットが、ディスクまたは他の種類のメモリに記憶された完全なオーディオファイルの代わりに、オーディオストリームに基づくことができる、本発明のさらなる実施形態を示す。放送シナリオにおいて、オーディオのバンド幅は限定および固定されており、それ故、同時に流れ得るオーディオチャンネルの数が限定される。本提案にかかる方法は、まず、利用可能なオーディオストリームを2つのグループ、すなわち、狭域オーディオストリームおよびアンビソニックスストリームに分離し、次に、中間ファイルに基づく呈示用配置に依存しないフォーマットを、限定された数のストリームに再符号化する。
このような再符号化は、上記段落において説明された技術を使用し、必要な場合は、狭域オーディオ部分(低関連トラックをアンビソニックスグループに再割り当てすることにより)と、アンビソニックス部分(アンビソニックス成分を除去することにより)との、両方の同時トラックの数を低減することができる。
オーディオストリーミングは、連続ストリームにおける狭域オーディオトラックを連結させる必要性、および、利用可能なストリーミング設備において狭域オーディオ指向性メタデータを再符号化する必要性のような、更なる特異性を有する。オーディオストリーミングフォーマットによりそのような指向性メタデータをストリーミングできない場合、単一のオーディオトラックを確保し、正しい方法で符号化されたこのメタデータを搬送するべきである。
以下の簡単な例で、これについてより詳細に説明する。1次アンビソニックス(4チャンネル)および最大4つの同時チャンネルを有する狭域オーディオプレイリストを使用する、本提案にかかる呈示用配置に依存しないフォーマットの映画のサウンドトラックについて考える。このサウンドトラックは、デジタルテレビの6チャンネルのみを使用して流される。図5に示すように、再符号化は3つのアンビソニックスチャンネル(Zチャンネルを除去)および2つの狭域オーディオチャンネル(つまり、最大2つの同時トラックをアンビソニックスグループに再割り当てする)を使用する。
場合によっては、本提案にかかる呈示用配置に依存しないフォーマットは、圧縮されたオーディオデータを利用することができる。圧縮されたオーディオデータは、本提案にかかる呈示用配置に依存しないフォーマットの両フレーバー(つまり、ファイルに基づくもの、またはストリームに基づくもの)において使用可能である。心理音響的圧縮フォーマットが使用される場合、圧縮は空間が再現される品質に影響を及ぼす可能性がある。
図6は、上記方法の更なる実施形態として、任意の呈示用配置においてコンテンツを再生することができる復号器に、呈示用配置に依存しないフォーマットを入力するものを示す。呈示用配置は、多数の異なる方法にて特定され得る。この復号器は、サラウンド5.1(ITU−R775−1)のような、ユーザが簡単にユーザの呈示用配置と適合するように選択することができる標準プリセットを有することができる。この選択により、場合によっては、ある程度の調整でユーザの特定の配置におけるスピーカの位置を微調整することができる。場合によっては、ユーザは、たとえば音声、超音波、または赤外線技術により、各スピーカの位置を突き止めることができる何らかの自動検出システムを使用することもある。呈示用配置の仕様は無制限回数、再構成することができ、これにより、ユーザは現在および将来のマルチスピーカ配置に適合させることができる。復号器は複数の出力を有しているので、異なる配置における同時再生に関して、異なる復号化工程を同時に行うことができる。理想的には、復号化は、プレイアウトシステムのあらゆる可能な等化の前に行う。
再生システムがヘッドフォンである場合、復号化は標準のバイノーラル技術によりなされる。頭部伝達関数(HRTF)の1つまたは様々なデータベースを用いて、本方法において提案されたオーディオの両グループ(狭域オーディオプレイリストおよびアンビソニックストラック)に適合したアルゴリズムを用いて、空間音声を生成することができる。これは、通常、最初に、上述のアルゴリズムを用いて仮想マルチスピーカ配置へ復号化し、次に仮想スピーカの位置に対応するHRTFを用いて、各チャンネルをコンボリュートすることにより達成される。
マルチスピーカ配置またはヘッドフォンへの呈示に関して、上記方法の更なる一実施形態は、呈示段階における全体のサウンドスケープの最終回転を可能にする。これは多数の方法において有用である。ある用途においては、ヘッドフォンを装着したユーザは、その頭の向きに関するパラメータを測定し、それに従って、全体のサウンドスケープを回転させる頭部追跡機構を有することができる。
図7は、オーディオの両グループ対する簡単な操作に対応する、回転工程に関するいくつかの技術的詳細を示す。アンビソニックストラックの回転は、異なる回転マトリクスを全てのアンビソニックス次数に適用することにより行われる。これは周知の手順である。一方、狭域オーディオプレイリストにおける各トラックに関連付けられた空間メタデータは、所与の方向を向くリスナーが知覚する音源の方位角および高度を、簡単にコンピュータ計算することによって修正することができる。これも簡単な標準的計算である。
図8は、オーディオビジュアル編集フレームワークにおける上記方法の実施形態を示す。ユーザは、デジタルオーディオワークステーションであり得る編集ソフトウェアに、全てのオーディオコンテンツを有する。ユーザは、標準のまたは専用のプラグインを用いて、定位が必要な各音源の方向を特定する。本提案にかかる中間の呈示用配置に依存しないフォーマットを生成するために、モノラルトラックプレイリストにおいて符号化されるオーディオ、およびアンビソニックスグループにおいて符号化されるオーディオを選択する。この割り当ては様々な方法によりなされる。一実施形態においては、ユーザは、プラグインを介して指向性係数を各音源に割り当て、次に、これを用いて、所与の値より大きい指向性係数を有する全ての音源を狭域オーディオプレイリストに割り当て、残りをアンビソニックスグループに自動的に割り当てる。別の実施形態においては、いくつかのデフォルト割り当てをソフトウェアにより行う。たとえば、ユーザによって別段指定されない限り、全てのオーディオの反響部分、およびアンビソニックスマイクロフォンを使用して最初に録音された全てのオーディオを、アンビソニックスグループに割り当てることができる。または、全ての割り当てを手動で行う。
割り当てが終わると、ソフトウェアは専用のプラグインを使用して、狭域オーディオプレイリストおよびアンビソニックストラックを生成する。この手順において、狭域オーディオプレイリストの空間的特性に関するメタデータが符号化される。同様に、アンビソニックスグループに割り当てられる音源の方向、および場合によっては広がりが、標準アルゴリズムによる、モノラルまたはステレオからアンビソニックスへの変換に使用される。これにより、オーディオ編集段階の出力は、狭域オーディオプレイリストおよび所与の次数および混合次数のアンビソニックスチャンネルのセットを有する、中間の呈示用配置に依存しないフォーマットである。
本実施形態において、これは2セット以上のアンビソニックスチャンネルを生成するための、将来的な再バージョニングに有用であり得る。たとえば、同一の映画の異なる言語バージョンを作成する場合、アンビソニックストラックの第2セットにおいて、反響部分を含むダイアログに関する全てのオーディオを符号化するのに有用である。この方法を用いて、異なる言語バージョンを作成するために必要な変更は、狭域オーディオプレイリストに含まれるドライダイアログ、および第2セットのアンビソニックスに含まれるダイアログの反響部分を、置き換えることのみである。
図9は、仮想シーン(たとえば、アニメ映画または3Dゲーム)におけるオーディオ作成および編集の一部としての、上記方法の更なる実施形態を示す。仮想シーン内においては、音源、リスナーの位置および向きに関する情報が利用可能である。場合によっては、そのシーンの三次元形状およびそのシーンに存在する構成要素に関する情報が利用可能である。反響は、空間内音響シミュレーションを用いて、場合によっては自動的に計算され得る。本文意においては、サウンドスケープを、ここで提案された中間の呈示用配置に依存しないフォーマットへ符号化することは、簡便化され得る。また、各音源にオーディオトラックを割り当てることができ、それぞれの位置および向きから自動的に簡単に推測することにより、後に編集時に特定する必要なく、各瞬間におけるリスナーに対する音源の位置を符号化することができる。各音源の直音および特定数の1次反射音を狭域オーディオプレイリストに割り当て、反響の残り部分をアンビソニックスグループに割り当てることによって、どのくらいの反響がアンビソニックスグループにおいて符号化されるかを判定することができる。
図10は、デジタル映画サーバーの一部としての上記方法の更なる実施形態を示す。この場合、同一のオーディオコンテンツは、狭域オーディオプレイリストおよびアンビソニックストラックのセットからなる、上記の呈示用配置に依存しないフォーマットで映画館に配信することができる。各映画館は、手動またはある種の自動検出機構により入力することができる、それぞれが特別なマルチスピーカ配置の仕様を有する復号器を有することができる。特に、配置の自動検出は、各スピーカに必要な等化を同時に計算するシステムに簡単に埋め込むことができる。このステップは所与の映画館における各スピーカのインパルス応答を測定し、スピーカ位置と、その等化に必要な逆フィルターの両方を推測することからなる。複数の既存の技術(正弦スイープやMLSシーケンスのような)を用いてなされ得る、インパルス応答の測定や対応するスピーカ位置の推測は、頻繁に為される必要がある手順ではなく、空間や配置の特性を変更する際にのみ為される必要がある手順である。いかなる場合も、復号器は配置の仕様を有し、その後、コンテンツは1トラック−1チャンネルフォーマットに最適に復号化することができ、再生の準備が整う。
図11は、配信前にコンテンツを復号化できる、映画用の、上記方法のさらに別の実施形態を示す。この場合、復号器は各映画における配置の仕様を把握する必要があり、これにより複数の1トラック−1チャンネルバージョンのコンテンツを生成し、その後に配信することができる。この用途は、たとえば、本提案にかかる呈示用配置に依存しないフォーマットに適合する復号器を有さない映画館に、コンテンツを配信するのに有用である。これを配信する前に、ある特定の配置に適合したオーディオの品質を、確認または認証するのに有用となる可能性もある。
上記方法のさらなる実施形態において、狭域オーディオプレイリストのいくつかは、元々のマスタープロジェクトに再分配する必要なく再編集することができる。たとえば、音源の位置やその広がりを示すメタデータのいくつかは修正され得る。
前述は、特定の実施形態に基づき特別に示され、記述されたものであり、形態および詳細の様々な他の変更が本発明の精神および範囲から逸脱することなく為され得ることは、当業者に理解されるであろう。本明細書に開示された上位概念から逸脱することなく、別の実施形態に適合するために様々な変更がなされ得、それらは上記の特許請求の範囲に包含されることも理解されたい。

Claims (17)

  1. オーディオ信号および関連する空間情報を再生配置に依存しないフォーマットに符号化する方法であって、
    高指向性オーディオ信号第1セットとして第1グループに割り当て、第1グループを、録音位置に対する各トラックの信号の起点方向およびその初期再生時間を示す関連のメタデータを有するモノラルオーディオトラックのセットとして符号化すること、および
    残りのオーディオ信号第2セットとして第2グループに割り当て、第2グループを、所与の次数および混合次数のアンビソニックストラックの少なくとも1セットとして符号化すること、
    を含む、
    指向性に基づいてオーディオ信号を第1グループ及び第2グループの何れかに割り当て、2つのグループのトラックを生成すること、を備える前記方法。
  2. モノラルオーディオトラックのセットにおけるトラックと関連付けられた広がりパラメータを符号化することをさらに含む、請求項1に記載の方法。
  3. 第1セットにおける各トラックの指向性パラメータを、固定された特定の値または時変値として符号化すること、または、
    モノラルオーディオトラックのセットにおけるトラックと関連付けられた指向性パラメータを符号化すること、または、
    第1セットにおけるトラックの信号の起点方向を、所定のルールに従って割り当てること
    をさらに含む、請求項2に記載の方法。
  4. それぞれトラックに関連付けられた複数の音源を含むシーンの任意の三次元表現および音源の位置から、第1セットにおけるトラックの信号の起点方向を導出することをさらに含む、請求項3に記載の方法。
  5. アンビソニックスの次数、混合次数の種類、トラック関連ゲイン、トラック順序付けという、使用されるアンビソニックスフォーマットの仕様を示すメタデータを符号化すること、または、
    アンビソニックストラックに関連した初期再生時間を符号化すること
    をさらに含む、請求項4に記載の方法。
  6. 関連の指向性データを有する入力されたモノラル信号を、所与の次数および混合次数のアンビソニックストラックに符号化すること、または、
    任意の入力されたマルチチャンネル信号を、所与の次数および混合次数のアンビソニックストラックに符号化すること、または、
    任意の次数および混合次数の任意の入力されたアンビソニックス信号を、異なり得る所与の次数および混合次数のアンビソニックストラックに符号化すること
    をさらに含む、請求項5に記載の方法。
  7. モノラルトラックのセットに関連した、広がりパラメータおよび場合によっては他の空間メタデータを、特定された広がりに適した復号化アルゴリズムを使用するために使用することをさらに含む、請求項2に記載の方法。
  8. 再生配置に依存しないフォーマットを所与のマルチスピーカー配置に復号化することをさらに含み、
    前記復号化が
    狭域音源を再生するのに適したアルゴリズムを使用して、モノラルトラックのセットを復号化するため、および
    トラックの次数、混合次数および特定された配置に適合されたアルゴリズムによりアンビソニックストラックのセットを復号化するために、
    マルチスピーカー位置の仕様を使用する、請求項7に記載の方法。
  9. サウンドスケープ全体の回転を行うために回転制御パラメータを使用することをさらに含み、回転制御パラメータは頭部追跡装置から生成される、請求項8に記載の方法。
  10. スピーカーの位置を自動的に導出して復号器により使用される配置の仕様を定義するための技術を使用することをさらに含む、請求項8に記載の方法。
  11. ステレオおよびサラウンド5.1、ITU−R775−1という標準的な再生配置プリセットを使用すること、または、
    頭部伝達関数データベースを使用して、標準的なバイノーラル技術により、ヘッドフォンに復号化すること
    をさらに含む、請求項8に記載の方法。
  12. 復号化の出力は、直接再生されず、オーディオトラックのセットとして記憶される、請求項8または11に記載の方法。
  13. オーディオ信号の全てまたは一部が圧縮されたオーディオフォーマットに符号化される、請求項1、6、または11に記載の方法。
  14. オーディオ信号および関連の空間情報を再生配置に依存しないフォーマットに符号化するためのオーディオ符号化器であって、
    高指向性オーディオ信号第1セットとして第1グループに割り当て、および、第1グループを、指向性情報および初期再生時間情報を有するモノラルトラックのセットに符号化するための符号化器、
    残りのオーディオ信号第2セットとして第2グループに割り当て、および、第2グループを、任意の次数および混合次数のアンビソニックストラックスのセットに符号化するための符号化器、および
    指向性に基づいて第1および第2セットの何れかに割り当てられたオーディオ信号を含む2つのグループのトラックを生成するための符号化器、
    を含む前記オーディオ符号化器。
  15. 再生配置に依存しないフォーマットをN個のチャンネルを有する所与の再生システムに復号するためのオーディオ復号器であって、
    前記再生配置に依存しないフォーマットが請求項1に記載された方法に従って、及び/又は請求項14に記載されたオーディオ符号化器によって生成され、
    前記オーディオ復号器が、
    再生配置の仕様に基づき、指向性情報および初期再生時間情報を有するモノラルトラックのセットをN個のオーディオチャンネルに復号化するための復号器、
    再生配置の仕様に基づき、アンビソニックストラックのセットをN個のオーディオチャンネルに復号化するための復号器、および
    N個の出力オーディオチャンネルを生成するために、2つの上記復号器の出力をミキシングして、再生および記憶に供するミキサー、
    を含む、オーディオ復号器。
  16. 空間オーディオを再生配置に依存しないフォーマットに符号化および再符号化し、任意のマルチスピーカー配置またはヘッドフォンに復号化および再生するシステムであって、
    オーディオ信号のセットおよび関連の空間情報を再生配置に依存しないフォーマットに符号化する、請求項14に記載のオーディオ符号化器、および
    再生配置に依存しないフォーマットを、マルチスピーカー配置またはヘッドフォンである所与の再生システムに復号化する、請求項15に記載のオーディオ復号器
    を含む、前記システム。
  17. 請求項1から13のいずれかに記載の方法をコンピュータ上で実行するためのコンピュータプログラム。
JP2011542729A 2008-12-30 2009-12-29 三次元音場の符号化および最適な再現の方法および装置 Active JP5688030B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08382091.0 2008-12-30
EP08382091.0A EP2205007B1 (en) 2008-12-30 2008-12-30 Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
PCT/EP2009/009356 WO2010076040A1 (en) 2008-12-30 2009-12-29 Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction

Publications (3)

Publication Number Publication Date
JP2012514358A JP2012514358A (ja) 2012-06-21
JP2012514358A5 JP2012514358A5 (ja) 2013-02-21
JP5688030B2 true JP5688030B2 (ja) 2015-03-25

Family

ID=40606571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011542729A Active JP5688030B2 (ja) 2008-12-30 2009-12-29 三次元音場の符号化および最適な再現の方法および装置

Country Status (8)

Country Link
US (1) US9299353B2 (ja)
EP (2) EP2205007B1 (ja)
JP (1) JP5688030B2 (ja)
CN (1) CN102326417B (ja)
MX (1) MX2011007035A (ja)
RU (1) RU2533437C2 (ja)
UA (1) UA106598C2 (ja)
WO (1) WO2010076040A1 (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
US9591374B2 (en) 2010-06-30 2017-03-07 Warner Bros. Entertainment Inc. Method and apparatus for generating encoded content using dynamically optimized conversion for 3D movies
US9552840B2 (en) * 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
CN103460285B (zh) * 2010-12-03 2018-01-12 弗劳恩霍夫应用研究促进协会 用于以几何为基础的空间音频编码的装置及方法
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
FR2970574B1 (fr) * 2011-01-19 2013-10-04 Devialet Dispositif de traitement audio
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2862370B1 (en) 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
EP2875511B1 (en) 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
EP2733963A1 (en) * 2012-11-14 2014-05-21 Thomson Licensing Method and apparatus for facilitating listening to a sound signal for matrixed sound signals
KR102028122B1 (ko) * 2012-12-05 2019-11-14 삼성전자주식회사 오디오 장치 및 그의 신호 처리 방법 그리고 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 매체
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2946468B1 (en) * 2013-01-16 2016-12-21 Thomson Licensing Method for measuring hoa loudness level and device for measuring hoa loudness level
US9736609B2 (en) * 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
EP2979467B1 (en) 2013-03-28 2019-12-18 Dolby Laboratories Licensing Corporation Rendering audio using speakers organized as a mesh of arbitrary n-gons
US9723305B2 (en) 2013-03-29 2017-08-01 Qualcomm Incorporated RTP payload format designs
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
JP6204684B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
JP6228389B2 (ja) * 2013-05-14 2017-11-08 日本放送協会 音響信号再生装置
JP6228387B2 (ja) * 2013-05-14 2017-11-08 日本放送協会 音響信号再生装置
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US20140355769A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
US10095468B2 (en) 2013-09-12 2018-10-09 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
US9807538B2 (en) 2013-10-07 2017-10-31 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
DE102013223201B3 (de) 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
JP6374980B2 (ja) * 2014-03-26 2018-08-15 パナソニック株式会社 サラウンドオーディオ信号処理のための装置及び方法
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
MX2020011754A (es) 2015-10-08 2022-05-19 Dolby Int Ab Codificacion en capas para representaciones de sonido o campo de sonido comprimidas.
US10070094B2 (en) * 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
EP3188504B1 (en) 2016-01-04 2020-07-29 Harman Becker Automotive Systems GmbH Multi-media reproduction for a multiplicity of recipients
FR3046489B1 (fr) 2016-01-05 2018-01-12 Mimi Hearing Technologies GmbH Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions
JP6959943B2 (ja) * 2016-05-25 2021-11-05 ワーナー ブラザーズ エンターテイメント インコーポレイテッド 3d音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置
US10158963B2 (en) * 2017-01-30 2018-12-18 Google Llc Ambisonic audio with non-head tracked stereo based on head position and time
US10390166B2 (en) 2017-05-31 2019-08-20 Qualcomm Incorporated System and method for mixing and adjusting multi-input ambisonics
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
RU2736418C1 (ru) 2017-07-14 2020-11-17 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многоточечного описания звукового поля
RU2740703C1 (ru) 2017-07-14 2021-01-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многослойного описания
US10257633B1 (en) * 2017-09-15 2019-04-09 Htc Corporation Sound-reproducing method and sound-reproducing apparatus
CN109756683B (zh) * 2017-11-02 2024-06-04 深圳市裂石影音科技有限公司 全景音视频录制方法、装置、存储介质和计算机设备
US10714098B2 (en) 2017-12-21 2020-07-14 Dolby Laboratories Licensing Corporation Selective forward error correction for spatial audio codecs
US10595146B2 (en) 2017-12-21 2020-03-17 Verizon Patent And Licensing Inc. Methods and systems for extracting location-diffused ambient sound from a real-world scene
EP3503102A1 (en) * 2017-12-22 2019-06-26 Nokia Technologies Oy An apparatus and associated methods for presentation of captured spatial audio content
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
CN109462811B (zh) * 2018-11-23 2020-11-17 武汉轻工大学 基于非中心点的声场重建方法、设备、存储介质及装置
CN218198109U (zh) * 2019-10-23 2023-01-03 索尼公司 移动装置
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
CN111263291B (zh) * 2020-01-19 2021-06-11 西北工业大学太仓长三角研究院 一种基于高阶麦克风阵列的声场重构方法
JP2021131433A (ja) * 2020-02-19 2021-09-09 ヤマハ株式会社 音信号処理方法および音信号処理装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9204485D0 (en) * 1992-03-02 1992-04-15 Trifield Productions Ltd Surround sound apparatus
AUPO316296A0 (en) * 1996-10-23 1996-11-14 Lake Dsp Pty Limited Dithered binaural system
AUPP272598A0 (en) * 1998-03-31 1998-04-23 Lake Dsp Pty Limited Wavelet conversion of 3-d audio signals
JP3863306B2 (ja) * 1998-10-28 2006-12-27 富士通株式会社 マイクロホンアレイ装置
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
US8027482B2 (en) * 2003-02-13 2011-09-27 Hollinbeck Mgmt. Gmbh, Llc DVD audio encoding using environmental audio tracks
DE10344638A1 (de) * 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
EP1813956A4 (en) * 2004-11-16 2012-08-01 Univ Nihon SOUND SOURCE DIRECTIONAL APPARATUS AND METHOD
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
FI20055260A0 (fi) * 2005-05-27 2005-05-27 Midas Studios Avoin Yhtioe Laite, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten
EP1989854B1 (fr) * 2005-12-27 2015-07-22 Orange Procede de determination d'un mode d'encodage spatial de donnees audio
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US20090192638A1 (en) * 2006-06-09 2009-07-30 Koninklijke Philips Electronics N.V. device for and method of generating audio data for transmission to a plurality of audio reproduction units
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
JP2008061186A (ja) * 2006-09-04 2008-03-13 Yamaha Corp 指向特性制御装置、収音装置および収音システム
WO2008039339A2 (en) * 2006-09-25 2008-04-03 Dolby Laboratories Licensing Corporation Improved spatial resolution of the sound field for multi-channel audio playback systems by deriving signals with high order angular terms
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS

Also Published As

Publication number Publication date
CN102326417B (zh) 2015-07-08
WO2010076040A1 (en) 2010-07-08
RU2011131868A (ru) 2013-02-10
UA106598C2 (uk) 2014-09-25
RU2533437C2 (ru) 2014-11-20
EP2205007A1 (en) 2010-07-07
EP2382803A1 (en) 2011-11-02
CN102326417A (zh) 2012-01-18
JP2012514358A (ja) 2012-06-21
EP2205007B1 (en) 2019-01-09
EP2382803B1 (en) 2020-02-19
US9299353B2 (en) 2016-03-29
US20110305344A1 (en) 2011-12-15
MX2011007035A (es) 2011-10-11

Similar Documents

Publication Publication Date Title
JP5688030B2 (ja) 三次元音場の符号化および最適な再現の方法および装置
RU2741738C1 (ru) Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала
TWI744341B (zh) 使用近場/遠場渲染之距離聲相偏移
AU2012279357A1 (en) System and method for adaptive audio signal generation, coding and rendering
RU2820838C2 (ru) Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала
Brandenburg et al. Audio Codecs: Listening pleasure from the digital world
Devonport et al. Full Reviewed Paper at ICSA 2019

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121226

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20121226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121226

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140430

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150123

R150 Certificate of patent or registration of utility model

Ref document number: 5688030

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250