JP2017520177A

JP2017520177A - 高次アンビソニックオーディオレンダラのための希薄情報を取得すること

Info

Publication number: JP2017520177A
Application number: JP2016569942A
Authority: JP
Inventors: ペーターズ、ニルス・ガンザー; セン、ディパンジャン; モッ; モッレル、マーティン・ジェームス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-05-30
Filing date: 2015-05-29
Publication date: 2017-07-20
Anticipated expiration: 2035-05-29
Also published as: HUE042058T2; CA2949108C; CA2949108A1; CN106415712B; CN110827839A; JP6297721B2; EP3149971B1; EP3149971A1; CN106415712A; ES2699657T3; WO2015184307A1; BR112016028215B1; KR101818877B1; CN110827839B; BR112016028215A2; KR20170015897A

Abstract

概して、本技法は、ビットストリームにおけるオーディオレンダリング情報を取得するために説明される。プロセッサおよびメモリを備える高次アンビソニック係数をレンダリングするように構成されたデバイスは、本技法を実行し得る。プロセッサは、複数のスピーカーフィードに高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを行うように構成される。メモリは、希薄さ情報を記憶することを行うように構成される。【選択図】図７

Description

関連出願

[0001]本出願は、２０１４年７月１１日に出願された「SIGNALING AUDIO RENDERING INFORMATION IN A BITSTREAM」という名称の米国仮出願第６２／０２３，６６２号、および２０１４年５月３０日に出願された「SIGNALING AUDIO RENDERING INFORMATION IN A BITSTREAM」という名称の米国仮出願第６２／００５，８２９号の利益を主張し、上記に記載された米国仮出願の各々は、それらのそれぞれの全体として本明細書に記載されたかのように、参照により組み込まれる。

[0002]本開示は、情報をレンダリングすることに関し、より詳細には、高次アンビソニック（ＨＯＡ）オーディオデータのための情報をレンダリングすることに関する。

[0003]オーディオコンテンツの作成の間、音響技師は、オーディオコンテンツを再生するために使用されるスピーカーの目標構成のためのオーディオコンテンツを調整するために、特定のレンダラを使用してオーディオコンテンツをレンダリングし得る。言い換えれば、音響技師は、オーディオコンテンツをレンダリングし、目標とされる構成に配置されたスピーカーを使用してレンダリングされたオーディオコンテンツを再生し得る。音響技師は次いで、オーディオコンテンツの様々な態様をリミックスし、リミックスされたオーディオコンテンツをレンダリングし、目標とされる構成に配置されたスピーカーを使用してレンダリングされ、リミックスされたオーディオコンテンツをふたたび再生し得る。音響技師は、ある芸術的意図がオーディオコンテンツによって提供されるまで、このように繰り返し得る。このようにして、音響技師は、（たとえば、オーディオコンテンツと一緒に上映される映像コンテンツと合わせるために）ある芸術的意図を提供するまたはさもなければ再生中にある音場を提供するオーディオコンテンツを作成し得る。

[0004]一般に、オーディオデータを表すビットストリーム中でオーディオレンダリング情報を指定するための技法が、記述される。言い換えれば、本技法は、オーディオコンテンツ作成中に使用されるオーディオレンダリング情報を再生デバイスにシグナルするための方法を提供し、その再生デバイスは次いで、オーディオコンテンツをレンダリングするためにオーディオレンダリング情報を使用し得る。このようにレンダリング情報を提供することは、再生デバイスが、音響技師によって意図されたようにオーディオコンテンツをレンダリングし、それによって芸術的意図がリスナーによって潜在的に理解されるように、オーディオコンテンツの適切な再生を潜在的に確実にすることを可能にする。言い換えれば、音響技師によってレンダリング中に使用されるレンダリング情報は、本開示で述べられる技法に従って提供され、その結果オーディオ再生デバイスは、音響技師によって意図されたようにオーディオコンテンツをレンダリングするためにレンダリング情報を利用することができ、それによって、このオーディオレンダリング情報を提供しないシステムと比較して、オーディオコンテンツの作成中と再生中の両方でのより一貫した体験を確実にする。

[0005]１つの態様では、高次アンビソニック係数をレンダリングするように構成されたデバイスは、複数のスピーカーフィードに高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを行うように構成された１つまたは複数のプロセッサと、希薄さ情報を記憶することを行うように構成されたメモリとを備える。

[0006]別の態様では、高次アンビソニック係数をレンダリングする方法は、複数のスピーカーフィードを生成するために、高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを備える。

[0007]別の態様では、ビットストリームを作成するように構成されたデバイスは、行列を記憶することを行うように構成されたメモリと、複数のスピーカーフィードを生成するために、高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得するように構成される１つまたは複数のプロセッサとを備える。

[0008]別の態様では、ビットストリームを作成する方法は、複数のスピーカーフィードを生成するために、高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを備える。

[0009]別の態様では、高次アンビソニック係数をレンダリングするように構成されたデバイスは、複数のスピーカーフィードを生成するために、高次アンビソニック係数をレンダリングするために使用される行列の符号シンメトリ（sign symmetry）を示す符号シンメトリ情報を取得するように構成された１つまたは複数のプロセッサと、希薄さ情報を格納するように構成されたメモリとを備える。

[0010]別の態様では、高次アンビソニック係数をレンダリングする方法は、複数のスピーカーフィードを生成するために、高次アンビソニック係数をレンダリングするために使用される行列の符号シンメトリを示す符号シンメトリ情報を取得することを備える。

[0011]別の態様では、ビットストリームを作成するように構成されたデバイスは、複数のスピーカーフィードを生成するために、高次アンビソニック係数をレンダリングするために使用される行列を記憶するように構成されたメモリと、行列の符号シンメトリを示すシンメトリ情報を符号するように構成された１つまたは複数のプロセッサとを備える。

[0012]別の態様では、ビットストリームを作成する方法は、複数のスピーカーフィードを生成するように、高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを備える。

[0013]本技法の１つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。本技法の他の特徴、目的、および利点は、その説明および図面、ならびに特許請求の範囲から明らかになろう。

様々な次数および副次数の球面調和基底関数を示す図。本開示で説明される技法の様々な態様を実行し得るシステムを示す図。本開示で説明される技法の様々な態様を実行し得る、図２の例に示されるオーディオ符号化デバイスの一例をより詳細に示すブロック図。図２のオーディオ復号デバイスをより詳細に示すブロック図。本開示で説明されるベクトルベース合成技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。本開示において説明される技法の様々な態様を実行する際に、図２の例で示されるシステムのうちの１つのような、システムの動作例を示すフローチャート。本開示において説明される技法に従って形成されたビットストリームを示す図。本開示において説明される技法に従って形成されたビットストリームを示す図。本開示において説明される技法に従って形成されたビットストリームを示す図。本開示において説明される技法に従って形成されたビットストリームを示す図。圧縮された空間成分を指定し得るビットストリームまたはサイドチャネル情報の一部分をより詳細に示す図。圧縮された空間成分を指定し得るビットストリームまたはサイドチャネル情報の一部分をより詳細に示す図。圧縮された空間成分を指定し得るビットストリームまたはサイドチャネル情報の一部分をより詳細に示す図。高次アンビソニック（ＨＯＡ）レンダリング行列内のＨＯＡ次数依存の最小および最大利得の例を示す図。２２個のラウドスピーカーのための部分的に希薄な６次ＨＯＡレンダリング行列を説明する図。シンメトリプロパティのシグナリングを説明するフローチャート。

[0026]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカーへのフィードを暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している５．１フォーマット（これは、次の６つのチャネル、すなわち、フロントレフト（ＦＬ）と、フロントライト（ＦＲ）と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果（ＬＦＥ）とを含む）、発展中の７．１フォーマット、７．１．４フォーマットおよび２２．２フォーマット（たとえば、超高精細度テレビジョン規格とともに使用するための）などのハイトスピーカーを含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」と呼ばれることが多い（シンメトリック、および非シンメトリック幾何学的配置の）任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂二十面体の角の座標に配置される３２個のラウドスピーカーを含む。

[0027]将来のＭＰＥＧ符号化器への入力は、オプションで、次の３つの可能なフォーマット、すなわち、（ｉ）あらかじめ指定された位置でラウドスピーカーを通じて再生されることが意図される、（上で論じられたような）従来のチャネルベースオーディオ、（ｉｉ）（情報の中でも）位置座標を含む関連付けられたメタデータを有する単一オーディオオブジェクトのための離散的なパルス符号変調（ＰＣＭ）データを伴うオブジェクトベースオーディオ、および（ｉｉｉ）球面調和基底関数の係数（「球面調和係数」すなわちＳＨＣ、「高次アンビソニックス」すなわちＨＯＡ、および「ＨＯＡ係数」とも呼ばれる）を使用して音場を表すことを伴うシーンベースオーディオのうちの１つである。将来のＭＰＥＧ符号化器は、２０１３年１月にスイスのジュネーブで発表された、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ／ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ（ＩＳＯ）／（ＩＥＣ）ＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ１３４１１による「ＣａｌｌｆｏｒＰｒｏｐｏｓａｌｓｆｏｒ３ＤＡｕｄｉｏ」と題される文書においてより詳細に説明され得る。

[0028]市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらのフォーマットは、たとえば、５．１ホームシアターシステム（リビングルームに進出するという点でステレオ以上に最も成功した）からＮＨＫ（ＮｉｐｐｏｎＨｏｓｏＫｙｏｋａｉすなわち日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ作成者（たとえば、ハリウッドスタジオ）は、一度に映画のサウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置（と数）および（レンダラを伴う）再生のロケーションにおける音響条件に適応可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。

[0029]コンテンツ作成者にそのような柔軟性を提供するために、要素の階層セットが音場を表すために使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細なものになり、分解能は向上する。

[0030]要素の階層セットの一例は、球面調和係数（ＳＨＣ）のセットである。次の式は、ＳＨＣを使用する音場の記述または表現を示す。

[0031]この式は、時間ｔにおける音場の任意の点｛ｒ_r，θ_r，φ_r｝における圧力ｐ_iが、ＳＨＣ、

によって一意に表され得ることを示す。ここで、

であり、ｃは音速（約３４３ｍ／ｓ）であり、｛ｒ_r，θ_r，φ_r｝は基準点（または観測点）であり、ｊ_n（・）は次数ｎの球ベッセル関数であり、

は次数ｎおよび副次数ｍの球面調和基底関数である。角括弧内の項は、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換などの様々な時間周波数変換によって近似され得る信号の周波数領域表現（すなわち、Ｓ（ω，ｒ_r，θ_r，φ_r））であることが認識できよう。階層セットの他の例は、ウェーブレット変換係数のセット、および多分解能基底関数の係数の他のセットを含む。

[0032]図１は、０次（ｎ＝０）から４次（ｎ＝４）までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図１の例では明示的に示されていない副次数ｍの拡張が存在する。

[0033]ＳＨＣ

は、様々なマイクロフォンアレイ構成によって物理的に獲得（たとえば、録音）されてよく、または代替的に、それらは音場のチャネルベースまたはオブジェクトベースの記述から導出されてよい。ＳＨＣはシーンベースのオーディオを表し、ここで、ＳＨＣは、より効率的な送信または記憶を促し得る符号化されたＳＨＣを取得するために、オーディオ符号化器に入力され得る。たとえば、（１＋４）²個の（２５個の、したがって４次の）係数を伴う４次表現が使用され得る。

[0034]上述されたように、ＳＨＣは、マイクロフォンアレイを使用したマイクロフォン録音から導出され得る。ＳＨＣがマイクロフォンアレイからどのように導出され得るかの様々な例は、Ｐｏｌｅｔｔｉ，Ｍ、「Ｔｈｒｅｅ−ＤｉｍｅｎｓｉｏｎａｌＳｕｒｒｏｕｎｄＳｏｕｎｄＳｙｓｔｅｍｓＢａｓｅｄｏｎＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓ」、Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．、Ｖｏｌ．５３、Ｎｏ．１１、２００５年１１月、１００４〜１０２５ページにおいて説明されている。

[0035]ＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数

は、

と表され得、ただし、ｉは、

であり、

は、次数ｎの（第２の種類の）球ハンケル関数であり、｛ｒ_s，θ_s、φ_s｝はオブジェクトのロケーションである。周波数の関数として（たとえば、ＰＣＭストリームに対して高速フーリエ変換を実行するなど、時間周波数分析技法を使用して）オブジェクトソースエネルギーｇ（ω）を知ることで、各ＰＣＭオブジェクトと対応するロケーションとをＳＨＣ

に変換することが可能となる。さらに、各オブジェクトについての

係数は、（上式は線形であり直交方向の分解であるので）加法的であることが示され得る。このようにして、多数のＰＣＭオブジェクトが

係数によって（たとえば、個々のオブジェクトについての係数ベクトルの和として）表され得る。本質的に、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含んでおり、上記は、観測点｛ｒ_r，θ_r，φ_r｝の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの数字は、以下でオブジェクトベースのオーディオコーディングおよびＳＨＣベースのオーディオコーディングの文脈で説明される。

[0036]図２は、本開示で説明される技法の様々な態様を実行することができるシステム１０を示す図である。図２の例に示されるように、システム１０は、コンテンツ作成者デバイス１２と、コンテンツ消費者デバイス１４とを含む。コンテンツ作成者デバイス１２およびコンテンツ消費者デバイス１４の文脈で説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、ＳＨＣ（ＨＯＡ係数とも呼ばれ得る）または音場の任意の他の階層的表現が符号化される任意の文脈で実施され得る。その上、コンテンツ作成者デバイス１２は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。同様に、コンテンツ消費者デバイス１４は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。

[0037]コンテンツ作成者デバイス１２は、コンテンツ消費者デバイス１４などのコンテンツ消費者デバイスのオペレータによる消費のためのマルチチャネルオーディオコンテンツを生成することができる、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例では、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を圧縮することを望む個人ユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともに、オーディオコンテンツを生成する。コンテンツ消費者デバイス１４は、個人によって操作され得る。コンテンツ消費者デバイス１４は、マルチチャネルオーディオコンテンツとしての再生のためにＳＨＣをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム１６を含み得る。

[0038]コンテンツ作成者デバイス１２は、オーディオ編集システム１８を含む。コンテンツ作成者デバイス１２は、様々なフォーマットのライブ録音７（ＨＯＡ係数として直接含む）とオーディオオブジェクト９とを取得し、コンテンツ作成者デバイス１２は、オーディオ編集システム１８を使用してこれらを編集することができる。マイクロフォン５は、ライブ録音７をキャプチャし得る。コンテンツ作成者は、編集プロセスの間に、オーディオオブジェクト９からのＨＯＡ係数１１をレンダリングし、さらなる編集を必要とする音場の様々な態様を特定しようとして、レンダリングされたスピーカーフィードを聞くことができる。コンテンツ作成者デバイス１２は次いで、（潜在的に、上記で説明された方法でソースＨＯＡ係数がそれから導出され得るオーディオオブジェクト９のうちの様々なオブジェクトの操作を通じて間接的に）ＨＯＡ係数１１を編集することができる。コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を生成するためにオーディオ編集システム１８を採用することができる。オーディオ編集システム１８は、オーディオデータを編集し、このオーディオデータを１つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。

[0039]編集プロセスが完了すると、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１に基づいてビットストリーム２１を生成することができる。すなわち、コンテンツ作成者デバイス１２は、ビットストリーム２１を生成するために、本開示で説明される技法の様々な態様に従って、ＨＯＡ係数１１を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス２０を含む。オーディオ符号化デバイス２０は、一例として、有線チャネルまたはワイヤレスチャネル、データ記憶デバイスなどであり得る送信チャネルを介した送信のために、ビットストリーム２１を生成することができる。ビットストリーム２１は、ＨＯＡ係数１１の符号化されたバージョンを表すことができ、主要ビットストリームと、サイドチャネル情報とも呼ばれ得る別のサイドビットストリームとを含み得る。

[0040]図２では、コンテンツ消費者デバイス１４に直接的に送信されるものとして示されているが、コンテンツ作成者デバイス１２は、コンテンツ作成者デバイス１２とコンテンツ消費者デバイス１４との間に配置された中間デバイスにビットストリーム２１を出力することができる。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス１４に後で配信するために、ビットストリーム２１を記憶することができる。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオ復号器による取出しのためにビットストリーム２１を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、ビットストリーム２１を要求するコンテンツ消費者デバイス１４などの加入者にビットストリーム２１を（場合によっては対応するビデオデータビットストリームを送信するとともに）ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在してもよい。

[0041]代替的に、コンテンツ作成者デバイス１２は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にビットストリーム２１を記憶することができ、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。この文脈において、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある（および、小売店と他の店舗ベースの配信機構とを含み得る）。したがって、いずれにしても、本開示の技法は、この点に関して図２の例に限定されるべきではない。

[0042]図２の例にさらに示されるように、コンテンツ消費者デバイス１４は、オーディオ再生システム１６を含む。オーディオ再生システム１６は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム１６は、いくつかの異なるレンダラ２２を含み得る。レンダラ２２は各々、異なる形態のレンダリングを提供することができ、異なる形態のレンダリングは、ベクトルベース振幅パンニング（ＶＢＡＰ：vector-base amplitude panning）を実行する様々な方法の１つもしくは複数、および／または音場合成を実行する様々な方法の１つもしくは複数を含み得る。本明細書で使用される場合、「Ａおよび／またはＢ」は、「ＡまたはＢ」、または「ＡとＢ」の両方を意味する。

[0043]オーディオ再生システム１６は、オーディオ復号デバイス２４をさらに含み得る。オーディオ復号デバイス２４は、ビットストリーム２１からＨＯＡ係数１１’を復号するように構成されたデバイスを表し得、ＨＯＡ係数１１’は、ＨＯＡ係数１１と類似し得るが、損失のある演算（たとえば、量子化）および／または送信チャネルを介した送信が原因で異なり得る。オーディオ再生システム１６は、ＨＯＡ係数１１’を取得するためにビットストリーム２１を復号した後、ラウドスピーカーフィード２５を出力するためにＨＯＡ係数１１’をレンダリングすることができる。ラウドスピーカーフィード２５は、１つまたは複数のラウドスピーカー（説明を簡単にするために図２の例には示されていない）を駆動することができる。

[0044]適切なレンダラを選択するために、またはいくつかの場合には、適切なレンダラを生成するために、オーディオ再生システム１６は、ラウドスピーカーの数および／またはラウドスピーカーの空間的な幾何学的配置を示すラウドスピーカー情報１３を取得することができる。いくつかの場合には、オーディオ再生システム１６は、基準マイクロフォンを使用してラウドスピーカー情報１３を取得し、ラウドスピーカー情報１３を動的に決定するような方法でラウドスピーカーを駆動することができる。他の場合には、またはラウドスピーカー情報１３の動的な決定とともに、オーディオ再生システム１６は、オーディオ再生システム１６とインターフェースをとりラウドスピーカー情報１３を入力するようにユーザに促すことができる。

[0045]オーディオ再生システム１６は次いで、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを選択することができる。いくつかの場合には、オーディオ再生システム１６は、オーディオレンダラ２２のいずれもがラウドスピーカー情報１３において指定されたラウドスピーカーの幾何学的配置に対して（ラウドスピーカーの幾何学的配置の観点では）何らかの類似性の尺度のしきい値内にないとき、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを生成することができる。オーディオ再生システム１６は、いくつかの場合には、オーディオレンダラ２２のうちの既存の１つを選択することを最初に試みることなく、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを生成することができる。１つまたは複数のスピーカー３は、その後、レンダリングされたラウドスピーカーフィード２５を再生し得る。

[0046]いくつかの場合には、音声再生システム１６は、オーディオレンダラ２２のうちの任意の１つを選択でき、ビットストリーム２１が受信されソース（数例を提供するために、ＤＶＤプレーヤー、ブルーレイ（登録商標）プレーヤー、スマートフォン、タブレットコンピュータ、ゲーム機、およびテレビ受像機など）に応じてオーディオレンダラ２２のうちの１つまたは複数を選択するように構成されることができる。オーディオレンダラ２２のうちの任意の１つが、選択されることができるが、しばしばコンテンツを作成するときに使用されたオーディオレンダラは、コンテンツが、音声レンダラのうちのこの１つ、すなわち図３の例では音声レンダラ５を使用してコンテンツ作成者１２によって作成されたという事実に起因して、レンダリングのより良い（おそらく最良の）形を提供する。同じまたは少なくとも近い（レンダリングの形態の観点から）、オーディオレンダラ２２のうちの１つを選択することは、音場のより良い表現を提供することができ、コンテンツ消費者１４のために良いサラウンド音響体験をもたらすことができる。

[0047]本開示で説明される技法に従って、オーディオ符号化デバイス２０は、オーディオレンダリング情報２（「レンダー情報２（render info）」）を含むために、ビットストリーム２１を生成することができる。オーディオレンダリング情報２は、マルチチャネルオーディオコンテンツを生成するときに使用されるオーディオレンダラ、すなわち図３の例ではオーディオレンダラ１を識別する信号値を含むことができる。いくつかの場合には、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含む。

[0048]いくつかの場合には、信号値は、ビットストリームが、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含むことを示すインデックスを規定する２つ以上のビットを含む。いくつかの場合には、インデックスが、使用されるとき、信号値はさらに、ビットストリームに含まれる行列の行の数を規定する２つ以上のビットと、ビットストリームに含まれる行列の列の数を規定する２つ以上のビットとを含む。この情報を使用し、二次元行列の各係数が典型的には、３２ビット浮動小数点数によって規定されると仮定すると、行列のビットの観点からのサイズは、行の数、列の数、およびマトリックスの各係数を規定する浮動小数点数のサイズ、すなわちこの例では３２ビットの関数として計算され得る。

[0049]いくつかの場合には、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する。レンダリングアルゴリズムは、オーディオ符号化デバイス２０と復号デバイス２４との両方に既知の行列を含むことができる。すなわち、レンダリングアルゴリズムは、パニング（たとえば、ＶＢＡＰ、ＤＢＡＰ、もしくは単純なパニング）またはＮＦＣフィルタリングなどの、他のレンダリングステップに加えて行列の適用を含むことができる。いくつかの場合には、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数の行列のうちの１つと関連するインデックスを規定する２つ以上のビットを含む。この場合もやはり、オーディオ符号化デバイス２０と復号デバイス２４との両方は、インデックスが複数の行列のうちの特定の１つを一意的に識別することができるように、複数の行列と複数の行列の次数とを示す情報で構成され得る。代替的に、オーディオ符号化デバイス２０は、インデックスが複数の行列のうちの特定の１つを一意的に識別することができるように、複数の行列および／または複数の行列の次数を規定するビットストリーム３１でのデータを指定し得る。

[0050]いくつかの場合には、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムのうちの１つと関連するインデックスを規定する２つ以上のビットを含む。この場合もやはり、オーディオ符号化デバイス２０と復号デバイス２４との両方は、インデックスが複数の行列のうちの特定の１つを一意的に識別することができるように、複数のレンダリングアルゴリズムと複数のレンダリングアルゴリズムの次数とを示す情報で構成され得る。代替的に、オーディオ符号化デバイス２０は、インデックスが複数の行列の特定の１つを一意的に識別することができるように、複数の行列および／または複数の行列の次数を規定するビットストリーム２１中のデータを指定し得る。

[0051]いくつかの場合には、オーディオ符号化デバイス２０は、ビットストリーム中でオーディオフレームごとにオーディオレンダリング情報２を指定する。他の場合には、オーディオ符号化デバイス２０は、ビットストリーム中で一回、オーディオレンダリング情報２を指定する。

[0052]復号デバイス２４は次いで、ビットストリーム中で指定されるオーディオレンダリング情報２を決定し得る。オーディオレンダリング情報２中に含まれる信号値に基づいて、オーディオ再生システム１６は、オーディオレンダリング情報２に基づいて複数のスピーカーフィード２５をレンダリングし得る。上述されたように、信号値は、いくつかの場合には、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される行列を含み得る。この場合には、オーディオ再生システム１６は、その行列でオーディオレンダラ２２のうちの１つを構成することができ、その行列に基づいてスピーカーフィード２５をレンダリングするためにオーディオレンダラ２２のうちのこの１つを使用する。

[0053]いくつかの場合には、信号値は、ビットストリームが、ＨＯＡ１１’をスピーカーフィード２５にレンダリングするために使用される行列を含むことを示すインデックスを規定する２つ以上のビットを含む。復号デバイス２４は、インデックスに応答してビットストリームから行列を解析することができ、そうするとオーディオ再生システム１６は、解析された行列でオーディオレンダラ２２のうちの１つを構成し、スピーカーフィード２５をレンダリングするためにレンダラ２２のうちのこの１つを呼び出し得る。信号値が、ビットストリーム中に含まれる行列の行の数を規定する２つ以上のビットと、ビットストリーム中に含まれる行列の列の数を規定する２つ以上のビットとを含むとき、復号デバイス２４は、インデックスに応答し、上述されたように行の数を規定する２つ以上のビットおよび列の数を規定する２つ以上のビットに基づいてビットストリームから行列を解析し得る。

[0054]いくつか場合には、信号値は、ＨＯＡ１１’をスピーカーフィード２２にレンダリングするために使用されるレンダリングアルゴリズムを指定する。これらの場合には、オーディオレンダラ２２のうちのいくつかまたはすべては、これらのレンダリングアルゴリズムを実行し得る。オーディオ再生デバイス１６は次いで、ＨＯＡ１１’からスピーカーフィード２５をレンダリングするために、指定されたレンダリングアルゴリズム、たとえばオーディオレンダラ２２のうちの１つを利用し得る。

[0055]信号値が、ＨＯＡ１１’をスピーカーフィード２５にレンダリングするために使用される複数の行列のうちの１つと関連するインデックスを規定する２つ以上のビットを含むとき、オーディオレンダラ２２のうちのいくつかまたはすべては、この複数の行列を表し得る。したがって、オーディオ再生システム１６は、インデックスと関連するオーディオレンダラ２２のうちの１つを使用してＨＯＡ１１’からスピーカーフィード２５をレンダリングし得る。

[0056]信号値が、ＨＯＡ１１’をスピーカーフィード２５にレンダリングするために使用される複数のレンダリングアルゴリズムのうちの１つと関連するインデックスを規定する２つ以上のビットを含むとき、オーディオレンダラ３４のうちのいくつかまたはすべては、これらのレンダリングアルゴリズムを表し得る。したがって、オーディオ再生システム１６は、インデックスと関連するオーディオレンダラ２２のうちの１つを使用して球面調和係数１１’からスピーカーフィード２５をレンダリングし得る。

[0057]このオーディオレンダリング情報がビットストリーム中で指定される頻度に依存して、復号デバイス２４は、オーディオフレームベースごと（per-audio-frame-basis）にまたは一度で、オーディオレンダリング情報２を決定し得る。

[0058]このようにオーディオレンダリング情報３を指定することによって、本技法は、コンテンツ作成者１２がマルチチャネルオーディオコンテンツを再生しようと意図した仕方に従って、マルチチャネルオーディオコンテンツのより良い再生を潜在的にもたらし得る。結果として、本技法は、より没入型サラウンド音響またはマルチチャネルオーディオ体験を提供し得る。

[0059]言い換えれば、および、上述されたように、高次アンビソニック（ＨＯＡ）は、空間フーリエ変換に基づいて音場の指向性情報を説明するための方法を表わし得る。典型的には、アンビソニックス次数Ｎがより高いほど、空間分解能はより高く、球面調和（ＳＨ）係数の数（Ｎ＋１）＾２はより大きく、データを送信し、記憶するために必要とされる帯域幅はより大きい。

[0060]この説明の潜在的利点は、大部分の任意のラウドスピーカー設定（たとえば、５．１、７．１、２２．２等）でこの音場を再生する可能性である。音場記述からＭ個のラウドスピーカー信号への転換は、（Ｎ＋１）²個の入力およびＭ個の出力を持つ静的なレンダリング行列を介して行われ得る。その結果として、あらゆるラウドスピーカー設定は、専用のレンダリング行列を必要とし得る。いくつかのアルゴリズムは、所望のラウドスピーカー設定のためのレンダリング行列を計算するために存在し得、それは、ガーゾン（Gerzon）基準のような、ある客観的尺度または主観的尺度のために最適化され得る。不規則なラウドスピーカー設定では、アルゴリズムは、凸最適化のような、反復数値最適化プロシージャに起因して複雑になり得る。待ち時間なしに不規則なラウドスピーカー配置のためのレンダリング行列を計算するために、利用可能な十分な計算リソースを有することが、有益となり得る。不規則なラウドスピーカー設定は、構造的制約および美的な好みに起因して家庭のリビングルーム環境において良く起き得る。したがって、最良の音場再生では、そのようなシナリオのために最適化されたレンダリング行列は、音場の再生をより正確に可能にし得るという点で好まれ得る。

[0061]オーディオ復号器は通常、多くの計算リソースを必要としないので、デバイスは、消費者が使い易い時間（consumer-friendly time）において不規則なレンダリング行列を計算することができ得ない。本開示で説明される技法の様々な態様は、以下のようなクラウドベース計算アプローチを使用に提供し得る：
１．オーディオ復号器は、サーバにラウドスピーカー座標を（およびいくつかの場合には、較正マイクロフォンで取得されるＳＰＬ測定結果も）インターネット接続を介して送り得る。
２．クラウドベースサーバは、レンダリング行列を（および、消費者が後でこれらの異なるバージョンから選ぶことができるように、おそらく少数の異なるバージョンを）計算し得る。
３．サーバは次いで、インターネット接続を介してオーディオ復号器にレンダリング行列を（または異なるバージョンを）送り返し得る。

[0062]このアプローチは、規則的なスピーカー構成または幾何学的配置のために通常設計されるレンダリング行列と比較して、（強力なプロセッサが、これらの不規則なレンダリング行列を計算するために必要とされ得ないので）より最適なオーディオ再生もまた容易にしながら、製造業者がオーディオ復号器の製造コストを低く保つことを可能にし得る。レンダリング行列を計算するためのアルゴリズムはまた、オーディオ復号器が出荷された後に最適化され得、ハードウェア修正（hardware revision）またはリコールさえものコストを潜在的に低減する。本技法はまた、いくつかの場合には、将来の製品開発のために有益であり得る消費者製品の異なるラウドスピーカー設定に関する多くの情報を収集し得る。

[0063]いくつかの場合には、上述したように、図３に示されるシステムは、ビットストリーム２１においてオーディオレンダリング情報２をシグナリングし得ないが、代わりに、ビットストリーム２１から分離したメタデータとしてこのオーディオレンダリング情報２をシグナリングし得る。代替または上述されたそれと併せて、図３に示されるシステムは、上述されるようなビットストリーム２１におけるオーディオレンダリング情報２の一部をシグナリングし得、ビットストリーム２１から分離したメタデータとしてこのオーディオレンダリング情報３の一部をシグナリングし得る。いくつかの例では、オーディオ符号化デバイス２０は、メタデータを出力し得、それは次いで、サーバまたは他のデバイスにアップロードされ得る。オーディオ復号デバイス２４は次いで、このメタデータをダウンロードするまたはさもなければ取り出し得、それは次いで、オーディオ符号化デバイス２４によってビットストリーム２１から抽出されたオーディオレンダリング情報を増強するために使用される。技術のレンダリング情報態様に従って形成されたビットストリーム２１は、図８Ａ−８Ｄの例に関して以下で説明される。

[0064]図３は、本開示で説明される技法の様々な態様を実行することができる、図２の例に示されるオーディオ符号化デバイス２０の一例をより詳細に示すブロック図である。オーディオ符号化デバイス２０は、コンテンツ分析ユニット２６と、ベクトルベース分解ユニット２７と、指向性ベース分解ユニット２８とを含む。以下で手短に説明されるが、オーディオ符号化デバイス２０に関するより多くの情報、およびＨＯＡ係数を圧縮またはさもなければ符号化する様々な態様は、２０１４年５月２９に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0065]コンテンツ分析ユニット２６は、ＨＯＡ係数１１がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを特定するために、ＨＯＡ係数１１のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット２６は、ＨＯＡ係数１１が実際の音場の録音から生成されたか人工的なオーディオオブジェクトから生成されたかを決定することができる。いくつかの場合には、フレーム化されたＨＯＡ係数１１が録音から生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１をベクトルベース分解ユニット２７に渡す。いくつかの場合には、フレーム化されたＨＯＡ係数１１が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１を指向性ベース合成ユニット２８に渡す。指向性ベース合成ユニット２８は、指向性ベースビットストリーム２１を生成するためにＨＯＡ係数１１の指向性ベース合成を実行するように構成されたユニットを表し得る。

[0066]図３の例に示されるように、ベクトルベース分解ユニット２７は、線形可逆変換（ＬＩＴ）ユニット３０と、パラメータ計算ユニット３２と、並べ替えユニット３４と、フォアグラウンド選択ユニット３６と、エネルギー補償ユニット３８と、聴覚心理オーディオコーダユニット４０と、ビットストリーム生成ユニット４２と、音場分析ユニット４４と、係数低減ユニット４６と、バックグラウンド（ＢＧ）選択ユニット４８と、空間時間的補間ユニット５０と、量子化ユニット５２とを含み得る。

[0067]線形可逆変換（ＬＩＴ）ユニット３０は、ＨＯＡチャネルの形態でＨＯＡ係数１１を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連付けられた係数のブロックまたはフレーム（ＨＯＡ［ｋ］と示され得、ただし、ｋはサンプルの現在のフレームまたはブロックを示し得る）を表す。ＨＯＡ係数１１の行列は、次元Ｄ：Ｍ×（Ｎ＋１）²を有し得る。

[0068]ＬＩＴユニット３０は、特異値分解と呼ばれるある形態の分析を実行するように構成されたユニットを表し得る。ＳＶＤに関して説明されているが、本開示で説明される技法は、線形的に無相関な、エネルギーが圧縮された出力のセットを提供する任意の類似の変換または分解に対して実行されてよい。また、本開示における「セット」への言及は、一般的に、それとは反対に特に明記されていない限り、非０のセットを指すことが意図され、いわゆる「空集合」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「ＰＣＡ」と呼ばれることが多い、主成分分析を備え得る。文脈に応じて、ＰＣＡは、いくつかの例を挙げれば、離散カルーネン−レーベ変換、ホテリング変換、固有直交分解（ＰＯＤ）、および固有値分解（ＥＶＤ）などのいくつかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという背後にある目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「無相関化」である。

[0069]いずれにしても、ＬＩＴユニット３０が、例として、特異値分解（やはり「ＳＶＤ」と呼ばれることがある）を実行すると仮定すると、ＬＩＴユニット３０は、ＨＯＡ係数１１を、変換されたＨＯＡ係数の２つ以上のセットに変換することができる。変換されたＨＯＡ係数の「セット」は、変換されたＨＯＡ係数のベクトルを含み得る。図３の例では、ＬＩＴユニット３０は、いわゆるＶ行列と、Ｓ行列と、Ｕ行列とを生成するために、ＨＯＡ係数１１に関してＳＶＤを実行することができる。ＳＶＤは、線形代数学では、ｙ×ｚの実行列または複素行列Ｘ（ここで、Ｘは、ＨＯＡ係数１１などのマルチチャネルオーディオデータを表し得る）の因数分解を以下の形で表し得る：
Ｘ＝ＵＳＶ＊
Ｕは、ｙ×ｙの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｕのｙ個の列は、マルチチャネルオーディオデータの左特異ベクトルとして知られる。Ｓは、対角線上に非負実数をもつｙ×ｚの矩形対角行列を表し得、ここで、Ｓの対角線値は、マルチチャネルオーディオデータの特異値として知られる。Ｖ＊（Ｖの共役転置を示し得る）はｚ×ｚの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｖ＊のｚ個の列は、マルチチャネルオーディオデータの右特異ベクトルとして知られる。

[0070]いくつかの例では、上で参照されたＳＶＤ数式中のＶ＊行列は、複素数を備える行列にＳＶＤが適用され得ることを反映するために、Ｖ行列の共役転置として示される。実数のみを備える行列に適用されるとき、Ｖ行列の複素共役（すなわち、言い換えれば、Ｖ＊行列）は、Ｖ行列の転置であると見なされてよい。以下では、説明を簡単にするために、ＨＯＡ係数１１が実数を備え、その結果、Ｖ＊行列ではなくＶ行列がＳＶＤによって出力されると仮定される。その上、本開示ではＶ行列として示されるが、Ｖ行列への言及は、適切な場合にはＶ行列の転置を指すものとして理解されるべきである。Ｖ行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するＨＯＡ係数１１に適用されてよく、ここで、ＳＶＤの出力はＶ＊行列である。したがって、本技法は、この点について、Ｖ行列を生成するためにＳＶＤの適用を提供することのみに限定されるべきではなく、Ｖ＊行列を生成するために複素成分を有するＨＯＡ係数１１へのＳＶＤの適用を含んでよい。

[0071]このようにして、ＬＩＴユニット３０は、次元Ｄ：Ｍ×（Ｎ＋１）²を有するＵＳ［ｋ］ベクトル３３（ＳベクトルとＵベクトルとの組み合わされたバージョンを表し得る）と、次元Ｄ：（Ｎ＋１）²×（Ｎ＋１）²を有するＶ［ｋ］ベクトル３５とを出力するために、ＨＯＡ係数１１に関してＳＶＤを実行することができる。ＵＳ［ｋ］行列中の個々のベクトル要素は、Ｘ_ps（ｋ）とも呼ばれることがあり、一方、Ｖ［ｋ］行列の個々のベクトルはｖ（ｋ）とも呼ばれることがある。

[0072]Ｕ行列、Ｓ行列、およびＶ行列の分析は、それらの行列がＸによって上で表される背後の音場の空間的および時間的な特性を伝え、または表すということを明らかにし得る。（Ｍ個のサンプルの長さの）Ｕの中のＮ個のベクトルの各々は、（Ｍ個のサンプルによって表される時間期間の間は）時間の関数として、互いに直交しておりあらゆる空間特性（指向性情報とも呼ばれ得る）とは切り離されている、正規化された分離されたオーディオ信号を表し得る。空間的な形状と位置（ｒ、θ、φ）を表す空間特性は、代わりに、（各々が（Ｎ＋１）²の長さの）Ｖ行列の中の個々のｉ番目のベクトル、ｖ⁽ⁱ⁾（ｋ）によって表され得る。ｖ⁽ⁱ⁾（ｋ）ベクトルの各々の個々の要素は、関連付けられたオーディオオブジェクトのための音場の形状（幅を含む）と位置とを記述するＨＯＡ係数を表し得る。Ｕ行列中のベクトルとＶ行列中のベクトルの両方が、それらの２乗平均エネルギーが１に等しくなるように正規化される。したがって、Ｕの中のオーディオ信号のエネルギーは、Ｓの中の対角線要素によって表される。したがって、ＵＳ［ｋ］（個々のベクトル要素Ｘ_PS（ｋ）を有する）を形成するために、ＵとＳとを乗算することは、真のエネルギーを有するオーディオ信号を表す。（Ｕにおける）オーディオ時間信号と、（Ｓにおける）それらのエネルギーと、（Ｖにおける）それらの空間特性とを切り離すＳＶＤ分解の能力は、本開示で説明される技法の様々な態様を支援することができる。さらに、背後のＨＯＡ［ｋ］係数ＸをＵＳ［ｋ］とＶ［ｋ］とのベクトル乗算によって合成するモデルは、本文書全体で使用される、「ベクトルベース分解」という用語を生じさせる。

[0073]ＨＯＡ係数１１に関して直接実行されるものとして説明されるが、ＬＩＴユニット３０は、線形可逆変換をＨＯＡ係数１１の派生物に適用することができる。たとえば、ＬＩＴユニット３０は、ＨＯＡ係数１１から導出された電力スペクトル密度行列に関してＳＶＤを適用することができる。ＨＯＡ係数自体ではなくＨＯＡ係数の電力スペクトル密度（ＰＳＤ）に関してＳＶＤを実行することによって、ＬＩＴユニット３０は潜在的に、プロセッササイクルおよび記憶空間のうちの１つまたは複数に関してＳＶＤを実行することの計算的な複雑さを低減しつつ、ＳＶＤがＨＯＡ係数に直接適用されたかのように同じソースオーディオ符号化効率を達成することができる。

[0074]パラメータ計算ユニット３２は、相関パラメータ（Ｒ）、指向性特性パラメータ（θ、φ、ｒ）、およびエネルギー特性（ｅ）などの様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、Ｒ［ｋ］、θ［ｋ］、φ［ｋ］、ｒ［ｋ］、およびｅ［ｋ］として示され得る。パラメータ計算ユニット３２は、パラメータを特定するために、ＵＳ［ｋ］ベクトル３３に関してエネルギー分析および／または相関（もしくはいわゆる相互相関）を実行することができる。パラメータ計算ユニット３２はまた、以前のフレームのためのパラメータを決定することができ、ここで、以前のフレームパラメータは、ＵＳ［ｋ−１］ベクトルおよびＶ［ｋ−１］ベクトルの以前のフレームに基づいて、Ｒ［ｋ−１］、θ［ｋ−１］、φ［ｋ−１］、ｒ［ｋ−１］、およびｅ［ｋ−１］と示され得る。パラメータ計算ユニット３２は、現在のパラメータ３７と以前のパラメータ３９とを並べ替えユニット３４に出力することができる。

[0075]パラメータ計算ユニット３２によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット３４によって使用され得る。並べ替えユニット３４は、第１のＵＳ［ｋ］ベクトル３３からのパラメータ３７の各々を、第２のＵＳ［ｋ−１］ベクトル３３のためのパラメータ３９の各々に対して順番ごとに比較することができる。並べ替えユニット３４は、並べ替えられたＵＳ［ｋ］行列３３’（数学的には

として示され得る）と、並べ替えられたＶ［ｋ］行列３５’（数学的には

として示され得る）とをフォアグラウンドサウンド（または支配的サウンド−ＰＳ（predominant sound））選択ユニット３６（「フォアグラウンド選択ユニット３６」）およびエネルギー補償ユニット３８に出力するために、現在のパラメータ３７および以前のパラメータ３９に基づいて、ＵＳ［ｋ］行列３３およびＶ［ｋ］行列３５内の様々なベクトルを（一例として、ハンガリー法を使用して）並べ替えることができる。

[0076]音場分析ユニット４４は、目標ビットレート４１を潜在的に達成するために、ＨＯＡ係数１１に関して音場分析を実行するように構成されたユニットを表し得る。音場分析ユニット４４は、その分析および／または受信された目標ビットレート４１に基づいて、聴覚心理コーダのインスタンス化の総数（環境またはバックグラウンドチャネルの総数（ＢＧ_TOT）とフォアグラウンドチャネル、または言い換えれば支配的なチャネルの数との関数であり得る、を決定することができる。聴覚心理コーダのインスタンス化の総数は、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓとして示され得る。

[0077]音場分析ユニット４４はまた、やはり目標ビットレート４１を潜在的に達成するために、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド（または言い換えれば環境的な）音場の最小次数（Ｎ_BG、または代替的にはＭｉｎＡｍｂＨＯＡｏｒｄｅｒ）と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数（ｎＢＧａ＝（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²）と、送るべき追加のＢＧＨＯＡチャネルのインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３として総称的に示され得る）とを決定することができる。バックグラウンドチャネル情報４２は、環境チャネル情報４３とも呼ばれ得る。ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓ−ｎＢＧａで残るチャネルの各々は、「追加のバックグラウンド／環境チャネル」、「アクティブなベクトルベースの支配的なチャネル」、「アクティブな指向性ベースの支配的な信号」、または「完全に非アクティブ」のいずれかであり得る。一態様では、チャネルタイプは、２ビットによって（「ＣｈａｎｎｅｌＴｙｐｅ」として）示されたシンタックス要素であり得る（たとえば、００：指向性ベースの信号、０１：ベクトルベースの支配的な信号、１０：追加の環境信号、１１：非アクティブな信号）。バックグラウンド信号または環境信号の総数、ｎＢＧａは、（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²＋（上記の例における）インデックス１０がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。

[0078]いずれにしても、音場分析ユニット４４は、目標ビットレート４１に基づいて、バックグラウンド（または言い換えれば環境）チャネルの数とフォアグラウンド（または言い換えれば支配的な）チャネルの数とを選択し、目標ビットレート４１が比較的高いとき（たとえば、目標ビットレート４１が５１２Ｋｂｐｓ以上であるとき）はより多くのバックグラウンドチャネルおよび／またはフォアグラウンドチャネルを選択することができる。一態様では、ビットストリームのヘッダセクションにおいて、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓは８に設定され得るが、一方で、ＭｉｎＡｍｂＨＯＡｏｒｄｅｒは１に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分または環境部分を表すために４つのチャネルが確保され得るが、一方で、他の４つのチャネルは、フレームごとに、チャネルのタイプに応じて変化してよく、たとえば、追加のバックグラウンド／環境チャネルまたはフォアグラウンド／支配的なチャネルのいずれかとして使用され得る。フォアグラウンド／支配的な信号は、上記で説明されたように、ベクトルベースの信号または指向性ベースの信号のいずれかの１つであり得る。

[0079]いくつかの場合には、フレームのためのベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてＣｈａｎｎｅｌＴｙｐｅインデックスが０１である回数によって与えられ得る。上記の態様では、各々の追加のバックグラウンド／環境チャネル（たとえば、１０というＣｈａｎｎｅｌＴｙｐｅに対応する）に対して、（最初の４つ以外の）あり得るＨＯＡ係数のいずれがそのチャネルにおいて表され得るかの対応する情報。その情報は、４次のＨＯＡコンテンツについては、ＨＯＡ係数５〜２５を示すためのインデックスであり得る。最初の４つの環境ＨＯＡ係数１〜４は、ｍｉｎＡｍｂＨＯＡｏｒｄｅｒが１に設定されるときは常に送られ得、したがって、オーディオ符号化デバイスは、５〜２５のインデックスを有する追加の環境ＨＯＡ係数のうちの１つを示すことのみが必要であり得る。その情報はしたがって、「ＣｏｄｅｄＡｍｂＣｏｅｆｆＩｄｘ」として示され得る、（４次のコンテンツのための）５ビットのシンタックス要素を使用して送られ得る。いずれにしても、音場分析ユニット４４は、バックグラウンドチャネル情報４３とＨＯＡ係数１１とをバックグラウンド（ＢＧ）選択ユニット３６に、バックグラウンドチャネル情報４３を係数低減ユニット４６およびビットストリーム生成ユニット４２に、ｎＦＧ４５をフォアグラウンド選択ユニット３６に出力する。

[0080]バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報（たとえば、バックグラウンド音場（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ）と）に基づいて、バックグラウンドまたは環境ＨＯＡ係数４７を決定するように構成されたユニットを表し得る。たとえば、Ｎ_BGが１に等しいとき、バックグラウンド選択ユニット４８は、１以下の次数を有するオーディオフレームの各サンプルのＨＯＡ係数１１を選択することができる。バックグラウンド選択ユニット４８は次いで、この例では、インデックス（ｉ）のうちの１つによって特定されるインデックスを有するＨＯＡ係数１１を、追加のＢＧＨＯＡ係数として選択することができ、ここで、ｎＢＧａは、図２および図４の例に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスがビットストリーム２１からバックグラウンドＨＯＡ係数４７を解析することを可能にするために、ビットストリーム２１において指定されるために、ビットストリーム生成ユニット４２に提供される。バックグラウンド選択ユニット４８は次いで、環境ＨＯＡ係数４７をエネルギー補償ユニット３８に出力することができる。環境ＨＯＡ係数４７は、次元Ｄ：Ｍ×［（Ｎ_BG＋１）²＋ｎＢＧａ］を有し得る。環境ＨＯＡ係数４７はまた、「環境ＨＯＡ係数４７」と呼ばれることもあり、ここで、環境ＨＯＡ係数４７の各々は、聴覚心理オーディオコーダユニット４０によって符号化されるべき別個の環境ＨＯＡチャネル４７に対応する。

[0081]フォアグラウンド選択ユニット３６は、（フォアグラウンドベクトルを特定する１つまたは複数のインデックスを表し得る）ｎＦＧ４５に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたＵＳ［ｋ］行列３３’と並べ替えられたＶ［ｋ］行列３５’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット３６は、（並べ替えられたＵＳ［ｋ］_1,...,nFG４９、ＦＧ_1,...,nfG［ｋ］４９、または

として示され得る）ｎＦＧ信号４９を、聴覚心理オーディオコーダユニット４０に出力することができ、ここで、ｎＦＧ信号４９は次元Ｄ：Ｍ×ｎＦＧを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット３６はまた、音場のフォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’（またはｖ^(1..nFG)（ｋ）３５’）を空間時間的補間ユニット５０に出力することができ、ここで、フォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’のサブセットは、次元Ｄ：（Ｎ＋１）²×ｎＦＧを有するフォアグラウンドＶ［ｋ］行列５１_kとして示され得る（これは、

として数学的に示され得る）。

[0082]エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡチャネルのうちの様々なチャネルの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を実行するように構成されたユニットを表し得る。エネルギー補償ユニット３８は、並べ替えられたＵＳ［ｋ］行列３３’、並べ替えられたＶ［ｋ］行列３５’、ｎＦＧ信号４９、フォアグラウンドＶ［ｋ］ベクトル５１_k、および環境ＨＯＡ係数４７のうちの１つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー補償された環境ＨＯＡ係数４７’を生成するために、そのエネルギー分析に基づいてエネルギー補償を実行することができる。エネルギー補償ユニット３８は、エネルギー補償された環境ＨＯＡ係数４７’を聴覚心理オーディオコーダユニット４０に出力することができる。

[0083]空間時間的補間ユニット５０は、ｋ番目のフレームのためのフォアグラウンドＶ［ｋ］ベクトル５１_kと以前のフレームのための（したがってｋ−１という表記である）フォアグラウンドＶ［ｋ−１］ベクトル５１_k-1とを受信し、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために空間時間的補間を実行するように構成されたユニットを表し得る。空間時間的補間ユニット５０は、並べ替えられたフォアグラウンドＨＯＡ係数を復元するために、ｎＦＧ信号４９をフォアグラウンドＶ［ｋ］ベクトル５１_kと再び組み合わせることができる。空間時間的補間ユニット５０は次いで、補間されたｎＦＧ信号４９’を生成するために、補間されたＶ［ｋ］ベクトルによって、並べ替えられたフォアグラウンドＨＯＡ係数を分割することができる。空間時間的補間ユニット５０はまた、オーディオ復号デバイス２４などのオーディオ復号デバイスが補間されたフォアグラウンドＶ［ｋ］ベクトルを生成しそれによってフォアグラウンドＶ［ｋ］ベクトル５１_kを復元できるように、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kを出力することができる。補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kは、残りのフォアグラウンドＶ［ｋ］ベクトル５３として示される。同じＶ［ｋ］およびＶ［ｋ−１］が符号化器および復号器において（補間されたベクトルＶ［ｋ］を作成するために）使用されることを保証するために、ベクトルの量子化された／逆量子化されたバージョンが符号化器および復号器において使用され得る。空間時間的補間ユニット５０は、補間されたｎＦＧ信号４９’を、聴覚心理オーディオコーダユニット４６に、および補間されたフォアグラウンドＶ［ｋ］ベクトル５１を、係数低減ユニット４６に出力し得る。

[0084]係数低減ユニット４６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を量子化ユニット５２に出力するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行するように構成されたユニットを表し得る。低減されたフォアグラウンドＶ［ｋ］ベクトル５５は、次元Ｄ：［（Ｎ＋１）²−（Ｎ_BG＋１）²−ＢＧ_TOT］×ｎＦＧを有し得る。係数低減ユニット４６は、この点において、残りのフォアグラウンドＶ［ｋ］ベクトル５３における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット４６は、指向性情報をほとんどまたはまったく有しない（残りのフォアグラウンドＶ［ｋ］ベクトル５３を形成する）フォアグラウンドＶ［ｋ］ベクトルにおける係数を除去するように構成されたユニットを表し得る。いくつかの例では、（Ｎ_BGと示され得る）１次および０次の基底関数に対応する、明瞭な、または言い換えればフォアグラウンドＶ［ｋ］ベクトルの係数は、指向性情報をほとんど提供せず、したがって、（「係数低減」と呼ばれ得るプロセスを通じて）フォアグラウンドＶベクトルから除去され得る。この例では、Ｎ_BGに対応する係数を特定するだけではなく、追加のＨＯＡチャネル（変数ＴｏｔａｌＯｆＡｄｄＡｍｂＨＯＡＣｈａｎによって示され得る）を［（Ｎ_BG＋１）²＋１，（Ｎ＋１）²］のセットから特定するために、より大きい柔軟性が与えられ得る。

[0085]量子化ユニット５２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮するための任意の形態の量子化を実行し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をビットストリーム生成ユニット４２に出力するように構成されたユニットを表し得る。動作において、量子化ユニット５２は、音場の空間成分、すなわちこの例では低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちの１つまたは複数を圧縮するように構成されたユニットを表し得る。量子化ユニット５２は、「ＮｂｔｓＱ」と表される量子化モードシンタックス要素によって示されるような、以下の１２個の量子化モードのうちの任意の１つを実行し得る：
ＮｂｔｓＱ値量子化モードのタイプ
０−３：予約済み
４：ベクトル量子化
５：ハフマンコーディングなしのスカラー量子化
６：ハフマンコーディングありの６ビットスカラー量子化
７：ハフマンコーディングありの７ビットスカラー量子化
８：ハフマンコーディングありの８ビットスカラー量子化
．．．．．．
１６：ハフマンコーディングありの１６ビットスカラー量子化
量子化ユニットはまた、量子化モードの上記のタイプのうちの任意のものの予測バージョンを実行し得、ここで、差は、以前のフレームのＶベクトルの（またはベクトル量子化が実行された時の重み）の要素と、決定された現在のフレームのＶベクトルの要素（またはベクトル量子化が実行された時の重み）との間で決定される。その後、量子化ユニット５２は、現在のフレーム自体のＶベクトルの要素の値よりむしろ、現在のフレームの現在のフレームの要素または重みと、以前のフレームの要素または重みとの間の差を量子化し得る。

[0086]量子化ユニット５２は低減されたフォアグラウンドＶ［ｋ］ベクトル５５の複数のコード化バージョンを取得するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の各々に関して量子化の複数の形式を実行し得る。量子化ユニット５２は、コード化フォアグラウンドＶ［ｋ］ベクトル５７として低減されたフォアグラウンドＶ［ｋ］ベクトル５５のコード化バージョンのうちの１つを選択し得る。量子化ユニット５２は、本開示で説明される基準の任意の組合せに基づいて、出力切替えされ量子化されたＶベクトルとして使用するために、予測されないベクトル量子化されたＶベクトル、予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの１つを選択することができる。いくつかの例では、量子化ユニット５２は、ベクトル量子化モードと１つまたは複数のスカラー量子化モードとを含む、量子化モードのセットから量子化モードを選択し、選択されたモードに基づいて（または従って）、入力Ｖベクトルを量子化することができる。量子化ユニット５２は次いで、（たとえば、重み値またはそれを示すビットに関して）予測されないベクトル量子化されたＶベクトル、（たとえば、誤差値またはそれを示すビットに関して）予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの選択されたものを、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７としてビットストリーム生成ユニット５２に与えることができる。量子化ユニット５２はまた、量子化モードを示すシンタックス要素（たとえば、ＮｂｉｔｓＱシンタックス要素）と、Ｖベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与えることができる。

[0087]オーディオ符号化デバイス２０内に含まれる聴覚心理オーディオコーダユニット４０は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために、エネルギー補償された環境ＨＯＡ係数４７’および補間されたｎＦＧ信号４９’の各々の異なるオーディオオブジェクトまたはＨＯＡチャネルを符号化するために使用される。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とをビットストリーム生成ユニット４２に出力することができる。

[0088]オーディオ符号化デバイス２０内に含まれるビットストリーム生成ユニット４２は、既知のフォーマット（復号デバイスによって知られているフォーマットを指し得る）に適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム２１を生成するユニットを表す。ビットストリーム２１は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット４２は、いくつかの例ではマルチプレクサを表してよく、マルチプレクサは、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とを受信することができる。ビットストリーム生成ユニット４２は次いで、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいて、ビットストリーム２１を生成することができる。このようにして、ビットストリーム生成ユニットは、それによって、ビットストリーム２１を取得するためにビットストリーム２１におけるベクトル５７を指定し得る。ビットストリーム２１は、主要またはメインビットストリームと、１つまたは複数のサイドチャネルビットストリームとを含み得る。

[0089]本技法の様々な態様はまた、上述したように、ビットストリーム生成ユニット４６がビットストリーム２１におけるオーディオレンダリング情報２を指定することを可能にし得る。来たる３Ｄオーディオ圧縮ワーキングドラフトの現在のバージョンは、ビットストリーム２１内にシグナリング指定ダウンミックス行列（signaling specific downmix matrices）を提供する一方、ワーキングドラフトは、ビットストリーム中にレンダリングＨＯＡ係数１１において使用されるレンダラの指定を提供しない。ＨＯＡコンテンツについて、そのようなダウンミックス行列と同等のものは、ＨＯＡ表現を所望のラウドスピーカーフィードに変換するレンダリング行列である。本開示において説明される技法の様々な態様は、（例えば、オーディオレンダリング情報２としての）ビットストリーム内のＨＯＡレンダリング行列をシグナリングするために、ビットストリーム生成ユニット４６を許容することによってＨＯＡおよびチャネルコンテンツの特徴セットをさらに調和を提案する。

[0090]ＨＯＡのために最適化され、ダウンミックス行列のコーディングスキームに基づく１つの例示のシグナリングソリューションは、以下に表される。ダウンミックス行列の送信に類似して、ＨＯＡレンダリング行列は、ｍｐｅｇｈ３ｄａＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）内にシグナリングされ得る。本技法は、（既存の表に対する変更をイタリック体およびボールド体で示す）以下の表イタリック体および既存の表に対する大胆な示す変更で）に記述しているように新規の拡張タイプＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＨＯＡ＿ＭＡＴＲＩＸを提供し得る。

[0091]ビットフィールドＨＯＡＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＳｅｔ（）は、ＤｏｗｎｍｉｘＭａｔｒｉｘＳｅｔ（）と比較して構造および機能性において等しくなり得る。ｉｎｐｕｔＣｏｕｎｔ（ａｕｄｉｏＣｈａｎｎｅｌＬａｙｏｕｔ）の代わりに、ＨＯＡＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＳｅｔ（）は、ＨＯＡＣｏｎｆｉｇにおいて計算される、「同等な」ＮｕｍＯｆＨｏａＣｏｅｆｆｓ値を使用し得る。さらに、ＨＯＡ係数のオーダーがＨＯＡ復号器内に固定され得る（例えば、ＣＤ中の付録Ｇを参照）ので、ＨＯＡＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＳｅｔは、ｉｎｐｕｔＣｏｎｆｉｇ（ａｕｄｉｏＣｈａｎｎｅｌＬａｙｏｕｔ）とどれも同等である必要はない。

[0092]本技法の様々な態様はまた、ビットストリーム生成ユニット４６が、（ベクトルベース分解ユニット２７によって表される分解圧縮スキームのような）第１の圧縮スキームを使用するＨＯＡオーディオデータ（例えば、図４の例におけるＨＯＡ１１）を圧縮するとき、第２の圧縮スキーム（例えば、指向性ベース分解ユニットによって表される指向性ベース圧縮スキーム（directional-based compression scheme）または指向性ベース圧縮スキーム（directionality-based compression scheme））に対応するビットがビットストリーム２１中に含まれないような、ビットストリーム２１を指定することを可能にし得る。例えば、ビットストリーム生成ユニット４２は、使用が指向性ベース圧縮スキームの指向性信号間の予測情報を指定するために予約され得るＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏシンタックス要素またはフィールドを含まないように、ビットストリーム２１を生成し得る。この開示において説明される本技法の様々な態様に従って生成されたビットストリーム２１の例は、図８Ｅおよび８Ｆの例において示される。

[0093]言い換えれば、指向性信号の予測は、指向性ベース分解ユニット２８によって用いられ、（指向性ベース信号を示し得る）ＣｈａｎｎｅｌＴｙｐｅ０の存在に依存する支配的なサウンド合成の一部であり得る。指向性ベース信号がフレーム内に存在しない場合、指向性信号の予測は、実行され得ない。しかしながら、たとえ使用されないとしても、関連する側波帯情報ＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏ（）は、指向性ベース信号の存在とは無関係にあらゆるフレームに書き込まれている。指向性信号がフレーム内に存在しない場合、この開示において説明される本技法は、ビットストリーム生成ユニット４２が（ここで、下線を持つイタリック体が追加を示す）以下の表に記述されるような側波帯におけるＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏをシグナリングしないことによって側波帯のサイズを低減することを可能にし得る：

[0094]この点において、本技法は、オーディオ符号化デバイス２０のようなデバイスが、第１の圧縮技法を使用して、高次アンビソニックオーディオデータを圧縮するとき、高次アンビソニックオーディオデータを圧縮するためにさらに使用される第２の圧縮スキームに対応するビットを含まない高次アンビソニックオーディオデータの圧縮バージョンを表すビットストリームを指定するように構成されることを可能にし得る。

[0095]いくつかの場合には、第１の圧縮技法は、ベクトルベース分解圧縮スキームを備える。これらおよび他の場合には、ベクトルベース分解圧縮スキームは、高次アンビソニックオーディオデータに対する特異値分解（または本開示においてより詳細説明されたのと同等のもの）のアプリケーションを含む圧縮スキームを備える。

[0096]これらおよび他の場合には、オーディオ符号化デバイス２０は、圧縮スキームの第２のタイプを実行するために使用される少なくとも１つのシンタックス要素に対応するビットを含まないビットストリームを指定するように構成され得る。第２の圧縮スキームは、上述するように、指向性ベース圧縮スキームを備え得る。

[0097]オーディオ符号化デバイス２０はまた、ビットストリーム２１が第２の圧縮スキームのＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏシンタックス要素に対応するビットを含まないように、ビットストリーム２１を指定するように構成され得る。

[0098]第２の圧縮スキームが指向性ベース圧縮スキームを備える場合、オーディオ符号化デバイス２０は、ビットストリーム２１が指向性ベース圧縮スキームのＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏシンタックス要素に対応するビットを含まないように、ビットストリーム２１を指定するように構成され得る。言い換えれば、オーディオ符号化デバイス２０は、ビットストリーム２１が圧縮スキームの第２のタイプを実行するために使用される少なくとも１つのシンタックス要素に対応するビットを含まないように、ビットストリーム２１を指定するように構成され得、少なくとも１つのシンタックス要素は２つ以上の指向性ベース信号間の予測を示す。更にもう一度言い換えると、第２の圧縮技術が指向性ベース圧縮スキームを備えるとき、オーディオ符号化デバイス２０は、ビットストリーム２１が指向性ベース圧縮スキームのＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏシンタックス要素に対応するビットを含まないように、ビットストリーム２１を指定するように構成され得る。ここで、ＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏシンタックス要素は、２つ以上の指向性ベース信号間の予測を示す。

[0099]本技法の様々な態様は、ビットストリーム２１が利得修正データを含まないようなある場合において、ビットスキーム生成ユニット４６がビットストリーム２１を指定することをさらに可能にし得る。ビットストリーム生成ユニット４６は、利得修正が抑制されるとき、ビットストリーム２１が利得修正データを含まないようにビットストリーム２１を指定し得る。本技法の様々な態様に従って生成されたビットストリーム２１の例は、上述されるように、図８Ｅおよび図８Ｆの例中に示される。

[0100]いくつかの場合には、聴覚心理符号化の他のタイプと比較して聴覚心理符号化のあるタイプのより相対的に小さい動的範囲を仮定すると、これらの聴覚心理符号化のあるタイプが実行されるとき、利得修正は、適用される。例えば、ＡＡＣは、音声音響統合コーディング（ＵＳＡＣ：unified speech and audio coding）より相対的に小さい動的範囲を有する。（ベクトルベース圧縮スキームまたは指向性ベース圧縮スキームのような）圧縮スキームが、ＵＳＡＣを含む場合、ビットストリーム生成ユニット４６は、利得修正が（ビットストリーム中にゼロの値を持つＨＯＡＣｏｎｆｉｇにおけるシンタックス要素ＭａｘＧａｉｎＣｏｒｒＡｍｐＥｘｐを指定することによって）抑制されたビットストリーム中にシグナリングし得、その後、（ＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎＤａｔａ（）フィールドにおける）利得修正データを含まないようにビットストリーム２１を指定し得る。

[0101]言い換えれば、ＨＯＡＣｏｎｆｉｇの一部としてビットフィールドＭａｘＧａｉｎＣｏｒｒＡｍｐＥｘｐ（ＣＤにおける表７１を参照）は、自動利得制御モジュールがＵＳＡＣコアコーディングの前にトランスポートチャネル信号に影響する範囲を制御し得る。いくつかの場合には、このモジュールは、ＲＭ０が利用可能なＡＡＣ符号化器実装の非理想の動的範囲を改善するために開発された。統合フェーズの間のＡＡＣからＵＳＡＣコアコーダまでの変更で、コア符号化器の動的範囲は、改善され得、したがって、この利得制御モジュールのための必要性は、以前ほど批判的になり得ない。

[0102]いくつかの場合には、利得制御機能性は、ＭａｘＧａｉｎＣｏｒｒＡｍｐＥｘｐが０に設定される場合、抑制されることができる。これらの場合には、関連する側波帯情報ＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎＤａｔａ（）は、「ＨＯＡＦｒａｍｅのシンタックス」を示す上記の表ごとにあらゆるＨＯＡフレームに書き込まれ得ない。ＭａｘＧａｉｎＣｏｒｒＡｍｐＥｘｐが０に設定される場合の構成に対して、この開示において説明される本技法は、ＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎＤａｔａをシグナルし得ない。さらに、そのようなシナリオでは、逆利得制御モジュールは、任意の負の側面の影響のないトランスポートチャネル毎に約０．０５ＭＯＰＳによって復号器複雑性を低減するときでさえ、バイパスされ得る。

[0103]この点において、本技法は、利得修正が高次アンビソニックオーディオデータの圧縮の間に抑制されるとき、ビットストリーム２１が利得修正情報を含まないように、高次アンビソニックオーディオデータの圧縮したバージョンを表すビットストリーム２１を指定するようにオーディオ符号化デバイス２０を構成し得る。

[0104]これらおよび他の場合には、オーディオ符号化デバイス２０は、高次アンビソニックオーディオデータの圧縮されたバージョンを生成するために、ベクトルベース分解圧縮スキームに従って高次アンビソニックオーディオデータを圧縮するように構成され得る。分解圧縮スキームの例は、高次アンビソニックオーディオデータの圧縮されたバージョンを生成するために、高次アンビソニックオーディオデータに特異値分解（または以上でより詳細に説明したものと同等のもの）のアプリケーションを含み得る。

[0105]これらおよび他の場合には、オーディオ符号化デバイス２０は、利得修正が抑制されることを示すために、ゼロにビットストリーム２１におけるＭａｘＧａｉｎＣｏｒｒＡｍｂＥｘｐシンタックス要素を指定するように構成され得る。いくつかの場合には、オーディオ符号化デバイス２０は、利得修正が抑圧されるとき、ビットストリーム２１が利得修正データを記憶するＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎデータフィールドを含まないようなビットストリーム２１を指定するように構成され得る。言い換えれば、オーディオ符号化デバイス２０は、利得修正が抑制され、利得修正データを記憶するＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎデータフィールドをビットストリーム中に含まないことを示すためにゼロにビットストリーム２１におけるＭａｘＧａｉｎＣｏｒｒＡｍｂＥｘｐシンタックス要素を指定するように構成され得る。

[0106]これらおよび他の場合には、オーディオ符号化デバイス２０は、高次アンビソニックオーディオデータの圧縮が高次アンビソニックオーディオデータに対して音声音響統合コーディング（ＵＳＡＣ）を含む場合に、利得修正を抑制するように構成され得る。

[0107]ビットストリーム２１における様々な情報のシグナリングに対する上記の潜在的な最適化は、以下でさらに詳細に説明される方法で適応されるまたはさもなければ更新され得る。更新は、以下で議論される、他の更新と併せて適用される、または以上で説明した様々な態様のみを更新するために使用され得る。したがって、以上で説明した最適化に対して以下で説明される単一更新のアプリケーションまたは以上で説明した最適化に対する以下で説明する更新の任意の特定の組み合わせのアプリケーションを含む、上記で説明された最適化に対する更新の潜在的な各組み合わせが考えられる。

[0108]ビットストリームにおける行列を指定するために、以下の表においてボールド体で表されハイライトされるように以下で示されるような、ビットストリーム２１のｍｐｅｇｈ３ｄａＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）におけるＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＨＯＡ＿ＭＡＴＲＩＸを指定する。以下の表は、ビットストリーム２１のｍｐｅｇｈ３ｄａＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）の一部を指定するためのシンタックスを表す：

上記の表におけるＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＨＯＡ＿ＭＡＴＲＩＸは、レンダリング行列を指定するコンテナを提供し、コンテナは、「ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＳｅｔ（）」として示される。

[0109]ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＳｅｔ（）コンテナのコンテンツは、以下の表において記述されるシンタックスにしたがって定義され得る：

上の表に直接示されるように、ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＳｅｔ（）は、ｎｕｍＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｃｅｓ、ＨｏａＲｅｎｄｅｒｅｒｉｎｇＭａｔｒｉｘＩｄ、ＣＩＣＰｓｐｅａｋｅｒＬａｙｏｕｔＩｄｘ、ＨｏａＭａｔｒｉｘＬｅｎＢｉｔｓ、およびＨｏＡＲｅｎｄｅｒｉｎｇＭａｔｒｉｘを含むいくつかの異なるシンタックス要素を含む。

[0110]ｎｕｍＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｃｅｓシンタックス要素は、ビットストリーム要素におけるいくつかのＨｏａＲｅｎｄｅｒｅｒｉｎｇＭａｔｒｉｘＩｄ定義を指定し得る。ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＩｄシンタックス要素は、復号器側で利用可能なデフォルトＨＯＡレンダリング行列または送信されたＨＯＡレンダリング行列のためのＩｄを一意に定義するフィールドを表わし得る。この点において、ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＩｄは、ビットストリームが複数のスピーカーフィードに対して球面調和係数をレンダリングするために使用される行列を含むことを示すインデックスを定義する２以上のビットを含む信号値の例、または複数のスピーカーフィードに対して球面調和係数をレンダリングするために使用される複数の行列のうちの１つと関連付けられるインデックスを定義する２以上のビットを含む信号値の例を表し得る。ＣＩＣＰｓｐｅａｋｅｒＬａｙｏｕｔＩｄｘシンタックス要素は、所与のＨＯＡレンダリング行列のための出力ラウドスピーカーレイアウトを説明する値を表し、ＩＳＯ／ＩＥＣ２３０００１−８中に定義されたＣｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎ要素に対応し得る。ＨｏａＭａｔｒｉｘＬｅｎＢｉｔｓ（「ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＬｅｎＢｉｔｓ」とも示される）シンタックス要素は、ビットにおける以下のビットストリーム要素（例えば、ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘ（）コンテナ）の長さを指定し得る。

[0111]ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘ（）コンテナは、後続にｏｕｔｐｕｔＣｏｎｆｉｇ（）コンテナおよびｏｕｔｐｕｔＣｏｕｎｔ（）コンテナが続くＮｕｍＯｆＨｏａＣｏｅｆｆｓを含む。ｏｕｔｐｕｔＣｏｎｆｉｇ（）コンテナは、各ラウドスピーカーに関する情報を指定するチャネル構成ベクトルを含み得る。ビットストリーム生成ユニット４２は、出力レイアウトのチャネル構成から知られる、このラウドスピーカー情報を仮定し得る。各エントリ、ｏｕｔｐｕｔＣｏｎｆｉｇ［ｉ］は、以下のメンバでデータ構造を表す：
ＡｚｉｍｕｔｈＡｎｇｌｅ（スピーカーアジマス角の絶対値を示し得る）；
ＡｚｉｍｕｔｈＤｉｒｅｃｔｉｏｎ（１つの例として左のために０および右のために１を使用するアジマス方向を示し得る）；
仰角（Elevation Angle）（スピーカー仰角の絶対値を示し得る）；
ＥｌｅｖａｔｉｏｎＤｉｒｅｃｔｉｏｎ（１つの例として上のために０下のために１を使用する仰角方向（elevation direction）を示し得る）；および
ｉｓＬＦＥ（スピーカーが低周波効果（ＬＦＥ：low frequency effect）スピーカーかどうか示し得る）。
ビットストリーム生成ユニット４２は、「ｆｉｎｄＳｙｍｍｅｔｒｉｃＳｐｅａｋｅｒｓ」として示される、いくつかの場合において、ヘルパー関数（helper function）を呼び出し得、それは、以下でさらに指定され得る：
ｐａｉｒＴｙｐｅ（（いくつかの例では２つのスピーカーのシンメトリックペアを意味する）ＳＹＭＭＥＴＲＩＣ、ＣＥＮＴＥＲ、またはＡＳＹＭＭＥＴＲＩＣの値を記憶し得る）；
ｓｙｍｍｅｔｒｉｃＰａｉｒ−＞ｏｒｉｇｉｎａｌＰｏｓｉｔｉｏｎ（ＳＹＭＭＥＴＲＩグループのみについて、グループ内の第２のスピーカ（例えば、右）のオリジナルチャネル構成における位置を示し得る）。
ｏｕｔｐｕｔＣｏｕｎｔ（）コンテナは、ＨＯＡレンダリング行列が定義されるいくつかのラウドスピーカーを指定し得る。

[0112]ビットストリーム生成ユニット４２は、以下の表に記述されるシンタックスに従ってＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘ（）コンテナを指定し得る：

以上の表に直接示されるように、ｎｕｍＰａｉｒｓシンタックス要素は、ｏｕｔｐｕｔＣｏｕｎｔおよびｏｕｔｐｕｔＣｏｎｆｉｇを使用し、入力としてｈａｓＬｆｅＲｅｎｄｅｒｉｎｇ使用する、ｆｉｎｄＳｙｍｍｅｔｒｉｃＳｐｅａｋｅｒｓヘルパー関数を呼び出すことからの値出力にセットされる。したがって、ｎｕｍＰａｉｒｓは、効率的なシンメトリックコーディングのために考慮され得る出力ラウドスピーカーセットアップにおいて識別されるシンメトリックラウドスピーカーペアの数を示し得る。以上の表におけるｐｒｅｃｉｓｉｏｎＬｅｖｅｌシンタックス要素は、以下の表に従う利得の一様量子化のために使用される精度を示し得る：

[0113]ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘ（）のシンタックスを記述する以上の表に示されるｇａｉｎＬｉｍｉｔＰｅｒＨｏａＯｒｄｅｒシンタックス要素は、ｍａｘＧａｉｎおよびｍｉｎＧａｉｎが欠く次数のためまたは全ＨＯＡレンダリング行列のためにここに指定されるかどうかを示すフラグを表し得る。ｍａｘＧａｉｎ［ｉ］シンタックス要素は、１つの例として、デシベル（ｄＢ）で表されるＨＯＡ次数ｉのための係数に対する行列における最大の実際の利得を指定し得る。ｍｉｎＧａｉｎ［ｉ］シンタックス要素は、１つの例として、ｄＢで表されるＨＯＡ次数ｉの係数に対する行列における最少の実際の利得を指定し得る。ｉｓＦｕｌｌＭａｔｒｉｘシンタックス要素は、ＨＯＡレンダリング行列が希薄または十分かどうかを示すフラグを表し得る。ｆｉｒｓｔＳｐａｒｓｅＯｒｄｅｒシンタックス要素は、ＨＯＡレンダリング行列がｉｓＦｕｌｌＭａｔｒｉｘシンタックス要素ごとに希薄なものとして指定された場合には、希薄にコード化される第１のＨＯＡ次数を指定し得る。ｉｓＨｏａＣｏｅｆＳｐａｒｓｅシンタックス要素は、ｆｉｒｓｔＳｐａｒｓｅＯｒｄｅｒシンタックス要素から導出されたｂｉｔｍａｓｋベクトルを表わし得る。ｌｆｅＥｘｉｓｔｓシンタックス要素は、１つまたは複数のＬＦＥがｏｕｔｐｕｔＣｏｎｆｉｇ中に存在するかどうかを示すフラグを表わし得る。ｈａｓＬｆｅＲｅｎｄｅｒｉｎｇシンタックス要素は、レンダリング行列が１つまたは複数のＬＦＥチャネルのための非ゼロ要素を含むかどうかを示す。ｚｅｒｏｔｈＯｒｄｅｒＡｌｗａｙｓＰｏｓｉｔｉｖｅシンタックス要素は、第０次のＨＯＡ次数が正値のみを有するかどうかを示すフラグを表わし得る。

[0114]ｉｓＡｌｌＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素は、すべてのシンメトリックラウドスピーカーペアがＨＯＡレンダリング行列中に等しい絶対値を有するかどうかを示すフラグを表わし得る。ｉｓＡｎｙＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素は、シンメトリックラウドスピーカーペアのうちのいくつかがＨＯＡレンダリング行列中に等しい絶対値を有するかどうか、例えば偽であるとき、を示すフラグを表わす。ｖａｌｕｅＳｙｍｍｅｔｒｉｃＰａｉｒｓシンタックス要素は、値シンメトリックを持つラウドスピーカーのペアを示す長さｎｕｍＰａｉｒｓのｂｉｔｍａｓｋを表わし得る。ｉｓＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素は、ｖａｌｕｅＳｙｍｍｅｔｒｉｃＰａｉｒｓシンタックス要素からの表３において示される方法で導出されるｂｉｔｍａｓｋを表わし得る。ｉｓＡｌｌＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素は、行列における値シンメトリがない時、すべての新メトリックラウドスピーカーペアが少なくともナンバー符号シンメトリ（number sign symmetries）を有するかどうかを示し得る。ｉｓＡｎｙＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素は、ナンバー符号シンメトリを持つ少なくともいくつかのシンメトリックラウドスピーカーペアがあるかどうかを示すフラグを表わし得る。ｓｉｇｎＳｙｍｍｅｔｒｉｃＰａｉｒｓシンタックス要素は、符号シンメトリを持つラウドスピーカーペアを示す長さｎｕｍＰａｉｒｓのｂｉｔｍａｓｋを表わし得る。ｉｓＳｉｇｎＳｙｍｍｅｔｒｉｃ変数は、ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘ（）のシンタックスを記述する表において以上で示される方法でｓｉｇｎＳｙｍｍｅｔｒｉｃＰａｉｒｓシンタックス要素から導出されるｂｉｔｍａｓｋを表わし得る。ｈａｓＶｅｒｔｉｃａｌＣｏｅｆシンタックス要素は、行列が水平のみのＨＯＡレンダリング行列かどうかを示すフラグを表わし得る。ｂｏｏｔＶａｌシンタックス要素は、復号ループにおいて使用される変数を表わし得る。

[0115]言い換えれば、ビットストリーム生成ユニット４２は、以上の値シンメトリ情報のうちの任意の１つまたは複数（例えば、ｉｓＡｌｌＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素、ｉｓＡｎｙＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素、ｖａｌｕｅＳｙｍｍｅｔｒｉｃＰａｉｒｓシンタックス要素、ｉｓＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素、およびｖａｌｕｅＳｙｍｍｅｔｒｉｃＰａｉｒｓシンタックス要素の１つまたは複数の任意の組み合わせ）を生成するために、またはさもなければ値シンメトリック情報を取得するためにオーディオレンダラ１を分析し得る。ビットストリーム生成ユニット４２は、オーディオレンダラ情報２が値符号シンメトリ情報を含むような以上で示した方法におけるビットストリーム２１中のオーディオレンダラ情報２を指定し得る。

[0116]さらに、ビットストリーム生成ユニット４２はまた、以上の符号シンメトリ情報のうちの任意の１つまたは複数（例えば、ｉｓＡｌｌＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素、ｉｓＡｎｙＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素、ｓｉｇｎＳｙｍｍｅｔｒｉｃＰａｉｒｓシンタックス要素、ｉｓＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素、およびｓｉｇｎＳｙｍｍｅｔｒｉｃＰａｉｒｓシンタックス要素のうちの１つまたは複数の任意の組み合わせ）を生成するために、またはさもなければ符号シンメトリック情報を取得するためにオーディオレンダラ１を分析し得る。ビットストリーム生成ユニット４２は、オーディオレンダラ情報２がオーディオ符号シンメトリ情報を含むように以上で示した方法におけるビットストリーム２１中のオーディオレンダラ情報２を指定し得る。

[0117]値シンメトリ情報および符号シンメトリ情報を決定する場合、ビットストリーム生成ユニット４２は、行列として指定される、オーディオレンダラ１の様々な値を分析し得る。レンダリング行列は、行列Ｒの擬似逆として定式化され得る。言い換えれば、（Ｌ個のラウドスピーカー信号の列ベクトル、ｐ、によって示さる）Ｌ個のラウドスピーカー信号に対して（Ｎ＋１）²ＨＯＡチャネル（以下でＺとして示される）をレンダリングするために、以下の方程式が与えられ得る：
Ｚ＝Ｒ＊ｐ
Ｌ個のラウドスピーカー信号を出力するレンダリング行列に達するように、Ｒ行列の逆が以下の方程式において示されるようなＺＨＯＡｃｈなえるによって乗算される：
ｐ＝Ｒ^-1＊Ｚ
ラウドスピーカーの数ＬがＺＨＯＡチャネルの数と同じでないならば、行列Ｒは、正方ではなくなることになり、完全な逆が決定され得ない。結果として、擬似逆は、以下で定義されるものが代わりに使用され得る：
ｐｉｎｖ（Ｒ）＝Ｒ^T（Ｒ＊ＲＴ）^-1
ここで、Ｒ^Tは、Ｒ行列の転置を示す。以上の方程式中のＲ^-1を置換して、列ベクトルｐによって示されるＬ個のラウドスピーカー信号のための解は、以下のように数学的に示されうる：
ｐ＝ｐｉｎｖ（Ｒ）＊Ｚ＝Ｒ^T（Ｒ＊ＲＴ）^-1＊Ｚ

[0118]Ｒ行列のエントリは、スピーカーのための異なる球面調和関数のための（Ｎ＋１）²行およびＬ列を持つラウドスピーカー位置のための球面調和関数の値であり得る。ビットストリーム生成ユニット４２は、ラウドスピーカーに対する値に基づいてスピーカーペアを決定し得る。ラウドスピーカー位置に対する球面調和関数の値を分析して、ビットストリーム生成ユニット４２は、値に基づいて、どのラウドスピーカー位置がペア（例えば、ペアが類似、ほとんど同じ、または同じ値だが反対の符号を有し得るような）になるかを決定し得る。

[0119]ペアを識別後、ビットストリーム生成ユニット４２は、ペアが同じ値またはほとんど同じ値を有するかどうかを、各ペアのために決定し得る。ペアの全てが同じ値を有するとき、ビットストリーム生成ユニット４２は、ｉｓＡｌｌＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素を１に設定し得る。ペアの全てが同じ値を有さないとき、ビットストリーム生成ユニット４２は、ｉｓＡｌｌＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素を０に設定し得る。ペアのうちすべてではないが１つまたは複数が同じ値を有するとき、ビットストリーム生成ユニット４２は、ｉｓＡｎｙＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素を１に設定し得る。ペアのどれもが同じ値を有しないとき、ビットストリーム生成ユニット４２は、ｉｓＡｎｙＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素を０に設定し得る。シンメトリック値を持つペアについて、ビットストリーム生成ユニット４２は、スピーカーのペアのための２つの別個の値よりむしろ１つの値を指定するのみであり、それによって、ビットストリーム２１におけるオーディオレンダリング情報２を表すために使用されるビットの数（例えば、この例における行列）を低減する。

[0120]ペアの間に値シンメトリがないとき、ビットストリーム生成ユニット４２はまた、スピーカーペアが（１つのスピーカーが負値を有する一方、他のスピーカーが正値を有することを意味する）符号シンメトリを有するかどうかを、各ペアのために決定し得る。ペアのすべてが符号シンメトリを有するとき、ビットストリーム生成ユニット４２は、ｉｓＡｌｌＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素を１に設定し得る。ペアのすべてが符号シンメトリを有しないとき、ビットストリーム生成ユニット４２は、ｉｓＡｌｌＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素を０に設定し得る。ペアのうちすべてではないが１つまたは複数のペアが符号シンメトリを有するとき、ビットストリーム生成ユニット４２は、ｉｓＡｎｙＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素を１に設定し得る。ペアいずれもが符号シンメトリを有しないとき、ビットストリーム生成ユニット４２は、ｉｓＡｎｙＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素を０に設定し得る。シンメトリック符号を持つペアについて、ビットストリーム生成ユニット４２は、スピーカーペアのための２つの別個の符号よりむしろ１つまたは符号なしをのみを指定し得、それによって、ビットストリーム２１におけるオーディオレンダリング情報を表すために使用されるビットの数（この例における行列）を低減し得る。

[0121]ビットストリーム生成ユニット４２は、以下の表で示されるシンタックスにしたがってＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘ（）のシンタックスを記述する表において示されるＤｅｃｏｄｅＨｏａＭａｔｒｉｘＤａｔａ（）コンテナを指定し得る：

[0122]ＤｅｃｏｄｅＨｏａＭａｔｒｉｘＤａｔａのシンタックスを記述する前述の表中におけるｈａｓＶａｌｕｅシンタックス要素は、行列要素が希薄にコード化されるかどうかを示すフラグを表わし得る。ｓｉｇｎＭａｔｒｉｘシンタックス要素は、１つの例として線形化したベクトル形式における、ＨＯＡレンダリング行列の符号値を持つ行列を表わし得る。ｈｏａＭａｔｒｉｘシンタックス要素は、１つの例として、線形化したベクトル形式における、ＨＯＡレンダリング行列値を表し得る。ビットストリーム生成ユニット４２は、以下の表に示されるシンタックスに従ってＤｅｃｏｄｅＨｏａＭａｔｒｉｘＤａｔａのシンタックスを記述する表に示されるＤｅｃｏｄｅＨｏａＧａｉｎＶａｌｕｅ（）コンテナを指定し得る：

[0123]ビットストリーム生成ユニット４２は、以下の表において指定されたシンタックスに従ってＤｅｃｏｄｅＨｏａＧａｉｎＶａｌｕｅのシンタックスを記述する表に示されるｒｅａｄＲａｎｇｅ（）コンテナを指定し得る：

[0124]図３の例には示されないが、オーディオ符号化デバイス２０はまた、現在のフレームが指向性ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス２０から出力されるビットストリームを（たとえば、指向性ベースのビットストリーム２１とベクトルベースのビットストリーム２１との間で）切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、（ＨＯＡ係数１１が合成オーディオオブジェクトから生成されたことを検出した結果として）指向性ベース合成が実行されたか、または（ＨＯＡ係数が録音されたことを検出した結果として）ベクトルベース合成が実行されたかを示す、コンテンツ分析ユニット２６によって出力されるシンタックス要素に基づいて、切替えを実行することができる。ビットストリーム出力ユニットは、ビットストリーム２１の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定することができる。

[0125]その上、上述されたように、音場分析ユニット４４は、フレームごとに変化し得る、ＢＧ_TOT環境ＨＯＡ係数４７を特定することができる（が、時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。ＢＧ_TOTにおける変化は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５において表された係数への変化を生じ得る。ＢＧ_TOTにおける変化は、フレームごとに変化する（「環境ＨＯＡ係数」と呼ばれることもある）バックグラウンドＨＯＡ係数を生じ得る（が、この場合も時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。この変化は、追加の環境ＨＯＡ係数の追加または除去と、対応する、低減されたフォアグラウンドＶ［ｋ］ベクトル５５からの係数の除去またはそれに対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じることが多い。

[0126]結果として、音場分析ユニット４４は、いつ環境ＨＯＡ係数がフレームごとに変化するかをさらに決定し、音場の環境成分を表すために使用されることに関して、環境ＨＯＡ係数への変化を示すフラグまたは他のシンタックス要素を生成することができる（ここで、この変化はまた、環境ＨＯＡ係数の「遷移」または環境ＨＯＡ係数の「遷移」と呼ばれることもある）。具体的には、係数低減ユニット４６は、（ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎフラグまたはＡｍｂＣｏｅｆｆＩｄｘＴｒａｎｓｉｔｉｏｎフラグとして示され得る）フラグを生成し、そのフラグが（場合によってはサイドチャネル情報の一部として）ビットストリーム２１中に含まれ得るように、そのフラグをビットストリーム生成ユニット４２に与えることができる。

[0127]係数低減ユニット４６は、環境係数遷移フラグを指定することに加えて、低減されたフォアグラウンドＶ［ｋ］ベクトル５５が生成される方法を修正することもできる。一例では、環境ＨＯＡ環境係数のうちの１つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット４６は、遷移中の環境ＨＯＡ係数に対応する低減されたフォアグラウンドＶ［ｋ］ベクトル５５のＶベクトルの各々について、（「ベクトル要素」または「要素」とも呼ばれ得る）ベクトル係数を指定することができる。この場合も、遷移中の環境ＨＯＡ係数は、ＢＧ_TOTからバックグラウンド係数の総数を追加または除去し得る。したがって、バックグラウンド係数の総数において生じた変化は、環境ＨＯＡ係数がビットストリーム中に含まれるか含まれないか、および、Ｖベクトルの対応する要素が、上記で説明された第２の構成モードおよび第３の構成モードにおいてビットストリーム中で指定されたＶベクトルのために含まれるか否かに影響を及ぼす。係数低減ユニット４６が、エネルギーにおける変化を克服するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を指定することができる方法に関するより多くの情報は、２０１５年１月１２日に出願された「ＴＲＡＮＳＩＴＩＯＮＩＮＧＯＦＡＭＢＩＥＮＴＨＩＧＨＥＲ＿ＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」という名称の米国特許出願第１４／５９４，５３３号において提供されている。

[0128]図４は、図２のオーディオ復号デバイス２４をより詳細に示すブロック図である。図４の例に示されているように、オーディオ復号デバイス２４は、抽出ユニット７２と、レンダラ再構成ユニット８１と、指向性ベース再構成ユニット９０と、ベクトルベース再構成ユニット９２とを含み得る。以下で説明されるが、オーディオ復号デバイス２４に関するより多くの情報、およびＨＯＡ係数を解凍またはさもなければ復号する様々な態様は、２０１４年５月２９日に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0129]抽出ユニット７２は、ビットストリーム２１を受信し、オーディオレンダリング情報２と、ＨＯＡ係数１１の様々な符号化されたバージョン（たとえば、指向性ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン）とを抽出するように構成されたユニットを表し得る。言い換えれば、行列をレンダリングする高次アンビソニック（ＨＯＡ）は、オーディオ再生システム１６でＨＯＡレンダリング処理にわたって制御を可能にする、オーディオ符号化デバイス２０によって送信され得る。送信は、以上で示されたタイプＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＨＯＡ＿ＭＡＴＲＩＸのｍｐｅｇｈ３ｄａＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎの手段によって容易にされ得る。ｍｐｅｇｈ３ｄａＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎは、異なるラウドスピーカー再生構成のためのいくつかのＨＯＡレンダリング行列を含み得る。ＨＯＡレンダリング行列が送信されるとき、オーディオ符号化デバイス２０は、各ＨＯＡレンダリング行列に対して、ＨｏａＯｒｄｅｒの次元と一緒にレンダリング行列の次元を決定する関連する目標ラウドスピーカーレイアウトをシグナリングする。

[0130]一意のＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＩｄの送信は、オーディオ再生システム１６で利用可能なデフォルトＨＯＡレンダリング行列、またはオーディオビットストリーム２１の外側から送信されたＨＯＡレンダリング行列に参照すること許す。いくつかの場合には、あらゆるＨＯＡレンダリング行列は、Ｎ３Ｄにおいて標準化されると仮定され、ビットストリーム２１において定義されるようなＨＯＡ係数のオーダリングすることに従う。

[0131]上述されたように、関数ｆｉｎｄＳｙｍｍｅｔｒｉｃＳｐｅａｋｅｒｓは、１つの例として、いわゆる「スイートスポット」でリスナーの正中面に関してシンメトリックである提供されるラウドスピーカーセットアップ内で全てのラウドスピーカーの数および位置を示す。このヘルパー関数は、以下のように定義され得る：ｉｎｔｆｉｎｄＳｙｍｍｅｔｒｉｃＳｐｅａｋｅｒｓ（ｉｎｔｏｕｔｐｕｔＣｏｕｎｔ，ＳｐｅａｋｅｒＩｎｆｏｒｍａｔｉｏｎ＊ｏｕｔｐｕｔＣｏｎｆｉｇ，ｉｎｔｈａｓＬｆｅＲｅｎｄｅｒｉｎｇ）；抽出ユニット７２は、その後シンメトリックラウドスピーカーに関連した行列要素を生成するために使用され得る１．０および−１．０値のベクトルを計算するために、関数ｃｒｅａｔｅＳｙｍＳｉｇｎｓを呼び出し得る。このｃｒｅａｔｅＳｙｍＳｉｇｎｓ関数は、以下のように定義され得る：
void createSymSigns(int* symSigns, int hoaOrder)
{
int n, m, k = 0;
for (n = 0; n<=hoaOrder; ++n) {
for (m = -n; m<=n; ++m)
symSigns[k++] = ((m>=0)*2)-1;
}
}

[0132]抽出ユニット７２は、水平面に単に使用されるＨＯＡ係数を識別するようにｂｉｔｍａｓｋを生成するために、関数ｃｒｅａｔｅ２ｄＢｉｔｍａｓｋを呼び出し得る。ｃｒｅａｔｅ２ｄＢｉｔｍａｓｋ関数は、以下のように定義され得る：
void create2dBitmask(int* bitmask, int hoaOrder)
{
int n, m, k = 0;
bitmask[k++] = 0;
for (n = 1; n<=hoaOrder; ++n) {
for (m = -n; m<=n; ++m)
bitmask[k++] = abs(m)!=n;
}
}

[0133]ＨＯＡレンダリング行列係数を復号するために、抽出ユニット７２は、最初に、シンタックス要素ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＳｅｔ（）を抽出し得る、それは、上述するように、所望のラウドスピーカーレイアウトにＨＯＡレンダリングを達成するために適用され得る１つまたは複数のＨＯＡレンダリング行列を含み得る。いくつかの場合には、所与のビットストリームは、ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＳｅｔ（）のうちの１つのインスタンスより多くのものを含み得ない。シンタックス要素ＨｏａＲｅｎｄｅｒｉｎｇＭａｔｒｉｘ（）は、（図４の例においてレンダラ情報２として示され得る）ＨＯＡレンダリング行列情報を含み得る。抽出ユニット７２は、最初に、コンフィグ情報中で読み込まれ得る。それは、復号処理をガイドし得る。その後、抽出ユニット７２は、それに応じて行列要素を読み込み得る。

[0134]いくつかの場合には、抽出ユニット７２は、最初に、フィールドｐｒｅｃｉｓｉｏｎＬｅｖｅｌおよびｇａｉｎＬｉｍｉｔＰｅｒＯｒｄｅｒを読み込む。フラグｇａｉｎＬｉｍｉｔＰｅｒＯｒｄｅｒが設定される場合、抽出ユニット７２は、別々に、各ＨＯＡオーダーのためにｍａｘＧａｉｎおよびｍｉｎＧａｉｎフィールドを読み込み、復号する。フラグｇａｉｎＬｉｍｉｔＰｅｒＯｒｄｅｒが設定されない場合、抽出ユニット７２は、フィールドｍａｘＧａｉｎおよびｍｉｎＧａｉｎを一度読み込み、復号し、復号処理の間にすべてのＨＯＡオーダーにこれらのフィールドを適用する。いくつかの場合には、ｍｉｎＧａｉｎ値は、０ｄｂと−６９ｄＢとの間になければならない。いくつかの場合には、ｍａｘＧａｉｎ値は、ｍｉｎＧａｉｎ値より小さい１ｄＢと１１１ｄＢとの間になければならない。図９は、ＨＯＡレンダリング行列内のＨＯＡオーダー依存の最小利得および最大利得の例を示す図である。

[0135]抽出ユニット７２は、次にフラグｉｓＦｕｌｌＭａｔｒｉｘを読み込み得る。それは、行列がフルとしてまたは部分的に希薄なもとして定義されるかどうかをシグナリングし得る。行列が部分的に希薄なものとして定義される場合、抽出ユニット７２は、次のフィールド（例えば、ｆｉｒｓｔＳｐａｒｓｅＯｒｄｅｒシンタックス要素）を読み込む。それは、ＨＯＡレンダリング行列が希薄にコード化されるＨＯＡオーダーを指定する。ＨＯＡレンダリング行列はしばしば、ラウドスピーカー再生セットアップに依存して、低次に対して濃密であり、高次において希薄になり得る。図１０は、２２個のラウドスピーカーのための部分的に希薄な６次ＨＯＡレンダリング行列を示す図である。図１０に示される行列の希薄さは、２６番目のＨＯＡ係数（ＨＯＡオーダー５）で開始する。

[0136]低周波数効果（ＬＦＥ）チャネルが（ｌｆｅＥｘｉｓｔｓシンタックス要素によって示される）ラウドスピーカー再生セットアップ内に存在するかどうかによって、抽出ユニット７２は、フィールドｈａｓＬｆｅＲｅｎｄｅｒｉｎｇを読み込み得る。ｈａｓＬｆｅＲｅｎｄｅｒｉｎｇが設定されない場合、抽出ユニット７２は、ＬＦＥチャネルに関する行列要素がデジタルのゼロであると仮定するように構成される。抽出ユニット７２によって読み込まれた次のフィールドはフラグｚｅｒｏｔｈＯｒｄｅｒＡｌｗａｙｓＰｏｓｉｔｉｖｅである。それは、０次の係数に関連する行列要素が正であるかどうかをシグナリングする。ｚｅｒｏｔｈＯｒｄｅｒＡｌｗａｙｓＰｏｓｉｔｉｖｅが、ゼロ次ＨＯＡ係数が正であることを示す場合には、抽出ユニット７２は、ナンバー符号がゼロ次ＨＯＡ係数に対応するレンダリング行列係数のためにコード化されないことを決定する。

[0137]以下では、ＨＯＡレンダリング行列のプロパティは、正中面に関してラウドスピーカーペアシンメトリックのためにシグナリングされ得る。いくつかの場合には、ａ）値シンメトリおよびｂ）符号シンメトリに関して２つのシンメトリプロパティがある。値シンメトリの場合には、シンメトリラウドスピーカーペアのうち左のラウドスピーカーの行列要素がコード化されないが、むしろ抽出ユニット７２は、以下を実行する、ヘルパー関数ｃｒｅａｔｅＳｙｍＳｉｇｎｓを用いることによって右ラウドスピーカーの復号された行列要素からこれらの要素を導出する：
ｐａｉｒＩｄｘ、ｏｕｔｐｕｔＣｏｎｆｉｇ［ｊ］。ｓｙｍｍｅｔｒｉｃＰａｉｒ−＞ｏｒｉｇｉｎａｌＰｏｓｉｔｉｏｎ；
ｈｏａＭａｔｒｉｘ［ｉ＊ｏｕｔｐｕｔＣｏｕｎｔ＋ｊ］＝ｈｏａＭａｔｒｉｘ［ｉ＊ｏｕｔｐｕｔＣｏｕｎｔ＋ｐａｉｒＩｄｘ；］；
ｓｉｇｎＭａｔｒｉｘ［ｉ＊ｏｕｔｐｕｔＣｏｕｎｔ＋ｊ］＝ｓｙｍＳｉｇｎｓ［ｉ］＊ｓｉｇｎＭａｔｒｉｘ［ｉ＊ｏｕｔｐｕｔＣｏｕｎｔ＋ｐａｉｒＩｄｘ］。

[0138]ラウドスピーカーペアが値シンメトリックでないとき、その後、行列要素は、それらのナンバー符号に関してシンメトリックになり得る。ラウドスピーカーペアが符号シンメトリックであるとき、シンメトリックラウドスピーカーペアの左ラウドスピーカーの行列要素のナンバー符号は、コード化されず、抽出ユニット７２は、以下を実行する、ヘルパー関数ｃｒｅａｔｅＳｙｍＳｉｇｎｓを用いることによって右ラウドスピーカーに関連した行列要素のナンバー符号からこれらのナンバー符号を導出する：
ｐａｉｒＩｄｘ＝ｏｕｔｐｕｔＣｏｎｆｉｇ［ｊ］．ｓｙｍｍｅｔｒｉｃＰａｉｒ−＞ｏｒｉｇｉｎａｌＰｏｓｉｔｉｏｎ；
ｓｉｇｎＭａｔｒｉｘ［ｉ＊ｏｕｔｐｕｔＣｏｕｎｔ＋ｊ］＝ｓｙｍＳｉｇｎｓ［ｉ］＊ｓｉｇｎＭａｔｒｉｘ［ｉ＊ｏｕｔｐｕｔＣｏｕｎｔ＋ｐａｉｒＩｄｘ］；

[0139]図１１は、シンメトリプロパティのシグナリングを説明する図である。ラウドスピーカーペアは、同時刻で値シンメトリックと符号シンメトリックとして定義され得る。最後の復号フラグは、循環の（circular）（つまり２Ｄ）ＨＯＡ係数に関連した行列要素がコード化されるかどうかを指定したフラグｈａｓＶｅｒｔｉｃａｌＣｏｅｆを有する。ｈａｓＶｅｒｔｉｃａｌＣｏｅｆが設定されない場合、ヘルパー関数ｃｒｅａｔｅ２ｄＢｉｔｍａｓｋで定義されたＨＯＡ係数に関連した行列要素は、デジタルの０に設定される。

[0140]すなわち、抽出ユニット７２は、図１１に記述される処理に従ってオーディオレンダリング情報２を抽出し得る。抽出ユニット７２は、最初に、ビットストリーム２１（３００）からｉｓＡｌｌＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素を読み込み得る。ｉｓＡｌｌＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素が１（または言い換えれば、ブール真）に設定されるとき、抽出ユニット７２は、（効果的に、スピーカーペアの全てが値シンタックスであることを示す）１の値にｖａｌｕｅＳｙｍｍｅｔｒｉｃＰａｉｒｓアレイシンタックス要素を設定して、ｎｕｍＰａｉｒｓシンタックス要素の値を通じて繰り返し得る（３０２）。

[0141]ｉｓＡｌｌＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素が０（または、言い換えれば、ブール偽）に設定されるとき、抽出ユニット７２は、次に、ｉｓＡｎｙＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素を読み込み得る（３０４）。ｉｓＡｎｙＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素が１（または、言い換えれば、ブール真）に設定されるとき、抽出ユニット７２は、ビットストリーム２１からシーケンシャルに読み込まれたビットにｖａｌｕｅＳｙｍｍｅｔｒｉｃＰａｉｒｓアレイシンタックス要素を設定して、ｎｕｍＰａｉｒｓシンタックス要素の値を通じて繰り返し得る（３０６）。抽出ユニット７２はまた、０に設定されたｖａｌｕｅＳｙｍｍｅｔｒｉｃＰａｉｒｓシンタックス要素セットを有するペアのうちの任意のもののためのｉｓＡｎｙＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素を取得し得る。その後、抽出ユニット７２は、ペアの数を通じて再び繰り返し、ｖａｌｕｅＳｙｍｍｅｔｒｉｃＰａｉｒｓが０に等しいとき、ビットストリーム２１から読み込まれた値にｓｉｇｎＳｙｍｍｅｔｒｉｃＰａｉｒｓビットを設定する。

[0142]ｉｓＡｎｙＶａｌｕｅＳｙｍｍｅｔｒｉｃシンタックス要素が０（または、言い換えれば、ブール偽）に設定されるとき、抽出ユニット７２は、ビットストリーム２１からｉｓＡｌｌＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素を読み込み得る。ｉｓＡｌｌＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素が１の値（または、言い換えれば、ブール真）に設定されるとき、抽出ユニット７２は、（スピーカーペアのすべてが符号新メトリックであることを効果的に示す）１の値にｓｉｇｎＳｙｍｍｅｔｒｉｃＰａｉｒｓアレイシンタックス要素を設定して、ｎｕｍＰａｉｒｓシンタックス要素の値を通じて繰り返し得る。

[0143]ｉｓＡｌｌＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素が０（または、言い換えれば、ブール偽）に設定されるとき、抽出ユニット７２は、ビットストリーム２１からのｉｓＡｎｙＳｉｇｎＳｙｍｍｅｔｒｉｃシンタックス要素を読み込み得る。抽出ユニット７２は、ビットストリーム２１からシーケンシャルに読み込まれたビットにｓｉｇｎＳｙｍｍｅｔｒｉｃＰａｉｒｓアレイシンタックス要素を設定して、ｎｕｍＰａｉｒｓシンタックス要素の値を通じて繰り返し得る。ビットストリーム生成ユニット４２は、値シンメトリ情報、符号シンメトリ情報、または値および符号シンメトリ情報の両方の組み合わせを指定するために、抽出ユニット７２に関して以上で説明されたものに逆処理を実行し得る。

[0144]レンダラ再構成ユニット８１は、オーディオレンダリング情報２に基づいてレンダラを再構成するために、ユニット構成ｄを表わす。すなわち、以上で述べられたプロパティを使用して、レンダラ再構成ユニット８１は、一連の行列要素利得値を読み込み得る。絶対値の利得値を読み込むために、レンダラ再構成ユニット８１、関数ＤｅｃｏｄｅＧａｉｎＶａｌｕｅ（）を呼び出し得る。レンダラ再構成ユニット８１は、利得値を一様に復号するためにアルファベットインデックスの関数ＲｅａｄＲａｎｇｅ（）を呼び出し得る。復号された利得値がデジタルの０でないとき、レンダラ再構成ユニット８１は、加えて（以下の表ごとに）ナンバー符号値を読み込み得る。行列要素が（ｉｓＨｏａＣｏｅｆＳｐａｒｓｅを介して）希薄になるようにシグナリングされたＨＯＡ係数と関連するとき、ｈａｓＶａｌｕｅフラグは、ｇａｉｎＶａｌｕｅＩｎｄｅｘの前に置く（表ｂを参照）。ｈａｓＶａｌｕｅフラグが０であるとき、この要素は、デジタルの０に設定され、ｇａｉｎＶａｌｕｅＩｎｄｅｘおよび符号がシグナリングされない。

[0145]ラウドスピーカーペアのための指定されたシンメトリプロパティによって、レンダラ再構成ユニット８１は、右のラウドスピーカーから左のラウドスピーカーに関連する行列要素を導出し得る。この場合、左のラウドスピーカーのための行列要素を復号するために、ビットストリーム２１におけるオーディオレンダリング情報２は、低減される、またはそれに応じて完全に省略される。

[0146]このように、オーディオ復号デバイス２４は、指定されるオーディオレンダリング情報のサイズを低減するために、シンメトリ情報を決定し得る。いくつかの場合には、オーディオ復号デバイス２４は、指定されるオーディオレンダリング情報のサイズを低減するためにシンメトリ情報を決定し、シンメトリ情報に基づいてオーディオレンダラの少なくとも一部を導出し得る。

[0147]これらおよび他の場合には、オーディオ復号デバイス２４は、指定されるオーディオレンダリング情報のサイズを低減するために値シンメトリ情報を決定し得る。これらおよび他の場合には、オーディオ復号デバイス２４は、値シンメトリ情報に基づいてオーディオレンダラの少なくとも一部を導出し得る。

[0148]これらおよび他の場合には、オーディオ復号デバイス２４は、指定されるオーディオレンダリング情報のサイズを低減するために符号シンメトリ情報を決定し得る。これらおよび他の場合には、オーディオ復号デバイス２４は、符号シンメトリ情報に基づいてオーディオレンダラの少なくとも一部を導出し得る。

[0149]これらおよび他の場合には、オーディオ復号デバイス２４は、複数のスピーカーフィードに球面調和係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を決定し得る。

[0150]これらおよび他の場合には、オーディオ復号デバイス２４は、行列が複数のスピーカーフィードに球面調和係数をレンダリングするために使用されるべきスピーカーレイアウトを決定し得る。

[0151]その後、この点において、オーディオ復号デバイス２４は、ビットストリームにおいて指定されるオーディオレンダリング情報２を決定し得る。オーディオレンダリング情報２中に含まれる信号値に基づいて、オーディオ再生システム１６は、オーディオレンダラ２２のうちの１つを使用して、複数のスピーカーフィード２５をレンダリングし得る。スピーカーフィードは、スピーカー３を導出し得る。上述されるように、信号値は、いくつかの場合には、複数のスピーカーフィードに球面調和係数をレンダリングするために使用される（オーディオレンダラ２２のうちの１つとして復号され提供される）行列を含み得る。この場合、オーディオ再生システム１６は、行列に基づいてスピーカーフィード２５をレンダリングするために、オーディオレンダラ２２のうちのこの１つを使用して、行列でオーディオレンダラ２２のうちの１つを構成し得る。

[0152]ＨＯＡ係数１１が取得されたオーディオレンダラ２２を使用してレンダリングされることが利用可能なように、ＨＯＡ係数１１の様々な符号化されたバージョンを抽出し、次に、復号するために、抽出ユニット７２は、ＨＯＡ係数１１が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述されたシンタックス要素から決定することができる。指向性ベース符号化が実行されたとき、抽出ユニット７２は、ＨＯＡ係数１１の指向性ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素（図４の例では指向性ベース情報９１として示される）とを抽出し、指向性ベース情報９１を指向性ベース再構成ユニット９０に渡すことができる。指向性ベース再構成ユニット９０は、指向性ベース情報９１に基づいてＨＯＡ係数１１’の形態でＨＯＡ係数を再構成するように構成されたユニットを表し得る。

[0153]ＨＯＡ係数１１がベクトルベース分解を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７（コーディングされた重み５７および／もしくはインデックス６３またはスカラー量子化されたＶベクトルを含み得る）と、符号化された環境ＨＯＡ係数５９と、対応するオーディオオブジェクト６１（符号化ｎＦＧ信号６１とも称される）とを抽出することができる。オーディオオブジェクト６１は、ベクトル５７のうちの１つに各々対応する。抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をＶベクトル再構成ユニット７４に渡し、符号化された環境ＨＯＡ係数５９を符号化されたｎＦＧ信号６１とともに聴覚心理復号ユニット８０に渡すことができる。

[0154]Ｖベクトル再構成ユニット７４は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７からＶベクトルを再構成するように構成されたユニットを表し得る。Ｖベクトル再構成ユニット７４は、量子化ユニット５２の動作とは逆の方法で動作することができる。

[0155]聴覚心理復号ユニット８０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを復号し、それによってエネルギー補償された環境ＨＯＡ係数４７’と補間されたｎＦＧ信号４９’（補間されたｎＦＧオーディオオブジェクト４９’とも呼ばれ得る）とを生成するために、図３の例に示される聴覚心理オーディオコーダユニット４０とは逆の方法で動作することができる。聴覚心理復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’をフェードユニット７７０に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡すことができる。

[0156]空間時間的補間ユニット７６は、空間時間的補間ユニット５０に関して上記で説明されたものと同様の方法で動作することができる。空間時間的補間ユニット７６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５_kを受信し、また、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’を生成するために、フォアグラウンドＶ［ｋ］ベクトル５５_kおよび低減されたフォアグラウンドＶ［ｋ−１］ベクトル５５_k-1に関して空間時間的補間を実行することができる。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送することができる。

[0157]抽出ユニット７２はまた、いつ環境ＨＯＡ係数のうちの１つが遷移中であるかを示す信号７５７を、フェードユニット７７０に出力することもでき、フェードユニット７７０は次いで、ＳＣＨ_BG４７’（ここで、ＳＣＨ_BG４７’は、「環境ＨＯＡチャネル４７’」または「環境ＨＯＡ係数４７’」とも呼ばれ得る）および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定することができる。いくつかの例では、フェードユニット７７０は、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の各々に関して、反対に動作することができる。すなわち、フェードユニット７７０は、環境ＨＯＡ係数４７’のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を実行することができ、一方で、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行することができる。フェードユニット７７０は、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力し、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’をフォアグラウンド編成ユニット７８に出力することができる。この点において、フェードユニット７７０は、ＨＯＡ係数またはその派生物の様々な態様に関して、たとえば、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の形態で、フェード動作を実行するように構成されたユニットを表す。

[0158]フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を生成するために、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’および補間されたｎＦＧ信号４９’に関して行列乗算を実行するように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット７８は、フォアグラウンドまたは言い換えればＨＯＡ係数１１’の支配的態様を再構成するために、ベクトル５５ｋ’’’と（補間されたｎＦＧ４９’を示すための別の方法である）オーディオオブジェクト４９’を組み合わせ得る。フォアグラウンド編成ユニット７８は、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’による補間されたｎＦＧ信号４９’の行列乗算を実行し得る。

[0159]ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、ＨＯＡ係数１１’がＨＯＡ係数１１と同様であるが同じではないことがあることを反映している。ＨＯＡ係数１１とＨＯＡ係数１１’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。

[0160]さらに、抽出ユニット７２およびオーディオ復号デバイス２４はまた、より一般的に、ある場合における様々なシンタックス要素またはデータフィールドを含まないことに関して以上で説明された方法において潜在的に最適化されるビットストリーム２１を取得するために本開示において説明される技法の様々な態様に従って動作するように構成され得る。

[0161]いくつかの場合には、オーディオ復号デバイス２４は、第１の圧縮スキームを使用して圧縮された高次アンビソニックオーディオデータを解凍するとき、オ高次アンビソニックオーディオデータを圧縮するためにさらに使用される第２の圧縮スキームに対応するビットを含まない高次アンビソニックオーディオデータの圧縮さらたバージョンを表わすビットストリーム２１を取得するように構成され得る。第１の圧縮スキームは、ベクトルベース圧縮スキームを備え、結果として生じるベクトル球面調和領域において定義され、ビットストリーム２１を介して送られる。ベクトルベース分解圧縮スキームは、いくつかの例では、高次アンビソニックオーディオデータに対する特異値分解（あるいは図３の例に関してより詳細にせつめいされるようなその均等物）の出願を含む圧縮スキームを含む。

[0162]オーディオ復号デバイス２４は、圧縮スキームの第２のタイプを実行するために使用される少なくとも１つのシンタックス要素に対応するビットを含まない、ビットストリーム２１を取得するように構成され得る。上述されるように、第２の圧縮スキームは、指向性ベース圧縮スキームを備える。より詳細には、オーディオ復号デバイス２４は、第２の圧縮スキームのＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏシンタックス要素に対応するビットを含まないビットストリーム２１を取得するように構成され得る。言い換えれば、第２の圧縮スキームが指向性ベース圧縮スキームを備えるとき、オーディオ復号デバイス２４は、指向性ベース圧縮スキームのＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏシンタックス要素に対応するビットを含まないビットストリーム２１を取得するように構成され得る。上述されるように、ＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏシンタックス要素は、２つ以上の方向ベースの信号間の予測を示し得る。

[0163]いくつかの場合には、上述の例の代替として、または上述の例と共に、いくつかの場合には、オーディオ復号デバイス２４は、高次アンビソニックオーディオデータの圧縮中に抑制されるとき、利得修正データを含まない高次アンビソニックオーディオデータの圧縮されたバージョンを表わすビットストリーム２１を取得するように構成され得る。これらの場合には、オーディオ復号デバイス２４は、ベクトルベース合成解凍スキームに従って高次アンビソニックオーディオデータを解凍するように構成され得る。高次アンビソニックデータの圧縮されたバージョンは、高次アンビソニックオーディオデータに対する特異値分解（あるいは上記の図３の例に関してより詳細に以説明された均等物）のアプリケーションを通じて生成される。ＳＶＤがＨＯＡオーディオデータに適用されるか、またはその均等物であるとき、オーディオ符号化デバイス２０は、ビットストリーム２１中のそれらを示す結果として生じるベクトルまたはビットのうちの少なくとも１つを指定する、ここで、ベクトルは、対応するフォアグラウンドオーディオオブジェクトの空間的特徴（例えば、対応するフォアグラウンドオーディオオブジェクトの幅、位置、および音量等）を記述する。

[0164]より詳細に、オーディオ復号デバイス２４は、利得修正が抑圧されることを示すために、０に設定された値を持つビットストリーム２１ＭａｘＧａｉｎＣｏｒｒＡｍｂＥｘｐシンタックス要素を取得するように構成され得る。すなわち、オーディオ復号デバイス２４は、利得修正が抑圧されるとき、ビットストリームが利得修正を記憶するＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎデータフィールドを含まないビットストリームを取得するように構成され得る。ビットストリーム２１は、利得修正が抑圧されることをしめす０の値を有するＭａｘＧａｉｎＣｏｒｒＡｍｂＥｘｐシンタックス要素を備え、利得修正データを記憶するＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎデータフィールドを含み得ない。高次アンビソニックオーディオデータの圧縮が高次アンビソニックオーディオデータに対する音声音響統合コーディング（ＵＳＡＣ）のアプリケーションを含む時に生じ得る。

[0165]図５は、本開示で説明されるベクトルベース合成技法の様々な態様を実行する際の、図３の例に示されるオーディオ符号化デバイス２０などのオーディオ符号化デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ符号化デバイス２０は、ＨＯＡ係数１１を受信する（１０６）。オーディオ符号化デバイス２０はＬＩＴユニット３０を呼び出すことができ、ＬＩＴユニット３０は、変換されたＨＯＡ係数（たとえば、ＳＶＤの場合、変換されたＨＯＡ係数はＵＳ［ｋ］ベクトル３３とＶ［ｋ］ベクトル３５とを備え得る）を出力するためにＨＯＡ係数に関してＬＩＴを適用することができる（１０７）。

[0166]オーディオ符号化デバイス２０は次に、上記で説明された方法で様々なパラメータを特定するために、ＵＳ［ｋ］ベクトル３３、ＵＳ［ｋ−１］ベクトル３３、Ｖ［ｋ］ベクトルおよび／またはＶ［ｋ−１］ベクトル３５の任意の組合せに関して上記で説明された分析を実行するために、パラメータ計算ユニット３２を呼び出すことができる。すなわち、パラメータ計算ユニット３２は、変換されたＨＯＡ係数３３／３５の分析に基づいて少なくとも１つのパラメータを決定することができる（１０８）。

[0167]オーディオ符号化デバイス２０は次いで、並べ替えユニット３４を呼び出すことができ、並べ替えユニット３４は、上記で説明されたように、並べ替えられた変換されたＨＯＡ係数３３’／３５’（または言い換えれば、ＵＳ［ｋ］ベクトル３３’およびＶ［ｋ］ベクトル３５’）を生成するために、パラメータに基づいて、変換されたＨＯＡ係数（この場合も、ＳＶＤの文脈では、ＵＳ［ｋ］ベクトル３３とＶ［ｋ］ベクトル３５とを指し得る）を並べ替えることができる（１０９）。オーディオ符号化デバイス２０は、前述の演算または後続の演算のいずれかの間に、音場分析ユニット４４を呼び出すこともできる。音場分析ユニット４４は、上記で説明されたように、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド音場の次数（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３としてまとめて示され得る）とを決定するために、ＨＯＡ係数１１および／または変換されたＨＯＡ係数３３／３５に関して音場分析を実行することができる（１０９）。

[0168]オーディオ符号化デバイス２０はまた、バックグラウンド選択ユニット４８を呼び出すことができる。バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報４３に基づいて、バックグラウンドまたは環境ＨＯＡ係数４７を決定することができる（１１０）。オーディオ符号化デバイス２０はさらに、フォアグラウンド選択ユニット３６を呼び出すことができ、フォアグラウンド選択ユニット３６は、ｎＦＧ４５（フォアグラウンドベクトルを特定する１つまたは複数のインデックスを表し得る）に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたＵＳ［ｋ］ベクトル３３’と並べ替えられたＶ［ｋ］ベクトル３５’とを選択することができる（１１２）。

[0169]オーディオ符号化デバイス２０は、エネルギー補償ユニット３８を呼び出すことができる。エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡ係数のうちの様々なものの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を実行し（１１４）、それによって、エネルギー補償された環境ＨＯＡ係数４７’を生成することができる。

[0170]オーディオ符号化デバイス２０はまた、空間時間的補間ユニット５０を呼び出すことができる。空間時間的補間ユニット５０は、補間されたフォアグラウンド信号４９’（「補間されたｎＦＧ信号４９’」とも呼ばれ得る）と残りのフォアグラウンド指向性情報５３（「Ｖ［ｋ］ベクトル５３」とも呼ばれ得る）とを取得するために、並べ替えられた変換されたＨＯＡ係数３３’／３５’に関して空間時間的補間を実行することができる（１１６）。オーディオ符号化デバイス２０は次いで、係数低減ユニット４６を呼び出すことができる。係数低減ユニット４６は、低減されたフォアグラウンド指向性情報５５（低減されたフォアグラウンドＶ［ｋ］ベクトル５５とも呼ばれ得る）を取得するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行することができる（１１８）。

[0171]オーディオ符号化デバイス２０は次いで、上記で説明された方法で、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために、量子化ユニット５２を呼び出すことができる（１２０）。

[0172]オーディオ符号化デバイス２０はまた、聴覚心理オーディオコーダユニット４０を呼び出すことができる。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために、エネルギー補償された環境ＨＯＡ係数４７’および補間されたｎＦＧ信号４９’の各ベクトルを聴覚心理コーディングすることができる。オーディオ符号化デバイスは次いで、ビットストリーム生成ユニット４２を呼び出すことができる。ビットストリーム生成ユニット４２は、コーディングされたフォアグラウンド指向性情報５７と、コーディングされた環境ＨＯＡ係数５９と、コーディングされたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいて、ビットストリーム２１を生成することができる。

[0173]図６は、本開示で説明される技法の様々な態様を実行する際の、図４に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ復号デバイス２４は、ビットストリーム２１を受信し得る（１３０）。ビットストリームを受信すると、オーディオ復号デバイス２４は抽出ユニット７２を呼び出し得る。説明の目的で、ベクトルベース再構成が実行されるべきであることをビットストリーム２１が示すと仮定すると、抽出デバイス７２は、上述された情報を取り出すためにビットストリームを解析し、その情報をベクトルベース再構成ユニット９２に渡し得る。

[0174]言い換えれば、抽出ユニット７２は、コーディングされたフォアグラウンド指向性情報５７（この場合も、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７とも呼ばれ得る）と、コーディングされた環境ＨＯＡ係数５９と、コーディングされたフォアグラウンド信号（コーディングされたフォアグラウンドｎＦＧ信号５９またはコーディングされたフォアグラウンドオーディオオブジェクト５９とも呼ばれ得る）とを、上記で説明された方法でビットストリーム２１から抽出し得る（１３２）。

[0175]オーディオ復号デバイス２４はさらに、逆量子化ユニット７４を呼び出し得る。逆量子化ユニット７４は、低減されたフォアグラウンド指向性情報５５_kを取得するために、コーディングされたフォアグラウンド指向性情報５７をエントロピー復号および逆量子化し得る（１３６）。オーディオ復号デバイス２４はまた、聴覚心理復号ユニット８０を呼び出し得る。聴覚心理オーディオ復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’と補間されたフォアグラウンド信号４９’とを取得するために、符号化された環境ＨＯＡ係数５９と符号化されたフォアグラウンド信号６１とを復号し得る（１３８）。聴覚心理復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’をフェードユニット７７０に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡し得る。

[0176]オーディオ復号デバイス２４は次に、空間時間的補間ユニット７６を呼び出し得る。空間時間的補間ユニット７６は、並べ替えられたフォアグラウンド指向性情報５５_k’を受信し、また、補間されたフォアグラウンド指向性情報５５_k’’を生成するために、低減されたフォアグラウンド指向性情報５５_k／５５_k-1に関して空間時間的補間を実行し得る（１４０）。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送し得る。

[0177]オーディオ復号デバイス２４は、フェードユニット７７０を呼び出し得る。フェードユニット７７０は、エネルギー補償された環境ＨＯＡ係数４７’がいつ遷移中であるかを示すシンタックス要素（たとえば、ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎシンタックス要素）を（たとえば、抽出ユニット７２から）受信またはさもなければ取得し得る。フェードユニット７７０は、遷移シンタックス要素と維持された遷移状態情報とに基づいて、エネルギー補償された環境ＨＯＡ係数４７’をフェードインまたはフェードアウトし、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力し得る。フェードユニット７７０はまた、シンタックス要素と維持された遷移状態情報とに基づいて、および、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の対応する１つまたは複数の要素をフェードアウトまたはフェードインし、フォアグラウンド編成ユニット７８に調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’を出力し得る（１４２）。

[0178]オーディオ復号デバイス２４は、フォアグラウンド編成ユニット７８を呼び出し得る。フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を取得するために、調整されたフォアグラウンド指向性情報５５_k’’’による行列乗算ｎＦＧ信号４９’を実行し得る（１４４）。オーディオ復号デバイス２４はまた、ＨＯＡ係数編成ユニット８２を呼び出し得る。ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に加算し得る（１４６）。

[0179]図７は、本開示で説明される技法の様々な態様を実行する際の、図２の例に示されるシステム１０のような、システムの例示的な動作を示すフローチャートである。以上で論じられたように、コンテンツ作成者デバイス１２は、キャプチャされたまたは生成されたオーディオコンテンツ（それは、図２の例ではＨＯＡ係数１１として示される）を作成するまたは編集するためにオーディオ編集システム１８を用い得る。コンテンツ作成者１２は次いで、以上でより詳細に論じられたように、生成されたマルチチャネルスピーカーフィードに対してオーディオレンダラ１を使用してＨＯＡ係数１１をレンダリングし得る（２００）。コンテンツ作成者２２は次いで、オーディオ再生システムを使用してこれらのスピーカーフィードを再生し、一例として、所望の芸術的意図をキャプチャするために、さらなる調整または編集が要求されるかどうかを決定し得る（２０２）。さらなる調整が望まれるときは（「ＹＥＳ」２０２）、コンテンツ作成者１２は、ＨＯＡ係数をリミックスし（２０４）、ＨＯＡ係数をレンダリングし（２００）、さらなる調整が必要かどうかを決定し得る（２０２）。さらなる調整が、望まれないときは（「ＮＯ」２０２）、オーディオ符号化デバイス２０は、図５の例に関連して以上で説明された方法においてビットストリーム２１を生成し得る（２０６）。オーディオ符号化デバイス２０はまた、以上でより詳細に記述されたように、ビットストリーム２１でオーディオレンダリング情報２を生成し、指定し得る（２０８）。

[0180]コンテンツ消費者デバイス１４は次いで、ビットストリーム２１からオーディオレンダリング情報２を取得し得る（２１０）。復号デバイス２４は次いで、図５の例に関連して以上で説明した方法において、オーディオコンテンツ（それは、図２の例ではＨＯＡ係数１１’として示される）を取得するようにビットストリーム２１を復号し得る。オーディオ再生システム１６は次いで、以上で説明された方法においてオーディオレンダリング情報２に基づいてＨＯＡ係数１１’をレンダリングし（２１２）、ラウドスピーカー３を介してレンダリングされたオーディオコンテンツを再生し得る（２１４）。

[0181]本開示で述べられる技法はしたがって、第１の例として、マルチチャネルオーディオコンテンツを表すビットストリームを生成するデバイスがオーディオレンダリング情報を指定することを可能にし得る。デバイスは、この第１の例では、マルチチャネルオーディオコンテンツを生成するときに使用されるオーディオレンダラを識別する信号値を含むオーディオレンダリング情報を指定するための手段を含む、デバイス。

[0182]第１の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される行列を含む、第１の例のデバイス。

[0183]]第２の例では、第１の例のデバイスであって、信号値は、ビットストリームが、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される行列を含むことを示すインデックスを規定する２つ以上のビットを含む。

[0184]第２の例のデバイスであって、オーディオレンダリング情報はさらに、ビットストリームに含まれる行列の行の数を規定する２つ以上のビットと、ビットストリームに含まれる行列の列の数を規定する２つ以上のビットとを含む、第２の例のデバイス。

[0185]第１の例のデバイスであって、信号値は、オーディオオブジェクトを複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する、第１の例のデバイス。

[0186]第１の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する。

[0187]第１の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数の行列の１つと関連するインデックスを規定する２つ以上のビットを含む、第１の例のデバイス。

[0188]第１の例のデバイスであって、信号値は、オーディオオブジェクトを複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む、第１の例のデバイス。

[0189]第１の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む、第１の例のデバイス。

[0190]第１の例のデバイスであって、オーディオレンダリング情報を指定するための手段は、ビットストリームでオーディオフレームごとにオーディオレンダリング情報を指定するための手段を備える。

[0191]第１の例のデバイスであって、オーディオレンダリング情報を指定するための手段は、ビットストリームで一回オーディオレンダリング情報を指定するための手段を備える、第１の例のデバイス。

[0192]第３の例では、実行されるとき、１つまたは複数のプロセッサにビットストリームでオーディオレンダリング状を指定させる命令をその上に記憶した非一時的コンピュータ可読記憶媒体であって、オーディオレンダリング情報は、マルチチャネルオーディオコンテンツを生成するときに使用されるオーディオレンダラを識別する、非一時的コンピュータ可読記憶媒体。

[0193]第４の例では、ビットストリームからマルチチャネルオーディオコンテンツをレンダリングするためのデバイスであって、本デバイスは、マルチチャネルオーディオコンテンツを生成するときに使用されるオーディオレンダラを識別する信号値を含むオーディオレンダリング情報を決定するための手段と、ビットストリームで指定されるオーディオレンダリング情報に基づいて複数のスピーカーフィードをレンダリングするための手段とを備える、デバイス。

[0194]第４の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される行列を含み、複数のスピーカーフィードをレンダリングするための手段は、行列に基づいて複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0195]第５の例では、第４の例のデバイスであって、信号値は、ビットストリームが、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される行列を含むことを示すインデックスを規定する２つ以上のビットを含み、デバイスはさらに、インデックスに応答してビットストリームから行列を解析するための手段を備え、複数のスピーカーフィードをレンダリングするための手段は、解析された行列に基づいて複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0196]第５の例のデバイスであって、信号値はさらに、ビットストリームに含まれる行列の行の数を規定する２つ以上のビットと、ビットストリームに含まれる行列の列の数を規定する２つ以上のビットとを含み、ビットストリームから行列を解析するための手段は、インデックスに応答し、行の数を規定する２つ以上のビットおよび列の数を規定する２つ以上のビットに基づいてビットストリームから行列を解析するための手段を備える、第５の例のデバイス。

[0197]第４の例のデバイスであって、信号値は、オーディオオブジェクトを複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定し、複数のスピーカーフィードをレンダリングするための手段は、指定されたレンダリングアルゴリズムを使用してオーディオオブジェクトから複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0198]第４の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定し、複数のスピーカーフィードをレンダリングするための手段は、指定されたレンダリングアルゴリズムを使用して球面調和係数から複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0199]第４の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数の行列の１つと関連するインデックスを規定する２つ以上のビットを含み、複数のスピーカーフィードをレンダリングするための手段は、インデックスと関連する複数の行列の１つを使用して球面調和係数から複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0200]第４の例のデバイスであって、信号値は、オーディオオブジェクトを複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含み、複数のスピーカーフィードをレンダリングするための手段は、インデックスと関連する複数のレンダリングアルゴリズムの１つを使用してオーディオオブジェクトから複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0201]第４の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含み、複数のスピーカーフィードをレンダリングするための手段は、インデックスと関連する複数のレンダリングアルゴリズムの１つを使用して球面調和係数から複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0202]第４の例のデバイスであって、オーディオレンダリング情報を決定するための手段は、ビットストリームからオーディオフレームごとにオーディオレンダリング情報を決定するための手段を含む、第４の例のデバイス。

[0203]第４の例のデバイスであって、オーディオレンダリング情報手段を決定するための手段は、ビットストリームから一回オーディオレンダリング情報を決定することを含む、第４の例のデバイス。

[0204]第６の例では、実行されるとき、１つまたは複数のプロセッサに、マルチチャネルオーディオコンテンツを生成するときに使用されるオーディオレンダラを識別する信号値を含むオーディオレンダリング情報を決定させ、ビットストリームで指定されたオーディオレンダリング情報に基づいて複数のスピーカーフィードをレンダリングさせる命令をその上に記憶した非一時的コンピュータ可読記憶媒体。

[0205]図８Ａ−図８Ｄは、本開示において記述される技法にしたがって形成されたビットストリーム２１Ａ−２１Ｄを示す図である。図８Ａの例では、ビットストリーム２１Ａは、以上の図２−図４において示されるビットストリーム２１の１つの例を表わし得る。ビットストリーム２１Ａは、信号値５５４を定義する１つまたは複数のビットを含むオーディオレンダリング情報２Ａを含む。この信号値５５４は、以下で説明される情報のタイプの任意の組み合わせを表わし得る。ビットストリーム２１Ａはまた、オーディオコンテンツ７／９の１つの例を表わし得る、オーディオコンテンツ５５８を含む。

[0206]図８Ｂの例では、ビットストリーム２１Ｂは、ビットストリーム２１Ａに類似し得、ここで、オーディオレンダリング情報２Ｂの信号値５５４は、インデックス５５４Ａ、シグナリングされた行列の行サイズ５５４Ｂを定義する１つまたは複数のビット、シグナリングされた行列の列サイズ５５４Ｃを定義する１つまたは複数のビット、および行列係数５５４Ｄを備える。インデックス５５４Ａは、２乃至５ビットを使用して、定義されるが、各行サイズ５５４Ｂおよび列サイズ５５４Ｃは、２乃至１６ビットを使用して定義され得る。

[0207]抽出ユニット７２は、インデックス５５４Ａを抽出し、行列がビットストリーム２１中に含まれるかシグナリングするかどうかを決定し得る（ここで、００００または１１１１のようなあるインデックス値は、行列がビットストリーム２１Ｂ中に明示的に指定されることをシグナリングする）。図８Ｂの例では、ビットストリーム２１Ｂは、行列がビットストリーム２１Ｂ中に明示的に指定されることをシグナリングするインデックス５５４Ａを含む。結果として、抽出ユニット７２は、行サイズ５５４Ｂおよび列サイズ５５４Ｃを抽出し得る。抽出ユニット７２は、行サイズ５５４Ｂ、列サイズ５５４Ｃおよび各行列係数のシグナルされた（図８Ａに示されない）または暗示的なビットサイズの関数としての行列係数を表わすことを解析するために、ビット数を計算するように構成され得る。決定されたビット数を使用して、抽出ユニット７２は、オーディオ再生システム１６が上述されたようなオーディオレンダラ２２のうちの１つを構成するように使用され得る、行列係数５５４Ｄを抽出し得る。ビットストリーム２１Ｂ中のオーディオレンダリング情報２Ｂの単一時間をシグナリングするとして示されるが、オーディオレンダリング情報２Ｂは、ビットストリーム中に、または（いくつかの場合のオプションデータとして）少なくとも部分的にまたは完全に、別個の帯域外チャネル中に複数回シグナルされ得る。

[0208]図８Ｃの例では、ビットストリーム２１Ｃは、以上の図２−図４において示されるビットストリーム２１の１つの例を表わし得る。ビットストリーム２１Ｃは、この例におけるアルゴリズムインデックス５５４Ｅを指定する、信号値５５４を含むオーディオレンダリング情報２Ｃを含む。ビットストリーム２１Ｃはまた、オーディオコンテンツ５５８を含む。上述するように、アルゴリズムインデックス５５４Ｅは、２−５ビットを使用して定義され得、このアルゴリズムインデックス５５４Ｅは、オーディオコンテンツ５５８をレンダリングするときに使用される。

[0209]抽出ユニット７２は、アルゴリズムインデックス５５０Ｅを抽出し、行列がビットストリーム２１Ｃに含まれることを、アルゴリズムインデックス５５４Ｅがシグナリングするかどうかを決定し得る（ここで、００００または１１１１のようなあるインデックス値は、行列がビットストリーム２１中に明示的に指定されることをシグナリングし得る）。図８Ｃの例では、ビットストリーム２１Ｃは、行列がビットストリーム２１Ｃ中に明示的に指定されないことをシグナリングするアルゴリズムインデックス５５４Ｅを含む。結果として、抽出ユニット７２は、アルゴリズムインデックス５５４Ｅをオーディオ再生装置１６に転送し得、それは、（図２−図４の例におけるレンダラ２２として示される）レンダリングアルゴリズムの対応するもの（利用可能な場合）を選択する。ビットストリーム２１Ｃにおいて一回、オーディオレンダリング情報２Ｃをシグナリングすることとして示されるが、図８Ｃでは、オーディオレンダリング情報２Ｃは、ビットストリーム２１Ｃにおいて、または（いくつかの場合にはオプションデータとして少なくとも部分的に、または完全に、別個の帯域外チャネルにおいて複数回シグナリングされ得る。

[0210]図８Ｄの例では、ビットストリーム２１Ｄは、上以上の図２−図４において示されるビットストリーム２１の１つの例を表わし得る。ビットストリーム２１Ｄは、信号値５５４を含むオーディオレンダリング情報２Ｄを含み、それは、この例では、５５行列インデックス５５４Ｆを指定する。ビットストリーム２１Ｄはまた、オーディオコンテンツ５５８を含む。上述したように、行列インデックス５５４Ｆは、２〜５ビットを使用して定義され、この行列インデックス５５４Ｆは、オーディオコンテンツ５５８をレンダリングするときに使用される、レンダリングアルゴリズムを識別し得る。

[0211]抽出ユニット７２は、行列インデックス５５０Ｆを抽出し、行列がビットストリーム２１Ｄ中に含まれることを行列インデックス５５４Ｆがシグナリングする（ここで、行列がビットストリーム２１Ｃ中に明示的に指定されることを、００００または１１１１のような、あるインデックス値がシグナリングし得る）かどうかを決定し得る。図８Ｄの例では、ビットストリーム２１Ｄは、行列がビットストリーム２１Ｄ中に明示的に指定されないことをシグナリングする、行列インデックス５５４Ｆを含む。結果として、抽出ユニット７２は、オーディオ再生デバイスに行列インデックス５５４Ｆを転送し、それは、レンダラ２２の対応するもの（利用可能な場合）を選択する。ビットストリーム２１Ｄ中に一回、オーディオレンダリング情報２Ｄをシグナリングすることとして示されるが、オーディオレンダリング情報２Ｄは、ビットストリーム２１Ｄ中に、または（いくつかの場合においてオプションのデータとして）少なくとも部分的にまたは完全に別個の帯域外チャネル中に複数回シグナリングされ得る。

[0212]図８Ｅ−図８Ｇは、より詳細に、圧縮した空間成分を指定し得るビットストリームまたはサイドチャネル情報の一部を示す図である。図８Ｅは、ビットストリーム２１のフレーム２４９Ａ’の第１の例を示す。図８Ｅの例では、フレーム２４９Ａ’は、ＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａ（ＣＳＩＤ）フィールド１５４Ａ−１５４Ｃ、ＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎＤａｔａ（ＨＯＡＧＣＤ）フィールド、およびＶＶｅｃｔｏｒＤａｔａフィールド１５６Ａおよび１５６Ｂを含む。ＣＳＩＤフィールド１５４Ａは、ＣｈａｎｎｅｌＴｙｐｅ２６９と共にｕｎｉｔＣ２６７、ｂｂ２６６、およびｂａ２６５を含む。それらの各々は、図８Ｅの例において示される、対応する値０１、１、０、および０１に設定される。ＣＳＩＤフィールド１５４Ｂは、ＣｈａｎｎｅｌＴｙｐｅ２６９と共にｕｎｉｔＣ２６７、ｂｂ２６６およびｂａ２６５を含む。それらの各々は、図８Ｅの例において示される、対応する値０１、１、０、および０１に設定される。ＣＳＩＤフィールド１５４Ｃは、３の値を有するＣｈａｎｎｅｌＴｙｐｅフィールド２６９を含む。ＣＳＩＤフィールド１５４Ａ−１５４Ｃの各々は、トランスポートチャネル１、２、および３のそれぞれの１つに対応する。事実上、各ＣＳＩＤフィールド１５４Ａ−１５４Ｃは、対応するペイロード１５６Ａおよび１５６Ｂが方向ベースの信号か（対応するＣｈａｎｎｅｌＴｙｐｅが０に等しいとき）、ベクトルベース信号か（対応するＣｈａｎｎｅｌＴｙｐｅが１に等しいときの）、追加の環境ＨＯＡ係数か（対応するＣｈａｎｎｅｌＴｙｐｅが２に等しいとき）、空か（ＣｈａｎｎｅｌＴｙｐｅが３に等しいとき）を示す。

[0213]図８Ｅの例では、フレーム２４９Ａは、（ＣＳＩＤフィールド１５４Ａおよび１５４Ｂにおいて１に等しいＣｈａｎｎｅｌＴｙｐｅシンタックス要素２６９が与えられる）２つのベクトルベース信号と、（ＣＳＩＤフィールド１５４Ｃにおいて３に等しいＣｈａｎｎｅｌＴｙｐｅ２６９が与えられる）空（empty）とを含む。（説明を簡単にするために示されていない）上記のＨＯＡｃｏｎｆｉｇ部分に基づいて、オーディオ復号デバイス２４は、すべての１６Ｖベクトル要素を決定し得る。従って、ＶＶｅｃｔｏｒＤａｔａ１５６Ａおよび１５６Ｂの各々は、１６のベクトル要素すべてを含み、それらの各々は、８ビットで一様に量子化される。

[0214]図８Ｅの例においてさらに示されるように、フレーム２４９Ａ’は、ＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏフィールドを含まない。ＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏフィールドは、ベクトルベース圧縮スキームがＨＯＡオーディオデータを圧縮するときに、本開示において説明される技法にしたがって除去され得る方向ベースの圧縮スキームに対応するフィールドを表わし得る。

[0215]図８Ｆは、ＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎＤａｔａがフィールド２４９’’に記憶された各トランスポートチャネルから除去されたことを除いてフレーム２４９Ａに実質的に類似しているフレーム２４９’’を説明する図である。ＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎＤａｔａフィールドは、利得修正が以上で説明される本技法の様々な態様に従って抑制されるとき、フレーム２４９’’から除去され得る。

[0216]図８Ｇは、ＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏフィールドがっ除去されるという点を除いてフレーム２４９Ａ’’に類似するフレーム２４９Ａ’’’に類似し得る。フレーム２４９Ａ’’’は、本技法の両方の態様がある環境では必要でない様々なフィールドを除去するために、結合に適用され得る場合の１つの例を表わす。

[0217]上記の技法は、任意の数の異なる状況およびオーディオエコシステムに関して実行され得る。いくつかの例示的な状況が以下で説明されるが、本技法はそれらの例示的な状況に限定されるべきではない。１つの例示的なオーディオエコシステムは、オーディオコンテンツと、映画スタジオと、音楽スタジオと、ゲーミングオーディオスタジオと、チャネルベースオーディオコンテンツと、コーディングエンジンと、ゲームオーディオステムと、ゲームオーディオコーディング／レンダリングエンジンと、配信システムとを含み得る。

[0218]映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信することができる。いくつかの例では、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション（ＤＡＷ）を使用することなどによって、（たとえば、２．０、５．１、および７．１の）チャネルベースオーディオコンテンツを出力することができる。音楽スタジオは、ＤＡＷを使用することなどによって、（たとえば、２．０、および５．１の）チャネルベースオーディオコンテンツを出力することができる。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、チャネルベースオーディオコンテンツベースの１つまたは複数のコーデック（たとえば、ＡＡＣ、ＡＣ３、ＤｏｌｂｙＴｒｕｅＨＤ、ＤｏｌｂｙＤｉｇｉｔａｌＰｌｕｓ、およびＤＴＳＭａｓｔｅｒＡｕｄｉｏ）を受信し符号化することができる。ゲーミングオーディオスタジオは、ＤＡＷを使用することなどによって、１つまたは複数のゲームオーディオステムを出力することができる。ゲームオーディオコーディング／レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングすることができる。本技法が実行され得る別の例示的な状況は、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、ＨＯＡオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、ＴＶ、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。

[0219]放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、ＨＯＡオーディオフォーマットを使用して、それらの出力をコーディングすることができる。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、ＴＶ、およびアクセサリ、ならびにカーオーディオシステムを使用して再生され得る単一の表現へと、ＨＯＡオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム１６など、汎用的なオーディオ再生システムにおいて（すなわち、５．１、７．１などの特定の構成を必要とすることとは対照的に）再生され得る。

[0220]本技法が実行され得る状況の他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、有線および／またはワイヤレス獲得デバイス（たとえば、Ｅｉｇｅｎマイクロフォン）、オンデバイスサラウンドサウンドキャプチャ、ならびにモバイルデバイス（たとえば、スマートフォンおよびタブレット）を含み得る。いくつかの例では、有線および／またはワイヤレス獲得デバイスは、有線および／またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。

[0221]本開示の１つまたは複数の技法によれば、モバイルデバイスが音場を獲得するために使用され得る。たとえば、モバイルデバイスは、有線および／もしくはワイヤレス獲得デバイス、ならびに／またはオンデバイスサラウンドサウンドキャプチャ（たとえば、モバイルデバイスに統合された複数のマイクロフォン）を介して、音場を獲得することができる。モバイルデバイスは次いで、再生要素のうちの１つまたは複数による再生のために、獲得された音場をＨＯＡ係数へとコーディングすることができる。たとえば、モバイルデバイスのユーザは、ライブイベント（たとえば、会合、会議、劇、コンサートなど）を録音し（その音場を獲得し）、録音をＨＯＡ係数へとコーディングすることができる。

[0222]モバイルデバイスはまた、ＨＯＡコーディングされた音場を再生するために、再生要素のうちの１つまたは複数を利用することができる。たとえば、モバイルデバイスは、ＨＯＡコーディングされた音場を復号し、再生要素のうちの１つまたは複数に信号を出力することができ、このことは再生要素のうちの１つまたは複数に音場を再作成させる。一例として、モバイルデバイスは、１つまたは複数のスピーカー（たとえば、スピーカーアレイ、サウンドバーなど）に信号を出力するために、ワイヤレスおよび／またはワイヤレス通信チャネルを利用することができる。別の例として、モバイルデバイスは、１つもしくは複数のドッキングステーションおよび／または１つもしくは複数のドッキングされたスピーカー（たとえば、スマート自動車および／またはスマート住宅の中のサウンドシステム）に信号を出力するために、ドッキング解決手段を利用することができる。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、たとえばリアルなバイノーラルサウンドを作成するために、ヘッドフォンレンダリングを利用することができる。

[0223]いくつかの例では、特定のモバイルデバイスは、３Ｄ音場を獲得することと、より後の時間に同じ３Ｄ音場を再生することの両方を行うことができる。いくつかの例では、モバイルデバイスは、３Ｄ音場を獲得し、３Ｄ音場をＨＯＡへと符号化し、符号化された３Ｄ音場を再生のために１つまたは複数の他のデバイス（たとえば、他のモバイルデバイスおよび／または他の非モバイルデバイス）に送信することができる。

[0224]本技法が実行され得るＹまた別の状況は、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、ＨＯＡ信号の編集をサポートし得る１つまたは複数のＤＡＷを含み得る。たとえば、１つまたは複数のＤＡＷは、１つまたは複数のゲームオーディオシステムとともに動作する（たとえば、機能する）ように構成され得る、ＨＯＡプラグインおよび／またはツールを含み得る。いくつかの例では、ゲームスタジオは、ＨＯＡをサポートする新しいステムフォーマットを出力することができる。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングすることができるレンダリングエンジンに、コーディングされたオーディオコンテンツを出力することができる。

[0225]本技法はまた、例示的なオーディオ獲得デバイスに関して実行され得る。たとえば、本技法は、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る、Ｅｉｇｅｎマイクロフォンに関して実行され得る。いくつかの例では、Ｅｉｇｅｎマイクロフォンの複数のマイクロフォンは、約４ｃｍの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例では、オーディオ符号化デバイス２０は、マイクロフォンから直接ビットストリーム２１を出力するために、Ｅｉｇｅｎマイクロフォンに統合され得る。

[0226]別の例示的なオーディオ獲得状況は、１つまたは複数のＥｉｇｅｎマイクロフォンなど、１つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図３のオーディオ符号化器２０などのオーディオ符号化器を含み得る。

[0227]モバイルデバイスはまた、いくつかの場合には、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、Ｘ、Ｙ、Ｚのダイバーシティを有し得る。いくつかの例では、モバイルデバイスは、モバイルデバイスの１つまたは複数の他のマイクロフォンに関してＸ、Ｙ、Ｚのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図３のオーディオ符号化器２０などのオーディオ符号化器を含み得る。

[0228]耐衝撃性のビデオキャプチャデバイスは、３Ｄ音場を録音するようにさらに構成され得る。いくつかの例では、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。たとえば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周りのすべての活動（たとえば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など）を表す３Ｄ音場をキャプチャすることができる。

[0229]本技法はまた、３Ｄ音場を録音するように構成され得る、アクセサリで増強されたモバイルデバイスに関して実行され得る。いくつかの例では、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、１つまたは複数のアクセサリが追加されている。たとえば、Ｅｉｇｅｎマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述されたモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの３Ｄ音場をキャプチャすることができる。

[0230]本開示で説明される本技法の様々な態様を実行することができる例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の１つまたは複数の技法によれば、スピーカーおよび／またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として３Ｄ音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、有線接続またはワイヤレス接続のいずれかを介して復号器２４に結合され得る。本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。

[0231]いくつかの異なる例示的なオーディオ再生環境はまた、本開示で説明される技法の様々な態様を実行するために好適であり得る。たとえば、５．１スピーカー再生環境、２．０（たとえば、ステレオ）スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う９．１スピーカー再生環境、２２．２スピーカー再生環境、１６．０スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を実行するために好適な環境であり得る。

[0232]本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダードが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。たとえば、設計上の考慮事項が、７．１スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合（たとえば、右側のサラウンドスピーカーを配置することが可能ではない場合）、本開示の技法は、再生が６．１スピーカー再生環境で達成され得るように、レンダーが他の６つのスピーカーとともに補償することを可能にする。

[0233]その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見ることができる。本開示の１つまたは複数の技法によれば、スポーツの試合の３Ｄ音場が獲得され得（たとえば、１つまたは複数のＥｉｇｅｎマイクロフォンが野球場の中および／または周りに配置され得）、３Ｄ音場に対応するＨＯＡ係数が取得され復号器に送信され得、復号器がＨＯＡ係数に基づいて３Ｄ音場を再構成して、再構成された３Ｄ音場をレンダラに出力することができ、レンダラが再生環境のタイプ（たとえば、ヘッドフォン）についての指示を取得し、再構成された３Ｄ音場を、ヘッドフォンにスポーツの試合の３Ｄ音場の表現を出力させる信号へとレンダリングすることができる。

[0234]上記で説明された様々な場合の各々において、オーディオ符号化デバイス２０は、ある方法を実行し、またはさもなければ、オーディオ符号化デバイス２０が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの場合には、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ符号化デバイス２０が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0235]１つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体上の１つまたは複数の命令またはコード上に記憶され、またはこれを介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実装のために命令、コードおよび／またはデータ構造を取り出すために、１つまたは複数のコンピュータあるいは１つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0236]同様に、上記で説明された様々な場合の各々において、オーディオ復号デバイス２４は、ある方法を実行し、またはさもなければ、オーディオ復号デバイス２４が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの場合には、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ復号デバイス２４が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0237]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ここで、ディスク（disk）は、通常、データを磁気的に再生し、一方、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲の中に含まれるべきである。

[0238]命令は、１つもしくは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは他の同等の集積回路またはディスクリート論理回路などの１つもしくは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成されるか、または複合コーデックに組み込まれる、専用のハードウェアモジュールおよび／またはソフトウェアモジュール内で提供され得る。また、本技法は、１つもしくは複数の回路または論理要素で十分に実装され得る。

[0239]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）もしくはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置で実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットが説明されるが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、上で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記の１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。

[0240]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。

[0240]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。
以下に本願発明の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
高次アンビソニック係数をレンダリングするように構成されるデバイスであって、
複数のスピーカーフィードに前記高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを行うように構成される１つまたは複数のプロセッサと、
前記希薄さ情報を記憶するように構成されるメモリと
を備える、デバイス。
［Ｃ２］
前記１つまたは複数のプロセッサは、前記行列のシンメトリを示すシンメトリ情報を決定することと、前記シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することとを行うようにさらに構成される、
Ｃ１に記載のデバイス。
［Ｃ３］
前記１つまたは複数のプロセッサは、前記行列の値シンメトリを示す値シンメトリ情報を決定することと、前記値シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することとを行うようにさらに構成される、
Ｃ１に記載のデバイス。
［Ｃ４］
前記１つまたは複数のプロセッサは、前記行列の符号シンメトリを示す符号シンメトリ情報を決定することと、前記符号シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することとを行うようにさらに構成される、
Ｃ１に記載のデバイス。
［Ｃ５］
前記１つまたは複数のプロセッサは、前記行列が前記高次アンビソニック係数から前記複数のスピーカーフィードをレンダリングするために使用されるスピーカーレイアウトを決定するようにさらに構成される、
Ｃ１に記載のデバイス。
［Ｃ６］
前記複数のスピーカーフィードに基づいて前記高次アンビソニック係数によって表わされる音場を再生するように構成されるスピーカーをさらに備える、
Ｃ１に記載のデバイス。
［Ｃ７］
前記１つまたは複数のプロセッサは、前記マルチチャネルオーディオコンテンツを生成するときに使用されるオーディオレンダラを識別する信号値を示すオーディオレンダリング情報を取得することと、前記オーディオレンダリング情報に基づいて前記複数のスピーカーフィードをレンダリングすることとを行うようにさらに構成される、
Ｃ１に記載のデバイス。
［Ｃ８］
前記信号値は、前記マルチチャネルオーディオデータに前記高次アンビソニック係数をレンダリングするために使用される前記行列を含み、前記１つまたは複数のプロセッサは、前記信号値中に含まれる前記行列に基づいて前記複数のスピーカーフィードをレンダリングするように構成される、
Ｃ７に記載のデバイス。
［Ｃ９］
高次アンビソニック係数をレンダリングする方法であって、
複数のスピーカーフィードに前記高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを備える、
方法。
［Ｃ１０］
前記行列のシンメトリを示すシンメトリ情報を決定することと、
前記シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することと
を備える、Ｃ９に記載の方法。
［Ｃ１１］
前記行列の値シンメトリを示す値シンメトリ情報を決定することと、
前記値シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することと、
をさらに備える、Ｃ９に記載の方法。
［Ｃ１２］
前記行列の符号シンメトリを示す符号シンメトリ情報を決定することと、
前記符号シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することと
をさらに備える、Ｃ９に記載の方法。
［Ｃ１３］
前記行列が前記高次アンビソニック係数から前記複数のスピーカーフィードをレンダリングするために使用されるスピーカーレイアウトを決定することをさらに備える、
Ｃ９に記載の方法。
［Ｃ１４］
前記複数のスピーカーフィードに基づいて前記高次アンビソニック係数によって表わされる音場を再生することをさらに備える、
Ｃ９に記載の方法。
［Ｃ１５］
前記マルチチャネルオーディオコンテンツを生成するときに使用されるオーディオレンダラを識別する信号値を示すオーディオレンダリング情報を取得することと、
前記オーディオレンダリング情報に基づいて前記複数のスピーカーフィードをレンダリングすることと
をさらに備える、Ｃ９に記載の方法。
［Ｃ１６］
前記信号値は、前記マルチチャネルオーディオデータに前記高次アンビソニック係数をレンダリングするために使用される前記行列を含み、前記方法は、前記信号値中に含まれる前記行列に基づいて前記複数のスピーカーフィードをレンダリングすることをさらに備える、
Ｃ１５に記載の方法。
［Ｃ１７］
ビットストリームを作成するように構成されるデバイスであって、
行列を記憶するように構成されるメモリと、
複数のスピーカーフィードを生成するために、高次アンビソニック係数をレンダリングするために使用される前記行列の希薄さを示す希薄さ情報を取得することを行うように構成される１つまたは複数のプロセッサと
を備える、デバイス。
［Ｃ１８］
前記１つまたは複数のプロセッサは、前記行列のシンメトリを示すシンメトリ情報を決定することと、前記シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することとを行うようにさらに構成される、
Ｃ１７に記載のデバイス。
［Ｃ１９］
前記１つまたは複数のプロセッサは、前記行列の値シンメトリを示す値シンメトリ情報を決定することと、前記値シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することとを行うようにさらに構成される、
Ｃ１７に記載のデバイス。
［Ｃ２０］
前記１つまたは複数のプロセッサは、前記行列の符号シンメトリを示す符号シンメトリ情報を決定することと、前記符号シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することと
を行うようにさらに構成される、Ｃ１に記載のデバイス。
［Ｃ２１］
前記１つまたは複数のプロセッサは、前記行列が前記高次アンビソニック係数から前記複数のスピーカーフィードをレンダリングするために使用されるスピーカーレイアウトを決定するようにさらに構成される、
Ｃ１７に記載のデバイス。
［Ｃ２２］
前記高次アンビソニック係数によって表わされる音場をキャプチャするように構成されるマイクロフォンをさらに備える、
Ｃ１７に記載のデバイス。
［Ｃ２３］
ビットストリームを作成する方法であって、
複数のスピーカーフィードを生成するために、高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを備える、
方法。
［Ｃ２４］
前記行列のシンメトリを示すシンメトリ情報を決定することと、
前記シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することと
をさらに備える、Ｃ２３に記載の方法。
［Ｃ２５］
前記行列の値シンメトリを示す値シンメトリ情報を決定することと、
前記値シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することと
さらに備える、Ｃ２３に記載の方法。
［Ｃ２６］
前記行列の符号シンメトリを示す符号シンメトリ情報を決定することと、
前記符号シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することと
をさらに備える、Ｃ２３に記載の方法。
［Ｃ２７］
前記行列が前記高次アンビソニック係数から前記複数のスピーカーフィードをレンダリングするために使用されるスピーカーレイアウトを決定することをさらに備える、
Ｃ２３に記載の方法。
［Ｃ２８］
前記高次アンビソニック係数によって表わされる音場をキャプチャすることをさらに備える、
Ｃ２３に記載の方法。

Claims

高次アンビソニック係数をレンダリングするように構成されるデバイスであって、
複数のスピーカーフィードに前記高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを行うように構成される１つまたは複数のプロセッサと、
前記希薄さ情報を記憶するように構成されるメモリと
を備える、デバイス。
前記１つまたは複数のプロセッサは、前記行列のシンメトリを示すシンメトリ情報を決定することと、前記シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することとを行うようにさらに構成される、
請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記行列の値シンメトリを示す値シンメトリ情報を決定することと、前記値シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することとを行うようにさらに構成される、
請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記行列の符号シンメトリを示す符号シンメトリ情報を決定することと、前記符号シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することとを行うようにさらに構成される、
請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記行列が前記高次アンビソニック係数から前記複数のスピーカーフィードをレンダリングするために使用されるスピーカーレイアウトを決定するようにさらに構成される、
請求項１に記載のデバイス。
前記複数のスピーカーフィードに基づいて前記高次アンビソニック係数によって表わされる音場を再生するように構成されるスピーカーをさらに備える、
請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記マルチチャネルオーディオコンテンツを生成するときに使用されるオーディオレンダラを識別する信号値を示すオーディオレンダリング情報を取得することと、前記オーディオレンダリング情報に基づいて前記複数のスピーカーフィードをレンダリングすることとを行うようにさらに構成される、
請求項１に記載のデバイス。
前記信号値は、前記マルチチャネルオーディオデータに前記高次アンビソニック係数をレンダリングするために使用される前記行列を含み、前記１つまたは複数のプロセッサは、前記信号値中に含まれる前記行列に基づいて前記複数のスピーカーフィードをレンダリングするように構成される、
請求項７に記載のデバイス。
高次アンビソニック係数をレンダリングする方法であって、
複数のスピーカーフィードに前記高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを備える、
方法。
前記行列のシンメトリを示すシンメトリ情報を決定することと、
前記シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することと
を備える、請求項９に記載の方法。
前記行列の値シンメトリを示す値シンメトリ情報を決定することと、
前記値シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することと、
をさらに備える、請求項９に記載の方法。
前記行列の符号シンメトリを示す符号シンメトリ情報を決定することと、
前記符号シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を表わすために使用される低減されたビット数を決定することと
をさらに備える、請求項９に記載の方法。
前記行列が前記高次アンビソニック係数から前記複数のスピーカーフィードをレンダリングするために使用されるスピーカーレイアウトを決定することをさらに備える、
請求項９に記載の方法。
前記複数のスピーカーフィードに基づいて前記高次アンビソニック係数によって表わされる音場を再生することをさらに備える、
請求項９に記載の方法。
前記マルチチャネルオーディオコンテンツを生成するときに使用されるオーディオレンダラを識別する信号値を示すオーディオレンダリング情報を取得することと、
前記オーディオレンダリング情報に基づいて前記複数のスピーカーフィードをレンダリングすることと
をさらに備える、請求項９に記載の方法。
前記信号値は、前記マルチチャネルオーディオデータに前記高次アンビソニック係数をレンダリングするために使用される前記行列を含み、前記方法は、前記信号値中に含まれる前記行列に基づいて前記複数のスピーカーフィードをレンダリングすることをさらに備える、
請求項１５に記載の方法。
ビットストリームを作成するように構成されるデバイスであって、
行列を記憶するように構成されるメモリと、
複数のスピーカーフィードを生成するために、高次アンビソニック係数をレンダリングするために使用される前記行列の希薄さを示す希薄さ情報を取得することを行うように構成される１つまたは複数のプロセッサと
を備える、デバイス。
前記１つまたは複数のプロセッサは、前記行列のシンメトリを示すシンメトリ情報を決定することと、前記シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することとを行うようにさらに構成される、
請求項１７に記載のデバイス。
前記１つまたは複数のプロセッサは、前記行列の値シンメトリを示す値シンメトリ情報を決定することと、前記値シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することとを行うようにさらに構成される、
請求項１７に記載のデバイス。
前記１つまたは複数のプロセッサは、前記行列の符号シンメトリを示す符号シンメトリ情報を決定することと、前記符号シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することと
を行うようにさらに構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記行列が前記高次アンビソニック係数から前記複数のスピーカーフィードをレンダリングするために使用されるスピーカーレイアウトを決定するようにさらに構成される、
請求項１７に記載のデバイス。
前記高次アンビソニック係数によって表わされる音場をキャプチャするように構成されるマイクロフォンをさらに備える、
請求項１７に記載のデバイス。
ビットストリームを作成する方法であって、
複数のスピーカーフィードを生成するために、高次アンビソニック係数をレンダリングするために使用される行列の希薄さを示す希薄さ情報を取得することを備える、
方法。
前記行列のシンメトリを示すシンメトリ情報を決定することと、
前記シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することと
をさらに備える、請求項２３に記載の方法。
前記行列の値シンメトリを示す値シンメトリ情報を決定することと、
前記値シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することと
さらに備える、請求項２３に記載の方法。
前記行列の符号シンメトリを示す符号シンメトリ情報を決定することと、
前記符号シンメトリ情報と前記希薄さ情報とに基づいて、前記行列を示すビット数を低減することと
をさらに備える、請求項２３に記載の方法。
前記行列が前記高次アンビソニック係数から前記複数のスピーカーフィードをレンダリングするために使用されるスピーカーレイアウトを決定することをさらに備える、
請求項２３に記載の方法。
前記高次アンビソニック係数によって表わされる音場をキャプチャすることをさらに備える、
請求項２３に記載の方法。