JP2017201412A

JP2017201412A - フレームパラメータ再使用可能性を示すこと

Info

Publication number: JP2017201412A
Application number: JP2017126158A
Authority: JP
Inventors: ニルス・ガンザー・ピーターズ; Guenther Peters Nils; ディパンジャン・セン; Sen Dipanjan
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-01-30
Filing date: 2017-06-28
Publication date: 2017-11-09
Anticipated expiration: 2035-01-30
Also published as: WO2015116949A2; PH12016501506A1; PH12016501506B1; TW201537561A; JP6542297B2; AU2015210791B2; JP6542296B2; US20170032799A1; TW201535354A; ZA201605973B; BR112016017283A2; US20150213809A1; JP2017215590A; JP2017201413A; TWI603322B; US9489955B2; CA2933734C; CN110827840B; CN105917408B; KR20160114637A

Abstract

【課題】ベクトルを復号するためのフレームパラメータ再使用可能性を示すための技法を提供する。【解決手段】ベクトルを復号するためのフレームパラメータ再使用可能性を示すための技法であって、技法を実行するオーディオ復号デバイス２４は、プロセッサとメモリとを。プロセッサは、球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得する。ビットストリームは、ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータをさらに備える。メモリは、ビットストリームを記憶する。【選択図】図４

Description

関連出願

[0001]本出願は、以下の米国仮出願、すなわち、
２０１４年１月３０日に出願された「ＣＯＭＰＲＥＳＳＩＯＮＯＦＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の米国仮出願第６１／９３３，７０６号、
２０１４年１月３０日に出願された「ＣＯＭＰＲＥＳＳＩＯＮＯＦＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の米国仮出願第６１／９３３，７１４号、
２０１４年１月３０日に出願された「ＩＮＤＩＣＡＴＩＮＧＦＲＡＭ（登録商標）Ｅ
ＰＡＲＡＭＥＴＥＲＲＥＵＳＡＢＩＬＩＴＹＦＯＲＤＥＣＯＤＩＮＧＳＰＡＴＩＡＬＶＥＣＴＯＲＳ」という名称の米国仮出願第６１／９３３，７３１号、
２０１４年３月７日に出願された「ＩＭＭＥＤＩＡＴＥＰＬＡＹ−ＯＵＴＦＲＡＭＥＦＯＲＳＰＨＥＲＩＣＡＬＨＡＲＭＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」という名称の米国仮出願第６１／９４９，５９１号、
２０１４年３月７日に出願された「ＦＡＤＥ−ＩＮ／ＦＡＤＥ−ＯＵＴＯＦＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の米国仮出願第６１／９４９，５８３号、
２０１４年５月１６日に出願された「ＣＯＤＩＮＧＶ−ＶＥＣＴＯＲＳＯＦＡＤＥＣＯＭＰＯＳＥＤＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＳ（ＨＯＡ）
ＡＵＤＩＯＳＩＧＮＡＬ」という名称の米国仮出願第６１／９９４，７９４号、
２０１４年５月２８日に出願された「ＩＮＤＩＣＡＴＩＮＧＦＲＡＭＥＰＡＲＡＭＥＴＥＲＲＥＵＳＡＢＩＬＩＴＹＦＯＲＤＥＣＯＤＩＮＧＳＰＡＴＩＡＬＶＥＣＴＯＲＳ」という名称の米国仮出願第６２／００４，１４７号、
２０１４年５月２８日に出願された「ＩＭＭＥＤＩＡＴＥＰＬＡＹ−ＯＵＴＦＲＡＭＥＦＯＲＳＰＨＥＲＩＣＡＬＨＡＲＭＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳＡＮＤＦＡＤＥ−ＩＮ／ＦＡＤＥ−ＯＵＴＯＦＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の米国仮出願第６２／００４，０６７号、
２０１４年５月２８日に出願された「ＣＯＤＩＮＧＶ−ＶＥＣＴＯＲＳＯＦＡＤＥＣＯＭＰＯＳＥＤＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＳ（ＨＯＡ）
ＡＵＤＩＯＳＩＧＮＡＬ」という名称の米国仮出願第６２／００４，１２８号、
２０１４年７月１日に出願された「ＣＯＤＩＮＧＶ−ＶＥＣＴＯＲＳＯＦＡＤＥＣＯＭＰＯＳＥＤＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＳ（ＨＯＡ）ＡＵＤＩＯＳＩＧＮＡＬ」という名称の米国仮出願第６２／０１９，６６３号、
２０１４年７月２２日に出願された「ＣＯＤＩＮＧＶ−ＶＥＣＴＯＲＳＯＦＡＤＥＣＯＭＰＯＳＥＤＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＳ（ＨＯＡ）
ＡＵＤＩＯＳＩＧＮＡＬ」という名称の米国仮出願第６２／０２７，７０２号、
２０１４年７月２３日に出願された「ＣＯＤＩＮＧＶ−ＶＥＣＴＯＲＳＯＦＡＤＥＣＯＭＰＯＳＥＤＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＳ（ＨＯＡ）
ＡＵＤＩＯＳＩＧＮＡＬ」という名称の米国仮出願第６２／０２８，２８２号、
２０１４年７月２５日に出願された「ＩＭＭＥＤＩＡＴＥＰＬＡＹ−ＯＵＴＦＲＡＭＥＦＯＲＳＰＨＥＲＩＣＡＬＨＡＲＭＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳＡＮＤＦＡＤＥ−ＩＮ／ＦＡＤＥ−ＯＵＴＯＦＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の米国仮出願第６２／０２９，１７３号、
２０１４年８月１日に出願された「ＣＯＤＩＮＧＶ−ＶＥＣＴＯＲＳＯＦＡＤＥＣＯＭＰＯＳＥＤＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＳ（ＨＯＡ）ＡＵＤＩＯＳＩＧＮＡＬ」という名称の米国仮出願第６２／０３２，４４０号、
２０１４年９月２６日に出願された「ＳＷＩＴＣＨＥＤＶ−ＶＥＣＴＯＲＱＵＡＮＴＩＺＡＴＩＯＮＯＦＡＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＳ（ＨＯＡ）ＡＵＤＩＯＳＩＧＮＡＬ」という名称の米国仮出願第６２／０５６，２４８号、および
２０１４年９月２６日に出願された「ＰＲＥＤＩＣＴＩＶＥＶＥＣＴＯＲＱＵＡＮＴＩＺＡＴＩＯＮＯＦＡＤＥＣＯＭＰＯＳＥＤＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＳ（ＨＯＡ）ＡＵＤＩＯＳＩＧＮＡＬ」という名称の米国仮出願第６２／０５６，２８６号、および
２０１５年１月１２日に出願された「ＴＲＡＮＳＩＴＩＯＮＩＮＧＯＦＡＭＢＩＥＮＴＨＩＧＨＥＲ−ＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」という名称の米国仮出願第６２／１０２，２４３号の利益を主張し、上記に記載された米国仮出願の各々は、それらのそれぞれの全体として本明細書に記載されたかのように、参照により組み込まれる。

[0002]本開示はオーディオデータに関し、より詳細には、高次アンビソニックオーディオデータのコーディングに関する。

[0003]高次アンビソニックス（ＨＯＡ）信号（複数の球面調和係数（ＳＨＣ）または他の階層的な要素によって表されることが多い）は、音場の３次元表現である。このＨＯＡ表現またはＳＨＣ表現は、ＳＨＣ信号からレンダリングされるマルチチャネルオーディオ信号を再生するために使用されるローカルスピーカー幾何学的配置に依存しない方法で、音場を表し得る。ＳＨＣ信号は、５．１オーディオチャネルフォーマットまたは７．１オーディオチャネルフォーマットなどのよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、ＳＨＣ信号はまた、下位互換性を容易にし得る。したがって、ＳＨＣ表現は、下位互換性にも対応する、音場のより良い表現を可能にし得る。

[0004]概して、高次アンビソニックスオーディオデータをコーディングするための技法が説明される。高次アンビソニックスオーディオデータは、１よりも大きい次数を有する球面調和基底関数に対応する少なくとも１つの球面調和係数を備え得る。

[0005]一態様では、効率的なビット使用の方法は、球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得することを備える。ビットストリームは、ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再利用するかどうかのためのインジケータをさらに備える。

[0006]別の態様では、効率的なビット使用を実行するように構成されたデバイスは、球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得するように構成される。ビットストリームは、ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再利用するかどうかのためのインジケータをさらに備える。デバイスはさらに、ビットストリームを記憶するように構成されるメモリを備える。

[0007]別の態様では、デバイスは、効率的なビット使用を実行するように構成されたデバイスは、球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得するための手段を備える。ビットストリームは、ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再利用するかどうかのためのインジケータをさらに備える。デバイスはさらに、インジケータを記憶するための手段を備える。

[0008]別の態様では、非一時的コンピュータ可読記憶媒体は、命令を記憶しており、命令は、実行されると、１つまたは複数のプロセッサに、球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得することを行わせ、ビットストリームは、ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再利用するかどうかのためのインジケータをさらに備える。

[0009]本技法の１つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。本技法の他の特徴、目的、および利点は、その説明および図面、ならびに特許請求の範囲から明らかになろう。

様々な次数および副次数の球面調和基底関数を示す図。本開示で説明される技法の様々な態様を実行することができるシステムを示す図。本開示で説明される技法の様々な態様を実行することができる、図２の例に示されるオーディオ符号化デバイスの一例をより詳細に示すブロック図。図２のオーディオ復号デバイスをより詳細に示すブロック図。本開示で説明されるベクトルベース合成技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。本開示で説明されるコーディング技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。本開示で説明されるコーディング技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。圧縮された空間成分を指定することができるビットストリームまたはサイドチャネル情報の一部分をより詳細に示す図。より詳細に圧縮された空間成分を指定することができるビットストリームの一部分を示す図。

[0020]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカーへのフィードを暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している５．１フォーマット（これは、次の６つのチャネル、すなわち、フロントレフト（ＦＬ）と、フロントライト（ＦＲ）と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果（ＬＦＥ）とを含む）、発展中の７．１フォーマット、７．１．４フォーマットおよび２２．２フォーマット（たとえば、超高精細度テレビジョン規格とともに使用するための）などのハイトスピーカーを含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」と呼ばれることが多い（対称な、および非対称な幾何学的配置の）任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂二十面体の角の座標に配置される３２個のラウドスピーカーを含む。

[0021]将来のＭＰＥＧ符号化器への入力は、オプションで、次の３つの可能なフォーマット、すなわち、（ｉ）あらかじめ指定された位置でラウドスピーカーを通じて再生されることが意図される、（上で論じられたような）従来のチャネルベースオーディオ、（ｉｉ）（情報の中でも）位置座標を含む関連付けられたメタデータを有する単一オーディオオブジェクトのための離散的なパルス符号変調（ＰＣＭ）データを伴うオブジェクトベースオーディオ、および（ｉｉｉ）球面調和基底関数の係数（「球面調和係数」すなわちＳＨＣ、「高次アンビソニックス」すなわちＨＯＡ、および「ＨＯＡ係数」とも呼ばれる）を使用して音場を表すことを伴うシーンベースオーディオのうちの１つである。将来のＭＰＥＧ符号化器は、２０１３年１月にスイスのジュネーブで発表された、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ／ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ（ＩＳＯ）／（ＩＥＣ）ＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ１３４１１による「ＣａｌｌｆｏｒＰｒｏｐｏｓａｌｓｆｏｒ３ＤＡｕｄｉｏ」と題される文書においてより詳細に説明され得る。

[0022]市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらのフォーマットは、たとえば、５．１ホームシアターシステム（リビングルームに進出するという点でステレオ以上に最も成功した）からＮＨＫ（ＮｉｐｐｏｎＨｏｓｏＫｙｏｋａｉすなわち日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ作成者（たとえば、ハリウッドスタジオ）は、一度に映画のサウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置（と数）および（レンダラを伴う）再生のロケーションにおける音響条件に適応可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。

[0023]コンテンツ作成者にそのような柔軟性を提供するために、要素の階層セットが音場を表すために使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細なものになり、分解能は向上する。

[0024]要素の階層セットの一例は、球面調和係数（ＳＨＣ）のセットである。次の式は、ＳＨＣを使用する音場の記述または表現を示す。

[0025]この式は、時間ｔにおける音場の任意の点｛ｒ_r，θ_r，φ_r｝における圧力ｐ_iが、ＳＨＣ、

によって一意に表され得ることを示す。ここで、

であり、ｃは音速（約３４３ｍ／ｓ）であり、｛ｒ_r，θ_r，φ_r｝は基準点（または観測点）であり、ｊ_n（・）は次数ｎの球ベッセル関数であり、

は次数ｎおよび副次数ｍの球面調和基底関数である。角括弧内の項は、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換などの様々な時間周波数変換によって近似され得る信号の周波数領域表現（すなわち、Ｓ（ω，ｒ_r，θ_r，φ_r））であることが認識できよう。階層セットの他の例は、ウェーブレット変換係数のセット、および多分解能基底関数の係数の他のセットを含む。

[0026]図１は、０次（ｎ＝０）から４次（ｎ＝４）までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図１の例では明示的に示されていない副次数ｍの拡張が存在する。

[0027]ＳＨＣ

は、様々なマイクロフォンアレイ構成によって物理的に獲得（たとえば、録音）されてよく、または代替的に、それらは音場のチャネルベースまたはオブジェクトベースの記述から導出されてよい。ＳＨＣはシーンベースのオーディオを表し、ここで、ＳＨＣは、より効率的な送信または記憶を促し得る符号化されたＳＨＣを取得するために、オーディオ符号化器に入力され得る。たとえば、（１＋４）²個の（２５個の、したがって４次の）係数を伴う４次表現が使用され得る。

[0028]上述されたように、ＳＨＣは、マイクロフォンアレイを使用したマイクロフォン録音から導出され得る。ＳＨＣがマイクロフォンアレイからどのように導出され得るかの様々な例は、Ｐｏｌｅｔｔｉ，Ｍ、「Ｔｈｒｅｅ−ＤｉｍｅｎｓｉｏｎａｌＳｕｒｒｏｕｎｄＳｏｕｎｄＳｙｓｔｅｍｓＢａｓｅｄｏｎＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓ」、Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．、Ｖｏｌ．５３、Ｎｏ．１１、２００５年１１月、１００４〜１０２５ページにおいて説明されている。

[0029]ＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数

は、

と表され得、ただし、ｉは

であり、

は次数ｎの（第２の種類の）球ハンケル関数であり、｛ｒ_s，θ_s、φ_s｝はオブジェクトのロケーションである。周波数の関数として（たとえば、ＰＣＭストリームに対して高速フーリエ変換を実行するなど、時間周波数分析技法を使用して）オブジェクトソースエネルギーｇ（ω）を知ることで、各ＰＣＭオブジェクトと対応するロケーションとをＳＨＣ

に変換することが可能となる。さらに、各オブジェクトについての

係数は、（上式は線形であり直交方向の分解であるので）加法的であることが示され得る。このようにして、多数のＰＣＭオブジェクトが

係数によって（たとえば、個々のオブジェクトについての係数ベクトルの和として）表され得る。本質的に、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含んでおり、上記は、観測点｛ｒ_r，θ_r，φ_r｝の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの数字は、以下でオブジェクトベースのオーディオコーディングおよびＳＨＣベースのオーディオコーディングの文脈で説明される。

[0030]図２は、本開示で説明される技法の様々な態様を実行することができるシステム１０を示す図である。図２の例に示されるように、システム１０は、コンテンツ作成者デバイス１２と、コンテンツ消費者デバイス１４とを含む。コンテンツ作成者デバイス１２およびコンテンツ消費者デバイス１４の文脈で説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、ＳＨＣ（ＨＯＡ係数とも呼ばれ得る）または音場の任意の他の階層的表現が符号化される任意の文脈で実施され得る。その上、コンテンツ作成者デバイス１２は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。同様に、コンテンツ消費者デバイス１４は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。

[0031]コンテンツ作成者デバイス１２は、コンテンツ消費者デバイス１４などのコンテンツ消費者のオペレータによる消費のためのマルチチャネルオーディオコンテンツを生成することができる、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例では、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を圧縮することを望む個人ユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともに、オーディオコンテンツを生成する。コンテンツ消費者デバイス１４は、個人によって操作され得る。コンテンツ消費者デバイス１４は、マルチチャネルオーディオコンテンツとしての再生のためにＳＨＣをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム１６を含み得る。

[0032]コンテンツ作成者デバイス１２は、オーディオ編集システム１８を含む。コンテンツ作成者デバイス１２は、様々なフォーマットのライブ録音７（ＨＯＡ係数として直接含む）とオーディオオブジェクト９とを取得し、コンテンツ作成者デバイス１２は、オーディオ編集システム１８を使用してこれらを編集することができる。コンテンツ作成者は、編集プロセスの間に、オーディオオブジェクト９からのＨＯＡ係数１１をレンダリングし、さらなる編集を必要とする音場の様々な態様を特定しようとして、レンダリングされたスピーカーフィードを聞くことができる。コンテンツ作成者デバイス１２は次いで、（潜在的に、上記で説明された方法でソースＨＯＡ係数がそれから導出され得るオーディオオブジェクト９のうちの様々なオブジェクトの操作を通じて間接的に）ＨＯＡ係数１１を編集することができる。コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を生成するためにオーディオ編集システム１８を採用することができる。オーディオ編集システム１８は、オーディオデータを編集し、このオーディオデータを１つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。

[0033]編集プロセスが完了すると、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１に基づいてビットストリーム２１を生成することができる。すなわち、コンテンツ作成者デバイス１２は、ビットストリーム２１を生成するために、本開示で説明される技法の様々な態様に従って、ＨＯＡ係数１１を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス２０を含む。オーディオ符号化デバイス２０は、一例として、有線チャネルまたはワイヤレスチャネル、データ記憶デバイスなどであり得る送信チャネルを介した送信のために、ビットストリーム２１を生成することができる。ビットストリーム２１は、ＨＯＡ係数１１の符号化されたバージョンを表すことができ、主要ビットストリームと、サイドチャネル情報とも呼ばれ得る別のサイドビットストリームとを含み得る。

[0034]以下でより詳細に説明されるが、オーディオ符号化デバイス２０は、ベクトルベース合成または指向性ベース合成に基づいてＨＯＡ係数１１を符号化するように構成され得る。ベクトルベース分解方法を実行するか指向性ベース分解方法を実行するかを決定するために、オーディオ符号化デバイス２０は、ＨＯＡ係数１１に少なくとも部分的に基づいて、ＨＯＡ係数１１が音場の自然な録音（たとえば、ライブ録音７）を介して生成されたか、または一例として、ＰＣＭオブジェクトなどのオーディオオブジェクト９から人工的に（すなわち、合成的に）作成されたかを決定することができる。ＨＯＡ係数１１がオーディオオブジェクト９から生成されたとき、オーディオ符号化デバイス２０は、指向性ベース分解方法を使用してＨＯＡ係数１１を符号化することができる。ＨＯＡ係数１１が、たとえば、ｅｉｇｅｎｍｉｋｅを使用してライブでキャプチャされたとき、オーディオ符号化デバイス２０は、ベクトルベース分解方法に基づいてＨＯＡ係数１１を符号化することができる。上の区別は、ベクトルベース分解方法または指向性ベース分解方法が採用され得る一例を表す。これらの一方または両方が、自然な録音、人工的に生成されたコンテンツ、またはこれら２つの混合物（ハイブリッドコンテンツ）に対して有用であり得る、他の場合があり得る。さらに、ＨＯＡ係数の単一の時間フレームをコーディングするために両方の方法を同時に使用することも可能である。

[0035]説明のために、ＨＯＡ係数１１がライブでキャプチャされたか、またはさもなければライブ録音７などのライブ録音を表すと、オーディオ符号化デバイス２０が決定すると仮定すると、オーディオ符号化デバイス２０は、線形可逆変換（ＬＩＴ）の適用を伴うベクトルベース分解方法を使用してＨＯＡ係数１１を符号化するように構成され得る。線形可逆変換の一例は、「特異値分解」（または「ＳＶＤ」）と呼ばれる。この例では、オーディオ符号化デバイス２０は、ＨＯＡ係数１１の分解されたバージョンを決定するためにＳＶＤをＨＯＡ係数１１に適用することができる。オーディオ符号化デバイス２０は次いで、様々なパラメータを特定するためにＨＯＡ係数１１の分解されたバージョンを分析することができ、このことは、ＨＯＡ係数１１の分解されたバージョンの並べ替えを容易にし得る。オーディオ符号化デバイス２０は次いで、特定されたパラメータに基づいてＨＯＡ係数１１の分解されたバージョンを並べ替えることができ、そのような並べ替えは、以下でさらに詳細に説明されるように、変換がＨＯＡ係数のフレームにわたってＨＯＡ係数を並べ替えることができるとすると（フレームが、ＨＯＡ係数１１のＭ個のサンプルを含み得、Ｍが、いくつかの例では１０２４に設定される場合）、コーディング効率を向上させることができる。ＨＯＡ係数１１の分解されたバージョンを並べ替えた後、オーディオ符号化デバイス２０は、音場のフォアグラウンド（または言い換えれば、明瞭な、支配的な、もしくは目立つ）成分を表す、ＨＯＡ係数１１の分解されたバージョンを選択することができる。オーディオ符号化デバイス２０は、フォアグラウンド成分を表すＨＯＡ係数１１の分解されたバージョンを、オーディオオブジェクトおよび関連付けられる指向性情報として指定することができる。

[0036]オーディオ符号化デバイス２０はまた、少なくとも部分的には、音場の１つまたは複数のバックグラウンド（または言い換えれば、環境的な）成分を表すＨＯＡ係数１１を特定するために、ＨＯＡ係数１１に関して音場分析を実行することができる。オーディオ符号化デバイス２０は、いくつかの例では、バックグラウンド成分がＨＯＡ係数１１の任意の所与のサンプルのサブセット（たとえば、２次以上の球面基底関数に対応するＨＯＡ係数１１ではなく、０次および１次の球面基底関数に対応するＨＯＡ係数１１など）のみを含み得るとすると、バックグラウンド成分に関してエネルギー補償を実行することができる。言い換えれば、次数低減が実行されるとき、オーディオ符号化デバイス２０は、次数低減を実行したことに起因する全体的なエネルギーの変化を補償するために、ＨＯＡ係数１１の残りのバックグラウンドＨＯＡ係数を補強する（たとえば、それにエネルギーを加える／それからエネルギーを差し引く）ことができる。

[0037]オーディオ符号化デバイス２０は次に、バックグラウンド成分とフォアグラウンドオーディオオブジェクトの各々とを表すＨＯＡ係数１１の各々に関して、ある形態の聴覚心理符号化（ＭＰＥＧサラウンド、ＭＰＥＧ−ＡＡＣ、ＭＰＥＧ−ＵＳＡＣ、または他の既知の形態の聴覚心理符号化など）を実行することができる。オーディオ符号化デバイス２０は、フォアグラウンド指向性情報に関してある形態の補間を実行し、次いで、次数低減されたフォアグラウンド指向性情報を生成するために、補間されたフォアグラウンド指向性情報に関して次数低減を実行することができる。オーディオ符号化デバイス２０はさらに、いくつかの例では、次数低減されたフォアグラウンド指向性情報に関して量子化を実行し、コーディングされたフォアグラウンド指向性情報を出力することができる。いくつかの場合には、量子化はスカラー／エントロピー量子化を備え得る。オーディオ符号化デバイス２０は次いで、符号化されたバックグラウンド成分と、符号化されたフォアグラウンドオーディオオブジェクトと、量子化された指向性情報とを含むように、ビットストリーム２１を形成することができる。オーディオ符号化デバイス２０は次いで、ビットストリーム２１をコンテンツ消費者デバイス１４に送信またはさもなければ出力することができる。

[0038]図２では、コンテンツ消費者デバイス１４に直接的に送信されるものとして示されているが、コンテンツ作成者デバイス１２は、コンテンツ作成者デバイス１２とコンテンツ消費者デバイス１４との間に配置された中間デバイスにビットストリーム２１を出力することができる。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス１４に後で配信するために、ビットストリーム２１を記憶することができる。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオ復号器による取出しのためにビットストリーム２１を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、ビットストリーム２１を要求するコンテンツ消費者デバイス１４などの加入者にビットストリーム２１を（場合によっては対応するビデオデータビットストリームを送信するとともに）ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在してもよい。

[0039]代替的に、コンテンツ作成者デバイス１２は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にビットストリーム２１を記憶することができ、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。この文脈において、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある（および、小売店と他の店舗ベースの配信機構とを含み得る）。したがって、いずれにしても、本開示の技法は、この点に関して図２の例に限定されるべきではない。

[0040]図２の例にさらに示されるように、コンテンツ消費者デバイス１４は、オーディオ再生システム１６を含む。オーディオ再生システム１６は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム１６は、いくつかの異なるレンダラ２２を含み得る。レンダラ２２は各々、異なる形態のレンダリングを提供することができ、異なる形態のレンダリングは、ベクトルベース振幅パンニング（ＶＢＡＰ：vector-base amplitude panning）を実行する様々な方法の１つもしくは複数、および／または音場合成を実行する様々な方法の１つもしくは複数を含み得る。本明細書で使用される場合、「Ａおよび／またはＢ」は、「ＡまたはＢ」、または「ＡとＢ」の両方を意味する。

[0041]オーディオ再生システム１６は、オーディオ復号デバイス２４をさらに含み得る。オーディオ復号デバイス２４は、ビットストリーム２１からＨＯＡ係数１１’を復号するように構成されたデバイスを表し得、ＨＯＡ係数１１’は、ＨＯＡ係数１１と類似し得るが、損失のある演算（たとえば、量子化）および／または送信チャネルを介した送信が原因で異なり得る。すなわち、オーディオ復号デバイス２４は、ビットストリーム２１において指定されるフォアグラウンド指向性情報を逆量子化することができ、一方でまた、ビットストリーム２１において指定されるフォアグラウンドオーディオオブジェクトおよびバックグラウンド成分を表す符号化されたＨＯＡ係数に関して聴覚心理復号を実行することができる。オーディオ復号デバイス２４はさらに、復号されたフォアグラウンド指向性情報に関して補間を実行し、次いで、復号されたフォアグラウンドオーディオオブジェクトおよび補間されたフォアグラウンド指向性情報に基づいて、フォアグラウンド成分を表すＨＯＡ係数を決定することができる。オーディオ復号デバイス２４は次いで、フォアグラウンド成分を表す決定されたＨＯＡ係数およびバックグラウンド成分を表す復号されたＨＯＡ係数に基づいて、ＨＯＡ係数１１’を決定することができる。

[0042]オーディオ再生システム１６は、ＨＯＡ係数１１’を取得するためにビットストリーム２１を復号した後、ラウドスピーカーフィード２５を出力するためにＨＯＡ係数１１’をレンダリングすることができる。ラウドスピーカーフィード２５は、１つまたは複数のラウドスピーカー（説明を簡単にするために図２の例には示されていない）を駆動することができる。

[0043]適切なレンダラを選択するために、またはいくつかの場合には、適切なレンダラを生成するために、オーディオ再生システム１６は、ラウドスピーカーの数および／またはラウドスピーカーの空間的な幾何学的配置を示すラウドスピーカー情報１３を取得することができる。いくつかの場合には、オーディオ再生システム１６は、基準マイクロフォンを使用してラウドスピーカー情報１３を取得し、ラウドスピーカー情報１３を動的に決定するような方法でラウドスピーカーを駆動することができる。他の場合には、またはラウドスピーカー情報１３の動的な決定とともに、オーディオ再生システム１６は、オーディオ再生システム１６とインターフェースをとりラウドスピーカー情報１３を入力するようにユーザに促すことができる。

[0044]オーディオ再生システム１６は次いで、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを選択することができる。いくつかの場合には、オーディオ再生システム１６は、オーディオレンダラ２２のいずれもがラウドスピーカー情報１３において指定されたものに対して（ラウドスピーカーの幾何学的配置に関する）何らかの類似性の尺度のしきい値内にないとき、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを生成することができる。オーディオ再生システム１６は、いくつかの場合には、オーディオレンダラ２２のうちの既存の１つを選択することを最初に試みることなく、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを生成することができる。

[0045]図３は、本開示で説明される技法の様々な態様を実行することができる、図２の例に示されるオーディオ符号化デバイス２０の一例をより詳細に示すブロック図である。オーディオ符号化デバイス２０は、コンテンツ分析ユニット２６と、ベクトルベース分解ユニット２７と、指向性ベース分解ユニット２８とを含む。以下で手短に説明されるが、オーディオ符号化デバイス２０に関するより多くの情報、およびＨＯＡ係数を圧縮またはさもなければ符号化する様々な態様は、２０１４年５月２９に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0046]コンテンツ分析ユニット２６は、ＨＯＡ係数１１がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを特定するために、ＨＯＡ係数１１のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット２６は、ＨＯＡ係数１１が実際の音場の録音から生成されたか人工的なオーディオオブジェクトから生成されたかを決定することができる。いくつかの場合には、フレーム化されたＨＯＡ係数１１が録音から生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１をベクトルベース分解ユニット２７に渡す。いくつかの場合には、フレーム化されたＨＯＡ係数１１が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１を指向性ベース合成ユニット２８に渡す。指向性ベース合成ユニット２８は、指向性ベースビットストリーム２１を生成するためにＨＯＡ係数１１の指向性ベース合成を実行するように構成されたユニットを表し得る。

[0047]図３の例に示されるように、ベクトルベース分解ユニット２７は、線形可逆変換（ＬＩＴ）ユニット３０と、パラメータ計算ユニット３２と、並べ替えユニット３４と、フォアグラウンド選択ユニット３６と、エネルギー補償ユニット３８と、聴覚心理オーディオコーダユニット４０と、ビットストリーム生成ユニット４２と、音場分析ユニット４４と、係数低減ユニット４６と、バックグラウンド（ＢＧ）選択ユニット４８と、空間時間的補間ユニット５０と、量子化ユニット５２とを含み得る。

[0048]線形可逆変換（ＬＩＴ）ユニット３０は、ＨＯＡチャネルの形態でＨＯＡ係数１１を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連付けられた係数のブロックまたはフレーム（ＨＯＡ［ｋ］と示され得、ただし、ｋはサンプルの現在のフレームまたはブロックを示し得る）を表す。ＨＯＡ係数１１の行列は、次元Ｄ：Ｍ×（Ｎ＋１）²を有し得る。

[0049]すなわち、ＬＩＴユニット３０は、特異値分解と呼ばれるある形態の分析を実行するように構成されたユニットを表し得る。ＳＶＤに関して説明されているが、本開示で説明される技法は、線形的に無相関な、エネルギーが圧縮された出力のセットを提供する任意の類似の変換または分解に対して実行されてよい。また、本開示における「セット」への言及は、一般的に、それとは反対に特に明記されていない限り、非０のセットを指すことが意図され、いわゆる「空集合」を含む集合の古典的な数学的定義を指すことは意図されない。

[0050]代替的な変換は、「ＰＣＡ」と呼ばれることが多い、主成分分析を備え得る。ＰＣＡは、おそらく相関する変数の観測値のセットを、主成分と呼ばれる線形的に無相関な変数のセットに変換するために、直交変換を採用する数学的手順を指す。線形的に無相関な変数とは、互いに対する統計的線形関係（すなわち依存）を持たない変数を表す。主成分は、互いに対するわずかな統計的相関を有するものとして説明され得る。いずれにしても、いわゆる主成分の数は、元の変数の数以下である。いくつかの例では、変換は、第１の主成分が可能な最大の分散を有し（または、言い換えれば、データの変動性をできる限り多く考慮し）、後続の各成分が、連続した成分が先行する成分と直交する（これと無相関と言い換えられ得る）という制約の下で可能な最高分散を有するような方法で、定義される。ＰＣＡは、ＨＯＡ係数１１に関してＨＯＡ係数１１の圧縮をもたらし得る、ある形態の次数低減を実行することができる。文脈に応じて、ＰＣＡは、いくつかの例を挙げれば、離散カルーネン−レーベ変換、ホテリング変換、固有直交分解（ＰＯＤ）、および固有値分解（ＥＶＤ）などのいくつかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという背後にある目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「無相関化」である。

[0051]いずれにしても、ＬＩＴユニット３０が、例として、特異値分解（やはり「ＳＶＤ」と呼ばれることがある）を実行すると仮定すると、ＬＩＴユニット３０は、ＨＯＡ係数１１を、変換されたＨＯＡ係数の２つ以上のセットに変換することができる。変換されたＨＯＡ係数の「セット」は、変換されたＨＯＡ係数のベクトルを含み得る。図３の例では、ＬＩＴユニット３０は、いわゆるＶ行列と、Ｓ行列と、Ｕ行列とを生成するために、ＨＯＡ係数１１に関してＳＶＤを実行することができる。ＳＶＤは、線形代数学では、ｙ×ｚの実行列または複素行列Ｘ（ここで、Ｘは、ＨＯＡ係数１１などのマルチチャネルオーディオデータを表し得る）の因数分解を以下の形で表し得る。Ｘ＝ＵＳＶ＊Ｕはｙ×ｙの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｕのｙ個の列は、マルチチャネルオーディオデータの左特異ベクトルとして知られる。Ｓは、対角線上に非負実数をもつｙ×ｚの矩形対角行列を表し得、ここで、Ｓの対角線値は、マルチチャネルオーディオデータの特異値として知られる。Ｖ＊（Ｖの共役転置を示し得る）はｚ×ｚの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｖ＊のｚ個の列は、マルチチャネルオーディオデータの右特異ベクトルとして知られる。

[0052]本開示では、ＨＯＡ係数１１を備えるマルチチャネルオーディオデータに適用されるものとして説明されているが、本技法は、任意の形態のマルチチャネルオーディオデータに適用されてよい。このようにして、オーディオ符号化デバイス２０は、マルチチャネルオーディオデータの左特異ベクトルを表すＵ行列と、マルチチャネルオーディオデータの特異値を表すＳ行列と、マルチチャネルオーディオデータの右特異ベクトルを表すＶ行列とを生成するために、音場の少なくとも一部分を表すマルチチャネルオーディオデータに対して特異値分解を実行し、マルチチャネルオーディオデータをＵ行列、Ｓ行列、およびＶ行列のうちの１つまたは複数の少なくとも一部分の関数として表すことができる。

[0053]いくつかの例では、上で参照されたＳＶＤ数式中のＶ＊行列は、複素数を備える行列にＳＶＤが適用され得ることを反映するために、Ｖ行列の共役転置として示される。実数のみを備える行列に適用されるとき、Ｖ行列の複素共役（すなわち、言い換えれば、Ｖ＊行列）は、Ｖ行列の転置であると見なされてよい。以下では、説明を簡単にするために、ＨＯＡ係数１１が実数を備え、その結果、Ｖ＊行列ではなくＶ行列がＳＶＤによって出力されると仮定される。その上、本開示ではＶ行列として示されるが、Ｖ行列への言及は、適切な場合にはＶ行列の転置を指すものとして理解されるべきである。Ｖ行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するＨＯＡ係数１１に適用されてよく、ここで、ＳＶＤの出力はＶ＊行列である。したがって、本技法は、この点について、Ｖ行列を生成するためにＳＶＤの適用を提供することのみに限定されるべきではなく、Ｖ＊行列を生成するために複素成分を有するＨＯＡ係数１１へのＳＶＤの適用を含んでよい。

[0054]いずれにしても、ＬＩＴユニット３０は、高次アンビソニックス（ＨＯＡ）オーディオデータの各ブロック（フレームを指し得る）に関して、ブロックごとの形態のＳＶＤを実行することができる（ここで、アンビソニックスオーディオデータは、ＨＯＡ係数１１のブロックもしくはサンプル、または任意の他の形態のマルチチャネルオーディオデータを含む）。上述されたように、変数Ｍは、サンプル中のオーディオフレームの長さを示すために使用され得る。たとえば、オーディオフレームが１０２４個のオーディオサンプルを含むとき、Ｍは１０２４に等しい。Ｍの典型的な値に関して説明されるが、本開示の技法は、Ｍの典型的な値に限定されるべきではない。ＬＩＴユニット３０はしたがって、Ｍ×（Ｎ＋１）²のＨＯＡ係数を有するブロックＨＯＡ係数１１に関してブロックごとのＳＶＤを実行することができ、ここで、ＮはやはりＨＯＡオーディオデータの次数を示す。ＬＩＴユニット３０は、ＳＶＤの実行を通して、Ｖ行列と、Ｓ行列と、Ｕ行列とを生成することができ、ここで、行列の各々は、上記で説明されたそれぞれのＶ行列と、Ｓ行列と、Ｕ行列とを表すことができる。このようにして、線形可逆変換ユニット３０は、次元Ｄ：Ｍ×（Ｎ＋１）²を有するＵＳ［ｋ］ベクトル３３（ＳベクトルとＵベクトルとの組み合わされたバージョンを表し得る）と、次元Ｄ：（Ｎ＋１）²×（Ｎ＋１）²を有するＶ［ｋ］ベクトル３５とを出力するために、ＨＯＡ係数１１に関してＳＶＤを実行することができる。ＵＳ［ｋ］行列中の個々のベクトル要素はＸ_ps（ｋ）とも呼ばれることがあり、一方、Ｖ［ｋ］行列の個々のベクトルはｖ（ｋ）とも呼ばれることがある。

[0055]Ｕ行列、Ｓ行列、およびＶ行列の分析は、それらの行列がＸによって上で表される背後の音場の空間的および時間的な特性を伝え、または表すということを明らかにし得る。（Ｍ個のサンプルの長さの）Ｕの中のＮ個のベクトルの各々は、（Ｍ個のサンプルによって表される時間期間の間は）時間の関数として、互いに直交しておりあらゆる空間特性（指向性情報とも呼ばれ得る）とは切り離されている、正規化された分離されたオーディオ信号を表し得る。空間的な形状と位置（ｒ、θ、φ）の幅とを表す空間特性は代わりに、（各々が（Ｎ＋１）²の長さの）Ｖ行列の中の個々のｉ番目のベクトル、ｖ⁽ⁱ⁾（ｋ）によって表され得る。ｖ⁽ⁱ⁾（ｋ）ベクトルの各々の個々の要素は、関連付けられたオーディオオブジェクトのための音場の形状と方向とを記述するＨＯＡ係数を表し得る。Ｕ行列中のベクトルとＶ行列中のベクトルの両方が、それらの２乗平均エネルギーが１に等しくなるように正規化される。したがって、Ｕの中のオーディオ信号のエネルギーは、Ｓの中の対角線要素によって表される。したがって、ＵＳ［ｋ］（個々のベクトル要素Ｘ_PS（ｋ）を有する）を形成するために、ＵとＳとを乗算することは、真のエネルギーを有するオーディオ信号を表す。（Ｕにおける）オーディオ時間信号と、（Ｓにおける）それらのエネルギーと、（Ｖにおける）それらの空間特性とを切り離すＳＶＤ分解の能力は、本開示で説明される技法の様々な態様を支援することができる。さらに、背後のＨＯＡ［ｋ］係数ＸをＵＳ［ｋ］とＶ［ｋ］とのベクトル乗算によって合成するモデルは、本文書全体で使用される、「ベクトルベース分解」という用語を生じさせる。

[0056]ＨＯＡ係数１１に関して直接実行されるものとして説明されるが、ＬＩＴユニット３０は、線形可逆変換をＨＯＡ係数１１の派生物に適用することができる。たとえば、ＬＩＴユニット３０は、ＨＯＡ係数１１から導出された電力スペクトル密度行列に関してＳＶＤを適用することができる。電力スペクトル密度行列は、ＰＳＤとして示され、以下に続く擬似コードにおいて概説されるように、ｈｏａＦｒａｍｅの転置のｈｏａＦｒａｍｅへの行列乗算を通じて取得され得る。ｈｏａＦｒａｍｅという表記は、ＨＯＡ係数１１のフレームを指す。

[0057]ＬＩＴユニット３０は、ＳＶＤ（ｓｖｄ）をＰＳＤに適用した後、Ｓ［ｋ］²行列（Ｓ＿ｓｑｕａｒｅｄ）とＶ［ｋ］行列とを取得することができる。Ｓ［ｋ］²行列は、二乗されたＳ［ｋ］行列を示すことができ、すると、ＬＩＴユニット３０は、Ｓ［ｋ］行列を取得するために平方根演算をＳ［ｋ］²行列に適用することができる。ＬＩＴユニット３０は、いくつかの場合には、量子化されたＶ［ｋ］行列（Ｖ［ｋ］’行列と示され得る）を取得するために、Ｖ［ｋ］行列に関して量子化を実行することができる。ＬＩＴユニット３０は、ＳＶ［ｋ］’行列を取得するために、Ｓ［ｋ］行列を量子化されたＶ［ｋ］’行列と最初に乗算することによって、Ｕ［ｋ］行列を取得することができる。ＬＩＴユニット３０は次に、ＳＶ［ｋ］’行列の擬似逆行列（ｐｉｎｖ）を取得することができ、次いで、Ｕ［ｋ］行列を取得するために、ＨＯＡ係数１１をＳＶ［ｋ］’行列の擬似逆行列と乗算することができる。上記は、以下の擬似コードによって表され得る。
PSD = hoaFrame’*hoaFrame;
[V, S_squared] = svd(PSD,’econ’);
S = sqrt(S_squared);
U = hoaFrame * pinv(S*V’);
[0058]ＨＯＡ係数自体ではなくＨＯＡ係数の電力スペクトル密度（ＰＳＤ）に関してＳＶＤを実行することによって、ＬＩＴユニット３０は潜在的に、プロセッササイクルおよび記憶空間のうちの１つまたは複数に関してＳＶＤを実行することの計算的な複雑さを低減しつつ、ＳＶＤがＨＯＡ係数に直接適用されたかのように同じソースオーディオ符号化効率を達成することができる。すなわち、上記で説明されたＰＳＤタイプのＳＶＤは、Ｍがフレーム長さ、すなわち、１０２４以上のサンプルである、Ｍ＊Ｆ行列と比較して、Ｆ＊Ｆ行列（ＨＯＡ係数の数Ｆをもつ）において完了するので、潜在的にそれほど計算的に厳しくないことがある。ここで、ＳＶＤの複雑さは、ＨＯＡ係数１１ではなくＰＳＤへの適用を通じて、ＨＯＡ係数１１に適用されたときのＯ（Ｍ＊Ｌ²）と比較して、Ｏ（Ｌ³）前後であり得る（ここで、Ｏ（＊）は、コンピュータサイエンス技術において一般的な計算の複雑さである大文字Ｏの表記を示す）。

[0059]この点において、ＬＩＴユニット３０は、球面調和関数領域における直交空間軸を表すベクトル（例えば、上のＶ−ベクトル）を取得するために、高次アンビソニックオーディオデータに関して分解を実行するまたはさもなければ高次アンビソニックオーディオデータを分解し得る。分解は、ＳＶＤ、ＥＶＤ、または分解の任意の他の形式を含み得る。

[0060]パラメータ計算ユニット３２は、相関パラメータ（Ｒ）、指向性特性パラメータ（θ、φ、ｒ）、およびエネルギー特性（ｅ）などの様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、Ｒ［ｋ］、θ［ｋ］、φ［ｋ］、ｒ［ｋ］、およびｅ［ｋ］として示され得る。パラメータ計算ユニット３２は、パラメータを特定するために、ＵＳ［ｋ］ベクトル３３に関してエネルギー分析および／または相関（もしくはいわゆる相互相関）を実行することができる。パラメータ計算ユニット３２はまた、以前のフレームのためのパラメータを決定することができ、ここで、以前のフレームパラメータは、ＵＳ［ｋ−１］ベクトルおよびＶ［ｋ−１］ベクトルの以前のフレームに基づいて、Ｒ［ｋ−１］、θ［ｋ−１］、φ［ｋ−１］、ｒ［ｋ−１］、およびｅ［ｋ−１］と示され得る。パラメータ計算ユニット３２は、現在のパラメータ３７と以前のパラメータ３９とを並べ替えユニット３４に出力することができる。

[0061]ＳＶＤ分解は、ＵＳ［ｋ−１］［ｐ］ベクトル（または代替的に、Ｘ_PS ^(p)（ｋ−１））として示され得る、ＵＳ［ｋ−１］ベクトル３３のｐ番目のベクトルによって表されるオーディオ信号／オブジェクトが、同じくＵＳ［ｋ］［ｐ］ベクトル３３（または代替的に、Ｘ_PS ^(p)（ｋ））として示され得る、ＵＳ［ｋ］ベクトル３３のｐ番目のベクトルによって表される（時間的に進んだ）同じオーディオ信号／オブジェクトとなることを保証しない。パラメータ計算ユニット３２によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット３４によって使用され得る。

[0062]すなわち、並べ替えユニット３４は、第１のＵＳ［ｋ］ベクトル３３からのパラメータ３７の各々を、第２のＵＳ［ｋ−１］ベクトル３３のためのパラメータ３９の各々に対して順番ごとに比較することができる。並べ替えユニット３４は、並べ替えられたＵＳ［ｋ］行列３３’（数学的には

として示され得る）と、並べ替えられたＶ［ｋ］行列３５’（数学的には

として示され得る）とをフォアグラウンドサウンド（または支配的サウンド−ＰＳ（predominant sound））選択ユニット３６（「フォアグラウンド選択ユニット３６」）およびエネルギー補償ユニット３８に出力するために、現在のパラメータ３７および以前のパラメータ３９に基づいて、ＵＳ［ｋ］行列３３およびＶ［ｋ］行列３５内の様々なベクトルを（一例として、ハンガリー法を使用して）並べ替えることができる。

[0063]音場分析ユニット４４は、目標ビットレート４１を潜在的に達成するために、ＨＯＡ係数１１に関して音場分析を実行するように構成されたユニットを表し得る。音場分析ユニット４４は、その分析および／または受信された目標ビットレート４１に基づいて、聴覚心理コーダのインスタンス化の総数（環境またはバックグラウンドチャネルの総数（ＢＧ_TOT）とフォアグラウンドチャネル、または言い換えれば支配的なチャネルの数との関数であり得る、を決定することができる。聴覚心理コーダのインスタンス化の総数は、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓとして示され得る。

[0064]音場分析ユニット４４はまた、やはり目標ビットレート４１を潜在的に達成するために、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド（または言い換えれば環境的な）音場の最小次数（Ｎ_BG、または代替的にはＭｉｎＡｍｂＨＯＡｏｒｄｅｒ）と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数（ｎＢＧａ＝（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²）と、送るべき追加のＢＧＨＯＡチャネルのインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３として総称的に示され得る）とを決定することができる。バックグラウンドチャネル情報４２は、環境チャネル情報４３とも呼ばれ得る。ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓ−ｎＢＧａで残るチャネルの各々は、「追加のバックグラウンド／環境チャネル」、「アクティブなベクトルベースの支配的なチャネル」、「アクティブな指向性ベースの支配的な信号」、または「完全に非アクティブ」のいずれかであり得る。一態様では、チャネルタイプは、２ビットによって（「ＣｈａｎｎｅｌＴｙｐｅ」として）示されたシンタックス要素であり得る（たとえば、００：指向性ベースの信号、０１：ベクトルベースの支配的な信号、１０：追加の環境信号、１１：非アクティブな信号）。バックグラウンド信号または環境信号の総数、ｎＢＧａは、（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²＋（上記の例における）インデックス１０がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。

[0065]いずれにしても、音場分析ユニット４４は、目標ビットレート４１に基づいて、バックグラウンド（または言い換えれば環境）チャネルの数とフォアグラウンド（または言い換えれば支配的な）チャネルの数とを選択し、目標ビットレート４１が比較的高いとき（たとえば、目標ビットレート４１が５１２Ｋｂｐｓ以上であるとき）はより多くのバックグラウンドチャネルおよび／またはフォアグラウンドチャネルを選択することができる。一態様では、ビットストリームのヘッダセクションにおいて、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓは８に設定され得るが、一方で、ＭｉｎＡｍｂＨＯＡｏｒｄｅｒは１に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分または環境部分を表すために４つのチャネルが確保され得るが、一方で、他の４つのチャネルは、フレームごとに、チャネルのタイプに応じて変化してよく、たとえば、追加のバックグラウンド／環境チャネルまたはフォアグラウンド／支配的なチャネルのいずれかとして使用され得る。フォアグラウンド／支配的な信号は、上記で説明されたように、ベクトルベースの信号または指向性ベースの信号のいずれかの１つであり得る。

[0066]いくつかの場合には、フレームのためのベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてＣｈａｎｎｅｌＴｙｐｅインデックスが０１である回数によって与えられ得る。上記の態様では、各々の追加のバックグラウンド／環境チャネル（たとえば、１０というＣｈａｎｎｅｌＴｙｐｅに対応する）に対して、（最初の４つ以外の）あり得るＨＯＡ係数のいずれがそのチャネルにおいて表され得るかの対応する情報。その情報は、４次のＨＯＡコンテンツについては、ＨＯＡ係数５〜２５を示すためのインデックスであり得る。最初の４つの環境ＨＯＡ係数１〜４は、ｍｉｎＡｍｂＨＯＡｏｒｄｅｒが１に設定されるときは常に送られ得、したがって、オーディオ符号化デバイスは、５〜２５のインデックスを有する追加の環境ＨＯＡ係数のうちの１つを示すことのみが必要であり得る。その情報はしたがって、「ＣｏｄｅｄＡｍｂＣｏｅｆｆＩｄｘ」として示され得る、（４次のコンテンツのための）５ビットのシンタックス要素を使用して送られ得る。

[0067]説明のために、ｍｉｎＡｍｂＨＯＡｏｒｄｅｒが１に設定され、６のインデックスをもつ追加の環境ＨＯＡ係数が、一例として、ビットストリーム２１を介して送られると仮定する。この例では、１のｍｉｎＡｍｂＨＯＡｏｒｄｅｒは、環境ＨＯＡ係数が１、２、３および４のインデックスを有することを示す。環境ＨＯＡ係数が、（ｍｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²、すなわち、この例では４以下であるインデックスを有するので、オーディオ符号化デバイス２０は、それらの環境ＨＯＡ係数を選択することができる。オーディオ符号化デバイス２０は、ビットストリーム２１において１、２、３および４のインデックスに関連付けられた環境ＨＯＡ係数を指定することができる。オーディオ符号化デバイス２０はまた、ビットストリーム２１において６のインデックスをもつ追加の環境ＨＯＡ係数を、１０のＣｈａｎｎｅｌＴｙｐｅをもつａｄｄｉｔｉｏｎａｌＡｍｂｉｅｎｔＨＯＡｃｈａｎｎｅｌとして指定することもできる。オーディオ符号化デバイス２０は、ＣｏｄｅｄＡｍｂＣｏｅｆｆＩｄｘシンタックス要素を使用して、インデックスを指定することができる。実際に、ＣｏｄｅｄＡｍｂＣｏｅｆｆＩｄｘ要素は、１から２５のインデックスのすべてを指定することができる。しかしながら、ｍｉｎＡｍｂＨＯＡｏｒｄｅｒが１に設定されるので、オーディオ符号化デバイス２０は、（最初の４つのインデックスが、ｍｉｎＡｍｂＨＯＡｏｒｄｅｒシンタックス要素を介してビットストリーム２１において指定されることが知られているので、）最初の４つのインデックスのいずれをも指定しなくてよい。いずれにしても、オーディオ符号化デバイス２０は、（最初の４つについて）ｍｉｎＡｍｂＨＯＡｏｒｄｅｒと（追加の環境ＨＯＡ係数について）ＣｏｄｅｄＡｍｂＣｏｅｆｆＩｄｘとを介して、５つの環境ＨＯＡ係数を指定するので、オーディオ符号化デバイス２０は、１、２、３、４および６のインデックスを有する環境ＨＯＡ係数に関連付けられた対応するＶベクトル要素を指定しなくてよい。結果として、オーディオ符号化デバイス２０は、要素［５，７：２５］をもつＶベクトルを指定することができる。

[0068]第２の態様では、フォアグラウンド／支配的な信号のすべてがベクトルベースの信号である。この第２の態様では、フォアグラウンド／支配的な信号の総数は、ｎＦＧ＝ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓ−［（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²＋ａｄｄｉｔｉｏｎａｌＡｍｂｉｅｎｔＨＯＡｃｈａｎｎｅｌの各々］によって与えられ得る。

[0069]音場分析ユニット４４は、バックグラウンドチャネル情報４３とＨＯＡ係数１１とをバックグラウンド（ＢＧ）選択ユニット３６に、バックグラウンドチャネル情報４３を係数低減ユニット４６およびビットストリーム生成ユニット４２に、ｎＦＧ４５をフォアグラウンド選択ユニット３６に出力する。

[0070]バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報（たとえば、バックグラウンド音場（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ）と）に基づいて、バックグラウンドまたは環境ＨＯＡ係数４７を決定するように構成されたユニットを表し得る。たとえば、Ｎ_BGが１に等しいとき、バックグラウンド選択ユニット４８は、１以下の次数を有するオーディオフレームの各サンプルのＨＯＡ係数１１を選択することができる。バックグラウンド選択ユニット４８は次いで、この例では、インデックス（ｉ）のうちの１つによって特定されるインデックスを有するＨＯＡ係数１１を、追加のＢＧＨＯＡ係数として選択することができ、ここで、ｎＢＧａは、図２および図４の例に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスがビットストリーム２１からバックグラウンドＨＯＡ係数４７を解析することを可能にするために、ビットストリーム２１において指定されるために、ビットストリーム生成ユニット４２に提供される。バックグラウンド選択ユニット４８は次いで、環境ＨＯＡ係数４７をエネルギー補償ユニット３８に出力することができる。環境ＨＯＡ係数４７は、次元Ｄ：Ｍ×［（Ｎ_BG＋１）²＋ｎＢＧａ］を有し得る。環境ＨＯＡ係数４７はまた、「環境ＨＯＡ係数４７」と呼ばれることもあり、ここで、環境ＨＯＡ係数４７の各々は、聴覚心理オーディオコーダユニット４０によって符号化されるべき別個の環境ＨＯＡチャネル４７に対応する。

[0071]フォアグラウンド選択ユニット３６は、（フォアグラウンドベクトルを特定する１つまたは複数のインデックスを表し得る）ｎＦＧ４５に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたＵＳ［ｋ］行列３３’と並べ替えられたＶ［ｋ］行列３５’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット３６は、（並べ替えられたＵＳ［ｋ］_1,...,nFG４９、ＦＧ_1,...,nfG［ｋ］４９、または

として示され得る）ｎＦＧ信号４９を、聴覚心理オーディオコーダユニット４０に出力することができ、ここで、ｎＦＧ信号４９は次元Ｄ：Ｍ×ｎＦＧを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット３６はまた、音場のフォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’（またはｖ^(1..nFG)（ｋ）３５’）を空間時間的補間ユニット５０に出力することができ、ここで、フォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’のサブセットは、次元Ｄ：（Ｎ＋１）²×ｎＦＧを有するフォアグラウンドＶ［ｋ］行列５１_kとして示され得る（これは、

として数学的に示され得る）。

[0072]エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡチャネルのうちの様々なチャネルの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を実行するように構成されたユニットを表し得る。エネルギー補償ユニット３８は、並べ替えられたＵＳ［ｋ］行列３３’、並べ替えられたＶ［ｋ］行列３５’、ｎＦＧ信号４９、フォアグラウンドＶ［ｋ］ベクトル５１_k、および環境ＨＯＡ係数４７のうちの１つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー補償された環境ＨＯＡ係数４７’を生成するために、そのエネルギー分析に基づいてエネルギー補償を実行することができる。エネルギー補償ユニット３８は、エネルギー補償された環境ＨＯＡ係数４７’を聴覚心理オーディオコーダユニット４０に出力することができる。

[0073]空間時間的補間ユニット５０は、ｋ番目のフレームのためのフォアグラウンドＶ［ｋ］ベクトル５１_kと以前のフレームのための（したがってｋ−１という表記である）フォアグラウンドＶ［ｋ−１］ベクトル５１_k-1とを受信し、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために空間時間的補間を実行するように構成されたユニットを表し得る。空間時間的補間ユニット５０は、並べ替えられたフォアグラウンドＨＯＡ係数を復元するために、ｎＦＧ信号４９をフォアグラウンドＶ［ｋ］ベクトル５１_kと再び組み合わせることができる。空間時間的補間ユニット５０は次いで、補間されたｎＦＧ信号４９’を生成するために、補間されたＶ［ｋ］ベクトルによって、並べ替えられたフォアグラウンドＨＯＡ係数を分割することができる。空間時間的補間ユニット５０はまた、オーディオ復号デバイス２４などのオーディオ復号デバイスが補間されたフォアグラウンドＶ［ｋ］ベクトルを生成しそれによってフォアグラウンドＶ［ｋ］ベクトル５１_kを復元できるように、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kを出力することができる。補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kは、残りのフォアグラウンドＶ［ｋ］ベクトル５３として示される。同じＶ［ｋ］およびＶ［ｋ−１］が符号化器および復号器において（補間されたベクトルＶ［ｋ］を作成するために）使用されることを保証するために、ベクトルの量子化された／逆量子化されたバージョンが符号化器および復号器において使用され得る。

[0074]演算において、空間時間的補間ユニット５０は、１つまたは複数のサブフレームのための分解され補間された球面調和係数を生成するために、第１のフレーム中に含まれる第１の複数のＨＯＡ係数１１の一部分の第１の分解物、たとえばフォアグラウンドＶ［ｋ］ベクトル５１_k、および第２のフレーム中に含まれる第２の複数のＨＯＡ係数１１の一部分の第２の分解物、たとえばフォアグラウンドＶ［ｋ］ベクトル５１_k-1から、第１のオーディオフレームの１つまたは複数のサブフレームを補間することができる。

[0075]いくつかの例では、第１の分解物は、ＨＯＡ係数１１の部分の右特異ベクトルを表す第１のフォアグラウンドＶ［ｋ］ベクトル５１_kを備える。同様に、いくつかの例では、第２の分解物は、ＨＯＡ係数１１の部分の右特異ベクトルを表す第２のフォアグラウンドＶ［ｋ］ベクトル５１_kを備える。

[0076]言い換えれば、球面調和関数ベースの３Ｄオーディオは、球面上の直交基底関数による３Ｄ圧力場のパラメトリックな表現であり得る。表現の次数Ｎが高いほど、空間分解能は高くなる可能性があり、（全体で（Ｎ＋１）²個の係数に対して）球面調和関数（ＳＨ）係数の数は大きくなることが多い。多くの適用形態において、係数を効率的に送信し記憶することを可能にするために、係数の帯域幅圧縮が必要とされ得る。本開示において対象とされる本技法は、特異値分解（ＳＶＤ）を使用した、フレームベースの次元低減プロセスを提供することができる。ＳＶＤ分析は、係数の各フレームを３つの行列Ｕ、Ｓ、およびＶに分解することができる。いくつかの例では、本技法は、ＵＳ［ｋ］行列中のベクトルのいくつかを、背後にある音場のフォアグラウンド成分として扱うことができる。しかしながら、この方法で扱われると、（ＵＳ［ｋ］行列中の）ベクトルは、それらが同じ明瞭なオーディオ成分を表すとしても、フレームとフレームとの間で不連続である。不連続性は、成分が変換オーディオコーダを通じて供給されるときに、重大なアーティファクトにつながり得る。

[0077]いくつかの点で、空間時間的補間は、球面調和関数領域における直交空間軸としてＶ行列が解釈され得るという観測に依拠し得る。Ｕ［ｋ］行列は、基底関数によって球面調和関数（ＨＯＡ）データの投影を表すことができ、ここで、不連続性は、フレームごとに変化ししたがってそれら自体が不連続である直交空間軸（Ｖ［ｋ］）に原因を帰すことができる。これは、基底関数がいくつかの例では複数のフレームにわたって一定であるフーリエ変換など、いくつかの他の分解とは異なる。これらの点で、ＳＶＤは、マッチング追跡アルゴリズムと見なされ得る。空間時間的補間ユニット５０は、フレームとフレームとの間で基底関数（Ｖ［ｋ］）の連続性を、フレーム間を補間することによって潜在的に維持するために、補間を実行することができる。

[0078]上述されたように、補間はサンプルに関して実行され得る。この場合は、サブフレームがサンプルの単一のセットを備えるときの上記の説明において一般化される。サンプルにわたる補間とサブフレームにわたる補間の両方の場合において、補間演算は次の式の形態をとり得る。

上の式において、補間は、単一のＶベクトルｖ（ｋ−１）から単一のＶベクトルｖ（ｋ）に関して実行されてよく、このことは、一態様では、隣接するフレームｋおよびｋ−１からＶベクトルを表し得る。上の式において、ｌは補間が実行されている分解能を表し、ここで、ｌは整数のサンプルを示すことができ、ｌ＝１，．．．，Ｔである（ここで、Ｔはそれらにわたる補間が実行されており出力される補間されたベクトル

が必要とされるサンプルの長さであり、そのプロセスの出力がベクトルのｌを作成することも示す）。代替的に、ｌは複数のサンプルからなるサブフレームを示し得る。たとえば、フレームが４つのサブフレームに分割されるとき、ｌはサブフレームの各々１つに対して、１、２、３、および４という値を備え得る。ｌの値は、ビットストリームを通じて「ＣｏｄｅｄＳｐａｔｉａｌＩｎｔｅｒｐｏｌａｔｉｏｎＴｉｍｅ」という名称のフィールドとしてシグナリングされ得るので、補間演算は復号器において繰り返され得る。ｗ（ｌ）は、補間の重みの値を備え得る。補間が線形であるとき、ｗ（ｌ）は、ｌの関数として０と１との間で線形に、および単調に変化し得る。他の場合には、ｗ（ｌ）は、ｌの関数として非線形であるが単調な（二乗余弦の４分の１周期などの）方式で０と１との間で変化し得る。関数ｗ（ｌ）は、同一の補間演算が復号器によって繰り返され得るように、いくつかの異なる関数の可能性の間でインデックスが付けられて、「ＳｐａｔｉａｌＩｎｔｅｒｐｏｌａｔｉｏｎＭｅｔｈｏｄ」という名称のフィールドとしてビットストリームにおいてシグナリングされ得る。ｗ（ｌ）が０に近い値を有するとき、出力

は、ｖ（ｋ−１）によって大きく重み付けられ、またはその影響を受け得る。一方、ｗ（ｌ）が１に近い値を有するとき、そのことは、出力

がｖ（ｋ−１）によって大きく重み付けられ、またはその影響を受けることを保証する。

[0079]係数低減ユニット４６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を量子化ユニット５２に出力するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行するように構成されたユニットを表し得る。低減されたフォアグラウンドＶ［ｋ］ベクトル５５は、次元Ｄ：［（Ｎ＋１）²−（Ｎ_BG＋１）²−ＢＧ_TOT］×ｎＦＧを有し得る。

[0080]係数低減ユニット４６は、この点において、残りのフォアグラウンドＶ［ｋ］ベクトル５３における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット４６は、指向性情報をほとんどまたはまったく有しない（残りのフォアグラウンドＶ［ｋ］ベクトル５３を形成する）フォアグラウンドＶ［ｋ］ベクトルにおける係数を除去するように構成されたユニットを表し得る。上記で説明されたように、いくつかの例では、（Ｎ_BGと示され得る）１次および０次の基底関数に対応する、明瞭な、または言い換えればフォアグラウンドＶ［ｋ］ベクトルの係数は、指向性情報をほとんど提供せず、したがって、（「係数低減」と呼ばれ得るプロセスを通じて）フォアグラウンドＶベクトルから除去され得る。この例では、Ｎ_BGに対応する係数を特定するだけではなく、追加のＨＯＡチャネル（変数ＴｏｔａｌＯｆＡｄｄＡｍｂＨＯＡＣｈａｎによって示され得る）を［（Ｎ_BG＋１）²＋１，（Ｎ＋１）²］のセットから特定するために、より大きい柔軟性が与えられ得る。音場分析ユニット４４は、ＢＧ_TOTを決定するためにＨＯＡ係数１１を分析することができ、ＢＧ_TOTは、（Ｎ_BG＋１）²だけではなくＴｏｔａｌＯｆＡｄｄＡｍｂＨＯＡＣｈａｎを特定することができ、これらは総称してバックグラウンドチャネル情報４３と呼ばれ得る。係数低減ユニット４６は次いで、低減されたフォアグラウンドＶ［ｋ］ベクトル５５とも呼ばれ得る、サイズが（（Ｎ＋１）²−（ＢＧ_TOT）×ｎＦＧであるより低次元のＶ［ｋ］行列５５を生成するために、（Ｎ_BG＋１）²およびＴｏｔａｌＯｆＡｄｄＡｍｂＨＯＡＣｈａｎに対応する係数を残りのフォアグラウンドＶ［ｋ］ベクトル５３から除去することができる。

[0081]言い換えれば、公開第ＷＯ２０１４／１９４０９９号において示されているように、係数低減ユニット４６は、サイドチャネル情報５７のためのシンタックス要素を生成することができる。たとえば、係数低減ユニット４６は、複数の構成モードのいずれが選択されたかを示す、（１つまたは複数のフレームを含み得る）アクセスユニットのヘッダ中のシンタックス要素を指定することができる。アクセスユニットごとに指定されるものとして説明されるが、係数低減ユニット４６は、フレームごとに、または任意の他の周期的な方式で、または非周期的に（ビットストリーム全体で１回など）シンタックス要素を指定することができる。いずれにしても、シンタックス要素は、明瞭な成分の指向性の態様を表すために、３つの構成モードのいずれが低減されたフォアグラウンドＶ［ｋ］ベクトル５５の係数の０ではないセットを指定するために選択されたかを示す２つのビットを備え得る。シンタックス要素は、「ＣｏｄｅｄＶＶｅｃＬｅｎｇｔｈ」として示され得る。このようにして、係数低減ユニット４６は、３つの構成モードのいずれが低減されたフォアグラウンドＶ［ｋ］ベクトル５５をビットストリーム２１において指定するために使用されたかを、ビットストリームにおいてシグナリングし、またはさもなければ指定することができる。

[0082]たとえば、３つの構成モードは、（本文書において後で言及される）ＶＶｅｃＤａｔａのためのシンタックステーブルにおいて提示され得る。その例では、構成モードは次のようになる。（モード０）、完全なＶベクトル長がＶＶｅｃＤａｔａフィールドにおいて送信される、（モード１）、環境ＨＯＡ係数のための係数の最小数に関連付けられたＶベクトルの要素、および、送信されない追加のＨＯＡチャネルを含んだＶベクトルの要素のすべて、ならびに（モード２）、環境ＨＯＡ係数のための係数の最小数に関連付けられたＶベクトルの要素が送信されない。ＶＶｅｃＤａｔａのシンタックステーブルは、ｓｗｉｔｃｈおよびｃａｓｅ文とともにモードを示す。３つの構成モードに関して説明されるが、本技法は３つの構成モードに限定されるべきではなく、単一の構成モードまたは複数のモードを含む、任意の数の構成モードを含み得る。公開第ＷＯ２０１４／１９４０９９号は、４つのモードを有する異なる例を提供している。係数低減ユニット４６はまた、サイドチャネル情報５７における別のシンタックス要素としてフラグ６３を指定することができる。

[0083]量子化ユニット５２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮するための任意の形態の量子化を実行し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をビットストリーム生成ユニット４２に出力するように構成されたユニットを表し得る。動作において、量子化ユニット５２は、音場の空間成分、すなわちこの例では低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちの１つまたは複数を圧縮するように構成されたユニットを表し得る。例示の目的で、低減されたフォアグラウンドＶ［ｋ］ベクトル５５は、係数低減の結果として各々２５個未満の要素を有する（これは音場の４次のＨＯＡ表現を示唆する）２つの行ベクトルを含むと仮定される。２つの行ベクトルに関して説明されるが、最大で（ｎ＋１）²個までの任意の数のベクトルが低減されたフォアグラウンドＶ［ｋ］ベクトル５５に含まれてよく、ここで、ｎは音場のＨＯＡ表現の次数を示す。その上、スカラー量子化および／またはエントロピー量子化を実行するものとして以下で説明されるが、量子化ユニット５２は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の圧縮をもたらす任意の形態の量子化を実行することができる。

[0084]量子化ユニット５２は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を受信し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するためにある圧縮方式を実行することができる。その圧縮方式は、ベクトルまたはデータの要素を圧縮するための任意の想起可能な圧縮方式を全般に含んでよく、以下でより詳細に説明される例に限定されるべきではない。量子化ユニット５２は、一例として、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の各要素の浮動小数点表現を低減されたフォアグラウンドＶ［ｋ］ベクトル５５の各要素の整数表現へと変換すること、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の整数表現の一様量子化、ならびに、残りのフォアグラウンドＶ［ｋ］ベクトル５５の量子化された整数表現の分類およびコーディングのうちの、１つまたは複数を含む、圧縮方式を実行することができる。

[0085]いくつかの例では、圧縮方式の１つまたは複数のプロセスのいくつかが、一例として、得られるビットストリーム２１のための目標ビットレート４１を達成するために、またはほぼ達成するために、パラメータによって動的に制御され得る。低減されたフォアグラウンドＶ［ｋ］ベクトル５５の各々が互いに正規直交であるとすると、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の各々は独立にコーディングされ得る。いくつかの例では、以下でより詳細に説明されるように、各々の低減されたフォアグラウンドＶ［ｋ］ベクトル５５の各要素は、（様々なサブモードによって定義される）同じコーディングモードを使用してコーディングされ得る。

[0086]公開第ＷＯ２０１４／１９４０９９号において説明されているように、量子化ユニット５２は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮するためにスカラー量子化および／またはハフマン符号化を実行し、サイドチャネル情報５７とも呼ばれ得るコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を出力することができる。サイドチャネル情報５７は、残りのフォアグラウンドＶ［ｋ］ベクトル５５をコーディングするために使用されるシンタックス要素を含み得る。

[0087]その上、スカラー量子化の形態に関して説明されるが、量子化ユニット５２は、ベクトル量子化または任意の他の形態の量子化を実行することができる。いくつかの場合には、量子化ユニット５２は、ベクトル量子化とスカラー量子化との間で切り替えることができる。上記で説明されたスカラー量子化の間に、量子化ユニット５２は、（フレームからフレームへのように連続する）２つの連続するＶベクトル間の差分を計算し、その差分（または、言い換えれば、残差）をコーディングすることができる。このスカラー量子化は、以前に指定されたベクトルおよび差分信号に基づく、ある形態の予測コーディングを表し得る。ベクトル量子化は、そのような差分コーディングを伴わない。

[0088]言い換えれば、量子化ユニット５２は、入力Ｖベクトル（たとえば、低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちの１つ）を受信し、その入力Ｖベクトルのために使用されるべき量子化のタイプのうちの１つを選択するために、異なるタイプの量子化を実行することができる。量子化ユニット５２は、一例として、ベクトル量子化と、ハフマンコーディングなしのスカラー量子化と、ハフマンコーディングありのスカラー量子化とを実行することができる。

[0089]この例では、量子化ユニット５２は、ベクトル量子化されたＶベクトルを生成するために、ベクトル量子化モードに従って、入力Ｖベクトルをベクトル量子化することができる。ベクトル量子化されたＶベクトルは、入力Ｖベクトルを表すベクトル量子化された重み値を含み得る。ベクトル量子化された重み値は、いくつかの例では、量子化コードワードの量子化コードブックにおける量子化コードワード（すなわち、量子化ベクトル）を指す、１つまたは複数の量子化インデックスとして表され得る。量子化ユニット５２は、ベクトル量子化を実行するように構成されるとき、コードベクトル６３（「ＣＶ６３」）に基づいて、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の各々をコードベクトルの加重和に分解することができる。量子化ユニット５２は、コードベクトル６３のうちの選択されたものの各々のための重み値を生成することができる。

[0090]量子化ユニット５２は次に、重み値の選択されたサブセットを生成するために、重み値のサブセットを選択することができる。たとえば、量子化ユニット５２は、重み値の選択されたサブセットを生成するために、重み値のセットから、Ｚ個の最大の大きさの重み値を選択することができる。いくつかの例では、量子化ユニット５２は、重み値の選択されたサブセットを生成するために、選択された重み値をさらに並べ替えることができる。たとえば、量子化ユニット５２は、最高の大きさの重み値から開始して、最低の大きさの重み値で終了するように、大きさに基づいて、選択された重み値を並べ替えることができる。

[0091]ベクトル量子化を実行するとき、量子化ユニット５２は、Ｚ個の重み値を表すために、量子化コードブックからＺ成分ベクトルを選択することができる。言い換えれば、量子化ユニット５２は、Ｚ個の重み値を表すＺ成分ベクトルを生成するために、Ｚ個の重み値をベクトル量子化することができる。いくつかの例では、Ｚは、単一のＶベクトルを表すために量子化ユニット５２によって選択された重み値の数に対応し得る。量子化ユニット５２は、Ｚ個の重み値を表すために選択されたＺ成分ベクトルを示すデータを生成し、このデータを、コード化された重み５７としてビットストリーム生成ユニット４２に与えることができる。いくつかの例では、量子化コードブックは、インデックス付けされる複数のＺ成分ベクトルを含み得、Ｚ成分ベクトルを示すデータは、選択されたベクトルを指す量子化コードブックへのインデックス値であり得る。そのような例では、復号器は、インデックス値を復号するために、同様にインデックス付けされた量子化コードブックを含み得る。

[0092]数学的には、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の各々は、次の式に基づいて表され得る。

ただし、Ω_jは、コードベクトルのセット（｛Ω_j｝）におけるｊ番目のコードベクトルを表し、ω_jは、重みのセット（｛ω_j｝）におけるｊ番目の重みを表し、Ｖは、Ｖベクトルコーディングユニット５２によって表され、分解および／またはコーディングされているＶベクトルに対応し、Ｊは、Ｖを表すために使用された重みの数とコードベクトルの数とを表す。式（１）の右辺は、重みのセット（｛ω_j｝）とコードベクトルのセット（｛Ω_j｝）とを含む、コードベクトルの加重和を表し得る。

[0093]いくつかの例では、量子化ユニット５２は、次の式

に基づいて、重み値を決定することができ、ただし、

は、コードベクトルのセット（｛Ω_k｝）におけるｋ番目のコードベクトルの転置を表し、Ｖは、量子化ユニット５２によって表され、分解および／またはコーディングされているＶベクトルに対応し、ω_kは、重みのセット（｛ω_k｝）におけるｋ番目の重みを表す。

[0094]２５個の重みおよび２５個のコードベクトルが、ＶベクトルＶ_FGを表すために使用される一例を検討する。Ｖ_FGのそのような分解は、

として書かれ得、ただし、Ω_jは、コードベクトルのセット（｛Ω_j｝）におけるｊ番目のコードベクトルを表し、ω_jは、重みのセット（｛ω_j｝）におけるｊ番目の重みを表し、Ｖ_FGは、量子化ユニット５２によって表され、分解および／またはコーディングされているＶベクトルに対応する。

[0095]コードベクトルのセット（｛Ω_j｝）が正規直交である例では、次の式が適用され得る。

そのような例では、式（３）の右辺は次のように簡略化し得る。

ただし、ω_kは、コードベクトルの加重和におけるｋ番目の重みに対応する。

[0096]式（３）において使用されたコードベクトルの例示的な加重和では、量子化ユニット５２は、（式（２）と同様の）式（５）を使用して、コードベクトルの加重和における重みの各々のための重み値を計算することができ、得られる重みは次のように表され得る。

量子化ユニット５２が５個の極大重み値（すなわち、最大値または絶対値をもつ重み）を選択する一例を検討する。量子化されるべき重み値のサブセットは、次のように表され得る。

重み値のサブセットは、それらの対応するコードベクトルとともに、次の式において示されるように、Ｖベクトルを推定するコードベクトルの加重和を形成するために使用され得る。

ただし、Ω_jは、コードベクトルのサブセット（｛Ω_j｝）におけるｊ番目のコードベクトルを表し、

は、重みのサブセット（

）におけるｊ番目の重みを表し、

は、量子化ユニット５２によって分解および／またはコーディングされているＶベクトルに対応する、推定されたＶベクトルに対応する。式（１）の右辺は、重みのセット（

）とコードベクトルのセット（｛Ω_j｝）とを含む、コードベクトルの加重和を表し得る。

[0097]量子化ユニット５２は、

として表され得る量子化された重み値を生成するために、重み値のサブセットを量子化することができる。量子化された重み値は、それらの対応するコードベクトルとともに、次の式において示されるように、推定されたＶベクトルの量子化されたバージョンを表すコードベクトルの加重和を形成するために使用され得る。

は、重みのサブセット（

）におけるｊ番目の重みを表し、

）とコードベクトルのセット（｛Ω_j｝）とを含む、コードベクトルのサブセットの加重和を表し得る。

[0098]上記の代替的な言い換え（大部分は上記で説明されたものと同等である）は、次のようになり得る。Ｖベクトルは、コードベクトルのあらかじめ定義されたセットに基づいてコーディングされ得る。Ｖベクトルをコーディングするために、各Ｖベクトルは、コードベクトルの加重和に分解される。コードベクトルの加重和は、あらかじめ定義されたコードベクトルと関連付けられた重みとのｋ個のペアからなる。

ただし、Ω_jは、あらかじめ定義されたコードベクトルのセット（｛Ω_j｝）におけるｊ番目のコードベクトルを表し、ω_jは、あらかじめ定義された重みのセット（｛ω_j｝）におけるｊ番目の実数値の重みを表し、ｋは、最大７であり得る加数のインデックスに対応し、Ｖは、コーディングされているＶベクトルに対応する。ｋの選定は、符号化器に依存する。符号化器が２つ以上のコードベクトルの加重和を選定する場合、符号化器が選定できるあらかじめ定義されたコードベクトルの総数は、（Ｎ＋１）²であり、そのあらかじめ定義されたコードベクトルは、２０１４年７月２５日付けの、文書番号ＩＳＯ／ＩＥＣＤＩＳ２３００８−３によって識別される、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１による「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ−Ｈｉｇｈｅｆｆｅｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ−Ｐａｒｔ３：３Ｄａｕｄｉｏ」という名称の３ＤＡｕｄｉｏ規格のＴａｂｌｅＦ．３〜Ｆ．７から、ＨＯＡ拡張係数として導出される。Ｎが４であるとき、３２個のあらかじめ定義された方向を有する、上記の３ＤＡｕｄｉｏ規格のＡｎｎｅｘＦ．５におけるテーブルが使用される。すべての場合において、重みωの絶対値が、上記の３ＤＡｕｄｉｏ規格のテーブルＦ．１２におけるテーブルの最初のｋ＋１列において見つかる、あらかじめ定義された重み付け値

に関してベクトル量子化され、関連付けられた行番号インデックスとともにシグナリングされる。

[0099]重みωの数の符号は、

として別個にコーディングされる。

[0100]言い換えれば、値ｋをシグナリングした後、Ｖベクトルは、ｋ＋１個のあらかじめ定義されたコードベクトル｛Ω_j｝を指すｋ＋１個のインデックスと、あらかじめ定義された重み付けコードブックにおけるｋ個の量子化された重み

を指す１つのインデックスと、ｋ＋１個の数の符号値ｓ_jとを用いて符号化される。

符号化器が、１つのコードベクトルの加重和を選択する場合、上記の３ＤＡｕｄｉｏ規格のテーブルＦ．８から導出されたコードブックが、上記の３ＤＡｕｄｉｏ規格のテーブルＦ．１１のテーブルにおける絶対重み付け値

と組み合わせて使用され、ここで、これらのテーブルの両方が以下で示される。また、重み付け値ωの数の符号は、別個にコーディングされ得る。量子化ユニット５２は、コードブックインデックスシンタックス要素（以下で「ＣｏｄｅｂｋＩｄｘ」と示され得る）を使用して、上述されたテーブルＦ．３からＦ．１２において記載された上記のコードブックのいずれが入力Ｖベクトルをコーディングするために使用されるかをシグナリングすることができる。量子化ユニット５２はまた、スカラー量子化されたＶベクトルをハフマンコーディングすることなく、出力のスカラー量子化されたＶベクトルを生成するために、入力Ｖベクトルをスカラー量子化することもできる。量子化ユニット５２は、ハフマンコーディングされスカラー量子化されたＶベクトルを生成するために、ハフマンコーディングスカラー量子化モードに従って、入力Ｖベクトルをさらにスカラー量子化することができる。たとえば、量子化ユニット５２は、スカラー量子化されたＶベクトルを生成するために、入力Ｖベクトルをスカラー量子化し、出力のハフマンコーディングされスカラー量子化されたＶベクトルを生成するために、スカラー量子化されたＶベクトルをハフマンコーディングすることができる。

[0101]いくつかの例では、量子化ユニット５２は、ある形態の予測ベクトル量子化を実行することができる。量子化ユニット５２は、（量子化モードを示す１つまたは複数のビット、たとえば、ＮｂｉｔｓＱシンタックス要素によって特定されるように）予測がベクトル量子化について実行されるか否かを示すビットストリーム２１中の１つまたは複数のビット（たとえば、ＰＦｌａｇシンタックス要素）を特定することによって、ベクトル量子化が予測されるか否かを特定することができる。

[0102]予測ベクトル量子化について説明するために、量子化ユニット４２は、ベクトル（たとえば、ｖベクトル）のコードベクトルベース分解物に対応する重み値（たとえば、重み値の大きさ）を受信することと、受信された重み値に基づいて、および再構成された重み値（たとえば、１つまたは複数の以前または後続のオーディオフレームから再構成された重み値）に基づいて、予測重み値を生成することと、予測重み値のセットをベクトル量子化することとを行うように構成され得る。場合によっては、予測重み値のセットにおける各重み値は、単一のベクトルのコードベクトルベース分解物中に含まれる重み値に対応し得る。

[0103]量子化ユニット５２は、ベクトルの以前または後続のコーディングから、重み値と重み付きの再構成された重み値とを受信することができる。量子化ユニット５２は、重み値と重み付きの再構成された重み値とに基づいて、予測重み値を生成することができる。量子化ユニット４２は、予測重み値を生成するために、重み値から重み付きの再構成された重み値を減算することができる。予測重み値は、代替的に、たとえば、残差、予測残差、残差重み値、重み値差分、誤差、または予測誤差と呼ばれることがある。

[0104]重み値は、対応する重み値ｗ_i,jの大きさ（または絶対値）である｜ｗ_i,j｜として表され得る。したがって、重み値は代替的に、重み値大きさ、または重み値の大きさと呼ばれることがある。重み値ｗ_i,jは、ｉ番目のオーディオフレームのための重み値の順序付きサブセットからのｊ番目の重み値に対応する。いくつかの例では、重み値の順序付きサブセットは、重み値の大きさに基づいて順序付けされる（たとえば、最大の大きさから最小の大きさへと順序付けされる）ベクトル（たとえば、ｖベクトル）のコードベクトルベース分解物中の重み値のサブセットに対応し得る。

[0105]重み付きの再構成された重み値は、

項を含み得、この項は、対応する再構成された重み値

の大きさ（または絶対値）に対応する。再構成された重み値

は、（ｉ−１）番目のオーディオフレームのための再構成された重み値の順序付きサブセットからのｊ番目の再構成された重み値に対応する。いくつかの例では、再構成された重み値の順序付きサブセット（またはセット）は、再構成された重み値に対応する、量子化された予測重み値に基づいて生成され得る。

[0106]量子化ユニット４２はまた、重み係数α_jを含む。いくつかの例では、α_j＝１であり、その場合、重み付きの再構成された重み値は、

に低減し得る。他の例では、α_j≠１である。たとえば、α_jは、次の式に基づいて決定され得る。

ただし、Ｉは、α_jを決定するために使用されたオーディオフレームの数に対応する。前の式において示されたように、重み係数は、いくつかの例では、複数の異なるオーディオフレームからの複数の異なる重み値に基づいて決定され得る。

[0107]また、予測ベクトル量子化を実行するように構成されるとき、量子化ユニット５２は、次の式に基づいて、予測重み値を生成することができる。

ただし、ｅ_i,jは、ｉ番目のオーディオフレームのための重み値の順序付きサブセットからのｊ番目の重み値のための予測重み値に対応する。

[0108]量子化ユニット５２は、予測重み値と予測ベクトル量子化（ＰＶＱ）コードブックとに基づいて、量子化された予測重み値を生成する。たとえば、量子化ユニット５２は、量子化された予測重み値を生成するために、コーディングされるべきベクトルのために、またはコーディングされるべきフレームのために生成された、他の予測重み値と組み合わせて、予測重み値をベクトル量子化することができる。

[0109]量子化ユニット５２は、ＰＶＱコードブックに基づいて、予測重み値６２０をベクトル量子化することができる。ＰＶＱコードブックは、複数のＭ成分候補量子化ベクトルを含み得、量子化ユニット５２は、Ｚ個の予測重み値を表すために、候補量子化ベクトルのうちの１つを選択することができる。いくつかの例では、量子化ユニット５２は、量子化誤差を最小化する（たとえば、最小２乗誤差を最小化する）、ＰＶＱコードブックからの候補量子化ベクトルを選択することができる。

[0110]いくつかの例では、ＰＶＱコードブックは、エントリの各々が量子化コードブックインデックスと対応するＭ成分候補量子化ベクトルとを含む、複数のエントリを含み得る。量子化コードブックにおけるインデックスの各々は、複数のＭ成分候補量子化ベクトルのうちの各々に対応し得る。

[0111]量子化ベクトルの各々における成分の数は、単一のｖベクトルを表すために選択される重みの数（すなわち、Ｚ）に依存し得る。概して、Ｚ成分候補量子化ベクトルをもつコードブックでは、量子化ユニット５２は、単一の量子化ベクトルを生成するために一度にＺ個の予測重み値をベクトル量子化することができる。量子化コードブックにおけるエントリの数は、重み値をベクトル量子化するために使用されるビットレートに依存し得る。

[0112]量子化ユニット５２が予測重み値をベクトル量子化するとき、量子化ユニット５２は、Ｚ個の予測重み値を表す予測ベクトルであるように、ＰＶＱコードブックからＺ成分ベクトルを選択することができる。量子化された予測重み値は、

として示され得、これは、ｉ番目のオーディオフレームのためのｊ番目の予測重み値のベクトル量子化されたバージョンにさらに対応し得る、ｉ番目のオーディオフレームのためのＺ成分量子化ベクトルのｊ番目の成分に対応し得る。

[0113]予測ベクトル量子化を実行するように構成されるとき、量子化ユニット５２はまた、量子化された予測重み値と重み付きの再構成された重み値とに基づいて、再構成された重み値を生成することもできる。たとえば、量子化ユニット５２は、再構成された重み値を生成するために、量子化された予測重み値に、重み付きの再構成された重み値を加算することができる。その重み付きの再構成された重み値は、上記で説明されている重み付きの再構成された重み値に等しくなり得る。いくつかの例では、重み付きの再構成された重み値は、再構成された重み値の重み付きおよび遅延されたバージョンであり得る。

[0114]再構成された重み値は、

として表され得、これは、対応する再構成された重み値

は、（ｉ−１）番目のオーディオフレームのための再構成された重み値の順序付きサブセットからのｊ番目の再構成された重み値に対応する。いくつかの例では、量子化ユニット５２は、予測コーディングされる重み値の符号を示すデータを別個にコーディングすることができ、復号器は、再構成された重み値の符号を決定するために、この情報を使用することができる。

[0115]量子化ユニット５２は、次の式に基づいて、再構成された重み値を生成することができ、

ただし、

は、ｉ番目のオーディオフレームのための重み値の順序付きサブセットからのｊ番目の重み値（たとえば、Ｍ成分量子化ベクトルのｊ番目の成分）のための量子化された予測重み値に対応し、

は、（ｉ−１）番目のオーディオフレームのための重み値の順序付きサブセットからのｊ番目の重み値のための再構成された重み値の大きさに対応し、α_jは、重み値の順序付きサブセットからのｊ番目の重み値のための重み係数に対応する。

[0116]量子化ユニット５２は、再構成された重み値に基づいて、遅延され再構成された重み値を生成することができる。たとえば、量子化ユニット５２は、遅延され再構成された重み値を生成するために、１オーディオフレームだけ、再構成された重み値を遅延させることができる。

[0117]量子化ユニット５２はまた、遅延され再構成された重み値と重み係数とに基づいて、重み付きの再構成された重み値を生成することができる。たとえば、量子化ユニット５２は、重み付きの再構成された重み値を生成するために、遅延され再構成された重み値を重み係数と乗算することができる。

[0118]同様に、量子化ユニット５２は、遅延され再構成された重み値と重み係数とに基づいて、重み付きの再構成された重み値を生成する。たとえば、量子化ユニット５２は、重み付きの再構成された重み値を生成するために、遅延され再構成された重み値を重み係数と乗算することができる。

[0119]Ｚ個の予測重み値のための量子化ベクトルであるように、ＰＶＱコードブックからＺ成分ベクトルを選択することに応答して、量子化ユニット５２は、いくつかの例では、選択されたＺ成分ベクトル自体をコーディングするのではなく、選択されたＺ成分ベクトルに対応する（ＰＶＱコードブックからの）インデックスをコーディングすることができる。インデックスは、量子化された予測重み値のセットを示し得る。そのような例では、復号器２４は、ＰＶＱコードブックと同様のコードブックを含み得、復号器コードブック中の対応するＺ成分ベクトルにインデックスをマッピングすることによって、量子化された予測重み値を示すインデックスを復号することができる。Ｚ成分ベクトルにおける成分の各々は、量子化された予測重み値に対応し得る。

[0120]ベクトル（たとえば、Ｖベクトル）をスカラー量子化することは、個々に、および／または他の成分とは無関係に、ベクトルの成分の各々を量子化することを伴い得る。たとえば、次の例示的なＶベクトル
Ｖ＝［０．２３０．３１ −０．４７・・・０．８５］を検討する。この例示的なＶベクトルをスカラー量子化するために、成分の各々が個々に量子化（すなわち、スカラー量子化）され得る。たとえば、量子化ステップが０．１である場合、０．２３成分が０．２に量子化され得、０．３１成分が０．３に量子化され得るなどとなる。スカラー量子化された成分は、スカラー量子化されたＶベクトルを集合的に形成し得る。

[0121]言い換えれば、量子化ユニット５２は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちの所与の１つの要素のすべてに関して一様スカラー量子化を実行することができる。量子化ユニット５２は、ＮｂｉｔｓＱシンタックス要素として示され得る値に基づいて、量子化ステップサイズを特定することができる。量子化ユニット５２は、目標ビットレート４１に基づいて、このＮｂｉｔｓＱシンタックス要素を動的に決定することができる。ＮｂｉｔｓＱシンタックス要素はまた、以下で再生されるＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａシンタックステーブルにおいて示されるように、量子化モードを特定し、一方でまた、スカラー量子化のためにステップサイズを特定することもできる。すなわち、量子化ユニット５２は、このＮｂｉｔｓＱシンタックス要素の関数として量子化ステップサイズを決定することができる。一例として、量子化ユニット５２は、２^16-NbitsQに等しいものとして、量子化ステップサイズ（本開示では「デルタ」または「Δ」として示される）を決定することができる。この例では、ＮｂｉｔｓＱシンタックス要素の値が６に等しいとき、デルタは２¹⁰に等しく、２⁶個の量子化レベルがある。この点において、ベクトル要素ｖに対して、量子化されたベクトル要素ｖ_qは［ｖ／Δ］に等しく、−２^NbitsQ-1＜ｖ_q＜２^NbitsQ-1である。

[0122]量子化ユニット５２は次いで、量子化されたベクトル要素の分類と残差コーディングとを実行することができる。一例として、量子化ユニット５２は、所与の量子化されたベクトル要素ｖ_qに対して、この要素が対応するカテゴリーを（カテゴリー識別子ｃｉｄを決定することによって）、次の式

を使用して特定することができる。量子化ユニット５２は次いで、このカテゴリーインデックスｃｉｄをハフマンコーディングし、一方で、ｖ_qが正の値であるか負の値であるかを示す符号ビットを特定することもできる。量子化ユニット５２は次に、このカテゴリーにおける残差を特定することができる。一例として、量子化ユニット５２は、次の式

に従って、この残差を決定することができる。量子化ユニット５２は次いで、この残差をｃｉｄ−１ビットによってブロックコーディングすることができる。

[0123]量子化ユニット５２は、いくつかの例では、ｃｉｄをコーディングするとき、ＮｂｉｔｓＱシンタックス要素の異なる値に対して、異なるハフマンコードブックを選択することができる。いくつかの例では、量子化ユニット５２は、ＮｂｉｔｓＱシンタックス要素値６，．．．，１５に対して異なるハフマンコーディングテーブルを提供することができる。その上、量子化ユニット５２は、全体で５０個のハフマンコードブックに対して、６，．．．，１５にわたる異なるＮｂｉｔｓＱシンタックス要素値の各々に対する５個の異なるハフマンコードブックを含み得る。この点において、量子化ユニット５２は、いくつかの異なる統計的な状況においてｃｉｄのコーディングに対処するための、複数の異なるハフマンコードブックを含み得る。

[0124]説明するために、量子化ユニット５２は、ＮｂｉｔｓＱシンタックス要素値の各々に対して、１から４までのベクトル要素をコーディングするための第１のハフマンコードブックと、５から９までのベクトル要素をコーディングするための第２のハフマンコードブックと、９以上のベクトル要素をコーディングするための第３のハフマンコードブックとを含み得る。これらの最初の３つのハフマンコードブックは、圧縮されるべき低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちの１つが低減されたフォアグラウンドＶ［ｋ］ベクトル５５の時間的に後続の対応するベクトルから予測されず、合成オーディオオブジェクト（たとえば、パルス符号変調（ＰＣＭ）されたオーディオオブジェクトによって最初に定義されたもの）の空間情報を表さないとき、使用され得る。量子化ユニット５２は追加で、ＮｂｉｔｓＱシンタックス要素値の各々に対して、低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちの１つが低減されたフォアグラウンドＶ［ｋ］ベクトル５５の時間的に後続の対応するベクトルから予測されるとき、低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちのこの１つをコーディングするための第４のハフマンコードブックを含み得る。量子化ユニット５２はまた、ＮｂｉｔｓＱシンタックス要素値の各々に対して、低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちの１つが合成オーディオオブジェクトを表すとき、低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちのこの１つをコーディングするための第５のハフマンコードブックを含み得る。様々なハフマンコードブックが、これらの異なる統計的な状況の各々に対して、すなわちこの例では、予測されず合成ではない状況、予測される状況、および合成の状況に対して、開発され得る。

[0125]以下の表は、ハフマンテーブルの選択と、解凍ユニットが適切なハフマンテーブルを選択することを可能にするためにビットストリーム中で指定されるべきビットとを示す。

上記の表において、予測モード（「Ｐｒｅｄモード」）は、現在のベクトルに対して予測が実行されたか否かを示し、一方でハフマンテーブル（「ＨＴ情報」）は、ハフマンテーブル１から５のうちの１つを選択するために使用される追加のハフマンコードブック（またはテーブル）情報を示す。予測モードはまた、以下で説明されるＰＦｌａｇシンタックス要素としても表され得、一方でＨＴ情報は、以下で説明されるＣｂＦｌａｇシンタックス要素によって表され得る。

[0126]以下の表はさらに、様々な統計的な状況またはシナリオが与えられたときのこのハフマンテーブルの選択プロセスを示す。

上記の表において、「録音」列は、ベクトルが録音されたオーディオオブジェクトを表すときのコーディング状況を示し、一方で「合成」列は、ベクトルが合成オーディオオブジェクトを表すときのコーディング状況を示す。「Ｐｒｅｄなし」行は、予測がベクトル要素に関して実行されないときのコーディング状況を示し、一方で「Ｐｒｅｄあり」行は、予測がベクトル要素に関して実行されるときのコーディング状況を示す。この表に示されるように、量子化ユニット５２は、ベクトルが録音されたオーディオオブジェクトを表し予測がベクトル要素に関して実行されないとき、ＨＴ｛１，２，３｝を選択する。量子化ユニット５２は、オーディオオブジェクトが合成オーディオオブジェクトを表し予測がベクトル要素に関して実行されないとき、ＨＴ５を選択する。量子化ユニット５２は、ベクトルが録音されたオーディオオブジェクトを表し予測がベクトル要素に関して実行されるとき、ＨＴ４を選択する。量子化ユニット５２は、オーディオオブジェクトが合成オーディオオブジェクトを表し予測がベクトル要素に関して実行されるとき、ＨＴ５を選択する。

[0127]量子化ユニット５２は、本開示で説明される基準の任意の組合せに基づいて、出力切替えされ量子化されたＶベクトルとして使用するために、予測されないベクトル量子化されたＶベクトル、予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの１つを選択することができる。いくつかの例では、量子化ユニット５２は、ベクトル量子化モードと１つまたは複数のスカラー量子化モードとを含む、量子化モードのセットから量子化モードを選択し、選択されたモードに基づいて（または従って）、入力Ｖベクトルを量子化することができる。量子化ユニット５２は次いで、（たとえば、重み値またはそれを示すビットに関して）予測されないベクトル量子化されたＶベクトル、（たとえば、誤差値またはそれを示すビットに関して）予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの選択されたものを、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７としてビットストリーム生成ユニット５２に与えることができる。量子化ユニット５２はまた、量子化モードを示すシンタックス要素（たとえば、ＮｂｉｔｓＱシンタックス要素）と、図４および図７の例に関して以下でより詳細に説明されるように、Ｖベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与えることができる。

[0128]オーディオ符号化デバイス２０内に含まれる聴覚心理オーディオコーダユニット４０は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために、エネルギー補償された環境ＨＯＡ係数４７’および補間されたｎＦＧ信号４９’の各々の異なるオーディオオブジェクトまたはＨＯＡチャネルを符号化するために使用される。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とをビットストリーム生成ユニット４２に出力することができる。

[0129]オーディオ符号化デバイス２０内に含まれるビットストリーム生成ユニット４２は、既知のフォーマット（復号デバイスによって知られているフォーマットを指し得る）に適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム２１を生成するユニットを表す。ビットストリーム２１は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット４２は、いくつかの例ではマルチプレクサを表してよく、マルチプレクサは、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とを受信することができる。ビットストリーム生成ユニット４２は次いで、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいて、ビットストリーム２１を生成することができる。このようにして、ビットストリーム生成ユニット４２は、図７の例に関してより詳細に以下で説明されるようにビットストリーム２１を取得するために、ビットストリーム２１におけるベクトル５７をそれによって指定し得る。ビットストリーム２１は、主要またはメインビットストリームと、１つまたは複数のサイドチャネルビットストリームとを含み得る。

[0130]図３の例には示されないが、オーディオ符号化デバイス２０はまた、現在のフレームが指向性ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス２０から出力されるビットストリームを（たとえば、指向性ベースのビットストリーム２１とベクトルベースのビットストリーム２１との間で）切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、（ＨＯＡ係数１１が合成オーディオオブジェクトから生成されたことを検出した結果として）指向性ベース合成が実行されたか、または（ＨＯＡ係数が録音されたことを検出した結果として）ベクトルベース合成が実行されたかを示す、コンテンツ分析ユニット２６によって出力されるシンタックス要素に基づいて、切替えを実行することができる。ビットストリーム出力ユニットは、ビットストリーム２１の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定することができる。

[0131]その上、上述されたように、音場分析ユニット４４は、フレームごとに変化し得る、ＢＧ_TOT環境ＨＯＡ係数４７を特定することができる（が、時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。ＢＧ_TOTにおける変化は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５において表された係数への変化を生じ得る。ＢＧ_TOTにおける変化は、フレームごとに変化する（「環境ＨＯＡ係数」と呼ばれることもある）バックグラウンドＨＯＡ係数を生じ得る（が、この場合も時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。この変化は、追加の環境ＨＯＡ係数の追加または除去と、対応する、低減されたフォアグラウンドＶ［ｋ］ベクトル５５からの係数の除去またはそれに対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じることが多い。

[0132]結果として、音場分析ユニット音場分析ユニット４４は、いつ環境ＨＯＡ係数がフレームごとに変化するかをさらに決定し、音場の環境成分を表すために使用されることに関して、環境ＨＯＡ係数への変化を示すフラグまたは他のシンタックス要素を生成することができる（ここで、この変化はまた、環境ＨＯＡ係数の「遷移」または環境ＨＯＡ係数の「遷移」と呼ばれることもある）。具体的には、係数低減ユニット４６は、（ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎフラグまたはＡｍｂＣｏｅｆｆＩｄｘＴｒａｎｓｉｔｉｏｎフラグとして示され得る）フラグを生成し、そのフラグが（場合によってはサイドチャネル情報の一部として）ビットストリーム２１中に含まれ得るように、そのフラグをビットストリーム生成ユニット４２に与えることができる。

[0133]係数低減ユニット４６は、環境係数遷移フラグを指定することに加えて、低減されたフォアグラウンドＶ［ｋ］ベクトル５５が生成される方法を修正することもできる。一例では、環境ＨＯＡ環境係数のうちの１つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット４６は、遷移中の環境ＨＯＡ係数に対応する低減されたフォアグラウンドＶ［ｋ］ベクトル５５のＶベクトルの各々について、（「ベクトル要素」または「要素」とも呼ばれ得る）ベクトル係数を指定することができる。この場合も、遷移中の環境ＨＯＡ係数は、ＢＧ_TOTからバックグラウンド係数の総数を追加または除去し得る。したがって、バックグラウンド係数の総数において生じた変化は、環境ＨＯＡ係数がビットストリーム中に含まれるか含まれないか、および、Ｖベクトルの対応する要素が、上記で説明された第２の構成モードおよび第３の構成モードにおいてビットストリーム中で指定されたＶベクトルのために含まれるか否かに影響を及ぼす。係数低減ユニット４６が、エネルギーにおける変化を克服するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を指定することができる方法に関するより多くの情報は、２０１５年１月１２日に出願された「ＴＲＡＮＳＩＴＩＯＮＩＮＧＯＦＡＭＢＩＥＮＴＨＩＧＨＥＲ＿ＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」という名称の米国特許出願第１４／５９４，５３３号において提供されている。

[0134]図４は、図２のオーディオ復号デバイス２４をより詳細に示すブロック図である。図４の例に示されているように、オーディオ復号デバイス２４は、抽出ユニット７２と、指向性ベース再構成ユニット９０と、ベクトルベース再構成ユニット９２とを含み得る。以下で説明されるが、オーディオ復号デバイス２４に関するより多くの情報、およびＨＯＡ係数を解凍またはさもなければ復号する様々な態様は、２０１４年５月２９日に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0135]抽出ユニット７２は、ビットストリーム２１を受信し、ＨＯＡ係数１１の様々な符号化されたバージョン（たとえば、指向性ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン）を抽出するように構成されたユニットを表し得る。抽出ユニット７２は、ＨＯＡ係数１１が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述されたシンタックス要素から決定することができる。指向性ベース符号化が実行されたとき、抽出ユニット７２は、ＨＯＡ係数１１の指向性ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素（図４の例では指向性ベース情報９１として示される）とを抽出し、指向性ベース情報９１を指向性ベース再構成ユニット９０に渡すことができる。指向性ベース再構成ユニット９０は、指向性ベース情報９１に基づいてＨＯＡ係数１１’の形態でＨＯＡ係数を再構成するように構成されたユニットを表し得る。ビットストリームおよびビットストリーム内のシンタックス要素の構成が、以下で図７Ａ〜図７Ｊの例に関してより詳細に説明される。

[0136]ＨＯＡ係数１１がベクトルベース合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７（コーディングされた重み５７および／もしくはインデックス６３またはスカラー量子化されたＶベクトルを含み得る）と、符号化された環境ＨＯＡ係数５９と、対応するオーディオオブジェクト６１とを抽出することができる。オーディオオブジェクト６１各々は、ベクトル５７のうちの１つに対応する。抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をＶベクトル再構成ユニット７４に渡し、符号化された環境ＨＯＡ係数５９を符号化されたｎＦＧ信号６１とともに聴覚心理復号ユニット８０に渡すことができる。

[0137]コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を抽出するために、抽出ユニット７２は、次のＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａ（ＣＳＩＤ）シンタックステーブルに従って、シンタックス要素を抽出することができる。

[0138]上記のテーブルのためのセマンティクスは、次のようになる。このペイロードは、ｉ番目のチャネルのためのサイド情報を保持する。ペイロードのサイズおよびデータは、チャネルのタイプに依存する。ＣｈａｎｎｅｌＴｙｐｅ［ｉ］この要素は、テーブル９５において定義されているｉ番目のチャネルのタイプを記憶する。ＡｃｔｉｖｅＤｉｒｓＩｄｓ［ｉ］この要素は、ＡｎｎｅｘＦ．７からの９００のあらかじめ定義された一様に分布した点のインデックスを使用して、アクティブな指向性信号の方向を示す。コードワード０は、指向性信号の終了をシグナリングするために使用される。ＰＦｌａｇ［ｉ］ｉ番目のチャネルのベクトルベース信号に関連付けられた《スカラー量子化されたＶベクトルのハフマン復号のために使用される》予測フラグ（《》内は、取り消し線付である）。ＣｂＦｌａｇ［ｉ］ｉ番目のチャネルのベクトルベース信号に関連付けられたスカラー量子化されたＶベクトルのハフマン復号のために使用されるコードブックフラグ。ＣｏｄｅｂｋＩｄｘ［ｉ］ｉ番目のチャネルのベクトルベース信号に関連付けられたベクトル量子化されたＶベクトルを逆量子化するために使用される特定のコードブックをシグナリングする。ＮｂｉｔｓＱ［ｉ］このインデックスは、ｉ番目のチャネルのベクトルベース信号に関連付けられたデータのハフマン復号のために使用されるハフマンテーブルを決定する。コードワード５は、一様８ビット逆量子化器の使用を決定する。２つのＭＳＢ００は、以前のフレーム（ｋ−１）のＮｂｉｔｓＱ［ｉ］データと、ＰＦｌａｇ［ｉ］データと、ＣｂＦｌａｇ［ｉ］データとを再使用することを決定する。ｂＡ、ｂＢＮｂｉｔｓＱ［ｉ］フィールドのｍｓｂ（ｂＡ）および第２のｍｓｂ（ｂＢ）。ｕｉｎｔＣＮｂｉｔｓＱ［ｉ］フィールドの残りの２ビットのコードワード。
ＮｕｍＶｅｃＩｎｄｉｃｅｓベクトル量子化されたＶベクトルを逆量子化するために使用されるベクトルの数。ＡｄｄＡｍｂＨｏａＩｎｆｏＣｈａｎｎｅｌ（ｉ）このペイロードは、追加の環境ＨＯＡ係数のための情報を保持する。

[0139]ＣＳＩＤシンタックステーブルに従って、抽出ユニット７２は、最初に、チャネルのタイプを示すＣｈａｎｎｅｌＴｙｐｅシンタックス要素を取得することができる（たとえば、ここで、０の値は指向性ベース信号をシグナリングし、１の値はベクトルベース信号をシグナリングし、２の値は追加の環境ＨＯＡ信号をシグナリングする）。ＣｈａｎｎｅｌＴｙｐｅシンタックス要素に基づいて、抽出ユニット７２は、この３つのｃａｓｅ間で切り替えることができる。

[0140]本開示で説明される技法の一例について説明するために、ｃａｓｅ１に焦点を合わせると、抽出ユニット７２は、ＮｂｉｔｓＱシンタックス要素の最上位ビット（すなわち、上記の例示的なＣＳＩＤシンタックステーブルにおけるｂＡシンタックス要素）と、ＮｂｉｔｓＱシンタックス要素の第２の最上位ビット（すなわち上記の例示的なＣＳＩＤシンタックステーブルにおけるｂＢシンタックス要素）とを取得することができる。ＮｂｉｔｓＱ（ｋ）［ｉ］の（ｋ）［ｉ］は、ＮｂｉｔｓＱシンタックス要素がｉ番目のトランスポートチャネルのｋ番目のフレームについて取得されることを示す。ＮｂｉｔｓＱシンタックス要素は、ＨＯＡ係数１１によって表される音場の空間成分を量子化するために使用された量子化モードを示す１つまたは複数のビットを表し得る。空間成分はまた、本開示でＶベクトルと呼ばれることもあり、またはコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と呼ばれることもある。

[0141]上記の例示的なＣＳＩＤシンタックステーブルでは、ＮｂｉｔｓＱシンタックス要素は、対応するＶＶｅｃＤａｔａフィールドにおいて指定されるベクトルを圧縮するために使用される（ＮｂｉｔｓＱシンタックス要素のための０から３の値が予約済みまたは未使用であるので）１２個の量子化モードのうちの１つを示すために４ビットを含み得る。１２個の量子化モードは、以下で示された次のものを含む。
０〜３：予約済み
４：ベクトル量子化
５：ハフマンコーディングなしのスカラー量子化
６：ハフマンコーディングありの６ビットスカラー量子化
７：ハフマンコーディングありの７ビットスカラー量子化
８：ハフマンコーディングありの８ビットスカラー量子化
．．．．．．
１６：ハフマンコーディングありの１６ビットスカラー量子化上記では、６〜１６のＮｂｉｔｓＱシンタックス要素の値は、スカラー量子化がハフマンコーディングとともに実行されるべきであることのみではなく、スカラー量子化の量子化ステップサイズをも示す。この点において、量子化モードは、ベクトル量子化モードと、ハフマンコーディングなしのスカラー量子化モードと、ハフマンコーディングありのスカラー量子化モードとを備えることができる。

[0142]上記の例示的なＣＳＩＤシンタックステーブルに戻ると、抽出ユニット７２は、ｂＡシンタックス要素をｂＢシンタックス要素と組み合わせることができ、ここで、この組合せは、上記の例示的なＣＳＩＤシンタックステーブルにおいて示されるような加算であり得る。組み合されたｂＡ／ｂＢシンタックス要素は、以前のフレームから、ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を再利用するかどうかのためのインジケータを表すことができる。抽出ユニット７２は次に、組み合わされたｂＡ／ｂＢシンタックス要素を０の値と比較する。組み合わされたｂＡ／ｂＢシンタックス要素が０の値を有するとき、抽出ユニット７２は、ｉ番目のトランスポートチャネルの現在のｋ番目のフレームのための量子化モード情報（すなわち、上記の例示的なＣＳＩＤシンタックステーブルにおける量子化モードを示すＮｂｉｔｓＱシンタックス要素）が、ｉ番目のトランスポートチャネルのｋ−１番目のフレームの量子化モード情報と同じであると決定することができる。言い換えれば、ゼロ値に設定されるとき、インジケータは、以前のフレームから少なくとも１つのシンタックス要素を再利用するように示す。

[0143]抽出ユニット７２は、同様に、ｉ番目のトランスポートチャネルの現在のｋ番目のフレームのための予測情報（すなわち、この例では、予測がベクトル量子化またはスカラー量子化のいずれかの間に実行されるか否かを示すＰＦｌａｇシンタックス要素）が、ｉ番目のトランスポートチャネルのｋ−１番目のフレームの予測情報と同じであると決定する。抽出ユニット７２はまた、ｉ番目のトランスポートチャネルの現在のｋ番目のフレームのためのハフマンコードブック情報（すなわち、Ｖベクトルを再構成するために使用されるハフマンコードブックを示すＣｂＦｌａｇシンタックス要素）が、ｉ番目のトランスポートチャネルのｋ−１番目のフレームのハフマンコードブック情報と同じであると決定することができる。抽出ユニット７２はまた、ｉ番目のトランスポートチャネルの現在のｋ番目のフレームのためのベクトル量子化情報（すなわち、Ｖベクトルを再構成するために使用されるベクトル量子化コードブックを示すＣｏｄｅｂｋＩｄｘシンタックス要素およびＶベクトルを再構成するために使用されるコード化ベクトルの数を示すＮｕｍＶｅｃＩｎｄｉｃｅｓシンタックス要素）が、ｉ番目のトランスポートチャネルのｋ−１番目のフレームのベクトル量子化情報と同じであると決定することができる。

[0144]組み合わされたｂＡ／ｂＢシンタックス要素が０の値を有していないとき、抽出ユニット７２は、ｉ番目のトランスポートチャネルのｋ番目のフレームのための量子化モード情報と、予測情報と、ハフマンコードブック情報と、ベクトル量子化情報とが、ｉ番目のトランスポートチャネルのｋ−１番目のフレームの情報と同じではないと決定することができる。結果として、抽出ユニット７２は、ＮｂｉｔｓＱシンタックス要素の最下位ビット（すなわち、上記の例示的なＣＳＩＤシンタックステーブルにおけるｕｉｎｔＣシンタックス要素）を取得し、ＮｂｉｔｓＱシンタックス要素を取得するために、ｂＡシンタックス要素とｂＢシンタックス要素とｕｉｎｔＣシンタックス要素とを組み合わせることができる。このＮｂｉｔｓＱシンタックス要素に基づいて、抽出ユニット７２は、ＮｂｉｔｓＱシンタックス要素がベクトル量子化をシグナリングするとき、ＰＦｌａｇシンタックス要素、ＣｏｄｅｂｋＩｄｘシンタックス要素、およびＮｕｍＶｅｃＩｎｄｉｃｅｓシンタックス要素と、または、ＮｂｉｔｓＱシンタックス要素がハフマンコーディングありのスカラー量子化をシグナリングするとき、ＰＦｌａｇシンタックス要素とＣｂＦｌａｇシンタックス要素とのいずれかを取得することができる。このようにして、抽出ユニット７２は、Ｖベクトルを再構成するために使用される上記のシンタックス要素を抽出し、これらのシンタックス要素をベクトルベース再構成ユニット７２に渡すことができる。

[0145]抽出ユニット７２は次に、ｉ番目のトランスポートチャネルのｋ番目のフレームからＶベクトルを抽出することができる。抽出ユニット７２は、ＣｏｄｅｄＶＶｅｃＬｅｎｇｔｈと示されたシンタックス要素を含む、ＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇコンテナを取得することができる。抽出ユニット７２は、ＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇコンテナからＣｏｄｅｄＶＶｅｃＬｅｎｇｔｈを解析することができる。抽出ユニット７２は、次のＶＶｅｃＤａｔａシンタックステーブルに従って、Ｖベクトルを取得することができる。

ＶＶｅｃ（ｋ）［ｉ］これは、ｉ番目のチャネルのためのｋ番目のＨＯＡｆｒａｍｅ（）のためのＶベクトルである。ＶＶｅｃＬｅｎｇｔｈこの変数は、読み出すべきベクトル要素の数を示す。ＶＶｅｃＣｏｅｆｆＩｄこのベクトルは、送信されたＶベクトル係数のインデックスを含む。ＶｅｃＶａｌ０と２５５との間の整数値。ａＶａｌＶＶｅｃｔｏｒＤａｔａの復号中に使用される一時的な変数。ｈｕｆｆＶａｌハフマン復号されるべきハフマンコードワード。ＳｇｎＶａｌこれは、復号中に使用されるコード化された符号値である。ｉｎｔＡｄｄＶａｌこれは、復号中に使用される追加の整数値である。ＮｕｍＶｅｃＩｎｄｉｃｅｓベクトル量子化されたＶベクトルを逆量子化するために使用されるベクトルの数。ＷｅｉｇｈｔＩｄｘベクトル量子化されたＶベクトルを逆量子化するために使用されるＷｅｉｇｈｔＶａｌＣｄｂｋにおけるインデックス。ｎＢｉｔｓＷベクトル量子化されたＶベクトルを復号するために、ＷｅｉｇｈｔＩｄｘを読み取るためのフィールドサイズ。ＷｅｉｇｈｔＶａｌＣｂｋ正の実数値の重み付け係数のベクトルを含むコードブック。ＮｕｍＶｅｃＩｎｄｉｃｅｓが１よりも大きい場合のみ必要。２５６個のエントリをもつＷｅｉｇｈｔＶａｌＣｄｂｋが与えられる。ＷｅｉｇｈｔＶａｌＰｒｅｄＣｄｂｋ予測重み付け係数のベクトルを含むコードブック。ＮｕｍＶｅｃＩｎｄｉｃｅｓが１よりも大きい場合のみ必要。２５６個のエントリをもつＷｅｉｇｈｔＶａｌＰｒｅｄＣｄｂｋが与えられる。ＷｅｉｇｈｔＶａｌＡｌｐｈａＶベクトル量子化の予測コーディングモードのために使用される予測コーディング係数。ＶｖｅｃＩｄｘベクトル量子化されたＶベクトルを逆量子化するために使用される、ＶｅｃＤｉｃｔのためのインデックス。ｎｂｉｔｓＩｄｘベクトル量子化されたＶベクトルを復号するために、ＶｖｅｃＩｄｘを読み取るためのフィールドサイズ。ＷｅｉｇｈｔＶａｌベクトル量子化されたＶベクトルを復号するための実数値の重み付け係数。

[0146]上記のシンタックステーブルでは、抽出ユニット７２は、ＮｂｉｔｓＱシンタックス要素の値が４に等しい（または、言い換えれば、ベクトル逆量子化がＶベクトルを再構成するために使用されることをシグナリングする）か否かを決定することができる。ＮｂｉｔｓＱシンタックス要素の値が４に等しいとき、抽出ユニット７２は、ＮｕｍＶｅｃＩｎｄｉｃｅｓシンタックス要素の値を１の値と比較することができる。ＮｕｍＶｅｃＩｎｄｉｃｅｓの値が１に等しいとき、抽出ユニット７２は、ＶｅｃＩｄｘシンタックス要素を取得することができる。ＶｅｃＩｄｘシンタックス要素は、ベクトル量子化されたＶベクトルを逆量子化するために使用されるＶｅｃＤｉｃｔのためのインデックスを示す１つまたは複数のビットを表し得る。抽出ユニット７２は、０番目の要素がＶｅｃＩｄｘシンタックス要素の値＋１に設定された、ＶｅｃＩｄｘアレイをインスタンス化することができる。抽出ユニット７２はまた、ＳｇｎＶａｌシンタックス要素を取得することができる。ＳｇｎＶａｌシンタックス要素は、Ｖベクトルの復号中に使用されるコーディングされた符号値を示す１つまたは複数のビットを表し得る。抽出ユニット７２は、ＷｅｉｇｈｔＶａｌアレイをインスタンス化し、ＳｇｎＶａｌシンタックス要素の値の関数として０番目の要素を設定することができる。

[0147]ＮｕｍＶｅｃＩｎｄｉｃｅｓシンタックス要素の値が１の値に等しくないとき、抽出ユニット７２は、ＷｅｉｇｈｔＩｄｘシンタックス要素を取得することができる。ＷｅｉｇｈｔＩｄｘシンタックス要素は、ベクトル量子化されたＶベクトルを逆量子化するために使用されるＷｅｉｇｈｔＶａｌＣｄｂｋアレイにおけるインデックスを示す１つまたは複数のビットを表し得る。ＷｅｉｇｈｔＶａｌＣｄｂｋアレイは、正の実数値の重み付け係数のベクトルを含むコードブックを表し得る。抽出ユニット７２は次に、ＨＯＡＣｏｎｆｉｇコンテナにおいて指定された（一例として、ビットストリーム２１の開始において指定された）ＮｕｍＯｆＨｏａＣｏｅｆｆｓシンタックス要素の関数として、ｎｂｉｔｓＩｄｘを決定することができる。抽出ユニット７２は次いで、ＮｕｍＶｅｃＩｎｄｉｃｅｓ中を反復し、ビットストリーム２１からＶｅｃＩｄｘシンタックス要素を取得し、各取得されたＶｅｃＩｄｘシンタックス要素を用いてＶｅｃＩｄｘアレイ要素を設定することができる。

[0148]抽出ユニット７２は、ビットストリーム２１からのシンタックス要素の抽出に無関係であるｔｍｐＷｅｉｇｈｔＶａｌ変数値を決定することを伴う、次のＰＦｌａｇシンタックス比較を実行しない。したがって、抽出ユニット７２は次に、ＷｅｉｇｈｔＶａｌシンタックス要素を決定する際に使用するためのＳｇｎＶａｌシンタックス要素を取得することができる。

[0149]ＮｂｉｔｓＱシンタックス要素の値が５に等しい（ハフマン復号なしのスカラー逆量子化がＶベクトルを再構成するために使用されることをシグナリングする）とき、抽出ユニット７２は、０からＶＶｅｃＬｅｎｇｔｈまで反復し、ａＶａｌ変数を、ビットストリーム２１から取得されたＶｅｃＶａｌシンタックス要素に設定する。ＶｅｃＶａｌシンタックス要素は、０と２５５との間の整数を示す１つまたは複数のビットを表し得る。

[0150]ＮｂｉｔｓＱシンタックス要素の値が６以上である（ハフマン復号ありのＮｂｉｔｓＱビットスカラー逆量子化がＶベクトルを再構成するために使用されることをシグナリングする）とき、抽出ユニット７２は、０からＶＶｅｃＬｅｎｇｔｈまで反復し、ｈｕｆｆＶａｌシンタックス要素、ＳｇｎＶａｌシンタックス要素、およびｉｎｔＡｄｄＶａｌシンタックス要素のうちの１つまたは複数を取得する。ｈｕｆｆＶａｌシンタックス要素は、ハフマンコードワードを示す１つまたは複数のビットを表し得る。ｉｎｔＡｄｄＶａｌシンタックス要素は、復号中に使用される追加の整数値を示す１つまたは複数のビットを表し得る。抽出ユニット７２は、これらのシンタックス要素をベクトルベース再構成ユニット９２に与えることができる。

[0151]ベクトルベース再構成ユニット９２は、ＨＯＡ係数１１’を再構成するために、ベクトルベース合成ユニット２７に関して上記で説明されたものとは逆の演算を実行するように構成されたユニットを表し得る。ベクトルベース再構成ユニット９２は、Ｖベクトル再構成ユニット７４と、空間時間的補間ユニット７６と、フォアグラウンド編成ユニット７８と、聴覚心理復号ユニット８０と、ＨＯＡ係数編成ユニット８２と、フェードユニット７７０と、並べ替えユニット８４とを含み得る。フェードユニット７７０の破線は、ベクトルベース再構成ユニット９２中に含まれているという観点から見て、フェードユニット７７０がオプションユニットであり得ることを示す。

[0152]Ｖベクトル再構成ユニット７４は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７からＶベクトルを再構成するように構成されたユニットを表し得る。Ｖベクトル再構成ユニット７４は、量子化ユニット５２の動作とは逆の方法で動作することができる。

[0153]Ｖベクトル再構成ユニット７４は、言い換えれば、Ｖベクトルを再構成するために次の擬似コードに従って動作することができる。

[0154]上記の擬似コードに従って、Ｖベクトル再構成ユニット７４は、ｉ番目のトランスポートチャネルのｋ番目のフレームのためのＮｂｉｔｓＱシンタックス要素を取得することができる。ＮｂｉｔｓＱシンタックス要素が４に等しい（この場合も、ベクトル量子化が実行されたことをシグナリングする）とき、Ｖベクトル再構成ユニット７４は、ＮｕｍＶｅｃＩｎｄｉｃｉｅｓシンタックス要素を１と比較することができる。ＮｕｍＶｅｃＩｎｄｉｃｉｅｓシンタックス要素は、上記で説明されたように、ベクトル量子化されたＶベクトルを逆量子化するために使用されるベクトルの数を示す１つまたは複数のビットを表し得る。ＮｕｍＶｅｃＩｎｄｉｃｉｅｓシンタックス要素の値が１に等しいとき、Ｖベクトル再構成ユニット７４は次いで、０からＶＶｅｃＬｅｎｇｔｈシンタックス要素の値まで反復し、ｉｄｘ変数をＶＶｅｃＣｏｅｆｆＩｄに設定し、ＶＶｅｃＣｏｅｆｆＩｄ番目のＶベクトル要素（ｖ⁽ⁱ⁾ _{VVecCoeffId[m]}（ｋ））を、［９００］［ＶｅｃＩｄｘ［０］］［ｉｄｘ］によって特定されたＶｅｃＤｉｃｔエントリをＷｅｉｇｈｔＶａｌに乗算したものに設定することができる。言い換えれば、ＮｕｍＶｖｅｃＩｎｄｉｃｉｅｓの値が１に等しいとき、テーブルＦ．１１において示された８×１重み付け値のコードブックとともに、テーブルＦ．８から導出されたベクトルコードブックＨＯＡ拡張係数。

[0155]ＮｕｍＶｅｃＩｎｄｉｃｉｅｓシンタックス要素の値が１に等しくないとき、Ｖベクトル再構成ユニット７４は、ｃｄｂＬｅｎ変数を、ベクトルの数を示す変数であるＯに設定することができる。ｃｄｂＬｅｎシンタックス要素は、コードベクトルの辞書またはコードブックにおけるエントリの数を示す（ここで、この辞書は、上記の擬似コードにおいて「ＶｅｃＤｉｃｔ」と示され、ベクトル量子化されたＶベクトルを復号するために使用される、ＨＯＡ拡張係数のベクトルを含むｃｄｂＬｅｎ個のコードブックエントリをもつコードブックを表す）。ＨＯＡ係数１１の（「Ｎ」によって示される）次数が４に等しいとき、Ｖベクトル再構成ユニット７４は、ｃｄｂＬｅｎ変数を３２に設定することができる。Ｖベクトル再構成ユニット７４は次に、０からＯまで反復し、ＴｍｐＶＶｅｃアレイを０に設定することができる。この反復中に、Ｖベクトル再構成ユニット７４はまた、０からＮｕｍＶｅｃＩｎｄｅｃｉｅｓシンタックス要素の値まで反復し、ＴｅｍｐＶＶｅｃアレイのｍ番目のエントリを、ＶｅｃＤｉｃｔの［ｃｄｂＬｅｎ］［ＶｅｃＩｄｘ［ｊ］］［ｍ］エントリをｊ番目のＷｅｉｇｈｔＶａｌに乗算したものに等しくなるように設定することができる。

[0156]Ｖベクトル再構成ユニット７４は、次の擬似コードに従って、ＷｅｉｇｈｔＶａｌを導出することができる。

上記の擬似コードでは、Ｖベクトル再構成ユニット７４は、０からＮｕｍＶｅｃＩｎｄｉｃｅｓシンタックス要素の値まで反復し、最初に、ＰＦｌａｇシンタックス要素の値が０に等しいか否かを決定することができる。ＰＦｌａｇシンタックス要素が０に等しいとき、Ｖベクトル再構成ユニット７４は、ｔｍｐＷｅｉｇｈｔＶａｌ変数を決定し、ｔｍｐＷｅｉｇｈｔＶａｌ変数を、ＷｅｉｇｈｔＶａｌＣｄｂｋコードブックの［ＣｏｄｅｂｋＩｄｘ］［ＷｅｉｇｈｔＩｄｘ］エントリに等しく設定することができる。ＰＦｌａｇシンタックス要素の値が０に等しくないとき、Ｖベクトル再構成ユニット７４は、ｔｍｐＷｅｉｇｈｔＶａｌ変数を、ＷｅｉｇｈｔＶａｌＰｒｅｄＣｄｂｋコードブックの［ＣｏｄｅｂｋＩｄｘ］［ＷｅｉｇｈｔＩｄｘ］エントリ＋ｉ番目のトランスポートチャネルのｋ−１番目のフレームのｔｅｍｐＷｅｉｇｈｔＶａｌをＷｅｉｇｈｔＶａｌＡｌｐｈａ変数に乗算したものに等しく設定することができる。ＷｅｉｇｈｔＶａｌＡｌｐｈａ変数は、オーディオ符号化デバイス２０およびオーディオ復号デバイス２４において静的に定義され得る、上述されたα値を指し得る。Ｖベクトル再構成ユニット７４は次いで、抽出ユニット７２によって取得されたＳｇｎＶａｌシンタックス要素とｔｍｐＷｅｉｇｈｔＶａｌ変数との関数として、ＷｅｉｇｈｔＶａｌを取得することができる。

[0157]Ｖベクトル再構成ユニット７４は、言い換えれば、重み値コードブック（予測されないベクトル量子化では「ＷｅｉｇｈｔＶａｌＣｄｂｋ」と示され、予測ベクトル量子化では「ＷｅｉｇｈｔＶａｌＰｒｅｄＣｄｂｋ」と示され、それらの両方は、コードブックインデックス（上記のＶＶｅｃｔｏｒＤａｔａ（ｉ）シンタックステーブルにおいて「ＣｏｄｅｂｋＩｄｘ」シンタックス要素と示される）および重みインデックス（上記のＶＶｅｃｔｏｒＤａｔａ（ｉ）シンタックステーブルにおいて「ＷｅｉｇｈｔＩｄｘ」シンタックス要素と示される）のうちの１つまたは複数に基づいてインデックス付けされた多次元テーブルを表し得る）に基づいて、Ｖベクトルを再構成するために使用される各対応するコードベクトルのための重み値を導出することができる。このＣｏｄｅｂｋＩｄｘシンタックス要素は、以下のＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａ（ｉ）シンタックステーブルにおいて示されるような、サイドチャネル情報の一部分において定義され得る。

[0158]上記の擬似コードの残りのベクトル量子化部分は、Ｖベクトルの要素を正規化するためのＦＮｏｒｍの計算と、後に続く、ＴｍｐＶＶｅｃ［ｉｄｘ］×ＦＮｏｒｍに等しいものとしてのＶベクトル要素（ｖ⁽ⁱ⁾ _{VVecCoeffId[m]}（ｋ））の計算とに関係する。Ｖベクトル再構成ユニット７４は、ＶＶｅｃＣｏｅｆｆＩＤの関数として、ｉｄｘ変数を取得することができる。

[0159]ＮｂｉｔｓＱが５に等しいとき、一様８ビットスカラー逆量子化が実行される。対照的に、６以上のＮｂｉｔｓＱの値は、ハフマン復号の適用をもたらし得る。上で言及されるｃｉｄ値は、ＮｂｉｔｓＱ値の下位２ビットに等しくてよい。予測モードは、上記のシンタックステーブルではＰＦｌａｇとして示されるが、一方で、ハフマンテーブル情報ビットは、上記のシンタックステーブルではＣｂＦｌａｇとして示される。残りのシンタックスは、復号が上記で説明されたものと実質的に同様の方法でどのように行われるかを指定する。

[0160]聴覚心理復号ユニット８０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを復号し、それによってエネルギー補償された環境ＨＯＡ係数４７’と補間されたｎＦＧ信号４９’（補間されたｎＦＧオーディオオブジェクト４９’とも呼ばれ得る）とを生成するために、図３の例に示される聴覚心理オーディオコーダユニット４０とは逆の方法で動作することができる。聴覚心理復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’をフェードユニット７７０に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡すことができる。

[0161]空間時間的補間ユニット７６は、空間時間的補間ユニット５０に関して上記で説明されたものと同様の方法で動作することができる。空間時間的補間ユニット７６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５_kを受信し、また、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’を生成するために、フォアグラウンドＶ［ｋ］ベクトル５５_kおよび低減されたフォアグラウンドＶ［ｋ−１］ベクトル５５_k-1に関して空間時間的補間を実行することができる。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送することができる。

[0162]抽出ユニット７２はまた、いつ環境ＨＯＡ係数のうちの１つが遷移中であるかを示す信号７５７を、フェードユニット７７０に出力することもでき、フェードユニット７７０は次いで、ＳＣＨ_BG４７’（ここで、ＳＣＨ_BG４７’は、「環境ＨＯＡチャネル４７’」または「環境ＨＯＡ係数４７’」とも呼ばれ得る）および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定することができる。いくつかの例では、フェードユニット７７０は、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の各々に関して、反対に動作することができる。すなわち、フェードユニット７７０は、環境ＨＯＡ係数４７’のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を実行することができ、一方で、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行することができる。フェードユニット７７０は、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力し、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’をフォアグラウンド編成ユニット７８に出力することができる。この点において、フェードユニット７７０は、ＨＯＡ係数またはその派生物の様々な態様に関して、たとえば、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の形態で、フェード動作を実行するように構成されたユニットを表す。

[0163]フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を生成するために、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’および補間されたｎＦＧ信号４９’に関して行列乗算を実行するように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット７８は、フォアグランド、または言い換えればＨＯＡ係数１１’の支配的な態様を再構成するために、ベクトル５５_k’’’とオーディオオブジェクト４９’（それは、補間されたｎＦＧ信号４９’を示す別の方法である）を組み合わせることができる。フォアグラウンド編成ユニット７８は、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’による補間されたｎＦＧ信号４９’の行列乗算を実行することができる。

[0164]ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、ＨＯＡ係数１１’がＨＯＡ係数１１と同様であるが同じではないことがあることを反映している。ＨＯＡ係数１１とＨＯＡ係数１１’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。

[0165]図５Ａは、本開示で説明されるベクトルベース合成技法の様々な態様を実行する際の、図３の例に示されるオーディオ符号化デバイス２０などのオーディオ符号化デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ符号化デバイス２０は、ＨＯＡ係数１１を受信する（１０６）。オーディオ符号化デバイス２０はＬＩＴユニット３０を呼び出すことができ、ＬＩＴユニット３０は、変換されたＨＯＡ係数（たとえば、ＳＶＤの場合、変換されたＨＯＡ係数はＵＳ［ｋ］ベクトル３３とＶ［ｋ］ベクトル３５とを備え得る）を出力するためにＨＯＡ係数に関してＬＩＴを適用することができる（１０７）。

[0166]オーディオ符号化デバイス２０は次に、上記で説明された方法で様々なパラメータを特定するために、ＵＳ［ｋ］ベクトル３３、ＵＳ［ｋ−１］ベクトル３３、Ｖ［ｋ］ベクトルおよび／またはＶ［ｋ−１］ベクトル３５の任意の組合せに関して上記で説明された分析を実行するために、パラメータ計算ユニット３２を呼び出すことができる。すなわち、パラメータ計算ユニット３２は、変換されたＨＯＡ係数３３／３５の分析に基づいて少なくとも１つのパラメータを決定することができる（１０８）。

[0167]オーディオ符号化デバイス２０は次いで、並べ替えユニット３４を呼び出すことができ、並べ替えユニット３４は、上記で説明されたように、並べ替えられた変換されたＨＯＡ係数３３’／３５’（または言い換えれば、ＵＳ［ｋ］ベクトル３３’およびＶ［ｋ］ベクトル３５’）を生成するために、パラメータに基づいて、変換されたＨＯＡ係数（この場合も、ＳＶＤの文脈では、ＵＳ［ｋ］ベクトル３３とＶ［ｋ］ベクトル３５とを指し得る）を並べ替えることができる（１０９）。オーディオ符号化デバイス２０は、前述の演算または後続の演算のいずれかの間に、音場分析ユニット４４を呼び出すこともできる。音場分析ユニット４４は、上記で説明されたように、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド音場の次数（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３としてまとめて示され得る）とを決定するために、ＨＯＡ係数１１および／または変換されたＨＯＡ係数３３／３５に関して音場分析を実行することができる（１０９）。

[0168]オーディオ符号化デバイス２０はまた、バックグラウンド選択ユニット４８を呼び出すことができる。バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報４３に基づいて、バックグラウンドまたは環境ＨＯＡ係数４７を決定することができる（１１０）。オーディオ符号化デバイス２０はさらに、フォアグラウンド選択ユニット３６を呼び出すことができ、フォアグラウンド選択ユニット３６は、ｎＦＧ４５（フォアグラウンドベクトルを特定する１つまたは複数のインデックスを表し得る）に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたＵＳ［ｋ］ベクトル３３’と並べ替えられたＶ［ｋ］ベクトル３５’とを選択することができる（１１２）。

[0169]オーディオ符号化デバイス２０は、エネルギー補償ユニット３８を呼び出すことができる。エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡ係数のうちの様々なものの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を実行し（１１４）、それによって、エネルギー補償された環境ＨＯＡ係数４７’を生成することができる。

[0170]オーディオ符号化デバイス２０はまた、空間時間的補間ユニット５０を呼び出すことができる。空間時間的補間ユニット５０は、補間されたフォアグラウンド信号４９’（「補間されたｎＦＧ信号４９’」とも呼ばれ得る）と残りのフォアグラウンド指向性情報５３（「Ｖ［ｋ］ベクトル５３」とも呼ばれ得る）とを取得するために、並べ替えられた変換されたＨＯＡ係数３３’／３５’に関して空間時間的補間を実行することができる（１１６）。オーディオ符号化デバイス２０は次いで、係数低減ユニット４６を呼び出すことができる。係数低減ユニット４６は、低減されたフォアグラウンド指向性情報５５（低減されたフォアグラウンドＶ［ｋ］ベクトル５５とも呼ばれ得る）を取得するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行することができる（１１８）。

[0171]オーディオ符号化デバイス２０は次いで、上記で説明された方法で、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために、量子化ユニット５２を呼び出すことができる（１２０）。

[0172]オーディオ符号化デバイス２０はまた、聴覚心理オーディオコーダユニット４０を呼び出すことができる。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために、エネルギー補償された環境ＨＯＡ係数４７’および補間されたｎＦＧ信号４９’の各ベクトルを聴覚心理コーディングすることができる。オーディオ符号化デバイスは次いで、ビットストリーム生成ユニット４２を呼び出すことができる。ビットストリーム生成ユニット４２は、コーディングされたフォアグラウンド指向性情報５７と、コーディングされた環境ＨＯＡ係数５９と、コーディングされたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいて、ビットストリーム２１を生成することができる。

[0173]図５Ｂは、本開示で説明されるコーディング技法を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャートである。図３の例において示されたオーディオ符号化デバイス２０のビットストリーム生成ユニット４２は、本開示で説明される技法を実行するように構成された１つの例示的なユニットを表し得る。ビットストリーム生成ユニット４２は、フレームの量子化モードが、（「第２のフレーム」として示され得る）時間的に以前のフレームの量子化モードと同じであるか否かを決定することができる（３１４）。以前のフレームに関して説明されているが、本技法は、時間的に後続のフレームに関して実行され得る。フレームは、１つまたは複数のトランスポートチャネルの一部分を含み得る。トランスポートチャネルの一部分は、あるペイロード（たとえば、図７の例ではＶＶｅｃｔｏｒＤａｔａフィールド１５６）とともに（ＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａシンタックステーブルに従って形成された）ＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａを含み得る。ペイロードの他の例は、ＡｄｄＡｍｂｉｅｎｔＨＯＡＣｏｅｆｆｓフィールドを含み得る。

[0174]量子化モードが同じであるとき（「ＹＥＳ」３１６）、ビットストリーム生成ユニット４２は、ビットストリーム２１中で量子化モードの一部分を指定することができる（３１８）。量子化モードの一部分は、ｂＡシンタックス要素とｂＢシンタックス要素とを含み得るが、ｕｉｎｔＣシンタックス要素を含まないことがある。ｂＡシンタックス要素は、ＮｂｉｔｓＱシンタックス要素のビットストリームの最上位ビットを示す、ビットを表し得る。ｂＢシンタックス要素は、ＮｂｉｔｓＱシンタックス要素の第２の最上位ビットを示す、ビットを表し得る。ビットストリーム生成ユニット４２は、ｂＡシンタックス要素およびｂＢシンタックス要素の各々の値を０に設定し、それによって、ビットストリーム２１中の量子化モードフィールド（すなわち、一例としてＮｂｉｔｓＱフィールド）がｕｉｎｔＣシンタックス要素を含まないことをシグナリングすることができる。０値のｂＡシンタックス要素およびｂＢシンタックス要素のこのシグナリングはまた、以前のフレームからのＮｂｉｔｓＱ値、ＰＦｌａｇ値、ＣｂＦｌａｇ値、およびＣｏｄｅｂｋＩｄｘ値が、現在のフレームの同じシンタックス要素のための対応する値として使用されるべきであることを示す。

[0175]量子化モードが同じではないとき（「ＮＯ」３１６）、ビットストリーム生成ユニット４２は、ビットストリーム２１中で全体量子化モードを示す１つまたは複数のビットを指定することができる（３２０）。すなわち、ビットストリーム生成ユニット４２は、ビットストリーム２１中でｂＡシンタックス要素と、ｂＢシンタックス要素と、ｕｉｎｔＣシンタックス要素とを指定する。ビットストリーム生成ユニット４２はまた、量子化モードに基づいて量子化情報を指定することができる（３２２）。この量子化情報は、ベクトル量子化情報、予測情報、およびハフマンコードブック情報など、量子化に関する任意の情報を含み得る。ベクトル量子化情報は、一例として、ＣｏｄｅｂｋＩｄｘシンタックス要素およびＮｕｍＶｅｃＩｎｄｉｃｅｓシンタックス要素のうちの一方または両方を含み得る。予測情報は、一例として、ＰＦｌａｇシンタックス要素を含み得る。ハフマンコードブック情報は、一例として、ＣｂＦｌａｇシンタックス要素を含み得る。

[0176]この点に関して、技法は、オーディオ符号化デバイス２０がサウンドフィールドの空間成分の圧縮されたバージョンを備えるビットストリーム２１を取得するように構成されることができ得る。空間成分は、複数の球面調和関数係数に関してベクトルベース合成を実行することによって生成され得る。ビットストリームは、空間成分を圧縮するときに使用される情報を指定する、以前のフレームからの、ヘッダフィールドの１つまたは複数のビットを再使用するかどうかのためのインジケータをさらに備える。

[0177]言い換えれば、技法は、オーディオ符号化デバイス２０が球面調和関数領域における直交空間軸を表すベクトル５７を備えるビットストリーム２１を取得するように構成されることができ得る。ビットストリーム２１は、ベクトルを圧縮（たとえば、量子化）するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータ（たとえば、ＮｂｉｔｓＱシンタックス要素のｂＡ／ｂＢシンタックス要素）をさらに備え得る。

[0178]図６Ａは、本開示で説明される技法の様々な態様を実行する際の、図４に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ復号デバイス２４は、ビットストリーム２１を受信することができる（１３０）。ビットストリームを受信すると、オーディオ復号デバイス２４は抽出ユニット７２を呼び出すことができる。説明の目的で、ベクトルベース再構成が実行されるべきであることをビットストリーム２１が示すと仮定すると、抽出デバイス７２は、上述された情報を取り出すためにビットストリームを解析し、その情報をベクトルベース再構成ユニット９２に渡すことができる。

[0179]言い換えれば、抽出ユニット７２は、コーディングされたフォアグラウンド指向性情報５７（この場合も、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７とも呼ばれ得る）と、コーディングされた環境ＨＯＡ係数５９と、コーディングされたフォアグラウンド信号（コーディングされたフォアグラウンドｎＦＧ信号５９またはコーディングされたフォアグラウンドオーディオオブジェクト５９とも呼ばれ得る）とを、上記で説明された方法でビットストリーム２１から抽出することができる（１３２）。

[0180]オーディオ復号デバイス２４はさらに、逆量子化ユニット７４を呼び出すことができる。逆量子化ユニット７４は、低減されたフォアグラウンド指向性情報５５_kを取得するために、コーディングされたフォアグラウンド指向性情報５７をエントロピー復号および逆量子化することができる（１３６）。オーディオ復号デバイス２４はまた、聴覚心理復号ユニット８０を呼び出すことができる。聴覚心理オーディオ復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’と補間されたフォアグラウンド信号４９’とを取得するために、符号化された環境ＨＯＡ係数５９と符号化されたフォアグラウンド信号６１とを復号することができる（１３８）。聴覚心理復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’をフェードユニット７７０に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡すことができる。

[0181]オーディオ復号デバイス２４は次に、空間時間的補間ユニット７６を呼び出すことができる。空間時間的補間ユニット７６は、並べ替えられたフォアグラウンド指向性情報５５_k’を受信し、また、補間されたフォアグラウンド指向性情報５５_k’’を生成するために、低減されたフォアグラウンド指向性情報５５_k／５５_k-1に関して空間時間的補間を実行することができる（１４０）。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送することができる。

[0182]オーディオ復号デバイス２４は、フェードユニット７７０を呼び出すことができる。フェードユニット７７０は、エネルギー補償された環境ＨＯＡ係数４７’がいつ遷移中であるかを示すシンタックス要素（たとえば、ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎシンタックス要素）を（たとえば、抽出ユニット７２から）受信またはさもなければ取得することができる。フェードユニット７７０は、遷移シンタックス要素と維持された遷移状態情報とに基づいて、エネルギー補償された環境ＨＯＡ係数４７’をフェードインまたはフェードアウトし、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力することができる。フェードユニット７７０はまた、シンタックス要素と維持された遷移状態情報とに基づいて、および、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の対応する１つまたは複数の要素をフェードアウトまたはフェードインし、フォアグラウンド編成ユニット７８に調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’を出力することができる（１４２）。

[0183]オーディオ復号デバイス２４は、フォアグラウンド編成ユニット７８を呼び出すことができる。フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を取得するために、調整されたフォアグラウンド指向性情報５５_k’’’による行列乗算ｎＦＧ信号４９’を実行することができる（１４４）。オーディオ復号デバイス２４はまた、ＨＯＡ係数編成ユニット８２を呼び出すことができる。ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に加算することができる（１４６）。

[0184]図６Ｂは、本開示で説明されるコーディング技法を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャートである。図４の例において示されたオーディオ符号化デバイス２４の抽出ユニット７２は、本開示で説明される技法を実行するように構成された１つの例示的なユニットを表し得る。ビットストリーム抽出ユニット７２は、フレームの量子化モードが、（「第２のフレーム」として示され得る）時間的に以前のフレームの量子化モードと同じであるか否かを示すビットを取得することができる（３６２）。この場合も、以前のフレームに関して説明されているが、本技法は、時間的に後続のフレームに関して実行され得る。

[0185]量子化モードが同じであるとき（「ＹＥＳ」３６４）、抽出ユニット７２は、ビットストリーム２１から量子化モードの一部分を取得することができる（３６６）。量子化モードの一部分は、ｂＡシンタックス要素とｂＢシンタックス要素とを含み得るが、ｕｉｎｔＣシンタックス要素を含まないことがある。抽出ユニット４２はまた、現在のフレームのためのＮｂｉｔｓＱ値、ＰＦｌａｇ値、ＣｂＦｌａｇ値、ＣｏｄｅｂｋＩｄｘ値、およびＮｕｍＶｅｃＩｎｄｉｃｅｓ値の値を、以前のフレームのために設定されたＮｂｉｔｓＱ値、ＰＦｌａｇ値、ＣｂＦｌａｇ値、ＣｏｄｅｂｋＩｄｘ値、およびＮｕｍＶｅｃＩｎｄｉｃｅｓの値と同じように設定することができる（３６８）。

[0186]量子化モードが同じではないとき（「ＮＯ」３６４）、抽出ユニット７２は、ビットストリーム２１から全体量子化モードを示す１つまたは複数のビットを取得することができる。すなわち、抽出ユニット７２は、ビットストリーム２１からｂＡシンタックス要素と、ｂＢシンタックス要素と、ｕｉｎｔＣシンタックス要素とを取得する（３７０）。抽出ユニット７２はまた、量子化モードに基づいて、量子化情報を示す１つまたは複数のビットを取得することができる（３７２）。図５Ｂに関して上述されたように、量子化情報は、ベクトル量子化情報、予測情報、およびハフマンコードブック情報など、量子化に関する任意の情報を含み得る。ベクトル量子化情報は、一例として、ＣｏｄｅｂｋＩｄｘシンタックス要素およびＮｕｍＶｅｃＩｎｄｉｃｅｓシンタックス要素のうちの一方または両方を含み得る。予測情報は、一例として、ＰＦｌａｇシンタックス要素を含み得る。ハフマンコードブック情報は、一例として、ＣｂＦｌａｇシンタックス要素を含み得る。

[0187]この点に関して、技法は、オーディオ復号デバイス２４がサウンドフィールドの空間成分の圧縮されたバージョンを備えるビットストリーム２１を取得するように構成されることができ得る。空間成分は、複数の球面調和関数係数に関してベクトルベース合成を実行することによって生成され得る。ビットストリームは、空間成分を圧縮するときに使用される情報を指定する、以前のフレームからの、ヘッダフィールドの１つまたは複数のビットを再使用するかどうかのためのインジケータをさらに備える。

[0188]言い換えれば、技法は、オーディオ復号デバイス２４が球面調和関数領域における直交空間軸を表すベクトル５７を備えるビットストリーム２１を取得するように構成されることができ得る。ビットストリーム２１は、ベクトルを圧縮（たとえば、量子化）するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータ（たとえば、ＮｂｉｔｓＱシンタックス要素のｂＡ／ｂＢシンタックス要素）をさらに備え得る。

[0189]図７は、本開示で説明される技法の様々な態様に従って指定された例示的なフレーム２４９Ｓおよび２４９Ｔを示す図である。図７の例に示されるように、フレーム２４９Ｓは、ＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａ（ＣＳＩＤ）フィールド１５４Ａ〜１５４Ｄと、ＨＯＡＧａｉｎＣｏｒｒｅｃｔｉｏｎＤａｔａ（ＨＯＡＧＣＤ）フィールドと、ＶＶｅｃｔｏｒＤａｔａフィールド１５６Ａおよび１５６Ｂと、ＨＯＡＰｒｅｄｉｃｔｉｏｎＩｎｆｏフィールドとを含む。ＣＳＩＤフィールド１５４Ａは、０１の値に設定されたＣｈａｎｎｅｌＴｙｐｅシンタックス要素（「ＣｈａｎｎｅｌＴｙｐｅ」）２６９とともに、１０の値に設定されたｕｉｎｔＣシンタックス要素（「ｕｉｎｔＣ」）２６７と、１の値に設定されたｂｂシンタックス要素（「ｂＢ」）２６６と、０の値に設定されたｂＡシンタックス要素（「ｂＡ」）２６５とを含む。

[0190]ｕｉｎｔＣシンタックス要素２６７、ｂＢシンタックス要素２６６、およびｂＡシンタックス要素２６５は一緒に、ＮｂｉｔｓＱシンタックス要素２６１を形成し、ｂＡシンタックス要素２６５がＮｂｉｔｓＱシンタックス要素２６１の最上位ビットを形成し、ｂＢシンタックス要素２６６が第２の最上位ビットを形成し、ｕｉｎｔＣシンタックス要素２６７が最下位ビットを形成する。ＮｂｉｔｓＱシンタックス要素２６１は、上述されたように、高次アンビソニックオーディオデータを符号化するために使用された量子化モード（たとえば、ベクトル量子化モード、ハフマンコーディングなしのスカラー量子化モード、およびハフマンコーディングありのスカラー量子化モード）を示す１つまたは複数のビットを表し得る。

[0191]ＣＳＩＤシンタックス要素１５４Ａはまた、様々なシンタックステーブルにおいて上記で言及されたＰＦｌａｇシンタックス要素３００とＣｂＦｌａｇシンタックス要素３０２とを含む。ＰＦｌａｇシンタックス要素３００は、第１のフレーム２４９ＳのＨＯＡ係数によって表されるサウンドフィールドの空間成分のコード化要素（ここで、さらに空間成分は、Ｖベクトルを指し得る）が第２のフレーム（たとえば、この例では以前のフレーム）から予測されるか否かを示す、１つまたは複数のビットを表し得る。ＣｂＦｌａｇシンタックス要素３０２は、空間成分（または言い換えれば、Ｖベクトル要素）を符号化するために使用されたハフマンコードブック（または、言い換えれば、テーブル）のいずれかを特定することができる、ハフマンコードブック情報を示す、１つまたは複数のビットを表し得る。

[0192]ＣＳＩＤフィールド１５４Ｂは、ｂＢシンタックス要素２６６とｂＢシンタックス要素２６５とを、ＣｈａｎｎｅｌＴｙｐｅシンタックス要素２６９とともに含み、その各々が、図７の例において対応する値０および０および０１に設定される。ＣＳＩＤフィールド１５４Ｃおよび１５４Ｄの各々は、３（１１₂）の値を有するＣｈａｎｎｅｌＴｙｐｅフィールド２６９を含む。ＣＳＩＤフィールド１５４Ａ〜１５４Ｄの各々は、トランスポートチャネル１、２、３および４の各々に対応する。事実上、各ＣＳＩＤフィールド１５４Ａ〜１５４Ｄは、対応するペイロードが指向性ベースの信号か（対応するＣｈａｎｎｅｌＴｙｐｅが０に等しいとき）、ベクトルベースの信号か（対応するＣｈａｎｎｅｌＴｙｐｅが１に等しいとき）、追加の環境ＨＯＡ係数か（対応するＣｈａｎｎｅｌＴｙｐｅが２に等しいとき）、空か（ＣｈａｎｎｅｌＴｙｐｅが３に等しいとき）を示す。

[0193]図７の例では、フレーム２４９Ｓは、（ＣＳＩＤフィールド１５４Ａおよび１５４Ｂにおいて１に等しいＣｈａｎｎｅｌＴｙｐｅシンタックス要素２６９が与えられる）２つのベクトルベース信号と、（ＣＳＩＤフィールド１５４Ｃおよび１５４Ｄにおいて３に等しいＣｈａｎｎｅｌＴｙｐｅ２６９が与えられる）２つの空とを含む。その上、オーディオ符号化デバイス２０は、ＰＦｌａｇシンタックス要素３００が１に設定されることによって示されるような予測を採用した。この場合も、ＰＦｌａｇシンタックス要素３００によって示されるような予測は、圧縮された空間成分ｖ１〜ｖｎのうちの対応する１つに関して予測が実行されたか否かを示す予測モード指示を指す。ＰＦｌａｇシンタックス要素３００が１に設定されるとき、オーディオ符号化デバイス２０は、スカラー量子化では、現在のフレームの対応するベクトル要素との以前のフレームからのベクトル要素の間の差分、または、ベクトル量子化では、現在のフレームの対応する重みとの以前のフレームからの重みの間の差分を取ることによる予測を採用することができる。

[0194]オーディオ符号化デバイス２０はまた、フレーム２４９Ｓにおける第２のトランスポートチャネルのＣＳＩＤフィールド１５４ＢのためのＮｂｉｔｓＱシンタックス要素２６１のための値が、以前のフレーム、たとえば図７の例におけるフレーム２４９Ｔ、の第２のトランスポートチャネルのＣＳＩＤフィールド１５４ＢのためのＮｂｉｔｓＱシンタックス要素２６１の値と同じであると決定した。結果として、オーディオ符号化デバイス２０は、以前のフレーム２４９Ｔにおける第２のトランスポートチャネルのＮｂｉｔｓＱシンタックス要素２６１の値が、フレーム２４９Ｓにおける第２のトランスポートチャネルのＮｂｉｔｓＱシンタックス要素２６１のために再使用されることをシグナリングするために、ｂＡシンタックス要素２６５およびｂＢシンタックス要素２６６の各々に対して０の値を指定した。結果として、オーディオ符号化デバイス２０は、上で識別された他のシンタックス要素と共にフレーム２４９Ｓにおける第２のトランスポートチャネルのためにｕｉｎｔＣシンタックス要素２６７を指定することを回避することができる。

[0195]図８は、本明細書で説明される技法による、少なくとも１つのビットストリームの１つまたは複数のチャネルのための例示的なフレームを示す図である。ビットストリーム４５０は、１つまたは複数のチャネルをそれぞれ含み得るフレーム８１０Ａ〜８１０Ｈを含む。ビットストリーム４５０は、図７の例において示されたビットストリーム２１の１つの例であり得る。図８の例では、オーディオ復号デバイス２４は、状態情報を維持し、どのように現在のフレームｋを復号するかを決定するために、状態情報を更新する。オーディオ復号デバイス２４は、ｃｏｎｆｉｇ８１４からの状態情報と、フレーム８１０Ｂ〜８１０Ｄとを利用することができる。

[0196]言い換えれば、オーディオ符号化デバイス２０は、ビットストリーム生成ユニット４２が状態機械４０２に基づいてフレーム８１０Ａ〜８１０Ｅの各々のためのシンタックス要素を指定することができる点において、たとえば、ビットストリーム生成ユニット４２内で、フレーム８１０Ａ〜８１０Ｅの各々を符号化するための状態情報を維持する状態機械４０２を含み得る。

[0197]オーディオ復号デバイス２４は、たとえば、ビットストリーム抽出ユニット７２内で、状態機械４０２に基づいてシンタックス要素（その一部がビットストリーム２１において明示的に指定されない）を出力する同様の状態機械４０２を同様に含み得る。オーディオ復号デバイス２４の状態機械４０２は、オーディオ符号化デバイス２０の状態機械４０２の動作と同様の方法で動作することができる。したがって、オーディオ復号デバイス２４の状態機械４０２は、状態情報を維持し、ｃｏｎｆｉｇ８１４と、図８の例では、フレーム８１０Ｂ〜８１０Ｄの復号とに基づいて、状態情報を更新することができる。状態情報に基づいて、ビットストリーム抽出ユニット７２は、状態機械４０２によって維持された状態情報に基づいて、フレーム８１０Ｅを抽出することができる。状態情報は、オーディオ符号化デバイス２０がフレーム８１０Ｅの様々なトランスポートチャネルを復号するときに利用することができる、いくつかの暗黙的なシンタックス要素を与えることができる。

[0198]上記の技法は、任意の数の異なる状況およびオーディオエコシステムに関して実行され得る。いくつかの例示的な状況が以下で説明されるが、本技法はそれらの例示的な状況に限定されるべきではない。１つの例示的なオーディオエコシステムは、オーディオコンテンツと、映画スタジオと、音楽スタジオと、ゲーミングオーディオスタジオと、チャネルベースオーディオコンテンツと、コーディングエンジンと、ゲームオーディオステムと、ゲームオーディオコーディング／レンダリングエンジンと、配信システムとを含み得る。

[0199]映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信することができる。いくつかの例では、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション（ＤＡＷ）を使用することなどによって、（たとえば、２．０、５．１、および７．１の）チャネルベースオーディオコンテンツを出力することができる。音楽スタジオは、ＤＡＷを使用することなどによって、（たとえば、２．０、および５．１の）チャネルベースオーディオコンテンツを出力することができる。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、チャネルベースオーディオコンテンツベースの１つまたは複数のコーデック（たとえば、ＡＡＣ、ＡＣ３、ＤｏｌｂｙＴｒｕｅＨＤ、ＤｏｌｂｙＤｉｇｉｔａｌＰｌｕｓ、およびＤＴＳＭａｓｔｅｒＡｕｄｉｏ）を受信し符号化することができる。ゲーミングオーディオスタジオは、ＤＡＷを使用することなどによって、１つまたは複数のゲームオーディオステムを出力することができる。ゲームオーディオコーディング／レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングすることができる。本技法が実行され得る別の例示的な状況は、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、ＨＯＡオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、ＴＶ、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。

[0200]放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、ＨＯＡオーディオフォーマットを使用して、それらの出力をコーディングすることができる。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、ＴＶ、およびアクセサリ、ならびにカーオーディオシステムを使用して再生され得る単一の表現へと、ＨＯＡオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム１６など、汎用的なオーディオ再生システムにおいて（すなわち、５．１、７．１などの特定の構成を必要とすることとは対照的に）再生され得る。

[0201]本技法が実行され得る状況の他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、有線および／またはワイヤレス獲得デバイス（たとえば、Ｅｉｇｅｎマイクロフォン）、オンデバイスサラウンドサウンドキャプチャ、ならびにモバイルデバイス（たとえば、スマートフォンおよびタブレット）を含み得る。いくつかの例では、有線および／またはワイヤレス獲得デバイスは、有線および／またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。

[0202]本開示の１つまたは複数の技法によれば、モバイルデバイスが音場を獲得するために使用され得る。たとえば、モバイルデバイスは、有線および／もしくはワイヤレス獲得デバイス、ならびに／またはオンデバイスサラウンドサウンドキャプチャ（たとえば、モバイルデバイスに統合された複数のマイクロフォン）を介して、音場を獲得することができる。モバイルデバイスは次いで、再生要素のうちの１つまたは複数による再生のために、獲得された音場をＨＯＡ係数へとコーディングすることができる。たとえば、モバイルデバイスのユーザは、ライブイベント（たとえば、会合、会議、劇、コンサートなど）を録音し（その音場を獲得し）、録音をＨＯＡ係数へとコーディングすることができる。

[0203]モバイルデバイスはまた、ＨＯＡコーディングされた音場を再生するために、再生要素のうちの１つまたは複数を利用することができる。たとえば、モバイルデバイスは、ＨＯＡコーディングされた音場を復号し、再生要素のうちの１つまたは複数に信号を出力することができ、このことは再生要素のうちの１つまたは複数に音場を再作成させる。一例として、モバイルデバイスは、１つまたは複数のスピーカー（たとえば、スピーカーアレイ、サウンドバーなど）に信号を出力するために、ワイヤレスおよび／またはワイヤレス通信チャネルを利用することができる。別の例として、モバイルデバイスは、１つもしくは複数のドッキングステーションおよび／または１つもしくは複数のドッキングされたスピーカー（たとえば、スマート自動車および／またはスマート住宅の中のサウンドシステム）に信号を出力するために、ドッキング解決手段を利用することができる。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、たとえばリアルなバイノーラルサウンドを作成するために、ヘッドフォンレンダリングを利用することができる。

[0204]いくつかの例では、特定のモバイルデバイスは、３Ｄ音場を獲得することと、より後の時間に同じ３Ｄ音場を再生することの両方を行うことができる。いくつかの例では、モバイルデバイスは、３Ｄ音場を獲得し、３Ｄ音場をＨＯＡへと符号化し、符号化された３Ｄ音場を再生のために１つまたは複数の他のデバイス（たとえば、他のモバイルデバイスおよび／または他の非モバイルデバイス）に送信することができる。

[0205]本技法が実行され得るＹまた別の状況は、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、ＨＯＡ信号の編集をサポートし得る１つまたは複数のＤＡＷを含み得る。たとえば、１つまたは複数のＤＡＷは、１つまたは複数のゲームオーディオシステムとともに動作する（たとえば、機能する）ように構成され得る、ＨＯＡプラグインおよび／またはツールを含み得る。いくつかの例では、ゲームスタジオは、ＨＯＡをサポートする新しいステムフォーマットを出力することができる。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングすることができるレンダリングエンジンに、コーディングされたオーディオコンテンツを出力することができる。

[0206]本技法はまた、例示的なオーディオ獲得デバイスに関して実行され得る。たとえば、本技法は、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る、Ｅｉｇｅｎマイクロフォンに関して実行され得る。いくつかの例では、Ｅｉｇｅｎマイクロフォンの複数のマイクロフォンは、約４ｃｍの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例では、オーディオ符号化デバイス２０は、マイクロフォンから直接ビットストリーム２１を出力するために、Ｅｉｇｅｎマイクロフォンに統合され得る。

[0207]別の例示的なオーディオ獲得状況は、１つまたは複数のＥｉｇｅｎマイクロフォンなど、１つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図３のオーディオ符号化器２０などのオーディオ符号化器を含み得る。

[0208]モバイルデバイスはまた、いくつかの場合には、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、Ｘ、Ｙ、Ｚのダイバーシティを有し得る。いくつかの例では、モバイルデバイスは、モバイルデバイスの１つまたは複数の他のマイクロフォンに関してＸ、Ｙ、Ｚのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図３のオーディオ符号化器２０などのオーディオ符号化器を含み得る。

[0209]耐衝撃性のビデオキャプチャデバイスは、３Ｄ音場を録音するようにさらに構成され得る。いくつかの例では、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。たとえば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周りのすべての活動（たとえば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など）を表す３Ｄ音場をキャプチャすることができる。

[0210]本技法はまた、３Ｄ音場を録音するように構成され得る、アクセサリで増強されたモバイルデバイスに関して実行され得る。いくつかの例では、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、１つまたは複数のアクセサリが追加されている。たとえば、Ｅｉｇｅｎマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述されたモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの３Ｄ音場をキャプチャすることができる。

[0211]本開示で説明される本技法の様々な態様を実行することができる例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の１つまたは複数の技法によれば、スピーカーおよび／またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として３Ｄ音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、有線接続またはワイヤレス接続のいずれかを介して復号器２４に結合され得る。本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。

[0212]いくつかの異なる例示的なオーディオ再生環境はまた、本開示で説明される技法の様々な態様を実行するために好適であり得る。たとえば、５．１スピーカー再生環境、２．０（たとえば、ステレオ）スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う９．１スピーカー再生環境、２２．２スピーカー再生環境、１６．０スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を実行するために好適な環境であり得る。

[0213]本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダードが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。たとえば、設計上の考慮事項が、７．１スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合（たとえば、右側のサラウンドスピーカーを配置することが可能ではない場合）、本開示の技法は、再生が６．１スピーカー再生環境で達成され得るように、レンダーが他の６つのスピーカーとともに補償することを可能にする。

[0214]その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見ることができる。本開示の１つまたは複数の技法によれば、スポーツの試合の３Ｄ音場が獲得され得（たとえば、１つまたは複数のＥｉｇｅｎマイクロフォンが野球場の中および／または周りに配置され得）、３Ｄ音場に対応するＨＯＡ係数が取得され復号器に送信され得、復号器がＨＯＡ係数に基づいて３Ｄ音場を再構成して、再構成された３Ｄ音場をレンダラに出力することができ、レンダラが再生環境のタイプ（たとえば、ヘッドフォン）についての指示を取得し、再構成された３Ｄ音場を、ヘッドフォンにスポーツの試合の３Ｄ音場の表現を出力させる信号へとレンダリングすることができる。

[0215]上記で説明された様々な場合の各々において、オーディオ符号化デバイス２０は、ある方法を実行し、またはさもなければ、オーディオ符号化デバイス２０が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの場合には、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ符号化デバイス２０が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0216]１つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体上の１つまたは複数の命令またはコード上に記憶され、またはこれを介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実装のために命令、コードおよび／またはデータ構造を取り出すために、１つまたは複数のコンピュータあるいは１つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0217]同様に、上記で説明された様々な場合の各々において、オーディオ復号デバイス２４は、ある方法を実行し、またはさもなければ、オーディオ復号デバイス２４が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの場合には、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ復号デバイス２４が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0218]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ここで、ディスク（disk）は、通常、データを磁気的に再生し、一方、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲の中に含まれるべきである。

[0219]命令は、１つもしくは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは他の同等の集積回路またはディスクリート論理回路などの１つもしくは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成されるか、または複合コーデックに組み込まれる、専用のハードウェアモジュールおよび／またはソフトウェアモジュール内で提供され得る。また、本技法は、１つもしくは複数の回路または論理要素で十分に実装され得る。

[0220]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）もしくはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置で実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットが説明されるが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、上で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記の１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。

[0221]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。

[0221]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
効率的なビット使用の方法であって、
球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得することを備え、前記ビットストリームは、前記ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータをさらに備える、
方法。
［Ｃ２］
前記インジケータは、前記ベクトルを圧縮するときに使用される量子化モードを示すシンタックス要素の１つまたは複数のビットを備える、
Ｃ１に記載の方法。
［Ｃ３］
前記シンタックス要素の前記１つまたは複数のビットは、ゼロ値に設定されるとき、前記以前のフレームからの前記少なくとも１つのシンタックス要素を再使用することを示す、
Ｃ２に記載の方法。
［Ｃ４］
前記量子化モードは、ベクトル量子化モードを備える、
Ｃ２に記載の方法。
［Ｃ５］
前記量子化モードは、ハフマンコーディングなしのスカラー量子化モードを備える、
Ｃ２に記載の方法。
［Ｃ６］
前記量子化モードは、ハフマンコーディングありのスカラー量子化モードを備える、
Ｃ２に記載の方法。
［Ｃ７］
前記シンタックス要素の一部分は、前記シンタックス要素の最上位ビットと前記シンタックス要素の第２の最上位ビットとを備える、
Ｃ２に記載の方法。
［Ｃ８］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用される以前のモードを示すシンタックス要素を備える、
Ｃ１に記載の方法。
［Ｃ９］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるハフマンテーブルを示すシンタックス要素を備える、
Ｃ１に記載の方法。
［Ｃ１０］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルが対応する圧縮カテゴリーを識別するカテゴリー識別子を示すシンタックス要素を備える、
Ｃ１に記載の方法。
［Ｃ１１］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルの要素が正の値であるか負の値であるかを示すシンタックス要素を備える、
Ｃ１に記載の方法。
［Ｃ１２］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるコード化ベクトルの数を示すシンタックス要素を備える、
Ｃ１に記載の方法。
［Ｃ１３］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるベクトル量子化コードブックを示す前記以前のフレームからのシンタックス要素を備える、
Ｃ１に記載の方法。
［Ｃ１４］
前記ベクトルの前記圧縮されたバージョンは、前記ベクトルの要素の残差値を表すために、少なくとも部分的に、ハフマンコードを使用して前記ビットストリームにおいて表される、
Ｃ１に記載の方法。
［Ｃ１５］
前記ベクトルを取得するために高次アンビソニックオーディオデータを分解することと、
前記ビットストリームを取得するために前記ビットストリームにおける前記ベクトルを指定することと
をさらに備える、Ｃ１に記載の方法。
［Ｃ１６］
前記ベクトルに対応するオーディオオブジェクトを、前記ビットストリームから、取得することと、
高次アンビソニックオーディオデータを再構成するために、前記ベクトルと前記オーディオオブジェクトを組み合わせることと
をさらに備える、Ｃ１に記載の方法。
［Ｃ１７］
前記ベクトルの前記圧縮は、前記ベクトルの量子化を含む、
Ｃ１に記載の方法。
［Ｃ１８］
効率的なビット使用を実行するように構成されたデバイスであって、
球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得すること、ここにおいて、前記ビットストリームは、前記ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータをさらに備える、と、
前記ビットストリームを記憶するように構成されるメモリと
を備える、デバイス。
［Ｃ１９］
前記インジケータは、前記ベクトルを圧縮するときに使用される量子化モードを示すシンタックス要素の１つまたは複数のビットを備える、
Ｃ１８に記載のデバイス。
［Ｃ２０］
前記シンタックス要素の前記１つまたは複数のビットは、ゼロ値に設定されるとき、前記以前のフレームからの前記少なくとも１つのシンタックス要素を再使用することを示す、
Ｃ１９に記載のデバイス。
［Ｃ２１］
前記量子化モードは、ベクトル量子化モードを備える、
Ｃ１９に記載のデバイス。
［Ｃ２２］
前記量子化モードは、ハフマンコーディングなしのスカラー量子化モードを備える、
Ｃ１９に記載のデバイス。
［Ｃ２３］
前記量子化モードは、ハフマンコーディングありのスカラー量子化モードを備える、
Ｃ１９に記載のデバイス。
［Ｃ２４］
前記シンタックス要素の一部分は、前記シンタックス要素の最上位ビットと前記シンタックス要素の第２の最上位ビットとを備える、
Ｃ１９に記載のデバイス。
［Ｃ２５］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用される以前のモードを示すシンタックス要素を備える、
Ｃ１８に記載のデバイス。
［Ｃ２６］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるハフマンテーブルを示すシンタックス要素を備える、
Ｃ１８に記載のデバイス。
［Ｃ２７］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるハフマンテーブルを示すシンタックス要素を備える、
Ｃ１８に記載のデバイス。
［Ｃ２８］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルの要素が正の値であるか負の値であるかを示すシンタックス要素を備える、
Ｃ１８に記載のデバイス。
［Ｃ２９］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるコード化ベクトルの数を示すシンタックス要素を備える、
Ｃ１８に記載のデバイス。
［Ｃ３０］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるベクトル量子化コードブックを示す前記以前のフレームからのシンタックス要素を備える、
Ｃ１８に記載のデバイス。
［Ｃ３１］
前記ベクトルの前記圧縮されたバージョンは、前記ベクトルの要素の残差値を表すために、少なくとも部分的に、ハフマンコードを使用して前記ビットストリームにおいて表される、
Ｃ１８に記載のデバイス。
［Ｃ３２］
前記１つまたは複数のプロセッサは、前記ベクトルを取得するために高次アンビソニックオーディオデータを分解することと、前記ビットストリームを取得するために前記ビットストリームにおける前記ベクトルを指定することとを行うようにさらに構成される、
Ｃ１８に記載のデバイス。
［Ｃ３３］
前記１つまたは複数のプロセッサは、前記ベクトルに対応するオーディオオブジェクトを、前記ビットストリームから、取得することと、高次アンビソニックオーディオデータを再構成するために、前記ベクトルと前記オーディオオブジェクトを組み合わせることとを行うようにさらに構成される、
Ｃ１に記載の方法。
［Ｃ３４］
前記ベクトルの前記圧縮は、前記ベクトルの量子化を含む、
Ｃ１８に記載のデバイス。
［Ｃ３５］
効率的なビット使用のデバイスであって、
球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得するための手段、ここにおいて、前記ビットストリームは、前記ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータをさらに備える、と、
前記インジケータを記憶するための手段と
を備える、デバイス。
［Ｃ３６］
前記インジケータは、前記ベクトルを圧縮するときに使用される量子化モードを示すシンタックス要素の１つまたは複数のビットを備える、
Ｃ３５に記載のデバイス。
［Ｃ３７］
前記シンタックス要素の前記１つまたは複数のビットは、ゼロ値に設定されるとき、前記以前のフレームからの前記少なくとも１つのシンタックス要素を再使用することを示す、
Ｃ３６に記載のデバイス。
［Ｃ３８］
前記量子化モードは、ベクトル量子化モードを備える、
Ｃ３６に記載のデバイス。
［Ｃ３９］
前記量子化モードは、ハフマンコーディングなしのスカラー量子化モードを備える、
Ｃ３６に記載のデバイス。
［Ｃ４０］
前記量子化モードは、ハフマンコーディングありのスカラー量子化モードを備える、
Ｃ３６に記載のデバイス。
［Ｃ４１］
前記シンタックス要素の一部分は、前記シンタックス要素の最上位ビットと前記シンタックス要素の第２の最上位ビットとを備える、
Ｃ３６に記載のデバイス。
［Ｃ４２］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用される以前のモードを示すシンタックス要素を備える、
Ｃ３５に記載のデバイス。
［Ｃ４３］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるハフマンテーブルを示すシンタックス要素を備える、
Ｃ３５に記載のデバイス。
［Ｃ４４］
前記以前のフレームからの前記シンタックス要素は、ベクトルが対応する圧縮カテゴリーを識別するカテゴリー識別子を示すシンタックス要素を備える、
Ｃ３５に記載のデバイス。
［Ｃ４５］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルの要素が正の値であるか負の値であるかを示すシンタックス要素を備える、
Ｃ３５に記載のデバイス。
［Ｃ４６］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるコード化ベクトルの数を示すシンタックス要素を備える、
Ｃ３５に記載のデバイス。
［Ｃ４７］
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるベクトル量子化コードブックを示す前記以前のフレームからのシンタックス要素を備える、
Ｃ３５に記載のデバイス。
［Ｃ４８］
前記ベクトルの前記圧縮されたバージョンは、前記ベクトルの要素の残差値を表すために、少なくとも部分的に、ハフマンコードを使用して前記ビットストリームにおいて表される、
Ｃ３５に記載のデバイス。
［Ｃ４９］
前記ベクトルを取得するために高次アンビソニックオーディオデータを分解するための手段と、
前記ビットストリームを取得するために前記ビットストリームにおける前記ベクトルを指定するための手段と
をさらに備える、Ｃ３５に記載のデバイス。
［Ｃ５０］
前記ベクトルに対応するオーディオオブジェクトを、前記ビットストリームから、取得するための手段と、
高次アンビソニックオーディオデータを再構成するために、前記ベクトルと前記オーディオオブジェクトを組み合わせるための手段と
をさらに備える、Ｃ３５に記載のデバイス。
［Ｃ５１］
前記ベクトルの前記圧縮は、前記ベクトルの量子化を含む、
Ｃ３５に記載のデバイス。
［Ｃ５２］
実行されると、１つまたは複数のプロセッサに、
球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得することを行わせる命令を記憶し、前記ビットストリームは、前記ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータをさらに備える、
非一時的コンピュータ可読記憶媒体。

Claims

効率的なビット使用の方法であって、
球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得することを備え、前記ビットストリームは、前記ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータをさらに備える、
方法。
前記インジケータは、前記ベクトルを圧縮するときに使用される量子化モードを示すシンタックス要素の１つまたは複数のビットを備える、
請求項１に記載の方法。
前記シンタックス要素の前記１つまたは複数のビットは、ゼロ値に設定されるとき、前記以前のフレームからの前記少なくとも１つのシンタックス要素を再使用することを示す、
請求項２に記載の方法。
前記量子化モードは、ベクトル量子化モードを備える、
請求項２に記載の方法。
前記量子化モードは、ハフマンコーディングなしのスカラー量子化モードを備える、
請求項２に記載の方法。
前記量子化モードは、ハフマンコーディングありのスカラー量子化モードを備える、
請求項２に記載の方法。
前記シンタックス要素の一部分は、前記シンタックス要素の最上位ビットと前記シンタックス要素の第２の最上位ビットとを備える、
請求項２に記載の方法。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用される以前のモードを示すシンタックス要素を備える、
請求項１に記載の方法。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるハフマンテーブルを示すシンタックス要素を備える、
請求項１に記載の方法。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルが対応する圧縮カテゴリーを識別するカテゴリー識別子を示すシンタックス要素を備える、
請求項１に記載の方法。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルの要素が正の値であるか負の値であるかを示すシンタックス要素を備える、
請求項１に記載の方法。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるコード化ベクトルの数を示すシンタックス要素を備える、
請求項１に記載の方法。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるベクトル量子化コードブックを示す前記以前のフレームからのシンタックス要素を備える、
請求項１に記載の方法。
前記ベクトルの前記圧縮されたバージョンは、前記ベクトルの要素の残差値を表すために、少なくとも部分的に、ハフマンコードを使用して前記ビットストリームにおいて表される、
請求項１に記載の方法。
前記ベクトルを取得するために高次アンビソニックオーディオデータを分解することと、
前記ビットストリームを取得するために前記ビットストリームにおける前記ベクトルを指定することと
をさらに備える、請求項１に記載の方法。
前記ベクトルに対応するオーディオオブジェクトを、前記ビットストリームから、取得することと、
高次アンビソニックオーディオデータを再構成するために、前記ベクトルと前記オーディオオブジェクトを組み合わせることと
をさらに備える、請求項１に記載の方法。
前記ベクトルの前記圧縮は、前記ベクトルの量子化を含む、
請求項１に記載の方法。
効率的なビット使用を実行するように構成されたデバイスであって、
球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得すること、ここにおいて、前記ビットストリームは、前記ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータをさらに備える、と、
前記ビットストリームを記憶するように構成されるメモリと
を備える、デバイス。
前記インジケータは、前記ベクトルを圧縮するときに使用される量子化モードを示すシンタックス要素の１つまたは複数のビットを備える、
請求項１８に記載のデバイス。
前記シンタックス要素の前記１つまたは複数のビットは、ゼロ値に設定されるとき、前記以前のフレームからの前記少なくとも１つのシンタックス要素を再使用することを示す、
請求項１９に記載のデバイス。
前記量子化モードは、ベクトル量子化モードを備える、
請求項１９に記載のデバイス。
前記量子化モードは、ハフマンコーディングなしのスカラー量子化モードを備える、
請求項１９に記載のデバイス。
前記量子化モードは、ハフマンコーディングありのスカラー量子化モードを備える、
請求項１９に記載のデバイス。
前記シンタックス要素の一部分は、前記シンタックス要素の最上位ビットと前記シンタックス要素の第２の最上位ビットとを備える、
請求項１９に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用される以前のモードを示すシンタックス要素を備える、
請求項１８に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるハフマンテーブルを示すシンタックス要素を備える、
請求項１８に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるハフマンテーブルを示すシンタックス要素を備える、
請求項１８に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルの要素が正の値であるか負の値であるかを示すシンタックス要素を備える、
請求項１８に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるコード化ベクトルの数を示すシンタックス要素を備える、
請求項１８に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるベクトル量子化コードブックを示す前記以前のフレームからのシンタックス要素を備える、
請求項１８に記載のデバイス。
前記ベクトルの前記圧縮されたバージョンは、前記ベクトルの要素の残差値を表すために、少なくとも部分的に、ハフマンコードを使用して前記ビットストリームにおいて表される、
請求項１８に記載のデバイス。
前記１つまたは複数のプロセッサは、前記ベクトルを取得するために高次アンビソニックオーディオデータを分解することと、前記ビットストリームを取得するために前記ビットストリームにおける前記ベクトルを指定することとを行うようにさらに構成される、
請求項１８に記載のデバイス。
前記１つまたは複数のプロセッサは、前記ベクトルに対応するオーディオオブジェクトを、前記ビットストリームから、取得することと、高次アンビソニックオーディオデータを再構成するために、前記ベクトルと前記オーディオオブジェクトを組み合わせることとを行うようにさらに構成される、
請求項１に記載の方法。
前記ベクトルの前記圧縮は、前記ベクトルの量子化を含む、
請求項１８に記載のデバイス。
効率的なビット使用のデバイスであって、
球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得するための手段、ここにおいて、前記ビットストリームは、前記ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータをさらに備える、と、
前記インジケータを記憶するための手段と
を備える、デバイス。
前記インジケータは、前記ベクトルを圧縮するときに使用される量子化モードを示すシンタックス要素の１つまたは複数のビットを備える、
請求項３５に記載のデバイス。
前記シンタックス要素の前記１つまたは複数のビットは、ゼロ値に設定されるとき、前記以前のフレームからの前記少なくとも１つのシンタックス要素を再使用することを示す、
請求項３６に記載のデバイス。
前記量子化モードは、ベクトル量子化モードを備える、
請求項３６に記載のデバイス。
前記量子化モードは、ハフマンコーディングなしのスカラー量子化モードを備える、
請求項３６に記載のデバイス。
前記量子化モードは、ハフマンコーディングありのスカラー量子化モードを備える、
請求項３６に記載のデバイス。
前記シンタックス要素の一部分は、前記シンタックス要素の最上位ビットと前記シンタックス要素の第２の最上位ビットとを備える、
請求項３６に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用される以前のモードを示すシンタックス要素を備える、
請求項３５に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるハフマンテーブルを示すシンタックス要素を備える、
請求項３５に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、ベクトルが対応する圧縮カテゴリーを識別するカテゴリー識別子を示すシンタックス要素を備える、
請求項３５に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルの要素が正の値であるか負の値であるかを示すシンタックス要素を備える、
請求項３５に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるコード化ベクトルの数を示すシンタックス要素を備える、
請求項３５に記載のデバイス。
前記以前のフレームからの前記シンタックス要素は、前記ベクトルを圧縮するときに使用されるベクトル量子化コードブックを示す前記以前のフレームからのシンタックス要素を備える、
請求項３５に記載のデバイス。
前記ベクトルの前記圧縮されたバージョンは、前記ベクトルの要素の残差値を表すために、少なくとも部分的に、ハフマンコードを使用して前記ビットストリームにおいて表される、
請求項３５に記載のデバイス。
前記ベクトルを取得するために高次アンビソニックオーディオデータを分解するための手段と、
前記ビットストリームを取得するために前記ビットストリームにおける前記ベクトルを指定するための手段と
をさらに備える、請求項３５に記載のデバイス。
前記ベクトルに対応するオーディオオブジェクトを、前記ビットストリームから、取得するための手段と、
高次アンビソニックオーディオデータを再構成するために、前記ベクトルと前記オーディオオブジェクトを組み合わせるための手段と
をさらに備える、請求項３５に記載のデバイス。
前記ベクトルの前記圧縮は、前記ベクトルの量子化を含む、
請求項３５に記載のデバイス。
実行されると、１つまたは複数のプロセッサに、
球面調和関数領域における直交空間軸を表すベクトルを備えるビットストリームを取得することを行わせる命令を記憶し、前記ビットストリームは、前記ベクトルを圧縮するときに使用される情報を示す少なくとも１つのシンタックス要素を、以前のフレームから、再使用するかどうかのためのインジケータをさらに備える、
非一時的コンピュータ可読記憶媒体。