JP2022543083A

JP2022543083A - Ｉｖａｓビットストリームの符号化および復号化

Info

Publication number: JP2022543083A
Application number: JP2022506569A
Authority: JP
Inventors: ティアギ，リシャブ; フェリクストーレス，フアン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-08-01
Filing date: 2020-07-30
Publication date: 2022-10-07
Also published as: CA3146169A1; BR112022000230A2; CL2022000206A1; TW202121399A; AU2020320270A1; KR20220042166A; CN114175151A; US20220284910A1; EP4008000A1; MX2022001152A; IL289449A; WO2021022087A1

Abstract

没入型音声オーディオサービス（ＩＶＡＳ）ビットストリームを符号化／復号化することが、ＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内の符号化モードインジケーターを符号化／復号化することと、ビットストリームのツールヘッダー（ＴＨ）セクション内のモードヘッダーまたはツールヘッダーを符号化／復号化することであって、ＴＨセクションはＣＨセクションの後に続くことと、ビットストリームのメタデータペイロード（ＭＤＰ）セクション内のメタデータペイロードを符号化／復号化することであって、ＭＤＰセクションはＣＨセクションの後に続くことと、ビットストリームのＥＶＳペイロード（ＥＰ）セクション内の拡張型音声サービス（ＥＶＳ）ペイロードを符号化／復号化することであって、ＥＰセクションはＣＨセクションの後に続くことと、エンコーダー側において、符号化されたビットストリームを記憶またはストリーミングすることと、デコーダー側において、符号化モード、ツールヘッダー、ＥＶＳペイロード、およびメタデータペイロードに基づいてオーディオデコーダーを制御することまたはそれらの表現を記憶することとを含む。
【選択図】図２

Description

［関連出願の相互参照］
本出願は、２０１９年８月１日に出願された米国仮出願第６２／８８１，５４１号、２０１９年１０月３０日に出願された米国仮出願第６２／９２７，８９４号、２０２０年６月１１日に出願された米国仮出願第６３／０３７，７２１号、および２０２０年７月２８日に出願された米国仮出願第６３／０５７，６６６号の優先権を主張する。これらの米国仮出願の全体の開示内容は、本願において参考のため援用する。

本開示は、包括的には、オーディオビットストリームの符号化および復号化に関する。

音声およびビデオのエンコーダー／デコーダー（「コーデック」）の規格開発は、近年、没入型音声オーディオサービス（ＩＶＡＳ：immersive voice and audio service）のコーデックの開発に焦点を当てている。ＩＶＡＳは、様々なオーディオサービス能力をサポートすることが期待されている。これらのオーディオサービス能力には、モノラルからステレオへのアップミックス（upmixing：アップミキシング）ならびに完全没入型オーディオ符号化、復号化およびレンダリングが含まれるが、これらに限定されるものではない。ＩＶＡＳは、広範囲のデバイス、エンドポイント、およびネットワークノードによってサポートされることが意図されている。これらの広範囲のデバイス、エンドポイント、およびネットワークには、モバイルフォンおよびスマートフォン、電子タブレット、パーソナルコンピューター、会議電話、会議室、仮想現実（ＶＲ：virtual reality）デバイスおよび拡張現実（ＡＲ：augmented reality）デバイス、ホームシアターデバイス、ならびに他の適したデバイスが含まれるが、これらに限定されるものではない。これらのデバイス、エンドポイントおよびネットワークノードは、音のキャプチャーおよびレンダリング用の様々な音響インターフェースを有することができる。

ＩＶＡＳビットストリームを符号化および復号化する実施態様が開示される。

いくつかの実施態様において、オーディオ信号のビットストリームを生成する方法は、没入型音声オーディオサービス（ＩＶＡＳ）エンコーダーを使用して、符号化モードインジケーターまたは符号化ツールインジケーターを求めることであって、前記符号化モードインジケーターまたは前記符号化ツールインジケーターは、前記オーディオ信号の符号化モードまたは符号化ツールを示すことと、前記ＩＶＡＳエンコーダーを使用して、前記符号化モードインジケーターまたは前記符号化ツールインジケーターをＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内に符号化することと、前記ＩＶＡＳエンコーダーを使用して、モードヘッダーまたはツールヘッダーを求めることと、前記ＩＶＡＳエンコーダーを使用して、前記モードヘッダーまたは前記ツールヘッダーを前記ＩＶＡＳビットストリームのツールヘッダー（ＴＨ）セクション内に符号化することであって、該ＴＨセクションは前記ＣＨセクションの後に続くことと、前記ＩＶＡＳエンコーダーを使用して、空間メタデータを含むメタデータペイロードを求めることと、前記ＩＶＡＳエンコーダーを使用して、前記メタデータペイロードを前記ＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクション内に符号化することであって、該ＭＤＰセクションは、前記ＣＨセクションの後に続くことと、前記ＩＶＡＳエンコーダーを使用して、拡張型音声サービス（ＥＶＳ）ペイロードを求めることであって、該ＥＶＳペイロードは、前記オーディオ信号の各チャネルまたは各ダウンミックスチャネルのＥＶＳ符号化ビットを含むことと、前記ＩＶＡＳエンコーダーを使用して、前記ＥＶＳペイロードを前記ＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクション内に符号化することであって、該ＥＰセクションは前記ＣＨセクションの後に続くこととを含む。

いくつかの実施態様において、前記ＩＶＡＳビットストリームは非一時的コンピューター可読媒体上に記憶される。他の実施態様において、前記ＩＶＡＳビットストリームは下流デバイスにストリーミングされ、前記符号化モードまたは前記符号化ツールインジケーター、前記モードヘッダーまたは前記ツールヘッダー、前記メタデータペイロードおよび前記ＥＶＳペイロードは、前記下流デバイスまたは別のデバイスにおける前記オーディオ信号の再構成に使用するために、前記ＩＶＡＳビットストリームの前記ＣＨセクション、前記ＴＨセクション、前記ＭＤＰセクションおよび前記ＥＰセクションからそれぞれ抽出されて復号化される。

いくつかの実施態様において、オーディオ信号のビットストリームを復号化する方法は、没入型音声オーディオサービス（ＩＶＡＳ）デコーダーを使用して、ＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内の符号化モードインジケーターまたは符号化ツールインジケーターを抽出して復号化することであって、前記符号化モードインジケーターまたは前記符号化ツールインジケーターは、前記オーディオ信号の符号化モードまたは符号化ツールを示すことと、前記ＩＶＡＳデコーダーを使用して、前記ＩＶＡＳビットストリームの前記ツールヘッダー（ＴＨ）セクション内のモードヘッダーまたはツールヘッダーを抽出して復号化することであって、該ＴＨセクションは前記ＣＨセクションの後に続くことと、前記ＩＶＡＳデコーダーを使用して、メタデータペイロードを前記ＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクションから抽出して復号化することであって、該ＭＤＰセクションは前記ＣＨセクションの後に続き、前記メタデータペイロードは空間メタデータを含むことと、前記ＩＶＡＳデコーダーを使用して、拡張型音声サービス（ＥＶＳ）ペイロードを前記ＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクションから抽出して復号化することであって、該ＥＰセクションは前記ＣＨセクションの後に続き、前記ＥＶＳペイロードは、前記オーディオ信号の各チャネルまたは各ダウンミックスチャネルのＥＶＳ符号化ビットを含むこととを含む。

いくつかの実施態様において、下流デバイスまたは別のデバイスにおける前記オーディオ信号の再構成に使用するための該下流デバイスのオーディオデコーダーが、前記符号化モードインジケーターもしくは前記符号化ツールインジケーター、前記モードヘッダーもしくは前記ツールヘッダー、前記ＥＶＳペイロード、および前記メタデータペイロードに基づいて制御される。他の実施態様において、前記符号化モードインジケーターもしくは前記符号化ツールインジケーター、前記モードヘッダーもしくは前記ツールヘッダー、前記ＥＶＳペイロード、および前記メタデータペイロードの表現(representation)が非一時的コンピューター可読媒体上に記憶する。

いくつかの実施態様において、各ＥＶＳ符号化チャネルまたは各ダウンミックスチャネルのビットレートは、ＥＶＳの利用可能な全ビット、ＳＰＡＲビットレート分布制御テーブルおよびビットレート分布アルゴリズムによって求められる。

いくつかの実施態様において、前記ＣＨはマルチビットデータ構造体であり、該マルチビットデータ構造体の１つの値は、空間再構成（ＳＰＡＲ）符号化モードに対応し、該データ構造体の他の値は、他の符号化モードに対応する。

いくつかの実施態様において、上記方法は、空間再構成（ＳＰＡＲ）ビットレート分布制御テーブルの行インデックスを計算するためのインデックスオフセットをそれぞれ前記ＩＶＡＳビットストリームの前記ＴＨセクションに記憶することまたは前記ＴＨセクションから読み出すことを更に含む。

いくつかの実施態様において、上記方法は、量子化ストラテジーインジケーターと、ビットストリーム符号化ストラテジーインジケーターと、係数のセットの量子化および符号化された実部および虚部とを、それぞれ前記ＩＶＡＳビットストリームの前記ＭＤＰセクションに記憶することまたは前記ＭＤＰセクションから読み出すことを更に含む。

いくつかの実施態様において、前記係数のセットは、予測係数、ダイレクト係数、対角実数係数および下三角複素係数を含む。

いくつかの実施態様において、前記予測係数は、エントロピー符号化に基づく可変ビット長であり、前記ダイレクト係数、前記対角実数係数および下三角複素係数は、ダウンミックス構成およびエントロピー符号化に基づく可変ビット長である。

いくつかの実施態様において、前記量子化ストラテジーインジケーターは、量子化ストラテジーを示すマルチビットデータ構造体である。

いくつかの実施態様において、前記ビットストリーム符号化ストラテジーインジケーターは、空間メタデータの帯域数および非差分（non-differential）エントロピー符号化方式または時間差分（time-differential）エントロピー符号化方式を示すマルチビットデータ構造体である。

いくつかの実施態様において、前記係数の前記量子化は、メタデータ量子化およびＥＶＳビットレート分布を含むＥＶＳビットレート分布制御ストラテジーに従う。

いくつかの実施態様において、上述の方法は、第３世代パートナーシッププロジェクト（３ＧＰＰ）技術仕様（ＴＳ）２６．４４５に従って、ＥＶＳインスタンスのＥＶＳペイロードを、それぞれ前記ＩＶＡＳビットストリームの前記ＥＰセクションに記憶すること、または、前記ＩＶＡＳビットストリームの前記ＥＰセクションから読み出すことを更に含む。

いくつかの実施態様において、上記方法は、前記ＩＶＡＳビットストリームからビットレートを求めることと、前記ＩＶＡＳビットストリームの空間再構成（ＳＰＡＲ）ツールヘッダー（ＴＨ）セクションからインデックスオフセットを読み出すことと、前記インデックスオフセットを使用して、前記ＳＰＡＲビットレート分布制御テーブルのテーブル行インデックスを求めることと、前記ＩＶＡＳビットストリームにおけるメタデータペイロード（ＭＤＰ）セクションから量子化ストラテジービットおよび符号化ストラテジービットを読み出すことと、前記量子化ストラテジービットおよび前記符号化ストラテジービットに基づいて、前記ＩＶＡＳビットストリームの前記ＭＤＰセクション内のＳＰＡＲ空間メタデータを量子化解除することと、利用可能な全ＥＶＳビット、およびＳＰＡＲビットレート分布制御テーブルを使用して、前記ＩＶＡＳビットストリームにおける各チャネルの拡張型音声サービス（ＥＶＳ）ビットレートを求めることと、前記ＥＶＳビットレートに基づいて前記ＩＶＡＳビットストリームの前記ＥＰセクションからＥＶＳ符号化ビットを読み出すことと、前記ＥＶＳビットを復号化することと、前記空間メタデータを復号化することと、前記復号化されたＥＶＳビットおよび前記復号化された空間メタデータを使用して、１次アンビソニックス（ＦｏＡ）出力を生成することとを更に含む。

本明細書に開示される他の実施態様は、システム、装置およびコンピューター可読媒体に関する。開示される実施態様の詳細は、添付図面および以下の説明において明らかにされる。他の特徴、目的および利点は、以下の説明、図面および特許請求の範囲から明らかである。

本明細書に開示される特定の実施態様は、次の利点のうちの１つ以上を提供する。開示されるＩＶＡＳビットストリームフォーマットは、様々なオーディオサービス能力をサポートする効率的でロバストなビットストリームフォーマットである。これらのオーディオサービス能力には、モノラルからステレオへのアップミックスならびに完全没入型オーディオ符号化、復号化およびレンダリングが含まれるが、これらに限定されるものではない。いくつかの実施態様において、ＩＶＡＳビットストリームフォーマットは、ステレオオーディオ信号を分析およびダウンミックス（downmixing：ダウンミキシング）するための複合アドバンスカップリング（ＣＡＣＰＬ：complex advance coupling）をサポートする。他の実施態様において、ＩＶＡＳビットストリームフォーマットは、１次アンビソニックス（ＦｏＡ：first order Ambisonics）オーディオ信号を分析およびダウンミックスする空間再構成（ＳＰＡＲ：spatial reconstruction）をサポートする。

図面において、デバイス、ユニット、命令ブロック、およびデータ要素を表す要素等の図的要素の特定の配列または順序付けは、説明を容易にするために示されている。しかしながら、図面におけるこれらの図的要素の特定の順序付けまたは配列は、処理に何らかの特定の順序またはシーケンスが必要とされていることも、プロセスの分離が必要とされていることも示唆しているものではないことが、当業者によって理解されるべきである。さらに、図的要素が図面に含まれているということは、そのような要素が全ての実施形態において必要とされることを示唆しているものでもなければ、そのような要素によって表される特徴部をいくつかの実施態様における他の要素に含めることができないことや他の要素と組み合わせることができないことを示唆しているものでもない。

さらに、図面において、実線もしくは破線または矢印等の接続要素が、２つ以上の他の図的要素間の接続、関係、または関連付けを示すのに用いられている場合、そのような接続の要素が不在の場合に、接続、関係、または関連付けが存在し得ないことを示唆するものではない。換言すれば、要素間のいくつかの接続、関係、または関連付けは、本開示を分かりにくくしないように図面に示されていない。加えて、図示を容易にするために、要素間の複数の接続、関係、または関連付けを表すのに、単一の接続要素が用いられる。例えば、接続要素が、信号、データ、または命令の通信を表す場合、そのような要素は、必要に応じて、通信を実施するための１つまたは複数の信号パスを表すことが当業者によって理解されるべきである。

一実施形態によるＩＶＡＳシステムを示す図である。

一実施形態による、ＩＶＡＳビットストリームを符号化および復号化するシステムのブロック図である。

一実施形態による、ＩＶＡＳビットストリームをＦｏＡフォーマットで符号化および復号化するＦｏＡコーダー／デコーダー（「コーデック」）のブロック図である。

一実施形態によるＩＶＡＳ符号化プロセスのフロー図である。

一実施形態による、代替のＩＶＡＳフォーマットを使用するＩＶＡＳ符号化プロセスのフロー図である。

一実施形態によるＩＶＡＳ復号化プロセスのフロー図である。

一実施形態による、代替のＩＶＡＳフォーマットを使用するＩＶＡＳ復号化プロセスのフロー図である。

一実施形態によるＩＶＡＳＳＰＡＲ符号化プロセスのフロー図である。

一実施形態によるＩＶＡＳＳＰＡＲ復号化プロセスのフロー図である。

一実施形態による一例示のデバイスアーキテクチャのブロック図である。

様々な図面において使用される同じ参照符号は、同様の要素を示す。

以下の詳細な説明において、説明される様々な実施形態の十分な理解を提供するために、非常に多くの具体的な詳細が述べられている。説明される様々な実施態様は、これらの具体的な詳細がなくても実施することができることが当業者には明らかである。それ以外の場合には、既知の方法、手順、構成要素、および回路は、実施形態の態様を不必要に不明瞭にしないように、詳細には説明されていない。互いに独立にまたは他の特徴の何らかの組み合わせでそれぞれ使用することができるいくつかの特徴が以下で説明される。

命名法
本明細書に使用されるような用語「含む」／「備える」（include）およびその変異形は、「～を含むが、～に限定されるものではない」を意味する非限定的（open-ended）用語として解釈されるべきである。用語「または」／「もしくは」（or）は、文脈上明らかに他の意味を示していない限り、「および／または（and/or）」と解釈されるべきである。用語「～に基づいて」（based on）は、「～に少なくとも部分的に基づいて」と解釈されるべきである。用語「１つの例示の実施態様」および「一例示の実施態様」は、「少なくとも１つの例示の実施態様」と解釈されるべきである。用語「別の実施態様」は、「少なくとも１つの別の実施態様」と解釈されるべきである。用語「求められる」（determined）、「求める」／「決定する」（determines, determining）は、「取得する」、「受信する」、「計算する」、「算出する」、「推定する」、「予測する」または「導出する」と解釈されるべきである。加えて、以下の説明および特許請求の範囲において、別段の定義がない限り、本明細書に使用される全ての技術用語および科学用語は、本開示が属する技術分野の当業者によって一般に理解されているものと同じ意味を有する。

ＩＶＡＳシステムの概略
図１は、１つ以上の実施態様によるＩＶＡＳシステム１００を示している。いくつかの実施態様において、様々なデバイスが、例えば、ＰＳＴＮ／他のＰＬＭＮ１０４によって示される公衆交換電話ネットワーク（ＰＳＴＮ：public switched telephone network）デバイスまたは公衆陸上移動ネットワーク（ＰＬＭＮ：public land mobile network）デバイスからオーディオ信号を受信するように構成されるコールサーバー１０２を通じて通信する。ＩＶＡＳシステム１００は、オーディオをモノラルのみでレンダリングおよびキャプチャーするようなレガシーデバイス１０６をサポートする。このレガシーデバイスは、拡張型音声サービス（ＥＶＳ：enhanced voice service）、マルチレート広帯域（ＡＭＲ－ＷＢ：multi-rate wideband）および適応マルチレート狭帯域（ＡＭＲ－ＮＢ：adaptive multi-rate narrowband）をサポートするデバイスを含むが、これに限定されるものではない。ＩＶＡＳシステム１００は、ステレオオーディオ信号をキャプチャーおよびレンダリングするユーザー機器（ＵＥ：user equipment）１０８、１１４、またはモノラル信号をキャプチャーし、マルチチャネル信号にバイノーラルでレンダリングするＵＥ１１０もサポートする。ＩＶＡＳシステム１００は、ビデオ会議室システム１１６、１１８によってそれぞれキャプチャーおよびレンダリングされる没入信号およびステレオ信号もサポートする。ＩＶＡＳシステム１００は、ホームシアターシステム用のステレオオーディオ信号のステレオキャプチャーおよび没入型レンダリング、ならびに、仮想現実（ＶＲ）ギア１２２および没入型コンテンツインジェスト（content ingest）１２４用のオーディオ信号のモノラルキャプチャーおよび没入型レンダリングもサポートする。

例示のＩＶＡＳ符号化／復号化システム
図２は、１つ以上の実施態様による、ＩＶＡＳビットストリームを符号化および復号化するシステム２００のブロック図である。符号化を行うために、ＩＶＡＳエンコーダーが、オーディオデータ２０１を受信する空間分析ダウンミックスユニット２０２を含む。このオーディオデータは、モノラル信号、ステレオ信号、バイノーラル信号、空間オーディオ信号（例えば、マルチチャネル空間オーディオオブジェクト）、ＦｏＡ、高次アンビソニックス（ＨｏＡ：higher order Ambisonics）および他の任意のオーディオデータを含むが、これらに限定されるものではない。いくつかの実施態様において、空間分析ダウンミックスユニット２０２は、ステレオオーディオ信号を分析／ダウンミックスするＣＡＣＰＬ、および／または、ＦｏＡオーディオ信号を分析／ダウンミックスするＳＰＡＲを実装する。他の実施態様において、空間分析ダウンミックスユニット２０２は、他のフォーマットを実装する。

空間分析ダウンミックスユニット２０２の出力は、空間メタデータ、および１－４チャネルのオーディオを含む。空間メタデータは、空間データを量子化およびエントロピー符号化する量子化エントロピー符号化ユニット２０３に入力される。いくつかの実施態様において、量子化は、精細な量子化ストラテジー、中程度の量子化ストラテジー、粗い量子化ストラテジーおよび極めて粗い量子化ストラテジーを含むことができ、エントロピー符号化は、ハフマン符号化または算術符号化を含むことができる。拡張型音声サービス（ＥＶＳ）符号化ユニット２０６は、１－４チャネルのオーディオを１つ以上のＥＶＳビットストリームに符号化する。

いくつかの実施態様において、ＥＶＳ符号化ユニット２０６は、３ＧＰＰＴＳ２６．４４５に準拠し、広範囲の機能、例えば狭帯域（ＥＶＳ－ＮＢ）音声サービスおよび広帯域（ＥＶＳ－ＷＢ）音声サービスの質の向上および符号化効率、超広帯域（ＥＶＳ－ＳＷＢ）音声を使用した質の向上、会話アプリケーションにおけるミックスされたコンテンツおよび音楽の質の向上、パケット損失および遅延ジッターに対するロバスト性、ならびにＡＭＲ－ＷＢコーデックへの後方互換性等を提供する。いくつかの実施態様において、ＥＶＳ符号化ユニット２０６は、モード／ビットレート制御部２０７に基づいて指定されたビットレートで音声信号を符号化する音声コーダーおよびオーディオ信号を符号化する知覚コーダーのいずれかを選択する、前処理モード選択ユニットを含む。いくつかの実施態様において、音声エンコーダーは、異なる音声クラスごとに特殊化されたＬＰベースのモードを用いて拡張された代数符号励振線形予測（ＡＣＥＬＰ：algebraic code-excited linear prediction）の、改良された変形形態である。いくつかの実施態様において、オーディオエンコーダーは、低遅延／低ビットレートにおいて効率が高められた変形離散コサイン変換（ＭＤＣＴ：modified discrete cosine transform）エンコーダーであり、音声エンコーダーとオーディオエンコーダーとの間のシームレスで信頼性のある切り替えを行うように設計される。

いくつかの実施態様において、ＩＶＡＳデコーダーは、空間メタデータを回復するように構成される量子化エントロピー復号化ユニット２０４と、１－４チャネルオーディオ信号を回復するように構成されるＥＶＳデコーダー（単数または複数）とを含む。回復された空間メタデータおよびオーディオ信号は、空間合成／レンダリングユニット２０９に入力され、この空間合成／レンダリングユニットは、様々なオーディオシステム２１０上での再生のために空間メタデータを使用してオーディオ信号を合成／レンダリングする。

例示のＩＶＡＳ／ＳＰＡＲコーデック
図３は、いくつかの実施態様による、ＦｏＡをＳＰＡＲフォーマットで符号化および復号化するＦｏＡコーデック３００のブロック図である。ＦｏＡコーデック３００は、ＳＰＡＲＦｏＡエンコーダー３０１、ＥＶＳエンコーダー３０５、ＳＰＡＲＦｏＡデコーダー３０６およびＥＶＳデコーダー３０７を含む。ＦｏＡコーデック３００は、デコーダー３０６、３０７において入力信号を再生成するのに使用されるダウンミックスチャネルおよびパラメーターのセットにＦｏＡ入力信号を変換する。ダウンミックス信号は、１チャネルから４チャネルの間で変化することができ、パラメーターは、予測係数（ＰＲ）、相互予測係数（Ｃ）、および無相関係数（decorrelation coefficient）（Ｐ）を含む。ＳＰＡＲは、以下で更に詳細に説明されるように、ＰＲパラメーター、ＣパラメーターおよびＰパラメーターを使用して、オーディオ信号をダウンミックスしたものからオーディオ信号を再構成するのに使用されるプロセスであることに留意されたい。

図３に示す例示の実施態様は、パッシブＷチャネルを前提とし、Ｗチャネルが単一の予測チャネルＹ’とともに変更されずにデコーダー３０６に送信される公称２チャネルダウンミックスを描写していることに留意されたい。他の実施態様において、Ｗは、アクティブチャネルとすることができる。アクティブＷチャネルは、以下のように、Ｘチャネル、Ｙチャネル、ＺチャネルのＷチャネルへの或るミックス（mixing：ミキシング、合成）を可能にする。

ここで、ｆは、Ｘチャネル、Ｙチャネル、ＺチャネルのうちのいくつかをＷチャネルにミックスすることを可能にする定数（例えば０．５）である。ｐｒ_ｙ、ｐｒ_ｘおよびｐｒ_ｚは、予測（ＰＲ）係数である。パッシブＷでは、ｆ＝０であり、そのため、Ｘチャネル、Ｙチャネル、ＺチャネルのＷチャネルへのミックスは行われない。

以下で更に詳細に説明するように、Ｃ係数は、ＸチャネルおよびＺチャネルのうちのいくつかをＹ’から再構成することを可能にし、残りのチャネルは、以下で更に詳細に説明するように、Ｗチャネルを無相関化したものによって再構成される。

いくつかの実施態様において、ＳＰＡＲＦｏＡエンコーダー３０１は、パッシブ／アクティブ予測器ユニット３０２、リミックスユニット３０３および抽出／ダウンミックス選択ユニット３０４を含む。パッシブ／アクティブ予測器は、４チャネルＢフォーマット（Ｗ、Ｙ、Ｚ、Ｘ）のＦｏＡチャネルを受信し、予測チャネル（ＷまたはＷ’、Ｙ’、Ｚ’、Ｘ’）を計算する。Ｗチャネルは、等しい利得および位相において全ての方向から来る球内の全ての音を含む無指向性ポーラーパターンであり、Ｘは、前方を指し示す８字型（figure-8）双方向ポーラーパターンであり、Ｙは、左を指し示す８字型双方向ポーラーパターンであり、Ｚは、上方を指し示す８字型双方向ポーラーパターンであることに留意されたい。

抽出／ダウンミックス選択ユニット３０４は、以下でより詳細に説明するように、ＩＶＡＳビットストリームのメタデータペイロードセクションからＳＰＡＲＦｏＡメタデータを抽出する。パッシブ／アクティブ予測器ユニット３０２およびリミックスユニット３０３は、ＳＰＡＲＦｏＡメタデータを使用して、リミックスされたＦｏＡチャネル（ＷまたはＷ’、Ａ’、Ｂ’、Ｃ’）を生成し、これらのＦｏＡチャネルは、ＥＶＳエンコーダー３０５に入力されてＥＶＳビットストリームに符号化され、このＥＶＳビットストリームは、デコーダー３０６に送信されるＩＶＡＳビットストリーム内にカプセル化される。この例において、アンビソニック（Ambisonic）ＢフォーマットチャネルがＡｍｂｉＸ形式で配置されることに留意されたい。ただし、Ｆｕｒｓｅ－Ｍａｌｈａｍ（ＦｕＭａ）形式（Ｗ、Ｘ、Ｙ、Ｚ）等の他の形式も同様に使用することができる。

ＳＰＡＲＦｏＡデコーダー３０６を参照すると、ＥＶＳビットストリームは、ＥＶＳデコーダー３０７によって復号化され、その結果、Ｎ（例えばＮ＝４）個のダウンミックスチャネルが得られる。いくつかの実施態様において、ＳＰＡＲＦｏＡデコーダー３０６は、ＳＰＡＲエンコーダー３０１によって実行される動作の逆を実行する。例えば、リミックスされたＦｏＡチャネル（ＷまたはＷ’、Ａ’、Ｂ’、Ｃ’）は、ＳＰＡＲＦｏＡ空間メタデータを使用してＮ個のダウンミックスチャネルから回復される。リミックスされたＳＰＡＲＦｏＡチャネルは、逆ミキサー３１１に入力され、予測されたＳＰＡＲＦｏＡチャネル（ＷまたはＷ’、Ｙ’、Ｚ’、Ｘ’）が回復される。予測されたＳＰＡＲＦｏＡチャネルは、次に、逆予測器３１２に入力され、元のミックスされていないＳＰＡＲＦｏＡチャネル（Ｗ、Ｙ、Ｚ、Ｘ）が回復される。この２チャネルの例において、デコリレーター（decorrelator：無相関器）ブロック３０９ａ（ｄｅｃ_１）．．．３０９ｎ（ｄｅｃ_Ｄ）が、時間領域デコリレーターまたは周波数領域デコリレーターを使用してＷチャネルの無相関化されたものを生成するのに使用されることに留意されたい。無相関化されたチャネルは、ＳＰＡＲＦｏＡメタデータと組み合わせて使用され、ＸチャネルおよびＺチャネルが完全にまたはパラメーター的に再構成される。

いくつかの実施態様において、ダウンミックスチャネルの数に応じて、ＦｏＡ入力のうちの１つ（Ｗチャネル）がＳＰＡＲＦｏＡデコーダー３０６に完全な状態のままで送信され、他のチャネル（Ｙ、Ｚ、およびＸ）のうちの１つ～３つが、ＳＰＡＲＦｏＡデコーダー３０６に残差としてまたは完全にパラメーター的に送信される。ダウンミックスチャネルの数Ｎを問わず同じままであるＰＲ係数は、残差のダウンミックスチャネルにおける予測可能エネルギーを最小にするのに使用される。Ｃ係数は、完全にパラメーター化されたチャネルを残差から再生成することを更に助けるのに使用される。したがって、Ｃ係数は、予測するための残差チャネルまたはパラメーター化チャネルが存在しない１つおよび４つのチャネルダウンミックスのケースでは、必要とされない。Ｐ係数は、ＰＲ係数およびＣ係数によって考慮されていない残りのエネルギーを埋めるのに使用される。Ｐ係数の数は、各帯域におけるダウンミックスチャネルの数Ｎに依存する。いくつかの実施態様において、ＳＰＡＲＰＲ係数（パッシブＷのみ）は、以下のように算出される。

ステップ１。式［１］を使用してメインＷ信号から全てのサイド信号（Ｙ、Ｚ、Ｘ）を予測する。

［１］
ここで、一例として、予測されるチャネルＹ’の予測パラメーターは、式［２］を使用して算出される。

［２］
ここで、

は、信号ＡおよびＢに対応する入力された共分散行列の要素である。同様に、Ｚ’残差チャネルおよびＸ’残差チャネルは、対応する予測パラメーターｐｒ_ｚおよびｐｒ_ｘを有する。ＰＲは、予測係数のベクトル

である。

ステップ２。Ｗ信号と予測された（Ｙ’、Ｚ’、Ｘ’）信号（この順で最も音響的に関係のある～最も音響的に関係のない）とをリミックスする。ここで、「リミックス」は、或る方法論に基づく並べ換え信号または組み換え信号を意味する。

［３］

リミックスの１つの実施態様は、左右からのオーディオキューが前後よりも音響的に関係があり、前後のキューが上下のキューよりも音響的に関係があると仮定した場合における入力信号のＷ、Ｙ’、Ｘ’、Ｚ’への並べ換えである。

ステップ３。式［４］および［５］に示すように、４チャネル事後予測およびリミックスの共分散を算出し、ダウンミックスする。

［４］

［５］
ここで、ｄは、Ｗを越える余分のダウンミックスチャネル（すなわち２番目のチャネルからＮｄｍｘ番目までのチャネル）を表し、ｕは完全に再生成する必要があるチャネル（すなわち（Ｎｄｍｘ＋１）番目のチャネルから４番目までのチャネル）を表す。

１－４チャネルとのＷＡＢＣダウンミックスの例として、ｄおよびｕは、表Ｉに示す以下のチャネルを表す。

ＳＰＡＲＦｏＡメタデータの算出の主に対象となっているものは、Ｒ_ｄｄ量、Ｒ_ｕｄ量およびＲ_ｕｕ量である。Ｒ_ｄｄ量、Ｒ_ｕｄ量およびＲ_ｕｕ量から、システムは、完全パラメトリックチャネル（fully parametric channel）の残りの部分を、デコーダーに送信される残差チャネルから相互予測することが可能であるか否かを判断する。いくつかの実施態様において、必要とされる余分のＣ係数は、以下の式によって与えられる。

［６］

したがって、Ｃパラメーターは、３チャネルダウンミックスの場合には形状（１×２）を有し、２チャネルダウンミックス場合には形状（２×１）を有する。

ステップ４。デコリレーターによって再構成しなければならないパラメーター化チャネルにおける残りのエネルギーを算出する。アップミックスチャネルにおける残差エネルギーＲｅｓ_ｕｕは、実際のエネルギーＲ_ｕｕ（事後予測）と再生成された相互予測エネルギーＲｅｇ_ｕｕとの間の差である。

［７］

［８］

［９］

Ｐも共分散行列であり、したがってエルミート対称であり、そのため、上三角または下三角からのパラメーターのみをデコーダー３０６に送信する必要がある。対角エントリーは実数である一方、非対角要素は複素数であってもよい。

ＩＶＡＳビットストリームの例示の符号化／復号化
図２および図３を参照して説明したように、ＩＶＡＳビットストリーム（単数または複数）は、ＩＶＡＳコーデックによって符号化および復号化される。いくつかの実施態様において、ＩＶＡＳエンコーダーは、符号化ツールインジケーターおよびサンプリングレートインジケーターを求め、ＩＶＡＳビットストリームの共通ヘッダー（ＣＨ：common header）セクション内に符号化する。いくつかの実施態様において、符号化ツールインジケーターは、符号化ツールに対応する値を備え、サンプリングレートインジケーターは、サンプリングレートを示す値を備える。ＩＶＡＳエンコーダーは、ＥＶＳペイロードを求め、ビットストリームのＥＶＳペイロード（ＥＰ：EVS payload）セクション内に符号化する。ＥＰセクションはＣＨセクションの後に続く。ＩＶＡＳエンコーダーは、メタデータペイロードを求め、ビットストリームのメタデータペイロード（ＭＤＰ：metadata payload）セクション内に符号化する。いくつかの実施態様において、ＭＤＰセクションはＣＨセクションの後に続く。他の実施態様において、ＭＤＰセクションはビットストリームのＥＰセクションの後に続くか、または、ＥＰセクションがビットストリームのＭＤＰセクションの後に続く。いくつかの実施態様において、ＩＶＡＳエンコーダーは、ビットストリームを非一時的コンピューター可読媒体上に記憶するかまたはビットストリームを下流デバイスにストリーミングする。他の実施態様において、ＩＶＡＳエンコーダーは、図８に示すデバイスアーキテクチャを有する。

いくつかの実施態様において、ＩＶＡＳデコーダーは、ＩＶＡＳビットストリームを受信し、ＩＶＡＳエンコーダーによってＩＶＡＳフォーマットで符号化されたオーディオデータを抽出して復号化する。ＩＶＡＳデコーダーは、ＩＶＡＳビットストリームのＣＨセクション内の符号化ツールインジケーターおよびサンプリングレートインジケーターを抽出して復号化する。ＩＶＡＳデコーダーは、ビットストリームのＥＰセクション内のＥＶＳペイロードを抽出して復号化する。ＥＰセクションはＣＨセクションの後に続く。ＩＶＡＳデコーダーは、ビットストリームのＭＤＰセクション内のメタデータペイロードを抽出して復号化する。ＭＤＰセクションはＣＨセクションの後に続く。他の実施態様において、ＭＤＰセクションはビットストリームのＥＰセクションの後に続くか、または、ＥＰセクションがビットストリームのＭＤＰセクションの後に続く。いくつかの実施態様において、ＩＶＡＳシステムは、符号化ツール、サンプリングレート、ＥＶＳペイロード、およびメタデータペイロードに基づいてオーディオデコーダーを制御する。他の実施態様において、ＩＶＡＳシステムは、符号化ツール、サンプリングレート、ＥＶＳペイロード、およびメタデータペイロードの表現を非一時的コンピューター可読媒体上に記憶する。いくつかの実施態様において、ＩＶＡＳデコーダーは、図８に示すデバイスアーキテクチャを有する。

いくつかの実施態様において、ＩＶＡＳ符号化ツールインジケーターは、マルチビットデータ構造体である。他の実施態様において、ＩＶＡＳ符号化ツールインジケーターは、３ビットデータ構造体であり、３ビットデータ構造体の第１の値はマルチモノラル符号化ツールに対応し、３ビットデータ構造体の第２の値はＣＡＣＰＬ符号化ツールに対応し、３ビットデータ構造体の第３の値は別の符号化ツールに対応する。他の実施態様において、ＩＶＡＳ符号化ツールインジケーターは、１つ～４つのＩＶＡＳ符号化ツールを示す２ビットデータ構造体または１つもしくは２つのＩＶＡＳ符号化ツールを示す１ビットデータ構造体である。他の実施態様において、ＩＶＡＳ符号化ツールインジケーターは、種々のＩＶＡＳ符号化ツールを示すために３ビット以上を含む。

いくつかの実施態様において、入力サンプリングレートインジケーターは、種々の入力サンプリングレートを示すマルチビットデータ構造体である。いくつかの実施態様において、入力サンプリングレートインジケーターは、２ビットデータ構造体であり、２ビットデータ構造体の第１の値は８ｋＨｚサンプリングレートを示し、２ビットデータ構造体の第２の値は１６ｋＨｚサンプリングレートを示し、２ビットデータ構造体の第３の値は３２ｋＨｚサンプリングレートを示し、２ビットデータ構造体の第４の値は４８ｋＨｚサンプリングレートを示す。他の実施態様において、入力サンプリングレートインジケーターは、１つまたは２つのサンプリングレートを示す１ビットデータ構造体である。他の実施態様において、入力サンプリングレートインジケーターは、種々のサンプリングレートを示す３ビット以上を含む。

いくつかの実施態様において、システムは、第３世代パートナーシッププロジェクト（３ＧＰＰ：3^rd generation partnership project）技術仕様（ＴＳ：technical specification）２６．４４５にこの順序で記載されているように、ＥＶＳチャネルの数すなわちＥＶＳチャネル数インジケーター；ビットレート（ＢＲ：bitrate）抽出モードインジケーター；ＥＶＳＢＲデータ；および全てのチャネルのＥＶＳペイロードをビットストリームのＥＰセクションに格納するかまたはビットストリームのＥＰセクションから読み出す。

他の実施態様において、システムは、ＥＶＳチャネル数インジケーターをビットストリームのＥＰセクションに格納するかまたはビットストリームのＥＰセクションから読み出す。

他の実施態様において、システムは、ビットレート（ＢＲ）抽出モードインジケーターをビットストリームのＥＰセクションに格納するかまたはビットストリームのＥＰセクションから読み出す。

他の実施態様において、システムは、ＥＶＳＢＲデータをビットストリームのＥＰセクションに格納するかまたはビットストリームのＥＰセクションから読み出す。

他の実施態様において、システムは、第３世代パートナーシッププロジェクト（３ＧＰＰ）技術仕様（ＴＳ）２６．４４５にこの順序で記載されているように、全てのチャネルのＥＶＳペイロードをビットストリームのＥＰセクションに格納するかまたはビットストリームのＥＰセクションから読み出す。

いくつかの実施態様において、ＩＶＡＳシステムは、符号化技法インジケーター；帯域数インジケーター；フィルターバンクの遅延構成を示すインジケーター；量子化ストラテジーのインジケーター；エントロピーコーダーインジケーター；確率モデルタイプインジケーター；係数実部；係数虚部；および１つ以上の係数をデータストリームのＭＤＰセクションに格納するかまたはデータストリームのＭＤＰセクションから読み出す。

他の実施態様において、ＩＶＡＳシステムは、符号化技法インジケーターをデータストリームのＭＤＰセクションに格納するかまたはデータストリームのＭＤＰセクションから読み出す。

他の実施態様において、ＩＶＡＳシステムは、帯域数インジケーターをデータストリームのＭＤＰセクションに格納するかまたはデータストリームのＭＤＰセクションから読み出す。

他の実施態様において、ＩＶＡＳシステムは、フィルターバンクの遅延構成を示すインジケーターをデータストリームのＭＤＰセクションに格納するかまたはデータストリームのＭＤＰセクションから読み出す。

他の実施態様において、ＩＶＡＳシステムは、量子化ストラテジーのインジケーターをデータストリームのＭＤＰセクションに格納するかまたはデータストリームのＭＤＰセクションから読み出す。

他の実施態様において、ＩＶＡＳシステムは、エントロピーコーダーインジケーターをデータストリームのＭＤＰセクションに格納するかまたはデータストリームのＭＤＰセクションから読み出す。

他の実施態様において、ＩＶＡＳシステムは、確率モデルタイプインジケーターをデータストリームのＭＤＰセクションに格納するかまたはデータストリームのＭＤＰセクションから読み出す。

他の実施態様において、ＩＶＡＳシステムは、係数実部をデータストリームのＭＤＰセクションに格納するかまたはデータストリームのＭＤＰセクションから読み出す。他の実施態様において、ＩＶＡＳシステムは、係数虚部をデータストリームのＭＤＰセクションに格納するかまたはデータストリームのＭＤＰセクションから読み出す。

他の実施態様において、ＩＶＡＳシステムは、１つ以上の係数をデータストリームのＭＤＰセクションに格納するかまたはデータストリームのＭＤＰセクションから読み出す。

ＩＶＡＳビットストリームフォーマットのいくつかの例を以下に示す。

例示のＩＶＡＳビットストリームフォーマット－３細分フォーマット
いくつかの実施態様において、ＩＶＡＳビットストリームフォーマットは、以下のように３つの細分を含む。

いくつかの実施態様において、各細分における各フィールド内のパラメーターおよびそれらのそれぞれのビット割り当てが以下に示される。

上述したＩＶＡＳビットストリームフォーマットの実施形態の利点は、この実施形態が、様々なオーディオサービス能力をサポートするデータを効率的かつコンパクトに符号化することである。これらのオーディオサービス能力は、モノラルからステレオへのアップミックスならびに完全没入型オーディオ符号化、復号化およびレンダリングを含むが、これらに限定されるものではない。この実施形態は、広範囲のデバイス、エンドポイント、およびネットワークノードによってもサポートされる。これらの広範囲のデバイス等は、モバイルフォンおよびスマートフォン、電子タブレット、パーソナルコンピューター、会議電話、会議室、仮想現実（ＶＲ）デバイスおよび拡張現実（ＡＲ）デバイス、ホームシアターデバイス、ならびに他の適したデバイスを含むが、これらに限定されるものではなく、これらのそれぞれは、音のキャプチャーおよびレンダリング用の様々な音響インターフェースを有することができる。ＩＶＡＳビットストリームフォーマットは、ＩＶＡＳ規格および技術とともに容易に発展することができるように拡張可能である。

例示のＩＶＡＳビットストリームフォーマット－４細分フォーマット
更なる実施形態の以下の説明は、この更なる実施形態と前述した実施形態との間の相違に焦点を当てている。したがって、双方の実施形態に共通の特徴は、以下の説明から省略される場合があり、省略された場合には、前述した実施形態の特徴がこの更なる実施形態において実施されるかまたは少なくとも実施することができる（ただし以下の説明がそうではないと要請しない限りは）と仮定されるべきである。加えて、或る特徴が、以下に開示される実施態様から取り出されて請求項に追加されるとき、その特徴は、その実施態様の他の特徴に関係したり密接に関連しない場合もある。

他の実施態様において、ＩＶＡＳビットストリームは、以下のように４つの細分を含む。

いくつかの実施態様において、ＩＶＡＳエンコーダーは、符号化ツールインジケーターを求め、ＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内に符号化する。符号化ツールインジケーターは、符号化ツールに対応する値を備える。ＩＶＡＳエンコーダーは、ＩＶＡＳビットレート分布制御テーブルへの行インデックスを求め、ＩＶＡＳビットストリームの共通空間符号化ツールヘッダー（ＣＴＨ：common spatial coding tool header）セクション内に符号化する。ＣＴＨセクションはＣＨセクションの後に続く。ＩＶＡＳエンコーダーは、ＥＶＳペイロードを求め、ＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクション内に符号化する。ＥＰセクションはＣＨセクションの後に続く。ＩＶＡＳエンコーダーは、メタデータペイロードを求め、ＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクション内に符号化する。ＭＤＰセクションはＣＨセクションの後に続く。

いくつかの実施態様において、ＥＰセクションは、１つ以上のパラメーターに応じてＭＤＰセクションの前または後に位置する。いくつかの実施態様において、３ＧＰＰＴＳ２６．４４５に記載されているように、１つ以上のパラメーターは、公称ビットレートモードとのマルチチャネル入力のモノラルダウンミックスの後方互換モードを含む。

いくつかの実施態様において、ＩＶＡＳシステムは、ＩＶＡＳビットストリームを非一時的コンピューター可読媒体上に記憶する。他の実施態様において、ＩＶＡＳシステムは、ビットストリームを下流デバイスにストリーミングする。いくつかの実施態様において、ＩＶＡＳエンコーダーは、図８に示すデバイスアーキテクチャを有する。

いくつかの実施態様において、ＩＶＡＳデコーダーは、ＩＶＡＳビットストリームを受信し、ＩＶＡＳエンコーダーによってＩＶＡＳフォーマットで符号化されたオーディオデータを抽出して復号化する。ＩＶＡＳデコーダーは、ＩＶＡＳビットストリームのＣＨセクション内の符号化ツールインジケーターを抽出して復号化する。ＩＶＡＳデコーダーは、ＩＶＡＳビットレート分布制御テーブルへのインデックスを抽出して復号化する。ＩＶＡＳデコーダーは、ＩＶＡＳビットストリームのＥＰセクション内のＥＶＳペイロードを抽出して復号化する。ＥＰセクションはＣＨセクションの後に続く。ＩＶＡＳデコーダーは、ＩＶＡＳビットストリームのＭＤＰセクション内のメタデータペイロードを抽出して復号化する。ＭＤＰセクションはＣＨセクションの後に続く。

いくつかの実施態様において、ＥＰセクションは、１つ以上のパラメーターに応じて、ＭＤＰセクションの前または後に位置する。いくつかの実施態様において、３ＧＰＰＴＳ２６．４４５に記載されているように、１つ以上のパラメーターは、公称ビットレートモードとのマルチチャネル入力のモノラルダウンミックスの後方互換モードを含む。

いくつかの実施態様において、ＩＶＡＳシステムは、符号化ツール、ＩＶＡＳビットレート分布制御テーブルへのインデックス、ＥＶＳペイロード、およびメタデータペイロードに基づいてオーディオデコーダーを制御する。他の実施態様において、ＩＶＡＳシステムは、符号化ツール、ＩＶＡＳビットレート分布制御テーブルへのインデックス、ＥＶＳペイロード、およびメタデータペイロードの表現を非一時的コンピューター可読媒体上に記憶する。いくつかの実施態様において、ＩＶＡＳデコーダーは、図８に示すデバイスアーキテクチャを有する。

メタデータペイロード（ＭＤＰ）：
ＩＶＡＳビットレート分布制御テーブルの利点は、このテーブルが、空間符号化モードについての情報をＭＤＰセクションに含める必要がないように、空間符号化モードについての情報を記録するということである。

ＥＶＳペイロード（ＥＰ）：
ペイロードのこのセクションは、１つ以上のオーディオダウンミックスチャネルのＥＶＳ符号化ビットを含む。いくつかの実施態様において、このセクションにおける総ビット数は、

によって与えることができる。ここで、Ｎ（例えば、Ｎ＝４）は、符号化するのに必要とされるオーディオダウンミックスチャネルの数であり、ＥＶＳ_{ＢＲ（ｉ）}は、ｉ番目のオーディオダウンミックスチャネルの算出されたＥＶＳビットレートであり、ｓｔｒｉｄｅ_ｓｅｃｓは、秒を単位とする入力ストライド長である。

いくつかの実施態様において、ＩＶＡＳビットレート分布制御テーブル内の各テーブルエントリーは、ＥＶＳ用に割り当てられた全ビットから各ＥＶＳインスタンスのビットレートを抽出するのに十分な情報を有する。この構造体は、各ＥＶＳインスタンスのビットを抽出するために、ＥＶＳペイロード内に追加のヘッダー情報が必要とされないという利点を提供する。

いくつかの実施態様において、ＩＶＡＳビットレート分布制御テーブルにおけるパラメーターは以下の値を有する。

例示のＩＶＡＳビットレート分布制御テーブルは次のとおりである。

ＩＶＡＳビットストリームの例示の復号化
一実施形態において、ＩＶＡＳビットストリームを復号化するステップは以下のとおりである。

ステップ１：ビットストリームの長さおよびｓｔｒｉｄｅ_ｓｅｃｓに基づいてＩＶＡＳ動作ビットレートを計算する。

ステップ２：空間符号化ツールを示す固定長のＣＨセクションを読み出す。

ステップ３：ＩＶＡＳ動作ビットレートに基づいて、ＩＶＡＳビットレート分布制御テーブルにおけるＩＶＡＳ動作ビットレート（ステップ１において算出される）のエントリーの数を調べることによってＣＴＨフィールドの長さを求める。

ステップ３：ＣＴＨフィールドの長さが判明すると、ＣＴＨフィールド内のインデックスオフセットを読み出す。

ステップ５：インデックスオフセットおよびＩＶＡＳ動作ビットレートを使用して実際のＩＶＡＳビットレート分布制御テーブルインデックスを求める。

ステップ６：ＥＶＳビットレート分布およびモノラルダウンミックス後方互換性についての全ての情報をインデックス指定されたテーブルエントリーから読み出す。

ステップ７：モノラルダウンミックス後方互換モードがＯＮである場合には、まず残りのＩＶＡＳビットをＥＶＳデコーダーに渡し、各ＥＶＳインスタンスのビット長をそのＥＶＳビットレート分布に基づいて算出し、各ＥＶＳインスタンスのＥＶＳビットを読み出し、対応するＥＶＳデコーダーを用いてＥＶＳビットを復号化し、ＭＤＰセクション内の空間メタデータを復号化する。

ステップ８：モノラルダウンミックス後方互換モードがＯＦＦである場合には、ＭＤＰセクション内の空間メタデータを復号化し、各ＥＶＳインスタンスのビット長をそのＥＶＳビットレート分布に基づいて算出し、ＩＶＡＳビットストリームのＥＰセクションから各ＥＶＳインスタンスのＥＶＳビットを読み出して復号化する。

ステップ９：復号化されたＥＶＳ出力および空間メタデータを使用して、入力オーディオフォーマット、例えばステレオ（ＣＡＣＰＬ）またはＦｏＡ（ＳＰＡＲ）等を構成する。

例示のＩＶＡＳＳＰＡＲ符号化／復号化
更なる実施形態の以下の説明は、この更なる実施形態と前述した実施形態との間の相違に焦点を当てている。したがって、双方の実施形態に共通の特徴は、以下の説明から省略される場合があり、省略された場合には、前述した実施形態の特徴がこの更なる実施形態において実施されるかまたは少なくとも実施することができる（ただし以下の説明がそうではないと要請しない限りは）と仮定されるべきである。加えて、或る特徴が、以下に開示される実施態様から取り出されて請求項に追加されるとき、その特徴は、その実施態様の他の特徴に関係したり密接に関連しない場合もある。

いくつかの実施態様において、ＩＶＡＳＳＰＡＲエンコーダーは、符号化モード／ツールインジケーターを求め、ＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内に符号化する。符号化モード／ツールインジケーターは、符号化モード／ツールに対応する値を有する。ＩＶＡＳビットストリームは、モードヘッダー／ツールヘッダーを求め、ＩＶＡＳビットストリームのツールヘッダー（ＴＨ）セクション内に符号化する。ここで、ＴＨセクションはＣＨセクションの後に続く。ＩＶＡＳＳＰＡＲエンコーダーは、メタデータペイロードを求め、ＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクション内に符号化する。ここで、ＭＤＰセクションはＣＨセクションの後に続く。ＩＶＡＳＳＰＡＲエンコーダーは、拡張型音声サービス（ＥＶＳ）ペイロードを求め、ＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクション内に符号化する。ここで、ＥＰセクションはＣＨセクションの後に続く。いくつかの実施態様において、ＩＶＡＳシステムは、ビットストリームを非一時的コンピューター可読媒体上に記憶する。他の実施態様において、ＩＶＡＳシステムは、ビットストリームを下流デバイスにストリーミングする。いくつかの実施態様において、ＩＶＡＳＳＰＡＲエンコーダーは、図８を参照して説明するデバイスアーキテクチャを有する。

いくつかの実施態様において、ＥＰセクションはＭＤＰセクションの後に続く。ＥＰセクションをＩＶＡＳビットストリームのＭＤＰセクションの後に続かせることによって、効率的なビットパッキングが確保され、ＭＤＰビットおよびＥＰビットの数が（ビットレート分布アルゴリズムに従って）変化することを可能にすることによって、ＩＶＡＳビットレートバジェットにおける全ての利用可能なビットの利用が確保されることに留意されたい。

いくつかの実施態様において、ＩＶＡＳＳＰＡＲデコーダーは、ＩＶＡＳＳＰＡＲフォーマットで符号化されたＩＶＡＳビットストリームを抽出して復号化する。ＩＶＡＳＳＰＡＲデコーダーは、ビットストリームのＣＨセクション内の符号化モード／ツールインジケーターを抽出して復号化する。符号化モード／ツールインジケーターは、符号化モード／ツールに対応する値を有する。ＩＶＡＳＳＰＡＲデコーダーは、ビットストリームのツールヘッダー（ＴＨ）セクション内のモードヘッダー／ツールヘッダーを抽出して復号化する。ＴＨセクションはＣＨセクションの後に続く。ＩＶＡＳＳＰＡＲデコーダーは、ビットストリームのＭＤＰセクション内のメタデータペイロードを抽出して復号化する。ＭＤＰセクションはＣＨセクションの後に続く。ＩＶＡＳＳＰＡＲデコーダーは、ビットストリームのＥＰセクション内のＥＶＳペイロードを復号化する。ＥＰセクションはＣＨセクションの後に続く。

いくつかの実施態様において、ＩＶＡＳシステムは、符号化モード、ツールヘッダー、ＥＶＳペイロード、およびメタデータペイロードに基づいてオーディオデコーダーを制御する。他の実施態様において、ＩＶＡＳシステムは、符号化モード、ツールヘッダー、ＥＶＳペイロード、およびメタデータペイロードの表現を非一時的コンピューター可読媒体上に記憶する。いくつかの実施態様において、ＩＶＡＳＳＰＡＲデコーダーは、図８を参照して説明するデバイスアーキテクチャを有する。

いくつかの実施態様において、ＣＨは３ビットデータ構造体を含み、３ビットデータ構造体の値のうちの１つはＳＰＡＲ符号化モードに対応し、値の残りは他の符号化モードに対応する。３ビットデータ構造体は、符号化モードを８つまで示すことができるコンパクトな符号を可能にするので有利である。他の実施態様において、ＣＨは３ビットよりも少ないビットを含む。他の実施態様において、ＣＨは３ビットよりも多くのビットを含む。

いくつかの実施態様において、ＩＶＡＳシステムは、ＳＰＡＲビットレート分布制御テーブルにおける行を指し示す行インデックスをＩＶＡＳビットストリームのＴＨセクションに格納するかまたはＩＶＡＳビットストリームのＴＨセクションから読み出す。例えば、行インデックスは、ＩＶＡＳ動作ビットレートに対応する行の数に基づいて、次のように、すなわちｘ＝ｃｅｉｌ（ｌｏｇ_２（ＩＶＡＳビットレートに対応する行の数））として計算することができる。したがって、ＴＨセクションの長さは可変である。

いくつかの実施態様において、システムは、量子化ストラテジーインジケーター；符号化ストラテジーインジケーター；ならびに１つ以上の係数の量子化および符号化された実部および虚部をＩＶＡＳビットストリームのＭＤＰセクションに格納するかまたはＩＶＡＳビットストリームのＭＤＰセクションから読み出す。

他の実施態様において、システムは、量子化ストラテジーインジケーターをＩＶＡＳビットストリームのＭＤＰセクションに格納するかまたはＩＶＡＳビットストリームのＭＤＰセクションから読み出す。

他の実施態様において、システムは、符号化ストラテジーインジケーターをＩＶＡＳビットストリームのＭＤＰセクションに格納するかまたはＩＶＡＳビットストリームのＭＤＰセクションから読み出す。

他の実施態様において、システムは、１つ以上の係数の量子化および符号化された実部および虚部をＩＶＡＳビットストリームのＭＤＰセクションに格納するかまたはＩＶＡＳビットストリームのＭＤＰセクションから読み出す。

いくつかの実施態様において、１つ以上の係数は、予測係数、相互予測係数（またはダイレクト係数）、実数（対角）デコリレーター係数および複素（非対角）デコリレーター係数を含むが、これらに限定されるものではない。

いくつかの実施態様において、より多くの係数またはより少ない係数が、ＩＶＡＳビットストリームのＭＤＰセクションに格納され、ＩＶＡＳビットストリームのＭＤＰセクションから読み出される。

いくつかの実施態様において、ＩＶＡＳシステムは、３ＧＰＰＴＳ２６．４４５に従って全てのチャネルのＥＶＳペイロードをＩＶＡＳビットストリームのＥＰセクションに格納するかまたはＩＶＡＳビットストリームのＥＰセクションから読み出す。

ＳＰＡＲフォーマット化を用いた一例示のＩＶＡＳビットストリームを以下に示す。ＩＶＡＳビットストリームは、以下のように４つの細分を含む。

共通ヘッダー（ＣＨ）：
いくつかの実施態様において、ＩＶＡＳ共通ヘッダー（ＣＨ）は、以下のようにフォーマット化される。

ツールヘッダー（ＴＨ）：
いくつかの実施態様において、ＳＰＡＲツールヘッダー（ＴＨ）は、ＳＰＡＲビットレート分布制御テーブルへのインデックスオフセットである。

ＳＰＡＲビットレート分布制御テーブルの例示の実施態様を以下に示す。各ＩＶＡＳビットレートは、帯域幅（ＢＷ：Bandwidth）、ダウンミックス構成（ｄｍｘチャネル、ｄｍｘストリング）、アクティブＷ、複素フラグ、遷移モード値、ＥＶＳビットレート設定、メタデータ量子化レベル設定およびデコリレーターダッキング（ducking）フラグの１つ以上の値をサポートすることができる。この例示の実施態様において、ビットレート当たり１つのエントリーしかないので、ＳＰＡＲＴＨセクションのビット数は０である。以下の表において使用される頭字語は、以下のように定義される。
ＰＲ：予測係数、
Ｃ：相互予測係数（またはダイレクト係数）、
Ｐ_ｒ：実数（対角）デコリレーター係数、
Ｐ_ｃ：複素（非対角）デコリレーター係数。

一例示のＳＰＡＲビットレート分布制御テーブルは以下のとおりである。

メタデータペイロード（ＭＤＰ）：
一例示のメタデータペイロード（ＭＤＰ）は以下のとおりである。

ＥＶＳペイロード（ＥＰ）：
いくつかの実施態様において、各ダウンミックスチャネルの実際のＥＶＳビットレートのメタデータの量子化および算出は、ＥＶＳビットレート分布制御ストラテジーを使用して行われる。ＥＶＳビットレート分布制御ストラテジーの一例示の実施態様を以下に説明する。

例示のＥＶＳビットレート分布制御ストラテジー
いくつかの実施態様において、ＥＶＳビットレート分布制御ストラテジーは、メタデータ量子化およびＥＶＳビットレート分布の２つのセクションを含む。

メタデータ量子化。このセクションには、目標パラメータービットレート閾値（ＭＤｔａｒ）および最大目標ビットレート閾値（ＭＤｍａｘ）の２つの定義された閾値がある。

ステップ１：フレームごとに、パラメーターが非時間差分方法で量子化され、エントロピーコーダーを用いて符号化される。いくつかの実施態様において、算術コーダーが使用される。他の実施態様において、ハフマンエンコーダーが使用される。パラメータービットレート推定値がＭＤｔａｒ未満である場合には、オーディオエッセンスのビットレートを増加させるために、任意の余分の利用可能なビットがオーディオエンコーダーに供給される。

ステップ２：ステップ１が失敗した場合には、フレーム内のパラメーター値のサブセットが量子化され、先行フレーム内の量子化されたパラメーター値から減算され、差分量子化されたパラメーター値が、エントロピーコーダーを用いて符号化される。パラメータービットレート推定値がＭＤｔａｒ未満である場合には、オーディオエッセンスのビットレートを増加させるために、任意の余分の利用可能なビットがオーディオエンコーダーに供給される。

ステップ３：ステップ２が失敗した場合には、量子化されたパラメーターのビットレートがエントロピーなしで算出される。

ステップ４：ステップ１、ステップ２、およびステップ３の結果がＭＤｍａｘと比較される。ステップ１、ステップ２、およびステップ３の最小値がＭＤｍａｘ内にある場合には、残りのビットが符号化され、オーディオコーダーに提供される。

ステップ５：ステップ４が失敗した場合には、パラメーターは、より粗く量子化され、上記ステップは、第１のフォールバックストラテジー（フォールバック１）として繰り返される。

ステップ６：ステップ５が失敗した場合には、パラメーターは、第２のフォールバックストラテジー（フォールバック２）としてＭＤｍａｘ内に収まることが保証された量子化方式を用いて量子化される。上述した全ての反復の後、メタデータビットレートはＭＤｍａｘ内に収まることが保証され、エンコーダーは、実際のメタデータビットすなわちＭｅｔａｄａｔａ＿ａｃｔｕａｌ＿ｂｉｔｓ（ＭＤａｃｔ）を生成する。

ＥＶＳビットレート分布（ＥＶＳｂｄ）。このセクションについて、以下の定義が適用される。
ＥＶＳｔａｒ：ＥＶＳ目標ビット、各ＥＶＳインスタンスの所望のビット。
ＥＶＳａｃｔ：ＥＶＳ実際ビット、全てのＥＶＳインスタンスに利用可能な実際のビットの合計。
ＥＶＳｍｉｎ：ＥＶＳ最小ビット、各ＥＶＳインスタンスの最小ビット。ＥＶＳビットレートは、これらのビットによって示される値を下回ってはならない。
ＥＶＳｍａｘ：ＥＶＳ最大ビット、各ＥＶＳインスタンスの最大ビット。ＥＶＳビットレートは、これらのビットによって示される値を上回ってはならない。
ＥＶＳＷ：Ｗチャネルを符号化するＥＶＳインスタンス。
ＥＶＳＹ：Ｙチャネルを符号化するＥＶＳインスタンス。
ＥＶＳＸ：Ｘチャネルを符号化するＥＶＳインスタンス。
ＥＶＳＺ：Ｚチャネルを符号化するＥＶＳインスタンス。
ＥＶＳａｃｔ＝ＩＶＡＳ＿ｂｉｔｓ－ｈｅａｄｅｒ＿ｂｉｔｓ－ＭＤａｃｔ

ＥＶＳａｃｔが、全てのＥＶＳインスタンスのＥＶＳｔａｒの合計よりも小さい場合には、ビットが、ＥＶＳインスタンスから次の順序（Ｚ、Ｘ、Ｙ、Ｗ）で取り出される。任意のチャネルから取り出すことができる最大ビット＝ＥＶＳｔａｒ（ｃｈ）－ＥＶＳｍｉｎ（ｃｈ）である。

ＥＶＳａｃｔが、全てのＥＶＳインスタンスのＥＶＳｔａｒの合計よりも大きい場合には、全ての追加ビットがダウンミックスチャネルに次の順序（Ｗ、Ｙ、Ｘ、Ｚ）で割り当てられる。任意のチャネルに追加することができる最大追加ビット＝ＥＶＳｍａｘ（ｃｈ）－ＥＶＳｔａｒ（ｃｈ）である。

上述したＥＶＳｂｄ方式は、全てのチャネルの実際のＥＶＳビットレート、すなわち、Ｗチャネル、Ｙチャネル、ＸチャネルおよびＺチャネルのそれぞれＥＷａ、ＥＹａ、ＥＸａ、ＥＺａを計算する。各チャネルが、ＥＷａビットレート、ＥＹａビットレート、ＥＸａビットレートおよびＥＺａビットレートを用いて個別のＥＶＳインスタンスによって符号化された後、全てのＥＶＳビットは、互いに連結およびパッキングされる。この構成の利点は、いずれのチャネルについてもＥＶＳビットレートを示すのに追加のヘッダーが必要とされないことである。

いくつかの実施態様において、ＥＰセクションは以下のとおりである。

例示のＳＰＡＲデコーダービットストリームアンパッキング
いくつかの実施態様において、ＳＰＡＲデコーダービットストリームアンパッキングのステップが以下のように説明される。

ステップ１：受信ビットバッファーの長さからＩＶＡＳビットレートを求める。

ステップ２：ＳＰＡＲビットレート分布制御テーブル内のＩＶＡＳビットレートのエントリーの数に基づいてＳＰＡＲＴＨセクションをパースし、インデックスオフセットを抽出する。ここで、このインデックスオフセットは、ＩＶＡＳ動作ビットレートによって求められる。

ステップ３：インデックスオフセットを使用してＳＰＡＲビットレート分布制御テーブルの実際のテーブル行インデックスを求め、この実際のテーブル行インデックスによって指し示されるＳＰＡＲビットレート分布制御テーブル行の全ての列を読み出す。

ステップ４：ＩＶＡＳビットストリームのＭＤＰセクションからの量子化ストラテジービットおよび符号化ストラテジービットを読み出し、示された量子化ストラテジーおよび符号化ストラテジーに基づいてＭＰＤセクション内のＳＰＡＲ空間メタデータを量子化解除(unquantize)する。

ステップ５：全ＥＶＳビットレート（ＩＶＡＳビットストリームから読み出される残りのビット）に基づいて、上述したＥＶＳビットレート分布（ＥＶＳｂｄ）ごとに各チャネルの実際のＥＶＳビットレートを求める。

ステップ６：実際のＥＶＳビットレートに基づいてＩＶＡＳビットストリームのＥＰセクションから、符号化されたＥＶＳビットを読み出し、それぞれのＥＶＳインスタンスを用いてＦｏＡオーディオ信号の各チャネルを復号化する。

ステップ７：復号化されたＥＶＳ出力および空間メタデータを使用して、ＦｏＡ（ＳＰＡＲ）オーディオ信号を構成する。

上述したＩＶＡＳビットストリームフォーマットの実施形態の利点は、この実施形態が、様々なオーディオサービス能力をサポートするデータを効率的かつコンパクトに符号化することである。これらのオーディオサービス能力は、モノラルからステレオへのアップミックスならびに完全没入型オーディオ符号化、復号化およびレンダリング（例えばＦｏＡ符号化）を含むが、これらに限定されるものではない。この実施形態は、広範囲のデバイス、エンドポイント、およびネットワークノードによってもサポートされる。これらの広範囲のデバイス等は、モバイルフォンおよびスマートフォン、電子タブレット、パーソナルコンピューター、会議電話、会議室、仮想現実（ＶＲ）デバイスおよび拡張現実（ＡＲ）デバイス、ホームシアターデバイス、ならびに他の適したデバイスを含むが、これらに限定されるものではなく、これらのそれぞれは、音のキャプチャーおよびレンダリング用の様々な音響インターフェースを有することができる。ＩＶＡＳビットストリームフォーマットは、ＩＶＡＳ規格および技術とともに容易に発展することができるように拡張可能である。

例示のプロセス－ＣＡＣＰＬフォーマットのＩＶＡＳビットストリーム
図４Ａは、一実施形態によるＩＶＡＳ符号化プロセス４００のフロー図である。プロセス４００は、図８を参照して説明されるようなデバイスアーキテクチャを使用して実施することができる。

プロセス４００は、ＩＶＡＳエンコーダーを使用して符号化ツールインジケーターおよびサンプリングレートインジケーターを求め、符号化ツールインジケーターおよびサンプリングレートインジケーターをＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内に符号化すること（４０１）を含む。いくつかの実施態様において、ツールインジケーターは、符号化ツールに対応する値を有し、サンプリングレートインジケーターは、サンプリングレートを示す値を有する。

プロセス４００は、ＩＶＡＳエンコーダーを使用して拡張型音声サービス（ＥＶＳ）ペイロードを求め、拡張型音声サービス（ＥＶＳ）ペイロードをＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクション内に符号化すること（４０２）を更に含む。いくつかの実施態様において、ＥＰセクションはＣＨセクションの後に続く。

プロセス４００は、ＩＶＡＳエンコーダーを使用してメタデータペイロードにおけるメタデータペイロードを求め、メタデータペイロードをＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクション内に符号化すること（４０３）を更に含む。いくつかの実施態様において、ＭＤＰセクションはＣＨセクションの後に続く。いくつかの実施態様において、ＥＰセクションはビットストリームのＭＤＰセクションの後に続く。

プロセス４００は、ＩＶＡＳビットストリームを非一時的コンピューター可読媒体上に記憶することまたはＩＶＡＳビットストリームを下流デバイスにストリーミングすること（４０４）を更に含む。

図４Ｂは、一実施形態による、代替のＩＶＡＳフォーマットを使用するＩＶＡＳ符号化プロセス４０５のフロー図である。プロセス４０５は、図８を参照して説明されるようなデバイスアーキテクチャを含むことができる。

プロセス４０５は、ＩＶＡＳエンコーダーを使用して符号化ツールインジケーターを求め、符号化ツールインジケーターをＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内に符号化すること（４０６）を含む。いくつかの実施態様において、ツールインジケーターは、符号化ツールに対応する値を有する。

プロセス４０５は、ＩＶＡＳエンコーダーを使用して、ＩＶＡＳビットレート分布制御テーブルの表現をＩＶＡＳビットストリームの共通空間符号化ツールヘッダー（ＣＴＨ）セクション内に符号化すること（４０７）を更に含む。

プロセス４０５は、ＩＶＡＳエンコーダーを使用してメタデータペイロードを求め、メタデータペイロードをＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクション内に符号化すること（４０８）を更に含む。いくつかの実施態様において、ＭＤＰセクションは、ＩＶＡＳビットストリームのＣＨセクションの後に続く。

プロセス４０５は、ＩＶＡＳエンコーダーを使用して拡張型音声サービス（ＥＶＳ）ペイロードを求め、拡張型音声サービス（ＥＶＳ）ペイロードをＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクション内に符号化すること（４０９）を更に含む。いくつかの実施態様において、ＥＰセクションは、ＩＶＡＳビットストリームのＣＨセクションの後に続く。いくつかの実施態様において、ＭＤＰセクションは、ＩＶＡＳビットストリームのＥＰセクションの後に続く。

プロセス４０５は、ＩＶＡＳビットストリームを記憶デバイス上に記憶することまたはＩＶＡＳビットストリームを下流デバイスにストリーミングすること（４１０）を更に含む。

図５Ａは、一実施形態によるＩＶＡＳ復号化プロセス５００のフロー図である。プロセス５００は、図８を参照して説明されるようなデバイスアーキテクチャを使用して実施することができる。

プロセス５００は、ＩＶＡＳデコーダーを使用して、符号化ツールインジケーターおよびサンプリングレートインジケーターをＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクションから抽出して復号化すること（５０１）を含む。いくつかの実施態様において、ツールインジケーターは、符号化ツールに対応する値を有し、サンプリングレートインジケーターは、サンプリングレートを示す値を有する。

プロセス５００は、ＩＶＡＳデコーダーを使用して、拡張型音声サービス（ＥＶＳ）ペイロードをＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクションから抽出して復号化すること（５０２）を更に含む。いくつかの実施態様において、ＥＰセクションは、ＩＶＡＳビットストリームのＣＨセクションの後に続く。

プロセス５００は、ＩＶＡＳデコーダーを使用して、メタデータペイロードをビットストリームのメタデータペイロード（ＭＤＰ）セクションから抽出して復号化すること（５０３）を更に含む。いくつかの実施態様において、ＭＤＰセクションは、ＩＶＡＳビットストリームのＣＨセクションの後に続く。いくつかの実施態様において、ＥＰセクションは、ＩＶＡＳビットストリームのＭＤＰセクションの後に続く。

プロセス５００は、符号化ツール、サンプリングレート、ＥＶＳペイロード、およびメタデータペイロードに基づいてオーディオデコーダーを制御すること、または、符号化ツール、サンプリングレート、ＥＶＳペイロード、およびメタデータペイロードの表現を非一時的コンピューター可読媒体上に記憶すること（５０４）を更に含む。

図５Ｂは、一実施形態による、代替のフォーマットを使用するＩＶＡＳ復号化プロセス５０５のフロー図である。プロセス５０５は、図８を参照して説明されるようなデバイスアーキテクチャを使用して実施することができる。

プロセス５０５は、ＩＶＡＳデコーダーを使用して、ＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内の符号化ツールインジケーターを抽出して復号化すること（５０６）を含む。いくつかの実施態様において、ツールインジケーターは、符号化ツールに対応する値を有する。

プロセス５０５は、ＩＶＡＳデコーダーを使用して、ＩＶＡＳビットストリームの共通空間符号化ツールヘッダー（ＣＴＨ）セクション内のＩＶＡＳビットレート分布制御テーブルの表現を抽出して復号化すること（５０７）を更に含む。

プロセス５０５は、ＩＶＡＳデコーダーを使用して、ＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクション内のメタデータペイロードを復号化すること（５０８）を更に含む。いくつかの実施態様において、ＭＤＰセクションは、ＩＶＡＳビットストリームのＣＨセクションの後に続く。

プロセス５０５は、ＩＶＡＳデコーダーを使用して、ＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクション内の拡張型音声サービス（ＥＶＳ）ペイロードを復号化すること（５０９）を更に含む。いくつかの実施態様において、ＥＰセクションは、ＩＶＡＳビットストリームのＣＨセクションの後に続く。いくつかの実施態様において、ＭＤＰセクションは、ＩＶＡＳビットストリームのＥＰセクションの後に続く。

プロセス５０５は、符号化ツールインジケーター、ＩＶＡＳビットレート分布制御テーブル、メタデータペイロード、およびＥＶＳペイロードの表現に基づいてオーディオデコーダーを制御すること、または、符号化ツールインジケーターの表現、ＩＶＡＳビットレート分布制御テーブル、メタデータペイロード、およびＥＶＳペイロードの表現を記憶デバイス上に記憶すること（５１０）を更に含む。

例示のプロセス－ＳＰＡＲフォーマットのＩＶＡＳビットストリーム
図６は、一実施形態によるＩＶＡＳＳＰＡＲ符号化プロセス６００のフロー図である。プロセス６００は、図８を参照して説明されるようなデバイスアーキテクチャを使用して実施することができる。

プロセス６００は、ＩＶＡＳエンコーダーを使用して、符号化モード／符号化ツールインジケーターを復号化し、符号化モード／符号化ツールインジケーターをＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内に符号化すること（６０１）を含む。

プロセス６００は、ＩＶＡＳエンコーダーを使用して、ＳＰＡＲビットレート分布制御テーブルの表現を求め、ＩＶＡＳビットストリームのツールヘッダー（ＴＨ）セクションにおけるモードヘッダー／ツールヘッダー内に符号化すること（６０２）を更に含む。ここで、ＴＨセクションはＣＨセクションの後に続く。

プロセス６００は、ＩＶＡＳエンコーダーを使用して、メタデータペイロードを求め、メタデータペイロードをＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクション内に符号化すること（６０３）を更に含む。いくつかの実施態様において、ＭＤＰセクションは、ＩＶＡＳビットストリームのＣＨセクションの後に続く。

いくつかの実施態様において、ＭＤＰセクションは、量子化ストラテジーインジケーター；符号化ストラテジーインジケーター；ならびに１つ以上の係数の量子化および符号化された実部および虚部を含む。いくつかの実施態様において、１つ以上の係数は、予測係数、相互予測係数（またはダイレクト係数）、実数（対角）デコリレーター係数および複素（非対角）デコリレーター係数を含むが、これらに限定されるものではない。いくつかの実施態様において、より多くの係数またはより少ない係数が、ＩＶＡＳビットストリームのＭＤＰセクションに格納され、ＩＶＡＳビットストリームのＭＤＰセクションから読み出される。

プロセス６００は、ＩＶＡＳエンコーダーを使用して、拡張型音声サービス（ＥＶＳ）ペイロードを求め、ＥＶＳペイロードをＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクション内に符号化すること（６０４）を更に含む。いくつかの実施態様において、ＩＶＡＳビットストリームのＥＰセクションは、３ＧＰＰＴＳ２６．４４５に従って全てのチャネルのＥＶＳペイロードを含む。いくつかの実施態様において、ＥＰセクションは、ＩＶＡＳビットストリームのＣＨセクションの後に続く。いくつかの実施態様において、ＥＰセクションは、ＭＤＰセクションの後に続く。ＥＰセクションをＩＶＡＳビットストリームのＭＤＰセクションの後に続かせることによって、効率的なビットパッキングが確保され、ＭＤＰビットおよびＥＰビットの数が（ビットレート分布アルゴリズムに従って）変化することを可能にすることによって、ＩＶＡＳビットレートバジェットにおける全ての利用可能なビットの利用が確保されることに留意されたい。

プロセス６００は、ビットストリームを非一時的コンピューター可読媒体上に記憶すること、または、ビットストリームを下流デバイスにストリーミングすること（６０５）を更に含む。

図７は、一実施形態によるＩＶＡＳＳＰＡＲ復号化プロセス７００のフロー図である。プロセス７００は、図８を参照して説明されるようなデバイスアーキテクチャを使用して実施することができる。

プロセス７００は、ＩＶＡＳデコーダーを使用して、ＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内の符号化モードインジケーターを抽出して復号化すること（７０１）を含む。

プロセス７００は、ＩＶＡＳデコーダーを使用して、ＩＶＡＳビットストリームのツールヘッダー（ＴＨ）セクションにおけるモードヘッダー／ツールヘッダー内のＳＰＡＲビットレート分布制御テーブルの表現を抽出して復号化すること（７０２）を含む。いくつかの実施態様において、ＴＨセクションはＣＨセクションの後に続く。

プロセス７００は、ＩＶＡＳデコーダーを使用して、メタデータペイロードをＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクションから抽出して復号化すること（７０３）を更に含む。いくつかの実施態様において、ＭＤＰセクションは、ＩＶＡＳビットストリームのＣＨセクションの後に続く。

プロセス７００は、ＩＶＡＳデコーダーを使用して、拡張型音声サービス（ＥＶＳ）ペイロードをＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクションから抽出して復号化すること（７０４）を更に含む。いくつかの実施態様において、ＥＰセクションはＣＨセクションの後に続く。いくつかの実施態様において、ＥＰセクションはＭＤＰセクションの後に続く。ＥＰセクションをＩＶＡＳビットストリームのＭＤＰセクションの後に続かせることによって、効率的なビットパッキングが確保され、ＭＤＰビットおよびＥＰビットの数が（ビットレート分布アルゴリズムに従って）変化することを可能にすることによって、ＩＶＡＳビットレートバジェットにおける全ての利用可能なビットの利用が確保されることに留意されたい。

プロセス７００は、符号化モードインジケーター、ＳＰＡＲビットレート分布制御テーブル、ＥＶＳペイロード、およびメタデータペイロードの表現に基づいてオーディオデコーダーを制御すること、または、符号化モードインジケーターの表現、ＳＰＡＲビットレート分布制御テーブル、ＥＶＳペイロード、およびメタデータペイロードの表現を非一時的コンピューター可読媒体上に記憶すること（７０５）を更に含む。

例示のシステムアーキテクチャ
図８は、本開示の例示の実施形態を実施するのに適した一例示のシステム８００のブロック図を示している。システム８００は、１つ以上のサーバーコンピューターまたは任意のクライアントデバイスを含む。これらのサーバーコンピューターまたはクライアントデバイスは、図１に示すデバイスのうちの任意のもの、例えばコールサーバー１０２、レガシーデバイス１０６、ユーザー機器１０８、１１４、会議室システム１１６、１１８、ホームシアターシステム、ＶＲギア１２２および没入型コンテンツインジェスト１２４等を含むが、これらに限定されるものではない。システム８００は、任意のコンシューマデバイスを含み、このコンシューマデバイスは、スマートフォン、タブレットコンピューター、ウェアラブルコンピューター、車両コンピューター、ゲームコンソール、サラウンドシステム、キオスクを含むが、これらに限定されるものではない。

図示するように、システム８００は、例えば、リードオンリーメモリ（ＲＯＭ：read only memory）８０２に記憶されたプログラム、または、例えば、記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ：random access memory）８０３にロードされたプログラムに従って様々なプロセスを実行することが可能な中央処理装置（ＣＰＵ：central processing unit）８０１を含む。ＲＡＭ８０３には、ＣＰＵ８０１が様々なプロセスを実行するときに必要とされるデータも、必要に応じて記憶される。ＣＰＵ８０１、ＲＯＭ８０２およびＲＡＭ８０３は、バス８０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続される。

次の構成要素、すなわち、キーボード、マウス等を含むことができる入力ユニット８０６；液晶ディスプレイ（ＬＣＤ）等のディスプレイおよび１つ以上のスピーカーを含むことができる出力ユニット８０７；ハードディスクまたは別の適した記憶デバイスを含む記憶ユニット８０８；ならびにネットワークカード（例えば、有線または無線）等のネットワークインターフェースカードを含む通信ユニット８０９が、Ｉ／Ｏインターフェース８０５に接続される。

いくつかの実施態様において、入力ユニット８０６は、様々なフォーマット（例えば、モノラル、ステレオ、空間、没入型、および他の適したフォーマット）のオーディオ信号のキャプチャーを可能にする（ホストデバイスに応じて）異なる位置にある１つ以上のマイクロフォンを含む。

いくつかの実施態様において、出力ユニット８０７は、様々な数のスピーカーを有するシステムを含む。図１に示すように、出力ユニット８０７は、（ホストデバイスの能力に応じて）様々なフォーマット（例えば、モノラル、ステレオ、没入型、バイノーラル、および他の適したフォーマット）のオーディオ信号をレンダリングすることができる。

通信ユニット８０９は、他のデバイスと（例えば、ネットワークを介して）通信するように構成される。ドライブ８１０も、必要に応じてＩ／Ｏインターフェース８０５に接続される。着脱可能媒体８１１、例えば磁気ディスク、光ディスク、光磁気ディスク、フラッシュドライブまたは別の適した着脱可能媒体等が、そこから読み出されたコンピュータープログラムが必要に応じて記憶ユニット８０８内にインストールされるように、ドライブ８１０に取り付けられる。当業者であれば、システム８００は、上述した構成要素を含むものとして説明されているが、実際の用途において、これらの構成要素のうちの一部を追加、除去、および／または交換することが可能であり、これらの全ての変更または改変は全て本開示の範囲内に含まれることを理解するであろう。

他の実施態様
一実施形態において、オーディオ信号のビットストリームを生成する方法が、ＩＶＡＳエンコーダーを使用して、符号化ツールインジケーターおよびサンプリングレートインジケーターを求めることであって、符号化ツールインジケーターは符号化ツールに対応する値を有し、サンプリングレートインジケーターはサンプリングレートを示す値を有することと；ＩＶＡＳエンコーダーを使用して、符号化ツールインジケーターおよびサンプリングレートインジケーターをＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内に符号化することと；ＩＶＡＳエンコーダーを使用して、拡張型音声サービス（ＥＶＳ）ペイロードを求めることと；ＩＶＡＳエンコーダーを使用して、ＥＶＳペイロードをＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクション内に符号化することであって、ＥＰセクションはＣＨセクションの後に続くことと；ＩＶＡＳエンコーダーを使用して、メタデータペイロードを求めることと；ＩＶＡＳエンコーダーを使用して、メタデータペイロードをＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクション内に符号化することであって、ＭＤＰセクションはＣＨセクションの後に続くことと；ＩＶＡＳビットストリームを非一時的コンピューター可読媒体上に記憶することまたはＩＶＡＳビットストリームを下流デバイスにストリーミングすることとを含む。

一実施形態において、オーディオ信号のビットストリームを復号化する方法が、ＩＶＡＳデコーダーを使用して、符号化ツールインジケーターおよびサンプリングレートインジケーターをＩＶＡＳビットストリームのＣＨセクションから抽出して復号化することであって、ツールインジケーターは、符号化ツールに対応する値を有し、サンプリングレートインジケーターは、サンプリングレートを示す値を有することと；ＩＶＡＳデコーダーを使用して、ＥＶＳペイロードをビットストリームのＥＰセクションから抽出して復号化することであって、ＥＰセクションはＣＨセクションの後に続くことと；ＩＶＡＳデコーダーを使用して、メタデータペイロードをビットストリームのＭＤＰセクションから復号化することであって、ＭＤＰセクションはＣＨセクションの後に続くことと；符号化ツール、サンプリングレート、ＥＶＳペイロード、およびメタデータペイロードに基づいてオーディオデコーダーを制御すること、または、符号化ツール、サンプリングレート、ＥＶＳペイロード、およびメタデータペイロードの表現を非一時的コンピューター可読媒体上に記憶することとを含む。

一実施形態において、ＭＤＰセクションは、ビットストリームのＥＰセクションの後に続くか、または、ＥＰセクションが、ビットストリームのＭＤＰセクションの後に続く。

一実施形態において、ＩＶＡＳ符号化ツールインジケーターは、３ビットデータ構造体であり、３ビットデータ構造体の第１の値はマルチモノラル符号化ツールに対応し、３ビットデータ構造体の第２の値は複合アドバンストカップリング（ＣＡＣＰＬ）符号化ツールに対応し、３ビットデータ構造体の第３の値は別の符号化ツールに対応する。

一実施形態において、入力サンプリングレートインジケーターは、２ビットデータ構造体であり、２ビットデータ構造体の第１の値は８ｋＨｚサンプリングレートを示し、２ビットデータ構造体の第２の値は１６ｋＨｚサンプリングレートを示し、２ビットデータ構造体の第３の値は３２ｋＨｚサンプリングレートを示し、２ビットデータ構造体の第４の値は４８ｋＨｚサンプリングレートを示す。

一実施形態において、上記方法は、ＥＶＳチャネル数インジケーター、ビットレート（ＢＲ）抽出モードインジケーター、ＥＶＳＢＲデータ、およびＥＶＳペイロードをそれぞれビットストリームのＥＰセクションに記憶することまたはビットストリームのＥＰセクションから読み出すことを含む。

一実施形態において、上記方法は、符号化技法インジケーター、帯域数インジケーター、フィルターバンクの遅延構成を示すインジケーター、量子化ストラテジーのインジケーター、エントロピーコーダーインジケーター、確率モデルタイプインジケーター、係数実部、係数虚部、および１つ以上の係数をそれぞれデータストリームのＭＤＰセクションに記憶することまたはデータストリームのＭＤＰセクションから読み出すことを含む。

一実施形態において、オーディオ信号のビットストリームを生成する方法が、ＩＶＡＳエンコーダーを使用して、符号化ツールインジケーターを求めることであって、このツールインジケーターは、符号化ツールに対応する値を有することと；ＩＶＡＳエンコーダーを使用して、符号化ツールインジケーターをＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内に符号化することと；ＩＶＡＳエンコーダーを使用して、ＩＶＡＳビットレート分布制御テーブルのインデックスの表現を求めることと；ＩＶＡＳエンコーダーを使用して、ＩＶＡＳビットレート分布制御テーブルのインデックスの表現をＩＶＡＳビットストリームの共通空間符号化ツールヘッダー（ＣＴＨ）セクション内に符号化することであって、ＣＴＨセクションはＣＨセクションの後に続くことと；ＩＶＡＳエンコーダーを使用して、メタデータペイロードを求めることと；ＩＶＡＳエンコーダーを使用して、メタデータペイロードをＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクション内に符号化することであって、ＭＤＰセクションはＣＴＨセクションの後に続くことと；ＩＶＡＳエンコーダーを使用して、拡張型音声サービス（ＥＶＳ）ペイロードを求めることと；ＩＶＡＳエンコーダーを使用して、ＥＶＳペイロードをＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクション内に符号化することであって、ＥＰセクションはＣＴＨセクションの後に続くことと；ビットストリームを非一時的コンピューター可読媒体上に記憶することまたはビットストリームを下流デバイスにストリーミングすることとを含む。

一実施形態において、オーディオ信号のビットストリームを復号化する方法が、ＩＶＡＳデコーダーによってビットストリームを受信することと；ビットストリームの長さおよびストライドに基づいてＩＶＡＳ動作ビットレートを計算することと；空間符号化ツールのインジケーターをビットストリームの共通ヘッダー（ＣＨ）セクションから読み出すことと；ビットストリームの共通空間符号化ツールヘッダー（ＣＴＨ）セクションの長さをＩＶＡＳ動作ビットレートに基づいて求めることであって、この求めることは、ＣＴＨセクション内のＩＶＡＳビットレート分布制御テーブルにおけるＩＶＡＳ動作ビットレートに対応するエントリー数を調べることを含むことと；ＣＴＨセクションの長さが求まり、ＩＶＡＳビットレート分布制御テーブルのインデックスが求まると、ＣＴＨセクション内の値を読み出すことと；拡張型音声サービス（ＥＶＳ）ビットレート分布についての情報を、ＩＶＡＳビットレート分布制御テーブルのインデックスに対応するＩＶＡＳビットレート分布制御テーブルのエントリーから読み出すことと；ＥＶＳビットレート分布についての情報をＥＶＳデコーダーに提供することとを含む。

一実施形態において、上記方法のいずれかは、３ＧＰＰＴＳ２６．４４５とのモノラルダウンミックス後方互換性のインジケーターをＩＶＡＳビットレート分布制御テーブルのエントリーから読み出すことを含む。

一実施形態において、上記方法は、モノラルダウンミックス後方互換性インジケーターがＯＮモードにあると判断することと；ＯＮモードに応答して、ビットストリームの残りの部分をＥＶＳデコーダーに提供することと；次に、ＥＶＳビットレート分布に基づいて、各ＥＶＳインスタンスのそれぞれのビット長をビットストリームの残りの部分から算出することと；対応するビット長に基づいて各ＥＶＳインスタンスのＥＶＳビットを読み出すことと；ＥＶＳビットをＥＶＳデコーダーに第１の部分として提供することと、ビットストリームの残りの部分をＭＤＰデコーダーに提供して空間メタデータを復号化することとを含む。

一実施形態において、上記方法は、モノラルダウンミックス後方互換性インジケーターがＯＦＦモードにあると判断することと；ＯＦＦモードに応答して、ビットストリームの残りの部分をＭＤＰデコーダーに提供して空間メタデータを復号化することと；次に、ＥＶＳビットレート分布に基づいて、ビットストリーム残りの部分から各ＥＶＳインスタンスのそれぞれのビット長を算出することと；対応するビット長に基づいて各ＥＶＳインスタンスのＥＶＳビットを読み出すことと；ＥＶＳビットをＥＶＳデコーダーに第１の部分として提供することとを含む。

一実施形態において、システムが、１つ以上のコンピュータープロセッサと；１つ以上のプロセッサによって実行されると、上記方法クレームのうちのいずれか１つの動作を１つ以上のプロセッサに実行させる命令を記憶する非一時的コンピューター可読媒体とを備える。

一実施形態において、非一時的コンピューター可読媒体が、１つ以上のプロセッサによって実行されると、上記方法クレームのうちのいずれか１つの動作を１つ以上のプロセッサに実行させる命令を記憶する。

本開示の例示の実施形態によれば、上述したプロセスは、コンピューターソフトウェアプログラムとしてまたはコンピューター可読記憶媒体上に実施することができる。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータープログラムを含むコンピュータープログラム製品を含み、このコンピュータープログラムは、方法を実行するプログラムコードを含む。そのような実施形態において、コンピュータープログラムは、図８に示すように、ネットワークから通信ユニット８０９を介してダウンロードして実装することができ、および／または着脱可能媒体８１１からインストールすることができる。

一般に、本開示の様々な例示の実施形態は、ハードウェアもしくは専用回路（例えば、制御回路類）、ソフトウェア、ロジックまたはそれらの任意の組み合わせで実施することができる。例えば、上述したユニットは、制御回路類（例えば、図８の他の構成要素と組み合わせたＣＰＵ）によって実行することができ、したがって、この制御回路類は、本開示において説明された動作を実行することができる。ハードウェアで実施することができる態様もあれば、コントローラー、マイクロプロセッサまたは他のコンピューティングデバイス（例えば、制御回路類）によって実行することができるファームウェアまたはソフトウェアで実施することができる態様もある。本開示の例示の実施形態の様々な態様は、ブロック図、フローチャートとして、または他の或る図形表現を使用して図示および説明されているが、本明細書において説明されているブロック、装置、システム、技法または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくはロジック、汎用ハードウェアもしくはコントローラーもしくは他のコンピューティングデバイス、またはそれらの或る組み合わせで実施することができることが理解されるであろう。

加えて、フローチャートに示す様々なブロックは、コンピュータープログラムコードの動作の結果からもたらされる方法ステップおよび／または動作、および／または、関連した機能（単数または複数）を実行するように構成された複数の結合された論理回路素子とみなすことができる。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータープログラムを含むコンピュータープログラム製品を含み、このコンピュータープログラムは、上述したような方法を実行するように構成されるプログラムコードを含む。

本開示の文脈において、機械可読媒体は、命令実行システム、命令実行装置、もしくは命令実行デバイスによってまたはそれらに関連して使用されるプログラムを収容または記憶することができる任意の有形媒体とすることができる。機械可読媒体は、機械可読信号媒体であってもよいし、機械可読記憶媒体であってもよい。機械可読媒体は、非一時的なものであってもよく、電子、磁気、光、電磁気、赤外線、または半導体システム、装置、もしくはデバイス、またはそれらの任意の適した組み合わせを含むことができるが、これらに限定されるものではない。機械可読記憶媒体のより具体的な例は、１つ以上の配線を有する電気接続、ポータブルコンピューターディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、またはそれらの任意の適した組み合わせを含む。

本開示の方法を実行するコンピュータープログラムコードは、１つ以上のプログラミング言語の任意の組み合わせで記述することができる。これらのコンピュータープログラムコードは、当該プログラムコードが、コンピューターまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図において指定された機能／動作の実施を引き起こすように、汎用コンピューター、専用コンピューター、または制御回路類を有する他のプログラマブルデータ処理装置のプロセッサに提供することができる。プログラムコードは、スタンドアローンソフトウェアパッケージとしてコンピューター上で全体的またはコンピューター上で部分的に実行することもできるし、一部はコンピューター上および一部はリモートコンピューター上で実行することもできるし、全体をリモートコンピューターまたはリモートサーバー上で実行することもできるし、１つ以上のリモートコンピューターおよび／またはリモートサーバーにわたって分散させることもできる。

本明細書は、多くの具体的な実施の詳細を含むが、これらは、特許請求され得るものの範囲に対する限定と解釈されるべきではなく、逆に、特定の実施形態に固有であり得る特徴の説明と解釈されるべきである。別々の実施形態の文脈で本明細書に説明されている或る特定の特徴は、単一の実施形態に組み合わせて実施することもできる。逆に、単一の実施形態の文脈で説明されている様々な特徴は、複数の実施形態において別々にまたは任意の適したサブコンビネーションで実施することもできる。その上、特徴は、或る特定の組み合わせで動作するものとして上記で説明され、そのようなものとして当初に請求項に記載されることさえあるが、請求項に記載の組み合わせからの１つ以上の特徴は、いくつかの場合には、その組み合わせから削除することができ、請求項に記載の組み合わせは、サブコンビネーションまたはサブコンビネーションの変形形態を対象とすることができる。図に示された論理フローは、望ましい結果を達成するために、図示された特定の順序も逐次的な順序も必須とするものではない。加えて、記載のフローに対して他のステップを設けることもできるし、ステップを削除することもでき、記載のシステムに対して他の構成要素を追加または削除することができる。したがって、他の実施態様が、添付の特許請求の範囲の範囲内にある。

Claims

オーディオ信号のビットストリームを生成する方法であって、
没入型音声オーディオサービス（ＩＶＡＳ）エンコーダーを使用して、符号化モードインジケーターまたは符号化ツールインジケーターを求めることであって、前記符号化モードインジケーターまたは前記符号化ツールインジケーターは、前記オーディオ信号の符号化モードまたは符号化ツールを示すことと、
前記ＩＶＡＳエンコーダーを使用して、前記符号化モードインジケーターまたは前記符号化ツールインジケーターをＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内に符号化することと、
前記ＩＶＡＳエンコーダーを使用して、モードヘッダーまたはツールヘッダーを求めることと、
前記ＩＶＡＳエンコーダーを使用して、前記モードヘッダーまたは前記ツールヘッダーを前記ＩＶＡＳビットストリームのツールヘッダー（ＴＨ）セクション内に符号化することであって、前記ＴＨセクションは前記ＣＨセクションの後に続くことと、
前記ＩＶＡＳエンコーダーを使用して、空間メタデータを含むメタデータペイロードを求めることと、
前記ＩＶＡＳエンコーダーを使用して、前記メタデータペイロードを前記ＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクション内に符号化することであって、前記ＭＤＰセクションは、前記ＣＨセクションの後に続くことと、
前記ＩＶＡＳエンコーダーを使用して、拡張型音声サービス（ＥＶＳ）ペイロードを求めることであって、前記ＥＶＳペイロードは、前記オーディオ信号の各チャネルまたは各ダウンミックスチャネルのＥＶＳ符号化ビットを含むことと、
前記ＩＶＡＳエンコーダーを使用して、前記ＥＶＳペイロードを前記ＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクション内に符号化することであって、前記ＥＰセクションは前記ＣＨセクションの後に続くことと、
を含む、方法。
前記ＩＶＡＳビットストリームを非一時的コンピューター可読媒体上に記憶すること、または、前記ＩＶＡＳビットストリームを下流デバイスにストリーミングすることを更に含み、
前記符号化モードまたは前記符号化ツールインジケーター、前記モードヘッダーまたは前記ツールヘッダー、前記メタデータペイロードおよび前記ＥＶＳペイロードは、前記下流デバイスまたは別のデバイスにおける前記オーディオ信号の再構成に使用するために、前記ＩＶＡＳビットストリームの前記ＣＨセクション、前記ＴＨセクション、前記ＭＤＰセクションおよび前記ＥＰセクションからそれぞれ抽出されて復号化される、請求項１に記載の方法。
オーディオ信号のビットストリームを復号化する方法であって、
没入型音声オーディオサービス（ＩＶＡＳ）デコーダーを使用して、ＩＶＡＳビットストリームの共通ヘッダー（ＣＨ）セクション内の符号化モードインジケーターまたは符号化ツールインジケーターを抽出して復号化することであって、前記符号化モードインジケーターまたは前記符号化ツールインジケーターは、前記オーディオ信号の符号化モードまたは符号化ツールを示すことと、
前記ＩＶＡＳデコーダーを使用して、前記ＩＶＡＳビットストリームの前記ツールヘッダー（ＴＨ）セクション内のモードヘッダーまたはツールヘッダーを抽出して復号化することであって、前記ＴＨセクションは前記ＣＨセクションの後に続くことと、
前記ＩＶＡＳデコーダーを使用して、メタデータペイロードを前記ＩＶＡＳビットストリームのメタデータペイロード（ＭＤＰ）セクションから抽出して復号化することであって、前記ＭＤＰセクションは前記ＣＨセクションの後に続き、前記メタデータペイロードは空間メタデータを含むことと、
前記ＩＶＡＳデコーダーを使用して、拡張型音声サービス（ＥＶＳ）ペイロードを前記ＩＶＡＳビットストリームのＥＶＳペイロード（ＥＰ）セクションから抽出して復号化することであって、前記ＥＰセクションは前記ＣＨセクションの後に続き、前記ＥＶＳペイロードは、前記オーディオ信号の各チャネルまたは各ダウンミックスチャネルのＥＶＳ符号化ビットを含むことと、
を含む、方法。
下流デバイスまたは別のデバイスにおける前記オーディオ信号の再構成に使用するための前記下流デバイスのオーディオデコーダーを、前記符号化モードインジケーターもしくは前記符号化ツールインジケーター、前記モードヘッダーもしくは前記ツールヘッダー、前記ＥＶＳペイロード、および前記メタデータペイロードに基づいて制御すること、または、前記符号化モードインジケーターもしくは前記符号化ツールインジケーター、前記モードヘッダーもしくは前記ツールヘッダー、前記ＥＶＳペイロード、および前記メタデータペイロードの表現を非一時的コンピューター可読媒体上に記憶することを更に含む、請求項３に記載の方法。
前記ＣＨはマルチビットデータ構造体であり、前記マルチビットデータ構造体の１つの値は、空間再構成（ＳＰＡＲ）符号化モードに対応し、前記データ構造体の他の値は、他の符号化モードに対応する、請求項１から４のいずれか１項に記載の方法。
空間再構成（ＳＰＡＲ）ビットレート分布制御テーブルの行インデックスを計算するためのインデックスオフセットをそれぞれ前記ＩＶＡＳビットストリームの前記ＴＨセクションに記憶することまたは前記ＴＨセクションから読み出すことを含む、請求項１から５のいずれか１項に記載の方法。
量子化ストラテジーインジケーターと、
ビットストリーム符号化ストラテジーインジケーターと、
係数のセットの量子化および符号化された実部および虚部と、
を、それぞれ前記ＩＶＡＳビットストリームの前記ＭＤＰセクションに記憶することまたは前記ＭＤＰセクションから読み出すことを含む、請求項１から６のいずれか１項に記載の方法。
前記ＥＰセクションは、効率的なビットパッキングを確保するために前記ＭＤＰセクションの後に続き、前記ＩＶＡＳビットストリームの前記ＭＤＰセクション内のビット数および前記ＩＶＡＳビットストリームの前記ＥＰセクションのビット数は、ＩＶＡＳビットレートバジェットにおける全ての利用可能なビットの利用を確保するために、前記ＳＰＡＲビットレート分布制御テーブルおよびビットレート分布アルゴリズムに従って変化する、請求項１から７のいずれか１項に記載の方法。
各ＥＶＳ符号化チャネルまたは各ダウンミックスチャネルのビットレートは、ＥＶＳの利用可能な全ビット、ビットレート分布制御テーブルおよびビットレート分布アルゴリズムによって求められる、請求項１から８のいずれか１項に記載の方法。
前記係数のセットは、予測係数、ダイレクト係数、対角実数係数および下三角複素係数を含む、請求項７に記載の方法。
前記予測係数は、エントロピー符号化に基づく可変ビット長であり、前記ダイレクト係数、前記対角実数係数および下三角複素係数は、ダウンミックス構成およびエントロピー符号化に基づく可変ビット長である、請求項１０に記載の方法。
前記量子化ストラテジーインジケーターは、量子化ストラテジーを示すマルチビットデータ構造体である、請求項７に記載の方法。
前記ビットストリーム符号化ストラテジーインジケーターは、空間メタデータの帯域数および非差分エントロピー符号化方式または時間差分エントロピー符号化方式を示すマルチビットデータ構造体である、請求項７に記載の方法。
前記係数の前記量子化は、メタデータ量子化およびＥＶＳビットレート分布を含むＥＶＳビットレート分布制御ストラテジーに従う、請求項７に記載の方法。
第３世代パートナーシッププロジェクト（３ＧＰＰ）技術仕様（ＴＳ）２６．４４５に従って、ＥＶＳインスタンスのＥＶＳペイロードを、それぞれ前記ビットストリームの前記ＥＰセクションに記憶すること、または、前記ビットストリームの前記ＥＰセクションから読み出すことを含む、請求項１から１４のいずれか１項に記載の方法。
前記ＩＶＡＳビットストリームからビットレートを求めることと、
前記ＩＶＡＳビットストリームの空間再構成（ＳＰＡＲ）ツールヘッダー（ＴＨ）セクションからインデックスオフセットを読み出すことと、
前記インデックスオフセットを使用して、前記ＳＰＡＲビットレート分布制御テーブルのテーブル行インデックスを求めることと、
前記ＩＶＡＳビットストリームにおけるメタデータペイロード（ＭＤＰ）セクションから量子化ストラテジービットおよび符号化ストラテジービットを読み出すことと、
前記量子化ストラテジービットおよび前記符号化ストラテジービットに基づいて、前記ＩＶＡＳビットストリームの前記ＭＤＰセクション内のＳＰＡＲ空間メタデータを量子化解除することと、
利用可能な全ＥＶＳビット、ＳＰＡＲビットレート分布制御テーブルおよびビットレート分布アルゴリズムを使用して、前記ＩＶＡＳビットストリームにおける各チャネルの拡張型音声サービス（ＥＶＳ）ビットレートを求めることと、
前記ＥＶＳビットレートに基づいて前記ＩＶＡＳビットストリームの前記ＥＰセクションからＥＶＳ符号化ビットを読み出すことと、
前記ＥＶＳビットを復号化することと、
前記空間メタデータを復号化することと、
前記復号化されたＥＶＳビットおよび前記復号化された空間メタデータを使用して、１次アンビソニックス（ＦｏＡ）出力を生成することと、
を更に含む、請求項３から１５のいずれか１項に記載の方法。
１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行されると、請求項１から１６のいずれか１項に記載の方法の動作を前記１つ以上のプロセッサに実行させる命令を記憶する非一時的コンピューター可読媒体と、
を備える、システム。
１つ以上のプロセッサによって実行されると、請求項１から１６のいずれか１項に記載の方法の動作を前記１つ以上のプロセッサに実行させる命令を記憶する非一時的コンピューター可読媒体。