JP2017534910A

JP2017534910A - 高次アンビソニックオーディオデータのスケーラブルコーディングのためのチャネルのシグナリング

Info

Publication number: JP2017534910A
Application number: JP2017518945A
Authority: JP
Inventors: キム、モ・ユン; ペーターズ、ニルス・ガンザー; セン、ディパンジャン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-10-10
Filing date: 2015-10-09
Publication date: 2017-11-24
Anticipated expiration: 2035-10-09
Also published as: CA2961292A1; AU2015330759A1; KR102053508B1; JP6549225B2; EP3204942A1; BR112017007153A2; WO2016057926A1; KR20170067758A; CL2017000822A1; US20160104494A1; CN106796796A; SG11201701626RA; AU2015330759B2; CO2017003348A2; US9984693B2; CA2961292C; CN106796796B; EP3204942B1; ES2841419T3; HUE051376T2

Abstract

概して、高次アンビソニックスオーディオデータのスケーラブルコーディングのためのチャネルをシグナリングするための技法が説明される。メモリとプロセッサとを備えるデバイスが、本技法を実行するように構成され得る。メモリは、ビットストリームを記憶するように構成され得る。プロセッサは、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数の指示をビットストリームから取得することと、チャネルの数の指示に基づいてビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルを取得することとを行うように構成され得る。【選択図】図１５Ｂ

Description

優先権の主張

本出願は、その各々の内容全体が参照により本明細書に組み込まれる、
２０１４年１０月１０日に出願された「ＳＣＡＬＡＢＬＥＣＯＤＩＮＧＯＦＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＡＵＤＩＯＤＡＴＡ」と題する米国仮出願第６２／０６２，５８４号、
２０１４年１１月２５日に出願された「ＳＣＡＬＡＢＬＥＣＯＤＩＮＧＯＦＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＡＵＤＩＯＤＡＴＡ」と題する米国仮出願第６２／０８４，４６１号、
２０１４年１２月３日に出願された「ＳＣＡＬＡＢＬＥＣＯＤＩＮＧＯＦＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＡＵＤＩＯＤＡＴＡ」と題する米国仮出願第６２／０８７，２０９号、
２０１４年１２月５日に出願された「ＳＣＡＬＡＢＬＥＣＯＤＩＮＧＯＦＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＡＵＤＩＯＤＡＴＡ」と題する米国仮出願第６２／０８８，４４５号、
２０１５年４月１０日に出願された「ＳＣＡＬＡＢＬＥＣＯＤＩＮＧＯＦＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＡＵＤＩＯＤＡＴＡ」と題する米国仮出願第６２／１４５，９６０号、
２０１５年６月１２日に出願された「ＳＣＡＬＡＢＬＥＣＯＤＩＮＧＯＦＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＡＵＤＩＯＤＡＴＡ」と題する米国仮出願第６２／１７５，１８５号、
２０１５年７月１日に出願された「ＲＥＤＵＣＩＮＧＣＯＲＲＥＬＡＴＩＯＮＢＥＴＷＥＥＮＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣ（ＨＯＡ）ＢＡＣＫＧＲＯＵＮＤＣＨＡＮＮＥＬＳ」と題する米国仮出願第６２／１８７，７９９号、および
２０１５年８月２５日に出願された「ＴＲＡＮＳＰＯＲＴＩＮＧＣＯＤＥＤＳＣＡＬＡＢＬＥＡＵＤＩＯＤＡＴＡ」と題する米国仮出願第６２／２０９，７６４号
の利益を主張する。

本開示はオーディオデータに関し、より詳細には、高次アンビソニックオーディオデータのスケーラブルコーディングに関する。

[0003]高次アンビソニックス（ＨＯＡ：higher-order ambisonics）信号（複数の球面調和係数（ＳＨＣ：spherical harmonic coefficient）または他の階層的要素によって表されることが多い）は、音場の３次元表現である。このＨＯＡ表現またはＳＨＣ表現は、ＳＨＣ信号からレンダリングされるマルチチャネルオーディオ信号を再生するために使用されるローカルスピーカー幾何学的配置（geometry）に依存しない方法で音場を表し得る。ＳＨＣ信号は、５．１オーディオチャネルフォーマットまたは７．１オーディオチャネルフォーマットなどのよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、ＳＨＣ信号はまた、後方互換性を容易にし得る。したがって、ＳＨＣ表現は、後方互換性にも対応する、音場のより良い表現を可能にし得る。

[0004]概して、高次アンビソニックスオーディオデータのスケーラブルコーディングのための技法が説明される。高次アンビソニックスオーディオデータは、１よりも大きい次数を有する球面調和基底関数(spherical harmonic basis function)に対応する少なくとも１つの高次アンビソニック（ＨＯＡ）係数を備え得る。本技法は、ベースレイヤおよび１つまたは複数のエンハンスメントレイヤなどの複数のレイヤを使用してＨＯＡ係数をコーディングすることによって、ＨＯＡ係数のスケーラブルコーディングを実現し得る。ベースレイヤは、１つまたは複数のエンハンスメントレイヤによって増強され得るＨＯＡ係数によって表される音場の再生を可能にし得る。言い換えれば、（ベースレイヤと組み合わせて）エンハンスメントレイヤは、ベースレイヤのみと比較して、音場のより完全な（またはより正確な）再生を可能にするさらなる分解能を提供し得る。

[0005]一態様では、デバイスが、高次アンビソニックオーディオ信号を表すビットストリームを復号するように構成される。本デバイスは、ビットストリームを記憶するように構成されたメモリと、ビットストリームにおいて指定されたレイヤの数の指示をビットストリームから取得することと、レイヤの数の指示に基づいてビットストリームのレイヤを取得することとを行うように構成された１つまたは複数のプロセッサとを備える。

[0006]別の態様では、高次アンビソニックオーディオ信号を表すビットストリームを復号する方法であって、本方法は、ビットストリームにおいて指定されたレイヤの数の指示をビットストリームから取得することと、レイヤの数の指示に基づいてビットストリームのレイヤを取得することとを備える。

[0007]別の態様では、装置が、高次アンビソニックオーディオ信号を表すビットストリームを復号するように構成される。本装置は、ビットストリームを記憶するための手段と、ビットストリームにおいて指定されたレイヤの数の指示をビットストリームから取得するための手段と、レイヤの数の指示に基づいてビットストリームのレイヤを取得するための手段とを備える。

[0008]別の態様では、実行されると、１つまたは複数のプロセッサに、ビットストリームにおいて指定されたレイヤの数の指示をビットストリームから取得することと、レイヤの数の指示に基づいてビットストリームのレイヤを取得することを行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。

[0009]別の態様では、デバイスが、ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化するように構成される。本デバイスは、ビットストリームを記憶するように構成されたメモリと、ビットストリームにおけるレイヤの数の指示を指定することと、指示された数のレイヤを含むビットストリームを出力することとを行うように構成された１つまたは複数のプロセッサとを備える。

[0010]別の態様では、高次アンビソニックオーディオ信号を表すビットストリームを生成する方法であって、本方法は、ビットストリームにおけるレイヤの数の指示を指定することと、指示された数のレイヤを含むビットストリームを出力することとを備える。

[0011]別の態様では、デバイスが、高次アンビソニックオーディオ信号を表すビットストリームを復号するように構成される。本デバイスは、ビットストリームを記憶するように構成されたメモリと、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数の指示をビットストリームから取得することと、チャネルの数の指示に基づいてビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルを取得することとを行うように構成された１つまたは複数のプロセッサとを備える。

[0012]別の態様では、高次アンビソニックオーディオ信号を表すビットストリームを復号する方法であって、本方法は、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数の指示をビットストリームから取得することと、チャネルの数の指示に基づいてビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルを取得することとを備える。

[0013]別の態様では、デバイスが、高次アンビソニックオーディオ信号を表すビットストリームを復号するように構成される。本デバイスは、ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示をビットストリームから取得するための手段と、チャネルの数の指示に基づいて、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルを取得するための手段とを備える。

[0014]別の態様では、実行されると、１つまたは複数のプロセッサに、高次アンビソニックオーディオ信号を表すビットストリームから、ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を取得することと、チャネルの数の指示に基づいて、ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルを取得することとを行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。

[0015]別の態様では、デバイスが、ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化するように構成される。本デバイスは、ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示をビットストリームにおいて指定することと、ビットストリームの１つまたは複数のレイヤにおけるチャネルの指示された数を指定することとを行うように構成された１つまたは複数のプロセッサと、ビットストリームを記憶するように構成されたメモリとを備える。

[0016]別の態様では、ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化する方法であって、本方法は、ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示をビットストリームにおいて指定することと、ビットストリームの１つまたは複数のレイヤにおけるチャネルの指示された数を指定することとを備える。

[0017]本技法の１つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。本技法の他の特徴、目的、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。

[0018]様々な次数および副次数の球面調和基底関数を示す図。 [0019]本開示で説明される技法の様々な態様を実行し得るシステムを示す図。 [0020]本開示で説明される技法の様々な態様を実行し得る図２の例に示されるオーディオ符号化デバイスの一例をより詳細に示すブロック図。 [0021]図２のオーディオ復号デバイスをより詳細に示すブロック図。 [0022]本開示で説明されるスケーラブルオーディオコーディング技法の潜在的バージョンのうちの第１のものを実行するように構成されるときの図３のビットストリーム生成ユニットをより詳細に示す図。 [0023]本開示で説明される潜在的バージョンスケーラブルオーディオ復号技法のうちの第１のものを実行するように構成されるときの図４の抽出ユニットをより詳細に示す図。 [0024]高次アンビソニック（ＨＯＡ）係数の符号化された２層表現を生成する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。高次アンビソニック（ＨＯＡ）係数の符号化された２層表現を生成する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。高次アンビソニック（ＨＯＡ）係数の符号化された２層表現を生成する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。高次アンビソニック（ＨＯＡ）係数の符号化された２層表現を生成する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。 [0025]ＨＯＡ係数の符号化された３層表現を生成する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。ＨＯＡ係数の符号化された３層表現を生成する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。 [0026]ＨＯＡ係数の符号化された４層表現を生成する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。ＨＯＡ係数の符号化された４層表現を生成する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。 [0027]本技法の様々な態様による、ビットストリームにおいて指定されたＨＯＡ構成オブジェクトの一例を示す図。 [0028]第１および第２のレイヤに関するビットストリーム生成ユニットによって生成されたサイドバンド情報を示す図。 [0029]本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報を示す図。本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報を示す図。 [0030]本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報を示す図。本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報を示す図。 [0031]本開示で説明される技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。 [0032]本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。 [0033]本開示で説明される技法の様々な態様による、図１６の例に示されるビットストリーム生成ユニットによって実行されるスケーラブルオーディオコーディングを示す図。 [0034]２つのレイヤがあり、ベースレイヤにおいて４つの符号化されたアンビエントＨＯＡ係数が指定され、エンハンスメントレイヤにおいて２つの符号化されたフォアグラウンド信号が指定されることをシンタックス要素が示す一例の概念図。 [0035]本開示で説明されるスケーラブルオーディオコーディング技法の潜在的バージョンのうちの第２のものを実行するように構成されるときの図３のビットストリーム生成ユニットをより詳細に示す図。 [0036]本開示で説明される潜在的バージョンスケーラブルオーディオ復号技法のうちの第２のものを実行するように構成されるときの図３の抽出ユニットをより詳細に示す図。 [0037]図１８のビットストリーム生成ユニットおよび図１９の抽出ユニットが、本開示で説明される技法の潜在的バージョンのうちの第２のものを実行し得る、第２の使用事例を示す図。 [0038]３つのレイヤがあり、２つの符号化されたアンビエントＨＯＡ係数がベースレイヤにおいて指定され、第１のエンハンスメントレイヤにおいて２つの符号化されたフォアグラウンド信号が指定され、第２のエンハンスメントレイヤにおいて２つの符号化されたフォアグラウンド信号が指定されることをシンタックス要素が示す一例の概念図。 [0039]本開示で説明されるスケーラブルオーディオコーディング技法の潜在的バージョンのうちの第３のものを実行するように構成されるときの図３のビットストリーム生成ユニットをより詳細に示す図。 [0040]本開示で説明される潜在的バージョンスケーラブルオーディオ復号技法のうちの第３のものを実行するように構成されるときの図４の抽出ユニットをより詳細に示す図。 [0041]本開示で説明される技法による、オーディオ符号化デバイスがマルチレイヤビットストリームにおける複数のレイヤを指定し得る、第３の使用事例を示す図。 [0042]３つのレイヤがあり、ベースレイヤにおいて２つの符号化されたフォアグラウンド信号が指定され、第１のエンハンスメントレイヤにおいて２つの符号化されたフォアグラウンド信号が指定され、第２のエンハンスメントレイヤにおいて２つの符号化されたフォアグラウンド信号が指定されることをシンタックス要素が示す一例の概念図。 [0043]本開示で説明される技法による、オーディオ符号化デバイスがマルチレイヤビットストリームにおける複数のレイヤを指定し得る、第３の使用事例を示す図。 [0044]本開示で説明される技法の様々な態様を実行するように構成され得るスケーラブルビットストリーム生成ユニットを示すブロック図。本開示で説明される技法の様々な態様を実行するように構成され得るスケーラブルビットストリーム抽出ユニットを示すブロック図。 [0045]本開示で説明される技法の様々な態様に従って動作するように構成され得るエンコーダを表す概念図。 [0046]図２７の例で示されるエンコーダをより詳細に示す図。 [0047]本開示で説明される技法の様々な態様に従って動作するように構成され得るオーディオデコーダを示すブロック図。

[0048]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカーへのフィード（feeds）を暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している５．１フォーマット（これは、次の６つのチャネル、すなわち、フロントレフト（ＦＬ）と、フロントライト（ＦＲ）と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果（ＬＦＥ）とを含む）、発展中の７．１フォーマット、７．１．４フォーマットおよび２２．２フォーマット（たとえば、超高精細度テレビジョン規格とともに使用するための）などのハイトスピーカー(height speaker)を含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」としばしば呼ばれる（対称な、および非対称な幾何学的配置の）任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂２０面体（truncated icosahedron）の角の座標に配置された３２個のラウドスピーカーを含む。

[0049]将来のＭＰＥＧエンコーダへの入力は、場合によっては、次の３つの可能なフォーマット、すなわち、（ｉ）あらかじめ指定された位置においてラウドスピーカーを通じて再生されることが意図される、（上記で説明された）従来のチャネルベースオーディオ、（ｉｉ）（情報の中でも）ロケーション座標を含んでいる関連するメタデータをもつ単一オーディオオブジェクトのための離散的なパルス符号変調（ＰＣＭ）データを伴うオブジェクトベースオーディオ、ならびに（ｉｉｉ）球面調和基底関数の係数（「球面調和係数」すなわちＳＨＣ、「高次アンビソニックス」すなわちＨＯＡ、および「ＨＯＡ係数」とも呼ばれる）を使用して音場を表すことを伴うシーンベースオーディオのうちの１つである。将来のＭＰＥＧエンコーダは、２０１３年１月にスイスのジュネーブで発表された、ｈｔｔｐ：／／ｍｐｅｇ．ｃｈｉａｒｉｇｌｉｏｎｅ．ｏｒｇ／ｓｉｔｅｓ／ｄｅｆａｕｌｔ／ｆｉｌｅｓ／ｆｉｌｅｓ／ｓｔａｎｄａｒｄｓ／ｐａｒｔｓ／ｄｏｃｓ／ｗ１３４１１．ｚｉｐにおいて入手可能な、国際標準化機構／国際電気標準会議（ＩＳＯ）／（ＩＥＣ）ＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ１３４１１による「ＣａｌｌｆｏｒＰｒｏｐｏｓａｌｓｆｏｒ３ＤＡｕｄｉｏ」と題する文書においてより詳細に説明され得る。

[0050]市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらのフォーマットは、たとえば、５．１ホームシアタシステム（リビングルームに進出するという点でステレオ以上に最も成功した）からＮＨＫ（ＮｉｐｐｏｎＨｏｓｏＫｙｏｋａｉすなわち日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ作成者（たとえば、ハリウッドスタジオ）は、一度に映画のためのサウンドトラックを作成することを望み、各スピーカー構成のためにサウンドトラックをミキシングし直すことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置（と数）および（レンダラを伴う）再生のロケーションにおける音響条件に適応可能でありそれらにアグノスティックな（agnostic）後続の復号と、を提供するための方法を考えている。

[0051]コンテンツ作成者にそのような柔軟性を提供するために、音場を表すための要素の階層セットが使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細になり、分解能は向上する。

[0052]要素の階層セットの一例は、球面調和係数（ＳＨＣ）のセットである。次の式は、ＳＨＣを使用する音場の記述または表現を示す。

[0053]この式は、時間ｔにおける音場の任意の点

における圧力ｐ_iが、ＳＨＣ、

によって一意に表され得ることを示す。ここで、

であり、ｃは、音速（約３４３ｍ／ｓ）であり、

は、基準点（または観測点）であり、ｊ_n（・）は、次数ｎの球ベッセル関数であり、

は、次数ｎおよび副次数（suborder）ｍの球面調和基底関数である。角括弧内の項が、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換などの様々な時間−周波数変換によって概算され得る信号（すなわち、

）の周波数領域表現であることが認識され得る。階層セットの他の例としては、ウェーブレット変換係数のセットおよび多分解能基底関数（multiresolution basis fuction）の係数の他のセットがある。

[0054]図１は、０次（ｎ＝０）から４次（ｎ＝４）までの球面調和基底関数を示す図である。理解できるように、各次数について、説明を簡単にするために図示されているが図１の例では明示的に示されていない副次数ｍの拡張が存在する。

[0055]ＳＨＣ

は、様々なマイクロフォンアレイ構成によって物理的に取得（たとえば、録音）され得るか、または代替的に、それらは音場のチャネルベースもしくはオブジェクトベースの記述から導出され得る。ＳＨＣはシーンベースオーディオを表し、ここで、ＳＨＣは、より効率的な送信または記憶を促し得る符号化されたＳＨＣを取得するために、オーディオエンコーダに入力され得る。たとえば、（１＋４）²個の（２５個の、したがって４次の）係数を伴う４次表現が使用され得る。

[0056]上述されたように、ＳＨＣは、マイクロフォンアレイを使用するマイクロフォン録音から導出され得る。ＳＨＣがマイクロフォンアレイからどのように導出され得るかの様々な例は、Ｐｏｌｅｔｔｉ，Ｍ、「Ｔｈｒｅｅ−ＤｉｍｅｎｓｉｏｎａｌＳｕｒｒｏｕｎｄＳｏｕｎｄＳｙｓｔｅｍｓＢａｓｅｄｏｎＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓ」、Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．、Ｖｏｌ．５３、Ｎｏ．１１、２００５年１１月、１００４〜１０２５ページにおいて説明されている。

[0057]ＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数

は、

と表され得、ここで、ｉは

であり、

は、次数ｎの（第二種の）球ハンケル関数であり、

は、オブジェクトのロケーションである。周波数の関数として（たとえば、ＰＣＭストリームに対して高速フーリエ変換を実行するなど、時間−周波数分析技法を使用して）オブジェクトソースエネルギーｇ（ω）を知ることで、各ＰＣＭオブジェクトと対応するロケーションとをＳＨＣ

に変換することができる。さらに、各オブジェクトの

係数は、（上記が線形および直交分解であるので）加法的であることが示され得る。このようにして、多数のＰＣＭオブジェクトは

係数によって（たとえば、個々のオブジェクトについての係数ベクトルの和として）表され得る。本質的に、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含んでおり、上記は、観測点

の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの図は、以下でオブジェクトベースおよびＳＨＣベースのオーディオコーディングのコンテキストで説明される。

[0058]図２は、本開示で説明される技法の様々な態様を実行し得るシステム１０を示す図である。図２の例に示されているように、システム１０は、コンテンツ作成者デバイス１２と、コンテンツ消費者デバイス１４とを含む。コンテンツ作成者デバイス１２およびコンテンツ消費者デバイス１４のコンテキストで説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、（ＨＯＡ係数とも呼ばれ得る）ＳＨＣまたは音場の任意の他の階層的表現が符号化される任意のコンテキストで実装され得る。その上、コンテンツ作成者デバイス１２は、いくつか例を挙げると、ハンドセット（もしくはセルラーフォン）、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実装することが可能な任意の形態のコンピューティングデバイスを表し得る。同様に、コンテンツ消費者デバイス１４は、いくつか例を挙げると、ハンドセット（もしくはセルラーフォン）、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示で説明される技法を実装することが可能な任意の形態のコンピューティングデバイスを表し得る。

[0059]コンテンツ作成者デバイス１２は、コンテンツ消費者デバイス１４などのコンテンツ消費者デバイスの操作者による消費のためのマルチチャネルオーディオコンテンツを生成し得る、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例では、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を圧縮することを望み得る個人ユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともにオーディオコンテンツを生成する。コンテンツ消費者デバイス１４は、個人によって操作され得る。コンテンツ消費者デバイス１４は、マルチチャネルオーディオコンテンツとしての再生のためにＳＨＣをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム１６を含み得る。

[0060]コンテンツ作成者デバイス１２は、オーディオ編集システム１８を含む。コンテンツ作成者デバイス１２は、（ＨＯＡ係数として直接含む）様々なフォーマットのライブ録音７とオーディオオブジェクト９とを取得し、コンテンツ作成者デバイス１２は、オーディオ編集システム１８を使用してこれらを編集し得る。マイクロフォン５はライブ録音７をキャプチャし得る。コンテンツ作成者は、編集プロセス中に、オーディオオブジェクト９からのＨＯＡ係数１１をレンダリングし、さらなる編集を必要とする音場の様々な態様を識別しようとして、レンダリングされたスピーカーフィードを聞き得る。コンテンツ作成者デバイス１２は、次いで、（潜在的に、上記で説明された方法でソースＨＯＡ係数がそれから導出され得るオーディオオブジェクト９のうちの様々なオブジェクトの操作を通じて間接的に）ＨＯＡ係数１１を編集し得る。コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を生成するためにオーディオ編集システム１８を採用し得る。オーディオ編集システム１８は、オーディオデータを編集し、このオーディオデータを１つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。

[0061]編集プロセスが完了すると、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１に基づいてビットストリーム２１を生成し得る。すなわち、コンテンツ作成者デバイス１２は、ビットストリーム２１を生成するために、本開示で説明される技法の様々な態様に従って、ＨＯＡ係数１１を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス２０を含む。オーディオ符号化デバイス２０は、一例として、ワイヤードチャネルまたはワイヤレスチャネルであり得る送信チャネル、データ記憶デバイスなどを介した送信のために、ビットストリーム２１を生成し得る。ビットストリーム２１は、ＨＯＡ係数１１の符号化されたバージョンを表し得、主要ビットストリームと、サイドチャネル情報と呼ばれることがある別のサイドビットストリームとを含み得る。

[0062]図２では、コンテンツ消費者デバイス１４に直接送信されるものとして示されているが、コンテンツ作成者デバイス１２は、コンテンツ作成者デバイス１２とコンテンツ消費者デバイス１４との間に配置された中間デバイスにビットストリーム２１を出力し得る。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス１４に後で配信するために、ビットストリーム２１を記憶し得る。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにビットストリーム２１を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、ビットストリーム２１を要求するコンテンツ消費者デバイス１４などの加入者にビットストリーム２１を（場合によっては対応するビデオデータビットストリームを送信するとともに）ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在し得る。

[0063]代替的に、コンテンツ作成者デバイス１２は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスクまたは他の記憶媒体などの記憶媒体にビットストリーム２１を記憶し得、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。このコンテキストでは、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある（および、小売店と他の店舗ベースの配信機構とを含み得る）。したがって、いずれにしても、本開示の技法は、この点に関して図２の例に限定されるべきではない。

[0064]図２の例にさらに示されているように、コンテンツ消費者デバイス１４はオーディオ再生システム１６を含む。オーディオ再生システム１６は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム１６は、いくつかの異なるレンダラ２２を含み得る。レンダラ２２はそれぞれ、異なる形態のレンダリングを提供し得、ここで、異なる形態のレンダリングは、ベクトルベース振幅パンニング（ＶＢＡＰ：vector-base amplitude panning）を実行する様々な方法のうちの１つもしくは複数、および／または音場合成を実行する様々な方法のうちの１つもしくは複数を含み得る。本明細書で使用される場合、「Ａおよび／またはＢ」は、「ＡまたはＢ」、または「ＡとＢ」の両方を意味する。

[0065]オーディオ再生システム１６は、オーディオ復号デバイス２４をさらに含み得る。オーディオ復号デバイス２４は、ビットストリーム２１からＨＯＡ係数１１’を復号するように構成されたデバイスを表し得、ここで、ＨＯＡ係数１１’は、ＨＯＡ係数１１と同様であり得るが、損失のある演算（たとえば、量子化）および／または送信チャネルを介した送信に起因して異なり得る。オーディオ再生システム１６は、ビットストリーム２１を復号してＨＯＡ係数１１’を取得した後に、および、ラウドスピーカーフィード２５を出力するためにＨＯＡ係数１１’をレンダリングし得る。ラウドスピーカーフィード２５は、（説明を簡単にするために図２の例には示されていない）１つまたは複数のラウドスピーカーを駆動し得る。

[0066]適切なレンダラを選択するために、またはいくつかの事例では、適切なレンダラを生成するために、オーディオ再生システム１６は、ラウドスピーカーの数および／またはラウドスピーカーの空間的な幾何学的配置を示すラウドスピーカー情報１３を取得し得る。いくつかの事例では、オーディオ再生システム１６は、基準マイクロフォンを使用し、ラウドスピーカー情報１３を動的に決定するような方法でラウドスピーカーを駆動して、ラウドスピーカー情報１３を取得し得る。他の事例では、またはラウドスピーカー情報１３の動的決定とともに、オーディオ再生システム１６は、オーディオ再生システム１６とインターフェースをとりラウドスピーカー情報１３を入力するようにユーザに促し得る。

[0067]オーディオ再生システム１６は、次いで、ラウドスピーカー情報１３に基づいてオーディオレンダラ２２のうちの１つを選択し得る。いくつかの事例では、オーディオ再生システム１６は、オーディオレンダラ２２のいずれもが、ラウドスピーカー情報１３において指定されたラウドスピーカー幾何学的配置に対して（ラウドスピーカー幾何学的配置に関する）何らかのしきい値類似性測度（threshold similarity measure）内にないとき、ラウドスピーカー情報１３に基づいてオーディオレンダラ２２のうちの１つを生成し得る。オーディオ再生システム１６は、いくつかの事例では、オーディオレンダラ２２のうちの既存の１つを選択することを最初に試みることなく、ラウドスピーカー情報１３に基づいてオーディオレンダラ２２のうちの１つを生成し得る。１つまたは複数のスピーカー３は、次いで、レンダリングされたラウドスピーカーフィード２５を再生し得る。言い換えれば、スピーカー３は、高次アンビソニックオーディオデータに基づいて音場を再生するように構成され得る。

[0068]図３は、本開示で説明される技法の様々な態様を実行し得る図２の例に示されるオーディオ符号化デバイス２０の一例をより詳細に示すブロック図である。オーディオ符号化デバイス２０は、コンテンツ分析ユニット２６と、ベクトルベース分解ユニット２７と、方向ベース分解ユニット２８とを含む。

[0069]以下で手短に説明されるが、ベクトルベース分解ユニット２７、およびＨＯＡ係数を圧縮する様々な態様に関するより多くの情報は、２０１４年５月２９に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」と題する国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。さらに、以下で要約されるベクトルベース分解の論述を含む、ＭＰＥＧ−Ｈ３Ｄオーディオ規格によるＨＯＡ係数の圧縮の様々な態様のさらなる詳細は、
２０１４年７月２５日付けのＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１による「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ − Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ − Ｐａｒｔ３：３Ｄａｕｄｉｏ」と題するＩＳＯ／ＩＥＣＤＩＳ２３００８-３文書（ｈｔｔｐ：／／ｍｐｅｇ．ｃｈｉａｒｉｇｌｉｏｎｅ．ｏｒｇ／ｓｔａｎｄａｒｄｓ／ｍｐｅｇ−ｈ／３ｄ−ａｕｄｉｏ／ｄｉｓ−ｍｐｅｇ−ｈ−３ｄ−ａｕｄｉｏにおいて入手可能であり、以下では「ＭＰＥＧ−Ｈ３Ｄオーディオ規格のフェーズＩ」と呼ばれる）、
２０１５年７月２５日付けのＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１による「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ − Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ − Ｐａｒｔ３：３Ｄａｕｄｉｏ，ＡＭＥＮＤＭＥＮＴ３：ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏＰｈａｓｅ２」と題するＩＳＯ／ＩＥＣＤＩＳ２３００８−３：２０１５／ＰＤＡＭ３文書（ｈｔｔｐ：／／ｍｐｅｇ．ｃｈｉａｒｉｇｌｉｏｎｅ．ｏｒｇ／ｓｔａｎｄａｒｄｓ／ｍｐｅｇ−ｈ／３ｄ−ａｕｄｉｏ／ｔｅｘｔ−ｉｓｏｉｅｃ−２３００８−３２０１ｘｐｄａｍ−３−ｍｐｅｇ−ｈ−３ｄ−ａｕｄｉｏ−ｐｈａｓｅ−２において入手可能であり、以下では「ＭＰＥＧ−Ｈ３Ｄオーディオ規格のフェーズＩＩ」と呼ばれる）、および
２０１５年８月付けのＩＥＥＥＪｏｕｒｎａｌｏｆＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇのＶｏｌ．９、Ｎｏ．５で発表された、ＪｕｒｇｅｎＨｅｒｒｅらの「ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏ − ＴｈｅＮｅｗＳｔａｎｄａｒｄｆｏｒＣｏｄｉｎｇｏｆＩｍｍｅｒｓｉｖｅＳｐａｔｉａｌＡｕｄｉｏ」で確認できる。

[0070]コンテンツ分析ユニット２６は、ＨＯＡ係数１１がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを識別するために、ＨＯＡ係数１１のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット２６は、ＨＯＡ係数１１が実際の音場の録音から生成されたか、人工的なオーディオオブジェクトから生成されたかを決定し得る。いくつかの事例では、フレーム化されたＨＯＡ係数１１が録音から生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１をベクトルベース分解ユニット２７に渡す。いくつかの事例では、フレーム化されたＨＯＡ係数１１が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１を方向ベース合成ユニット２８に渡す。方向ベース合成ユニット２８は、方向ベースビットストリーム２１を生成するためにＨＯＡ係数１１の方向ベース合成を実行するように構成されたユニットを表し得る。

[0071]図３の例に示されるように、ベクトルベース分解ユニット２７は、線形可逆変換（ＬＩＴ）ユニット３０と、パラメータ計算ユニット３２と、並べ替えユニット３４と、フォアグラウンド選択ユニット３６と、エネルギー補償ユニット３８と、無相関化ユニット６０（「ｄｅｃｏｒｒユニット６０」として示される）と、利得制御ユニット６２と、聴覚心理オーディオコーダユニット４０と、ビットストリーム生成ユニット４２と、音場分析ユニット４４と、係数低減ユニット４６と、バックグラウンド（ＢＧ）選択ユニット４８と、空間時間的補間ユニット５０と、量子化ユニット５２とを含み得る。

[0072]線形可逆変換（ＬＩＴ）ユニット３０は、ＨＯＡチャネルの形態でＨＯＡ係数１１を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連する係数（ＨＯＡ［ｋ］と示され得、ここで、ｋはサンプルの現在のフレームまたはブロックを示し得る）のブロックまたはフレームを表す。ＨＯＡ係数１１の行列は、次元Ｄ：Ｍ×（Ｎ＋１）²を有し得る。

[0073]ＬＩＴユニット３０は、特異値分解と呼ばれる形態の分析を実行するように構成されたユニットを表し得る。ＳＶＤに関して説明されるが、本開示で説明される技法は、線形的に無相関な、エネルギー圧縮された出力のセットを提供する任意の同様の変換または分解に対して実行され得る。また、本開示における「セット」への言及は、概して、別段に特に明記されていない限り、非０のセットを指すものであり、いわゆる「空集合」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「ＰＣＡ」としばしば呼ばれる、主成分分析を備え得る。コンテキストに応じて、ＰＣＡは、いくつかの例を挙げれば、離散カルーネンレーベ変換、ホテリング変換、固有直交分解（ＰＯＤ:proper orthogonal decomposition）、および固有値分解（ＥＶＤ:eigenvalue decomposition）など、いくつかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという基礎をなす潜在的目標の１つにつながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「無相関化」うちの１つまたは複数を含み得る。

[0074]いずれにしても、ＬＩＴユニット３０が、例として、特異値分解（singular value decomposition）（やはり「ＳＶＤ」と呼ばれることがある）を実行すると仮定すると、ＬＩＴユニット３０は、ＨＯＡ係数１１を、変換されたＨＯＡ係数の２つ以上のセットに変換し得る。変換されたＨＯＡ係数の「セット」は、変換されたＨＯＡ係数のベクトルを含み得る。図３の例では、ＬＩＴユニット３０は、いわゆるＶ行列と、Ｓ行列と、Ｕ行列とを生成するために、ＨＯＡ係数１１に関してＳＶＤを実行することができる。ＳＶＤは、線形代数学では、ｙ×ｚの実行列または複素行列Ｘ（ここで、Ｘは、ＨＯＡ係数１１などのマルチチャネルオーディオデータを表し得る）の因数分解を以下の形で表すことができる。

Ｘ＝ＵＳＶ^＊
Ｕはｙ×ｙの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｕのｙ個の列は、マルチチャネルオーディオデータの左特異ベクトルとして知られる。Ｓは、対角線上に非負実数をもつｙ×ｚの矩形対角行列を表し得、ここで、Ｓの対角線値は、マルチチャネルオーディオデータの特異値として知られる。Ｖ^＊（Ｖの共役転置を示し得る）は、ｚ×ｚの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｖ^＊のｚ個の列は、マルチチャネルオーディオデータの右特異ベクトルとして知られる。

[0075]いくつかの例では、上で参照されたＳＶＤ数式中のＶ^＊行列は、複素数を備える行列にＳＶＤが適用され得ることを反映するために、Ｖ行列の共役転置行列として示される。実数のみを備える行列に適用されるとき、Ｖ行列の複素共役（すなわち、言い換えれば、Ｖ^＊行列）は、Ｖ行列の転置であると見なされ得る。以下では、説明を簡単にするために、ＨＯＡ係数１１が実数を備え、その結果、Ｖ^＊行列ではなくＶ行列がＳＶＤによって出力されると仮定される。その上、本開示ではＶ行列として示されるが、Ｖ行列への言及は、適切な場合にはＶ行列の転置を指すものとして理解されるべきである。Ｖ行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するＨＯＡ係数１１に適用され得、ここで、ＳＶＤの出力はＶ^＊行列である。したがって、本技法は、この点について、Ｖ行列を生成するためにＳＶＤの適用を提供することのみに限定されるべきではなく、Ｖ^＊行列を生成するために複素成分を有するＨＯＡ係数１１へのＳＶＤの適用を含み得る。

[0076]このようにして、ＬＩＴユニット３０は、次元Ｄ：Ｍ×（Ｎ＋１）²を有するＵＳ［ｋ］ベクトル３３（ＳベクトルとＵベクトルとの組み合わされたバージョンを表し得る）と、次元Ｄ：（Ｎ＋１）²×（Ｎ＋１）²を有するＶ［ｋ］ベクトル３５とを出力するために、ＨＯＡ係数１１に関してＳＶＤを実行することができる。ＵＳ［ｋ］行列中の個々のベクトル要素はＸ_ps（ｋ）とも呼ばれることがあり、一方、Ｖ［ｋ］行列の個々のベクトルはｖ（ｋ）とも呼ばれることがある。

[0077]Ｕ行列、Ｓ行列、およびＶ行列の分析は、それらの行列がＸによって上で表される基礎をなす音場の空間的および時間的特性を伝え、または表すということを明らかにし得る。（Ｍ個のサンプルの長さの）Ｕの中のＮ個のベクトルの各々は、（Ｍ個のサンプルによって表される時間期間について）時間の関数として、正規化された分離されたオーディオ信号を表し得、正規化された分離されたオーディオ信号は、互いに直交し、あらゆる空間特性（方向情報（directional information）とも呼ばれ得る）とは切り離されている。空間的形状および位置（ｒ、シータ、ファイ）を表す空間的特性は、代わりに、（各々が（Ｎ＋１）²の長さの）Ｖ行列中の個々のｉ番目のベクトル、ｖ⁽ⁱ⁾（ｋ）によって表され得る。

[0078]ｖ⁽ⁱ⁾（ｋ）ベクトルの各々の個々の要素は、関連するオーディオオブジェクトについての音場の（幅を含む）形状と位置とを記述するＨＯＡ係数を表し得る。Ｕ行列中のベクトルとＶ行列中のベクトルの両方が、それらの２乗平均平方根のエネルギーが１に等しくなるように正規化される。したがって、Ｕの中のオーディオ信号のエネルギーは、Ｓの中の対角線要素によって表される。したがって、ＵＳ［ｋ］（個々のベクトル要素Ｘ_PS（ｋ）を有する）を形成するために、ＵとＳとを乗算することは、エネルギーを有するオーディオ信号を表す。（Ｕにおける）オーディオ時間信号と、（Ｓにおける）それらのエネルギーと、（Ｖにおける）それらの空間的特性とを切り離すＳＶＤ分解の能力は、本開示で説明される技法の様々な態様をサポートし得る。さらに、基礎をなすＨＯＡ［ｋ］係数ＸをＵＳ［ｋ］とＶ［ｋ］とのベクトル乗算によって合成するモデルは、本文書全体で使用される、「ベクトルベース分解」という用語を生じさせる。

[0079]ＨＯＡ係数１１に関して直接実行されるものとして説明されるが、ＬＩＴユニット３０は、線形可逆変換をＨＯＡ係数１１の派生物に適用し得る。たとえば、ＬＩＴユニット３０は、ＨＯＡ係数１１から導出された電力スペクトル密度行列に関してＳＶＤを適用し得る。ＨＯＡ係数自体ではなくＨＯＡ係数の電力スペクトル密度（ＰＳＤ）に関してＳＶＤを実行することによって、ＬＩＴユニット３０は、場合によっては、プロセッササイクルおよび記憶空間のうちの１つまたは複数に関してＳＶＤを実行する計算の複雑さを低減しつつ、ＳＶＤがＨＯＡ係数に直接適用されたかのように同じソースオーディオ符号化効率を達成し得る。

[0080]パラメータ計算ユニット３２は、相関パラメータ（Ｒ）、方向特性パラメータ（θ、φ、ｒ）、およびエネルギー特性（ｅ）など、様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、Ｒ［ｋ］、θ［ｋ］、φ［ｋ］、ｒ［ｋ］およびｅ［ｋ］として示され得る。パラメータ計算ユニット３２は、パラメータを識別するために、ＵＳ［ｋ］ベクトル３３に関してエネルギー分析および／または相関（もしくはいわゆる相互相関）を実行し得る。パラメータ計算ユニット３２はまた、以前のフレームのためのパラメータを決定し得、ここで、以前のフレームパラメータは、ＵＳ［ｋ−１］ベクトルおよびＶ［ｋ−１］ベクトルの以前のフレームに基づいて、Ｒ［ｋ−１］、θ［ｋ−１］、φ［ｋ−１］、ｒ［ｋ−１］およびｅ［ｋ−１］と示され得る。パラメータ計算ユニット３２は、現在のパラメータ３７と以前のパラメータ３９とを並べ替えユニット３４に出力し得る。

[0081]パラメータ計算ユニット３２によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット３４によって使用され得る。並べ替えユニット３４は、第１のＵＳ［ｋ］ベクトル３３からのパラメータ３７の各々を、第２のＵＳ［ｋ−１］ベクトル３３のためのパラメータ３９の各々に対して順番に比較し得る。並べ替えユニット３４は、並べ替えられたＵＳ［ｋ］行列３３’（数学的には

として示され得る）と、並べ替えられたＶ［ｋ］行列３５’（数学的には

として示され得る）とをフォアグラウンド音声（または支配的音声（predominant sound）−ＰＳ）選択ユニット３６（「フォアグラウンド選択ユニット３６」）およびエネルギー補償ユニット３８に出力するために、現在のパラメータ３７および以前のパラメータ３９に基づいて、ＵＳ［ｋ］行列３３およびＶ［ｋ］行列３５内の様々なベクトルを（一例として、ハンガリアンアルゴリズムを使用して）並べ替え得る。

[0082]音場分析ユニット４４は、ターゲットビットレート４１を潜在的に達成するために、ＨＯＡ係数１１に関して音場分析を実行するように構成されたユニットを表し得る。音場分析ユニット４４は、分析および／または受信されたターゲットビットレート４１に基づいて、聴覚心理コーダのインスタンス化の総数（アンビエント（ambient）またはバックグラウンドチャネルの総数（ＢＧ_TOT）と、フォアグラウンドチャネル、または言い換えれば支配チャネルの数との関数であり得る）を決定し得る。聴覚心理コーダのインスタンス化の総数は、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓとして示され得る。

[0083]音場分析ユニット４４はまた、やはり目標ビットレート４１を潜在的に達成するために、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド（または言い換えればアンビエント）音場の最小次数（Ｎ_BG、または代替的にはＭｉｎＡｍｂＨＯＡｏｒｄｅｒ）と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数（ｎＢＧａ＝（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²）と、送るべき追加のＢＧＨＯＡチャネルのインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３として総称的に示され得る）と、を決定することができる。バックグラウンドチャネル情報４２は、アンビエントチャネル情報４３とも呼ばれ得る。ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓ−ｎＢＧａで残るチャネルの各々は、「追加のバックグラウンド／アンビエントチャネル」、「アクティブなベクトルベースの支配的チャネル」、「アクティブな方向ベースの支配的信号」、または「完全に非アクティブ」のいずれかであり得る。一態様では、チャネルタイプは、２ビットによって（「ＣｈａｎｎｅｌＴｙｐｅ」として）示されたシンタックス要素であり得る（たとえば、００：方向ベースの信号、０１：ベクトルベースの支配的信号、１０：追加のアンビエント信号、１１：非アクティブな信号）。バックグラウンド信号またはアンビエント信号の総数、ｎＢＧａは、（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²＋（上記の例における）インデックス１０がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。

[0084]音場分析ユニット４４は、ターゲットビットレート４１に基づいて、バックグラウンド（または言い換えればアンビエント）チャネルの数と、フォアグラウンド（または言い換えれば支配的）チャネルの数とを選択し、ターゲットビットレート４１が比較的高いとき（たとえば、ターゲットビットレート４１が５１２Ｋｂｐｓ以上であるとき）はより多くのバックグラウンドチャネルおよび／またはフォアグラウンドチャネルを選択し得る。一態様では、ビットストリームのヘッダセクションにおいて、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓは８に設定され得るが、一方で、ＭｉｎＡｍｂＨＯＡｏｒｄｅｒは１に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分またはアンビエント部分を表すために４つのチャネルが確保され得るが、一方で、他の４つのチャネルは、フレームごとに、チャネルのタイプに応じて変化してよく、たとえば、追加のバックグラウンド／アンビエントチャネルまたはフォアグラウンド／支配的チャネルのいずれかとして使用され得る。フォアグラウンド／支配的信号は、上記で説明されたように、ベクトルベースの信号または方向ベースの信号のいずれか１つであり得る。

[0085]いくつかの事例では、フレームのためのベクトルベースの支配的信号の総数は、そのフレームのビットストリームにおいてＣｈａｎｎｅｌＴｙｐｅインデックスが０１である回数によって与えられ得る。上記の態様では、（たとえば、１０のＣｈａｎｎｅｌＴｙｐｅに対応する）追加のバックグラウンド／アンビエントチャネルごとに、（最初の４つ以外の）可能なＨＯＡ係数のうちのどれがそのチャネルにおいて表され得るかの対応する情報。その情報は、４次ＨＯＡコンテンツについては、ＨＯＡ係数５〜２５を示すためのインデックスであり得る。最初の４つのアンビエントＨＯＡ係数１〜４は、ｍｉｎＡｍｂＨＯＡｏｒｄｅｒが１に設定されるときは常に送られ得、したがって、オーディオ符号化デバイスは、５〜２５のインデックスを有する追加のアンビエントＨＯＡ係数のうちの１つを示すことのみが必要であり得る。その情報はしたがって、「ＣｏｄｅｄＡｍｂＣｏｅｆｆＩｄｘ」として示され得る、（４次コンテンツのための）５ビットのシンタックス要素を使用して送られ得る。いずれの場合も、音場分析ユニット４４は、バックグラウンドチャネル情報４３とＨＯＡ係数１１とをバックグラウンド（ＢＧ）選択ユニット３６に、バックグラウンドチャネル情報４３を係数低減ユニット４６およびビットストリーム生成ユニット４２に、ならびにｎＦＧ４５をフォアグラウンド選択ユニット３６に出力する。

[0086]バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報（たとえば、バックグラウンド音場（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ））に基づいてバックグラウンドまたはアンビエントＨＯＡ係数４７を決定するように構成されたユニットを表し得る。たとえば、Ｎ_BGが１に等しいとき、バックグラウンド選択ユニット４８は、１以下の次数を有するオーディオフレームの各サンプルのＨＯＡ係数１１を選択し得る。バックグラウンド選択ユニット４８は次いで、この例では、インデックス（ｉ）のうちの１つによって識別されるインデックスを有するＨＯＡ係数１１を、追加のＢＧＨＯＡ係数として選択することができ、ここで、ｎＢＧａは、図２および図４の例に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスがビットストリーム２１からバックグラウンドＨＯＡ係数４７を解析することを可能にするために、ビットストリーム２１において指定されるために、ビットストリーム生成ユニット４２に提供される。バックグラウンド選択ユニット４８は次いで、アンビエントＨＯＡ係数４７をエネルギー補償ユニット３８に出力し得る。アンビエントＨＯＡ係数４７は、次元Ｄ：Ｍ×［（Ｎ_BG＋１）²＋ｎＢＧａ］を有し得る。アンビエントＨＯＡ係数４７はまた、「アンビエントＨＯＡ係数４７」と呼ばれることもあり、ここで、アンビエントＨＯＡ係数４７の各々は、聴覚心理オーディオコーダユニット４０によって符号化されるべき別個のアンビエントＨＯＡチャネル４７に対応する。

[0087]フォアグラウンド選択ユニット３６は、（フォアグラウンドベクトルを識別する１つまたは複数のインデックスを表し得る）ｎＦＧ４５に基づいて、音場のフォアグラウンド成分または明確な成分を表す、並べ替えられたＵＳ［ｋ］行列３３’と、並べ替えられたＶ［ｋ］行列３５’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット３６は、（並べ替えられたＵＳ［ｋ］_1,...,nFG４９、ＦＧ_1,...,nfG［ｋ］４９、または

として示され得る）ｎＦＧ信号４９を、聴覚心理オーディオコーダユニット４０に出力することができ、ここで、ｎＦＧ信号４９は次元Ｄ：Ｍ×ｎＦＧを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット３６はまた、音場のフォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’（またはｖ^(1..nFG)（ｋ）３５’）を空間時間的補間ユニット５０に出力し得、ここで、フォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’のサブセットは、次元Ｄ：（Ｎ＋１）²×ｎＦＧを有するフォアグラウンドＶ［ｋ］行列５１_kとして示され得る（これは、

として数学的に示され得る）。

[0088]エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡチャネルの様々なチャネルの除去によるエネルギー損失を補償するために、アンビエントＨＯＡ係数４７に関してエネルギー補償を実行するように構成されたユニットを表し得る。エネルギー補償ユニット３８は、並べ替えられたＵＳ［ｋ］行列３３’、並べ替えられたＶ［ｋ］行列３５’、ｎＦＧ信号４９、フォアグラウンドＶ［ｋ］ベクトル５１_kおよびアンビエントＨＯＡ係数４７のうちの１つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー補償されたアンビエントＨＯＡ係数４７’を生成するためにそのエネルギー分析に基づいてエネルギー補償を実行し得る。エネルギー補償ユニット３８は、エネルギー補償されたアンビエントＨＯＡ係数４７’を無相関化ユニット６０に出力し得る。

[0089]無相関化ユニット６０は、１つまたは複数の無相関化されたアンビエントＨＯＡオーディオ信号６７を形成するために、エネルギー補償されたアンビエントＨＯＡ係数４７’の間の相関を低減または解消するために本開示で説明される技法の様々な態様を実施するように構成されたユニットを表し得る。無相関化ユニット４０’は、無相関化されたＨＯＡオーディオ信号６７を利得制御ユニット６２に出力し得る。利得制御ユニット６２は、利得制御されたアンビエントＨＯＡオーディオ信号６７’を取得するために、無相関化されたアンビエントＨＯＡオーディオ信号６７に関して自動利得制御（「ＡＧＣ」と短縮され得る）を実行するように構成されたユニットを表し得る。利得制御を適用した後、自動利得制御ユニット６２は、利得制御されたアンビエントＨＯＡオーディオ信号６７’を聴覚心理オーディオコーダユニット４０に提供し得る。

[0090]オーディオ符号化デバイス２０内に含まれる無相関化ユニット６０は、無相関化されたＨＯＡオーディオ信号６７を取得するために、１つまたは複数の無相関化変換をエネルギー補償されたアンビエントＨＯＡ係数４７’に適用するように構成されたユニットの単一または複数のインスタンスを表し得る。いくつかの例では、無相関化ユニット４０’は、ＵＨＪ行列をエネルギー補償されたアンビエントＨＯＡ係数４７’に適用し得る。本開示の様々な事例において、ＵＨＪ行列は「位相ベース変換」と呼ばれることもある。位相ベース変換の適用は、本明細書では「位相シフト無相関化」と呼ばれることもある。

[0091]アンビソニックＵＨＪフォーマットは、モノメディアおよびステレオメディアと互換性があるように設計されたアンビソニックサラウンドサウンドシステムの発展形である。ＵＨＪフォーマットは、録音された音場が、利用可能なチャネルに従って変化する精度で再生される、システムの階層を含む。様々な事例では、ＵＨＪは「Ｃフォーマット」とも呼ばれる。頭文字は、システムに組み込まれるソースのいくつかを示し、ＵはＵｎｉｖｅｒｓａｌ（ＵＤ−４）、ＨはＭａｔｒｉｘＨ、ＪはＳｙｓｔｅｍ４５Ｊから来ている。

[0092]ＵＨＪは、アンビソニックス技術内で方向性音情報を符号化および復号する階層システムである。利用可能なチャネルの数に応じて、システムはより多いまたはより少ない情報を伝えることができる。ＵＨＪは、完全にステレオ互換性およびモノ互換性がある。４つまでのチャネル（Ｌ、Ｒ、Ｔ、Ｑ）が使用され得る。

[0093]一形態では、２チャネル（Ｌ、Ｒ）ＵＨＪ水平方向（または「平面」）サラウンド情報は、聴取端（listening end）においてＵＨＪデコーダを使用することによって復元され得るノーマルステレオ信号チャネル−ＣＤ、ＦＭまたはデジタル無線など−によって伝えられ得る。２つのチャネルを合計することは、従来の「パンポットされた（panpotted）モノ」ソースを合計するよりも正確な２チャネルバージョンの表現であり得る、互換性のあるモノ信号をもたらし得る。第３のチャネル（Ｔ）が利用可能である場合、第３のチャネルは、３チャネルＵＨＪデコーダを介して復号されるときに、改善されたローカライゼーション（localization）精度を平面サラウンド効果にもたらすために使用され得る。第３のチャネルは、このためにフルオーディオ帯域幅を有することが必要ではないことはない場合があり、第３のチャネルが帯域幅制限されている場合、いわゆる「２１／２チャネル」システムの可能性を招く。一例では、制限は５ｋＨｚであり得る。第３のチャネルは、たとえば、位相直交変調を用いて、ＦＭ無線を介してブロードキャストされ得る。第４のチャネル（Ｑ）をＵＨＪシステムに追加することは、４チャネルＢフォーマットと同一の精度のレベルで、ｎａｓＰｅｒｉｐｈｏｎｙと呼ばれることがある、高さを用いたフルサラウンドサウンドの符号化を可能にし得る。

[0094]２チャネルＵＨＪは、アンビソニック録音の配信に一般に使用されるフォーマットである。２チャネルＵＨＪ録音は、すべてのノーマルステレオチャネルを介して送信され得、ノーマル２チャネルメディアのいずれかは、変更なしで使用され得る。ＵＨＪは、復号することなしに、リスナーがステレオイメージ、ただし従来のステレオよりもかなり広いステレオイメージ（たとえば、いわゆる「スーパーステレオ」）を知覚することができるという点で、ステレオ互換性がある。左チャネルおよび右チャネルはまた、非常に高度なモノ互換性のために合計され得る。ＵＨＪデコーダを介してリプレイされると、サラウンド能力が明らかになる場合がある。

[0095]ＵＨＪ行列（または位相ベース変換）を適用する無相関化ユニット６０の例示的な数学的表現は、次のとおりである。

[0096]上記の計算のいくつかの実装形態によれば、上記の計算に関する仮定は以下を含み得る。ＨＯＡバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序Ｗ（ａ００）、Ｘ（ａ１１）、Ｙ（ａ１１−）、Ｚ（ａ１０）で、ＦｕＭａ正規化される、１次アンビソニックスである。

[0097]上記に記載された計算では、無相関化ユニット４０’は、定数値による様々な行列のスカラー乗算を実行することができる。たとえば、Ｓ信号を取得するために、無相関化ユニット６０は、０．９３９７の定数値による（たとえば、スカラー乗算による）Ｗ行列のスカラー乗算と、０．１８５６の定数値によるＸ行列のスカラー乗算とを実行することができる。やはり上記に記載された計算に示されるように、無相関化ユニット６０は、Ｄ信号およびＴ信号の各々を取得する際に（上記のＵＨＪ符号化における「Ｈｉｌｂｅｒｔ（）」関数によって示される）ヒルベルト変換を適用し得る。上記のＵＨＪ符号化における「ｉｍａｇ（）」関数は、ヒルベルト変換の結果の（数学的な意味での）虚数が取得されることを示す。

[0098]ＵＨＪ行列（または位相ベース変換）を適用する無相関化ユニット６０の別の例示的な数学的表現は、次のとおりである。

[0099]上記の計算のいくつかの例示的な実装形態では、上記の計算に関する仮定は以下を含み得る。ＨＯＡバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序Ｗ（ａ００）、Ｘ（ａ１１）、Ｙ（ａ１１−）、Ｚ（ａ１０）で、Ｎ３Ｄ（すなわち「フル３Ｄ」）正規化される、１次アンビソニックスである。Ｎ３Ｄ正規化に関して本明細書で説明されるが、例示的な計算は、ＳＮ３Ｄ正規化された（すなわち「シュミット半正規化された）ＨＯＡバックグラウンドチャネルにも適用され得ることを諒解されよう。Ｎ３Ｄ正規化およびＳＮ３Ｄ正規化は、使用されるスケーリングファクタの点で異なり得る。ＳＮ３Ｄ正規化に対して、Ｎ３Ｄ正規化の例示的な表現が以下に表される。

[0100]ＳＮ３Ｄ正規化において使用される重み付け係数の一例が以下に表される。

[0101]上記に記載された計算では、無相関化ユニット６０は、定数値による様々な行列のスカラー乗算を実行することができる。たとえば、Ｓ信号を取得するために、無相関化ユニット６０は、０．９３９６９２６の定数値による（たとえば、スカラー乗算による）Ｗ行列のスカラー乗算と、０．１５１５２０５３６５０９０８２の定数値によるＸ行列のスカラー乗算とを実行することができる。やはり上記に記載された計算に示されるように、無相関化ユニット６０は、Ｄ信号およびＴ信号の各々を取得する際に（上記のＵＨＪ符号化または位相シフト無相関化における「Ｈｉｌｂｅｒｔ（）」関数によって示される）ヒルベルト変換を適用することができる。上記のＵＨＪ符号化における「ｉｍａｇ（）」関数は、ヒルベルト変換の結果の（数学的な意味での）虚数が取得されることを示す。

[0102]無相関化ユニット６０は、得られたＳ信号およびＤ信号が左オーディオ信号と右オーディオ信号と（または言い換えれば、ステレオオーディオ信号）を表すように、上記に記載された計算を実行することができる。いくつかのそのようなシナリオでは、無相関化ユニット６０は、無相関化されたアンビエントＨＯＡオーディオ信号６７の一部としてＴ信号とＱ信号とを出力し得るが、ビットストリーム２１を受信する復号デバイスは、ステレオスピーカーの幾何学的配置（または言い換えれば、ステレオスピーカー構成）にレンダリングするとき、Ｔ信号とＱ信号とを処理しない場合がある。例では、アンビエントＨＯＡ係数４７’は、モノオーディオ再生システム上でレンダリングされるべき音場を表し得る。無相関化ユニット６０は、無相関化されたアンビエントＨＯＡオーディオ信号６７の一部としてＳ信号とＤ信号とを出力することができ、ビットストリーム２１を受信する復号デバイスは、モノオーディオフォーマットでレンダリングおよび／または出力されるべきオーディオ信号を形成するために、Ｓ信号とＤ信号とを組み合わせる（または「混合」する）ことができる。

[0103]これらの例では、復号デバイスおよび／または再生デバイスは、様々な方法でモノオーディオ信号を復元することができる。一例は、（Ｓ信号とＤ信号とによって表される）左信号と右信号とを混合することによるものである。別の例は、Ｗ信号を復号するためにＵＨＪ行列（または位相ベース変換）を適用することによるものである。ＵＨＪ行列（または位相ベース変換）を適用することでＳ信号およびＤ信号の形態で自然左信号と自然右信号とを生成することによって、無相関化ユニット６０は、（ＭＰＥＧ−Ｈ規格に記載されたモード行列などの）他の無相関化変換を適用する技法に対して潜在的な利点および／または潜在的な改善を実現するための本開示の技法を実装し得る。

[0104]様々な例では、無相関化ユニット６０は、受信されたエネルギー補償されたアンビエントＨＯＡ係数４７’のビットレートに基づいて、異なる無相関化変換を適用することができる。たとえば、無相関化ユニット６０は、エネルギー補償されたアンビエントＨＯＡ係数４７’が４チャネル入力を表すシナリオにおいて、上記で説明されたＵＨＪ行列（または位相ベース変換）を適用することができる。より具体的には、４チャネル入力を表すエネルギー補償されたアンビエントＨＯＡ係数４７’に基づいて、無相関化ユニット６０は、４×４ＵＨＪ行列（または位相ベース変換）を適用することができる。たとえば、４×４行列は、エネルギー補償されたアンビエントＨＯＡ係数４７’の４チャネル入力に直交し得る。言い換えれば、エネルギー補償されたアンビエントＨＯＡ係数４７’がより少ない数のチャネル（たとえば、４）を表す事例では、無相関化ユニット６０は、無相関化されたアンビエントＨＯＡオーディオ信号６７を取得するために、エネルギー補償されたアンビエントＨＯＡ信号４７’のバックグラウンド信号を無相関化するために、選択された無相関化変換としてＵＨＪ行列を適用することができる。

[0105]この例によれば、エネルギー補償されたアンビエントＨＯＡ係数４７’がより多い数のチャネル（たとえば、９）を表す場合、無相関化ユニット６０は、ＵＨＪ行列（または位相ベース変換）とは異なる無相関化変換を適用することができる。たとえば、エネルギー補償されたアンビエントＨＯＡ係数４７’が９チャネル入力を表すシナリオでは、無相関化ユニット６０は、エネルギー補償されたアンビエントＨＯＡ係数４７’を無相関化するために、（たとえば、上記のＭＰＥＧ−Ｈ３Ｄオーディオ規格のフェーズＩに記載された）モード行列を適用することができる。エネルギー補償されたアンビエントＨＯＡ係数４７’が９チャネル入力を表す例では、無相関化ユニット６０は、無相関化されたアンビエントＨＯＡオーディオ信号６７を取得するために、９×９モード行列を適用することができる。

[0106]今度は、（聴覚心理オーディオコーダ４０などの）オーディオ符号化デバイス２０の様々な構成要素は、ＡＡＣまたはＵＳＡＣに従って、無相関化されたアンビエントＨＯＡオーディオ信号６７を知覚的にコーディングすることができる。無相関化ユニット６０は、ＨＯＡのＡＡＣ／ＵＳＡＣコーディングを最適化し得るために、位相シフト無相関化変換（たとえば、４チャネル入力の場合はＵＨＪ行列または位相ベース変換）を適用することができる。エネルギー補償されたアンビエントＨＯＡ係数４７’（およびそれによって、無相関化されたアンビエントＨＯＡオーディオ信号６７）がステレオ再生システム上でレンダリングされるべきオーディオデータを表す例では、無相関化ユニット６０は、ＡＡＣおよびＵＳＡＣが相対的にステレオオーディオデータ指向である（またはステレオオーディオデータ用に最適化されている）ことに基づいて、圧縮を改善または最適化するための本開示の技法を適用することができる。

[0107]無相関化ユニット６０は、エネルギー補償されたアンビエントＨＯＡ係数４７’がフォアグラウンドチャネルを含む状況において、エネルギー補償されたアンビエントＨＯＡ係数４７’がいかなるフォアグラウンドチャネルも含まない状況においても、本明細書で説明される技法を適用することができることが理解されよう。一例として、無相関化ユニット４０’は、エネルギー補償されたアンビエントＨＯＡ係数４７’が０個（０）のフォアグラウンドチャネルと４個（４）のバックグラウンドチャネルとを含むシナリオ（たとえば、より低い／より少ないビットレートのシナリオ）において、上記で説明された技法および／または計算を適用することができる。

[0108]いくつかの例では、無相関化ユニット６０は、ビットストリーム生成ユニット４２に、ベクトルベースビットストリーム２１の一部として、無相関化ユニット６０が無相関化変換をエネルギー補償されたアンビエントＨＯＡ係数４７’に適用したことを示す１つまたは複数のシンタックス要素をシグナリングさせ得る。そのような指示を復号デバイスに与えることによって、無相関化ユニット６０は、復号デバイスがＨＯＡ領域におけるオーディオデータに対して相互無相関化変換を実行するのを可能にし得る。いくつかの例では、無相関化ユニット６０は、ビットストリーム生成ユニット４２に、ＵＨＪ行列（もしくは他の位相ベース変換）またはモード行列など、どの無相関化変換が適用されたかを示すシンタックス要素をシグナリングさせ得る。

[0109]無相関化ユニット６０は、エネルギー補償されたアンビエントＨＯＡ係数４７’に位相ベース変換を適用し得る。Ｃ_AMB（ｋ−１）の第１のＯ_MIN ＨＯＡ係数シーケンスのための位相ベース変換は、

によって定義され、係数ｄは、表１に定義されるとおりであり、信号フレームＳ（ｋ−２）およびＭ（ｋ−２）は、

によって定義され、Ａ₊₉₀（ｋ−２）およびＢ₊₉₀（ｋ−２）は、

によって定義される。
Ｃ_P,AMB（ｋ−１）の第１のＯ_MIN ＨＯＡ係数シーケンスのための位相ベース変換は、それに応じて定義される。説明される変換は、１フレームの遅延を導入し得る。

[0110]上記では、Ｘ_AMB,LOW,1（ｋ−２）〜Ｘ_AMB,LOW,4（ｋ−２）は、無相関化されたアンビエントＨＯＡオーディオ信号６７に対応し得る。上記の式では、変数Ｃ_AMB,1（ｋ）変数は、「Ｗ」チャネルまたは成分と呼ばれることもある、（０：０）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。変数Ｃ_AMB,2（ｋ）変数は、「Ｙ」チャネルまたは成分と呼ばれることもある、（１：−１）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。変数Ｃ_AMB,3（ｋ）変数は、「Ｚ」チャネルまたは成分と呼ばれることもある、（１：０）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。変数Ｃ_AMB,4（ｋ）変数は、「Ｘ」チャネルまたは成分と呼ばれることもある、（１：１）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。Ｃ_AMB,1（ｋ）〜Ｃ_AMB,3（ｋ）は、アンビエントＨＯＡ係数４７’に対応し得る。

[0111]以下の表１は、無相関化ユニット４０が位相ベース変換を実行するために使用することができる係数の一例を示す。

[0112]いくつかの例では、（ビットストリーム生成ユニット４２などの）オーディオ符号化デバイス２０の様々な構成要素は、より低いターゲットビットレート（たとえば、１２８Ｋまたは２５６Ｋのターゲットビットレート）用の１次ＨＯＡ表現のみを送信するように構成され得る。いくつかのそのような例によれば、オーディオ符号化デバイス２０（または、ビットストリーム生成ユニット４２などの、その構成要素）は、高次ＨＯＡ係数（たとえば、１次よりも大きい次数を有する、または言い換えれば、Ｎ＞１である係数）を破棄するように構成され得る。ただし、ターゲットビットレートが比較的高いとオーディオ符号化デバイス２０が決定する例では、オーディオ符号化デバイス２０（たとえば、ビットストリーム生成ユニット４２）はフォアグラウンドチャネルとバックグラウンドチャネルとを分離することができ、（たとえば、より大きい量の）ビットをフォアグラウンドチャネルに割り当てることができる。

[0113]エネルギー補償されたアンビエントＨＯＡ係数４７’に適用されるものとして説明されているが、オーディオ符号化デバイス２０は、エネルギー補償されたアンビエントＨＯＡ係数４７’に無相関化を適用しなくてもよい。代わりに、エネルギー補償ユニット３８は、エネルギー補償されたアンビエントＨＯＡ係数４７’を利得制御ユニット６２に直接提供することができ、利得制御ユニット６２は、エネルギー補償されたアンビエントＨＯＡ係数４７’に関して自動利得制御を実行することができる。したがって、無相関化ユニット６０は、無相関化ユニットが常に無相関化を実行するとは、またはオーディオ復号デバイス２０に含まれるとは限らないことを示すために破線で示されている。

[0114]空間時間的補間ユニット５０は、ｋ番目のフレームのためのフォアグラウンドＶ［ｋ］ベクトル５１_kと、以前のフレームのための（したがってｋ−１という表記である）フォアグラウンドＶ［ｋ−１］ベクトル５１_k-1とを受信し、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために空間時間的補間を実行するように構成されたユニットを表し得る。空間時間的補間ユニット５０は、並べ替えられたフォアグラウンドＨＯＡ係数を復元するために、ｎＦＧ信号４９をフォアグラウンドＶ［ｋ］ベクトル５１_kと再び組み合わせ得る。空間時間的補間ユニット５０は、次いで、補間されたｎＦＧ信号４９’を生成するために、補間されたＶ［ｋ］ベクトルによって、並べ替えられたフォアグラウンドＨＯＡ係数を分割し得る。

[0115]空間時間的補間ユニット５０はまた、オーディオ復号デバイス２４などのオーディオ復号デバイスが補間されたフォアグラウンドＶ［ｋ］ベクトルを生成し、それによってフォアグラウンドＶ［ｋ］ベクトル５１_kを復元し得るように、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kを出力し得る。補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kは、残りのフォアグラウンドＶ［ｋ］ベクトル５３として示される。同じＶ［ｋ］およびＶ［ｋ−１］がエンコーダおよびデコーダにおいて（補間されたベクトルＶ［ｋ］を作成するために）使用されることを保証するために、ベクトルの量子化／逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用され得る。空間時間的補間ユニット５０は、補間されたｎＦＧ信号４９’を利得制御ユニット６２に出力し、補間されたフォアグラウンドＶ［ｋ］ベクトル５１_kを係数低減ユニット４６に出力し得る。

[0116]利得制御ユニット６２はまた、利得制御されたｎＦＧ信号４９’’を取得するために、補間されたｎＦＧ信号４９’に関して自動利得制御（「ＡＧＣ」と短縮され得る）を実行するように構成されたユニットを表し得る。利得制御を適用した後、自動利得制御ユニット６２は、利得制御されたｎＦＧ信号４９’’を聴覚心理オーディオコーダユニット４０に提供することができる。

[0117]係数低減ユニット４６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を量子化ユニット５２に出力するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行するように構成されたユニットを表し得る。低減されたフォアグラウンドＶ［ｋ］ベクトル５５は、次元Ｄ：［（Ｎ＋１）²−（Ｎ_BG＋１）²−ＢＧ_TOT］×ｎＦＧを有し得る。係数低減ユニット４６は、この点において、残りのフォアグラウンドＶ［ｋ］ベクトル５３における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット４６は、方向情報をほとんどまたはまったく有しない（残りのフォアグラウンドＶ［ｋ］ベクトル５３を形成する）フォアグラウンドＶ［ｋ］ベクトルにおける係数を除去するように構成されたユニットを表し得る。いくつかの例では、（Ｎ_BGと示され得る）１次および０次の基底関数に対応する、明確な、または言い換えればフォアグラウンドＶ［ｋ］ベクトルの係数は、方向情報をほとんど提供せず、したがって、（「係数低減」と呼ばれ得るプロセスを通じて）フォアグラウンドＶベクトルから除去され得る。この例では、対応する係数Ｎ_BGを識別するだけではなく、（変数ＴｏｔａｌＯｆＡｄｄＡｍｂＨＯＡＣｈａｎによって示され得る）追加のＨＯＡチャネルを［（Ｎ_BG＋１）²＋１，（Ｎ＋１）²］のセットから識別するために、より大きい柔軟性が与えられ得る。

[0118]量子化ユニット５２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮するための任意の形態の量子化を実行し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をビットストリーム生成ユニット４２に出力するように構成されたユニットを表し得る。動作において、量子化ユニット５２は、音場の空間成分、すなわちこの例では低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちの１つまたは複数を圧縮するように構成されたユニットを表し得る。量子化ユニット５２は、上記のＭＰＥＧ−Ｈ３Ｄオーディオコーディング規格のフェーズＩまたはフェーズＩＩに記載された以下の１２個の量子化モードのうちのいずれか１つを実行することができる。また、量子化ユニット５２は、前述のタイプの量子化モードのいずれかの量子化モードの予測されたバージョンを実行することもでき、以前のフレームのＶベクトルの要素（またはベクトル量子化が実行されるときの重み）と、現在のフレームのＶベクトルの要素（またはベクトル量子化が実行されるときの重み）との間の差が決定される。量子化ユニット５２は、その際、現在のフレーム自体のＶベクトルの要素の値ではなく、現在のフレームの要素または重みと、以前のフレームの要素または重みとの間の差を量子化することができる。量子化ユニット５２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をビットストリーム生成ユニット４２に提供することができる。量子化ユニット５２はまた、量子化モードを示すシンタックス要素（たとえば、ＮｂｉｔｓＱシンタックス要素）と、Ｖベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与え得る。

[0119]オーディオ符号化デバイス２０内に含まれる聴覚心理オーディオコーダユニット４０は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、エネルギー補償されたアンビエントＨＯＡ係数４７’および補間されたｎＦＧ信号４９’の各々の様々なオーディオオブジェクトまたはＨＯＡチャネルを符号化して、符号化されたアンビエントＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために使用される。聴覚心理オーディオコーダユニット４０は、符号化されたアンビエントＨＯＡ係数５９と、符号化されたｎＦＧ信号６１とをビットストリーム生成ユニット４２に出力し得る。

[0120]オーディオ符号化デバイス２０内に含まれるビットストリーム生成ユニット４２は、（復号デバイスによって知られているフォーマットを指し得る）既知のフォーマットに適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム２１を生成するユニットを表す。ビットストリーム２１は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット４２は、いくつかの例ではマルチプレクサを表し得、マルチプレクサは、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化されたアンビエントＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とを受信し得る。ビットストリーム生成ユニット４２は、次いで、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化されたアンビエントＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいてビットストリーム２１を生成し得る。このようにして、それにより、ビットストリーム生成ユニット４２は、ビットストリーム２１を取得するために、ビットストリーム２１中でベクトル５７を指定し得る。ビットストリーム２１は、主要またはメインビットストリームと、１つまたは複数のサイドチャネルビットストリームとを含み得る。

[0121]図３の例には示されないが、オーディオ符号化デバイス２０はまた、現在のフレームが方向ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス２０から出力されるビットストリームを（たとえば、方向ベースのビットストリーム２１とベクトルベースのビットストリーム２１との間で）切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、（ＨＯＡ係数１１が合成オーディオオブジェクトから生成されたことを検出した結果として）方向ベース合成が実行されたか、（ＨＯＡ係数が録音されたことを検出した結果として）ベクトルベース合成が実行されたかを示す、コンテンツ分析ユニット２６によって出力されるシンタックス要素に基づいて、切替えを実行することができる。ビットストリーム出力ユニットは、ビットストリーム２１の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定することができる。

[0122]その上、上述されたように、音場分析ユニット４４は、フレームごとに変化し得るＢＧ_TOTアンビエントＨＯＡ係数４７を識別し得る（が、時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。ＢＧ_TOTにおける変化は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５において表された係数への変化を生じさせ得る。ＢＧ_TOTにおける変化は、フレームごとに変化する（「アンビエントＨＯＡ係数」と呼ばれることもある）バックグラウンドＨＯＡ係数を生じさせ得る（が、この場合も時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。この変化は、追加のアンビエントＨＯＡ係数の追加または除去と、対応する、低減されたフォアグラウンドＶ［ｋ］ベクトル５５からの係数の除去または低減されたフォアグラウンドＶ［ｋ］ベクトル５５に対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じさせることが多い。

[0123]その結果、音場分析ユニット４４は、いつアンビエントＨＯＡ係数がフレームごとに変化するかをさらに決定し、音場のアンビエント成分を表すために使用されることに関して、アンビエントＨＯＡ係数への変化を示すフラグまたは他のシンタックス要素を生成し得る（ここで、この変化は、アンビエントＨＯＡ係数の「遷移」またはアンビエントＨＯＡ係数の「遷移」と呼ばれることもある）。特に、係数低減ユニット４６は、（ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎフラグまたはＡｍｂＣｏｅｆｆＩｄｘＴｒａｎｓｉｔｉｏｎフラグとして示され得る）フラグを生成し、そのフラグが（場合によってはサイドチャネル情報の一部として）ビットストリーム２１中に含まれ得るように、そのフラグをビットストリーム生成ユニット４２に与え得る。

[0124]係数低減ユニット４６はまた、アンビエント係数遷移フラグを指定することに加えて、低減されたフォアグラウンドＶ［ｋ］ベクトル５５が生成される方法を修正し得る。一例では、アンビエントＨＯＡアンビエント係数のうちの１つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット４６は、遷移中のアンビエントＨＯＡ係数に対応する低減されたフォアグラウンドＶ［ｋ］ベクトル５５のＶベクトルの各々について、（「ベクトル要素」または「要素」と呼ばれることもある）ベクトル係数を指定し得る。この場合も、遷移中のアンビエントＨＯＡ係数は、ＢＧ_TOTからバックグラウンド係数の総数を追加または除去し得る。したがって、バックグラウンド係数の総数において生じた変化は、アンビエントＨＯＡ係数がビットストリーム中に含まれるか含まれないか、および、Ｖベクトルの対応する要素が、上記で説明された第２の構成モードおよび第３の構成モードにおいてビットストリーム中で指定されたＶベクトルのために含まれるかどうかに影響を及ぼす。係数低減ユニット４６が、エネルギーの変化を克服するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を指定し得る方法に関するより多くの情報は、２０１５年１月１２日に出願された「ＴＲＡＮＳＩＴＩＯＮＩＮＧＯＦＡＭＢＩＥＮＴＨＩＧＨＥＲ＿ＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」と題する米国出願第１４／５９４，５３３号において提供されている。

[0125]この点において、ビットストリーム生成ユニット４２は、多数の異なるコンテンツ配信のコンテキストに対応するために柔軟なビットストリーム生成を促進し得る様々な異なる符号化方式でビットストリーム２１を生成し得る。オーディオ業界内で活発化しているように見える１つのコンテキストは、増大する異なる再生デバイスへのネットワークを介したオーディオデータの配信（または言い換えれば「ストリーミング」）である。様々な程度の再生能力を有するデバイスに、帯域幅が抑制されたネットワークを介してオーディオコンテンツを配信することは、（チャネルベースまたはオブジェクトベースのオーディオデータと比較して）帯域幅の大量消費と引き換えに再生中に高度の３Ｄオーディオフィデリティ（3D audio fidelity）を許容するＨＯＡオーディオデータのコンテキストでは特に困難であり得る。

[0126]本開示で説明される技法によれば、ビットストリーム生成ユニット４２は、ＨＯＡ係数１１の様々な再構成を可能にするために１つまたは複数のスケーラブルレイヤを利用することができる。レイヤの各々は、階層的であり得る。たとえば、第１のレイヤ（「ベースレイヤ」と呼ばれることがある）は、ステレオラウドスピーカーフィードがレンダリングされることを可能にするＨＯＡ係数の第１の再構成をもたらすことができる。第２のレイヤ（第１の「エンハンスメントレイヤ」と呼ばれることがある）は、ＨＯＡ係数の第１の再構成に適用されたときに、水平方向サラウンドサウンドラウドスピーカーフィード（たとえば、５．１ラウドスピーカーフィード）がレンダリングされることを可能にするために、ＨＯＡ係数の第１の再構成をスケーリングすることができる。第３のレイヤ（第２の「エンハンスメントレイヤ」と呼ばれることがある）は、ＨＯＡ係数の第２の再構成に適用されたときに、３Ｄサラウンドサウンドラウドスピーカーフィード（たとえば、２２．２ラウドスピーカーフィード）がレンダリングされることを可能にするために、ＨＯＡ係数の第１の再構成をスケーリングすることができる。この点において、レイヤは、以前のレイヤを階層的スケーリングすると考えられ得る。言い換えれば、レイヤは、第１のレイヤが第２のレイヤと組み合わせられたときに、高次アンビソニックオーディオ信号のより高い分解表現を提供するように、階層的である。

[0127]上記では、直前のレイヤのスケーリングを可能にするものとして説明されているが、別のレイヤの上にある任意のレイヤが下位レイヤをスケーリングしてもよい。言い換えれば、上記の第３のレイヤは、第１のレイヤが第２のレイヤによって「スケーリング」されていなくても、第１のレイヤをスケーリングするために使用され得る。第３のレイヤは、第１のレイヤに直接適用されたとき、高さ情報を提供し、それによって、不規則に並べられたスピーカー幾何学的配置に対応する不規則なスピーカーフィードがレンダリングされることを可能にすることができる。

[0128]ビットストリーム生成ユニット４２は、レイヤがビットストリーム２１から抽出されることを可能にするために、ビットストリームにおいて指定されたレイヤの数の指示を指定し得る。ビットストリーム生成ユニット４２は、レイヤの指示された数を含むビットストリーム２１を出力し得る。ビットストリーム生成ユニット４２は、図５に関連してより詳細に説明される。スケーラブルＨＯＡオーディオデータを生成する様々な異なる例が、以下の図７Ａ〜図９Ｂにおいて説明され、上記の例の各々に関するサイドバンド情報の一例が図１０〜図１３Ｂにおいて説明される。

[0129]図５は、本開示で説明されるスケーラブルオーディオコーディング技法の潜在的バージョンのうちの第１のものを実行するように構成されるときの図３のビットストリーム生成ユニット４２をより詳細に示す図である。図５の例では、ビットストリーム生成ユニット４２は、スケーラブルビットストリーム生成ユニット１０００と非スケーラブルビットストリーム生成ユニット１００２とを含む。スケーラブルビットストリーム生成ユニット１０００は、図１１〜図１３Ｂの例において示され、そのような例に関して以下で説明されるものと同様のＨＯＡＦｒａｍｅｓ（）を有する２つ以上のレイヤを備えるスケーラブルビットストリーム２１（ただし、いくつかの事例では、スケーラブルビットストリームは、いくつかのオーディオコンテキストの場合に単一のレイヤを備え得る）を生成するように構成されたユニットを表す。非スケーラブルビットストリーム生成ユニット１００２は、レイヤ、または言い換えればスケーラビリティを提供しない非スケーラブルビットストリーム２１を生成するように構成されたユニットを表し得る。

[0130]非スケーラブルビットストリーム２１とスケーラブルビットストリーム２１の両方は、両方が通常、符号化されたアンビエントＨＯＡ係数５９、符号化されたｎＦＧ信号６１、およびコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の点で同じ基礎データ（underlying data）を含むことから、「ビットストリーム２１」と呼ばれ得る。一方、非スケーラブルビットストリーム２１とスケーラブルビットストリーム２１との間の１つの差異は、レイヤ２１Ａ、２１Ｂなどとして示され得るレイヤをスケーラブルビットストリーム２１が含むことである。レイヤ２１Ａは、以下でより詳細に説明されるように、符号化されたアンビエントＨＯＡ係数５９、符号化されたｎＦＧ信号６１、およびコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７のサブセットを含み得る。

[0131]スケーラブルビットストリーム２１および非スケーラブルビットストリーム２１は事実上、同じビットストリーム２１の異なる表現であり得るが、非スケーラブルビットストリーム２１が非スケーラブルビットストリーム２１’として示されて、スケーラブルビットストリーム２１と非スケーラブルビットストリーム２１’を区別する。その上、いくつかの事例では、スケーラブルビットストリーム２１は、非スケーラブルビットストリーム２１に適合する様々なレイヤを含み得る。たとえば、スケーラブルビットストリーム２１は、非スケーラブルビットストリーム２１に適合するベースレイヤを含み得る。これらの事例では、非スケーラブルビットストリーム２１’は、スケーラブルビットストリーム２１のサブビットストリームを表すことができ、ここで、この非スケーラブルビットストリーム２１’は、スケーラブルビットストリーム２１の追加レイヤ（エンハンスメントレイヤと呼ばれる）により増強され得る。

[0132]ビットストリーム生成ユニット４２は、スケーラブルビットストリーム生成ユニット１０００を呼び出すべきか、非スケーラブルビットストリーム生成ユニット１００２を呼び出すべきかを示すスケーラビリティ情報１００３を取得し得る。言い換えれば、スケーラビリティ情報１００３は、ビットストリーム生成ユニット４２がスケーラブルビットストリーム２１を生成すべきか、非スケーラブルビットストリーム２１’を生成すべきかを示し得る。説明の目的で、スケーラビリティ情報１００３は、ビットストリーム生成ユニット４２がスケーラブルビットストリーム２１’を出力するためにスケーラブルビットストリーム生成ユニット１０００を呼び出すべきであることを示すと仮定される。

[0133]図５の例にさらに示されているように、ビットストリーム生成ユニット４２は、符号化されたアンビエントＨＯＡ係数５９Ａ〜５９Ｄと、符号化されたｎＦＧ信号６１Ａおよび６１Ｂと、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａおよび５７Ｂとを受信し得る。符号化されたアンビエントＨＯＡ係数５９Ａは、０の次数と０の副次数とを有する球面基底関数に関連する符号化されたアンビエントＨＯＡ係数を表し得る。符号化されたアンビエントＨＯＡ係数５９Ｂは、１の次数と０の副次数とを有する球面基底関数に関連する符号化されたアンビエントＨＯＡ係数を表し得る。符号化されたアンビエントＨＯＡ係数５９Ｃは、１の次数とマイナス１の副次数とを有する球面基底関数に関連する符号化されたアンビエントＨＯＡ係数を表し得る。符号化されたアンビエントＨＯＡ係数５９Ｄは、１の次数とプラス１の副次数とを有する球面基底関数に関連する符号化されたアンビエントＨＯＡ係数を表し得る。符号化されたアンビエントＨＯＡ係数５９Ａ〜５９Ｄは、上記で説明された符号化されたアンビエントＨＯＡ係数５９の一例を表し得、結果的にまとめて、符号化されたアンビエントＨＯＡ係数５９と呼ばれ得る。

[0134]符号化されたｎＦＧ信号６１Ａおよび６１Ｂはそれぞれ、この例では、音場の２つの最も支配的なフォアグラウンド態様を表すＵＳオーディオオブジェクトを表し得る。コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａおよび５７Ｂは、それぞれ、符号化されたｎＦＧ信号６１Ａおよび６１Ｂに関する方向情報（方向に加えて幅も指定し得る）を表し得る。符号化されたｎＦＧ信号６１Ａおよび６１Ｂは、上記で説明された符号化されたｎＦＧ信号６１の一例を表し得、結果的にまとめて、符号化されたｎＦＧ信号６１と呼ばれ得る。コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａおよび５７Ｂは、上記で説明されたコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の一例を表し得、結果的にまとめて、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と呼ばれ得る。

[0135]スケーラブルビットストリーム生成ユニット１０００は、呼び出されると、図７Ａ〜図９Ｂに関して以下で説明される方法と実質的に同様の方法で、レイヤ２１Ａおよび２１Ｂを含むようにスケーラブルビットストリーム２１を生成し得る。スケーラブルビットストリーム生成ユニット１０００は、ビットストリーム２１におけるレイヤの数ならびにレイヤ２１Ａおよび２１Ｂの各々におけるフォアグラウンド要素およびバックグラウンド要素の数の指示を指定し得る。スケーラブルビットストリーム生成ユニット１０００は、一例として、レイヤの数Ｌを指定し得るＮｕｍｂｅｒＯｆＬａｙｅｒｓシンタックス要素を指定することができ、ここで変数Ｌは、レイヤの数を示し得る。次いで、スケーラブルビットストリーム生成ユニット１０００は、（変数ｉ＝１〜Ｌとして示され得る）レイヤごとに、レイヤごとに送られる符号化されたアンビエントＨＯＡ係数５９の数Ｂｉおよび符号化されたｎＦＧ信号６１の数Ｆｉ（同じくまたは代替的に、対応するコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の数を示し得る）を指定し得る。

[0136]図５の例では、スケーラブルビットストリーム生成ユニット１０００は、スケーラブルコーディングがイネーブルにされていることと、２つのレイヤがスケーラブルビットストリーム２１に含まれていることと、第１のレイヤ２１Ａが４つの符号化されたアンビエントＨＯＡ係数５９と０個の符号化されたｎＦＧ信号６１とを含むことと、第２のレイヤ２１Ａが０個の符号化されたアンビエントＨＯＡ係数５９とｗ個の符号化されたｎＦＧ信号６１とを含むこととをスケーラブルビットストリーム２１において指定し得る。スケーラブルビットストリーム生成ユニット１０００はまた、符号化されたアンビエントＨＯＡ係数５９を含むように第１のレイヤ２１Ａ（「ベースレイヤ２１Ａ」と呼ばれることもある）を生成し得る。スケーラブルビットストリーム生成ユニット１０００はさらに、符号化されたｎＦＧ信号６１とコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７とを含むように第２のレイヤ２１Ａ（「エンハンスメントレイヤ２１Ｂ」と呼ばれることがある）を生成し得る。スケーラブルビットストリーム生成ユニット１０００は、スケーラブルビットストリーム２１としてレイヤ２１Ａおよび２１Ｂを出力し得る。いくつかの例では、スケーラブルビットストリーム生成ユニット１０００は、（エンコーダ２０の内部または外部のいずれかにある）メモリにスケーラブルビットストリーム２１’を記憶し得る。

[0137]いくつかの事例では、スケーラブルビットストリーム生成ユニット１０００は、レイヤの数、１つまたは複数のレイヤにおけるフォアグラウンド成分の数（たとえば、符号化されたｎＦＧ信号６１およびコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の数）、ならびに１つまたは複数のレイヤにおけるバックグラウンド成分の数（たとえば、符号化されたアンビエントＨＯＡ係数５９）の指示のうちの１つもしくは複数またはいずれかを指定しないことがある。成分は、本開示ではチャネルと呼ばれることもある。代わりに、スケーラブルビットストリーム生成ユニット１０００は、現在のフレームに関するレイヤの数を以前のフレーム（たとえば、時間的に直近の以前のフレーム）に関するレイヤの数と比較し得る。比較の結果、差異がない（現在のフレームにおけるレイヤの数が以前のフレームにおけるレイヤの数に等しいことを意味するとき、スケーラブルビットストリーム生成ユニット１０００は、同様の方法で各レイヤにおけるバックグラウンド成分およびフォアグラウンド成分の数を比較し得る。

[0138]言い換えれば、スケーラブルビットストリーム生成ユニット１０００は、現在のフレームに関する１つまたは複数のレイヤにおけるバックグラウンド成分の数を、以前のフレームに関する１つまたは複数のレイヤにおけるバックグラウンド成分の数と比較し得る。スケーラブルビットストリーム生成ユニット１０００はさらに、現在のフレームに関する１つまたは複数のレイヤにおけるフォアグラウンド成分の数を、以前のフレームに関する１つまたは複数のレイヤにおけるフォアグラウンド成分の数と比較し得る。

[0139]成分ベースの比較の両方の結果、差異がない（以前のフレームにおけるフォアグラウンド成分およびバックグラウンド成分の数が、現在のフレームにおけるフォアグラウンド成分およびバックグラウンド成分の数に等しいことを意味する）とき、スケーラブルビットストリーム生成ユニット１０００はスケーラブルビットストリーム２１において、レイヤの数、１つまたは複数のレイヤにおけるフォアグラウンド成分の数（たとえば、符号化されたｎＦＧ信号６１およびコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の数）、ならびに１つまたは複数のレイヤにおけるバックグラウンド成分の数（たとえば、符号化されたアンビエントＨＯＡ係数５９）の指示のうちの１つもしくは複数またはいずれかを指定するのではなく、現在のフレームにおけるレイヤの数が以前のフレームにおけるレイヤの数に等しいことの指示（たとえば、ＨＯＡＢａｓｅＬａｙｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＦｌａｇシンタックス要素）を指定し得る。次いで、オーディオ復号デバイス２４は、以下でより詳細に説明されるように、レイヤ、バックグラウンド成分、およびフォアグラウンド成分の数の以前のフレームの指示が、レイヤ、バックグラウンド成分、およびフォアグラウンド成分の数の数の現在のフレームの指示に等しいと決定し得る。

[0140]上記の比較のいずれかの結果、差異があるとき、スケーラブルビットストリーム生成ユニット１０００はスケーラブルビットストリーム２１において、現在のフレームにおけるレイヤの数が以前のフレームにおけるレイヤの数に等しくないことの指示（たとえば、ＨＯＡＢａｓｅＬａｙｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＦｌａｇシンタックス要素）を指定し得る。その場合、スケーラブルビットストリーム生成ユニット１０００は、上記のように、レイヤの数、１つまたは複数のレイヤにおけるフォアグラウンド成分の数（たとえば、符号化されたｎＦＧ信号６１およびコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の数）、ならびに１つまたは複数のレイヤにおけるバックグラウンド成分の数（たとえば、符号化されたアンビエントＨＯＡ係数５９）の指示を指定し得る。この点において、スケーラブルビットストリーム生成ユニット１０００はビットストリームにおいて、現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化しているかどうかの指示を指定し、現在のフレームにおけるビットストリームのレイヤの指示された数を指定し得る。

[0141]いくつかの例では、フォアグラウンド成分の数の指示とバックグラウンド成分の数の指示とを指定しないのではなく、スケーラブルビットストリーム生成ユニット１０００は、スケーラブルビットストリーム２１における成分の数の指示（たとえば、ｉがレイヤの数に等しい［ｉ］個のエントリを有するアレイであり得る、「ＮｕｍＣｈａｎｎｅｌｓ」シンタックス要素）を指定しないことがある。スケーラブルビットストリーム生成ユニット１０００は、成分（これらの成分は「チャネル」と呼ばれることもある）の数のこの指示を、フォアグラウンド成分およびバックグラウンド成分の数がより一般的なチャネル数から導出され得ることから、フォアグラウンド成分およびバックグラウンド成分の数を指定しない代わりに、指定しないことがある。フォアグラウンド成分の数の指示およびバックグラウンドチャネルの数の指示の導出は、いくつかの例では、以下の表に従って進み得る。

ここで、ＣｈａｎｎｅｌＴｙｐｅの説明は次のように与えられる。
ＣｈａｎｎｅｌＴｙｐｅ：
０：方向ベースの信号
１：ベクトルベースの信号（フォアグラウンド信号を表し得る）
２：追加のアンビエントＨＯＡ係数（バックグラウンド信号またはアンビエント信号を表し得る）
３：空
上記のＳｉｄｅＣｈａｎｎｅｌＩｎｆｏシンタックス表に従ってＣｈａｎｎｅｌＴｙｐｅをシグナリングした結果として、レイヤごとのフォアグラウンド成分の数が、１に設定されたＣｈａｎｎｅｌＴｙｐｅシンタックス要素の数の関数として決定され得、レイヤごとのバックグラウンド成分の数が、２に設定されたＣｈａｎｎｅｌＴｙｐｅシンタックス要素の数の関数として決定され得る。

[0142]スケーラブルビットストリーム生成ユニット１０００は、いくつかの例では、ビットストリーム２１からレイヤを抽出するための構成情報を提供する、フレームごとのＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇを指定し得る。ＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇは、上の表の代替として、または上の表とともに指定され得る。以下の表は、ビットストリーム２１におけるＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇ＿ＦｒａｍｅＢｙＦｒａｍｅ（）オブジェクトに関するシンタックスを定義し得る。

[0143]上記の表では、ＨＯＡＢａｓｅＬａｙｅｒＰｒｅｓｅｎｔシンタックス要素は、スケーラブルビットストリーム２１のベースレイヤが存在するかどうかを示すフラグを表し得る。存在するとき、スケーラブルビットストリーム生成ユニット１０００は、ベースレイヤに関する構成情報がビットストリーム２１に存在するかどうかを示すシンタックス要素を表し得る、ＨＯＡＢａｓｅＬａｙｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＦｌａｇシンタックス要素を指定する。ベースレイヤに関する構成情報がビットストリーム２１に存在するとき、スケーラブルビットストリーム生成ユニット１０００は、レイヤの数（すなわち、この例ではＮｕｍＬａｙｅｒｓシンタックス要素）と、レイヤの各々に関するフォアグラウンドチャネルの数（すなわち、この例ではＮｕｍＦＧｃｈａｎｎｅｌｓシンタックス要素）と、レイヤの各々に関するバックグラウンドチャネルの数（すなわち、この例ではＮｕｍＢＧｃｈａｎｎｅｌｓシンタックス要素）とを指定する。ベースレイヤ構成が存在しないことをＨＯＡＢａｓｅＬａｙｅｒＰｒｅｓｅｎｔフラグが示すとき、スケーラブルビットストリーム生成ユニット１０００は、追加のシンタックス要素を一切提供しなくてよく、オーディオ復号デバイス２４は、現在のフレームに関する構成データが以前のフレームに関する構成データと同じであると決定し得る。

[0144]いくつかの例では、スケーラブルビットストリーム生成ユニット１０００は、スケーラブルビットストリーム２１におけるＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇオブジェクトを指定し得るが、レイヤごとのフォアグラウンドチャネルおよびバックグラウンドチャネルの数を指定しなくてよく、ここでフォアグラウンドチャネルおよびバックグラウンドチャネルの数は静的であること、またはＣｈａｎｎｅｌＳｉｄｅＩｎｆｏ表に関して上記で説明されたように決定されることがある。ＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇは、この例では、以下の表に従って定義され得る。

[0145]また別の代替では、ＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇに関する上記のシンタックス表は、ＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇに関する以下のシンタックス表に置き換えられ得る。

[0146]この点において、スケーラブルビットストリーム生成ユニット１０００は、上記で説明されたように、ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示をビットストリームにおいて指定し、ビットストリームの１つまたは複数のレイヤにおけるチャネルの指示された数を指定するように構成され得る。

[0147]その上、スケーラブルビットストリーム生成ユニット１０００は、チャネルの数を示す（たとえば、以下でより詳細に説明されるように、ＮｕｍＬａｙｅｒｓシンタックス要素またはｃｏｄｅｄＬａｙｅｒＣｈｓｙｎｔａｘシンタックス要素の形態による）シンタックス要素を指定するように構成され得る。

[0148]いくつかの例では、スケーラブルビットストリーム生成ユニット１０００は、ビットストリームにおいて指定されたチャネルの総数の指示を指定するように構成され得る。スケーラブルビットストリーム生成ユニット１０００は、これらの事例では、ビットストリームの１つまたは複数のレイヤにおけるチャネルの指示された総数を指定するように構成され得る。これらの事例では、スケーラブルビットストリーム生成ユニット１０００は、チャネルの総数を示すシンタックス要素（たとえば、以下でより詳細に説明されるように、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓシンタックス要素）を指定するように構成され得る。

[0149]これらの例および他の例では、スケーラブルビットストリーム生成ユニット１０００は、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルのうちの１つの指示タイプを指定するように構成され得る。これらの事例では、スケーラブルビットストリーム生成ユニット１０００は、ビットストリームの１つまたは複数のレイヤにおけるチャネルのうちの１つの指示されたタイプの指示された数を指定するように構成され得る。フォアグラウンドチャネルは、ＵＳオーディオオブジェクトと対応するＶベクトルとを備え得る。

[0150]これらの例および他の例では、スケーラブルビットストリーム生成ユニット１０００は、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルのうちの１つの指示タイプを指定するように構成され得、チャネルのうちの１つのタイプの指示が、チャネルのうちの１つがフォアグラウンドチャネルであることを示す。これらの事例では、スケーラブルビットストリーム生成ユニット１０００は、ビットストリームの１つまたは複数のレイヤにおけるフォアグラウンドチャネルを指定するように構成され得る。

[0151]これらの例および他の例では、スケーラブルビットストリーム生成ユニット１０００は、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルのうちの１つの指示タイプを指定するように構成され得、チャネルのうちの１つのタイプの指示が、チャネルのうちの１つがバックグラウンドチャネルであることを示す。これらの事例では、スケーラブルビットストリーム生成ユニット１０００は、ビットストリームの１つまたは複数のレイヤにおけるバックグラウンドチャネルを指定するように構成され得る。バックグラウンドチャネルは、アンビエントＨＯＡ係数を備え得る。

[0152]これらの例および他の例では、スケーラブルビットストリーム生成ユニット１０００は、チャネルのうちの１つのタイプを示すシンタックス要素（たとえば、ＣｈａｎｎｅｌＴｙｐｅシンタックス要素）を指定するように構成され得る。

[0153]これらの例および他の例では、スケーラブルビットストリーム生成ユニット１０００は、（たとえば、以下でより詳細に説明されるようにｒｅｍａｉｎｉｎｇＣｈシンタックス要素またはｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓシンタックス要素によって定義されるようなレイヤのうちの１つが取得された後のビットストリームにおいて残存するチャネルの数に基づいて、チャネルの数の指示を指定するように構成され得る。

[0154]図７Ａ〜図７Ｄは、ＨＯＡ係数１１の符号化された２層表現を生成する際のオーディオ符号化デバイス２０の例示的な動作を示すフローチャートである。最初に図７Ａの例を参照すると、無相関化ユニット６０は最初に、エネルギー補償されたバックグラウンドＨＯＡ係数４７Ａ’〜４７Ｄ’として表される１次アンビソニックスバックグラウンド（ここで、「アンビソニックスバックグラウンド」は、音場のバックグラウンド成分を表すアンビソニック係数を指し得る）に関してＵＨＪ無相関化を適用し得る（３００）。１次アンビソニックスバックグラウンド４７Ａ’〜４７Ｄ’は、以下（次数，副次数）を有する球面基底関数に対応するＨＯＡ係数を含み得る。（０，０）、（１，０）、（１，−１）、（１，１）。

[0155]無相関化ユニット６０は、上述のＱ、Ｔ、ＬおよびＲオーディオ信号として、無相関化されたアンビエントＨＯＡオーディオ信号６７を出力し得る。Ｑオーディオ信号は、高さ情報を提供し得る。Ｔオーディオ信号は、（スイートスポットの背後のチャネルを表すための情報を含む）水平方向情報を提供し得る。Ｌオーディオ信号は、左ステレオチャネルを提供する。Ｒオーディオ信号は、右ステレオチャネルを提供する。

[0156]いくつかの例では、ＵＨＪ行列は少なくとも、左オーディオチャネルに関連する高次アンビソニックオーディオデータを備え得る。他の例では、ＵＨＪ行列は少なくとも、右オーディオチャネルに関連する高次アンビソニックオーディオデータを備え得る。さらに他の例では、ＵＨＪ行列は少なくとも、ローカライゼーションチャネルに関連する高次アンビソニックオーディオデータを備え得る。他の例では、ＵＨＪ行列は少なくとも、高さチャネルに関連する高次アンビソニックオーディオデータを備え得る。他の例では、ＵＨＪ行列は少なくとも、自動利得補正のためのサイドバンドに関連する高次アンビソニックオーディオデータを備え得る。他の例では、ＵＨＪ行列は少なくとも、左オーディオチャネル、右オーディオチャネル、ローカライゼーションチャネル、および高さチャネル、ならびに自動利得補正のためのサイドバンドに関連する高次アンビソニックオーディオデータを備え得る。

[0157]利得制御ユニット６２は、無相関化されたアンビエントＨＯＡオーディオ信号６７に自動利得制御（ＡＧＣ）を適用し得る（３０２）。利得制御ユニット６２は、調整されたアンビエントＨＯＡオーディオ信号６７’をビットストリーム生成ユニット４２に渡し得、ビットストリーム生成ユニット４２は、調整されたアンビエントＨＯＡオーディオ信号６７’に基づいてベースレイヤを形成し、高次アンビソニック利得制御データ（ＨＯＡＧＣＤ）に基づいてサイドバンドチャネルの少なくとも一部を形成し得る（３０４）。

[0158]利得制御ユニット６２はまた、補間されたｎＦＧオーディオ信号４９’（「ベクトルベースの支配的信号」と呼ばれることもある）に関して自動利得制御を適用し得る（３０６）。利得制御ユニット６２は、調整されたｎＦＧオーディオ信号４９’’を、調整されたｎＦＧオーディオ信号４９’’に関するＨＯＡＧＣＤとともにビットストリーム生成ユニット４２に出力し得る。ビットストリーム生成ユニット４２は、調整されたｎＦＧオーディオ信号４９’’に基づいて第２のレイヤを形成する一方、調整されたｎＦＧオーディオ信号４９’’に関するＨＯＡＧＣＤおよび対応するコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７に基づいてサイドバンド情報の一部を形成し得る（３０８）。

[0159]高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤ（すなわち、ベースレイヤ）は、１以下の次数を有する１つまたは複数の球面基底関数に対応する高次アンビソニック係数を備え得る。いくつかの例では、第２のレイヤ（すなわち、エンハンスメントレイヤ）は、ベクトルベースの支配的オーディオデータを備える。

[0160]いくつかの例では、ベクトルベースの支配的オーディオは少なくとも、支配的オーディオデータと符号化されたＶベクトルとを備える。上記で説明されたように、符号化されたＶベクトルは、オーディオ符号化デバイス２０のＬＩＴユニット３０による線形可逆変換の適用を通じて高次アンビソニックオーディオデータから分解され得る。他の例では、ベクトルベースの支配的オーディオデータは少なくとも、追加の高次アンビソニックチャネルを備える。さらに他の例では、ベクトルベースの支配的オーディオデータは少なくとも、自動利得補正サイドバンドを備える。他の例では、ベクトルベースの支配的オーディオデータは少なくとも、支配的オーディオデータと、符号化されたＶベクトルと、追加の高次アンビソニックチャネルと、自動利得補正サイドバンドとを備える。

[0161]第１のレイヤと第２のレイヤとを形成する際に、ビットストリーム生成ユニット４２は、誤り検出、誤り訂正、または誤り検出と誤り訂正の両方を行う誤りチェックプロセスを実行し得る。いくつかの例では、ビットストリーム生成ユニット４２は、第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行し得る。別の例では、オーディオコーディングデバイスは、第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行し、第２のレイヤ（すなわち、エンハンスメントレイヤ）に対して誤りチェックプロセスを実行するのを控え得る。また別の例では、ビットストリーム生成ユニット４２は、第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行し得、第１のレイヤに誤りがないとの決定に応答して、オーディオコーディングデバイスは、第２のレイヤ（すなわち、エンハンスメントレイヤ）に対して誤りチェックプロセスを実行し得る。ビットストリーム生成ユニット４２が第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行する上記の例のいずれでも、第１のレイヤは、誤りに対してロバストであるロバストレイヤと考えられ得る。

[0162]次に図７Ｂを参照すると、利得制御ユニット６２およびビットストリーム生成ユニット４２は、図７Ａに関して上記で説明された利得制御ユニット６２およびビットストリーム生成ユニット４２の動作と同様の動作を実行する。ただし、無相関化ユニット６０は、ＵＨＪ無相関化ではなくモード行列無相関化を１次アンビソニックスバックグラウンド４７Ａ’〜４７Ｄ’に適用し得る（３０１）。

[0163]次に図７Ｃを参照すると、利得制御ユニット６２およびビットストリーム生成ユニット４２は、図７Ａおよび図７Ｂの例に関して上記で説明された利得制御ユニット６２およびビットストリームユニット４２の動作と同様の動作を実行し得る。ただし、図７Ｃの例では、無相関化ユニット６０は、１次アンビソニックスバックグラウンド４７Ａ’〜４７Ｄ’に変換を一切適用しなくてよい。以下の例８Ａ〜１０Ｂの各々では、無相関化ユニット６０が代替として、１次アンビソニックスバックグラウンド４７Ａ’〜４７Ｄ’のうちの１つまたは複数に関して無相関化を適用しなくてよいことが仮定されるが、そのようなことは示されていない。

[0164]次に図７Ｄを参照すると、無相関化ユニット６０およびビットストリーム生成ユニット４２は、図７Ａおよび図７Ｂの例にｉｗｈｔ関して上記で説明された利得制御ユニット５２およびビットストリーム生成ユニット４２の動作と同様の動作を実行し得る。ただし、図７Ｄの例では、利得制御ユニット６２は、無相関化されたアンビエントＨＯＡオーディオ信号６７に利得制御を一切適用しなくてよい。以下の例８Ａ〜１０Ｂの各々では、利得制御ユニット５２が代替として、無相関化アンビエントＨＯＡオーディオ信号６７のうちの１つまたは複数に関して無相関化を適用しなくてよいことが仮定されるが、そのようなことは示されていない。

[0165]図７Ａ〜図７Ｄの例の各々では、ビットストリーム生成ユニット４２は、ビットストリーム２１における１つまたは複数のシンタックス要素を指定し得る。図１０は、ビットストリーム２１において指定されたＨＯＡ構成オブジェクトの一例を示す図である。図７Ａ〜図７Ｄの例の各々に関して、ビットストリーム生成ユニット４２は、ｃｏｄｅｄＶＶｅｃＬｅｎｇｔｈシンタックス要素４００を１または２に設定することができ、これは、１次バックグラウンドＨＯＡチャネルがすべての支配的音声の１次成分を含むことを示す。ビットストリーム生成ユニット４２はまた、ａｍｂｉｅｎｃｅＤｅｃｏｒｒｅｌａｔｉｏｎＭｅｔｈｏｄシンタックス要素４０２を、要素４０２が（たとえば、図７Ａに関して上記で説明された）ＵＨＪ無相関化の使用をシグナリングし、（たとえば、図７Ｂに関して上記で説明された）行列モード無相関化の使用をシグナリングし、または（たとえば、図７Ｃに関して上記で説明された）無相関化が使用されていないことをシグナリングするように、設定し得る。

[0166]図１１は、第１および第２のレイヤに関するビットストリーム生成ユニット４２によって生成されたサイドバンド情報４１０を示す図である。サイドバンド情報４１０は、サイドバンドベースレイヤ情報４１２と、サイドバンド第２のレイヤ情報４１４Ａおよび４１４Ｂとを含む。ベースレイヤのみがオーディオ復号デバイス２４に提供されるとき、オーディオ符号化デバイス２０は、サイドバンドベースレイヤ情報４１２のみを提供し得る。サイドバンドベースレイヤ情報４１２は、ベースレイヤに関するＨＯＡＧＣＤを含む。サイドバンド第２のレイヤ情報４１４Ａは、トランスポートチャネル１〜４シンタックス要素と対応するＨＯＡＧＣＤとを含む。サイドバンド第２のレイヤ情報４１４Ｂは、（１１₂または３₁₀に等しいＣｈａｎｎｅｌＴｙｐｅシンタックス要素によって示されるように、トランスポートチャネル３および４が空であることを仮定すれば）トランスポートチャネル１および２に対応する、対応する２つのコーディングされた低減されたＶ［ｋ］ベクトル５７を含む。

[0167]図８Ａおよび図８Ｂは、ＨＯＡ係数１１の符号化された３層表現を生成する際のオーディオ符号化デバイス２０の例示的な動作を示すフローチャートである。最初に図８Ａの例を参照すると、無相関化ユニット６０および利得制御ユニット６２は、図７Ａに関して上記で説明された動作と同様の動作を実行し得る。ただし、ビットストリーム生成ユニット４２は、調整されたアンビエントＨＯＡオーディオ信号６７のすべてではなく、調整されたアンビエントＨＯＡオーディオ信号６７のＬオーディオ信号およびＲオーディオ信号に基づいて、ベースレイヤを形成し得る（３１０）。ベースレイヤは、この点において、オーディオ復号デバイス２４においてレンダリングされたときにステレオチャネルをもたらし得る。ビットストリーム生成ユニット４２はまた、ＨＯＡＧＣＤを含むベースレイヤに関するサイドバンド情報を生成し得る。

[0168]ビットストリーム生成ユニット４２の動作はまた、ビットストリーム生成ユニット４２が調整されたアンビエントＨＯＡオーディオ信号６７のＱオーディオ信号およびＴオーディオ信号に基づいて第２のレイヤを形成し得る（３１２）という点で、図７Ａに関して上記で説明された動作とは異なり得る。図８Ａの例における第２のレイヤは、オーディオ復号デバイス２４においてレンダリングされたときに水平方向チャネルと３Ｄオーディオチャネルとをもたらし得る。ビットストリーム生成ユニット４２はまた、ＨＯＡＧＣＤを含む第２のレイヤに関するサイドバンド情報を生成し得る。ビットストリーム生成ユニット４２はまた、図７Ａの例において第２のレイヤを形成することに関して上記で説明された方法と実質的に同様の方法で、第３のレイヤを形成し得る。

[0169]ビットストリーム生成ユニット４２は、図１０に関して上記で説明されたものと同様のビットストリーム２１に関するＨＯＡ構成オブジェクトを指定し得る。さらに、オーディオエンコーダ２０のビットストリーム生成ユニット４２は、１次ＨＯＡバックグラウンドが送信されることを示すために、ＭｉｎＡｍｂＨｏａＯｒｄｅｒシンタックス要素４０４を２に設定する。

[0170]ビットストリーム生成ユニット４２はまた、図１２Ａの例において示されるサイドバンド情報４１２と同様のサイドバンド情報を生成し得る。図１２Ａは、本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報４１２を示す図である。サイドバンド情報４１２は、サイドバンドベースレイヤ情報４１６と、サイドバンド第２のレイヤ情報４１８と、サイドバンド第３のレイヤ情報４２０Ａおよび４２０Ｂとを含む。サイドバンドベースレイヤ情報４１６は、ベースレイヤに関するＨＯＡＧＣＤを提供し得る。サイドバンド第２のレイヤ情報４１８は、第２のレイヤに関するＨＯＡＧＣＤを提供し得る。サイドバンド第３のレイヤ情報４２０Ａおよび４２０Ｂは、図１１に関して上記で説明されたサイドバンド情報４１４Ａおよび４１４Ｂと同様であり得る。

[0171]図７Ａと同様に、ビットストリーム生成デバイス４２は、誤りチェックプロセスを実行し得る。いくつかの例では、ビットストリーム生成デバイス４２は、第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行し得る。別の例では、ビットストリーム生成デバイス４２は、第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行し、第２のレイヤ（すなわち、エンハンスメントレイヤ）に対して誤りチェックプロセスを実行するのを控え得る。また別の例では、ビットストリーム生成デバイス４２は、第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行し得、第１のレイヤに誤りがないとの決定に応答して、オーディオコーディングデバイスは、第２のレイヤ（すなわち、エンハンスメントレイヤ）に対して誤りチェックプロセスを実行し得る。オーディオコーディングデバイスが第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行する上記の例のいずれでも、第１のレイヤは、誤りに対してロバストであるロバストレイヤと考えられ得る。

[0172]３つのレイヤを提供するものとして説明されているが、いくつかの例では、ビットストリーム生成デバイス４２は、たった２つのレイヤがあることの指示をビットストリームにおいて指定し、ステレオチャネル再生をもたらす高次アンビソニックオーディオ信号のバックグラウンド成分を示すビットストリームのレイヤのうちの第１のものと、単一の水平面上に配置された３つ以上のスピーカーによる水平方向マルチチャネル再生をもたらす高次アンビソニックオーディオ信号のバックグラウンド成分を示すビットストリームのレイヤのうちの第２のものとを指定し得る。言い換えれば、３つのレイヤを提供するものとして示されているが、ビットストリーム生成デバイス４２は、いくつかの事例では３つのレイヤのうちの２つのみを生成し得る。ここでは詳細に説明されていないが、レイヤの任意のサブセットが生成され得ることを理解されたい。

[0173]次に図８Ｂを参照すると、利得制御ユニット６２およびビットストリーム生成ユニット４２は、図８Ａに関して上記で説明された利得制御ユニット６２およびビットストリーム生成ユニット４２の動作と同様の動作を実行する。ただし、無相関化ユニット６０は、ＵＨＪ無相関化ではなくモード行列無相関化を１次アンビソニックスバックグラウンド４７Ａ’に適用し得る（３１６）。いくつかの例では、１次アンビソニックスバックグラウンド４７Ａ’は、０次アンビソニック係数４７Ａ’を含み得る。利得制御ユニット６２は、１次を有する球面調和係数に対応する１次アンビソニック係数、および無相関化されたアンビエントＨＯＡオーディオ信号６７に自動利得制御を適用し得る。

[0174]ビットストリーム生成ユニット４２は、調整されたアンビエントＨＯＡオーディオ信号６７に基づいてベースレイヤを形成し、対応するＨＯＡＧＣＤに基づいてサイドバンドの少なくとも一部を形成し得る（３１０）。アンビエントＨＯＡオーディオ信号６７は、オーディオ復号デバイス２４においてレンダリングされたときにモノチャネルをもたらし得る。ビットストリーム生成ユニット４２は、調整されたアンビエントＨＯＡ係数４７Ｂ’’〜４７Ｄ’’に基づいて第２のレイヤを形成し、対応するＨＯＡＧＣＤに基づいてサイドバンドの少なくとも一部を形成し得る（３１８）。調整されたアンビエントＨＯＡ係数４７Ｂ’’〜４７Ｄ’’は、オーディオ復号デバイス２４においてレンダリングされたときにＸ、ＹおよびＺ（またはステレオ、水平方向および高さ）チャネルを提供し得る。ビットストリーム生成ユニット４２は、図８Ａに関して上記で説明された方法と同様の方法で、第３のレイヤとサイドバンド情報の少なくとも一部とを形成し得る。ビットストリーム生成ユニット４２は、図１２Ｂに関してより詳細に説明されるようにサイドバンド情報４１２を生成し得る（３２６）。

[0175]図１２Ｂは、本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報４１４を示す図である。サイドバンド情報４１４は、サイドバンドベースレイヤ情報４１６と、サイドバンド第２のレイヤ情報４２２と、サイドバンド第３のレイヤ情報４２４Ａ〜４２４Ｃとを含む。サイドバンドベースレイヤ情報４１６は、ベースレイヤに関するＨＯＡＧＣＤを提供し得る。サイドバンド第２のレイヤ情報４２２は、第２のレイヤに関するＨＯＡＧＣＤを提供し得る。サイドバンド第３のレイヤ情報４２４Ａ〜４２４Ｃは、図１１に関して上記で説明されたサイドバンド情報４１４Ａおよび４１４Ｂと同様（サイドバンド情報４１４Ａがサイドバンド第３のレイヤ情報４２４Ａおよび４２４Ｂとして指定されることを除く）であり得る。

[0176]図９Ａおよび図９Ｂは、ＨＯＡ係数１１の符号化された４層表現を生成する際のオーディオ符号化デバイス２０の例示的な動作を示すフローチャートである。最初に図９Ａの例を参照すると、無相関化ユニット６０および利得制御ユニット６２は、図８Ａに関して上記で説明された動作と同様の動作を実行し得る。ビットストリーム生成ユニット４２は、図８Ａの例に関して上記で説明された方法と同様の方法で、すなわち、調整されたアンビエントＨＯＡオーディオ信号６７のすべてではなく、調整されたアンビエントＨＯＡオーディオ信号６７のＬオーディオ信号およびＲオーディオ信号に基づいて、ベースレイヤを形成し得る（３１０）。ベースレイヤは、この点において、オーディオ復号デバイス２４においてレンダリングされたときにステレオチャネルをもたらし得る（または言い換えれば、ステレオチャネル再生をもたらし得る）。ビットストリーム生成ユニット４２はまた、ＨＯＡＧＣＤを含むベースレイヤに関するサイドバンド情報を生成し得る。

[0177]ビットストリーム生成ユニット４２の動作は、ビットストリーム生成ユニット４２が調整されたアンビエントＨＯＡオーディオ信号６７のＴオーディオ信号（Ｑオーディオ信号ではない）に基づいて第２のレイヤを形成し得る（３２２）という点で、図８Ａに関して上記で説明された動作とは異なり得る。図９Ａの例における第２のレイヤは、オーディオ復号デバイス２４においてレンダリングされたときに水平方向チャネル（または言い換えれば、単一の水平面上の３つ以上のラウドスピーカーによるマルチチャネル再生）をもたらし得る。ビットストリーム生成ユニット４２はまた、ＨＯＡＧＣＤを含む第２のレイヤに関するサイドバンド情報を生成し得る。ビットストリーム生成ユニット４２はまた、調整されたアンビエントＨＯＡオーディオ信号６７のＱオーディオ信号に基づいて第３のレイヤを形成し得る（３２４）。第３のレイヤは、１つまたは複数の水平面上に配置された３つ以上のスピーカーによる３次元再生をもたらし得る。ビットストリーム生成ユニット４２は、図８Ａの例において第３のレイヤを形成することに関して上記で説明された方法と実質的に同様の方法で、第４のレイヤを形成し得る（３２６）。

[0178]ビットストリーム生成ユニット４２は、図１０に関して上記で説明されたものと同様のビットストリーム２１に関するＨＯＡ構成オブジェクトを指定し得る。さらに、オーディオエンコーダ２０のビットストリーム生成ユニット４２は、１次ＨＯＡバックグラウンドが送信されることを示すために、ＭｉｎＡｍｂＨｏａＯｒｄｅｒシンタックス要素４０４を２に設定する。

[0179]ビットストリーム生成ユニット４２はまた、図１３Ａの例において示されるサイドバンド情報４１２と同様のサイドバンド情報を生成し得る。図１３Ａは、本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報４３０を示す図である。サイドバンド情報４３０は、サイドバンドベースレイヤ情報４１６と、サイドバンド第２のレイヤ情報４１８と、サイドバンド第３のレイヤ情報４３２と、サイドバンド第４のレイヤ情報４３４Ａおよび４３４Ｂとを含む。サイドバンドベースレイヤ情報４１６は、ベースレイヤに関するＨＯＡＧＣＤを提供し得る。サイドバンド第２のレイヤ情報４１８は、第２のレイヤに関するＨＯＡＧＣＤを提供し得る。サイドバンド第３のレイヤ情報４３０は、第３のレイヤに関するＨＯＡＧＣＤを提供し得る。サイドバンド第４のレイヤ情報４３４Ａおよび４３４Ｂは、図１２Ａに関して上記で説明されたサイドバンド情報４２０Ａおよび４２０Ｂと同様であり得る。

[0180]図７Ａと同様に、ビットストリーム生成ユニット４２は、誤りチェックプロセスを実行し得る。いくつかの例では、ビットストリーム生成デバイス４２は、第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行し得る。別の例では、ビットストリーム生成デバイス４２は、第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行し、残りのレイヤ（すなわち、エンハンスメントレイヤ）に対して誤りチェックプロセスを実行するのを控え得る。また別の例では、ビットストリーム生成デバイス４２は、第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行し得、第１のレイヤに誤りがないとの決定に応答して、オーディオコーディングデバイスは、第２のレイヤ（すなわち、エンハンスメントレイヤ）に対して誤りチェックプロセスを実行し得る。オーディオコーディングデバイスが第１のレイヤ（すなわち、ベースレイヤ）に対して誤りチェックプロセスを実行する上記の例のいずれでも、第１のレイヤは、誤りに対してロバストであるロバストレイヤと考えられ得る。

[0181]次に図９Ｂを参照すると、利得制御ユニット６２およびビットストリーム生成ユニット４２は、図９Ａに関して上記で説明された利得制御ユニット６２およびビットストリーム生成ユニット４２の動作と同様の動作を実行する。ただし、無相関化ユニット６０は、ＵＨＪ無相関化ではなくモード行列無相関化を１次アンビソニックスバックグラウンド４７Ａ’に適用し得る（３１６）。いくつかの例では、１次アンビソニックスバックグラウンド４７Ａ’は、０次アンビソニック係数４７Ａ’を含み得る。利得制御ユニット６２は、１次を有する球面調和係数に対応する１次アンビソニック係数、および無相関化されたアンビエントＨＯＡオーディオ信号６７に自動利得制御を適用し得る（３０２）。

[0182]ビットストリーム生成ユニット４２は、調整されたアンビエントＨＯＡオーディオ信号６７に基づいてベースレイヤを形成し、対応するＨＯＡＧＣＤに基づいてサイドバンドの少なくとも一部を形成し得る（３１０）。アンビエントＨＯＡオーディオ信号６７は、オーディオ復号デバイス２４においてレンダリングされたときにモノチャネルをもたらし得る。ビットストリーム生成ユニット４２は、調整されたアンビエントＨＯＡ係数４７Ｂ’’および４７Ｃ’’に基づいて第２のレイヤを形成し、対応するＨＯＡＧＣＤに基づいてサイドバンドの少なくとも一部を形成し得る（３２２）。調整されたアンビエントＨＯＡ係数４７Ｂ’’および４７Ｃ’’は、単一の水平面上に配置された３つ以上のスピーカーによるＸ、Ｙ水平方向マルチチャネル再生をもたらし得る。ビットストリーム生成ユニット４２は、調整されたアンビエントＨＯＡ係数４７Ｄ’’に基づいて第３のレイヤを形成し、対応するＨＯＡＧＣＤに基づいてサイドバンドの少なくとも一部を形成し得る（３２４）。調整されたアンビエントＨＯＡ係数４７Ｄ’’は、１つまたは複数の水平面に配置された３つ以上のスピーカーによる３次元再生をもたらし得る。ビットストリーム生成ユニット４２は、図８Ａに関して上記で説明された方法と同様の方法で、第４のレイヤとサイドバンド情報の少なくとも一部とを形成し得る（３２６）。ビットストリーム生成ユニット４２は、図１２Ｂに関してより詳細に説明されるようにサイドバンド情報４１２を生成し得る。

[0183]図１３Ｂは、本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報４４０を示す図である。サイドバンド情報４４０は、サイドバンドベースレイヤ情報４１６と、サイドバンド第２のレイヤ情報４４２と、サイドバンド第３のレイヤ情報４４４と、サイドバンド第４のレイヤ情報４４６Ａ〜４４６Ｃとを含む。サイドバンドベースレイヤ情報４１６は、ベースレイヤに関するＨＯＡＧＣＤを提供し得る。サイドバンド第２のレイヤ情報４４２は、第２のレイヤに関するＨＯＡＧＣＤを提供し得る。サイドバンド第３のレイヤ情報は、第３のレイヤに関するＨＯＡＧＣＤを提供し得る。サイドバンド第４のレイヤ情報４４６Ａ〜４４６Ｃは、図１２Ｂに関して上記で説明されたサイドバンド情報４２４Ａ〜４２４Ｃと同様であり得る。

[0184]図４は、図２のオーディオ復号デバイス２４をより詳細に示すブロック図である。図４の例に示されているように、オーディオ復号デバイス２４は、抽出ユニット７２と、方向ベース再構成ユニット９０と、ベクトルベース再構成ユニット９２とを含み得る。以下で説明されるが、オーディオ復号デバイス２４、およびＨＯＡ係数を解凍またはさもなければ復号する様々な態様に関するより多くの情報は、２０１４年５月２９日に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。また、上記のＭＰＥＧ−Ｈ３Ｄオーディオコーディング規格のフェーズＩおよびフェーズＩＩならびにＭＰＥＧ−Ｈ３Ｄオーディオコーディング規格のフェーズＩを要約した上記の対応する文書において、さらなる情報が確認できる。

[0185]抽出ユニット７２は、ビットストリーム２１を受信し、ＨＯＡ係数１１の様々な符号化されたバージョン（たとえば、方向ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン）を抽出するように構成されたユニットを表し得る。抽出ユニット７２は、ＨＯＡ係数１１が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述のシンタックス要素から決定し得る。方向ベース符号化が実行されたとき、抽出ユニット７２は、ＨＯＡ係数１１の方向ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素（図４の例では方向ベース情報９１として示される）とを抽出し、方向ベース情報９１を方向ベース再構成ユニット９０に渡すことができる。方向ベース再構成ユニット９０は、方向ベース情報９１に基づいてＨＯＡ係数１１’の形態でＨＯＡ係数を再構成するように構成されたユニットを表し得る。

[0186]ＨＯＡ係数１１がベクトルベース合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７（コーディングされた重み５７および／もしくはインデックス６３またはスカラー量子化されたＶベクトルを含み得る）と、符号化されたアンビエントＨＯＡ係数５９と、対応するオーディオオブジェクト６１（符号化されたｎＦＧ信号６１と呼ばれる場合もある）とを抽出することができる。オーディオオブジェクト６１はそれぞれベクトル５７のうちの１つに対応する。抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をＶベクトル再構成ユニット７４に渡し、符号化されたアンビエントＨＯＡ係数５９を符号化されたｎＦＧ信号６１とともに聴覚心理復号ユニット８０に渡すことができる。抽出ユニット７２は、図６の例に関してより詳細に説明される。

[0187]図６は、本開示で説明される潜在的バージョンスケーラブルオーディオ復号技法のうちの第１のものを実行するように構成されるときの図４の抽出ユニット７２をより詳細に示す図である。図６の例において、抽出ユニット７２は、モード選択ユニット１０１０と、スケーラブル抽出ユニット１０１２と、非スケーラブル抽出ユニット１０１４とを含む。モード選択ユニット１０１０は、ビットストリーム２１に関してスケーラブル抽出が実行されるべきか、非スケーラブル抽出が実行されるべきかを選択するように構成されたユニットを表す。モード選択ユニット１０１０は、ビットストリーム２１が記憶されるメモリを含み得る。モード選択ユニット１０１０は、スケーラブルコーディングがイネーブルにされているかどうかの指示に基づいて、スケーラブル抽出が実行されるべきか、非スケーラブル抽出が実行されるべきかを決定し得る。ＨＯＡＢａｓｅＬａｙｅｒＰｒｅｓｅｎｔシンタックス要素は、ビットストリーム２１を符号化するときにスケーラブルコーディングが実行されたかどうかの指示を表し得る。

[0188]スケーラブルコーディングがイネーブルにされていることをＨＯＡＢａｓｅＬａｙｅｒＰｒｅｓｅｎｔシンタックス要素が示すとき、モード選択ユニット１０１０は、ビットストリーム２１をスケーラブルビットストリーム２１として識別し、スケーラブルビットストリーム２１をスケーラブル抽出ユニット１０１２に出力し得る。スケーラブルコーディングがイネーブルにされていないことをＨＯＡＢａｓｅＬａｙｅｒＰｒｅｓｅｎｔシンタックス要素が示すとき、モード選択ユニット１０１０は、ビットストリーム２１を非スケーラブルビットストリーム２１’として識別し、非スケーラブルビットストリーム２１’を非スケーラブル抽出ユニット１０１４に出力し得る。非スケーラブル抽出ユニット１０１４は、ＭＰＥＧ−Ｈ３Ｄオーディオコーディング規格のフェーズＩに従って動作するように構成されたユニットを表す。

[0189]スケーラブル抽出ユニット１０１２は、以下でより詳細に説明される（また上で様々なＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇ表において示された）様々なシンタックス要素に基づいて、スケーラブルビットストリーム２１の１つまたは複数のレイヤから、アンビエントＨＯＡ係数５９、符号化されたｎＦＧ信号６１、およびコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７のうちの１つまたは複数を抽出するように構成されたユニットを表し得る。図６の例では、スケーラブル抽出ユニット１０１２は、一例として、スケーラブルビットストリーム２１のベースレイヤ２１Ａから、４つの符号化されたアンビエントＨＯＡ係数５９Ａ〜５９Ｄを抽出し得る。スケーラブル抽出ユニット１０１２はまた、スケーラブルビットストリーム２１のエンハンスメントレイヤ２１Ｂから、（一例として）２つの符号化されたｎＦＧ信号６１Ａおよび６１Ｂならびに２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａおよび５７Ｂを抽出し得る。スケーラブル抽出ユニット１０１２は、アンビエントＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７とを、図４の例に示されたベクトルベース復号ユニット９２に出力し得る。

[0190]より詳細には、オーディオ復号デバイス２４の抽出ユニット７２は、上記のＨＯＡＤｅｃｏｄｅｒＣｏｆｎｉｇ＿ＦｒａｍｅＢｙＦｒａｍｅシンタックス表に記載されたＬ個のレイヤのチャネルを抽出し得る。

[0191]上記のＨＯＡＤｅｃｏｄｅｒＣｏｆｎｉｇ＿ＦｒａｍｅＢｙＦｒａｍｅシンタックス表によれば、モード選択ユニット１０１０は最初に、ＨＯＡＢａｓｅＬａｙｅｒＰｒｅｓｅｎｔシンタックス要素を取得し得、ＨＯＡＢａｓｅＬａｙｅｒＰｒｅｓｅｎｔシンタックス要素は、スケーラブルオーディオ符号化が実行されたかどうかを示し得る。たとえば、ＨＯＡＢａｓｅＬａｙｅｒＰｒｅｓｅｎｔシンタックス要素の値０によって指定されているようにイネーブルにされていないとき、モード選択ユニット１０１０は、ＭｉｎＡｍｂＨｏａＯｒｄｅｒシンタックス要素を決定することができ、非スケーラブルビットストリームを非スケーラブル抽出ユニット１０１４に提供し、非スケーラブル抽出ユニット１０１４は、上記で説明されたものと同様の非スケーラブル抽出プロセスを実行する。たとえば、ＨＯＡＢａｓｅＬａｙｅｒＰｒｅｓｅｎｔシンタックス要素の値１によって指定されているようにイネーブルにされているとき、モード選択ユニット１０１０は、ＭｉｎＡｍｂＨｏａＯｒｄｅｒシンタックス要素値をマイナス１（−１）に設定し、スケーラブルビットストリーム２１’をスケーラブル抽出ユニット１０１２に提供する。

[0192]スケーラブル抽出ユニット１０１２は、現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化しているかどうかの指示を取得し得る。現在のフレームにおいてビットストリームのフレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化しているかどうかの指示は、上記の表において「ＨＯＡＢａｓｅＬａｙｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＦｌａｇ」シンタックス要素として示され得る。

[0193]スケーラブル抽出ユニット１０１２は、指示に基づいて現在のフレームにおけるビットストリームのレイヤの数のインジケーションを取得し得る。現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化していないことを指示が示すとき、スケーラブル抽出ユニット１０１２は、以下のように述べている上記のシンタックス表の部分に従って、現在のフレームにおけるビットストリームのレイヤの数を、以前のフレームにおけるビットストリームのレイヤの数に等しいものとして決定し得る。

ここで、「ＮｕｍＬａｙｅｒｓ」は、現在のフレームにおけるビットストリームのレイヤの数を表すシンタックス要素を表し得、「ＮｕｍＬａｙｅｒｓＰｒｅｖＦｒａｍｅ」は、以前のフレームにおけるビットストリームのレイヤの数を表すシンタックス要素を表し得る。

[0194]上記のＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇ＿ＦｒａｍｅＢｙＦｒａｍｅシンタックス表によれば、スケーラブル抽出ユニット１０１２は、現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化していないことを指示が示すときに、現在のフレームについてのレイヤのうちの１つまたは複数におけるフォアグラウンド成分の現在の数の現在のフォアグラウンド指示が、以前のフレームのレイヤのうちの１つまたは複数におけるフォアグラウンド成分の以前の数についての以前のフォアグラウンド指示に等しいと決定し得る。言い換えれば、スケーラブル抽出ユニット１０１２は、ＨＯＡＢａｓｅＬａｙｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＦｌａｇが０に等しいときに、現在のフレームのレイヤのうちの１つまたは複数におけるフォアグラウンド成分の現在の数の現在のフォアグラウンド指示を表すＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］シンタックス要素が、以前のフレームの１つまたは複数のレイヤにおけるフォアグラウンド成分の以前の数の以前のフォアグラウンド指示を表すＮｕｍＦＧｃｈａｎｎｅｌｓ＿ＰｒｅｖＦｒａｍｅ［ｉ］シンタックス要素に等しいと決定し得る。スケーラブル抽出ユニット１０１２はさらに、現在のフォアグラウンド指示に基づいて、現在のフレームにおける１つまたは複数のレイヤからフォアグラウンド成分を取得し得る。

[0195]スケーラブル抽出ユニット１０１２はまた、現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化していないことを指示が示すときに、現在のフレームに関するレイヤのうちの１つまたは複数におけるバックグラウンド成分の現在の数の現在のバックグラウンド指示が、以前のフレームのレイヤのうちの１つまたは複数におけるバックグラウンド成分の以前の数に関する以前のバックグラウンド指示に等しいと決定し得る。言い換えれば、スケーラブル抽出ユニット１０１２は、ＨＯＡＢａｓｅＬａｙｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＦｌａｇが０に等しいときに、現在のフレームのレイヤのうちの１つまたは複数におけるバックグラウンド成分の現在の数の現在のバックグラウンド指示を表すＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］シンタックス要素が、以前のフレームの１つまたは複数のレイヤにおけるバックグラウンド成分の以前の数の以前のバックグラウンド指示を表すＮｕｍＢＧｃｈａｎｎｅｌｓ＿ＰｒｅｖＦｒａｍｅ［ｉ］シンタックス要素に等しいと決定し得る。スケーラブル抽出ユニット１０１２はさらに、現在のバックグラウンド指示に基づいて、現在のフレームにおける１つまたは複数のレイヤからバックグラウンド成分を取得し得る。

[0196]レイヤ、フォアグラウンド成分、およびバックグラウンド成分の数の様々な指示のシグナリングを潜在的に低減し得る上記の技法を可能にするために、スケーラブル抽出ユニット１０１２は、ＮｕｍＦＧｃｈａｎｎｅｌｓ＿ＰｒｅｖＦｒａｍｅ［ｉ］シンタックス要素とＮｕｍＢＧｃｈａｎｎｅｌｓ＿ＰｒｅｖＦｒａｍｅ［ｉ］シンタックス要素とを、現在のフレームに関する指示（たとえば、ＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］シンタックス要素およびＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］）に設定し、ｉ個のレイヤすべてを通じて繰り返し得る。これは、以下のシンタックスにおいて表される。

[0197]現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化していることを指示が示すとき（たとえば、ＨＯＡＢａｓｅＬａｙｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＦｌａｇが１に等しいとき）、スケーラブル抽出ユニット１０１２は、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓの関数としてＮｕｍＬａｙｅｒＢｉｔｓシンタックス要素を取得し、ＮｕｍＬａｙｅｒＢｉｔｓシンタックス要素は、本開示で説明されていない他のシンタックス表に従って取得されたシンタックス表に入れられる。

[0198]スケーラブル抽出ユニット１０１２は、ビットストリームにおいて指定されたレイヤの数の指示（たとえば、ＮｕｍＬａｙｅｒｓシンタックス要素）を取得し得、ここで指示は、ＮｕｍＬａｙｅｒＢｉｔｓシンタックス要素によって示されるビットの数を有し得る。ＮｕｍＬａｙｅｒｓシンタックス要素は、ビットストリームにおいて指定されたレイヤの数を指定し得、ここでレイヤの数は、上記のようにＬとして示され得る。スケーラブル抽出ユニット１０１２は次に、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓの関数としてｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓを決定し、ｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓの関数としてｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌＢｉｔｓを決定し得る。

[0199]スケーラブル抽出ユニット１０１２は次いで、ｉ番目のレイヤに関して指定されたバックグラウンドＨＯＡチャネルの数（Ｂ_i）とフォアグラウンドＨＯＡチャネルの数（Ｆ_i）とを決定するために、１からＮｕｍＬａｙｅｒｓ−１まで、ＮｕｍＬａｙｅｒｓを通じて繰り返し得る。ビットストリームにおいて送られたフォアグラウンドＨＯＡチャネルおよびバックグラウンドＨＯＡチャネルの総数がスケーラブル抽出ユニット１０１２によって知られているとき（たとえば、フォアグラウンドＨＯＡチャネルおよびバックグラウンドＨＯＡチャネルの総数がシンタックス要素としてシグナリングされているとき）に最後のレイヤＢ_Lｈが決定され得るので、スケーラブル抽出ユニット１０１２は最後のレイヤの数（ＮｕｍＬａｙｅｒ）まで繰り返さなくてよく、ＮｕｍＬａｙｅｒ−１までのみ繰り返し得る。

[0200]この点において、スケーラブル抽出ユニット１０１２は、レイヤの数の指示に基づいて、ビットストリームのレイヤを取得し得る。スケーラブル抽出ユニット１０１２は、上記で説明されたように、ビットストリーム２１において指定されたチャネルの数の指示（たとえば、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓ）を取得し、少なくとも部分的に、レイヤの数の指示およびチャネルの数の指示に基づいてビットストリーム２１のレイヤを取得するによって、レイヤを取得し得る。

[0201]各レイヤを通じて繰り返すとき、スケーラブル抽出ユニット１０１２は最初に、ＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］シンタックス要素を取得することによって、ｉ番目のレイヤに関するフォアグラウンドチャネルの数を決定し得る。スケーラブル抽出ユニット１０１２は次いで、ｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓからＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］を差し引き、ｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓを更新し、（「符号化されたｎＦＧ信号６１」と呼ばれることもある）フォアグラウンドＨＯＡチャネル６１のＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］がビットストリームから抽出されていることを反映する。このようにして、スケーラブル抽出ユニット１０１２は、レイヤのうちの少なくとも１つに関するビットストリーム２１において指定されたフォアグラウンドチャネルの数の指示（たとえば、ＮｕｍＦＧｃｈａｎｎｅｌｓ）を取得し、フォアグラウンドチャネルの数の指示に基づいて、ビットストリームのレイヤのうちの少なくとも１つに関するフォアグラウンドチャネルを取得し得る。

[0202]同様に、スケーラブル抽出ユニット１０１２は、ＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］シンタックス要素を取得することによって、ｉ番目のレイヤに関するバックグラウンドチャネルの数を決定し得る。スケーラブル抽出ユニット１０１２は次いで、ｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓからＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］を差し引き、（「符号化されたアンビエントＨＯＡ係数５９」と呼ばれることもある）バックグラウンドＨＯＡチャネル５９のＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］がビットストリームから抽出されていることを反映する。このようにして、スケーラブル抽出ユニット１０１２は、レイヤのうちの少なくとも１つに関するビットストリーム２１において指定されたバックグラウンドチャネルの数の指示（たとえば、ＮｕｍＢＧｃｈａｎｎｅｌｓ）を取得し、バックグラウンドチャネルの数の指示に基づいて、ビットストリームのレイヤのうちの少なくとも１つに関するバックグラウンドチャネルを取得し得る。

[0203]スケーラブル抽出ユニット１０１２は、ｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔｓの関数としてｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓＢｉｔｓを取得することによって、継続し得る。上記のシンタックス表に従って、スケーラブル抽出ユニット１０１２は、ＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］とＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］とを決定するために、ｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓＢｉｔｓによって指定されたビットの数を解析し得る。ｎｕｍＡｖａｉｌａｂｌｅＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌＢｉｔｓが変化する（たとえば、各繰返しの後に、より小さくなる）ことを仮定すれば、ＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］シンタックス要素とＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］シンタックス要素とを表すために使用されるビットの数は減少し、それによって、ＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］シンタックス要素とＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］シンタックス要素とをシグナリングする際のオーバーヘッドを潜在的に低減する可変長コーディングの形態をもたらす。

[0204]上述のように、スケーラブルビットストリーム生成ユニット１０００は、ＮｕｍＦＧｃｈａｎｎｅｌｓシンタックス要素およびＮｕｍＢＧｃｈａｎｎｅｌｓシンタックス要素の代わりにＮｕｍＣｈａｎｎｅｌｓシンタックス要素を指定し得る。この事例では、スケーラブル抽出ユニット１０１２は、上記に示された第２のＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇシンタックス表に従って動作するように構成され得る。

[0205]この点において、スケーラブル抽出ユニット１０１２は、現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化していることを指示が示すときに、以前のフレームのレイヤのうちの１つまたは複数における成分の数に基づいて、現在のフレームに関するレイヤのうちの１つまたは複数における成分の数の指示を取得し得る。スケーラブル抽出ユニット１０１２はさらに、成分の数の指示に基づいて、現在のフレームに関する１つまたは複数のレイヤにおけるバックグラウンド成分の数の指示を取得し得る。スケーラブル抽出ユニット１０１２はまた、成分の数の指示に基づいて、現在のフレームに関する１つまたは複数のレイヤにおけるフォアグラウンド成分の数の指示を取得し得る。

[0206]レイヤの数がフレームごとに変化し得ること、フォアグラウンドチャネルおよびバックグラウンドチャネルの数の指示がフレームごとに変化し得ることを仮定すれば、レイヤの数が変化していることの指示は事実上、チャネルの数が変化していることも示し得る。結果として、レイヤの数が変化していることの指示により、スケーラブル抽出ユニット１０１２は、現在のフレームにおいてビットストリーム２１における１つまたは複数のレイヤにおいて指定されたチャネルの数が以前のフレームのビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数と比較して変化しているかどうかの指示を取得し得る。したがって、スケーラブル抽出ユニット１０１２は、現在のフレームにおいてビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数が変化しているかどうかの指示に基づいて、チャネルのうちの１つを取得し得る。

[0207]その上、スケーラブル抽出ユニット１０１２は、現在のフレームにおいてビットストリーム２１の１つまたは複数のレイヤにおいて指定されたチャネルの数が以前のフレームにおけるビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数と比較して変化していないことを指示が示すときに、現在のフレームにおけるビットストリーム２１の１つまたは複数のレイヤにおいて指定されたチャネルの数を、以前のフレームにおけるビットストリーム２１の１つまたは複数のレイヤにおいて指定されたチャネルの数と同じものとして決定し得る。

[0208]さらに、スケーラブル抽出ユニット１０１２は、現在のフレームにおいてビットストリーム２１の１つまたは複数のレイヤにおいて指定されたチャネルの数が以前のフレームにおけるビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数と比較して変化していないことを指示が示すときに、現在のフレームに関するレイヤのうちの１つまたは複数におけるチャネルの現在の数が以前のフレームのレイヤのうちの１つまたは複数におけるチャネルの以前の数と同じであることの指示を取得し得る。

[0209]レイヤおよび成分（本開示では「チャネル」と呼ばれることもある）の数の様々な指示のシグナリングを潜在的に低減し得る上記の技法を可能にするために、スケーラブル抽出ユニット１０１２は、ＮｕｍＣｈａｎｎｅｌｓ＿ＰｒｅｖＦｒａｍｅ［ｉ］シンタックス要素を、現在のフレームに関する指示（たとえば、ＮｕｍＣｈａｎｎｅｌｓ［ｉ］シンタックス要素）に設定し、ｉ個のレイヤすべてを通じて繰り返し得る。これは、以下のシンタックスにおいて表される。

[0210]代替的に、上記のシンタックス（ＮｕｍＬａｙｅｒｓＰｒｅｖＦｒａｍｅ＝ＮｕｍＬａｙｅｒｓなど）は省略されてよく、上記に記載されたシンタックス表ＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇ（ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓ）は、以下の表に記載されるように更新され得る。

[0211]また別の代替として、抽出ユニット７２は、上記に記載された第３のＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇに従って動作し得る。上記に記載された第３のＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇシンタックス表によれば、スケーラブル抽出ユニット１０１２は、スケーラブルビットストリーム２１から、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を取得し、（音場のバックグラウンド成分またはフォアグラウンド成分を指し得る）チャネルの数の指示に基づいて、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルを取得するように構成され得る。これらの事例および他の事例では、スケーラブル抽出ユニット１０１２は、チャネルの数を示すシンタックス要素（たとえば、上記の表におけるｃｏｄｅｄＬａｙｅｒＣｈ）を取得するように構成され得る。

[0212]これらの事例および他の事例では、スケーラブル抽出ユニット１０１２は、ビットストリームにおいて指定されたチャネルの総数の指示を取得するように構成され得る。スケーラブル抽出ユニット１０１２はまた、１つまたは複数のレイヤにおいて指定されたチャネルの数の指示およびチャネルの総数の指示に基づいて、１つまたは複数のレイヤにおいて指定されたチャネルを取得するように構成され得る。これらの事例および他の事例では、スケーラブル抽出ユニット１０１２は、チャネルの総数を示すシンタックス要素（たとえば、上述のＮｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓシンタックス要素）を取得するように構成され得る。

[0213]これらの事例および他の事例では、スケーラブル抽出ユニット１０１２は、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルのうちの１つの指示タイプを取得するように構成され得る。スケーラブル抽出ユニット１０１２はまた、レイヤの数の指示およびチャネルのうちの１つのタイプの指示に基づいて、チャネルのうちの１つを取得するように構成され得る。

[0214]これらの事例および他の事例では、スケーラブル抽出ユニット１０１２は、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルのうちの１つの指示タイプを取得するように構成され得、チャネルのうちの１つのタイプの指示が、チャネルのうちの１つがフォアグラウンドチャネルであることを示す。スケーラブル抽出ユニット１０１２は、レイヤの数の指示およびチャネルのうちの１つのタイプがフォアグラウンドチャネルであることの指示に基づいて、チャネルのうちの１つを取得するように構成され得る。これらの事例では、チャネルのうちの１つは、ＵＳオーディオオブジェクトと対応するＶベクトルとを備える。

[0215]これらの事例および他の事例では、スケーラブル抽出ユニット１０１２は、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルのうちの１つの指示タイプを取得するように構成され得、チャネルのうちの１つのタイプの指示が、チャネルのうちの１つがバックグラウンドチャネルであることを示す。これらの事例では、スケーラブル抽出ユニット１０１２はまた、レイヤの数の指示およびチャネルのうちの１つのタイプがバックグラウンドチャネルであることの指示に基づいて、チャネルのうちの１つを取得するように構成され得る。これらの事例では、チャネルのうちの１つは、バックグラウンド高次アンビソニック係数を備える。

[0216]これらの事例および他の事例では、スケーラブル抽出ユニット１０１２は、チャネルのうちの１つのタイプを示すシンタックス要素（たとえば、図３０に関して上記で説明されたＣｈａｎｎｅｌＴｙｐｅシンタックス要素）を取得するように構成され得る。

[0217]これらの事例および他の事例では、スケーラブル抽出ユニット１０１２は、レイヤのうちの１つが取得された後のビットストリームにおいて残存するチャネルの数に基づいて、チャネルの数の指示を取得するように構成され得る。すなわち、ＨＯＡＬａｙｅｒＣｈＢｉｔｓシンタックス要素の値は、ｗｈｉｌｅループの過程全体を通して上記のシンタックス表に記載されたようなｒｅｍａｉｎｉｎｇＣｈシンタックス要素に応じて変わる。スケーラブル抽出ユニット１０１２は次いで、変化するＨＯＡＬａｙｅｒＣｈＢｉｔｓシンタックス要素に基づいて、ｃｏｄｅｄＬａｙｅｒＣｈシンタックス要素を解析し得る。

[0218]４つのバックグラウンドチャネルおよび２つのフォアグラウンドチャネルの例に戻ると、スケーラブル抽出ユニット１０１２は、レイヤの数が２、すなわち、図６の例ではベースレイヤ２１Ａおよびエンハンスメントレイヤ２１Ｂであることの指示を受信し得る。スケーラブル抽出ユニット１０１２は、フォアグラウンドチャネルの数が、（たとえば、ＮｕｍＦＧｃｈａｎｎｅｌｓ［０］から）ベースレイヤ２１Ａに関して０、（たとえば、ＮｕｍＦＧｃｈａｎｎｅｌｓ［１］から）エンハンスメントレイヤ２１Ｂに関して２であることの指示を取得し得る。スケーラブル抽出ユニット１０１２はまた、この例では、バックグラウンドチャネルの数が、（たとえば、ＮｕｍＢＧｃｈａｎｎｅｌｓ［０］から）ベースレイヤ２１Ａに関して４、（たとえば、ＮｕｍＢＧｃｈａｎｎｅｌｓ［１］から）エンハンスメントレイヤ２１Ｂに関して０であることの指示を取得し得る。特定の例に関して説明されたが、バックグラウンドチャネルとフォアグラウンドチャネルとの任意の異なる組合せが示され得る。スケーラブル抽出ユニット１０１２は次いで、ベースレイヤ２１Ａからの指定された４つのバックグラウンドチャネル５９Ａ〜５９Ｄと、エンハンスメントレイヤ２１Ｂからの２つのフォアグラウンドチャネル６１Ａおよび６１Ｂとを（サイドバンド情報からの対応するＶベクトル情報５７Ａおよび５７Ｂとともに）抽出し得る。

[0219]ＮｕｍＦＧｃｈａｎｎｅｌｓシンタックス要素およびＮｕｍＢＧｃｈａｎｎｅｌｓシンタックス要素に関して上記で説明されたが、本技法はまた、上記のＣｈａｎｎｅｌＳｉｄｅＩｎｆｏシンタックス表からのＣｈａｎｎｅｌＴｙｐｅシンタックス要素を使用して実行され得る。この点において、ＮｕｍＦＧｃｈａｎｎｅｌｓおよびＮｕｍＢＧｃｈａｎｎｅｌｓはまた、チャネルのうちの１つのタイプの指示を表し得る。言い換えれば、ＮｕｍＢＧｃｈａｎｎｅｌｓは、チャネルのうちの１つのタイプがバックグラウンドチャネルであることの指示を表し得る。ＮｕｍＦＧｃｈａｎｎｅｌｓは、チャネルのうちの１つのタイプがフォアグラウンドチャネルであることの指示を表し得る。

[0220]したがって、ＣｈａｎｎｅｌＴｙｐｅシンタックス要素が使用されるか、ＮｕｍＢＧｃｈａｎｎｅｌｓシンタックス要素とともにＮｕｍＦＧｃｈａｎｎｅｌｓシンタックス要素が使用されるか（または場合によっては両方が使用されるか、いずれかの何らかのサブセットが使用されるか）にかかわらず、スケーラブルビットストリーム抽出ユニット１０１２は、ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルのうちの１つのタイプの指示を取得し得る。スケーラブルビットストリーム抽出ユニット１０１２は、チャネルのうちの１つがバックグラウンドチャネルであることをタイプの指示が示すときに、レイヤの数の指示およびチャネルのうちの１つのタイプがバックグラウンドチャネルであることの指示に基づいて、チャネルのうちの１つを取得し得る。スケーラブルビットストリーム抽出ユニット１０１２は、チャネルのうちの１つがフォアグラウンドチャネルであることをタイプの指示が示すときに、レイヤの数の指示およびチャネルのうちの１つのタイプがフォアグラウンドチャネルであることの指示に基づいて、チャネルのうちの１つを取得し得る。

[0221]Ｖベクトル再構成ユニット７４は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７からＶベクトルを再構成するように構成されたユニットを表し得る。Ｖベクトル再構成ユニット７４は、量子化ユニット５２の場合とは逆の方法で動作することができる。

[0222]聴覚心理復号ユニット８０は、符号化されたアンビエントＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを復号し、それによって調整されたアンビエントＨＯＡオーディオ信号６７’と調整された補間されたｎＦＧ信号４９’’（調整された補間されたｎＦＧオーディオオブジェクト４９’とも呼ばれ得る）とを生成するために、図３の例に示される聴覚心理オーディオコーダユニット４０とは逆の方法で動作することができる。聴覚心理復号ユニット８０は、調整されたアンビエントＨＯＡオーディオ信号６７’と調整された補間されたｎＦＧ信号４９’’とを逆利得制御ユニット８６に渡し得る。

[0223]逆利得制御ユニット８６は、調整されたアンビエントＨＯＡオーディオ信号６７’および調整された補間されたｎＦＧ信号４９’’の各々に関して逆利得制御を実行するように構成されたユニットを表し得、ここで、この逆利得制御は、利得制御ユニット６２によって実行される利得制御とは逆である。逆利得制御ユニット８６は、図１１〜図１３Ｂの例に関して上記で説明されたサイドバンド情報において指定された対応するＨＯＡＧＣＤに従って、逆利得制御を実行し得る。逆利得制御ユニット８６は、無相関化されたアンビエントＨＯＡオーディオ信号６７を再相関化ユニット８８（図４の例において「ｒｅｃｏｒｒユニット８８」として示される）に、補間されたｎＦＧオーディオ信号４９’’をフォアグラウンド編成ユニット７８に出力し得る。

[0224]再相関化ユニット８８は、雑音マスキング解除（noise unmasking）を低減または軽減するために、無相関化されたアンビエントＨＯＡオーディオ信号６７のバックグラウンドチャネルの間の相関を低減するために本開示の技法を実装し得る。再相関化ユニット８８が選択された再相関化変換としてＵＨＪ行列（たとえば、逆ＵＨＪ行列）を適用する例では、再相関化ユニット８１は、データ処理動作を低減することによって、圧縮レートを改善し、コンピューティングリソースを節約することができる。

[0225]いくつかの例では、スケーラブルビットストリーム２１は、符号化中に無相関化変換が適用されたことを示す１つまたは複数のシンタックス要素を含み得る。そのようなシンタックス要素をベクトルベースのビットストリーム２１に含めることは、再相関化ユニット８８が、無相関化されたアンビエントＨＯＡオーディオ信号６７に対して相互（reciprocal）無相関化（たとえば、相関化または再相関化）変換を実行するのを可能にし得る。いくつかの例では、信号シンタックス要素は、ＵＨＪ行列またはモード行列など、どの無相関化変換が適用されたかを示し、それによって、再相関化ユニット８８が無相関化されたアンビエントＨＯＡオーディオ信号６７に適用すべき適切な再相関化変換を選択するのを可能にすることができる。

[0226]再相関化ユニット８８は、エネルギー補償されたアンビエントＨＯＡ係数４７’を取得するために、無相関化されたアンビエントＨＯＡオーディオ信号６７に関して再相関化を実行し得る。再相関化ユニット８８は、エネルギー補償されたアンビエントＨＯＡ係数４７’をフェードユニット７７０に出力し得る。無相関化を実行するものとして説明されているが、いくつかの例では、無相関化が実行されていないことがある。したがって、ベクトルベース再構成ユニット９２は、再相関化ユニット８８を実行しないこと、またはいくつかの例では再相関化ユニット８８を含まないことがある。いくつかの例で再相関化ユニット８８が存在しないことは、再相関化ユニット８８の破線によって示される。

[0227]空間時間的補間ユニット７６は、空間時間的補間ユニット５０に関して上記で説明された方法と同様の方法で動作し得る。空間時間的補間ユニット７６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５_kを受信し、また、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’を生成するために、フォアグラウンドＶ［ｋ］ベクトル５５_kおよび低減されたフォアグラウンドＶ［ｋ−１］ベクトル５５_k-1に関して空間時間的補間を実行し得る。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送し得る。

[0228]抽出ユニット７２はまた、いつアンビエントＨＯＡ係数のうちの１つが遷移中であるかを示す信号７５７をフェードユニット７７０に出力し得、フェードユニット７７０は、次いで、ＳＣＨ_BG４７’（ここで、ＳＣＨ_BG４７’は「アンビエントＨＯＡチャネル４７’」または「アンビエントＨＯＡ係数４７’」と呼ばれることもある）および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定し得る。いくつかの例では、フェードユニット７７０は、アンビエントＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の各々に関して、反対に動作し得る。すなわち、フェードユニット７７０は、アンビエントＨＯＡ係数４７’のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を実行し得、一方で、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行し得る。フェードユニット７７０は、調整されたアンビエントＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力し、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’をフォアグラウンド編成ユニット７８に出力し得る。この点において、フェードユニット７７０は、ＨＯＡ係数またはそれの派生物の様々な態様に関して、たとえば、アンビエントＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の形態で、フェード演算を実行するように構成されたユニットを表す。

[0229]フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を生成するために、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’および補間されたｎＦＧ信号４９’に関して行列乗算を実行するように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット７８は、ＨＯＡ係数１１’のフォアグラウンド態様、または言い換えれば、支配的態様を再構成するために、（補間されたｎＦＧ信号４９’を示すための別の方法である）オーディオオブジェクト４９’をベクトル５５_k’’’と組み合わせ得る。フォアグラウンド編成ユニット７８は、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’によって、補間されたｎＦＧ信号４９’の行列乗算を実行し得る。

[0230]ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整されたアンビエントＨＯＡ係数４７’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、ＨＯＡ係数１１’がＨＯＡ係数１１と同様であるが同じではないことがあることを反映している。ＨＯＡ係数１１とＨＯＡ係数１１’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。

[0231]図１４Ａおよび図１４Ｂは、本開示で説明される技法の様々な態様を実行する際のオーディオ符号化デバイス２０の例示的な動作を示すフローチャートである。最初に図１４Ａの例を参照すると、オーディオ符号化デバイス２０は、上記で説明された方法（たとえば、線形分解、補間など）で、ＨＯＡ係数１１の現在のフレームに関するチャネルを取得し得る（５００）。チャネルは、符号化されたアンビエントＨＯＡ係数５９、符号化されたｎＦＧ信号６１（およびコーディングされたフォアグラウンドＶベクトル５７の形態による対応するサイドバンド）、または、符号化されたアンビエントＨＯＡ係数５９と符号化されたｎＦＧ信号６１（およびコーディングされたフォアグラウンドＶベクトル５７の形態による対応するサイドバンド）の両方を備え得る。

[0232]次いで、オーディオ符号化デバイス２０のビットストリーム生成ユニット４２は、上記で説明された方法でスケーラブルビットストリーム２１におけるレイヤの数の指示を指定し得る（５０２）。ビットストリーム生成ユニット４２は、スケーラブルビットストリーム２１の現在のレイヤにおけるチャネルのサブセットを指定し得る（５０４）。ビットストリーム生成ユニット４２は、現在のレイヤのためのカウンタを維持し得、ここでカウンタが現在のレイヤの指示を提供する。現在のレイヤにおけるチャネルを指定した後、ビットストリーム生成ユニット４２は、カウンタを増分し得る。

[0233]次いでビットストリーム生成ユニット４２は、現在のレイヤ（たとえば、カウンタ）が、ビットストリームにおいて指定されたレイヤの数よりも大きいかどうかを決定し得る（５０６）。現在のレイヤがレイヤの数よりも大きくない（「ＮＯ」５０６）とき、ビットストリーム生成ユニット４２は、（カウンタが増分されたときに変化した）現在のレイヤにおけるチャネルの異なるサブセットを指定し得る（５０４）。ビットストリーム生成ユニット４２は、現在のレイヤがレイヤの数よりも大きくなる（「ＹＥＳ」５０６）まで、この方法で継続し得る。現在のレイヤがレイヤの数よりも大きい（「ＹＥＳ」５０６）とき、ビットストリーム生成ユニットは、現在のフレームが以前のフレームになることに伴って次のフレームに進み、スケーラブルビットストリーム２１の今現在のフレームに関するチャネルを取得することができる（５００）。プロセスは、ＨＯＡ係数１１の最後のフレームに到達するまで継続し得る（５００〜５０６）。上述のように、いくつかの例では、レイヤの数の指示は、スケーラブルビットストリーム２１において明示的に示されないが、（たとえば、レイヤの数が、以前のフレームから現在のフレームまでで変化していないときに）暗黙的に指定されることがある。

[0234]次に図１４Ｂの例を参照すると、オーディオ符号化デバイス２０は、上記で説明された方法（たとえば、線形分解、補間など）でＨＯＡ係数１１の現在のフレームに関するチャネルを取得し得る（５１０）。チャネルは、符号化されたアンビエントＨＯＡ係数５９、符号化されたｎＦＧ信号６１（およびコーディングされたフォアグラウンドＶベクトル５７の形態による対応するサイドバンド）、または符号化されたアンビエントＨＯＡ係数５９と符号化されたｎＦＧ信号６１（およびコーディングされたフォアグラウンドＶベクトル５７の形態による対応するサイドバンド）の両方を備え得る。

[0235]次いで、オーディオ符号化デバイス２０のビットストリーム生成ユニット４２は、上記で説明された方法でスケーラブルビットストリーム２１のレイヤにおけるチャネルの数の指示を指定し得る（５１２）。ビットストリーム生成ユニット４２は、スケーラブルビットストリーム２１の現在のレイヤにおける対応するチャネルを指定し得る（５１４）。

[0236]次いでビットストリーム生成ユニット４２は、現在のレイヤ（たとえば、カウンタ）がレイヤの数よりも大きいかどうかを決定し得る（５１６）。すなわち、図１４Ｂの例では、レイヤの数は（スケーラブルビットストリーム２１において指定されるのではなく）静的または固定的であり得る一方、レイヤごとのチャネルの数は、チャネルの数が静的または固定的であってシグナリングされなくてよい図１４Ａの例とは異なり、指定され得る。ビットストリーム生成ユニット４２は依然として、現在のレイヤを示すカウンタを維持し得る。

[0237]（カウンタによって示される）現在のレイヤがレイヤの数よりも大きくない（「ＮＯ」５１６）とき、ビットストリーム生成ユニット４２は、（カウンタの増分に起因して変化した）今現在のレイヤに対するスケーラブルビットストリーム２１の別のレイヤにおけるチャネルの数の別の指示を指定し得る（５１２）。ビットストリーム生成ユニット４２はまた、ビットストリーム２１の追加レイヤにおけるチャネルの対応する数を指定し得る（５１４）。ビットストリーム生成ユニット４２は、現在のレイヤがレイヤの数よりも大きくなる（「ＹＥＳ」５１６）まで、この方法で継続し得る。現在のレイヤがレイヤの数よりも大きい（「ＹＥＳ」５１６）とき、ビットストリーム生成ユニットは、現在のフレームが以前のフレームになることに伴って次のフレームに進み、スケーラブルビットストリーム２１の今現在のフレームに関するチャネルを取得することができる（５１０）。プロセスは、ＨＯＡ係数１１の最後のフレームに到達するまで継続し得る（５１０〜５１６）。

[0238]上述のように、いくつかの例では、チャネルの数の指示は、スケーラブルビットストリーム２１において明示的に示されないが、（たとえば、レイヤの数が、以前のフレームから現在のフレームまでで変化していないときに）暗黙的に指定されることがある。その上、別個のプロセスとして説明されているが、図１４Ａおよび図１４Ｂに関して説明された技法は、上記で説明された方法において組み合わせて実行されてよい。

[0239]図１５Ａおよび図１５Ｂは、本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイス２４の例示的な動作を示すフローチャートである。最初に図１５Ａの例を参照すると、オーディオ復号デバイス２４は、スケーラブルビットストリーム２１から現在のフレームを取得し得る（５２０）。現在のフレームは１つまたは複数のレイヤを含み得、レイヤの各々が１つまたは複数のチャネルを含み得る。チャネルは、符号化されたアンビエントＨＯＡ係数５９、符号化されたｎＦＧ信号６１（およびコーディングされたフォアグラウンドＶベクトル５７の形態による対応するサイドバンド）、または符号化されたアンビエントＨＯＡ係数５９と符号化されたｎＦＧ信号６１（およびコーディングされたフォアグラウンドＶベクトル５７の形態による対応するサイドバンド）の両方を備え得る。

[0240]次いで、オーディオ復号デバイス２４の抽出ユニット７２は、上記で説明された方法でスケーラブルビットストリーム２１の現在のフレームにおけるレイヤの数の指示を取得し得る（５２２）。抽出ユニット７２は、スケーラブルビットストリーム２１の現在のレイヤにおけるチャネルのサブセットを取得し得る（５２４）。抽出ユニット７２は、現在のレイヤのためのカウンタを維持し得、ここでカウンタが現在のレイヤの指示を提供する。現在のレイヤにおけるチャネルを指定した後、抽出ユニット７２は、カウンタを増分し得る。

[0241]次いで抽出ユニット７２は、現在のレイヤ（たとえば、カウンタ）が、ビットストリームにおいて指定されたレイヤの数よりも大きいかどうかを決定し得る（５２６）。現在のレイヤがレイヤの数よりも大きくない（「ＮＯ」５２６）とき、抽出ユニット７２は、（カウンタが増分されたときに変化した）現在のレイヤにおけるチャネルの異なるサブセットを取得し得る（５２４）。抽出ユニット７２は、現在のレイヤがレイヤの数よりも大きくなる（「ＹＥＳ」５２６）まで、この方法で継続し得る。現在のレイヤがレイヤの数よりも大きい（「ＹＥＳ」５２６）とき、抽出ユニット７２は、現在のフレームが以前のフレームになることに伴って次のフレームに進み、スケーラブルビットストリーム２１の今現在のフレームを取得することができる（５２０）。プロセスは、スケーラブルビットストリーム２１の最後のフレームに到達するまで継続し得る（５２０〜５２６）。上述のように、いくつかの例では、レイヤの数の指示は、スケーラブルビットストリーム２１において明示的に示されないが、（たとえば、レイヤの数が、以前のフレームから現在のフレームまでで変化していないときに）暗黙的に指定されることがある。

[0242]次に図１５Ｂの例を参照すると、オーディオ復号デバイス２４は、スケーラブルビットストリーム２１から現在のフレームを取得し得る（５３０）。現在のフレームは１つまたは複数のレイヤを含み得、レイヤの各々が１つまたは複数のチャネルを含み得る。チャネルは、符号化されたアンビエントＨＯＡ係数５９、符号化されたｎＦＧ信号６１（およびコーディングされたフォアグラウンドＶベクトル５７の形態による対応するサイドバンド）、または符号化されたアンビエントＨＯＡ係数５９と符号化されたｎＦＧ信号６１（およびコーディングされたフォアグラウンドＶベクトル５７の形態による対応するサイドバンド）の両方を備え得る。

[0243]次いで、オーディオ復号デバイス２４の抽出ユニット７２は、上記で説明された方法でスケーラブルビットストリーム２１のレイヤにおけるチャネルの数の指示を取得し得る（５３２）。ビットストリーム生成ユニット４２は、スケーラブルビットストリーム２１の現在のレイヤからチャネルの対応する数を取得し得る（５３４）。

[0244]次いで抽出ユニット７２は、現在のレイヤ（たとえば、カウンタ）がレイヤの数よりも大きいかどうかを決定し得る（５３６）。すなわち、図１５Ｂの例では、レイヤの数は（スケーラブルビットストリーム２１において指定されるのではなく）静的または固定的であり得る一方、レイヤごとのチャネルの数は、チャネルの数が静的または固定的であってシグナリングされなくてよい図１５Ａの例とは異なり、指定され得る。抽出ユニット７２は依然として、現在のレイヤを示すカウンタを維持し得る。

[0245]（カウンタによって示される）現在のレイヤがレイヤの数よりも大きくない（「ＮＯ」５３６）とき、抽出ユニット７２は、（カウンタの増分に起因して変化した）今現在のレイヤに対するスケーラブルビットストリーム２１の別のレイヤにおけるチャネルの数の別の指示を取得し得る（５３２）。抽出ユニット７２はまた、ビットストリーム２１の追加レイヤにおけるチャネルの対応する数を指定し得る（５１４）。抽出ユニット７２は、現在のレイヤがレイヤの数よりも大きくなる（「ＹＥＳ」５１６）まで、この方法で継続し得る。現在のレイヤがレイヤの数よりも大きい（「ＹＥＳ」５１６）とき、ビットストリーム生成ユニットは、現在のフレームが以前のフレームになることに伴って次のフレームに進み、スケーラブルビットストリーム２１の今現在のフレームに関するチャネルを取得することができる（５１０）。プロセスは、ＨＯＡ係数１１の最後のフレームに到達するまで継続し得る（５１０〜５１６）。

[0246]上述のように、いくつかの例では、チャネルの数の指示は、スケーラブルビットストリーム２１において明示的に示されないが、（たとえば、レイヤの数が、以前のフレームから現在のフレームまでで変化していないときに）暗黙的に指定されることがある。その上、別個のプロセスとして説明されているが、図１５Ａおよび図１５Ｂに関して説明された技法は、上記で説明された方法において組み合わせて実行されてよい。

[0247]図１６は、本開示で説明される技法の様々な態様による、図１６の例に示されるビットストリーム生成ユニット４２によって実行されるスケーラブルオーディオコーディングを示す図である。図１６の例では、図２および図３の例に示されるオーディオ符号化デバイス２０などのＨＯＡオーディオエンコーダが、ＨＯＡ係数１１（「ＨＯＡ信号１１」と呼ばれることもある）を符号化し得る。ＨＯＡ信号１１は、２４個のチャネルを備え、各チャネルが１０２４個のサンプルを有する。前述のように、各チャネルは、１０２４個のサンプルを含み、これらは、球面基底関数のうちの１つに対応する１０２４個のＨＯＡ係数を指し得る。オーディオ符号化デバイス２０は、図５の例に示されるビットストリーム生成ユニット４２に関して上記で説明されたように、符号化されたアンビエントＨＯＡ係数５９（「バックグラウンドＨＯＡチャネル５９」と呼ばれることもある）をＨＯＡ信号１１から取得するための様々な動作を実行し得る。

[0248]図１６の例にさらに示されているように、オーディオ符号化デバイス２０は、ＨＯＡ信号１１の最初の４つのチャネルとして、バックグラウンドＨＯＡチャネル５９を取得する。バックグラウンドＨＯＡチャネル５９は、

として示され、ここで１：４は、音場のバックグラウンド成分を表すようにＨＯＡ信号１１の最初の４つのチャネルが選択されたことを反映する。このチャネル選択は、シンタックス要素においてＢ＝４としてシグナリングされ得る。次いで、オーディオ符号化デバイス２０のスケーラブルビットストリーム生成ユニット１０００は、ベースレイヤ２１Ａ（２つ以上のレイヤのうちの第１のレイヤと呼ばれることがある）におけるＨＯＡバックグラウンドチャネル５９を指定し得る。

[0249]スケーラブルビットストリーム生成ユニット１０００は、以下の式に従って指定されたようにバックグラウンドチャネル５９と利得情報とを含むようにベースレイヤ２１Ａを生成し得る。

[0250]図１６の例にさらに示されているように、オーディオ符号化デバイス２０は、ＵＳオーディオオブジェクトおよび対応するＶベクトルとして表され得る、Ｆ個のフォアグラウンドＨＯＡチャネルを取得し得る。説明の目的で、Ｆ＝２と仮定される。したがって、オーディオ符号化デバイス２０は、第１および第２のＵＳオーディオオブジェクト６１（「符号化されたｎＦＧ信号６１」と呼ばれることもある）と第１および第２のＶベクトル５７（「コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７」と呼ばれることもある）とを選択し得、ここで選択は、図５の例においてそれぞれＵＳ_1:2およびＶ_1:2として示される。次いでスケーラブルビットストリーム生成ユニット１０００は、第１および第２のＵＳオーディオオブジェクト６１と第１および第２のＶベクトル５７とを含むように、スケーラブルビットストリーム２１の第２のレイヤ２１Ｂを生成し得る。

[0251]スケーラブルビットストリーム生成ユニット１０００はまた、以下の式に従って指定されたようにＶベクトル５７とともにフォアグラウンドチャネル６１と利得情報とを含むようにエンハンスメントレイヤ２１Ｂを生成し得る。

[0252]スケーラブルビットストリーム２１’からＨＯＡ係数１１’を取得するために、図２および図３の例に示されるオーディオ復号デバイス２４は、図６の例においてより詳細に示される抽出ユニット７２を呼び出し得る。図６に関して上記で説明された方法で、符号化されたアンビエントＨＯＡ係数５９Ａ〜５９Ｄと、符号化されたｎＦＧ信号６１Ａおよび６１Ｂと、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａおよび５７Ｂとを抽出し得る抽出ユニット７２。次いで抽出ユニット７２は、符号化されたアンビエントＨＯＡ係数５９Ａ〜５９Ｄと、符号化されたｎＦＧ信号６１Ａおよび６１Ｂと、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａおよび５７Ｂとをベクトルベース復号ユニット９２に出力し得る。

[0253]次いでベクトルベース復号ユニット９２は、以下の式に従ってＵＳオーディオオブジェクト６１をＶベクトル５７と乗算し得る。

第１の式は、Ｆに関する一般的な演算の数式を提供する。第２の式は、Ｆが２に等しいと仮定される例における数式を提供する。この乗算の結果は、フォアグラウンドＨＯＡ信号１０２０として示されている。次いでベクトルベース復号ユニット９２は、（最も低い４つの係数がＨＯＡバックグラウンドチャネル５９としてすでに選択されたことを仮定した場合に）より高いチャネルを選択し、ここで、これらのより高いチャネルは以下のように示される。

ベクトルベース復号ユニット９２は、言い換えれば、フォアグラウンドＨＯＡ信号１０２０からＨＯＡフォアグラウンドチャネル６５を取得する。

[0254]結果として、本技法は、（静的な数のレイヤを必要とするのとは反対に）可変階層化を容易にして、多数のコーディングコンテキストに対応し、場合により、音場のバックグラウンド成分およびフォアグラウンド成分を指定する際の柔軟性を格段に高めることができる。本技法は、図１７〜図２６に関して説明されるように、多くの他の使用事例をもたらし得る。これらの様々な使用事例は、別個にまたは一緒に所与のオーディオストリーム内で実行され得る。その上、スケーラブルオーディオ符号化技法内でこれらの成分を指定する際の柔軟性は、さらに多くの使用事例を可能にし得る。言い換えれば、本技法は、以下で説明される使用事例に限定されるべきではなく、バックグラウンド成分およびフォアグラウンド成分がスケーラブルビットストリームの１つまたは複数のレイヤにおいてシグナリングされ得る任意の方法を含み得る。

[0255]図１７は、２つのレイヤがあり、ベースレイヤにおいて４つの符号化されたアンビエントＨＯＡ係数が指定され、エンハンスメントレイヤにおいて２つの符号化されたｎＦＧ信号が指定されることをシンタックス要素が示す一例の概念図である。図１７の例はＨＯＡフレームを示しており、図５の例に示されるスケーラブルビットストリーム生成ユニット１０００が、符号化されたアンビエントＨＯＡ係数５９Ａ〜５９Ｄに関するサイドバンドＨＯＡ利得補正データを含むベースレイヤを形成するために、フレームを区分し得る。スケーラブルビットストリーム生成ユニット１０００はまた、２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と符号化されたアンビエントｎＦＧ信号６１に関するＨＯＡ利得補正データとを含むエンハンスメントレイヤ２１を形成するＨＯＡフレームを区分し得る。

[0256]図１７の例にさらに示されているように、聴覚心理オーディオ符号化ユニット４０は、ベースレイヤ時間的エンコーダ４０Ａと呼ばれることがある聴覚心理オーディオエンコーダ４０Ａおよびエンハンスメントレイヤ時間的エンコーダ４０Ｂと呼ばれることがある聴覚心理オーディオエンコーダ４０Ｂの別個のインスタンス化に分割されるものとして示されている。ベースレイヤ時間的エンコーダ４０Ａは、ベースレイヤの４つの成分を処理する聴覚心理オーディオエンコーダの４つのインスタンス化を表す。エンハンスメントレイヤ時間的エンコーダ４０Ｂは、エンハンスメントレイヤの２つの成分を処理する聴覚心理オーディオエンコーダの２つのインスタンス化を表す。

[0257]図１８は、本開示で説明されるスケーラブルオーディオコーディング技法の潜在的バージョンのうちの第２のものを実行するように構成されるときの図３のビットストリーム生成ユニット４２をより詳細に示す図である。この例では、ビットストリーム生成ユニット４２は、図５の例に関して上記で説明されたビットストリーム生成ユニット４２と実質的に同様である。ただし、ビットストリーム生成ユニット４２は、２つのレイヤ２１Ａおよび２１Ｂではなく３つのレイヤ２１Ａ〜２１Ｃを指定するために、スケーラブルコーディング技法の第２のバージョンを実行する。スケーラブルビットストリーム生成ユニット１０００は、ベースレイヤ２１Ａにおいて２つの符号化されたアンビエントＨＯＡ係数および０個の符号化されたｎＦＧ信号が指定されることの指示と、第１のエンハンスメントレイヤ２１Ｂにおいて０個の符号化されたアンビエントＨＯＡ係数および２つの符号化されたｎＦＧ信号が指定されることの指示と、第２のエンハンスメントレイヤ２１Ｃにおいて０個の符号化されたアンビエントＨＯＡ係数および２つの符号化されたｎＦＧ信号６１が指定されることの指示とを指定し得る。次いでスケーラブルビットストリーム生成ユニット１０００は、ベースレイヤ２１Ａにおける２つの符号化されたアンビエントＨＯＡ係数５９Ａおよび５９Ｂと、第１のエンハンスメントレイヤ２１Ｂにおける２つの符号化されたｎＦＧ信号６１Ａおよび６１Ｂならびに対応する２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａおよび５７Ｂと、第２のエンハンスメントレイヤ２１Ｃにおける２つの符号化されたｎＦＧ信号６１Ｃおよび６１Ｄならびに対応する２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ｃおよび５７Ｄとを指定し得る。次いでスケーラブルビットストリーム生成ユニット１０００は、スケーラブルビットストリーム２１としてこれらのレイヤ２１を出力し得る。

[0258]図１９は、本開示で説明される潜在的バージョンスケーラブルオーディオ復号技法のうちの第２のものを実行するように構成されるときの図３の抽出ユニット７２をより詳細に示す図である。この例では、ビットストリーム抽出ユニット７２は、図６の例に関して上記で説明されたビットストリーム抽出ユニット７２と実質的に同様である。ただし、ビットストリーム抽出ユニット７２は、２つのレイヤ２１Ａおよび２１Ｂではなく３つのレイヤ２１Ａ〜２１Ｃに関して、スケーラブルコーディング技法の第２のバージョンを実行する。スケーラブルビットストリーム抽出ユニット１０１２は、ベースレイヤ２１Ａにおいて２つの符号化されたアンビエントＨＯＡ係数および０個の符号化されたｎＦＧ信号が指定されることの指示と、第１のエンハンスメントレイヤ２１Ｂにおいて０個の符号化されたアンビエントＨＯＡ係数および２つの符号化されたｎＦＧ信号が指定されることの指示と、第２のエンハンスメントレイヤ２１Ｃにおいて０個の符号化されたアンビエントＨＯＡ係数および２つの符号化されたｎＦＧ信号が指定されることの指示とを取得し得る。次いでスケーラブルビットストリーム抽出ユニット１０１２は、ベースレイヤ２１Ａからの２つの符号化されたアンビエントＨＯＡ係数５９Ａおよび５９Ｂと、第１のエンハンスメントレイヤ２１Ｂからの２つの符号化されたｎＦＧ信号６１Ａおよび６１Ｂならびに対応する２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａおよび５７Ｂと、第２のエンハンスメントレイヤ２１Ｃからの２つの符号化されたｎＦＧ信号６１Ｃおよび６１Ｄならびに対応する２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ｃおよび５７Ｄとを取得し得る。スケーラブルビットストリーム抽出ユニット１０１２は、符号化されたアンビエントＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７とを、ベクトルベース復号ユニット９２に出力し得る。

[0259]図２０は、図１８のビットストリーム生成ユニットおよび図１９の抽出ユニットが、本開示で説明される技法の潜在的バージョンのうちの第２のものを実行し得る、第２の使用事例を示す図である。たとえば、図１８の例に示されるビットストリーム生成ユニット４２は、スケーラブルビットストリーム２１において指定されたレイヤの数が３であることを示すために、ＮｕｍＬａｙｅｒ（理解しやすいように「ＮｕｍｂｅｒＯｆＬａｙｅｒｓ」として示される）シンタックス要素を指定し得る。ビットストリーム生成ユニット４２はさらに、第１のレイヤ２１Ａ（「ベースレイヤ」とも呼ばれる）において指定されたバックグラウンドチャネルの数が２である一方、第１のレイヤ２１Ｂにおいて指定されたフォアグラウンドチャネルの数が０である（すなわち、図２０の例ではＢ₁＝２、Ｆ₁＝０）ことを指定し得る。ビットストリーム生成ユニット４２はさらに、第２のレイヤ２１Ｂ（「エンハンスメントレイヤ」とも呼ばれる）において指定されたバックグラウンドチャネルの数が０である一方、第２のレイヤ２１Ｂにおいて指定されたフォアグラウンドチャネルの数が２である（すなわち、図２０の例ではＢ₂＝０、Ｆ₂＝２）ことを指定し得る。ビットストリーム生成ユニット４２はさらに、第２のレイヤ２１Ｃ（「エンハンスメントレイヤ」とも呼ばれる）において指定されたバックグラウンドチャネルの数が０である一方、第２のレイヤ２１Ｃにおいて指定されたフォアグラウンドチャネルの数が２である（すなわち、図２０の例ではＢ₃＝０、Ｆ₃＝２）ことを指定し得る。ただし、フォアグラウンドチャネルおよびバックグラウンドチャネルの総数が（たとえば、ｔｏｔａｌＮｕｍＢＧｃｈａｎｎｅｌｓおよびｔｏｔａｌＮｕｍＦＧｃｈａｎｎｅｌｓなどの追加シンタックス要素によって）デコーダにおいてすでに知られているときに、オーディオ符号化デバイス２０は必ずしも、第３のレイヤバックグラウンドおよびフォアグラウンドチャネル情報をシグナリングしなくてもよい。

[0260]ビットストリーム生成ユニット４２は、これらのＢ₁およびＦ₁値をＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］およびＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］として指定し得る。上記の例では、オーディオ符号化デバイス２０は、ＮｕｍＢＧｃｈａｎｎｅｌｓシンタックス要素を｛２，０，０｝として、ＮｕｍＦＧｃｈａｎｎｅｌｓシンタックス要素を｛０，２，２｝として指定し得る。ビットストリーム生成ユニット４２はまた、スケーラブルビットストリーム２１におけるバックグラウンドＨＯＡオーディオチャネル５９と、フォアグラウンドＨＯＡチャネル６１と、Ｖベクトル５７とを指定し得る。

[0261]図２および図４の例に示されるオーディオ復号デバイス２４は、図１９のビットストリーム抽出ユニット７２に関して上記で説明されたように、（たとえば、上記のＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇシンタックス表に記載されているように）ビットストリームからシンタックス要素を解析するために、オーディオ符号化デバイス２０の場合とは逆の方法で動作し得る。オーディオ復号デバイス２４はまた、同じく図１９のビットストリーム抽出ユニット７２に関して上記で説明されたように、解析されたシンタックス要素に従って、ビットストリーム２１から、対応するバックグラウンドＨＯＡオーディオチャネル１００２およびフォアグラウンドＨＯＡチャネル１０１０を解析し得る。

[0262]図２１は、３つのレイヤがあり、ベースレイヤにおいて２つの符号化されたアンビエントＨＯＡ係数が指定され、第１のエンハンスメントレイヤにおいて２つの符号化されたｎＦＧ信号が指定され、第２のエンハンスメントレイヤにおいて２つの符号化されたｎＦＧ信号が指定されることをシンタックス要素が示す一例の概念図である。図２１の例はＨＯＡフレームを示しており、図１８の例に示されるスケーラブルビットストリーム生成ユニット１０００が、符号化されたアンビエントＨＯＡ係数５９Ａおよび５９Ｂに関するサイドバンドＨＯＡ利得補正データを含むベースレイヤを形成するために、フレームを区分し得る。スケーラブルビットストリーム生成ユニット１０００はまた、２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と符号化されたアンビエントｎＦＧ信号６１に関するＨＯＡ利得補正データとを含むエンハンスメントレイヤ２１Ｂと、２つの追加のコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と符号化されたアンビエントｎＦＧ信号６１に関するＨＯＡ利得補正データとを含むエンハンスメントレイヤ２１Ｃとを形成するＨＯＡフレームを区分し得る。

[0263]図２１の例にさらに示されているように、聴覚心理オーディオ符号化ユニット４０は、ベースレイヤ時間的エンコーダ４０Ａと呼ばれることがある聴覚心理オーディオエンコーダ４０Ａおよびエンハンスメントレイヤ時間的エンコーダ４０Ｂと呼ばれることがある聴覚心理オーディオエンコーダ４０Ｂの別個のインスタンス化に分割されるものとして示されている。ベースレイヤ時間的エンコーダ４０Ａは、ベースレイヤの４つの成分を処理する聴覚心理オーディオエンコーダの２つのインスタンス化を表す。エンハンスメントレイヤ時間的エンコーダ４０Ｂは、エンハンスメントレイヤの２つの成分を処理する聴覚心理オーディオエンコーダの４つのインスタンス化を表す。

[0264]図２２は、本開示で説明されるスケーラブルオーディオコーディング技法の潜在的バージョンのうちの第３のものを実行するように構成されるときの図３のビットストリーム生成ユニット４２をより詳細に示す図である。この例では、ビットストリーム生成ユニット４２は、図１８の例に関して上記で説明されたビットストリーム生成ユニット４２と実質的に同様である。ただし、ビットストリーム生成ユニット４２は、２つのレイヤ２１Ａおよび２１Ｂではなく３つのレイヤ２１Ａ〜２１Ｃを指定するために、スケーラブルコーディング技法の第３のバージョンを実行する。その上、スケーラブルビットストリーム生成ユニット１０００は、ベースレイヤ２１Ａにおいて０個の符号化されたアンビエントＨＯＡ係数および２つの符号化されたｎＦＧ信号が指定されることの指示と、第１のエンハンスメントレイヤ２１Ｂにおいて０個の符号化されたアンビエントＨＯＡ係数および２つの符号化されたｎＦＧ信号が指定されることの指示と、第２のエンハンスメントレイヤ２１Ｃにおいて０個の符号化されたアンビエントＨＯＡ係数および２つの符号化されたｎＦＧ信号が指定されることの指示とを指定し得る。次いでスケーラブルビットストリーム生成ユニット１０００は、ベースレイヤ２１Ａにおける２つの符号化されたｎＦＧ信号６１Ａおよび６１Ｂならびに対応する２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａおよび５７Ｂと、第１のエンハンスメントレイヤ２１Ｂにおける２つの符号化されたｎＦＧ信号６１Ｃおよび６１Ｄならびに対応する２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ｃおよび５７Ｄと、第２のエンハンスメントレイヤ２１Ｃにおける２つの符号化されたｎＦＧ信号６１Ｅおよび６１Ｆならびに対応する２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ｅおよび５７Ｆとを指定し得る。次いでスケーラブルビットストリーム生成ユニット１０００は、スケーラブルビットストリーム２１としてこれらのレイヤ２１を出力し得る。

[0265]図２３は、本開示で説明される潜在的バージョンスケーラブルオーディオ復号技法のうちの第３のものを実行するように構成されるときの図４の抽出ユニット７２をより詳細に示す図である。この例では、ビットストリーム抽出ユニット７２は、図１９の例に関して上記で説明されたビットストリーム抽出ユニット７２と実質的に同様である。ただし、ビットストリーム抽出ユニット７２は、２つのレイヤ２１Ａおよび２１Ｂではなく３つのレイヤ２１Ａ〜２１Ｃに関して、スケーラブルコーディング技法の第３のバージョンを実行する。その上、スケーラブルビットストリーム抽出ユニット１０１２は、ベースレイヤ２１Ａにおいて０個の符号化されたアンビエントＨＯＡ係数および２つの符号化されたｎＦＧ信号が指定されることの指示と、第１のエンハンスメントレイヤ２１Ｂにおいて０個の符号化されたアンビエントＨＯＡ係数および２つの符号化されたｎＦＧ信号が指定されることの指示と、第２のエンハンスメントレイヤ２１Ｃにおいて０個の符号化されたアンビエントＨＯＡ係数および２つの符号化されたｎＦＧ信号が指定されることの指示とを取得し得る。次いでスケーラブルビットストリーム抽出ユニット１０１２は、ベースレイヤ２１Ａからの２つの符号化されたｎＦＧ信号６１Ａおよび６１Ｂならびに対応する２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａおよび５７Ｂと、第１のエンハンスメントレイヤ２１Ｂからの２つの符号化されたｎＦＧ信号６１Ｃおよび６１Ｄならびに対応する２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ｃおよび５７Ｄと、第２のエンハンスメントレイヤ２１Ｃからの２つの符号化されたｎＦＧ信号６１Ｅおよび６１Ｆならびに対応する２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ｅおよび５７Ｆとを取得し得る。スケーラブルビットストリーム抽出ユニット１０１２は、符号化されたｎＦＧ信号６１と、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７とを、ベクトルベース復号ユニット９２に出力し得る。

[0266]図２４は、本開示で説明される技法による、オーディオ符号化デバイスがマルチレイヤビットストリームにおける複数のレイヤを指定し得る第３の使用事例を示す図である。たとえば、図２２のビットストリーム生成ユニット４２は、ビットストリーム２１において指定されたレイヤの数が３であることを示すために、ＮｕｍＬａｙｅｒ（理解しやすいように「ＮｕｍｂｅｒＯｆＬａｙｅｒｓ」として示される）シンタックス要素を指定し得る。ビットストリーム生成ユニット４２はさらに、第１のレイヤ（「ベースレイヤ」とも呼ばれる）において指定されたバックグラウンドチャネルの数が０である一方、第１のレイヤにおいて指定されたフォアグラウンドチャネルの数が２である（すなわち、図２４の例ではＢ₁＝０、Ｆ₁＝２）ことを指定し得る。言い換えれば、ベースレイヤはアンビエントＨＯＡ係数のトランスポートのみを常にもたらすとは限らず、支配的または言い換えるとフォアグラウンドＨＯＡオーディオ信号の指定を可能にし得る。

[0267]これらの２つのフォアグラウンドオーディオチャネルは、符号化されたｎＦＧ信号６１Ａ／ＢおよびコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ａ／Ｂとして示されており、以下の式によって数学的に表され得る。

は、２つのフォアグラウンドオーディオチャネルを示し、これらは対応するＶベクトル（Ｖ₁およびＶ₂）とともに第１および第２のオーディオオブジェクト（ＵＳ₁およびＵＳ₂）によって表され得る。

[0268]ビットストリーム生成デバイス４２はさらに、第２のレイヤ（「エンハンスメントレイヤ」とも呼ばれる）において指定されたバックグラウンドチャネルの数が０である一方、第２のレイヤにおいて指定されたフォアグラウンドチャネルの数が２である（すなわち、図２４の例ではＢ₂＝０、Ｆ₂＝２）ことを指定し得る。これらの２つのフォーグラウンドオーディオチャネルは、符号化されたｎＦＧ信号６１Ｃ／ＤおよびコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７Ｃ／Ｄとして示されており、以下の式によって数学的に表され得る。

は、２つのフォアグラウンドオーディオチャネルを示し、これらは対応するＶベクトル（Ｖ₃およびＶ₄）とともに第３および第４のオーディオオブジェクト（ＵＳ₃およびＵＳ₄）によって表され得る。

[0269]さらに、ビットストリーム生成ユニット４２は、第３のレイヤ（「エンハンスメントレイヤ」とも呼ばれる）において指定されたバックグラウンドチャネルの数が０である一方、第３のレイヤにおいて指定されたフォアグラウンドチャネルの数が２である（すなわち、図２４の例ではＢ₃＝０、Ｆ₃＝２）ことを指定し得る。これらの２つのフォーグラウンドオーディオチャネルは、フォアグラウンドオーディオチャネル１０２４として示されており、以下の式によって数学的に表され得る。

は、２つのフォアグラウンドオーディオチャネル１０２４を示し、これらは対応するＶベクトル（Ｖ₅およびＶ₆）とともに第５および第６のオーディオオブジェクト（ＵＳ₅およびＵＳ₆）によって表され得る。ただし、フォアグラウンドチャネルおよびバックグラウンドチャネルの総数が（たとえば、ｔｏｔａｌＮｕｍＢＧｃｈａｎｎｅｌｓおよびｔｏｔａｌＮｕｍＦＧｃｈａｎｎｅｌｓなどの追加シンタックス要素によって）デコーダにおいてすでに知られているときに、ビットストリーム生成ユニット４２は必ずしも、この第３のレイヤバックグラウンドおよびフォアグラウンドチャネル情報をシグナリングしなくてもよい。だが、フォアグラウンドチャネルおよびバックグラウンドチャネルの総数が（たとえば、ｔｏｔａｌＮｕｍＢＧｃｈａｎｎｅｌｓおよびｔｏｔａｌＮｕｍＦＧｃｈａｎｎｅｌｓなどの追加シンタックス要素によって）デコーダにおいてすでに知られているときに、ビットストリーム生成ユニット４２は、第３のレイヤバックグラウンドおよびフォアグラウンドチャネル情報をシグナリングしないことがある。

[0270]ビットストリーム生成ユニット４２は、これらのＢ₁およびＦ₁値をＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］およびＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］として指定し得る。上記の例では、オーディオ符号化デバイス２０は、ＮｕｍＢＧｃｈａｎｎｅｌｓシンタックス要素を｛０，０，０｝として、ＮｕｍＦＧｃｈａｎｎｅｌｓシンタックス要素を｛２，２，２｝として指定し得る。オーディオ符号化デバイス２０はまた、ビットストリーム２１においてフォアグラウンドＨＯＡチャネル１０２０〜１０２４を指定し得る。

[0271]図２および図４の例に示されるオーディオ復号デバイス２４は、（たとえば、上記のＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇシンタックス表に記載されているように）ビットストリームからこれらのシンタックス要素を、図２３のビットストリーム抽出ユニット７２に関して上記で説明されたように解析するために、オーディオ符号化デバイス２０の場合とは逆の方法で動作し得る。オーディオ復号デバイス２４はまた、同じく図２３のビットストリーム抽出ユニット７２に関して上記で説明されたように、解析されたシンタックス要素に従ってビットストリーム２１から対応するフォアグラウンドＨＯＡオーディオチャネル１０２０〜１０２４を解析し、フォアグラウンドＨＯＡオーディオチャネル１０２０〜１０２４の合算を通じてＨＯＡ係数１０２６を再構成し得る。

[0272]図２５は、３つのレイヤがあり、ベースレイヤにおいて２つの符号化されたｎＦＧ信号が指定され、第１のエンハンスメントレイヤにおいて２つの符号化されたｎＦＧ信号が指定され、第２のエンハンスメントレイヤにおいて２つの符号化されたｎＦＧ信号が指定されることをシンタックス要素が示す一例の概念図である。図２５の例はＨＯＡフレームを示しており、図２２の例に示されるスケーラブルビットストリーム生成ユニット１０００が、符号化されたｎＦＧ信号６１Ａおよび６１Ｂに関するサイドバンドＨＯＡ利得補正データと２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７とを形成するために、フレームを区分し得る。スケーラブルビットストリーム生成ユニット１０００はまた、２つのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と符号化されたアンビエントｎＦＧ信号６１に関するＨＯＡ利得補正データとを含むエンハンスメントレイヤ２１Ｂと、２つの追加のコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と符号化されたアンビエントｎＦＧ信号６１に関するＨＯＡ利得補正データとを含むエンハンスメントレイヤ２１Ｃとを形成するために、ＨＯＡフレームを区分し得る。

[0273]図２５の例にさらに示されているように、聴覚心理オーディオ符号化ユニット４０は、ベースレイヤ時間的エンコーダ４０Ａと呼ばれることがある聴覚心理オーディオエンコーダ４０Ａおよびエンハンスメントレイヤ時間的エンコーダ４０Ｂと呼ばれることがある聴覚心理オーディオエンコーダ４０Ｂの別個のインスタンス化に分割されるものとして示されている。ベースレイヤ時間的エンコーダ４０Ａは、ベースレイヤの４つの成分を処理する聴覚心理オーディオエンコーダの２つのインスタンス化を表す。エンハンスメントレイヤ時間的エンコーダ４０Ｂは、エンハンスメントレイヤの２つの成分を処理する聴覚心理オーディオエンコーダの４つのインスタンス化を表す。

[0274]図２６は、本開示で説明される技法による、オーディオ符号化デバイスがマルチレイヤビットストリームにおける複数のレイヤを指定し得る第３の使用事例を示す図である。たとえば、図２および図３の例に示されるオーディオ符号化デバイス２０は、ビットストリーム２１において指定されたレイヤの数が４であることを示すために、ＮｕｍＬａｙｅｒ（理解しやすいように「ＮｕｍｂｅｒＯｆＬａｙｅｒｓ」として示される）シンタックス要素を指定し得る。オーディオ符号化デバイス２０はさらに、第１のレイヤ（「ベースレイヤ」とも呼ばれる）において指定されたバックグラウンドチャネルの数が１である一方、第１のレイヤにおいて指定されたフォアグラウンドチャネルの数が０である（すなわち、図２６の例ではＢ₁＝１、Ｆ₁＝０）ことを指定し得る。

[0275]オーディオ符号化デバイス２０はさらに、第２のレイヤ（「第１のエンハンスメントレイヤ」とも呼ばれる）において指定されたバックグラウンドチャネルの数が１である一方、第２のレイヤにおいて指定されたフォアグラウンドチャネルの数が０である（すなわち、図２６の例ではＢ₂＝１、Ｆ₂＝０）ことを指定し得る。オーディオ符号化デバイス２０はまた、第３のレイヤ（「第２のエンハンスメントレイヤ」とも呼ばれる）において指定されたバックグラウンドチャネルの数が１である一方、第３のレイヤにおいて指定されたフォアグラウンドチャネルの数が０である（すなわち、図２６の例ではＢ₃＝１、Ｆ₃＝０）ことを指定し得る。さらに、オーディオ符号化デバイス２０は、第４のレイヤ（「エンハンスメントレイヤ」とも呼ばれる）において指定されたバックグラウンドチャネルの数が１である一方、第３のレイヤにおいて指定されたフォアグラウンドチャネルの数が０である（すなわち、図２６の例ではＢ₄＝１、Ｆ₄＝０）ことを指定し得る。ただし、フォアグラウンドチャネルおよびバックグラウンドチャネルの総数が（たとえば、ｔｏｔａｌＮｕｍＢＧｃｈａｎｎｅｌｓおよびｔｏｔａｌＮｕｍＦＧｃｈａｎｎｅｌｓなどの追加シンタックス要素によって）デコーダにおいてすでに知られているときに、オーディオ符号化デバイス２０は必ずしも、第４のレイヤバックグラウンドおよびフォアグラウンドチャネル情報をシグナリングしなくてもよい。

[0276]オーディオ符号化デバイス２０は、これらのＢ₁およびＦ₁値をＮｕｍＢＧｃｈａｎｎｅｌｓ［ｉ］およびＮｕｍＦＧｃｈａｎｎｅｌｓ［ｉ］として指定し得る。上記の例では、オーディオ符号化デバイス２０は、ＮｕｍＢＧｃｈａｎｎｅｌｓシンタックス要素を｛１，１，１，１｝として、ＮｕｍＦＧｃｈａｎｎｅｌｓシンタックス要素を｛０，０，０，０｝として指定し得る。オーディオ符号化デバイス２０はまた、ビットストリーム２１におけるバックグラウンドＨＯＡオーディオチャネル１０３０を指定し得る。この点において、本技法は、図７Ａ〜図９Ｂの例に関して上記で説明されたように、ビットストリーム２１のベースレイヤおよびエンハンスメントレイヤにおいて指定される前に無相関化されていることがある、アンビエントまたは言い換えればバックグラウンドＨＯＡチャネル１０３０をエンハンスメントレイヤが指定することを可能にし得る。しかしながら、本開示に記載される技法は、必ずしも無相関化に限定されず、上記で説明された無相関化に関連するビットストリームにおけるシンタックス要素または任意の他の指示を提供しないことがある。

[0277]図２および図４の例に示されるオーディオ復号デバイス２４は、（たとえば、上記のＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇシンタックス表に記載されているように）ビットストリームからこれらのシンタックス要素を解析するために、オーディオ符号化デバイス２０の場合とは逆の方法で動作し得る。オーディオ復号デバイス２４はまた、解析されたシンタックス要素に従ってビットストリーム２１から対応するバックグラウンドＨＯＡオーディオチャネル１０３０を解析し得る。

[0278]上述のように、いくつかの事例では、スケーラブルビットストリーム２１は、非スケーラブルビットストリーム２１に適合する様々なレイヤを含み得る。たとえば、スケーラブルビットストリーム２１は、非スケーラブルビットストリーム２１に適合するベースレイヤを含み得る。これらの事例では、非スケーラブルビットストリーム２１は、スケーラブルビットストリーム２１のサブビットストリームを表すことができ、ここで、この非スケーラブルビットストリーム２１は、スケーラブルビットストリーム２１の追加レイヤ（エンハンスメントレイヤと呼ばれる）により増強され得る。

[0279]図２７および図２８は、本開示で説明される技法の様々な態様を実行するように構成され得るスケーラブルビットストリーム生成ユニット４２とスケーラブルビットストリーム抽出ユニット７２とを示すブロック図である。図２７の例では、スケーラブルビットストリーム生成ユニット４２は、図３の例に関して上記で説明されたビットストリーム生成ユニット４２の一例を表し得る。スケーラブルビットストリーム生成ユニット４２は、非スケーラブルビットストリーム２１に（スケーラブルコーディングをサポートしないオーディオデコーダによって復号されるためのシンタックスおよび能力の点で）適合するベースレイヤ２１を出力し得る。スケーラブルビットストリーム生成ユニット４２は、スケーラブルビットストリーム生成ユニット４２が非スケーラブルビットストリーム生成ユニット１００２を含まないことを除いて、上記のビットストリーム生成ユニット４２のいずれかに関して上記で説明された方法で動作し得る。代わりに、スケーラブルビットストリーム生成ユニット４２は、非スケーラブルビットストリームに適合するベースレイヤ２１を出力し、そのため、別個の非スケーラブルビットストリーム生成ユニット１０００を必要としない。図２８の例では、スケーラブルビットストリーム抽出ユニット７２は、スケーラブルビットストリーム生成ユニット４２とは逆に動作し得る。

[0280]図２９は、本開示で説明される技法の様々な態様に従って動作するように構成され得るエンコーダ９００を表す概念図を表す。エンコーダ９００は、オーディオ符号化デバイス２０の別の例を表し得る。エンコーダ９００は、空間的分解ユニット９０２と、無相関化ユニット９０４と、時間的符号化ユニット９０６とを含み得る。空間的分解ユニット９０２は、（上述のオーディオオブジェクトの形態による）ベクトルベースの支配的音声と、これらのベクトルベースの支配的音声に関連する対応するＶベクトルと、水平方向アンビエントＨＯＡ係数９０３とを出力するように構成されたユニットを表し得る。音場内で時間とともに各オーディオオブジェクトが移動する中、オーディオオブジェクトのうちの対応する１つの方向と幅の両方をＶベクトルが表す点で、空間的分解ユニット９０２は方向ベースの分解とは異なり得る。

[0281]空間的分解ユニット９０２は、図３の例に示されるベクトルベース合成ユニット２７のユニット３０〜３８および４４〜５２を含み、全般的に、ユニット３０〜３８および４４〜５２に関して上記で説明された方法で動作し得る。空間的分解ユニット９０２が聴覚心理符号化を実行しなくても、または場合によっては聴覚心理コーダユニット４０を含まなくてもよく、ビットストリーム生成ユニット４２を含まなくてもよいという点で、空間的分解ユニット９０２はベクトルベース合成ユニット２７とは異なり得る。その上、スケーラブルオーディオ符号化のコンテキストでは、空間的分解ユニット９０２は、水平方向アンビエントＨＯＡ係数９０３をパススルーし得る（これはいくつかの例では、これらの水平方向アンビエントＨＯＡ係数が修正または場合によっては調整されなくてよく、ＨＯＡ係数９０１から解析されることを意味する）。

[0282]水平方向アンビエントＨＯＡ係数９０３は、音場の水平方向成分を表す（ＨＯＡオーディオデータ９０１と呼ばれることもある）ＨＯＡ係数９０１のいずれかを指し得る。たとえば、水平方向アンビエントＨＯＡ係数９０３は、０の次数と０の副次数とを有する球面基底関数に関連するＨＯＡ係数と、１の次数とマイナス１の副次数とを有する球面基底関数に対応する高次アンビソニック係数と、１の次数と１の副次数とを有する球面基底関数に対応する第３の高次アンビソニック係数とを含み得る。

[0283]無相関化ユニット９０４は、高次アンビソニックオーディオデータ９０３（ここで、アンビエントＨＯＡ係数９０３が、このＨＯＡオーディオデータの一例である）の２つ以上のレイヤのうちの第１のレイヤに関して、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を取得するために無相関化を実行するように構成されたユニットを表し得る。ベースレイヤ９０３は、図２１〜図２６に関して上記で説明された第１のレイヤ、ベースレイヤ、またはベースサブレイヤのいずれかと同様であり得る。無相関化ユニット９０４は、上述のＵＨＪ行列またはモード行列を使用して無相関化を実行し得る。無相関化ユニット９０４はまた、係数の数を減らすのではなく第１のレイヤの無相関化された表現を取得するために回転が実行されることを除いて、２０１４年２月２７日に出願された「ＴＲＡＮＳＦＯＲＭＩＮＧＳＰＨＥＲＩＣＡＬＨＡＲＭＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」と題する米国出願第１４／１９２，８２９号に説明されている方法と同様の方法で、回転などの変換を使用して無相関化を実行し得る。

[0284]言い換えれば、無相関化ユニット９０４は、１２０度（０方位角度（azimuthal degrees）／０仰角度(elevational degrees)、１２０方位角度／０仰角度、および２４０方位角度／０仰角度など）で分離された３つの異なる水平方向軸に沿ってアンビエントＨＯＡ係数９０３のエネルギーを整合(align)させるように、音場の回転を実行し得る。３つの水平方向軸とこれらのエネルギーを整合させることによって、無相関化ユニット９０４は、無相関化ユニット９０４が３つの無相関化オーディオチャネル９０５を効果的にレンダリングするために空間的変換を利用し得るように、エネルギーを互いに無相関化しようと試み得る。無相関化ユニット９０４は、０度、１２０度および２４０度の方位角で空間的オーディオ信号９０５を計算するために、この空間的変換を適用し得る。

[0285]０度、１２０度および２４０度の方位角に関して説明されるが、本技法は、円の３６０方位角度を均等またはほぼ均等に分割する任意の３つの方位角に適用され得る。たとえば、本技法はまた、６０度、１８０度および３００度の方位角で空間的オーディオ信号９０５を計算する変換に関して実行され得る。その上、３つのアンビエントＨＯＡ係数９０１に関して説明されるが、本技法はより一般的に、上記で説明されたものを含む任意の水平方向ＨＯＡ係数、ならびに２の次数と２の副次数とを有する球面基底関数、２の次数とマイナス２の副次数とを有する球面基底関数、．．．、Ｘの次数とＸの副次数とを有する球面基底関数、およびＸの次数とマイナスＸの副次数とを有する球面基底関数（ここでＸが３、４、５、６などを含む任意の数を表し得る）に関連するものなどの任意の他の水平方向ＨＯＡ係数に関して実行され得る。

[0286]水平方向ＨＯＡ係数の数が増加するにつれて、３６０度の円の均等またはほぼ均等な部分の数が増加し得る。たとえば、水平方向ＨＯＡ係数の数が増加して５になったとき、無相関化ユニット９０４は、円を（たとえば、それぞれ約７２度の）５つの均等なパーティションに区分し得る。Ｘの水平方向ＨＯＡ係数の数は、別の例として、各パーティションが３６０度／Ｘ度を有するＸ個の均等なパーティションを生じさせる。

[0287]無相関化ユニット９０４は、水平方向アンビエントＨＯＡ係数９０３によって表される音場を回転させる量を示す回転情報を識別するために、音場分析、コンテンツ特性分析、および／または空間的分析を実行し得る。これらの分析のうちの１つまたは複数に基づいて、無相関化ユニット９０４は、音場を水平方向に回転させる角度としての回転情報（または回転情報が一例である他の変換情報）を識別し、音場を回転させて、高次アンビソニックオーディオデータのベースレイヤの回転された表現（より一般的な変換された表現の一例である）を効果的に取得し得る。

[0288]次いで無相関化ユニット９０４は、高次アンビソニックオーディオデータのベースレイヤ９０３（２つ以上のレイヤのうちの第１のレイヤ９０３と呼ばれることもある）の回転された表現に空間的変換を適用し得る。空間的変換は、高次アンビソニックオーディオデータの２つ以上のレイヤのうちのベースレイヤの回転された表現を、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現を取得するために、球面調和領域から空間領域に変換し得る。第１のレイヤの無相関化表現は、上述のように０度、１２０度および２４０度の３つの対応する方位角でレンダリングされた空間的オーディオ信号９０５を含み得る。次いで無相関化ユニット９０４は、時間的符号化ユニット９０６に水平方向アンビエント空間的オーディオ信号９０５を渡し得る。

[0289]時間的符号化ユニット９０６は、聴覚心理オーディオコーディングを実行するように構成されたユニットを表し得る。時間的符号化ユニット９０６は、２つの例を提供するＡＡＣエンコーダまたはＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｅｒ（ＵＳＡＣ）を表し得る。時間的符号化ユニット９０６などの時間的オーディオ符号化ユニットは通常、５．１スピーカーセットアップの６個のチャネル（これらの６個のチャネルが、無相関化されたチャネルにレンダリングされている）などの無相関化されたオーディオデータに関して動作し得る。しかしながら、水平方向アンビエントＨＯＡ係数９０３は性質上付加的（additive in nature）であり、それによって、ある点では相関する。何らかの形態の無相関化を最初に実行することなく、これらの水平方向アンビエントＨＯＡ係数９０３を時間的符号化ユニット９０６に直接提供することで、意図されていないロケーションに音声が現れる空間的雑音マスキング解除が生じ得る。空間的雑音マスキング解除などのこれらの知覚アーティファクトは、上記で説明された変換ベースの（またはより詳細には、図２９の例では回転ベースの）無相関化を実行することによって低減され得る。

[0290]図３０は、図２７の例で示されるエンコーダ９００をより詳細に示す図である。図３０の例では、エンコーダ９００は、ＨＯＡ１次水平方向限定（first order horizontal-only）ベースレイヤ９０３を符号化するベースレイヤエンコーダ９００を表し得、空間的分解ユニット９０２がこのパススルーの例ではベースレイヤ９０３を無相関化ユニット９０４の音場分析ユニット９１０および２次元（２Ｄ）回転ユニット９１２に提供する以外に重要な動作を実行しないので、エンコーダ９００はこのユニット９０２を示していない。

[0291]すなわち、無相関化ユニット９０４は、音場分析ユニット９１０と２Ｄ回転ユニット９１２とを含む。音場分析ユニット９１０は、回転角パラメータ９１１を取得するために、より詳細に上記で説明された音場分析を実行するように構成されたユニットを表す。回転角パラメータ９１１は、回転情報の形態による変換情報の一例を表す。２Ｄ回転ユニット９１２は、回転角パラメータ９１１に基づいて、音場のＺ軸の周りで水平方向回転を実行するように構成されたユニットを表す。この回転は、回転が単一の回転軸のみを伴い、この例では仰角回転を一切含まないという点で、２次元である。２Ｄ回転ユニット９１２は、より一般的な逆変換情報の一例であり得る逆回転情報９１３を（一例として、逆回転角パラメータ９１３を取得するために、回転角パラメータ９１１を逆にすることによって）取得し得る。２Ｄ回転ユニット９１２は、エンコーダ９００がビットストリームにおける逆回転角パラメータ９１３を指定し得るように、逆回転角パラメータ９１３を提供し得る。

[0292]言い換えれば、２Ｄ回転ユニット９１２は、２Ｄ空間的変換モジュール（０°、１２０°、２４０°）において使用される空間サンプリングポイントのうちの１つから支配的エネルギーが到着していることがあるように、音場分析に基づいて２Ｄ音場を回転させ得る。２Ｄ回転ユニット９１２は、一例として、以下の回転行列を適用し得る。

いくつかの例では、２Ｄ回転ユニット９１２は、フレームアーティファクトを回避するために、時間変動する回転角の平滑な遷移を確実にするために平滑化（補間）関数を適用し得る。この平滑化関数は、線形平滑化関数を備え得る。ただし、非線形平滑化関数を含む他の平滑化関数が使用されてもよい。２Ｄ回転ユニット９１２は、たとえば、スプライン平滑化関数を使用し得る。

[0293]説明すると、音場の支配的方向が１つの分析フレーム内で７０°の方位にあることを音場分析ユニット９１０モジュールが示すとき、２Ｄ回転ユニット９１２は、支配的方向が０°になるように、φ＝−７０°で音場を平滑に回転させることができる。別の可能性として、２Ｄ回転ユニット９１２は、支配的方向が１２０°になるように、φ＝５０°で音場を回転させることができる。次いで、２Ｄ回転ユニット９１２は、デコーダが正しい逆回転動作を適用できるように、ビットストリーム内で追加のサイドバンドパラメータとして、適用された回転角９１３をシグナリングし得る。

[0294]図３０の例にさらに示されているように、無相関化ユニット９０４はまた、２Ｄ空間的変換ユニット９１４を含む。２Ｄ空間的変換ユニット９１４は、ベースレイヤの回転された表現を球面調和領域から空間領域に変換して、回転されたベースレイヤ９１５を３つの方位角（たとえば、０、１２０および２４０）に効果的にレンダリングするように構成されたユニットを表す。２Ｄ空間的変換ユニット９１４は、回転されたベースレイヤ９１５の係数を、以下の変換行列で乗算し得、この行列は、ＨＯＡ係数次数「００＋」、「１１−」、「１１＋」、およびＮ３Ｄ正規化を仮定している。

上記の行列は、３６０°の円が３つの部分に均等に分割されるように、方位角０°、１２０°および２４０°で空間的オーディオ信号９０５を計算する。上述のように、たとえば、６０°、１８０°および３００°で空間的信号を計算して、各部分が１２０度をカバーする限り、他の分割も可能である。

[0295]このようにして、本技法は、スケーラブル高次アンビソニックオーディオデータ符号化を実行するように構成されたデバイス９００を提供し得る。デバイス９００は、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤ９０３に関して、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を取得するために無相関化を実行するように構成され得る。

[0296]これらの事例および他の事例では、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤ９０３は、１以下の次数を有する１つまたは複数の球面基底関数に対応するアンビエント高次アンビソニック係数を備える。これらの事例および他の事例では、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤ９０３は、音場の水平方向態様を記述する球面基底関数にのみ対応するアンビエント高次アンビソニック係数を備える。これらの事例および他の事例では、音場の水平方向態様を記述する球面基底関数にのみ対応するアンビエント高次アンビソニック係数は、０の次数と０の副次数とを有する球面基底関数に対応する第１のアンビエント高次アンビソニック係数と、１の次数とマイナス１の副次数とを有する球面基底関数に対応する第２の高次アンビソニック係数と、１の次数と１の副次数とを有する球面基底関数に対応する第３の高次アンビソニック係数とを備え得る。

[0297]これらの事例および他の事例では、デバイス９００は、高次アンビソニックオーディオデータの第１のレイヤ９０３に関して（たとえば、２Ｄ回転ユニット９１２によって）変換を実行するように構成され得る。

[0298]これらの事例および他の事例では、デバイス９００は、高次アンビソニックオーディオデータの第１のレイヤ９０３に関して（たとえば、２Ｄ回転ユニット９１２によって）回転を実行するように構成され得る。

[0299]これらの事例および他の事例では、デバイス９００は、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤ９０３に関して、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を取得するために（たとえば、２Ｄ回転ユニット９１２によって）変換を適用し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を（たとえば、２Ｄ空間的変換ユニット９１４によって）球面調和領域から空間領域に変換するように構成され得る。

[0300]これらの事例および他の事例では、デバイス９００は、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤ９０３に関して、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの回転された表現９１５を取得するために回転を適用し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの回転された表現９１５を球面調和領域から空間領域に変換するように構成され得る。

[0301]これらの事例および他の事例では、デバイス９００は、変換情報９１１を取得し、変換情報９１１に基づいて、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤ９０３に関して、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を取得するために変換を適用し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を球面調和領域から空間領域に変換するように構成され得る。

[0302]これらの事例および他の事例では、デバイス９００は、回転情報９１１を取得し、回転情報９１１に基づいて、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤ９０３に関して、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの回転された表現９１５を取得するために回転を適用し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの回転された表現９１５を球面調和領域から空間領域に変換しているように構成され得る。

[0303]これらの事例および他の事例では、デバイス９００は、少なくとも部分的に平滑化関数を使用して、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤ９０３に関して、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を取得するために変換を適用し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を球面調和領域から空間領域に変換するように構成され得る。

[0304]これらの事例および他の事例では、デバイス９００は、少なくとも部分的に平滑化関数を使用して、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤ９０３に関して、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの回転された表現９１５を取得するために回転を適用し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの回転された表現９１５を球面調和領域から空間領域に変換するように構成され得る。

[0305]これらの事例および他の事例では、デバイス９００は、逆変換または逆回転を適用するときに使用されるべき平滑化関数の指示を指定するように構成され得る。

[0306]これらの事例および他の事例では、デバイス９００はさらに、Ｖベクトルを取得するために高次アンビソニックオーディオデータに線形可逆変換を適用し、図３に関して上記で説明されたように、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第２のレイヤとして、Ｖベクトルを指定するように構成され得る。

[0307]これらの事例および他の事例では、デバイス９００はさらに、１の次数と０の副次数とを有する球面基底関数に関連する高次アンビソニック係数を取得し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第２のレイヤとして、高次アンビソニック係数を指定するように構成され得る。

[0308]これらの事例および他の事例では、デバイス９００はさらに、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現に関して時間的符号化を実行するように構成され得る。

[0309]図３１は、本開示で説明される技法の様々な態様に従って動作するように構成され得るオーディオデコーダ９２０を示すブロック図である。デコーダ９２０は、ＨＯＡ係数を再構成すること、エンハンスメントレイヤのＶベクトルを再構成すること、（時間的オーディオ復号ユニット９２２によって実行される）時間的オーディオ復号を実行することなどの点で、図２の例に示されるオーディオ復号デバイス２４の別の例を表し得る。ただし、デコーダ９２０は、ビットストリームにおいて指定されるスケーラブルコーディングされた高次アンビソニックオーディオデータに関してデコーダ９２０が動作する点で異なる。

[0310]図３１の例に示されているように、オーディオデコーダ９２０は、時間的復号ユニット９２２と、逆２Ｄ空間的変換ユニット９２４と、ベースレイヤレンダリングユニット９２８と、エンハンスメントレイヤ処理ユニット９３０とを含む。時間的復号ユニット９２２は、時間的符号化ユニット９０６の場合とは逆の方法で動作するように構成され得る。逆２Ｄ空間的変換ユニット９２４は、２Ｄ空間的変換ユニット９１４の場合とは逆の方法で動作するように構成されたユニットを表し得る。

[0311]言い換えれば、逆２Ｄ空間的変換ユニット９２４は、回転された水平方向アンビエントＨＯＡ係数９１５（「回転されたベースレイヤ９１５」と呼ばれることもある）を取得するために、空間的オーディオ信号９０５に以下の行列を適用するように構成され得る。逆２Ｄ空間的変換ユニット９２４は、以下の変換行列を使用して、３個の送信されたオーディオ信号９０５をＨＯＡ領域に戻す形で変換することができ、この行列は上記の行列と同様に、ＨＯＡ係数次数「００＋」、「１１−」、「１１＋」、およびＮ３Ｄ正規化を仮定している。

上記の行列は、デコーダにおいて使用される変換行列の逆である。

[0312]逆２Ｄ回転ユニット９２６は、２Ｄ回転ユニット９１２に関して上記で説明された方法とは逆の方法で動作するように構成され得る。この点において、２Ｄ回転ユニット９１２は、回転角パラメータ９１１ではなく逆回転角パラメータ９１３に基づいて、上述の回転行列に従って回転を実行することができる。言い換えれば、逆回転ユニット９２６は、シグナリングされた回転φに基づいて、以下の行列を適用したことができ、この行列も、ＨＯＡ係数次数「００＋」、「１１−」、「１１＋」、およびＮ３Ｄ正規化を仮定している。

逆２Ｄ回転ユニット９２６は、ビットストリームにおいてシグナリングされ得るか、または事前に構成され得る、時間変動する回転角の平滑な遷移を確実にするために、デコーダにおいて使用される同じ平滑化（補間）関数を使用し得る。

[0313]ベースレイヤレンダリングユニット９２８は、ベースレイヤの水平方向限定アンビエントＨＯＡ係数をラウドスピーカーフィードにレンダラするように構成されたユニットを表し得る。エンハンスメントレイヤ処理ユニット９３０は、スピーカーフィードをレンダリングするために（追加のアンビエントＨＯＡ係数およびＶベクトルとＶベクトルに対応するオーディオオブジェクトとに関して上記で説明された復号の多くを伴う別個のエンハンスメントレイヤ復号経路を介して復号された）受信されたエンハンスメントレイヤによりベースレイヤのさらなる処理を実行するように構成されたユニットを表し得る。エンハンスメントレイヤ処理ユニット９３０は、音場内でより現実的に動く可能性のある音を有するより没入できるオーディオ経験を可能にし得る音場のより高い分解表現を提供するために、ベースレイヤを効果的に拡張し得る。ベースレイヤは、図１１〜図１３Ｂに関して上記で説明された第１のレイヤ、ベースレイヤ、またはベースサブレイヤのいずれかと同様であり得る。エンハンスメントレイヤは、図１１〜図１３Ｂに関して上記で説明された第２のレイヤ、エンハンスメントレイヤ、またはエンハンスメントサブレイヤのいずれかと同様であり得る。

[0314]この点において、本技法は、スケーラブル高次アンビソニックオーディオデータ復号を実行するように構成されたデバイス９２０を提供する。デバイスは、高次アンビソニックオーディオデータ（たとえば、空間的オーディオ信号９０５）の２つ以上のレイヤのうちの第１のレイヤの無相関化された表現を取得するように構成され得、高次アンビソニックオーディオデータは音場を記述する。第１のレイヤの無相関化された表現は、高次アンビソニックオーディオデータの第１のレイヤに関して無相関化を実行することによって無相関化される。

[0315]いくつかの事例では、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤは、１以下の次数を有する１つまたは複数の球面基底関数に対応するアンビエント高次アンビソニック係数を備える。これらの事例および他の事例では、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤは、音場の水平方向態様を記述する球面基底関数にのみ対応するアンビエント高次アンビソニック係数を備える。これらの事例および他の事例では、音場の水平方向態様を記述する球面基底関数にのみ対応するアンビエント高次アンビソニック係数は、０の次数と０の副次数とを有する球面基底関数に対応する第１のアンビエント高次アンビソニック係数と、１の次数とマイナス１の副次数とを有する球面基底関数に対応する第２の高次アンビソニック係数と、１の次数と１の副次数とを有する球面基底関数に対応する第３の高次アンビソニック係数とを備える。

[0316]これらの事例および他の事例では、第１のレイヤの無相関化された表現は、エンコーダ９００に関して上記で説明されたように、高次アンビソニックオーディオデータの第１のレイヤに関して変換を実行することによって、無相関化される。

[0317]これらの事例および他の事例では、デバイス９２０は、高次アンビソニックオーディオデータの第１のレイヤに関して（たとえば、逆２Ｄ回転ユニット９２６によって）回転を実行するように構成され得る。

[0318]これらの事例および他の事例では、デバイス９２０は、たとえば、逆２Ｄ空間的変換ユニット９２４および逆２Ｄ回転ユニット９２６に関して上記で説明されたように、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤを取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現を再相関化するように構成され得る。

[0319]これらの事例および他の事例では、デバイス９２０は、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を空間領域から球面調和領域に変換し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤを取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５に関して（たとえば、逆２Ｄ回転ユニット９２６に関して上記で説明されたように）逆変換を適用するように構成され得る。

[0320]これらの事例および他の事例では、デバイス９２０は、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を空間領域から球面調和領域に変換し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤを取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５に関して逆回転を適用するように構成され得る。

[0321]これらの事例および他の事例では、デバイス９２０は、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を空間領域から球面調和領域に変換し、変換情報９１３を取得し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤを取得するために、変換情報９１３に基づいて高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５に関して逆変換を適用するように構成され得る。

[0322]これらの事例および他の事例では、デバイス９２０は、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を空間領域から球面調和領域に変換し、回転情報９１３を取得し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤを取得するために、回転情報９１３に基づいて高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５に関して逆回転を適用するように構成され得る。

[0323]これらの事例および他の事例では、デバイス９２０は、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を空間領域から球面調和領域に変換し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤを取得するために、少なくとも部分的に平滑化関数を使用して高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５に関して逆変換を適用するように構成され得る。

[0324]これらの事例および他の事例では、デバイス９２０は、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５を取得するために、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの無相関化された表現９０５を空間領域から球面調和領域に変換し、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤを取得するために、少なくとも部分的に平滑化関数を使用して高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第１のレイヤの変換された表現９１５に関して逆回転を適用するように構成され得る。

[0325]これらの事例および他の事例では、デバイス９２０はさらに、逆変換または逆回転を適用するときに使用されるべき平滑化関数の指示を取得するように構成され得る。

[0326]これらの事例および他の事例では、デバイス９２０はさらに、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第２のレイヤの表現を取得するように構成され得、ここで、第２のレイヤの表現が、ベクトルベースの支配的オーディオデータを備え、ベクトルベースの支配的オーディオデータが少なくとも、支配的オーディオデータと符号化されたＶベクトルとを備え、符号化されたＶベクトルが、図３の例に関して上記で説明されたように、線形可逆変換の適用を通じて高次アンビソニックオーディオデータから分解される。

[0327]これらの事例および他の事例では、デバイス９２０はさらに、高次アンビソニックオーディオデータの２つ以上のレイヤのうちの第２のレイヤの表現を取得するように構成され得、ここで、第２のレイヤの表現が、１の次数と０の副次数とを有する球面基底関数に関連する高次アンビソニック係数を備える。

[0328]このようにして、本技法は、以下の項に記載された方法を実行するようにデバイスが構成されることを可能にすること、または実行するための手段を備える装置、もしくは実行されると、１つもしくは複数のプロセッサに実行させる命令を記憶した非一時的コンピュータ可読媒体を提供することができる。

[0329]項１Ａ。ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化する方法であって、前記ビットストリームにおけるレイヤの数の指示を指定することと、前記レイヤの前記指示された数を含む前記ビットストリームを出力することとを備える方法。

[0330]項２Ａ。前記ビットストリームに含まれるチャネルの数の指示を指定することをさらに備える、項１Ａに記載の方法。

[0331]項３Ａ。レイヤの前記数の前記指示は、以前のフレームに関する、前記ビットストリームにおけるレイヤの数の指示を備え、本方法は、現在のフレームに関して、前記ビットストリームのレイヤの数が、以前のフレームに関するビットストリームのレイヤの数と比較して、変化しているかどうかの指示を前記ビットストリームにおいて指定することと、前記現在のフレームにおける前記ビットストリームのレイヤの前記指示された数を指定することとをさらに備える、項１Ａに記載の方法。

[0332]項４Ａ。レイヤの前記指示された数を指定することは、前記現在のフレームにおいて、前記ビットストリームの前記レイヤの数が、前記以前のフレームにおける前記ビットストリームのレイヤの前記数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームに関する前記レイヤのうちの１つまたは複数におけるバックグラウンド成分の現在の数が、前記以前のフレームの前記レイヤのうちの１つまたは複数におけるバックグラウンド成分の以前の数に等しいことの指示を、前記ビットストリームにおいて指定することなく、レイヤの指示された数を指定することを備える、項３Ａに記載の方法。

[0333]項５Ａ。前記レイヤは、第１のレイヤが第２のレイヤと組み合わせられたときに、前記高次アンビソニックオーディオ信号のより高い分解能表現を提供するように、階層的である、項１Ａに記載の方法。

[0334]項６Ａ。前記ビットストリームの前記レイヤは、ベースレイヤとエンハンスメントレイヤとを備え、本方法は、前記高次アンビソニックオーディオ信号のバックグラウンド成分の無相関化された表現を取得するために、前記ベースレイヤの１つまたは複数のチャネルに関して無相関化変換を適用することをさらに備える、項１Ａに記載の方法。

[0335]項７Ａ。前記無相関化変換はＵＨＪ変換を備える、項６Ａに記載の方法。

[0336]項８Ａ。前記無相関化変換はモード行列変換を備える、項６Ａに記載の方法。

[0337]その上、本技法は、以下の項に記載された方法を実行するようにデバイスが構成されることを可能にすること、または実行するための手段を備える装置、もしくは実行されると、１つもしくは複数のプロセッサに実行させる命令を記憶した非一時的コンピュータ可読媒体を提供することができる。

[0338]項１Ｂ。ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化する方法であって、前記ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を、前記ビットストリームにおいて指定することと、前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルの前記指示された数を指定することとを備える方法。

[0339]項２Ｂ。前記ビットストリームにおいて指定されたチャネルの総数の指示を指定することをさらに備え、チャネルの前記指示された数を指定することは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルの前記指示された総数を指定することを備える、項１Ｂに記載の方法。

[0340]項３Ｂ。前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定されたチャネルのうちの１つの指示タイプを指定することをさらに備え、チャネルの前記指示された数を指定することは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルのうちの前記１つの前記指示されたタイプの前記指示された数を指定することを備える、項１Ｂに記載の方法。

[0341]項４Ｂ。前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定されたチャネルのうちの１つの指示タイプを指定することをさらに備え、前記チャネルのうちの前記１つのタイプの前記指示が、前記チャネルのうちの前記１つがフォアグラウンドチャネルであることを示し、チャネルの前記指示された数を指定することが、前記ビットストリームの前記１つまたは複数のレイヤにおける前記フォアグラウンドチャネルを指定することを備える、項１Ｂに記載の方法。

[0342]項５Ｂ。前記ビットストリームにおいて指定されたレイヤの数の指示を、前記ビットストリームにおいて指定することをさらに備える、項１Ｂに記載の方法。

[0343]項６Ｂ。前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つの指示タイプを指定することをさらに備え、前記チャネルのうちの前記１つの前記タイプの前記指示が、前記チャネルのうちの前記１つがバックグラウンドチャネルであることを示し、前記チャネルの前記指示された数を指定することは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記バックグラウンドチャネルを指定することを備える、項１Ｂに記載の方法。

[0344]項７Ｂ。前記チャネルのうちの前記１つはバックグラウンド高次アンビソニック係数を備える、項６Ｂに記載の方法。

[0345]項１Ｂ。チャネルの前記数の前記指示を指定することは、前記レイヤのうちの１つが指定された後に、前記ビットストリームにおいて残存するチャネルの数に基づいて、チャネルの前記数の指示を指定することを備える、項１Ｂに記載の方法。

[0346]このようにして、本技法は、以下の項に記載された方法を実行するようにデバイスが構成されることを可能にすること、または実行するための手段を備える装置、もしくは実行されると、１つもしくは複数のプロセッサに実行させる命令を記憶した非一時的コンピュータ可読媒体を提供することができる。

[0347]項１Ｃ。高次アンビソニックオーディオ信号を表すビットストリームを復号する方法であって、前記ビットストリームにおいて指定されたレイヤの数の指示を、前記ビットストリームから取得することと、レイヤの前記数の前記指示に基づいて前記ビットストリームの前記レイヤを取得することとを備える方法。

[0348]項２Ｃ。前記ビットストリームにおいて指定されたチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、レイヤの前記数の前記指示およびチャネルの前記数の前記指示に基づいて、前記ビットストリームの前記レイヤを取得することを備える、項１Ｃに記載の方法。

[0349]項３Ｃ。前記レイヤのうちの少なくとも１つに関する、前記ビットストリームにおいて指定されたフォアグラウンドチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、フォアグラウンドチャネルの前記数の前記指示に基づいて、前記ビットストリームの前記レイヤのうちの前記少なくとも１つに関するフォアグラウンドチャネルを取得することを備える、項１Ｃに記載の方法。

[0350]項４Ｃ。前記レイヤのうちの少なくとも１つに関する、前記ビットストリームにおいて指定されたバックグラウンドチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、バックグラウンドチャネルの前記数の前記指示に基づいて、前記ビットストリームの前記レイヤのうちの前記少なくとも１つに関するバックグラウンドチャネルを取得することを備える、項１Ｃに記載の方法。

[0351]項５Ｃ。前記レイヤの前記数の前記指示は、レイヤの前記数が２であることを示し、前記２つのレイヤは、ベースレイヤとエンハンスメントレイヤとを備え、前記レイヤを取得することは、フォアグラウンドチャネルの数が前記ベースレイヤに関して０、前記エンハンスメントレイヤに関して２であることの指示を取得することを備える、項１Ｃに記載の方法。

[0352]項６Ｃ。前記レイヤの前記数の前記指示は、レイヤの前記数が２であることを示し、前記２つのレイヤは、ベースレイヤとエンハンスメントレイヤとを備え、本方法は、バックグラウンドチャネルの数が前記ベースレイヤに関して４、前記エンハンスメントレイヤに関して０であることの指示を取得することをさらに備える、項１Ｃまたは５Ｃに記載の方法。

[0353]項７。前記レイヤの前記数の前記指示は、レイヤの前記数が３であることを示し、前記３つのレイヤは、ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとを備え、本方法は、フォアグラウンドチャネルの数が前記ベースレイヤに関して０、前記第１のエンハンスメントレイヤに関して２、前記第３のエンハンスメントレイヤに関して２であることの指示を取得することをさらに備える、項１Ｃに記載の方法。

[0354]項８Ｃ。前記レイヤの前記数の前記指示は、レイヤの前記数が３であることを示し、前記３つのレイヤは、ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとを備え、本方法は、バックグラウンドチャネルの数が前記ベースレイヤに関して２、前記第１のエンハンスメントレイヤに関して０、前記第３のエンハンスメントレイヤに関して０であることの指示を取得することをさらに備える、項１Ｃまたは７Ｃに記載の方法。

[0355]項９Ｃ。前記レイヤの前記数の前記指示は、レイヤの前記数が３であることを示し、前記３つのレイヤは、ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとを備え、本方法は、フォアグラウンドチャネルの数が前記ベースレイヤに関して２、前記第１のエンハンスメントレイヤに関して２、前記第３のエンハンスメントレイヤに関して２であることの指示を取得することをさらに備える、項１Ｃに記載の方法。

[0356]項１０Ｃ。前記レイヤの前記数の前記指示は、レイヤの前記数が３であることを示し、前記３つのレイヤは、ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとを備え、本方法は、バックグラウンドチャネルの数が前記ベースレイヤに関して０、前記第１のエンハンスメントレイヤに関して０、前記第３のエンハンスメントレイヤに関して０であることを示すバックグラウンドシンタックス要素を取得することをさらに備える、項１Ｃまたは９Ｃに記載の方法。

[0357]項１１Ｃ。前記レイヤの前記数の前記指示は、前記ビットストリームの以前のフレームにおけるレイヤの数の指示を備え、本方法は、現在のフレームにおいて、前記ビットストリームのレイヤの数が、前記以前のフレームにおける前記ビットストリームのレイヤの数と比較して、変化しているかどうかの指示を取得することと、前記現在のフレームにおいて前記ビットストリームのレイヤの数が変化しているかどうかの指示に基づいて、前記現在のフレームにおけるビットストリームのレイヤの数を取得することとをさらに備える、項１Ｃに記載の方法。

[0358]項１２Ｃ。前記現在のフレームにおける前記ビットストリームのレイヤの数が、前記以前のフレームにおける前記ビットストリームのレイヤの数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームにおける前記ビットストリームのレイヤの数を、前記以前のフレームにおける前記ビットストリームのレイヤの数と同じものとして決定することをさらに備える、項１１Ｃに記載の方法。

[0359]項１３Ｃ。前記現在のフレームにおいて、前記ビットストリームのレイヤの数が、前記以前のフレームにおける前記ビットストリームのレイヤの数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームに関するレイヤのうちの１つまたは複数における成分の現在の数が、前記以前のフレームのレイヤのうちの１つまたは複数における成分の以前の数と同じであることの指示を取得することをさらに備える、項１１Ｃに記載の方法。

[0360]項１４Ｃ。レイヤの前記数の前記指示は、前記ビットストリームにおいて３つのレイヤが指定されていることを示し、前記レイヤを取得することは、ステレオチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第１のものを取得することと、１つまたは複数の水平面上に配置された３つ以上のスピーカーによる３次元再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第２のものを取得することと、前記高次アンビソニックオーディオ信号のフォアグラウンド成分を示すビットストリームのレイヤのうちの第３のものを取得することと、を備える、項１Ｃに記載の方法。

[0361]項１５Ｃ。レイヤの前記数の前記指示は、前記ビットストリームにおいて３つのレイヤが指定されていることを示し、前記レイヤを取得することは、モノチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第１のものを取得することと、１つまたは複数の水平面上に配置された３つ以上のスピーカーによる３次元再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第２のものを取得することと、前記高次アンビソニックオーディオ信号のフォアグラウンド成分を示す前記ビットストリームのレイヤのうちの第３のものを取得することとを備える、項１Ｃに記載の方法。

[0362]項１６Ｃ。レイヤの前記数の前記指示は、前記ビットストリームにおいて３つのレイヤが指定されていることを示し、前記レイヤを取得することは、ステレオチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第１のものを取得することと、単一の水平面上に配置された３つ以上のスピーカーによるマルチチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第２のものを取得することと、２つ以上の水平面上に配置された３つ以上のスピーカーによる３次元再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第３のものを取得することと、前記高次アンビソニックオーディオ信号のフォアグラウンド成分を示す前記ビットストリームのレイヤのうちの第４のものを取得することとを備える、項１Ｃに記載の方法。

[0363]項１７Ｃ。レイヤの前記数の前記指示は、前記ビットストリームにおいて３つのレイヤが指定されていることを示し、前記レイヤを取得することは、モノチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第１のものを取得することと、単一の水平面上に配置された３つ以上のスピーカーによるマルチチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第２のものを取得することと、２つ以上の水平面上に配置された３つ以上のスピーカーによる３次元再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第３のものを取得することと、前記高次アンビソニックオーディオ信号のフォアグラウンド成分を示す前記ビットストリームのレイヤのうちの第４のものを取得することとを備える、項１Ｃに記載の方法。

[0364]項１８Ｃ。レイヤの前記数の前記指示は、前記ビットストリームにおいて２つのレイヤが指定されていることを示し、前記レイヤを取得することは、ステレオチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第１のものを取得することと、単一の水平面上に配置された３つ以上のスピーカーによる水平方向マルチチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第２のものを取得することとを備える、項１Ｃに記載の方法。

[0365]項１９Ｃ。前記ビットストリームにおいて指定されたチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、レイヤの前記数の前記指示およびチャネルの前記数の前記指示に基づいて前記ビットストリームの前記レイヤを取得することを備える、項１Ｃに記載の方法。

[0366]項２０Ｃ。前記レイヤのうちの少なくとも１つに関する、前記ビットストリームにおいて指定されたフォアグラウンドチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、フォアグラウンドチャネルの前記数の前記指示に基づいて、前記ビットストリームの前記レイヤのうちの前記少なくとも１つに関する前記フォアグラウンドチャネルを取得することを備える、項１Ｃに記載の方法。

[0367]項２１Ｃ。前記レイヤのうちの少なくとも１つに関する、前記ビットストリームにおいて指定されたバックグラウンドチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、バックグラウンドチャネルの前記数の前記指示に基づいて、前記ビットストリームの前記レイヤのうちの前記少なくとも１つに関する前記バックグラウンドチャネルを取得することを備える、項１Ｃに記載の方法。

[0368]項２２Ｃ。前記レイヤのうちの少なくとも１つに関する、前記ビットストリームにおいて指定されたフォアグラウンドチャネルの数の指示を、前記レイヤのうちの前記少なくとも１つが取得された後に前記ビットストリームにおいて残存するチャネルの数に基づいて解析することをさらに備え、前記レイヤを取得することが、フォアグラウンドチャネルの前記数の前記指示に基づいて、前記レイヤのうちの前記少なくとも１つのフォアグラウンドチャネルを取得することを備える、項１Ｃに記載の方法。

[0369]項２３Ｃ。前記レイヤのうちの前記少なくとも１つが取得された後に前記ビットストリームにおいて残存するチャネルの前記数は、シンタックス要素によって表される、項２２Ｃに記載の方法。

[0370]項２４Ｃ。前記レイヤのうちの少なくとも１つに関する、前記ビットストリームにおいて指定されたバックグラウンドチャネルの数の指示を、前記レイヤのうちの前記少なくとも１つが取得された後のチャネルの数に基づいて解析することをさらに備え、前記バックグラウンドチャネルを取得することが、バックグラウンドチャネルの前記数の前記指示に基づいて、前記ビットストリームから前記レイヤのうちの前記少なくとも１つに関する前記バックグラウンドチャネルを取得することを備える、項１Ｃに記載の方法。

[0371]項２５Ｃ。前記レイヤのうちの前記少なくとも１つが取得された後に前記ビットストリームにおいて残存するチャネルの前記数は、シンタックス要素によって表される、項２４Ｃに記載の方法。

[0372]項２６Ｃ。前記ビットストリームの前記レイヤは、ベースレイヤとエンハンスメントレイヤとを備え、本方法は、前記高次アンビソニックオーディオ信号のバックグラウンド成分の相関化された表現を取得するために、ベースレイヤの１つまたは複数のチャネルに関して相関化変換を適用することをさらに備える、項１Ｃに記載の方法。

[0373]項２７Ｃ。前記相関化変換は逆ＵＨＪ変換を備える、項２６Ｃに記載の方法。

[0374]項２８Ｃ。前記相関化変換は逆モード行列変換を備える、項２６Ｃに記載の方法。

[0375]項２９Ｃ。前記ビットストリームの前記レイヤの各々に関するチャネルの数は固定である、項１Ｃに記載の方法。

[0376]その上、本技法は、以下の項に記載された方法を実行するようにデバイスが構成されることを可能にすること、または実行するための手段を備える装置、もしくは実行されると、１つもしくは複数のプロセッサに実行させる命令を記憶した非一時的コンピュータ可読媒体を提供することができる。

[0377]項１Ｄ。高次アンビソニックオーディオ信号を表すビットストリームを復号する方法であって、前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を、前記ビットストリームから取得することと、チャネルの前記数の前記指示に基づいて、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得することとを備える方法。

[0378]項２Ｄ。前記ビットストリームにおいて指定されたチャネルの総数の指示を取得することをさらに備え、前記チャネルを取得することが、前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数の前記指示およびチャネルの前記総数の前記指示に基づいて、前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得することを備える、項１Ｄに記載の方法。

[0379]項３Ｄ。前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を取得することをさらに備え、前記チャネルを取得することが、チャネルの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプの前記指示に基づいて、前記チャネルのうちの前記１つを取得することを備える、項１Ｄに記載の方法。

[0380]項４Ｄ。前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つの指示タイプを取得することをさらに備え、前記チャネルのうちの前記１つの前記タイプの前記指示が、前記チャネルのうちの前記１つがフォアグラウンドチャネルであることを示し、前記チャネルを取得することが、チャネルの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプが前記フォアグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記１つを取得することを備える、項１Ｄに記載の方法。

[0381]項５Ｄ。前記ビットストリームにおいて指定された前記レイヤの数の指示を取得することをさらに備え、前記チャネルを取得することが、チャネルの前記数の前記指示およびレイヤの前記数の前記指示に基づいて、前記チャネルのうちの前記１つを取得することを備える、項１Ｄに記載の方法。

[0382]項６Ｄ。レイヤの前記数の前記指示は、前記ビットストリームの以前のフレームにおけるレイヤの数の指示を備え、本方法は、現在のフレームにおいて、前記ビットストリームにおいて、１つまたは複数のレイヤにおいて指定されたチャネルのレイヤの数が、前記以前のフレームの前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数と比較して、変化しているかどうかの指示を取得することを備え、前記チャネルを取得することは、前記現在のフレームにおいて、前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの前記数が変化しているかどうかの前記指示に基づいて、前記チャネルのうちの前記１つを取得することを備える、項５Ｄに記載の方法。

[0383]項７Ｄ。前記現在のフレームにおいて、前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数が、前記以前のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数を、前記以前のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数と同じものとして決定することをさらに備える、項５Ｄに記載の方法。

[0384]項８Ｄ。１つまたは複数のプロセッサは、前記現在のフレームにおいて、前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数が、前記以前のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームに関する前記レイヤのうちの１つまたは複数におけるチャネルの現在の数が、前記以前のフレームの前記レイヤのうちの１つまたは複数におけるチャネルの以前の数と同じであることの指示を取得するようにさらに構成される、項５Ｄに記載の方法。

[0385]項９Ｄ。前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を取得することをさらに備え、前記チャネルのうちの前記１つの前記タイプの前記指示が、前記チャネルのうちの前記１つがバックグラウンドチャネルであることを示し、前記チャネルを取得することが、レイヤの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプが前記バックグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記１つを取得することを備える、項１Ｄに記載の方法。

[0386]項１０Ｄ。前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つの指示タイプを取得することをさらに備え、前記チャネルのうちの前記１つの前記タイプの前記指示が、前記チャネルのうちの前記１つがバックグラウンドチャネルであることを示し、前記チャネルを取得することが、レイヤの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプが前記バックグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記１つを取得することを備える、項９Ｄに記載の方法。

[0387]項１１Ｄ。前記チャネルのうちの前記１つはバックグラウンド高次アンビソニック係数を備える、項９Ｄに記載の方法。

[0388]項１２Ｄ。前記チャネルのうちの前記１つの前記タイプの前記指示を取得することは、前記チャネルのうちの前記１つの前記タイプを示すシンタックス要素を取得することを備える、項９Ｄに記載の方法。

[0389]項１３Ｄ。チャネルの前記数の前記指示を指定することは、前記レイヤのうちの１つが取得された後に前記ビットストリームにおいて残存するチャネルの数に基づいて、チャネルの前記数の指示を取得することを備える、項１Ｄに記載の方法。

[0390]項１４Ｄ。前記レイヤはベースレイヤを備える、項１Ｄに記載の方法。

[0391]項１５Ｄ。前記レイヤはベースレイヤと１つまたは複数のエンハンスメントレイヤとを備える、項１Ｄに記載の方法。

[0392]項１６Ｄ。前記１つまたは複数のレイヤの数は固定である、項１Ｄに記載の方法。

[0393]上記の技法は、任意の数の異なるコンテキストおよびオーディオエコシステムに関して実行され得る。いくつかの例示的なコンテキストが以下で説明されるが、本技法はそれらの例示的なコンテキストに限定されるべきではない。１つの例示的なオーディオエコシステムは、オーディオコンテンツと、映画スタジオと、音楽スタジオと、ゲーミングオーディオスタジオと、チャネルベースオーディオコンテンツと、コーディングエンジンと、ゲームオーディオステムと、ゲームオーディオコーディング／レンダリングエンジンと、配信システムとを含み得る。

[0394]映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信し得る。いくつかの例では、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション（ＤＡＷ）を使用することなどによって、（たとえば、２．０、５．１、および７．１の）チャネルベースオーディオコンテンツを出力し得る。音楽スタジオは、ＤＡＷを使用することなどによって、（たとえば、２．０、および５．１の）チャネルベースオーディオコンテンツを出力し得る。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、チャネルベースオーディオコンテンツベースの１つまたは複数のコーデック（たとえば、ＡＡＣ、ＡＣ３、ドルビートゥルーＨＤ、ドルビーデジタルプラス、およびＤＴＳマスタオーディオ）を受信し符号化し得る。ゲーミングオーディオスタジオは、ＤＡＷを使用することなどによって、１つまたは複数のゲームオーディオステムを出力し得る。ゲームオーディオコーディング／レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングし得る。本技法が実行され得る別の例示的なコンテキストは、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、ＨＯＡオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、ＴＶ、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。

[0395]放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、ＨＯＡオーディオフォーマットを使用してそれらの出力をコーディングし得る。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、ＴＶ、およびアクセサリ、ならびにカーオーディオシステムを使用して再生され得る単一の表現へと、ＨＯＡオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム１６など、汎用的なオーディオ再生システムにおいて（すなわち、５．１、７．１などの特定の構成を必要とすることとは対照的に）再生され得る。

[0396]本技法が実行され得るコンテキストの他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、ワイヤードおよび／またはワイヤレス獲得デバイス（たとえば、Ｅｉｇｅｎマイクロフォン）と、オンデバイスサラウンドサウンドキャプチャと、モバイルデバイス（たとえば、スマートフォンおよびタブレット）とを含み得る。いくつかの例では、ワイヤードおよび／またはワイヤレス獲得デバイスは、ワイヤードおよび／またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。

[0397]本開示の１つまたは複数の技法によれば、モバイルデバイスは、音場を獲得するために使用され得る。たとえば、モバイルデバイスは、ワイヤードおよび／もしくはワイヤレス獲得デバイス、ならびに／またはオンデバイスサラウンドサウンドキャプチャ（たとえば、モバイルデバイスに統合された複数のマイクロフォン）を介して、音場を獲得し得る。モバイルデバイスは、次いで、再生要素のうちの１つまたは複数による再生のために、獲得された音場をＨＯＡ係数へとコーディングし得る。たとえば、モバイルデバイスのユーザは、ライブイベント（たとえば、会合、会議、劇、コンサートなど）を録音し（ライブイベントの音場を獲得し）、録音をＨＯＡ係数へとコーディングし得る。

[0398]モバイルデバイスはまた、ＨＯＡコーディングされた音場を再生するために、再生要素のうちの１つまたは複数を利用し得る。たとえば、モバイルデバイスは、ＨＯＡコーディングされた音場を復号し、再生要素のうちの１つまたは複数に信号を出力し得、それにより、再生要素のうちの１つまたは複数は音場を再作成することになる。一例として、モバイルデバイスは、１つまたは複数のスピーカー（たとえば、スピーカーアレイ、サウンドバーなど）に信号を出力するためにワイヤレスおよび／またはワイヤレス通信チャネルを利用し得る。別の例として、モバイルデバイスは、１つもしくは複数のドッキングステーションならびに／または１つもしくは複数のドッキングされたスピーカー（たとえば、スマートカーおよび／もしくはスマートホーム内のサウンドシステム）に信号を出力するために、ドッキングソリューションを利用し得る。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、たとえばリアルなバイノーラルサウンドを作成するために、ヘッドフォンレンダリングを利用し得る。

[0399]いくつかの例では、特定のモバイルデバイスは、３Ｄ音場を獲得することと、より後の時間に同じ３Ｄ音場を再生することの両方を行い得る。いくつかの例では、モバイルデバイスは、３Ｄ音場を獲得し、３Ｄ音場をＨＯＡへと符号化し、符号化された３Ｄ音場を再生のために１つまたは複数の他のデバイス（たとえば、他のモバイルデバイスおよび／または他の非モバイルデバイス）に送信し得る。

[0400]本技法が実行され得るＹまた別のコンテキストは、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、ＨＯＡ信号の編集をサポートし得る１つまたは複数のＤＡＷを含み得る。たとえば、１つまたは複数のＤＡＷは、１つまたは複数のゲームオーディオシステムとともに動作する（たとえば、機能する）ように構成され得るＨＯＡプラグインおよび／またはツールを含み得る。いくつかの例では、ゲームスタジオは、ＨＯＡをサポートする新しいステムフォーマットを出力し得る。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングし得るレンダリングエンジンに、コーディングされたオーディオコンテンツを出力し得る。

[0401]本技法はまた、例示的なオーディオ獲得デバイスに関して実行され得る。たとえば、本技法は、３Ｄ音場を録音するようにまとめて構成された複数のマイクロフォンを含み得る、Ｅｉｇｅｎマイクロフォンに関して実行され得る。いくつかの例では、Ｅｉｇｅｎマイクロフォンの複数のマイクロフォンは、約４ｃｍの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例では、オーディオ符号化デバイス２０は、ビットストリーム２１をマイクロフォンから直接出力するために、Ｅｉｇｅｎマイクロフォンに統合され得る。

[0402]別の例示的なオーディオ獲得コンテキストは、１つまたは複数のＥｉｇｅｎマイクロフォンなど、１つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図３のオーディオエンコーダ２０などのオーディオエンコーダを含み得る。

[0403]モバイルデバイスはまた、いくつかの場合には、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、Ｘ、Ｙ、Ｚのダイバーシティを有し得る。いくつかの例では、モバイルデバイスは、モバイルデバイスの１つまたは複数の他のマイクロフォンに関してＸ、Ｙ、Ｚのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図３のオーディオエンコーダ２０などのオーディオエンコーダを含み得る。

[0404]耐衝撃性のビデオキャプチャデバイスは、３Ｄ音場を録音するようにさらに構成され得る。いくつかの例では、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。たとえば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周りすべての活動（たとえば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など）を表す３Ｄ音場をキャプチャし得る。

[0405]本技法はまた、３Ｄ音場を録音するように構成され得る、アクセサリで増強されたモバイルデバイスに関して実行され得る。いくつかの例では、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、１つまたは複数のアクセサリが追加されている。たとえば、Ｅｉｇｅｎマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述のモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの３Ｄ音場をキャプチャし得る。

[0406]本開示で説明される技法の様々な態様を実行し得る例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の１つまたは複数の技法によれば、スピーカーおよび／またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として３Ｄ音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、ワイヤード接続またはワイヤレス接続のいずれかを介してデコーダ２４に結合され得る。本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。

[0407]また、いくつかの異なる例示的なオーディオ再生環境は、本開示で説明される技法の様々な態様を実行するために好適であり得る。たとえば、５．１スピーカー再生環境、２．０（たとえば、ステレオ）スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う９．１スピーカー再生環境、２２．２スピーカー再生環境、１６．０スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を実行するために好適な環境であり得る。

[0408]本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダラが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。たとえば、設計上の考慮事項が、７．１スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合（たとえば、右側のサラウンドスピーカーを配置することが可能ではない場合）、本開示の技法は、再生が６．１スピーカー再生環境で達成され得るように、レンダーが他の６つのスピーカーで補償することを可能にする。

[0409]その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見得る。本開示の１つまたは複数の技法によれば、スポーツの試合の３Ｄ音場が獲得され得（たとえば、１つまたは複数のＥｉｇｅｎマイクロフォンが野球場の中および／または周りに配置され得）、３Ｄ音場に対応するＨＯＡ係数が取得されデコーダに送信され得、デコーダはＨＯＡ係数に基づいて３Ｄ音場を再構成して、再構成された３Ｄ音場をレンダラに出力し得、レンダラは、再生環境のタイプ（たとえば、ヘッドフォン）についての指示を取得し、再構成された３Ｄ音場を、ヘッドフォンにスポーツの試合の３Ｄ音場の表現を出力させる信号へとレンダリングし得る。

[0410]上記で説明された様々な事例の各々において、オーディオ符号化デバイス２０は、ある方法を実行し、またはさもなければ、オーディオ符号化デバイス２０が実行するように構成された方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの事例では、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの事例では、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成された専用プロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ符号化デバイス２０が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0411]１つまたは複数の例において、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、またはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実装のために命令、コードおよび／またはデータ構造を取り出すために、１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含むことできる。

[0412]同様に、上記で説明された様々な事例の各々において、オーディオ復号デバイス２４は、ある方法を実行し、またはさもなければ、オーディオ復号デバイス２４が実行するように構成された方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの事例では、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの事例では、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成された専用プロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ復号デバイス２４が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0413]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気ストレージデバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、代わりに、非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ディスク（disk）は通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[0414]命令は、１つもしくは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブル論理アレイ（ＦＰＧＡ）、または他の等価な集積回路もしくはディスクリート論理回路など、１つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明される機能は、符号化および復号のために構成された専用のハードウェアおよび／もしくはソフトウェアモジュール内で与えられ、または複合コーデックに組み込まれ得る。また、本技法は、１つまたは複数の回路または論理要素で十分に実装され得る。

[0415]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置で実装され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を実行するように構成されたデバイスの機能的態様を強調するように本開示において記載されているが、異なるハードウェアユニットによる実現を必ずしも必要としない。むしろ、上記で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記で説明された１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作可能なハードウェアユニットの集合によって与えられ得る。

[0416]本開示の様々な態様が説明された。本技法のこれらの態様および他の態様は、以下の特許請求の範囲内に入る。

[0416]本開示の様々な態様が説明された。本技法のこれらの態様および他の態様は、以下の特許請求の範囲内に入る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
高次アンビソニックオーディオ信号を表すビットストリームを復号するように構成されたデバイスであって、
前記ビットストリームを記憶するように構成されたメモリと、
前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を前記ビットストリームから取得することと、
チャネルの前記数の前記指示に基づいて、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得することと、
を行うように構成された１つまたは複数のプロセッサと、
を備えるデバイス。
［Ｃ２］
前記１つまたは複数のプロセッサは、前記ビットストリームにおいて指定されたチャネルの総数の指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数の前記指示およびチャネルの前記総数の前記指示に基づいて、前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得するように構成される、Ｃ１に記載のデバイス。
［Ｃ３］
前記１つまたは複数のプロセッサは、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、チャネルの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプの前記指示に基づいて、前記チャネルのうちの前記１つを取得するように構成される、Ｃ１に記載のデバイス。
［Ｃ４］
前記１つまたは複数のプロセッサは、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を取得するようにさらに構成され、前記チャネルのうちの前記１つの前記タイプの前記指示は、前記チャネルのうちの前記１つがフォアグラウンドチャネルであることを示し、
前記１つまたは複数のプロセッサは、チャネルの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプが前記フォアグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記１つを取得するように構成される、Ｃ１に記載のデバイス。
［Ｃ５］
前記プロセッサは、前記ビットストリームにおいて指定されたレイヤの数の指示を取得するようにさらに構成され、
前記プロセッサは、チャネルの前記数の前記指示およびレイヤの前記数の前記指示に基づいて、前記チャネルのうちの前記１つを取得するように構成される、Ｃ１に記載のデバイス。
［Ｃ６］
レイヤの前記数の前記指示は、前記ビットストリームの以前のフレームにおけるレイヤの数の指示を備え、
前記１つまたは複数のプロセッサは、現在のフレームにおいて、前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの前記数が、前記以前のフレームの前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数と比較して、変化しているかどうかの指示を取得するようにさらに構成され、
前記プロセッサは、前記現在のフレームにおいて、前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの前記数が変化しているかどうかの前記指示に基づいて、前記チャネルのうちの前記１つを取得するように構成される、Ｃ５に記載のデバイス。
［Ｃ７］
前記１つまたは複数のプロセッサは、前記現在のフレームにおいて、前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数が、前記以前のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数を、前記以前のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数と同じものとして決定するようにさらに構成される、Ｃ５に記載のデバイス。
［Ｃ８］
前記１つまたは複数のプロセッサは、前記現在のフレームにおいて、前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数が、前記以前のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームに関する前記レイヤのうちの１つまたは複数におけるチャネルの現在の数が、前記以前のフレームの前記レイヤのうちの１つまたは複数におけるチャネルの以前の数と同じであることの指示を取得するようにさらに構成される、Ｃ５に記載のデバイス。
［Ｃ９］
前記高次アンビソニックオーディオ信号に基づいて、音場を再生するように構成されたラウドスピーカーをさらに備える、Ｃ１に記載のデバイス。
［Ｃ１０］
高次アンビソニックオーディオ信号を表すビットストリームを復号する方法であって、
前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を前記ビットストリームから取得することと、
チャネルの前記数の前記指示に基づいて、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得することと、
を備える方法。
［Ｃ１１］
前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を取得することをさらに備え、前記チャネルのうちの前記１つの前記タイプの前記指示は、前記チャネルのうちの前記１つがバックグラウンドチャネルであることを示し、
前記チャネルを取得することは、レイヤの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプが前記バックグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記１つを取得することを備える、Ｃ１０に記載の方法。
［Ｃ１２］
前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つの指示タイプを取得することをさらに備え、前記チャネルのうちの前記１つの前記タイプの前記指示が、前記チャネルのうちの前記１つがバックグラウンドチャネルであることを示し、
前記チャネルを取得することは、レイヤの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプが前記バックグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記１つを取得することを備える、Ｃ１１に記載の方法。
［Ｃ１３］
前記チャネルのうちの前記１つはバックグラウンド高次アンビソニック係数を備える、Ｃ１１に記載の方法。
［Ｃ１４］
前記チャネルのうちの前記１つの前記タイプの前記指示を取得することは、前記チャネルのうちの前記１つの前記タイプを示すシンタックス要素を取得することを備える、Ｃ１１に記載の方法。
［Ｃ１５］
チャネルの前記数の前記指示を取得することは、前記レイヤのうちの１つが取得された後に前記ビットストリームにおいて残存するチャネルの数に基づいて、チャネルの前記数の前記指示を取得することを備える、Ｃ１０に記載の方法。
［Ｃ１６］
前記レイヤはベースレイヤを備える、Ｃ１０に記載の方法。
［Ｃ１７］
前記レイヤはベースレイヤと１つまたは複数のエンハンスメントレイヤとを備える、Ｃ１０に記載の方法。
［Ｃ１８］
前記１つまたは複数のレイヤの数は固定である、Ｃ１０に記載の方法。
［Ｃ１９］
高次アンビソニックオーディオ信号を表すビットストリームを復号するように構成されたデバイスであって、
前記ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を前記ビットストリームから取得するための手段と、
チャネルの前記数の前記指示に基づいて、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得するための手段と、
を備えるデバイス。
［Ｃ２０］
実行されると、１つまたは複数のプロセッサに、
高次アンビソニックオーディオ信号を表すビットストリームから、前記ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を取得することと、
チャネルの前記数の前記指示に基づいて、前記ビットストリームの前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得することと、
を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
［Ｃ２１］
ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化するように構成されたデバイスであって、
前記ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を前記ビットストリームにおいて指定し、前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルの前記指示された数を指定するように構成された１つまたは複数のプロセッサと、
前記ビットストリームを記憶するように構成されたメモリと、
を備えるデバイス。
［Ｃ２２］
前記１つまたは複数のプロセッサは、前記ビットストリームにおいて指定されたチャネルの総数の指示を指定するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルの前記指示された総数を指定するように構成される、Ｃ２１に記載のデバイス。
［Ｃ２３］
前記１つまたは複数のプロセッサは、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つの指示タイプを指定するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルのうちの前記１つの前記指示されたタイプの前記指示された数を指定するように構成される、Ｃ２１に記載のデバイス。
［Ｃ２４］
前記１つまたは複数のプロセッサは、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を指定するようにさらに構成され、前記チャネルのうちの前記１つの前記タイプの前記指示は、前記チャネルのうちの前記１つがフォアグラウンドチャネルであることを示し、
前記１つまたは複数のプロセッサは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記フォアグラウンドチャネルを指定するように構成される、Ｃ２１に記載のデバイス。
［Ｃ２５］
前記１つまたは複数のプロセッサは、前記ビットストリームにおいて指定されたレイヤの数の指示を前記ビットストリームにおいて指定するようにさらに構成される、Ｃ２１に記載のデバイス。
［Ｃ２６］
前記高次アンビソニックオーディオ信号をキャプチャするように構成されたマイクロフォンをさらに備える、Ｃ２１に記載のデバイス。
［Ｃ２７］
ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化する方法であって、
前記ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を前記ビットストリームにおいて指定することと、
前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルの前記指示された数を指定することと、
を備える方法。
［Ｃ２８］
前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を指定することをさらに備え、前記チャネルのうちの前記１つの前記タイプの前記指示は、前記チャネルのうちの前記１つがバックグラウンドチャネルであることを示し、
前記チャネルの前記指示された数を指定することは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記バックグラウンドチャネルを指定することを備える、Ｃ２７に記載の方法。
［Ｃ２９］
前記チャネルのうちの前記１つはバックグラウンド高次アンビソニック係数を備える、Ｃ２８に記載の方法。
［Ｃ３０］
チャネルの前記数の前記指示を指定することは、前記レイヤのうちの１つが指定された後に前記ビットストリームにおいて残存するチャネルの数に基づいて、チャネルの前記数の前記指示を指定することを備える、Ｃ２７に記載の方法。

Claims

高次アンビソニックオーディオ信号を表すビットストリームを復号するように構成されたデバイスであって、
前記ビットストリームを記憶するように構成されたメモリと、
前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を前記ビットストリームから取得することと、
チャネルの前記数の前記指示に基づいて、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得することと、
を行うように構成された１つまたは複数のプロセッサと、
を備えるデバイス。
前記１つまたは複数のプロセッサは、前記ビットストリームにおいて指定されたチャネルの総数の指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数の前記指示およびチャネルの前記総数の前記指示に基づいて、前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得するように構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、チャネルの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプの前記指示に基づいて、前記チャネルのうちの前記１つを取得するように構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を取得するようにさらに構成され、前記チャネルのうちの前記１つの前記タイプの前記指示は、前記チャネルのうちの前記１つがフォアグラウンドチャネルであることを示し、
前記１つまたは複数のプロセッサは、チャネルの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプが前記フォアグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記１つを取得するように構成される、請求項１に記載のデバイス。
前記プロセッサは、前記ビットストリームにおいて指定されたレイヤの数の指示を取得するようにさらに構成され、
前記プロセッサは、チャネルの前記数の前記指示およびレイヤの前記数の前記指示に基づいて、前記チャネルのうちの前記１つを取得するように構成される、請求項１に記載のデバイス。
レイヤの前記数の前記指示は、前記ビットストリームの以前のフレームにおけるレイヤの数の指示を備え、
前記１つまたは複数のプロセッサは、現在のフレームにおいて、前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの前記数が、前記以前のフレームの前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数と比較して、変化しているかどうかの指示を取得するようにさらに構成され、
前記プロセッサは、前記現在のフレームにおいて、前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの前記数が変化しているかどうかの前記指示に基づいて、前記チャネルのうちの前記１つを取得するように構成される、請求項５に記載のデバイス。
前記１つまたは複数のプロセッサは、前記現在のフレームにおいて、前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数が、前記以前のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数を、前記以前のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数と同じものとして決定するようにさらに構成される、請求項５に記載のデバイス。
前記１つまたは複数のプロセッサは、前記現在のフレームにおいて、前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数が、前記以前のフレームにおける前記ビットストリームの前記１つまたは複数のレイヤにおいて指定されたチャネルの前記数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームに関する前記レイヤのうちの１つまたは複数におけるチャネルの現在の数が、前記以前のフレームの前記レイヤのうちの１つまたは複数におけるチャネルの以前の数と同じであることの指示を取得するようにさらに構成される、請求項５に記載のデバイス。
前記高次アンビソニックオーディオ信号に基づいて、音場を再生するように構成されたラウドスピーカーをさらに備える、請求項１に記載のデバイス。
高次アンビソニックオーディオ信号を表すビットストリームを復号する方法であって、
前記ビットストリームにおける１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を前記ビットストリームから取得することと、
チャネルの前記数の前記指示に基づいて、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得することと、
を備える方法。
前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を取得することをさらに備え、前記チャネルのうちの前記１つの前記タイプの前記指示は、前記チャネルのうちの前記１つがバックグラウンドチャネルであることを示し、
前記チャネルを取得することは、レイヤの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプが前記バックグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記１つを取得することを備える、請求項１０に記載の方法。
前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つの指示タイプを取得することをさらに備え、前記チャネルのうちの前記１つの前記タイプの前記指示が、前記チャネルのうちの前記１つがバックグラウンドチャネルであることを示し、
前記チャネルを取得することは、レイヤの前記数の前記指示および前記チャネルのうちの前記１つの前記タイプが前記バックグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記１つを取得することを備える、請求項１１に記載の方法。
前記チャネルのうちの前記１つはバックグラウンド高次アンビソニック係数を備える、請求項１１に記載の方法。
前記チャネルのうちの前記１つの前記タイプの前記指示を取得することは、前記チャネルのうちの前記１つの前記タイプを示すシンタックス要素を取得することを備える、請求項１１に記載の方法。
チャネルの前記数の前記指示を取得することは、前記レイヤのうちの１つが取得された後に前記ビットストリームにおいて残存するチャネルの数に基づいて、チャネルの前記数の前記指示を取得することを備える、請求項１０に記載の方法。
前記レイヤはベースレイヤを備える、請求項１０に記載の方法。
前記レイヤはベースレイヤと１つまたは複数のエンハンスメントレイヤとを備える、請求項１０に記載の方法。
前記１つまたは複数のレイヤの数は固定である、請求項１０に記載の方法。
高次アンビソニックオーディオ信号を表すビットストリームを復号するように構成されたデバイスであって、
前記ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を前記ビットストリームから取得するための手段と、
チャネルの前記数の前記指示に基づいて、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得するための手段と、
を備えるデバイス。
実行されると、１つまたは複数のプロセッサに、
高次アンビソニックオーディオ信号を表すビットストリームから、前記ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を取得することと、
チャネルの前記数の前記指示に基づいて、前記ビットストリームの前記１つまたは複数のレイヤにおいて指定された前記チャネルを取得することと、
を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化するように構成されたデバイスであって、
前記ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を前記ビットストリームにおいて指定し、前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルの前記指示された数を指定するように構成された１つまたは複数のプロセッサと、
前記ビットストリームを記憶するように構成されたメモリと、
を備えるデバイス。
前記１つまたは複数のプロセッサは、前記ビットストリームにおいて指定されたチャネルの総数の指示を指定するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルの前記指示された総数を指定するように構成される、請求項２１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つの指示タイプを指定するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルのうちの前記１つの前記指示されたタイプの前記指示された数を指定するように構成される、請求項２１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を指定するようにさらに構成され、前記チャネルのうちの前記１つの前記タイプの前記指示は、前記チャネルのうちの前記１つがフォアグラウンドチャネルであることを示し、
前記１つまたは複数のプロセッサは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記フォアグラウンドチャネルを指定するように構成される、請求項２１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記ビットストリームにおいて指定されたレイヤの数の指示を前記ビットストリームにおいて指定するようにさらに構成される、請求項２１に記載のデバイス。
前記高次アンビソニックオーディオ信号をキャプチャするように構成されたマイクロフォンをさらに備える、請求項２１に記載のデバイス。
ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化する方法であって、
前記ビットストリームの１つまたは複数のレイヤにおいて指定されたチャネルの数の指示を前記ビットストリームにおいて指定することと、
前記ビットストリームの前記１つまたは複数のレイヤにおける前記チャネルの前記指示された数を指定することと、
を備える方法。
前記ビットストリームにおける前記１つまたは複数のレイヤにおいて指定された前記チャネルのうちの１つのタイプの指示を指定することをさらに備え、前記チャネルのうちの前記１つの前記タイプの前記指示は、前記チャネルのうちの前記１つがバックグラウンドチャネルであることを示し、
前記チャネルの前記指示された数を指定することは、前記ビットストリームの前記１つまたは複数のレイヤにおける前記バックグラウンドチャネルを指定することを備える、請求項２７に記載の方法。
前記チャネルのうちの前記１つはバックグラウンド高次アンビソニック係数を備える、請求項２８に記載の方法。
チャネルの前記数の前記指示を指定することは、前記レイヤのうちの１つが指定された後に前記ビットストリームにおいて残存するチャネルの数に基づいて、チャネルの前記数の前記指示を指定することを備える、請求項２７に記載の方法。