JP2023171740A

JP2023171740A - 圧縮された音または音場表現のための層構成の符号化

Info

Publication number: JP2023171740A
Application number: JP2023144104A
Authority: JP
Inventors: コルドン，スヴェン; Sven Kordon; クルーガー，アレクサンダー; krueger Alexander
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2015-10-08
Filing date: 2023-09-06
Publication date: 2023-12-05
Also published as: PH12018500703A1; SG10201908093SA; US12020714B2; KR102661914B1; CL2018000888A1; AR122469A2; JP2022137278A; KR20240058992A; US20220277753A1; CA3000910A1; ES2900070T3; ES2784752T3; AU2021240111B2; EP3678134A1; CN116189691A; IL316067A; IL258361B; CN116052696A; CA3199796A1; SA521422416B1

Abstract

【課題】複数の成分を含む基本的な圧縮された音表現と、該音表現をデコードして音又は音場の基本的な再構成された音表現にするための基本サイド情報と、基本的な再構成された音表現を改善するためのパラメータを含む向上サイド情報とを含む音又は音場の圧縮された音表現の層構成のエンコード方法を提供する。【解決手段】方法は、複数の成分を複数の成分グループに細分し、細分した各グループを、複数の階層的な層のうちの個別のものに割り当てる。グループの数は層の数に対応し、層は、基本層及び一つ又は複数の階層的な向上層を含む。方法はまた、基本サイド情報を基本層に加え、向上サイド情報から、その複数の部分を判別し、その複数の部分の夫々を、複数の層の夫々の層に割り当てる。向上サイド情報の各部分は、該夫々の層及び該夫々の層より低い任意の諸層に含まれるデータから得られる再構成された音表現を改善するためのパラメータを含む。【選択図】図１

Description

関連出願への相互参照
本願は2015年10月15日に出願された欧州特許出願第15306590.9号および米国特許出願第62/361,809号の優先権を主張するものである。これらの出願の内容はここに参照によってその全体において組み込まれる。

技術分野
本稿は層構成のオーディオ符号化（layered audio coding）のための方法および装置に関する。特に、本稿は圧縮された音（または音場）表現、たとえば高次アンビソニックス（HOA: Higher-Order Ambisonics）音（または音場）表現の層構成にされたオーディオ符号化のための方法および装置に関する。

時間変動する条件をもつ伝送チャネルを通じた音（または音場）表現のストリーミングについて、層構成の符号化は、受領される音表現の品質を伝送条件に適合させ、特に望まれない信号脱落を回避する手段である。

層構成の符号化のためには、音（または音場）表現は通例、比較的小さなサイズの高優先度の基本層と、デクリメントする優先度および任意のサイズをもつ追加的な向上層とに細分される。各向上層は典型的には、音（または音場）表現の品質を改善するために、より低位のすべての層の情報を補完するためのインクリメンタルな情報を含むと想定される。個々の層の伝送のための誤り保護の量が、それらの優先度に基づいて制御される。特に、基本層は、高い誤り保護を提供され、これはその小さなサイズのため、合理的であり、受け入れ可能である。

しかしながら、たとえば圧縮されたHOA音または音場表現のような、音または音場の特別な型の圧縮された表現（の拡張されたバージョン）のための層構成符号化方式が必要とされている。

ISO/IEC JTC1/SC29/WG11 23008-3:2015(E)、Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, February 2015 ISO/IEC JTC1/SC29/WG11 23008-3:2015/PDAM3、Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, AMENDMENT 3: MPEG-H 3D Audio Phase 2, July 2015

本稿は上記の問題に取り組むものである。特に、圧縮された音または音場表現の層構成符号化のための方法およびエンコーダ／デコーダが記述される。

ある側面によれば、音または音場の圧縮された音表現の層構成のエンコードの方法が記述される。圧縮された音表現は、複数の成分を含む基本的な圧縮された音表現を含んでいてもよい。前記複数の成分は、相補的な（complementary）成分であってもよい。圧縮された音表現はさらに、前記基本的な圧縮された音表現をデコードして前記音または音場の基本的な再構成された音表現にするための基本サイド情報を含んでいてもよい。圧縮された音表現はさらに、前記基本的な再構成された音表現を改善する（たとえば向上させる）ためのパラメータを含む向上サイド情報を含んでいてもよい。本方法は、前記複数の成分を複数の成分グループに細分する（たとえばグループ分けする）ことを含んでいてもよい。本方法はさらに、前記複数のグループの各グループを、複数の階層的な層のうちの個別のものに割り当てる（たとえば加える）ことを含んでいてもよい。割り当ては、個別のグループと層との間の対応を示してもよい。それぞれの層に割り当てられた成分は、その層に含まれると言われてもよい。グループの数は層の数に対応してもよい（たとえば等しくてもよい）。前記複数の層は、基本層および一つまたは複数の階層的な向上層を含んでいてもよい。前記複数の階層的な層は、基本層から、第一の向上層、第二の向上層などを経て、全体的な最高の向上層（全体的な最上位の層）まで、順序付けられてもよい。本方法はさらに、基本サイド情報を基本層に加えること（たとえば、たとえば伝送または記憶の目的のために、基本サイド情報を基本層に含めること、あるいは基本サイド情報を基本層に割り当てること）を含んでいてもよい。本方法はさらに、向上サイド情報から、向上サイド情報の複数の部分を判別することを含んでいてもよい。本方法はさらに、向上サイド情報の前記複数の部分のそれぞれを、前記複数の層のそれぞれの層に割り当てる（たとえば加える）ことを含んでいてもよい。向上サイド情報の各部分は、該それぞれの層および該それぞれの層より低い任意の諸層に含まれる（たとえば割り当てられているまたは加えられている）データから得られる再構成された（たとえば圧縮解除された）音表現を改善するためのパラメータを含んでいてもよい。層構成のエンコードは、伝送チャネルを通じた伝送のためまたはたとえばCD、DVDまたはブルーレイディスク（商標）のような好適な記憶媒体に記憶するために実行されてもよい。

上記のように構成されて、提案される方法は、層構成の符号化を、複数の成分ならびに上記のような性質をもつ第一のサイド情報および向上サイド情報（たとえば独立基本サイド情報および向上サイド情報）を含む圧縮された音表現に効率的に適用することを可能にする。特に、提案される方法は、各層が、問題になっている層までの任意の層に含まれる成分から、再構成された音表現を再構成するための好適なサイド情報を含む。ここで、問題の層までの層とは、たとえば問題の層に至るまでの基本層、第一の向上層、第二の向上層などを含むものと理解される。こうして、実際の最高の使用可能な層（たとえば、まだ有効に受領されていない最低の層の下の層；使用可能な最高の層より下のすべての層および使用可能な最高の層自身は有効に受領されている）に関わりなく、再構成された音表現が完全な（たとえばフルの）音表現とは異なっていたとしても、デコーダは、再構成された音表現を改善するまたは向上させることを可能にされる。特に、実際の使用可能な最高の層に関わりなく、実際の最高の使用可能な層までの諸層に含まれるすべての成分に基づいて得ることのできる再構成された音表現を改善するまたは向上させるために、デコーダにとって、単一の層のみについて（すなわち、使用可能な最高の層について）向上サイド情報のペイロードをデコードすることが十分である。すなわち、各時間区間（たとえばフレーム）について、デコードされる必要があるのは、向上サイド情報の単一のペイロードだけであってもよい。他方、提案される方法は、層構成の符号化を適用するときに達成されうる所要帯域幅の低減の利点をフルに受けることを許容する。

諸実施形態において、基本的な圧縮された音表現の前記成分はモノラル信号（たとえばトランスポート信号またはモノラル・トランスポート信号）に対応していてもよい。該モノラル信号は、優勢音（predominant sound）信号またはHOA表現の係数シーケンスのいずれかを表わしていてもよい。モノラル信号は量子化されていてもよい。

諸実施形態において、基本サイド情報は、前記複数の成分の一つまたは複数のデコード（たとえば圧縮解除）を個別に、他の成分とは独立に指定する情報を含んでいてもよい。たとえば、基本サイド情報は、他のモノラル信号とは独立に、個別のモノラル信号に関係したサイド情報を表わしていてもよい。よって、基本サイド情報は、独立基本サイド情報と称されることがある。

諸実施形態において、向上サイド情報は、向上サイド情報を表わしてもよい。向上サイド情報は、基本的な圧縮された音表現および基本サイド情報から得られる基本的な再構成された音表現を改善する（たとえば向上させる）ための基本的な圧縮された音表現のための予測パラメータを含んでいてもよい。

諸実施形態において、本方法はさらに、前記複数の層のデータ（たとえば、それぞれの層に割り当てられているまたは加えられている、あるいは他の仕方でそれぞれの層に含められているデータ）の伝送のためのトランスポート・ストリームを生成することを含んでいてもよい。基本層は、伝送の最高優先度を有していてもよく、階層的な諸向上層は、伝送の、デクリメントしていく優先度を有していてもよい。つまり、伝送の優先度は、基本層から第一の向上層へ、第一の向上層から第二の向上層へ、などと減少してもよい。前記複数の層のデータの伝送のための誤り保護の量は、それぞれの伝送の優先度に従って制御されてもよい。それにより、上位の層に過剰な誤り保護を適用しないことによって全体的な要求される帯域幅を下げる一方で、少なくともいくつかの低位の層が信頼できる形で伝送されることが保証できる。

諸実施形態において、本方法はさらに、前記複数の層の各層について、それぞれの層のデータを含むトランスポート層パケットを生成することを含んでいてもよい。たとえば、各時間区間（たとえばフレーム）について、前記複数の層の各層について、それぞれのトランスポート層パケットが生成されてもよい。

諸実施形態において、圧縮された音表現はさらに、基本的な圧縮された音表現をデコードして基本的な再構成された音表現にするための追加的な基本サイド情報を含んでいてもよい。追加的な基本サイド情報は、前記複数の成分の一つまたは複数のデコードを、他の成分に依存して指定する情報を含んでいてもよい。本方法はさらに、追加的な基本サイド情報を、追加的な基本サイド情報の複数の部分に分解することを含んでいてもよい。本方法はさらに、追加的な基本サイド情報のそれらの部分を基本層に加える（たとえば、伝送または記憶のために、追加的な基本サイド情報のそれらの部分を基本層に含める、あるいは追加的な基本サイド情報のそれらの部分を基本層に割り振る）ことを含んでいてもよい。追加的な基本サイド情報の各部分は、それぞれの層に対応してもよく、それぞれの層に割り当てられた一つまたは複数の成分のデコードを、該それぞれの層および該それぞれの層より低い任意の諸層に割り当てられたそれぞれの他の成分（のみ）に依存〔従属〕して指定する情報を含んでいてもよい。すなわち、追加的な基本サイド情報の各部分は、追加的な基本サイド情報のその部分が対応するそれぞれの層における成分を、該それぞれの層よりも上位の層に割り当てられた他のいかなる成分も参照することなく、指定する。

そのように構成されて、提案される方法は、すべての部分を基本層に加えることによって、追加的な基本サイド情報の断片化を回避する。換言すれば、追加的な基本サイド情報のすべての部分が基本層に含められる。追加的な基本サイド情報の分解は、各層について、より上位の層の成分の知識を必要としない追加的な基本サイド情報の一部分が利用可能であることを保証する。こうして、実際の最高の使用可能な層に関わりなく、デコーダにとって、最高の使用可能な層までの諸層に含まれる追加的な基本サイド情報をデコードすることが十分である。

諸実施形態において、追加的な基本サイド情報は、前記複数の成分の一つまたは複数のデコード（たとえば圧縮解除）を他の成分に依存して指定する情報を含んでいてもよい。たとえば、追加的な基本サイド情報は、他のモノラル信号に依存して、個別のモノラル信号に関係したサイド情報を表わしていてもよい。よって、追加的な基本サイド情報は、従属基本サイド情報と称されることがある。

諸実施形態において、圧縮された音表現は、一連の時間区間、たとえば等しいサイズの時間区間について処理されてもよい。一連の時間区間はフレームであってもよい。このように、本方法は、フレーム・ベースで動作しうる。すなわち、圧縮された音表現は、フレームごとにエンコードされうる。圧縮された音表現は、相続く各時間区間について（たとえば各時間フレームについて）利用可能であってもよい。すなわち、それにより前記圧縮された音表現が得られたところの圧縮動作は、フレーム・ベースで動作してもよい。

諸実施形態において、本方法はさらに、各層について、その層に割り当てられている基本的な圧縮された音表現の成分を示す構成設定情報を生成することを含んでいてもよい。このように、デコーダは、受け取ったデータ・ペイロードを通じた不必要なパースをすることなくデコードのために必要な情報に容易にアクセスできる。

もう一つの側面によれば、音または音場の圧縮された音表現の層構成のエンコードの方法が記述される。圧縮された音表現は、複数の成分を含む基本的な圧縮された音表現を含んでいてもよい。前記複数の成分は、相補的な成分であってもよい。圧縮された音表現はさらに、前記基本的な圧縮された音表現をデコードして前記音または音場の基本的な再構成された音表現にするための基本サイド情報（たとえば独立基本サイド情報）および第三の情報（たとえば従属基本サイド情報）を含んでいてもよい。基本サイド情報は、前記複数の成分のうち一つまたは複数の成分のデコードを個別に、他の成分とは独立に指定する情報を含んでいてもよい。追加的な基本サイド情報は、前記複数の成分のうち一つまたは複数の成分のデコードを、それぞれの他の成分に依存して指定する情報を含んでいてもよい。本方法は、前記複数の成分を複数の成分グループに細分する（たとえばグループ分けする）ことを含んでいてもよい。本方法はさらに、前記複数のグループの各グループを、複数の階層的な層のうちの個別のものに割り当てる（たとえば加える）ことを含んでいてもよい。割り当ては、個別のグループと層との間の対応を示してもよい。それぞれの層に割り当てられた成分は、その層に含まれると言われてもよい。グループの数は層の数に対応してもよい（たとえば等しくてもよい）。前記複数の層は、基本層および一つまたは複数の階層的な向上層を含んでいてもよい。本方法はさらに、基本サイド情報を基本層に加えること（たとえば、たとえば伝送または記憶の目的のために、基本サイド情報を基本層に含めること、あるいは基本サイド情報を基本層に割り当てること）を含んでいてもよい。本方法はさらに、追加的な基本サイド情報を追加的な基本サイド情報の複数の部分に分解し、追加的な基本サイド情報のそれらの部分を基本層に加える（たとえば、伝送または記憶のために、追加的な基本サイド情報のそれらの部分を基本層に含める、あるいは追加的な基本サイド情報のそれらの部分を基本層に割り振る）ことを含んでいてもよい。追加的な基本サイド情報の各部分は、それぞれの層に対応してもよく、それぞれの層に割り当てられた一つまたは複数の成分のデコードを、該それぞれの層および該それぞれの層より低い任意の諸層に割り当てられたそれぞれの他の成分に依存〔従属〕して、指定する情報を含んでいてもよい。

そのように構成されて、提案される方法は、各層について、より上位の層の有効な受領またはデコード（あるいは一般には知識）を必要とすることなく、当該層までの任意の層に含まれる成分をデコードするために適切な追加的な基本サイド情報が利用可能であることを保証する。圧縮されたHOA表現の場合、提案される方法は、ベクトル符号化モードにおいて、最高の使用可能な層までの諸層に属するすべての成分のために好適なVベクトルが利用可能であることを保証する。特に、提案される方法は、より上位の諸層における成分に対応するVベクトルの要素が明示的に信号伝達されないケースを排除する。よって、最高の使用可能な層までの諸層に含まれる情報が、最高の使用可能な層までの諸層に属する任意の成分をデコード（たとえば圧縮解除）するために十分となる。それにより、たとえ上位の諸層がデコーダによって有効に受領されていなかったとしても、低位の諸層についてそれぞれの再構成されたHOA表現の適切な圧縮解除が保証される。他方、提案される方法は、層構成の符号化を適用するときに達成されうる所要帯域幅の低減の利点をフルに受けることを許容する。

この側面の実施形態は、上記の側面の実施形態に関係していてもよい。

もう一つの側面によれば、音または音場の圧縮された音表現をデコードする方法が記述される。圧縮された音表現は複数の階層式の層でエンコードされていてもよい。前記複数の階層式の層は基本層および一つまたは複数の階層式の向上層を含んでいてもよい。前記複数の層には、音または音場の基本的な圧縮された音表現の成分が割り当てられていてもよい。換言すれば、前記複数の層は、基本的な圧縮されたサイド情報の成分を含んでいてもよい。それらの成分は、それぞれの成分グループにおいてそれぞれの層に割り当てられていてもよい。前記複数の成分は、相補的な成分であってもよい。基本層は、基本的な圧縮された音表現をデコードするための基本サイド情報を含んでいてもよい。各層は、該それぞれの層および該それぞれの層より低い任意の諸層に含まれるデータから得られる基本的な再構成された音表現を改善するためのパラメータを含む向上サイド情報の一部を含んでいてもよい。本方法は、前記複数の階層的な層にそれぞれ対応するデータ・ペイロードを受領することを含んでいてもよい。本方法はさらに、前記複数の層のうちで、前記基本的な圧縮された音表現をデコードして前記音または音場の前記基本的な再構成された音表現にするために使われるべき最高の使用可能な層を示す第一の層インデックスを判別することを含んでいてもよい。本方法はさらに、前記最高の使用可能な層および前記最高の使用可能な層より低い任意の諸層に割り当てられた成分から、前記基本サイド情報を使って前記基本的な再構成された音表現を得ることを含んでいてもよい。本方法はさらに、向上サイド情報のどの部分が、前記基本的な再構成された音表現を改善する（たとえば向上させる）ために使用されるべきかを示す第二の層インデックスを決定することを含んでいてもよい。本方法はさらに、前記第二の層インデックスを参照して、前記基本的な再構成された音表現から、前記音または音場の再構成された音表現を得ることを含んでいてもよい。

そのように構成されて、提案される方法は、利用可能な（たとえば有効に受領された）情報を最大限に使って、再構成された音表現が最適な品質をもつことを保証する。

諸実施形態において、基本的な圧縮された音表現の前記成分はモノラル信号（たとえばモノラル・トランスポート信号）に対応していてもよい。該モノラル信号は、優勢音（predominant sound）信号またはHOA表現の係数シーケンスのいずれかを表わしていてもよい。モノラル信号は量子化されていてもよい。

諸実施形態において、基本サイド情報は、前記複数の成分のうち一つまたは複数の成分のデコード（たとえば圧縮解除）を個別に、他の成分とは独立に指定する情報を含んでいてもよい。たとえば、基本サイド情報は、他のモノラル信号とは独立に、個別のモノラル信号に関係したサイド情報を表わしていてもよい。よって、基本サイド情報は、独立基本サイド情報と称されることがある。

諸実施形態において、本方法はさらに、各層について、それぞれの層が有効に受領されたかどうかを判定することを含んでいてもよい。本方法はさらに、有効に受領されなかった最低の層のすぐ下の層の層インデックスとして、前記第一の層インデックスを決定することを含んでいてもよい。

諸実施形態において、前記第二の層インデックスを決定することは、前記第二の層インデックスを前記第一の層インデックスに等しいと決定すること、あるいは、前記再構成された音表現を得るときにいかなる向上サイド情報も使わないことを示すインデックス値を、前記第二の層インデックスとして決定することに関わっていてもよい。後者の場合、前記再構成された音表現は、前記基本的な再構成された音表現に等しくてもよい。

諸実施形態において、前記データ・ペイロードは、一連の時間区間、たとえば等しいサイズの時間区間について受領され、処理されてもよい。一連の時間区間はフレームであってもよい。このように、本方法は、フレーム・ベースで動作しうる。本方法はさらに、それら一連の時間区間についての圧縮された音表現が互いに独立にデコードされることができる場合には、前記第二の層インデックスを前記第一の層インデックスに等しくなるよう決定してもよい。

諸実施形態において、前記データ・ペイロードは、一連の時間区間、たとえば等しいサイズの時間区間について受領され、処理されてもよい。一連の時間区間はフレームであってもよい。このように、本方法は、フレーム・ベースで動作しうる。本方法はさらに、それら一連の時間区間のうちの所与の時間区間について、それら一連の時間区間についての圧縮された音表現が互いに独立にデコードされることができない場合には、各層について、該それぞれの層が有効に受領されたかどうかを判定することを含んでいてもよい。本方法はさらに、該所与の時間区間についての前記第一の層インデックスを、該所与の時間区間に先行する時間区間の第一の層インデックスと、有効に受領されなかった最低の層のすぐ下の層の層インデックスとのうちの小さいほうとして決定することを含んでいてもよい。

諸実施形態において、本方法は、前記所与の時間区間について、それら一連の時間区間についての圧縮された音表現が互いに独立にデコードされることができない場合には、前記所与の時間区間についての第一の層インデックスが先行する時間区間についての第一の層インデックスと等しいかどうかを判定することを含んでいてもよい。本方法はさらに、前記所与の時間区間についての第一の層インデックスが先行する時間区間についての第一の層インデックスと等しい場合、前記所与の時間区間についての前記第二の層インデックスを、前記所与の時間区間についての前記第一の層インデックスと等しくなるように決定することを含んでいてもよい。本方法はさらに、前記所与の時間区間についての第一の層インデックスが先行する時間区間についての第一の層インデックスと等しくない場合、前記再構成された音表現を得るときにいかなる向上サイド情報も使わないことを示すインデックス値を、前記第二の層インデックスとして決定することを含んでいてもよい。

諸実施形態において、基本層は、それぞれの層に対応し、該それぞれの層に割り当てられた成分のうちの一つまたは複数の成分のデコードを、該それぞれの層および該それぞれの層より低い任意の諸層に割り当てられた他の成分に依存して指定する情報を含む、追加的な基本サイド情報の少なくとも一つの部分を含んでいてもよい。本方法はさらに、追加的な基本サイド情報の各部分について、そのそれぞれの層および該それぞれの層より低い任意の諸層に割り当てられた成分を参照することによって、追加的な基本サイド情報の前記部分をデコードすることを含んでいてもよい。本方法はさらに、追加的な基本サイド情報の前記部分を、最高の使用可能な層および該最高の使用可能な層と該それぞれの層との間の任意の諸層に割り当てられた成分を参照することによって、補正することを含んでいてもよい。基本的な再構成された音表現は、最高の使用可能な層および該最高の使用可能な層より低い任意の諸層に割り当てられた成分から、基本サイド情報と、最高の使用可能な層までの諸層に対応する追加的な基本サイド情報の諸部分から得られた追加的な基本サイド情報の補正された諸部分とを使って、得られてもよい。

諸実施形態において、追加的な基本サイド情報は、前記複数の成分のうち一つまたは複数の成分のデコード（たとえば圧縮解除）を、他の成分に依存して指定する情報を含んでいてもよい。たとえば、追加的な基本サイド情報は、個別のモノラル信号に関係したサイド情報を、他のモノラル信号に依存して表現してもよい。こうして、追加的な基本サイド情報は、従属基本サイド情報と称されることがある。

もう一つの側面によれば、音または音場の圧縮された音表現をデコードする方法が記述される。圧縮された音表現は複数の階層式の層でエンコードされていてもよい。前記複数の階層式の層は基本層および一つまたは複数の階層式の向上層を含んでいてもよい。前記複数の層には、音または音場の基本的な圧縮された音表現の成分が割り当てられていてもよい。換言すれば、前記複数の層は、基本的な圧縮されたサイド情報の成分を含んでいてもよい。それらの成分は、それぞれの成分グループにおいてそれぞれの層に割り当てられていてもよい。前記複数の成分は、相補的な成分であってもよい。基本層は、基本的な圧縮された音表現をデコードするための基本サイド情報を含んでいてもよい。基本層はさらに、それぞれの層に対応し、該それぞれの層に割り当てられた成分のうちの一つまたは複数の成分のデコードを、該それぞれの層および該それぞれの層より低い任意の諸層に割り当てられた他の成分に依存して指定する情報を含む、追加的な基本サイド情報の少なくとも一つの部分を含んでいてもよい。本方法はさらに、前記複数の階層的な層にそれぞれ対応するデータ・ペイロードを受領することを含んでいてもよい。本方法はさらに、前記複数の層のうちで、前記基本的な圧縮された音表現をデコードして前記音または音場の前記基本的な再構成された音表現にするために使われるべき最高の使用可能な層を示す第一の層インデックスを判別することを含んでいてもよい。本方法はさらに、追加的な基本サイド情報の各部分について、そのそれぞれの層および該それぞれの層より低い任意の諸層に割り当てられた成分を参照することによって、追加的な基本サイド情報の前記部分をデコードすることを含んでいてもよい。本方法はさらに、追加的な基本サイド情報の各部分について、追加的な基本サイド情報の前記部分を、最高の使用可能な層および該最高の使用可能な層と該それぞれの層との間の任意の諸層に割り当てられた成分を参照することによって、補正することを含んでいてもよい。基本的な再構成された音表現は、最高の使用可能な層および該最高の使用可能な層より低い任意の諸層に割り当てられた成分から、基本サイド情報と、最高の使用可能な層までの諸層に対応する追加的な基本サイド情報の諸部分から得られた追加的な基本サイド情報の補正された諸部分とを使って、得られてもよい。本方法はさらに、前記第一の層インデックスに等しいか、デコードの際の向上サイド情報の省略を示す、第二の層インデックスを決定することを含んでいてもよい。

そのように構成されて、提案される方法は、基本的な圧縮された音表現をデコードするために最終的に使われる追加的な基本サイド情報が冗長な要素を含まないことを保証し、それにより基本的な圧縮された音表現の実際のデコードを一層効率的にする。

この側面の諸実施形態は、上記の側面の実施形態に関係していてもよい。

もう一つの側面によれば、音または音場の圧縮された音表現の層構成のエンコードのためのエンコーダが記述される。圧縮された音表現は、複数の成分を含む基本的な圧縮された音表現を含んでいてもよい。前記複数の成分は、相補的な成分であってもよい。圧縮された音表現はさらに、前記基本的な圧縮された音表現をデコードして、前記音または音場の基本的な再構成された音表現にするための基本サイド情報を含んでいてもよい。圧縮された音表現はさらに、前記基本的な再構成された音表現を改善する（たとえば向上させる）ためのパラメータを含む向上サイド情報を含んでいてもよい。本エンコーダは、第一に言及した上記側面および第二に言及した上記側面に基づく方法の方法段階の一部または全部を実行するよう構成されたプロセッサを含んでいてもよい。

もう一つの側面によれば、音または音場の圧縮された音表現をデコードするためのデコーダが記述される。圧縮された音表現は複数の階層式の層でエンコードされていてもよい。前記複数の階層式の層は基本層および一つまたは複数の階層式の向上層を含んでいてもよい。前記複数の層には、音または音場の基本的な圧縮された音表現の成分が割り当てられていてもよい。換言すれば、前記複数の層は、基本的な圧縮されたサイド情報の成分を含んでいてもよい。それらの成分は、それぞれの成分グループにおいてそれぞれの層に割り当てられていてもよい。前記複数の成分は、相補的な成分であってもよい。基本層は、基本的な圧縮された音表現をデコードするための基本サイド情報を含んでいてもよい。各層は、該それぞれの層および該それぞれの層より低い任意の諸層に含まれるデータから得られる基本的な再構成された音表現を改善する（たとえば向上させる）ためのパラメータを含む向上サイド情報の一部を含んでいてもよい。本デコーダは、第三に言及した上記側面および第四に言及した上記側面に基づく方法の方法段階の一部または全部を実行するよう構成されたプロセッサを含んでいてもよい。

他の側面によれば、方法、装置およびシステムが、音または音場の圧縮された高次アンビソニックス（HOA）音表現をデコードすることに向けられる。装置は、基本層および一つまたは複数の階層式の向上層を含む複数の階層式の層に対応する前記圧縮されたHOA表現を含むビットストリームを受領するよう構成された受領器を有していてもよく、あるいは方法は該受領を実行してもよい。前記複数の層には、音または音場の基本的な圧縮された音表現の成分が割り当てられており、それらの成分は、それぞれの成分グループにおいてそれぞれの層に割り当てられる。装置は、基本層に関連付けられている基本サイド情報に基づき、かつ前記一つまたは複数の階層式の向上層に関連付けられている向上サイド情報に基づいて、前記圧縮されたHOA表現をデコードするよう構成されたデコーダを有していてもよく、あるいは方法は該デコードを実行してもよい。基本サイド情報は、他のモノラル信号とは独立にデコードされる第一の個別の諸モノラル信号に関係した基本独立サイド情報を含んでいてもよい。前記一つまたは複数の階層式の向上層のそれぞれは、それぞれの層および該それぞれの層より低い任意の諸層に含まれるデータから得られる基本的な再構成された音表現を改善するためのパラメータを含む前記向上サイド情報の一部を含んでいてもよい。

基本独立サイド情報は、第一の個別のモノラル信号がある入射方向をもつ方向性信号を表わすことを示してもよい。基本サイド情報はさらに、他のモノラル信号に依存してデコードされる第二の個別のモノラル信号に関係した基本従属サイド情報を含んでいてもよい。基本従属サイド情報は、音場内で方向的に分布されるベクトル・ベースの信号を含んでいてもよい。ここで、方向分布はベクトルによって指定される。ベクトルの成分は0に設定され、圧縮されたベクトル表現の一部ではない。

基本的な圧縮された音表現の成分は、優勢音信号またはHOA表現の係数シーケンスのいずれかを表わすモノラル信号に対応しうる。ビットストリームは、前記複数の階層的な層にそれぞれ対応するデータ・ペイロードを含む。向上サイド情報は：空間的予測、サブバンド方向性信号合成およびパラメトリック周囲音複製のうちの少なくとも一つに関係したパラメータを含んでいてもよい。向上サイド情報は、方向性信号からの音または音場の欠けている部分の予測を許容する情報を含んでいてもよい。さらに、各層について、該それぞれの層が有効に受領されたかどうかが判定され、有効に受領されていない最低の層のすぐ下の層の層インデックスが判別されてもよい。

もう一つの側面によれば、ソフトウェア・プログラムが記述される。本ソフトウェア・プログラムは、プロセッサ上での実行のために適応され、コンピューティング装置で実行されたときに本稿で概説される方法段階の一部または全部を実行するために適応されていてもよい。

さらにもう一つの側面によれば、記憶媒体が記述される。本記憶媒体は、プロセッサ上での実行のために適応され、コンピューティング装置で実行されたときに本稿で概説される方法段階の一部または全部を実行するために適応されているソフトウェア・プログラムを含んでいてもよい。

当業者は理解するだろうが、上記の側面のいずれかまたはその実施形態に関してなされる陳述は、他の側面またはその実施形態にも当てはまる。これらの陳述を一つ一つの側面または実施形態について繰り返すことは、簡潔のため、割愛した。

本稿で概説される好ましい実施形態を含む方法および装置は単体でまたは本稿で開示される他の方法およびシステムとの組み合わせにおいて使用されてもよい。さらに、本稿で概説される方法および装置のすべての側面は任意に組み合わされてもよい。特に、請求項の特徴は任意の仕方で他の特徴と組み合わされてもよい。

方法段階および装置特徴は多くの仕方で交換されうる。特に、当業者は理解するだろうが、開示される方法の詳細は、方法の段階の一部または全部を実行するよう適応された装置として実装されることができ、その逆もできる。

本発明は、付属の図面を参照して例示的な仕方で下記で説明される。
本開示の実施形態に基づく、層構成エンコードの方法の例を示すフローチャートである。本開示の実施形態に基づくエンコーダ段の例を概略的に示すブロック図である。本開示の実施形態に基づく、複数の階層的な層にエンコードされた音または音場の圧縮された音表現をデコードする方法の例を示すフローチャートである。本開示の実施形態に基づくデコーダ段の例を概略的に示すブロック図である。本開示の実施形態に基づくデコーダ段の例を概略的に示すブロック図である。本開示の実施形態に基づくエンコーダのハードウェア実装の例を概略的に示すブロック図である。本開示の実施形態に基づくデコーダのハードウェア実装の例を概略的に示すブロック図である。

まず、本開示に基づく方法およびエンコーダ／デコーダが適用可能である圧縮された音（または音場）表現（以下では簡潔のため圧縮された音表現と称される）について述べる。一般に、完全な圧縮された音（または音場）表現（以下では簡潔のため完全な圧縮された音表現と称される）は、次の三つの成分を含む（たとえば次の三つの成分からなる）ことがありうる：基本的な圧縮された音（または音場）表現（以下では簡潔のために基本的な圧縮された音表現と称される）、基本サイド情報および向上サイド情報。

基本的な圧縮された音表現自身、いくつかの成分（たとえば相補的な成分）を含む（たとえば、からなる）。基本的な圧縮された音表現は、完全な圧縮された音表現の突出して最大な割合をなすことがある。基本的な圧縮された音表現は、優勢音信号またはもとのHOA表現の係数シーケンスを表わすモノラル・トランスポート信号からなっていてもよい。

基本サイド情報は、基本的な圧縮された音表現をデコードするために必要とされ、基本的な圧縮された音表現に比べてずっと小さなサイズであると想定されうる。これはさらに、その大半は、それぞれが基本的な圧縮された音表現の一つの特定の成分のみの圧縮解除を指定する別個の部分からなっていてもよい。基本サイド情報は、独立基本サイド情報として知られうる第一の部分と、追加的な基本サイド情報として知られうる第二の部分とからなっていてもよい。

第一および第二の部分の両方、つまり独立基本サイド情報および追加的な基本サイド情報は、基本的な圧縮された音表現の特定の成分の圧縮解除を指定しうる。第二の部分は任意的であり、省略されてもよい。この場合、圧縮された音表現は、第一の部分（たとえば、基本サイド情報）を含むと言われることがある。

第一の部分（たとえば、基本サイド情報）は、基本的な圧縮された音表現の個々の（相補的な）成分を、他の（相補的な）成分とは独立に記述するサイド情報を含んでいてもよい。特に、第一の部分（たとえば、基本サイド情報）は、前記複数の成分のうちの一つまたは複数の成分のデコードを個別に、他の成分とは独立に指定してもよい。こうして、第一の部分は、独立基本サイド情報と称されてもよい。

第二の（任意的な）部分は、追加的な基本サイド情報としても知られ、基本的な圧縮された音表現の個々の（相補的な）成分を、他の（相補的な）成分に依存〔従属〕して記述しうる。この第二の部分は、従属基本サイド情報と称されてもよい。特に、依存性は次の属性を有していてもよい：
・基本的な圧縮された音表現のそれぞれの個別の（相補的な）成分についての従属基本サイド情報は、基本的な圧縮された音表現に他のある種の（相補的な）成分が含まれない場合に、最大範囲を達成する。
・基本的な圧縮された音表現に追加的なある種の（相補的な）成分が追加される場合には、考えている個別の（相補的な）成分についての従属基本サイド情報はもとの従属基本サイド情報の部分集合になり、それによりそのサイズを減らしうる。

向上サイド情報も任意的である。これは基本的な圧縮された音表現を改善するまたは向上させる（たとえばパラメトリックに改善するまたは向上させる）ために使用されうる。そのサイズも、基本的な圧縮された音表現のサイズよりずっと小さいと想定される。

このように、諸実施形態において、圧縮された音表現は、複数の成分を含む基本的な圧縮された音表現と、該基本的な圧縮された音表現をデコード（たとえば圧縮解除）して前記音または音場の基本的な再構成された音表現にするための基本サイド情報と、基本的な圧縮された音表現を改善するまたは向上させる（たとえばパラメトリックに改善するまたは向上させる）ためのパラメータを含む向上サイド情報とを含んでいてもよい。圧縮された音表現はさらに、基本的な圧縮された音表現をデコード（たとえば圧縮解除）して前記基本的な再構成された音表現にするための追加的な基本サイド情報を含んでいてもよく、これは、前記複数の成分のうちの一つまたは複数の成分のデコードをそれぞれの他の成分に依存して指定する情報を含んでいてもよい。

そのような型の完全な圧縮された音表現の一つの例は、MPEG-H 3Dオーディオ規格（非特許文献１）の予備的バージョンの第12章および附属書C.5によって規定される圧縮された高次アンビソニックス（HOA）音場表現によって与えられる。すなわち、圧縮された音表現は、音または音場の圧縮されたHOA音（または音場）表現に対応しうる。

この例について、基本的な圧縮された音場表現（基本的な圧縮された音表現）は、いくつかの成分を含んでいてもよい（たとえば、いくつかの成分で同定されてもよい）。それらの成分はモノラル信号であってもよい（たとえば、モノラル信号に対応してもよい）。それらのモノラル信号は量子化されたモノラル信号であってもよい。それらのモノラル信号は、優勢音信号または周囲音HOA音場成分の係数シーケンスのいずれかを表わしうる。

基本サイド情報は、中でも、これらのモノラル信号のそれぞれについて、それが音場に対して空間的にどのように寄与するかを記述しうる。たとえば、基本サイド情報は、優勢音信号を純粋に方向性の信号、つまりある入射方向をもった一般的平面波として指定してもよい。あるいはまた、基本サイド情報は、モノラル信号を、あるインデックスをもつもとのHOA表現の係数シーケンスとして指定してもよい。基本サイド情報はさらに、上記のように第一の部分および第二の部分に分離されてもよい。

第一の部分は、特定の個別のモノラル信号に関係したサイド情報（たとえば、独立基本サイド情報）である。この独立基本サイド情報は、他のモノラル信号の存在とは独立である。そのようなサイド情報はたとえば、ある入射方向をもつ方向性信号（たとえば一般的平面波を意味する）を表わすモノラル信号を指定してもよい。あるいはまた、モノラル信号は、あるインデックスをもつもとのHOA表現の係数シーケンスとして指定されてもよい。第一の部分は、独立基本サイド情報と称されてもよい。一般に、第一の部分（たとえば基本サイド情報）は、前記複数のモノラル信号のうちの一つまたは複数のモノラル信号のデコードを、個別に、他のモノラル信号とは独立に指定しうる。

第二の部分は、特定の個別のモノラル信号に関係したサイド情報（たとえば、追加的な基本サイド情報）である。このサイド情報は、他のモノラル信号の存在に依存する。そのようなサイド信号はたとえば、モノラル信号がベクトル・ベースの信号（たとえば非特許文献１の第12.4.2.4.4節参照）であると指定される場合に利用されてもよい。これらの信号は、音場内で方向性をもって分布していて、方向分布がベクトルによって指定されうる。ある種のモード（すなわち、CodedVVecLength＝1）では、このベクトルの特定の諸成分は暗黙的に0に設定され、圧縮されたベクトル表現の一部ではない。これらの成分は、もとのHOA表現の係数シーケンスのうちで、基本的な圧縮された音表現の一部であるものに等しいインデックスをもつ成分である。つまり、ベクトルの個別の成分が符号化される場合、その総数は基本的な圧縮された音表現に依存する。特に、該総数は、もとのHOA表現がどの係数シーケンスを含んでいるかに依存する。

もとのHOA表現の係数シーケンスが基本的な圧縮された音表現に含まれない場合には、各ベクトル・ベースの信号についての従属基本サイド情報は、すべてのベクトル成分からなり、その最大サイズをもつ。もとのHOA表現の係数シーケンスであってあるインデックスをもつものが基本的な圧縮された音表現に追加される場合、それらのインデックスをもつベクトル成分が、各ベクトル・ベースの信号についてのサイド情報から除去され、それによりベクトル・ベースの信号についての従属基本サイド情報のサイズを減らす。

向上サイド情報（たとえば向上サイド情報）は、（ブロードバンド）空間的予測（非特許文献１の第12.4.2.4.3節参照）に関係したパラメータおよび／またはサブバンド方向性信号合成およびパラメトリック周囲音複製に関係したパラメータを含んでいてもよい。

（ブロードバンド）空間的予測に関係したパラメータは、方向性信号から音場の欠けている部分を（線形に）予測するために使用されうる。

サブバンド方向性信号合成およびパラメトリック周囲音複製は、MPEG-H 3Dオーディオ規格に改訂により最近導入された圧縮ツールである（非特許文献２の第１節参照）。これらのツールは、空間的に不完全なまたは欠損のある圧縮されたHOA表現を補完するために空間的に分布させられるべき追加的なモノラル信号の周波数依存のパラメトリックな予測を許容する。予測は、基本的な圧縮された音表現の係数シーケンスに基づいていてもよい。

音場への上記の補完する寄与は、追加的な量子化された信号によってではなく、比較可能にずっと小さなサイズの追加的なサイド情報によって、圧縮されたHOA表現内で表現されることに注意しておくことが重要である。よって、上述した二つの符号化ツールは、低データレートでのHOA表現の圧縮のために特に好適である。

上述した構造をもつ一つまたは複数のモノラル信号の圧縮された表現の第二の例は、基本的な圧縮された表現と見なせる、ある上限周波数までの別個の諸周波数帯域についての符号化されたスペクトル情報；該符号化されたスペクトル情報を（たとえば符号化された周波数帯域の数および幅によって）指定する基本サイド情報；およびスペクトル帯域複製（SBR）のパラメータを含む（たとえば、からなる）向上サイド情報を含んでいてもよい。向上サイド情報のパラメータは、基本的な圧縮された表現から、どのようにして、基本的な圧縮された表現において考慮されていない、より高い周波数帯域についてのスペクトル情報をパラメトリックに再構成するかを記述する。

本開示は、上述した構造をもつ完全な圧縮された音（または音場）表現の層構成の符号化のための方法を提案する。

圧縮は、一連の時間区間についての圧縮された表現を（たとえばデータ・パケット、あるいは等価だがフレーム・ペイロードの形で）与えるという意味で、フレーム・ベースであってもよい。時間区間は等しいまたは異なるサイズをもちうる。これらのデータ・パケットは、実際の圧縮された表現のデータのほかに、有効性フラグ、そのサイズを示す値を含むと想定されてもよい。以下では、限定の意図なく、圧縮はフレーム・ベースであると想定される。さらに、特に断わりのない限り、限定の意図なく、単一のフレームの扱いに焦点を当てる。よって、フレーム・インデックスは省略される。

考えられている完全な圧縮された音（または音場）表現の各フレーム・ペイロードは、J個のデータ・パケット（またはフレーム・ペイロード）を含んでおり、各データ・パケットはBSRC_j、j＝1,…,Jと記される基本的な圧縮された音表現の一つの成分についてであると想定される。さらに、各データ・パケットは、BSI_Iによって記される独立（independent）基本サイド情報（basic side information）をもつパケットを含んでいると想定される。BSI_Iは、他の成分とは独立に基本的な圧縮された音表現の特定の諸成分BSRC_jを指定する。任意的に、各データ・パケットはさらに、BSI_Dと記される従属（dependent）基本サイド情報（追加的な基本サイド情報）をもつパケットを含んでいると想定される。BSI_Dは、他の成分に依存して基本的な圧縮された音表現の特定の諸成分BSRC_jを指定する。

二つのデータ・パケットBSI_IおよびBSI_D内に含まれる情報は、任意的に、基本サイド情報の単一のデータ・パケットBSIにグループ化されてもよい。単一のデータ・パケットBSIは、中でも、それぞれが基本的な圧縮された音表現の一つの特定の成分BSRC_jを指定するJ個の部分を含むと言われてもよい。これらの部分のそれぞれは、独立サイド情報の部分および任意的には従属サイド情報の部分と含むと言われてもよい。

最終的には、各データ・パケットは、完全な基本的な圧縮された音表現からの再構成された音（または音場）をどのように改善または向上するかの記述をもつ、ESIと記される向上サイド情報ペイロード（enhancement side information）を含んでいてもよい。

層構成の符号化のための提案される解決策は、伝送のためのデータ・パケットのパッキングを含む圧縮部と、受領器および圧縮解除部との両方を可能にするための必要とされる諸段階に取り組む。各部については下記で詳細に述べる。

まず、（たとえば伝送のための）圧縮およびパッキングについて述べる。特に、層構成の符号化の場合の完全な圧縮された音（または音場）表現の成分および要素について述べる。

図１は、圧縮およびパッキングのための方法（たとえば、音または音場の圧縮された音表現の、エンコード方法または層構成のエンコードの方法）の例のフローチャートを概略的に示している。個々のペイロードの基本層および(M－1)個の向上層への割り当て（たとえば割り振り）はトランスポート層パッキング器によって達成されてもよい。図２は、個々のペイロードの割り当て／割り振りの例のブロック図を概略的に示している。

上記で示したように、完全な圧縮された音表現２１００は、たとえば、基本的な圧縮された音表現を含む圧縮されたHOA表現に関係していてもよい。完全な圧縮された音表現２１００は、複数の成分（たとえばモノラル信号）２１１０－１、…、２１１０－Jと、独立基本サイド情報（基本サイド情報）２１２０と、任意的な向上サイド情報（向上サイド情報）２１４０と、任意的な従属基本サイド情報（追加的な基本サイド情報）２１３０とを含んでいてもよい。基本サイド情報２１２０は、基本的な圧縮された音表現をデコードして前記音または音場の基本的な再構成された音表現にするための情報であってもよい。基本サイド情報２１２０は、一つまたは複数の成分（たとえばモノラル信号）のデコードを個別に、他の成分とは独立に指定する情報を含んでいてもよい。向上サイド情報２１４０は、基本的な再構成された音表現を改善する（たとえば向上させる）ためのパラメータを含んでいてもよい。追加的な基本サイド情報２１３０は、基本的な圧縮された音表現をデコードして前記基本的な再構成された音表現にするための（さらなる）情報であってもよく、前記複数の成分のうちの一つまたは複数の成分のデコードを個別に、それぞれの他の成分に依存して指定する情報を含んでいてもよい。

図２は、一つの基本層（基本的な層）および一つまたは複数の（階層的な）向上層を含む複数の階層的な層がある、前提となる想定を示している。たとえば全部でM個の層、つまり一つの基本層とM－1個の向上層があってもよい。前記複数の階層的な層は順次増大する層インデックスを有する。層インデックスの最低値（たとえば層インデックス1）は基本層に対応する。さらに、層が基本層から、諸向上層を通じて、全体的な最高の向上層（すなわち、全体的な最上位の層）まで順序付けられていることが理解される。

提案される方法は、フレーム・ベースで（すなわち、フレームごとの仕方で）実行されてもよい。特に、圧縮された音表現２１００は、一連の時間区間、たとえば等しいサイズの時間区間について圧縮されてもよい。各時間区間はフレームに対応しうる。下記の段階は、一連の時間区間のそれぞれ（たとえばフレーム）について実行されてもよい。

図１のＳ１０１０では、前記複数の成分２１１０が複数の成分グループに細分される。前記複数のグループのそれぞれは、次いで、複数の階層的な層の対応するものに割り当てられる（たとえば加えられるまたは割り振られる）。ここで、グループの数は層の数に対応する。たとえば、グループの数は層の数に等しくてもよく、それにより、各層について、成分の一つのグループがあってもよい。上記で示したように、複数の層は、基本層と、一つまたは複数の（たとえばM－1個の）階層的な向上層とを含んでいてもよい。

換言すれば、基本的な圧縮された音表現は個々の層に割り当てられる諸部分に細分される。一般性を失うことなく、グループ化はM＋1個の数J_m、m＝0,…,Mによって記述できる。ここで、J₀＝1、J_M＝J＋1であり、成分BSRC_jは、J_m-1≦j＜J_mについて、m番目の層に割り当てられる。

Ｓ１０２０では、成分のグループはそれぞれの層に割り当てられる。Ｓ１０３０では、基本サイド情報２１２０が基本層（すなわち、前記複数の階層的な層のうちの最低の層）に加えられる（たとえば割り振られる）。

すなわち、その小さなサイズのため、完全な基本サイド情報（基本サイド情報および任意的な追加的な基本サイド情報）を基本層に含めてその無用な断片化を避けることが提案される。

考えている圧縮された音表現が従属基本サイド情報（追加的な基本サイド情報）を含む場合、本方法はさらに（図１には示さず）、前記追加的な基本サイド情報を、追加的な基本サイド情報の複数の部分２１３０－１、…、２１３０－Mに分解することを含んでいてもよい。追加的な基本サイド情報のそれらの部分は次いで、基本層に加えられて（たとえば割り振られて）もよい。換言すれば、追加的な基本サイド情報のそれらの部分は基本層に含められてもよい。追加的な基本サイド情報の各部分はそれぞれの層に対応していてもよく、該それぞれの層に割り当てられる一つまたは複数の成分のデコードを、該それぞれの層および該それぞれの層よりも低い任意の諸層に割り当てられる他の成分に依存して指定する情報を含んでいてもよい。

こうして、独立基本サイド情報BSI_I（基本サイド情報）２１２０は割り当てのために不変のままにされる一方、従属基本サイド情報は、層構成の符号化については、受領器側で正しいデコードを許容し、かつ、伝送される従属基本サイド情報のサイズを減らすために、特別に扱われる必要がある。従属基本サイド情報を、BSI_D,m、m＝1,…,Mで記されるM個の部分（パート）に分解することが提案される。ここで、m番目の部分は、m番目の層に割り当てられる基本的な圧縮された音表現の成分BSRC_j、J_m-1≦j＜J_mのそれぞれについての従属基本サイド情報を含む。これは、該任意的な従属基本サイド情報が、考えている圧縮された音表現について存在していると想定してのことである。それぞれの従属サイド情報が存在しない場合には、諸部分のその圧縮された音表現については、BSI_D,mは空であると想定される。従属基本サイド情報の各部分BSI_D,mは、m番目の層までの層すべてに含まれる（すなわち、すべての層j＝1,…,mに含まれる）すべての成分BSRC_j、1≦j＜J_mに依存してもよい。

独立基本サイド情報パケットBSI_Iが無視できるほど小さいサイズである場合、それを全体として保ち、基本層に加える（割り当てる）ことが合理的である。任意的に、独立基本サイド情報についても、従属基本サイド情報と同様の分解を行なうことができ、パケットBSI_I,m、m＝1,…,Mを与える。これは、独立基本サイド情報の諸部分を、基本的な圧縮された音表現の対応する成分をもつ層に加える（割り当てる）ことによって、基本層のサイズを減らすために有用である。

Ｓ１０４０では、向上サイド情報の複数の部分２１４０－１、…、２１４０－Mが決定されてもよい。向上サイド情報の各部分は、それぞれの層および該それぞれの層より低い任意の諸層に含まれるデータから得られる再構成された音表現を改善する（たとえば向上させる）ためのパラメータを含んでいてもよい。

この段階を実行する理由は、層構成の符号化の場合、予備的な圧縮解除された音（または音場）を向上させることが意図されているので、向上サイド情報が各層について余計に計算される必要があることを認識することが重要であるが、それは圧縮解除のための利用可能な層に依存するということである。具体的には、所与の最高のデコード可能な層（最高の使用可能な層）についての予備的な圧縮解除された音（または音場）は、該最高のデコード可能な層および該最高のデコード可能な層より下の任意の諸層に含まれる成分に依存する。よって、圧縮は、ESI_m、m＝1,…,Mで記されるM個の個別の向上サイド情報データ・パケット（向上サイド情報の諸部分）を提供する必要がある。ここで、m番目のデータ・パケットにおける向上サイド情報ESI_mは、基本層と、mより低いインデックスをもつ向上層とに含まれる全データ（たとえば、m番目の層およびm番目の層より下の任意の諸層に含まれる全データ）から得られる音（または音場）表現を向上させるよう計算される。

Ｓ１０５０では、向上サイド情報の前記複数の部分２１４０－１、…、２１４０－Mが前記複数の層に割り当てられる（たとえば、加えられるまたは割り振られる）。向上サイド情報の前記複数の部分の各部分は、前記複数の層のうちのそれぞれの層に割り当てられる。たとえば、前記複数の層の各層は、向上サイド情報のそれぞれの部分を含む。

基本および／または向上サイド情報のそれぞれの層への割り当ては、エンコード方法によって生成される構成設定情報において示されてもよい。換言すれば、基本および／または向上サイド情報とそれぞれの層との間の対応が構成設定情報において示されてもよい。さらに、構成設定情報は、各層について、基本的な圧縮された音表現の成分であって、その層に割り当てられる（たとえば含められる）ものを示してもよい。追加的な基本サイド情報の諸部分は、基本層に含まれるが、基本層とは異なる層に対応していてもよい。

まとめると、圧縮段では、次の組成をもつ、FRAMEと記されるフレーム・データ・パケットが提供される：

さらに、パケットBSI_Iおよびm＝1,…,MについてのBSI_D,mは単一のパケットBSIに組み合わされてもよい。この場合、FRAMEと記されるフレーム・データ・パケットは次の組成をもつことになる：

フレーム・データ・パケットでの個々のペイロードの順序付けは一般に任意でありうる。

個々のデータ・パケットは次いで、ペイロード内でグループ化されてもよい。該ペイロードは、実際の圧縮された表現データのほかに有効性フラグ、そのサイズを示す値を含む特別なデータ・パケットとして定義される。ペイロードの使用は、受領器側での単純な多重分離を許容し、古くなったペイロードを、その中をパースしていく必要なしに、破棄することができるという利点をもたらす。一つの可能なグループ分けは次によって与えられる。
・各BSRC_jパケット、j＝1,…,Jを個別のペイロード（￣付きのBP_jで記される）に割り当てる（たとえば割り振る）。
・m番目の向上サイド情報データ・パケットESI_mおよびm番目の従属サイド情報データ・パケットBSI_D,mを一つの向上ペイロード（￣付きのEP_mで記される、m＝1,…,M）に割り当てる（たとえば割り振る）。
・独立基本サイド情報BSI_Iを別個のサイド情報ペイロード（￣付きのBSIPで記される）に割り当てる。

任意的に、独立基本サイド情報のサイズが大きい場合、その諸成分のうち各m番目BSI_I,m、m＝1,…,Mは前記向上ペイロード（￣付きのEP_mで記される）に割り当てられて（たとえば割り振られて）もよい。この場合、前記サイド情報ペイロード（￣付きのBSIP）は空であり、無視できる。

もう一つのオプションは、すべての従属基本サイド情報データ・パケットBSI_D,mを前記サイド情報ペイロード（￣付きのBSIP）割り当てることである。従属基本サイド情報のサイズが小さい場合には、これは合理的である。

最終的に、次の組成をもつ、FRAMEで記されるフレーム・データ・パケットが与えられてもよい。

本方法はさらに（図１には示さず）、前記複数の層のそれぞれについて、該それぞれの層のデータ（たとえば基本層については成分、基本サイド情報および向上サイド情報、あるいは前記一つまたは複数の向上層については成分および向上サイド情報）を含むトランスポート層パケット（たとえば、基本層パケット２２００およびM－1個の向上層パケット２３００－１、…、２３００－(M－1)）を生成することを含んでいてもよい。

異なる層についてのトランスポート層パケットは、異なる伝送優先度を有していてもよい。こうして、本方法はさらに（図１には示さず）、前記複数の層のデータの伝送のためのトランスポート・ストリームを生成することを含んでいてもよい。ここで、基本層は最高の伝送優先度をもち、階層的な向上層はデクリメントしていく伝送優先度をもつ。ここで、伝送の優先度が高いほど、より大きな度合いの誤り保護に対応し、逆も成り立つ。

段階がある別の段階を前提条件として要求するのでない限り、上述の諸段階は任意の順序で実行されてもよく、図１に示される例示的な順序は限定しないと理解される。

図３は、デコードまたは圧縮解除（アンパッキング）のための音または音場の圧縮された音表現をデコードする方法を示している。対応する受領器および圧縮解除段の例は図４Ａおよび図４Ｂのブロック図に概略的に示される。

上記からわかるように、圧縮された音表現は、前記複数の階層的な層においてエンコードされていてもよい。前記複数の層には、基本的な圧縮された音表現の成分が割り当てられていてもよい（たとえば、該成分を含んでいてもよい）。それらの成分は、それぞれの成分グループにおいてそれぞれの層に割り当てられている。基本層は、基本的な圧縮された音表現をデコードするための基本サイド情報を含んでいてもよい。各層は、該それぞれの層および該それぞれの層より低い任意の諸層に含まれるデータから得られる基本的な再構成された音表現を改善するためのパラメータを含む向上サイド情報の上述した部分の一つを含んでいてもよい。

提案される方法は、フレーム・ベースで（すなわち、フレームごとの仕方で）実行されてもよい。特に、前記音または音場の復元された表現は、一連の時間区間、たとえば等しいサイズの時間区間について生成されてもよい。それらの時間区間はたとえばフレームであってもよい。下記の段階は、一連の時間区間（たとえばフレーム）のそれぞれについて実行されてもよい。

Ｓ３０１０では、前記複数の層に対応するデータ・ペイロード（たとえば、トランスポート層パケット）が受領される。データ・ペイロードは、前記複数の階層的な層に対応する、音または音場の圧縮されたHOA表現を含むビットストリームの一部として受領されてもよい。階層的な層は、基本層および一つまたは複数の向上層を含む。前記複数の層には、前記音または音場の基本的な圧縮された音表現の成分が割り当てられていてもよい。前記成分は、それぞれの成分グループにおいてそれぞれの層に割り当てられている。

個々の層パケットは多重化されて、完全な圧縮された音表現の受領されたフレーム・パケットを提供してもよい。受領されたフレーム・パケットは

によって示されてもよい。パケットBSI_Iとm＝1,…,MについてのBSI_D,mとが単一のパケットBSIに組み合わされる代替的な事例では、個別の層パケットは多重化されて、

によって示される完全な圧縮された音表現の受領されたフレーム・パケットを提供してもよい。

ペイロードを使うと、受領されたフレーム・パケットは

によって与えられてもよい。

受領されたフレーム・パケットは次いで、圧縮解除器またはデコーダ４１００に渡されてもよい。個別の層の伝送に誤りがなかった場合、少なくとも（たとえば、向上サイド情報の部分に対応する）含まれている向上サイド情報ペイロード

部分の有効性フラグは「真」に設定される。個別の層の伝送に起因する誤りがある場合には、少なくともこの層における向上サイド情報ペイロード内の有効性フラグは「偽」に設定される。よって、層パケットの有効性は、含まれている向上サイド情報ペイロードの有効性から（たとえば、その有効性フラグから）判別できる。

圧縮解除器４１００において、受領されたフレーム・パケットは多重分離されてもよい。この目的のために、個別のペイロードのデータを通じて不必要なパースをしていくことを避けるために、各ペイロードのサイズについての情報が活用されてもよい。

Ｓ３０２０では、前記複数の層のうちから、最高の層（たとえば、最高の使用可能な層または最高のデコード可能な層）を示す第一の層インデックスが、基本的な圧縮された音表現をデコードして、前記音または音場の前記基本的な再構成された音表現にするために使われるよう、決定される。

さらに、Ｓ３０２０において、基本的な音表現の圧縮解除のために使われることになる最高の層（最高の使用可能な層）の値（たとえば層インデックス）N_Bが選択されてもよい。基本的な音表現の圧縮解除のために実際に使用される最高の向上層はN_B－1によって与えられる。各層はちょうど一つの向上サイド情報ペイロード（向上サイド情報の一部）を含んでいるので、該向上サイド情報ペイロードに基づいて、含んでいる層が有効である（たとえば、有効に受領された）か否かが判定されうる。よって、前記選択は、すべての向上サイド情報ペイロードESI_m、m＝1,…,M（あるいは対応して

m＝1,…,M）を使って達成できる。

Ｓ３０３０では、基本的な再構成された音表現が得られる。基本的な再構成された音表現は、第一の層インデックスによって示される最高の使用可能な層およびこの最高の使用可能な層より低い任意の諸層に割り当てられた成分から、基本サイド情報を使って（あるいは一般には基本サイド情報を使って）得られてもよい。

基本的な圧縮された音表現成分BSRC₁、…、BSRC_Jのペイロードは、基本サイド情報ペイロード（たとえば、BSIまたはBSI_IおよびBSI_D,m、m＝1,…,M）（のすべて）および値N_Bと一緒に、基本表現圧縮解除処理ユニット４２００に提供されてもよい。基本表現圧縮解除処理ユニット４２００（図４Ａおよび図４Ｂに示される）は、最も低いN_B個の層、すなわち基本層およびN_B－1個の向上層（すなわち、第一の層インデックスによって示される層までの諸層）内に含まれる基本的な圧縮された音表現成分のみを使って、基本的な音（または音場）表現を再構成する。代替的には、最も低いN_B個の層に含まれる基本的な圧縮された音表現成分のペイロードのみが、それぞれの基本サイド情報ペイロードと一緒に、基本表現圧縮解除処理ユニット４２００に提供されてもよい。

個々の層に基本的な圧縮された音（または音場）表現のどの成分が含まれるかについての必要とされる情報は、構成設定情報をもつデータ・パケットから、圧縮解除器４１００には知られていると想定される。構成設定情報は、フレーム・データ・パケットより前に送受信されると想定される。

従属サイド情報データ・パケットBSI_D,m、m＝1,…,N_Bおよび向上サイド情報データ・パケットESI_NEを提供するために、すべての向上ペイロードが、値N_Eおよび値N_Bと一緒に、圧縮解除器４１００の部分的パーサー４４００（図４Ｂ参照）に入力されてもよい。パーサーは、実際の圧縮解除に使われないすべてのペイロードおよびデータ・パケットを破棄してもよい。N_Eの値が0に等しい場合、すべての向上サイド情報データ・パケットは空であると想定されてもよい。

基本層が、それぞれの層に対応する少なくとも一つの従属基本サイド情報ペイロード（追加的な基本サイド情報の一部）を含む場合、各個別の従属基本サイド情報ペイロード（たとえばBSI_D,m、m＝1,…,N_B（追加的な基本サイド情報の一部））のデコードは、（ｉ）追加的な基本サイド情報の前記一部のデコードを、そのそれぞれの層および該それぞれの層より低い任意の諸層に割り当てられた成分を参照することによって行なうこと（予備的デコード）と、（ｉｉ）追加的な基本サイド情報の前記一部の補正を、最高の使用可能な層および該最高の使用可能な層とそれぞれの層との間の任意の諸層に割り当てられている成分を参照することによって行なうこと（補正）とを含んでいてもよい。ここで、それぞれの層に対応する追加的な基本サイド情報は、該それぞれの層に割り当てられた成分のうち一つまたは複数の成分のデコードを、該それぞれの層および該それぞれの層よりも低い任意の諸層に割り当てられた他の成分に依存して指定する情報を含む。

次いで、基本的な再構成された音表現が、最高の使用可能な層および最高の使用可能な層より低い任意の諸層に割り当てられた成分から、基本サイド情報と、最高の使用可能な層までの諸層に対応する追加的な基本サイド情報の諸部分から得られる追加的な基本サイド情報の補正された諸部分とを使って、得られる（たとえば生成される）ことができる。

特に、各ペイロードBSI_D,m、m＝1,…,N_Bの予備的なデコードは、エンコード段において想定された最初のm層に含まれる最初のJ_m－1個の基本的な圧縮された音表現成分BSRC₁、…、BSRC_(Jm)-1への依存性を活用することに関わっていてもよい。

各ペイロードBSI_D,m、m＝1,…,N_Bの逐次的な補正は、基本的な音成分が、予備的なデコードのために想定されたよりも多くの成分である最初のN_B＞m層に含まれる最初のJ_NB－1個の基本的な圧縮された音表現成分BSRC₁、…、BSRC_(JNB)-1から最終的に再構成されることを考慮することに関わってもよい。よって、補正は、古くなった情報を破棄することによって達成されてもよい。これが可能なのは、従属基本サイド情報の初期に想定された属性、つまり基本的な圧縮された音表現にある種の補完成分が追加されれば、それぞれの個別の（相補的な）成分についての従属基本サイド情報がもとのものの部分集合になるという属性のためである。

Ｓ３０４０では、第二の層インデックスが決定されてもよい。第二の層インデックスは、基本的な再構成された音表現を改善する（たとえば向上させる）ために使われるべき向上サイド情報の部分（単数または複数）を示してもよい。

第一の層インデックスに加えて、圧縮解除のために使われるべき向上サイド情報ペイロード（第二の向上情報の部分）のインデックス（第二の層インデックス）N_Eが決定されてもよい。第二の層インデックスN_Eは常に第一の層インデックスN_Bに等しいか、0に等しくてもよい。向上は、常に、最高の使用可能な層から得られる基本的な音表現に従って達成されるか、全く達成されないかのどちらかであってもよい。

Ｓ３０５０では、前記音または音場の再構成された音表現が、前記基本的な再構成された音表現から、前記第二の層インデックスを参照して、得られる（たとえば生成される）。

すなわち、再構成された音表現は、基本的な再構成された音表現を（パラメトリックに）改善するまたは向上させることによって、たとえば第二の層インデックスによって示される向上サイド情報（向上サイド情報の一部）を使うことによって、得られる。後述するように、第二の層インデックスは、この段階でいかなる向上サイド情報も全く使わないことを指示してもよい。すると、再構成された音表現は、基本的な再構成された音表現に対応することになる。

この目的のために、再構成された基本的な音表現は、すべての向上サイド情報ペイロードESI₁、…、ESI_M、基本サイド情報ペイロード（たとえばBSIまたはBSI_IおよびBSI_D,m、m＝1,…,M）および値N_Eと一緒に、向上表現圧縮解除処理ユニット４３００（図４Ａおよび図４Ｂに示される）に与えられる。向上表現圧縮解除処理ユニット４３００は、向上サイド情報ペイロードESI_NEのみを使い、他のすべての向上サイド情報ペイロードを破棄して、最終的な向上された音（または音場）表現２１００’を計算する。代替的には、すべての向上サイド情報ペイロードの代わりに向上サイド情報ペイロードESI_NEのみが向上表現圧縮解除処理ユニット４３００に提供されてもよい。N_Eの値が0に等しい場合は、すべての向上サイド情報ペイロードが破棄される（代替的には、向上サイド情報ペイロードは提供されない）。そして、再構成された最終的な向上された音表現２１００’は、再構成された基本的な音表現に等しい。向上サイド情報ペイロードESI_NEは、部分的パーサー４４００によって得られたものであってもよい。

図３も、基本層に付随する基本サイド情報に基づき、かつ一つまたは複数の階層的な向上層に付随する向上サイド情報に基づいて、圧縮されたHOA表現をデコードすることを概括的に示している。

段階がある別の段階を前提条件として要求するのでない限り、上述の諸段階は任意の順序で実行されてもよく、図３に示される例示的な順序は限定しないと理解される。

次に、段階Ｓ３０２０およびＳ３０４０における圧縮解除のための層選択（第一および第二の層インデックスの選択）の詳細について述べる。

第一の層インデックスの決定は、各層について、当該層が有効に受領されたかどうかを判定することに関わっていてもよい。第一の層インデックスの決定は、さらに、第一の層インデックスを、有効に受領されなかった最低の層のすぐ下の層の層インデックスとして決定することに関わっていてもよい。層が有効に受領されたか否かは、その層の向上サイド情報ペイロードが有効に受領されたかどうかを評価することによって判定されてもよい。これは、向上サイド情報ペイロード内の有効性フラグを評価することによってなされてもよい。

第二の層インデックスの決定は、一般に、第二の層インデックスを第一の層インデックスに等しくなるよう決定するか、あるいは、前記再構成された音表現を得るときにいかなる向上サイド情報も使わないことを示すインデックス値（たとえばインデックス値0）を、前記第二の層インデックスとして決定することに関わっていてもよい。

すべてのフレーム・データ・パケットが互いと独立して圧縮解除されうる場合には、基本的な音表現の圧縮解除のために実際に使われる最高の層（最高の使用可能な層）の番号N_Bおよび圧縮解除のために使われる向上サイド情報ペイロードのインデックスN_Eはいずれも、有効な向上サイド情報ペイロードの最高の番号Lに設定されてもよい。L自身は、向上サイド情報ペイロード内の有効性フラグを評価することによって決定されうる。各向上サイド情報ペイロードのサイズの知識を活用することによって、有効性の判定のためにペイロードの実際のデータを通じて複雑なパースをしていくことは回避できる。

すなわち、一連の時間区間についての圧縮された音表現が独立にデコードされることができる場合には、第二の層インデックスは第一の層インデックスに等しくなるよう決定されてもよい。この場合、再構成された基本的な音表現は、最高の使用可能な層の向上サイド情報ペイロードに基づいて向上されうる。

フレーム間依存性がある差分圧縮解除が用いられる場合には、さらに、前のフレームからの決定が考慮される必要がある。差分圧縮解除では、通例、独立フレーム・データ・パケットが規則的な時間間隔で伝送される。それらの時点から圧縮解除を開始することを許容するためである。独立フレーム・データ・パケットでは、値N_BおよびN_Eの決定はフレーム独立になり、上記のように実行される。

提案されるフレーム依存の決定を詳細に説明するために、k番目のフレームについての有効な向上サイド情報ペイロードの最高の番号（たとえば層インデックス）をL(k)で、基本的な音表現の圧縮解除のために選択され、使用される最高の層番号（たとえば層インデックス）をN_B(k)で、圧縮解除のために使われる向上サイド情報ペイロードの番号（たとえば層インデックス）をN_E(k)で、表わす。

この記法を使って、基本的な音表現の圧縮解除のために使用される最高の層番号N_B(k)は次式に従って計算される。

N_B(k)がN_B(k－1)およびL(k)より大きくないように選ぶことによって、基本的な音表現の差分圧縮解除のために必要とされるすべての情報が利用可能であることが保証される。

すなわち、一連の時間区間（たとえばフレーム）についての圧縮された音表現が互いに独立にデコードされることができない場合には、第一の層インデックスを決定することは、各層について、該それぞれの層が有効に受領されたかどうかを判定し、該所与の時間区間についての前記第一の層インデックスを、該所与の時間区間に先行する時間区間の第一の層インデックスと、有効に受領されなかった最低の層のすぐ下の層の層インデックスとのうちの小さいほうとして決定することを含んでいてもよい。

圧縮解除のために使われる向上サイド情報ペイロードの番号N_E(k)は次式に従って決定されてもよい。

ここで、N_E(k)についての0という選択は、再構成された基本的な音表現が、向上サイド情報を使って改善または向上されないことを示す。

つまり、具体的には、基本的な音表現の圧縮解除のために使われる最高の層番号N_B(k)が変わらない限り、同じ対応する向上層番号が選択される。しかしながら、N_B(k)が変化する場合には、N_E(k)を0に設定することによって向上は無効にされる。向上サイド情報の想定される差分圧縮解除のため、N_B(k)に基づくその変化は可能ではない。前フレームでの対応する向上サイド情報層の圧縮解除を必要とすることになるが、かかる圧縮解除は実行されなかったと想定されるからである。

すなわち、一連の時間区間（たとえばフレーム）についての圧縮された音表現が互いに独立にデコードされることができない場合には、第二の層インデックスの決定は、前記所与の時間区間についての第一の層インデックスが先行する時間区間についての第一の層インデックスと等しいかどうかを判定することを含んでいてもよい。前記所与の時間区間についての第一の層インデックスが先行する時間区間についての第一の層インデックスと等しい場合、前記所与の時間区間についての前記第二の層インデックスが、前記所与の時間区間についての前記第一の層インデックスと等しくなるように決定（たとえば選択）されてもよい。他方、前記所与の時間区間についての第一の層インデックスが先行する時間区間についての第一の層インデックスと等しくない場合、前記再構成された音表現を得るときにいかなる向上サイド情報も使わないことを示すインデックス値が、前記第二の層インデックスとして決定（たとえば選択）されてもよい。

あるいはまた、圧縮解除において、N_E(k)までの番号をもつ向上サイド情報ペイロードの全部が並列に圧縮解除される場合、式(4)の選択規則は
N_E(k)＝N_B(k) (9)
によって置き換えられる。

最後に、差分圧縮解除については、最上位の使用される層の番号N_Bは独立フレーム・データ・パケットにおいてのみ増大でき、一方、減少はどのフレームでも可能であることを注意しておく。

圧縮された音表現の層構成のエンコードの提案される方法が、圧縮された音表現の層構成のエンコードのためのエンコーダによって実装されうることが理解される。そのようなエンコーダは、上記のそれぞれの段階を実行するよう適応されたそれぞれのユニットを有していてもよい。そのようなエンコーダ５０００の例は図５に概略的に示されている。たとえば、そのようなエンコーダ５０００は、上述したＳ１０１０を実行するよう適応された成分細分ユニット５０１０と、上述したＳ１０２０を実行するよう適応された成分割り当てユニット５０２０と、上述したＳ１０３０を実行するよう適応された基本サイド情報割り当てユニット５０３０と、上述したＳ１０４０を実行するよう適応された向上サイド情報分割ユニット５０４０と、上述したＳ１０５０を実行するよう適応された向上サイド情報割り当てユニット５０５０とを有していてもよい。さらに、そのようなエンコーダのそれぞれのユニットが、前記ユニットのそれぞれによって実行される処理を実行するよう適応された、すなわち提案されるエンコード方法の上述した段階の一部または全部やさらなる段階を実行するよう適応されているコンピューティング装置のプロセッサ５１００によって具現されてもよいことが理解される。エンコーダまたはコンピューティング装置はさらに、プロセッサ５１００によってアクセス可能なメモリ５２００を有していてもよい。

さらに、複数の階層式の層においてエンコードされている圧縮された音表現のデコードの提案される方法が、複数の階層式の層においてエンコードされている圧縮された音表現をデコードするためのデコーダによって実装されうることが理解される。そのようなデコーダは、上記のそれぞれの段階を実行するよう適応されたそれぞれのユニットを有していてもよい。そのようなデコーダ６０００の例は図６に概略的に示されている。たとえば、そのようなデコーダ６０００は、上述したＳ３０１０を実行するよう適応された受領ユニット６０１０と、上述したＳ３０２０を実行するよう適応された第一の層インデックス決定ユニット６０２０と、上述したＳ３０３０を実行するよう適応された基本再構成ユニット６０３０と、上述したＳ３０４０を実行するよう適応された第二の層インデックス決定ユニット６０４０と、上述したＳ３０５０を実行するよう適応された向上再構成ユニット６０５０とを有していてもよい。さらに、そのようなデコーダのそれぞれのユニットが、前記ユニットのそれぞれによって実行される処理を実行するよう適応された、すなわち提案されるデコード方法の上述した段階の一部または全部やさらなる段階を実行するよう適応されているコンピューティング装置のプロセッサ６１００によって具現されてもよいことが理解される。デコーダまたはコンピューティング装置はさらに、プロセッサ６１００によってアクセス可能なメモリ６２００を有していてもよい。

本稿および図面は単に提案される方法および装置の原理を示すことを注意しておくべきである。よって、本稿で明示的に記述または図示されていなくても、本発明の原理を具現し、その精神および範囲内に含まれるさまざまな構成を当業者が考案できるであろうことは理解される。さらに、本稿に記載されるすべての例は、主として提案される方法および装置の原理および発明者によって当該技術の進歩に寄与される概念を理解することにおいて読者を助ける教育目的のためにのみ明確に意図されており、そのような個別的に記載される例および条件への限定なしに解釈される。さらに、本発明の原理、側面および実施形態を記載する本稿におけるあらゆる陳述ならびにその個別的な例は、その等価物を包含することが意図されている。

本稿に記載される方法および装置は、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されてもよい。ある種のコンポーネントはたとえばデジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアとしておよびまたは特定用途向け集積回路として実装されてもよい。記載される方法および装置において出てくる信号は、ランダムアクセスメモリまたは光記憶媒体のような媒体上に記憶されてもよく、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットのようなネットワークを介して転送されてもよい。

いくつかの態様を記載しておく。
〔態様１〕
音または音場の圧縮された高次アンビソニックス（HOA）表現をデコードする方法であって、当該方法は：
基本層および一つまたは複数の階層式の向上層を含む複数の階層式の層に対応する前記圧縮されたHOA表現を含むビットストリームを受領する段階であって、前記複数の層には、前記音または音場の基本的な圧縮された音表現の成分が割り当てられており、それらの成分は、それぞれの成分グループにおいてそれぞれの層に割り当てられている、段階と；
基本層に関連付けられている基本サイド情報に基づき、かつ前記一つまたは複数の階層式の向上層に関連付けられている向上サイド情報に基づいて、前記圧縮されたHOA表現をデコードする段階とを含み、
前記一つまたは複数の階層式の向上層のそれぞれは、それぞれの層および該それぞれの層より低い任意の諸層に含まれるデータから得られる基本的な再構成された音表現を改善するためのパラメータを含む前記向上サイド情報の部分を含む、
方法。
〔態様２〕
前記基本的な圧縮された音表現の成分はモノラル信号に対応し；
前記モノラル信号は、優勢音信号またはHOA表現の係数シーケンスのいずれかを表わす、
態様１記載の方法。
〔態様３〕
前記ビットストリームは、前記一つまたは複数の階層式の層にそれぞれ対応するデータ・ペイロードを含む、態様１または２記載の方法。
〔態様４〕
前記向上サイド情報は、空間的予測、サブバンド方向性信号合成およびパラメトリック周囲音複製のうちの少なくとも一つに関係したパラメータを含む、態様１ないし３のうちいずれか一項記載の方法。
〔態様５〕
前記向上サイド情報は、方向性信号からの音または音場の欠けている部分の予測を許容する情報を含む、態様１ないし４のうちいずれか一項記載の方法。
〔態様６〕
各層について、該それぞれの層が有効に受領されたかどうかを判定し；
有効に受領されていない最低の層のすぐ下の層の層インデックスを判別することをさらに含む、
態様１ないし５のうちいずれか一項記載の方法。
〔態様７〕
前記第一の層インデックスに等しいまたはデコードの際の向上サイド情報の省略を示す第二の層インデックスを決定することをさらに含む、態様１ないし６のうちいずれか一項記載の方法。
〔態様８〕
前記基本的な圧縮された音表現をデコードして前記音または音場の基本的な再構成された音表現にするために使われる、前記複数の層のうちの最高の使用可能な層を示す第一の層インデックスを決定し；
前記最高の使用可能な層および前記最高の使用可能な層より低い任意の諸層に割り当てられた成分から、前記第一のサイド情報を使って前記基本的な再構成された音表現を得ることをさらに含む、
態様１ないし７のうちいずれか一項記載の方法。
〔態様９〕
前記基本層が、追加的な基本サイド情報の、それぞれの層に対応する少なくとも一つの部分であって、該それぞれの層および該それぞれの層より低い任意の諸層に割り当てられた他の成分に依存して該それぞれの層に割り当てられた成分のうちの一つまたは複数の成分のデコードを指定する情報を含む部分を含み、当該方法は、追加的な基本サイド情報のそれぞれの部分について：
追加的な基本サイド情報の前記部分を、そのそれぞれの層および該それぞれの層より低い任意の諸層に割り当てられた成分を参照することによってデコードし；
追加的な基本サイド情報の前記部分を、前記最高の使用可能な層および前記最高の使用可能な層と該それぞれの層の間の任意の諸層に割り当てられた成分を参照することによって補正することを含み、
前記基本的な再構成された音表現は、前記最高の使用可能な層および前記最高の使用可能な層より低い任意の諸層に割り当てられた成分を参照から、前記基本サイド情報と、前記最高の使用可能な層までの諸層に対応する追加的な基本サイド情報の諸部分から得られる、追加的な基本サイド情報の補正された諸部分とを使って、得られる、
態様１ないし８のうちいずれか一項記載の方法。
〔態様１０〕
音または音場の圧縮された高次アンビソニックス（HOA）音表現をデコードするための装置であって、当該装置は：
基本層および一つまたは複数の階層式の向上層を含む複数の階層式の層に対応する前記圧縮されたHOA表現を含むビットストリームを受領する受領器であって、前記複数の層には、前記音または音場の基本的な圧縮された音表現の成分が割り当てられており、それらの成分は、それぞれの成分グループにおいてそれぞれの層に割り当てられている、受領器と；
基本層に関連付けられている基本サイド情報に基づき、かつ前記一つまたは複数の階層式の向上層に関連付けられている向上サイド情報に基づいて、前記圧縮されたHOA表現をデコードするよう構成されたデコーダとを有し、
前記一つまたは複数の階層式の向上層のそれぞれは、それぞれの層および該それぞれの層より低い任意の諸層に含まれるデータから得られる基本的な再構成された音表現を改善するためのパラメータを含む前記向上サイド情報の部分を含む、
装置。
〔態様１１〕
前記基本的な圧縮された音表現の成分はモノラル信号に対応し；
前記モノラル信号は、優勢音信号またはHOA表現の係数シーケンスのいずれかを表わす、
態様１０記載の装置。
〔態様１２〕
前記ビットストリームは、前記一つまたは複数の階層式の層にそれぞれ対応するデータ・ペイロードを含む、態様１０または１１記載の装置。
〔態様１３〕
前記向上サイド情報は、空間的予測、サブバンド方向性信号合成およびパラメトリック周囲音複製のうちの少なくとも一つに関係したパラメータを含む、態様１０ないし１２のうちいずれか一項記載の装置。
〔態様１４〕
前記向上サイド情報は、方向性信号からの音または音場の欠けている部分の予測を許容する情報を含む、態様１０ないし１３のうちいずれか一項記載の装置。
〔態様１５〕
各層について、該それぞれの層が有効に受領されたかどうかを判定し；
有効に受領されていない最低の層のすぐ下の層の層インデックスを判別することをさらに含む、
態様１０ないし１４のうちいずれか一項記載の装置。
〔態様１６〕
前記第一の層インデックスに等しいまたはデコードの際の向上サイド情報の省略を示す第二の層インデックスを決定することをさらに含む、態様１０ないし１５のうちいずれか一項記載の装置。
〔態様１７〕
前記基本的な圧縮された音表現をデコードして前記音または音場の基本的な再構成された音表現にするために使われる、前記複数の層のうちの最高の使用可能な層を示す第一の層インデックスを決定し；
前記最高の使用可能な層および前記最高の使用可能な層より低い任意の諸層に割り当てられた成分から、前記第一のサイド情報を使って前記基本的な再構成された音表現を得ることをさらに含む、
態様１０ないし１６のうちいずれか一項記載の装置。
〔態様１８〕
前記基本層が、追加的な基本サイド情報の、それぞれの層に対応する少なくとも一つの部分であって、該それぞれの層および該それぞれの層より低い任意の諸層に割り当てられた他の成分に依存して該それぞれの層に割り当てられた成分のうちの一つまたは複数の成分のデコードを指定する情報を含む部分を含み、当該方法は、追加的な基本サイド情報のそれぞれの部分について：
追加的な基本サイド情報の前記部分を、そのそれぞれの層および該それぞれの層より低い任意の諸層に割り当てられた成分を参照することによってデコードし；
追加的な基本サイド情報の前記部分を、前記最高の使用可能な層および前記最高の使用可能な層と該それぞれの層の間の任意の諸層に割り当てられた成分を参照することによって補正することを含み、
前記基本的な再構成された音表現は、前記最高の使用可能な層および前記最高の使用可能な層より低い任意の諸層に割り当てられた成分を参照から、前記基本サイド情報と、前記最高の使用可能な層までの諸層に対応する追加的な基本サイド情報の諸部分から得られる、追加的な基本サイド情報の補正された諸部分とを使って、得られる、
態様１０ないし１７のうちいずれか一項記載の装置。

Claims

音または音場の圧縮された高次アンビソニックス（HOA）表現をデコードする方法であって、当該方法は：
前記圧縮されたHOA表現を含むビットストリームを受領する段階を含み、前記ビットストリームは基本層および二つ以上の階層式の向上層を含む複数の階層式の層を含み、前記ビットストリームは、少なくとも、前記複数の階層式の層に対応するデータ・ペイロードを含み、前記ビットストリームはさらに、基本層に関連付けられている基本サイド情報および前記二つ以上の階層式の向上層に関連付けられている向上サイド情報を含み、
前記複数の階層式の層のうちの少なくとも一つに、前記音または音場の前記圧縮されたHOA表現の成分が割り当てられており、基本的な圧縮された音表現の前記成分はモノラル信号に対応し、
前記二つ以上の階層式の向上層は最高の使用可能な階層式の向上層を含み、
前記二つ以上の階層式の向上層のそれぞれは、それぞれの層および該それぞれの層より低い任意の諸層に含まれるデータから得られる基本的な再構成された音表現を改善するためのパラメータを含む前記向上サイド情報の部分を含み、
当該方法がさらに、
パラメータCodedVVecLengthが1に等しく、かつ前記圧縮されたHOA表現に対応するベクトルの少なくともいくつかの成分が暗黙的に0に設定されていることを判別する段階と；
基本層に関連付けられている前記基本サイド情報に基づき、かつ前記最高の使用可能な階層式の向上層に関連付けられている前記向上サイド情報の前記部分に基づき、かつ前記二つ以上の階層式の向上層の他のいかなる層に関連付けられている前記向上サイド情報の第二の部分にも基づかずに、前記圧縮されたHOA表現をデコードする段階とを含む、
方法。
音または音場の圧縮された高次アンビソニックス（HOA）音表現をデコードするための装置であって、当該装置は：
前記圧縮されたHOA表現を含むビットストリームを受領する受領器を含み、前記ビットストリームは、基本層および二つ以上の階層式の向上層を含む複数の階層式の層を含み、前記ビットストリームは、少なくとも、前記複数の階層式の層に対応するデータ・ペイロードを含み、前記ビットストリームはさらに、基本層に関連付けられている基本サイド情報および前記二つ以上の階層式の向上層に関連付けられている向上サイド情報を含むビットストリームを受領する受領器を含む、
前記複数の階層式の層のうちの少なくとも一つに、前記音または音場の前記圧縮されたHOA表現の成分が割り当てられており、基本的な圧縮された音表現の前記成分はモノラル信号に対応し、
前記二つ以上の階層式の向上層は最高の使用可能な階層式の向上層を含み、
前記二つ以上の階層式の向上層のそれぞれは、それぞれの層および該それぞれの層より低い任意の諸層に含まれるデータから得られる基本的な再構成された音表現を改善するためのパラメータを含む前記向上サイド情報の部分を含み、
当該装置がさらに、
パラメータCodedVVecLengthが1に等しく、かつ前記圧縮されたHOA表現に対応するベクトルの少なくともいくつかの成分が暗黙的に0に設定されていることを判別するプロセッサと；
基本層に関連付けられている前記基本サイド情報に基づき、かつ前記最高の使用可能な階層式の向上層に関連付けられている前記向上サイド情報の前記部分に基づき、かつ前記二つ以上の階層式の向上層の他のいかなる層に関連付けられている前記向上サイド情報の第二の部分にも基づかずに、前記圧縮されたHOA表現をデコードするデコーダを有する、
装置。