JP2021530724A

JP2021530724A - 没入的オーディオ信号をエンコードおよび／またはデコードするための方法および装置

Info

Publication number: JP2021530724A
Application number: JP2020547116A
Authority: JP
Inventors: エス．マグラス，デイヴィッド; エッカート，マイケル; プルンハーゲン，ヘイコ; ブルーン，ステファン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2018-07-02
Filing date: 2019-07-02
Publication date: 2021-11-11
Also published as: US20240005933A1; EP4312212A2; IL276619A; MX2020009578A; AU2019298240A1; CA3091150A1; SG11202007628PA; BR112020016948A2; IL276619B1; MX2020009581A; KR20210027236A; EP3818524A1; DE112019003358T5; EP4312212A3; KR20210027238A; IL276618B1; EP3818521A1; RU2020130051A; CN111819627A; ES2968801T3

Abstract

本稿は、マルチチャネル入力信号（201）をエンコードするための方法（700）を記述する。方法（700）は、マルチチャネル入力信号（201）から複数のダウンミックス・チャネル信号（203）を決定し（701）、該複数のダウンミックス・チャネル信号（203）のエネルギー・コンパクト化を実行して（702）、複数のコンパクト化されたチャネル信号（404）を提供することを含む。さらに、方法（700）は、複数のコンパクト化されたチャネル信号（404）に基づいて、かつ前記マルチチャネル入力信号（201）に基づいて、合同符号化メタデータ（205）を決定する（703）ことを含み、前記合同符号化メタデータ（205）は、前記複数のコンパクト化されたチャネル信号（404）を、前記マルチチャネル入力信号（201）の近似にアップミックスすることを許容するようなものである。さらに、方法（700）は、複数のコンパクト化されたチャネル信号（404）および合同符号化メタデータ（205）をエンコードすること（704）を含む。

Description

関連出願への相互参照
本願は、2018年7月2日に出願された米国仮特許出願第62/693,246号への優先権の利益を主張する。同出願の内容はここに参照によって組み込まれる。

技術分野
本稿は、音場表現信号、特にアンビソニックス信号を含みうる没入的オーディオ信号に関する。特に、本稿は、没入的オーディオ信号がビットレート効率のよい仕方でおよび／または高い知覚的品質で伝送および／または格納できるようにするエンコーダおよび対応するデコーダを提供することに関する。

聴取位置に置かれた聴取者の聴取環境内の音または音場は、アンビソニックス信号を使用して記述されうる。アンビソニックス信号は、マルチチャネル・オーディオ信号として見ることができる。ここで、各チャネルが聴取者の聴取位置における音場の特定の指向性パターンに対応する。アンビソニックス信号は、3次元（3D）デカルト座標系を用いて記述されてもよく、座標系の原点が聴取位置に対応し、x軸は前方を指し、y軸は左を指し、z軸は、上方を指す。

オーディオ信号またはチャネルの数を増やし、対応する指向性パターン（および対応するパン関数）の数を増やすことによって、音場の記述精度を高めることができる。例として、一次アンビソニックス信号は、4つのチャネルまたは波形、すなわち、音場の全方向成分を示すWチャネル、x軸に対応する双極子指向性パターンをもつ音場を記述するXチャネル、y軸に対応する双極子指向性パターンをもつ音場を記述するYチャネル、およびz軸に対応する双極子指向性パターンをもつ音場を記述するZチャネルを含む。二次アンビソニックス信号は、一次アンビソニックス信号の4チャネル（Bフォーマットとも呼ばれる）と、異なる指向性パターンのための5つの追加チャネルを含む9チャネルを有する。一般に、L次アンビソニックス信号は、(L−1)次アンビソニックス信号のL²個のチャネルと、追加の指向性パターンのための[(L＋1)²−L²]個の追加チャネルとを含む(L＋1)²個のチャネルを有する（3Dアンビソニック・フォーマットを使用する場合）。L＞1についてのL次アンビソニックス信号は、高次アンビソニック（HOA）信号と呼ばれることがある。

HOA信号は、HOA信号をレンダリングするために使用されるスピーカーの配置から独立して3D音場を記述するために使用されうる。スピーカーの配置例は、ヘッドフォン、またはラウドスピーカーの一つまたは複数の配置、または仮想現実レンダリング環境を含む。よって、オーディオ・レンダリングがスピーカーの異なる配置に柔軟に適応できるようにするために、オーディオ・レンダラーにHOA信号を提供することが有益でありうる。

アンビソニックス信号のような音場表現（soundfield representation、SR）信号は、没入的オーディオ（immersive audio、IA）信号を提供するために、オーディオ・オブジェクトおよび／またはマルチチャネル（ベッド）信号で補完されてもよい。本稿は、帯域幅効率のよい仕方で、高い知覚的品質をもってIA信号を送信および／または記憶する技術的問題に対処する。かかる技術的問題は、独立請求項によって解決される。好ましい例は、従属請求項に記載されている。

ある側面によれば、マルチチャネル入力信号をエンコードする方法が記述される。マルチチャネル入力信号は、没入的オーディオ（IA）信号の一部であってもよい。マルチチャネル入力信号は、音場表現（SR）信号、特に一次またはより高次のアンビソニックス信号を含んでいてもよい。本方法は、マルチチャネル入力信号から複数のダウンミックス・チャネル信号を決定することを含む。さらに、本方法は、複数のダウンミックス・チャネル信号のエネルギー・コンパクト化を実行して、複数のコンパクト化されたチャネル信号を提供することを含む。さらに、本方法は、前記複数のコンパクト化されたチャネル信号に基づいて、かつ、前記マルチチャネル入力信号に基づいて、合同符号化メタデータ（特に、空間オーディオ分解能再構成（SPAR）メタデータ）を決定することを含み、前記合同符号化メタデータは、前記複数のコンパクト化されたチャネル信号を前記マルチチャネル入力信号の近似にアップミックスすることを許容するようなものである。本方法は、前記複数のコンパクト化されたチャネル信号および前記合同符号化メタデータをエンコードすることをさらに含む。

あるさらなる側面によれば、複数の再構成されたチャネル信号を示す符号化されたオーディオ・データから、および合同符号化メタデータを示す符号化されたメタデータから、再構成されたマルチチャネル信号を決定する方法が記載される。本方法は、前記符号化されたオーディオ・データをデコードして前記複数の再構成されたチャネル信号を提供し、前記符号化されたメタデータをデコードして前記合同符号化メタデータを提供することを含む。さらに、本方法は、前記複数の再構成されたチャネル信号から、前記合同符号化メタデータを用いて、前記再構成されたマルチチャネル信号を決定することを含む。

さらなる側面によれば、ソフトウェア・プログラムが記載される。ソフトウェア・プログラムは、プロセッサ上での実行のために、また、プロセッサ上で実行されたときに、本稿で概説される方法段階を実行するように適応されてもよい。

別の側面によれば、記憶媒体が記載される。記憶媒体は、プロセッサ上での実行のために、また、プロセッサ上で実行されたときに、本稿で概説される方法段階を実行するように適応されたソフトウェア・プログラムを含んでいてもよい。

さらなる側面によれば、コンピュータ・プログラム製品が記載される。コンピュータ・プログラムは、コンピュータ上で実行されるときに、本稿に概説されている方法段階を実行するための実行可能命令を含んでいてもよい。

別の側面によれば、マルチチャネル入力信号および／または没入的オーディオ（IA）信号をエンコードするためのエンコード・ユニットまたはエンコード装置が記述される。エンコード・ユニットは、マルチチャネル入力信号から複数のダウンミックス・チャネル信号を決定するよう構成される。さらに、エンコード・ユニットは、複数のダウンミックス・チャネル信号のエネルギー・コンパクト化を実行して、複数のコンパクト化されたチャネル信号を提供するよう構成される。さらに、エンコード・ユニットは、前記複数のコンパクト化されたチャネル信号に基づいて、かつ、前記マルチチャネル入力信号に基づいて、合同符号化メタデータを決定することを含み、前記合同符号化メタデータは、前記複数のコンパクト化されたチャネル信号を前記マルチチャネル入力信号の近似にアップミックスすることを許容するようなものである。エンコード・ユニットは、前記複数のコンパクト化されたチャネル信号および前記合同符号化メタデータをエンコードするようさらに構成される。

別の側面によれば、複数の再構成されたチャネル信号を示す符号化されたオーディオ・データから、および合同符号化メタデータを示す符号化されたメタデータから、再構成されたマルチチャネル信号を決定するためのデコード・ユニットまたはデコード装置が記載される。デコード・ユニットは、前記符号化されたオーディオ・データをデコードして前記複数の再構成されたチャネル信号を提供し、前記符号化されたメタデータをデコードして前記合同符号化メタデータを提供することを含む。さらに、デコード・ユニットは、前記複数の再構成されたチャネル信号から、前記合同符号化メタデータを用いて、前記再構成されたマルチチャネル信号を決定することを含む。

本特許出願で概説される、その好ましい実施形態を含む方法、装置およびシステムは、独立して、または本稿に開示されている他の方法、装置およびシステムと組み合わせて使用されうることに注意しておくべきである。さらに、本特許出願で概説される方法、装置およびシステムのすべての側面は、任意に組み合わされうる。特に、請求項の特徴は、任意の仕方で互いに組み合わされてもよい。

本発明は、添付の図面を参照して、例示的な仕方で下記に説明される。
符号化システムの例を示す。没入的オーディオ信号をエンコードするための例示的なエンコード・ユニットを示す。没入的オーディオ信号をデコードするための別の例示的なデコード・ユニットを示す; 没入的オーディオ信号をエンコードおよびデコードするための例示的なエンコード・ユニットおよびデコード・ユニットを示す。モード切り換えのある例示的なエンコード・ユニットおよびデコード・ユニットを示す。例示的な再構成モジュールを示す。没入的オーディオ信号をエンコードするための例示的な方法のフローチャートを示す。没入的オーディオ信号をデコードするための例示的な方法のフローチャートを示す。

上に概説したように、本稿は、一次アンビソニックス（First order ambisonics、FOA）またはHOA信号、マルチチャネルおよび／またはオブジェクト・オーディオ信号のような没入的オーディオ（immersive audio、IA）信号の効率的な符号化に関する。ここで、特にFOAまたはHOA信号は、本明細書では、より一般的に、音場表現（soundfield representation、SR）信号と呼ばれる。

導入部で概説したように、SR信号は、比較的多数のチャネルまたは波形を含むことがあり、異なるチャネルは、異なるパン関数および／または異なる指向性パターンに関係する。例として、L次の3D FOAまたはHOA信号は、(L＋1)²個のチャネルを有する。SR信号は、さまざまな異なるフォーマットで表現されうる。

音場は、聴取位置のまわりの任意の方向から発せられる一つまたは複数の音事象で構成されていると見なすことができる。結果として、前記一つまたは複数の音事象の位置は球の表面上で定義されてもよい（聴取位置または基準位置が球の中心にある）。

FOAまたは高次アンビソニックス（HOA）のような音場フォーマットは、任意のスピーカー配置（すなわち任意のレンダリング・システム）で音場をレンダリングできるようにする仕方で定義される。しかしながら、レンダリング・システム（ドルビー・アトモス・システムなど）は、典型的には、スピーカーの可能な高さが、定義された数の平面（たとえば、耳の高さの（水平）平面、天井もしくは上平面および／または床もしくは下平面）に固定されるという意味で、制約される。よって、理想的な球面音場の概念は、球面の表面上のさまざまな高さにある異なるリング（蜂の巣を構成する積み重ねられたリングと同様）内に位置する音オブジェクトで構成される音場に修正されうる。

図1に示されるように、オーディオ符号化システム100は、エンコード・ユニット110とデコード・ユニット120とを備える。エンコード・ユニット110は、入力信号111に基づいて、デコード・ユニット120への伝送のためのビットストリーム101を生成するように構成されてもよく、入力信号111は、没入的オーディオ信号（たとえば、仮想現実（VR）アプリケーションのために使用される）を含んでいてもよい。没入的オーディオ信号111は、SR信号、マルチチャネル（ベッド）信号および／または複数のオブジェクト（各オブジェクトは、オブジェクト信号およびオブジェクト・メタデータを含む）を含んでいてもよい。デコード・ユニット120は、ビットストリーム101に基づいて出力信号121を提供するように構成されてもよく、出力信号121は、再構成された没入的オーディオ信号を含んでいてもよい。

図2は、エンコード・ユニット110、200の例を示す。エンコード・ユニット200は、入力信号111をエンコードするように構成されてもよく、入力信号111は、没入的オーディオ（IA）信号111であってもよい。IA信号111は、マルチチャネル入力信号201を含んでいてもよい。マルチチャネル入力信号201は、SR信号および一つまたは複数のオブジェクト信号を含んでいてもよい。さらに、前記複数のオブジェクト信号についてのオブジェクト・メタデータ202が、IA信号111の一部として提供されてもよい。IA入力信号111は、コンテンツ摂取エンジンによって提供されてもよく、コンテンツ摂取エンジンは、（複合）VRコンテンツからオブジェクトおよび／またはSR信号を導出するように構成されてもよい。

エンコード・ユニット200は、マルチチャネル入力信号201を複数のダウンミックス・チャネル信号203にダウンミックスするように構成されたダウンミックス・モジュール210を有する。前記複数のダウンミックス・チャネル信号203は、SR信号、特に一次アンビソニックス（FOA）信号に対応してもよい。ダウンミックスは、サブバンド領域またはQMF領域（たとえば、10以上のサブバンドを使用）で実行されてもよい。

エンコード・ユニット200は、複数のダウンミックス・チャネル信号203からマルチチャネル入力信号201を再構成するように構成された合同符号化メタデータ205（特に、SPAR（Spatial Audio Resolution Reconstruction［空間オーディオ分解能再構成］）メタデータ）を決定するように構成された合同符号化モジュール230（特に、SPARモジュール）をさらに有する。合同符号化モジュール230は、サブバンド領域において合同符号化メタデータ205を決定するように構成されてもよい。

合同符号化メタデータ205を決定するために、複数のダウンミックス・チャネル信号203は、サブバンド領域に変換されてもよく、および／またはサブバンド領域内で処理されてもよい。さらに、マルチチャネル入力信号201がサブバンド領域に変換されてもよい。その後、合同符号化メタデータ205は、サブバンド毎に決定されてもよく、特に、合同符号化メタデータ205を使用して複数のダウンミックス・チャネル信号203のサブバンド信号203をアップミックスすることによって、マルチチャネル入力信号201のサブバンド信号の近似が得られる。種々のサブバンドについての合同符号化メタデータ205は、対応するデコード・ユニット120への送信のために、ビットストリーム101に挿入されてもよい。

さらに、エンコード・ユニット200は、複数のダウンミックス・チャネル信号203の波形符号化を実行し、それにより符号化されたオーディオ・データ206を提供するように構成された符号化モジュール240を有していてもよい。ダウンミックス・チャネル信号203のそれぞれは、モノ波形エンコーダ（たとえば、3GPP EVSエンコード）を用いてエンコードされてもよく、それにより、効率的なエンコードが可能になる。複数のダウンミックス・チャネル信号203をエンコードすることのさらなる例は、MPEG AAC、MPEG HE-AACおよび他のMPEGオーディオ・コーデック、3GPPコーデック、ドルビー・デジタル／ドルビー・デジタル・プラス（AC-3、eAC-3）、Opus、LC-3および他の同様のコーデックである。さらなる例として、AC-4コーデックに含まれる符号化ツールは、エンコード・ユニット200の動作を実行するように構成されてもよい。

さらに、符号化モジュール240は、合同符号化メタデータ（すなわち、SPARメタデータ）205およびオブジェクト・メタデータ202のエントロピー符号化を実行し、それにより、符号化されたメタデータ207を提供するように構成されてもよい。符号化されたオーディオ・データ206および符号化されたメタデータ207はビットストリーム101に挿入されてもよい。

図3は、デコード・ユニット120、350の例を示す。デコード・ユニット120、350は、符号化されたオーディオ・データ206および符号化されたメタデータ207を含んでいてもよいビットストリーム101を受領する受領器を含んでいてもよい。デコード・ユニット120、350は、ビットストリーム101から符号化されたオーディオ・データ206および符号化されたメタデータ207を多重分離するプロセッサおよび／またはデマルチプレクサを含んでいてもよい。デコード・ユニット350は、符号化されたオーディオ・データ206から複数の再構成されたチャネル信号314を導出するように構成されたデコード・モジュール360を有する。デコード・モジュール360は、さらに、符号化されたメタデータ207から合同符号化メタデータ205およびオブジェクト・メタデータ202を導出するように構成されてもよい。

さらに、デコード・ユニット350は、合同符号化メタデータ205から、および複数の再構成されたチャネル信号314から、再構成されたマルチチャネル信号311を導出するように構成された再構成モジュール370を有する。合同符号化メタデータ205は、複数の再構成されたチャネル信号314からマルチチャネル信号311を再構成することを可能にするアップミックス行列の時間および／または周波数変化する要素を伝達してもよい。アップミックス・プロセスは、QMF（直交ミラー・フィルタ）サブバンド領域で実行されてもよい。あるいはまた、アップミックス・プロセスを実行するために、別の時間／周波数変換、特にFFT（高速フーリエ変換）に基づく変換が使用されてもよい。一般に、周波数選択的な解析および（アップミックス）処理を可能にする変換が適用されうる。アップミックス・プロセスはまた、再構成されたマルチチャネル信号311の共分散の改善された再構成を可能にする脱相関器を含んでいてもよく、脱相関器は、追加の合同符号化メタデータ205によって制御されてもよい。

再構成されたマルチチャネル信号311は、再構成されたSR信号と、一つまたは複数の再構成されたオブジェクト信号とを含んでいてもよい。再構成されたマルチチャネル信号311およびオブジェクト・メタデータは、再構成されたIA信号121を形成してもよい。再構成されたIA信号121は、スピーカー・レンダリング330、ヘッドフォン・レンダリング331、および／または、たとえば、SRレンダリング332のために使用されうる。

図4は、エンコード・ユニット200およびデコード・ユニット350を示している。エンコード・ユニット200は、図2の文脈で記載された構成要素を有する。さらに、エンコード・ユニット200は、複数のダウンミックス・チャネル信号203のエネルギーを一つまたは複数のダウンミックス・チャネル信号203に集中させるように構成されたエネルギー・コンパクト化（energy compaction）モジュール420を有する。エネルギー・コンパクト化モジュール420は、ダウンミックス・チャネル信号203を変換して、複数のコンパクト化されたチャネル信号404を提供しうる。変換は、コンパクト化されたチャネル信号404のうちの一つまたは複数が、対応する一つまたは複数のダウンミックス・チャネル信号203よりも少ないエネルギーを有するように実行されうる。

例として、複数のダウンミックス・チャネル信号203は、Wチャネル信号、Xチャネル信号、Yチャネル信号、およびZチャネル信号を含んでいてもよい。複数のコンパクト化されたチャネル信号404は、Wチャネル信号、X'チャネル信号、Y'チャネル信号、およびZ'チャネル信号を含んでいてもよい。X'チャネル信号、Y'チャネル信号、およびZ'チャネル信号は、X'チャネル信号がXチャネル信号よりも少ないエネルギーを有する、Y'チャネル信号がYチャネル信号よりも少ないエネルギーを有する、および／またはZ'チャネル信号がZチャネル信号よりも少ないエネルギーを有するように、決定されてもよい。

エネルギー・コンパクト化モジュール420は、予測動作を使用してエネルギー・コンパクト化を実行するように構成されてもよい。特に、複数のダウンミックス・チャネル信号203の第1のサブセット（たとえば、Xチャネル信号、Yチャネル信号およびZチャネル信号）が、複数のダウンミックス・チャネル信号203の第2のサブセット（たとえば、Wチャネル信号）から予測されてもよい。エネルギー・コンパクト化は、ダウンミックス・チャネル信号203のうちの1つ（たとえば、Wチャネル信号）のスケーリングされたバージョンを、他のダウンミックス・チャネル信号203（たとえば、Xチャネル信号、Yチャネル信号および／またはZチャネル信号）から減算することを含んでいてもよい。スケーリング因子は、他のダウンミックス・チャネル信号203のエネルギーが低減される、特に最小化されるように、決定されうる。

エネルギー・コンパクト化を実行することによって、複数のコンパクト化されたチャネル信号404をエンコードするための効率は、複数のダウンミックス・チャネル信号203のエンコードと比較して、向上されうる。エンコード・ユニット200は、エネルギー・コンパクト化動作の逆演算を実行するためのメタデータを暗黙的に合同符号化メタデータ205に挿入するように構成される。この結果、IA入力信号111の効率的なエンコードが達成される。

上記で概説したように、デコード・ユニットは、再構成モジュール370を有する。図6は、例示的な再構成モジュール370を示す。再構成モジュール370は、複数の再構成されたチャネル信号314を入力として受け取る（これはたとえば、一次アンビソニックス信号を形成していてもよい）。第1の混合器611は、複数の再構成されたチャネル信号314（たとえば、前記4つのチャネル信号）を、より多数の信号（たとえば、第2のアンビソニックス信号および2つのオブジェクト信号を表わす11個の信号）にアップミックスするように構成されてもよい。第1の混合器611は、合同符号化メタデータ205に依存する。

再構成モジュール370は、Wチャネル信号から2つの信号を生成するように構成された脱相関器601、602を有していてもよく、該2つの信号は、第2の混合器612で処理されて、増加した数の信号（たとえば、11個の信号）を生じる。第2の混合器612は、合同符号化メタデータ205に依存する。第1の混合器611の出力および第2の混合器612の出力は加算されて、再構成されたマルチチャネル信号311を提供する。

上述のように、合同符号化またはSPARメタデータ205は、第1の混合器611および第2の混合器612によって使用されるアップミックス行列の係数を表わすデータから構成されてもよい。混合器611、612は、サブバンド領域（特にQMF領域）で動作してもよい。この場合、合同符号化またはSPARメタデータ205は、複数の異なるサブバンド（たとえば、10以上のサブバンド）について第1の混合器611および第2の混合器612によって使用されるアップミックス行列の係数を表わすデータを含む。

図5は、マルチチャネル入力信号201をエンコードするためと、オブジェクト・メタデータ202（これがIA入力信号111を形成する）をエンコードするための2つの分枝を備えるエンコード・ユニット200を示す。上側の分枝は、図4の文脈で述べたエンコード方式に対応する。下側の分枝では、合同符号化ユニット230は、複数のダウンミックス・チャネル信号203を複数のコンパクト化されたチャネル信号404から再構成できるようにするメタデータ205を決定するよう修正される。よって、メタデータ205は、複数のダウンミックス・チャネル信号203から複数のコンパクト化チャネル信号404を生成するために使用された予測器（特に、前記一つまたは複数のスケーリング因子）を示す。ある変形では、メタデータ205は、（合同符号化モジュール230を使用する必要なく）エネルギー・コンパクト化モジュール220から直接提供されてもよい。

図5のエンコード・ユニット200は、第1のモード（上側の分枝に対応）と第2のモード（下側の分枝に対応）との間で切り換えるように構成されたモード切り換えモジュール500を有する。第1のモードは、増加したビットレートで高い知覚品質を提供するために使用されてもよく、第2のモードは、低下したビットレートで低下した知覚品質を提供するために使用されてもよい。モード切り換えモジュール500は、伝送ネットワークの状態に依存して、第1のモードと第2のモードとの間で切り換えるように構成されてもよい。

さらに、図5は、第1のモード（上側の分枝）および第2のモード（下側の分枝）に従ってデコードを実行するように構成された対応するデコード・ユニット350を示している。モード切り換えモジュール550は、（たとえば、フレーム毎に）エンコード・ユニット200によって使用されたモードを判定するように構成されてもよい。第1のモードが使用された場合、再構成されたマルチチャネル信号311およびオブジェクト・メタデータ202が決定されうる（図4の文脈で概説されたように）。他方、第2のモードが使用された場合は、複数の再構成されたダウンミックス・チャネル信号513（前記複数のダウンミックス・チャネル信号203に対応する）が、デコード・ユニット350によって決定されてもよい。

よって、前記オブジェクトおよびHOA入力信号111を処理して、チャネル数が減少した出力信号203、たとえば一次アンビソニックス信号を生成するよう構成されたダウンミックス・モジュール210を有するエンコード・ユニット200が記述される。SPARエンコード・モジュール230は、もとの入力111、201（たとえば、オブジェクト信号とHOA）がFOA信号203からどのように再生成されるかを示すメタデータ（すなわち、SPARメタデータ）205を生成する。一組のEVSエンコーダ240が、4チャネルのFOA信号203を受け取り、ビットストリーム101に挿入されるエンコードされたオーディオ・データ206を生成する。該オーディオ・データは、その後、一組のEVSデコーダ360によってデコードされて4チャネルのFOA信号314を生成する。SPARメタデータ205は、ビットストリーム101内の（エントロピー）符号化されたメタデータ207としてデコーダ360に提供されてもよい。その後、再構成モジュール370は、オーディオ・オブジェクトおよびHOA信号からなる出力121を再生成する。

ダウンミックス・モジュール210によって生成される低分解能信号203は、（モジュール420において）WXYZエネルギー・コンパクト化変換によって修正されてもよく、これは、ダウンミックス・モジュール210の出力と比較して、より少ないチャネル間相関を有する出力信号404を生成する。エネルギー・コンパクト化フィルタ420の目的は、Wチャネルがより高いビットレートでエンコードでき、低エネルギーのX'Y'Z'チャネルがより低いビットレートでエンコードできるように、XYZチャネル内のエネルギーを低減することである。こうすることにより、符号化アーチファクトがより効果的にマスクされ、よってオーディオ品質が改善される。

予測を実行することに対して追加的または代替的に、エネルギー・コンパクト化は、カルーネン・レーベ変換（KLT）、主成分分析（PCA）変換、および／または特異値分解（SVD）変換を使用することができる。特に、ホワイトニング・フィルタ、KLT、PCA変換、および／またはSVD変換を含むエネルギー・コンパクト化フィルタ420が使用されてもよい。ホワイトニング・フィルタは、上述の予測方式を用いて実装されうる。特に、エネルギー・コンパクト化フィルタ420は、ホワイトニング・フィルタと、KLT、PCAおよび／またはSVD変換との組み合わせを含んでいてもよく、後者は、ホワイトニング・フィルタと直列に配置される。KLT、PCAおよび／またはSVD変換は、X、Y、Zチャネルに、特に予測残差に適用されうる。

図7は、マルチチャネル入力信号201をエンコードするための例示的方法700のフローチャートを示す。特に、方法700は、マルチチャネル入力信号201を含むIA信号をエンコードすることに向けられる。マルチチャネル入力信号201は、音場表現（SR）信号を含んでいてもよい。特に、マルチチャネル入力信号201は、SR信号（たとえば、HOA信号、特に二次アンビソニックス信号）と、一つまたは複数のオーディオ・オブジェクト303の一つまたは複数（特に2つ）のオブジェクト信号との組み合わせを含んでいてもよい。

方法700は、マルチチャネル入力信号201から複数のダウンミックス・チャネル信号203を決定701することを含む。複数のダウンミックス・チャネル信号203は、マルチチャネル入力信号201と比較して低減された数のチャネルを含んでいてもよい。上述のように、マルチチャネル入力信号201は、SR信号、特にL≧1としてL次アンビソニックス信号と、一つまたは複数のオーディオ・オブジェクト303の一つまたは複数のオブジェクト信号とを含んでいてもよい。複数のダウンミックス・チャネル信号203は、マルチチャネル入力信号201を、SR信号、特にL≧KとしてK次アンビソニックス信号にダウンミックスすることによって決定されてもよい。よって、複数のダウンミックス・チャネル信号203は、SR信号、特にK次アンビソニックス信号であってもよい。

特に、複数のダウンミックス・チャネル信号203を決定701することは、（マルチチャネル入力信号201の）一つまたは複数のオーディオ・オブジェクト303の一つまたは複数のオブジェクト信号を、マルチチャネル入力信号201のSR信号（またはSR信号のダウンミックスされたバージョン）と混合することを含んでいてもよい。混合（特にパン）は、一つまたは複数のオーディオ・オブジェクト303のオブジェクト・メタデータ202に依存して実行されてもよく、オーディオ・オブジェクト303のオブジェクト・メタデータ202は、オーディオ・オブジェクト303の空間位置を示す。SR信号をダウンミックスすることは、L次のSR信号から[(L＋1)²−L²]個の追加的なチャネルを除去し、(L−1)次のSR信号を提供することを含むことができる。

ある好ましい例では、複数のダウンミックス・チャネル信号203は、特にBフォーマットまたはAフォーマットの一次アンビソニックス信号を形成する。マルチチャネル入力信号201のSR信号は、二次（またはそれ以上）のアンビソニックス信号であってもよい。

さらに、本方法700は、複数のダウンミックス・チャネル信号203のエネルギー・コンパクト化を実行702して、複数のコンパクト化されたチャネル信号404を提供することを含む。複数のダウンミックス・チャネル信号203および複数のコンパクト化されたチャネル信号404のチャネルの数は、同じであってもよい。特に、複数のコンパクト化されたチャネル信号404は、一次アンビソニックス信号のフォーマット、特にBフォーマットまたはAフォーマットを形成してもよく、またはかかるフォーマットであってもよい。

エネルギー・コンパクト化は、異なるチャネル信号203の間のチャネル間相関が低減されるように実行されうる。特に、複数のコンパクト化されたチャネル信号404は、複数のダウンミックス・チャネル信号203よりも少ないチャネル間相関を示すことがある。代替的または追加的に、エネルギー・コンパクト化は、コンパクト化されたチャネル信号のエネルギーが、対応するダウンミックス・チャネル信号のエネルギー以下となるように実行されてもよい。この条件は、各チャネルについて満たされてもよい。

エネルギー・コンパクト化を実行702することは、第2のダウンミックス・チャネル信号（たとえば、Wチャネル）から第1のダウンミックス・チャネル信号203（たとえば、X、YまたはZチャネル）を予測して、第1の予測されたチャネル信号を提供することを含んでいてもよい。第1の予測されたチャネル信号は、第1のダウンミックス・チャネル信号203から減算されて（またはその逆）、第1のコンパクト化されたチャネル信号404を提供してもよい。

第2のダウンミックス・チャネル信号203から第1のダウンミックス・チャネル信号203を予測することは、第2のダウンミックス・チャネル信号203をスケーリングするためのスケーリング因子を決定することを含んでいてもよい。スケーリング因子は、第1のコンパクト化チャネル信号404のエネルギーが第1のダウンミックス・チャネル信号203のエネルギーと比較して低減されるように、および／または第1のコンパクト化チャネル信号404のエネルギーが最小化されるように、決定されてもよい。次いで、第1の予測されたチャネル信号は、スケーリング因子に従ってスケーリングされた第2のダウンミックス・チャネル信号203に対応しうる。異なるチャネルについて、異なるスケーリング因子が決定されてもよい。

特に（一次アンビソニックス信号の場合）、エネルギー・コンパクト化を実行702することは、複数のダウンミックス・チャネル信号203のWチャネル信号からXチャネル信号、Yチャネル信号、およびZチャネル信号を予測して、それぞれ予測されたXチャネル信号、予測されたYチャネル信号、および予測されたZチャネル信号を与えることを含んでいてもよい。予測されたXチャネル信号がXチャネル信号から減算されて（またはその逆）、複数のコンパクト化されたチャネル信号404のX'チャネル信号を決定してもよい。予測されたYチャネル信号がYチャネル信号から減算されて（またはその逆）、複数のコンパクト化されたチャネル信号404のY'チャネル信号を決定してもよい。予測されたZチャネル信号がZチャネル信号から減算されて（またはその逆）、複数のコンパクト化されたチャネル信号404のZ'チャネル信号を決定してもよい。さらに、複数のダウンミックス・チャネル信号203のWチャネル信号は、複数のコンパクト化されたチャネル信号404のWチャネル信号として使用されてもよい。

この結果として、すべてのチャネル（1つ、すなわち、Wチャネルを除く）のエネルギーは、低減されてもよく、それにより、複数のコンパクト化されたチャネル信号404の効率的なエンコードを可能にする。

方法700は、複数のコンパクト化されたチャネル信号404に基づいて、かつマルチチャネル入力信号201に基づいて、合同符号化メタデータ（本明細書ではSPARメタデータとも呼ばれる）205を決定703することをさらに含んでいてもよい。合同符号化メタデータ205は、合同符号化メタデータ205が、複数のコンパクト化チャネル信号404をマルチチャネル入力信号201の近似にアップミックスすることを許容するように決定されてもよい。合同符号化メタデータを決定するために複数のコンパクト化されたチャネル信号404を利用することによって、エネルギー・コンパクト化を反転させるプロセスが、合同符号化メタデータ205に自動的に含められる（エネルギー・コンパクト化動作を反転させるために固有の追加のメタデータを提供する必要はない）。

合同符号化メタデータ205は、アップミックス・データ、特に一つまたは複数のアップミックス行列を含んでいてもよく、複数のコンパクト化されたチャネル信号404をアップミックスして、マルチチャネル入力信号201の近似にすることを可能にする。マルチチャネル入力信号201の近似は、マルチチャネル入力信号201と同じ数のチャネルを含む。さらに、合同符号化メタデータ205は、マルチチャネル入力信号201の共分散の再構成を可能にする脱相関データを含んでいてもよい。

合同符号化メタデータ205は、マルチチャネル入力信号201の複数の異なるサブバンドについて（たとえば、特にQMF領域内の10以上のサブバンドについて）決定されてもよい。異なるサブバンドについて（すなわち、異なる周波数帯域内で）に対して合同符号化メタデータ205を提供することによって、正確なアップミックス動作が実行されうる。

さらに、方法700は、複数のコンパクト化されたチャネル信号404および合同符号化メタデータ205（SPARメタデータとしても知られる）をエンコード704することを含む。複数のコンパクト化されたチャネル信号404のエンコード704は、複数のコンパクト化されたチャネル信号404のそれぞれの波形符号化（特に、EVS符号化）を、特に、それぞれのコンパクト化されたチャネル信号404のためのモノ・エンコーダを用いて実行することを含んでいてもよい。代替的または追加的に、合同符号化メタデータ205は、エントロピー・エンコーダを用いてエンコードされてもよい。上述のように、マルチチャネル入力信号201は、一つまたは複数のオーディオ・オブジェクト303の一つまたは複数のオブジェクト信号を含んでいてもよい。そのような場合、方法700は、特にエントロピー・エンコーダを用いて、前記一つまたは複数のオーディオ・オブジェクト303についてのオブジェクト・メタデータ202をエンコードすることを含んでいてもよい。

方法700は、SR信号および／または一つまたは複数のオーディオ・オブジェクト信号を示していてもよいマルチチャネル入力信号201がビットレート効率のよい仕方でエンコードされることを許容し、一方で、デコーダが高い知覚的品質でマルチチャネル入力信号201を再構成することを可能にする。

複数のコンパクト化されたチャネル信号404に基づいて、かつマルチチャネル入力信号201に基づいて、合同符号化メタデータ205を決定することは、マルチチャネル入力信号201をエンコードするための第1のモードに対応しうる。

予測を使用することに対して代替的または追加的に、エネルギー・コンパクト化を実行702することは、カルーネン・レーベ変換、主成分分析変換、および／または特異値分解変換を、複数のダウンミックス・チャネル信号203のうちの少なくとも一部に適用することを含んでいてもよい。こうすることにより、複数のコンパクト化されたチャネル信号404の符号化効率は、さらに向上されうる。

特に、カルーネン・レーベ変換、主成分分析変換、および／または特異値分解変換は、第2のダウンミックス・チャネル信号203に基づいて（特に、Wチャネル信号に基づいて）導出された予測残差に対応する、コンパクト化チャネル信号404に適用されうる。換言すれば、カルーネン・レーベ変換、主成分分析変換、および／または特異値分解変換は、予測残差に適用されてもよい。

上述したように、予測の文脈では、X'チャネル信号、Y'チャネル信号、およびZ'チャネル信号は、アンビソニックス信号を形成する複数のダウンミックス・チャネル信号203のWチャネル信号に基づいて導出されてもよい。特に、X'チャネル信号は、Xチャネル信号から、Wチャネル信号に基づくXチャネル信号の予測を減算したものに対応してもよい。同様にして、Y'チャネル信号は、Yチャネル信号から、Wチャネル信号に基づくYチャネル信号の予測を減算したものに対応してもよい。同様にして、Z'チャネル信号は、Zチャネル信号から、Wチャネル信号に基づくZチャネル信号の予測を減算したものに対応してもよい。複数のコンパクト化されたチャネル信号404は、Wチャネル信号、X'チャネル信号、Y'チャネル信号、およびZ'チャネル信号に基づいて決定されてもよく、またはこれらに対応していてもよい。

複数のコンパクト化されたチャネル信号404の符号化効率をさらに高めるために、カルーネン・レーベ変換、主成分分析変換、および／または特異値分解変換がX'チャネル信号、Y'チャネル信号、およびZ'チャネル信号に適用されて、X"チャネル信号、Y"チャネル信号、およびZ"チャネル信号を提供してもよい。次いで、複数のコンパクト化されたチャネル信号404が、Wチャネル信号、X"チャネル信号、Y"チャネル信号、およびZ"チャネル信号に基づいて決定されてもよい。

第2のモードでは、合同符号化メタデータ205は、複数のコンパクト化されたチャネル信号404に基づいて、かつ複数のダウンミックス・チャネル信号203に基づいて決定されうる。合同符号化メタデータ205は、合同符号化メタデータ205が、複数のコンパクト化されたチャネル信号404から複数のダウンミックス・チャネル信号203を再構成することを許容するように決定されてもよい。特に、合同符号化メタデータ205は、合同符号化メタデータ205が、（アップミックス演算を実行することなく）エネルギー・コンパクト化演算を逆転または反転させる（だけである）ように決定されてもよい。第2のモードは、（低下した知覚的品質で）ビットレートを低減するために使用されてもよい。

上述のように、マルチチャネル入力信号201は、SR信号および一つまたは複数のオブジェクト信号を含んでいてもよい。第1のモードおよび第2のモードは、（複数のコンパクト化されたチャネル信号404に基づいて）SR信号の再構成を許容してもよい。よって、聴取者の全体的な聴取体験は（第2のモードを使用するときでさえ）維持されうる。

マルチチャネル入力信号201は、フレームのシーケンスを含んでいてもよい。本稿に記載される処理は、フレームのシーケンスの各フレームについて、フレームごとに実行されてもよい。特に、方法700は、第1のモードを使用するか第2のモードを使用するかをフレームのシーケンスの各フレームについて決定することを含んでいてもよい。こうすることにより、エンコードは、伝送ネットワークの変化する条件に迅速に適応させることができる。

方法700は、複数のコンパクト化されたチャネル信号404をエンコード704することによって導出された符号化されたオーディオ・データ206に基づいて、かつ合同符号化メタデータ205をエンコード704することによって導出された符号化されたメタデータ207に基づいて、ビットストリーム101を生成することを含んでいてもよい。さらに、方法700は、第2のモードが使用されたか第1のモードが使用されたかを示す指示をビットストリーム101に挿入することを含んでいてもよい。該指示は、フレーム単位で挿入されてもよい。この結果として、対応するデコード・ユニット350は、信頼性のある仕方でデコードを適応させることができる。

図8は、複数の再構成されたチャネル信号314を示す符号化されたオーディオ・データ206から、および合同符号化メタデータ205を示す符号化されたメタデータ207から、再構成されたマルチチャネル信号311を決定するための例示的な方法800のフローチャートを示す。方法800は、ビットストリーム101から符号化されたオーディオ・データ206および符号化されたメタデータ207を抽出することを含んでいてもよい。

さらに、方法800は、複数の再構成されたチャネル信号314を提供するために符号化されたオーディオ・データ206をデコード801し、合同符号化メタデータ205を提供するために符号化されたメタデータ207をデコードすることを含んでいてもよい。ある好ましい例では、複数の再構成されたチャネル信号203は、特にBフォーマットまたはAフォーマットの一次アンビソニックス信号を形成する。

符号化されたオーディオ・データ206のデコード801は、特にそれぞれの再構成されたチャネル信号314についてのモノ・デコーダ（たとえば、EVSデコーダ）を使用しての、複数の再構成されたチャネル信号314のそれぞれの波形復号を含んでいてもよい。符号化されたメタデータ207は、エントロピー・デコーダを用いてデコードされてもよい。

さらに、方法800は、合同符号化メタデータ205を用いて、複数の再構成されたチャネル信号314から、再構成されたマルチチャネル信号311を決定802することを含んでいてもよい。再構成されたマルチチャネル信号311は、再構成された音場表現（SR）信号を含んでいてもよい。特に、再構成されたマルチチャネル信号311は、マルチチャネル入力信号201の近似または再構成に対応する。再構成されたマルチチャネル信号311およびオブジェクト・メタデータ202は、一緒になって、再構成された没入的オーディオ（IA）信号121を形成しうる。

さらに、方法800は、再構成されたマルチチャネル信号311を（典型的には、オブジェクト・メタデータ202との関連で）をレンダリングすることを含んでいてもよい。レンダリングは、ヘッドフォン・レンダリング、スピーカー・レンダリング、および／または音場レンダリングを使用して実行されうる。この結果として、空間的な音声コンテンツの柔軟なレンディングが可能にされる（特にVRアプリケーションについて）。

上述のように、合同符号化メタデータ205は、複数の再構成されたチャネル信号404の再構成されたマルチチャネル信号311へのアップミックスを可能にするアップミックス・データ、特に一つまたは複数のアップミックス行列を含んでいてもよい。さらに、合同符号化メタデータ205は、あらかじめ決定された共分散を有する再構成されたマルチチャネル信号311の生成を可能にする脱相関データを含んでいてもよい。合同符号化メタデータ205は、再構成されたマルチチャネル信号311の異なるサブバンドについて異なるメタデータを含んでいてもよい。この結果として、マルチチャネル入力信号201の正確な再構成が達成されうる。

対応するエンコーダ200では、複数のダウンミックス・チャネル信号304にエネルギー・コンパクト化が適用されていてもよい。エネルギー・コンパクト化は、予測を使用して、および／またはカルーネン・レーベ変換、主成分分析変換、および／または特異値分解変換を使用して実行されていてもよい。合同符号化メタデータ205は、アップミックスに加えて、暗黙的にエネルギー・コンパクト化動作の逆演算を実行するようなものであってもよい。特に、合同符号化メタデータ205は、加えて、予測動作の逆および／またはカルーネン・レーベ変換、主成分分析変換および／または、特異値分解変換の逆を暗黙的に実行するようなものであってもよい。

換言すれば、合同符号化メタデータ205は、複数の再構成されたチャネル信号404の再構成されたマルチチャネル信号311へのアップミックスを可能にし、（暗黙のうちに）複数の再構成されたチャネル信号314に対して逆エネルギー・コンパクト化動作を実行するように構成されてもよい。特に、合同符号化メタデータ205は、複数の再構成されたチャネル信号314のうちの少なくとも一部に対して逆予測動作（エンコーダ200によって実行された予測動作に対する逆）を（暗黙的に）実行するように構成されてもよい。代替的にまたは追加的に、合同符号化メタデータ205は、カルーネン・レーベ変換、主成分分析変換、および／または特異値分解変換の逆（エンコーダ200によって実行された変換に対する逆）を、複数の再構成されたチャネル信号314のうちの少なくとも一部に対して実行するように構成されてもよい。この結果として、特に効率的な符号化方式が提供されうる。

再構成されたマルチチャネル信号311は、一つまたは複数のオーディオ・オブジェクト303の一つまたは複数の再構成されたオブジェクト信号を（SR信号、たとえば、FOAまたはHOA信号に加えて）含んでいてもよい。方法800は、特にエントロピー・デコーダを用いて、符号化されたメタデータ207から、一つまたは複数のオーディオ・オブジェクト303のためのオブジェクト・メタデータ202をデコードすることを含んでいてもよい。この結果として、前記一つまたは複数のオブジェクト303は、正確にレンダリングされうる。

上述のように、複数の再構成されたチャネル信号314は、SR信号、特にK≧1（特にK＝1）としてK次アンビソニックス信号を形成してもよい。他方、再構成されたマルチチャネル信号311は、SR信号、特にL≧K（特にL＝KまたはL＝K＋1）としてL次アンビソニックス信号と、一つまたは複数のオーディオ・オブジェクト303の一つまたは複数の（たとえば、n＝2個の）再構成されたオブジェクト信号とを含んでいてもよい。再構成されたマルチチャネル信号311は、合同符号化メタデータ205を使用して複数の再構成されたチャネル信号314をアップミックスすることによって決定されてもよく、それにより、再構成されたマルチチャネル信号311に実質的な空間的音響イベントを与える。

上述のように、アップミックスの使用は、（高い知覚的品質のための）第1のモードに対応しうる。第1のモードでは、合同オブジェクト・メタデータ205は、アップミックス動作を可能にするためのアップミックス・データを含む。第2のモードでは、再構成されたマルチチャネル信号311は、複数の再構成されたチャネル信号314と同じ数のチャネルを含んでいてもよい（よって、アップミックス動作は必要とされない）。

第2のモードでは、合同符号化メタデータ205は、異なる再構成されたチャネル信号314の間でエネルギーを再配分するように構成された予測データ（たとえば、一つまたは複数のスケーリング因子）を含んでいてもよい。さらに、第2のモードでは、再構成されたマルチチャネル信号311を決定802することは、予測データを使用して、異なる再構成されたチャネル信号314の間でエネルギーを再配分することを含んでいてもよい。特に、上述のエネルギー・コンパクト化動作の逆演算は、合同符号化メタデータ205を使用して実行されてもよい。この結果として、複数のダウンミックス・チャネル信号203は、効率的かつ正確な仕方で再構成されうる。

上記で概説したように、エンコード中に実行されるエネルギー・コンパクト化動作は、カルーネン・レーベ変換、主成分分析変換、および／または特異値分解変換を、複数のダウンミックス・チャネル信号203のうちの少なくとも一部に適用することを含んでいてもよい。合同符号化メタデータ205は、デコーダ350がカルーネン・レーベ変換、主成分分析変換、および／または、特異値分解変換の逆変換を実行することを可能にする変換データを含んでいてもよい。換言すれば、変換データは、再構成されたマルチチャネル信号311を決定するために、複数の再構成されたチャネル信号314のうちの少なくともいくつかに適用されるべき、カルーネン・レーベ変換、主成分分析変換、および／または、特異値分解変換の逆変換を示す。この結果として、複数のダウンミックス・チャネル信号203は、効率的かつ正確な仕方で再構成されうる。

上述のように、再構成されたマルチチャネル入力信号311は、フレームのシーケンスを含んでいてもよい。方法800は、フレームのシーケンスの各フレームについて、第2のモードが使用されるか否かを決定することを含んでいてもよい。この目的のために、第2のモードが使用されるかどうかを示す指示が、ビットストリーム101から抽出されてもよい。

本発明のさまざまな例示的な実施形態は、ハードウェアまたは特殊目的回路、ソフトウェア、論理、またはそれらの任意の組み合わせで実装されうる。いくつかの側面はハードウェアで実装されてもよく、他の側面はコントローラ、マイクロプロセッサ、または他のコンピューティング装置によって実行されうるファームウェアまたはソフトウェアで実装されてもよい。一般に、本開示は、上述の方法を実行するのに好適な装置、たとえば、メモリおよび該メモリに結合されたプロセッサを有する装置（空間レンダラー）であって、プロセッサは、命令を実行し、本開示の実施形態に従って方法を実行するように構成される、装置を包含することが理解される。

本発明の例示的な実施形態のさまざまな側面が、ブロック図、フローチャートとして、または他のいくつかの絵的な表現を用いて図示され記述されているが、本明細書に記載されるブロック、装置、システム、技法、または方法は、限定しない例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他のコンピューティング装置、またはそれらのいくつかの組み合わせにおいて実装されてもよいことが理解されるであろう。

さらに、フローチャートに示されたさまざまなブロックは、方法ステップとして、および／またはコンピュータ・プログラム・コードの動作から帰結する動作として、および／または関連する機能を実行するように構築された複数の結合された論理回路素子として見なすことができる。たとえば、本発明の実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム製品を含み、このコンピュータ・プログラムは、上述の方法を実行するように構成されたプログラム・コードを含む。

本開示の文脈において、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれと関連して使用するためのプログラムを含む、または記憶することができる任意の有体な媒体でありうる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体でありうる。機械可読媒体は、電子、磁気、光学、電磁、赤外線、もしくは半導体システム、装置、もしくはデバイス、または上記の任意の好適な組み合わせを含み得るが、それらに限定されない。機械可読記憶媒体の、より具体的な例は、一つまたは複数のワイヤ、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（RAM）、読み出し専用メモリ（ROM）、消去可能なプログラマブル読み出し専用メモリ（EPROMまたはフラッシュメモリ）、光ファイバー、ポータブルなコンパクトディスク読み出し専用メモリ（CD-ROM）、光記憶デバイス、磁気記憶デバイス、または上記の任意の好適な組み合わせを有する電気接続を含む。

本発明の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてもよく、プログラム・コードは、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置によって実行されると、フローチャートおよび／またはブロック図において指定された機能／動作を実施させる。プログラム・コードは、コンピュータ上で、部分的にコンピュータ上で、スタンドアローンのソフトウェア・パッケージとして、部分的にはコンピュータ上、部分的には遠隔コンピュータ上で、または全部が遠隔コンピュータまたはサーバー上で実行されてもよい。

さらに、動作が特定の順序で描かれているが、これは、そのような動作が、図示された特定の順序でまたは逐次順に実行されること、または、望ましい結果を達成するために、図示されたすべての動作が実行されることを要求するものとして理解されるべきではない。ある種の状況では、マルチタスクおよび並列処理が有利でありうる。同様に、いくつかの具体的な実装詳細が上記の議論に含まれているが、これらは、いずれかの発明、または特許請求されうるものの範囲に対する限定として解釈されるべきではなく、むしろ、具体的な発明の具体的な実施形態に固有でありうる特徴の説明として解釈されるべきである。本明細書において別々の実施形態の文脈において記載されるある種の特徴が、単一の実施形態において組み合わせて実施されてもよい。逆に、単一の実施形態の文脈において記述されるさまざまな特徴が、複数の実施形態において別々に、または任意の好適なサブコンビネーションにおいて実装されてもよい。

明細書および図面は、提案される方法および装置の原理を説明するに過ぎないことを注意しておくべきである。よって、当業者は、本明細書に明示的に記載または図示されていないが、本発明の原理を具現し、その精神および範囲内に含まれるさまざまな構成を考案することができることが理解されるであろう。さらに、本明細書に記載されたすべての例は、主として、提案される方法および装置の原理、ならびに当該技術を促進するために発明者によって寄与された概念を理解する際に読者を助けるという教育目的のみをはっきりと目的とするものであり、そのように具体的に記載された例および条件に限定することなく、解釈される。さらに、本発明の原理、側面、および実施形態、ならびにそれらの特定の例を記載する本明細書のすべての陳述は、それらの均等物を包含することが意図されている。

Claims

マルチチャネル入力信号（201）をエンコードする方法（700）であって、当該方法（700）は、
・前記マルチチャネル入力信号（201）からの複数のダウンミックス・チャネル信号（203）を決定する段階（701）と；
・前記複数のダウンミックス・チャネル信号（203）のエネルギー・コンパクト化を実行して、複数のコンパクト化されたチャネル信号（404）を提供する段階（702）と；
・合同符号化メタデータ（205）を、前記複数のコンパクト化されたチャネル信号（404）に基づいて、かつ、前記マルチチャネル入力信号（201）に基づいて決定する段階（703）であって、前記合同符号化メタデータ（205）は、前記複数のコンパクト化されたチャネル信号（404）を、前記マルチチャネル入力信号（201）の近似にアップミックスすることを許容するようなものである、段階と；
・前記複数のコンパクト化されたチャネル信号（404）および前記合同符号化メタデータ（205）をエンコードする段階（704）とを含む、
方法。
エネルギー・コンパクト化が、コンパクト化されたチャネル信号（404）のエネルギーが、対応するダウンミックス・チャネル信号（203）のエネルギーよりも低いように実行される、請求項１に記載の方法。
エネルギー・コンパクト化を実行することが：
・第2のダウンミックス・チャネル信号（203）から第1のダウンミックス・チャネル信号（203）を予測して、第1の予測されたチャネル信号を提供し；
・前記第1のダウンミックス・チャネル信号（203）から前記第1の予測されたチャネル信号を減算して、第1のコンパクト化されたチャネル信号（404）を提供することを含む、
請求項１または２に記載の方法。
・第2のダウンミックス・チャネル信号（203）から第1のダウンミックス・チャネル信号（203）を予測することが、前記第2のダウンミックス・チャネル信号（203）をスケーリングするためのスケーリング因子を決定することを含み；
・前記第1の予測されたチャネル信号は、前記スケーリング因子に従ってスケーリングされた前記第2のダウンミックス・チャネル信号（203）に対応する、
請求項３に記載の方法。
前記スケーリング因子が、
・前記第1のコンパクト化されたチャネル信号（404）のエネルギーが、前記第1のダウンミックス・チャネル信号（203）のエネルギーと比較して低減される；および／または
・前記第1のコンパクト化されたチャネル信号（404）のエネルギーが最小化される、
ように決定される、請求項４に記載の方法。
エネルギー・コンパクト化を実行することが、
・前記第2のダウンミックス・チャネル信号（203）からの予測に基づいて、いくつかのコンパクト化されたチャネル信号（404）を決定し；
・前記いくつかのコンパクト化されたチャネル信号（404）に対して、カルーネン・レーベ変換、主成分分析変換および／または特異値分解変換を適用することを含む、
請求項３ないし５のうちいずれか一項に記載の方法。
・前記複数のダウンミックス・チャネル信号（203）が、特にBフォーマットまたはAフォーマットの、一次アンビソニックス信号である；および／または
・前記複数のコンパクト化されたチャネル信号（404）が、特にBフォーマットまたはAフォーマットの、一次アンビソニックス信号のフォーマットで表現される。
請求項１ないし６のうちいずれか一項に記載の方法。
エネルギー・コンパクト化を実行することが、
・前記複数のダウンミックス・チャネル信号（203）のWチャネル信号からXチャネル信号、Yチャネル信号、およびZチャネル信号を予測して、予測されたXチャネル信号、予測されたYチャネル信号、および予測されたZチャネル信号を提供し；
・前記Xチャネル信号から前記予測されたXチャネル信号を減算してX'チャネル信号を決定し；
・前記Yチャネル信号から前記予測されたYチャネル信号を減算してY'チャネル信号を決定し；
・前記Zチャネル信号から前記予測されたZチャネル信号を減算してZ'チャネル信号を決定し；
・前記Wチャネル信号、前記X'チャネル信号、前記Y'チャネル信号、および前記Z'チャネル信号に基づいて前記複数のコンパクト化されたチャネル信号（404）を決定することを含む、
請求項７に記載の方法。
エネルギー・コンパクト化を実行することが、
・前記X'チャネル信号、前記Y'チャネル信号、および前記Z'チャネル信号に対してカルーネン・レーベ変換、主成分分析変換および／または特異値分解変換を適用して、X"チャネル信号、Y"チャネル信号、および、Z""チャネル信号を提供し；
・前記Wチャネル信号、前記X"チャネル信号、前記Y"チャネル信号、および前記Z"チャネル信号に基づいて前記複数のコンパクト化されたチャネル信号（404）を決定することを含む、
請求項８に記載の方法。
エネルギー・コンパクト化を実行することが、前記複数のダウンミックス・チャネル信号（203）のうちの少なくとも一部に対して、カルーネン・レーベ変換、主成分分析変換および／または特異値分解変換を適用することを含む、請求項１ないし９のうちいずれか一項に記載の方法。
前記合同符号化メタデータ（205）が、
・前記複数のコンパクト化されたチャネル信号（404）の、前記マルチチャネル入力信号（201）と同じ数のチャネルを含む前記マルチチャネル入力信号（201）の近似へのアップミックスを可能にするアップミックス・データ、特にアップミックス行列；および／または
・前記マルチチャネル入力信号（201）の共分散の再構成を可能にする脱相関データ
を含む、請求項１ないし１０のうちいずれか一項に記載の方法。
前記合同符号化メタデータ（205）が、前記マルチチャネル入力信号（201）の複数の異なるサブバンドについて決定される、請求項１ないし１１のうちいずれか一項に記載の方法。
前記複数のコンパクト化されたチャネル信号（404）をエンコードすること（704）が、前記複数のコンパクト化されたチャネル信号（404）のそれぞれの波形符号化を、特に、各コンパクト化されたチャネル信号（404）のためのモノ・エンコーダを用いて実行することを含む、請求項１ないし１２のうちいずれか一項に記載の方法。
前記合同符号化メタデータ（205）が、エントロピー・エンコーダを用いてエンコードされる、請求項１ないし１３のうちいずれか一項に記載の方法。
・前記マルチチャネル入力信号（201）は、一つまたは複数のオーディオ・オブジェクト（303）の一つまたは複数のオブジェクト信号を含み；
・当該方法（700）は、特にエントロピー・エンコーダを用いて、前記一つまたは複数のオーディオ・オブジェクト（303）についてのオブジェクト・メタデータ（202）をエンコードすることを含む、
請求項１ないし１４のうちいずれか一項に記載の方法。
・前記マルチチャネル入力信号（201）は、SRと呼ばれる音場表現信号、特に、L≧1としてL次アンビソニックス信号と、一つまたは複数のオーディオ・オブジェクト（303）の一つまたは複数のオブジェクト信号とを含み；
・前記複数のダウンミックス・チャネル信号（203）は、前記マルチチャネル入力信号（201）をSR信号、特にL≧KとしてK次アンビソニックス信号にダウンミックスすることによって決定される、
請求項１ないし１５のうちいずれか一項に記載の方法。
・前記複数のダウンミックス・チャネル信号（203）を決定すること（701）が、一つまたは複数のオーディオ・オブジェクト（303）の前記一つまたは複数のオブジェクト信号を、前記一つまたは複数のオーディオ・オブジェクト（303）のオブジェクト・メタデータ（202）に依存して、前記マルチチャネル入力信号（201）の前記SR信号に混合することを含み；
・オーディオ・オブジェクト（303）の前記オブジェクト・メタデータ（202）が、前記オーディオ・オブジェクト（303）の空間位置を示す、
請求項１６に記載の方法。
・当該方法（700）が、前記マルチチャネル入力信号（201）が第2のモードを使用してエンコードされるべきであることを決定することを含み；
・第2のモードでは、前記合同符号化メタデータ（205）は、前記複数のコンパクト化されたチャネル信号（404）に基づいて、かつ前記複数のダウンミックス・チャネル信号（203）に基づいて決定され、前記合同符号化メタデータ（205）は、前記複数のコンパクト化されたチャネル信号（404）から前記複数のダウンミックス・チャネル信号（203）を再構成することを許容するようなものである、
請求項１６に記載の方法。
・前記複数のコンパクト化されたチャネル信号（404）に基づいて、かつ前記マルチチャネル入力信号（201）に基づいて前記合同符号化メタデータ（205）を決定することは、第1のモードに対応し；
・前記マルチチャネル入力信号（201）は、フレームのシーケンスを含み；
・当該方法（700）は、フレームのシーケンスの各フレームについて、第1のモードを使うか第2のモードを使うかを決定することを含む、
請求項１８に記載の方法。
・前記複数のコンパクト化されたチャネル信号（404）をエンコード（704）することによって導出された符号化されたオーディオ・データ（206）に基づいて、かつ前記合同符号化メタデータ（205）をエンコード（704）することによって導出された符号化されたメタデータ（207）に基づいて、ビットストリーム（101）を生成し；
・前記ビットストリーム（101）に、前記第2のモードが使用されたかどうかを示す指示を挿入することを含む、
請求項１７ないし１９のうちいずれか一項に記載の方法。
複数の再構成されたチャネル信号（314）を示す符号化されたオーディオ・データ（206）および合同符号化メタデータ（205）を示す符号化されたメタデータ（207）から、再構成されたマルチチャネル信号（311）を決定する方法（800）であって、当該方法（800）は、
・前記符号化されたオーディオ・データ（206）をデコード（801）して、前記複数の再構成されたチャネル信号（314）を提供し、前記符号化されたメタデータ（207）をデコードして前記合同符号化メタデータ（205）を提供し；
・前記合同符号化メタデータ（205）を用いて、前記複数の再構成されたチャネル信号（314）から前記再構成されたマルチチャネル信号（311）を決定する（802）ことを含む、
方法。
前記複数の再構成されたチャネル信号（314）が、特にBフォーマットまたはAフォーマットの、一次アンビソニックス信号である、請求項２１に記載の方法。
前記合同符号化メタデータ（205）が、
・前記複数の再構成されたチャネル信号（404）の、前記再構成されたマルチチャネル信号（311）へのアップミックスを可能にするアップミックス・データ、特にアップミックス行列；および／または
・あらかじめ決定された共分散を有する再構成されたマルチチャネル信号（311）を生成することを可能にする脱相関データ
を含む、請求項２１または２２に記載の方法。
前記合同符号化メタデータ（205）が、前記再構成されたマルチチャネル信号（311）の異なるサブバンドについて異なるメタデータを含む、請求項２１ないし２３のうちいずれか一項に記載の方法。
前記符号化されたオーディオ・データ（206）のデコード（801）は、前記複数の再構成されたチャネル信号（314）のそれぞれの波形復号を、特に各再構成されたチャネル信号（314）のためのモノ・デコーダを使用して、実行することを含む、請求項２１ないし２４のうちいずれか一項に記載の方法。
前記符号化されたメタデータ（207）がエントロピー・デコーダを用いてデコードされる、請求項２１ないし２５のうちいずれか一項に記載の方法。
・前記再構成されたマルチチャネル信号（311）は、一つまたは複数のオーディオ・オブジェクト（303）の一つまたは複数の再構成されたオブジェクト信号を含み；
・当該方法（800）は、符号化されたメタデータ（207）から、前記一つまたは複数のオーディオ・オブジェクト（303）についてのオブジェクト・メタデータ（202）を、特にエントロピー・デコーダを用いてデコードすることを含む、
請求項２１ないし２６のうちいずれか一項に記載の方法。
・前記複数の再構成されたチャネル信号（314）は、SRと称される音場表現信号、特にK≧1としてK次アンビソニックス信号を形成し；
・前記再構成されたマルチチャネル信号（311）は、前記合同符号化メタデータ（205）を用いて前記複数の再構成されたチャネル信号（314）をアップミックスすることによって決定され、
・前記再構成されたマルチチャネル信号（311）は、前記再構成されたSR信号、特にL≧KとしてL次アンビソニックス信号と、一つまたは複数のオーディオ・オブジェクト（303）の一つまたは複数の再構成されたオブジェクト信号とを含む、
請求項２１ないし２７のうちいずれか一項に記載の方法。
・前記合同符号化メタデータ（205）は、前記複数の再構成されたチャネル信号（314）に対して逆エネルギー・コンパクト化動作を実行するように構成される；および／または
・前記合同符号化メタデータ（205）は、前記複数の再構成されたチャネル信号（314）の少なくとも一部に対して逆予測動作を実行するように構成される；および／または
・前記合同符号化メタデータ（205）は、前記複数の再構成されたチャネル信号（314）の少なくとも一部に対して、カルーネン・レーベ変換、主成分分析変換および／または特異値分解変換の逆を実行するように構成される、
請求項２１ないし２８のうちいずれか一項に記載の方法。
・当該方法（800）が、前記再構成されたマルチチャネル信号（311）が第2のモードを用いて決定されるべきであることを判別することを含み；
・第2のモードでは、前記合同符号化メタデータ（205）は、異なる再構成されたチャネル信号（314）の間でエネルギーを再配分するように構成された予測データおよび／または変換データを含み：
・第2のモードでは、前記再構成されたマルチチャネル信号（311）を決定する（802）ことは、前記予測データおよび／または前記変換データを使用して、異なる再構成されたチャネル信号（314）の間でエネルギーを再配分することを含み；
・第2のモードでは、前記再構成されたマルチチャネル信号（311）は、前記複数の再構成されたチャネル信号（314）と同じ数のチャネルを含む、
請求項２１ないし２９のうちいずれか一項に記載の方法。
前記変換データは、前記再構成されたマルチチャネル信号（311）を決定するために前記複数の再構成されたチャネル信号（314）のうちの少なくとも一部に適用されるべき、カルーネン・レーベ変換、主成分分析変換および／または特異値分解変換の逆を示す、請求項３０に記載の方法。
・前記再構成されたマルチチャネル入力信号（311）は、フレームのシーケンスを含み；
・当該方法（800）は、第2のモードが使用されるべきか否かを、フレームのシーケンスの各フレームについて決定することを含む、
請求項３０または３１に記載の方法。
・ビットストリーム（101）から前記符号化されたオーディオ・データ（206）および前記符号化されたメタデータ（207）を抽出し；
・前記ビットストリーム（101）から、第2のモードが使用されるべきであるかどうか示す指示を抽出することを含む、
請求項３０ないし３２のうちいずれか一項に記載の方法。
当該方法（800）が、前記再構成されたマルチチャネル信号（311）をレンダリングすることを含む、請求項３０ないし３３のうちいずれか一項に記載の方法。
マルチチャネル入力信号（201）をエンコードするためのエンコード・ユニット（200）であって、当該エンコード・ユニット（200）は、
・前記マルチチャネル入力信号（201）から複数のダウンミックス・チャネル信号（203）を決定する段階と；
・前記複数のダウンミックス・チャネル信号（203）のエネルギー・コンパクト化を実行して、複数のコンパクト化されたチャネル信号（404）を提供する段階と；
・前記複数のコンパクト化されたチャネル信号（404）に基づいて、かつ前記マルチチャネル入力信号（201）に基づいて、合同符号化メタデータ（205）を決定する段階であって、前記合同符号化メタデータ（205）は、前記複数のコンパクト化されたチャネル信号（404）を、前記マルチチャネル入力信号（201）の近似にアップミックスすることを許容するようなものである、段階と；
・前記複数のコンパクト化されたチャネル信号（404）および前記合同符号化メタデータ（205）をエンコードする段階とを実行するように構成されている、
エンコード・ユニット。
複数の再構成されたチャネル信号（314）を示す符号化されたオーディオ・データ（206）および合同符号化メタデータ（205）を示す符号化されたメタデータ（207）から、再構成されたマルチチャネル信号（311）を決定するためのデコード・ユニット（350）であって、当該デコード・ユニット（350）は、
・前記符号化されたオーディオ・データ（206）をデコードして、前記複数の再構成されたチャネル信号（314）を提供し；
・前記符号化されたメタデータ（207）をデコードして、前記合同符号化メタデータ（205）を提供し；
・前記合同符号化メタデータ（205）を用いて、前記複数の再構成されたチャネル信号（314）から、前記再構成されたマルチチャネル信号（311）を決定するよう構成されている、
デコード・ユニット。