JP6888172B2

JP6888172B2 - 音場表現信号を符号化する方法及びデバイス

Info

Publication number: JP6888172B2
Application number: JP2020539815A
Authority: JP
Inventors: ショエルリンク，クリストファー; デイヴィッドエス．マグラス; プルンハーゲン，ヘイコ; アール．ピー．トーマス，マーク
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2018-01-18
Filing date: 2019-01-17
Publication date: 2021-06-16
Anticipated expiration: 2039-01-17
Also published as: US11322164B2; CN111630593B; EP3740950B1; EP3740950A1; JP2021507314A; EP3740950B8; CN111630593A; US20210050022A1; WO2019143867A1

Description

関連出願
本特許出願は２０１８年１月１８日付で出願された米国仮特許出願第６２／６１８，９９１号に基づく優先権の利益を主張するものであり、その全体がリファレンスにより本願に援用される。

技術分野
本願は、音場表現信号、特にアンビソニック信号（ａｍｂｉｓｏｎｉｃｓｓｉｇｎａｌｓ）に関する。特に、本願はＡＣ−４のようなオブジェクト・ベースのオーディオ符号化方式を用いた音場表現信号の符号化に関する。

背景技術
リスニング位置におけるリスナーのリスニング環境内の音場又は音場は、アンビソニック信号を使用して記述されることが可能である。アンビソニック信号は、各チャネルがリスナーのリスニング位置における音場の特定の指向性パターンに対応しているマルチ・チャネル・オーディオ信号として考えることができる。アンビソニック信号は、３次元（３Ｄ）カーテシアン座標系を用いて記述されることが可能であり、座標系の原点はリスニング位置に対応し、Ｘ軸は前方を指し、Ｙ軸は左を指し、ｚ軸は上を指す。

オーディオ信号又はチャネルの数を増やし、対応する指向性パターンの数（及び対応するパン機能）を増やすことによって、音場が記述される精度は高められる可能性がある。例として、１次アンビソニック信号は、４つのチャネル又は波形、即ち、音場のオムニ指向性成分を示すＷチャネル、ｘ軸に対応するダイポール指向性パターンを有する音場を記述するＸチャネル、ｙ軸に対応するダイポール指向性パターンを有する音場を記述するＹチャネル、及びｚ軸に対応するダイポール指向性パターンを有する音場を記述するＺチャネルを含む。２次アンビソニック信号は、１次アンビソニック信号の４チャネル（Ｂフォーマットとも呼ばれる）と、異なる指向性パターンのための５つの追加チャネルとを含む９チャネルを有する。一般に、Ｌ次アンビソニック信号は、（Ｌ−１）次アンビソニック信号についてのＬ^２個のチャネルと、追加の指向性パターン（３Ｄアンビソニック・フォーマットを使用する場合）のための［（Ｌ＋１）^２−Ｌ^２］個の追加チャネルとを含む（Ｌ＋１）^２個のチャネルを含む。Ｌ＞１に対するＬ次アンビソニック信号は、高次アンビソニック（ｈｉｇｈｅｒｏｒｄｅｒａｍｂｉｓｏｎｉｃｓ：ＨＯＡ）信号と言及される可能性がある。

ＨＯＡ信号は、ＨＯＡ信号をレンダリングするために使用されるスピーカの配置から独立して３Ｄ音場を記述するために使用される可能性がある。スピーカの構成例は、ヘッドフォン、又はラウドスピーカの１つ以上の配置、又はバーチャル・リアリティ・レンダリング環境を含む。従って、オーディオ・レンダリングする側にＨＯＡ信号を提供し、オーディオ・レンダリングする側が、スピーカの様々な配置に柔軟に適応できるようにすることは有益であろう。

本願は、ＨＯＡ信号、より一般的には音場表現（ｓｏｕｎｄｆｉｅｌｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ：ＳＲ）信号を、帯域幅効率の良い方法で高い知覚品質とともに伝送ネットワークを介して伝送する技術的問題に対処する。技術的課題は独立請求項によって解決される。好ましい実施例は従属請求項に記載される。

一態様によれば、基準位置における音場を表す音場表現（ＳＲ）入力信号を符号化するための方法が説明される。この方法は、ＳＲ入力信号から１つ以上のオーディオ・オブジェクトを抽出することを含む。更に、本方法は、ＳＲ入力信号に基づいて、及び１つ以上のオーディオ・オブジェクトに基づいて、残留信号を決定することを含む。また、この方法は、１つ以上のオーディオ・オブジェクト及び／又は残留信号のジョイント符号化を実行することを含む。更に、この方法は、１つ以上のオーディオ・オブジェクト及び／又は残留信号のジョイント符号化に関連して生成されたデータに基づいて、ビットストリームを生成することを含む。

別の態様によれば、基準位置での音場を表すＳＲ入力信号を示すビットストリームをデコードする方法が説明される。この方法は、ビットストリームから１つ以上の再構成されたオーディオ・オブジェクトを導出することを含む。更に、この方法は、ビットストリームから再構成された残留信号を導出することを含む。更に、この方法は、ビットストリームからＳＲ入力信号のチャネル数及び／又はフォーマットを示すＳＲメタデータを導出することを含む。

更なる態様によれば、基準位置での音場を示すＳＲ入力信号を符号化するように構成されたエンコーディング・デバイス（又は装置）が説明される。エンコーディング・デバイスは、ＳＲ入力信号から１つ以上のオーディオ・オブジェクトを抽出するように構成される。更に、エンコーディング・デバイスは、ＳＲ入力信号に基づいて、及び１つ以上のオーディオ・オブジェクトに基づいて、残留信号を決定するように構成される。更に、エンコーディング・デバイスは、１つ以上のオーディオ・オブジェクトに基づいて、及び残留信号に基づいてビットストリームを生成するように構成される。

別の態様によれば、基準位置での音場を表すＳＲ入力信号を示すビットストリームを復号するように構成されたデコーディング・デバイス（又は装置）が説明される。デコーディング・デバイスは、ビットストリームから１つ以上の再構成されたオーディオ・オブジェクトを導出するように構成される。更に、デコーディング・デバイスは、ビットストリームから再構成された残留信号を導出するように構成される。更に、デコーディング・デバイスは、ビットストリームからＳＲ入力信号のチャネル数及び／又はフォーマットを示すＳＲメタデータを導出するように構成される。

更なる態様によれば、ソフトウェア・プログラムが説明される。ソフトウェア・プログラムは、プロセッサでの実行のために、及びプロセッサで実行される場合に本願で説明される方法ステップを実行するように適合される可能性がある。

別の態様によれば、記憶媒体が説明される。記憶媒体は、プロセッサでの実行のために、及びプロセッサで実行される場合に本願で説明される方法ステップを実行するように適合されるソフトウェア・プログラムを含む可能性がある。

更なる態様によれば、コンピュータ・プログラム製品が説明される。コンピュータ・プログラムは、コンピュータで実行される場合に本願で説明される方法ステップを実行する実行可能命令を含む可能性がある。

本特許出願で説明されるような好ましい実施形態を含む方法、デバイス及びシステムは、独立して使用されてもよいし、又は本願で開示される他の方法、デバイス及びシステムと組み合わせて使用されてもよいことに留意されたい。更に、本特許出願で説明される方法、デバイス及びシステムの全ての態様は、任意に組み合わせられる可能性がある。特に、特許請求の範囲の特徴は、任意の方法で互いに組み合わせられる可能性がある。

以下、本発明は添付図面を参照して例示的な方法において説明される。
音場表現信号をエンコードするための例示的なエンコーディング・ユニット示す。音場表現信号をデコードするための例示的なデコーディング・ユニットを示す。音場表現信号をエンコードするための別の例示的なエンコーディング・ユニットを示す。音場表現信号をエンコードするための例示的な方法のフローチャートを示す。音場表現信号を示すビットストリームをデコードするための例示的な方法のフローチャートを示す。例示的なオーディオ・レンダラを示す。例示的なオーディオ・レンダラを示す。例示的な符号化システムを示す。

上述したように、本願は、本明細書でより一般的に音場表現（ＳＲ）信号と言及されるＨＯＡ信号の効率的な符号化に関する。更に、本願は、ビットストリームにおける伝送ネットワークを介したＳＲ信号の伝送に関する。好ましい例では、ＳＲ信号は、ＥＴＳＩで標準化されたＡＣ−４コーデック・システム（ＴＳ１０３１９０及びＴＳ１０３１９０−２）などのオーディオ・オブジェクトに使用されるエンコード／デコード・システムを使用してエンコードされデコードされる。

前述のセクションで言及したように、ＳＲ信号は、比較的多数のチャネル又は波形を含む可能性があり、ここで、異なるチャネルは、異なるパン機能及び／又は異なる指向性パターンに関連する。例として、Ｌ次の３ＤＨＯＡ信号は、（Ｌ＋１）^２個のチャネルを含む。ＳＲ信号は、種々の異なるフォーマットで表現される可能性がある。例示的なフォーマットは、いわゆるＢｅｅＨｉｖｅフォーマット（ＢＨフォーマットと略される）であり、これは、例えば米ＵＳ２０１６／０２５５４５４Ａ１に記載されており、この文書はリファレンスにより本願に援用される。

音場は、リスニング位置の周囲の任意の方向から生じる１つ以上のソニック・イベント（ｏｎｅｏｒｍｏｒｅｓｏｎｉｃｅｖｅｎｔｓ）で構成されていると考えることができる。その結果、１つ以上のソニック・イベントの位置は、球の表面で定義されることが可能である（リスニング又はリファレンス位置は球の中心にある）。

高次アンビソニック（ＨＯＡ）のような音場フォーマットは、任意のスピーカ配置で（即ち、任意のレンダリング・システムで）音場がレンダリングされることを可能にする方法で定義される。しかしながら、レンダリング・システム（ドルビー・アトモス・システムなど）は、スピーカの可能な高さが、決まった数の平面（例えば、耳の高さの（水平）平面、天井又は上方の平面、及び／又は床もしくは下方の平面）に固定されてしまうという意味で、典型的には制約される。従って、理想的な球面音場の概念は、球面の表面上の種々の高さの様々なリング（蜂の巣を構成する積み重ねられたリングに似ている）に位置するソニック・オブジェクトで構成される音場に修正される可能性がある。

４つのリングを有する例示的な構成は、中間リング（又は層）、上リング（又は層）、下リング（又は層）、及び天頂リング（球の天頂における単一点である）を含む可能性がある。このフォーマットは、ＢＨａ．ｂ．ｃ．ｄフォーマットと言及される可能性があり、ここで、「ａ」は中間リングにおけるチャネル数を示し、「ｂ」は上リングにおけるチャネル数を示し、「ｃ」は下リングにおけるチャネル数を示し、「ｄ」は天頂におけるチャネル数を示す（ここで、「ｄ」は値「０」又は「１」をとるのみである）。チャネルは、それぞれのリングで均一に分散されてもよい。各チャネルは、特定の指向性パターンに対応する。例として、ＢＨ３．１．０．０フォーマットは、Ｂフォーマットによる音場を記述するために使用されることが可能であり、即ち、ＢＨ３．１．０．０フォーマットは、１次アンビソニック信号を記述するために使用されることが可能である。

オブジェクト・ベースのオーディオ・レンダラは、スピーカの特定の配置を使用してオーディオ・オブジェクトをレンダリングするように構成されることが可能である。図６Ａは、オーディオ・オブジェクトをレンダリングするように構成された例示的なオーディオ・レンダリング６００を示し、オーディオ・オブジェクトは、オーディオ・オブジェクト信号６０１（実際の、モノホニック、オーディオ信号を含む）と、オブジェクト・メタデータ６０２（オーディオ・オブジェクトの位置を時間の関数として記述する）とを含む。オーディオ・レンダラ６００は、スピーカ配置のうちのＮ個のスピーカの位置を示すスピーカ位置データ６０３を使用する。この情報に基づいて、オーディオ・レンダラ６００は、Ｎ個のスピーカに対してＮ個のスピーカ信号６０４を生成する。特に、スピーカのスピーカ信号６０４は、パニング・ゲインを使用して生成されてもよく、パニング・ゲインは、（スピーカ位置データ６０３によって示される）スピーカ位置と、２Ｄ又は３Ｄレンダリング環境内のオブジェクト位置を示す（時変）オブジェクト・メタデータ６０２とに依存する。

図６ｂに示すように、オーディオ・オブジェクトのオーディオ・レンダリングは、２つのステップに分割されてもよく、第１（時変）ステップ６１１は、オーディオ・オブジェクトを中間スピーカ信号６１４にパンするものであり、第２（時不変）ステップ６１２は、中間スピーカ信号６１４を、特定のスピーカ配置のＮ個のスピーカに対するスピーカ信号６０４に変換するものである。第１ステップ６１１では、Ｋ個の中間スピーカを有する中間スピーカ配置６１３が仮定されてもよい（例えば、Ｋ＝１４のようなＫ＞１１）。Ｋ個の中間スピーカは、（上述のように）蜂の巣又は球の１つ以上の異なるリングに配置されることが可能である。換言すれば、Ｋ個の中間スピーカに対するＫ個の中間スピーカ信号６１４は、ＢＨフォーマットで表現されるＳＲ信号の様々なチャネルに対応する可能性がある。この中間フォーマットは、例えばドルビー・アトモス技術で定められるような中間空間フォーマット（ＩＳＦ）と言及される可能性がある。

オーディオ・レンダラ６００は、１つ以上の静的オブジェクト、即ち固定された及び／又は時不変のオブジェクト位置を示すオブジェクトを、レンダリングするように構成されることが可能である。静的オブジェクトは、オブジェクト・ベッド（ａｎｏｂｊｅｃｔｂｅｄ）と言及される可能性があり、周辺の音を再生するために使用されることが可能である。１つ以上の静的オブジェクトは、スピーカ配置の１つ以上の特定のスピーカに割り当てられる可能性がある。一例として、オーディオ・レンダラ６００は、例えば（ドルビー・アトモス技術の場合のように）、水平面（又は基準平面）、上面、及び下面のような３つの異なるスピーカ平面（又はリング）を許容する可能性がある。各平面において、マルチ・チャネル・オーディオ信号がレンダリングされることが可能であり、各チャネルは、平面内の静的オブジェクト及び／又はスピーカに対応する可能性がある。一例として、水平面は、５．１又は４．０又は４．ｘのマルチ・チャネル・オーディオ信号のレンダリングを許容する可能性があり、ここで、１番目の数字は、スピーカ・チャネル数を示し（例えば、前方左、前方右、前方中央、後方左、及び／又は後方右）、２番目の数字は、ＬＦＥ（低周波エフェクト）チャネル数を示す。上面及び／又は下面は、例えばそれぞれ２つのチャネル（例えば、前方左及び／又は前方右）の使用を許容する可能性がある。従って、固定オーディオ・オブジェクトのベッドは、例えば、表記４．ｘ．２．２を用いて定義されてもよく、ここで、最初の２つの数字は水平面のチャネル数を示し（例えば、４．ｘ）、第３の数字は上平面のチャネル数を示し（例えば、２）、第４の数字は下平面のチャネルの数を示す（例えば、２）。

図７に示すように、ＡＣ−４のようなオブジェクト・ベースの音声符号化システム７００は、エンコーディング・ユニット７１０とデコーディング・ユニット７２０とを備える。エンコーディング・ユニット７１０は、入力信号７１１に基づいて、デコーディング・ユニット７２０へ送信するビットストリーム７０１を生成するように構成されることが可能であり、入力信号７１１は複数のオブジェクト（各オブジェクトはオブジェクト信号６０１とオブジェクト・メタデータ６０２とを含む）を含む可能性がある。複数のオブジェクトは、ジョイント・オブジェクト符号化スキーム（ＪＯＣ）、特にＡＣ−４で使用されるアドバンストＪＯＣ（Ａ−ＪＯＣ）を使用してエンコードされる可能性がある。

ジョイント・オブジェクト符号化ツール、特にＡ−ＪＯＣツールは、データレートを低減したオブジェクト・ベースのイマーシブ・オーディオ・コンテンツ（ｏｂｊｅｃｔ−ｂａｓｅｄｉｍｍｅｒｓｉｖｅａｕｄｉｏｃｏｎｔｅｎｔ）の効率的な表現を可能にする。これは、デコーダ７２０におけるダウンミックス信号からのオーディオ・オブジェクトの再構築を可能にするパラメトリック・サイド情報とともに（複数のオーディオ・オブジェクトの）イマーシブ・コンテンツのマルチ・チャネル・ダウンミックスを伝達することによって達成される。マルチ・チャネル・ダウンミックス信号は、ＡＳＦ（オーディオ・スペクトル・フロント・エンド）及び／又はＡ−ＳＰＸ（アドバンスト・スペクトル・エクステンション）のような波形符号化ツールを用いてエンコードされる可能性があり、それによってダウンミックス信号を表す波形符号化データを提供する。ダウンミックス信号をエンコードするための符号化方式の特定の具体例は、ＭＰＥＧＡＡＣ、ＭＰＥＧＨＥ−ＡＡＣその他のＭＰＥＧオーディオ・コーデック、３ＧＰＰＥＶＳその他の３ＧＰＰコーデック、及びドルビー・デジタル／ドルビー・デジタル・プラス（ＡＣ−３、ｅＡＣ−３）である。

パラメトリック・サイド情報は、ＪＯＣパラメータとオブジェクト・メタデータ６０２とを含む。ＪＯＣパラメータは、主に、ダウンミックス信号からオーディオ・オブジェクトを再構成するアップミックス・マトリクスの時間−及び／又は周波数−変動要素を伝達する。アップミックス・プロセスは、ＱＭＦ（直交ミラー・フィルタ）サブバンド・ドメインで実行される可能性がある。代替的に、別の時間／周波数変換、特にＦＦＴ（高速フーリエ変換）に基づく変換が、アップミックス・プロセスを実行するために使用されてもよい。一般に、周波数−選択分析及び（アップミックス）処理を可能にする変換が適用されてもよい。ＪＯＣアップミックス・プロセス、特にＡ−ＪＯＣアップミックス・プロセスは、複数のオブジェクトの共分散の改善された再構成を可能にするデコリレータを含む可能性もあり、デコリレータは、追加のＪＯＣパラメータによって制御される可能性がある。従って、エンコーダ７１０は、（オブジェクト・メタデータ６０２に加えて）ダウンミックス信号、プラスＪＯＣパラメータを生成するように構成される可能性がある。この情報は、（入力信号７１１の複数のオブジェクトに対応する）出力信号７２１として、複数の再構成されたオブジェクトをデコーダ７２０が生成することを可能にするために、ビットストリーム７０１に含まれる可能性がある。

ＪＯＣツール、特にＡ−ＪＯＣツールは、アップミックス信号が所与のダウンミックス信号に近づくように、所与のダウンミックス信号を、アップミックスされた信号にアップミックスすることを可能にするＪＯＣパラメータを決定するために使用される可能性がある。例として、ＪＯＣパラメータは、アップミックス信号とターゲット信号との間の特定の誤差（例えば、平均二乗誤差）が低減されるように、特に最小化されるように、決定される可能性がある。

「ジョイント・オブジェクト符号化」（例えば、符号化のためのモジュール１２０及び／又は３３０において、及び復号のためのモジュール２２０において実施される）は、マルチ・チャネル・ダウンミックス信号から、より多くのチャネル及び／又はオブジェクトを有する信号への、パラメータ制御された時間／周波数依存性のアップミックスとして説明されることが可能である（オプションとして、アップミックス・プロセスにおいてデコリレーションを使用することを含む）。具体例は、ＤＤ＋と組み合わせて使用されるＪＯＣ（例えば、ＥＴＳＩＴＳ１０３４２０によるＪＯＣ）、ＡＣ−４に含まれるＡ−ＪＯＣ（例えば、ＥＴＳＩＴＳ１０３１９０によるＡ−ＪＯＣ）である。

「ジョイント・オブジェクト符号化」は、ＶＲ（バーチャル・リアリティ）コンテンツの符号化の状況で実行される可能性もあり、これは、ダイナミック・オーディオ・オブジェクト、固定オーディオ・チャネル、及び／又は高次アンビソニック（ＨＯＡ）のようなシーン・ベースのオーディオ要素を含む、比較的多数のオーディオ要素で構成される可能性がある。コンテンツ摂取エンジン（モジュール１１０又は３２０に匹敵する）を使用して、ＶＲコンテンツからオブジェクト３０３及び／又は残留信号３０２を生成することができる。更に、ダウンミックス・モジュール３１０は、ダウンミックス信号３０４を生成するために（例えば、Ｂフォーマットで）使用される可能性がある。ダウンミックス信号３０４は、例えば、３ＧＰＰＥＶＳエンコーダを用いてエンコードされる可能性がある。更に、メタデータが算出されることが可能であり、これにより、ダイナミック・オーディオ・オブジェクト及び／又は高次アンビソニック・シーンに対する（エネルギ圧縮）ダウンミックス信号３０４のアップミキシングが可能になる。このメタデータは、本願で説明されるジョイント（オブジェクト）符号化パラメータ３０５であるとして考えることが可能である。

図１は、例えばＬ次アンビソニック信号である音場表現（ＳＲ）入力信号１０１をエンコードするための例示的なエンコーディング・ユニット又はエンコーディング・デバイス１００のブロック図を示す。エンコーディング・ユニット１００は、ＡＣ−４符号化システム７００などのオブジェクト・ベースの符号化システム７００のエンコーディング・ユニット７１０の一部であってもよい。エンコーディング・ユニット１００は、ＳＲ入力信号１０１から１つ以上のオブジェクト１０３を抽出するように構成されるオブジェクト抽出モジュール１１０を備える。この目的のために、ＳＲ入力信号１０１は、例えばＱＭＦ変換、ＦＦＴベースの変換、又は周波数選択処理を可能にする別の時間／周波数変換を用いてサブバンド・ドメインに変換されることが可能であり、それにより複数のＳＲサブバンド信号を提供する。この変換、特にＱＭＦ変換又はＦＦＴに基づく変換は、複数の均一に分散されたサブバンドを示す可能性があり、ここで、均一に分散されたサブバンドは、サブバンド数を減らすために、バーク・スケール（ｔｈｅＢａｒｋｓｃａｌｅ）のような知覚スケールを用いてグループ化される可能性がある。従って、複数のＳＲサブバンド信号が提供される可能性があり、サブバンドは、不均一な（知覚的に動機づけられた）間隔又は分布を示す可能性がある。例として、変換、特にＱＭＦ変換又はＦＦＴに基づく変換は、例えばｍ＝１９個の（非一様な）サブバンドにグループ化される可能性がある６４個のサブバンドを示す可能性がある。

上述のように、ＳＲ入力信号１０１は、典型的には複数のチャネル（特に、（Ｌ＋１）^２個のチャネル）を含む。その結果、ＳＲサブバンド信号の各々は、複数のチャネル（特に、Ｌ次ＨＯＡ信号の場合には（Ｌ＋１）^２個のチャネル）を含む。

各ＳＲサブバンド信号に対して、支配的な到来方向（ＤＯＡ）が決定されてもよく、それにより、対応する複数のＳＲサブバンド信号に対して複数の支配的なＤＯＡを提供する。例えば、ＳＲ（サブバンド）信号の支配的な到来方向は、当該技術分野で知られているように、ＷチャネルとＸ、Ｙ、Ｚチャネルとの共分散から（ｘ，ｙ，ｚ）ベクトルとして導出されてもよい。従って、複数の支配的なＤＯＡが、複数のサブバンドに対して決定される可能性がある。複数の支配的なＤＯＡは、ｎ個のオブジェクト１０３に対して、特定数ｎ個の支配的なＤＯＡにクラスタ化される可能性がある。ｎ個の支配的なＤＯＡを用いて、ｎ個のオーディオ・オブジェクト１０３に対するオブジェクト信号６０１は、複数のＳＲサブバンド信号から抽出されることが可能である。更に、ｎ個のオブジェクト１０３のためのオブジェクト・メタデータ６０２は、ｎ個の支配的なＤＯＡから導出されることが可能である。サブバンド変換のサブバンド数は、１０、１５、２０又はそれ以上である可能性がある。オブジェクト１０３の数は、ｎ＝２、３、４又はそれ以上であってもよい。

ｎ個のオブジェクト１０３は、残留信号１０２を提供するためにＳＲ入力信号１０１から減算及び／又は除去される可能性があり、残留信号１０２は、音場表現を使用して、例えばＢＨフォーマット又はＩＳＦフォーマットを使用して表現される可能性がある。

ｎ個のオブジェクト１０３は、ＪＯＣパラメータ１０５を提供するために、ジョイント・オブジェクト符号化（ＪＯＣ）モジュール１２０内でエンコードされる可能性がある。ＪＯＣパラメータ１０５は、ＪＯＣパラメータ１０５が、ｎ個のオブジェクト１０３のオブジェクト信号６０１と残留信号１０２とを近似するダウンミックス信号１０１をアップミックスするために使用されるように決定される可能性がある。ダウンミックス信号１０１は、（図１に示すように）ＳＲ入力信号１０１に対応する可能性があり、（図３に示すように）ダウンミックス処理によってＳＲ入力信号１０１に基づいて決定される可能性がある。

ダウンミックス信号１０１及びＪＯＣパラメータ１０５は、ｎ個のオブジェクト１０３及び／又は残留信号１０２を再構成するために、対応するデコーダ２００内で使用される可能性がある。ＪＯＣパラメータ１０５は、サブバンド・ドメイン内で、特にＱＭＦドメイン又はＦＦＴに基づく変換のドメイン内で、正確かつ効率的な方法で決定される可能性がある。好ましい例では、オブジェクト抽出及びジョイント・オブジェクト符号化は、同じサブバンド・ドメイン内で実行され、それによって符号化方式の複雑さを低減する。

ＪＯＣパラメータ１０５を決定するために、残留信号１０２及び１つ以上のオブジェクト１０３のオブジェクト信号６０１は、サブバンド・ドメインに変換される可能性があり、及び／又はサブバンド・ドメイン内で処理される可能性がある。更に、ダウンミックス信号１０１は、サブバンド・ドメインに変換される可能性がある。続いて、ＪＯＣパラメータ１０５は、サブバンド毎に決定される可能性があり、特にＪＯＣパラメータを使用してダウンミックス信号１０１のサブバンド信号をアップミックスすることによって、残留信号１０２及びｎ個のオブジェクト１０３のオブジェクト信号６０１のサブバンド信号の近似が得られる。異なるサブバンドに対するＪＯＣパラメータ１０５は、対応するデコーダに伝送するためにビットストリーム７０１に挿入される可能性がある。

従って、ＳＲ入力信号１０１は、ダウンミックス信号１０１により及びＪＯＣパラメータ１０５により、並びにオブジェクト・メタデータ６０２（ダウンミックス信号１０１及びＪＯＣパラメータ１０５によって記述されるｎ個のオブジェクト１０３に対するもの）によって表現される可能性がある。ＪＯＣダウンミックス信号１０１は、（例えば、ＡＣ−４のＡＳＦを使用して）波形符号化されてもよい。更に、波形符号化信号１０１に関するデータ及びメタデータ１０５、６０２が、ビットストリーム７０１に含まれてもよい。

ＳＲ入力信号１０１をｎ個のオブジェクト１０３及び残留信号１０２に変換すること（これらはＪＯＣを用いてエンコードされる）は、初期のＳＲ入力信号１０１の直接的なジョイント・オブジェクト符号化よりも有益であり、なぜなら、オブジェクトの抽出は、（ＳＲ入力信号１０１のチャネルの数と比較して）比較的少ない数のｎ個のオブジェクト１０３へのエネルギの圧縮をもたらし、それによってジョイント・オブジェクト符号化の知覚品質を増加させるからである。

図２は、オブジェクト・ベースの符号化システム７００のデコーディング・ユニット７２０の一部である可能性があるデコーディング・ユニット又はデコーディング・デバイス２００の一例を示す。デコーディング・ユニット２００は、デコードされたダウンミックス信号２０３を提供するために、波形符号化信号１０１をデコードするように構成されたコア・デコーディング・モジュール２１０を含む。デコードされたダウンミックス信号２０３は、ＪＯＣパラメータ２０４、１０５及びオブジェクト・メタデータ６０２と共にＪＯＣデコーディング・モジュール２２０において処理されて、ｎ個の再構成されたオーディオ・オブジェクト２０６及び／又は再構成された残留信号２０５を提供することができる。再構成された残留信号２０５及び再構成されたオーディオ・オブジェクト２０６は、スピーカ・レンダリング２３０及び／又はヘッドフォン・レンダリング２４０のために使用される可能性がある。代替的又は追加的に、デコードされたダウンミックス信号２０３は、効率的な及び／又は複雑性の低いレンダリングに直接的に使用されてもよい（例えば、低空間分解能レンダリングを実行する場合）。

エンコーディング・ユニット１００は、ＳＲメタデータ２０１をビットストリーム７０１に挿入するように構成される可能性があり、ＳＲメタデータ２０１は、ＳＲ入力信号１０１の音場表現フォーマットを示す可能性がある。一例として、アンビソニック入力信号１０１の次数Ｌが指定される可能性がある。デコーディング・ユニット２００は、再構成されたＳＲ信号２５１を提供するために、１つ以上の再構成されたオブジェクト２０６に基づいて、及び再構成された残留信号２０５に基づいて、ＳＲ入力信号１０１を再構成するように構成されたＳＲ出力段２５０を含む可能性がある。

特に、再構成された残留信号２０５及び１つ以上の再構成されたオブジェクト２０６のオブジェクト信号６０１は、サブバンド・ドメイン（特にＱＭＦドメイン又はＦＦＴベースの変換ドメイン）内で変換され及び／又は処理される可能性があり、オブジェクト信号６０１のサブバンド信号は、それぞれのオブジェクト・メタデータ６０２に依存して、再構成されたＳＲ信号２５１の異なるチャネルに割り当てられる可能性がある。更に、再構成された残留信号２０５の異なるチャネルは、再構成されたＳＲ信号２５１の異なるチャネルに割り当てられてもよい。この割り当ては、サブバンド・ドメイン内で実行される可能性がある。代替的又は追加的に、割り当ては時間ドメイン内で実行されてもよい。割り当てに関し、パニング機能が使用されてもよい。従って、ＳＲ入力信号１０１は、ビットレート効率の良い方法で伝送され、再構成されることが可能である。

図３は、ＳＲ入力信号３０１をＳＲダウンミックス信号３０４にダウンミックスするように構成されたＳＲダウンミックス・モジュール３１０を含む別のエンコーディング・ユニット３００を示し、ＳＲダウンミックス信号３０４はダウンミックス信号１０１（上述）に対応する可能性がある。ＳＲダウンミックス信号３０４は、例えばＳＲ入力信号３０１から１つ以上のチャネルを選択することによって生成される可能性がある。例として、ＳＲダウンミックス信号３０４は、Ｌ次アンビソニック入力信号３０１の（Ｌ＋１）^２個のチャネルからＬ^２個の低解像度チャネルを選択することによって生成される（Ｌ−１）次のアンビソニック信号であってもよい。

更に、エンコーディング・ユニット３００は、エンコーディング・ユニット１００の抽出モジュール１２０に類似する方法で動作し、ＳＲ入力信号３０１からｎ個のオブジェクト３０３を導出するように構成されたオブジェクト抽出モジュール３２０を含んでもよい。ｎ個の抽出されたオブジェクト３０３及び／又は残留信号３０２は、ＪＯＣ符号化モジュール３３０（ＪＯＣエンコーディング・モジュール１２０と同様に動作する）を用いてエンコードされることが可能であり、これによりＪＯＣパラメータ３０５を提供することができる。（周波数及び／又は時間変動する）ＪＯＣパラメータ３０５は、ＳＲダウンミックス信号３０４が、ＪＯＣパラメータ３０５を使用して、残留信号３０２及びｎ個のオブジェクト３０３のオブジェクト信号６０１を近似するアップミックス信号にアップミックスされるように決定される可能性がある。換言すれば、ＪＯＣパラメータ３０５は、ｎ個のオブジェクト３０３のオブジェクト信号６０１により及び残留信号３０２により与えられるマルチ・チャネル信号に対して、ＳＲダウンミックス信号３０４のアップミキシングを可能にすることができる。

残留信号３０２は、ＳＲ入力信号３０１に基づいて及びｎ個のオブジェクト３０３に基づいて決定される可能性がある。更に、ＳＲダウンミックス信号３０４が考慮され及び／又はエンコードされてもよい。ＳＲダウンミックス信号３０４に関するデータ、ＪＯＣパラメータ３０５、及び／又はｎ個のオブジェクト３０３に対するオブジェクト・メタデータ６０２は、対応するデコーディング・ユニット２００へ送信するためにビットストリーム７０１に挿入されることが可能である。

対応するデコーディング・ユニット２００は、ＳＲ入力信号３０１を再構成するために（特に、ＳＲ出力モジュール２５０内で）アップミキシング動作を実行するように構成される可能性がある。

従って、本願は、Ｂフォーマット及び／又は高次アンビソニック（ＨＯＡ）におけるＳＲ信号１０１、３０１のネイティブ・デリバリ（ｎａｔｉｖｅｄｅｌｉｖｅｒｙ）をサポートするＡＣ−４エンコーダ／デコーダを説明している。ＡＣ−４エンコーダ７１０及び／又はデコーダ７２０は、Ｂ−フォーマット及び／又はＨＯＡを含むアンビソニックのような音場表現のためのサポートを含むように修正される可能性がある。一例では、Ｂフォーマット及び／又はＨＯＡコンテンツは、既存のＡＣ−４デコーダ７２０と互換性のあるビットストリーム７０１を生成するために最適化された符号化を実行するＡＣ−４エンコーダ７１０に取り込まれる可能性がある。更なるシグナリング（特に、ＳＲメタデータ２０１）は、ＡＣ−４デコーダ７２０のＢフォーマット／ＨＯＡ出力ステージ２５０の決定に関連する情報の検出を可能にするエンコーダ音場関連情報を示すために、ビットストリーム７０１に導入される可能性がある。ＡＣ−４におけるＢ−フォーマット／ＨＯＡの固有のサポートは、以下に基づいて符号化システム７００に追加される可能性がある：
ｉ．ＨＯＡ入力を示すシグナリング能力を利用すること；
ｉｉ．既存の符号化ツールの活用すること；及び／又は
ｉｉｉ．受信されたビットストリーム７０１を、通知されたオリジナルのＨＯＡ次数に戻すように変換する能力を可能にするために、デコーダ側にＨＯＡ出力段２５０を追加すること。

既存の符号化ツールによりＡＣ−４でＨＯＡコンテンツをエンコード／デコードするために、シグナリング・メカニズム及び／又はコンテンツを前処理するエンコーダ・モジュール１００、３００が追加されてもよい。特に、ＡＣ−４の波形符号化ツール及び／又はＡ−ＪＯＣ（アドバンスト・ジョイント・オブジェクト符号化）が再利用されてもよい。

以下では、Ｂ−フォーマットからＬ次（例えば、３次）ＨＯＡ信号までの範囲に及ぶ入力信号１０１、３０１に対するエンコード及びデコードのシナリオが説明される。これらのシナリオは以下の事項を考慮する可能性がある：
・Ａ−ＪＯＣＴ／Ｆ（時間／周波数）タイリングに基づくＨＯＡ信号１０１、３０１からの１つ以上のオーディオ・オブジェクト１０３、３０３のオブジェクト抽出；
・１つ以上の空間残差の表現、抽出されたオブジェクト１０３、３０３の数、及び／又はＡ−ＪＯＣダウンミックス信号１０１、３０４の表現の関数としての、ＨＯＡ入力信号１０１、３０１の異なる次数に対する異なる再生構成；
・レンダリングを区別する能力による、Ｂフォーマット入力信号１０１、３０１に対する改善されたＨＯＡ・Ｂ−フォーマット表現のネイティブ・サポート；
・既存のデコーダとの後方互換性；及び／又は
・ＨＯＡ信号１０１、３０１のコア／フル・デコード。

以下、アンビソニック信号１０１、３０１のＡＣ−４配信が説明される。図１に示すように、Ｂ−フォーマット・アンビソニック信号のような音場表現信号１０１のエンコーディング・プロセスの一部として、音場表現信号１０１は、オブジェクト抽出モジュール１１０を用いて、ベッド・チャネル・オブジェクト１０２（即ち、残留信号）及び／又は動的オブジェクト１０３に分離される可能性がある。更に、オブジェクト１０２、１０３は、ジョイント・オブジェクト符号化（ＪＯＣ）モジュール１２０におけるＡ−ＪＯＣ符号化を用いてパラメータ化されてもよい。特に、図１は、Ａ−ＪＯＣエンコーディング・プロセスに対するオブジェクト抽出の例示的なマッピングを示す。

図１は、例示的なエンコーディング・ユニット１００を示す。エンコーディング・ユニット１００は、音場フォーマット（例えば、Ｂ−フォーマットのアンビソニック、ＩＳＦフォーマット、例えばＩＳＦ３．１．０．０又はＢＨ３．１．０．０）におけるものである可能性があるオーディオ入力１０１を受信する。オーディオ入力１０１は、（マルチ・チャネル）残留信号１０２及び１つ以上のオブジェクト１０３を出力するオブジェクト抽出モジュール１１０に提供されることが可能である。残留信号１０２は、Ｂ−フォーマット、ＢＨ３．１．０．０などの種々のフォーマットのうちの１つであってもよい。１つ以上のオブジェクト１０３は、任意の数の１、２、．．．、ｎ個のオブジェクトであるとすることが可能である。残留信号１０２及び／又は１つ以上のオブジェクト１０３は、Ａ−ＪＯＣパラメータ１０５を決定するＡ−ＪＯＣエンコーディング・モジュール１２０に提供されることが可能である。Ａ−ＪＯＣパラメータ１０５は、ダウンミックス信号１０１のアップミキシングが、残留信号１０２及びｎ個のオブジェクト１０３のオブジェクト信号６０１に近づくことを可能にするように決定されることが可能である。

一例では、オブジェクト抽出モジュール１１０は、音場表現（例えば、Ｂ−フォーマット・アンビソニックス、ＩＳＦフォーマット）におけるものである可能性がある入力信号１０１から１つ以上のオブジェクト１０３を抽出するように構成される。特定の例では、Ｂ−フォーマットの入力信号１０１（４つのチャネルを含む）は、４．０．２．２コンフィギュレーション（即ち、４．０チャネル水平レイヤ、２チャネル上方レイヤ、及び２チャネル下方レイヤ）における８つの静的オブジェクトに（即ち、８つのチャネルを含む残留信号１０２に）マッピングされることが可能であり、及び合計１０チャネルに対して、２つの動的オブジェクト１０３にマッピングされることが可能である。特別なＬＦＥ処置は行われなくてもよい。８つの静的オブジェクトは、静的位置におけるドルビー・アトモス技術の８つのアトモス・オブジェクトに対応する可能性があり：水平面における４つ（アトモス四角形の４隅）及びアトモス・キューブの上方及び下方（ｚ＝１及びｚ＝−１）平面のサイド・エッジの中央における合計４つである。これらの静的オブジェクトがベッド・チャネルに割り当てられた場合、水平面の４つのオブジェクトは、Ｌ、Ｒ、ＬＳ、ＲＳであり、天井チャネルは、ＴＬ、ＴＲであり、床チャネルは、ＢＬ、ＢＲであるとすることが可能である。

一例では、オブジェクト抽出モジュール１１０はアルゴリズムを実行し、そのアルゴリズムは、（例えば、直交ミラー・フィルタ（ＱＭＦ）又はＦＦＴに基づく変換などの時間−周波数変換を、サブバンドの知覚的グループ化又はバンディングと組み合わせて使用して）ｍ＝１９の異なる（不均一に分布した）サブバンドにおいて入力信号１０１を分析し、各サブバンドにおける支配的な到来方向を決定する。次に、アルゴリズムは、様々なサブバンド内で支配的な到来方向をクラスタ化して、（例えば、ｎ＝２のような）ｎ個の全体的な支配的な方向を決定し、ここでｎ個の全体的な支配的な方向は、ｎ個のオブジェクト１０３に対するオブジェクト位置として使用される可能性がある。各サブバンドにおいて、入力信号１０１のコンポーネント及び／又はフラクションは各オブジェクト１０３に転換されることが可能であり、次いで、残留Ｂ−フォーマット・コンポーネントは、残留信号１０２を決定するために、静的オブジェクト及び／又はベッド及び／又はＩＳＦストリームとして使用されることが可能である。

（例えば、３次ＨＯＡのようなＬ次ＨＯＡである）高分解能の入力信号１０１の場合、オブジェクト１０３の増加した数ｎが抽出される可能性がある（例えば、ｎ＝３、４、又はそれ以上）。

上述したように、オブジェクト抽出は、ｍ個のサブバンド（例えば、ｍ＝１９個のサブバンド）で実行される可能性がある。同じＴ／Ｆタイリング（即ち、同じ時間−周波数変換及び／又は同じサブバンド・グループ化）が、後続のＪＯＣコーディングに関するオブジェクト抽出に使用される場合、ＪＯＣエンコーダ１２０は、オブジェクト抽出モジュール１１０のアップミックス行列を使用する可能性があり、その結果、ＪＯＣエンコーダ１２０は、その行列を、ダウンミックス信号１０１、３０４（例えば、ＢＨ３．１．０．０として表現されるＢフォーマット信号）の共分散行列に適用することが可能である。

対応するデコーダは、（最低限のデコードの複雑さで）ダウンミックス信号１０１、３０４をデコードし、直接的にレンダリングすることができる。ダウンミックス信号１０１、３０４のデコード及び表現は、比較的低い演算負担で信号のコア表現のみをデコードするという点で、「コア・デコード」と言及されることが可能である。ダウンミックス信号１０１、３０４は、ＢＨ３．１．０．０として表されるＢ−フォーマットのＳＲ信号であってもよい。代替的又は追加的に、デコーダは、ＪＯＣデコーダを適用して、レンダリングにおけるより高い空間精度のために、ＳＲ入力信号１０１のオブジェクト抽出バージョンを再生成することが可能である。

Ｂ−フォーマットを使用する残留信号１０２は、（例えば、ドルビー・アトモス・システムの）ＢＨ３．１．０．０ＩＳＦパスを介して供給されることにそれ自体役立つ。ＢＨ３．１．０．０フォーマットは、（Ｃ、ＬＳ、ＲＳ、Ｚｅｎｉｔｈ）チャネルにほぼ対応する４つのチャネルを含み、４×４の線形ミキシング処理でＢ−フォーマットへ／からチャネルがロスレスに変換され得るという特性を有する。ＢＨ３．１．０．０フォーマットは、ＳＲ３．１．０．０と言及される可能性もある。一方、ＩＳＦオプションが利用できない場合、アルゴリズムは（例えば、４．０．２．２フォーマットで）８つの静的オブジェクトを使用する可能性がある。アルゴリズムが、Ｌ次（例えば、３次）のＨＯＡ入力と共に動作するように変更される場合、残留信号３０２は、４．１．２．２のようなフォーマットで表現される可能性があるが、ダウンミックス信号３０４は、ＡＣ４符号化を促進するために例えばＢＨ３．１．０．０に簡略化される可能性がある。

一例では、音場がＢ−フォーマット、ＨＯＡ、アトモス、５．１、モノラルとして記述されるか否かにかかわらず、ＡＣ４及び／又はアトモス・フォーマットが、任意の音場を伝達するために使用される可能性がある。音場は、任意の種類のスピーカ（又はヘッドフォン）システム上でレンダリングされる可能性がある。

図２は、例示的なデコーディング・ユニット２００を示す。コア・デコーダ２１０は、エンコードされたオーディオ・ビットストリーム７０１を受信することが可能であり、再構成された（マルチ・チャネル）ダウンミックス信号２０３を復号することが可能である。一例では、コア・デコーダ２１０は、再構成されたダウンミックス信号２０３をデコードし、符号化ビットストリーム７０１からのデータに基づいて、再構成されたダウンミックス信号２０３のフォーマットのタイプを決定することが可能である。例えば、コア・デコーダ２１０は、ダウンミックス信号２０３がＢ−フォーマット又はＢＨ３．１．０．０フォーマットを示していると判定する可能性がある。コア・デコーダ２１０は更に、（例えば、スピーカ・レンダリング２３０又はヘッドフォン・レンダリング２４０により）ダウンミックス信号２０３をレンダリングする際に使用するために、コア・デコーダ・モード出力２０２を提供する可能性がある。

Ａ−ＪＯＣデコーダ２２０は、Ａ−ＪＯＣパラメータ２０４及びデコードされたダウンミックス信号（例えば、Ｂ−フォーマット信号）２０３を受信することが可能である。Ａ−ＪＯＣデコーダ２２０は、この情報をデコードして、空間残差２０５及びｎ個のオブジェクト２０６を、ダウンミックス信号２０３及びＪＯＣパラメータ２０４に基づいて決定する。空間残差２０５は、Ｂ−フォーマットのアンビソニック又はＢＨ３．１．０．０フォーマットのような任意のフォーマットであってもよい。一例では、空間残差２０５は、Ｂフォーマットのアンビソニックであり、オブジェクト２０６の数ｎは、ｎ＝２である。一例では、第１ヘッドフォン・レンダラ（例えば、ヘッドフォン・レンダラ２４０）はコア・デコーダ出力Ｂ−フォーマット信号２０２で動作し、第２ヘッドフォン・レンダラはオブジェクト抽出信号２０６及び対応するＢ−フォーマット残差２０５で動作することが可能である。一例では、ヘッドフォンでレンダリングする場合、及び／又は抽出されたオブジェクト２０６の比較的高い数ｎ（例えば、ｎ＝３、４、５又はそれ以上）を使用する場合、Ｂ−フォーマット（ＢＨ３．１．０．０）残留信号２０５は必要とされない可能性がある。

好ましい実施形態では、残留信号２０５の次元（例えば、チャネル数）は、ダウンミックス信号２０３の次元と同じか、又はそれより高い。

ダウンミックス・レンダラ３１０は、Ｌ次（例えば、３次）のＨＯＡオーディオ・ストリーム３０１を受信することが可能であり、オーディオ・ストリーム３０１を空間フォーマットに、例えばＢ−フォーマット・アンビソニック、ＢＨ３．１．０．０、４．ｘ．２．２ベッド等にダウンミックスすることが可能である。一例では、ダウンミックス・レンダラ３１０は、ＨＯＡ信号３０１を、Ｂ−フォーマット・ダウンミックス信号３０４にダウンミックスする。

オブジェクト抽出モジュール３２０は、ＨＯＡ信号、例えばＬ次（例えば、３次）のＨＯＡ信号３０１を受信することができる。オブジェクト抽出モジュール３２０は、空間残差３０２及びｎ個のオブジェクト３０３を決定することができる。一例では、空間残差３０２は２次ＨＯＡフォーマットであり、オブジェクト３０３の数ｎはｎ＝２である。Ａ−ＪＯＣエンコーダ３３０は、Ａ−ＪＯＣパラメータ３０５を決定するために、空間残差３０２（例えば、２次ＨＯＡ残差）に基づいて、ｎ個のオブジェクト３０３（ｎ＝２）に基づいて、及び／又はＢ−フォーマット・ダウンミックス信号３０４に基づいて、Ａ−ＪＯＣエンコードを実行することができる。

上述したように、図２は例示的なデコーディング・ユニット２００を示す。デコーディング・ユニット２００は、以下の情報２０１（即ち、ＳＲメタデータ）を受信することができる：
・オリジナルのオーディオ信号３０１（好ましくは３次ＨＯＡ）のフォーマットのタイプ；
・ダウンミックスされた信号３０４のフォーマットのタイプ；
・オリジナル信号３０１がＨＯＡ信号である場合のＨＯＡメタデータ（例えば、オリジナルＨＯＡ信号の次数）；及び／又は
・空間残差３０２のフォーマット。

コア・デコーダ２１０は、エンコードされたオーディオ・ビットストリーム７０１を受信することができる。コア・デコーダ２１０は、Ｂ−フォーマットのアンビソニック、ＨＯＡ、４．ｘ．２．２ベッド、ＩＳＦ、ＢＨ３．１．０．０などの任意のフォーマットにおけるものである可能性があるダウンミックス信号２０３を決定することができる。コア・デコーダ３１０は、更に、ダウンミックス信号２０３を直接的に使用して、再生のために、デコードされたオーディオをレンダリングする際に（例えば、スピーカ・レンダリング２３０、ヘッドフォン・レンダリング２４０において）使用される可能性があるコア・デコード・モード出力２０２を出力する可能性がある。

Ａ−ＪＯＣデコーダ２２０は、Ａ−ＪＯＣパラメータ２０４及びダウンミックス信号２０３（例えば、好ましくは、Ｂ−フォーマットのアンビソニック形式におけるもの）を利用して、空間残差２０５及びｎ個のオブジェクト２０６を決定することができる。空間残差２０５は、ＨＯＡフォーマット、Ｂ−フォーマット・アンビソニック、ＩＳＦフォーマット、４．ｘ．２．２ベッド、及びＢＨ３．１．０．０のような任意のフォーマットにおけるものである可能性がある。好ましくは、オリジナルのオーディオ信号がＬ次（Ｌ＞２）（例えば、３次）のＨＯＡ信号である場合に、空間残差２０５は、２次のアンビソニック・フォーマットによるものである可能性がある。ｎ個のオブジェクト４０６は、２、．．．、ｎのうちの何れであってもよく、好ましくはｎ＝２である。デコーダ２００は、ＨＯＡ出力ユニット２５０を含む可能性があり、ＨＯＡ出力ユニット２５０は、ＨＯＡ出力２５１の次数及び／又はフォーマットの指示を受信すると、空間残差２０５及びｎ個のオブジェクト２０６をＨＯＡ出力２５１に処理し、オーディオ再生のためにＨＯＡ出力２５１を提供することが可能である。次いで、ＨＯＡ出力２５１は、例えばスピーカ・レンダリング２３０又はヘッドフォン・レンダリング２４０を介してレンダリングされる可能性がある。

上記の全てにおいて、デコーダの観点から、シグナリングがビットストリーム７０１に追加されて、オリジナルの入力３０１がＨＯＡであったことを（例えば、ＳＲメタデータ２０１を使用して）通知してもよく、及び／又は、デコードされた信号２０５、２０６を、通知された次数のＨＯＡ信号２５１に変換するＨＯＡ出力段２５０が追加されてもよい。ＨＯＡ出力段２５０は、スピーカ・レンダリング出力段と同様に、（例えば、ＳＲメタデータ２０１に基づいて）要求されたＨＯＡ次数をデコーダ側の入力として取り込むように構成されてもよい。

一例では、デコードされた信号表現は、例えばデコーダＡＰＩ（アプリケーション・プログラミング・インターフェース）により要求されるならば、ＨＯＡ出力表現に変換されてもよい。例えば、ＶＲ（バーチャル・リアリティ）再生システムは、オリジナルのオーディオ信号３０１のフォーマットにかかわらず、ＡＣ−４デコーダ７００、２００から供給される全てのオーディオが、Ｌ次（例えば、３次）のＨＯＡフォーマットで提供されるように要求する可能性がある。

ＡＣ−４コーデックは、ＩＳＦサポートを提供する可能性があり、Ａ−ＪＯＣツールを含む可能性がある。これは、入力信号３０１として比較的高次のＩＳＦフォーマットの提供を必要とし、これは、Ａ−ＪＯＣデコーダがデコーダ側で高次のＩＳＦを再生成するために必要とされるＪＯＣパラメータ３０５と共に符号化されてもよいダウンミックス信号３０４（例えば、適切なより低次のＩＳＦ）の作成を必要とする可能性がある。これは、Ｌ次（例えば、３次）のＨＯＡ入力信号３０１を適切なＩＳＦ（例えば、ＢＨ７．５．３．０）フォーマットに変換するステップと、シグナリング・メカニズム及びＨＯＡ出力段２５０を追加するステップとを必要とする可能性がある。ＨＯＡ出力段２５０は、ＩＳＦ表現をＨＯＡに変換するように構成されることが可能である。

一例では、エンコーダ側でオブジェクト抽出技術を使用することによって、ＩＳＦ表現と比較して、ＨＯＡ信号がより効率的に（即ち、より少ない数の信号を使用して）表現される可能性がある。内部表現及び符号化方式は、元のＨＯＡへのより正確な変換を可能にし得る。エンコーダ側でのオブジェクト抽出技術は、所与のＢ−フォーマット入力に対する改善されたＢ−フォーマット信号を、コンパクトに符号化して表現するために使用される可能性がある。

一例では、元の入力ＨＯＡ次数は、ＨＯＡ出力段２５０に通知されてもよい。別の例では、後方互換性が提供される可能性があり、即ち、ＡＣ−４デコーダは、入力信号３０１のタイプによらず、オーディオ出力を提供するように構成されることが可能である。

図１に関連して説明したように、ＳＲ入力信号１０１は、ジョイント・オブジェクト符号化パラメータ１０５に加えて、ビットストリーム７００にエンコードされ、提供される可能性がある。これを行うことにより、対応するデコーダは、（再構成される）オーディオ・オブジェクト２０６及び／又は（再構成される）残留信号２０６を効率的に導出することが可能である。このようなオーディオ・オブジェクト２０６は、ＳＲ入力信号１０１の直接的なレンダリングと比較して、強化されたレンダリングを可能にすることができる。従って、図１によるエンコーダ１００は、復号化された場合に、ＳＲ入力信号１０１（例えば、１次又はより高次のアンビソニック信号）の直接的なレンダリングと比較して、改善された品質の再生をもたらす可能性があるビットストリーム７００を生成することを許容する。換言すれば、エンコーダ１００によって実行される可能性があるオブジェクト抽出１１０は、改善された再生品質（特に、改善された空間的な位置決め）を可能にする。これを行うことによって、（モジュール１１０によって実行される）オブジェクト抽出プロセスは、（デコーダ２００によってではなく）エンコーダ１００によって実行されることが可能であり、それによって、レンダリング・デバイス及び／又はデコーダの演算負担を減少させる。

図３のエンコーダ３００は、典型的には、特にＳＲ入力信号１０１の代わりにダウンミックス信号３０４を（波形）符号化することによって、（図１のエンコーダ１００と比較して）改善された符号化効率を提供する。換言すれば、図３のエンコーディング・システム３００は、ダウンミックス・モジュール３１０を使用することで、（図１のエンコーディング・システム１００と比較して）改善された符号化効率を可能にし、ＳＲ入力信号３０１と比較してダウンミックス信号３０４におけるチャネル数を減少させ、それによって、低減されたビットレートで符号化システムが動作することを可能にする。

図４は、基準位置における音場を記述する音場表現（ＳＲ）入力信号１０１、３０１をエンコードするための例示的な方法４００のフローチャートを示す。基準位置は、リスナーのリスニング位置及び／又はマイクロホンのキャプチャ位置であってもよい。ＳＲ入力信号１０１、３０１は、基準位置における音場の複数の異なる到来方向に対する複数のチャネル（又は波形）を含む。

ＳＲ信号、特にＳＲ入力信号１０１、３０１は、Ｌ次アンビソニック信号を含む可能性があり、Ｌは１以上である。代替的又は追加的に、ＳＲ信号、特にＳＲ入力信号１０１、３０１は、複数の到来方向が基準位置を中心とする球における複数の異なるリングに配置される蜂の巣（ｂｅｅｈｉｖｅ：ＢＨ）フォーマットを示す可能性がある。複数のリングは、中央リング、上リング、下リング、及び／又は天頂を含む可能性がある。代替的又は追加的に、ＳＲ信号、特にＳＲ入力信号１０１、３０１は、ＩＳＦと呼ばれる中間空間フォーマット、特にドルビー・アトモス技術で定義されるようなＩＳＦフォーマットを示す可能性がある。本願で説明されるように、ＩＳＦフォーマットはＢＨフォーマットの特殊なケースとして考えられる。

従って、ＳＲ入力信号１０１、３０３の複数のチャネルの複数の異なる指向性パターンは、基準位置を中心とする球の複数の異なるリングに配置される可能性があり、異なるリングは異なる仰角を示す。上述のように、異なるリングは、中央リング、上リング、下リング及び／又は天頂を含む可能性がある。同じリング上の異なる到来方向は、典型的には、異なる方位角を示し、同じリング上の異なる到来方向は、リングで均一に分散されている可能性がある。これは、例えば、ＢＨフォーマット及び／又はＩＳＦフォーマットに従ったＳＲ信号の場合である。

ＳＲ入力信号１０１、３０３の各チャネルは、典型的には、フレームのシーケンスに対する時点のシーケンスに対するオーディオ・サンプルのシーケンスを含む。言い換えれば、本願で説明される「信号」は、典型的には、（例えば、２０ｍｓ以下の時間的な隔たりにおけるものである）時点又はフレームの対応するシーケンスに対するオーディオ・サンプルのシーケンスを含む。

方法４００は、ＳＲ入力信号１０１、３０１から１つ以上のオーディオ・オブジェクト１０３、３０３を抽出するステップを含む。オーディオ・オブジェクト１０３、３０３は、典型的には、オブジェクト信号６０１（時点又はフレームの対応するシーケンスに対するオーディオ・サンプルのシーケンスを有する）を含む。更に、オーディオ・オブジェクト１０３、３０３は、典型的には、オーディオ・オブジェクト１０３、３０３の位置を示すオブジェクト・メタデータ６０２を含む。オーディオ・オブジェクト１０３、３０３の位置は、時間の経過に伴って変化する可能性があり、その結果、オーディオ・オブジェクト１０３、３０３のオブジェクト・メタデータ６０２は、時点又はフレームのシーケンスに対する位置のシーケンスを示す可能性がある。

更に、本方法４００は、ＳＲ入力信号１０１、３０１に基づいて、及び１つ以上のオーディオ・オブジェクト１０３、３０３に基づいて、残留信号１０２、３０２を決定するステップを含む。残留信号１０２、３０２は、オリジナル音場であって、１つ以上のオーディオ・オブジェクト１０３、３０３がそこから抽出及び／又は除去されているオリジナル音場を記述することが可能である。残留信号１０２、３０２は、ＳＲ信号（例えば、ＢＨ及び／又はＩＳＦフォーマットを使用するＳＲ信号及び／又はＬ次アンビソニック信号、特にＬ＝１）である可能性がある。代替的又は追加的に、残留信号１０２、３０２は、マルチ・チャネル・オーディオ信号及び／又はオーディオ信号のベッドを含んでもよいし、又はそれらであってもよい。代替的又は追加的に、残留信号１０２、３０２は、固定されたオブジェクトのロケーション及び／又はポジションにおける複数のオーディオ・オブジェクト（例えば、所定のスピーカ配置のうちの特定のスピーカに割り当てられたオーディオ・オブジェクト）を含む可能性がある。

方法４００は、複数の異なるサブバンドに対して複数のＳＲサブバンド信号を提供するために、ＳＲ入力信号１０１、３０１を、サブバンド・ドメイン、特にＱＭＦドメイン又はＦＦＴベースの変換ドメインに変換するステップを含む可能性がある。特に、ｍ個の異なるサブバンドが考慮されてもよく、例えばｍは１０、１５、２０又はそれ以上に等しい。従って、ＳＲ入力信号１０１、３０１のサブバンド分析が実行されてもよい。サブバンドは不均一な幅及び／又は間隔を示す可能性がある。特に、サブバンドは、一様な時間−周波数変換から導出されるグループ化されたサブバンドに対応する可能性がある。グループ化は、バーク・スケールのような知覚スケールを使用して実行されていてもよい。

更に、本方法４００は、対応する複数のＳＲサブバンド信号に対する複数の支配的な到来方向を決定するステップを含む可能性がある。特に、支配的なＤＯＡは、各サブバンドに対して決定される可能性がある。サブバンドのための支配的ＤＯＡは、（他のすべての可能な方向と比較して）最も高いエネルギを有するＤＯＡとして決定される可能性がある。方法４００は、複数の主要な到着方向を、ｎ個のクラスタ化された到来方向に分類するステップを更に含む可能性がある（ｎ＞０、特に、ｎ＝２以上）。クラスタリングは、既知のクラスタリング・アルゴリズムを使用して実行される可能性がある。

次に、ｎ個のオーディオ・オブジェクト１０３、３０３が、ｎ個のクラスタ化された到来方向に基づいて抽出されることが可能である。従って、ＳＲ入力信号１０１、３０１のサブバンド分析は、ＳＲ入力信号１０１、３０１のｎ個のクラスタ化された（支配的な）到来方向を決定ために実行される可能性があり、ここで、ｎ個のクラスタ化されたＤＯＡは、ＳＲ入力信号１０１、３０１によって表現されるオリジナル音場のうちのｎ個の支配的なオーディオ・オブジェクト１０３、３０３を示す。

方法４００は、ｎ個のオーディオ・オブジェクト１０３、３０３に対するオブジェクト信号６０１を決定するために、ＳＲ入力信号１０１、３０１を、ｎ個のクラスタ化された到来方向にマッピングするステップを更に含む可能性がある。一例として、ＳＲ入力信号１０１、３０１の異なるチャネルは、ｎ個のクラスタ化された到来方向に投影されてもよい。ｎ個のオブジェクトの各々について、オブジェクト信号６０１は、対応する到来方向で音場を示す信号を抽出するように、ＳＲ入力信号のチャネルをミキシングすることによって導出されることが可能である。更に、ｎ個のオーディオ・オブジェクト１０３、３０３に対するオブジェクト・メタデータ６０２は、それぞれｎ個のクラスタ化された到来方向を使用して決定されることが可能である。

更に、本方法４００は、複数のサブバンドの各々に対して、ｎ個のオーディオ・オブジェクト１０３、３０３のオブジェクト信号６０１に対するサブバンド信号を、ＳＲサブバンド信号から差し引いて、複数のサブバンドに対する複数の残留サブバンド信号を提供するステップを含む可能性がある。そして、残留信号１０２、３０２は、複数の残留サブバンド信号に基づいて決定される可能性がある。従って、残留信号１０２、３０２は、サブバンド内で、特にＱＭＦ又はＦＦＴベースの変換ドメイン内で正確に決定されることが可能である。

更に、この方法４００は、１つ以上のオーディオ・オブジェクト１０３、３０３に基づいて、及び残留信号１０２、３０２に基づいて、ビットストリーム７０１を生成するステップを含む。ビットストリーム７０１は、オブジェクト・ベースの符号化システム７００のシンタックスを使用する可能性がある。特に、ビットストリーム７０１は、ＡＣ−４シンタックスを使用する可能性がある。

このように、特にオブジェクト・ベースの符号化方式を使用して、ＳＲ入力信号１０１、３０１のビットレート効率の良い伝送及び高品質の符号化を可能にする方法４００が説明されている。

方法４００は、残留データを提供するために、残留信号１０２、３０２の波形符号化するステップを含む可能性がある。ビットストリーム７０１は、残留データに基づいてビットレート効率の良い方法で生成されることが可能である。

方法４００は、１つ以上のオーディオ・オブジェクト１０３、３０３、及び／又は残留信号１０２、３０２のジョイント符号化を含む可能性がある。特に、１つ以上のオーディオ・オブジェクト１０３、３０３のオブジェクト信号６０１は、残留信号１０２、３０２の１つ以上のチャネルと一緒に符号化される可能性がある。この目的のために、ジョイント・オブジェクト符号化（ＪＯＣ）、特にＡ‐ＪＯＣが使用される可能性がある。１つ以上のオーディオ・オブジェクト１０３、３０３のオブジェクト信号６０１と、残留信号１０２、３０２の１つ以上のチャネルとのジョイント符号化は、異なる信号間の相関を利用することを含み、及び／又は異なる信号を、あるダウンミックス信号にダウンミックスすることを含む可能性がある。更に、ジョイント符号化はジョイント符号化パラメータを提供することを含む可能性があり、ジョイント符号化パラメータは、ダウンミックス信号を、１つ以上のオーディオ・オブジェクト１０３、３０３のオブジェクト信号６０１と残留信号１０２、３０２の１つ以上のチャネルとの近似にアップミックスすることを可能にし得る。ビットストリーム７０１は、ジョイント符号化に関連して生成されるデータ、特にＪＯＣの状況で生成されるデータを含む可能性がある。特に、ビットストリーム７０１は、ダウンミックス信号に関するジョイント符号化パラメータ及び／又はデータを含む可能性がある。１つ以上のオーディオ・オブジェクト１０３、３０３、及び／又は残留信号１０２、３０２のジョイント符号化を実行することによって、符号化方式のビットレート効率及び近く品質が改善される可能性がある。

１つ以上のオーディオ・オブジェクト１０３、３０３、及び／又は残留信号１０２、３０２のジョイント符号化は、ダウンミックス信号から、チャネル数及び／又はオブジェクト数が増加した信号への、パラメータ制御された時間及び／又は周波数依存性のアップミキシングとして考えることが可能である。ダウンミックス信号は、（例えば、図３に関連して説明されるような）ＳＲダウンミックス信号３０４及び／又は（例えば、図１に関連して説明されるような）ＳＲ入力信号１０１であってもよい。アップミキシング・プロセスは、ジョイント符号化パラメータ、特にＪＯＣパラメータによって制御される可能性がある。

方法４００の文脈において、複数のオーディオ・オブジェクト１０３、３０３（特に、ｎ＝２、３又はそれ以上のオーディオ・オブジェクト１０３、３０３）が抽出される可能性がある。方法４００は、複数のオーディオ・オブジェクト１０３、３０３においてジョイント・オブジェクト符号化（ＪＯＣ）、特にＡ−ＪＯＣを実行することを含む可能性がある。次いで、ビットストリーム７０１は、複数のオーディオ・オブジェクト１０３、３０３のジョイント・オブジェクト符号化に関連して生成されたデータに基づいて、特にビットレート効率の良い方法で生成される可能性がある。

特に、方法４００は、ＳＲ入力信号１０１、３０１に基づいてダウンミックス信号１０１、３０４を生成及び／又は提供するステップを含む可能性がある。ダウンミックス信号１０１、３０４のチャネル数は、典型的には、ＳＲ入力信号１０１、３０１のチャネル数よりも少ない。更に、本方法４００は、ジョイント符号化パラメータ１０５、３０５、特にＪＯＣパラメータを決定するステップを含む可能性があり、これは、ダウンミックス信号１０１、３０１の、対応する１つ以上のオーディオ・オブジェクト１０３、３０３に対する１つ以上の再構成されたオーディオ・オブジェクト２０６のオブジェクト信号６０１へのアップミキシングを可能にする。更に、ジョイント符号化パラメータ１０５、３０５、特にＪＯＣパラメータは、ダウンミックス信号１０１、３０１の、対応する残留信号１０２、３０２に対する再構成された残留信号２０５へのアップミキシングを可能にし得る。

ジョイント符号化パラメータ、特にＪＯＣパラメータは、アップミックス・データ、特にアップミックス・マトリクスを含む可能性があり、これは、ダウンミックス信号１０１、３０４の、１つ以上の再構成されたオーディオ・オブジェクト２０６に対するオブジェクト信号６０１への、及び／又は再構成された残留信号２０５へのアップミキシングを可能にする。代替的に又は追加的に、ジョイント符号化パラメータ、特にＪＯＣパラメータは、残留信号１０２、３０２の及び／又は１つ以上のオーディオ・オブジェクト１０３、３０３のオブジェクト信号６０１の共分散の再構成を可能にするデコリレーション・データを含む可能性がある。

ジョイント符号化、特にジョイント・オブジェクト符号化のために、１つ以上のオーディオ・オブジェクト１０３、３０３のオブジェクト信号６０１は、各オブジェクト信号６０１に対して複数のサブバンド信号を提供するために、サブバンド・ドメインへ、特にＱＭＦドメイン又はＦＦＴベースの変換ドメインへ変換される可能性がある。更に、残留信号１０２、３０２は、サブバンド・ドメインへ変換されることが可能である。次いで、ジョイント符号化パラメータ１０５、３０５、特にＪＯＣパラメータは、１つ以上のオブジェクト信号６０１及び／又は残留信号１０２、３０２のサブバンド信号に基づいて、正確に決定されることが可能である。従って、周波数変動ジョイント符号化パラメータ１０５、３０５、特にＪＯＣパラメータは、ダウンミックス信号１０１、３０４に基づいて、残留信号１０２、３０２の及び／又は１つ以上のオブジェクト１０３、３０３のオブジェクト信号６０１の正確な再構成を可能にするために決定される可能性がある。

ビットストリーム７０１は、ダウンミックス信号１０１、３０４に基づいて、及び／又はジョイント符号化パラメータ１０５、３０５、特にＪＯＣパラメータに基づいて生成される可能性がある。特に、方法４００は、ダウンミックス・データを提供するためにダウンミックス信号１０１、３０４の波形符号化を行うステップを含んでもよく、ビットストリーム７０１は、ダウンミックス・データに基づいて生成されてもよい。

方法４００は、ＳＲ入力信号３０１を、ＳＲダウンミックス信号３０４（上述のダウンミックス信号１０１、３０４であってもよい）へダウンミックスするステップを含む可能性がある。ダウンミキシングは、特にＨＯＡ入力信号３０１、即ちＬ次アンビソニック信号（Ｌ＞１）を処理する際に使用される可能性がある。ＳＲ入力信号３０１をダウンミックスすることは、ＳＲダウンミックス信号３０４に対するＳＲ入力信号３０１の複数のチャネルのサブセットを選択するステップを含む可能性がある。特に、ＳＲダウンミックス信号３０４が、ＳＲ入力信号３０１の次数Ｌよりも低い次数のアンビソニック信号であるように、チャネルのサブセットが選択されてもよい。ビットストリーム７０１は、ＳＲダウンミックス信号３０４に基づいて生成されてもよい。特に、ＳＲダウンミックス信号３０４を記述するＳＲダウンミックス・データは、ビットストリーム７０１に含められてもよい。ＳＲ入力信号３０１のダウンミックスを実行することによって、符号化方式のビットレート効率は改善される可能性がある。

残留信号１０２、３０２は、１つ以上のオーディオ・オブジェクト１０３、３０３に基づいて決定されてもよい。特に、残留信号１０２、３０２は、１つ以上のオーディオ・オブジェクト１０３、３０３を、ＳＲ入力信号３０１、３０３から減算及び／又は除去することによって決定されてもよい。この結果として、残留信号１０２、３０２が提供され、対応するデコーダ２００において、ＳＲ入力信号３０１、３０３の改良された再構成が可能になる。

ジョイント符号化パラメータ１０５、３０５、特にＪＯＣパラメータは、ＳＲダウンミックス信号３０４の、１つ以上のオーディオ・オブジェクト１０３、３０３のオブジェクト信号６０１への、及び残留信号１０２、３０２へのアップミキシングを可能にするために決定される可能性がある。換言すれば、１つ以上のオーディオ・オブジェクト１０３、３０３のオブジェクト信号６０１及び残留信号１０２、３０２は、ジョイント符号化パラメータ１０５、３０５、特にＪＯＣパラメータによって定義されるアップミキシング処理を使用して、ＳＲダウンミックス信号３０４（単独）から取得できるマルチ・チャネル・アップミックス信号として（組み合わせて）考えることが可能である。ジョイント符号化パラメータ１０５、３０５、特にＪＯＣパラメータは、典型的には、時間変動及び／又は周波数変動するものである。デコーダ２００は、ＳＲダウンミックス信号３０４及びジョイント符号化パラメータ１０５、３０５、特にＪＯＣパラメータに関連する、ビットストリーム７０１からのデータ（のみ）を使用して、１つ以上のオブジェクト１０３、３０３のオブジェクト信号６０１及び残留信号１０２、３０２を再構成することが可能である。

ビットストリーム７０１は、ＳＲダウンミックス信号３０４、ジョイント符号化又はＪＯＣパラメータ１０５、３０５、及び１つ以上のオブジェクト１０３、３０３のオブジェクト・メタデータ６０２に関するデータを含む可能性がある。このデータは、デコーダ２００が１つ以上のオーディオ・オブジェクト１０３、３０３及び残留信号１０２、３０２を再構成するのに十分である可能性がある。

方法４００は、フォーマット（例えば、ＢＨフォーマット及び／又はＩＳＦフォーマット）及び／又はＳＲ入力信号１０１、３０１のチャネル数を示すＳＲメタデータ２０１を、ビットストリーム７０１に挿入するステップを含む可能性がある。これを実行することによって、対応するデコーダ２００におけるＳＲ入力信号３０１、３０３の改良された再構成が可能となる。

図５は、基準位置における音場を表す音場表現（ＳＲ）入力信号１０１、３０１を示すビットストリーム７０１をデコードするための例示的な方法５００のフローチャートを示す。ＳＲ入力信号１０１、３０１は、基準位置での音場の複数の異なる到来方向に対応する複数のチャネルを含む。エンコーディング方法４００に関連して、及び／又はエンコーディング・デバイス１００、３００に関連して説明される態様及び／又は特徴はまた、デコーディング方法５００、及び／又はデコーディング・デバイス２００に対して、同様な及び／又は相補的な方法で適用可能である（及びその逆も成り立つ）。

方法５００は、１つ以上の再構成されたオーディオ・オブジェクト２０６をビットストリーム７０１から導出するステップを含む可能性がある。上述したように、オーディオ・オブジェクト２０６は、典型的には、オーディオ・オブジェクト２０６の（時間変動する）位置を示すオブジェクト・メタデータ６０２及びオブジェクト信号６０１を含む。更に、本方法５００は、再構成された残留信号２０５をビットストリーム７０１から導出するステップを含む。１つ以上の再構成されたオーディオ・オブジェクト２０６及び再構成された残留信号２０５は、ＳＲ入力信号１０１、３０１を記述し、及び／又は示す可能性がある。特に、データはビットストリーム７０１から抽出されることが可能であり、これは再構成されたＳＲ信号２５１の決定を可能にし、再構成されたＳＲ信号２５１は、オリジナル入力ＳＲ信号１０１、３０１の近似である。

更に、本方法は、ＳＲ入力信号１０１、３０１のフォーマット及び／又はチャネル数を示す５０３のＳＲメタデータ２０１を、ビットストリーム７０１から導出するステップを含む。ＳＲメタデータ２０１を抽出することによって、再構成されたＳＲ信号２５１は、正確な方法で生成される可能性がある。

本方法５００は、１つ以上の再構築されたオーディオ・オブジェクト２０６に基づいて、再構築された残留信号２０５に基づいて、及びＳＲメタデータ２０１に基づいて、ＳＲ入力信号１０１、３０１の再構築されたＳＲ信号２５１を決定するステップを更に含む可能性がある。この目的のために、１つ以上の再構成されたオーディオ・オブジェクト２０６のオブジェクト信号６０１は、サブバンド・ドメイン、特にＱＭＦドメイン又はＦＦＴベースの変換ドメインに変換されてもよく、又はそのドメイン内で処理される可能性がある。更に、再構成された残留信号２０５は、サブバンド・ドメインに変換されてもよく、又はサブバンド・ドメイン内で処理される可能性がある。次いで、ＳＲ入力信号１０１、３０１の再構成されたＳＲ信号２５１は、サブバンド・ドメイン内の再構成された残留信号２０５の及びオブジェクト信号６０１のサブバンド信号に基づいて、正確に決定される可能性がある。

ビットストリーム７０１は、再構成されたダウンミックス信号２０３を示すダウンミックス・データを含んでもよい。更に、ビットストリーム７０１は、ジョイント符号化又はＪＯＣパラメータ２０４を含んでもよい。方法５００は、再構成されたダウンミックス信号２０３を、ジョイント符号化又はＪＯＣパラメータ２０４を用いてアップミックスし、１つ以上の再構成されたオーディオ・オブジェクト２０６のオブジェクト信号６０１を提供すること、及び／又は再構成された残留信号２０５を提供することを含む可能性がある。従って、再構成されたオーディオ・オブジェクト２０６及び／又は残留信号２０５は、ジョイント符号化又はＪＯＣ、特にＡ−ＪＯＣを使用して、ビットレート効率の良い方法で提供される可能性がある。

ジョイント・オーディオ符号化の状況において、方法５００は、複数のダウンミックス・サブバンド信号２０３を提供するために、再構成されたダウンミックス信号２０３を、サブバンド・ドメイン、特にＱＭＦドメイン又はＦＦＴベースの変換ドメインに変換するステップを含む可能性がある。代替的に、再構成されたダウンミックス信号２０３は、サブバンド・ドメイン内で直接的に処理されてもよい。複数の再構成されたオーディオ・オブジェクト２０６を提供するために、ＪＯＣパラメータ２０４を用いる複数のダウンミックス・サブバンド信号２０３のアップミキシングが実行される可能性がある。従って、ジョイント・オブジェクト・デコーディングは、サブバンド・ドメインで実行される可能性があり、それによってビットレートに関するジョイント・オブジェクト符号化のパフォーマンス及び知覚品質を増加させる。

再構成された残留信号２０５は、ＳＲ入力信号１０１、３０１の再構成されたＳＲ信号２５１よりも少ないチャネルを含むＳＲ信号である可能性がある。代替的又は追加的に、ビットストリーム７０１は、ＳＲダウンミックス信号３０４を示すデータを含む可能性があり、ＳＲダウンミックス信号３０４は、再構成されたＳＲ信号２５１と比較して、減少した数のチャネルを含む。データは、ＳＲダウンミックス信号３０４に対応する再構成されたＳＲダウンミックス信号３０４を生成するために使用される可能性がある。

方法５００は、再構成された残留信号２０５及び／又は再構成されたＳＲダウンミックス信号を、再構成されたＳＲ信号２５１のチャネル数までアップミキシングするステップを含む可能性がある。更に、１つ以上の再構成されたオーディオ・オブジェクト２０６のオブジェクト・メタデータ６０２を使用して、１つ以上の再構成されたオーディオ・オブジェクト２０６は、再構成されたＳＲ信号２５１のチャネルにマッピングされてもよい。この結果として、再構成されたＳＲ信号２５１が生成されることが可能であり、これは正確な方法でオリジナルＳＲ入力信号１０１、３０１を近似する。

ビットストリーム７０１は、再構成された残留信号２０５及び／又は再構成されたＳＲダウンミックス信号２０３を示す波形符号化データを含む可能性がある。方法５００は、再構成された残留信号２０５及び／又は再構成されたＳＲダウンミックス信号２０３を提供するために、波形符号化データの波形復号化を含む可能性がある。

更に、方法５００は、１つ以上のレンダー６００を使用して、１つ以上の再構成されたオーディオ・オブジェクト２０６及び／又は再構成された残留信号２０５及び／又は再構成されたＳＲ信号２５１をレンダリングするステップを含む可能性がある。代替的又は追加的に、再構成されたＳＲダウンミックス信号２０３は、特に効率的な方法でレンダリングされる可能性がある。

更に、基準位置における音場を記述する音場表現（ＳＲ）入力信号１０１、３０１をエンコードするように構成されるエンコーディング・デバイス１００、３００が説明されている。ＳＲ入力信号１０１、３０１は、基準位置における音場の複数の異なる指向性パターンに対する複数のチャネルを含む。

エンコーディング・デバイス１００、３００は、１つ以上のオーディオ・オブジェクト１０３、３０３を、ＳＲ入力信号１０１、３０１から抽出するように構成される。更に、エンコーディング・デバイス１００、３００は、ＳＲ入力信号１０１、３０１に基づいて、及び１つ以上のオーディオ・オブジェクト１０３、３０３に基づいて、残留信号１０２、３０２を決定するように構成される。更に、エンコーディング・デバイス１００、３００は、１つ以上のオーディオ・オブジェクト１０３、３０３に基づいて、及び残留信号１０２、３０２に基づいて、ビットストリーム７０１を生成するように構成される。

更に、基準位置における音場を記述する音場表現（ＳＲ）入力信号１０１、３０１を示すビットストリーム７０１を復号するように構成されるデコーディング・デバイス２００が説明されている。ＳＲ入力信号１０１、３０１は、基準位置における音場の複数の異なる指向性パターンに対する複数のチャネルを含む。

デコーディング・デバイス２００は、１つ以上の再構成されたオーディオ・オブジェクト２０６をビットストリーム７０１から導出し、再構成された残留信号２０５をビットストリーム７０１から導出するように構成される。更に、デコーディング・デバイス２００は、ＳＲ入力信号１０１、３０１のフォーマット及び／又はチャネル数を示すＳＲメタデータ２０１をビットストリーム７０１から導出するように構成される。

本願で説明されるエンコーダ／デコーダ（例えば、デコーディング・モジュール２１０及び／又はエンコーディング・ユニット１００及び３００）は、ＡＣ−４規格、ＭＰＥＧＡＡＣ規格、ＥＶＳ（ｔｈｅＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅｓ）規格、ＨＥ−ＡＡＣ規格等の規格の現行の及び将来のバージョンの規格に準拠し、高次アンビソニック（ＨＯＡ）コンテンツを含むアンビソニック・コンテンツをサポートすることができる。

以下、エンコーディング方法４００及び／又はデコーディング方法５００に関する具体例（ＥＥ）を列挙して説明する。

ＥＥ１．オーディオ信号１０１，１０３の音場表現をエンコードする方法４００が説明される。方法４００は：
音声信号１０１，１０３の音場表現を受信するステップ；
音場表現に基づいてｎ個のオブジェクト１０３，３０３を決定するステップ；
音場表現に基づいて空間残差１０２，３０３を決定するステップ；
Ａ−ＪＯＣパラメータ１０５，３０５を決定するために、Ａ−ＪＯＣエンコーダ１２０，３３０を利用して、ｎ個のオブジェクト１０３，３０３及び空間残差１０２，３０２をエンコードするステップ；
エンコードされたＡ−ＪＯＣパラメータ１０５，３０５をビットストリーム７０１で出力するステップを含む。

ＥＥ２．ＥＥ１に記載の方法４００において、音場のフォーマットは、ＩＳＦ、Ｂ−フォーマット、又はＨＯＡのうちの１つである。

ＥＥ３．ＥＥ１に記載の方法４００において、音場表現のフォーマットは（例えば、ＳＲメタデータ２０１を利用して）デコーダにシグナリングされる。

ＥＥ４．ＥＥ１に記載の方法４００において、フォーマットがＬ次ＨＯＡ（Ｌ＞１）のものである場合に、エンコーダ１００，３００は、Ｌ次ＨＯＡをＢ−フォーマット・アンビソニックにダウンミックスし、ダウンミックスされたＢ−フォーマット・アンビソニックを、符号化のためにＡ−ＪＯＣエンコーダ３３０に提供するダウンミックス・モジュール３１０を更に含む。

ＥＥ５．ＥＥ１に記載の方法４００において、Ｌ次＝３次である。

ＥＥ６．ＥＥ１に記載の方法４００において、ｎ＝２である。

ＥＥ７．ＥＥ１に記載の方法４００において、空間残差１０２，３０２のフォーマットは、ＩＳＦ、Ｂ−フォーマット、ＨＯＡ、又は４．ｘ．２．２ベッドのうちの１つである。

ＥＥ８．ＥＥ１に記載の方法４００において、空間残差１０２，３０２のフォーマットは、Ｂ−フォーマットである。

ＥＥ９．ＥＥ１に記載の方法４００において、オブジェクト抽出は：
ｍ個のサブバンドでオーディオを分析し、各サブバンドで支配的な到来方向を決定すること；
サブバンドの結果を、オブジェクト位置となるｎ個の支配的な方向を決定するためにクラスタリングすること；
各サブバンドにおいて、信号１０１，３０１のコンポーネントを各オブジェクト１０３，３０３に転じること（残差Ｂ−フォーマット・コンポーネントは、静的／オブジェクト／ベッド／ＳＴＦストリームとして受け渡される）を含む。

ＥＥ１０．ＥＥ９に記載の方法４００において、ｍ＝１９及びｎ＝２である。

ＥＥ１１．エンコードされたオーディオ・ストリーム７０１をデコードする方法５００であって：
オリジナル・オーディオ１０１，３０１は音場表現である旨の指示２０１と共に符号化オーディオ・ストリーム７０１を受信するステップ；
ダウンミックス信号２０３を決定するために、符号化オーディオ・ストリーム７０１をコア・デコードするステップ；
空間残差２０５及びｎ個のオブジェクト２０６を決定するために、ダウンミックス信号２０３をＡ−ＪＯＣデコードするステップ；及び
オーディオ再生のために空間残差２０５及びｎ個のオブジェクト２０６をレンダリングするステップを含む方法。

ＥＥ１２．ＥＥ１１に記載の方法５００において、ダウンミックス信号２０３のフォーマットの指示２０１を受信することを更に含む。

ＥＥ１３．ＥＥ１１に記載の方法５００において、ダウンリンク信号２０３のフォーマットは、Ｂ−フォーマット、ＩＳＦ、及び４．ｘ．２．２ベッド・フォーマットのうちの１つである。

ＥＥ１４．符号化オーディオ・ストリーム７０１はＬ次ＨＯＡフォーマットである旨の指示２０１に基づいて、コア・デコーディングは、Ｌ次ＨＯＡをＢ−フォーマット・アンビソニック表現にダウンミキシングすることを含む。

ＥＥ１５．ＥＥ１１に記載の方法５００において、前記オリジナル・オーディオ信号１０１，３０１のフォーマットの指示２０１を受信するステップを更に含む。

ＥＥ１６．ＥＥ１５に記載の方法５００において、フォーマットは３次ＨＯＡフォーマットである。

ＥＥ１７．ＥＥ１５に記載の方法５００において、オリジナル・オーディオ信号１０１，３０１のフォーマットの指示は、信号がＨＯＡオーディオ信号であることを示し、デコーディングは、ＨＯＡメタデータ２０１、空間残差２０５、及びｎ個のオブジェクト２０６に基づいてＨＯＡ信号２５１を決定するＨＯＡ出力段２５０を更に含む。

ＥＥ１８．ＥＥ１７に記載の方法５００において、ＨＯＡメタデータ２０１は、オリジナル・オーディオ信号１０１，３０１のＨＯＡ次数を示す。

ＥＥ１９．ＥＥ１１に記載の方法５００において、オブジェクト数ｎの指示２０１を受信するステップを更に含む。

ＥＥ２０．ＥＥ１１に記載の方法５００において、ｎ＝２である。

ＥＥ２１．ＥＥ１１に記載の方法５００において、空間残差２０５のフォーマットの指示２０１を受信するステップを更に含む。

ＥＥ２２．ＥＥ１１に記載の方法５００において、空間残差２０５のフォーマットは、２次ＨＯＡ、Ｂ−フォーマット・アンビソニック、ＩＳＦフォーマット（例えば、ＢＨ３．１．０．０）、及び４．ｘ．２．２ベッドのうちの１つである。

ＥＥ２３．ＥＥ１１に記載の方法５００において、レンダリングは、ヘッドフォン・レンダリング、スピーカ・レンダリングのうちの１つを含む。

本発明の種々の例示的な実施形態は、ハードウェア又は専用回路、ソフトウェア、ロジック、又はそれらの任意の組み合わせで実装される可能性がある。一部の態様はハードウェアで実装される可能性があり、別の態様はコントローラ、マイクロプロセッサ、又は他のコンピューティング・デバイスによって実行される可能性があるファームウェア又はソフトウェアで実装される可能性がある。一般に、本開示はまた、上述の方法を実行するのに適した装置、例えば、メモリとメモリに結合されたプロセッサとを有する装置（空間レンダラ）を包含し、プロセッサは、命令を実行するように、及び本開示の実施形態に従って方法を実行するように構成される。

本発明の例示的な実施形態の様々な態様が、ブロック図、フローチャートとして、又は何らかの他の図示式的な表現を用いて図示され説明されているが、本願で説明されるブロック、装置、システム、技術、又は方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路、又はロジック、汎用ハードウェア又はコントローラ、又は他のコンピューティング・デバイス、又はそれらの何らかの組み合わせにおいて、実施されてもよいことが理解されるであろう。

更に、フローチャートに示される種々のブロックは、方法ステップとして、及び／又はコンピュータ・プログラム・コードの動作から生じる動作として、及び／又は関連する機能を実行するように構成された複数の結合された論理回路素子として考えることが可能である。例えば、本発明の実施形態は、機械読み取り可能な媒体に実体的に組み込まれたコンピュータ・プログラムを含むコンピュータ・プログラム製品を含み、このコンピュータ・プログラムは、上述の方法を実行するように構成されたプログラム・コードを含む。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって、又はそれに関連して使用するためのプログラムを含む、又は記憶する可能性のある任意の有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体である可能性がある。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、もしくは半導体システム、装置、もしくはデバイス、又は前述の任意の適切な組み合わせを含む可能性があるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ以上のワイヤを有する電気接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュ・メモリ）、光ファイバ、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光記憶装置、磁気記憶装置、又はこれらの適切な任意の組み合わせを含む。

本発明の方法を実行するためのコンピュータ・プログラム・コードは、１つ以上のプログラミング言語の任意の組み合わせで書かれる可能性がある。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブル・データ処理装置のプロセッサに提供される可能性があり、プログラム・コードは、コンピュータのプロセッサ又は他のプログラマブル・データ処理装置によって実行されると、フローチャート及び／又はブロック図に示される機能／動作が実行されることを引き起こす。プログラム・コードは、完全にあるコンピュータ上で、部分的にそのコンピュータ上で、スタンド・アローン・ソフトウェア・パッケージとして、部分的にコンピュータ上で、部分的にリモート・コンピュータ上で、又は完全にリモート・コンピュータ又はサーバ上で実行する可能性がある。

更に、動作が特定の順序で示されているが、これは、このような動作が、図示された特定の順序で又はその順番で実行されること、又は、所望の結果を達成するために、説明された全ての動作が実行されることを要求するものとして理解されるべきではない。特定の状況下では、マルチタスク及び並列処理が有利である可能性がある。同様に、幾つかの具体的な実施の詳細が上記の議論に含まれているが、これらは、何らかの発明の範囲、又は保護が請求される可能性があるものに関する限定としてではなく、むしろ、特定の発明の特定の実施形態に特化したものであり得る特徴の説明として解釈されるべきである。個々の実施形態の文脈において本明細書で説明される特定の特徴は、単一の実施形態における組み合わせで実施されてもよい。逆に、単一の実施形態の文脈で説明される種々の特徴は、複数の実施形態において別々に、又は任意の適切なサブ・コンビネーションで実施されてもよい。

明細書及び図面は、提案される方法及び装置の原理を単に説明しているに過ぎないことに留意されたい。従って、当業者は、本願で明示的には記載も又は図示もされていないが、本発明の原理を具体化し、その精神及び範囲内に含まれる種々の構成を案出することが可能であることが理解されるであろう。更に、本願で説明される全ての具体例は、主として、提案された方法及び装置の原理、ならびに技術を進歩させるために発明者が貢献した概念を理解する際に読者を支援するための教育的な目的のみを意図するものであり、本発明はこのように具体的に記載された実施例及び条件に限定することなく解釈されるべきである。更に、本発明の原理、態様、及び実施形態、並びにそれらの特定の具体例を記載する本願の全ての記述は、それらの均等物を包含するように意図されている。

Claims

基準位置における音場を記述する音場表現（ＳＲ）入力信号をエンコードする方法であって、前記ＳＲ入力信号は前記基準位置における前記音場の複数の異なる指向性パターンに対する複数のチャネルを含み、前記方法は：
１つ以上のオーディオ・オブジェクトを前記ＳＲ入力信号から抽出するステップであって、オーディオ・オブジェクトは、オブジェクト信号と、前記オーディオ・オブジェクトの位置を示すオブジェクト・メタデータとを含む、ステップ；
前記ＳＲ入力信号に基づいて及び前記１つ以上のオーディオ・オブジェクトに基づいて残留信号を決定するステップ；
前記ＳＲ入力信号をＳＲダウンミックス信号にダウンミキシングするステップ；
前記ＳＲダウンミックス信号を、前記１つ以上のオーディオ・オブジェクトに対応する１つ以上の再構成されたオーディオ・オブジェクトに対して、及び前記残留信号に対応する再構成された残留信号に対してアップミキシングすることを可能にするジョイント・オブジェクト符号化パラメータを決定するために前記１つ以上のオーディオ・オブジェクト及び前記残留信号のジョイント・オブジェクト符号化を実行するステップ；及び
前記ＳＲダウンミックス信号及び前記ジョイント・オブジェクト符号化パラメータに基づいてビットストリームを生成するステップ；
を含み、前記方法は、前記ＳＲ入力信号のチャネル数及び／又はフォーマットを示すＳＲメタデータを前記ビットストリームに挿入するステップを含む方法。
前記方法は、ダウンミックス・データを提供するために、前記ダウンミックス信号を波形符号化するステップを含み；及び
前記ビットストリームは前記ダウンミックス・データに基づいて生成される、請求項１に記載の方法。
ＪＯＣパラメータである前記ジョイント符号化パラメータは：
１つ以上の再構成されたオーディオ・オブジェクトに対する、及び前記再構成された残留信号に対する、前記ダウンミックス信号のアップミックスを可能にするアップミックス・マトリクスであるアップミックス・データ；及び／又は
前記１つ以上のオーディオ・オブジェクトの及び前記残留信号の共分散の再構成を可能にするデコリレーション・データ；
を含む、請求項１又は請求項２に記載の方法。
前記方法は：
各々のオブジェクト信号に対する複数のサブバンド信号を提供するために、前記１つ以上のオーディオ・オブジェクトの前記オブジェクト信号を、ＱＭＦドメイン又はＦＦＴベースの変換ドメインであるサブバンド・ドメインへ変換するステップ；及び
前記複数のオブジェクト信号の前記サブバンド信号に基づいて、ＪＯＣパラメータである前記ジョイント符号化パラメータを決定するステップ；
を含む請求項１〜３のうちの何れか１項に記載の方法。
前記残留信号はマルチ・チャネル・オーディオ信号及び／又はオーディオ信号のベッドを含み；及び／又は
前記残留信号は固定されたオブジェクト位置における複数のオーディオ・オブジェクトを含み；及び／又は
前記残留信号は１次アンビソニック信号であるＳＲ信号を含む、請求項１〜４のうちの何れか１項に記載の方法。
前記方法は：
複数の異なるサブバンドに対する複数のＳＲサブバンド信号を提供するために、前記ＳＲ入力信号を、ＱＭＦドメイン又はＦＦＴベースの変換ドメインであるサブバンド・ドメインに変換するステップ；
複数の支配的な到来方向を、対応する複数のＳＲサブバンド信号に対して決定するステップ；
前記複数の支配的な到来信号を、ｎ個のクラスタ化された到来方向にクラスタリングするステップ（ｎ＞０）；
前記ｎ個のクラスタ化された到来方向に基づいてｎ個のオーディオ・オブジェクトを抽出するステップ；
を含む請求項１〜５のうちの何れか１項に記載の方法。
前記方法は：
前記ｎ個のオーディオ・オブジェクトに対する前記オブジェクト信号を決定するために、前記ＳＲ入力信号を前記ｎ個のクラスタ化された到来方向にマッピングするステップ；及び／又は
前記ｎ個のクラスタ化された到来方向を利用して前記ｎ個のオーディオ・オブジェクトに対する前記オブジェクト・メタデータを決定するステップ；
を含む請求項６に記載の方法。
前記方法は：
前記複数のサブバンドに対する複数の残留サブバンド信号を提供するために、前記複数のサブバンドの各々の中で、前記ｎ個のオーディオ・オブジェクトの前記オブジェクト信号に対するサブバンド信号を、前記ＳＲサブバンド信号から減算するステップ；及び
前記複数の残留サブバンド信号に基づいて前記残留信号を決定するステップ；
を含む請求項６又は請求項７に記載の方法。
前記ＳＲ入力信号をダウンミキシングするステップは、前記ＳＲダウンミックス信号に対する前記ＳＲ入力信号の前記複数のチャネルのうちの一部分を選択するステップを含み；及び／又は
前記ＳＲ入力信号はＬ次アンビソニック信号であり（Ｌ＞１）、前記ＳＲダウンミックス信号はＬより低い次数のアンビソニック信号である、請求項１〜８のうちの何れか１項に記載の方法。
前記ＳＲ入力信号の前記複数のチャネルの前記複数の異なる指向性パターンは、前記基準位置を中心とする球の複数の異なるリングに配置され；
前記異なるリングは異なる仰角を示し；
同じリングにおける異なる到来方向は異なる方位角を示し；及び／又は
同じリングにおける異なる到来方向は前記リングで不均一に分散している、請求項１〜９のうちの何れか１項に記載の方法。
前記ＳＲ入力信号であるＳＲ信号はＬ次アンビソニック信号を含み、Ｌは１以上であり；
前記ＳＲ入力信号であるＳＲ信号は、前記複数の指向性パターンが前記基準位置を中心とする複数の異なるリングに配置されている蜂の巣フォーマットを示し；及び／又は
前記ＳＲ入力信号であるＳＲ信号は、中間空間フォーマット（ＩＳＦ）を示す、請求項１〜１０のうちの何れか１項に記載の方法。
前記ＳＲ入力信号の各チャネルは、フレームのシーケンスに対するオーディオ・サンプルのシーケンスを含む、請求項１〜１１のうちの何れか１項に記載の方法。
前記ビットストリームはＡＣ−４シンタックスを利用しており；及び／又は
前記ビットストリームは、ＡＣ−４規格、ＭＰＥＧＡＡＣ規格、エンハンスト・ボイス・サービス（ＥＶＳ）規格、及び／又はＨＥ−ＡＡＣ規格から選択された規格に従う符号化に基づいて生成される、請求項１〜１２のうちの何れか１項に記載の方法。
基準位置における音場を記述する音場表現（ＳＲ）入力信号を表すビットストリームをデコードする方法であって、前記ＳＲ入力信号は前記基準位置における前記音場の複数の異なる指向性パターンに対する複数のチャネルを含み、前記ビットストリームは、再構成されたダウンミックス信号を示すダウンミックス・データと、ジョイント・オブジェクト符号化パラメータとを含み、前記方法は：
１つ以上の再構成されたオーディオ・オブジェクト及び再構成された残留信号を導出するために、前記ジョイント符号化パラメータを利用して、前記再構成されたダウンミックス信号をアップミキシングするステップであって、オーディオ・オブジェクトは、オブジェクト信号と、前記オーディオ・オブジェクトの位置を示すオブジェクト・メタデータとを含む、ステップ；
前記ＳＲ入力信号のチャネル数及び／又はフォーマットを示すＳＲメタデータを前記ビットストリームから導出するステップ；及び
前記１つ以上の再構成されたオーディオ・オブジェクトに基づいて、前記再構成された残留信号に基づいて、及び前記ＳＲメタデータに基づいて、前記ＳＲ入力信号の再構成されたＳＲ信号を決定するステップ；
を含む方法。
前記１つ以上の再構成されたオーディオ・オブジェクトの前記オブジェクト信号を、ＱＭＦドメイン又はＦＦＴベースの変換ドメインであるサブバンド・ドメインへ変換するステップ；
前記再構成された残留信号を前記サブバンド・ドメインへ変換するステップ；及び
前記サブバンド・ドメインの中で前記再構成された残留信号の及び前記オブジェクト信号のサブバンド信号に基づいて、前記ＳＲ入力信号の前記再構成されたＳＲ信号を決定するステップ；
を更に含む請求項１４に記載の方法。
前記方法は：
複数のダウンミックス・サブバンド信号を提供するために、前記再構成されたダウンミックス信号を、ＱＭＦドメイン又はＦＦＴベースの変換ドメインであるサブバンド・ドメインに変換するステップ；及び
前記１つ以上の再構成されたオーディオ・オブジェクト及び／又は前記再構成された残留信号を提供するために、ＪＯＣパラメータである前記ジョイント符号化パラメータを利用して、前記複数のダウンミックス・サブバンド信号をアップミキシングするステップ；
を含む請求項１４又は請求項１５に記載の方法。
前記再構成された残留信号は、前記ＳＲ入力信号の再構成されたＳＲ信号よりも少ないチャネルを含むＳＲ信号であり；及び
前記方法は、前記再構成された残留信号を、前記再構成されたＳＲ信号のチャネル数にアップミキシングするステップを含む、請求項１４〜１６のうちの何れか１項に記載の方法。
前記方法は、導出された前記１つ以上の再構成されたオーディオ・オブジェクト及び／又は前記再構成された残留信号及び／又は再構成されたＳＲ信号をレンダリングするステップを含む、請求項１４〜１７のうちの何れか１項に記載の方法。
前記ビットストリームはＡＣ−４シンタックスを利用しており；及び／又は
前記ビットストリームは、ＡＣ−４規格、ＭＰＥＧＡＡＣ規格、エンハンスト・ボイス・サービス（ＥＶＳ）規格、及び／又はＨＥ−ＡＡＣ規格から選択された規格に従っている、請求項１４〜１８のうちの何れか１項に記載の方法。
基準位置における音場を記述する音場表現（ＳＲ）入力信号をエンコードするように構成されたエンコーディング・デバイスであって、前記ＳＲ入力信号は前記基準位置における前記音場の複数の異なる指向性パターンに対する複数のチャネルを含み、前記エンコーディング・デバイスは：
１つ以上のオーディオ・オブジェクトを前記ＳＲ入力信号から抽出することであって、オーディオ・オブジェクトは、オブジェクト信号と、前記オーディオ・オブジェクトの位置を示すオブジェクト・メタデータとを含む、こと；
前記ＳＲ入力信号に基づいて及び前記１つ以上のオーディオ・オブジェクトに基づいて残留信号を決定すること；
ＳＲ入力信号をＳＲダウンミックス信号にダウンミキシングすること；
前記ＳＲダウンミックス信号を、前記１つ以上のオーディオ・オブジェクトに対応する１つ以上の再構成されたオーディオ・オブジェクトに対して、及び前記残留信号に対応する再構成された残留信号に対してアップミキシングすることを可能にするジョイント・オブジェクト符号化パラメータを決定するために前記１つ以上のオーディオ・オブジェクト及び前記残留信号のジョイント・オブジェクト符号化を実行すること；
前記ＳＲダウンミックス信号及び前記ジョイント・オブジェクト符号化パラメータに基づいてビットストリームを生成することであって、前記ＳＲ入力信号のチャネル数及び／又はフォーマットを示すＳＲメタデータが前記ビットストリームに挿入されている、こと；
を行うように構成されているエンコーディング・デバイス。
基準位置における音場を記述する音場表現（ＳＲ）入力信号を表すビットストリームをデコードするように構成されたデコーディング・デバイスであって、前記ＳＲ入力信号は前記基準位置における前記音場の複数の異なる指向性パターンに対する複数のチャネルを含み、前記ビットストリームは、再構成されたダウンミックス信号を示すダウンミックス・データと、ジョイント・オブジェクト符号化パラメータとを含み、前記デコーディング・デバイスは：
１つ以上の再構成されたオーディオ・オブジェクト及び再構成された残留信号を導出するために、前記ジョイント符号化パラメータを利用して、前記再構成されたダウンミックス信号をアップミキシングすることであって、オーディオ・オブジェクトは、オブジェクト信号と、前記オーディオ・オブジェクトの位置を示すオブジェクト・メタデータとを含む、こと；
前記ＳＲ入力信号のチャネル数及び／又はフォーマットを示すＳＲメタデータを前記ビットストリームから導出すること；及び
前記１つ以上の再構成されたオーディオ・オブジェクトに基づいて、前記再構成された残留信号に基づいて、及び前記ＳＲメタデータに基づいて、前記ＳＲ入力信号の再構成されたＳＲ信号を決定すること；
を行うように構成されているデコーディング・デバイス。