JP5977434B2

JP5977434B2 - パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器

Info

Publication number: JP5977434B2
Application number: JP2015503764A
Authority: JP
Inventors: ダヴィド・ヴィレット; ユエ・ラン; ジャンフェン・シュー
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2012-04-05
Filing date: 2012-04-05
Publication date: 2016-08-24
Anticipated expiration: 2032-04-05
Also published as: CN103493127B; KR101606665B1; ES2560402T3; KR20140139586A; US9324329B2; WO2013149670A1; CN103493127A; EP2702588A1; EP2702588B1; US20140112482A1; JP2015518578A

Description

本発明は、マルチチャネルオーディオ信号のための、パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器に関する。

パラメトリックマルチチャネルオーディオ符号化は、Faller, C., Baumgarte, F.:「Efficient representation of spatial audio using perceptual parametrization」, Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust., October 2001, pp. 199-202.に記載されている。ダウンミックスされたオーディオ信号よりも多くの出力オーディオチャネルを生成するために空間キューを用いて、マルチチャネルオーディオ信号を合成するために、ダウンミックスされたオーディオ信号をアップミックスすることができる。通常、ダウンミックスされたオーディオ信号は、たとえばステレオオーディオ信号などの、マルチチャネルオーディオ信号の複数のオーディオチャネル信号の重畳によって生成される。ダウンミックスされたオーディオ信号は波形が符号化され、空間キューに関連する補助データとともにオーディオビットストリームに入れられる。復号器は、波形が符号化されたオーディオチャネルに基づいてマルチチャネルオーディオ信号を合成するために補助データを使用する。

マルチチャネルオーディオ信号を合成するために使用され得るいくつかの空間キューまたはパラメータがある。第1に、チャネル間レベル差(ILD)が、比較されるべき2つのチャネル上のオーディオ信号のレベル間の差を示す。第2に、チャネル間時間差(ITD)が、人間の聴取者の両耳の間の音の到達時間の差を示す。ITD値は、聴取者の両耳に対する音源の入射方向または入射角を特定するための手がかりを提供するので、音像定位のために重要である。第3に、チャネル間位相差(IPD)が、比較されるべき2つのチャネル間の相対位相差を指定する。サブバンドIPD値は、サブバンドITD値の推定値として使用され得る。最後に、チャネル間コヒーレンス(ICC)が、ITDまたはIPDに応じた位相調整後の正規化されたチャネル間の相互相関として定義される。ICC値は、音源の幅を推定するために使用され得る。

ILD、ITD、IPD、およびICCは、空間マルチチャネル符号化/復号化のための重要なパラメータである。ITDは、たとえば、-1.5ミリ秒から1.5ミリ秒の間の可聴遅延の範囲をカバーすることができる。IPDは-πとπとの間の位相差の全範囲をカバーすることができる。ICCは相関の範囲をカバーすることができ、0と1の間のパーセント値で、または-1と+1の間の他の相関係数で指定され得る。現在のパラメトリックステレオ符号化方式では、ILD、ITD、IPD、およびICCは、通常周波数領域で推定される。すべてのサブバンドについてILD、ITD、IPD、およびICCが計算されて、量子化されて、オーディオビットストリームのパラメータセクションに含まれて、伝達される。

パラメトリックオーディオ符号化方式のためのビットレートの制約のため、オーディオビットストリームのパラメータセクション内に、ILD、ITD、IPD、およびICC値のすべてを伝達するために十分なビットが存在しない場合がある。たとえば、米国特許出願公開第2011/0173005(A1)号は、オーディオ信号の分類に基づいてオーディオ信号の符号化方式を開示している。

米国特許出願公開第2011/0173005(A1)号

Faller, C., Baumgarte, F.:「Efficient representation of spatial audio using perceptual parametrization」, Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust., October 2001, pp. 199-202. ITU-T G.722 ITU-T G. 722 Annex B ITU-T G.711.1 ITU-T G.711.1 Annex D 3GPP EVS(エンハンスドボイスサービス)コーデック

本発明の概念は、入力信号の特性および空間符号化パラメータの知覚的重要性に応じて、選択された数の空間符号化パラメータだけを一度に伝達することである。伝達されるべき選択された空間符号化パラメータは、フルバンドをカバーして、チャネル間の全体的に最も重要な知覚の差を表現するべきである。

本発明によれば、様々な空間符号化パラメータの知覚的重要性を使用すること、および符号化されたオーディオビットストリームに含めるための最も重要なパラメータに優先順位を付けることが可能である。すべての空間符号化パラメータが同時に伝達されるわけではないので、選択は必要なビットストリームのビットレートを低下させる。

したがって、本発明の第1の態様は、複数のオーディオチャネル信号を備えるマルチチャネルオーディオ信号の空間オーディオ符号化のための方法に関し、複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号について少なくとも2つの異なる空間符号化パラメータを計算するステップであって、少なくとも2つの異なる空間符号化パラメータが、少なくとも2つの異なるタイプの空間符号化パラメータであり、また基準オーディオ信号に関して計算され、基準オーディオ信号が、複数のオーディオチャネル信号のうちの別のオーディオチャネル信号、または複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されたダウンミックスオーディオ信号である、ステップと、計算された空間符号化パラメータの値に基づいてオーディオチャネル信号に関連付けられる少なくとも2つの異なる空間符号化パラメータのうちの少なくとも1つの空間符号化パラメータを選択するステップと、選択された空間符号化パラメータの量子化された表現を、オーディオビットストリームのパラメータセクションに含めるステップと、オーディオビットストリームのパラメータセクションに、オーディオビットストリームに含まれている選択された空間符号化パラメータのタイプを示すパラメータタイプフラグを設定するステップとを備える。

本方法の第1の態様の第1の実装形態によれば、本方法は、あらかじめ定められたフラグ値の量子化された表現を、オーディオビットストリームのパラメータセクションに含めるステップと、選択された空間符号化パラメータの量子化された表現を、あらかじめ定められたフラグ値の量子化された表現とともにオーディオビットストリームのパラメータセクションに含めるステップであって、それによって、オーディオビットストリームに含まれている選択された空間符号化パラメータのタイプを示す、ステップとをさらに備える。

そのような第1の態様の第2の実装形態によれば、または第1の態様の第1の実装形態によれば、選択された空間符号化パラメータの量子化された表現は4ビットを含む。

第1の態様の第2の実装形態のさらなる実装形態によれば、パラメータタイプフラグは1ビットを含む。

第1の態様の第2の実装形態のさらなる実装形態、またはそのさらなる実装形態によれば、あらかじめ定められたフラグ値の量子化された表現は4ビットを含む。

そのような第1の態様の第4の実装形態によれば、または第1の態様の前述の実装形態のいずれかによれば、パラメータタイプフラグは2ビットを含む。

そのような第1の態様の第5の実装形態によれば、または第1の態様の前述の実装形態のいずれかによれば、ITD値は15の量子化値に量子化される。

そのような第1の態様の第6の実装形態によれば、または第1の態様の前述の実装形態のいずれかによれば、IPD値は15の量子化値に量子化される。

そのような第1の態様の第7の実装形態によれば、または第1の態様の前述の実装形態のいずれかによれば、ICC値は4の量子化値に量子化される。

そのような第1の態様の第8の実装形態によれば、または第1の態様の前述の実装形態のいずれかによれば、少なくとも1つの空間符号化パラメータを選択するステップは、第1の空間符号化パラメータの値が、第1の空間符号化パラメータタイプに関連するあらかじめ定められた第1の選択基準を満たす場合、少なくとも2つの空間符号化パラメータから、第1の空間符号化パラメータタイプの第1の空間符号化パラメータを選択するステップ、および/または、第1の空間符号化パラメータの値が、第1の空間符号化パラメータタイプに関連するあらかじめ定められた第1の選択基準を満たさず、第2の空間符号化パラメータの値が、第2の空間符号化パラメータタイプに関連するあらかじめ定められた第2の選択基準を満たす場合、少なくとも2つの空間符号化パラメータから、第2の空間符号化パラメータタイプの第2の空間符号化パラメータを選択するステップを備える。

そのような第1の態様の第9の実装形態によれば、または第1の態様の前述の実装形態のいずれかによれば、空間符号化パラメータのタイプは、チャネル間時間差ITD、チャネル間位相差IPD、チャネル間レベル差ILD、またはチャネル間コヒーレンスICCである。

そのような第1の態様の第10の実装形態によれば、または第1の態様の前述の実装形態のいずれかによれば、少なくとも1つの空間符号化パラメータを選択するステップは、オーディオチャネル信号について複数の空間符号化パラメータのうちの1つの空間符号化パラメータだけを選択するステップを備える。

本発明の第2の態様によれば、複数のオーディオチャネル信号を備えるマルチチャネルオーディオ信号の空間オーディオ符号化デバイスであって、複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号について少なくとも2つの異なる空間符号化パラメータを計算するように構成されたパラメータ推定モジュールであって、少なくとも2つの異なる空間符号化パラメータが、少なくとも2つの異なるタイプの空間符号化パラメータであり、また基準オーディオ信号に関して計算され、基準オーディオ信号が、複数のオーディオチャネル信号のうちの別のオーディオチャネル信号、または複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されたダウンミックスオーディオ信号である、パラメータ推定モジュールと、パラメータ推定モジュールに結合され、計算された空間符号化パラメータの値に基づいてオーディオチャネル信号に関連付けられる少なくとも2つの異なる空間符号化パラメータのうちの少なくとも1つの空間符号化パラメータを選択するように構成されたパラメータ選択モジュールと、パラメータ推定モジュールおよびパラメータ選択モジュールに結合されたストリーミングモジュールであって、選択された空間符号化パラメータの量子化された表現を備えるパラメータセクションを備えるオーディオビットストリームを生成し、オーディオビットストリームのパラメータセクションに、オーディオビットストリームに含まれている選択された空間符号化パラメータのタイプを示すパラメータタイプフラグを設定するように構成されたストリーミングモジュールとを備える、空間オーディオ符号化デバイスが提供される。

第2の態様の第1の実装形態によれば、空間オーディオ符号化デバイスは、複数のオーディオチャネル信号をダウンミックスすることによってダウンミックスオーディオ信号を生成するように構成されたダウンミキシングモジュールをさらに備える。

第2の態様の第1の実装形態によれば、空間オーディオ符号化デバイスは、ダウンミキシングモジュールに結合され、また符号化されダウンミックスされたオーディオ信号を備える符号化されたオーディオビットストリームを生成するように構成された符号化モジュールをさらに備える。

第2の態様の第2の実装形態、または第2の態様の前述の実装形態のいずれかによれば、空間オーディオ符号化デバイスは、時間領域から周波数領域への変換を複数のオーディオチャネル信号に適用するように構成された変換モジュールをさらに備える。

第2の態様の第2の実装形態によれば、ストリーミングモジュールは、オーディオビットストリームにフラグを設定するようにさらに構成されており、フラグは、オーディオビットストリームのパラメータセクション内の少なくとも1つの空間符号化パラメータの存在を示す。

第2の態様の第2の実装形態によれば、フラグは、オーディオビットストリーム全体について設定されるか、オーディオビットストリームのパラメータセクションに含まれる。

第2の態様の第3の実装形態によれば、または第2の態様の前述の実装形態のいずれかによれば、パラメータ選択モジュールは、第1の空間符号化パラメータの値が、第1の空間符号化パラメータタイプに関連するあらかじめ定められた第1の選択基準を満たす場合、少なくとも2つの空間符号化パラメータから第1の空間符号化パラメータタイプの第1の空間符号化パラメータを選択して、および/または、第1の空間符号化パラメータの値が、第1の空間符号化パラメータタイプに関連するあらかじめ定められた第1の選択基準を満たさず、第2の空間符号化パラメータの値が、第2の空間符号化パラメータタイプに関連するあらかじめ定められた第2の選択基準を満たす場合、少なくとも2つの空間符号化パラメータから、第2の空間符号化パラメータタイプの第2の空間符号化パラメータを選択するようにさらに構成される。

そのような第2の態様の第4の実装形態によれば、または第2の態様の前述の実装形態のいずれかによれば、パラメータ選択モジュールは、オーディオチャネル信号用に複数の空間符号化パラメータのうちの1つの空間符号化パラメータだけを選択するように構成される。

本発明第3の態様によれば、空間オーディオ復号化デバイスは、受信されたオーディオビットストリームのパラメータセクション内の、オーディオビットストリームに含まれている選択された空間符号化パラメータのタイプを示すパラメータタイプフラグを検出するように構成されたパラメータ検出モジュールと、検出されたパラメータタイプによって、受信されたオーディオビットストリームのパラメータセクションから少なくとも1つの空間符号化パラメータを読み出すように構成された選択モジュールと、選択モジュールに結合されたアップミキシングモジュールであって、受信されたオーディオビットストリームのパラメータセクションから読み出された少なくとも1つの空間符号化パラメータを使用して、復号化されたオーディオ信号を、オーディオビットストリームに含まれるダウンミックスされたオーディオビットストリームから、マルチチャネル信号の複数のオーディオチャネル信号にアップミックスするように構成されたアップミキシングモジュールとを備える。

本発明の第4の態様によれば、空間オーディオ復号化方法であって、受信されたオーディオビットストリームのパラメータセクション内の、オーディオビットストリームに含まれている選択された空間符号化パラメータのタイプを示すパラメータタイプフラグを検出するステップと、検出されたパラメータタイプによって、受信されたオーディオビットストリームのパラメータセクションから少なくとも1つの空間符号化パラメータを読み出すステップと、受信されたオーディオビットストリームのパラメータセクションから読み出された少なくとも1つの空間符号化パラメータを使用して、復号化されダウンミックスされたオーディオ信号を、オーディオビットストリームに含まれるダウンミックスされたオーディオビットストリームから、マルチチャネル信号の複数のオーディオチャネル信号にアップミックスするステップとを備える方法が提供される。

本発明の第5の態様によれば、コンピュータ上で実行する際に、第1および第4の態様、またはそれらの実装形態のいずれかによる方法を実行するためのプログラムコードを備えるコンピュータプログラムが提供される。

本明細書に記載の方法は、ソフトウェアとしてデジタル信号プロセッサ(DSP)、マイクロコントローラ、または任意の他のサイドプロセッサに、あるいはハードウェア回路として特定用途向け集積回路(ASIC)内に実装され得る。

本発明は、デジタル電子回路に、あるいはコンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せに実装され得る。

さらなる実施形態および実装形態は、以下の説明から容易に理解されよう。特に、以下で説明されるような実施形態、態様、および実装形態からの任意の特徴は、特に断りのない限り、実施形態、態様、および実装形態からの他の任意の特徴と組み合わされ得る。

添付の図面は、本開示のさらなる理解を提供するために含まれる。図面は実施形態を示しており、記述と合わせて本発明の原理を説明するために役立つ。他の実施形態、ならびに意図される利点、想定される原理、および機能の多くは、以下の詳細な説明を参照することによってそれらがよりよく理解されるにつれて、理解されよう。図面の要素は必ずしも相互に関して縮尺通りに描かれていない。一般に、同様の参照番号は対応する類似の部分を示す。

空間オーディオ符号化システムを概略的に示す図である。空間オーディオ符号化デバイスを概略的に示す図である。空間オーディオ復号化デバイスを概略的に示す図である。パラメトリック空間符号化のための方法の第1の実施形態を概略的に示す図である。オーディオビットストリームのビットストリーム構造の第1の変形を概略的に示す図である。データビットストリームのビットストリーム構造の第2の変形を概略的に示す図である。オーディオビットストリームのビットストリーム構造の第3の変形を概略的に示す図である。

以下の詳細な説明では、添付の図面を参照する。図面には、例示の目的で、特定の実施形態が示されている。本発明の範囲から逸脱することなしに、他の実施形態を利用できること、および構造的または論理的変更が行われてよいことは明らかであるはずである。特に断りのない限り、機能、原理、および各実施形態の詳細は、他の実施形態と組み合わされ得る。一般的に、本出願は、本明細書で論じられた特定の実施形態の任意の適応または変形をカバーすることを意図している。したがって、以下の詳細な説明は限定的な意味で解釈されるべきではなく、本発明の範囲は添付の特許請求の範囲によって定義される。

実施形態は、機械可読媒体によって提供される機械可読命令内で具現化され得る方法および処理を含み得る。機械可読媒体は、これに限定されないが、コンピュータ、計算デバイス、処理装置、ネットワーキングデバイス、ポータブルコンピュータ、マイクロプロセッサ、または同等物などの機械にアクセス可能でよい情報を格納することができるデバイス、装置、メカニズム、またはシステムを含む。機械可読媒体は、揮発性または不揮発性媒体、ならびに電気信号、デジタル信号、論理信号、光信号、音響信号、音響光学信号、または同等物などの任意の形態の伝搬信号を含むことができ、媒体は情報を機械に搬送することができる。

以下では、流れ図およびブロック図に概略的および例示的に示された、方法および方法ステップを参照する。それらの例示的な図面とともに説明される方法は、システム、装置、および/またはデバイスの実施形態によって同様に容易に実行され得ることが理解されるべきである。特に、詳細なブロック図および/または流れ図を実行することができるシステム、装置、および/またはデバイスは、必ずしも本明細書で以下に示され詳述されるシステム、装置、および/またはデバイスに限定されず、むしろ異なるシステム、装置、および/またはデバイスであってよいことが明らかであるはずである。「第1」、「第2」、「第3」などの用語は、単にラベルとして使用されており、それらの目的物に数値的要件を課すこと、またはそれらの目的物の重要性の特定の順位を確立することを意図するものではない。

図1は、空間オーディオ符号化システム100を概略的に示す図である。空間オーディオ符号化システム100は、空間オーディオ符号化デバイス10および空間オーディオ復号化デバイス20を備える。複数のオーディオチャネル信号(そのうちの2つだけが図1に例示的に示されている)10a、10bが、空間オーディオ符号化デバイス10に入力される。空間オーディオ符号化デバイス10が、オーディオチャネル信号10a、10bを符号化してダウンミックスし、空間オーディオ復号化デバイス20に伝達されるオーディオビットストリーム1を生成する。空間オーディオ復号化デバイス20が、オーディオビットストリーム1に含まれるオーディオデータを復号化してアップミックスし、複数の出力オーディオチャネル信号(そのうちの2つだけが図1に例示的に示されている)20a、20bを生成する。それぞれのオーディオチャネル信号10a、10b、および20a、20bの数は、原則として限定されない。たとえば、オーディオチャネル信号10a、10b、および20a、20bの数は、バイノーラルステレオ信号では2つでよい。たとえば、バイノーラルステレオ信号は、たとえばHRTFフィルタリングを備えた3Dオーディオまたはヘッドホンベースのサラウンドレンダリング用に使用され得る。

空間オーディオ符号化システム100は、ITU-T G.722、ITU-T G. 722 Annex B、ITU-T G.711.1、および/またはITU-T G.711.1 Annex Dのステレオ拡張の符号化に適用され得る。さらに、空間オーディオ符号化システム100は、3GPP EVS(エンハンスドボイスサービス)コーデックで定義されたものなどの、モバイルアプリケーションにおける音声およびオーディオ符号化/復号化に使用され得る。

図2は、図1の空間オーディオ符号化デバイス10を、より詳細に概略的に示している。空間オーディオ符号化デバイス10は、変換モジュール15、変換モジュール15に結合されたパラメータ抽出モジュール11、変換モジュール15に結合されたダウンミキシングモジュール12、ダウンミキシングモジュール12に結合された符号化モジュール13、ならびに符号化モジュール13およびパラメータ抽出モジュール11に結合されたストリーミングモジュール14を備え得る。

変換モジュール15は、時間領域から周波数領域への変換を、空間オーディオ符号化デバイス10に入力された複数のオーディオチャネル信号10a、10bに適用するように構成され得る。ダウンミキシングモジュール12は、変換モジュール15から変換されたオーディオチャネル信号10a、10bを受信して、複数の変換されたオーディオチャネル信号10a、10bをダウンミックスすることによって、少なくとも1つのダウンミックスされたオーディオチャネル信号を生成するように構成され得る。ダウンミックスされたオーディオチャネル信号の数は、たとえば、変換されたオーディオチャネル信号10a、10bの数未満でよい。たとえば、ダウンミキシングモジュール12は、ダウンミックスされたオーディオチャネル信号を1つだけ生成するように構成され得る。符号化モジュール13は、ダウンミックスされたオーディオチャネル信号を受信して、符号化されダウンミックスされたオーディオチャネル信号を備える符号化されたオーディオビットストリームを生成するように構成され得る。

パラメータ抽出モジュール11は、複数のオーディオチャネル信号10a、10bを入力として受信して、複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号について少なくとも2つの異なる空間符号化パラメータを計算するように構成され得るパラメータ推定モジュール11aを備えることができ、少なくとも2つの異なる空間符号化パラメータは、少なくとも2つの異なるタイプの空間符号化パラメータであり、また基準オーディオ信号に関して計算され、基準オーディオ信号が、複数のオーディオチャネル信号のうちの別のオーディオチャネル信号、または複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されたダウンミックスオーディオ信号である。パラメータ抽出モジュール11は、パラメータ推定モジュール11aに結合され、計算された空間符号化パラメータの値に基づいてオーディオチャネル信号に関連付けられる少なくとも2つの異なる空間符号化パラメータのうちの少なくとも1つの空間符号化パラメータを選択するように構成されたパラメータ選択モジュール11bをさらに備え得る。

パラメータ抽出モジュール11、パラメータ選択モジュール11bのそれぞれの実施形態は、オーディオチャネル信号ごとに空間符号化パラメータを選択するように適合されてよく、選択された空間符号化パラメータは、異なるオーディオチャネル信号の異なる空間符号化パラメータタイプでよい。

パラメータ抽出モジュール11、パラメータ選択モジュール11bのそれぞれの実施形態は、パラメータ選択モジュールは、第1の空間符号化パラメータの値が、第1の空間符号化パラメータタイプに関連するあらかじめ定められた第1の選択基準を満たす場合、少なくとも2つの空間符号化パラメータ、たとえばITD、IPD、およびICCから第1の空間符号化パラメータタイプ、たとえばITDの第1の空間符号化パラメータを選択する、および/または、第1の空間符号化パラメータの値が、第1の空間符号化パラメータタイプに関連するあらかじめ定められた第1の選択基準を満たさず、第2の空間符号化パラメータの値が、第2の空間符号化パラメータタイプに関連するあらかじめ定められた第2の選択基準を満たす場合、少なくとも2つの空間符号化パラメータ、たとえばITD、IPD、およびICCから、第2の空間符号化パラメータタイプ、たとえばIPDの第2の空間符号化パラメータを選択するように適合され得る。

パラメータ抽出モジュール11、パラメータ選択モジュール11bのそれぞれのさらなる実施形態は、1つのオーディオチャネル信号用に、複数の空間符号化パラメータのうちの1つの空間符号化パラメータだけを選択するように適合され得る。

次いで、選択された空間符号化パラメータは、符号化モジュール13から符号化されたオーディオビットストリームを備える出力オーディオビットストリーム1、および選択された空間符号化パラメータの量子化された表現を備えるパラメータセクションを生成するように構成され得るストリーミングモジュール14に入力され得る。ストリーミングモジュール14は、オーディオビットストリーム1のパラメータセクションに、オーディオビットストリーム1に含まれている選択された空間符号化パラメータのタイプを示すパラメータタイプフラグを設定するようにさらに構成され得る。

加えて、ストリーミングモジュール14は、オーディオビットストリーム1にフラグを設定するようにさらに構成されてよく、フラグは、オーディオビットストリーム1のパラメータセクション内の少なくとも1つの空間符号化パラメータの存在を示す。このフラグは、オーディオビットストリーム1全体について設定されてもよく、あるいはオーディオビットストリーム1のパラメータセクションに含まれてもよい。そのようにして、オーディオビットストリーム1に含まれている選択された空間符号化パラメータのタイプのシグナリングは、に空間オーディオ復号化デバイス20に明示的にシグナリングされてもよく、暗黙的にシグナリングされてもよい。明示的なシグナリング方式と暗黙的なシグナリング方式との間で切り替えることが可能でよい。

暗黙的なシグナリングの場合、フラグはパラメータセクション内の補助データ内の空間符号化パラメータの存在を示すことができる。従来の復号化デバイス20は、そのようなフラグが存在するかどうかを調べないので、符号化されたオーディオビットストリームだけを復号化する。一方、非従来型の、すなわち最新の復号化デバイス20は、受信されたオーディオビットストリーム1内のそのようなフラグの存在を調べて、オーディオビットストリーム1のパラメータセクションに含まれる追加のフルバンド空間符号化パラメータに基づいてマルチチャネルオーディオ信号20a、20bを再構築することができる。

明示的なシグナリングを使用する場合、空間符号化パラメータを含むものとしてオーディオビットストリーム1全体がフラグ付けされてよい。そのようにして、従来の復号化デバイス20はビットストリームを復号化することができず、したがってオーディオビットストリーム1を廃棄する。一方、最新の復号化デバイス20は、オーディオビットストリーム1を全体として復号化するか、または、空間符号化パラメータを無視して、符号化されたオーディオビットストリーム1だけを復号化するかを決定することができる。明示的なシグナリングの利点は、たとえば、新しいモバイル端末が、エネルギーを節約し、したがって内蔵電池の電池寿命を拡張するために、オーディオビットストリームのどの部分を復号化するべきか決定することができる点に見ることができる。通常、空間符号化パラメータの復号化はより複雑で、より多くのエネルギーを必要とする。加えて、レンダリングシステムに応じて、最新の復号化デバイス20は、オーディオビットストリーム1のどの部分を復号化するべきか決定することができる。たとえば、ヘッドホンでのレンダリングには、符号化されたオーディオビットストリームだけを復号化すれば十分であるが、そのようなマルチチャネルレンダリング機能を備えたドッキングステーションにモバイル端末が接続されている場合のみマルチチャネルオーディオ信号が復号化される。

図3は、図1の空間オーディオ復号化デバイス20を、より詳細に概略的に示している。空間オーディオ復号化デバイス20は、ビットストリーム抽出モジュール26、パラメータ抽出モジュール21、復号化モジュール22、アップミキシングモジュール24、および変換モジュール25を備え得る。ビットストリーム抽出モジュール26は、オーディオビットストリーム1を受信して、パラメータセクションと、オーディオビットストリーム1内に囲まれた符号化されたオーディオビットストリームとを分離するように構成され得る。パラメータ抽出モジュール21は、受信されたオーディオビットストリーム1のパラメータセクション内の、オーディオビットストリーム1に含まれている選択された空間符号化パラメータのタイプを示すパラメータタイプフラグを検出するように構成されたパラメータ検出モジュール21aを備え得る。パラメータ抽出モジュール21は、パラメータ検出モジュール21aに結合されて、検出されたパラメータタイプによって受信されたオーディオビットストリーム1のパラメータセクションから少なくとも1つの空間符号化パラメータを読み出すように構成された選択モジュール21bをさらに備え得る。

復号化モジュール22は、符号化されたオーディオビットストリームを復号化して、復号化されたオーディオ信号をアップミキシングモジュール24に入力するように構成され得る。アップミキシングモジュール24は、選択モジュール21bに結合されて、選択モジュール21bによって提供されたような、受信されたオーディオビットストリーム1のパラメータセクションから読み出された少なくとも1つの空間符号化パラメータを使用して、復号化されたオーディオ信号を複数のオーディオチャネル信号にアップミックスするように構成され得る。最後に、変換モジュール25は、アップミキシングモジュール24に結合されて、複数のオーディオチャネル信号に基づいて音を再生するために、複数のオーディオチャネル信号を周波数領域から時間領域に変換して、再構築されたマルチチャネルオーディオ信号20a、20bを出力するように構成されて得る。

図4は、パラメトリック空間符号化のための方法30の第1の実施形態を概略的に示している。方法30は、第1のステップで、入力チャネルに時間周波数変換を実行するステップを備える。左チャネル信号および右チャネル信号を備えるステレオ信号の場合、ステップ30aで第1の変換が左チャネル信号に実行され、ステップ30bで第2の変換が右チャネル信号に実行される。それぞれの場合、変換は高速フーリエ変換(FFT)を使用して実行され得る。あるいは、短時間フーリエ変換(STFT)、コサイン変調フィルタリング、または複合的なフィルタリングが実行され得る。

第2のステップ31で、以下のようにサブバンドbごとにクロススペクトルが計算され得る。

上式で、X₁[k]およびX₂[k]は2つのチャネルまたは2つのオーディオチャネル信号1および2のFFT係数であり、たとえば、ステレオの場合は左および右のチャネル信号である。「*」は複素共役を示しており、k_bはサブバンドbの開始ビンを示しており、k_b+1は隣接するサブバンドb+1の開始ビンを示している。したがって、k_bからk_b+1のFFTの周波数ビン[k]はサブバンドbを表す。

あるいは、クロススペクトルは、FFTの周波数ビンkごとに計算され得る。この場合、サブバンドbは1つの周波数ビン[k]に直接対応する。

第3のステップ32では、たとえばチャネル間時間差ITD値、チャネル間位相差IPD値、チャネル間レベル差ILD値、およびチャネル間コヒーレンスICC値のグループから、少なくとも2つの異なる空間符号化パラメータが選択され、それらの値が計算される。たとえば、フルバンドITD、IPDおよびフルバンドICCパラメータが、サブバンドクロススペクトル係数に基づいて計算され得る。

複数の空間符号化パラメータのうちの少なくとも1つの空間符号化パラメータの選択は、計算された空間符号化パラメータの値に基づいて実行され得る。特に、選択は、知覚的に重要な空間符号化パラメータの優先順位リストに基づき得る。そのような選択がどのように実行され得るかの一例は、以下でより詳細に説明される。

決定ステップ33で、ITD値がゼロと等しいかどうかを調べることができる。あるいは、決定ステップ33で、ITD値がしきい値を下回るかどうかを調べることができる。しきい値は知覚的な関連性が最小であるITDを表すことができる。次いで、このしきい値を下回るすべてのITD値は無視できると考えられる。たとえば、48キロヘルツのサンプリング周波数では、3を下回るITDの絶対値は無視できると考えられる。ITD値がゼロではない場合、ステップ33aで、ITDパラメータの量子化された表現がオーディオビットストリーム1のパラメータセクションに含まれてよく、ステップ33bで、オーディオビットストリーム1のパラメータセクション内の、オーディオビットストリーム1に含まれている選択された空間符号化パラメータ、すなわちITDパラメータのタイプを示すパラメータタイプフラグが設定され得る。パラメータタイプフラグは、たとえば、ITDパラメータが含まれていることを示すためにフラグ値「1」に設定され得る。しかしながら、ITD値がゼロと等しい場合、決定ステップ34が実装され得る。

決定ステップ34で、IPD値がゼロと等しいかどうかを調べることができる。あるいは、決定ステップ34で、IPD値がしきい値を下回るかどうかを調べることができる。しきい値は、たとえば第1のIPD量子化ステップで設定され得る。次いで、このしきい値を下回るすべてのIPD値は、知覚的に関連しないか、無視できると考えられる。IPD値がゼロではない場合、ステップ34aで、IPDパラメータの量子化された表現がオーディオビットストリーム1のパラメータセクションに含まれてよく、ステップ34bで、オーディオビットストリーム1のパラメータセクション内の、オーディオビットストリーム1に含まれている選択された空間符号化パラメータ、すなわちIPDパラメータのタイプを示すパラメータタイプフラグが設定され得る。パラメータタイプフラグは、たとえば、IPDパラメータが含まれていることを示すためにフラグ値「0」に設定され得る。しかしながら、IPD値がゼロと等しい場合、決定ステップ35が実装され得る。

決定ステップ35で、ICC値が1と等しいかどうかを調べることができる。ICC値が1ではない場合、ステップ35aで、ICCパラメータの量子化された表現がオーディオビットストリーム1のパラメータセクションに含まれてよく、ステップ35bで、オーディオビットストリーム1のパラメータセクション内の、オーディオビットストリーム1に含まれている選択された空間符号化パラメータ、すなわちICCパラメータのタイプを示すパラメータタイプフラグが設定され得る。

あるいは、ステップ35bで、オーディオビットストリーム1のパラメータセクション内のパラメータタイプフラグは、ITDパラメータの伝達を示すために設定され得る。ステップ35cで、あらかじめ定められたフラグ値を有するITDパラメータの量子化された表現がパラメータセクションに含まれてよく、それによって、オーディオビットストリーム1に含まれているICCパラメータの存在を示す。そのようにして、普通なら使用されないITDパラメータの量子化値が、ICCパラメータの存在のフラグインジケータとして使用され得る。

しかしながら、ICC値が1と等しい(たとえば、ICCが知覚的関連性を有していないか、無視できる知覚的関連性だけを有する)場合、ICCパラメータを伝達する代わりに、ステップ36aで、オーディオビットストリーム1のパラメータセクション内の、オーディオビットストリーム1に含まれている選択された空間符号化パラメータ、すなわちITDパラメータのタイプを示すパラメータタイプフラグが設定され得る。加えて、ステップ36bで、3つの空間符号化パラメータのうちのいずれも知覚的関連性を有していないことを示すために、決定ステップ33で決定されたように、IPDまたはICCパラメータの代わりに、ITDパラメータがゼロのITD値とともに伝達され得る。

異なる空間符号化パラメータの知覚的重要性は、ソース信号のタイプに依存し得る。ボイス信号または会話アプリケーションでは、ITDは典型的に最も重要な空間符号化パラメータであり、次にIPD、最後にICCである。

決定ステップ33「ITD値がゼロと等しいかどうかを調べる」は、ITDパラメータ値が、特定の要件およびソース信号のタイプに基づいて定義され得る所与の選択基準を満たすかどうかを調べるための唯一の可能な実施形態である。たとえば-7から+7までの15の値によってITDをデジタル化する場合、選択基準もたとえば「ITDの大きさが1以下である場合」に設定され得る。この場合、ITDパラメータは、ITDパラメータ値の大きさが2以上の場合のみ選択され、そうでない場合は、次に最も関連性がある、たとえばIPDパラメータ値が調べられる。

同じことが、決定ステップ34「IPD値がゼロと等しいかどうかを調べる」に適用される。これは、IPDパラメータ値が、やはり特定の要件およびソース信号のタイプに基づいて定義され得る、およびITDパラメータのために使用された選択基準とは異なってよい、所与の選択基準を満たすかどうかを調べるための唯一の可能な実施形態である。たとえば-piから+piまで16の量子化ステップの16の値によってIPDをデジタル化する場合、選択基準もたとえば「IPDの大きさが第1の量子化ステップ以下である場合」に設定され得る。この場合、IPDパラメータは、ITDがそれぞれの選択基準を満たさず、IPDパラメータの大きさが第1の量子化ステップ以上である場合のみ選択され、そうでない場合は、次に最も関連性がある、たとえばICCパラメータ値が調べられる。

図4に基づいて記述される方法の実施形態は、ステレオ信号、すなわち左サイド(L)および右サイド(R)のオーディオチャネル信号を有するマルチチャネルオーディオ信号では、または、たとえば複数のオーディオチャネル信号を備える他の任意のマルチチャネル信号のために実行され得る。

ステレオ信号の場合、実施形態は、2つのオーディオチャネル信号のうちの1つを基準信号として使用することができ、もう一方のオーディオチャネル信号についてのみ空間符号化パラメータが計算され(また、たとえば図4に基づいて記述された方法が実行され)、それは2つのオーディオチャネルの知覚された空間関連性を復号器で再構築するために十分である。ステレオ信号の他の実施形態は、ステレオ信号の2つのオーディオチャネル信号に基づいてダウンミックス信号を取得して、2つのオーディオ信号ごとに空間符号化パラメータを計算する(および、たとえば図4に基づいて記述された方法を実行する)ように、および、2つのオーディオチャネルごとに選択された空間符号化パラメータを伝達して、2つのオーディオチャネルの知覚された空間関連性を復号器で再構築できるようにするように適合される。

図5から図7は、たとえば図1から図3で詳述されたオーディオビットストリーム1などの、オーディオビットストリームのビットストリーム構造の変形を概略的に示している。

図5で、オーディオビットストリーム1は、符号化されたオーディオビットストリームセクション1aおよびパラメータセクション1bを含み得る。符号化されたオーディオビットストリームセクション1aとパラメータセクション1bは交替することができ、それらの組み合わされた長さはオーディオビットストリーム1の全体的なビットレートを示すことができる。符号化されたオーディオビットストリームセクション1aは、復号化されるべき実際のオーディオデータを含み得る。パラメータセクション1bは、空間符号化パラメータの1つまたは複数の量子化された表現を備え得る。オーディオビットストリーム1は、たとえば、オーディオビットストリーム1がパラメータセクション1b内に補助データを含むか否かにかかわらず、明示的なシグナリングに使用されるシグナリングフラグビット2を含み得る。さらに、パラメータセクション1bは、オーディオビットストリーム1がパラメータセクション1b内に補助データを含むか否かにかかわらず、暗黙的なシグナリングに使用されるシグナリングフラグビット3を含み得る。

図6は、図5に示されるようなオーディオビットストリーム1のパラメータセクション1bのビットストリーム構造の第1の変形を示している。ケース(a)は、ITDパラメータかIPDパラメータのいずれかがゼロと等しくないシナリオに関する。ケース(b)は、ITDパラメータとIPDパラメータの両方がゼロと等しい場合のシナリオに関する。

図6では、空間符号化パラメータITDおよびIPDのうちのどちらが伝達されるかを示すために、唯一のフラグビット4が使用されている。一般性を損なうことなしに、ITDパラメータの存在を示すために1のフラグビット値がフラグセクション4に使用されてよく、IPDパラメータの存在を示すためにゼロのフラグビット値がフラグセクション4に使用されてよい。ITDパラメータおよびIPDパラメータは、パラメータセクション1bのパラメータ値セクション5への量子化された表現に含まれ得る。ITDパラメータおよびIPDパラメータの量子化された表現は、それぞれ4ビットを含み得る。しかしながら、ITDパラメータおよびIPDパラメータの量子化された表現のために、他の任意の数のビットも選択され得る。

したがって、ITDパラメータまたはIPDパラメータのいずれかがゼロとは異なる値を有する、最も一般的なケースでは、パラメータセクション1bで5ビットだけが使用される。ITDパラメータとIPDパラメータの両方がゼロと等しい値を有する、あまり一般的ではないケースでは、フラグがITDパラメータの存在を示すためにビット4が1に設定され得る。パラメータ値セクション5aは、やはり4ビットを含み得るが、有効なITDパラメータ値とは関連付けられない値を示すために、ITDパラメータの量子化された表現が選択され得る。たとえば、ITDパラメータは-7と7の間の整数値に量子化され得る。その場合、これらの整数値を符号化するために、15の異なる量子化された表現値が必要である。16番目の可能な量子化された表現は、図5を参照して記述されるように、パラメータ値セクション5aを暗黙的なフラグ付けセクション3として使用するために確保され得る。パラメータ値セクション5aが16番目の可能な量子化された表現を含むときはいつでも、次のパラメータ値セクション6がICCパラメータのために確保されていることを示している。パラメータ値セクション6は、たとえば2ビットを含むことができ、すなわちICC値は4の量子化値に量子化され得る。しかしながら、パラメータ値セクション6のために他の任意の数のビットも可能であってよい。

その場合、IPDパラメータは暗黙的なパラメータフラグ付けに使用されないので、IPDパラメータは16の量子化値に量子化され得る。あるいは、ITDパラメータの代わりにIPDパラメータを15の量子化値に量子化して、IPDパラメータの16番目の可能な量子化された表現を暗黙的なパラメータフラグ付けに使用することが可能であってよい。

図7は、図5に示されるようなオーディオビットストリーム1のパラメータセクション1bの第2の変形を概略的に示している。第1の変形とは対照的に、フラグセクション4は1の代わりに2ビットを含み得る。したがって、それぞれの空間符号化パラメータITD、IPD、およびICCに特定のフラグビット値、たとえばITDに「00」、IPDに「01」、およびICCに「10」を割り当てることができる。次に、ITD、IPD、およびICCパラメータを含めるために、唯一のパラメータ値セクション5bを使用する必要がある。パラメータ値セクション5bは、やはり4ビットを含み得る。第2の変形では、図5のケース(a)のように、全体的なビット使用は5ビットではなく6ビットであるが、6ビット以上を使用する必要がある例外的なケース(b)はない。

第1の変形は、たとえば、ITDおよびIPDパラメータがICCパラメータよりも重要であるアプリケーションシナリオ、たとえば音声データを伝達する会話アプリケーションで使用され得る。他のシナリオでは、第2の変形が好ましい場合がある。会話アプリケーションについて考えると、音声信号は統計的に最も重要な種類の信号であり、ITDおよびIPDは知覚的な関連性が最大であるパラメータを表す。入力信号のうちの90%について、ITDおよびIPDは関連性が最大のパラメータであり、ICCは10%を表すに過ぎないと推定され得る。したがって、フレームの90%について、1ビットが確保されて他の情報(たとえば、ILDパラメータのより良い量子化)のために使用され得る。フレームの10%だけのために、1つのさらなるビットが必要である。したがって、全体的に、空間符号化パラメータに関連付けられる総ビットレートが減少する。

図4に示されるような方法30も、マルチチャネルパラメトリックオーディオ符号化に適用され得る。クロススペクトルは、以下のように、サブバンドbごとに、およびチャネルjごとに、以下のように計算され得る。

上式で、X_j[k]はチャネルjのFFT係数であり、X_ref[k]は参照チャネルのFFT係数である。参照チャネルは、複数のチャネルjのうちの選択された1つのチャネルでよい。あるいは、参照チャネルは、モノラルダウンミックス信号のスペクトルでよく、チャネルj全体の平均である。前者の場合はM-1の空間キューが生成されるが、後者の場合はMの空間キューが生成され、Mはチャネルjの数である。「*」は複素共役を示しており、k_bはサブバンドbの開始ビンを示しており、k_b+1は隣接するサブバンドb+1の開始ビンを示している。したがって、k_bからk_b+1のFFTの周波数ビン[k]はサブバンドbを表す。

あるいは、クロススペクトルはFFTの周波数ビンkごとに計算され得る。この場合、サブバンドbは1つの周波数ビン[k]に直接対応する。

オーディオビットストリーム1内のチャネルjごとに、それぞれのパラメータセクション1bが提供され、チャネルjごとに空間符号化パラメータのうちの1つが個別に選択されて、パラメータセクション1bに含まれ得る。

1 オーディオビットストリーム
1a 符号化されたオーディオビットストリームセクション
1b パラメータセクション
2 シグナリングフラグビット
3 シグナリングフラグビット
3 暗黙的なフラグ付けセクション
4 フラグセクション
5 パラメータ値セクション
5a パラメータ値セクション
5b パラメータ値セクション
6 パラメータ値セクション
10 空間オーディオ符号化デバイス
10a オーディオチャネル信号
10b オーディオチャネル信号
11 パラメータ抽出モジュール
11a パラメータ推定モジュール
11b パラメータ選択モジュール
12 ダウンミキシングモジュール
13 符号化モジュール
14 ストリーミングモジュール
15 変換モジュール
20 空間オーディオ復号化デバイス
20a 出力オーディオチャネル信号
20b 出力オーディオチャネル信号
21 パラメータ抽出モジュール
21a パラメータ検出モジュール
21b 選択モジュール
22 復号化モジュール
24 アップミキシングモジュール
25 変換モジュール
26 ビットストリーム抽出モジュール
30 方法
100 空間オーディオ符号化システム

Claims

複数のオーディオチャネル信号を備えるマルチチャネルオーディオ信号のパラメトリック空間オーディオ符号化のための方法であって、
前記複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号について少なくとも2つの異なる空間符号化パラメータを計算するステップであって、前記少なくとも2つの異なる空間符号化パラメータが、少なくとも2つの異なるタイプの空間符号化パラメータであり、前記オーディオチャネル信号と基準オーディオ信号から計算され、前記基準オーディオ信号が、前記複数のオーディオチャネル信号のうちの別のオーディオチャネル信号、または前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されたダウンミックスオーディオ信号である、ステップと、
前記計算された空間符号化パラメータの値に基づいて前記オーディオチャネル信号に関連付けられる前記少なくとも2つの異なる空間符号化パラメータのうちの少なくとも1つの空間符号化パラメータを選択するステップと、
前記選択された空間符号化パラメータの量子化された表現を、オーディオビットストリームのパラメータセクションに含めるステップと、
前記オーディオビットストリームの前記パラメータセクションに、前記オーディオビットストリームに含まれている前記選択された空間符号化パラメータのタイプを示すパラメータタイプフラグを設定するステップと、
を備え、
少なくとも1つの空間符号化パラメータを選択する前記ステップが、
第1の空間符号化パラメータ(ITD)の値が、第1の空間符号化パラメータタイプに関連するあらかじめ定められた第1の選択基準を満たす場合、前記少なくとも2つの空間符号化パラメータ(ITD、IPD、ICC)から、前記第1の空間符号化パラメータタイプの前記第1の空間符号化パラメータを選択するステップ、および/または、
前記第1の空間符号化パラメータの前記値が、前記第1の空間符号化パラメータタイプに関連する前記あらかじめ定められた第1の選択基準を満たさず、第2の空間符号化パラメータ(IPD)の値が、第2の空間符号化パラメータタイプに関連するあらかじめ定められた第2の選択基準を満たす場合、前記少なくとも2つの空間符号化パラメータ(ITD、IPD、ICC)から、前記第2の空間符号化パラメータタイプの前記第2の空間符号化パラメータを選択するステップ、
を備える、
方法。
あらかじめ定められたフラグ値の量子化された表現を、前記オーディオビットストリームの前記パラメータセクションに含めるステップと、
前記選択された空間符号化パラメータの量子化された表現を、あらかじめ定められたフラグ値の前記量子化された表現とともに前記オーディオビットストリームの前記パラメータセクションに含めるステップであって、それによって、前記オーディオビットストリームに含まれている前記選択された空間符号化パラメータの前記タイプを示す、ステップと、
をさらに備える、請求項1に記載の方法。
前記選択された空間符号化パラメータの前記量子化された表現が4ビットを含む、請求項1から2のいずれか一項に記載の方法。
前記パラメータタイプフラグが1ビットを含む、請求項3に記載の方法。
前記あらかじめ定められたフラグ値の前記量子化された表現が4ビットを含む、請求項3に記載の方法。
チャネル間時間差値が15の量子化値に量子化される、および/またはチャネル間位相差値が16の量子化値に量子化される、および/または、チャネル間コヒーレンス値が4の量子化値に量子化される、請求項1から5のいずれか一項に記載の方法。
空間符号化パラメータの前記タイプが、チャネル間時間差ITD、チャネル間位相差IPD、チャネル間レベル差ILD、またはチャネル間コヒーレンスICCである、請求項1から6のいずれか一項に記載の方法。
複数のオーディオチャネル信号を備えるマルチチャネルオーディオ信号の空間オーディオ符号化デバイスであって、
前記複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号について少なくとも2つの異なる空間符号化パラメータを計算するように構成されたパラメータ推定モジュールであって、前記少なくとも2つの異なる空間符号化パラメータが、少なくとも2つの異なるタイプの空間符号化パラメータであり、前記オーディオチャネル信号と基準オーディオ信号から計算され、前記基準オーディオ信号が、前記複数のオーディオチャネル信号のうちの別のオーディオチャネル信号、または前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されたダウンミックスオーディオ信号である、パラメータ推定モジュールと、
前記パラメータ推定モジュールに結合され、前記計算された空間符号化パラメータの値に基づいて前記オーディオチャネル信号に関連付けられる前記少なくとも2つの異なる空間符号化パラメータのうちの少なくとも1つの空間符号化パラメータを選択するように構成されたパラメータ選択モジュールと、
前記パラメータ推定モジュールおよび前記パラメータ選択モジュールに結合されたストリーミングモジュールであって、前記選択された空間符号化パラメータの量子化された表現を備えるパラメータセクションを備えるオーディオビットストリームを生成し、前記オーディオビットストリームの前記パラメータセクションに、前記オーディオビットストリームに含まれている前記選択された空間符号化パラメータの前記タイプを示すパラメータタイプフラグを設定するように構成されたストリーミングモジュールと、
を備え、
前記パラメータ選択モジュールが、
第1の空間符号化パラメータ(ITD)の値が、第1の空間符号化パラメータタイプに関連するあらかじめ定められた第1の選択基準を満たす場合、前記少なくとも2つの空間符号化パラメータ(ITD、IPD、ICC)から前記第1の空間符号化パラメータタイプの前記第1の空間符号化パラメータを選択し、および/または、
前記第1の空間符号化パラメータの前記値が、前記第1の空間符号化パラメータタイプに関連する前記あらかじめ定められた第1の選択基準を満たさず、第2の空間符号化パラメータ(IPD)の値が、第2の空間符号化パラメータタイプに関連するあらかじめ定められた第2の選択基準を満たす場合、前記少なくとも2つの空間符号化パラメータ(ITD、IPD、ICC)から、前記第2の空間符号化パラメータタイプの第2の前記空間符号化パラメータを選択するようにさらに構成される、
空間オーディオ符号化デバイス。
前記複数のオーディオチャネル信号をダウンミックスすることによって前記ダウンミックスオーディオ信号を生成するように構成されたダウンミキシングモジュールをさらに備える、請求項8に記載の空間オーディオ符号化デバイス。
前記ダウンミキシングモジュールに結合され、また符号化されダウンミックスされたオーディオビットストリームを備える符号化されたオーディオビットストリームを生成するように構成された符号化モジュールをさらに備える、請求項9に記載の空間オーディオ符号化デバイス。
時間領域から周波数領域への変換を前記複数のオーディオチャネル信号に適用するように構成された変換モジュールをさらに備える、請求項8から10のいずれか一項に記載の空間オーディオ符号化デバイス。
前記ストリーミングモジュールが、前記オーディオビットストリームにフラグを設定するようにさらに構成されており、前記フラグが、前記オーディオビットストリームの前記パラメータセクション内の少なくとも1つの空間符号化パラメータの存在を示す、請求項11に記載の空間オーディオ符号化デバイス。
前記フラグが、前記オーディオビットストリーム全体について設定されるか、前記オーディオビットストリームの前記パラメータセクションに含まれる、請求項12に記載の空間オーディオ符号化デバイス。
コンピュータ上で実行する際に、請求項1から7のうちのいずれか一項に記載の方法を実行するためのプログラムコードを備える、コンピュータプログラム。