JP2021513108A

JP2021513108A - ハイブリッドエンコーダ／デコーダ空間解析を使用する音響シーンエンコーダ、音響シーンデコーダおよびその方法

Info

Publication number: JP2021513108A
Application number: JP2020541892A
Authority: JP
Inventors: フックス，ギヨーム; バイエル，シュテファン; ムルトルス，マルクス; ティエアガルト，オリヴェル; ブテオン，アレキサンドレ; ヘッレ，ユルゲン; ギド，フロリン; イェゲルス，ヴォルフガング; キュヒ，ファビアン
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2018-02-01
Filing date: 2019-01-31
Publication date: 2021-05-20
Anticipated expiration: 2039-01-31
Also published as: RU2749349C1; KR20200116968A; CN118197326A; EP4057281A1; PL3724876T3; TWI760593B; WO2019149845A1; ES2922532T3; EP3724876B1; CA3089550A1; US11361778B2; CA3089550C; EP3724876A1; US20220139409A1; AU2019216363B2; BR112020015570A2; SG11202007182UA; ZA202004471B; JP7261807B2; TW201937482A

Abstract

【課題】少なくとも２成分の信号を含む音響シーンを復号化するための音響シーンエンコーダであり、少なくとも２成分の信号をコア符号化して、少なくとも２成分の信号の第１部分に対して第１の復号化表現（３１０）を生成し、少なくとも２成分の信号の第２の部分に対して第２の復号化表現（３２０）を生成するコアエンコーダ（１６０）と、音響シーンを解析して、第２部分に対する１以上の空間パラメータ（３３０）または１以上の空間パラメータセットを生成する空間解析器（２００）と、第１復号化表現（３１０）、第２復号化表現（３２０）、および第２部分に対する１以上の空間パラメータ（３３０）または１以上の空間パラメータセット、を含む第２の符号化音響シーン信号（３４０）を形成する出力インタフェース（３００）と、を備える。
【選択図】図１ａ

Description

本発明は、音響（オーディオ）の符号化または復号化に関し、特に、ハイブリッド・エンコーダ／デコーダ・パラメトリック空間音響符号化に関する。

３次元の音響シーンを伝送するには、通常、大量のデータを送信する複数のチャンネルを処理する必要がある。さらに、３Ｄサウンドは、各伝送チャンネルがスピーカの位置に関連付けられている従来のチャンネルベースのサウンド；スピーカの位置とは無関係に独立に３次元に配置される音響ブジェクトを通じて搬送されるサウンド；音響シーンが空間直交球面調和ベース関数の線形重みである１組の係数信号により表現されるシーンベース（またはアンビソニックス）；などの種々の方法で表現される。チャンネルベースの表現とは対照的にシーンベースの表現は、特定のスピーカ設定とは独立しており、デコーダでの追加のレンダリングプロセスが必要となるものの、任意のスピーカ設定で再生することができる。

これらの各フォーマットについて、音響信号を低ビットレートで効率的に保存または伝送するため、専用の符号化方式が開発されている。例えば、ＭＰＥＧサラウンドは、チャンネルベースのサラウンド・サウンドのパラメトリック符号化方式であり、ＭＰＥＧ空間音響オブジェクト符号化（ＳＡＯＣ：ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）は、オブジェクトベースの音響専用のパラメトリック符号化方式である。最近の標準ＭＰＥＧ−Ｈフェーズ２では、高次のアンビソニックス用のパラメトリック符号化技術も提供されている。

この伝送シナリオでは、全信号のための空間パラメータが、常に、符号化および伝送される信号、すなわち、エンコーダ内ですべての利用可能な３Ｄサウンドシーンに基づいて推定、符号化され、デコーダ内で音響シーンの再構成のために復号化、使用される信号、の一部となる。伝送のための速度制約により、通常、伝送されるパラメータの時間−周波数解像度は、制限され、伝送される音響データの時間−周波数解像度より低くされる。

３次元音響シーンを作成する別の実現性として、低次元表現、例えば２チャンネルステレオあるいは１次アンビソニックス表現を、低次元表現から直接に推測されたキューおよびパラメータを用いて、所望の次元にアップミックスすることがある。この場合、時間−周波数分解能は必要に応じて細かく選択することができる。一方、使用された低次元でたぶん符号化された音響シーンの表現は、空間キューおよびパラメータの準最適推定を導く。特に、解析された音響シーンが、パラメトリック音響符号化ツールおよびセミパラメトリック音響符号化ツールを使用して符号化および伝送された場合、元の信号の空間キューは、低次元表現だけで発生以上の擾乱をうける。

パラメトリック符号化ツールを使用する低レート音響符号化は、近年、進歩を示している。非常に低いビットレートでの音響信号の符号化のこのような進歩は、いわゆるパラメトリック符号化ツールの広範囲にわたる使用をもたらし、高品質を保証している。波形維持符号化、すなわち量子化雑音のみが符号化音響信号に付加される符号化、例えば、ＭＰＥＧ−２ＡＡＣやＭＰＥＧ−１ＭＰ３などの知覚モデルを使用する量子化雑音の時間−周波数変換ベースの符号化およびシェーピングを使用する符号化、を使用すると、特に低ビットレートに対して、可聴量子化雑音を引き起こす。

この問題を克服するために開発されたパラメトリック符号化ツールでは、信号の一部を直接には符号化しないが、デコーダで、所望の音響信号のパラメトリック記述を使用して再生する。パラメトリック記述は、必要とする伝送速度が波形維持符号化よりも低い。これらの方法は、信号の波形を保持しようとするものではないが、元の信号と知覚的に等しい音響信号を生成する。このようなパラメトリック符号化ツールの例としては、スペクトルバンド折り返し（ＳＢＲ：ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）のような帯域幅拡張がある。ＳＢＲでは、復号化信号のスペクトル表現の高帯域部分が、波形符号化された低帯域スペクトル信号部をコピーし、上記のパラメータに従って適応させることによって生成される。別の方法は、インテリジェントギャップフィリング（ＩＧＦ：ＩｎｔｅｌｌｉｇｅｎｔＧａｐＦｉｌｌｉｎｇ）である。ＩＧＦでは、スペクトル表現の一部のバンドが直接に符号化され、その一方で、エンコーダでゼロに量子化されたバンドが、既に復号化された、伝送されたパラメータに従って再び選択、調整されたスペクトルの他のバンドに、置き換えられる。３番目に使用されるパラメトリック符号化ツールは、ノイズフィリングである。ノイズフィリングでは、信号またはスペクトルの一部がゼロに量子化され、ランダムノイズで充填され、伝送されたパラメーターに従って調整される。中ないし低ビットレートでの符号化に使用される最近の音響符号化標準では、このようなパラメトリックツールを組み合わせて使用して、これらのビットレートの知覚品質を高めている。そのような標準の例としては、ｘＨＥ−ＡＡＣ、ＭＰＥＧ４−Ｈ、およびＥＶＳがある。

ＤｉｒＡＣ空間パラメータ推定とブラインドアップミックスが、さらなる手順である。ＤｉｒＡＣは、知覚的に動機付けられた空間サウンド再生である。ここで、仮定として、ある時点ある臨界帯域において、聴覚システムの空間分解能が、方向についてのひとつのキューと聴覚間の可干渉性または拡散性についての別のキューの復号化に制限されるものとする。

これらの仮定に基づいて、ＤｉｒＡＣでは、ひとつの周波数帯域の空間サウンドを、２つのストリーム：無指向性拡散ストリームと指向性非拡散ストリーム、をクロスフェードすることにより、１つの周波数帯域の空間サウンドを表現する。ＤｉｒＡＣ処理は、図５ａおよび５ｂに示す解析と合成の２つのフェーズで実行される。

図５ａに示すＤｉｒＡＣ解析段では、Ｂフォーマットの一次同時受音マイクロロホンが入力と見なされ、音の拡散と到来方向が周波数領域で解析される。図５ｂに示すＤｉｒＡＣ合成段では、音は２つのストリーム、非拡散ストリームと拡散ストリームに分割される。非拡散ストリームは、振幅パニングを使用するポイントソースとして再現され、ベクトルベース振幅パンニング（ＶＢＡＰ：ｖｅｃｔｏｒｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ）（特許文献２）を使用して行われる。拡散ストリームは、包み込む感覚をもたらすものであり、相互に相関のない信号をスピーカに伝達することによって生成される。

図５ａの解析段には、帯域フィルタ１０００、エネルギ推定器１００１、強度推定器１００２、時間平均部９９９ａおよび９９９ｂ、拡散度計算器１００３および方向計算器１００４が設けられる。計算された空間パラメータは、各時間／周波数タイルに対する０と１との間の拡散性の値（拡散度）である。図５ａにおいて、方向パラメータは、方位角と仰角を含む。これらの方位角および仰角は、基準点またはリスニング位置、特にマイクロホンが配置されている位置からのサウンドの到来方向を示す。マイクロホンからは、帯域フィルタ１０００への入力の４成分の信号が収集される。これらの成分信号（成分信号）は、図５ａに示すように、無指向性成分Ｗ、指向性成分Ｘ、別の指向性成分Ｙおよびさらなる指向性成分Ｚを含む一次アンビソニックス成分である。

図５ｂに示されるＤｉｒＡＣ合成段には、Ｂフォーマットのマイクロホン信号Ｗ、Ｘ、Ｙ、Ｚの時間−周波数表現を生成する帯域フィルタ１００５を備える。個々の時間／周波数タイルに対応する信号は、各チャンネルに対して、仮想マイクロホン信号を生成する仮想マイクロホンステージ１００６に入力される。特に、例えば中央チャンネルに対して仮想マイクロホン信号を生成するためには、仮想マイクロホンは中央チャンネルの方向に向けられ、得られる信号は、中央チャンネルに対応する成分信号となる。この信号は、直接信号ブランチ１０１５と拡散信号ブランチ１０１４とを介して処理される。両方のブランチには、対応するゲイン調整器または増幅器を有し、これらは、ブロック１００７、１００８内のオリジナルの拡散度パラメータから導出される拡散値によって制御され、さらに、所定のマイク補正を得るためにブロック１００９，１０１０で処理される。

直接信号ブランチ１０１５内の成分信号はまた、方位角および仰角からなる方向パラメータから導出された利得パラメータを使用して、利得調整される。特に、これらの角度は、ＶＢＡＰ（ベクトルベース振幅パンニング）利得テーブル１０１１に入力される。結果は、各チャンネルのスピーカ利得平均化段１０１２に入力され、さらに正規化回路１０１３を経由し、得られた利得パラメータが、直接信号ブランチ１０１５内の増幅器または利得調整器に送られる。非相関器１０１６の出力で生成された拡散信号と直接信号すなわち非拡散ストリームとは、結合器１０１７で結合され、その後、他のサブバンドが他の結合器１０１８で追加される。結合器１０１８は、例えば、合成フィルタバンクである。したがって、ひとつのラウドスピーカに対するラウドスピーカ信号が生成され、同じ手順が、そのラウドスピーカ設定における他のラウドスピーカ１０１９のための他のチャンネルに実行される。

高品質バージョンのＤｉｒＡＣ合成を図５ｂに示す。ここで、シンセサイザは、すべてのＢフォーマット信号を受信し、そこから各マイクロホン信号を各スピーカ方向について計算する。利用される指向性パターンは、典型的には、ダイポールである。次に、仮想マイクロホン信号が、分岐１０１６および１０１５に関して説明したように、メタデータに応じて非線形に修正される。低ビットレートバージョンのＤｉｒＡＣは、図５ｂには示されていない。ただし、この低ビットレートバージョンでは、音響の単一チャンネルのみが送信される。処理の違いは、すべての仮想マイクロホン信号が、受信される音響の単一チャンネルに置き換えられることである。仮想マイクロホン信号は、拡散ストリームと非拡散ストリームの２つのストリームに分割され、別々に処理される。非拡散音は、ベクトルベース振幅パンニング（ＶＢＡＰ）を使用して、点音源として再生される。パンニングでは、モノフォニックサウンド信号が、ラウドスピーカ固有の利得係数を乗算した後、スピーカのサブセットに適用される。利得係数は、スピーカの設定と指定されたパン方向の情報を使用して計算される。低ビットレートバージョンでは、入力信号が、メタデータによって示される方向にパンされるだけである。高品質バージョンでは、各仮想マイクロホン信号に、対応する利得係数が乗算される。これにより、パンと同じ効果が得られ、それでいて、非線形アーティファクトが発生し難くなる。

拡散サウンドを合成する目的は、リスナーを取り囲むサウンドの知覚を作り出すことである。低ビットレートバージョンでは、入力信号を非相関化してそれをすべてのスピーカから再生することにより、拡散ストリームが再生される。高品質バージョンでは、拡散ストリームの仮想マイクロホン信号がすでにある程度コヒーレントではなく、少し非相関化するだけでよい。

ＤｉｒＡＣパラメータは、空間メタデータとも呼ばれ、拡散度と方向のタプルで構成される。球面座標では、方位角と仰角の２つの角度で表される。解析と合成の両方の段階がデコーダ側で実行される場合、ＤｉｒＡＣパラメータの時間−周波数分解能は、ＤｉｒＡＣ解析と合成に使用されるフィルタバンク、すなわち音響信号のフィルタバンク表現のすべての時間スロットおよび周波数ビンに対する独特のパラメータセット、と同じになるように選択される。

デコーダ側でのみ空間音響符号化システムで解析を実行する場合の問題は、上述したように、中から低ビットレートのパラメトリックツールが使用されることである。これらのツールの非波形保持特性により、主にパラメトリック符号化が使用されるスペクトル部分の空間解析では、元の信号の解析が生成するはずの空間パラメータとは非常に異なる値を導き出す可能性がある。図２ａと２ｂは、そのようなミスマッチのシナリオを示す。ここで、ＤｉｒＡＣ解析が、コード化されていない信号（ａ）と、部分的波形保存およびパラメットリックな符号化を用いる符号器を用いた低ビットレートのＢフォーマット送信伝送信号（ｂ）とで実行される。特に拡散性に関して、大きな違いが見られる。

最近、エンコーダでＤｉｒＡＣ解析を使用し、コード化された空間パラメータをデコーダに送信する空間音響符号化方法が、非特許文献１，２に開示されている。図３は、ＤｉｒＡＣ空間サウンド処理を音響コーダに結合するエンコーダおよびデコーダのシステム概要を示す。マルチチャンネル入力信号、１次アンビソニックス（ＦＯＡ）、または高次アンビソニックス（ＨＯＡ）信号またはオブジェクトのダウンミックスを含みエネルギメタデータおよび／または相関データのようなオブジェクトメタデータに対応する１以上のトランスポート信号により構成されるオブジェクト符号化信号のような入力信号が、フォーマット変換・結合器９００に入力される。フォーマット変換・結合器９００は、入力信号のそれぞれを対応するＢフォーマット信号に変換するように構成され、さらに、異なる表現で受け取ったストリームを、対応するＢフォーマット成分を一緒に加えることにより、あるいは、加重加算または異なる入力データの異なる情報の選択を含む他の結合技術により、結合する。

結果として得られたＢフォーマット信号は、到来方向メタデータおよび拡散性メタデータなどのＤｉｒＡＣメタデータを導出するためにＤｉｒＡＣ解析器２１０に導入され、得られた信号は、空間メタデータエンコーダ２２０を使用してエンコードされる。さらに、Ｂフォーマット信号は、Ｂフォーマット信号をトランスポートチャンネルまたはいくつかのトランスポートチャンネルにダウンミックスするためにビームフォーマ／信号セレクタに送られ、その後、ＥＶＳベースのコアエンコーダー１４０を使用してエンコードされる。

一方のブロック２２０および他方のブロック１４０の出力は、符号化された音響シーンを表現する。符号化音響シーンはデコーダに送られ、デコーダでは、空間メタデータデコーダ７００が符号化空間メタデータを受け取り、ＥＶＳベースのコアデコーダ５００が符号化トランスポートチャンネルを受け取る。ブロック７００によって得られた復号空間メタデータは、ＤｉｒＡＣ合成ステージ８００に送られ、ブロック５００の出力における復号された１つまたは複数のトランスポートチャンネルが、ブロック８６０において周波数解析にかけられる。結果として得られる時間／周波数デコンポジッションもＤｉｒＡＣシンセサイザ８００に送られ、そこで、復号された音響シーンとして、ラウドスピーカ信号または一次アンビソニックスまたは高次アンビソニックス成分または音響シーンの任意の他の表現を生成する。

特許文献１、２に開示されている手順では、ＤｉｒＡＣメタデータすなわち空間パラメータが推定され、低ビットレートで符号化されてデコーダに送信される。デコーダでは、空間パラメータが、音響信号の低次元表現と共に３Ｄ音響シーンを再構成するために使用される。

本発明では、ＤｉｒＡＣメタデータ、すなわち空間パラメータは、低ビットレートで推定および符号化され、デコーダに送信され、そこで、音響信号の低次元表現と共に、３Ｄ音響シーンを再構築するために使用される。

メタデータのための低ビットレートを実現するために、時間−周波数分解能は、３Ｄ音響シーンの解析および合成で使用されるフィルタバンクの時間−周波数分解能よりも小さくなる。図４ａおよび４ｂは、ＤｉｒＡＣ解析の非符号化および非グループ化空間パラメータ（ａ）と、特許文献１で開示されているＤｉｒＡＣ空間音響符号化システムを符号化および伝送されたＤｉｒＡＣメタデータと共に用いる同じ信号の符号化およびグループ化パラメータとの比較を示す。図２ａと図２ｂとを比較すると、デコーダ（ｂ）で使用されるパラメータは、元の信号から推定されるパラメータに近いが、時間−周波数分解能は、デコーダのみの推定よりも低いことがわかる。

本発明の目的は、音響シーンの符号化または復号などの処理のための改善された概念を提供することにある。

この目的は、請求項１の音響シーンエンコーダ、請求項１５の音響シーンデコーダ、請求項３５の音響シーンの符号化方法、請求項３６の音響シーンの復号方法、請求項３７のコンピュータープログラム、または請求項３８に記載のエンコードされた音響シーンにより達成される。

本発明は、改善された音響品質およびより高い柔軟性、および一般に改善された性能が、ハイブリッド符号化／復号スキームを適用することによって得られるという発見に基づいている。ここで、復号された二次元または三次元の音響シーンを生成するためにデコーダ内で使用される空間パラメータは、デコーダ内で、シーンの時間−周波数表現のいくつかの部分に対して符号化および伝送された典型的には低次元音響表現に基づいて推定され、他の部分に対してエンコーダ内で推定、量子化および符号化されてデコーダに伝送される。

実装によっては、エンコーダ側での推定領域とデコーダ側の推定領域との分離は、デコーダでの３次元または２次元の音響シーンの生成に使用されるさまざまな空間パラメーターによって異なる場合がある。

実施形態では、異なる部分または好ましくは時間−周波数領域への区分は、任意とすることができる。しかし、好ましい実施形態では、主に波形を維持する方法で符号化されるスペクトルの部分についてデコーダでパラメータを推定し、その一方で、パラメトリック符号化ツールが主に使用されたスペクトルの部分については、エンコーダによって計算されたパラメータを符号化して伝送することが有利である。

本発明の実施形態は、エンコーダで推定符号化された３Ｄ音響シーンの再構成に使用される空間パラメータが、一部分がエンコーダで推定符号化されてデコーダに伝送され、残りの部分がデコーダで直接に推定されるハイブリッド符号化システムを使用することにより、３Ｄ音響シーンを伝送するための低ビットレート符号化ソリューションを提案することを目的とする。

本発明は、信号の一部に対してパラメータを推定するだけのデコーダのためのハイブリッドアプローチに基づく３Ｄ音響再生を開示する。ここで、音響エンコーダ内で空間表現が低次元に持ち込まれ、その低次元表現を符号化し、エンコーダ内で推定し、エンコーダ低で符号化し、空間キューおよびパラメータをエンコーダからデコーダにスペクトルの一部として伝送した後でも、空間キューは良好に保たれる。ここで、低次元表現の符号化に伴う低次元性は、空間パラメータの準最適推定を導くと考えられる。

一実施形態において、音響シーンエンコーダは、音響シーンをエンコードするように構成される。音響シーンは、少なくとも２つの成分信号を含む。音響シーンエンコーダは、少なくとも２つの成分信号をコアエンコードするように構成されたコアエンコーダを含み、コアエンコーダは、少なくとも２つの成分信号のうちの第１部分に対して第１の符号化表現を生成し、少なくとも２つの成分信号のうちの第２部分に対して第２符号化表現を生成する。空間解析器は、音響シーンを解析して、第２部分の１以上の空間パラメータまたは１以上の空間パラメーターセットを導出し、出力インタフェースは、このとき、第１の符号化表現、第２の符号化表現、および第２部分に対する１つ以上の空間パラメータまたは１つ以上の空間パラメータセットを含む符号化音響シーン信号を形成する。通常、第１部分に対するどの空間パラメータも、符号化音響信号には含まれない。その理由は、これらの空間パラメータは、デコーダ内の復号された第１表現からデコーダで推定されるからである。一方、第２部分の空間パラメータは、元の音響シーンまたは既に処理されその次元ひいてはビットレートが削減された音響シーンに基づいて、音響シーンエンコーダ内で既に計算されている。

したがって、エンコーダで計算されたパラメータは、高品質のパラメトリック情報を運ぶことができる。その理由は、これらのパラメータが、コアエンコーダの歪みの影響を受けず、高品質マイクロホンアレイから得られる信号のような非常に高次元で利用できる可能性さえある非常に正確なデータからエンコーダで計算されるためある。そのような非常に高品質のパラメトリック情報が保存されるという事実により、第２部分をより低い精度または通常はより低解像度でコア符号化することが可能になる。したがって、第２部分をかなり粗くコア符号化することで、ビットを節約することができ、したがって、それを符号化空間メタデータの表現に与えることができる。第２部分の非常に粗い符号化によって節約されたビットは、少なくとも２つの成分信号の最初の部分の高解像度符号化に利用することもできる。少なくとも２つの成分信号の高解像度または高品質の符号化は有用である。その理由は、デコーダ側では、パラメトリック空間データは第１の部分には存在せず、空間解析によってデコーダ内で導出されるからである。したがって、すべての空間メタデータをエンコーダで計算するのではなく、少なくとも２つの成分信号をコア符号化することで、そうしない場合には符号化メタデータが必要となるどのビットも確保しておくことができ、第１部分内の少なくとも２つの成分信号を高品質コア符号化することができる。

したがって、本発明によれば、音響シーンの第１部分と第２部分への分離は、例えば、ビットレート要件、音響品質要件、処理要件すなわちより多くの処理リソースがエンコーダーまたはデコーダーで使用可能かどうか、などに応じて、非常に柔軟な方法で行うことができる。好ましい実施形態では、第１部分と第２部分とへの分離は、コアエンコーダの機能性に基づいて行われる。特に、スペクトル帯域レプリケーション処理、インテリジェントギャップフィリング処理、ノイズフィリング処理など、特定の帯域にパラメトリック符号化操作を適用する高品質で低ビットレートのコアエンコーダの場合、空間パラメータに関する分離は、信号の非パラメトリック符号化部分が第１部分を形成し、信号のパラメトリック符号化部分が第２部分を形成するように行われる。したがって、通常は音声信号の低解像度符号化部分であるパラメトリック符号化第２部分に対して、空間パラメータのより正確な表現が得られ、その一方、より良い符号化に対して、すなわち高解像度符号化第１部分に対して、高品質のパラメータが得られる。その理由は、デコーダ側で第１部分の復号表現を用いて非常に高品質のパラメータを推定できるからである。

さらなる実施形態では、ビットレートをさらに低減するために、第２部分の空間パラメータを、エンコーダ内で、ある時間−周波数分解能で計算する。この時間−周波数分解能は、高いものでも低いものでもよい。高い時間−周波数分解能の場合、計算されたパラメータは、低時間−周波数分解能の空間パラメータを取得するために、特定の方法でグループ化される。これらの低時間−周波数解像度の空間パラメータは、それでいて、低解像度なだけで高品質の空間パラメータである。しかしながら、低解像度は、その時間長と周波数帯域の空間パラメータの数が減るため、伝送のためにはビットが節約される利点がある。ただし、空間データは時間および周波数に対してそれほど変化しないため、空間パラメータの数を減らしても、通常、それほど問題にはならない。したがって、第２部分に対する空間パラメータの低ビットレートでありながら良好な品質の表現が得られる。

第１部分に対する空間パラメータはデコーダ側で計算され、どこにも送信する必要がないため、解像度に関する妥協を行う必要はない。したがって、空間パラメータの高速かつ高周波数解像度の推定をデコーダ側で実行でき、この高解像度パラメトリックデータは、音響シーンの第１部分の良好な空間表現を提供するのに役立つ。したがって、第１部分に対する少なくとも２つの伝送された成分に基づいてデコーダ側で空間パラメータを計算する「欠点」は、高時間周波数分解能の空間パラメータを計算することにより、また、これらのパラメータを音響シーンの空間レンダリングで使用することにより、削減または取り除くことができる。これは、デコーダ側で実行されるどのような処理もエンコーダ／デコーダ間の伝送ビットレートに悪影響を及ぼすことはないので、ビットレートにどのような悪影響も及ぼすことはない。

本発明のさらなる実施形態は、第１部分について、少なくとも２つの成分が符号化および伝送され、少なくとも２つの成分に基づいて、パラメトリックデータ推定がデコーダ側で実行できる状況に依存する。しかし、一実施形態では、第２表現のために単一のトランスポートチャンネルのみを符号化することが好ましいので、音響シーンの第２部分は、実質的に低いビットレートで符号化できる。このトランスポートチャンネルすなわちダウンミックスチャンネルは、第１部分と比較して非常に低いビットレートで表現される。その理由は、第１部分では符号化のために２つ以上の成分が必要であり、デコーダ側の空間解析に十分なデータが必要であるのに対し、第２部分では単一のチャンネルまたは成分のみが符号化されるからである。

したがって、本発明は、エンコーダまたはデコーダ側で利用可能なビットレート、音響品質、および処理要件に関して、追加の柔軟性を提供する。

本発明の望ましい実施形態を添付図面を参照して以下に説明する。

音響シーンエンコーダの一実施形態を示すブロック図である。音響シーンデコーダの一実施形態を示すブスック図である。（ａ）は非符号化信号からのＤｉｒＡＣ解析であり、（ｂ）は符号化低次元信号からのＤｉｒＡＣ解析である。ＤｉｒＡＣ空間サウンド処理を音響符号器と組み合わせたエンコーダおよびデコーダの全体図を示す。（ａ）は非符号化信号からのＤｉｒＡＣを示し、（ｂ）は時間−周波数領域のパラメータのグループ化およびパラメータの量子化を用いる非符号化信号からのＤｉｒＡＣを示す。従来技術のＤｉｒＡＣ解析段を示す。従来技術のＤｉｒＡＣ解析段を示す。異なる部分に対する例として、異なるオーバーラップ時間フレームを示す。異なる部分に対する例として、異なる周波数帯域を示す。音響シーンエンコーダの別の実施形態を示す。音響シーンデコーダの一実施形態を示す。音響シーンエンコーダの別の実施形態を示す。音響シーンデコーダの別の実施形態を示す。周波数領域コアエンコーダを有する音響シーンエンコーダの別の実施形態を示す。時間領域コアエンコーダを有する音響シーンエンコーダの別の実施形態を示す。周波数領域コアエンコーダを有する音響シーンエンコーダの別の実施形態を示す。時間領域コアエンコーダを有する音響シーンエンコーダの別の実施形態を示す。空間レンダラの実施形態を示す。

図１ａは、少なくとも２つの成分信号を含む音響シーン１１０をエンコードするための音響シーンエンコーダを示す。音響シーンエンコーダは、少なくとも２つの成分信号をコア符号化するためのコアエンコーダ１００を備える。具体的には、コアエンコーダ１００は、少なくとも２つの成分信号の第１部分に対して第１の符号化表現３１０を生成し、少なくとも２つの成分信号の第２部分に対して第２の符号化表現３２０を生成するように構成される。音響シーンエンコーダは、音響シーンを解析して、第２部分の１または複数の空間パラメータまたは１または複数の空間パラメータセットを導出する空間解析器を備える。音響シーンエンコーダは、符号化音響シーン信号３４０を形成するための出力インタフェース３００を備える。符号化音響シーン信号３４０は、少なくとも２つの成分信号の第１部分を表す第１の符号化表現３１０、第２エンコーダ表現３２０、および第２部分のためのパラメータ３３０を有する。空間解析器２００は、元の音響シーン１１０を使用して少なくとも２つの成分信号の第１部分に空間解析を適用するように構成される。これとは別に、空間解析は、音響シーンの縮小次元表現に基づいて実行することもできる。例えば、音響シーン１１０が、例えば、マイクロホンアレイに配置されたいくつかのマイクロホンの記録を含む場合、空間解析２００は、もちろん、このデータに基づいて実行される。しかしながら、コアエンコーダ１００は、音響シーンの次元を、例えば、一次アンビソニックス表現またはそれより高次のアンビソニックス表現に低減するように構成される。基本バージョンでは、コアエンコーダ１００は、次元を、例えば、無指向性コンポーネントと、Ｂフォーマット表現のＸ、Ｙ、またはＺなどの少なくとも１つの指向性コンポーネントとからなる、少なくとも２つのコンポーネントに低減するだろう。ただし、より高次の表現やＡ形式の表現などの他の表現も同様に利用できる。第１部分の第１のエンコーダ表現は、このとき、復号可能である少なくとも２つの異なる成分からなることになり、通常、各成分の符号化された音響信号からなる。

第２部分に対する第２のエンコーダ表現は、同数の成分からなるか、あるいは、第２部分のコアコーダによって符号化された単一の全方向性成分のみなど、より低い数を有することができる。コアエンコーダ１００が元の音響シーン１１０の次元を低減する実装の場合、低減された次元の音響シーンは、オプションとして、元の音響シーンの代わりにライン１２０を介して空間解析器に転送することができる。

図１ｂは、符号化された音響シーン信号３４０を受信するための入力インターフェース４００を備える音響シーンデコーダを示す。この符号化された音響シーン信号は、第１の符号化表現４１０、第２の符号化表現４２０および第２部分の１または複数の空間パラメータを含む。第２部分の符号化表現は、これも、符号化された単一の音響チャンネルであるか、または２以上の符号化された音響チャンネルを含むことができる。一方、第１部分の第１の符号化表現は、少なくとも２つの異なる符号化音響信号を含む。第１の符号化表現における音響信号、または利用可能な場合には第２の符号化表現における異なる符号化音響信号は、一緒に符号化されたステレオ信号などの一緒に符号化された信号であるか、あるいは、さらに好ましくは、個別に符号化されたモノラルの音響信号である。

第１の部分の第１の符号化表現４１０および第２の部分の第２の符号化表現４２０を含む符号化表現は、第１の符号化表現および第２の符号化表現を復号化して少なくとも２つの復号化表現を取得し音響シーンを表現する少なくとも２つの成分信号からなる復号表現を得るためのコアデコーダに入力される。復号表現は、８１０に示される第１部分の第１の復号表現および８２０に示される第２部分の第２の復号表現を含む。第１の復号表現は、少なくとも２つの成分信号の第１部分に相当する復号表現の部分を解析し少なくとも２つの成分信号の第１部分に対する１以上の空間パラメータ８４０を得るため、空間解析器６００に転送される。音響シーンデコーダはまた、図１ｂの実施形態では、第１部分８１０の第１の復号表現および第２部分８２０の第２の復号表現を含む復号表現を空間的にレンダリングするための空間レンダラ８００を備える。空間レンダラ８００は、音響レンダリングの目的で、第１部分に対して空間解析器から導出されたパラメータ８４０と、第２部分に対して、パラメータ／メタデータデコーダ７００を介して復号されたパラメータから導出されたパラメータ８３０と、を使用するように構成されている。符号化信号内のパラメータの表現が非符号化形式の場合、パラメータ／メタデータデコーダ７００は不要であり、少なくとも２つの成分信号の第２部分の１以上の空間パラメータは、入力インタフェース４００から直接、逆多重化または特定の処理操作の後で、データ８３０として空間レンダラ８００に送られる。

図６ａは、異なる典型的に重複する時間フレームＦ１からＦ４の概略図を示す。図１ａのコアエンコーダ１００は、少なくとも２つの成分信号からそのような後続の時間フレームを形成するように構成される。そのような状況では、第１の時間フレームを第１部分とし、第２の時間フレームを第２部分とすることができる。したがって、本発明の実施形態によれば、第１部分を第１の時間フレームとすることができ、第２部分を別の時間フレームとすることができ、第１および第２部分の間の切り替えは、経時的に実行することができる。図６ａは重なり合う時間フレームを示しているが、重なり合わない時間フレームも同様に利用できる。図６ａは、等しい長さを有する時間フレームを示すが、切り替えは、異なる長さを有する時間フレームを用いて行うこともできる。したがって、例えば、時間フレームＦ２が時間フレームＦ１よりも小さい場合、これにより、第１の時間フレームＦ１に対して第２の時間フレームＦ２の時間分解能が増加することになる。そして、増加した解像度を有する第２の時間フレームＦ２は、その成分に関して符号化される第１部分に対応することが好ましく、一方、第１の時間部分、すなわち低解像度データは、低解像度で符号化される第２部分に相当することになるが、この第２部分に対する空間パラメータは、全体の音響シーンがエンコーダで得られるので、どのような解像度で計算してもよい。

図６ｂは、少なくとも２つの成分信号のスペクトルが特定の数の帯域Ｂ１、Ｂ２、…、Ｂ６、…を有するものとして示されている代替の実装を示す。好ましくは、帯域は、知覚的に動機付けされたスペクトルの帯域分割を行うために、最低から最高の中心周波数に増加する異なる帯域幅を有する帯域に分離される。少なくとも２つの成分信号の第１部分は、例えば、最初の４つの帯域からなることができ、例えば、第２の部分は、帯域Ｂ５および帯域Ｂ６からなることができる。これは、コアエンコーダがスペクトル帯域レプリケーションを実行し、非パラメトリックに符号化された低周波数部分とパラメトリックに符号化された高周波数部分の間のクロスオーバ周波数が帯域Ｂ４と帯域Ｂ５の境界になるような状況と一致する。

これとは別に、インテリジェントギャップフィリング（ＩＧＦ）またはノイズフィリング（ＮＦ）の場合、帯域は信号解析に合わせて任意に選択されるため、第１部分は、例えば帯域Ｂ１、Ｂ２、Ｂ４、Ｂ６からなり、第２部分は、Ｂ３、Ｂ５、およびおそらく別のより高い周波数帯域となる。したがって、図６ｂに示されているように、帯域が最低から最高の周波数に増加する帯域幅を持つ典型的なスケールファクタ帯域であるかどうか、あるいは帯域が同じサイズの帯域であるかどうか、には関係なく、音響信号の帯域への非常に柔軟な分離を実行できます。第１部分と第２部分との間の境界は、コアエンコーダで通常使用されるスケールファクタ帯域と必ずしも一致する必要はないが、第１部分と第２部分の間の境界と、スケールファクタ帯域と隣接するスケールファクタ帯域との境界とは、一致することが望ましい。

図７ａは、音響シーンエンコーダの好ましい実施を示す。特に、音響シーンは、好ましくは図１ａのコアエンコーダ１００の一部である信号分離器１４０に入力される。図１ａのコアエンコーダ１００は、両方の部分、すなわち、音響シーンの第１部分と音響シーンの第２部分のための次元削減器１５０ａおよび１５０ｂを備える。次元低減器１５０ａの出力には、第１部分のために音響エンコーダ１６０ａで符号化される少なくとも２つの成分信号が存在する。音響シーンの第２部分の次元削減器１５０ｂは、次元削減器１５０ａと同じ構成を含むことができる。しかしながら、代替として、次元低減器１５０ｂによって得られる低減された次元は、少なくとも１つのトランスポート／成分信号の第２の符号化表現３２０を得るために、音響エンコーダ１６０ｂによって次に符号化される単一のトランスポートチャンネルとすることもできる。

第１の符号化表現に対する音響エンコーダ１６０ａは、波形を維持するか、非パラメトリック、または高時間または高周波数解像度のエンコーダを含むことができる。一方、音響エンコーダ１６０ｂは、ＳＢＲエンコーダ、ＩＧＦエンコーダ、ノイズ充填エンコーダ、あるいは他の低時間または周波数解像度のものなどのパラメトリックエンコーダである。したがって、音響エンコーダ１６０ｂは、通常は、音響エンコーダ１６０ａと比較して低い品質の出力表現をもたらす。この「欠点」は、元の音声シーン、あるいは、次元削減音声シーンが少なくとも２つの成分信号を依然として含む場合には次元削減音声シーン、を空間データ解析器２１０を介して空間解析を実行することによって対処される。空間データ解析器２１０によって得られた空間データは、符号化された低解像度空間データを出力するメタデータエンコーダ２２０に転送される。ブロック２１０、２２０は共に、好ましくは図１ａの空間解析器ブロック２００に内包される。

好ましくは、空間データ解析器が、高周波解像度または高時間解像度などの高解像度で空間データ解析を実行し、符号化されたメタデータに必要なビットレートを妥当な範囲に保つために、高解像度空間データをグループ化し、符号化された低解像度の空間データを得るようにメタデータエンコーダによってエントロピー符号化することが好ましい。例えば、空間データ解析が、例えばフレームごとに８個のタイムスロットとタイムスロットごとに１０個の帯域に対して実行される場合、空間データをフレームごとに１つの空間パラメータに、そして例えばパラメータごとに５個の帯域にグループ化できる。

一方では方向データを計算し、他方では拡散性データを計算することが好ましい。このとき、メタデータエンコーダ２２０は、方向性データおよび拡散性データについて、異なる時間／周波数解像度で符号化データを出力するように構成される。通常、指向性データは、拡散性データよりも高い解像度を必要とする。異なる解像度でパラメトリックデータを計算するための好ましい方法は、両方のパラメトリック種類について高解像度で、通常は同じ解像度で、空間解析を実行し、次に、異なるパラメータ種に対して異なる方法で異なるパラメトリック情報を用いて時間および／または周波数でグループ化を実行し、例えば方向性データに対して中程度の時間および／または周波数解像度を有し、拡散度データに対して低解像度を有する符号化低解像度空間データ出力３３０を有するようにする。

図７ｂは、対応する音響シーンデコーダのデコーダ側の実装を示す。

図１ｂのコアデコーダ５００は、図７ｂの実施形態では、第１の音響デコーダインスタンス５１０ａおよび第２の音響デコーダインスタンス５１０ｂを有する。好ましくは、第１の音響デコーダインスタンス５１０ａは、非パラメトリックまたは波形保存または高解像度（時間および／または周波数において）エンコーダであり、出力に、少なくとも２つの成分信号の復号第１部分を生成する。このデータ８１０は、一方で、図１ｂの空間レンダラ８００に送られ、さらに、空間解析器６００に入力される。好ましくは、空間解析器６００は、好ましくは第１部分に対して高解像度空間パラメータを計算する高解像度空間解析器である。通常、第１部分の空間パラメータの解像度は、パラメータ／メタデータデコーダ７００に入力される符号化されたパラメータに関連付けられている解像度よりも高い。しかしながら、ブロック７００により出力されるエントロピー復号された低時間または周波数解像度の空間パラメータは、解像度向上７１０のためにパラメータデグルーパに入力される。そのようなパラメータのデグループ（グループ化解除）は、送信されたパラメータを特定の時間−周波数タイルにコピーすることによって実行することができ、グループ化解除は、図７ａのエンコーダ側メタデータエンコーダ２２０で実行された対応するグループ化に従って実行される。当然、グループ化解除とともに、必要に応じて、さらに処理または平滑化操作を実行できる。

このとき、ブロック７１０の結果は、第２部分に対して復号された望ましくは高解像度パラメータの集まりであり、通常は、第１部分に対するパラメータ８４０と同じ解像度を有する。また、第２の部分の符号化表現は、音響デコーダ５１０ｂによって復号され、通常少なくとも１つの、または少なくとも２つの成分を有する信号の復号された第２部分８２０を取得する。

図８ａは、図３に関して論じられた機能に依存するエンコーダの好ましい実装を示す。特に、マルチチャンネル入力データ、または一次アンビソニックスまたは高次アンビソニックス入力データ、またはオブジェクトデータは、Ｂフォーマット変換器に入力される。Ｂフォーマット変換器は、例えば、通常は全方向性音響信号などの４つのＢフォーマットコンポーネントと、Ｘ、Ｙ、Ｚなどの３つの方向性音響信号を生成するために、個々の入力データを変換および結合する。

あるいは、フォーマット変換器またはコアエンコーダに入力される信号は、第１部分に配置された無指向性マイクロホンによって捕捉された信号、および第１部分とは異なる第２部分に配置された無指向性マイクロホンによって捕捉された別の信号でもよい。さらには、音響シーンは、第１の成分信号として、第１の方向に向けられた指向性マイクロホンによって捕捉された信号と、第２の成分として、第１の方向とは異なる第２の方向に指向された別の指向性マイクロホンによって捕捉された少なくとも１つの信号とを含むこともできる。これらの「指向性マイクホン」は、必ずしも実際のマイクロホンである必要はなく、仮想マイクロホンでも良い。

ブロック９００への音響入力、またはブロック９００による出力、または一般に音響シーンとして使用される音響としては、Ａフォーマットの成分信号、Ｂ形フォーマットの成分信号、１次アンビソニックスの成分信号、高次アンビソニックスの成分信号、または少なくとも２つのマイクロホンカプセルを有するマイクロホンアレイにより捕えられた成分信号または仮想マイク処理から計算された成分信号を用いることができる。

図１ａの出力インターフェース３００は、符号化音響シーン信号への第２部分について、空間解析器によって生成された１以上の空間パラメータと同じパラメータ種からのどのような空間パラメータも含まないように構成される。

したがって、第２部分のパラメータ３３０が到着方向データおよび拡散性データである場合、第１部分の第１の符号化表現は、到着方向データおよび拡散性データを含まないが、もちろん、他の任意のパラメータを含むことができ、それらは、スケール係数、ＬＰＣ係数など、コアエンコーダによって計算される。

さらに、信号分離器１４０によって実行される帯域分離は、異なる部分が異なる帯域である場合、第２部分の開始帯域が帯域幅拡張開始帯域よりも低くなるように実装することができ、さらに、コアノイズ充填は、必ずしも一定のクロスオーバー帯域を適用する必要はないが、周波数が増加するにつれて、コアスペクトルのより多くの部分に徐々に使用することができる。

さらに、時間フレームの第２周波数サブバンドに対するパラメトリックまたは大規模パラメトリック（ｌａｒｇｅｌｙｐａｒａｍｅｔｒｉｃ）処理は、第２周波数サブバンドの振幅関連パラメータの計算と、第２周波数サブバンドの個々のスペクトル線の代わりに、この振幅関連パラメータの量子化およびエントロピー符号化を含む。第２部分の低解像度表現を形成するそのような振幅関連パラメータは、例えば、各スケールファクタ帯域に対して、例えば、１つのスケールファクタまたはエネルギ値のみを有するスペクトル包絡線表現によって与えられ、その一方で、高解像度の第１部分は、個々のＭＤＣＴまたはＦＦＴまたは一般的な個々のスペクトル線に依存する。

したがって、少なくとも２つの成分信号の第１部分は、各成分信号の特定の周波数帯域によって与えられ、各成分信号の特定の周波数帯域は、第１部分の符号化表現を取得するために、いくつかのスペクトル線を用いて符号化される。しかしながら、第２部分については、第２部分の個々のスペクトル線の合計、第２部分のエネルギを表す２乗スペクトル線の和、またはスペクトル部分に対するラウドネス測定値を表すスペクトル線の３乗の和は、第２部分のパラメトリック符号化表現に対しても使用することができる。

再び図８ａを参照すると、個々のコアエンコーダ・ブランチ１６０ａ、１６０ｂを含むコアエンコーダ１６０は、第２部分に対するビームフォーミング／信号選択手順を含むことができる。したがって、図８ｂの１６０ａ、１６０ｂで示されるコアエンコーダは、一方で、４つすべてのＢフォーマット成分の符号化第１部分と、単一のトランスポートチャンネルの符号化第２部分と、第２部分に依存してＤｉｒＡＣ解析２１０により生成された第２部分に対する空間メタデータとを出力し、後続の空間メタデータエンコーダ２２０に接続される。

デコーダ側では、符号化された空間メタデータが空間メタデータデコーダ７００に入力され、８３０に示される第２部分のパラメータが生成される。通常、要素で構成されるＥＶＳベースのコアデコーダとして実装される好ましい実施形態であるコアデコーダ５１０ａ、５１０ｂは、両方の部分からなる復号された表現を出力するが、両方の部分はまだ分離されていない。復号表現は周波数解析ブロック８６０に入力され、周波数解析器８６０は、第１部分の成分信号を生成し、それをＤｉｒＡＣ解析器６００に転送して、第１部分に対するパラメータ８４０を生成する。第１および第２部分のトランスポートチャンネル／成分信号は、周波数解析器８６０からＤｉｒＡＣシンセサイザ８００に転送される。ＤｉｒＡＣシンセサイザは、この実施形態では、どのような知識ももたず、実際にどのような特定の知識も必要としないので、通常通り動作する。これは、第１部分および第２部分に対するパラメータが、エンコーダ側で生成されたかデコーダ側で生成されたかには関係ない。その代わり、ＤｉｒＡＣシンセサイザ８００とＤｉｒＡＣシンセサイザの両方で、８６２で示される音響シーンを表す少なくとも２つの成分信号の復号表現の周波数表現と、双方の部分に対するパラメータ、ラウドスピーカ出力、一次アンビソニックス（ＦＯＡ）、高次アンビソニックス（ＨＯＡ）、または両耳出力とに基づいて、「同じ」パラメータを生成することができる。

図９ａは、音響シーンエンコーダの別の好ましい実施形態を示す。ここで、図１ａのコアエンコーダ１００は、周波数領域エンコーダとして実装されている。この実装では、コアエンコーダによって符号化される信号は、好ましくは時間スペクトル変換または分解を典型的には重複する時間フレームに適用する解析フィルタバンク１６４に入力される。コアエンコーダは、波形維持エンコーダプロセッサ１６０ａとパラメトリックエンコーダプロセッサ１６０ｂを備える。第１部分および第２部分へのスペクトル部分の分配は、モードコントローラ１６６によって制御される。モードコントローラ１６６は、信号解析、ビットレート制御に依存するか、または固定設定を適用することができる。通常、音響シーンエンコーダは、異なるビットレートで動作するように構成でき、その場合、第１部分と第２部分の間の所定の境界周波数は選択したビットレートに依存し、所定の境界周波数は、低ビットレートの場合は低く、高ビットレートの場合は高くする。

これとは別に、モードコントローラは、入力信号のスペクトルを解析するインテリジェントギャップフィリングから知られる調性マスク処理機能を備え、高スペクトル解像度で符号化する必要のある帯域を決定し、それが最終的に符号化第１部分となる。また、パラメトリックな方法で符号化できる帯域を決定し、それが最終的に復号第２部分となる。モードコントローラ１６６は、エンコーダ側の空間解析器２００も制御し、好ましくは空間解析器の帯域分離器２３０または空間解析器のパラメータ分離器２４０を制御するように構成される。これにより、最終的に、第１部分ではなく第２部分の空間パラメータのみが生成され、符号化シーン信号に出力される。

特に、空間解析器２００が音響シーン信号を解析フィルタバンクに入力される前またはフィルタバンクに入力された後のいずれかで直接に受信する場合、空間解析器２００は、第１部分および第２部分を全体にわたって解析し、続いてパラメータ分離器２４０は、符号化シーン信号に出力するため、第２部分に対するパラメータを選択する。これとは別に、空間解析器２００が帯域分離器から入力データを受信し、帯域分離器２３０が既に第２部分のみを送出しているとき、パラメータ分離器２４０はもはや何も必要としない。その理由は、空間解析器２００が、とにかく第２部分のみを受信し、第２部分に対する空間データを出力するだけだからである。

したがって、第２部分の選択は、空間解析の前または後に実行することができ、好ましくはモードコントローラ１６６によって制御されるか、または固定的に実装されることもできる。空間解析器２００は、エンコーダの解析フィルタバンクに頼るか、あるいは、図９ａには示されていないが、例えば、図５ａの１０００にてＤｉｒＡＣ解析段の実装として示されるような自身の個別のフィルタバンクを使用する。

図９ｂは、図９ａの周波数領域エンコーダとは対照的に、時間領域エンコーダを示す。解析フィルタバンク１６４の代わりに帯域分離器１６８が設けられる。この帯域分離器１６８は、図９ａのモードコントローラ１６６（図９ｂには図示せず）によって制御されるか、または固定式である。制御される場合、ビットレート、信号解析、またはこの目的に役立つその他の手順に基づいて、制御を実行できる。帯域分離器１６８に入力される典型的にはＭ個の成分は、一方では低帯域時間領域エンコーダ１６０ａによって、そして他方では時間領域帯域幅拡張パラメータ計算器１６０ｂによって、処理される。好ましくは、低帯域時間領域エンコーダ１６０ａは、Ｍ個の個別成分が符号化された形式の第１の符号化表現を出力する。これに対して、時間領域帯域幅拡張パラメータ計算器１６０ｂによって生成された第２の符号化表現は、Ｎ個のコンポーネント／トランスポート信号のみを含み、ＮはＭよりも小さく、Ｎは１以上である。

空間解析器２００がコアエンコーダの帯域分離器１６８に依存するかどうかに応じて、別個の帯域分離器２３０は必要とされない。しかしながら、空間解析器２００が帯域分離器２３０に依存している場合、図９ｂのブロック１６８とブロック２００との間の接続は、必要ではない。帯域分離器１６８または２３０のいずれも空間解析器２００の入力に接続されない場合、空間解析器は全帯域解析を実行し、帯域分離器２４０は、出力に転送される第２部分の空間パラメータのみを分離し、出力インタフェースに送られるか、または符号化音響シーンとなる。

したがって、図９ａは、エントロピー符号化を量子化するための波形保存エンコーダプロセッサ１６０ａまたはスペクトルエンコーダを示しているが、図９ｂの対応するブロック１６０ａは、ＥＶＳエンコーダ、ＡＣＥＬＰエンコーダ、ＡＭＲエンコーダなどの任意の時間領域エンコーダ、または同様のエンコーダである。ブロック１６０ｂが周波数領域パラメトリックエンコーダまたは一般的なパラメトリックエンコーダを示しているのに対し、図９ｂのブロック１６０ｂは、基本的に、場合によってはブロック１６０と同じパラメータまたは異なるパラメータを計算できる時間領域帯域幅拡張パラメータ計算機である。

図１０ａは、周波数領域デコーダを示す。この周波数領域デコーダは、典型的には、図９ａの周波数領域エンコーダと対応する。符号化第１部分を受信するスペクトルデコーダは、１６０ａに示されるように、エントロピーデコーダ、逆量子化器、および例えばＡＡＣ符号化または他の任意のスペクトル領域符号化で知られる他の任意の要素を有する。第２部分の第２の符号化表現として帯域ごとのエネルギなどのパラメトリックデータを受け取るパラメトリックデコーダ１６０ｂは、通常、ＳＢＲデコーダ、ＩＧＦデコーダ、ノイズフィリングデコーダまたは他のパラメトリックデコーダとして動作する。第１部分のスペクトル値と第２部分のスペクトル値は、符号化表現を得るために、合成フィルターバンク１６９に入力される。得られた符号化表現は、通常は、空間レンダリングの目的で空間レンダラに転送される。

第１部分は、空間解析器６００に直接転送されてもよく、第１部分を帯域分離器６３０を介して合成フィルタバンク１６９の出力における復号表現から導出することもできる。状況により、パラメータ分離器６４０は有っても無くてもよい。空間解析器６００が第１部分のみを受け取る場合、帯域分離器６３０およびパラメータ分離器６４０は必要とされない。空間解析器６００が復号表現を受け取り、帯域分離器が無い場合には、パラメータ分離器６４０が必要である。復号表現が帯域分離器６３０に入力される場合、空間解析器６００は第１部分の空間パラメータのみを出力するので、空間解析器にとってパラメータ分離器６４０を有する必要はない。

図１０ｂは、図９ｂの時間領域エンコーダと一対応する時間領域デコーダを示す。特に、第１の符号化表現４１０は低帯域時間領域デコーダ１６０ａに入力され、復号された第１部分は結合器１６７に入力される。帯域幅拡張パラメータ４２０は、第２部分を出力する時間領域帯域幅拡張プロセッサに入力される。第２部分も結合器１６７に入力される。実装によっては、結合器を実装して、第１部分と第２部分がスペクトル値の場合にはスペクトル値を結合するか、または、第１部分と第２部分が既に時間領域標本として得られている場合にはそれらの時間領域標本を結合する。結合器１６７の出力は、図１０ａに関して前述したものと同様に、帯域分離器６３０の有無にかかわらず、またはパラメータ分離器６４０の有無にかかわらず、どの場合でも、空間解析器６００によって処理することのできる復号表現である。

図１１は、空間レンダラの好ましい実装を示す。ただし、ＤｉｒＡＣパラメータまたはＤｉｒＡＣパラメータ以外のパラメータに依存するもの、またはＨＯＡ表現のような直接的なラウドスピーカ表現とは異なるレンダリング信号の表現を生成するもの、も同様に実装できる。通常、ＤｉｒＡＣシンセサイザ８００へのデータ８６２入力は、図１１の左上隅に示されているように、第１部分と第２部分に対するＢフォーマットなどのいくつかの成分で構成される。また、第２部分が複数の成分で得られるのではなく、単一成分だけの場合もある。そのような状況を、図１１の左側下部に示す。特に、例えば第１部分と第２部分がすべての成分を持つ場合、すなわち、図８ｂの信号８６２がＢフォーマットのすべての成分を含む場合、すべての成分の全スペクトルが利用可能であり、時間−周波数分解により、個々の時間−周波数タイルごとに処理を実行することができる。この処理は、ラウドスピーカ配置の各ラウドスピーカに対して、復号表現からラウドスピーカ成分を計算するために、仮想マイクロホンプロセッサ８７０ａによって行われる。

これに代えて、第２部分が単一の成分でのみ利用可能な場合、第１部分の時間−周波数タイルは仮想マイクロホンプロセッサ８７０ａに入力され、その一方、第２部分の単一またはより少数成分に対する時間／周波数部分は、プロセッサ８７０ｂに入力される構成とすることもできる。プロセッサ８７０ｂは、例えば、コピー動作を実行するだけである。すなわち、単一のトランスポートチャンネルを、各ラウドスピーカ信号用の出力信号にコピーする。したがって、この代替構成の仮想マイクロホンプロセッサ８７０ａの処理は、単純なコピー操作によって置き換えられる。

次に、第１の実施形態におけるブロック８７０ａすなわち第１部分に対する８７０ａおよび第２部分に対するブロック８７０ｂの出力は、１以上の空間パラメータを使用して出力成分信号を修正するため、利得プロセッサ８７２に入力される。このデータはまた、１以上の空間パラメータを使用して非相関化された出力成分信号を生成するために、重み付け器／非相関化プロセッサ８７４に入力される。ブロック８７２の出力およびブロック８７４の出力は、各成分に対して動作する結合器８７６内で結合され、これにより、ブロック８７６の出力には、各ラウドスピーカ信号の周波数領域表現が得られる。

次に、合成フィルタバンク８７８により、すべての周波数領域ラウドスピーカ信号が時間領域表現に変換され、生成された時間領域ラウドスピーカ信号をデジタルアナログ変換して、定義されたラウドスピーカ位置に配置された対応するラウドスピーカを駆動するために使用することができる。

通常、利得プロセッサ８７２は、空間パラメータ、そして好ましくは到着データの方向などの方向パラメータ、そしてオプションとして拡散性パラメータ、に基づいて動作する。さらに、重み付け／非相関化プロセッサは、空間パラメータに基づいて動作し、また、好ましくは拡散性パラメータに基づいて動作する。

したがって、実装では、利得プロセッサ８７２は、１０１５で示される図５ｂの非拡散ストリームを生成し、重み付け／非相関化プロセッサ８７４は、例えば図５ｂの上部分岐１０１４によって示されるような拡散ストリームを生成する。しかしながら、異なる手順、異なるパラメータ、および直接信号と拡散信号を生成するための異なる方法に依存する他の実装も同様に可能である。

技術水準に対する好ましい実施形態の例示的な利益および利点は、以下のとおりである。
本発明の実施形態は、デコーダ側で推定された空間パラメータを有するように選択された信号の部分に対して、信号全体に対してエンコーダ側で推定および符号化されたパラメータを使用するシステムよりも、より良い時間−周波数分解能を提供する。
本発明の実施形態は、エンコーダでのパラメータの解析、符号化およびデコーダへのパラメータの伝送により再構成された信号部分に対して、空間パラメータが復号低次元音響信号を使用してデコーダで推定されるシステムよりも、より良い空間パラメータ値を提供する。
本発明の実施形態は、信号全体のコード化パラメータを使用するシステムまたは信号全体のデコーダ側推定パラメータを使用するシステムのいずれよりも、時間−周波数分解能、伝送速度、およびパラメータ精度の間のより柔軟なトレードオフを可能にする。
本発明の実施形態は、主にパラメトリック符号化ツールを使用して符号化された信号部分に対して、エンコーダ側の推定と信号部分の一部またはすべての空間パラメータの符号化を選択すること、およびそれらの部分に対して一部またはすべての空間パラメータを符号化することにより、より良好なパラメータ精度を提供し、主として符号化される信号部分に対して、波形維持符号化ツールを使用し、それらの信号部分に対する空間パラメータの推定をデコーダ側に委ねることで、より良好な時間−周波数分解能を提供する。

Ｖ．Ｐｕｌｋｋｉ，Ｍ−ＶＬａｉｔｉｎｅｎ，ＪＶｉｌｋａｍｏ，ＪＡｈｏｎｅｎ，ＴＬｏｋｋｉａｎｄＴＰｉｈｌａｊａｍａｅｋｉ， "Ｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ − ｐｅｒｃｅｐｔｉｏｎ−ｂａｓｅｄｒｅｐｒｏｄｕｃｔｉｏｎｏｆｓｐａｔｉａｌｓｏｕｎｄ"，ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎｔｈｅＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｏｎＳｐａｔｉａｌＨｅａｒｉｎｇ，Ｎｏｖ．２００９，Ｚａｏ；Ｍｉｙａｇｉ，Ｊａｐａｎ．ＶｉｌｌｅＰｕｌｋｋｉ． "Ｖｉｒｔｕａｌｓｏｕｒｃｅｐｏｓｉｔｉｏｎｉｎｇｕｓｉｎｇｖｅｃｔｏｒｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ"．Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，４５（６）：４５６｛４６６，Ｊｕｎｅ１９９７．

欧州特許出願第１７２０２３９３．９号，“ＥＦＦＩＣＩＥＮＴＣＯＤＩＮＧＳＣＨＥＭＥＳＯＦＤＩＲＡＣＭＥＴＡＤＡＴＡ”．欧州特許出願第１７１９４８１６．９号“Ａｐｐａｒａｔｕｓ，ｍｅｔｈｏｄａｎｄｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｆｏｒｅｎｃｏｄｉｎｇ，ｄｅｃｏｄｉｎｇ，ｓｃｅｎｅｐｒｏｃｅｓｓｉｎｇａｎｄｏｔｈｅｒｐｒｏｃｅｄｕｒｅｓｒｅｌａｔｅｄｔｏＤｉｒＡＣｂａｓｅｄｓｐａｔｉａｌａｕｄｉｏｃｏｄｉｎｇ”

本発明の符号化されたオーディオ信号は、デジタル記憶媒体または非一時的記憶媒体に記憶することができ、あるいは、無線伝送媒体またはインターネットなどの有線伝送媒体のような伝送媒体上で伝送することができる。

いくつかの側面を装置として説明したが、これらの側面は、対応する方法の説明をも表していることは明らかである。その場合、ブロックまたは装置が、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された側面も、対応する装置の対応するブロックまたは項目または特徴の記述を表している。

特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。この実施は、デジタル記憶媒体、例えばフレキシブルディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行することができ、その上に記憶された電子的に読み取り可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働するまたは協働することができる。

本発明によるいくつかの実施形態は、本明細書に記載された方法が実行されるように、プログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータ担体を含む。

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するときに方法の１つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械可読担体に記憶することができる。

他の実施形態は、本明細書に記載された方法のうちの１つを実行するためのコンピュータプログラムを含み、機械可読担体または非一時的記憶媒体に記憶される。

言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で動作するときに、本明細書に記載された方法のを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の方法のさらなる実施形態は、本明細書に記載の方法を実行するためのコンピュータプログラムを記録したデータ担体（すなわち、デジタル記憶媒体またはコンピュータ可読媒体）である。

本発明の方法のさらなる実施形態は、本明細書で説明される方法を実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続、例えばインターネット、を介して転送されるように構成することができる。

さらなる実施形態は、本明細書で説明される方法のうちの１つを実行するように構成されまたは適合された、例えば、コンピュータ、またはプログラマブルロジックデバイスなどの処理手段を含む。

さらなる実施形態は、本明細書に記載された方法のうちの１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明される方法のを実行するために、マイクロプロセッサと協働することができる。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。

上記の実施形態は、本発明の原理を説明するためのものに過ぎない。本明細書に記載された構成および細部の変更および変形は、当業者には明らかであることが理解されよう。したがって、本発明は、特許請求の範囲によってのみ限定されるものであり、本明細書の実施形態の説明および説明によって提示された特定の詳細によっては限定されるものではない。

Claims

少なくとも２成分の信号を含む音響シーン（１１０）を符号化する音響シーンエンコーダであり、
前記少なくとも２成分の信号をコア符号化して、前記少なくとも２成分の信号の第１部分に対して第１の復号化表現（３１０）を生成し、前記少なくとも２成分の信号の第２の部分に対して第２の復号化表現（３２０）を生成するコアエンコーダと、
前記音響シーン（１１０）を解析して、前記第２部分に対する１以上の空間パラメータ（３３０）または１以上の空間パラメータセットを生成する空間解析器（２００）と、
前記第１復号化表現（３１０）、前記第２復号化表現（３２０）、および前記第２部分に対する前記１以上の空間パラメータ（３３０）または前記１以上の空間パラメータセット、を含む第２の符号化音響シーン信号（３４０）を形成する出力インタフェース（３００）と、
を備える音響シーンエンコーダ。
前記コアエンコーダは、前記少なくとも２成分の信号から後続時間フレームを形成する構成であり、
前記少なくとも２成分の信号の第１の時間フレームが前記少なくとも２成分の信号の前記第１部分であり、前記少なくとも２成分の信号の第２の時間フレームが前記第２部分である、または、
前記少なくとも２成分の信号の時間フレームの第１の周波数サブバンドが前記少なくとも２成分の信号の前記第１部分であり、前記少なくとも２成分の信号の時間フレームの第２の周波数サブバンドが前記少なくとも２成分の信号の前記第２部分である、
請求項１に記載の音響シーンエンコーダ。
前記音響シーン（１１０）は、第１の成分信号として全方向性オーディオ信号を含み、第２の成分信号として少なくとも１つの指向性オーディオ信号とを含む、または、
前記音響シーン（１１０）は、第１の成分信号として第１の位置に配置された全方向性マイクロフォンによって捕捉された信号を含み、第２の成分信号として第１の位置とは異なる第２の位置に位置する全方向性マイクロフォンによって捕捉された少なくとも１つの信号を含む、または、
前記音響シーン（１１０）は、第１の成分信号として第１の方向に向けられた指向性マイクロフォンによって捕捉された少なくとも１つの信号を含み、第２の成分信号として前記第１の方向と異なる第２の方向に向けられた指向性マイクロフォンによって捕捉された少なくとも１つの信号を含む
請求項１または２に記載の音響シーンエンコーダ。
前記音響シーン（１１０）は、Ａフォーマットの成分信号、Ｂ形フォーマットの成分信号、１次アンビソニックスの成分信号、高次アンビソニックスの成分信号、または少なくとも２つのマイクロホンカプセルを有するマイクロホンアレイにより捕えられた、または以前に記録または合成された音響シーンから計算された成分信号を含む、
請求項１から３のいずれか１項に記載の音響シーンエンコーダ。
前記出力インタフェース（３００）は、前記第２部分に対して前記空間解析器（２００）により生成された前記１以上の空間パラメータ（３３０）と同じパラメータ種からの空間パラメータを、前記符号化音響シーン信号（３４０）に含まないように構成され、前記第２部分のみが前記パラメータ種を有し、前記パラメータ種の任意のパラメータが、前記符号化音響シーン信号（３４０）内の前記第１部分に含まれないように構成された
請求項１からの４いずれか１項に記載の音響シーンエンコーダ。
前記コアエンコーダ（１６０）は、前記第２部分に対してパラメトリックまたは大部分パラメトリックな符号化動作（１６０ｂ）を実行し、前記第１部分に対して波形維持または主に波形を維持する符号化動作（１６０ａ）を実行するように構成され、または、
前記第２部分の開始帯域は帯域拡張開始帯域よりも低く、前記コアエンコーダ（１００）によるコアノイズ充填動作は、固定交差帯域を持たず、周波数が増加するにつれてコアスペクトルのより多くの部分に対して徐々に使用される
請求項１から５のいずれか１項に記載の音響シーンエンコーダ。
前記コアエンコーダ（１６０）は、前記少なくとも２つの成分信号の前記第２部分に対応する時間フレームの第２の周波数サブバンドに対して、パラメトリックまたは大部分パラメトリックな処理（１６０ｂ）を実行するように構成され、前記パラメトリック処理または大パラメトリックな処理（１６０ｂ）は、前記第２の周波数サブバンドに対して振幅関連パラメータを計算し、前記第２の周波数サブバンド内の個々のスペクトル線ではなく前記振幅関連パラメータを量子化およびエントロピー符号化し、
前記コアエンコーダ（１６０）は、前記少なくとも２つの成分信号の前記第１部分に対応する時間フレームの第１のサブバンドにおける個々のスペクトル線を量子化およびエントロピー符号化（１６０ａ）するように構成され、または
前記コアエンコーダ（１６０）は、前記少なくとも２つの成分信号の前記第２の部分に対応する時間フレームの高周波サブバンドに対して前記パラメトリック処理または大部分パラメトリックな処理（１６０ｂ）を実行するように構成され、前記パラメトリック処理または大部分パラメトリックな処理は、前記高周波数サブバンドの振幅関連パラメータを計算し、前記高周波数サブバンドにおける時間領域信号の代わりに前記振幅関連パラメータを量子化およびエントロピー符号化することを含み、前記コアエンコーダ（１６０）は、ＬＰＣ符号化、ＬＰＣ／ＴＣＸ符号化、またはＥＶＳ符号化またはＡＭＲ広帯域符号化またはＡＭＲ広帯域プラス符号化のような時間領域符号化動作によって、前記少なくとも２つの成分信号の前記第１部分に対応する時間フレームの低周波数サブバンドにおける時間領域音響信号を量子化およびエントロピー符号化するように構成された、
請求項１から６のいずれか１項に記載の音響シーンエンコーダ。
前記パラメトリック処理（１６０ｂ）は、スペクトル帯域複製（ＳＢＲ）処理と、インテリジェントギャップ充填（ＩＧＦ）処理またはノイズ充填処理と、を含む請求項７に記載の音響シーンエンコーダ。
前記第１部分は時間フレームの第１のサブバンドであり、前記第２部分は時間フレームの第２のサブバンドであり、前記コアエンコーダ（１６０）は、前記第１のサブバンドと前記第２のサブバンドとの間に所定の境界周波数を使用するように構成され、または、
前記コアエンコーダ（１６０）は、前記オーディオシーン（１１０）の次元を縮小して低次元音響シーンを得るための次元削減器（１５０ａ）を含み、前記コアエンコーダ（１６０）は、前記低次元音響シーンから前記少なくとも２つの成分信号の前記第１部分について、前記第１の符号化表現（３１０）を計算するように構成され、前記空間解析器（２００）は、前記低次元音響シーンの次元より高い次元を有する前記音響シーン（１１０）から空間パラメータ（３３０）を導出するように構成され、または、
前記コアエンコーダ（１６０）は、Ｍ個の成分信号を含む前記第１部分に対して前記第１の符号化表現（３１０）を生成し、Ｎ個の成分信号を含む前記第２部分に対して前記第２の符号化表現（３２０）を生成するように構成され、ここでＭはＮより大きく、Ｎは１以上である
請求項１から８のいずれか１項に記載の音響シーンエンコーダ。
異なるビットレートで動作するように構成され、前記第１部分と前記第２部分との間の所定の境界周波数が選択されたビットレートに依存し、前記所定の境界周波数が、より低いビットレートに対して低く、または所定の境界がより高いビットレートに対して高い、請求項１から９のいずれか１項に記載の音響シーンエンコーダ。
前記第１部分は前記少なくとも２つの成分信号の第１のサブバンドであり、前記第２部分は前記少なくとも２つの成分信号の第２のサブバンドであり、
空間アナライザ（２００）は、前記第２のサブバンドに対して、１以上の空間パラメータ（３３０）として、方向性パラメータと拡散度パラメータのような非方向性パラメータとの少なくとも１つを計算するように構成された
請求項１から１０のいずれか１項に記載の音響シーンエンコーダ。
前記コアエンコーダ（１６０）は、
少なくとも２つの成分信号の時間フレームのシーケンスを、スペクトルフレームの第１のサブバンド内の前記少なくとも２つのコンポーネント信号のための空間フレームのシーケンスに変換する時間−周波数変換器（１６４）と、
スペクトルフレームの第１のサブバンド内の前記スペクトルフームのシーケンスのフレームのスペクトル値を量子化およびエントロピー符号化するスペクトルエンコーダ（１６０ａ）と、
前記スペクトルフレームの第２のフレーム内の前記スペクトルフレームのスペクトル値をパラメトリックに符号化するパラメトリックエンコーダ（１６０ｂ）と
を含み、
または
前記コアエンコーダ（１６０）は、時間フレームの低帯域部分の域部の時間領域または混合された時間領域と周波数領域の符号化動作を実行する時間領域または混合時間領域周波数領域コアエンコーダ（１６０）を含み、または、
前記空間解析器（２００）は、前記第２部分を分析帯域に細分するように構成され、ひとつの分析帯域の帯域幅は、前記第１部分内でスペクトルエンコーダによって処理される２つの隣接するスペクトル値に関連する帯域幅以上であるか、または前記第１部分を表す低域部分の帯域幅よりも低く、前記空間解析器（２００）は、前記第２部分の各解析帯域について方向パラメータおよび拡散パラメータのうちの少なくとも１つを計算するように構成され、または、
前記コアエンコーダ（１６０）および前記空間アナライザ（２００）は、共通のフィルタバンク（１６４）または異なる特性を有する異なるフィルタバンク（１６４、１０００）を使用するように構成された
請求項１から１１のいずれか１項に記載の音響シーンエンコーダ。
前記空間アナライザ（２００）は、前記方向パラメータを計算するため、前記拡散パラメータを計算するために使用される解析帯域よりも小さい解析帯域を使用するように構成された、請求項１２に記載の音響シーンエンコーダ。
前記コアエンコーダ（１６０）は、前記少なくとも２つの成分信号に対して符号化マルチチャネル信号を生成するマルチチャネルエンコーダを備え、または、
前記コアエンコーダ（１６０）は、前記少なくとも２つの成分信号の成分信号の数が３以上である場合に、２以上の符号化マルチチャネル信号を生成するマルチチャネルエンコーダを備え、または、
前記コアエンコーダ（１６０）は、前記第１の符号化表現（３１０）を第１の解像度で生成し、前記第２の符号化表現（３２０）を第２の解像度で生成するように構成され、前記第２の解像度は前記第１の解像度より低い、または、
前記コアエンコーダ（１６０）は、前記第１の符号化表現（３１０）を第１の時間分解能または第１の周波数分解能で生成し、第２の符号化表現（３２０）を第２の時間分解能または第２の周波数分解能で生成するように構成され、前記第２の時間分解能または周波数分解能は、前記第１の時間分解能または周波数分解能より低い、または、
前記出力インタフェース（３００）は、前記第１部分に対するいずれの空間パラメータ（３３０）も前記符号化音声シーン信号（３４０）に含まないように構成され、または、前記第２部分に対する空間パラメータ（３３０）の数に比較して少ない数の前記第１の部分に対する空間パラメータを、前記符号化音声シーン信号（３４０）に含めるように構成された、
請求項１から１３のいずれか１項に記載の音声シーンエンコーダ。
少なくとも２つ）成分信号の第１部分の第１の符号化表現（４１０）と、少なくとも２つの成分信号の第２の部分の第２の符号化表現（４２０）と、前記少なくとも２つの成分信号の第２部分の１以上の空間パラメータ（４３０）とを含む符号化音響シーン信号（３４０）を受信する入力インタフェース（４００）と、
前記第１の符号化表現（４１０）および前記第２の符号化表現（４２０）を復号して、音響シーンを表す前記少なくとも２つの成分信号の復号化表現（８１０、８２０）を得るコアデコーダ（５００）と、
前記少なくとも２つの成分信号の前記第１の部分に対応する前記復号表現の一部分（８１０）を解析して、前記少なくとも２つの成分信号の前記第１部分に対する１以上の空間パラメータ（８４０）を導出する空間解析器（６００）と、
前記第１部分に対する前記１以上の空間パラメータ（８４０）と前記第１部分に対する前記１以上の空間パラメータ（８３０）を使用して、前記復号表現（８１０）、（８２０）を前記符号化音響シーン信号（３４０）に含まれるように空間的にレンダリングする空間レンダラ（８００）と
を備える音声シーンデコーダ。
前記符号化音声シーン信号（３４０）に含まれる前記第２部分に対する前記１以上の空間パラメータ（４３０）を復号する空間パラメータ復号器（７００）をさらに備え、
前記空間レンダラ（８００）は、前記少なくとも２つの成分信号の復号表現の前記第２部分をレンダリングするために、前記１以上の空間パラメータ（８３０）の復号表現を使用するように構成された
請求項１５に記載の音響シーンデコーダ。
前記コア復号器（５００）は、復号フレームのシーケンスを提供するように構成され、前記第１部分は、復号フレームのシーケンスの第１のフレームであり、前記第２部分は、復号フレームのシーケンスの第２のフレームであり、前記コア復号器（５００）はさらに、後続の復号時間フレームを重ね合わせ加算して前記復号表現を得るオーバーラップ加算器をさらに備え、または、
前記コーデコーダ（５００）は、重ね合わせ加算動作なしにＡＣＥＬＰベースシステム動作を行う構成である
請求項１５または１６に記載の音響シーンデコーダ。
前記コア復号器（５００）は、復号時間フレームのシーケンスを提供するように構成され、
前記第１部分は、前記復号時間フレームのシーケンスのひとつの時間フレームの第１のサブバンドであり、前記第２部分は、前記復号時間フレームのシーケンスの前記時間フレームの第２のサブバンドであり、
前記空間解析器（６００）は、前記第１のサブバンドに対して１以上の空間パラメータ（８４０）を提供するように構成され、
前記空間レンダラ（８００）は、
前記第１のサブバンドを、前記時間フレームの前記第１のサブバンドと前記第１のサブバンドに対する前記１以上の空間パラメータ（８４０）とを用いてレンダリングし、
前記第２のサブバンドを、前記時間フレームの前記第２のサブバンドと前記第２のサブバンドに対する前記１以上の空間パラメータ（８３０）とを用いてレンダリングする
請求項１５から１７のいずれか１項に記載の音響シーンデコーダ。
前記空間レンダラ（８００）は、第１のレンダリングされたサブバンドと第２のレンダリングされたサブバンドとを結合して、レンダリングされた信号の時間フレームを得る結合器を有する請求項１８に記載の音響シーンデコーダ。
前記空間レンダラ（８００）は、ラウドスピーカ配置の各ラウドスピーカに対して、または１次または高次のアンビソニックスフォーマットの各成分に対して、または両耳フォーマットの各成分に対して、レンダリングされた信号を提供するように構成された、請求項１５から１９のいずれか１項に記載の音響シーンデコーダ。
前記空間レンダラ（８００）は、
各出力成分に対して、前記復号表現から出力成分信号を生成するプロセッサ（８７０ｂ）と、
前記１以上の空間パラメータ（８３０、８４０）を使用して前記出力成分信号を修正する利得プロセッサ（８７２）と、
前記１以上の空間パラメータ（８３０、８４０）を使用して非相関化出力成分信号を生成する重み付け／非相関化プロセッサ（８７４）と、
前記非相関化出力成分信号と前記出力成分信号とを結合して、レンダリングされたラウドスピーカ信号を得る合成器（８７６）と
を有する、または、
前記空間レンダラ（８００）は、
ラウトスピーカ配置の各ラウトスピーカに対して、ラウドスピーカ成分信号を計算する仮想マイクロホンプロセッサ（８７０ａ）と、
前記１以上の空間パラメータ（８３０、８４０）を使用して前記ラウドスピーカ成分信号を修正する利得プロセッサ（８７２）と、
前記１以上の空間パラメータ（８３０、８４０）を使用して非相関化ラウドスピーカ成分信号を生成する重み付け／非相関化プロセッサ（８７４）と、
前記非相関化ラウドスピーカ成分信号と前記ラウドスピーカ成分信号とを結合して、レンダリングされたラウドスピーカ信号を得る合成器（８７６）と
を有する
請求項１５から２０のいずれか１項に記載の音響シーンデコーダ。
前記空間レンダラ（８００）は、帯域順に動作するように構成され、前記第１部分は第１のサブバンドであり、この第１のサブバンドは複数の第１の帯域に分割され、前記第２部分は第２のサブバンドであり、この第２のサブバンドは複数の第２の帯域に分割され、
前記空間レンダラ（８００）は、前記解析器によって導出された対応する空間パラメータを使用して、各第１の帯域に対して出力成分信号をレンダリングするように構成され、
前記空間レンダラ（８００）は、前記符号化音声シーン信号（３４０）に含まれる対応する空間パラメータを使用して、各第２の帯域に対する出力成分信号をレンダリングするように構成され、前記複数の第２の帯域のひとつの第２の帯域は、前記複数の第１の帯域のひとつの第１の帯域よりも大きく、
前記空間レンダラ（８００）は、前記第１の帯域および前記第２の帯域に対する出力成分信号を結合（８７８）してレンダリングされた出力信号を得るように構成され、このレンダリングされた出力信号は、ラウドスピーカ信号、Ａフォーマット信号、Ｂフォーマット信号、１次アンビソニックス信号、高次アンビソニックス信号または両耳信号である
請求項１５から２１のいずれか１項に記載の音響シーンデコーダ。
前記コア復号器（５００）は、前記音響シーンを表現する前記復号表現として、前記第１の成分信号として無指向性音響信号を、前記第２の成分信号として少なくとも１つの指向性音響信号を生成するように構成され、または、音響シーンを表す復号化表現は、Ｂフォーマット成分信号または１次のアンビソニックス成分信号、高次アンビソニックス成分信号を含む、請求項１５から２２のいずれか１項に記載の音響シーンデコーダ。
前記復号音響シーン信号（３４０）は、前記復号音響シーン信号（３４０）に含まれる前記第２の部分に対する前記空間パラメータ（４３０）と同じ種類の前記少なくとも２つの成分信号の前記第１の部分対するどのような空間パラメータも含まない、請求項１５から２３のいずれか１項に記載の音響シーンデコーダ。
前記コアデコーダ（５００）は、前記第２の部分に対するパラメトリック復号動作（５１０ｂ）を実行し、前記第１の部分に対する波形維持復号動作（５１０ａ）を実行するように構成された、請求項１５から２４のいずれか１項に記載の音響シーンデコーダ。
前記コアデコーダ（５００）は、振幅関連パラメータをエントロピー復号の後に、前記第２サブバンドをエンベロープ調整するため、振幅関連パラメータを用いてパラメトリック処理（５１０ｂ）を実行するように構成され、
前記コア復号器（５００）は、第１のサブバンド内の個々のスペクトル線をエントロピー復号（５１０ａ）するように構成された、
請求項１５から２５のいずれか１項に記載の音響シーンデコーダ。
前記コア復号器（５００）は、前記第２の符号化表現（４２０）の復号（５１０ｂ）のため、スペクトル帯域複製（ＳＢＲ）処理、インテリジェントギャップ充填（ＩＧＦ）処理またはノイズ充填処理を行う構成である、請求項１５から２６のいずれか１項に記載の音響シーンデコーダ。
前記第１の部分は時間フレームの第１のサブバンドであり、前記第２の部分は時間フレームの第２のサブバンドであり、コア復号器（５００）は、前記第１のサブバンドと前記第２のサブバンドとの間の所定の境界周波数を使用するように構成された、請求項１５から２７のいずれか１項に記載の音響シーンデコーダ。
前記音響シーンデコーダは、異なるビットレートで動作するように構成され、前記第１の部分と前記第２の部分との間の所定の境界周波数は、選択されたビットレートに依存し、前記所定の境界周波数は、より低いビットレートに対しては低く、あるいは、前記所定の境界周波数がより大きいビットレートに対して大きい、請求項１５から２８のいずれか１項に記載の音響シーンデコーダ。
前記第１の部分は時間部分の第１のサブバンドであり、前記第２の部分は時間部分の第２のサブバンドであり、
前記空間解析器（６００）は、前記第１のサブバンドに対して、前記１以上の空間パラメータ（８４０）として、方向パラメータおよび拡散パラメータの少なくとも１つを計算するように構成された、
請求項１５から２９のいずれか１項に記載の音響シーンデコーダ。
前記第１の部分は時間フレームの第１のサブバンドであり、前記第２の部分は時間フレームの第２のサブバンドであり、
空間解析器（６００）は、前記第１のサブバンドを解析帯域に細分するように構成され、ひとつの解析帯域の帯域幅は、前記第１のサブバンドに対して前記コアデコーダ（５００）により生成された２つの隣接するスペクトル値に関連する帯域幅以上であり、
前記空間解析器（６００）は、各解析帯域に対して前記方向パラメータおよび前記拡散パラメータの少なくとも１つを計算するように構成された、
請求項１５から３０のいずれか１項に記載の音響シーンデコーダ。
前記空間解析器（６００）は、前記方向パラメータを計算するために前記拡散パラメータを計算するために用いられる解析帯域よりも小さい解析帯域を使用するように構成された請求項１５から３１のいずれか１項に記載の音響シーンデコーダ。
前記空間解析器（６００）は、前記方向パラメータを計算するために、第１の帯域幅を有する解析帯域を使用するように構成され、
前記空間レンダラ（８００）は、前記復号表現のレンダリング帯域ンドをレンダリングするために、前記符号化音響シーン信号（３４０）に含まれる前記少なくとも２つの成分信号の前記第２の部分に対して、前記１以上の空間パラメータ（８４０）のひとつの空間パラメータを使用するように構成され、前記レンダリング帯域は第２の帯域幅を有し、
前記第２の帯域幅は、前記第１の帯域幅よりも大きい、
請求項１５から３２のいずれか１項に記載の音響シーンデコーダ。
前記符号化音響シーン信号（３４０）は、前記少なくとも２つの成分信号に対する符号化マルチチャンネル信号を含み、あるいは、前記符号化音響シーン信号（３４０）は、２より大きい数の成分信号に対する少なくとも２つの符号化マルチチャンネル信号を含み、
前記コアデコーダ（５００）は、前記符号化マルチチャンネル信号または前記少なくとも２つの符号化マルチチャンネル信号をコア復号するマルチチャネルデコーダを有する、
請求項１５から３３のいずれか１項に記載の音響シーンデコーダ。
音響シーン（１１０）を符号化する方法であって、
前記オーディオシーン（１１０）は、少なくとも２つの成分信号を含み、
前記少なくとも２つの成分信号の第１部分に対して第１の符号化表現（３１０）を生成し、前記少なくとも２つの成分信号の第２部分に対して第２の符号化表現（３２０）を生成して、前記少なくとも２つの成分信号をコア符号化し、
前記音響シーン（１１０）を解析して、前記第２の部分に対して、１以上の空間パラメータ（３３０）または１以上の空間パラメータセットを導出し、
前記第１の符号化表現（３１０）、前記第２の符号化表現（３２０）、および前記第２部分に対する前記１以上の空間パラメータ（３３０）または前記１以上の空間パラメータセットを含む符号化音響シーン信号（３４０）を形成する
音響シーンの符号化方法。
少なくとも２つの成分信号の第１部分の第１の符号化表現（４１０）と、前記少なくとも２つの成分信号の第２部分の第２の符号化表現（４２０）と、前記少なくとも２つの成分信号の第２部分の１以上の空間パラメータ（４３０）とを含む符号化音響シーン信号（３４０）を受信し、
前記第１の符号化表現（４１０）および前記第２の符号化表現（４２０）を復号して、音響シーンを表す前記少なくとも２つの成分信号の復号表現を取得し、
前記少なくとも２つの成分信号の第１部分に対応する前記復号表現の一部を解析して、前記少なくとも２つの成分信号の前記第１部分に対する１以上の空間パラメータ（８４０）を導出し、
前記第１部分に対する前記１以上の空間パラメータ（８４０）と、前記第２部分に対する前記１以上の空間パラメータ（４３０）と、を使用して、前記復号表現を、前記符号化音声シーン信号（３４０）に含まれるように空間的にレンダリングする
音響シーンの符号化方法。
コンピュータまたはプロセッサ上で動作する際に、請求項３５に記載の方法または請求項３６に記載の方法を実行するためのコンピュータプログラム。
音響シーン（１１０）の少なくとも２つの成分信号の第１部分に対する第１の符号化表現と、
前記少なくとも２つの成分信号の第２部分に対する第２の符号化表現と、
前記第２部分に対する１以上の空間パラメータ（３３０）または第２の部分の１つ以上の空間パラメータセットまたは１以上の空間パラメータセットと
を含む符号化音響シーン信号（３４０）。