JP2016529544A

JP2016529544A - ジョイント符号化残留信号を用いたオーディオエンコーダ、オーディオデコーダ、方法、およびコンピュータプログラム

Info

Publication number: JP2016529544A
Application number: JP2016528404A
Authority: JP
Inventors: サシャディック、; クリスティアンエルテル、; クリスティアンヘルムリヒ、; ヒルペルト、ジョハネス; ホエルツアー、アンドレアス; クンツ、アチム
Original assignee: フラウンホーファーゲゼルシャフトツールフォルデルングデルアンゲヴァンテンフォルシユングエー．フアー．
Priority date: 2013-07-22
Filing date: 2014-07-11
Publication date: 2016-09-23
Anticipated expiration: 2034-07-11
Also published as: MX357667B; JP6346278B2; TW201514972A; MY181944A; TW201514973A; US20160247509A1; CN111105805A; EP3022734B1; CN111128206B; PT3022735T; JP6117997B2; CA2918237C; EP3022734A1; AU2014295360B2; US20160275957A1; AU2014295360A1; WO2015010934A1; CN111128206A; ES2649194T3; CN111128205A

Abstract

符号化表現に基づいて少なくとも４つのオーディオチャネル信号を提供するためのオーディオデコーダは、マルチチャネル復号を用いて、第１の残留信号と第２の残留信号とのジョイント符号化表現に基づいて、第１の残留信号と第２の残留信号とを提供するよう構成される。オーディオデコーダは、残留信号支援マルチチャネル復号を用いて、第１のダウンミックス信号と第１の残留信号とに基づいて、第１のオーディオチャネル信号と第２のオーディオチャネル信号とを提供するよう構成される。オーディオデコーダは、残留信号支援マルチチャネル復号を用いて、第２のダウンミックス信号と第２の残留信号とに基づいて、第３のオーディオチャネル信号と第４のオーディオチャネル信号とを提供するよう構成される。オーディオエンコーダは、対応する考察に基づく。【選択図】図２

Description

本発明の実施形態は、符号化表現に基づいて少なくとも４つのオーディオチャネル信号を提供するオーディオデコーダに関する。

本発明のさらなる実施形態は、少なくとも４つのオーディオチャネル信号に基づいて符号化表現を提供するオーディオエンコーダに関する。

本発明のさらなる実施形態は、符号化表現に基づいて少なくとも４つのオーディオチャネル信号を提供する方法、および、少なくとも４つのオーディオチャネル信号に基づいて符号化表現を提供する方法に関する。

本発明のさらなる実施形態は、前記方法のうちの１つを行うためのコンピュータプログラムに関する。

概して、本発明の実施形態は、ｎ個のチャネルのジョイント符号化に関する。

近年、オーディオコンテンツの記憶および送信に対する需要が着実に増えている。また、オーディオコンテンツの記憶および送信に対する品質要求も着実に増えている。このことから、オーディオコンテンツの符号化および復号の概念が高まっている。例えば、国際規格ＩＳＯ／ＩＥＣ１３８１８−７：２００３等に記載のある「ＡＡＣ（ａｄｖａｎｃｅｄａｕｄｉｏｃｏｄｉｎｇ）」が開発されている。また、国際規格ＩＳＯ／ＩＥＣ２３００３−１：２００７等に記載のある「ＭＰＥＧサラウンド」の概念といった空間的拡張機能もいくつか開発されている。オーディオ信号の空間的情報を符号化および復号するための付加的改良が、ＳＡＯＣ（ｓｐａｔｉａｌａｕｄｉｏｏｂｊｅｃｔｃｏｄｉｎｇ）に関する国際規格ＩＳＯ／ＩＥＣ２３００３−２：２０１０に記載されている。

また、一般的なオーディオ信号とスピーチ信号とを両方とも良好な符号化効率で符号化するとともにマルチチャネルオーディオ信号を処理する可能性を提供するフレキシブルなオーディオ符号化／復号概念が、「ＵＳＡＣ（ｕｎｉｆｉｅｄｓｐｅｅｃｈａｎｄａｕｄｉｏｃｏｄｉｎｇ）」に関する記載のある国際規格ＩＳＯ／ＩＥＣ２３００３−３：２０１２において定義されている。

ＭＰＥＧＵＳＡＣ［１］において、２つのチャネルのジョイントステレオ符号化は、帯域制限または全帯域残留信号と共に、複合予測、ＭＰＳ２−１−１、またはユニファイドステレオを用いて行われる。

ＭＰＥＧサラウンド［２］は、残留信号の送信を伴いまたは伴わずに、マルチチャネルオーディオのジョイント符号化のためのＯＴＴおよびＴＴＴボックスを階層結合する。

ＩＳＯ／ＩＥＣ２３００３−３：２０１２−ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ − ＭＰＥＧＡｕｄｉｏＴｅｃｈｎｏｌｏｇｉｅｓ，Ｐａｒｔ３：ＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ．ＩＳＯ／ＩＥＣ２３００３−１：２００７−ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ − ＭＰＥＧＡｕｄｉｏＴｅｃｈｎｏｌｏｇｉｅｓ，Ｐａｒｔ１：ＭＰＥＧＳｕｒｒｏｕｎｄ．

しかし、３次元オーディオシーンの効率的な符号化および復号のためのより高度な概念の提供への要望がある。

本発明の実施形態は、符号化表現に基づいて少なくとも４つのオーディオチャネル信号を提供するオーディオデコーダを提供する。オーディオデコーダは、マルチチャネル復号を用いて、第１の残留信号と第２の残留信号とのジョイント符号化表現に基づいて、第１の残留信号と第２の残留信号とを提供するよう構成される。オーディオデコーダは、また、残留信号支援マルチチャネル復号を用いて、第１のダウンミックス信号と第１の残留信号とに基づいて、第１のオーディオチャネル信号と第２のオーディオチャネル信号とを提供するよう構成される。オーディオデコーダは、また、残留信号支援マルチチャネル復号を用いて、第２のダウンミックス信号と第２の残留信号とに基づいて、第３のオーディオチャネル信号と第４のオーディオチャネル信号とを提供するよう構成される。

本発明によるこの実施形態は、それぞれが残留信号支援マルチチャネル復号を用いて２つ以上のオーディオチャネル信号を提供するのに使用される２つの残留信号を、当該残留信号のジョイント符号化表現から導出することによって、４つまたはそれ以上のオーディオチャネル信号間の依存関係を利用することができるという知見に基づく。言い換えれば、前記残留信号には典型的にいくつかの類似点があり、残留信号間の類似点および／または依存関係を利用したマルチチャネル復号を用いてジョイント符号化表現から２つの残留信号を導出することによって、少なくとも４つのオーディオチャネル信号を復号する際のオーディオ品質向上の助けとなる前記残留信号を符号化するためのビットレートを低減できることが分かっている。

好適な実施形態において、オーディオデコーダは、マルチチャネル復号を用いて、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現に基づいて、第１のダウンミックス信号と第２のダウンミックス信号とを提供するよう構成される。こうして、オーディオデコーダの階層構造が構築され、少なくとも４つのオーディオチャネル信号を提供するための残留信号支援マルチチャネル復号で使用されるダウンミックス信号と残留信号とが、別々のマルチチャネル復号を用いて導出される。このような概念は、２つのダウンミックス信号が典型的にマルチチャネル符号化／復号で利用可能な類似点を含み、かつ、２つの残留信号も典型的にマルチチャネル符号化／復号で利用可能な類似点を含むことから、特に効率的である。よって、当該概念を用いて、良好な符号化効率を典型的に得ることが可能である。

好適な実施形態において、オーディオデコーダは、予測ベースマルチチャネル復号を用いて、第１の残留信号と第２の残留信号とのジョイント符号化表現に基づいて、第１の残留信号と第２の残留信号とを提供するよう構成される。予測ベースマルチチャネル復号を用いることにより、典型的に、残留信号の比較的良好な再構成品質をもたらすことができる。このことは、例えば、第１の残留信号がオーディオシーンの左側を表し、第２の残留信号がオーディオシーンの右側を表す場合に、有利である。なぜなら、人間の聴覚は、典型的に、オーディオシーンの左側と右側との間の違いに比較的敏感であるからである。

好適な実施形態において、オーディオデコーダは、残留信号支援マルチチャネル復号を用いて、第１の残留信号と第２の残留信号とのジョイント符号化表現に基づいて、第１の残留信号と第２の残留信号とを提供するよう構成される。残留信号（および、典型的に、ダウンミックス信号、これは、第１の残留信号と第２の残留信号とを結合したもの）を順に受信するマルチチャネル復号を用いて第１の残留信号および第２の残留信号を提供する場合、特に良好な品質の第１および第２の残留信号が達成されることが分かっている。このように、復号ステージは、カスケード化されており、２つの残留信号（第１のオーディオチャネル信号および第２のオーディオチャネル信号を提供するのに使用される第１の残留信号、および、第３のオーディオチャネル信号および第４のオーディオチャネル信号を提供するのに使用される第２の残留信号）は、入力ダウンミックス信号および入力残留信号に基づいて提供され、ここで、後者は、第１の残留信号および第２の残留信号の共通の残留信号として表されてもよい。よって、第１の残留信号および第２の残留信号は、実際には「中間」残留信号であり、対応するダウンミックス信号および対応する「共通の」残留信号からマルチチャネル復号を用いて導出される。

好適な実施形態において、予測ベースマルチチャネル復号は、以前のフレームの信号成分を用いて導出される信号成分の、現在のフレームの残留信号（すなわち、第１の残留信号および第２の残留信号）の提供への寄与を記述する予測パラメータを評価するよう構成される。このような予測ベースマルチチャネル復号を用いることにより、特に良好な品質の残留信号（第１の残留信号および第２の残留信号）がもたらされる。

好適な実施形態において、予測ベースマルチチャネル復号は、（対応する）ダウンミックス信号と（対応する）「共通」残留信号とに基づいて、第１の残留信号と第２の残留信号とを得るよう構成され、予測ベースマルチチャネル復号は、第１符号を伴う共通残留信号を適用して第の１残留信号を得ると共に、第１符号と逆の第２符号を伴う共通残留信号を適用して第２の残留信号を得るよう構成される。このような予測ベースマルチチャネル復号により、第１の残留信号および第２の残留信号を再構成するための良好な効率がもたらされることが分かっている。

好適な実施形態において、オーディオデコーダは、修正離散コサイン変換（ＭＤＣＴドメイン）で動作するマルチチャネル復号を用いて、第１の残留信号と第２の残留信号とのジョイント符号化表現に基づいて、第１の残留信号と第２の残留信号とを提供するよう構成される。第１の残留信号および第２の残留信号のジョイント符号化表現を提供するのに使用され得るオーディオ復号は、ＭＤＣＴドメインで好適に動作するので、上記の概念を効率的に実施可能であることが分かっている。従って、ＭＤＣＴドメインで第１の残留信号および第２の残留信号を提供するためのマルチチャネル復号を適用することによって、中間的な変換を回避できる。

好適な実施形態において、オーディオデコーダは、ＵＳＡＣ複合ステレオ予測（例えば、前述のＵＳＡＣ規格に記載される）を用いて、第１の残留信号と第２の残留信号とのジョイント符号化表現に基づいて、第１の残留信号と第２の残留信号とを提供するよう構成される。このようなＵＳＡＣ複合ステレオ予測により第１の残留信号および第２の残留信号の良好な復号結果がもたらされることが分かっている。また、第１の残留信号および第２の残留信号の復号にＵＳＡＣ複合ステレオ予測を使用することで、ＵＳＡＣ（ｕｎｉｆｉｅｄｓｐｅｅｃｈａｎｄａｕｄｉｏｃｏｄｉｎｇ）で既に利用可能な復号ブロックを用いて当該概念を簡単に実施することが可能である。よって、ここに記載する復号概念を実行するためにＵＳＡＣデコーダを容易に再構成し得る。

好適な実施形態において、オーディオデコーダは、パラメータベース残留信号支援マルチチャネル復号を用いて、第１のダウンミックス信号と第１の残留信号とに基づいて、第１のオーディオチャネル信号と第２のオーディオチャネル信号とを提供するよう構成される。同様に、オーディオデコーダは、パラメータベース残留信号支援マルチチャネル復号を用いて、第２のダウンミックス信号と第２の残留信号とに基づいて、第３のオーディオチャネル信号と第４のオーディオチャネル信号とを提供するよう構成される。このようなマルチチャネル復号は、第１のダウンミックス信号と、第１の残留信号と、第２のダウンミックス信号と、第２の残留信号とに基づくオーディオチャネル信号の導出に適していることが分かっている。また、このようなパラメータベース残留信号支援マルチチャネル復号は、典型的なマルチチャネルオーディオデコーダに既存の処理ブロックを用いて簡単に実施できることが分かっている。

好適な実施形態において、パラメータベース残留信号支援マルチチャネル復号は、それぞれのダウンミックス信号および対応する残留信号に基づいて２つ以上のオーディオチャネル信号を提供するために、２つのチャネル間の所望の相関関係および／または２つのチャネル間のレベル差を記述する１つ以上のパラメータを評価するよう構成される。このようなパラメータベース残留信号支援マルチチャネル復号は、カスケードマルチチャネル復号（ここで、好ましくは、第１および第２のダウンミックス信号および第１および第２の残留信号は、予測ベースマルチチャネル復号を用いて提供される）の第２ステージによく適応することが分かっている。

好適な実施形態において、オーディオデコーダは、ＱＭＦドメインで動作する残留信号支援マルチチャネル復号を用いて、第１のダウンミックス信号と第１の残留信号とに基づいて、第１のオーディオチャネル信号と第２のオーディオチャネル信号とを提供するよう構成される。同様に、オーディオデコーダは、好ましくは、ＱＭＦドメインで動作する残留信号支援マルチチャネル復号を用いて、第２のダウンミックス信号と第２の残留信号とに基づいて、第３のオーディオチャネル信号と第４のオーディオチャネル信号とを提供するよう構成される。よって、階層型マルチチャネル復号の第２ステージは、ＱＭＦドメインにおいて機能し、ＱＭＦドメインは、同様にＱＭＦドメインにおいて度々行われる典型的な後処理によく適応するものであり、中間的な変換を回避し得る。

好適な実施形態において、オーディオデコーダは、ＭＰＥＧサラウンド２−１−２復号またはユニファイドステレオ復号を用いて、第１のダウンミックス信号と第１の残留信号とに基づいて、第１のオーディオチャネル信号と第２のオーディオチャネル信号とを提供するよう構成される。同様に、オーディオデコーダは、好ましくは、ＭＰＥＧサラウンド２−１−２復号またはユニファイドステレオ復号を用いて、第２のダウンミックス信号と第２の残留信号とに基づいて、第３のオーディオチャネル信号と第４のオーディオチャネル信号とを提供するよう構成される。このような復号概念は、階層型復号の第２のステージに特に適していることが分かっている。

好適な実施形態において、第１の残留信号および第２の残留信号は、オーディオシーンの異なる水平位置（または、等価的に方位位置）と関連付けられる。階層型マルチチャネル処理の第１のステージにおいて、異なる水平位置（または方位位置）に関連付けられる残留信号を分けることが特に有利であることが分かっている。なぜなら、階層型マルチチャネル復号の第１のステージにおいて知覚的に重要な左右分離が行われる場合、特に良好な聴覚印象が得られるからである。

好適な実施形態において、第１のオーディオチャネル信号および第２ｎｏチャネル信号は、オーディオシーンの垂直近傍位置（または、等価的にオーディオシーンの近傍高度位置）と関連付けられる。また、第３のオーディオチャネル信号および第４のオーディオチャネル信号は、好ましくは、オーディオシーンの垂直近傍位置（または、等価適にオーディオシーンの近傍高度位置）と関連付けられる。階層型オーディオ復号の第２のステージ（典型的に、第１のステージよりも分離精度が多少低い）において上下信号間の分離が行われる場合、良好な復号結果が得られることが分かっている。なぜなら、人間の聴覚系は、音源の水平位置に比べて、音源の垂直位置に対して感受性が低いからである。

好適な実施形態において、第１のオーディオチャネル信号および第２のオーディオチャネル信号は、オーディオシーンの第１の水平位置（または、等価的に方位位置）と関連付けられ、第３のオーディオチャネル信号および第４のオーディオチャネル信号は、第１の水平位置（または、等価的に方位位置）と異なる、オーディオシーンの第２の水平位置（または、等価的に方位位置）と関連付けられる。

好ましくは、第１の残留信号は、オーディオシーンの左側と関連付けられ、第２の残留信号は、オーディオシーンの右側と関連付けられる。こうして、左右分離は、階層型オーディオ復号の第１のステージにおいて行われる。

好適な実施形態において、第１のオーディオチャネル信号および第２のオーディオチャネル信号は、オーディオシーンの左側と関連付けられ、第３のオーディオチャネル信号および第４のオーディオチャネル信号は、オーディオシーンの右側と関連付けられる。

他の好適な実施形態において、第１のオーディオチャネル信号は、オーディオシーンのより左下側と関連付けられ、第２のオーディオチャネル信号は、オーディオシーンのより左上側と関連付けられ、第３のオーディオチャネル信号は、オーディオシーンのより右下側と関連付けられ、第４のオーディオチャネル信号は、オーディオシーンのより右上側と関連付けられる。このようなオーディオチャネル信号の関連付けにより、特に良好な符号化結果が得られる。

好適な実施形態において、オーディオデコーダは、マルチチャネル復号を用いて、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現に基づいて、第１のダウンミックス信号と第２のダウンミックス信号とを提供するよう構成され、第１のダウンミックス信号は、オーディオシーンの左側と関連付けられ、第２のダウンミックス信号は、オーディオシーンの右側と関連付けられる。ダウンミックス信号がオーディオシーンの異なる側と関連付けられている場合でも、ダウンミックス信号は、マルチチャネル符号化を用いて良好な符号化効率で符号化できることが分かっている。

好適な実施形態において、オーディオデコーダは、予測ベースマルチチャネル復号または残留信号支援予測ベースマルチチャネル復号を用いて、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現に基づいて、第１のダウンミックス信号と第２のダウンミックス信号とを提供するよう構成される。このようなマルチチャネル復号の概念を用いることで、特に良好な復号結果が得られることが分かっている。また、既存の復号機能をいくつかのオーディオデコーダにおいて再利用可能である。

好適な実施形態において、オーディオデコーダは、第１のオーディオチャネル信号と第３のオーディオチャネル信号とに基づいて、第１のマルチチャネル帯域幅拡張を行うよう構成される。また、オーディオデコーダは、第２のオーディオチャネル信号と第４のオーディオチャネル信号とに基づいて、第２の（典型的に、別の）マルチチャネル帯域幅拡張を行うよう構成されてもよい。オーディオシーンの異なる側と関連付けられた（ここで、異なる残留信号は、典型的に、オーディオシーンの異なる側と関連付けられる）２つのオーディオチャネル信号に基づいて可能な帯域幅拡張を行うことが有利であることが分かっている。

好適な実施形態において、オーディオデコーダは、第１のオーディオチャネル信号と、第３のオーディオチャネル信号と、１つ以上の帯域幅拡張パラメータとに基づいて、オーディオシーンの第１の共通水平面（または、等価的に第１の共通高度）と関連付けられる２つ以上の帯域幅拡張オーディオチャネル信号を得るために、第１のマルチチャネル帯域幅拡張を行うよう構成される。また、オーディオデコーダは、好ましくは、第２のオーディオチャネル信号と、第４のオーディオチャネル信号と、１つ以上の帯域幅拡張パラメータとに基づいて、オーディオシーンの第２の共通水平面（または、等価的に第２の共通高度）と関連付けられる２つ以上の帯域幅拡張オーディオチャネル信号を得るために、第２のマルチチャネル帯域幅拡張を行うよう構成される。このような復号方式の結果、良好なオーディオ品質が達成されることが分かっている。なぜなら、マルチチャネル帯域幅拡張は、こういった配置において、聴覚印象にとって重要なステレオ特性を考慮することができるからである。

好適な実施形態において、第１の残留信号と第２の残留信号とのジョイント符号化表現は、第１および第２の残留信号のダウンミックス信号と、第１および第２の残留信号の共通残留信号とを含むチャネル対要素を含む。第１および第２の残留信号のダウンミックス信号および第１および第２の残留信号の共通残留信号をチャネル対要素を用いて符号化することは、第１および第２の残留信号のダウンミックス信号および第１および第２の残留信号の共通残留信号が典型的に多くの特性を共有することから、有利であることが分かっている。このように、チャネル対要素を用いることによって、典型的に、信号オーバーヘッドが減り、結果として効率的な符号化が可能になる。

他の好適な実施形態において、オーディオデコーダは、マルチチャネル復号を用いて、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現に基づいて、第１のダウンミックス信号と第２のダウンミックス信号とを提供するよう構成され、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現は、第１および第２のダウンミックス信号のダウンミックス信号と、第１および第２のダウンミックス信号の共通残留信号とを含むチャネル対要素を含む。この実施形態は、上記の実施形態と同様の考察に基づく。

本発明による他の実施形態は、少なくとも４つのオーディオチャネル信号に基づいて符号化表現を提供するオーディオエンコーダを提供する。オーディオエンコーダは、残留信号支援マルチチャネル符号化を用いて、少なくとも第１のオーディオチャネル信号と第２のオーディオチャネル信号とをジョイント符号化して第１のダウンミックス信号と第１の残留信号とを得るよう構成される。オーディオエンコーダは、残留信号支援マルチチャネル符号化を用いて、少なくとも第３のオーディオチャネル信号と第４のオーディオチャネル信号とをジョイント符号化して第２のダウンミックス信号と第２の残留信号とを得るよう構成される。また、オーディオエンコーダは、マルチチャネル符号化を用いて、第１の残留信号と第２の残留信号とをジョイント符号化して残留信号のジョイント符号化表現を得るよう構成される。このオーディオエンコーダは、上記のオーディオデコーダと同様の考察に基づく。

また、オーディオエンコーダの任意の改良およびオーディオエンコーダの好適な構成は、上記のオーディオデコーダの改良および好適な構成と実質的に並列である。よって、上記の記載が参照される。

本発明による他の実施形態は、符号化表現に基づいて少なくとも４つのオーディオチャネル信号を提供するための方法を提供する。当該方法は、上記のオーディオエンコーダの機能を実質的に実行するものであり、上記の特徴および機能のいずれかが補われ得る。

本発明による他の実施形態は、少なくとも４つのオーディオチャネル信号に基づいて符号化表現を提供するための方法を提供する。当該方法は、上述したオーディオデコーダの機能を実質的に実現する。

本発明による他の実施形態は、上述した方法を実行するためのコンピュータプログラムを提供する。

本発明による実施形態を、添付図面を参照しながら以下に説明する。
本発明の実施形態によるオーディオエンコーダの概略ブロック図である。本発明の実施形態によるオーディオデコーダの概略ブロック図である。本発明の他の実施形態によるオーディオデコーダの概略ブロック図である。本発明の実施形態によるオーディオエンコーダの概略ブロック図である。本発明の実施形態によるオーディオデコーダの概略ブロック図である。本発明の他の実施形態によるオーディオデコーダの概略ブロック図である。本発明の他の実施形態によるオーディオデコーダの概略ブロック図である。本発明の実施形態による少なくとも４つのオーディオチャネル信号に基づいて符号化表現を提供するための方法のフローチャートである。本発明の実施形態による符号化表現に基づいて少なくとも４つのオーディオチャネル信号を提供するための方法のフローチャートである。本発明の実施形態による少なくとも４つのオーディオチャネル信号に基づいて符号化表現を提供するための方法のフローチャートである。本発明の実施形態による符号化表現に基づいて少なくとも４つのオーディオチャネル信号を提供するための方法のフローチャートである。本発明の実施形態によるオーディオエンコーダの概略ブロック図である。本発明の他の実施形態によるオーディオエンコーダの概略ブロック図である。本発明の実施形態によるオーディオデコーダの概略ブロック図である。図１３によるオーディオエンコーダで使用可能なビットストリームの構文表現である。パラメータｑｃｅＩｎｄｅｘの異なる値の表表現である。本発明による概念を用いることができる３Ｄオーディオエンコーダの概略ブロック図である。本発明による概念を用いることができる３Ｄオーディオデコーダの概略ブロック図である。フォーマットコンバータの概略ブロック図である。本発明の実施形態によるクワッドチャネル要素（ＱＣＥ）のトポロジー構造のグラフ表現である。本発明の実施形態によるオーディオデコーダの概略ブロック図である。本発明の実施形態によるＱＣＥデコーダの詳細な概略ブロック図である。本発明の実施形態によるクワッドチャネルエンコーダの詳細な概略ブロック図である。

（１．図１のオーディオエンコーダ）
図１は、全体において１００で表されるオーディオエンコーダの概略ブロック図を示す。オーディオエンコーダ１００は、少なくとも４つのオーディオチャネル信号に基づいて符号化表現を提供するよう構成される。オーディオエンコーダ１００は、第１のオーディオチャネル信号１１０と、第２のオーディオチャネル信号１１２と、第３のオーディオチャネル信号１１４と、第４のオーディオチャネル信号１１６とを受信するよう構成される。また、オーディオエンコーダ１００は、残留信号のジョイント符号化表現１３０と共に、第１のダウンミックス信号１２０および第２のダウンミックス信号１２２の符号化表現を提供するよう構成される。オーディオエンコーダ１００は、残留信号支援マルチチャネルエンコーダ１４０を含む。残留信号支援マルチチャネルエンコーダ１４０は、残留信号支援マルチチャネル符号化を用いて第１のオーディオチャネル信号１１０と第２のオーディオチャネル信号１１２とをジョイント符号化して、第１のダウンミックス信号１２０と第１の残留信号１４２とを得るよう構成される。オーディオ信号エンコーダ１００は、また、残留信号支援マルチチャネルエンコーダ１５０を含む。残留信号支援マルチチャネルエンコーダ１５０は、残留信号支援マルチチャネル符号化を用いて少なくとも第３のオーディオチャネル信号１１４と第４のオーディオチャネル信号１１６とをジョイント符号化して、第２のダウンミックス信号１２２と第２の残留信号１５２とを得るよう構成される。オーディオデコーダ１００は、また、マルチチャネルエンコーダ１６０を含む。マルチチャネルエンコーダ１６０は、マルチチャネル符号化を用いて第１の残留信号１４２と第２の残留信号１５２とをジョイント符号化して、残留信号１４２，１５２のジョイント符号化表現１３０を得るよう構成される。

オーディオエンコーダ１００の機能に関して、オーディオエンコーダ１００は、階層型符号化を行う。ここで、第１のオーディオチャネル信号１１０と第２のオーディオチャネル信号１１２とは、残留信号支援マルチチャネル符号化１４０を用いてジョイント符号化され、第１のダウンミックス信号１２０と第１の残留信号１４２との両方が提供される。第１の残留信号１４２は、例えば、第１のオーディオチャネル信号１１０と第２のオーディオチャネル信号１１２との間の違いを記述してもよく、および／または、第１のダウンミックス信号１２０および残留信号支援マルチチャネルエンコーダ１４０により提供され得る任意のパラメータによって表すことができない何らかの信号特徴を記述してもよい。言い換えれば、第１の残留信号１４２は、第１のダウンミックス信号１２０および残留信号支援マルチチャネルエンコーダ１４０により提供され得る任意の可能なパラメータに基づいて得られる復号結果の改良を可能にする残留信号であってもよい。例えば、第１の残留信号１４２は、高レベル信号特性（例：相関特性、共分散特性、レベル差特性等）の単なる再構成と比べて、少なくとも、オーディオデコーダ側での第１のオーディオチャネル信号１１０および第２オのーディオチャネル信号１１２の部分波形再構成を可能にしてもよい。同様に、残留信号支援マルチチャネルエンコーダ１５０は、第３のオーディオチャネル信号１１４と第４のオーディオチャネル信号１１６とに基づいて、第２のダウンミックス信号１２２と第２の残留信号１５２との両方を提供し、それによって、第２の残留信号は、オーディオデコーダ側での第３のオーディオチャネル信号１１４および第４のオーディオチャネル信号１１６の信号再構成の改良を可能にする。第２の残留信号１５２は、結果として、第１の残留信号１４２と同じ機能を果たし得る。しかし、オーディオチャネル信号１１０，１１２，１１４および１１６が何らかの相関性を含む場合、第１の残留信号１４２および第２の残留信号１５２は、典型的に、ある程度相関関係にある。したがって、相関信号のマルチチャネル符号化が依存関係を利用することによってビットレートを典型的木に低減するので、マルチチャネルエンコーダ１６０を用いた第１の残留信号１４２と第２の残留信号１５２とのジョイント符号化は、典型的に、高い効率性を有する。よって、残留信号のジョイント符号化表現１３０のビットレートを適度に低く抑えながら、第１の残留信号１４２と第２の残留信号１５２とを高精度で符号化することができる。

要約すると、図１による実施形態は、階層型マルチチャネル符号化を提供する。当該階層型マルチチャネル符号化において、残留信号支援マルチチャネルエンコーダ１４０，１５０を用いることによって良好な再生品質が得られ、第１の残留信号１４２と第２の残留信号１５２とをジョイント符号化することによってビットレート要求を適度に保つことができる。

オーディオエンコーダ１００のさらなる任意の改良も可能である。これらの改良の一部を、図４，１１および１２を参照して説明する。但し、オーディオエンコーダ１００は、本明細書に記載のオーディオデコーダと並列に適応可能であり、オーディオエンコーダの機能は、典型的にオーディオデコーダの機能を逆にしたものである。

（２．図２によるオーディオデコーダ）
図２は、全体において２００で表されるオーディオデコーダの概略ブロック図を示す。

オーディオデコーダ２００は、第１の残留信号と第２の残留信号とのジョイント符号化表現２１０を含む符号化表現を受信するよう構成される。オーディオデコーダ２００は、また、第１のダウンミックス信号２１２と第２のダウンミックス信号２１４との表現を受信する。オーディオデコーダ２００は、第１のオーディオチャネル信号２２０と、第２のオーディオチャネル信号２２２と、第３のオーディオチャネル信号２２４と、第４のオーディオチャネル信号２２６とを提供するよう構成される。

オーディオデコーダ２００は、マルチチャネルデコーダ２３０を含む。マルチチャネルデコーダ２３０は、第１の残留信号２３２と第２の残留信号２３４とのジョイント符号化表現２１０に基づいて、第１の残留信号２３２と第２の残留信号２３４とを提供するよう構成される。オーディオデコーダ２００は、また、（第１の）残留信号支援マルチチャネルデコーダ２４０を含む。（第１の）残留信号支援マルチチャネルデコーダ２４０は、マルチチャネル復号を用いて、第１のダウンミックス信号２１２と第１の残留信号２３２とに基づいて、第１のオーディオチャネル信号２２０と第２のオーディオチャネル信号２２２とを提供するよう構成される。オーディオデコーダ２００は、また、（第２の）残留信号支援マルチチャネルデコーダ２５０を含む。（第２の）残留信号支援マルチチャネルデコーダ２５０は、第２のダウンミックス信号２１４と第２の残留信号２３４とに基づいて、第３のオーディオチャネル信号２２４と第４のオーディオチャネル信号２２６とを提供するよう構成される。

オーディオデコーダ２００の機能に関して、オーディオ信号デコーダ２００は、（第１の）共通残留信号支援マルチチャネル復号２４０に基づいて第１のオーディオチャネル信号２２０と第２のオーディオチャネル信号２２２とを提供し、マルチチャネル復号の復号品質は、第１の残留信号２３２によって高くなる（非残留信号支援復号と比較した場合）。言い換えれば、第１のダウンミックス信号２１２は、第１のオーディオチャネル信号２２０と第２のオーディオチャネル信号２２２とに関する「粗い」情報を提供し、例えば、第１のオーディオチャネル信号２２０と第２のオーディオチャネル信号２２２との間の違いを、残留信号支援マルチチャネルデコーダ２４０により受信し得る（任意の）パラメータおよび第１の残留信号２３２によって記述してもよい。よって、第１の残留信号２３２は、例えば、第１のオーディオチャネル信号２２０および第２のオーディオチャネル信号２２２の部分波形再構成を可能にしてもよい。

同様に、（第２の）残留信号支援マルチチャネルデコーダ２５０は、第２のダウンミックス信号２１４に基づいて第３のオーディオチャネル信号２２４と第４のオーディオチャネル信号２２６とを提供し、第２のダウンミックス信号２１４は、例えば、第３のオーディオチャネル信号２２４と第４のオーディオチャネル信号２２６とを「粗く」記述してもよい。また、例えば、第３のオーディオチャネル信号２２４と第４のオーディオチャネル信号２２６との間の違いを、（第２の）残留信号支援マルチチャネルデコーダ２５０により受信し得る（任意の）パラメータおよび第２の残留信号２３４によって記述してもよい。よって、第２の残留信号２３４の評価により、例えば、第３のオーディオチャネル信号２２４および第４のオーディオチャネル信号２２６の部分波形再構成を可能にしてもよい。したがって、第２の残留信号２３４は、第３のオーディオチャネル信号２２４および第４のオーディオチャネル信号２２６の再構成品質の向上を可能にしてもよい。

しかし、第１の残留信号２３２および第２の残留信号２３４は、第１の残留信号と第２の残留信号とのジョイント符号化表現２１０から導出される。マルチチャネルデコーダ２３０によって行われるこのようなマルチチャネル復号は、第１のオーディオチャネル信号２２０と、第２のオーディオチャネル信号２２２と、第３のオーディオチャネル信号２２４と、第４のオーディオチャネル信号２２６とが典型的に類似または「相関」しているので、高い復号効率を可能にする。したがって、第１の残留信号２３２および第２の残留信号２３４も、また、典型的に類似または「相関」しており、このことを利用して、マルチチャネル復号を用いて、ジョイント符号化表現２１０から第１の残留信号２３２と第２の残留信号２３４とを導出することができる。

結果的に、残留信号２３２、２３４をこれらのジョイント符号化表現２１０に基づいて復号することによって、および、各残留信号を用いて２つ以上のオーディオチャネル信号を復号することによって、高い復号品質が得られる。

結論として、オーディオデコーダ２００は、高品質オーディオチャネル信号２２０，２２２，２２４，２２６を提供することで、高い復号効率を実現する。

尚、オーディオデコーダ２００において任意に実施可能な付加的特徴および機能について、図３，５，６および１３を参照して後述するが、オーディオデコーダ２００は、何ら付加的な変更なしに上記の利点を有し得る。

（３．図３によるオーディオデコーダ）
図３は、本発明の他の実施形態によるオーディオデコーダの概略ブロック図を示す。図３のオーディオデコーダは、全体において３００で表される。オーディオデコーダ３００は、図２によるオーディオデコーダ２００と類似するため、上述の説明が適用される。しかし、以下に述べるように、オーディオデコーダ３００は、オーディオデコーダ２００と比べて、付加的特徴および機能が補われている。

オーディオデコーダ３００は、第１の残留信号と第２の残留信号とのジョイント符号化表現３１０を受信するよう構成される。オーディオデコーダ３００は、また、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現３６０を受信するよう構成される。オーディオデコーダ３００は、また、第１のオーディオチャネル信号３２０と、第２のオーディオチャネル信号３２２と、第３のオーディオチャネル信号３２４と、第４のオーディオチャネル信号３２６とを提供するよう構成される。オーディオデコーダ３００は、マルチチャネルデコーダ３３０を含む。マルチチャネルデコーダ３３０は、第１の残留信号と第２の残留信号とのジョイント符号化表現３１０を受信して、これらに基づいて、第１の残留信号３３２と第２の残留信号３３４とを提供するよう構成される。オーディオデコーダ３００は、また、（第１の）残留信号支援マルチチャネル復号３４０を含む。（第１の）残留信号支援マルチチャネル復号３４０は、第１の残留信号３３２と第１のダウンミックス信号３１２とを受信し、第１のオーディオチャネル信号３２０と第２のオーディオチャネル信号３２２とを提供する。オーディオデコーダ３００は、また、（第２の）残留信号支援マルチチャネル復号３５０を含む。（第２の）残留信号支援マルチチャネル復号３５０は、第２の残留信号３３４と第２のダウンミックス信号３１４とを受信し、第３のオーディオチャネル信号３２４と第４のオーディオチャネル信号３２６とを提供するよう構成される。

オーディオデコーダ３００は、また、他のマルチチャネルデコーダ３７０を含む。他のマルチチャネルデコーダ３７０は、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現３６０を受信して、これらに基づいて、第１のダウンミックス信号３１２と第２のダウンミックス信号３１４とを提供するよう構成される。

以下に、オーディオデコーダ３００のさらなる具体的な詳細について説明する。但し、実際のオーディオデコーダは、これら全ての付加的特徴および機能の組み合わせを実現する必要はない。むしろ、以下に記載の特徴および機能を、オーディオデコーダ２００（または他の任意のオーディオデコーダ）に個々に追加して、オーディオデコーダ２００（または他の任意のオーディオデコーダ）を徐々に改良してもよい。

好適な実施形態において、オーディオデコーダ３００は、第１の残留信号と第２の残留信号とのジョイント符号化表現３１０を受信する。このジョイント符号化表現３１０は、第１の残留信号３３２と第２の残留信号３３４とのダウンミックス信号、および、第１の残留信号３３２と第２の残留信号３３４との共通残留信号を含んでもよい。加えて、ジョイント符号化表現３１０は、例えば、１つ以上の予測パラメータを含んでもよい。従って、マルチチャネルデコーダ３３０は、予測ベース残留信号支援マルチチャネルデコーダであってもよい。例えば、マルチチャネルデコーダ３３０は、国際規格ＩＳＯ／ＩＥＣ２３００３−３：２０１２の「ＣｏｍｐｌｅｘＳｔｅｒｅｏＰｒｅｄｉｃｔｉｏｎ」の節に記載されるようなＵＳＡＣ複合ステレオ予測であってもよい。例えば、マルチチャネルデコーダ３３０は、以前のフレームの信号成分を用いて導出される信号成分の、現在のフレームのための第１の残留信号３３２および第２の残留信号３３４の提供への寄与を記述する予測パラメータを評価するよう構成されてもよい。また、マルチチャネルデコーダ３３０は、第１の符号を伴う（ジョイント符号化表現３１０に含まれる）共通残留信号を適用して第１の残留信号３３２を得ると共に、第１の符号と逆の第２の符号を伴う（ジョイント符号化表現３１０に含まれる）共通残留信号を適用して第２の残留信号３３４を得るよう構成されてもよい。このように、共通残留信号は、少なくとも部分的に、第１の残留信号３３２と第２の残留信号３３４との間の違いを記述するものであってもよい。但し、マルチチャネルデコーダ３３０は、上述の国際規格ＩＳＯ／ＩＥＣ２３００３−３：２０１２に記載されているように、ジョイント符号化表現３１０に含まれるダウンミックス信号と、共通残留信号と、１つ以上の予測パラメータとを評価して第１の残留信号３３２と第の２残留信号３３４とを得てもよい。また、第１の残留信号３３２を、オーディオシーンの第１の水平位置（または方位位置）、例えば、左水平位置、と関連付けてもよく、第２の残留信号３３４を、オーディオシーンの第２の水平位置（または方位位置）、例えば、右水平位置、と関連付けてもよい。

第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現３６０は、好ましくは、第１のダウンミックス信号と第２のダウンミックス信号とのダウンミックス信号と、第１のダウンミックス信号と第２のダウンミックス信号との共通残留信号と、１つ以上の予測パラメータとを含む。言い換えれば、「共通」ダウンミックス信号の中に、第１のダウンミックス信号３１２と第２のダウンミックス信号３１４とがダウンミックスされ、「共通」残留信号は、少なくとも部分的に、第１のダウンミックス信号３１２と第２のダウンミックス信号３１４との違いを記述してもよい。マルチチャネルデコーダ３７０は、好ましくは、ＵＳＡＣ複合ステレオ予測デコーダ等の予測ベース残留信号支援マルチチャネルデコーダである。言い換えれば、第１のダウンミックス信号３１２と第２のダウンミックス信号３１４とを提供するマルチチャネルデコーダ３７０は、第１の残留信号３３２と第２の残留信号３３４とを提供するマルチチャネルデコーダ３３０と実質的に同一であってもよく、上述の説明および参照が当てはまる。また、第１のダウンミックス信号３１２は、好ましくは、オーディオシーンの第１の水平位置または方位位置（例えば、左水平位置または方位位置）と関連付けられ、第２のダウンミックス信号３１４は、好ましくは、オーディオシーンの第２の水平位置または方位位置（例えば、右水平位置または方位位置）と関連付けられる。よって、第１のダウンミックス信号３１２および第１の残留信号３３２は、同じ第１の水平位置または方位位置（例えば、左水平位置）と関連付けられてもよく、第２のダウンミックス信号３１４および第２の残留信号３３４は、同じ第２の水平位置または方位位置（例えば、右水平位置）と関連付けられてもよい。したがって、マルチチャネルデコーダ３７０およびマルチチャネルデコーダ３３０は、両方とも、水平分割（または、水平分離、または水平分布）を行ってもよい。

残留信号支援マルチチャネルデコーダ３４０は、好ましくは、パラメータベースであってもよく、したがって、２つのチャネル（例えば、第１のオーディオチャネル信号３２０および第２のオーディオチャネル信号３２２）間の所望の相関関係および／または前記２つのチャネル間のレベル差を記述する１つ以上のパラメータ３４２を受信してもよい。例えば、残留信号支援マルチチャネル復号３４０は、残留信号拡張または「ユニファイドステレオ復号」デコーダ（ＩＳＯ／ＩＥＣ２３００３−３，ｃｈａｐｔｅｒ７．１１（Ｄｅｃｏｄｅｒ）＆ＡｎｎｅｘＢ．２１（ＤｅｓｃｒｉｐｔｉｏｎｏｆｔｈｅＥｎｃｏｄｅｒ＆ＤｅｆｉｎｉｔｉｏｎｏｆｔｈｅＴｅｒｍ ”ＵｎｉｆｉｅｄＳｔｅｒｅｏ”に記載される）を伴うＭＰＥＧサラウンド符号化（例えば、ＩＳＯ／ＩＥＣ２３００３−１：２００７に記載される）に基づいてもよい。従って、残留信号支援マルチチャネルデコーダ３４０は、第１のオーディオチャネル信号３２０と第２のオーディオチャネル信号３２２とを提供してもよく、ここで、第１のオーディオチャネル信号３２０および第２のオーディオチャネル信号３２２は、オーディオシーンの垂直近傍位置と関連付けられる。例えば、第１のオーディオチャネル信号は、オーディオシーンの左下位置と関連付けられてもよく、第２のオーディオチャネル信号は、オーディオシーンの左上位置と関連付けられてもよい（第１のオーディオチャネル信号３２０および第２のオーディオチャネル信号３２２は、例えば、オーディオシーンの同一の水平位置または方位位置、または、３０度以内で分かれた方位位置、と関連付けられる）。言い換えれば、残留信号支援マルチチャネルデコーダ３４０は、垂直分割（または分布、または分離）を行ってもよい。

残留信号支援マルチチャネルデコーダ３５０の機能は、残留信号支援マルチチャネルデコーダ３４０の機能と同一であってもよい。ここで、第３のオーディオチャネル信号は、例えば、オーディオシーンの右下位置と関連付けられてもよく、第４のオーディオチャネル信号は、例えば、オーディオシーンの右上位置と関連付けられてもよい。言い換えれば、第３のオーディオチャネル信号および第４のオーディオチャネル信号は、オーディオシーンの垂直近傍位置と関連付けられてもよく、オーディオシーンの同一水平位置または方位位置と関連付けられてもよく、残留信号支援マルチチャネルデコーダ３５０は、垂直分割（または分離、または分布）を行う。

要約すると、図３によるオーディオデコーダ３００は、階層型オーディオ復号を行い、第１のステージ（マルチチャネルデコーダ３３０、マルチチャネルデコーダ３７０）では左右分割が行われ、第２のステージ（残留信号支援マルチチャネルデコーダ３４０，３５０）では上下分割が行われる。また、残留信号３３２，３３４は、ダウンミックス信号３１２，３１４（ジョイント符号化表現３６０）と同様、ジョイント符号化表現３１０を用いて符号化される。このように、異なるチャネル間の相関関係を、ダウンミックス信号３１２，３１４の符号化（および復号）、および残留信号３３２，３３４の符号化（および復号）のために利用する。こうして、高い符号化効率が達成され、信号間の相関関係が良好に利用される。

（４．図４によるオーディオエンコーダ）
図４は、本発明の他の実施形態によるオーディオエンコーダの概略ブロック図を示す。図４によるオーディオエンコーダは、全体において４００で表される。オーディオエンコーダ４００は、４つのオーディオチャネル信号、すなわち、第１のオーディオチャネル信号４１０と、第２のオーディオチャネル信号４１２と、第３のオーディオチャネル信号４１４と、第４のオーディオチャネル信号４１６とを受信するよう構成される。また、オーディオエンコーダ４００は、オーディオチャネル信号４１０，４１２，４１４および４１６に基づいて符号化表現を提供するよう構成され、前記符号化表現は、共通帯域幅拡張パラメータの第１の組４２２と共通帯域幅拡張パラメータの第２の組４２４との符号化表現と共に、２つのダウンミックス信号のジョイント符号化表現４２０を含む。オーディオエンコーダ４００は、第１の帯域幅拡張パラメータエクストラクタ４３０を含む。第１の帯域幅拡張パラメータエクストラクタ４３０は、第１のオーディオチャネル信号４１０と第３のオーディオチャネル信号４１４とに基づいて、共通帯域幅拡張パラメータの第１の組４２２を得るよう構成される。オーディオエンコーダ４００は、また、第２の帯域幅拡張パラメータエクストラクタ４４０を含む。第２の帯域幅拡張パラメータエクストラクタ４４０は、第２のオーディオチャネル信号４１２と第４のオーディオチャネル信号４１６とに基づいて、共通帯域幅拡張パラメータの第２の組４２４を得るよう構成される。

オーディオエンコーダ４００は、また、（第１の）マルチチャネルエンコーダ４５０を含む。（第１の）マルチチャネルエンコーダ４５０は、マルチチャネル符号化を用いて、少なくとも第１のオーディオチャネル信号４１０と第２のオーディオチャネル信号４１２とをジョイント符号化して、第１のダウンミックス信号４５２を得るよう構成される。更に、オーディオエンコーダ４００は、（第２の）マルチチャネルエンコーダ４６０を含む。（第２の）マルチチャネルエンコーダ４６０は、マルチチャネル符号化を用いて、少なくとも第３のオーディオチャネル信号４１４と第４のオーディオチャネル信号４１６とをジョイント符号化して、第２のダウンミックス信号４６２を得るよう構成される。更に、オーディオエンコーダ４００は、（第３の）マルチチャネルエンコーダ４７０を含む。（第３の）マルチチャネルエンコーダ４７０は、マルチチャネル符号化を用いて、第１のダウンミックス信号４５２と第２のダウンミックス信号４６２とをジョイント符号化して、ダウンミックス信号のジョイント符号化表現４２０を得るよう構成される。

オーディオエンコーダ４００の機能に関して、オーディオエンコーダ４００は、階層型マルチチャネル符号化を行い、第１のステージにおいて第１のオーディオチャネル信号４１０と第２のオーディオチャネル信号４１２とが結合され、また第１のステージにおいて第３のオーディオチャネル信号４１４と第４のオーディオチャネル信号４１６とが結合されて、それによって、第１のダウンミックス信号４５２と第２のダウンミックス信号４６２とが得られる。第１のダウンミックス信号４５２と第２のダウンミックス信号４６２とは、それから、第２のステージにおいて、ジョイント符号化される。但し、第１の帯域幅拡張パラメータエクストラクタ４３０は、階層型マルチチャネル符号化の第１のステージにおいて異なるマルチチャネルエンコーダ４５０，４６０によって処理されるオーディオチャネル信号４１０，４１４に基づいて、共通帯域幅拡張パラメータの第１の組４２２を提供する。同様に、第２の帯域幅拡張パラメータエクストラクタ４４０は、第１の処理ステージにおいて異なるマルチチャネルエンコーダ４５０，４６０によって処理される異なるオーディオチャネル信号４１２，４１６に基づいて、共通帯域幅拡張パラメータの第２の組４２４を提供する。この特定の処理順によって、帯域幅拡張パラメータの組４２２，４２４が、階層型符号化の第２のステージにおいて（すなわち、マルチチャネルエンコーダ４７０において）のみ結合されるチャネルに基づくという利点が得られる。このことは、音源位置知覚について関連性が低い関係のオーディオチャネルを階層型符号化の第１のステージにおいて結合することが望ましいことから、有利である。むしろ、第１のダウンミックス信号と第２のダウンミックス信号との間の関係が音源位置知覚を主に決定することが好ましい。なぜなら、第１のダウンミックス信号４５２と第２のダウンミックス信号４６２との間の関係は、個々のオーディオチャネル信号４１０，４１２，４１４，４１６間の関係よりもよく維持できるからである。言い換えれば、共通帯域幅拡張パラメータの第１の組４２２は、ダウンミックス信号４５２，４６２の違いに寄与する２つのオーディオチャネル（オーディオチャネル信号）に基づき、共通帯域幅拡張パラメータの第２の組４２４は、階層型マルチチャネル符号化においてオーディオチャネル信号の上記処理によって到達される、ダウンミックス信号４５２，４６２の違いに寄与するオーディオチャネル信号４１２，４１６に基づいて提供されることが望ましいことが分かっている。したがって、共通帯域幅拡張パラメータの第１の組４２２は、第１のダウンミックス信号４５２と第２のダウンミックス信号４６２との間のチャネル関係と比べる際、類似のチャネル関係に基づく。ここで、後者は、典型的に、オーディオデコーダ側で生成される空間的印象を支配する。したがって、帯域幅拡張パラメータの第１の組４２２の提供、および帯域幅拡張パラメータの第２の組４２４の提供が、オーディオデコーダ側で生成される空間的聴覚印象によく適応している。

（５．図５によるオーディオデコーダ）
図５は、本発明の他の実施形態によるオーディオデコーダの概略ブロック図を示す。図５のオーディオデコーダは、全体において５００で表される。

オーディオデコーダ５００は、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現５１０を受信するよう構成される。また、オーディオデコーダ５００は、第１の帯域幅拡張チャネル信号５２０と、第２の帯域幅拡張チャネル信号５２２と、第３の帯域幅拡張チャネル信号５２４と、第４の帯域幅拡張チャネル信号５２６とを提供するよう構成される。

オーディオデコーダ５００は、（第１の）マルチチャネルデコーダ５３０を含む。（第１の）マルチチャネルデコーダ５３０は、マルチチャネル復号を用いて、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現５１０に基づいて、第１のダウンミックス信号５３２と第２のダウンミックス信号５３４とを提供するよう構成される。オーディオデコーダ５００は、また、（第２の）マルチチャネルデコーダ５４０を含む。（第２の）マルチチャネルデコーダ５４０は、マルチチャネル復号を用いて、第１のダウンミックス信号５３２に基づいて、少なくとも第１のオーディオチャネル信号５４２と第２のオーディオチャネル信号５４４とを提供するよう構成される。オーディオデコーダ５００は、また、（第３の）マルチチャネルデコーダ５５０を含む。（第３の）マルチチャネルデコーダ５５０は、マルチチャネル復号を用いて、第２のダウンミックス信号５４４に基づいて、少なくとも第３のオーディオチャネル信号５５６と第４のオーディオチャネル信号５５８とを提供するよう構成される。更に、オーディオデコーダ５００は、（第１の）マルチチャネル帯域幅拡張５６０を含む。（第１の）マルチチャネル帯域幅拡張５６０は、第１のオーディオチャネル信号５４２と第３のオーディオチャネル信号５５６とに基づいてマルチチャネル帯域幅拡張を行って、第１の帯域幅拡張チャネル信号５２０と第３の帯域幅拡張チャネル信号５２４とを得るよう構成される。更に、オーディオデコーダは、（第２の）マルチチャネル帯域幅拡張５７０を含む。（第２の）マルチチャネル帯域幅拡張５７０は、第２のオーディオチャネル信号５４４と第４のオーディオチャネル信号５５８とに基づいてマルチチャネル帯域幅拡張を行って、第２の帯域幅拡張チャネル信号５２２と第４の帯域幅拡張チャネル信号５２６とを得るよう構成される。

オーディオデコーダ５００の機能に関して、オーディオデコーダ５００は、階層型マルチチャネル復号を行い、階層型復号の第１のステージにおいて第１のダウンミックス信号５３２と第２のダウンミックス信号５３４との分割が行われ、階層型復号の第２のステージにおいて第１のダウンミックス信号５３２から第１のオーディオチャネル信号５４２と第２のオーディオチャネル信号５４４とが導出され、階層型復号の第２のステージにおいて第２のダウンミックス信号５５０から第３のオーディオチャネル信号５５６と第４のオーディオチャネル信号５５８とが導出される。但し、第１のマルチチャネル帯域幅拡張５６０および第２のマルチチャネル帯域幅拡張５７０は、両方ともそれぞれ、第１のダウンミックス信号５３２から導出される１つのオーディオチャネル信号と、第２のダウンミックス信号５３４から導出される１つのオーディオチャネル信号とを受信する。階層型復号の第２のステージと比べる際、階層型マルチチャネル復号の第１のステージとして行われる（第１の）マルチチャネル復号５３０によってより良好なチャネル分離が典型的に実現されるため、各マルチチャネル帯域幅拡張５６０，５７０は、良好に分離された入力信号（なぜなら、これらは、良好にチャネル分離された第１のダウンミックス信号５３２および第２のダウンミックス信号５３４に由来するため）を受信することが分かる。こうして、マルチチャネル帯域幅拡張５６０，５７０は、聴覚印象にとって重要であり、第１のダウンミックス信号５３２と第２のダウンミックス信号５３４との間の関係によって良く表されるステレオ特性を考慮することができ、したがって、良好な聴覚印象を与えることができる。

言い換えれば、各マルチチャネル帯域幅拡張ステージ５６０，５７０が両（第２のステージ）マルチチャネルデコーダ５４０，５５０から入力信号を受信するというオーディオデコーダの「交差」構造によって、チャネル間のステレオ関係を考慮した良好なマルチチャネル帯域幅拡張が可能になる。

しかし、オーディオデコーダ５００に、図２，３，６および１３によるオーディオデコーダに関して本明細書に記載される特徴および機能のいずれかを補ってもよい。個々の特徴をオーディオデコーダ５００に導入して、オーディオデコーダの性能を次第に向上させることも可能である。

（６．図６によるオーディオデコーダ）
図６は、本発明の他の実施形態によるオーディオデコーダの概略ブロック図を示す。図６によるオーディオデコーダは、全体において６００で表される。図６によるオーディオデコーダ６００は、図５によるオーディオデコーダ５００と類似しており、上述の説明が当てはまる。しかし、オーディオデコーダ６００にはいくつかの特徴および機能が補われている。これらの特徴および機能は、個々にまたは組み合わせて、改良のためにオーディオデコーダ５００に導入することも可能である。

オーディオデコーダ６００は、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現６１０を受信して、第１の帯域幅拡張信号６２０と、第２の帯域幅拡張信号６２２と、第３の帯域幅拡張信号６２４と、第４の帯域幅拡張信号６２６とを提供するよう構成される。オーディオデコーダ６００は、マルチチャネルデコーダ６３０を含む。マルチチャネルデコーダ６３０は、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現６１０を受信して、これらに基づいて、第１のダウンミックス信号６３２と第２のダウンミックス信号６３４とを提供するよう構成される。オーディオデコーダ６００は、さらに、マルチチャネルデコーダ６４０を含む。マルチチャネルデコーダ６４０は、第１のダウンミックス信号６３２を受信して、これに基づいて、第１のオーディオチャネル信号５４２と第２のオーディオチャネル信号５４４とを提供するよう構成される。オーディオデコーダ６００は、また、マルチチャネルデコーダ６５０を含む。マルチチャネルデコーダ６５０は、第２のダウンミックス信号６３４を受信して、第３のオーディオチャネル信号６５６と第４のオーディオチャネル信号６５８とを提供するよう構成される。オーディオデコーダ６００は、また、（第１の）マルチチャネル帯域幅拡張６６０を含む。（第１の）マルチチャネル帯域幅拡張６６０は、第１のオーディオチャネル信号６４２と第３のオーディオチャネル信号６５６とを受信して、これらに基づいて、第１の帯域幅拡張チャネル信号６２０と第３の帯域幅拡張チャネル信号６２４とを提供するよう構成される。また、（第２の）マルチチャネル帯域幅拡張６７０は、第２のオーディオチャネル信号６４４と第４のオーディオチャネル信号６５８とを受信して、これらに基づいて、第２の帯域幅拡張チャネル信号６２２と第４の帯域幅拡張チャネル信号６２６とを提供する。

オーディオデコーダ６００は、また、さらなるマルチチャネルデコーダ６８０を含む。さらなるマルチチャネルデコーダ６８０は、第１の残留信号と第２の残留信号とのジョイント符号化表現６８２を受信するよう構成され、これらに基づいて、マルチチャネルデコーダ６４０による使用に供する第１の残留信号６８４と、マルチチャネルデコーダ６５０による使用に供する第２の残留信号６８６とを提供する。

マルチチャネルデコーダ６３０は、好ましくは、予測ベース残留信号支援マルチチャネルデコーダである。例えば、マルチチャネルデコーダ６３０は、上述したマルチチャネルデコーダ３７０と実質的に同一であってもよい。例えば、マルチチャネルデコーダ６３０は、前述の通り、また、上述したＵＳＡＣ規格に記載されるように、ＵＳＡＣ複合ステレオ予測デコーダであってもよい。従って、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現６１０は、例えば、マルチチャネルデコーダ６３０により評価される、第１のダウンミックス信号と第２のダウンミックス信号との（共通）ダウンミックス信号と、第１のダウンミックス信号と第２のダウンミックス信号との（共通）残留信号と、１つ以上の予測パラメータとを含んでもよい。

また、第１のダウンミックス信号６３２は、例えば、オーディオシーンの第１の水平位置または方位位置（例えば、左水平位置）と関連付けられてもよく、第２のダウンミックス信号６３４は、例えば、オーディオシーンの第２の水平位置または方位位置（例えば、右水平位置）と関連付けられてもよい。

更に、マルチチャネルデコーダ６８０は、例えば、予測ベース残留信号関連マルチチャネルデコーダであってもよい。マルチチャネルデコーダ６８０は、上述したマルチチャネルデコーダ３３０と実質的に同一であってもよい。例えば、マルチチャネルデコーダ６８０は、前述の通り、ＵＳＡＣ複合ステレオ予測デコーダであってもよい。結果として、第１の残留信号と第２の残留信号とのジョイント符号化表現６８２は、マルチチャネルデコーダ６８０により評価される、第１の残留信号と第２の残留信号との（共通）ダウンミックス信号と、第１の残留信号と第２の残留信号との（共通）残留信号と、１つ以上の予測パラメータとを含んでもよい。更に、第１の残留信号６８４は、オーディオシーンの第１の水平位置または方位位置（例えば、左水平位置）と関連付けられてもよく、第２の残留信号６８６は、オーディオシーンの第２の水平位置または方位位置（例えば、右水平位置）と関連付けられてもよい。

マルチチャネルデコーダ６４０は、例えば、前述の通り、また、参照規格に記載されるように、ＭＰＥＧサラウンドマルチチャネル復号等の、パラメータベースマルチチャネル復号であってもよい。但し、（任意の）マルチチャネルデコーダ６８０および（任意の）第１の残留信号６８４の存在下で、マルチチャネルデコーダ６４０は、ユニファイドステレオデコーダ等の、パラメータベース残留信号支援マルチチャネルデコーダであってもよい。このように、マルチチャネルデコーダ６４０は、上述したマルチチャネルデコーダ３４０と実質的に同一であってもよく、マルチチャネルデコーダ６４０は、例えば、上述したパラメータ３４２を受信してもよい。

同様に、マルチチャネルデコーダ６５０は、マルチチャネルデコーダ６４０と実質的に同一であってもよい。従って、マルチチャネルデコーダ６５０は、例えば、パラメータベースであってもよく、任意に、（任意のマルチチャネルデコーダ６８０の存在下で）残留信号支援であってもよい。

また、第１のオーディオチャネル信号６４２および第２のオーディオチャネル信号６４４は、好ましくは、オーディオシーンの垂直隣接空間位置と関連付けられる。例えば、第１のオーディオチャネル信号６４２は、オーディオシーンの左下位置と関連付けられ、第２のオーディオチャネル信号６４４は、オーディオシーンの左上位置と関連付けられる。したがって、マルチチャネルデコーダ６４０は、第１のダウンミックス信号６３２（および、任意に、第１の残留信号６８４）によって記述されるオーディオコンテンツの垂直分割（または、分離、または分布）を行う。同様に、第３のオーディオチャネル信号６５６および第４のオーディオチャネル信号６５８は、オーディオシーンの垂直隣接位置と関連付けられ、好ましくは、オーディオシーンの同一水平位置または方位位置と関連付けられる。例えば、第３のオーディオチャネル信号６５６は、好ましくは、オーディオシーンの右下位置と関連付けられ、第４のオーディオチャネル信号６５８は、好ましくは、オーディオシーンの右上位置と関連付けられる。したがって、マルチチャネルデコーダ６５０は、第２のダウンミックス信号６３４（および、任意に、第２の残留信号６８６）によって記述されるオーディオコンテンツの垂直分割（または、分離、または分布）を行う。

但し、第１のマルチチャネル帯域幅拡張６６０は、オーディオシーンの左下位置および右下位置と関連付けられた第１のオーディオチャネル信号６４２と第３のオーディオチャネル６５６とを受信する。従って、第１のマルチチャネル帯域幅拡張６６０は、オーディオシーンの同一水平面（例えば、下水平面）または高度およびオーディオシーンの異なるサイド（左／右）と関連付けられた２つのオーディオチャネル信号に基づいて、マルチチャネル帯域幅拡張を行う。したがって、マルチチャネル帯域幅拡張は、帯域幅拡張を行う際に、ステレオ特性（例えば、人間のステレオ知覚）を考慮することができる。同様に、第２のマルチチャネル帯域幅拡張６７０も、ステレオ特性を考慮し得る。なぜなら、第２のマルチチャネル帯域幅拡張は、オーディオシーンの同一水平面（例えば、上水平面）または高度の、異なる水平位置（異なる側）（左／右）のオーディオチャネル信号に作用するからである。

更に、結論として、階層型オーディオデコーダ６００は、第１のステージ（マルチチャネル復号６３０，６８０）において左右分割（または分離、または分布）が行われ、第２のステージ（マルチチャネル復号６４０，６５０）において垂直分割（分離または分布）が行われ、マルチチャネル帯域幅拡張が１対の左右信号に作用する（マルチチャネル帯域幅拡張６６０，６７０）構造を含む。この復号経路の「交差」によって、聴覚印象にとって特に重要な（例えば、上下分割より重要な）左右分離を、階層型オーディオデコーダの第１の処理ステージにおいて行うことができ、また、マルチチャネル帯域幅拡張を１対の左右オーディオチャネル信号に行うことができ、これも特に良好な聴覚印象へとつながる。上下分割は、左右分離とマルチチャネル帯域幅拡張との間の中間ステージとして行われ、聴覚印象を大きく損なうことなく、４つのオーディオチャネル信号（または帯域幅拡張チャネル信号）を導出可能である。

（７．図７による方法）
図７は、少なくとも４つのオーディオチャネル信号に基づいて符号化表現を提供するための方法７００のフローチャートを示す。

方法７００は、残留信号支援マルチチャネル符号化を用いて、少なくとも第１のオーディオチャネル信号と第２のオーディオチャネル信号とをジョイント符号化７１０して、第１のダウンミックス信号と第の１残留信号とを得るステップを含む。方法は、また、残留信号支援マルチチャネル符号化を用いて、少なくとも第３のオーディオチャネル信号と第４のオーディオチャネル信号とをジョイント符号化７２０して第２のダウンミックス信号と第２の残留信号とを得るステップを含む。方法は、さらに、マルチチャネル符号化を用いて、第１の残留信号と第２の残留信号とをジョイント符号化７３０して残留信号の符号化表現を得るステップを含む。しかし、方法７００に、オーディオエンコーダおよびオーディオデコーダに関して本明細書に記載される特徴および機能のいずれかを補ってもよい。

（８．図８による方法）
図８は、符号化表現に基づいて少なくとも４つのオーディオチャネル信号を提供するための方法８００のフローチャートを示す。

方法８００は、マルチチャネル復号を用いて、第１の残留信号と第２の残留信号とのジョイント符号化表現に基づいて第１の残留信号と第２の残留信号とを提供するステップ８１０を含む。方法８００は、また、残留信号支援マルチチャネル復号を用いて、第１のダウンミックス信号と第１の残留信号とに基づいて第１のオーディオチャネル信号と第２のオーディオチャネル信号とを提供するステップ８２０を含む。方法８００は、また、残留信号支援マルチチャネル復号を用いて、第２のダウンミックス信号と第２の残留信号とに基づいて第３のオーディオチャネル信号と第４のオーディオチャネル信号とを提供するステップ８３０を含む。

方法８００に、オーディオエンコーダおよびオーディオデコーダに関して本明細書に記載される特徴および機能のいずれかを補ってもよい。

（９．図９による方法）
図９は、少なくとも４つのオーディオチャネル信号に基づいて符号化表現を提供するための方法９００のフローチャートを示す。

方法９００は、第１のオーディオチャネル信号と第３のオーディオチャネル信号とに基づいて共通帯域幅拡張パラメータの第１の組を得るステップ９１０を含む。方法９００はまた、第２のオーディオチャネル信号と第４のオーディオチャネル信号とに基づいて共通帯域幅拡張パラメータの第２の組を得るステップ９２０を含む。方法は、また、マルチチャネル符号化を用いて、少なくとも第１のオーディオチャネル信号と第２のオーディオチャネル信号とをジョイント符号化して第１のダウンミックス信号を得るステップと、マルチチャネル符号化を用いて、少なくとも第３のオーディオチャネル信号と第４のオーディオチャネル信号とをジョイント符号化９４０して第２のダウンミックス信号を得るステップとを含む。方法は、また、マルチチャネル符号化を用いて、第１のダウンミックス信号と第２のダウンミックス信号とをジョイント符号化９５０してダウンミックス信号の符号化表現を得るステップを含む。

尚、特定の相互依存関係にない方法９００のステップの一部は、任意の順番で、または、並列で、実行することができる。また、方法９００に、オーディオエンコーダおよびオーディオデコーダに関して本明細書に記載される特徴および機能のいずれかを補ってもよい。

（１０．図１０による方法）
図１０は、符号化表現に基づいて少なくとも４つのオーディオチャネル信号を提供するための方法１０００のフローチャートを示す。

方法１０００は、マルチチャネル復号を用いて、第１のダウンミックス信号と第２のダウンミックス信号とのジョイント符号化表現に基づいて第１のダウンミックス信号と第２のダウンミックス信号とを提供するステップ１０１０と、マルチチャネル復号により第１のダウンミックス信号に基づいて少なくとも第１のオーディオチャネル信号と第２のオーディオチャネル信号とを提供すること１０２０と、マルチチャネル復号を用いて、第２のダウンミックス信号に基づいて少なくとも第３のオーディオチャネル信号と第４のオーディオチャネル信号とを提供するステップ１０３０と、第１のオーディオチャネル信号と第３のオーディオチャネル信号とに基づいてマルチチャネル帯域幅拡張を行って１０４０、第１の帯域幅拡張チャネル信号と第３の帯域幅拡張チャネル信号とを得るステップと、第２のオーディオチャネル信号と第４のオーディオチャネル信号とに基づいてマルチチャネル帯域幅拡張を行って１０５０、第２の帯域幅拡張チャネル信号と第４の帯域幅拡張チャネル信号とを得るステップとを含む。

尚、方法１０００のステップの一部は、並列で、または、異なる順番で、実行することができる。また、方法１０００に、オーディオエンコーダおよびオーディオデコーダに関して本明細書に記載される特徴および機能のいずれかを補ってもよい。

（１１．図１１，１２および１３による実施形態）
以下に、本発明による付加的実施形態および基本的な考察を記載する。

図１１は、本発明の実施形態によるオーディオエンコーダ１１００の概略ブロック図を示す。オーディオエンコーダ１１００は、左下チャネル信号１１１０と、左上チャネル信号１１１２と、右下チャネル信号１１１４と、右上チャネル信号１１１６とを受信するよう構成される。

オーディオエンコーダ１１００は、第１のマルチチャネルオーディオエンコーダ（または符号化）１１２０を含む。第１のマルチチャネルオーディオエンコーダ（または符号化）１１２０は、ＭＰＥＧサラウンド２−１−２オーディオエンコーダ（または符号化）またはユニファイドステレオオーディオエンコーダ（または符号化）であり、左下チャネル信号１１１０と左上チャネル信号１１１２とを受信する。第１のマルチチャネルオーディオエンコーダ１１２０は、左ダウンミックス信号１１２２を提供し、任意に、左残留信号１１２４を提供する。オーディオエンコーダ１１００は、また、第２のマルチチャネルエンコーダ（または符号化）１１３０を含む。第２のマルチチャネルエンコーダ（または符号化）１１３０は、ＭＰＥＧサラウンド２−１−２エンコーダ（または符号化）またはユニファイドステレオエンコーダ（または符号化）であり、右下チャネル信号１１１４と右上チャネル信号１１１６とを受信する。第２のマルチチャネルオーディオエンコーダ１１３０は、右ダウンミックス信号１１３２を提供し、任意に、右残留信号１１３４を提供する。オーディオエンコーダ１１００は、また、ステレオコーダ（または符号化）１１４０を含む。ステレオコーダ（または符号化）１１４０は、左ダウンミックス信号１１２２と右ダウンミックス信号１１３２とを受信する。また、複合予測ステレオ符号化である第１のステレオ符号化１１４０は、心理音響モデルから、心理音響モデル情報１１４２を受信する。例えば、心理モデル情報１１４２は、異なる周波数バンドまたは周波数サブバンドの心理音響関連性および心理音響マスキング効果等を記述してもよい。ステレオ符号化１１４０は、チャネル対要素（ＣＰＥ）「ダウンミックス」を提供し、これは、１１４４で表され、左ダウンミックス信号１１２２と右ダウンミックス信号１１３２とをジョイント符号化形態で記述する。また、オーディオエンコーダ１１００は、任意に、第２のステレオコーダ（または符号化）１１５０を含む。第２のステレオコーダ（または符号化）１１５０は、心理音響モデル情報１１４２と共に、任意の左残留信号１１２４と任意の右残留信号１１３４とを受信するよう構成される。複合予測ステレオ符号化である第２のステレオ符号化１１５０は、チャネル対要素（ＣＰＥ）「残留」を提供するよう構成され、これは、左残留信号１１２４と右残留信号１１３４とをジョイント符号化形態で表す。

エンコーダ１１００（および本明細書に記載の他のオーディオエンコーダ）は、利用可能なＵＳＡＣステレオツール（すなわち、ＵＳＡＣ符号化において利用可能な符号化概念）を階層的に組み合わせることによって水平および垂直信号依存関係を利用するという考えに基づく。帯域制限または全帯域残留信号（１１２４および１１３４で表す）を伴うＭＰＥＧサラウンド２−１−２またはユニファイドステレオ（１１２０および１１３０で表す）を用いて、垂直近傍チャネル対が結合される。各垂直チャネル対の出力は、ダウンミックス信号１１２２，１１３２であり、ユニファイドステレオでは、残留信号１１２４，１１３４である。バイノーラルアンマスキングの知覚要求を満たすため、両ダウンミックス信号１１２２，１１３２を、左／右および中／サイド符号化の可能性を含むＭＤＣＴドメインにおける複合予測（エンコーダ１１４０）により、水平に結合し、ジョイント符号化する。同じ方法を、水平結合残留信号１１２４，１１３４に適用可能である。この概念を図１１に示す。

図１１を参照して説明した階層構造は、両ステレオツール（例えば、ＵＳＡＣステレオツール）と、その間のリソーティングチャネルを有効にすることで実現できる。このように、追加の前処理／後処理ステップは、不要であり、ツールのペイロードの送信のためのビットストリーム構文は、不変である（例えば、ＵＳＡＣ規格と比べる際、実質的に不変である）。この考えが、図１２に示すエンコーダ構造につながる。

図１２は、本発明の実施形態によるオーディオエンコーダ１２００の概略ブロック図を示す。オーディオエンコーダ１２００は、第１のチャネル信号１２１０と、第２のチャネル信号１２１２と、第３のチャネル信号１２１４と、第４のチャネル信号１２１６とを受信するよう構成される。オーディオエンコーダ１２００は、第１のチャネル対要素のためのビットストリーム１２２０と、第２のチャネル対要素のためのビットストリーム１２２２とを提供するよう構成される。

オーディオエンコーダ１２００は、第１のマルチチャネルエンコーダ１２３０を含む。第１のマルチチャネルエンコーダ１２３０は、ＭＰＥＧサラウンド２−１−２エンコーダまたはユニファイドステレオエンコーダであり、第１のチャネル信号１２１０と第２のチャネル信号１２１２とを受信する。また、第１のマルチチャネルエンコーダ１２３０は、第１のダウンミックス信号１２３２と、ＭＰＥＧサラウンドペイロード１２３６とを提供するとともに、任意に、第１の残留信号１２３４を提供する。オーディオエンコーダ１２００は、また、第２のマルチチャネルエンコーダ１２４０を含む。第２のマルチチャネルエンコーダ１２４０は、ＭＰＥＧサラウンド２−１−２エンコーダまたはユニファイドステレオエンコーダであり、第３のチャネル信号１２１４と第４のチャネル信号１２１６とを受信する。第２のマルチチャネルエンコーダ１２４０は、第１のダウンミックス信号１２４２と、ＭＰＥＧサラウンドペイロード１２４６とを提供するとともに、任意に、第２の残留信号１２４４を提供する。

オーディオエンコーダ１２００は、また、複合予測ステレオ符号化である第１のステレオ符号化１２５０を含む。第１ステレオ符号化１２５０は、第１のダウンミックス信号１２３２と第２のダウンミックス信号１２４２とを受信する。第１のステレオ符号化１２５０は、第１のダウンミックス信号１２３２と第２のダウンミックス信号１２４２とのジョイント符号化表現１２５２を提供し、このジョイント符号化表現１２５２は、（第１のダウンミックス信号１２３２と第２のダウンミックス信号１２４２との）（共通）ダウンミックス信号および（第１のダウンミックス信号１２３２と第２のダウンミックス信号１２４２との）共通残留信号の表現を含んでもよい。また、（第１の）複合予測ステレオ符号化１２５０は、典型的に１つ以上の複合予測係数を含む複合予測ペイロード１２５４を提供する。オーディオエンコーダ１２００は、また、複合予測ステレオ符号化である第２のステレオ符号化１２６０を含む。第２のステレオ符号化１２６０は、第１の残留信号１２３４と第２の残留信号１２４４（または、マルチチャネルエンコーダ１２３０，１２４０によって提供される残留信号がない場合には、０入力値）とを受信する。第２のステレオ符号化１２６０は、第１の残留信号１２３４と第２の残留信号１２４４とのジョイント符号化表現１２６２を提供し、これは、例えば、（第１の残留信号１２３４と第２の残留信号１２４４との）（共通）ダウンミックス信号および（第１の残留信号１２３４と第２の残留信号１２４４との）共通残留信号を含んでもよい。また、複合予測ステレオ符号化１２６０は、典型的に１つ以上の予測係数を含む複合予測ペイロード１２６４を提供する。

オーディオエンコーダ１２００は、また、心理音響モデル１２７０を含む。心理音響モデル１２７０は、第１の複合予測ステレオ符号化１２５０と第２の複合予測ステレオ符号化１２６０とを制御する情報を提供する。例えば、心理音響モデル１２７０によって提供される情報は、どの周波数バンドまたは周波数ビンが高い心理音響関連性を有し、高精度で符号化されるべきかを記述してもよい。但し、心理音響モデル１２７０によって提供される情報の使用は、任意である。

オーディオエンコーダ１２００は、また、第１のエンコーダ・マルチプレクサ１２８０を含む。第１のエンコーダ・マルチプレクサ１２８０は、第１の複合予測ステレオ符号化１２５０からジョイント符号化表現１２５２を受信し、第１の複合予測ステレオ符号化１２５０から複合予測ペイロード１２５４を受信し、かつ、第１のマルチチャネルオーディオエンコーダ１２３０からＭＰＥＧサラウンドペイロード１２３６を受信する。また、第１の符号化・多重化１２８０は、心理音響モデル１２７０から情報を受信してもよく、この情報は、例えば、心理音響マスキング効果等を考慮して、どの周波数バンドまたは周波数サブバンドにどの符号化精度を適用すべきかを記述する。こうして、第１の符号化・多重化１２８０は、第１のチャネル対要素ビットストリーム１２２０を提供する。

オーディオエンコーダ１２００は、また、第２の符号化・多重化１２９０を含む。第２の符号化・多重化１２９０は、第２の複合予測ステレオ符号化１２６０によって提供されるジョイント符号化表現１２６２と、第２の複合予測ステレオ符号化１２６０によって提供される複合予測ペイロード１２６４と、第２のマルチチャネルオーディオエンコーダ１２４０によって提供されるＭＰＥＧサラウンドペイロード１２４６とを受信するよう構成される。また、第２の符号化・多重化１２９０は、心理音響モデル１２７０から情報を受信してもよい。こうして、第２の符号化・多重化１２９０は、第２のチャネル対要素ビットストリーム１２２２を提供する。

オーディオエンコーダ１２００の機能に関しては、上述の説明、および図２，３，５および６によるオーディオエンコーダについての説明を参照のこと。

また、この概念は、幾何学的および知覚的特性を考慮して、複数のＭＰＥＧサラウンドボックスを用いて、水平に、垂直に、さもなくば幾何学的に関連するチャネルをジョイント符号化して、ダウンミックスおよび残留信号を複合予測ステレオ対に結合するように拡張可能である。これが、汎用のデコーダ構造につながる。

以下に、クワッドチャネル要素の実施を記載する。３次元オーディオ符号化システムにおいて、クワッドチャネル要素（ＱＣＥ）を形成するため、４つのチャネルの階層結合を用いる。ＱＣＥは、２つのＵＳＡＣチャネル対要素（ＣＰＥ：ｃｈａｎｎｅｌｐａｉｒｅｌｅｍｅｎｔ）からなる（または、２つのＵＳＡＣチャネル対要素を提供する、または、ＵＳＡＣチャネル対要素を受信する）。垂直チャネル対は、ＭＰＳ２−１−２またはユニファイドステレオを用いて結合される。ダウンミックスチャネルは、第１のチャネル対要素ＣＰＥにおいてジョイント符号化される。残留符号化を適用する場合、残留信号は、第２のチャネル対要素ＣＰＥにおいてジョイント符号化されるか、さもなければ、第２のＣＰＥの信号は、０に設定される。両方のチャネル対要素ＣＰＥとも、左／右および中／サイド符号化の可能性を含めて、ジョイントステレオ符号化のために複合予測を利用する。信号の高周波数部分の知覚的ステレオ特性を保持するために、ＳＢＲ（ｓｐｅｃｔｒａｌｂａｎｄｗｉｄｔｈｒｅｐｌｉｃａｔｉｏｎ）適用の前の追加のリソーティングステップによって、ステレオＳＢＲを上部左右チャネル対および下部左右チャネル対に適用する。

本発明の実施形態によるオーディオデコーダの概略ブロック図を示す図１３を参照して、可能なデコーダ構造について記載する。オーディオデコーダ１３００は、第１のチャネル対要素を表す第１のビットストリーム１３１０と、第２のチャネル対要素を表す第２のビットストリーム１３１２とを受信するよう構成される。但し、第１のビットストリーム１３１０および第２のビットストリーム１３１２は、共通全体ビットストリームに含まれてもよい。

オーディオデコーダ１３００は、例えば、オーディオシーンの左下位置を表し得る第１の帯域幅拡張チャネル信号１３２０と、例えば、オーディオシーンの左上位置を表し得る第２の帯域幅拡張チャネル信号１３２２と、例えば、オーディオシーンの右下位置と関連付けられ得る第３の帯域幅拡張チャネル信号１３２４と、例えば、オーディオシーンの右上位置と関連付けられ得る第４の帯域幅拡張チャネル信号１３２６とを提供するよう構成される。

オーディオデコーダ１３００は、第１のビットストリーム復号１３３０を含む。第１のビットストリーム復号１３３０は、第１のチャネル対要素用のビットストリーム１３１０を受信して、これに基づいて、２つのダウンミックス信号のジョイント符号化表現と、複合予測ペイロード１３３４と、ＭＰＥＧサラウンドペイロード１３３６と、スペクトル帯域幅複製ペイロード１３３８とを提供するよう構成される。オーディオデコーダ１３００は、また、第１の複合予測ステレオ復号１３４０を含む。第１の複合予測ステレオ復号１３４０は、ジョイント符号化表現１３３２と複合予測ペイロード１３３４とを受信して、これらに基づいて、第１のダウンミックス信号１３４２と第２のダウンミックス信号１３４４とを提供するよう構成される。同様に、オーディオデコーダ１３００は、第２のビットストリーム復号１３５０を含む。第２のビットストリーム復号１３５０は、第２のチャネル要素用のビットストリーム１３１２を受信して、これに基づいて、２つの残留信号のジョイント符号化表現１３５２と、複合予測ペイロード１３５４と、ＭＰＥＧサラウンドペイロード１３５６と、スペクトル帯域幅複製ビットロード１３５８とを提供するよう構成される。オーディオデコーダは、また、第２の複合予測ステレオ復号１３６０を含む。第２の複合予測ステレオ復号１３６０は、ジョイント符号化表現１３５２と複合予測ペイロード１３５４とに基づいて、第１の残留信号１３６２と第２の残留信号１３６４とを提供する。

オーディオデコーダ１３００は、また、ＭＰＥＧサラウンド２−１−２復号またはユニファイドステレオ復号である第１のＭＰＥＧサラウンド型マルチチャネル復号１３７０を含む。第１のＭＰＥＧサラウンド型マルチチャネル復号１３７０は、第１のダウンミックス信号１３４２と、第１の残留信号１３６２（任意）と、ＭＰＥＧサラウンドペイロード１３３６とを受信して、これらに基づいて、第１のオーディオチャネル信号１３７２と第２のオーディオチャネル信号１３７４とを提供する。オーディオデコーダ１３００は、また、ＭＰＥＧサラウンド２−１−２マルチチャネル復号またはユニファイドステレオマルチチャネル復号である第２のＭＰＥＧサラウンド型マルチチャネル復号１３８０を含む。第２のＭＰＥＧサラウンド型マルチチャネル復号１３８０は、第２のダウンミックス信号１３４４および第２の残留信号１３６４（任意）を、ＭＰＥＧサラウンドペイロード１３５６と共に受信して、これらに基づいて、第３のオーディオチャネル信号１３８２と第４のオーディオチャネル信号１３８４とを提供する。オーディオデコーダ１３００は、また、第１のステレオスペクトル帯域幅複製１３９０を含む。第１のステレオスペクトル帯域幅複製１３９０は、第１のオーディオチャネル信号１３７２および第３のオーディオチャネル信号１３８２を、スペクトル帯域幅複製ペイロード１３３８と共に受信して、これらに基づいて、第１の帯域幅拡張チャネル信号１３２０と第３の帯域幅拡張チャネル信号１３２４とを提供するよう構成される。オーディオデコーダは、また、第２のステレオスペクトル帯域幅複製１３９４を含む。第２のステレオスペクトル帯域幅複製１３９４は、第２のオーディオチャネル信号１３７４および第４のオーディオチャネル信号１３８４を、スペクトル帯域幅複製ペイロード１３５８と共に受信して、これらに基づいて、第２の帯域幅拡張チャネル信号１３２２と第４の帯域幅拡張チャネル信号１３２６とを提供するよう構成される。

オーディオデコーダ１３００の機能に関しては、上述の説明、および、図２，３，５および６によるオーディオデコーダについての説明を参照のこと。

以下に、本明細書に記載のオーディオ符号化／復号に使用され得るビットストリームの例について、図１４ａおよび１４ｂを参照して記載する。ビットストリームは、例えば、上述した規格（ＩＳＯ／ＩＥＣ２３００３−３：２０１２）に記載されるＵＳＡＣ（ｕｎｉｆｉｅｄｓｐｅｅｃｈ−ａｎｄ−ａｕｄｉｏｃｏｄｉｎｇ）で用いられるビットストリームの拡張であってもよい。例えば、ＭＰＥＧサラウンドペイロード１２３６，１２４６，１３３６，１３５６および複合予測ペイロード１２５４，１２６４，１３３４，１３５４は、レガシーチャネル対要素（すなわち、ＵＳＡＣ規格によるチャネル対要素）用として送信されてもよい。クワッドチャネル要素ＱＣＥの使用をシグナリングするため、図１４ａに示すように、ＵＳＡＣチャネル対構成を２ビット拡張してもよい。言い換えれば、「ｑｃｅＩｎｄｅｘ」で表される２ビットを、ＵＳＡＣビットストリーム要素「ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔＣｏｎｆｉｇ（）」に追加してもよい。ビット「ｑｃｅＩｎｄｅｘ」によってあらわされるパラメータの意味は、例えば、図１４ｂの表に示すように定義することができる。

例えば、ＱＣＥを形成する２つのチャネル対要素は、まず、ダウンミックス信号と第１のＭＰＳボックス用ＭＰＳペイロードとを含むＣＰＥ、次に、残留信号（または、ＭＰＳ２−１−２符号化の場合は０オーディオ信号）と第２のＭＰＳボックス用ＭＰＳペイロードとを含むＣＰＥ、というように、連続要素として送信されてもよい。

言い換えれば、クワッドチャネル要素ＱＣＥを送信するための従来のＵＳＡＣビットストリームと比べる際、シグナリングオーバーヘッドがわずかである。

但し、異なるビットストリームフォーマットも当然利用可能である。

（１２．符号化／復号環境）
以下に、本発明による概念が適用され得るオーディオ符号化／復号環境について記載する。

本発明による概念が使用され得る３Ｄオーディオコーデックシステムは、チャネルおよびオブジェクト信号の復号のためのＭＰＥＧ−ＤＵＳＡＣコーデックに基づく。多量のオブジェクトの符号化効率を上げるため、ＭＰＥＧＳＡＯＣ技術が適応されている。３つのタイプのレンダラが、オブジェクトをチャネルにレンダリングするタスク、チャネルをヘッドホンにレンダリングするタスク、またはチャネルを異なるラウドスピーカセットアップにレンダリングするタスクを行う。オブジェクト信号がＳＡＯＣを用いて、明示的に送信またはパラメトリックに符号化されるとき、対応するオブジェクトメタデータ情報が圧縮され、かつ、３Ｄオーディオビットストリームに多重化される。

図１５は、このようなオーディオエンコーダの概略ブロック図を示し、図１６は、このようなオーディオデコーダの概略ブロック図を示す。すなわち、図１５および１６は、３Ｄオーディオシステムの異なるアルゴリズム的ブロックを示す。

３Ｄオーディオエンコーダ１５００の概略ブロック図を示す図１５を参照して、詳細を説明する。エンコーダ１５００は、任意のプリレンダラ／ミキサ１５１０を含む。プリレンダラ／ミキサ１５１０は、１つ以上のチャネル信号１５１２と１つ以上のオブジェクト信号１５１４とを受信して、これらに基づいて、１つ以上のチャネル信号１５１６を、１つ以上のオブジェクト信号１５１８，１５２０と共に提供する。オーディオエンコーダは、また、ＵＳＡＣエンコーダ１５３０を含むとともに、任意に、ＳＡＯＣエンコーダ１５４０を含む。ＳＡＯＣエンコーダ１５４０は、ＳＡＯＣエンコーダに提供される１つ以上のオブジェクト１５２０に基づいて、１つ以上のＳＡＯＣ伝送チャネル１５４２とＳＡＯＣサイド情報１５４４とを提供するよう構成される。また、ＵＳＡＣエンコーダ１５３０は、プリレンダラ／ミキサからチャネルとプリレンダリング済オブジェクトとを含むチャネル信号１５１６を受信し、プリレンダラ／ミキサから１つ以上のオブジェクト信号１５１８を受信し、かつ、１つ以上のＳＡＯＣ伝送チャネル１５４２と、ＳＡＯＣサイド情報１５４４とを受信して、これらに基づいて、符号化表現１５３２を提供するよう構成される。オーディオエンコーダ１５００は、また、オブジェクトメタデータエンコーダ１５５０を含む。オブジェクトメタデータエンコーダ１５５０は、（プリレンダラ／ミキサ１５１０により評価され得る）オブジェクトメタデータ１５５２を受信して、オブジェクトメタデータを符号化して符号化オブジェクトメタデータ１５５４を得るよう構成される。符号化メタデータは、ＵＳＡＣエンコーダ１５３０でも受信され、符号化表現１５３２の提供に用いられる。

オーディオエンコーダ１５００の個々の要素に関する詳細は、後述する。

図１６を参照して、オーディオデコーダ１６００について説明する。オーディオデコーダ１６００は、符号化表現１６１０を受信して、これに基づいて、代替フォーマット（例えば、５．１フォーマット）で、マルチチャネルラウドスピーカ信号１６１２、ヘッドホン信号１６１４、および／またはラウドスピーカ信号１６１６を提供するよう構成される。

オーディオデコーダ１６００は、ＵＳＡＣデコーダ１６２０を含み、符号化表現１６１０に基づいて、１つ以上のチャネル信号１６２２と、１つ以上のプリレンダリング済オブジェクト信号１６２４と、１つ以上のオブジェクト信号１６２６と、１つ以上のＳＡＯＣ伝送チャネル１６２８と、ＳＡＯＣサイド情報１６３０と、圧縮オブジェクトメタデータ情報１６３２とを提供する。オーディオデコーダ１６００は、また、オブジェクトレンダラ１６４０を含む。オブジェクトレンダラ１６４０は、オブジェクト信号１６２６とオブジェクトメタデータ情報１６４４とに基づいて１つ以上のレンダリング済オブジェクト信号１６４２を提供するよう構成され、ここで、オブジェクトメタデータ情報１６４４は、圧縮オブジェクトメタデータ情報１６３２に基づいてオブジェクトメタデータデコーダ１６５０によって提供される。オーディオデコーダ１６００は、また、任意に、ＳＡＯＣデコーダ１６６０を含む。ＳＡＯＣデコーダ１６６０は、ＳＡＯＣ伝送チャネル１６２８とＳＡＯＣサイド情報１６３０とを受信して、これらに基づいて、１つ以上のレンダリング済オブジェクト信号１６６２を提供するよう構成される。オーディオデコーダ１６００は、また、ミキサ１６７０を含む。ミキサ１６７０は、チャネル信号１６２２と、プリレンダリング済オブジェクト信号１６２４と、レンダリング済オブジェクト信号１６４２と、レンダリング済オブジェクト信号１６６２とを受信して、これらに基づいて、例えば、マルチチャネルラウドスピーカ信号１６１２を構成し得る複数の混合チャネル信号１６７２を提供するよう構成される。オーディオデコーダ１６００は、例えば、バイノーラルレンダラ１６８０を含んでもよい。バイノーラルレンダラ１６８０は、混合チャネル信号１６７２を受信して、これに基づいて、ヘッドホン信号１６１４を提供するよう構成される。オーディオデコーダ１６００は、また、フォーマット変換１６９０を含んでもよい。フォーマット変換１６９０は、混合チャネル信号１６７２と再生レイアウト情報１６９２とを受信して、これらに基づいて、代替ラウドスピーカセットアップのためのラウドスピーカ信号１６１６を提供するよう構成される。

以下に、オーディオエンコーダ１５００およびオーディオデコーダ１６００の要素の詳細を説明する。

（プリレンダラ／ミキサ）
プリレンダラ／ミキサ１５１０は、符号化前に、チャネルプラスオブジェクト入力シーンをチャネルシーンに変換するために任意に用いることができる。これは、機能的に、例えば、下記のオブジェクトレンダラ／ミキサと同一であってもよい。オブジェクトのプリレンダリングは、例えば、同時にアクティブなオブジェクト信号の数から基本的に独立した、エンコーダ入力での決定論的信号エントロピーを保証してもよい。オブジェクトのプリレンダリングにおいて、オブジェクトメタデータ送信は不要である。離散オブジェクト信号は、エンコーダが用いるよう構成されているチャネルレイアウトにレンダリングされる。各チャネルのためのオブジェクトの重みは、関連オブジェクトメタデータ（ＯＡＭ）１５５２から得られる。

（ＵＳＡＣコアコーデック）
ラウドスピーカチャネル信号、離散オブジェクト信号、オブジェクトダウンミックス信号、およびプリレンダリング済信号のためのコアコーデック１５３０，１６２０は、ＭＰＥＧ−ＤＵＳＡＣ技術に基づく。これは、入力のチャネルおよびオブジェクト割り当てに関する幾何学的および意味論的情報に基づいてチャネルおよびオブジェクトマッピング情報を生成することにより、多数の信号の符号化を扱う。このマッピング情報は、どのように入力チャネルおよびオブジェクトがＵＳＡＣチャネル要素（ＣＰＥ、ＳＣＥ、ＬＦＥ）にマッピングされるかを記述し、対応する情報がデコーダに送信される。ＳＡＯＣデータまたはオブジェクトメタデータ等の付加的ペイロードは、全て、拡張要素を通過し、エンコーダレート制御において考慮されている。

オブジェクトの符号化は、レンダラのレート／歪要求および双方向性要求に依存して、異なる方法で行うことが可能である。以下のオブジェクト符号化変形が可能である：
１．プリレンダリング済オブジェクト：オブジェクト信号は、符号化前に、プリレンダリングされ、２２．２チャネル信号へ混合される。後続符号化系統は、２２．２チャネル信号を見る。
２．離散オブジェクト波形：オブジェクトは、モノラル波形としてエンコーダに供給される。エンコーダは、単一チャネル要素ＳＣＥを用いてチャネル信号に加えてオブジェクトを転送する。復号オブジェクトは、受信機側で、レンダリングされ、かつ、混合される。圧縮オブジェクトメタデータ情報は、受信機／レンダラへ並行に送信される。
３．パラメトリックオブジェクト波形：オブジェクト特性および互いの関係は、ＳＡＯＣパラメータによって記述される。オブジェクト信号のダウンミックスは、ＵＳＡＣで符号化される。パラメトリック情報は、並行に送信される。ダウンミックスチャネル数は、オブジェクト数および全体データレートに依存して選択される。圧縮オブジェクトメタデータ情報は、ＳＡＯＣレンダラへ送信される。

（ＳＡＯＣ）
オブジェクト信号のためのＳＡＯＣエンコーダ１５４０およびＳＡＯＣデコーダ１６６０は、ＭＰＥＧＳＡＯＣ技術に基づく。当該システムは、少数の送信チャネルおよび付加的パラメトリックデータ（オブジェクトレベル差ＯＬＤ、オブジェクト間相互関係ＩＯＣ、ダウンミックスゲインＤＭＧ）に基づいて多数のオーディオオブジェクトを再現、修正、およびレンダリングすることができる。付加的パラメトリックデータは、全てのオブジェクトを個々に送信するために必要なデータレートよりも大幅に低いデータレートを示すため、符号化が非常に効率的になる。ＳＡＯＣエンコーダは、入力として、オブジェクト／チャネル信号をモノラル波形として取り、パラメトリック情報（３Ｄオーディオビットストリーム１５３２，１６１０内にパックされる）およびＳＡＯＣ伝送チャネル（単一チャネル要素を用いて符号化され、かつ、送信される）を出力する。

ＳＡＯＣデコーダ１６００は、復号ＳＡＯＣ伝送チャネル１６２８とパラメトリック情報１６３０とからオブジェクト／チャネル信号を再構成し、再生レイアウトと、復元オブジェクトメタデータ情報と、任意にユーザ対話情報とに基づいて、出力オーディオシーンを生成する。

（オブジェクトメタデータコーデック）
各オブジェクトのために、３Ｄ空間におけるオブジェクトの幾何学的位置および量を特定する関連メタデータが、時間および空間におけるオブジェクト特性の量子化によって効率的に符号化される。圧縮オブジェクトメタデータｃＯＡＭ１５５４，１６３２は、サイド情報として受信機に送信される。

（オブジェクトレンダラ／ミキサ）
オブジェクトレンダラは、所与の再生フォーマットに従って、圧縮オブジェクトメタデータを利用してオブジェクト波形を生成する。各オブジェクトは、そのメタデータによって、ある出力チャネルにレンダリングされる。このブロックの出力は、部分結果の合計から生じる。離散／パラメトリックオブジェクトと共に両チャネルベースコンテンツが復号された場合、チャネルベース波形およびレンダリング済オブジェクト波形は、結果として得られる波形を出力する前に（または、これらをバイノーラルレンダラまたはラウドスピーカレンダラモジュール等のポストプロセッサモジュールへ供給する前に）、混合される。

（バイノーラルレンダラ）
バイノーラルレンダラモジュール１６８０は、マルチチャネルオーディオ素材のバイノーラルダウンミックスを生成し、それによって、各入力チャネルがバーチャル音源によって表されるようにする。当該処理は、ＱＭＦドメインにおいて、フレーム単位で行われる。バイノーラル化は、測定バイノーラル室内インパルス応答に基づく。

（ラウドスピーカレンダラ／フォーマット変換）
ラウドスピーカレンダラ１６９０は、送信チャネル構成と所望の送信フォーマットとの間を変換する。よって、以下では「フォーマットコンバータ」と呼ばれる。フォーマットコンバータは、より少数の出力チャネルへの変換を行う、すなわち、ダウンミックスを生成する。当該システムは、入力および出力フォーマットの所与の組み合わせのための最適化ダウンミックスマトリクスを自動的に生成して、これらのマトリクスをダウンミックス処理において適用する。フォーマットコンバータは、標準のラウドスピーカ構成だけでなく、非標準的ラウドスピーカ配置を伴うランダム構成も可能にする。

図１７は、フォーマットコンバータの概略ブロック図を示す。図示されるように、フォーマットコンバータ１７００は、混合チャネル信号１６７２等のミキサ出力信号１７１０を受信し、スピーカ信号１６１６等のラウドスピーカ信号１７１２を提供する。フォーマットコンバータは、ＱＭＦドメインにおけるダウンミックスプロセス１７２０およびダウンミックスコンフィギュレータ１７３０を含み、ダウンミックスコンフィギュレータは、ミキサ出力レイアウト情報１７３２と再生レイアウト情報１７３４とに基づいてダウンミックスプロセス１７２０のための構成情報を提供する。

上述の概念、例えば、オーディオエンコーダ１００、オーディオデコーダ２００または３００、オーディオエンコーダ４００、オーディオデコーダ５００または６００、方法７００，８００，９００，１０００オーディオエンコーダ１１００または１２００、およびオーディオデコーダ１３００は、オーディオエンコーダ１５００および／またはオーディオデコーダ１６００内で用いることができる。例えば、上述のオーディオエンコーダ／デコーダは、異なる空間位置と関連付けられるチャネル信号の符号化または復号に利用することができる。

（１３．代替実施形態）
以下に、付加的な実施形態について記載する。

図１８〜２１を参照して、本発明による付加的な実施形態を説明する。

尚、「クワッドチャネル要素（ＱＣＥ）」をオーディオデコーダのツールとみなすことができ、これを、例えば、３次元オーディオコンテンツの復号に用いることが可能である。

言い換えれば、クワッドチャネル要素（ＱＣＥ）は、水平および垂直分布チャネルのより効率的な符号化のために４つのチャネルをジョイント符号化する方法である。ＱＣＥは、２つの連続するＣＰＥからなり、水平方向における複合ステレオ予測ツールおよび垂直方向におけるＭＰＥＧサラウンドベースステレオツールの可能性を伴うジョイントステレオツールを階層的に結合することによって形成される。これは、両方のステレオツールを有効にして当該ツール適用間に出力チャネルをスワップすることによって、実現される。ステレオＳＢＲは、高周波数の左右関係を保持するために水平方向において行われる。

図１８は、ＱＣＥのトポロジー的な構造を示す。図１８のＱＣＥは、図１１のＱＣＥに非常によく似ているため、上述の説明を参照すること。しかし、図１８のＱＣＥでは、複合ステレオ予測を行う際に心理音響モデルを使用する必要がない（但し、このような使用は当然任意で可能である）。また、第１のステレオスペクトル帯域幅複製（ステレオＳＢＲ）は、左下チャネルと右下チャネルとに基づいて行われ、第２のステレオスペクトル帯域幅複製（ステレオＳＢＲ）は左上チャネルと右上チャネルとに基づいて行われることが分かる。

以下に、いくつかの実施形態において当てはまる用語および定義を示す。

データ要素ｑｃｅＩｎｄｅｘは、ＣＰＥのＱＣＥモードを示す。ビットストリーム変数ｑｃｅＩｎｄｅｘの意味に関して、図１４ｂを参照すること。ｑｃｅＩｎｄｅｘは、タイプＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔ（）の２つの後続要素がクワッドチャネル要素（ＱＣＥ）として扱われているかを記述する。異なるＱＣＥモードは、図１４ｂにおいて与えられる。ｑｃｅＩｎｄｅｘは、１つのＱＣＥを形成する２つの後続要素について同一であるべきである。

以下に、本発明によるいくつかの実施形態において用いられ得るヘルプ要素を定義する：
ｃｐｌｘ＿ｏｕｔ＿ｄｍｘ＿Ｌ［］：複合予測ステレオ復号後の第１のＣＰＥの第１のチャネル
ｃｐｌｘ＿ｏｕｔ＿ｄｍｘ＿Ｒ［］：複合予測ステレオ復号後の第１のＣＰＥの第２のチャネル
ｃｐｌｘ＿ｏｕｔ＿ｒｅｓ＿Ｌ［］：複合予測ステレオ復号後の第２のＣＰＥ（ｑｃｅＩｎｄｅｘ＝１の場合、０）
ｃｐｌｘ＿ｏｕｔ＿ｒｅｓ＿Ｒ［］：複合予測ステレオ復号後の第２のＣＰＥの第２のチャネル（ｑｃｅＩｎｄｅｘ＝１の場合、０）
ｍｐｓ＿ｏｕｔ＿Ｌ＿１［］：第１のＭＰＳボックスの第１の出力チャネル
ｍｐｓ＿ｏｕｔ＿Ｌ＿２［］：第１のＭＰＳボックスの第２の出力チャネル
ｍｐｓ＿ｏｕｔ＿Ｒ＿１［］：第２のＭＰＳボックスの第１の出力チャネル
ｍｐｓ＿ｏｕｔ＿Ｒ＿２［］：第２のＭＰＳボックスの第２の出力チャネル
ｓｂｒ＿ｏｕｔ＿Ｌ＿１［］：第１のステレオＳＢＲボックスの第１の出力チャネル
ｓｂｒ＿ｏｕｔ＿Ｒ＿１［］：第１のステレオＳＢＲボックスの第２の出力チャネル
ｓｂｒ＿ｏｕｔ＿Ｌ＿２［］：第２のステレオＳＢＲボックスの第１の出力チャネル
ｓｂｒ＿ｏｕｔ＿Ｒ＿２［］：第２のステレオＳＢＲボックスの第２の出力チャネル

以下に、本発明による実施形態において行われる復号プロセスについて説明する。

ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔＣｏｎｆｉｇ（）における構文要素（またはビットストリーム要素、またはデータ要素）ｑｃｅＩｎｄｅｘは、ＣＰＥがＱＣＥに属するか、および、残留符号化が使用されるか、を示す。ｑｃｅＩｎｄｅｘが０でない場合、現在のＣＰＥが、同じｑｃｅＩｎｄｅｘを有するＣＰＥであるその後続要素と共に、ＱＣＥを形成する。ステレオＳＢＲは、常に、ＱＣＥのために用いられるため、構文要素ｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘは、３であり、ｂｓＳｔｅｒｅｏＳｂｒは、１である。

ｑｃｅＩｎｄｅｘ＝＝１の場合、第２のＣＰＥには、ＭＰＥＧサラウンドおよびＳＢＲのためのペイロードだけが含まれ、関連オーディオ信号データは含まれず、構文要素ｂｓＲｅｓｉｄｕａｌＣｏｄｉｎｇは、０に設定される。

第２のＣＰＥにおける残留信号の存在は、ｑｃｅＩｎｄｅｘ＝＝２で表される。この場合、構文要素ｂｓＲｅｓｉｄｕａｌＣｏｄｉｎｇは、１に設定される。

但し、別の簡略化され得るシグナリング方式を用いてもよい。

複合ステレオ予測の可能性を伴うジョイントステレオ復号は、ＩＳＯ／ＩＥＣ２３００３−３の項７．７に記載のように行われる。結果として得られる第１のＣＰＥの出力は、ＭＰＳダウンミックス信号ｃｐｌｘ＿ｏｕｔ＿ｄｍｘ＿Ｌ［］およびｃｐｌｘ＿ｏｕｔ＿ｄｍｘ＿Ｒ［］である。残留符号化を用いる場合（ｑｃｅＩｎｄｅｘ＝＝２）、第２のＣＰＥの出力は、ＭＰＳ残留信号ｃｐｌｘ＿ｏｕｔ＿ｒｅｓ＿Ｌ［］，ｃｐｌｘ＿ｏｕｔ＿ｒｅｓ＿Ｒ［］であり、残留信号が送信されない場合（ｑｃｅＩｎｄｅｘ＝＝１）、０信号が挿入される。

ＭＰＥＧサラウンド復号を適用する前に、第１の要素の第２のチャネル（ｃｐｌｘ＿ｏｕｔ＿ｄｍｘ＿Ｒ［］）と第２の要素の第１のチャネル（ｃｐｌｘ＿ｏｕｔ＿ｒｅｓ＿Ｌ［］）とがスワップされる。

ＭＰＥＧサラウンド復号は、ＩＳＯ／ＩＥＣ２３００３−３の項７．１１に記載のように行われる。残留符号化を用いる場合、いくつかの実施形態における従来のＭＰＥＧサラウンド復号と比べて、復号を修正してもよい。ＩＳＯ／ＩＥＣ２３００３−３の項７．１１．２．７（図２３）に定義されるようなＳＢＲを用いた残留なしのＭＰＥＧサラウンド復号は、ステレオＳＢＲがｂｓＲｅｓｉｄｕａｌＣｏｄｉｎｇ＝＝１でも用いられるように修正され、図１９に示すデコーダ概略図となる。図１９は、ｂｓＲｅｓｉｄｕａｌＣｏｄｉｎｇ＝＝０およびｂｓＳｔｅｒｅｏＳｂｒ＝＝１についてのオーディオコーダの概略ブロック図を示す。

図１９に示すように、ＵＳＡＣコアデコーダ２０１０は、ダウンミックス信号（ＤＭＸ）２０１２をＭＰＳ（ＭＰＥＧサラウンド）デコーダ２０２０に提供し、ＭＰＳ（ＭＰＥＧサラウンド）デコーダ２０２０は、第１の復号オーディオ信号２０２２と第２の復号オーディオ信号２０２４とを提供する。ステレオＳＢＲデコーダ２０３０は、第１の復号オーディオ信号２０２２と第２の復号オーディオ信号２０２４とを受信して、これらに基づいて、左帯域幅拡張オーディオ信号２０３２と右帯域幅拡張オーディオ信号２０３４とを提供する。

ステレオＳＢＲを適用する前に、第１の要素の第２のチャネル（ｍｐｓ＿ｏｕｔ＿Ｌ＿２［］）と第２の要素の第１のチャネル（ｍｐｓ＿ｏｕｔ＿Ｒ＿１［］）とがスワップされて、左右ステレオＳＢＲを可能にする。ステレオＳＢＲの適用後、第１の要素の第２の出力チャネル（ｓｂｒ＿ｏｕｔ＿Ｒ＿１［］）と第２の要素の第１のチャネル（ｓｂｒ＿ｏｕｔ＿Ｌ＿２［］）とが再びスワップされて、入力チャネル順に戻る。

ＱＣＥデコーダ構造を、ＱＣＥデコーダ概略図である図２０に示す。

図２０の概略ブロック図は、図１３の概略ブロック図に非常によく似ているため、上述の説明を参照すること。また、図２０にはいくつかの信号ラベル付けが追加されており、本セクションの定義を参照すること。また、ステレオＳＢＲの後に行われるチャネルの最終リソーティングも示す。

図２１は、本発明の実施形態によるクワッドチャネルエンコーダ（ｑｕａｄｃｈａｎｎｅｌｅｎｃｏｄｅｒ）２２００の概略ブロック図を示す。すなわち、コアエンコーダツールとみなし得るクワッドチャネルエンコーダ（クワッドチャネル要素）を、図２１に示す。

クワッドチャネルエンコーダ２２００は、第１のステレオＳＢＲ２２１０を含む。第１のステレオＳＢＲ２２１０は、第１の左チャネル入力信号２２１２と第２の左チャネル入力信号２２１４とを受信して、これらに基づいて、第１のＳＢＲペイロード２２１５と、第１の左チャネルＳＢＲ出力信号２２１６と、第１の右チャネルＳＢＲ出力信号２２１８とを提供する。クワッドチャネルエンコーダ２２００は、また、第２のステレオＳＢＲを含む。第２のステレオＳＢＲは、第２の左チャネル入力信号２２２２と第２の右チャネル入力信号２２２４とを受信して、これらに基づいて、第１のＳＢＲペイロード２２２５と、第１の左チャネルＳＢＲ出力信号２２２６と、第１の右チャネルＳＢＲ出力信号２２２８とを提供する。

クワッドチャネルエンコーダ２２００は、第１のＭＰＥＧサラウンド型（ＭＰＳ２−１−２またはユニファイドステレオ）マルチチャネルエンコーダ２２３０を含む。第１のＭＰＥＧサラウンド型（ＭＰＳ２−１−２またはユニファイドステレオ）マルチチャネルエンコーダ２２３０は、第１の左チャネルＳＢＲ出力信号２２１６と第２の左チャネルＳＢＲ出力信号２２２６とを受信して、これらに基づいて、第１のＭＰＳペイロード２２３２と、左チャネルＭＰＥＧサラウンドダウンミックス信号２２３４とを提供するとともに、任意に、左チャネルＭＰＥＧサラウンド残留信号２２３６を提供する。クワッドチャネルエンコーダ２２００は、また、第２のＭＰＥＧサラウンド型（ＭＰＳ２−１−２またはユニファイドステレオ）マルチチャネルエンコーダ２２４０を含む。第２のＭＰＥＧサラウンド型（ＭＰＳ２−１−２またはユニファイドステレオ）マルチチャネルエンコーダ２２４０は、第１の右チャネルＳＢＲ出力信号２２１８と第２の右チャネルＳＢＲ出力信号２２２８とを受信して、これらに基づいて、第１のＭＰＳペイロード２２４２と、右チャネルＭＰＥＧサラウンドダウンミックス信号２２４４とを提供するとともに、任意に、右チャネルＭＰＥＧサラウンド残留信号２２４６を提供する。

クワッドチャネルエンコーダ２２００は、第１の複合予測ステレオ符号化２２５０を含む。第１の複合予測ステレオ符号化２２５０は、左チャネルＭＰＥＧサラウンドダウンミックス信号２２３４と右チャネルＭＰＥＧサラウンドダウンミックス信号２２４４とを受信して、これらに基づいて、複合予測ペイロード２２５２と、左チャネルＭＰＥＧサラウンドダウンミックス信号２２３４と右チャネルＭＰＥＧサラウンドダウンミックス信号２２４４とのジョイント符号化表現２２５４とを提供する。クワッドチャネルエンコーダ２２００は、第２の複合予測ステレオ符号化２２６０を含む。第２の複合予測ステレオ符号化２２６０は、左チャネルＭＰＥＧサラウンド残留信号２２３６と右チャネルＭＰＥＧサラウンド残留信号２２４６とを受信して、これらに基づいて、複合予測ペイロード２２６２と、左チャネルＭＰＥＧサラウンドダウンミックス信号２２３６と右チャネルＭＰＥＧサラウンドダウンミックス信号２２４６とのジョイント符号化表現２２６４とを提供する。

クワッドチャネルエンコーダは、また、第１のビットストリーム符号化２２７０を含む。第１のビットストリーム符号化２２７０は、ジョイント符号化表現２２５４と、複合予測ペイロード２２５２と、ＭＰＳペイロード２２３２と、ＳＢＲペイロード２２１５とを受信して、これらに基づいて、第１のチャネル対要素を表すビットストリーム部分を提供する。クワッドチャネルエンコーダは、また、第２のビットストリーム符号化２２８０を含む。第２のビットストリーム符号化２２８０は、ジョイント符号化表現２２６４と、複合予測ペイロード２２６２と、ＭＰＳペイロード２２４２と、ＳＢＲペイロード２２２５とを受信して、これらに基づいて、第１のチャネル対要素を表すビットストリーム部分を提供する。

（１４．代替的な実施）
いくつかの態様を装置のコンテキストで記載したが、これらの態様は、対応する方法の記載も表し、ブロックや装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップのコンテキストで記載された態様は、対応する装置の対応するブロック、または要素、または特徴の記載も表す。方法ステップの一部または全部は、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路等のハードウェア装置によって（を用いて）実行されてもよい。いくつかの実施形態において、１つ以上の最も重要な方法ステップは、そのような装置によって実行されてもよい。

発明の符号化オーディオ信号は、デジタル記憶媒体に記憶されてもよく、あるいは、無線伝送媒体またはインターネット等の有線伝送媒体等の伝送媒体上で伝送されてもよい。

実施要件に依存して、発明の実施形態は、ハードウェアまたはソフトウェアで実施可能である。実施は、フロッピー（登録商標）ディスク、ＤＶＤ、Ｂｌｕ−Ｒａｙ、ＣＤ，、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはフラッシュメモリ等のデジタル記憶媒体を用いて行うことができる。デジタル記憶媒体には、電子的に読み取り可能な制御信号が記憶され、それぞれの方法を行うようプログラマブルコンピュータシステムと協働する（または協働することができる）。よって、デジタル記憶媒体は、コンピュータ可読であり得る。

本発明によるいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアを含み、本明細書に記載の方法のうちの１つを実行するようにプログラマブルコンピュータシステムと協働することができる。

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラムプロダクトとして実施可能である。プログラムコードは、コンピュータプログラムプロダクトがコンピュータ上で動作する際、方法のうちの１つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。

他の実施形態は、機械可読キャリアに記憶され、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを含む。

言い換えれば、発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータ上で動作する際、本明細書に記載の方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを記録して含むデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体、または記録媒体は、典型的に、有形および／または非一時的である。

発明の方法のさらなる実施形態は、従って、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、インターネット等のデータ通信接続を介して転送されるよう構成されてもよい。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するよう構成された、コンピュータまたはプログラマブルロジックデバイス等の、処理手段を含む。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを組み込んだコンピュータを含む。

本発明によるさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的又は光学的に）転送するよう構成された装置又はシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス等であってもよい。装置又はシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含んでもよい。

いくつかの実施形態において、プログラマブル論理デバイス（例えば、フィールドプログラマブルゲートアレイ）を用いて、本明細書に記載の方法の機能の一部または全部を実行してもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの１つを実行するために、マイクロプロセッサと協働してもよい。一般的に、方法は、好ましくは、任意のハードウェア装置によって行われる。

上記実施形態は、単に本発明の原理を例示するものである。本明細書に記載の構造や詳細の変形や変更は、当業者に明らかであろう。よって、限定は、特許請求の範囲のみによるものであり、本明細書で実施形態の記載を通じて提示された特定の詳細によるものではない。

（１５．結論）
以下に、結論を述べる。

本発明による実施形態は、垂直および水平分布チャネル間の信号依存関係をもとに、ジョイントステレオ符号化ツールを階層的に結合することによって、４つのチャネルがジョイント符号化できるという考察に基づく。例えば、垂直チャネル対は、帯域制限または全帯域残留符号化を伴うＭＰＳ２−１−１および／またはユニファイドステレオにより結合される。バイノーラルアンマスキングのための知覚的要件を満たすために、出力ダウンミックスは、例えば、左／右および中／サイド符号化の可能性を含むＭＤＣＴドメインにおける複合予測を用いてジョイント符号化される。残留信号がある場合、残留信号は、同じ方法により水平的に結合される。

本発明による実施形態は、先行技術の欠点の一部または全部を克服する。本発明の実施形態は、３Ｄオーディオコンテキストに適応され、ラウドスピーカチャネルがいくつかの高さ層に分布され、水平および垂直チャネル対になる。ＵＳＡＣに定義されるような２つのチャネルだけのジョイント符号化は、チャネル間の空間的および知覚的関係を考慮するのに十分でないことが分かっている。しかし、この問題は、本発明の実施形態によって克服される。

従来のＭＰＥＧサラウンドは、追加の前／後処理ステップに適用され、それにより、例えば、左右ラジカル残留信号間の依存関係を利用するために、残留信号は、ジョイントステレオ符号化の可能性なしに、個別に送信される。これに対して、本発明の実施形態は、このような依存関係を用いて、効率的な符号化／復号を可能にする。

さらに結論として、本発明の実施形態は、本明細書に記載の符号化および復号のための装置、方法、またはコンピュータプログラムをもたらす。

Claims

符号化表現（２１０；３１０，３６０；６１０，６８２；１３１０，１３１２；１６１０）に基づいて少なくとも４つのオーディオチャネル信号（２２０，２２２，２２４，２２６；３２０，３２２，３２４，３２６；６２０，６２２，６２４，６２６；１３２０，１３２２，１３２４，１３２６）を提供するためのオーディオデコーダ（２００；３００；６００；１３００；１６００；２０００）であって、
オーディオデコーダは、マルチチャネル復号（２３０；３３０；６８０；１３６０）を用いて、第１の残留信号と第２の残留信号とのジョイント符号化表現（２１０；３１０；６８２；１３１２）に基づいて、前記第１の残留信号（２３２；３３２；６８４；１３６２）と前記第２の残留信号（２３４；３３４；６８６；１３６４）とを提供するよう構成され、
オーディオデコーダは、残留信号支援マルチチャネル復号（２４０；３４０；６４０；１３７０）を用いて、第１のダウンミックス信号（２１２；３１２；６３２；１３４２）と前記第１の残留信号とに基づいて、第１のオーディオチャネル信号（２２０；３２０；６４２；１３７２）と第２のオーディオチャネル信号（２２２；３２２；６４４；１３７４）とを提供するよう構成され、
オーディオデコーダは、残留信号支援マルチチャネル復号（２５０；３５０；６５０；１３８０）を用いて、第２のダウンミックス信号（２１４；３１４；６３４；１３４４）と前記第２の残留信号とに基づいて、第３のオーディオチャネル信号（２２４；３２４；６５６；１３８２）と第４のオーディオチャネル信号（２２６；３２６；６５８；１３８４）とを提供するよう構成される、オーディオデコーダ。
オーディオデコーダは、マルチチャネル復号（３７０；６３０；１３４０）を用いて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とのジョイント符号化表現（３６０；６１０；１３１０）に基づいて、前記第１のダウンミックス信号（２１２；３１２；６３２；１３４２）と前記第２のダウンミックス信号（２１４；３１４；６３４；１３４４）とを提供するよう構成される、請求項１に記載のオーディオデコーダ。
オーディオデコーダは、予測ベースマルチチャネル復号を用いて、前記第１の残留信号と前記第２の残留信号とのジョイント符号化表現に基づいて、前記第１の残留信号と前記第２の残留信号とを提供するよう構成される、請求項１または２に記載のオーディオデコーダ。
オーディオデコーダは、残留信号支援マルチチャネル復号を用いて、前記第１の残留信号と前記第２の残留信号とのジョイント符号化表現に基づいて、前記第１の残留信号と前記第２の残留信号とを提供するよう構成される、請求項１〜３のいずれか１項に記載のオーディオデコーダ。
前記予測ベースマルチチャネル復号は、以前のフレームの信号成分を用いて導出される信号成分の、現在のフレームの残留信号の提供への寄与を記述する予測パラメータを評価するよう構成される、請求項３に記載のオーディオデコーダ。
前記予測ベースマルチチャネル復号は、前記第１の残留信号と前記第２の残留信号とのダウンミックス信号と、前記第１の残留信号と前記第２の残留信号との共通残留信号とに基づいて、前記第１の残留信号と前記第２の残留信号とを得るよう構成される、請求項３〜５のいずれか１項に記載のオーディオデコーダ。
前記予測ベースマルチチャネル復号は、第１の符号を伴う前記共通残留信号を適用して前記第１の残留信号を得ると共に、前記第１の符号と逆の第２の符号を伴う前記共通残留信号を適用して前記第２の残留信号を得るよう構成される、請求項６に記載のオーディオデコーダ。
オーディオデコーダは、ＭＤＣＴドメインで動作するマルチチャネル復号を用いて、前記第１の残留信号と前記第２の残留信号とのジョイント符号化表現に基づいて、前記第１の残留信号と前記第２の残留信号とを提供するよう構成される、請求項１〜７のいずれか１項に記載のオーディオデコーダ。
オーディオデコーダは、ＵＳＡＣ複合ステレオ予測を用いて、前記第１の残留信号と前記第２の残留信号とのジョイント符号化表現に基づいて、前記第１の残留信号と前記第２の残留信号とを提供するよう構成される、請求項１〜８のいずれか１項に記載のオーディオデコーダ。
オーディオデコーダは、パラメータベース残留信号支援マルチチャネル復号を用いて、前記第１のダウンミックス信号と前記第１の残留信号とに基づいて、前記第１のオーディオチャネル信号と前記第２のオーディオチャネル信号とを提供するよう構成され、
オーディオデコーダは、パラメータベース残留信号支援マルチチャネル復号を用いて、前記第２のダウンミックス信号と前記第２の残留信号とに基づいて、前記第３のオーディオチャネル信号と前記第４のオーディオチャネル信号とを提供するよう構成される、請求項１〜９のいずれか１項に記載のオーディオデコーダ。
前記パラメータベース残留信号支援マルチチャネル復号は、ダウンミックス信号のそれぞれの１つと、残留信号の対応する１つとに基づいて２つ以上のオーディオチャネル信号を提供するために、２つのチャネル間の所望の相関関係および／またはレベル差を記述する１つ以上のパラメータを評価するよう構成される、請求項１０に記載のオーディオデコーダ。
オーディオデコーダは、ＱＭＦドメインで動作する残留信号支援マルチチャネル復号を用いて、前記第１のダウンミックス信号と前記第１の残留信号とに基づいて、前記第１のオーディオチャネル信号と前記第２のオーディオチャネル信号とを提供するよう構成され、
オーディオデコーダは、ＱＭＦドメインで動作する残留信号支援マルチチャネル復号を用いて、前記第２のダウンミックス信号と前記第２の残留信号とに基づいて、前記第３のオーディオチャネル信号と前記第４のオーディオチャネル信号とを提供するよう構成される、請求項１〜１１のいずれか１項に記載のオーディオデコーダ。
オーディオデコーダは、ＭＰＥＧサラウンド２−１−２復号またはユニファイドステレオ復号を用いて、前記第１のダウンミックス信号と前記第１の残留信号とに基づいて、前記第１のオーディオチャネル信号と前記第２のオーディオチャネル信号とを提供するよう構成され、
オーディオデコーダは、ＭＰＥＧサラウンド２−１−２復号またはユニファイドステレオ復号を用いて、前記第２のダウンミックス信号と前記第２の残留信号とに基づいて、前記第３のオーディオチャネル信号と前記第４のオーディオチャネル信号とを提供するよう構成される、請求項１〜１２のいずれか１項に記載のオーディオデコーダ。
前記第１の残留信号および前記第２の残留信号は、オーディオシーンの異なる水平位置または前記オーディオシーンの異なる方位位置と関連付けられる、請求項１〜１３のいずれか１項に記載のオーディオデコーダ。
前記第１のオーディオチャネル信号および前記第２のオーディオチャネル信号は、オーディオシーンの垂直近傍位置と関連付けられ、
前記第３のオーディオチャネル信号および前記第４のオーディオチャネル信号は、前記オーディオシーンの垂直近傍位置と関連付けられる、請求項１〜１４のいずれか１項に記載のオーディオデコーダ。
前記第１のオーディオチャネル信号および前記第２のオーディオチャネル信号は、オーディオシーンの第１の水平位置または方位位置と関連付けられ、
前記第３のオーディオチャネル信号および前記第４のオーディオチャネル信号は、前記第１の水平位置または前記第１の方位位置と異なる、前記オーディオシーンの第２の水平位置または方位位置と関連付けられる、請求項１〜１５のいずれか１項に記載のオーディオデコーダ。
前記第１の残留信号は、オーディオシーンの左側と関連付けられ、前記第２の残留信号は、前記オーディオシーンの右側と関連付けられる、請求項１〜１６のいずれか１項に記載のオーディオデコーダ。
前記第１のオーディオチャネル信号および前記第２のオーディオチャネル信号は、前記オーディオシーンの左側と関連付けられ、
前記第３のオーディオチャネル信号および前記第４のオーディオチャネル信号は、前記オーディオシーンの右側と関連付けられる、請求項１７に記載のオーディオデコーダ。
前記第１のオーディオチャネル信号は、前記オーディオシーンの左下位置と関連付けられ、
前記第２のオーディオチャネル信号は、前記オーディオシーンの左上位置と関連付けられ、
前記第３のオーディオチャネル信号は、前記オーディオシーンの右下位置と関連付けられ、
前記第４のオーディオチャネル信号は、前記オーディオシーンの右上位置と関連付けられる、請求項１８に記載のオーディオデコーダ。
オーディオデコーダは、マルチチャネル復号を用いて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とのジョイント符号化表現に基づいて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とを提供するよう構成され、
前記第１のダウンミックス信号は、オーディオシーンの左側と関連付けられ、前記第２のダウンミックス信号は、前記オーディオシーンの右側と関連付けられる、請求項１〜１９のいずれか１項に記載のオーディオデコーダ。
オーディオデコーダは、予測ベースマルチチャネル復号を用いて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とのジョイント符号化表現に基づいて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とを提供するよう構成される、請求項１〜２０のいずれか１項に記載のオーディオデコーダ。
オーディオデコーダは、残留信号支援予測ベースマルチチャネル復号を用いて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とのジョイント符号化表現に基づいて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とを提供するよう構成される、請求項１〜２１のいずれか１項に記載のオーディオデコーダ。
オーディオデコーダは、前記第１のオーディオチャネル信号と前記第３のオーディオチャネル信号とに基づいて、第１のマルチチャネル帯域幅拡張（６６０；１３９０）を行うよう構成され、
オーディオデコーダは、前記第２のオーディオチャネル信号と前記第４のオーディオチャネル信号とに基づいて、第２のマルチチャネル帯域幅拡張（６７０；１３９４）を行うよう構成される、請求項１〜２２のいずれか１項に記載のオーディオデコーダ。
オーディオデコーダは、前記第１のオーディオチャネル信号と、前記第３のオーディオチャネル信号と、１つ以上の帯域幅拡張パラメータ（１３３８）とに基づいて、オーディオシーンの第１の共通水平面または第１の共通高度と関連付けられる２つ以上の帯域幅拡張オーディオチャネル信号（６２０，６２４；１３２０，１３２４）を得るために、前記第１のマルチチャネル帯域幅拡張を行うよう構成され、
オーディオデコーダは、前記第２のオーディオチャネル信号と、前記第４のオーディオチャネル信号と、１つ以上の帯域幅拡張パラメータ（１３５８）とに基づいて、オーディオシーンの第２の共通水平面または第２の共通高度と関連付けられる２つ以上の帯域幅拡張オーディオチャネル信号（６２２，６２６：１３２２，１３２６）を得るために、前記第２マルチチャネル帯域幅拡張を行うよう構成される、請求項２３に記載のオーディオデコーダ。
前記第１の残留信号と前記第２の残留信号とのジョイント符号化表現は、前記第１の残留信号と前記第２の残留信号とのダウンミックス信号と、前記第１の残留信号と前記第２の残留信号との共通残留信号とを含むチャネル対要素を含む、請求項１〜２４のいずれか１項に記載のオーディオデコーダ。
オーディオデコーダは、マルチチャネル復号を用いて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とのジョイント符号化表現に基づいて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とを提供するよう構成され、
前記第１のダウンミックス信号と前記第２のダウンミックス信号とのジョイント符号化表現は、前記第１のダウンミックス信号と前記第２のダウンミックス信号とのダウンミックス信号と、前記第１のダウンミックス信号と前記第２のダウンミックス信号との共通残留信号とを含むチャネル対要素を含む、請求項１〜２５のいずれか１項に記載のオーディオデコーダ。
少なくとも４つのオーディオチャネル信号（１１０，１１２，１１４，１１６；１１１０，１１１２，１１１４，１１１６；１２１０，１２１２，１２１４，１２１６；２２１６，２２２６，２２１８，２２２８）に基づいて符号化表現（１３０；１１４４，１１５４；１２２０，１２２２；２２７２，２２８２）を提供するためのオーディオエンコーダ（１００；１１００；１２００；１５００；２１００）であって、
オーディオエンコーダは、残留信号支援マルチチャネル符号化（１４０；１１２０；１２３０；２２３０）を用いて、少なくとも第１のオーディオチャネル信号と第２のオーディオチャネル信号とをジョイント符号化して第１のダウンミックス信号（１２０；１１２２；１２３２；２２３４）と第１の残留信号（１４２；１１２４；１２３４；２２３６）とを得るよう構成され、
オーディオエンコーダは、残留信号支援マルチチャネル符号化（１５０；１１３０；１２４０；２２４０）を用いて、少なくとも第３のオーディオチャネル信号と第４のオーディオチャネル信号とをジョイント符号化して第２のダウンミックス信号（１２２；１１３２；１２４２；２２４４）と第２の残留信号（１５２；１１３４；１２４４；２２４６）とを得るよう構成され、
オーディオエンコーダは、マルチチャネル符号化（１６０；１１５０；１２６０；２２６０）を用いて、前記第１の残留信号と前記第２の残留信号とをジョイント符号化して前記残留信号のジョイント符号化表現（１３０；１１５４；１２６２；２２６４）を得るよう構成される、オーディオエンコーダ。
オーディオエンコーダは、マルチチャネル符号化（１１４０；１２５０；２２５０）を用いて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とをジョイント符号化して前記ダウンミックス信号のジョイント符号化表現（１１４４；１２５２；２２５４）を得るよう構成される、請求項２７に記載のオーディオエンコーダ。
オーディオエンコーダは、予測ベースマルチチャネル符号化を用いて、前記第１の残留信号と前記第２の残留信号とをジョイント符号化するよう構成され、
オーディオエンコーダは、予測ベースマルチチャネル符号化を用いて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とをジョイント符号化するよう構成される、請求項２８に記載のオーディオエンコーダ。
オーディオエンコーダは、パラメータベース残留信号支援マルチチャネル符号化を用いて、少なくとも前記第１のオーディオチャネル信号と前記第２のオーディオチャネル信号とをジョイント符号化するよう構成され、
オーディオエンコーダは、パラメータベース残留信号支援マルチチャネル符号化を用いて、少なくとも前記第３のオーディオチャネル信号と前記第４のオーディオチャネル信号とをジョイント符号化するよう構成される、請求項２７〜２９のいずれか１項に記載のオーディオエンコーダ。
前記第１のオーディオチャネル信号および前記第２のオーディオチャネル信号は、オーディオシーンの垂直近傍位置と関連付けられ、
前記第３のオーディオチャネル信号および前記第４のオーディオチャネル信号は、前記オーディオシーンの垂直近傍位置と関連付けられる、請求項２７〜３０のいずれか１項に記載のオーディオエンコーダ。
前記第１のオーディオチャネル信号および前記第２のオーディオチャネル信号は、オーディオシーンの第１の水平位置または方位位置と関連付けられ、
前記第３のオーディオチャネル信号および前記第４のオーディオチャネル信号は、前記第１の水平位置または方位位置と異なる、前記オーディオシーンの第２の水平位置または方位位置と関連付けられる、請求項２７〜３１のいずれか１項に記載のオーディオエンコーダ。
前記第１の残留信号は、オーディオシーンの左側と関連付けられ、前記第２の残留信号は、前記オーディオシーンの右側と関連付けられる、請求項２７〜３２のいずれか１項に記載のオーディオエンコーダ。
前記第１のオーディオチャネル信号および前記第２のオーディオチャネル信号は、前記オーディオシーンの左側と関連付けられ、
前記第３のオーディオチャネル信号および前記第４のオーディオチャネル信号は、前記オーディオシーンの右側と関連付けられる、請求項３３に記載のオーディオエンコーダ。
前記第１のオーディオチャネル信号は、前記オーディオシーンの左下位置と関連付けられ、
前記第２のオーディオチャネル信号は、前記オーディオシーンの左上位置と関連付けられ、
前記第３のオーディオチャネル信号は、前記オーディオシーンの右下位置と関連付けられ、
前記第４のオーディオチャネル信号は、前記オーディオシーンの右上位置と関連付けられる、請求項３４に記載のオーディオエンコーダ。
オーディオエンコーダは、マルチチャネル符号化を用いて、前記第１のダウンミックス信号と前記第２のダウンミックス信号とをジョイント符号化して前記ダウンミックス信号のジョイント符号化表現を得るよう構成され、
前記第１のダウンミックス信号は、オーディオシーンの左側と関連付けられ、前記第２のダウンミックス信号は、前記オーディオシーンの右側と関連付けられる、請求項２７〜３５のいずれか１項に記載のオーディオエンコーダ。
符号化表現に基づいて少なくとも４つのオーディオチャネル信号を提供するための方法（８００）であって、
マルチチャネル復号を用いて、第１の残留信号と第２の残留信号とのジョイント符号化表現に基づいて、前記第１の残留信号と前記第２の残留信号とを提供するステップ（８１０）と、
残留信号支援マルチチャネル復号を用いて、第１のダウンミックス信号と前記第１の残留信号とに基づいて、第１のオーディオチャネル信号と第２のオーディオチャネル信号とを提供するステップ（８２０）と、
残留信号支援マルチチャネル復号を用いて、第２のダウンミックス信号と前記第２の残留信号とに基づいて、第３のオーディオチャネル信号と第４のオーディオチャネル信号とを提供するステップ（８３０）とを備える、方法。
少なくとも４つのオーディオチャネル信号に基づいて符号化表現を提供するための方法（７００）であって、
残留信号支援マルチチャネル符号化を用いて、少なくとも第１のオーディオチャネル信号と第２のオーディオチャネル信号とをジョイント符号化して第１のダウンミックス信号と第１の残留信号とを得るステップ（７１０）と、
残留信号支援マルチチャネル符号化を用いて、少なくとも第３のオーディオチャネル信号と第４のオーディオチャネル信号とをジョイント符号化して第２のダウンミックス信号と第２の残留信号とを得るステップ（７２０）と、
マルチチャネル符号化を用いて、前記第１の残留信号と前記第２の残留信号とをジョイント符号化して前記残留信号の符号化表現を得るステップ（７３０）とを備える、方法。
コンピュータプログラムがコンピュータ上で動作する際に請求項３７または３８に記載の方法を実行するためのコンピュータプログラム。