JP2023164971A

JP2023164971A - 出力ダウンミックス表現を生成するための装置及びコンピュータプログラム

Info

Publication number: JP2023164971A
Application number: JP2023144908A
Authority: JP
Inventors: フランツロイテルフーバー; Reutelhuber Franz; エレニフォトポウロウ; Fotopoulou Eleni; マルクスムルトゥルス; Multrus Markus
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2019-04-23
Filing date: 2023-09-07
Publication date: 2023-11-14
Also published as: WO2020216459A1; CA3137446A1; CN113853805A; JP7348304B2; AU2020262159A1; EP3959899A1; ZA202109418B; KR20220017400A; WO2020216797A1; TWI797445B; JP2022529731A; AU2020262159B2; BR112021021274A2; TW202103144A; US20220036911A1; MX2021012883A; SG11202111413TA

Abstract

【課題】マルチチャネル復号化のための出力ダウンミックス表現を生成する装置、方法及びマルチチャネルデコーダを提供する。【解決手段】入力ダウンミックス表現から出力ダウンミックス表現を生成する装置であって、前記入力ダウンミックス表現の少なくとも一部分が第１のダウンミックススキームに従っており、少なくとも１つのアップミックス部分を得るために、前記入力ダウンミックス表現の少なくとも前記一部分を前記第１のダウンミックススキームに対応するアップミックススキームを使用してアップミックスするアップミキサ（２００）と、前記第１のダウンミックススキームとは異なる第２のダウンミックススキームに従って、前記少なくとも１つのアップミックス部分をダウンミックスするダウンミキサ（３００）と、を備える。【選択図】図４

Description

本願は、マルチチャネル処理、特に、モノラル出力ための可能性を提供するマルチチャネル処理に関係する。

ステレオエンコードされたビットストリーム（ステレオ符号化済みビットストリーム）は、通常、ステレオシステムで再生されるように復号化されるが、ステレオビットストリームを受信できるすべてのデバイスが常にステレオ信号を出力できるわけではない。例えば、モノラルスピーカーしか持たない携帯電話でステレオ信号を再生する場合などが考えられる。そのため、３ＧＰＰＩＶＡＳ規格でサポートされているマルチチャネルのモバイル通信シナリオの出現に伴い、追加の遅延がなく、複雑さの面でも可能な限り効率的でありながら、単純なパッシブダウンミックスでは達成できない最高の知覚品質を提供する、ステレオからモノラルへのダウンミックスが必要とされている。

さらに、より洗練された（つまりアクティブな）時間領域ベースのダウンミックス方法としては、信号の全体的なエネルギーを維持するためのエネルギースケーリング［２］、［３］、キャンセル効果を避けるための位相調整［４］、コヒーレンス抑制によるコムフィルター効果の防止［５］などが含まれる。

もう一つの方法は、複数のスペクトル帯域に対して別々の重み付け係数を計算することにより、周波数に依存した方法でエネルギー補正を行うことである。例えば、これはＭＰＥＧ－Ｈフォーマットコンバータ［６］の一部として行われ、信号のハイブリッドＱＭＦサブ帯域表現を用いてダウンミックスを行い，さらにチャネルの位相調整を事前に行う。［７］では、ＤＦＴ領域で重み付けとミックスを行うパラメトリック低ビットレートモードのＤＦＴステレオに、同様の帯域ワイズダウンミックス（位相と時間の両方の調整を含む）がすでに使用されている。

ステレオ信号を復号化した後、時間領域でパッシブにステレオからモノラルにダウンミックスするという解決方法は理想的ではない。というのも、純粋にパッシブなダウンミックスには、位相キャンセル効果や一般的なエネルギーの損失などの欠点があり、アイテムによっては品質を著しく低下させる可能性があることがよく知られているからである。

純粋に時間領域に基づいた他のアクティブなダウンミックス手法は、パッシブなダウンミックスの問題点のいくつかを軽減するが、周波数に依存した重み付けができないため依然として最適とは言えない。

ＩＶＡＳ（ＩｍｍｅｒｓｉｖｅＶｏｉｃｅａｎｄＡｕｄｉｏＳｅｒｖｉｃｅｓ
）のような移動体通信用コーデックでは、遅延や複雑さの面で暗黙の制約があるため、ＭＰＥＧ－Ｈフォーマットコンバータのように帯域ごとのダウンミックスを適用するための専用の後処理ステージを持つことも選択肢にはならない。なぜなら、周波数領域への変換や逆変換が必要となり、複雑さと遅延の両方の増加を必然的に引き起こすためである。

デコーダでステレオ信号を復元するためにパラメータベースの残差予測のみを使用し、［７］に記載されているようなアクティブダウンミックスによって中間信号を生成する、［８］に記載されているようなＤＦＴベースのステレオシステムでは、デコーダにおいて十分に良好なモノラル信号が得られる。しかし、信号のスペクトル部分が、Ｍ／Ｓ変換によって生成されたステレオ復元用のコード化された残差信号に依存している場合、ステレオアップミックスの前に得られたモノラル信号はもはや適切ではない。この場合、モノラル信号は、スペクトル的には、一部がパッシブダウンミックスに等しいＭ／Ｓ変換（残差符号化部）による中間信号から、一部がアクティブダウンミックス（残差予測部）から、成る。このように２つの異なるダウンミックス手法が混在すると、信号にアーチファクトやエネルギーの不均衡が生じる。

本発明の目的は、マルチチャネル復号化のための出力ダウンミックス表現を生成するための改善された概念を提供することである。

この目的は、請求項１の出力ダウンミックス表現を生成する装置、請求項１９のマルチチャネルデコーダ、請求項２４の出力ダウンミックス表現を生成する方法、請求項２７のマルチチャネルデコーディング方法、又は請求項２８の関連するコンピュータプログラムによって達成される。

入力ダウンミックス表現から出力ダウンミックス表現を生成する装置であって、入力ダウンミックス表現の少なくとも一部分が第１のダウンミックススキームに従っており、装置は、少なくとも１つのアップミックス済み部分を得るために、第１のダウンミックススキームに対応するアップミックススキームを用いて入力ダウンミックス表現の少なくとも一部分をアップミックスするためのアップミキサを備える。さらに、装置は、第１のダウンミックススキームとは異なる第２のダウンミックススキームに従って、少なくとも１つのアップミックス済み部分をダウンミックスするためのダウンミキサを備える。

別の実施形態では、入力ダウンミックス表現の一部分は、ダウンミックススキームに従っており、さらに、入力ダウンミックス表現の第２の部分は、第１のダウンミックススキームとは異なる第２のダウンミックススキームに従っている。本実施形態では、ダウンミキサは、アップミックス部分を第２のダウンミックススキームに従って、又は、ダウンミックススキーム及び第２のダウンミックススキームとは異なる第３のダウンミックススキームに従ってダウンミックスして、第１のダウンミックス済み部分を得るように構成されている。ここで、ダウンミックス済み部分に関する状況は、第１のダウンミックス済み部分と第２の部分が関連しており、同じダウンミックススキームの領域内にあると言えるので、第１のダウンミックス済み部分と第２のダウンミックス済み部分、又は第２のダウンミックス済み部分から導出されたダウンミックス済み部分をコンバイナによって結合して、第１の部分に対する出力表現と第２の部分に対する出力表現を含む出力ダウンミックス表現を得ることができる。第１の部分に対する出力表現と第２の部分に対する出力表現は、同じダウンミックススキームに基づいている、すなわち、１つの同じダウンミックス領域に位置しており、したがって、互いに「調和」している。

さらなる実施形態では、入力ダウンミックス表現の全帯域又は一部分だけが、パラメータ及び残差信号に依存しているか又はパラメータなしの残差信号にのみに依存しているダ
ウンミックススキームに基づいている。このような状況では、入力ダウンミックス表現は、コア信号、残差信号、又は、残差信号及びパラメータから構成される。この信号は、サイド情報を用いてアップミックスされる。すなわち、パラメータ及び残差信号を用いて、又は残差信号だけを用いてアップミックスされる。アップミックスは、残差信号を含むすべての利用可能な情報を含む。ダウンミックスは、第１のダウンミックススキームとは異なる第２のダウンミックススキーム、すなわち、好ましくは、エネルギー計算に対処するための手段を有するアクティブダウンミックス、又は、言い換えれば、残差信号を生成せず、好ましくは、残差信号及び任意のパラメータを生成しないダウンミックススキームで実行される。このようなダウンミックスは、良好で快適で高品質なオーディオモノラルレンダリングの可能性を提供するが、アップミックスとその後のダウンミックス無しで使用した場合の入力ダウンミックス表現のコア信号は、残差信号及びパラメータを有利に考慮せずにレンダリングした場合には、いかなる快適で高品質なオーディオ再生もできない。

本実施形態によれば、出力ダウンミックス表現を生成する装置は、残差タイプのダウンミックススキームから非残差タイプのダウンミックススキームへの変換を実行する。この変換は、全帯域で実行することも、部分帯域で実行することもできる。典型的には、そして好ましい実施形態では、マルチチャネルエンコードされた信号（マルチチャネル符号化済み信号）の低帯域は、コア信号、残差信号、及び好ましくはパラメータを含む。しかし、高帯域では、より低いビットレートのために精度が低くなる。したがって、そのような高帯域では、残差データ又はパラメータなどの追加のサイド情報なしに、アクティブダウンミックスで十分である。このような状況では、残差ダウンミックス領域にある低帯域が非残差ダウンミックス領域に変換され、その結果が、すでに「正しい」非残差ダウンミックス領域にある高帯域と結合される。

さらなる実施形態では、第１の部分が、第１のダウンミックス領域から、第２の部分が配置されている、同じダウンミックス領域に変換されることは要求されない。代わりに、さらなる実施形態では、第１の部分が第１のダウンミックス領域にあり、入力表現の第２の部分が第２のダウンミックス領域にある場合、第１のダウンミックススキームに対応する第１のアップミックススキームに従って第１の部分をアップミックスすることにより、これらの部分の両方が別の第３のダウンミックス領域に変換される。さらに、第２のダウンミックススキームに対応する第２のアップミックススキームに従って第２の部分をアップミックスし、両方のアップミックスを、好ましくは残差データ又はパラメトリックデータのないアクティブダウンミックスによって、第１及び第２のダウンミックススキームとは異なる第３のダウンミックススキームにダウンミックスする。

さらなる実施形態では、２つ以上の部分、特に、スペクトル部分又はスペクトル帯域が、異なるダウンミックス表現にあるものを利用することができる。本発明により、好ましくは、アップミックスとそれに続くダウンミックスがスペクトル領域で実行される場合、個々の帯域に対する個々の処理は、一方のスペクトル帯域から他方のスペクトル帯域への干渉なしに実行することができる。ダウンミキサの出力では、すべての帯域が同じ「ダウンミックス」領域にあり、したがって、モノラル出力のダウンミックス表現のためのスペクトルが存在し、このスペクトルは、合成バンク、逆離散フーリエ変換、逆ＭＤＣＴ領域などのスペクトル－時間変換器によって、時間領域表現に変換することができる。個々の帯域の組み合わせと時間領域への変換は、このような合成フィルタバンクを用いて実施することができる。特に、組み合わせが実際の変換の前に実行されるかどうか、つまりスペクトル領域で実行されるかどうかは関係ない。このような状況では、組み合わせはスペクトル－時間変換の前に行われ、すなわち合成フィルタバンクへの入力で行われ、単一の時間領域信号を得るために単一の変換が行われるだけである。しかし、同等の実装は、コンバイナが各帯域に対して個別にスペクトル－時間変換を実行する実装で構成される。そのため、このような個々の変換の時間領域出力は、特定の帯域幅での時間領域表現を表し、
個々の時間領域出力は、クリティカルにサンプリングされた変換が実装されている場合、好ましくはある種のアップサンプリングの後に、サンプルごとに結合される。

さらなる実施形態では、本発明は、２つの異なるモードで動作可能なマルチチャネルデコーダに適用される。すなわち、「通常」モードとしてのマルチチャネル出力モードと、モノラル出力モードである「例外的なモード」のような第２のモードでも動作可能である。このモノラル出力モードは、マルチチャネルデコーダが、１つのスピーカーを持つ携帯電話など、モノラルスピーカー出力機能しか持たない機器に実装されている場合や、ある種の省電力モードにある機器に実装されており、基本的にはマルチチャネルやステレオ出力モードの可能性も持っているにもかかわらず、バッテリーの節約や処理リソースの節約のためにモノラル出力モードのみが提供されている場合に、特に有用である。

このような実施形態では、マルチチャネルデコーダは、復号化されたコア信号（復号化済みコア信号）のための第１の時間－スペクトル変換機能と、デコーダ残差信号のための第２の時間－スペクトル変換機能を備えている。２つの異なるダウンミックス領域にある２つの異なるスペクトル部分のためのスペクトル領域における２つの異なるアップミックス機能が提供され、対応する左チャネルのスペクトル線は、合成フィルタバンク又はＩＤＦＴブロックなどのコンバイナによって結合され、他のチャネルのスペクトル線は、追加又は第２の合成フィルタバンク又はＩＤＦＴ（逆離散フーリエ変換）ブロックによって結合される。

このようなマルチチャネルデコーダを強化するために、好ましくはアクティブダウンミキサとして実装される第１のダウンミックススキームとは異なる第２のダウンミックススキームに従って、少なくとも１つのアップミックス済み部分をダウンミックスするためのダウンミキサが設けられている。さらに、実施形態では、２つのスイッチとコントローラも提供される。コントローラは、第１のスイッチを制御して高帯域部分のアップミキサをバイパスし、第２のスイッチは、アップミキサの出力をダウンミキサに供給するように実装されている。このようなモノラル出力モードでは、処理能力を節約するために、第２コンバイナ又は合成フィルタバンクは非アクティブであり、高域用のアップミキサも非アクティブである。しかし、ステレオ出力モードでは、左のステレオ出力信号と右の出力信号を得るために、第１のスイッチは高域用のアップミックスを供給し、第２のスイッチは（アクティブな）ダウンミキサをバイパスし、両方の出力合成フィルタバンクがアクティブになる。

モノラル出力はＤＦＴドメインなどのスペクトル領域で計算されるため、モノラル出力の生成にはステレオ出力の生成と比較して追加の遅延は発生しない。ステレオ処理モードと比較して追加の時間－周波数変換が必要ないためである。代わりに、２つのステレオモード合成フィルタバンクのうち１つがモノモードにも使用される。さらに、典型的にはモノラル出力に比べて強化されたオーディオ体験を提供するステレオ出力と比較して、モノラル処理モードは複雑さと、特に処理リソースと、ひいては、バッテリー駆動のモバイルデバイスに特に有用である低電力モードでのバッテリー電力とを節約する。これは、ステレオモードで通常必要とされる高帯域アップミキサを非アクティブ化することができ、さらに、ステレオ出力モードで同じく必要とされる第２の出力フィルタバンクも同様に非アクティブ化することができるためである。その代わりに、ステレオモードと比較して追加の処理ブロックとして必要なのは、スペクトル領域で完全に動作する低複雑・低遅延のアクティブダウンミックスブロックのみである。しかし、このアクティブダウンミックスブロックが必要とする追加の処理リソースは、高帯域アップミキサと第２の合成フィルタバンク又はＩＤＦＴブロックを非アクティブ化することにより節約できる処理リソースよりも大幅に小さくなる。

本実施形態は、ステレオ信号のダウンミックスによって作成されたモノラル入力信号から、調和のとれたモノラル出力信号を生成することを目的としており、ダウンミックスはステレオ信号の少なくとも２つの異なるスペクトル領域に対して異なる方法（例えば、アクティブ及びパッシブ）で行われる。調和は、調和された信号のための好ましい方法として１つのダウンミックス方法を選び、異なる方法でダウンミックスされたすべてのスペクトル部分を望ましい方法に変換することによって達成される。これは、まず、アップミックスに必要なすべてのサイドパラメータを用いて、これらのスペクトル部分をアップミックスし、それぞれのスペクトル領域でＬＲ表現を取り戻すことで達成される。次に、好ましいダウンミックス方法に必要なすべてのパラメータを用いて、ステレオ表現に好ましい方法を適用して、スペクトル部分をモノラル表現に変換する。調和されたモノラル出力信号が生成され、追加の遅延や複雑さなしに不均一なダウンミックスの問題を回避することができる。

続いて、好ましい実施形態について、添付の図面を参照して説明する。

図１は、一実施形態における出力ダウンミックス表現を生成するための装置を示す図である。図２は、さらなる実施形態における出力ダウンミックス表現を生成するための装置を示す図であり、ダウンミックススキームは、残差信号又は残差信号及びパラメータに基づいている。図３は、入力ダウンミックス表現のスペクトル部分などの異なる部分に対して、異なるダウンミックススキームが実行される、さらなる実施形態を示す図である。図４は、入力ダウンミックス表現に対する異なるスペクトル部分での異なるダウンミックススキームの使用を説明するさらなる実施形態であり、第１のダウンミックススキームが残差データに基づき、第２のダウンミックススキームがアクティブダウンミックススキーム又は残差データ又はパラメトリックデータのないダウンミックススキームである手順を説明する図である。図５は、実施形態における第１のダウンミックススキームに対応するアップミックススキームの好ましい実施例を示す図である。図６は、ステレオ出力モードで動作するマルチチャネルデコーダを示す図である。図７は、マルチチャネル出力モード又はモノラル出力モードの間で切り替え可能な、実施形態に係るマルチチャネルエンコーダを示す図である。図８ａは、第２ダウンミックススキームの好ましい実施形態を示す図である。図８ｂは、第２のダウンミックススキームのさらなる実施形態を示す図である。図９は、入力ダウンミックス表現を、第１部分として示された第１ダウンミックススキームの入力ダウンミックス表現の一部分と、重みを持つダウンミックススキームに依存する入力ダウンミックス表現の第２部分とに分離する様子を示す図である。

図１は、入力ダウンミックス表現から出力ダウンミックス表現を生成する装置であって、入力ダウンミックス表現の少なくとも一部分が第１のダウンミックススキームに従っている。本装置は、ブロック２００の出力において少なくとも１つのアップミックス済み部分を得るために、第１のダウンミックススキームに対応するアップミックススキームを用いて入力ダウンミックス表現の少なくとも一部分をアップミックスするためのアップミキサ２００を備える。本装置は、さらに、第１のダウンミックススキームとは異なる第２のダウンミックススキームに従って、少なくとも１つのアップミックス済み部分をダウンミ
ックスするためのダウンミキサ３００を備える。好ましくは、ダウンミキサ３００の出力は、モノラル出力を生成するための出力ステージ５００に転送される。出力段は、例えば、出力ダウンミックス表現をレンダリング装置に出力するための出力インターフェースであり、あるいは、出力段５００は、出力ダウンミックス表現をモノラル再生信号としてレンダリングするためのレンダリング装置を実際に構成する。

図１に示された装置は、第１の「ダウンミックス領域」におけるダウンミックス表現から、別の第２のダウンミックス領域への変換を提供する。他の図で説明するように、この変換は、例えば、図９に例示的に与えられた最下位の３つの帯域ｂ₁、ｂ₂、ｂ₃について
図示された第１の部分のような、スペクトルの限られた部分に対してのみ有効とすることができる。あるいは、装置は、フルバンド、すなわち、図９に例示的に示されたすべての帯域ｂ₁～ｂ₆に対して、１つのダウンミックス領域から別のダウンミックス領域への変換を実行することもできる。この部分は、スペクトル部分などの信号の任意の部分、時間ブロックまたはフレームなどの時間部分、または信号の他の任意の部分であり得る。ブロック又はフレームなどの時間部分、又は信号の任意の部分などとすることができる。

図２は、第１のダウンミックススキームが、残差信号のみ、又は残差信号及びパラメトリック情報に依存する実施形態を示す。図２は入力インターフェース１０を含み、入力インターフェースは、符号化済みコア信号（ｅｎｃｏｄｅｄｃｏｒｅｓｉｇｎａｌ）と符号化済みサイド情報部分（ｅｎｃｏｄｅｄｓｉｅｄｅｓｉｄｅｉｎｆｏｒｍａｔｉｏｎｐａｒｔ）を含む符号化済みマルチチャネル信号（ｅｎｃｏｄｅｄｍｕｌｔｉｃｈａｎｎｅｌｓｉｇｎａｌ）を受信する。コア信号はコアデコーダ２０によって復号され、サイド情報のない入力ダウンミックス表現を提供する。さらに、符号化済みマルチチャネル信号からのサイド情報部分は、入力インターフェース内のサイド情報デコーダ３０によって提供・処理され、サイド情報デコーダ３０は、図２の２１０で示されるように、残差信号又は残差信号及びパラメータを提供する。データ、すなわち、残差データと復号されたコア信号（復号化済みコア信号）に対応する入力ダウンミックスはいずれもアップミキサ２００に入力され、アップミキサ２００は、第１のチャネル及び第２のチャネルを有するアップミックス信号を生成し、第１のチャネルと第２のチャネルのデータは、高品質のオーディオデータである。なぜなら、高品質のオーディオデータは、コア信号とある種のパッシブなアップミックスによってのみ生成されるのではなく、残差データ又は残差データ及びパラメータ、すなわち、符号化済みマルチチャネル信号から入手し得るすべてのデータをさらに用いて生成されるからである。アップミキサ２００の出力は、例えば、アクティブダウンミックス、又は、一般的には、残差信号を生成しない、又は、パラメータを生成しないがエネルギー補償されたダウンミックス又はモノラル信号を生成するダウンミックススキーム、すなわち、例えば図２のコアデコーダ２０によって生成されたコア信号の場合のようにパッシブダウンミックスのみが実行された場合に通常重大な問題となるエネルギー変動に悩まされないダウンミックススキームを用いて、ダウンミキサ３００によってダウンミックスされる。ダウンミキサ３００の出力は、例えば、モノラル信号をレンダリングするためのレンダラーに、あるいは、例えば、図１に例示した出力ステージ５００に転送される。

図３は、再び図９を参照すると、第１の部分が、残差データを有するダウンミックススキームなどの第１のダウンミックススキームで入手可能であり、例えば、残差データのない第２のダウンミックススキームで入手可能である、すなわち、パッシブダウンミックスが適用されていれば発生するであろう変動に対抗するために、例えば、エネルギー考慮事項に基づいて導出されたダウンミックス重みを用いたアクティブダウンミックスによって生成された、第２のスペクトル部分がある、さらなる実施形態を示している。。

ダウンミックス表現の第１の部分は、第１のダウンミックススキームに対応してアップ
ミックスを行うアップミキサ２００に入力され、第１の部分は、図１又は図２に関して説明したように、ダウンミキサ３００に転送され、今度はダウンミキサ３００が第２のダウンミックススキームでダウンミックスを実行する。図３に示された第２の部分は、アップミキサ２００に入力された部分のダウンミックススキーム又はダウンミキサ３００により出力された第２のダウンミックススキームから、例えば、第２のダウンミックススキームにあることがあるが、第３の、すなわち、他の任意のダウンミックススキームにもあることもある。第２の部分とダウンミキサ３００の出力とでダウンミックス領域が同じである場合には、第２の部分プロセッサ６００は一切必要とはならない。代わりに、第２の部分は、ダウンミックススキームに関して現在一致している第１の部分と第２の部分とを結合するためのコンバイナ４００に転送することができる。しかし、第２の部分がダウンミックス領域にある場合、すなわち、ダウンミキサ３００の出力が利用可能なダウンミックススキームとは異なる基礎的なダウンミックススキームを有する場合、第２の部分プロセッサ６００が提供される。一般に、第２の部分プロセッサ６００は、第３のダウンミックススキームにある第２の部分をアップミックスするためのアップミキサも備え、第２の部分プロセッサ６００は、ダウンミキサ３００から利用可能なものと同じダウンミックス領域に、すなわち、同じダウンミックススキームを使用して、アップミキサ表現をダウンミックスするためのダウンミキサをさらに備える。第２部分プロセッサ６００は、コンバイナ４００に入力されるデータの完全な調和が得られるように、アップミキサ２００及びその後に接続されたダウンミキサ３００を使用して実装することができる。コンバイナ４００は、好ましくは、フィルタバンク、ＩＤＦＴ、ＩＭＤＣＴなどのスペクトル－時間変換器によって時間領域に変換されたモノラル出力ダウンミックス表現のスペクトル表現を出力する。あるいは、コンバイナ４００は、個々の入力を個々の時間領域信号に結合するように構成されており、時間領域信号は時間領域で結合されて、時間領域のモノラル出力ダウンミックス表現を得る。

図４は、図４に図示されているようなＤＦＴブロックなどの第１の時間－スペクトル変換器１００と、図４の第２のＤＦＴブロックなどの第２の時間－スペクトル変換器１２０とを含むことができる入力インターフェースを含む。第１ブロック１００は、例えば、図２のコアデコーダ２０が出力するような復号化済みコア信号（ｄｅｃｏｄｅｄｃｏｒｅ
ｓｉｇｎａｌ）をスペクトル表現に変換するように構成されている。さらに、第２の時間－スペクトル変換器１２０は、例えば、図２のサイド情報デコーダ３０によって出力されるような復号化済み残差信号（ｄｅｃｏｄｅｄｒｅｓｉｄｕａｌｓｉｇｎａｌ）を、２１０ａで図示されるスペクトル表現に変換するように構成される。さらに、ライン２１０ｂには、例えば図２のサイド情報デコーダ３０によっても出力されるサイドゲイン（ｓｉｄｅｇａｉｎ）などのオプションで提供される追加のパラメトリックデータが図示されている。図４のアップミキサ２００は、低帯域、すなわち、例示的に図９の第１～第３バンドｂ₁，ｂ₂，ｂ₃に対してアップミックスされた左チャネル（アップミックス済み
の左チャネル）とアップミックスされた右チャネル（アップミックス済みの右チャネル）を生成する。さらに、ブロック２００の出力における低帯域アップミックスは、好ましくはアクティブダウンミックスを実行するダウンミキサ３００に入力され、図９の例示的に示された３つの帯域ｂ₁，ｂ₂，ｂ₃に対する低帯域表現が提供されるようにする。この低
帯域ダウンミックスは、ＤＦＴブロック１００によって既に生成された高帯域ダウンミックスと同じ領域内にある。ブロック１００の高帯域の出力は、図９の例では、帯域ｂ₄、
ｂ₅、ｂ₆のダウンミックス表現に相当する。ここで、図４にＩＤＦＴ４００として示されているコンバイナ４００への入力では、ダウンミックスの低帯域表現と高域表現は同じ「ダウンミックス領域」にあり、同じダウンミックススキームで生成されている。ここで、調和のとれたダウンミックス表現の低帯域と高帯域を組み合わせ、好ましくは時間領域に変換して、ブロック４００の出力でモノラル出力信号を提供することができる。

［８］に記載されているようなほとんどパラメトリックなステレオスキームは、単一の
ダウンミックスされたチャネル（ダウンミックス済みチャネル）のみを送信し、サイドパラメータを介してステレオ画像を再作成するというアイデアを中心に構築されている。エンコーダ側でのこのダウンミックスは、ＤＦＴドメイン［７］で両チャネルの重みを動的に計算することにより、アクティブに行われる。これらの重みは、２つのチャネルのそれぞれのエネルギーとその相互相関を用いて帯域ごとに計算される。ダウンミックスで保持すべきターゲットエネルギーは、位相回転した中間チャネルのエネルギーに等しい。

ここで、ＬとＲは左チャネルと右チャネルを表す。このターゲットエネルギーに基づいて、帯域ｂごとにチャネルの重みが次のように計算される。

このようなシステムのステレオ処理がすべてパラメータに依存しており、説明されているアクティブダウンミックスが全スペクトルに対して行われる場合、パッシブダウンミックスの問題を回避して所定の品質要件を満たすモノラル信号は、コア復号化後にすでに利用可能である。つまり、ほとんどの場合、デコーダのステレオ処理をすべてスキップして、ＤＦＴドメインに入らずに信号を出力すれば十分である。

しかし、より高いビットレートの場合、この種のシステムは、低いスペクトル帯域の残差信号のコーディングもサポートしている。残差信号は、これらの最低帯域をＭＳ変換したサイド信号と見ることができ、一方、コア信号は補完的な中間信号で、基本的には左右のパッシブダウンミックスである。サイド信号をできるだけ小さくするために、帯域ごとに計算されたサイドゲインを用いて、チャネル間の耳間レベル差（ＩＬＤ）を補正している。

コアコーダに入力されるフル帯域の信号は、低帯域のパッシブダウンミックスと高帯域のアクティブダウンミックスが混在したものである。リスニングテストでは、このような混合信号を再生した場合、知覚的な問題があることがわかっている。そのため、異なる信号部分を調和させる方法が必要である。

その後、上述のようにアクティブダウンミックスが適用されるが、重みはアップミックスされた復号化済みスペクトルＬ及びＲから計算される。低帯域は、すでにアクティブダウンミックスされた高帯域と結合され、ＩＤＦＴを介して時間領域に戻される調和した信号が作成される。

図６は、ステレオ出力のためのマルチチャネルデコーダの実施形態を示している。マルチチャネルデコーダは、同じ参照番号で示されている図４の要素を含む。さらに、ステレオマルチチャネルデコーダは、マルチチャネルデコーダの一実施態様として、高帯域ダウンミックス、すなわち第２の部分を、ステレオ出力のために、例えば左チャネルと右チャネルからなる第２のアップミックス表現にアップミックスするための第２のアップミキサ２２０を含んでいる。マルチチャネルデコーダの別の実装として、２つ以上の出力チャネル、例えば３つ以上の出力チャネルがある場合には、アップミキサ２２０だけでなく、アップミキサ２００も、左チャネルと右チャネルだけではなく、対応するより多くの出力チャネルを生成することになる。

さらに、第２のコンバイナ４２０は、マルチチャネルデコーダのために、すなわち、図示されたステレオデコーダのために、図６に示されている。２つ以上の出力の場合には、３番目の出力チャネルのためにさらなるコンバイナがあり、４番目の出力チャネルのために別のコンバイナがあるといった具合である。しかし、図６とは対照的に、図４のダウンミキサ３００は、マルチチャネル出力のために必要ではない。

図７は、コントローラ７００の作動により、モノラルモードとステレオ／マルチチャネル出力モードとの間で切り替え可能である、切り替え可能なマルチチャネルデコーダの好ましい実施形態を示している。さらに、図６とは対照的に、マルチチャネルデコーダは、図４又は他の図に関して既に説明したダウンミキサ３００を追加で備えている。さらに、切り替え可能な実装では、１つのオプションとして、２つの個別のスイッチＳ１、Ｓ２を
設けることができる。しかし、図７の下部に示されているスイッチング機能は、複合スイッチや２つ以上のスイッチなど、他のスイッチング手段によっても実装することができる。一般に、スイッチ１はモノラル出力モードで動作するように構成されており、「アップミックスハイ（ｕｐｍｉｘｈｉｇｈ）」とも示される第２のアップミキサ２２０がバイパスされるようになっている。さらに、第２のスイッチＳ２は、第２の制御信号ＣＴＲＬ₂によって、図７で「アップミックスロー（ｕｐｍｉｘｌｏｗ）」と示されたアップミ
キサ２００の出力をアクティブダウンミックス３００に供給するように構成されている。さらに、モノラル出力モードでは、単一のモノラル出力信号を生成するための単一のコンバイナ４００のみが必要であるため、図６に関して説明したアップミックスハイブロック２２０は非アクティブであり、さらに、「ＩＤＦＴ_R」と示された第２のコンバイナ４２
０も非アクティブである。

これとは逆に、ステレオ出力モード又は一般的にはマルチチャネル出力モードでは、コントローラ７００は、制御信号ＣＴＲＬ₁を介して、第１のスイッチを作動させ、第１の
時間－周波数変換器１００の出力が、図７の「アップミックスハイ」として示される第２のアップミキサ２２０に供給されるように構成される。スイッチＳ１の作動により、第２のコンバイナ２２０が作動する。さらに、コントローラ７００は、ブロック２００の出力がアクティブなダウンミキサ３００に入力されず、ダウンミキサ３００がバイパスされるように、第２のスイッチＳ２７２０を制御するように構成されている。ブロック２００の出力の左チャネル（低帯域）部分は、コンバイナ４００のための低帯域部分として転送され、ブロック２００の出力における右チャネルの低帯域部分は、図７に例示されているように、第２コンバイナ４２０の低帯域入力に転送される。さらに、ステレオ／マルチチャネル出力モードでは、ダウンミックス３００は非アクティブである。

図８ａは、アクティブなダウンミックスを実行するためのダウンミックス３００で使用される実施形態のフローチャートを示している。ステップ８００では、ターゲットエネルギーに基づいて重みｗ_R及びｗ_Lが計算される。これは、右チャネル用の重みｗ_Rと左チャ
ネル用の重みｗ_Lが各帯域に対して得られるように、帯域ごとに行われる。

ブロック８２０では、考慮中の信号の全帯域にわたって、又はスペクトルビンごとの対応する部分でのみ、重みがアップミックス済み信号に適用される。この目的のために、ブロック８２０は、スペクトル領域（複素数）の信号又はビン又はスペクトル値を受け取る。ダウンミックスを得るための重みの適用、及び特に重み付けされた値の加算に続いて、時間領域への変換８４０が実行される。ブロック８２０において一部分のみが処理されるか、全帯域が処理されるかに応じて、時間領域への変換は、他の部分なしで行われるか、又は、例えば、図３又は図４に関して図示及び議論されたような調和されたダウンミックスの場合は、特に他の部分とともに行われる。

図８ｂは、図８ａのブロック８００で実行される機能の好ましい実施形態を示している。特に、各帯域に対する重みｗ_R及びｗ_Lの計算のために、Ｌに対する振幅関連の指標（大きさ，ｍｅａｓｕｒｅ）が帯域に対して計算される。この目的のために、左チャネルのための、すなわち、図１～図７のいずれかのブロック２００によって出力された左チャネルのための個々のスペクトル線が入力される。ブロック８０４では、同じ帯域ｂの第２チャネル又は右チャネルについて同じ手順が実行される。さらにブロック８０６では、帯域ｂのＬとＲの線形結合について別の振幅関連の指標が計算される。ブロック８０６では、再び、検討中の帯域について、第１チャネルＬのスペクトル値、第２チャネルＲのスペクトル値が要求される。ブロック８０８では、対応する帯域ｂにおいて、左チャネルと右チャネルの間、あるいは一般的には第１チャネルと第２チャネルの間の相互相関の指標が計算される。この目的のために、もう一度、第１チャネルと第２チャネルの指標ｅにおけるスペクトル値が、対応する帯域について必要とされる。

同じことが、ブロック８０４で計算された振幅関連の指標、又はブロック８０６で計算された振幅関連の指標にも当てはまる。

さらに、ブロック８０８で計算された相互相関の指標に関しては、前に図示された対応する数学的方程式も、ドット積の二乗と平方根の計算に依存している。しかし、ラウドネス領域に対応する３に等しい指数、又は、１より大きい指数など、２とは異なる他の指数をドット積に使用することも可能である。同時に、平方根の代わりに、１／２とは異なる他の指数、例えば１／３又は、一般的には０と１の間にある任意の指数を使用することができる。

さらに、ブロック８１０は、３つの振幅関連の指標及び相互相関の指標に基づいてｗ_R
及びｗ_Lを計算することを示す。ターゲットエネルギーがダウンミックスによって保存さ
れ、位相回転された中間チャネルのエネルギーに等しいことが示されているが、ｗ_R及び
ｗ_Lの計算にも、実際のダウンミックス信号の計算にも、そのような回転角を持つ回転が
実際に行われることは必要ではない。その代わり、回転角φでの実際の回転が行われない場合に必要となるのは、対応する帯域ｂにおけるＬとＲの相互相関の指標の計算だけである。前述の実施形態では、ターゲットエネルギーとして、位相回転したミッドチャネルのエネルギーを用いることを示したが、他のターゲットエネルギーを用いてもよいし、位相回転を全く行わなくてもよい。他のターゲットエネルギーに関して、これらのターゲットエネルギーは、ダウンミックス３００によって生成されるダウンミックス信号のエネルギーが、例えば、図４のブロック１００に入力される複号化済みコア信号の基礎となるようなパッシブダウンミックスのエネルギーよりも、同じ信号に対して変動が少なくなるようにするエネルギーである。

図９は、入力ダウンミックス表現に関して、残差データを含むダウンミックスとして提供される低帯域の第１の部分を示し、入力ダウンミックス表現に関して、図８ａ、８ｂに関して前に説明したように重みを用いて生成されたダウンミックスによって提供される第２の部分を示すスペクトルの一般的な表現を示している。図９は、３つの帯域が第１の部分のためのものであり、３つの帯域が第２の部分のためのものである６つの帯域のみを図示しており、また、図９は、低帯域から高帯域へと増加する特定の帯域幅を図示しているが、特定の数、特定の帯域幅、及びスペクトルの第１の部分への分離と第２の部分への分離は、例示的なものにすぎない。実際のシナリオでは、かなり高い数の帯域が存在し、さらに、残差信号を持つ第１の部分は、帯域ｂの数の５０％未満となる。

好ましくは、図４、６及び図７の時間－スペクトル変換器１００、１２０及びコンバイナ４００、４２０は、好ましくはＦＦＴ又はＩＦＦＴアルゴリズムを実装するＤＦＴ又はＩＤＦＴブロックとして実装される。ブロック１００、１２０に入力された連続的な復号化済み信号の処理については、オーバーラップするブロックが形成され、分析フィルタリングされ、スペクトル領域に変換され、処理され、コンバイナ４００、４２０において合成フィルタリングされ、５０％のオーバーラップでもう一度結合されるブロックワイズ処
理が行われる。合成側の５０％オーバーラップの組み合わせは、典型的には、好ましくは、クロスフェードの重みが分析／合成ウィンドウに既に含まれている、１つのブロックから他のブロックへのクロスフェードを伴うオーバーラップ加算操作によって実行される。しかし、そうでない場合には、図７又は図６のブロック４００（例えば）又は４２０（例えば）の出力で実際のクロスフェードが行われ、モノラル出力信号又は左出力信号又は右出力信号のいずれかの各時間領域出力サンプルが、２つの異なるブロックの２つの値の加算によって生成されるようにする。５０％以上のオーバーラップの場合は、３つ又は対応するさらに多くのブロック間のオーバーラップを同様に実行することができる。

また、一方の時間－スペクトル変換と他方のスペクトル－時間変換を、例えば修正離散コサイン変換で行う場合にも、オーバーラップ処理が使用される。スペクトル－時間変換側では、オーバーラップ加算処理が行われ、各出力時間領域サンプルは、２つ（又はそれ以上）の異なるＩＭＤＣＴブロックからの対応する時間領域サンプルを合計することで得られる。

好ましくは、図４、図６、図７に示すように、ダウンミックススキームの調和は、完全にスペクトル領域で行われる。図７に示すように、モノラルからステレオ、又はステレオからモノラルに切り替える際には、追加の時間－スペクトル変換又はスペクトル－時間変換は必要ない。モノラル出力モードの場合はダウンミキサ３００により、又は、ステレオ出力モードの場合は第２アップミキサ２２０（アップミックスハイ）により、スペクトル領域のデータを操作するだけでよい。処理の全体的な遅延は、モノラル又はステレオ出力のどちらでも同じであり、これは、後続の処理動作又は先行する処理動作が、モノラル又はステレオの出力信号があるかどうかを意識する必要がないため、重要な利点でもある。

好ましい実施形態では、専用の後処理段階がもたらす追加の遅延及び著しく高い複雑さを伴わずに、［８］に記載されているように、システムの復号化済みコア信号の異なるスペクトル帯域に異なるダウンミックス方法があることに起因するアーチファクトやスペクトルラウドネスの不均衡を除去する。

実施形態は、一側面において、信号のすべてのスペクトル又は時間部分を調和させるために、１つ又は複数のダウンミックス方法を使用してダウンミックスされた、モノラル信号の１つ（又は複数）のスペクトル又は時間部分のアップミックスと、それに続くデコーダでのダウンミックスを提供する。

本発明は、一側面において、デコーダ側でのステレオからモノラルへのダウンミックスの調和を提供するものである。

一実施形態では、出力ダウンミックスは、出力表現に含まれるダウンミックスを受信し、出力表現のこのダウンミックスをデジタル／アナログ変換器に供給する再生装置のためのものであり、アナログダウンミックス信号は、再生装置に含まれる１つ又は複数のラウドスピーカーによってレンダリングされる。再生装置は、携帯電話、タブレット、デジタル時計、Ｂｌｕｅｔｏｏｔｈスピーカーなどのモノラル装置であってもよい。

ここで言及しておきたいのは、先に述べたようなすべての代替案又は側面、及び以下の請求項の独立請求項によって定義されるすべての側面は、個別に、すなわち、企図された代替案、対象物、又は独立請求項以外の他の代替案又は対象物なしに、使用することができるということである。しかし、他の実施形態では、２つ以上の代替物又は態様又は独立請求項を互いに組み合わせることができ、また、他の実施形態では、すべての態様、又は代替物及びすべての独立請求項を互いに組み合わせることができる。

いくつかの態様が装置の文脈において記載されてきたが、これらの態様は対応する方法の記述をも表すことは明らかであり、ブロック又はデバイスは方法ステップ又は方法ステップの機能に対応する。同様に、方法ステップの文脈において記載された態様は、対応する装置の対応するブロック、アイテム又は機能の記述をも表す。

特定の実現要求に依存して、本発明の実施形態は、ハードウェアにおいて又はソフトウェアにおいて実施することができる。実施は、その上に記憶された電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働することができる）、デジタル記憶媒体、例えばフロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリを用いて実行することができる。

本発明に係るいくつかの実施形態は、本願明細書に記載された方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読取可能な制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本発明の方法の１つを実行するように動作可能であるプログラムコードによるコンピュータプログラム製品として実施することができる。プログラムコードは、例えば機械読取可能なキャリアに記憶することができる。

他の実施形態は、機械読取可能なキャリア又は非一時的な記憶媒体に記憶された、本願明細書に記載された方法の１つを実行するコンピュータプログラムを備える。

言い換えれば、本発明の方法の一実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の１つを実行するプログラムコードを有するコンピュータプログラムである。

本発明の方法の更なる実施形態は、それ故に、その上に記録され、本願明細書に記載された方法の１つを実行するコンピュータプログラムを備えるデータキャリア（又はデジタル記憶媒体又はコンピュータ読取可能媒体）である。

本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の１つを実行するコンピュータプログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続、例えばインターネットによって転送されるように構成することができる。

更なる実施形態は、本願明細書に記載された方法の１つを実行するように構成された又は適合された処理手段、例えばコンピュータ又はプログラマブルロジックデバイスを備える。

更なる実施形態は、本願明細書に記載された方法の１つを実行するコンピュータプログラムがインストールされたコンピュータを備える。

いくつかの実施形態において、本願明細書に記載された方法のいくつか又は全ての機能を実行するために、プログラマブルロジックデバイス（例えばフィールドプログラマブルゲートアレイ）を用いることができる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の１つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。

上記記載された実施形態は、単に本発明の原理に対して説明したものである。本願明細書に記載された構成及び詳細の修正及び変更は、当業者にとって明らかであると理解される。それ故に、本発明は、間近に迫った特許請求の範囲のスコープのみによって制限され、本願明細書の実施形態の記載及び説明の方法によって表された特定の詳細によって制限されないことが意図される。

参照
[1] ITU-R BS.775-2, Multichannel Stereophonic Sound System With And Without Accompanying Picture, 07/2006.
[2] F. Baumgarte, C. Faller und P. Kroon, "Audio Coder Enhancement using Scalable Binaural Cue Coding with Equalized Mixing," in 116th Convention of the AES, Berlin, 2004.
[3] G. Stoll, J. Groh, M. Link, J. Deigmoller, B. Runow, M. Keil, R. Stoll, M. Stoll und C. Stoll, "Method for Generating a Downward-Compatible Sound Format". USA Patent US 2012/0 014 526, 2012.
[4] M. Kim, E. Oh und H. Shim, "Stereo audio coding improved by phase parameters," in 129th Convention of the AES, San Francisco, 2010.
[5] A. Adami, E. Habets und J. Herre, "Down-mixing using coherence suppression," in IEEE International Conference on Acoustics, Speech and Signal Processing, Florence, 2014.
[6] ISO/IEC 23008-3:, Information technology － High efficiency coding and media delivery in heterogeneous environments － Part 3: 3D audio, 2019.
[7] S. Bayer, C. Bors, J. Buthe, S. Disch, B. Edler, G. Fuchs, F. Ghido und M. Multrus, "DOWNMIXER AND METHOD FOR DOWNMIXING AT LEAST TWO CHANNELS AND MULTICHANNEL ENCODER AND MULTICHANNEL DECODER". Patent WO18086946, 17 05 2018.
[8] S. Bayer, M. Dietz, S. Dohla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli und M. Schnell, " APPARATUS AND METHOD FOR ESTIMATING AN INTER-CHANNEL TIME DIFFERENCE". Patent WO17125563, 27 07 2017.

Claims

入力ダウンミックス表現から出力ダウンミックス表現を生成するための装置であって、前記入力ダウンミックス表現の少なくとも一部分は第１のダウンミックススキームに従っており、前記装置は、
前記第１のダウンミックススキームに対応するアップミックススキームを使用して前記入力ダウンミックス表現の少なくとも前記一部分をアップミックスして、少なくとも１つのアップミックス済み部分を得るためのアップミキサ（２００）と、
前記第１のダウンミックススキームとは異なる第２のダウンミックススキームに従って、前記少なくとも１つのアップミックス済み部分をダウンミックスして、前記入力ダウンミックス表現の少なくとも前記一部分のために前記出力ダウンミックス表現を表す第１のダウンミックス済み部分を得るためのダウンミキサ（３００）と、
を備える、装置。
前記入力ダウンミックス表現の前記一部分のみが前記第１のダウンミックススキームに従っており、前記入力ダウンミックス表現の第２の部分は前記第２のダウンミックススキームに従っており、
前記ダウンミキサ（３００）は、前記第２のダウンミックススキームに従って前記少なくとも１つのアップミックス済み部分をダウンミックスして前記第１のダウンミックス済み部分を得るように構成され、
前記第１のダウンミックス済み部分と前記入力ダウンミックス表現の前記第２の部分又は前記入力ダウンミックス表現の前記第２の部分から導出されたダウンミックス済み部分とを結合して、前記入力ダウンミックス表現の前記一部分のみのための第１の出力表現及び前記入力ダウンミックス表現の前記第２の部分のための第２の出力表現を含む前記出力ダウンミックス表現を得るためのコンバイナ（４００）をさらに備え、前記入力ダウンミックス表現の前記一部分のみのための前記第１の出力表現及び前記入力ダウンミックス表現の前記第２の部分のための前記第２の出力表現は同じダウンミックススキームに基づいている、
請求項１に記載の装置。
前記入力ダウンミックス表現の前記少なくとも一部分又は前記入力ダウンミックス表現の前記一部分のみは第１の周波数帯域であり、前記第１のダウンミックススキームは残差信号に依存するダウンミックススキームであり、
前記アップミキサ（２００）は、前記残差信号を用いてアップミックスを実行するように構成されている、
請求項１又は２に記載の装置。
前記第２のダウンミックススキームは完全にパラメトリックなスキームであり、
前記ダウンミキサ（３００）は前記第２のダウンミックススキームを適用するように構成されている、
請求項１ないし３のいずれか１項に記載の装置。
前記入力ダウンミックス表現の前記第２の部分は第２の周波数帯域であり、
前記コンバイナ（４００）が、前記第１のダウンミックス部分と前記入力ダウンミックス表現の前記第２の部分とを結合して前記出力ダウンミックス表現を得るように構成されている、
請求項２ないし４のいずれか１項に記載の装置。
前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみのための復号化済みコア信号と、前記入力ダウンミックス表現の少なく
とも前記一部分又は前記入力ダウンミックス表現の前記一部分のみのための復号化済み残差信号と、を生成するためのオーディオデコーダ（１０）をさらに備え、
前記アップミキサ（２００）は、前記アップミックススキームにおいて、前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみのための前記復号化済みコア信号と、前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみのための前記復号化済み残差信号とを使用するように構成され、
前記ダウンミキサ（３００）は、前記入力ダウンミックス表現よりも多くのチャネルを含む前記少なくとも１つのアップミックス済み部分を受信するように構成されている、
請求項１ないし５のいずれか１項に記載の装置。
前記入力ダウンミックス表現の前記第２の部分が前記第２のダウンミックススキームに従っており、前記オーディオデコーダ（１０）は、前記入力ダウンミックス表現の前記第２の部分のための復号化済みコア信号と、前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみのための復号化済み残差信号とを生成するように構成され、前記コンバイナ（４００）は、前記第１のダウンミックス済み部分と前記入力ダウンミックス表現の前記第２の部分のための前記復号化済みコア信号と、を結合するように構成されている、
請求項６に記載の装置。
前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみの時間領域入力ダウンミックス表現をスペクトル領域に変換する時間－スペクトル変換器（１００）と、出力信号を時間領域に変換して前記出力ダウンミックス表現を得るためのスペクトル－時間変換器（４００）と、をさらに備え、前記時間－スペクトル変換器（１００）又は前記スペクトル－時間変換器（４００）は、オーバーラップ加算処理を実行するように、又は前の時間ブロックから後の時間ブロックへのクロスオーバー処理を実行するように構成される、あるいは、
前記出力ダウンミックス表現をレンダリングデバイスに出力するための出力インターフェース（５００）をさらに備える、又は、前記出力ダウンミックス表現をモノリプレイ信号としてレンダリングするためのレンダリングデバイスをさらに備える、あるいは、
前記ダウンミキサ（３００）は、前記第２のダウンミックススキームとして、アクティブダウンミックススキーム、エネルギー節減ダウンミックススキーム、又は前記ダウンミックス信号のターゲットエネルギーは、第１のチャネル及び第２のチャネルから導出された中間チャネルのエネルギーに対して既定の比率であるダウンミックススキームを適用するように構成され、前記第１のチャネル及び前記第２のチャネルのうちの少なくとも１つは、前記入力ダウンミックス表現を形成するために合計される前に位相回転される、
請求項１ないし７のいずれか１項に記載の装置。
前記入力ダウンミックス表現の前記第２の部分は前記第２のダウンミックスに従っており、前記時間－スペクトル変換器（１００）は、前記入力ダウンミックス表現の前記第２の部分の時間領域入力ダウンミックス表現を前記スペクトル領域に変換するように構成される、あるいは、
前記既定の比率は、第１のオリジナルチャネルのエネルギーと第２のオリジナルチャネルのエネルギーが等しいこと、または第１のオリジナルチャネルのエネルギーと第２のオリジナルチャネルのエネルギーのうち高い方のエネルギーに関して３ｄｂの範囲での偏差を示す、
請求項８に記載の装置。
前記入力ダウンミックス表現の少なくとも前記一部分は
、前記残差信号又は前記残差信号及びパラメトリック情報に依存する前記第１のダウンミ
ックススキームに従っており、
前記アップミキサ（２００）は、前記第１のダウンミックススキームに対応する前記アップミックススキームを使用して、かつ、前記残差信号又は前記残差信号及び前記パラメトリック情報を使用して、前記入力ダウンミックス表現の少なくとも前記一部分の前記入力ダウンミックス表現をアップミックスして、前記少なくとも１つのアップミックス済み部分をそれぞれ得るように構成され、
前記ダウンミキサ（３００）は、前記第１のダウンミックススキームとは異なる前記第２のダウンミックススキームに従って前記少なくとも１つのアップミックス済み部分をダウンミックスするように構成され、前記第２のダウンミックススキームは、少なくとも1
つのダウンミックス済み部分を含む前記出力ダウンミックス表現を得るための、アクティブダウンミックススキーム又は完全にパラメトリックなダウンミックススキームである、
請求項１ないし９のいずれか１項に記載の装置。
前記出力ダウンミックス表現をレンダリングデバイスに出力するための出力インターフェース（５００）をさらに備える、又は前記出力ダウンミックス表現をモノリプレイ信号としてレンダリングするためのレンダリングデバイスをさらに備える、請求項１０に記載の装置。
前記ダウンミキサ（３００）は、前記アクティブダウンミックススキームとして、エネルギー節減ダウンミックススキーム、又は、前記ダウンミックス信号のターゲットエネルギーが、第１のチャネル及び第２のチャネルから導出された中間チャネルのエネルギーに対して既定の比率であるダウンミックススキームを適用するように構成され、前記第１のチャネル及び前記第２のチャネルのうちの少なくとも１つは合計される前に位相回転される、
請求項１０又は１１に記載の装置。
前記入力ダウンミックス表現の少なくとも前記一部分は、前記入力ダウンミックス表現の前記全帯域幅を含む、
請求項１０ないし１２のいずれか１項に記載の装置。
前記ダウンミキサ（３００）が前記第２のダウンミックススキームを実行するように構成され、
前記第２のダウンミックススキームは、
複数のスペクトル線を含む、前記少なくとも１つのアップミックス済み部分のスペクトル帯域について、第１のチャネルのための第１の重み及び第２のチャネルのための第２の重みを計算すること（８００）と、
前記第１の重みを前記第１のチャネルの前記スペクトル帯域のスペクトル線に適用し、前記第２の重みを前記第２のチャネルの前記スペクトル帯域のスペクトル線に適用し、第１の加重済み線及び第２の加重済み線を追加して前記スペクトル帯域においてダウンミックス済みスペクトル線を取得すること（８２０）と、を含み、
前記装置は、前記ダウンミックス済みスペクトル線を時間領域に変換（８４０）して前記出力ダウンミックス表現の時間領域サンプルを得るように構成されている、
請求項１ないし１３のいずれか１項に記載の装置。
前記第１の重み及び前記第２の重みの前記計算は、前記第１のチャネル及び前記第２のチャネルのエネルギー及びターゲットエネルギーを使用して帯域ごとに実行される、請求項１４に記載の装置。
前記ターゲットエネルギーは、位相回転された中間チャネルのエネルギーに等しい、又は、前記第１のチャネル及び前記第２のチャネルのエネルギーから、及び前記第１のチャ
ネルと前記第２のチャネルとの間の相関値から導出される、請求項１５に記載の装置。
前記第１の重み及び前記第２の重みを計算することには、スペクトル帯域について、
前記スペクトル帯域内の前記第１のチャネルのための振幅関連の指標を計算すること（８０２）と、
前記スペクトル帯域内の前記第２のチャネルのための振幅関連の指標を計算すること（８０４）と、
前記スペクトル帯域内の前記第１のチャネルと前記第２のチャネルの線形結合のための振幅関連の指標を計算すること（８０６）と、
前記スペクトル帯域内の前記第１のチャネルと前記第２のチャネルとの間の相互相関の指標を計算すること（８０８）と、
前記第１のチャネルのための前記振幅関連の指標、前記第２のチャネルのための前記振幅関連の指標、前記線形結合のための前記振幅関連の指標、及び前記相互相関の指標を使用して、前記第１の重み及び前記第２の重みを計算すること（８１０）と、
を含む、請求項１４ないし１６のいずれか１項に記載の装置。
前記アップミキサ（２００）は前記アップミックススキームを実行するように構成され、前記アップミックススキームは、
前記スペクトル帯域のための予測パラメータ及び前記スペクトル帯域のための残差信号ライン、ならびに第１の計算規則を用いて、前記入力ダウンミックス表現の少なくとも前記一部分、又は、前記入力ダウンミックス表現の少なくとも前記一部分の前記スペクトル帯域のスペクトル線からの前記入力ダウンミックス表現の前記一部分のみ、又は、前記入力ダウンミックス表現の前記一部分のみのスペクトル帯域について、第１チャネルスペクトル線を計算することと、
前記スペクトル帯域のための予測パラメータ及び前記スペクトル帯域のための残差信号ライン、ならびに第２の計算規則を用いて、前記入力ダウンミックス表現の少なくとも前記一部分、又は、前記入力ダウンミックス表現の少なくとも前記一部分の前記スペクトル帯域のスペクトル線からの前記入力ダウンミックス表現の前記一部分のみ、又は、前記入力ダウンミックス表現の前記一部分のみのスペクトル帯域について第２チャネルスペクトル線を計算することと、
を含み、
前記第１の計算規則は前記第２の計算規則と異なる、請求項１ないし１７のいずれか１項に記載の装置。
前記第１の計算規則は、加算及び減算のうちの一方を含み、前記第２の計算規則は、前記加算及び前記減算のうちの他方を含む、請求項１８に記載の装置。
入力ダウンミックス表現と、前記入力ダウンミックス表現の少なくとも第２の部分に対するパラメトリックデータを提供するための入力インターフェース（１００、１２０）と、
前記請求項１ないし１９のいずれか１項に記載の前記装置と、
を備えるマルチチャネルデコーダであって、
前記マルチチャネルデコーダは、前記入力ダウンミックス表現の少なくとも前記一部分、又は、前記入力ダウンミックス表現の前記一部分のみについての前記入力ダウンミックス表現を、前記第１のダウンミックススキームに対応する前記アップミックススキームに従って、前記アップミキサ（２００）を用いてアップミックスして、前記少なくとも１つのアップミックス済み部分を得るように構成される、及び／又は、前記第２のダウンミックススキームに対応する第２のアップミックススキームを用いて、前記第２の部分のための前記入力ダウンミックス表現及び前記パラメトリックデータをアップミックスして、アップミックス済みの第２の部分を得るように構成され、
コンバイナ（４００、４２０）が、前記少なくとも１つのアップミックス済み部分と前記アップミックス済みの第２の部分とを結合してマルチチャネル出力信号を得るように構成されている、
マルチチャネルデコーダ。
前記入力インターフェース（１００、１２０）は、
前記入力ダウンミックス表現の前記少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみの第１のスペクトル表現、及び、前記入力ダウンミックス表現の第２の部分の第２のスペクトル表現を変換するための第１の時間－スペクトル変換器（１００）であって、前記入力ダウンミックス表現の前記第２の部分は、前記第１のスペクトル表現の前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみよりも高い周波数についてのスペクトル値を含む、第１の時間－スペクトル変換器（１００）と、
前記入力ダウンミックス表現の前記少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみについて、残差信号のスペクトル表現を生成するための第２の時間－スペクトル変換器（１２０）と、
を備え、
前記アップミキサ（２００）は、前記残差信号の前記スペクトル表現を使用して前記第１のスペクトル表現を生成して、前記スペクトル領域内の前記少なくとも１つのアップミックス済み部分を得るように構成され、
前記ダウンミキサ（３００）は、前記少なくとも１つのアップミックス済み部分をダウンミックスして、前記スペクトル領域内の前記第１のダウンミックス済み部分を得るように構成され、
前記コンバイナ（４００）は、前記第１のダウンミックス済み部分と前記入力ダウンミックス表現の前記第２の部分の前記スペクトル表現とを結合し、かつ、時間領域に変換して前記出力ダウンミックス表現を得るためのスペクトル－時間変換器を含む、
請求項２０に記載のマルチチャネルデコーダ。
前記入力ダウンミックス表現の前記第２の部分をアップミックスして前記アップミックス済みの第２の部分を得るための第２のアップミキサ（２２０）をさらに備え、
マルチチャネル出力モードにおいて、前記コンバイナ（４００）は、前記少なくとも１つのアップミックス済み部分の第１のチャネルと前記アップミックス済みの第２の部分の前記第１のチャネルとを結合し、かつ、時間領域に変換して、マルチチャネル出力の第１のチャネルを得るように構成され、
前記マルチチャネルデコーダは、前記マルチチャネル出力モードにおいて、前記少なくとも１つのアップミックス済み部分の第２のチャネルと前記アップミックス済みの第２の部分の第２のチャネルとを結合し、かつ、前記時間領域に変換して、前記マルチチャネル出力の第２のチャネルを得るように構成された第２のコンバイナ（４２０）をさらに備える、
請求項２０又は２１に記載のマルチチャネルデコーダ。
前記入力ダウンミックス表現の前記第２の部分をアップミックスして前記アップミックス済みの第２の部分を得るための第２のアップミキサ（２２０）をさらに備え、
マルチチャネル出力モードにおいて、前記コンバイナ（４００）は、前記少なくとも１つのアップミックス済み部分の第１のチャネルと前記アップミックス済みの第２の部分の前記第１のチャネルとを結合し、かつ、時間領域に変換してマルチチャネル出力の第１のチャネルを得るように構成され、
前記マルチチャネルデコーダは、前記マルチチャネル出力モードにおいて、前記少なくとも１つのアップミックス済み部分の第２のチャネルと前記アップミックス済みの第２の部分の第２のチャネルとを結合し、且つ、前記時間領域に変換して前記マルチチャネル出
力の第２のチャネルを得るように構成された第２のコンバイナ（４２０）と、
前記第１の時間－スペクトル変換器（１００）と前記第２のアップミキサ（２２０）との間に接続されたスイッチ（７１０）と、
モノラル出力モードにおいて、前記スイッチ（７１０）を制御して前記第１の時間－スペクトル変換器（１００）の出力を前記コンバイナ（４００）に接続する、又は、前記第２のアップミキサ（２２０）をバイパスして前記アップミキサ（２００）の出力を前記ダウンミキサ（３００）の入力に接続する、あるいは、前記マルチチャネル出力モードにおいて、前記スイッチ（７１０）を制御して前記第１の時間－スペクトル変換器（１００）の出力を前記第２のアップミキサ（２２０）の入力に接続するように構成されているコントローラ（７００）と、
をさらに備える、
請求項２１に記載のマルチチャネルデコーダ。
前記アップミキサ（２００）と前記ダウンミキサ（３００）との間に接続された第２のスイッチ（７２０）と、
前記モノラル出力モードにおいて、前記第２のスイッチ（７２０）を制御して前記アップミキサ（２００）の出力を前記ダウンミキサ（３００）の入力に接続し、前記マルチチャネル出力モードにおいては、前記第２のスイッチ（７２０）を制御して前記アップミキサ（２００）の出力を前記第２のコンバイナ（４２０）の入力に接続する、又は前記ダウンミキサ（３００）をバイパスするように構成されているコントローラ（７００）と、
をさらに備える、
請求項２２又は２３に記載のマルチチャネルデコーダ。
入力ダウンミックス表現から出力ダウンミックス表現を生成するための方法であって、前記入力ダウンミックス表現の少なくとも一部分は第１のダウンミックススキームに従っており、前記方法は、
少なくとも１つのアップミックス済み部分を得るために、前記第１のダウンミックススキームに対応するアップミックススキームを用いて前記入力ダウンミックス表現の少なくとも前記一部分の前記入力ダウンミックス表現をアップミックスするステップと、
前記入力ダウンミックス表現の少なくとも前記一部分の前記出力ダウンミックス表現を表す第１のダウンミックス済み部分を得るために、前記第１のダウンミックススキームとは異なる第２のダウンミックススキームに従って、前記少なくとも１つのアップミックス済み部分をダウンミックスするステップと、
を備える、方法。
前記入力ダウンミックス表現の第２の部分は第２のダウンミックススキームに従っており、
前記ダウンミックスするステップは、前記第１のダウンミックス済み部分を得るために、前記第２のダウンミックススキームに従って前記少なくとも１つのアップミックス済み部分をダウンミックスするステップを含み、
前記出力ダウンミックス表現を得るために、前記第１のダウンミックス済み部分と前記第２の部分又は前記第２の部分から導出されるダウンミックス済み部分とを結合するステップであって、前記入力ダウンミックス表現の少なくとも前記一部分についての前記出力ダウンミックス表現及び前記第２の部分の前記出力表現は同じダウンミックススキームに基づいている、結合するステップをさらに備える
請求項２５に記載の方法。
前記入力ダウンミックス表現の少なくとも前記一部分は、残差信号又は残差信号及びパラメトリック情報に依存する前記第１のダウンミックススキームに従っており、
前記アップミックスするステップは、それぞれ前記少なくとも１つのアップミックス部
分を得るために、前記第１のダウンミックススキームに対応するアップミックススキームを使用し、かつ、前記残差信号又は前記残差信号及び前記パラメトリック情報を使用して、前記入力ダウンミックス表現の少なくとも前記一部分の前記入力ダウンミックス表現をアップミックスするステップを含み、
前記ダウンミックスするステップは、前記第１のダウンミックススキームとは異なる前記第２のダウンミックススキームに従って前記少なくとも１つのアップミックス済み部分をダウンミックスするステップを含み、前記第２のダウンミックススキームは、前記入力ダウンミックス表現の少なくとも前記一部分に対する前記出力ダウンミックス表現を得るための、アクティブダウンミックススキーム又は完全にパラメトリックなダウンミックススキームである、
請求項２５又は２６に記載の方法。
少なくとも前記入力ダウンミックス表現の第２の部分についての入力ダウンミックス表現及びパラメトリックデータを提供するステップと、
請求項２５ないし２７のいずれか１項に記載の方法と、
を含むマルチチャネル復号化方法であって、
前記方法は、前記少なくとも１つのアップミックス済み部分を得るために、前記第１のダウンミックススキームに対応する前記アップミックススキームに従って、前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみについて前記入力ダウンミックス表現をアップミックスするステップ、及び／又は、アップミックス済みの第２の部分を得るために、前記第２のダウンミックススキームに対応する第２のアップミックススキームを使用して、前記入力ダウンミックス表現の前記第２の部分及び前記パラメトリックデータをアップミックスするステップと、
マルチチャネル出力信号を得るために、前記少なくとも１つのアップミックス済み部分と前記アップミックス済みの第２の部分とを結合するステップと、
を備える、
マルチチャネル復号化方法。
コンピュータ又はプロセッサ上で実行されるときに、請求項２５ないし２８のいずれか１項に記載の方法を実行するためのコンピュータプログラム。
入力ダウンミックス表現から出力ダウンミックス表現を生成するための装置であって、前記入力ダウンミックス表現の第１の部分は第１のダウンミックススキームに従い、前記入力ダウンミックス表現の第２の部分は前記第２のダウンミックススキームに従っており、
前記装置は、
前記第１のダウンミックススキームに対応する第１のアップミックススキームを使用して前記入力ダウンミックス表現の前記第１の部分をアップミックスして第１のアップミックス済み部分を得て、前記第２のダウンミックススキームに対応する第２のダウンミックススキームを用いて前記入力ダウンミックス表現の前記第２の部分をアップミックスして第２のアップミックス済み部分を得るためのアップミキサ（２００）と、
前記第１のダウンミックススキーム及び前記第２のダウンミックススキームとは異なる第３のダウンミックススキームに従って前記第１のアップミックス済み部分及び前記第２のアップミックス済み部分をダウンミックスして前記出力ダウンミックス表現を得るためのダウンミキサ（３００）であって、前記入力ダウンミックス表現の前記第１の部分についての前記出力表現及び前記入力ダウンミックス表現の前記第２の部分についての前記出力表現は、前記入力ダウンミックス表現の同じダウンミックススキームに基づいている、装置。