JP2024010207A

JP2024010207A - マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法

Info

Publication number: JP2024010207A
Application number: JP2023191220A
Authority: JP
Inventors: フォトプルー・エレニ; Fotopoulou Eleni; ムルトルス・マルクス; Multrus Markus; ディック・ザシャ; Dick Sascha; マーコビッチ・ゴラン; Markovic Goran; マーベン・パラヴィ; Maben Pallavi; コーゼ・ズリカンス; Korse Srikanth; バイヤー・シュテファン; Bayer Stefan; ディッシュ・ザシャ; Disch Sascha; ヘレ・ユルゲン; Herre Juergen
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2018-07-04
Filing date: 2023-11-09
Publication date: 2024-01-23
Also published as: CA3105508C; MX2020014077A; JP2021529354A; ZA202100719B; CA3105508A1; AU2019298307A1; KR102606259B1; US20210104249A1; PL3818520T3; SG11202012936VA; WO2020007719A1; EP3818520B1; AU2022235537B2; RU2769788C1; TW202016924A; EP4336497A3; TWI720530B; JP7384893B2; EP3818520C0; EP3818520A1

Abstract

【課題】マルチシグナル符号化又は復号化のための改善されたより柔軟な概念を提供する。【解決手段】少なくとも３つの前処理済みオーディオ信号を取得するためのマルチシグナルエンコーダは、各オーディオ信号を個別に前処理するために、前処理済みオーディオ信号を前処理前の信号に対して白色化する信号プリプロセッサ１００と、少なくとも３つの共同で処理された信号又は少なくとも２つの共同で処理された信号及び未処理の信号を取得するために、少なくとも３つの前処理済みオーディオ信号の処理を実行する適応ジョイント信号プロセッサ２００と、１つ以上の符号化信号を取得するために各信号を符号化する信号エンコーダ３００と、１つ以上の符号化信号、前処理に関するサイド情報及び処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信又は格納する出力インターフェース４００と、を含む。【選択図】図５ａ

Description

実施形態は、信号適応ジョイントチャンネル処理を有するＭＤＣＴベースのマルチシグナル符号化および復号化システムに関し、信号はチャンネルであり、マルチシグナルはマルチチャンネル信号であるか、または代わりに、アンビソニックス成分、すなわち一次アンビソニックスのＷ、Ｘ、Ｙ、Ｚまたはより高次のアンビソニックス表現のその他任意の成分などの音場表現の成分であるオーディオ信号であり得る。信号はまた、音場のＡフォーマットまたはＢフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。

・ＭＰＥＧＵＳＡＣ［１］では、２つのチャンネルのジョイントステレオ符号化は、帯域制限または全帯域残差信号を用いる複雑予測（ＣｏｍｐｌｅｘＰｒｅｄｉｃｔｉｏｎ）、ＭＰＳ２－１－２、またはＵｎｉｆｉｅｄＳｔｅｒｅｏを使用して実行される。

・ＭＰＥＧサラウンド［２］は、残差信号の送信の有無にかかわらず、マルチチャンネルオーディオのジョイント符号化のためにＯＴＴおよびＴＴＴボックスを階層的に組み合わせる。

・ＭＰＥＧ－ＨＱｕａｄＣｈａｎｎｅｌＥｌｅｍｅｎｔｓ［３］は、「固定」４ｘ４リミックスツリーを構築する複雑予測／ＭＳステレオボックスに続くＭＰＳ２－１－２ステレオボックを階層的に適用する。

・ＡＣ４［４］は、送信されたミックスマトリックスおよび後続のジョイントステレオ符号化情報を介して送信されたチャンネルの再混合を可能にする、新しい３チャンネル、４チャンネル、および５チャンネル要素を導入する。

・以前の刊行物は、拡張マルチチャンネルオーディオ符号化（ＥｎｈａｎｃｅｄＭｕｌｔｉｃｈａｎｎｅｌＡｕｄｉｏＣｏｄｉｎｇ）［５］のためにカルーネン－ルーベ変換（Ｋａｒｈｕｎｅｎ－ＬｏｅｖｅＴｒａｎｓｆｏｒｍ）（ＫＬＴ）のような直交変換を使用することを提案している。

・３つ以上のチャンネルのジョイント符号化をサポートする、マルチチャンネル符号化ツール（ＭｕｌｔｉｃｈａｎｎｅｌＣｏｄｉｎｇＴｏｏｌ）（ＭＣＴ）［６］は、ＭＤＣＴ領域での柔軟な信号適応型のジョイントチャンネル符号化を可能にする。これは、２つの指定されたチャンネルの実数値の複雑なステレオ予測ならびに回転ステレオ符号化（ＫＬＴ）などのステレオ符号化技術の反復的な組み合わせおよび連結によって達成される。

３Ｄオーディオの文脈では、ラウドスピーカチャンネルがいくつかの高さのレイヤに分布しており、結果として水平および垂直のチャンネルペアを生じる。ＵＳＡＣで定義された２つのみのチャンネルのジョイント符号化は、チャンネル間の空間的関係および知覚的関係を考慮するのに十分ではない。ＭＰＥＧサラウンドは、追加の前処理／後処理ステップで適用され、残差信号は、たとえば左右の垂直残差信号の間の依存性を利用するジョイントステレオ符号の可能性を伴わずに、個別に送信される。ＡＣ－４では、ジョイント符号化パラメータの十分な符号化を可能にする専用のＮチャンネル要素が導入されるが、新しい没入型再生シナリオ（７．１＋４、２２．２）で提案されるようにより多くのチャンネルを有する一般的なスピーカ設定では失敗する。ＭＰＥＧ－Ｈもまた、４つのチャンネルのみに制限されており、任意のチャンネルに動的に適用することはできず、予め構成された固定数のチャンネルにしか適用できない。ＭＣＴは、任意のチャンネルの信号適応型ジョイントチャンネル符号化の柔軟性を導入するが、ステレオ処理は、ウィンドウ化および変換された非正規化（非白色化）信号に対して行われる。さらに、各ステレオボックスの各帯域での予測計数または角度の符号化は、大量のビットを必要とする。

本発明の目的は、マルチシグナル符号化または復号化のための改善されたより柔軟な概念を提供することである。

この目的は、請求項１のマルチシグナルエンコーダ、請求項３２のマルチシグナルデコーダ、請求項４４のマルチシグナル符号化を実行する方法、請求項４５のマルチシグナル復号化を実行する方法、請求項４６のコンピュータプログラム、または請求項４７の符号化信号によって達成される。

本発明は、マルチシグナル符号化効率が、元の信号ではなく前処理済みオーディオ信号に対して適応ジョイント信号処理を実行することによって実質的に改善されるという発見に基づいており、この前処理は、前処理済みオーディオ信号が、前処理前の信号に対して白色化されるように実行される。デコーダ側に関しては、これは、少なくとも３つの処理済み復号化信号を取得するために、ジョイント信号処理に続いて後処理が実行されることを意味する。これらの少なくとも３つの処理済み復号化信号は、符号化信号に含まれるサイド情報にしたがって後処理され、後処理は、後処理済み信号が後処理前の信号よりも白くなくなるように実行される。後処理済み信号は最終的に、直接、またはさらなる信号処理操作に続いて、復号化オーディオ信号、すなわち復号化マルチシグナルを表す。

特に没入型３Ｄオーディオフォーマットでは、全体的な知覚的オーディオ品質を維持しながら送信データの量を削減するために、複数の信号の特性を利用する効率的なマルチチャンネル符号化が得られる。好適な実装形態では、マルチチャンネルシステム内の信号適応型ジョイント符号化は、知覚的に白色化され、加えてチャンネル間レベル差（ＩＬＤ）が補正されたスペクトルを使用して実行される。ジョイント符号化は、好ましくは、エントロピーコーダの推定ビット数に基づいて駆動される単純な帯域ごとのＭ／Ｓ変換決定を使用して実行される。

少なくとも３つのオーディオ信号を符号化するためのマルチシグナルエンコーダは、少なくとも３つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するための信号プリプロセッサを含み、前処理は、前処理済みオーディオ信号が前処理前の信号に対して白色化されるように実行される。少なくとも３つの前処理済みオーディオ信号の適応ジョイント信号処理は、少なくとも３つの共同で処理された信号を取得するために実行される。この処理は、白色化信号に対して作用する。前処理は、スペクトルエンベロープなどの特定の信号特性の抽出をもたらすか、または抽出されない場合には、ジョイントステレオまたはジョイントマルチチャンネル処理などのジョイント信号処理の効率を低下させるだろう。加えて、ジョイント信号処理効率を向上させるために、各前処理済みオーディオ信号が正規化されたエネルギーを有するように、少なくとも３つの前処理済みオーディオ信号の広帯域エネルギー正規化が実行される。この広帯域エネルギー正規化は、この広帯域エネルギー正規化が、逆ジョイントステレオまたはジョイントマルチチャンネル信号処理に続いてデコーダ側で反転され得るように、サイド情報として符号化オーディオ信号に信号送信される。この好適な追加の広帯域エネルギー正規化手順により、左／右処理（デュアルモノ処理）とは対照的にミッド／サイド処理を受けることができる帯域の数またはフルフレームの数さえも実質的に改善されるように、適応ジョイント信号処理効率が改善される。ステレオ符号化プロセス全体の効率は、ミッド／サイド処理などの一般的なステレオまたはマルチチャンネル処理を受ける帯域の数またはフルフレームの数さえも多くなるほど、ますます向上する。

最も低い効率は、ステレオ処理の観点から、帯域またはフレームに対して、この帯域またはフレームが「デュアルモノ」または左／右処理で処理されるべきであると適応ジョイント信号プロセッサが適応的に決定する必要があるときに得られる。ここでは、左チャンネルおよび右チャンネルはそのまま処理されるが、当然ながら白色化およびエネルギー正規化された領域内である。しかしながら、適応ジョイント信号プロセッサが、特定の帯域またはフレームについて、ミッド／サイド処理が実行されると決定するとき、第１および第２のチャンネルを加算することによってミッド信号が計算され、チャンネルペアの第１および第２のチャンネルとの差を計算することによってサイド信号が計算される。典型的には、ミッド信号は、その値の範囲に関して、第１および第２のチャンネルの一方に匹敵するが、サイド信号は典型的に、高効率で符号化され得る低エネルギーの信号となるか、または最も好適な状況では、サイド信号は、ゼロであるか、またはサイド信号のスペクトル領域がゼロに量子化され、したがって、非常に効率的にエントロピー符号化され得るほど、ゼロに近い。このエントロピー符号化は、１つ以上の符号化信号を取得するために各信号に対して信号エンコーダによって実行され、マルチシグナルエンコーダの出力インターフェースは、１つ以上の符号化信号、前処理に関するサイド情報、および適応ジョイント信号処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納する。

デコーダ側では、典型的にエントロピーデコーダを含む信号デコーダが、好適に含まれているビット分布情報に典型的に依存する少なくとも３つの符号化信号を復号化する。このビット分布情報は、サイド情報として符号化マルチシグナルオーディオ信号に含まれ、たとえば、信号（エントロピー）エンコーダへの入力における信号のエネルギーを調べることによって、エンコーダ側で導出され得る。マルチシグナルデコーダ内の信号デコーダの出力は、少なくとも３つの処理済み復号化信号を取得するために符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するために、ジョイント信号プロセッサに入力される。このジョイント信号プロセッサは、好ましくはエンコーダ側で実行されたジョイント信号処理を元に戻し、典型的には、逆ステレオまたは逆マルチチャンネル処理を実行する。好適な実装形態では、ジョイント信号プロセッサは、ミッド／サイド信号から左／右信号を計算するための処理操作を適用する。しかしながら、ジョイント信号プロセッサが特定のチャンネルペアについて、デュアルモノ処理が既に存在するとサイド情報から判断したとき、この状況は記録され、さらなる処理のためにデコーダで使用される。

デコーダ側のジョイント信号プロセッサは、エンコーダ側の適応ジョイント信号プロセッサのように、カスケードチャンネルペアツリーまたは簡略化されたツリーのモードで動作するプロセッサであってもよい。簡略化されたツリーは、ある種のカスケード処理も表すが、簡略化されたツリーは、処理されたペアの出力がこれから処理される別のペアへの入力になり得ないという点で、カスケードチャンネルペアツリーとは異なる。

ジョイント信号処理を開始するためにマルチシグナルデコーダ側のジョイント信号プロセッサによって使用される最初のチャンネルペアに関して、エンコーダ側で処理された最後のチャンネルペアであったこの最初のチャンネルペアは、特定の帯域で、デュアルモノを示すサイド情報を有する場合もあるが、これらのデュアルモノ信号は、ミッド信号またはサイド信号としてチャンネルペア処理において後に使用され得る。これは、デコーダ側で復号化される少なくとも３つの個別に符号化されたチャンネルを取得するために実行されるペアワイズ処理に関する対応するサイド情報によって、信号送信される。

続いて、好適な実施形態のさらなる利点が示される。コーデックは、ジョイントステレオ符号化について［７］に記載される概念を導入することによって、［６］に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい概念を使用する。これらは、
ａ）さらなる符号化のための知覚的に白色化された信号の使用（音声コーダで使用される方法と同様）。これは、いくつかの利点を有する。

・コーデックアーキテクチャの簡略化
・ノイズシェーピング特性／マスキング閾値のコンパクトな表現（たとえばＬＰＣ係数として）
・変換および音声コーデックアーキテクチャを統合し、こうしてオーディオ／音声符号化の組み合わせを可能にする
ｂ）パンされたソースを効率的に符号化するための、任意のチャンネルのＩＬＤパラメータの使用
ｃ）エネルギーに基づく処理済みチャンネル間の柔軟なビット分布。

コーデックはさらに、［９］に記載されるようなスペクトルエンベロープワーピングと組み合わせて［８］に記載されるようなレートループで信号を知覚的に白色化するために、周波数領域ノイズシェーピング（ＦＤＮＳ）を使用する。コーデックは、ＩＬＤパラメータを使用して、ＦＤＮＳで白色化されたスペクトルを平均エネルギーレベルに向けてさらに正規化した。ジョイント符号化のためのチャンネルペアは、［６］に記載されるように適応的に選択され、ステレオ符号化は、帯域ごとのＭ／Ｓ対Ｌ／Ｒの決定からなる。帯域ごとのＭ／Ｓの決定は、［７］に記載されるようにＬ／ＲおよびＭ／Ｓモードで符号化されたときの各帯域の推定ビットレートに基づいている。帯域ごとのＭ／Ｓ処理済みチャンネル間のビットレート分布は、エネルギーに基づいている。

本発明の好適な実施形態は、以下の添付図面を参照して、引き続き説明される。

好適な実装形態におけるシングルチャンネル前処理のブロック図を示す。マルチシグナルエンコーダのブロック図の好適な実装形態を示す。図２の相互相関ベクトルおよびチャンネルペア選択手順の好適な実装形態を示す。好適な実装形態におけるチャンネルペアのインデックス付けスキームを示す。本発明によるマルチシグナルエンコーダの好適な実装形態を示す。符号化されたマルチチャンネルオーディオ信号フレームの概略図を示す。図５ａの適応ジョイント信号プロセッサによって実行される手順を示す。図８の適応ジョイント信号プロセッサによって実行される好適な実装形態を示す。図５の適応ジョイント信号プロセッサによって実行される別の好適な実装形態を示す。図５の量子化符号化プロセッサによって使用されるビット割り当てを実行するための別の手順を示す。マルチシグナルデコーダの好適な実装形態のブロック図を示す。図１０のジョイント信号プロセッサによって実行される好適な実装形態を示す。図１０の信号デコーダの好適な実装形態を示す。帯域幅拡張またはインテリジェントギャップ充填（ＩＧＦ）の文脈におけるジョイント信号プロセッサの別の好適な実装形態を示す。図１０のジョイント信号プロセッサのさらなる好適な実装形態を示す。図１０の信号デコーダおよびジョイント信号プロセッサによって実行される好適な処理ブロックを示す。脱白色化操作および任意選択的な他の手順を実行するためのポストプロセッサの実装形態を示す。

図５は、少なくとも３つのオーディオ信号を符号化するためのマルチシグナルエンコーダの好適な実装形態を示す。少なくとも３つのオーディオ信号は、少なくとも３つの前処理済みオーディオ信号１８０を取得するために各オーディオ信号を個別に前処理するための信号プロセッサ１００に入力され、前処理は、前処理済みオーディオ信号が前処理前の対応する信号に対して白色化されるように実行される。少なくとも３つの前処理済みオーディオ信号１８０は、少なくとも３つの共同で処理された信号、および一実施形態では、後に説明されるように、少なくとも２つの共同で処理された信号および未処理の信号を取得するために、少なくとも３つの前処理済みオーディオ信号の処理を実行するように構成された適応ジョイント信号プロセッサ２００に入力される。マルチシグナルエンコーダは、適応ジョイント信号プロセッサ２００の出力に接続され、１つ以上の符号化信号を取得するために適応ジョイント信号プロセッサ２００によって出力される各信号を符号化するように構成された、信号エンコーダ３００を含む。信号エンコーダ３００の出力におけるこれらの符号化信号は、出力インターフェース４００に転送される。出力インターフェース４００は、符号化マルチシグナルオーディオ信号５００を送信または格納するように構成されており、出力インターフェース４００の出力における符号化マルチシグナルオーディオ信号５００は、信号エンコーダ３００によって生成されたとおりの１つ以上の符号化信号、信号プリプロセッサ２００によって実行される前処理に関するサイド情報５２０、すなわち白色化情報を含み、加えて、符号化マルチシグナルオーディオ信号は、適応ジョイント信号プロセッサ２００によって実行される処理に関するサイド情報５３０、すなわち適応ジョイント信号処理に関するサイド情報を追加で含む。

好適な実装形態では、信号エンコーダ３００は、適応ジョイント信号プロセッサ２００によって生成され、ブロック２００からブロック３００に転送されるだけでなく、サイド情報５３０内で出力インターフェース４００に、したがって符号化マルチシグナルオーディオ信号内にも転送される、ビット分布情報５３６によって制御されるレートループプロセッサを含む。符号化マルチシグナルオーディオ信号５００は、典型的には、フレームごとの方法で生成され、フレーミング、および典型的には、対応するウィンドウ処理および時間周波数変換が、信号プリプロセッサ１００内で実行される。

符号化マルチシグナルオーディオ信号５００のフレームの例示的な図が、図５ｂに示されている。図５ｂは、ブロック３００によって生成されたとおりの個別に符号化された信号のビットストリーム部分５１０を示している。ブロック５２０は、ブロック１００によって生成されて出力インターフェース４００に転送された前処理サイド情報のためのものである。加えて、ジョイント処理サイド情報５３０が、図５ａの適応ジョイント信号プロセッサ２００によって生成され、図５ｂに示される符号化マルチシグナルオーディオ信号フレームに導入される。図５ｂの右側では、符号化マルチシグナルオーディオ信号の次のフレームがシリアルビットストリームに書き込まれ、図５ｂの左側では、符号化マルチシグナルオーディオ信号の前のフレームが書き込まれることになる。

後に示されるように、前処理は、時間ノイズシェーピング処理および／または周波数領域ノイズシェーピング処理またはＬＴＰ（長期予測）処理またはウィンドウ化処理操作を含む。対応する前処理サイド情報５５０は、時間ノイズシェーピング（ＴＮＳ）情報、周波数領域ノイズシェーピング（ＦＤＮＳ）情報、長期予測（ＬＴＰ）情報、もしくはウィンドウ化またはウィンドウ情報のうちの少なくとも１つを含み得る。

時間ノイズシェーピングは、周波数に対するスペクトルフレームの予測を含む。より高い周波数を有するスペクトル値は、より低い周波数を有するスペクトル値の重み付き組み合わせを使用して予測される。ＴＮＳサイド情報は、周波数に対する予測によって導出されるＬＰＣ係数としても知られる、重み付き組み合わせの重みを含む。白色化されたスペクトル値は、元のスペクトル値と予測スペクトル値との間の、スペクトル値ごとの予測残差値、すなわち差である。デコーダ側では、エンコーダ側のＴＮＳ処理を元に戻すために、ＬＰＣ合成フィルタリングの逆予測が実行される。

ＦＤＮＳ処理は、対応するスペクトル値の重み係数を使用してフレームのスペクトル値に重み付けすることを含み、重み付け値は、ウィンドウ化された時間領域信号のブロック／フレームから計算されたＬＰＣ係数から導出される。ＦＤＮＳサイド情報は、時間領域信号から導出されたＬＰＣ係数の表現を含む。

やはり本発明に有用な別の白色化手順は、等化されたスペクトルが等化されていないバージョンよりも白いバージョンを表すように、スケール因子を使用するスペクトル等化である。サイド情報は、重み付けに使用されるスケール因子であり、逆の手順は、送信されたスケール因子を使用してデコーダ側の等化を元に戻すことを含む。

別の白色化手順は、音声符号化の分野で知られているように、時間領域フレームから導出されたＬＰＣ係数によって制御される逆フィルタを使用して、スペクトルの逆フィルタリングを実行することを含む。サイド情報は逆フィルタ情報であり、この逆フィルタリングは、送信されたサイド情報を使用して、デコーダ内で元に戻される。

別の白色化手順は、時間領域でＬＰＣ分析を実行することと、後にスペクトル帯域に変換される時間領域残差値を計算することとを含む。典型的には、こうして得られたスペクトル値は、ＦＤＮＳによって得られたスペクトル値と類似している。デコーダ側では、後処理は、送信されたＬＰＣ係数表現を使用してＬＰＣ合成を実行することを含む。

ジョイント処理サイド情報５３０は、好適な実装形態では、ペアワイズ処理サイド情報５３２、エネルギースケーリング情報５３４、およびビット分布情報５３６を含む。ペアワイズ処理サイド情報は、チャンネルペアサイド情報ビット、フルミッド／サイドまたはデュアルモノまたは帯域ごとミッド／サイド情報および、帯域ごとミッド／サイド表示の場合、フレーム内の帯域がミッド／サイドまたはＬ／Ｒ処理のどちらで処理されるかを帯域ごとに示す、ミッド／サイドマスクのうちの少なくとも１つを含み得る。ペアワイズ処理サイド情報は、インテリジェントギャップ充填（ＩＧＦ）、またはＳＢＲ（スペクトル帯域複製）情報などのような他の帯域幅拡張情報を追加で含み得る。

エネルギースケーリング情報５３４は、白色化された、すなわち前処理済み信号１８０ごとに、エネルギースケーリング値と、エネルギースケーリングがアップスケーリングかダウンスケーリングかを示すフラグとを含み得る。たとえば、８つのチャンネルの場合、ブロック５３４は、８つの量子化されたＩＬＤ値などの８つのスケーリング値と、８つのチャンネルの各々について、アップスケーリングまたはダウンスケーリングがエンコーダ内で行われたかデコーダ内で行われたかを示す８つのフラグとを含む。フレーム内の特定の前処理されたチャンネルの実際のエネルギーが全チャンネルの中でフレームの平均エネルギーを下回るときに、エンコーダのアップスケーリングが必要であり、フレーム内の特定のチャンネルの実際のエネルギーがフレーム内の全チャンネルにわたって平均エネルギーを上回るときに、ダウンスケーリングが必要である。ジョイント処理サイド情報は、共同で処理された信号の各々について、または共同で処理された各信号、利用可能であれば未処理の信号について、ビット分布情報を含んでもよく、このビット分布情報は、図５ａに示されるように信号エンコーダ３００によって使用され、相応に、入力インターフェースを介して符号化信号からこのビットストリーム情報を受信する、図１０に示される使用された信号デコーダによって使用される。

図６は、適応ジョイント信号プロセッサの好適な実装形態を示す。適応ジョイント信号プロセッサ２００は、各前処理済みオーディオ信号が正規化されたエネルギーを有するように、少なくとも３つの前処理済みオーディオ信号の広帯域エネルギー正規化を実行するように構成されている。出力インターフェース４００は、さらなるサイド情報として、各前処理済みオーディオ信号の広帯域エネルギー正規化値を含むように構成されており、この値は、図５ｂのエネルギースケーリング情報５３４に対応する。図６は、広帯域エネルギー正規化の好適な実装形態を示す。ステップ２１１で、各チャンネルの広帯域エネルギーが計算される。ブロック２１１への入力は、前処理された（白色化された）チャンネルによって構成される。その結果、Ｃ_{ｔｏｔａｌ}個のチャンネルの各チャンネルの広帯域エネルギー値が得られる。ブロック２１２では、典型的には個々の値を合計し、個々の値をチャンネル数で割ることによって、平均広帯域エネルギーが計算される。しかしながら、幾何平均などのようなその他の平均計算手順が実行されることも可能である。

ステップ２１３で、各チャンネルが正規化される。この目的のために、スケーリング因子または値およびアップスケーリングまたはダウンスケーリング情報が決定される。したがって、ブロック２１３は、５３４ａで示される各チャンネルのスケーリングフラグを出力するように構成されている。ブロック２１４では、ブロック２１２で決定されたスケーリング比の実際の量子化が実行され、この量子化スケーリング比は、５３４ｂで各チャンネルについて出力される。この量子化スケーリング比は、チャンネル間レベル差

として、すなわち平均エネルギーを有する参照チャンネルに対する特定のチャンネルｋについても示される。ブロック２１５では、量子化スケーリング比を使用して各チャンネルのスペクトルがスケーリングされる。ブロック２１５でのスケーリング操作は、ブロック２１３によって、すなわちアップスケーリングまたはダウンスケーリングのどちらが実行されるべきかという情報によって、制御される。ブロック２１５の出力は、各チャンネルのスケーリング済みスペクトルを表す。

図７は、カスケードペア処理に関する適応ジョイント信号プロセッサ２００の好適な実装形態を示す。適応ジョイント信号プロセッサ２００は、ブロック２２１に示されるように、各可能なチャンネルペアの相互相関値を計算するように構成されている。ブロック２２９は、最も高い相互相関値を有するペアの選択を示しており、ブロック２３２ａにおいて、このペアについてジョイントステレオ処理モードが決定される。ジョイントステレオ処理モードは、フルフレームに対するミッド／サイド符号化、帯域ごとのミッド／サイド符号化からなってもよく、すなわち複数の帯域の各帯域について、この帯域がミッド／サイドモードまたはＬ／Ｒモードのどちらで処理されるべきか否か、または実際のフレームで、検討中のこの特定のペアに対して全帯域デュアルモノ処理が実行されるべきか否かが決定される場合である。ブロック２３２ｂでは、選択されたペアのジョイントステレオ処理が、ブロック２３２ａで決定されたモードを使用して実際に実行される。

ブロック２３５、２３８では、フルツリーまたは簡略化されたツリー処理を用いるカスケード処理、または非カスケード処理が、特定の終了基準まで継続される。特定の終了基準で、たとえば、ブロック２２９によって出力されたペア表示、およびブロック２３２ａによって出力されたステレオモード処理情報が生成され、図５ｂに関して説明されたペアワイズ処理サイド情報５３２のビットストリームに入力される。

図８は、図５ａの信号エンコーダ３００によって実行される信号符号化の準備を目的とした、適応ジョイント信号プロセッサの好適な実装形態を示す。この目的のために、適応ジョイント信号プロセッサ２００は、ブロック２８２で、各ステレオ処理済み信号の信号エネルギーを計算する。ブロック２８２は、入力として、ジョイントステレオ処理済み信号を受信し、このチャンネルが有用なチャンネルペアを形成するために他のどのチャンネルとも十分な相互相関を有していないことがわかってからステレオ処理を受けていなかったチャンネルの場合、このチャンネルは、反転または修正された、または正規化されていないエネルギーでブロック２８２に入力される。これは、一般に「エネルギー復帰信号」として示されるが、図６のブロック２１５で実行されるエネルギー正規化は、必ずしも完全に復帰する必要はない。他のチャンネルと共にチャンネルペア処理に有用であるとわかっていないチャンネル信号を処理するための、特定の代替案が存在する。１つの手順は、図６のブロック２１５で最初に実行されるスケーリングを反転させることである。別の手順は、スケーリングを部分的にのみ反転させることであり、または別の手順は、場合により、スケーリングされたチャンネルに特定の異なる方法で重み付けすることである。

ブロック２８４では、適応ジョイント信号プロセッサ２００によって出力された全ての信号の総エネルギーが計算される。各ステレオ処理済み信号、または利用可能であれば、エネルギー復帰またはエネルギー重み付き信号の信号エネルギーに基づいて、およびブロック２８４によって出力された総エネルギーに基づいて、各信号のビット分布情報がブロック２８６で計算される。ブロック２８６によって生成されたサイド情報５３６は、このビット分布情報が図５ａまたは図５ｂの符号化マルチシグナルオーディオ信号５００に含まれるように、一方では図５ａの信号エンコーダ３００に転送され、加えて、論理接続５３０を介して出力インターフェース４００に転送される。

実際のビット割り当ては、図９に示される手順に基づいて、好適な実施形態において実行される。最初の手順で、非ＬＦＥ（低周波強調）チャンネルの最小ビット数が割り当てられ、利用可能であれば、低周波強調チャンネルビットが割り当てられる。これらの最小ビット数は、特定の信号内容に関係なく、信号エンコーダ３００によって必要とされる。残りのビットは、図８のブロック２８６によって生成されたビット分布情報５３６にしたがって割り当てられ、ブロック２９１に入力される。割り当ては、量子化されたエネルギー比に基づいて行われ、量子化されていないエネルギーよりも量子化されたエネルギー比を使用する方が好ましい。

ステップ２９２で、改良が実行される。残りのビットが割り当てられ、結果が利用可能なビット数よりも高くなるような量子化であったとき、ブロック２９１で割り当てられたビットの減算が実行されなければならない。しかしながら、ブロック２９１での割り当て手順でさらに割り当てられる必要があるビットがまだあるようなエネルギー比の量子化であったとき、これらのビットは、改良ステップ２９２において追加で付与または分布され得る。改良ステップに続いて、信号エンコーダで使用するためのビットがまだ存在する場合、最終寄付ステップ２９３が実行され、最終寄付は、最大エネルギーを有するチャンネルに対して行われる。ステップ２９３の出力で、各信号に割り当てられたビット配分が利用可能である。

ステップ３００において、ステップ２９０、２９１、２９２、２９３のプロセスによって生成された割り当てビット配分を使用する各チャンネルの量子化およびエントロピー符号化が実行される。基本的に、ビット割り当ては、低エネルギーチャンネル／信号よりも高エネルギーチャンネル／信号の方が正確に量子化されるように実行される。重要なことに、ビット割り当ては、元の信号または白色化信号を使用して行われるのではなく、ジョイントチャンネル処理のために適応ジョイント信号処理に入力された信号とは異なるエネルギーを有する適応ジョイント信号プロセッサ２００の出力での信号を使用して行われる。これに関連して、チャンネルペア処理は好適な実装形態であるものの、他のチャンネルのグループが相互相関によって選択および処理され得ることにも、留意すべきである。たとえば、３つさらには４つのチャンネルのグループが適応ジョイント信号プロセッサによって形成され、カスケードされた完全な手順または簡略化されたツリーを用いるカスケードされた手順で、もしくはカスケードされていない手順で、相応に処理されることが可能である。

ブロック２９０、２９１、２９２、２９３に示されるビット割り当ては、符号化マルチシグナルオーディオ信号５００から抽出された分布情報５３６を使用して、図１０の信号デコーダ７００によってデコーダ側で同じ方法で実行される。

好適な実施形態
この実装形態において、コーデックは、ジョイントステレオ符号化について［７］に記載される概念を導入することによって、［６］に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい概念を使用する。これらは、
ａ）さらなる符号化のための知覚的に白色化された信号の使用（音声コーダで使用される方法と同様）。これは、いくつかの利点を有する。

コーデックは、［９］に記載されるようなスペクトルエンベロープワーピングと組み合わせて［８］に記載されるようなレートループで信号を知覚的に白色化するために、周波数領域ノイズシェーピング（ＦＤＮＳ）を使用する。コーデックは、ＩＬＤパラメータを使用して、ＦＤＮＳで白色化されたスペクトルを平均エネルギーレベルに向けてさらに正規化した。ジョイント符号化のためのチャンネルペアは、［６］に記載されるように適応的に選択され、ステレオ符号化は、帯域ごとのＭ／Ｓ対Ｌ／Ｒの決定からなる。帯域ごとのＭ／Ｓの決定は、［７］に記載されるようにＬ／ＲおよびＭ／Ｓモードで符号化されたときの各帯域の推定ビットレートに基づいている。帯域ごとのＭ／Ｓ処理済みチャンネル間のビットレート分布は、エネルギーに基づいている。

実施形態は、信号適応ジョイントチャンネル処理を有するＭＤＣＴベースのマルチシグナル符号化および復号化システムに関し、信号はチャンネルであり、マルチシグナルはマルチチャンネル信号であるか、または代わりに、アンビソニックス成分、すなわち一次アンビソニックスのＷ、Ｘ、Ｙ、Ｚまたはより高次のアンビソニックス表現のその他任意の成分などの音場表現の成分であるオーディオ信号であり得る。信号はまた、音場のＡフォーマットまたはＢフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。したがって、「チャンネル」に与えられたのと同じ開示が、マルチシグナルオーディオ信号の「成分」または他の「信号」にも有効である。

白色化スペクトルまでのエンコーダシングルチャンネル処理
図１のブロック図に示される処理ステップに続いて、各シングルチャンネル

が分析され、白色化されたＭＤＣＴ領域スペクトルに変換される。

時間領域の過渡検出器、ウィンドウ化、ＭＤＣＴ、ＭＤＳＴ、およびＯＬＡの処理ブロックは、［８］で説明されている。ＭＤＣＴおよびＭＤＳＴは、変調複素ラップ変換（ＭｏｄｕｌａｔｅｄＣｏｍｐｌｅｘＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）（ＭＣＬＴ）を形成し、ＭＤＣＴおよびＭＤＳＴを別々に実行することは、ＭＣＬＴを実行することと同等であり、「ＭＣＬＴからＭＤＣＴへ」は、ＭＣＬＴのＭＤＣＴ部分のみを取ってＭＤＳＴを破棄することを表す。

時間ノイズシェーピング（ＴＮＳ）は、［８］で説明されたのと同様に行われるが、ＴＮＳおよび周波数領域ノイズシェーピング（ＦＤＮＳ）の順序が適応的であることが追加されている。図中の２つのＴＮＳボックスの存在は、ＦＤＮＳおよびＴＮＳの順序を変更する可能性として理解されるべきである。ＦＤＮＳおよびＴＮＳの順序の決定は、たとえば［９］で説明されているものであり得る。

周波数領域ノイズシェーピング（ＦＤＮＳ）、およびＦＤＮＳパラメータの計算は、［９］で説明された手順と類似している。１つ違うのは、ＴＮＳが非アクティブであるフレームのＦＤＮＳパラメータが、ＭＣＬＴスペクトルから計算されることである。ＴＮＳがアクティブなフレームでは、ＭＤＳＴスペクトルは、ＭＤＣＴスペクトルから推定される。

図１は、個別に前処理された白色化信号１８０を取得するために少なくとも３つのオーディオ信号の白色化を実行する信号プロセッサ１００の好適な実装形態を示す。信号プリプロセッサ１００は、チャンネルｋの時間領域入力信号のための入力を含む。この信号は、ウィンドワ（ｗｉｎｄｏｗｅｒ）１０２、過渡検出器１０４、およびＬＴＰパラメータ計算機１０６に入力される。過渡検出器１０４は、入力信号の現在の部分が過渡であるか否かを検出し、これが確認された場合、過渡検出器１０４は、より短いウィンドウ長を設定するように、ウィンドワ１０２を制御する。ウィンドウ表示、すなわちどのウィンドウ長が選択されたのかも、サイド情報、特に図５ｂの前処理サイド情報５２０に含まれる。加えて、ブロック１０６によって計算されたＬＴＰパラメータもまたサイド情報ブロックに導入され、これらのＬＴＰパラメータは、たとえば、復号化信号のある種の後処理または当該技術分野で知られる他の手順を実行するために使用され得る。ウィンドワ１４０は、時間スペクトル変換器１０８に導入されるウィンドウ化された時間領域フレームを生成する。時間スペクトル変換器１０８は好ましくは、複素ラップ変換を実行する。この複素ラップ変換から、ブロック１１２に示されるように、ＭＤＣＴ変換の結果を得るために、実数部が導出され得る。ブロック１１２の結果、すなわちＭＤＣＴスペクトルは、ＴＮＳブロック１１４ａ、および引き続き結合されたＦＤＮＳブロック１１６に入力される。あるいは、ＴＮＳブロック１１４ａなしにＦＤＮＳのみが実行されるか、またはその逆、またはブロック１１４ｂによって示されるように、ＦＤＮＳ処理に続いてＴＮＳ処理が実行される。典型的には、ブロック１１４ａまたはブロック１１４ｂのいずれかが存在する。ブロック１１４ｂの出力では、ブロック１１４ａが存在しないとき、またはブロック１１４ｂが存在しないときにはブロック１１６の出力で、白色化されて個別に処理された信号、すなわち前処理済み信号が、各チャンネルｋについて取得される。ＴＮＳブロック１１４ａまたは１１４ｂおよびＦＤＮＳブロック１１６は、前処理情報を生成し、サイド情報５２０に転送する。

いかなる場合も、ブロック１０８内で複素変換を行う必要はない。加えて、ＭＤＣＴのみを実行する時間スペクトル変換器もまた、特定のアプリケーションには十分であり、変換の虚数部が必要な場合には、場合により、この虚数部もまた実数部から推定され得る。ＴＮＳ／ＦＤＮＳ処理の特徴は、ＴＮＳが非アクティブである場合、ＦＤＮＳパラメータが複素スペクトルから、すなわちＭＣＬＴスペクトルから計算され、ＴＮＳがアクティブなフレームでは、ＭＤＳＴスペクトルがＭＤＣＴスペクトルから推定されるため、周波数領域ノイズシェーピング操作で常に完全な複素スペクトルが利用できることである。

ジョイントチャンネル符号化システムの説明
記載されたシステムでは、各チャンネルが白色化されたＭＤＣＴ領域に変換された後、［６］に記載されたアルゴリズムに基づいて、ジョイント符号化のための任意のチャンネル間の様々な類似性の信号適応型の活用が適用される。この手順から、それぞれのチャンネルペアが検出され、帯域ごとのＭ／Ｓ変換を使用して共同で符号化されるように選択される。

符号化システムの概要が、図２に示されている。簡単にするために、ブロック矢印はシングルチャンネル処理を表し（すなわち、処理ブロックは各チャンネルに適用される）、「ＭＤＣＴ領域分析」のブロックは、図１に詳細に示されている。

以下の段落では、フレームごとに適用されるアルゴリズムの個々のステップが詳細に記載される。記載されるアルゴリズムのデータフローグラフは、図３に示されている。

システムの初期構成では、どのチャンネルでマルチチャンネルジョイント符号化ツールがアクティブになるかを示すチャンネルマスクがあることに、留意すべきである。したがって、ＬＦＥ（低周波効果（Ｌｏｗ－ＦｒｅｑｕｅｎｃｙＥｆｆｅｃｔ）／強調（Ｅｎｈａｎｃｅｍｅｎｔ））チャンネルが存在する入力では、これらはツールの処理ステップにおいて考慮されない。

平均エネルギーに向けた全チャンネルのエネルギー正規化
Ｍ／Ｓ変換は、ＩＬＤが存在する場合、つまりチャンネルがパンされている場合には、効率的ではない。全てのチャンネルの知覚的に白色化されたスペクトルの振幅を平均エネルギーレベル

に正規化することによって、この問題を回避する。

・各チャンネル

について、エネルギー

を計算する。

ここで、

はスペクトル係数の総数である。

・平均エネルギーを計算する。

・各チャンネルのスペクトルを平均エネルギーに向けて正規化する。

（ダウンスケーリング）の場合、

ここで、

はスケーリング比。スケーリング比は均一に量子化され、サイド情報ビットとしてデコーダに送信される。

ここで、

次に、スペクトルが最終的にスケーリングされる量子化スケーリング比は、以下によって与えられる。

（アップスケーリング）の場合、

および

ここで、

は前の場合と同様に計算される。

デコーダでダウンスケーリング／アップスケーリングを行うかどうか区別するため、および正規化を復帰させるために、各チャンネルの

値に加えて、１ビットフラグ（０＝ダウンスケーリング／１＝アップスケーリング）が送信される。

は送信されて量子化されたスケーリング値

に使用されるビット数を示し、この値はエンコーダおよびデコーダに知られており、符号化オーディオ信号で送信される必要はない。

全ての可能なチャンネルペアの正規化されたチャンネル間相互相関値の計算
このステップでは、どのチャンネルペアが最も高い類似度を有し、したがってステレオジョイント符号化のためのペアとして選択されるのに適しているかを決定および選択するために、各可能なチャンネルペアのチャンネル間で正規化された相互相関値が計算される。各チャンネルペアの正規化相互相関値は、相互スペクトルによって以下のように与えられる。

ここで、

はフレームごとのスペクトル計数の総数、

および

は検討中のチャンネルペアのそれぞれのスペクトル。

ペアになった各チャンネルペアの正規化相互相関値は、相互相関ベクトルに格納される。

ここで、

は可能なペアの最大数である。

図１に見られるように、過渡検出器に応じて、異なるブロックサイズ（たとえば、１０または２０ｍｓのウィンドウブロックサイズ）を有することができる。したがって、チャンネル間相互相関は、両方のチャンネルのスペクトル分解能は同じであると仮定して計算される。それ以外の場合には、値は０に設定されるため、ジョイント符号化にこのようなチャンネルペアは確実に選択されない。

各チャンネルペアを一意に表すためのインデックス付けスキームが使用される。６つの入力チャンネルにインデックス付けするためのこのようなスキームの例が、図４に示されている。

チャンネルペアをデコーダに信号送信するためにも使用されるのと同じインデックス付けスキームが、アルゴリズム全体を通じて維持される。１つのチャンネルを信号送信するために必要なビット数の量は、

チャンネルペア選択および共同で符号化されたステレオ処理
相互相関ベクトルを計算した後、ジョイント符号化のために検討すべき最初のチャンネルペアは、それぞれ最も高い相互相関値、および好ましくは０．３の最小値閾値を有するものである。

選択されたチャンネルのペアは、ステレオ符号化手順、すなわち帯域ごとのＭ／Ｓ変換への入力として機能する。各スペクトル帯域について、チャンネルがＭ／Ｓまたは離散Ｌ／Ｒ符号化のどちらを使用して符号化されるかの決定は、各々の場合の推定ビットレートに依存する。ビットに関して要求の少ない符号化方法が選択される。この手順は、［７］に詳細に記載されている。

このプロセスの出力は、選択されたチャンネルペアのチャンネルの各々のために更新されたスペクトルをもたらす。また、このチャンネルペアに関してデコーダと共有する必要がある情報（サイド情報）が作成され、すなわちどのステレオモードが選択されるか（フルＭ／Ｓ、デュアルモノ、または帯域ごとＭ／Ｓ）、および帯域ごとＭ／Ｓが選択されたモードである場合、Ｍ／Ｓ符号化が選択されるか（１）またはＬ／Ｒ符号化が選択されるか（０）を示すそれぞれのマスクが作成される。

次のステップでは、アルゴリズムの２つのバリエーションがある。

・カスケードチャンネルペアツリー
このバリエーションでは、相互相関ベクトルは、選択されたチャンネルペアの変更されたスペクトル（Ｍ／Ｓ変換を有する場合）の影響を受けるチャンネルペアに更新される。たとえば、６つのチャンネルの場合、選択および処理されたチャンネルペアが図４において０でインデックス付けされた場合、つまりチャンネル０をチャンネル１で符号化した場合には、ステレオ処理の後、影響を受けたチャンネルペアの相互相関を、すなわちインデックス０、１、２、３、４、５、６、７、８で再計算する必要が出てくる。

次に、前述のように手順が続けられる。最大相互相関を有するチャンネルペアを選択し、最小閾値を上回ることを確認し、ステレオ操作を適用する。これは、前のチャンネルペアの一部であったチャンネルが、新しいチャンネルペアへの入力として機能するために再選択され得ることを意味し、これを「カスケード」という。これは、チャンネルペアの出力と空間領域において異なる方向を表す別の任意のチャンネルとの間にまだ相関が残っているために起こる可能性がある。当然ながら、同じチャンネルペアが２回選択されてはならない。

反復の最大許容回数（絶対最大値は

）に到達したとき、または相互相関ベクトルを更新した後に０．３の閾値を超えるチャンネルペア値がなかった（任意のチャンネル間に相関がない）ときに、手順が続けられる。

・簡略化されたツリー
カスケードチャンネルペアツリープロセスは、全ての任意のチャンネルの相関を取り除き、最大のエネルギー圧縮を提供しようとするので、理論的には最適である。他方で、選択されるチャンネルペアの数が

を超える可能性があるためかなり複雑になり、結果的に計算がさらに複雑になり（ステレオ操作のＭ／Ｓ決定プロセスに起因する）、各チャンネルペアについてデコーダに送信される必要がある追加のメタデータも生じる。

簡略化されたツリーのバリエーションでは、「カスケード」が許容されていない。これは、上記のプロセスから、相互相関ベクトルを更新している間、前のチャンネルペアステレオ操作の影響を受けたチャンネルペアの値が再計算されず、０に設定されるときに、保証される。したがって、チャンネルのうちの１つが既に既存のチャンネルペアの一部であったチャンネルペアを選択することはできない。

これは、図２の「適応型ジョイントチャンネル処理」を説明するバリエーションである。

この場合、選択され得る最大チャンネルペアは

なので、所定のチャンネルペア（たとえば、ＬとＲ、リアＬとリアＲ）を有するシステムでも同様の複雑さが生じる。

選択されたチャンネルペアのステレオ操作がチャンネルのスペクトルを変化させない場合があり得ることに留意すべきである。これは、Ｍ／Ｓ決定アルゴリズムが符号化モードを「デュアルモノ」にすると決定したときに起こる。この場合、関係する任意のチャンネルは、別々に符号化されるので、もはやチャンネルペアと見なされない。また、相互相関ベクトルを更新しても効果はない。プロセスを継続するために、次に高い値を有するチャンネルペアが検討される。この場合のステップは、上記のように続けられる。

前のフレームのチャンネルペア選択（ステレオツリー）を維持
多くの場合、フレームごとの任意のチャンネルペアの正規化相互相関値は近い可能性があり、そのため選択は、この近い値の間で頻繁に切り替わる可能性がある。これにより、チャンネルペアツリー切り換えが頻繁に発生し、その結果、出力システムの可聴性が不安定になり得る。したがって、信号の著しい変化があり、任意のチャンネル間の類似性が変化するときにのみ新しいチャンネルペアのセットが選択される、安定化機構を使用することが選択される。これを検出するために、現在のフレームの相互相関ベクトルが前のフレームのベクトルと比較され、特定の閾値よりも差が大きいときに、新しいチャンネルペアの選択が許可される。

相互相関ベクトルの時間の変動は、以下のように計算される。

の場合には、前のステップで説明されたように、共同で符号化される新しいチャンネルペアの選択が許可される。選択された閾値は、

他方で、差が小さい場合には、前のフレームと同じチャンネルペアツリーが使用される。所与のチャンネルペアごとに、前述のように帯域ごとのＭ／Ｓ操作が適用される。しかしながら、所与のチャンネルペアの正規化相互相関値が０．３の閾値を上回らない場合には、新しいツリーを作成する新しいチャンネルペアの選択が開始される。

シングルチャンネルのエネルギーを復帰
チャンネルペア選択のための反復プロセスの終了後に、いずれのチャンネルペアの一部でなく、そのため別々に符号化されるチャンネルが存在する場合がある。これらのチャンネルでは、平均エネルギーレベルに向けたエネルギーレベルの初期の正規化が、元のエネルギーレベルに戻される。アップスケーリングまたはダウンスケーリングを信号送信するフラグに応じて、これらのチャンネルのエネルギーは、量子化スケーリング比の逆数

を使用して復帰される。

マルチチャンネル処理のためのＩＧＦ
ＩＧＦ分析に関しては、ステレオチャンネルペアの場合、［１０］に完全に記載されるように、追加のジョイントステレオ処理が適用される。これが必要なのは、ＩＧＦスペクトルの特定の目標範囲では、信号が、相関性の高いパンされた音源であり得るからである。この特定の領域のために選択されたソース領域がうまく相関していない場合、エネルギーが目標領域で一致していても、相関していないソース領域のため、空間像が損なわれる可能性がある。

したがって、コア領域のステレオモードがＩＧＦ領域のステレオモードとは異なる場合、またはコアのステレオモードが帯域ごとＭ／Ｓとしてフラグが立てられている場合、チャンネルペアごとにステレオＩＧＦが適用される。これらの条件が該当しない場合には、シングルチャンネルＩＧＦ分析が実行される。チャンネルペア内に共同で符号化されていないシングルチャンネルがある場合には、これらもまたシングルチャンネルＩＧＦ分析を受ける。

各チャンネルのスペクトルを符号化するために利用可能なビットの分布
ジョイントチャンネルペアステレオ処理のプロセスの後、各チャンネルは、エントロピーコーダによって別々に量子化および符号化される。したがって、チャンネルごとに利用可能なビット数が付与されるべきである。このステップでは、処理されたチャンネルのエネルギーを使用して、利用可能な総ビットが各チャンネルに分布される。

各チャンネルのエネルギーは、その計算が正規化ステップで上述されているが、ジョイント処理のため各チャンネルが変化している可能性があるので、スペクトルとして再計算される。新しいエネルギーは、

で表される。最初のステップとして、ビットを分布させるエネルギーベースの比が計算される。

ここで、入力がＬＦＥチャンネルからも構成されている場合、比の計算では考慮されないことに留意すべきである。ＬＦＥチャンネルでは、チャンネルが非ゼロのコンテンツを有する場合にのみ、最小量のビット

が割り当てられる。比は均等に量子化される。

量子化された比

は、送信されたチャンネルスペクトル係数を読み取るために各チャンネルに同じ量のビットを割り当てるためにデコーダから使用されるビットストリーム内に格納される。

ビット分布スキームは、以下に記載される。

・チャンネルごとに、エントロピーコーダ

によって必要とされる最小量のビットを割り当てる
・残りのビット、すなわち

が、量子化された比

を使用して分割される。

・量子化された比のため、ビットはほぼ分散され、したがって

であり得る。そのため、第２の改良ステップで、差

がチャンネルビット

から比例的に減算される。

・改良ステップの後、

と比較してまだ

の不一致がある場合には、その差（通常は非常に少ないビット）が最大エネルギーを有するチャンネルに寄付される。

各チャンネルのスペクトル係数を復号化するために読み取られるビットの量を決定するために、デコーダから全く同じ手順が続けられる。

はビット分布情報

に使用されるビット数を示し、この値は、エンコーダおよびデコーダに知られており、符号化オーディオ信号で送信される必要がない。

各チャンネルの量子化および符号化
量子化、ノイズ充填、およびレートループを含むエントロピー符号化は、［８］に記載されるとおりである。レートループは、推定された

を使用して最適化されることが可能である。パワースペクトルＰ（ＭＣＬＴの大きさ）は、［８］に記載されるように、量子化およびインテリジェントギャップ充填（ＩＧＦ）の調性／ノイズ測定に使用される。白色化されて帯域ごとにＭ／Ｓ処理されたＭＤＣＴスペクトルがパワースペクトルに使用されるため、ＭＤＳＴスペクトルに対して同じＦＤＮＳおよびＭ／Ｓ処理が行われなければならない。ＭＤＣＴに対して行われたのと同じＩＬＤに基づく正規化スケーリングがＭＤＳＴスペクトルにも行われなければならない。ＴＮＳがアクティブなフレームでは、パワースペクトル計算に使用されるＭＤＳＴスペクトルは、白色化およびＭ／Ｓ処理されたＭＤＣＴスペクトルから推定される。

図２は、エンコーダ、特に図２の適応ジョイント信号プロセッサ２００の好適な実装形態のブロック図を示す。少なくとも３つの前処理済みオーディオ信号１８０は全てエネルギー正規化ブロック２１０に入力され、これはその出力において、一方では量子化された比、および他方ではアップスケーリングまたはダウンスケーリングを示す各チャンネルのフラグからなるチャンネルエネルギー比サイドビット５３４を生成する。しかしながら、アップスケーリングまたはダウンスケーリングの明示的なフラグのない他の手順も実行され得る。

正規化されたチャンネルは、相互相関ベクトル計算およびチャンネルペア選択を実行するために、ブロック２２０に入力される。好ましくはカスケードされたフルツリーまたはカスケードおよび簡略化されたツリー処理を使用する反復的な手順であるか、あるいは非反復的な非カスケード処理である、ブロック２２０の手順に基づいて、対応するステレオ操作がブロック２４０で実行され、これは、全帯域または帯域ごとのミッド／サイド処理、もしくは回転、スケーリング、任意の重み付きまたは重みなしの線形または非線形の組み合わせなどのようなその他任意の対応するステレオ処理操作を実行し得る。

ブロック２４０の出力において、ステレオインテリジェントギャップ充填（ＩＧＦ）処理、もしくはスペクトル帯域複製処理または高調波帯域処理などのようなその他任意の帯域幅拡張処理が実行され得る。個々のチャンネルペアの処理は、チャンネルペアサイド情報ビットを介して信号送信され、図２には示されていないが、ブロック２６０によって生成されたＩＧＦまたは一般的な帯域幅拡張パラメータもまた、ジョイント処理サイド情報５３０のため、特に図５ｂのペアワイズ処理サイド情報５３２のためのビットストリームに書き込まれる。

図２の最終段は、たとえば図９に関して説明されたようにビット割り当てを計算するチャンネルビット分布プロセッサ２８０である。図２は、チャンネルビットレートサイド情報５３０によって制御されている量子化器および符号化器としての信号エンコーダ３００と、さらに、信号エンコーダ３００の結果と図５ｂの全ての必要なサイド情報ビット５２０、５３０とを組み合わせる出力インターフェース４００またはビットストリームライタ４００との概略図を示す。

図３は、ブロック２１０、２２０、２４０によって実行される実質的な手順の好適な実装形態を示す。手順の開始に続いて、図２または図３の２１０で示されるように、ＩＬＤ正規化が実行される。ステップ２２１で、相互相関ベクトルが計算される。相互相関ベクトルは、ブロック２１０によって出力された０からＮまでのチャンネルの各可能なチャンネルペアの正規化相互相関値からなる。たとえば、６つのチャンネルがある図４では、０から１４までの１５の異なる可能性を調べることができる。相互相関ベクトルの最初の要素は、チャンネル０とチャンネル１との間の相互相関値を有し、たとえば、インデックス１１を有する相互相関ベクトルの要素は、チャンネル２とチャンネル５との間の相互相関を有する。

ステップ２２２では、前のフレームで決定されたツリーが維持されるべきか否かを決定するために、計算が実行される。この目的のために、相互相関ベクトルの時間の変動が計算され、好ましくは、相互相関ベクトルの個々の差の合計、特に差の大きさが計算される。ステップ２２３では、差の合計が閾値よりも大きいか否かが判定される。該当する場合には、ステップ２２４で、フラグｋｅｅｐＴｒｅｅが０に設定され、これは、ツリーは維持されないが、新しいツリーが計算されることを意味する。しかしながら、合計が閾値未満であると判定されたときは、前のフレームから決定されたツリーが現在のフレームにも適用されるように、ブロック２２５はフラグｋｅｅｐＴｒｅｅ＝１を設定する。

ステップ２２６で、反復終了基準がチェックされる。最大数のチャンネルペア（ＣＰ）に到達していないと判定された場合、これは当然ながらブロック２２６に初めてアクセスした場合であり、さらにフラグｋｅｅｐＴｒｅｅがブロック２２８によって決定されたように０に設定されるとき、手順は、相互相関ベクトルからの最大相互相関を有するチャンネルペアの選択のためのブロック２２９に進む。しかしながら、以前のフレームのツリーが維持されるとき、すなわちブロック２２５でチェックされたようにｋｅｅｐＴｒｅｅが１に等しいとき、ブロック２３０は、「強制された」チャンネルペアの相互相関が閾値よりも大きいか否かを判定する。これが該当しない場合、手順はステップ２２７に進み、これは、それでもなお、ブロック２２３の手順が逆に判定したものの、新しいツリーが決定されるべきであることを意味する。ブロック２３０の評価、およびブロック２２７の対応する結果は、ブロック２２３および２２５での決定を覆す可能性がある。

ブロック２３１において、最大相互相関を有するチャンネルペアが０．３を上回るか否かが判定される。これが該当する場合、ブロック２３２のステレオ操作が実行され、これは図２の２４０としても示されている。ブロック２３３で、ステレオ操作がデュアルモノであったと判定されると、０に等しい値ｋｅｅｐＴｒｅｅがブロック２３４で設定される。しかしながら、ステレオモードがデュアルモノと異なっていたと判定されると、ミッド／サイド操作が実行されており、処理のためにステレオ操作ブロック２４０（または２３２）の出力が異なるので、相互相関ベクトル２３５は再計算される必要がある。ＣＣベクトル２３５の更新は、実際にミッド／サイドステレオ操作、または一般にデュアルモノとは異なるステレオ操作があったときにのみ、必要である。

しかしながら、ブロック２２６のチェックまたはブロック２３１のチェックの結果が「いいえ」の回答をもたらすとき、シングルチャンネルが存在するか否かをチェックするために、制御はブロック２３６に進む。これが該当する場合、すなわちチャンネルペア処理で他のチャンネルと共に処理されていないシングルチャンネルが見つかった場合、ブロック２３７においてＩＬＤ正規化が反転される。あるいは、ブロック２３７における反転は、部分反転に過ぎない可能性があり、またはある種の重み付けであり得る。

反復が完了している場合、ならびにブロック２３６および２３７も完了している場合、手順は終了し、全てのチャンネルペアが処理されており、適応ジョイント信号プロセッサの出力において、ブロック２３６が「いいえ」の回答をもたらす場合には、少なくとも３つの共同で処理された信号があり、ブロック２３６が「はい」の回答をもたらした場合には、少なくとも２つの共同で処理された信号、および「シングルチャンネル」に対応する未処理の信号がある。

復号化システムの説明
復号化プロセスは、共同で符号化されたチャンネルのスペクトルの復号化および逆量子化で始まり、［１１］または［１２］の６．２．２．「ＭＤＣＴベースのＴＣＸ」に記載されるように、ノイズ充填がこれに続く。各チャンネルに割り当てられたビット数は、ビットストリームに符号化された、ウィンドウ長、ステレオモード、およびビットレート比

に基づいて決定される。各チャンネルに割り当てられたビット数は、ビットストリームを完全に復号化する前にわかっていなければならない。

インテリジェントギャップ充填（ＩＧＦ）ブロックにおいて、ターゲットタイルと呼ばれる、スペクトルの特定の範囲内でゼロに量子化された線が、ソースタイルと呼ばれる、スペクトルの異なる範囲からの処理済みコンテンツで充填される。帯域ごとのステレオ処理のため、ステレオ表現（すなわち、Ｌ／ＲまたはＭ／Ｓ）は、ソースおよびターゲットタイルで異なる場合がある。優れた品質を保証するために、ソースタイルの表現がターゲットタイルの表現と異なる場合、ソースタイルは、デコーダ内のギャップ充填の前にターゲットファイルの表現に変換されるように処理される。この手順は、既に［１０］に記載されている。［１１］および［１２］とは対照的に、ＩＧＦ自体は、元のスペクトル領域ではなく白色化されたスペクトル領域で適用される。既知のステレオコーデック（たとえば、［１０］）とは対照的に、ＩＧＦは、白色化されてＩＬＤ補正されたスペクトル領域で適用される。

ビットストリームシグナリングから、共同で符号化されたチャンネルペアがあるかどうかもわかる。逆処理は、各チャンネルの元の白色化されたスペクトルに変換するために、特にカスケードチャンネルペアツリーでは、エンコーダで形成された最後のチャンネルペアで始まる。各チャンネルペアについて、ステレオモードおよび帯域ごとのＭ／Ｓの決定に基づいて、逆ステレオ処理が適用される。

チャンネルペアに関与し、共同で符号化された全てのチャンネルについて、スペクトルは、エンコーダから送られた

値に基づいて、元のエネルギーレベルに非正規化される。

図１０は、符号化信号５００を復号化するためのマルチシグナルデコーダの好適な実装形態を示す。マルチシグナルデコーダは、入力インターフェース６００、入力インターフェース６００によって出力された少なくとも３つの符号化信号を復号化するための信号デコーダ７００を含む。マルチシグナルデコーダは、少なくとも３つの処理済み復号化信号を取得するために符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するための、ジョイント信号プロセッサ８００を含む。マルチシグナルデコーダは、符号化信号に含まれるサイド情報にしたがって少なくとも３つの処理済み復号化信号を後処理するためのポストプロセッサ９００を含む。特に、後処理は、後処理済み信号が後処理前の信号よりも白くなくなるように実行される。後処理済み信号は、直接的または間接的に、復号化オーディオ信号１０００を表す。

入力インターフェース６００によって抽出されてジョイント信号プロセッサ８００に転送されたサイド情報は、図５ｂに示されるサイド情報５３０であり、脱白色化操作を実行するためにポストプロセッサ９００に転送された符号化マルチシグナルオーディオ信号から入力インターフェース６００によって抽出されたサイド情報は、図５ｂに関して図示および説明されたサイド情報５２０である。

ジョイント信号プロセッサ８００は、入力インターフェース６００から、各ジョイントステレオ復号化信号のエネルギー正規化値を抽出および受信するように構成されている。各ジョイントステレオ復号化信号のこのエネルギー正規化値は、図５ｂのエネルギースケーリング情報５３０に対応する。適応ジョイント信号プロセッサ２００は、ブロック８２０の出力でジョイントステレオ復号化信号を取得するために、符号化オーディオ信号５００に含まれるジョイントステレオサイド情報５３２によって示されるジョイントステレオサイド情報またはジョイントステレオモードを使用して、復号化信号をペアワイズ処理８２０するように構成されている。ブロック８３０では、図１０のブロック８００で処理済み復号化信号を取得するために、エネルギー正規化値を使用して、再スケーリング操作、特にジョイントステレオ復号化信号のエネルギー再スケーリングが実行される。

ブロック２３７で図３に関して説明されたように、逆ＩＬＤ正規化を受信したチャンネルを保証するために、ジョイント信号プロセッサ８００は、特定の信号の符号化信号から抽出されたエネルギー正規化値が所定の値を有するか否かをチェックするように構成されている。これが該当する場合、エネルギー再スケーリングは実行されないか、特定の信号への削減されたエネルギー再スケーリングが実行されるか、またはエネルギー正規化値がこの所定の値を有するときにこの個々のチャンネルに対するその他任意の重み付け操作が実行される。

一実施形態では、信号デコーダ７００は、ブロック６２０に示されるように、入力インターフェース６００から、各符号化信号のビット分布値を受信するように構成されている。図１２の５３６で示されているこのビット分布値は、信号デコーダ７００が使用されるビット分布を決定するように、ブロック７２０に転送される。好ましくは、図１２のブロック７２０における使用されるビット分布の決定のために、図６および図９のエンコーダに関して説明されたのと同じステップ、すなわちステップ２９０、２９１、２９２、２９３が、信号デコーダ７００によって実行される。ブロック７１０／７３０では、図１０のジョイント信号プロセッサ８００への入力を得るために、個々の復号化が実行される。

ジョイント信号プロセッサ８００は、サイド情報ブロック５３２に含まれる特定のサイド情報を使用する、帯域複製、帯域幅拡張、またはインテリジェントギャップ充填処理機能を有する。このサイド情報はブロック８１０に転送され、ブロック８２０は、ブロック８１０によって適用された帯域幅拡張手順の結果を使用して、ジョイントステレオ（デコーダ）処理を実行する。ブロック８１０では、インテリジェントギャップ充填手順は、帯域幅拡張またはＩＧＦ処理の目標範囲が別のステレオ表現を有するように示されるとき、ソース範囲をあるステレオ表現から別のステレオ表現に変換するように構成されている。目標範囲は、ミッド／サイドステレオモードを有するように示されており、ソース範囲がＬ／Ｒステレオモードを有するように示されるとき、Ｌ／Ｒソース範囲のステレオモードはミッド／サイドソース範囲のステレオモードに変換され、その後、ソース範囲のミッド／サイドステレオモード表現を用いてＩＧＦ処理が実行される。

図１４は、ジョイント信号プロセッサ８００の好適な実装形態を示す。ジョイント信号プロセッサは、ブロック６３０に示されるように、順序付けられた信号ペア情報を抽出するように構成されている。この抽出は、入力インターフェース６００によって実行されることが可能であり、またはジョイント信号プロセッサは、この情報を入力インターフェースの出力から抽出することができ、もしくはジョイント信号プロセッサまたは信号デコーダに関して説明された他の抽出手順の場合のように、特定の入力インターフェースなしに情報を直接抽出することができる。

ブロック８２０で、ジョイント信号プロセッサは、最後の信号ペアで始まる、好ましくはカスケード逆処理を実行し、ここで用語「最後」は、エンコーダによって決定および実行される処理順序を指す。デコーダでは、「最後の」信号ペアは、最初に処理されるものである。ブロック８２０は、ブロック６３０に示される信号ペア情報によって示され、たとえば図４に関して説明された方法で実装された各信号ペアについて、特定のペアが、デュアルモノ、フルＭＳ、または関連するＭＳマスクを有する帯域ごとのＭＳ手順のいずれであるかを示すサイド情報５３２を受信する。

ブロック８２０の逆処理に続いて、チャンネルペアに含まれる信号の非正規化が、チャンネルごとの正規化情報を示すサイド情報５３４に依存して、ブロック８３０で再び実行される。図１４のブロック８３０に関して示される非正規化は、好ましくは、フラグ５３４ａが第１の値を有するときにダウンスケーリングとしてエネルギー正規化値を使用する再スケーリングであり、フラグ５３４ａが第１の値とは異なる第２の値を有するときは、アップスケーリングとして再スケーリングを実行する。

図１５ａは、図１０の信号デコーダおよびジョイント信号プロセッサのブロック図としての好適な実装形態を示し、図１５ｂは、図１０のポストプロセッサ９００の好適な実装形態のブロック図表現を示す。

信号デコーダ７００は、符号化信号５００に含まれるスペクトルのためのデコーダおよび逆量子化器段７１０を含む。信号デコーダ７００は、サイド情報として、好ましくはウィンドウ長、特定のステレオモード、および符号化信号ごとのビット割り当て情報を受信する、ビット割当器７２０を含む。ビット割当器７２０は、好適な実装形態において、特にステップ２９０、２９１、２９２、２９３を使用して、ビット割り当てを実行し、符号化信号ごとのビット割り当て情報はステップ２９１で使用され、ウィンドウ長およびステレオモードに関する情報は、ブロック２９０または２９１で使用される。

ブロック７３０において、やはり好ましくはノイズ充填サイド情報を使用するノイズ充填は、ゼロに量子化され、ＩＧＦ範囲内にないスペクトルの範囲に対して実行される。ノイズ充填は、好ましくは、ブロック７１０によって出力された信号の低帯域部分に限定される。ブロック８１０では、特定のサイド情報を使用して、重要なことに白色化されたスペクトルに対して作用する、インテリジェントギャップ充填または一般に帯域幅格調処理が実行される。

ブロック８２０では、サイド情報を使用して、逆ステレオプロセッサは、図２のアイテム２４０で実行された処理を元に戻すための手順を実行する。最終的な脱スケーリングは、サイド情報に含まれるチャンネルごとの送信および量子化されたＩＬＤパラメータを使用して実行される。ブロック８３０の出力は、逆ＴＮＳ処理および／または逆周波数領域ノイズシェーピング処理またはその他任意の脱白色化操作を実行するポストプロセッサのブロック９１０に入力される。ブロック９１０の出力は、周波数時間変換器９２０によって時間領域に変換される単純なスペクトルである。隣接するフレームのブロック９２０の出力は、最終的に、重畳操作から、多数の復号化オーディオ信号、または一般的には復号化オーディオ信号１０００を取得するために、特定の符号化または復号化規則にしたがって、重畳加算プロセッサ９３０において重畳加算される。この信号１０００は、個々のチャンネルからなってもよく、またはアンビソニックス成分などの音場表現の成分からなってもよく、またはより高次のアンビソニックス表現のその他任意の成分からなってもよい。信号はまた、音場のＡフォーマットまたはＢフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。これらの代替案は全て、図１５ｂの復号化オーディオ信号１０００としてまとめて示されている。

続いて、好適な実施形態のさらなる利点および特定の特長が示される。

本発明の範囲は、知覚的に白色化およびＩＬＤパラメータ補正された信号を処理するときの、［６］から原理の解決策を提供することである。

・［８］に記載されたレートループを用いるＦＤＮＳと［９］に記載されたスペクトルエンベロープワーピングとの組み合わせは、量子化ノイズおよびレートループの知覚的なシェーピングを分離させる、簡単だが非常に効果的な方法を提供する。

・ＦＤＮＳで白色化されたスペクトルの全チャンネルに平均エネルギーレベルを使用することで、ジョイント符号化のために選択された各チャンネルペアについて［７］に記載されたＭ／Ｓ処理の利点があるか否かを決定する、簡単だが効果的な方法を可能にする。

・記載されたシステムの各チャンネルに単一の広帯域ＩＬＤを符号化するだけで十分であり、したがって、既知のアプローチとは対照的にビット節約が実現される。

・相互相関性の高い信号を用いるジョイント符号化にチャンネルペアを選択することで、通常、フルスペクトルのＭ／Ｓ変換をもたらし、したがって、各帯域でＭ／ＳまたはＬ／Ｒを信号送信することはほとんどの場合に完全なＭ／Ｓ変換を信号送信する単一ビットに置き換えられるので、さらなる平均ビット節約となる。

・処理済みチャンネルのエネルギーに基づく柔軟で単純なビット分布。

好適な実施形態の特徴
前の段落に記載されたように、この実装形態において、コーデックは、ジョイントステレオ符号化について［７］に記載される概念を導入することによって、［６］に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい手段を使用する。提案された発明の新規性は、以下の違いに要約される。

・各チャンネルペアのジョイント処理は、グローバルＩＬＤ補正に関して［６］に記載されたマルチチャンネル処理とは異なる。グローバルＩＬＤは、チャンネルペアを選択してＭ／Ｓ決定および処理を行う前にチャンネルのレベルを均等化し、こうして、特にパンされたソースのより効率的なステレオ符号化を可能にする。

・各チャンネルペアのジョイント処理は、グローバルＩＬＤ補正に関して［７］に記載されたステレオ処理とは異なる。提案されたシステムには、各チャンネルペアのグローバルＩＬＤ補正がない。任意のチャンネルで［７］に記載されたＭ／Ｓ決定メカニズムを使用できるようにするために、全てのチャンネルを単一のエネルギーレベル、すなわち平均エネルギーレベルにする正規化がある。この正規化は、ジョイント処理のためのチャンネルペアを選択する前に行われる。

・適応型のチャンネルペア選択プロセスの後、ジョイント処理用のチャンネルペアの一部ではないチャンネルがある場合、そのエネルギーレベルは初期エネルギーレベルに戻される。

・［７］に記載されるように、エントロピー符号化のビット分布は各チャンネルペアに実装されていない。代わりに、全てのチャンネルエネルギーが考慮され、この文献のそれぞれの段落に記載されるようにビットが分散される。

・［６］に記載された適応チャンネルペア選択の明示的な「低複雑度」モードがあり、反復的なチャンネルペア選択プロセス中のチャンネルペアの一部である単一のチャンネルは、チャンネルペア選択プロセスの次の反復中の別のチャンネルペアの一部になることができない。

・各チャンネルペアで簡単な帯域ごとのＭ／Ｓを使用すること、したがってビットストリーム内で送信される必要がある情報の量を低減することの利点は、［６］の信号適応チャンネルペア選択を使用するという事実によって強化される。共同で符号化するために相関性の高いチャンネルを選択することにより、広帯域Ｍ／Ｓ変換は、ほとんどの場合に最適であり、すなわち、Ｍ／Ｓ符号化は全ての帯域で使用される。これは、単一ビットで信号送信されることが可能であり、したがって、帯域ごとのＭ／Ｓの決定と比較して必要なシグナリング情報が著しく少ない。これにより、全てのチャンネルペアについて送信される必要がある情報ビットの総量が著しく減少する。

本発明の実施形態は、知覚的に白色化されてＩＬＤ補正されたスペクトルを有するマルチチャンネルシステムの信号適応型ジョイント符号化に関し、ジョイント符号化は、エントロピーコーダの推定ビット数に基づく単純な帯域ごとのＭ／Ｓ変換決定からなる。

いくつかの態様は装置の文脈で説明されてきたが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明も表す。方法ステップの一部または全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって（またはこれを使用して）実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちのいずれか１つ以上が、このような装置によって実行されてもよい。

本発明の符号化オーディオ信号は、デジタル記憶媒体上に記憶されることが可能であり、またはインターネットなどの無線送信媒体または有線送信媒体のような送信媒体で送信されることが可能である。

特定の実施要件に応じて、本発明の実装形態は、ハードウェアまたはソフトウェアで実装され得る。本実装形態は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働可能な）、電子可読制御信号が記憶された、フロッピーディスク、ＤＶＤ、Ｂｌｕ－Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはフラッシュメモリなどのデジタル記憶媒体を使用して、実行され得る。したがって、デジタル記憶媒体はコンピュータ読み取り可能であり得る。

本発明によるいくつかの実施形態は、本明細書に記載された方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することが可能な電子的可読制御信号を有するデータキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装されることが可能であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されたときに方法の１つを実行するように動作する。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。

別の実施形態は、機械可読キャリア上に記憶された、本明細書に記載される方法の１つを実行するためのコンピュータプログラムを含む。

したがって、言い換えると、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されたときに、本明細書に記載される方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法の１つを実行するためのコンピュータプログラムを含み、それが記録された、データキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体、または記録媒体は、典型的には有形および／または非一時的である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスはたとえば、データ通信接続を介して、たとえばインターネットを介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書に記載される方法の１つを実行するように構成または適合された、たとえばコンピュータまたはプログラマブル論理デバイスなどの処理手段を含む。

さらなる実施形態は、本明細書に記載される方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明によるさらなる実施形態は、本明細書に記載される方法の１つを実行するためのコンピュータプログラムを受信機に（たとえば、電子的または光学的に）送信するように構成された、装置またはシステムを含む。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを含んでもよい。

いくつかの実施形態では、プログラマブル論理デバイス（たとえばフィールドプログラマブルゲートアレイ）は、本明細書に記載される方法の機能の一部または全てを実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載される方法の１つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は、好ましくはいずれかのハードウェア装置によって実行される。

本明細書に記載される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置およびコンピュータの組み合わせを使用して、実装され得る。

本明細書に記載される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置およびコンピュータの組み合わせを使用して、実行され得る。

上記の実施形態は、本発明の原理を単に例示するものである。本明細書に記載される配置および詳細の修正および変形は、当業者にとって明らかとなることが理解される。したがって、喫緊の請求項の範囲によってのみ限定され、本明細書の実施形態の記載および説明によって提示される具体的詳細によっては限定されないことが意図される。

参考文献（全て、参照によりその全体が本明細書に組み込まれる
［１］ “Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ－ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓＰａｒｔ３：Ｕｎｉｆｉｅｄｓｐｅｅｃｈａｎｄａｕｄｉｏｃｏｄｉｎｇ，” ＩＳＯ／ＩＥＣ２３００３－３，２０１２

［２］ “Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ－ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓＰａｒｔ１：ＭＰＥＧＳｕｒｒｏｕｎｄ，” ＩＳＯ／ＩＥＣ２３００３－１，２００７

［３］Ｊ．Ｈｅｒｒｅ，Ｊ．Ｈｉｌｐｅｒｔ，Ｋ．ＡｃｈｉｍａｎｄＪ．Ｐｌｏｇｓｔｉｅｓ， “ＭＰＥＧ－Ｈ３ＤＡｕｄｉｏ－ＴｈｅＮｅｗＳｔａｎｄａｒｄｆｏｒＣｏｄｉｎｇｏｆＩｍｍｅｒｓｉｖｅＳｐａｔｉａｌＡｕｄｉｏ，” ＪｏｕｒｎａｌｏｆＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．５，ｎｏ．９，ｐｐ．７７０－７７９，Ａｕｇｕｓｔ２０１５．

［４］ “ＤｉｇｉｔａｌＡｕｄｉｏＣｏｍｐｒｅｓｓｉｏｎ（ＡＣ－４）Ｓｔａｎｄａｒｄ，” ＥＴＳＩＴＳ１０３１９０Ｖ１．１．１，２０１４－０４

［５］Ｄ．Ｙａｎｇ，Ｈ．Ａｉ，Ｃ．ＫｙｒｉａｋａｋｉｓａｎｄＣ．Ｋｕｏ， “Ｈｉｇｈ－ｆｉｄｅｌｉｔｙｍｕｌｔｉｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇｗｉｔｈＫａｒｈｕｎｅｎ－Ｌｏｅｖｅｔｒａｎｓｆｏｒｍ，” ＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．１１，ｎｏ．４，ｐｐ．３６５－３８０，Ｊｕｌｙ２００３．

［６］Ｆ．Ｓｃｈｕｈ，Ｓ．Ｄｉｃｋ，Ｒ．Ｆｕｅｇ，Ｃ．Ｒ．Ｈｅｌｍｒｉｃｈ，Ｎ．ＲｅｔｔｅｌｂａｃｈａｎｄＴ．Ｓｃｈｗｅｇｌｅｒ， “ＥｆｆｉｃｉｅｎｔＭｕｌｔｉｃｈａｎｎｅｌＡｕｄｉｏＴｒａｎｓｆｏｒｍＣｏｄｉｎｇｗｉｔｈＬｏｗＤｅｌａｙａｎｄＣｏｍｐｌｅｘｉｔｙ，” ｉｎＡＥＳＣｏｎｖｅｎｔｉｏｎ，ＬｏｓＡｎｇｅｌｅｓ，Ｓｅｐｔｅｍｂｅｒ２０，２０１６．

［７］Ｇ．Ｍａｒｋｏｖｉｃ，Ｅ．Ｆｏｔｏｐｏｕｌｏｕ，Ｍ．Ｍｕｌｔｒｕｓ，Ｓ．Ｂａｙｅｒ，Ｇ．Ｆｕｃｈｓ，Ｊ．Ｈｅｒｒｅ，Ｅ．Ｒａｖｅｌｌｉ，Ｍ．Ｓｃｈｎｅｌｌ，Ｓ．Ｄｏｅｈｌａ，Ｗ．Ｊａｅｇｅｒｓ，Ｍ．ＤｉｅｔｚａｎｄＣ．Ｈｅｌｍｒｉｃｈ， “Ａｐｐａｒａｔｕｓａｎｄｍｅｔｈｏｄｆｏｒｍｄｃｔｍ／ｓｓｔｅｒｅｏｗｉｔｈｇｌｏｂａｌｉｌｄｗｉｔｈｉｍｐｒｏｖｅｄｍｉｄ／ｓｉｄｅｄｅｃｉｓｉｏｎ”．ＩｎｔｅｒｎａｔｉｏｎａｌＰａｔｅｎｔＷＯ２０１７１２５５４４Ａ１，２７Ｊｕｌｙ２０１７

［８］３ＧＰＰＴＳ２６．４４５，ＣｏｄｅｃｆｏｒＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅｓ（ＥＶＳ）；Ｄｅｔａｉｌｅｄａｌｇｏｒｉｔｈｍｉｃｄｅｓｃｒｉｐｔｉｏｎ．

［９］Ｇ．Ｍａｒｋｏｖｉｃ，Ｆ．Ｇｕｉｌｌａｕｍｅ，Ｎ．Ｒｅｔｔｅｌｂａｃｈ，Ｃ．ＨｅｌｍｒｉｃｈａｎｄＢ．Ｓｃｈｕｂｅｒｔ， “Ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎｂａｓｅｄｃｏｄｉｎｇｓｃｈｅｍｅｕｓｉｎｇｓｐｅｃｔｒａｌｄｏｍａｉｎｎｏｉｓｅｓｈａｐｉｎｇ”．ＥＵＰａｔｅｎｔ２６７６２６６Ｂ１，１４Ｆｅｂｒｕａｒｙ２０１１

［１０］Ｓ．Ｄｉｓｃｈ，Ｆ．Ｎａｇｅｌ，Ｒ．Ｇｅｉｇｅｒ，Ｂ．Ｎ．Ｔｈｏｓｈｋａｈｎａ，Ｋ．Ｓｃｈｍｉｄｔ，Ｓ．Ｂａｙｅｒ，Ｃ．Ｎｅｕｋａｍ，Ｂ．ＥｄｌｅｒａｎｄＣ．Ｈｅｌｍｒｉｃｈ， “ＡｕｄｉｏＥｎｃｏｄｅｒ，ＡｕｄｉｏＤｅｃｏｄｅｒａｎｄＲｅｌａｔｅｄＭｅｔｈｏｄｓＵｓｉｎｇＴｗｏ－ＣｈａｎｎｅｌＰｒｏｃｅｓｓｉｎｇＷｉｔｈｉｎａｎＩｎｔｅｌｌｉｇｅｎｔＧａｐＦｉｌｌｉｎｇＦｒａｍｅｗｏｒｋ”．ＩｎｔｅｒｎａｔｉｏｎａｌＰａｔｅｎｔＰＣＴ／ＥＰ２０１４／０６５１０６，１５０７２０１４

［１１］ “ＣｏｄｅｃｆｏｒＥｎｃａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅｓ（ＥＶＳ）；Ｄｅｔａｉｌｅｄａｌｇｏｒｉｔｈｍｉｃｄｅｓｃｒｉｐｔｉｏｎ，” ３ＧＰＰＴＳ２６．４４５Ｖ１２．５．０，Ｄｅｃｅｍｂｅｒ２０１５

［１２］ “ＣｏｄｅｃｆｏｒＥｎｃａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅｓ（ＥＶＳ）；Ｄｅｔａｉｌｅｄａｌｇｏｒｉｔｈｍｉｃｄｅｓｃｒｉｐｔｉｏｎ，” ３ＧＰＰＴＳ２６．４４５Ｖ１３．３．０，Ｓｅｐｔｅｍｂｅｒ２０１６

［１３］ＳａｓｃｈａＤｉｃｋ，Ｆ．Ｓｃｈｕｈ，Ｎ．Ｒｅｔｔｅｌｂａｃｈ，Ｔ．Ｓｃｈｗｅｇｌｅｒ，Ｒ．Ｆｕｅｇ，Ｊ．ＨｉｌｐｅｒｔａｎｄＭ．Ｎｅｕｓｉｎｇｅｒ， “ＡＰＰＡＲＡＴＵＳＡＮＤＭＥＴＨＯＤＦＯＲＥＮＣＯＤＩＮＧＯＲＤＥＣＯＤＩＮＧＡＭＵＬＴＩ－ＣＨＡＮＮＥＬＳＩＧＮＡＬ”．ＩｎｅｒｎａｔｉｏｎａｌＰａｔｅｎｔＰＣＴ／ＥＰ２０１６／０５４９００，０８Ｍａｒｃｈ２０１６．

本発明は、マルチシグナル符号化効率が、元の信号ではなく前処理済みオーディオ信号に対して適応ジョイント信号処理を実行することによって実質的に改善されるという発見に基づいており、この前処理は、前処理済みオーディオ信号が、前処理前の信号に対して白色化されるように実行される。デコーダ側に関しては、これは、少なくとも３つの処理済み復号化信号を取得するために、ジョイント信号処理に続いて後処理が実行されることを意味する。これらの少なくとも３つの処理済み復号化信号は、符号化信号に含まれるサイド情報にしたがって後処理され、後処理は、後処理済み信号が後処理前の信号よりも白色度が低くなるように実行される。後処理済み信号は最終的に、直接、またはさらなる信号処理操作に続いて、復号化オーディオ信号、すなわち復号化マルチシグナルを表す。

符号化マルチシグナルオーディオ信号５００のフレームの例示的な図が、図５ｂに示されている。図５ｂは、ブロック３００によって生成されたとおりの個別に符号化された信号のビットストリーム部分５１０を示している。ブロック５２０は、ブロック１００によって生成されて出力インターフェース４００に転送された前処理サイド情報のためのものである。加えて、ジョイント処理サイド情報５３０が、図５ａの適応ジョイント信号プロセッサ２００によって生成され、図５ｂに示される符号化マルチシグナルオーディオ信号フレームに導入される。図５ｂの右側では、符号化マルチシグナルオーディオ信号の次のフレームがシリアルビットストリームに書き込まれ、図５ｂの左側では、符号化マルチシグナルオーディオ信号の前のフレームが書き込まれることになる。
一実施形態では、適応ジョイント信号プロセッサ２００は、選択された信号ペアの各信号について、Ｌ／Ｒなどの全帯域分離符号化モードの必要なビットレート、Ｍ／Ｓなどの全帯域ジョイント符号化モードの必要なビットレート、またはＭ／Ｓなどの帯域ごとジョイント符号化モードのビットレートプラスＭ／Ｓマスクなどの帯域ごと信号送信の必要なビットを決定し、帯域の大部分が特定のモードのために決定され、全ての帯域の１０％未満である帯域の少数が他の符号化モードに決定されたとき、信号ペアの全ての帯域の特定のモードとして分離符号化モードまたはジョイント符号化モードを決定し、または最も少ない量のビットを必要とする符号化モードを決定するように構成される。ここで、出力インターフェース４００は、処理５３０に関するサイド情報に指示５３２を含めるように構成されており、指示５３２は、フレームの符号化モードマスクの代わりにフレームの全ての帯域の前記特定のモードを示す。
さらなる実施形態では、適応ジョイント信号プロセッサ２００は、処理済み信号ペアの信号がさらなる信号ペア処理で選択不可能な、非カスケード信号ペア処理を適用するように構成されている。適応ジョイント信号プロセッサ２００は、ペアワイズ処理のための信号ペア間の相互相関に基づいて信号ペアを選択するように構成されており、いくつかの選択された信号ペアのペアワイズ処理が並行して実行される。

ジョイント処理サイド情報５３０は、好適な実装形態では、ペアワイズ処理サイド情報５３２、エネルギースケーリング情報５３４、およびビット分布情報５３６を含む。ペアワイズ処理サイド情報は、チャンネルペアサイド情報ビット、フルミッド／サイドまたはデュアルモノまたは帯域ごとミッド／サイド情報および、帯域ごとミッド／サイド指示の場合、フレーム内の帯域がミッド／サイドまたはＬ／Ｒ処理のどちらで処理されるかを帯域ごとに示す、ミッド／サイドマスクのうちの少なくとも１つを含み得る。ペアワイズ処理サイド情報は、インテリジェントギャップ充填（ＩＧＦ）、またはＳＢＲ（スペクトル帯域複製）情報などのような他の帯域幅拡張情報を追加で含み得る。

図１０は、符号化信号５００を復号化するためのマルチシグナルデコーダの好適な実装形態を示す。マルチシグナルデコーダは、入力インターフェース６００、入力インターフェース６００によって出力された少なくとも３つの符号化信号を復号化するための信号デコーダ７００を含む。マルチシグナルデコーダは、少なくとも３つの処理済み復号化信号を取得するために符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するための、ジョイント信号プロセッサ８００を含む。マルチシグナルデコーダは、符号化信号に含まれるサイド情報にしたがって少なくとも３つの処理済み復号化信号を後処理するためのポストプロセッサ９００を含む。特に、後処理は、後処理済み信号が後処理前の信号よりも白色度が低くなるように実行される。後処理済み信号は、直接的または間接的に、復号化オーディオ信号１０００を表す。

ジョイント信号プロセッサ８００は、サイド情報ブロック５３２に含まれる特定のサイド情報を使用する、帯域複製、帯域幅拡張、またはインテリジェントギャップ充填処理機能を有する。このサイド情報はブロック８１０に転送され、ブロック８２０は、ブロック８１０によって適用された帯域幅拡張手順の結果を使用して、ジョイントステレオ（デコーダ）処理を実行する。ブロック８１０では、インテリジェントギャップ充填手順は、帯域幅拡張またはＩＧＦ処理の目標範囲が別のステレオ表現を有するように示されるとき、ソース範囲をあるステレオ表現から別のステレオ表現に変換するように構成されている。目標範囲は、ミッド／サイドステレオモードを有するように示されており、ソース範囲がＬ／Ｒステレオモードを有するように示されるとき、Ｌ／Ｒソース範囲のステレオモードはミッド／サイドソース範囲のステレオモードに変換され、その後、ソース範囲のミッド／サイドステレオモード表現を用いてＩＧＦ処理が実行される。
一実施形態では、ジョイント信号プロセッサ８００は、符号化信号から、信号ペアの時間フレームのいくつかの帯域がミッド／サイドまたは左／右符号化のどちらを使用して逆処理されるかを示すフラグを抽出するように構成されている。ジョイント信号プロセッサ８００は、フラグの値に応じて、信号ペアのいくつかの帯域にまとめてミッド／サイド処理または左／右処理のどちらかを受けさせるためにこのフラグを使用するように構成されている。ここで、同じ信号ペアの異なる時間フレームについて、または同じ時間フレームの異なる信号ペアについて、符号化信号のサイド情報から各個別の帯域について個別の符号化モードを示す符号化モードマスクが抽出される。ジョイント信号プロセッサ８００は、この帯域に関連するビットについて示される個別の帯域について、逆ミッド／サイド処理または左／右処理のいずれかを適用するように構成されている。

Claims

少なくとも３つのオーディオ信号を符号化するためのマルチシグナルエンコーダであって、
少なくとも３つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するための信号プリプロセッサ（１００）であって、前記前処理は、前処理済みオーディオ信号が前処理前の前記信号に対して白色化されるように実行される、信号プリプロセッサ（１００）と、
少なくとも３つの共同で処理された信号または少なくとも２つの共同で処理された信号および未処理の信号を取得するために、前記少なくとも３つの前処理済みオーディオ信号の処理を実行するための適応ジョイント信号プロセッサ（２００）と、
１つ以上の符号化信号を取得するために各信号を符号化するための信号エンコーダ（３００）と、
前記１つ以上の符号化信号、前記前処理に関するサイド情報、および前記処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納するための出力インターフェース（４００）と
を含むマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、各前処理済みオーディオ信号が正規化されたエネルギーを有するように、前記少なくとも３つの前処理済みオーディオ信号の広帯域エネルギー正規化（２１０）を実行するように構成されており、
前記出力インターフェース（４００）は、さらなるサイド情報として、各前処理済みオーディオ信号の広帯域エネルギー正規化値（５３４）を含むように構成されている、請求項１に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、
前記前処理済みオーディオ信号の平均エネルギーに関する情報を計算し（２１２）、
各前処理済みオーディオ信号のエネルギーに関する情報を計算し（２１１）、
前記平均エネルギーに関する前記情報および特定の前処理済みオーディオ信号のエネルギーに関する前記情報に基づいて前記エネルギー正規化値を計算する（２１３、２１４）
ように構成されている、請求項２に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、平均エネルギーからの特定の前処理済みオーディオ信号と前記前処理済みオーディオ信号のエネルギーとのスケーリング比（５３４ｂ）を計算する（２１３、２１４）ように構成されており、
前記適応ジョイント信号プロセッサ（２００）は、前記スケーリング比がアップスケーリングまたはダウンスケーリングのどちらのものかを示すフラグ（５３４ａ）を決定するように構成され、各信号の前記フラグは前記符号化信号に含まれる、
請求項１から３のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、前記スケーリングがアップスケーリングかダウンスケーリングかに関係なく、前記スケーリング比を同じ量子化範囲に量子化する（２１４）ように構成されている、
請求項４に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、
少なくとも３つの正規化された信号を取得するために、基準エネルギーに対して各前処理済みオーディオ信号を正規化し（２１０）、
前記少なくとも３つの正規化された信号のうちの可能な各ペアの正規化された信号の相互相関値を計算し（２２０）、
最も高い相互相関値を有する信号ペアを選択し（２２９）、
前記選択された信号ペアのジョイントステレオ処理モードを決定し（２３２ａ）、
処理済み信号ペアを取得するために前記決定されたジョイントステレオ処理モードにしたがって、前記選択された信号ペアをジョイントステレオ処理する（２３２ｂ）
ように構成されている、請求項１から５のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）はカスケード信号ペア前処理を適用するように構成されているか、または前記適応ジョイント信号プロセッサ（２００）は非カスケード信号ペア処理を適用するように構成されており、
前記カスケード信号ペア前処理において、処理済み信号ペアの前記信号は、更新された相互相関値の計算、最も高い相互相関値を有する前記信号ペアを選択すること、前記選択された信号ペアのジョイントステレオ処理モードの前記決定、および前記決定されたジョイントステレオ処理モードにしたがって前記選択された信号ペアを前記ジョイントステレオ処理することからなる、さらなる反復ステップにおいて選択可能であるか、または
前記非カスケード信号ペア処理において、処理済み信号ペアの前記信号は、前記最も高い相互相関値を有する前記信号ペアをさらに選択すること、前記選択された信号ペアのジョイントステレオ処理モードの前記決定、および前記決定されたジョイントステレオ処理モードにしたがって前記選択された信号ペアを前記ジョイントステレオ処理することにおいて選択可能ではない、
請求項６に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、ペアワイズ処理手順の後に残る信号として、個別にエンコードされる前記信号を決定するように構成されており、
前記適応ジョイント信号プロセッサ（２００）は、復帰（２３７）などの前記ペアワイズ処理手順を実行する前に前記信号に適用されるエネルギー正規化を修正するように構成されているか、または前記ペアワイズ処理手順を実行する前に前記信号に適用されるエネルギー正規化を少なくとも部分的に復帰させる、
請求項１から７のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、前記信号エンコーダ（３００）によって処理される各信号について、ビット分布情報（５３６）を決定するように構成されており、前記出力インターフェース（４００）は、各信号について、前記ビット分布情報（５３６）を前記符号化信号に導入するように構成されている、
請求項１から８のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、前記信号エンコーダ（３００）によって処理される各信号の信号エネルギー情報を計算し（２８２）、
前記信号エンコーダ（３００）によって符号化される前記複数の信号の総エネルギーを計算し（２８４）、
前記信号エネルギー情報および前記総エネルギー情報に基づいて、各信号のビット分布情報（５３６）を計算する（２８６）ように構成されており、
前記出力インターフェース（４００）は、各信号について、前記ビット分布情報を前記符号化信号に導入するように構成されている、
請求項１から９のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、各信号に初期ビット数を任意選択的に割り当て（２９０）、前記ビット分布情報に基づいてビット数を割り当て（２９１）、任意選択的に、さらなる改良ステップを実行し（２９２）、または任意選択的に、最終寄付ステップを実行する（２９２）ように構成されており、
前記信号エンコーダ（３００）は、信号ごとの前記割り当てられたビットを使用して、前記信号符号化を実行するように構成されている、
請求項１０に記載のマルチシグナルエンコーダ。
前記信号プリプロセッサ（１００）は、各オーディオ信号について、
各オーディオ信号のスペクトルを取得するための時間スペクトル変換操作（１０８、１１０、１１２）と、
各信号スペクトルの時間ノイズシェーピング操作（１１４ａ、１１４ｂ）および／または周波数領域ノイズシェーピング操作（１１６）と
を実行するように構成されており、
前記信号プリプロセッサ（１００）は、前記時間ノイズシェーピング操作および／または前記周波数領域ノイズシェーピング操作に続いて、前記信号スペクトルを前記適応ジョイント信号プロセッサ（２００）に供給するように構成されており、
前記適応ジョイント信号プロセッサ（２００）は、前記受信した信号スペクトルに対して前記ジョイント信号処理を実行するように構成されている、
請求項１から１１のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、
選択された信号ペアの各信号について、Ｌ／Ｒなどの全帯域分離符号化モードの必要なビットレート、Ｍ／Ｓなどの全帯域ジョイント符号化モードの必要なビットレート、またはＭ／Ｓなどの帯域ごとジョイント符号化モードのビットレートプラスＭ／Ｓマスクなどの帯域ごと信号送信の必要なビットを決定し、
帯域の大部分が特定のモードのために決定され、全ての帯域の１０％未満である前記帯域の少数が他の符号化モードに決定されたとき、信号ペアの全ての帯域の前記特定のモードとして前記分離符号化モードまたは前記ジョイント符号化モードを決定し、または最も少ない量のビットを必要とする符号化モードを決定する
ように構成されており、
前記出力インターフェース（４００）は、前記符号化信号に表示を含めるように構成されており、前記表示は、フレームの符号化モードマスクの代わりに前記フレームの全ての帯域の前記特定のモードを示す、
請求項１から１２のいずれか一項に記載のマルチシグナルエンコーダ。
前記信号エンコーダ（３００）は、個々の各信号の、または２つ以上の信号にわたる、レートループプロセッサを含み、前記レートループプロセッサは、前記特定の信号または２つ以上の信号のビット分布情報（５３６）を受信および使用するように構成されている、
請求項１から１４のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、ジョイント符号化のための信号ペアを適応的に選択するように構成されており、または前記適応ジョイント信号プロセッサ（２００）は、各選択された信号ペアについて、帯域ごとミッド／サイド符号化モード、全帯域ミッド／サイド符号化モード、または全帯域左／右符号化モードを決定するように構成されており、前記出力インターフェース（４００）は、サイド情報（５３２）として、前記符号化マルチシグナルオーディオ信号において前記選択された符号化モードを表示するように構成されている、
請求項１から１５のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、ミッド／サイドモードまたは左／右モードで符号化されたときの各帯域での推定ビットレートに基づいて、帯域ごとミッド／サイド決定対左／右決定を形成するように構成されており、最終的なジョイント符号化モードは、前記帯域ごとミッド／サイド決定対左／右決定の前記結果に基づいて決定される、
請求項１から１６のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、スペクトル帯域複製処理またはインテリジェントギャップ充填処理のパラメータサイド情報を決定するために、前記スペクトル帯域複製処理または前記インテリジェントギャップ充填処理を実行する（２６０）ように構成されており、前記出力インターフェース（４００）は、追加サイド情報として、前記スペクトル帯域複製またはインテリジェントギャップ充填サイド情報（５３２）を前記符号化信号に含めるように構成されている、請求項１から１７のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、符号化信号ペアに対してステレオインテリジェントギャップ充填処理を実行し、個別に符号化される前記少なくとも１つの信号に対して単一信号インテリジェントギャップ充填処理を実行するように構成されている、
請求項１８に記載のマルチシグナルエンコーダ。
前記少なくとも３つのオーディオ信号は低周波強調信号を含み、前記適応ジョイント信号プロセッサ（２００）は信号マスクを適用するように構成され、前記信号マスクはどの信号に対して前記適応ジョイント信号プロセッサ（２００）がアクティブになるかを示しており、前記信号マスクは、前記少なくとも３つの前処理済みオーディオ信号の前記ペアワイズ処理で前記低周波強調信号が使用されるべきではないことを示す、
請求項１から１９のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、信号のエネルギーに関する前記情報として、前記信号のＭＤＣＴスペクトルのエネルギーを計算するように、または
前記少なくとも３つの前処理済みオーディオ信号の平均エネルギーに関する前記情報として、前記少なくとも３つの前処理済みオーディオ信号のＭＤＣＴスペクトルの平均エネルギーを計算するように構成されている、
請求項１から５のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、特定の信号のエネルギー情報および前記少なくとも３つのオーディオ信号の平均エネルギーに関するエネルギー情報に基づいて、各信号のスケーリング因子を計算する（２１３）ように構成されており、
前記適応ジョイント信号プロセッサ（２００）は、量子化スケーリング比値を取得するために前記スケーリング比を量子化する（２１４）ように構成されており、前記量子化スケーリング比値は、含まれる各信号の前記スケーリング比のサイド情報を前記符号化信号内に誘導するために使用され、
前記適応ジョイント信号プロセッサ（２００）は、前記量子化スケーリング比値から量子化スケーリング比を導出するように構成されており、前記前処理済みオーディオ信号は、他の相応にスケーリングされた信号と共に前記スケーリングされた信号の前記ペアワイズ処理に使用される前に、前記量子化スケーリング比を使用してスケーリングされる、
請求項１から５のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、どの信号ペアが最も高い類似性を有するか、したがって、前記少なくとも３つの前処理済みオーディオ信号のペアワイズ処理のペアとして選択されるのに適しているかを判定および選択するために、可能な信号ペアの正規化された信号間相互相関値を計算する（２２１）ように構成されており、
各信号ペアの前記正規化相互相関値は相互相関ベクトルに格納され、
前記適応ジョイント信号プロセッサ（２００）は、前のフレームの相互相関ベクトルを現在のフレームの前記相互相関ベクトルと比較すること（２２２、２２３）によって、１つ以上の前記前のフレームの信号ペア選択が維持されるべきか否かを決定するように構成されており、前記前のフレームの前記信号ペア選択は、前記現在のフレームの前記相互相関ベクトルと前記前のフレームの前記相互相関ベクトルとの差が所定の閾値を下回るときに維持される（２２５）、
請求項１から２２のいずれか一項に記載のマルチシグナルエンコーダ。
前記信号プリプロセッサ（１００）は、複数の異なるウィンドウ長から選択された特定のウィンドウ長を使用して時間周波数変換を実行するように構成されており、
前記適応ジョイント信号プロセッサ（２００）は、ペアワイズ処理される信号のペアを決定するために前記前処理済みオーディオ信号を比較するときに、前記信号のペアが同じ関連するウィンドウ長を有するか否かを決定するように構成されており、
前記適応ジョイント信号プロセッサ（２００）は、２つの信号が、前記信号プリプロセッサ（１００）によって適用された同じウィンドウ長に関連付けられているときにのみ、前記２つの信号のペアワイズ処理を可能にするように構成されている、
請求項１から２３のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、前記処理済み信号ペアの前記信号がさらなる信号ペア処理で選択不可能な、非カスケード信号ペア処理を適用するように構成されており、前記適応ジョイント信号プロセッサ（２００）は、前記ペアワイズ処理のための前記信号ペア間の相互相関に基づいて前記信号ペアを選択するように構成されており、いくつかの選択された信号ペアの前記ペアワイズ処理は並行して実行される、
請求項１から２４のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、選択された信号ペアについて、ステレオ符号化モードを決定するように構成されており、前記ステレオ符号化モードがデュアルモノモードであると決定されたとき、この信号ペアに含まれる前記信号は、個別に符号化される信号として少なくとも部分的に再スケーリングおよび表示される、
請求項２５に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、ペアワイズ処理済み信号ペアについて、前記コア領域のステレオモードが前記ＩＧＦ領域のステレオモードとは異なる場合、または前記コアの前記ステレオモードが帯域ごとミッド／サイド符号化フラグが立てられている場合、ステレオインテリジェントギャップ充填（ＩＧＦ）操作を実行するように構成されており、または
前記適応ジョイント信号プロセッサ（２００）は、前記コア領域の前記ステレオモードが前記ＩＧＦ領域の前記ステレオモードと異ならない場合、または前記コアの前記ステレオモードが帯域ごとミッド／サイド符号化モードとしてフラグが立てられていない場合、ペアワイズ処理済み信号ペアの信号には単一信号ＩＧＦ分析を適用するように構成されている、
請求項１８または１９に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、前記ＩＧＦ操作の結果が前記信号エンコーダ（３００）によって個別に符号化される前に、インテリジェントギャップ充填操作を実行するように構成されており、
量子化およびインテリジェントギャップ充填（ＩＧＦ）の調性／ノイズ決定にパワースペクトルが使用され、前記信号プリプロセッサ（１００）は、ＭＤＣＴスペクトルに使用されたのと同じ周波数領域ノイズシェーピングを前記ＭＤＳＴスペクトルに実行されるように構成されており、
前記適応ジョイント信号プロセッサ（２００）は、処理済みＭＤＳＴスペクトルの結果が前記信号エンコーダ（３００）によって実行された量子化の中で、または前記適応ジョイント信号プロセッサ（２００）によって実行されたインテリジェントギャップ充填処理の中で使用されるように、前処理済みＭＤＳＴスペクトルに対して同じミッド／サイド処理を実行するように構成されており、または
前記適応ジョイント信号プロセッサ（２００）は、ＭＤＳＴスペクトルの全帯域スケーリングベクトルに基づいて、同じ量子化されたスケーリングベクトルを使用して前記ＭＤＣＴスペクトルに対して行われたのと同じ正規化スケーリングを適用するように構成されている、
請求項１から２７のいずれか一項に記載のマルチシグナルエンコーダ。
前記適応ジョイント信号プロセッサ（２００）は、前記少なくとも３つの共同で処理された信号または少なくとも２つの共同で処理された信号および個別に符号化される信号を取得するために、前記少なくとも３つの前処理済みオーディオ信号のペアワイズ処理を実行するように構成されている、請求項１から２８のいずれか一項に記載のマルチシグナルエンコーダ。
前記少なくとも３つのオーディオ信号の前記オーディオ信号は、オーディオチャンネルであるか、または
前記少なくとも３つのオーディオ信号の前記オーディオ信号は、アンビソニックス音場表現、Ｂフォーマット表現、Ａフォーマット表現、または基準位置に対する音場を表現する音場表現などのその他任意の音場表現などの音場表現のオーディオ成分信号である、
請求項１から２９のいずれか一項に記載のマルチシグナルエンコーダ。
前記信号エンコーダ（３００）は、少なくとも３つの個別に符号化された信号を取得するために各信号を個別に符号化するように、または２つ以上の信号と共に（エントロピー）符号化を実行するように構成されている、
請求項１から３０のいずれか一項に記載のマルチシグナルエンコーダ。
符号化信号を復号化するためのマルチシグナルデコーダであって、
少なくとも３つの符号化信号を復号化するための信号デコーダ（７００）と、
少なくとも３つの処理済み復号化信号を取得するために前記符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するためのジョイント信号プロセッサ（８００）と、
前記符号化信号に含まれるサイド情報にしたがって前記少なくとも３つの処理済み復号化信号を後処理するためのポストプロセッサ（９００）であって、前記後処理は、前記後処理済み信号が前記後処理前の信号よりも白くなくなるように実行され、前記後処理済み信号は復号化オーディオ信号を表す、ポストプロセッサ（９００）と
を含む、マルチシグナルデコーダ。
前記ジョイント信号プロセッサ（８００）は、
前記符号化信号から、各ジョイントステレオ復号化信号のエネルギー正規化値を抽出する（６１０）ように構成されており、
ジョイントステレオ復号化信号を取得するために、前記符号化信号内のサイド情報によって示されるジョイントステレオモードを使用して、前記復号化信号をペアワイズ処理する（８２０）ように構成されており、
前記処理済み復号化信号を取得するために、前記エネルギー正規化値を使用して、前記ジョイントステレオ復号化信号をエネルギー再スケーリングする（８３０）ように構成されている、
請求項３２に記載のマルチシグナルデコーダ。
前記ジョイント信号プロセッサ（８００）は、特定の信号の前記符号化信号から抽出されたエネルギー正規化値が所定の値を有するか否かをチェックするように構成されており、
前記ジョイント信号プロセッサ（８００）は、前記エネルギー正規化値が前記所定の値を有するとき、前記特定の信号に対してエネルギー再スケーリングを実行しないように、または低減されたエネルギー再スケーリングのみを実行するように構成されている、
請求項３２に記載のマルチシグナルデコーダ。
前記信号デコーダ（７００）は、
前記符号化信号から、各符号化信号のビット分布値を抽出し（６２０）、
信号のビット分布値、全ての信号の残りのビッの数、および、任意選択的に、さらなる改良ステップ、または、任意選択的に、最終寄付ステップを使用して、前記信号の使用されるビット分布を決定し（７２０）、
各信号の前記使用されるビット分布に基づいて、前記個々の復号化を実行する（７１０、７３０）
ように構成されている、請求項３２から３４のいずれか一項に記載のマルチシグナルデコーダ。
前記ジョイント信号プロセッサ（８００）は、
スペクトルが強調された個々の信号を取得するために、前記符号化信号のサイド情報を使用して、前記個別に復号化された信号に対して帯域複製または帯域複製を実行し（８２０）、
前記スペクトルが強調された個々の信号を使用して、ジョイント処理モードにしたがってジョイント処理（８２０）を実行する
ように構成されている、請求項３２から３５のいずれか一項に記載のマルチシグナルデコーダ。
前記ジョイント信号プロセッサ（８００）は、目標範囲が別のステレオ表現を有するように示されるとき、ソース範囲をあるステレオ表現から前記別のステレオ表現に変換するように構成されている、
請求項３６に記載のマルチシグナルデコーダ。
前記ジョイント信号プロセッサ（８００）は、
前記符号化信号から、各ジョイントステレオ復号化信号のエネルギー正規化値（５３４ｂ）を抽出し、加えて、前記エネルギー正規化値がアップスケーリング値またはダウンスケーリング値のどちらであるかを示すフラグ（５３４ａ）を抽出し、
前記フラグが第１の値を有するときはダウンスケーリングとして、前記フラグが前記第１の値とは異なる第２の値を有するときはアップスケーリングとして、前記エネルギー正規化値を使用して再スケーリングを実行する（８３０）
ように構成されている、請求項３２から３７のいずれか一項に記載のマルチシグナルデコーダ。
前記ジョイント信号プロセッサ（８００）は、
前記符号化信号から、共同符号化操作から得られる信号ペアを示すサイド情報を抽出し（６３０）、
各信号の元の前処理済みスペクトルに戻すために、前記符号化信号を取得するために最後の信号ペアから始めて逆ステレオまたはマルチチャンネル処理を実行し（８２０）、前記符号化信号のサイド情報（５３２）に示される前記ステレオモードおよび／または帯域ごとミッド／サイド決定に基づいて前記逆ステレオ処理を実行する
ように構成されている、請求項３２から３８のいずれか一項に記載のマルチシグナルデコーダ。
前記ジョイント信号プロセッサ（８００）は、個々の各信号について含まれる量子化されたエネルギースケーリング情報に基づいて、信号ペアに含まれる全ての信号を対応する元のエネルギーレベルに非正規化する（８３０）ように構成されており、信号ペア処理に関与しなかった他の信号は、信号ペア処理に関与していた前記信号のようには非正規化されない、
請求項３２から３９のいずれか一項に記載のマルチシグナルデコーダ。
前記ポストプロセッサ（９００）は、各個別の処理済み復号化信号について、処理済み復号化信号、時間ノイズシェーピング操作（９１０）、または周波数領域ノイズシェーピング操作（９１０）、およびスペクトル領域から時間領域への変換（９２０）、ならびに後処理済み信号の後続の時間フレーム間の後続の重畳加算操作（９３０）を実行するように構成されている、
請求項３２から４０のいずれか一項に記載のマルチシグナルデコーダ。
前記ジョイント信号プロセッサ（８００）は、前記符号化信号から、信号ペアの時間フレームのいくつかの帯域がミッド／サイドまたは左／右符号化のどちらを使用して逆処理されるかを示すフラグを抽出するように構成されており、前記ジョイント信号プロセッサ（８００）は、前記フラグの前記値に応じて、前記信号ペアの前記対応する帯域にまとめてミッド／サイド処理または左／右処理のどちらかを受けさせるためにこのフラグを使用するように構成されており、
同じ信号ペアの異なる時間フレームについて、または同じ時間フレームの異なる信号ペアについて、前記符号化信号の前記サイド情報から各個別の帯域について個別の符号化モードを示す符号化モードマスクが抽出され、前記ジョイント信号プロセッサ（８００）は、この帯域に関連するビットについて示される前記対応する帯域について、逆ミッド／サイド処理またはミッド／サイド処理のどちらを適用すべきかを決定するように構成されている、
請求項３２から４１のいずれか一項に記載のマルチシグナルデコーダ。
前記符号化信号は符号化マルチチャンネル信号であり、前記マルチシグナルデコーダはマルチチャンネルデコーダであり、前記符号化信号は符号化マルチチャンネル信号であり、前記信号デコーダ（７００）はチャンネルデコーダであり、前記符号化信号は符号化チャンネルであり、前記ジョイント信号処理はジョイントチャンネル処理であり、前記少なくとも３つの処理済み復号化信号は少なくとも３つの処理済み復号化信号であり、前記後処理済み信号はチャンネルであり、または
前記符号化信号は、アンビソニックス音場表現、Ｂフォーマット表現、Ａフォーマット表現、または基準位置に対する音場を表現する音場表現などのその他任意の音場表現などの音場表現のオーディオ成分信号を表す符号化多成分信号であり、前記マルチシグナルデコーダは多成分デコーダであり、前記符号化信号は符号化多成分信号であり、前記信号デコーダ（７００）は成分デコーダであり、前記符号化信号は符号化成分であり、前記ジョイント信号処理はジョイント成分処理であり、前記少なくとも３つの処理済み復号化信号は少なくとも３つの処理済み復号化成分であり、前記後処理済み信号は成分オーディオ信号である、
請求項３２から４２のいずれか一項に記載のマルチシグナルデコーダ。
少なくとも３つのオーディオ信号のマルチシグナル符号化を実行する方法であって、
少なくとも３つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するステップであって、前記前処理は、前処理済みオーディオ信号が前処理前の前記信号に対して白色化されるように実行される、ステップと、
少なくとも３つの共同で処理された信号または少なくとも２つの共同で処理された信号および個別に符号化される信号を取得するために、前記少なくとも３つの前処理済みオーディオ信号の処理を実行するステップと、
１つ以上の符号化信号を取得するために各信号を符号化するステップと、
前記１つ以上の符号化信号、前記前処理に関するサイド情報、および前記処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納するステップと
を含む方法。
符号化信号をマルチシグナル復号化する方法であって、
少なくとも３つの符号化信号を個別に復号化するステップと、
少なくとも３つの処理済み復号化信号を取得するために前記符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するステップと、
前記符号化信号に含まれるサイド情報にしたがって前記少なくとも３つの処理済み復号化信号を後処理するステップであって、前記後処理は、前記後処理済み信号が前記後処理前の信号よりも白くなくなるように実行され、前記後処理済み信号は復号化オーディオ信号を表す、ステップと
を含む方法。
コンピュータまたはプロセッサ上で実行されたときに、請求項４４の方法または請求項４５の方法を実行するための、コンピュータプログラム。
符号化信号であって、
少なくとも３つの個別に符号化された信号（５１０）と、
前記少なくとも３つの個別に符号化された信号を取得するために実行される前処理に関するサイド情報（５２０）と、
前記少なくとも３つの個別に符号化された信号を取得するために実行されるペアワイズ処理に関するサイド情報（５３２）と、を含み、
前記符号化信号は、マルチシグナル符号化によって得られた前記少なくとも３つの個別に符号化された信号の各々について、エネルギースケーリング値（５３４）、または前記個別に符号化された信号の各々について、ビット分布値（５３６）を含む、符号化信号。