JP6728209B2

JP6728209B2 - 符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダ

Info

Publication number: JP6728209B2
Application number: JP2017548011A
Authority: JP
Inventors: クリスティアンヘルムリッヒ; ベルントエドラー
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2015-03-09
Filing date: 2016-03-08
Publication date: 2020-07-22
Anticipated expiration: 2036-03-08
Also published as: KR102101266B1; AR103859A1; EP3268962A1; TWI590233B; TW201701271A; JP2018511826A; EP4235656A3; US11335354B2; EP3268962B1; RU2017134619A; EP3268962C0; JP2020184083A; AU2016231239B2; EP4235656A2; AU2016231239A1; JP7126328B2; CN112786061A; PL3268962T3; MX2017011185A; KR20170133378A

Description

本発明は、本発明は、符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダに関する。実施形態は、オーディオ符号化における信号適応変換カーネルスイッチングのための方法および装置を示す。言い換えると、本発明は、オーディオ符号化に関し、特に、例えば、修正された離散コサイン変換（ＭＤＣＴ）［１］等のラップ変換による知覚オーディオ符号化に関する。

ＭＰ3、Ｏｐｕｓ、（Ｃｅｌｔ）、ＨＥ−ＡＡＣファミリ、新しいＭＰＥＧ−Ｈ３Ｄオーディオおよび３ＧＰＰエンハンスドボイスサービス（ＥＶＳ）コーデックを含む現代的な知覚オーディオコーデックはすべて、スペクトル領域の量子化と符号化にＭＤＣＴを採用しているか、または、それ以上のチャネル波形を生成する。長さ−Ｍスペクトルｓｐｅｃ［］を使用するこの重複変換の合成バージョンは、Ｍ＝Ｎ／２で時間窓の長さである次式（１）によって与えられる。

窓掛け処理の後、時間出力ｘ_i,n はオーバーラップ・アンド・アッド（ＯＬＡ）プロセスによって前の時間出力ｘ_i-1,n と組み合わされる。Ｃは、０より大きいか又は１以下の定数パラメータであってもよく、例えば、２／Ｎとなる。

上式（１）のＭＤＣＴは、様々なビットレートで任意のチャネルの高品質オーディオコーディングに適しているが、コーディング品質が不十分な場合がある。
例えば、
・各高調波が複数のＭＤＣＴビンによって表されるように、ＭＤＣＴを介してサンプリングされた特定の基本周波数を有する高調波信号である。これは、スペクトル領域において準最適エネルギー圧縮、すなわち低い符号化利得を導く。
・従来のＭ／Ｓステレオベースのジョイントチャネルコーディングでは利用できない、チャネルのＭＤＣＴビン間で約９０度の位相シフトを持つステレオ信号を生成する。チャネル間位相差（ＩＰＤ）の符号化を含むより高度なステレオ符号化は、例えば、ＨＥ− ＡＡＣのパラメトリックステレオまたはＭＰＥＧサラウンドを使用しているが、このようなツールは別のフィルタバンクドメインで動作し、複雑さが増している。

いくつかの学術論文や論文には、ＭＤＣＴやＭＤＳＴのような操作が記述されている。これらの操作には、「重複直交変換（ＬＯＴ）」、「拡張重複変換（ＥＬＴ）」、「変調重複変換（ＭＬＴ）」などがあります。［４］だけが同時にいくつかの異なる重複変換を述べているが、ＭＤＣＴの前述の欠点を克服していない。

したがって、改善されたアプローチが必要である。

H. S. Malvar, Signal Processing with Lapped Transforms, Norwood: Artech House, 1992. J. P. Princen and A. B. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation," IEEE Trans. Acoustics, Speech, and Signal Proc., 1986. J.P. Princen, A. W. Johnson, and A. B. Bradley,"Subband/transform coding using filter bank design based on time domain aliasing ancellation," in IEEE ICASSP, vol. 12, 1987. H.S.Malvar,"Lapped Transforms for Efficient Transform/Subband Coding,"IEEE Trans.Acoustics,Speech,and Signal Proc., 1990. http://en.wikipedia.org/wiki/Modified＿discrete＿cosine＿transform

本発明の目的は、オーディオ信号を処理するための改良された概念を提供することである。この目的は、独立請求項の主題によって解決される。

本発明は、変換カーネルの信号適応的変化または置換が、本ＭＤＣＴ符号化の前述の種類の課題を克服する可能性があるという知見に基づいている。実施形態によれば、本発明は、３つの他の同様の変換を含むようにＭＤＣＴ符号化原則を一般化することによって、従来の変換符号化に関する上記２つの課題に対処する。上記した式（１）の合成式に従って、この提案された一般化を次式（２）と定義する。

１／２定数はｋ₀定数に置き換えられ、ｃｏｓ（...）関数はｃｓ（...）関数で置き換えられていることに注意して下さい。ｋ₀とｃｓ（...）はどちらも信号とコンテキスト適応的に選択される。

実施形態によれば、ＭＤＣＴ符号化パラダイムの提案された修正は、例えば、前述の課題またはケースが扱われるように、フレームごとの瞬時入力特性に適応することができる。

実施形態は、符号化オーディオ信号を復号するためのデコーダを示す。デコーダは、スペクトル値の連続するブロックを時間値の連続するブロックに変換するために、例えば、周波数から時間への変換を介して行われる、適応型スペクトル−時間変換器を含む。デコーダは、復号されたオーディオ値を得るために、時間値の連続するブロックを重ね合わせて加算するオーバーラップ加算プロセッサをさらに含む。前記適応型スペクトル−間変換器は、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換カーネルの第１のグループと、変換カーネルの両側に同じ対称性を有する１つ以上の変換カーネルを含む変換カーネルの第２のグループとの間で、制御情報を受信し、前記制御情報に応じて切り替えるように構成される。変換カーネルの第１グループは、例えば逆ＭＤＣＴ−ＩＶ変換または逆ＭＤＳＴ−ＩＶ変換カーネルのような、変換カーネルの左側に奇数対称性を有し、変換カーネルの右側に偶数対称性を有する、又はその逆の１つ以上の変換カーネルを含むことができ、逆も同様である。第２のグループの変換カーネルは、例えば逆ＭＤＣＴ−ＩＩ変換カーネルまたは逆ＭＤＳＴ−ＩＩ変換カーネルなどの、変換カーネルの両側で偶対称性を有する変換カーネル、または変換カーネルの両側で奇数対称性を有する変換カーネルを含むことができる。変換カーネルタイプＩＩおよびＩＶについては、以下でより詳細に説明する。

このため、古典的なＭＤＣＴで信号を符号化するのと比較したとき、信号を符号化するために、スペクトル領域における１つの変換ビンの帯域幅とすることができる変換の周波数分解能の整数倍に少なくともほぼ等しいピッチを有する高調波信号に対して、変換カーネルの第２グループの変換カーネル、例えばＭＤＣＴ−ＩＩまたはＭＤＳＴ−ＩＩを使用することが有利である。言い換えれば、ＭＤＣＴ−ＩＩまたはＭＤＳＴ−ＩＩの１つを使用することは、ＭＤＣＴ−ＩＶと比較した場合、変換の周波数分解能の整数倍に近い高調波信号を符号化するのに有利である。

さらなる実施形態は、デコーダが、例えばステレオ信号などのマルチチャネル信号を復号するように構成されていることを示している。例えば、ステレオ信号の場合、通常、ミッド／サイド（Ｍ／Ｓ）ステレオ処理は、古典的な左右（Ｌ／Ｒ）ステレオ処理よりも優れている。しかしながら、両方の信号が９０度または２７０度の位相シフトを有する場合、このアプローチは機能しないか、少なくとも劣っている。実施形態によれば、ＭＤＳＴ−ＩＶベースの符号化を用いて２つのチャネルのうちの１つを符号化し、第２のチャネルを符号化するために従来のＭＤＣＴ−ＩＶ符号化を使用することが有利である。これは、オーディオチャネルの９０度または２７０度位相シフトを補償する符号化方式によって組み込まれた２つのチャネル間で９０度の位相シフトをもたらす。

さらなる実施形態は、オーディオ信号を符号化するためのエンコーダを示した。エンコーダは、時間値の重複ブロックをスペクトル値の連続するブロックに変換するための適応型時間−スペクトル変換器を含む。エンコーダは、変換カーネルの第１のグループの変換カーネルと、変換カーネルの第２のグループの変換カーネルとを切り替えるように、時間−スペクトル変換器を制御するコントローラをさらに備える。そのため、適応型スペクトル−間変換器（６）は、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換カーネルの第１のグループと、変換カーネルの両側に同じ対称性を有する１つ以上の変換カーネルを含む変換カーネルの第２のグループとの間で、制御情報（１２）を受信し、制御情報に応じて切り替える。エンコーダは、オーディオ信号の分析に関して異なる変換カーネルを適用するように構成することができる。したがって、エンコーダは、デコーダに関して既に説明した方法で変換カーネルを適用することができ、実施形態によれば、エンコーダはＭＤＣＴまたはＭＤＳＴ演算を適用し、デコーダは関連する逆演算、すなわちＩＭＤＣＴまたはＩＭＤＳＴ変換を適用する。異なる変換カーネルについては、以下で詳細に説明する。

さらなる実施形態によれば、エンコーダは、現在のフレームについて、現在のフレームを生成するために使用される変換カーネルの対称性を示す制御情報を有する符号化されたオーディオ信号を生成するための出力インターフェースを備える。出力インターフェースは、正しい変換カーネルで符号化されたオーディオ信号を復号することができるデコーダのための制御情報を生成することができる。言い換えれば、デコーダは、エンコーダによって使用される変換カーネルの逆変換カーネルを適用して、各フレームおよびチャネルにおいてオーディオ信号を符号化する必要がある。この情報は、例えば、符号化されたオーディオ信号のフレームの制御データセクションを使用して、制御情報に格納され、エンコーダからデコーダに送信されてもよい。

本発明の実施形態は、添付の図面を参照して引き続き議論される。

符号化されたオーディオ信号を復号するためのデコーダの概略ブロック図を示す。一実施形態によるデコーダにおける信号の流れを示す概略ブロック図である。一実施形態によるオーディオ信号を符号化するためのエンコーダの概略ブロック図を示す。例示的なＭＤＣＴエンコーダによって得られた一連のスペクトル値のブロックの概略を示す。例示的なＭＤＣＴエンコーダに入力される時間領域信号の概略図を示す。一実施形態による例示的なＭＤＣＴエンコーダの概略ブロック図を示す。一実施形態による例示的なＭＤＣＴデコーダの概略ブロック図を示す。４つの記述されたラップ変換の暗黙の逆畳み込み特性および対称性を概略的に示す。完全な再構成を可能にしながら、信号適応変換核スイッチングが１つのフレームから次のフレームへ変換カーネルに適用されるユースケースの２つの実施形態を概略的に示す。一実施形態による、マルチチャネルオーディオ信号を復号するためのデコーダの概略ブロック図を示す。一実施形態によるマルチチャネル処理に拡張された図３のエンコーダの概略ブロック図である。一実施形態による、２つ以上のチャネル信号を有するマルチチャネルオーディオ信号を符号化するための概略オーディオエンコーダを示す図である。一実施形態によるエンコーダ計算機の概略ブロック図を示す。一実施形態による別のエンコーダ計算機の概略ブロック図を示す。一実施形態によるコンバイナにおける第１および第２のチャネルの例示的な組み合わせルールの概略図を示す。一実施形態によるデコーダ計算器の概略ブロック図を示す。一実施形態による行列計算器の概略ブロック図を示す。一実施形態による図１１Ｃの組合せルールに対する例示的な逆結合ルールの概略図を示す。一実施形態によるオーディオエンコーダの実装の概略ブロック図を示す。一実施形態による、図１３Ａに示されたオーディオエンコーダに対応するオーディオデコーダの概略ブロック図を示す。一実施形態によるオーディオエンコーダのさらなる実装の概略ブロック図を示す。一実施形態による、図１４Ａに示されるオーディオエンコーダに対応するオーディオデコーダの概略ブロック図を示す。符号化されたオーディオ信号を復号する方法の概略ブロック図である。オーディオ信号を符号化する方法の概略ブロック図を示す。

以下では、本発明の実施形態をさらに詳細に説明する。同一または類似の機能を有するそれぞれの図に示された要素は、同じ参照符号と関連付けられている。

図１は、符号化オーディオ信号４を復号するためのデコーダ２の概略ブロック図を示す。デコーダは、適応型スペクトル−時間変換器６とオーバーラップ加算器８を含む。適応型スペクトル−時間変換器は、スペクトル値４’の連続するブロックを例えば周波数−時間変換を介して時間値の連続するブロック１０に変換する。さらに、前記適応型スペクトル−間変換器（６）は、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換カーネルの第１のグループと、変換カーネルの両側に同じ対称性を有する１つ以上の変換カーネルを含む変換カーネルの第２のグループとの間で、制御情報（１２）を受信し、前記制御情報に応じて切り替える。さらに、オーバーラップ加算プロセッサ８は、連続する時間値ブロック１０をオーバーラップして加算し、復号されたオーディオ値１４を得る。復号されたオーディオ値１４は、復号されたオーディオ信号であってもよい。

実施形態によれば、制御情報１２は、現在のフレームの現在の対称性を示す現在ビットを含むことができ、適応型スペクトル−時間変換器６は、現在のビットが前のフレームで使用されていたのと同じ対称性を示すとき、現在のビットが第１グループから第２グループに切り替わらないように構成される。換言すれば、例えば制御情報１２は、前のフレームに対して第１のグループの変換カーネルを使用することを示し、現在のフレームおよび前のフレームが同じ対称性を含む場合、例えば、現在のフレームの現在のビットと前のフレームが同じ状態を有する場合に示される第１のグループの変換カーネルが適用され、これは、適応型スペクトル−時間変換器が第１の変換カーネルグループから第２の変換カーネルグループに切り替わらないことを意味する。他の方法、すなわち、第２のグループに留まる、または第２のグループから第１のグループに切り替わらないために、現在のフレームの現在の対称性を示す現在のビットは、前のフレームで使用されたものとは異なる対称性を示す。言い換えれば、現在の対称性と以前の対称性が等しい場合、前のフレームが第２のグループからの変換カーネルを用いて符号化されていれば、現在のフレームは第２のグループの逆変換カーネルを用いて復号される。

さらに、現在のフレームの現在の対称性を示す現在のビットが、前のフレームで使用されたものとは異なる対称性を示す場合、適応型スペクトル−時間変換器６は、第１のグループから第２のグループに切り替わるように構成される。より具体的には、現在のフレームの現在の対称性を示す現在のビットが前のフレームで使用されたものとは異なる対称性を示すとき、適応型スペクトル時間変換器６は、第１のグループを第２のグループに切り替えるように構成される。さらに、現在のフレームの現在の対称性を示す現在のビットが、前のフレームで使用されたのと同じ対称性を示す場合に、適応型スペクトル−時間変換器６は、第２のグループを第１のグループに切り替えることができる。より具体的には、現在のフレームと前のフレームが同じ対称性を含み、前のフレームが変換カーネルの第２のグループの変換カーネルを使用して符号化されている場合、現在のフレームは、変換カーネルの第１のグループの変換カーネルを使用して復号されてもよい。制御情報１２は、以下に明らかになるように、符号化されたオーディオ信号４から導出されてもよく、または別個の伝送チャネルまたは搬送波信号を介して受信されてもよい。さらに、現在のフレームの現在の対称性を示す現在のビットは、変換カーネルの右側の対称性であってもよい。

PrincenとBradleyの１９８６年の論文［２］では、コサイン関数かサイン関数の三角関数を使った２つのラップ変換が記述されている。その記事で「ＤＣＴベース」と呼ばれる最初のものは、（２）ｃｓ（）＝ｃｏｓ（）とｋ_o＝０を設定することによって取得でき、もう１つは「ＤＳＴベース」と呼ばれ、ｃｓ（）＝ｓｉｎ（）およびｋ_o＝１の場合に（２）によって与えられ、定義されている。画像符号化でよく使用されるＤＣＴ−ＩＩとＤＳＴ−ＩＩとのそれぞれの類似性のために、この文書では、（２）の一般的な定式化のこれらの特定のケースが、それぞれ「ＭＤＣＴタイプＩＩ」変換および「ＭＤＳＴタイプＩＩ」変換として宣言される。PrincenとBradleyは、１９８７年の論文［３］で調査を続け、ｃｓ（）＝ｃｏｓ（）とｋ_o＝０．５の共通ケースを提案し、（１）で導入され、一般に「ＭＤＣＴ」として知られている。説明を明確にするために、そしてＤＣＴ−ＩＶとの関係のために、この変換を本明細書では「ＭＤＣＴタイプＩＶ」と呼ぶ。観察者は、ＤＳＴ−ＩＶに基づいて、ｃｓ（）＝ｃｏｓ（）およびｋ_o＝０．５を用いて（２）を用いて得られた、「ＭＤＳＴタイプＩＶ」と呼ばれる残りの可能な組み合わせを既に特定している。実施形態は、これらの４つの変換の間で信号−適応的にいつ切り替えるかを説明する。

［１−３］で指摘したように、完全な再構成特性（スペクトル量子化または他の歪みの導入がない分析および合成変換後の入力信号の同一の再構成）が保持されるように、４つの異なる変換カーネル間の本質的な切り替えがどのように達成されるかに関するいくつかの規則を定義することは価値がある。この目的のために、（２）に従う合成変換の対称的な拡張特性を調べることが有用であり、これは図６に関して示されている。
・ＭＤＣＴ−ＩＶは、その左側で奇数対称性を示し、その右側で偶数対称性を示す。合成された信号は、この変換の信号の逆畳み込みの間、その左側で反転される。
・ＭＤＳＴ−ＩＶは、その左側で偶数対称性を示し、その右側で偶数対象性を示す。合成された信号は、この変換の信号の逆畳み込みの間、その右側で反転される。
・ＭＤＣＴ−ＩＩは、その左側で偶数対称性を示し、その右側で奇数対称性を示す。合成された信号は、この変換の信号の逆折畳みの間のいずれの側でも反転されない。
・ＭＤＳＴ−ＩＩは、その左側で奇数対称を示し、その右側で偶数対称性を示す。合成された信号は、この変換の信号の逆畳み込みの間、両側で反転される。

さらに、デコーダにおいて制御情報１２を導出するための２つの実施形態について説明する。制御情報は、例えば、上述の４つの変換のうちの１つを示すためにｋ₀の値とｃｓ（）とを含んでもよい。したがって、適応型スペクトル−時間変換部は、符号化されたオーディオ信号から、前のフレームの制御情報および前のフレームに続く制御情報を、現在のフレームの制御データセクションの符号化されたオーディオ信号から読み出すことができる。オプションで、適応型スペクトル−時間変換部６は、現在のフレームの制御データ部から制御情報１２を読み出すようにしてもよく、また、前のフレームの制御データ部から、あるいは前のフレームに適用されたデコーダ設定から、前のフレームについての制御情報を読み出すようにしてもよい。言い換えると、制御情報は、制御データセクションから直接導出されてもよく、ヘッダーにおいて、現在のフレームまたは前のフレームのデコーダ設定から導出されてもよい。

以下、好ましい実施形態に従って、エンコーダとデコーダとの間で交換される制御情報を説明する。このセクションは、サイド情報（すなわち、制御情報）がどのように符号化されたビットストリームでシグナリングされ、導出されるかについて、および、ロバスト（例えば、フレーム損失に対して）の方法で適切な変換カーネルを導出して適用する方法について説明する。

好ましい実施形態によれば、本発明は、ＭＰＥＧ−ＤＵＳＡＣ（拡張ＨＥ−ＡＡＣ）またはＭＰＥＧ-Ｈ３Ｄオーディオコーデックに統合することができる。決定された副情報は、各周波数領域（ＦＤ）チャネルおよびフレームに対して利用可能な、いわゆるfd channel stream要素内で送信することができる。より具体的には、scale＿factor＿data（）ビットストリーム要素の直前または直後に、１ビットのcurrAliasingSymmetryフラグが（エンコーダによって）書き込まれ、（デコーダによって）読み出される。所与のフレームが独立フレーム、すなわちindepFlag == １である場合、別のビット prevAliasingSymmetry が書き込まれ、読み出される。これにより、左側と右側の両方の対称性、および結果として得られる変換カーネルは前記フレームおよびチャネル内で使用され、ビットストリーム伝送中に前のフレームが失われても、デコーダ内で識別され（適切に復号され）得る。フレームが独立したフレームでない場合、prevAliasingSymmetry は書き込まれず読み出されないが、前のフレームで currAliasingSymmetry が保持していた値に等しく設定される。さらなる実施形態によれば、異なるビットまたはフラグを使用して、制御情報（すなわち、副情報）を示すことができる。

次に、ｃｓ（）およびｋ₀のそれぞれの値は、currAliasingSymmetry およびprevAliasingSymmetry フラグから導出される（currAliasingSymmetryはｓｙｍｍ_i と、prevAliasingSymmetryはｓｙｍｍ_i-1と、略される）。換言すれば、ｓｙｍｍ_iはインデックスｉにおける現在のフレームの制御情報であり、ｓｙｍｍ_i-1 はインデックスｉ-1における前のフレームの制御情報である。表１は、送信および／または他の方法で導出された対称性に関するサイド情報に基づいておよびｃｓ（...）の値を指定するデコーダ側決定マトリクスを示す。したがって、適応型スペクトル−時間変換器は、以下の表１に基づいて変換カーネルを適用することができる。

最後に、ｃｓ（）およびｋ₀ がデコーダにおいて決定されると、所与のフレームおよびチャネルに対する逆変換は、式（２）を使用して適切なカーネルで実行され得る。この合成変換の前および後に、デコーダは、窓掛けに関しても従来技術のように通常通り動作することが可能である。

図２は、一実施形態によるデコーダにおける信号フローを示す概略ブロック図を示し、ここで、実線は信号を示し、破線はサイド情報を示し、ｉはフレームインデックスを示し、ｘｉはフレーム時間−信号出力を示す。ビットストリームデマルチプレクサ１６は、スペクトル値４’および制御情報１２の連続ブロックを受信する。一実施形態によれば、スペクトル値４’’および制御情報１２の連続するブロックは、共通信号に多重化され、ビットストリームデマルチプレクサは、共通信号から連続するスペクトル値のブロックおよび制御情報を導出するように構成される。スペクトル値の連続するブロックはさらにスペクトルデコーダ１８に入力されてもよい。さらに、現在のフレーム１２および前のフレーム１２’の制御情報がマッパ２０に入力され、表１に示すマッピングを適用する。実施形態によれば、前のフレーム１２’の制御情報は、符号化されたオーディオ信号、すなわちスペクトル値の前のブロック、または前のフレームに対して適用されたデコーダの現在のプリセットを使用して導出されてもよい。スペクトル値４’’のスペクトル的に復号化された連続したブロックと、パラメータｃｓおよびｋ₀ を含む処理された制御情報１２’は、図１の適応型スペクトル−時間変換器６である逆カーネル適応ラップトランスに入力される。出力は、例えば時間値の連続するブロックの境界における不連続性を克服するために、合成窓７を使用して随意的に処理することができる時間値１０の連続するブロックであってもよく、オーバーラップ加算アルゴリズムを実行してデコードされたオーディオ値１４を導出するためにオーバーラップ加算プロセッサ８に入力される。マッパ２０および適応型スペクトル時間変換器６は、オーディオ信号の復号化の別の位置にさらに移動することができる。したがって、これらのブロックの位置は単なる提案に過ぎない。さらに、制御情報は、対応するエンコーダを使用して計算されてもよく、その実施形態は、例えば、図３に関して記載される。

図３は、一実施形態によるオーディオ信号を符号化するためのエンコーダの概略ブロック図を示す。エンコーダは、適応型時間−スペクトル変換器２６およびコントローラ２８を備える。適応型時間−スペクトル変換器２６は、例えばブロック３０’および３０’’を含む時間値３０の重複ブロックをスペクトル値４’の連続するブロックに変換する。さらに、適応型スペクトル−時間変換器（６）は、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換カーネルの第１のグループと、変換カーネルの両側に同じ対称性を有する１つ以上の変換カーネルを含む変換カーネルの第２のグループとの間で、制御情報（１２）を受信し、制御情報に応じて切り替える。さらに、コントローラ２８は、時間−スペクトル変換器を制御して、変換カーネルの第１のグループの変換カーネルと、変換カーネルの第２のグループの変換カーネルとを切り替えるように構成される。任意選択的に、エンコーダ２２は、現在のフレームについて、符号化されたオーディオ信号を生成するために、符号化されたオーディオ信号を生成する出力インターフェース３２と、現在のフレームを生成するために使用される変換カーネルの対称性を示す制御情報１２とを含む。現在のフレームは、スペクトル値の連続するブロックの現在のブロックであってもよい。出力インターフェースは、現在のフレームの制御データセクションに、現在のフレームと独立したフレームである前のフレームとの対称性情報を含むことができ、または現在のフレームの制御データセクションに含めることができる。そして、現フレームが従属フレームである場合には、現フレームの対称情報のみ、前フレームの対称情報は存在しない。出力インターフェースは、現在のフレームの制御データセクションに、現在のフレームおよび前のフレームのための対称情報を含むことができ、現在のフレームは独立フレームであり、または現在のフレームの制御データセクションに現在のフレームの対称情報のみを含み、現在のフレームが従属フレームである場合、前のフレームの対称情報を含まない。独立したフレームは、たとえば独立したフレームヘッダを含み、これにより、前のフレームの知識なしに現在のフレームを確実に読み取ることができる。依存するフレームは、例えば、可変ビットレートスイッチングを有するオーディオファイルである。したがって、従属フレームは、１つまたは複数の前のフレームの知識だけで読み取ることができる。独立したフレームは、たとえば独立したフレームヘッダを含み、これにより、前のフレームの知識なしに現在のフレームを確実に読み取ることができる。従属するフレームは、例えば、可変ビットレートスイッチングを有するオーディオファイルである。したがって、従属フレームは、１つまたは複数の前のフレームの知識だけで読み取ることができる。

コントローラは、例えば、少なくとも変換の周波数分解能の整数倍に近い基本周波数に関して、オーディオ信号２４を分析するように構成することができる。従って、制御装置は、制御情報１２を用いて、適応型時間−スペクトル変換器２６および任意に出力インターフェース３２に供給する制御情報１２を導出することができる。制御情報１２は、変換カーネルの第１グループまたは変換カーネルの第２グループの適切な変換カーネルを示すことができる。変換カーネルの第１のグループは、カーネルの左側に奇数対称性を有し、且つ、カーネルの右側に偶数対称性を有する、あるいはその逆の１つ以上の変換カーネルを有してもよく、あるいは、変換カーネルの第２グループが、カーネルの両側で偶対称性を有するか、またはカーネルの両側で奇数対称性を有する１つ以上の変換カーネルを含むことができる。換言すれば、変換カーネルの第１のグループは、ＭＤＣＴ−ＩＶ変換カーネルまたはＭＤＳＴ−ＩＶ変換カーネルを含むことができ、変換カーネルの第２のグループは、ＭＤＣＴ−ＩＩ変換カーネルまたはＭＤＳＴ−ＩＩ変換カーネルを含むことができる。符号化されたオーディオ信号を復号するために、デコーダは、それぞれの逆変換をエンコーダの変換カーネルに適用することができる。したがって、デコーダは、変換カーネルの第１のグループが、逆ＭＤＣＴ−ＩＶ変換カーネルまたは逆ＭＤＳＴ−ＩＶ変換カーネルを含むことができ、または変換カーネルの第２のグループが、逆ＭＤＣＴ−ＩＩ変換カーネルまたは逆ＭＤＳＴ−ＩＩ変換カーネルを含むことができる。

言い換えれば、制御情報１２は、現在のフレームに対する現在の対称性を示す現在のビットを含むことができる。さらに、適応型スペクトル−時間変換器６は、現在のビットが前のフレームで使用されたものと同じ対称性を示すとき、第１のグループから第２のグループの変換カーネルに切り替えないように構成されてもよく、現在のビットが前のフレームで使用されたものとは異なる対称性を示すとき、適応型スペクトル−時間変換器は、第１のグループから第２のグループの変換カーネルに切り替えるように構成される。

さらに、適応型スペクトル−時間変換器６は、現在のビットが前のフレームで使用されたものとは異なる対称性を示すとき、第２のグループから第１のグループの変換カーネルに切り替えないように構成することができ、現在のビットが前のフレームで使用されたのと同じ対称性を示すとき、適応型スペクトル時間変換器は、第２のグループから第１のグループの変換カーネルに切り替わるように構成される。

エンコーダ側または分析側またはデコーダ側または合成側のいずれかの時間部分とブロックとの関係を示すために、図４Ａおよび図４Ｂを参照する。

図４Ｂは、０番目の時間部分から３番目の時間部分の概略図を示し、これらの次の時間部分の各時間部分は、ある重複範囲１７０を有する。これらの時間部分に基づいて、重複時間部分を表す連続する一連のブロックは、エイリアシング−導入変換動作の分析側を示す図５Ａに関してより詳細に説明する処理によって生成される。

特に、図４Ｂが分析側に適用されるときの図４Ｂに示される時間領域信号は、分析窓を適用する窓掛け部２０１によって窓掛けされる。したがって、０番目の時間部分を得るために、例えば、２０４８サンプル、特にサンプル１〜サンプル２０４８に分析窓を適用する。従って、Ｎは１０２４に等しく、窓掛けは２Ｎサンプルの長さを有し、この例は２０４８である。次に、窓掛け部が、ブロックの第１のサンプルとしてのサンプル２０４９ではなく、第１の時間部分を得るためにブロック内の第１のサンプルとしてのサンプル１０２５に対して、さらなる分析操作を適用される。したがって、５０％の重なりについて１０２４サンプル長である第１の重なり範囲１７０が得られる。この手順は、第２および第３の時間部分に対して付加的に適用されるが、ある重なり範囲１７０を得るために常に重なり合う。

オーバーラップは、必ずしも５０％のオーバーラップである必要はないが、オーバーラップは、より高くても低くてもよく、マルチオーバーラップであってもよいことが強調されるべきである。すなわち、時間領域のオーディオ信号のサンプルが２つの窓および結果としてスペクトル値のブロックに寄与しないように２つ以上の窓のオーバーラップが得られるが、サンプルはスペクトル値の２つ以上の窓／ブロックに寄与する。一方、当業者であれば、０の部分および／または１の値を有する部分を備えた図５Ａの窓掛け部２０１によって適用可能な他の窓掛け形状が存在することがさらに理解される。このような単一の値を有する部分に対して、そのような部分は、典型的には、先行または後続の窓の０部分と重複し、したがって、単一の値を有する窓の一定部分に位置する特定のオーディオサンプルは、単一のスペクトル値のブロックにのみ寄与する。

図４Ｂによって得られた窓掛けされた（窓化済み）時間部分は、畳み込み操作を実行するためにフォルダ２０２に伝送される。この畳み込み操作は、例えば、フォルダ２０２の出力において、ブロック当たりＮ個のサンプルを有するサンプリング値のブロックのみが存在するように、畳み込みを実行することができる。そして、フォルダ２０２による畳み操作に続いて、時間−周波数変換器が適用され、そして、それは、入力側のブロック当たりＮ個のサンプルを時間−周波数変換器２０３の出力側でＮ個のスペクトル値に変換するＤＣＴ−ＩＶ変換器である。

したがって、ブロック２０３の出力で得られたスペクトル値の一連のブロックが図４Ａに示されており、具体的には、図１Ａおよび図１Ｂに１０２で示す第１の変更値を関連付け、図１Ａおよび１Ｂに示す第２の変更値に関連する第２の変更値１９２を有する第１のブロック１９１を示している。当然のことながら、シーケンスは、第２のブロックに先行する、または図示のように第１のブロックに先行するブロック１９３または１９４をさらに有する。第１および第２のブロック１９１，１９２は、例えば、図４Ｂの窓掛けされた第１の時間部分を変換して第１のブロックを得ることによって得られ、そして、第２のブロックは図５Ａの時間−周波数変換器２０３によって、図４Ｂの窓掛けされた第２の時間部分を変換することによって得られる。したがって、一連のスペクトル値のブロックにおいて、時間的に隣接するスペクトル値の両方のブロックは、第１の時間部分および第２の時間部分をカバーするオーバーラップ範囲を表す。

続いて、図５Ｂは、図５Ａのエンコーダまたは分析側処理の結果の合成側またはデコーダ側の処理を示すために説明される。図５Ａの周波数変換器２０３によって出力された一連のスペクトル値のブロックは、変更子２１１に入力される。概説したように、スペクトル値の各ブロックは、図４Ａ〜図５Ｂに示される例についてＮ個のスペクトル値を有する（これは、Ｍが使用される式（１）および（２）とは異なることに留意されたい）。各ブロックは、図１Ａおよび１Ｂに示す１０２，１０４のような変更値を関連付けている。次に、典型的なＩＭＤＣＴ動作または冗長性低減合成変換では、周波数−時間変換器２１２、逆畳み込みのためのフォルダ２１３、合成窓を適用するための窓掛け部２１４、および、オーバーラップ／加算操作が、重複範囲内の時間領域信号を得るために実行されるブロック２１５によって示される。この例では、ブロックごとに２Ｎ個の値があるので、各オーバーラップ・アンド・オペレーションの後に、変更値１０２，１０４が時間または周波数に亘って可変ではない場合、Ｎ個の新しいエイリアシングのない時間領域サンプルが得られる。しかし、これらの値が時間と周波数によって変動する場合、ブロック２１５の出力信号はエイリアシングフリーではなく、この課題は、図１Ｂおよび１Ａの文脈で議論され、本明細書の他の図の文脈で議論されるように、本発明の第１および第２の態様によって対処される。

続いて、図５Ａおよび図５Ｂのブロックによって実行される手順のさらなる説明が与えられる。

この図は、ＭＤＣＴを参照することによって例示されているが、他のエイリアシング導入変換も同様の類似の方法で処理することができる。重複変換として、ＭＤＣＴは、（同じ数ではなく）入力の半分の出力を持つ点で、他のフーリエ関連変換に比べて少し珍しい。特に、それは線形関数Ｆ：Ｒ^2N→ Ｒ^N である（Ｒは実数の集合を表している）。２Ｎ個の実数ｘ０，．．．，ｘ２Ｎ−１は、次の式に従ってＮ個の実数Ｘ０，．．．，ＸＮ−１に変換される。

（この変換の前の正規化係数、ここでは単一性は任意の慣例であり、処理ごとに異なる。下記のＭＤＣＴとＩＭＤＣＴの正規化の積のみが制約される）。

逆ＭＤＣＴは、ＩＭＤＣＴとして知られている。一見すると、入力と出力の数が異なるため、ＭＤＣＴが反転できないように見えるかも知れない。しかし、完全な可逆性は、時間的に隣接するオーバーラップするブロックのオーバーラップされたＩＭＤＣＴを加算し、エラーをキャンセルし、元のデータを取り出すことによって達成される。この技術は、時間領域エイリアシングキャンセル（ＴＤＡＣ）として知られている。

ＩＭＤＣＴは、Ｎ個の実数Ｘ０，．．．，ＸＮ−１を２Ｎ個の実数ｙ０，．．．，ｙ２Ｎ−１に変換する次の式に従う。

（直交変換であるＤＣＴ−ＩＶの場合と同様に、逆関数も順変換と同じ形式である。）

通常の正規化窓（下記参照）を有する窓掛けされたＭＤＣＴ（窓掛け済みＭＤＣＴ）の場合、ＩＭＤＣＴの前の正規化係数は２倍（すなわち、２／Ｎになる）にすべきである。

典型的な信号圧縮アプリケーションでは、変換特性は、ＭＤＣＴおよびＩＭＤＣＴ公式においてｘｎおよびｙｎと乗算される窓関数ｗｎ（ｎ＝０，．．．，２Ｎ−１）を使用することによってさらに改善され、ｎ＝０および２Ｎ境界における不連続性を回避するために、これらの点で関数がゼロに滑らかに進むようにする。（つまり、ＭＤＣＴの前とＩＭＤＣＴの後にデータを窓掛けする。）原理的には、ｘとｙは異なる窓関数を持つことができ、窓関数はあるブロックから次のブロックに変更することもできる（特に、異なるサイズのデータブロックが結合されている場合）が、簡略化のために、等しいサイズのブロックに対して同一の窓関数の一般的なケースを考慮している。

ＭＤＣＴに適用される窓は、Princen-Bradley条件を満たさなければならないため、他の種類の信号分析に使用される窓とは異なる。この違いの理由の１つは、ＭＤＣＴ（解析）とＩＭＤＣＴ（合成）の両方に対して、ＭＤＣＴ窓が２回適用されることである。

定義を調べることによって分かるように、Ｎについても、ＭＤＣＴは、入力がＮ／２だけシフトされ、２つのＮブロックのデータが一度に変換されるＤＣＴ−ＩＶと本質的に同等である。この同等性をより慎重に検討することにより、ＴＤＡＣのような重要な特性を容易に導出することができる。

ＤＣＴ−ＩＶとの正確な関係を定義するために、ＤＣＴ−ＩＶは偶数／奇数境界条件（すなわち対称条件）を交互にすることに対応することを認識しなければならない。左境界（約ｎ＝−１／２）、（ｎ＝Ｎ＝−１／２の周りの）右境界線で奇数であり、ＤＦＴのように周期的境界の代わりに続くようにしてもよい。これは、次式に従う。

したがって、その入力が長さＮの配列ｘである場合、この配列を（ｘ，−ｘＲ，−ｘ，ｘＲ，．．．）に拡張すると想像することができる。ここで、ｘＲはｘを逆順に表す。

２Ｎ個の入力とＮ個の出力を有するＭＤＣＴを考えてみる。ここでは、入力をサイズＮ／２の４つのブロック（ａ，ｂ，ｃ，ｄ）に分割する。ＭＤＣＴ定義の＋Ｎ／２項からＮ／２だけ右にシフトすると、（ｂ，ｃ，ｄ）はＮ個のＤＣＴ−ＩＶ入力の終わりを超えて延び、上記の境界条件に従ってそれらを「畳み込む」必要があります。

したがって、２Ｎ入力（ａ，ｂ，ｃ，ｄ）のＭＤＣＴは、Ｎ入力のＤＣＴ−ＩＶと正確に等価である（−ｃＲ−ｄ、ａ−ｂＲ）。

これは、図５Ａの窓関数２０２について例示されている。ａは部分２０４ｂであり、ｂは部分２０５ａであり、ｃは部分２０５ｂであり、ｄは部分２０６ａである。

（このようにして、ＤＣＴ−ＩＶを計算するアルゴリズムは、ＭＤＣＴに自明に適用できる。）同様に、上のＩＭＤＣＴの公式は、ＤＣＴ−ＩＶ（それ自身の逆数）の正確に１／２であり、出力は（境界条件を介して）長さ２Ｎに拡張され、左にＮ／２だけ戻される。逆ＤＣＴ−ＩＶは、上から入力（−ｃＲ−ｄ、ａ−ｂＲ）を返すだけである。これが境界条件によって拡張され、シフトされると、
ＩＭＤＣＴ（ＭＤＣＴ（ａ，ｂ，ｃ，ｄ））＝（ａ−ｂＲ，ｂ−ａＲ，ｃ＋ｄＲ，ｄ＋ｃＲ）／２
となる。

したがって、ＩＭＤＣＴ出力の半分は、ｂ−ａＲ＝−（ａ−ｂＲ）Ｒのように冗長であり、最後の２つの項についても同様である。入力をＡ＝（ａ，ｂ）およびＢ＝（ｃ，ｄ）のサイズＮのより大きなブロックＡ、Ｂにグループ化すると、この結果をより簡単な方法
ＩＭＤＣＴ（ＭＤＣＴ（Ａ，Ｂ））＝（Ａ−ＡＲ，Ｂ＋ＢＲ）／２
で書くことができる。

ＴＤＡＣの仕組みを理解できるようになる。時間的に隣接し、５０％重複した２Ｎブロック（Ｂ、Ｃ）のＭＤＣＴを計算すると仮定する。ＩＭＤＣＴは、上記と同様に（Ｂ−ＢＲ，Ｃ＋ＣＲ）／２となる。これが以前のＩＭＤＣＴ結果と重複する半分で加算されると、逆の項はキャンセルされ、単純にＢを取得して元のデータを回復する。

「時間領域エイリアシングキャンセル」という用語の由来は現在はっきりしている。論理ＤＣＴ−ＩＶの境界を越えて伸びる入力データの使用は、ナイキスト周波数を超える周波数が低い周波数にエイリアシングされるのと同じ方法（拡張対称性に関して）でエイリアスを引き起こし、（ａ，ｂ，ｃ，ｄ）のＭＤＣＴへの寄与とｂＲの寄与を区別することができないか、または等価的に、ＩＭＤＣＴ（ＭＤＣＴ（ａ，ｂ，ｃ，ｄ））=（ａ−ｂＲ、ｂ−ａＲ、ｃ＋ｄＲ、ｄ＋ｃＲ）／２の結果に変換する。組み合わせｃ−ｄＲなどは、組み合わせが追加されたときに取り消す正しい記号を正確に持っている。

奇数Ｎ（実際にはめったに使用されない）の場合、Ｎ／２は整数ではないので、ＭＤＣＴは単なるＤＣＴ−ＩＶのシフト置換ではない。この場合、サンプルの半分の追加シフトは、ＭＤＣＴ／ＩＭＤＣＴがＤＣＴ−ＩＩＩ／ＩＩと同等になることを意味し、分析は上記と同様である。

２Ｎ個の入力（ａ，ｂ，ｃ，ｄ）のＭＤＣＴは、Ｎ個の入力（−ｃＲ−ｄ、ａ−ｂＲ）のＤＣＴ−ＩＶと等価であることを上記から見てきた。ＤＣＴ−ＩＶは、右境界の関数が奇数の場合に設計されているため、右境界付近の値は０に近い値になる。入力信号が滑らかであれば、入力シーケンス（ａ，ｂ，ｃ，ｄ）ではａとｂＲの右端の成分が連続しているため、その差は小さい。区間の中央を見てみましょう。上の式を（−ｃＲ−ｄ，ａ−ｂＲ）＝（−ｄ，ａ）−（ｂ，ｃ）Ｒと書き換えると、第２の（ｂ，ｃ）Ｒは真ん中である。しかし、第１項（−ｄ，ａ）では、−ｄの右端がａの左端と一致する不連続点がある。これは、入力シーケンス（ａ，ｂ，ｃ，ｄ）の境界付近の成分を０に向かって減らす窓関数を使用する理由である。

上記のように、通常のＭＤＣＴではＴＤＡＣプロパティが証明され、時間的に隣接するブロックのＩＭＤＣＴをオーバーラップする半分に追加すると元のデータが回復することが示されている。窓掛けされたＭＤＣＴ（窓掛け済みＭＤＣＴ）に対するこの逆特性の導出は、わずかに複雑であるだけである。

したがって、ＭＤＣＴ（Ａ，Ｂ）を実行する代わりに、すべての乗算が要素ごとに実行されたＭＤＣＴ_S（ＷＡ，Ｗ_RＢ）が現在存在する。これがＩＭＤＣＴに入力され、窓関数によって再び（要素ごとに）乗算されると、最後のＮの半分は次のようになる。
Ｗ_R・（Ｗ_RＢ＋（Ｗ_RＢ）_R）＝Ｗ_R・（Ｗ_RＢ＋ＷＢ_R）＝Ｗ_R ²Ｂ＋ＷＷ_RＢ_R

（ＩＭＤＣＴの正規化は、窓掛けされたケースでは２倍異なるため、乗算は１／２にならない）。

同様に、窓掛けされた（Ｂ，Ｃ）のＭＤＣＴおよびＩＭＤＣＴは、最初のＮの半分で次のようになる。
Ｗ・（ＷＢ−Ｗ_RＢ_R）＝Ｗ²Ｂ−ＷＷ_RＢ_R

これらの２つの半分を一緒に追加すると元のデータが復元される。再構成は、２つのオーバーラップする窓の半分がPrincen-Bradley条件を満たすとき、窓の切り替えのコンテキストでも可能である。エイリアシング解除は、この場合、上記と全く同じ方法で行うことができる。複数の重複変換では、関連するすべてのゲイン値を使用して３つ以上の分岐が必要になる。

これまでは、ＭＤＣＴ、より具体的にはＭＤＣＴ−ＩＶの対称性または境界条件について説明してきた。ＭＤＣＴ−ＩＩ、ＭＤＳＴ−ＩＩ、およびＭＤＳＴ−ＩＶという他の変換カーネルについても説明が有効である。しかし、他の変換カーネルの異なる対称性または境界条件を考慮する必要があることに留意しなければならない。

図６は、４つの記述された重複変換の暗黙の逆畳み込み特性および対称性（すなわち境界条件）を概略的に示す。変換は、４つの変換のそれぞれについての第１の合成基底関数を介して（２）から導出される。ＩＭＤＣＴ−ＩＶ３４ａ、ＩＭＤＣＴ−ＩＩ３４ｂ、ＩＭＤＳＴ−ＩＶ３４ｃおよびＩＭＤＳＴ−ＩＩ３４ｄは、経時的な振幅サンプルの模式図で示されている。図６は、上述のような変換カーネルの間の対称軸３５（すなわち折りたたみ点）での変換カーネルの偶数および奇数対称性を明確に示している。

時間領域エイリアシングキャンセル（ＴＤＡＣ）プロパティは、ＯＬＡ（オーバーラップアンドアド）処理中に偶数および奇数対称拡張が合計されるとき、そのエイリアシングがキャンセルされることを示す。換言すれば、ＴＤＡＣが発生するためには、奇数の右側対称性を有する変換の後に、偶数の左側対称性を有する変換が行われなければならず、その逆もまた同様である。
したがって、
・（逆の）ＭＤＣＴ−ＩＶの後には、逆ＭＤＣＴ−ＩＶまたは逆ＭＤＳＴ−ＩＩを続ける。
・（逆の）ＭＤＳＴ−ＩＶの後には、逆ＭＤＳＴ−ＩＶまたは逆ＭＤＣＴ−ＩＩを続ける。
・（逆の）ＭＤＣＴ−ＩＩの後には、逆ＭＤＣＴ−ＩＶまたは逆ＭＤＳＴ−ＩＩを続ける。
・（逆の）ＭＤＳＴ−ＩＩの後には、逆ＭＤＳＴ−ＩＶまたは逆ＭＤＣＴ−ＩＩを続ける。

図７の（ａ）、図７の（ｂ）は、完全な再構成を可能にしながら、信号適応型変換カーネルスイッチングが１つのフレームから次のフレームへ変換カーネルに適用されるユースケースの２つの実施形態を概略的に示す。言い換えれば、上述の変換シーケンスの２つの可能なシーケンスが図７に例示されている。ここで、実線（線３８ｃなど）は変換窓を示し、破線３８ａは変換窓の左側エイリアシング対称性を示し、点線３８ｂは変換窓の右側エイリアシング対称性を示す。さらに、対称ピークは偶対称を示し、対称谷は奇対称を示す。図７の（ａ）において、フレームｉの３６ａおよびフレームｉ＋１の３６ｂは、ＭＤＣＴ−ＩＶ変換カーネルであり、フレームｉ＋２の３６ｃにおいて、フレームｉ＋３の３６ｄで使用されるＭＤＣＴ−ＩＩ変換カーネルへの遷移としてＭＳＴ−ＩＩが使用される。フレームｉ＋４の３６ｅは、ＭＤＳＴ−ＩＩを再び使用し、例えば図７の（ａ）には示されていないフレームｉ＋５のＭＤＣＴ−ＩＩにＭＤＳＴ−ＩＶを再び使用する。しかしながら、図７の（ａ）は、破線３８ａおよび点線３８ｂが、後続の変換カーネルを補償することを明確に示している。言い換えれば、現フレームの左側エイリアシング対称性と前のフレームの右側エイリアシング対称性を合計すると、点線と点線の和が０に等しいので、完全な時間領域エイリアシングキャンセル（ＴＤＡＣ）が得られる。左右のエイリアシング対称性（または境界条件）は、例えば図５Ａおよび図５Ｂに記載された畳み込み特性に関連し、ＭＤＣＴが２Ｎ個のサンプルを含む入力からＮ個のサンプルを含む出力を生成した結果である。

図７の（ｂ）は、図７の（ａ）と同様であり、フレームｉからフレームｉ＋４に対する異なる一連の変換カーネルを使用するのみである。フレームｉ３６ａでは、ＭＤＣＴ−ＩＶが使用され、フレームｉ＋１の３６ｂは、フレームｉ＋２の３６ｃで使用されるＭＤＳＴ−ＩＶへの遷移としてＭＤＳＴ−ＩＩを使用する。フレームｉ＋３は、フレームｉ＋２の３６ｄで使用されるＭＤＳＴ−ＩＶ変換カーネルからフレームｉ＋４の３６ｅのＭＤＣＴ−ＩＶ変換カーネルへの遷移としてＭＤＣＴ−ＩＩ変換カーネルを使用する。

変換シーケンスに対する関連決定マトリクスを表１に示す。

実施形態は、ＨＥ−ＡＡＣのようなオーディオコーデックにおいて提案された適応型変換カーネルスイッチングがどのようにして有利に採用されて、冒頭に述べた２つの課題を最小限に抑え、あるいは回避するかをさらに示している。以下は、従来のＭＤＣＴによって準最適にコード化された高調波信号に対処する。ＭＤＣＴ−ＩＩまたはＭＤＳＴ−ＩＩへの適応的遷移は、例えば入力信号の基本周波数に基づいてエンコーダによって実行されてもよい。より具体的には、入力信号のピッチが、変換の周波数分解能の整数倍（すなわち、スペクトル領域における１つの変換ビンの帯域幅）に厳密にまたは非常に近い場合、ＭＤＣＴ−ＩＩまたはＭＤＳＴ−ＩＩは、影響を受けるフレームおよびチャネルに対して使用されてもよい。しかしながら、ＭＤＣＴ−ＩＶからＭＤＣＴ−ＩＩ変換カーネルへの直接遷移は不可能であるか、少なくとも時間領域エイリアシングキャンセル（ＴＤＡＣ）を保証しない。したがって、ＭＤＣＴ−ＩＩはそのような場合に両者間の遷移変換として利用されなければならない。逆に、ＭＤＳＴ−ＩＩから伝統的なＭＤＣＴ−ＩＶへの移行（すなわち、伝統的なＭＤＣＴコーディングへの切り替え）には、中間体ＭＤＣＴ−ＩＩが有利である。

これまで、高調波オーディオ信号の符号化を強化するため、提案された適応型変換カーネルスイッチングは単一のオーディオ信号について記述されていた。さらに、例えばステレオ信号などのマルチチャネル信号に容易に適合させることができる。ここで、例えば、マルチチャネル信号の２つ以上のチャネルがおおよそ互いに±９０度の位相シフトを有する場合、適応型変換カーネルスイッチングも有利である。

マルチチャンネルオーディオ処理の場合、１つのオーディオチャネルに対してＭＤＣＴ−ＩＶ符号化を使用し、第２のオーディオチャネルに対してＭＤＳＴ−ＩＶ符号化を使用することが適切であり得る。特に、両方のオーディオチャンネルが符号化前に約±９０度の位相シフトを含む場合、この概念は有利である。ＭＤＣＴ−ＩＶとＭＤＳＴ−ＩＶとは、互いに比較して符号化信号に９０度の位相シフトを与えるので、オーディオ信号の２チャンネル間で±９０度の位相シフトが符号化後に補償され、すなわち、ＭＤＣＴ−ＩＶのコサインベース関数とＭＤＳＴ−ＩＶの正弦関数との間の９０度の位相差によって、０度または１８０度の位相シフトに変換される。したがって、例えばＭ／Ｓステレオ符号化では、オーディオ信号の両方のチャネルが中間信号で符号化されてもよく、０度の位相シフトへの上述の変換の場合、サイド信号に最小残差情報のみを符号化する必要があり、１８０度の位相シフトへの反転の場合にはその逆（中間信号の最小情報）が得られ、それによって最大のチャネル圧縮が達成される。これにより、両方のオーディオチャンネルの古典的なＭＤＣＴ−ＩＶコーディングと比較して、ロスレスコーディングスキームを使用しながら、最大５０％の帯域幅削減が達成される可能性がある。さらに、複雑なステレオ予測と組み合わせてＭＤＣＴステレオ符号化を使用することも考えられる。両方のアプローチは、オーディオ信号の２つのチャネルから残差信号を計算し、符号化し、送信する。さらに、複雑な予測は、オーディオ信号を符号化するための予測パラメータを計算し、デコーダは、送信されたパラメータを使用してオーディオ信号を復号する。しかし、例えば、２つのオーディオチャネルを符号化するためのＭＤＣＴ−ＩＶおよびＭＤＳＴ−ＩＶは、既に上述したように、デコーダが関連する符号化方式を適用できるように、使用される符号化方式（ＭＤＣＴ−ＩＩ、ＭＤＳＴ−ＩＩ、ＭＤＣＴ−ＩＶまたはＭＤＳＴ−ＩＶ）に関する情報のみが送信されるべきである。複雑なステレオ予測パラメータは、比較的高い解像度を使用して量子化されるべきであるので、使用される符号化方式に関する情報は、例えば、４ビット符号化されてもよい。理論的には、第１および第２のチャネルは、４つの異なる符号化方式のうちの１つを使用してそれぞれ符号化されてもよく、これにより１６の異なる可能な状態が導かれる。

したがって、図８は、マルチチャネルオーディオ信号を復号するためのデコーダ２の概略ブロック図を示す。図１のデコーダと比較して、デコーダは、第１および第２のマルチチャネルを表すスペクトル値４ａ’’’、４ｂ’’’のブロックを受信するためのマルチチャネルプロセッサ４０をさらに備え、第１のマルチチャネルおよび第２のマルチチャネルのスペクトル値４ａ’、４ｂ’の処理済みブロックを得るために、受信したブロックをジョイントマルチチャネル処理技術に従って、適応型スペクトル−時間プロセッサは、第１のマルチチャネル用の制御情報１２ａと、第２のマルチチャネル用の制御情報１２ｂを使用する第２のマルチチャネル用の処理済みブロック４ｂ'とを使用して、第１のマルチチャネルの処理済みブロック４ａ’を処理するように構成される。マルチチャンネルプロセッサ４０は、例えば、左右ステレオ処理、和差ステレオ処理を適用してもよいし、あるいは、マルチチャネルプロセッサは、第１および第２のマルチチャネルを表すスペクトル値のブロックに関連する複素予測制御情報を用いて複素予測を適用する。したがって、マルチチャネルプロセッサは、例えばオーディオ信号を符号化するためにどの処理が使用されたかを示す、制御情報から固定されたプリセットを含むことができ、または情報を得ることができる。制御情報内の別個のビットまたはワードの他に、マルチチャネルプロセッサは、例えばマルチチャネル処理パラメータの不存在または存在によって、この情報を現在の制御情報から得ることができる。換言すれば、マルチチャネルプロセッサ４０は、エンコーダで実行されるマルチチャネル処理に逆動作を適用して、マルチチャネル信号の別々のチャネルを回復することができる。さらなるマルチチャネル処理技術は、図１０〜図１４に関して説明される。さらに、参照符号は、マルチチャネル処理に適用され、文字「ａ」によって拡張された参照符号は第１マルチチャネルを示し、参照符号は文字「ｂ」によって拡張されて第２マルチチャネルを示す。さらに、マルチチャンネルは、２チャンネル、またはステレオ処理に限定されず、しかし、２チャンネルの図示された処理を拡張することによって、３つ以上のチャネルに適用することができる。

実施形態によれば、デコーダのマルチチャネルプロセッサは、共同マルチチャネル処理技術に従って、受信したブロックを処理することができる。さらに、受信されたブロックは、第１のマルチチャネルの表現の符号化残差信号および第２のマルチチャネルの表現を含むことができる。さらに、マルチチャネルプロセッサは、残余信号およびさらなる符号化信号を使用して第１のマルチチャネル信号および第２のマルチチャネル信号を計算するように構成されてもよい。言い換えれば、残差信号は、Ｍ／Ｓで符号化されたオーディオ信号のサイド信号であってもよいし、または、使用時にオーディオ信号のさらなるチャネルに基づくオーディオ信号のチャネルとチャネルの予測との間の残差、例えば複雑なステレオ予測であってもよい。したがって、マルチチャネルプロセッサは、例えば逆変換カーネルを適用するなどのさらなる処理のために、Ｍ／Ｓまたは複素予測オーディオ信号をＬ／Ｒオーディオ信号に変換することができる。従って、マルチチャネルプロセッサは、残差信号と、Ｍ／Ｓ符号化されたオーディオ信号の中間信号又はオーディオ信号の（例えば、ＭＤＣＴ符号化された）チャネルであってもよい更なる符号化されたオーディオ信号を用いることができる。

図９は、マルチチャネル処理に拡張された図３のエンコーダ２２を示す。制御情報１２が符号化されたオーディオ信号４に含まれることが予測されるが、制御情報１２は、例えば別個の制御情報チャネルを使用してさらに送信されてもよい。マルチチャネルエンコーダのコントローラ２８は、第１のチャネルのフレームおよび第２のチャネルの対応するフレームの変換カーネルを決定するために、第１のチャネルおよび第２のチャネルを有するオーディオ信号の時間値３０ａ、３０ｂのオーバーラップするブロックを分析することができる。したがって、コントローラは、変換カーネルの各組み合わせを試みて、例えばＭ／Ｓ符号化または複素数予測の残差信号（またはＭ／Ｓ符号化に関してサイド信号）を最小化する変換カーネルのオプションを導き出すことができる。最小化された残差信号は、例えば、残りの残差信号と比較して最も低いエネルギーを有する残差信号を生成する。これは、例えば、より大きな信号を量子化するのと比較して、残余信号のさらなる量子化が小信号を量子化するためにより少ないビットを使用する場合に有利である。さらに、コントローラ２８は、前述の変換カーネルのうちの１つを適用する適応型時間−スペクトル変換器２６に入力されている第１のチャネルの第１の制御情報１２ａと第２のチャネルの第２の制御情報１２ｂを決定することができる。したがって、時間スペクトル変換器２６は、マルチチャネル信号の第１のチャネルおよび第２のチャネルを処理するように構成されてもよい。さらに、マルチチャネルエンコーダは、第１のチャネルおよび第２のチャネルのスペクトル値４ａ’、４ｂ’の連続するブロックを、例えば、以下のようなジョイントマルチチャネル処理技術を用いて処理するためのマルチチャネルプロセッサ４２をさらに備えることができる。例えば、和差ステレオ符号化、または複素予測を用いて、スペクトル値４０ａ’’’、４０ｂ’’’の処理されたブロックを得ることができる。エンコーダは、符号化されたチャネル４０ａ’’’、４０ｂ’’’を得るために、スペクトル値の処理されたブロックを処理するための符号化プロセッサ４６をさらに備えることができる。符号化プロセッサは、例えば損失性オーディオ圧縮または無損失オーディオ圧縮方式を使用してオーディオ信号を符号化することができ、例えば、スペクトル線のスカラー量子化、エントロピー符号化、ハフマン符号化、チャネル符号化、ブロック符号または畳み込み符号、または順方向誤り訂正または自動繰り返し要求を適用することができる。さらに、不可逆的オーディオ圧縮は、心理音響モデルに基づく量子化を使用することを指してもよい。

さらなる実施形態によれば、第１の処理されたスペクトル値のブロックは、ジョイントマルチチャネル処理技術の第１の符号化された表現を表し、第２の処理されたスペクトル値のブロックは、ジョイントマルチチャネル処理技術の第２の符号化された表現を表す。したがって、符号化プロセッサ４６は、量子化およびエントロピー符号化を使用して第１の処理済みブロックを処理して第１の符号化された表現を形成し、量子化およびエントロピー符号化を使用して第２の処理済みブロックを処理して第２の符号化された表現を形成するように構成される。第１の符号化された表現および第２の符号化された表現は、符号化されたオーディオ信号を表すビットストリーム内に形成されてもよい。言い換えると、第１の処理ブロックは、複素ステレオ予測を使用して、エンコードされたオーディオ信号のＭ／Ｓエンコードされたオーディオ信号またはＭＤＣＴエンコードされたチャネルの中間信号を含むことができる。さらに、第２の処理ブロックは、複素予測のためのパラメータまたは残差信号、またはＭ／Ｓ符号化されたオーディオ信号のサイド信号を含むことができる。

図１０は、２つ以上のチャネル信号を有するマルチチャネルオーディオ信号２００を符号化するためのオーディオエンコーダを示しており、第１のチャネル信号は符号２０１で示され、第２のチャネルは符号２０２で示されている。両方の信号は、第１のチャネル信号２０１と第２のチャネル信号２０２と予測情報２０６とを用いて第１の合成信号２０４と予測残差信号２０５を計算するためのエンコーダ計算器２０３に入力され、予測残差信号２０５となる。このとき、第１の合成信号２０４および予測情報２０６から得られた予測信号と組み合わされると、第２の合成信号が得られる。そこにおいて、第１の合成信号および第２の合成信号は、結合規則を使用して第１のチャネル信号２０１および第２のチャネル信号２０２から導出可能である。

予測情報は、予測残差信号が最適化ターゲット２０８を満たすように予測情報２０６を計算するためのオプティマイザ２０７によって生成される。第１の合成信号２０４および残余信号２０５は、第１の合成信号２０４を符号化するために信号エンコーダ２０９に入力され、符号化された第１の合成信号２１０を取得し、残余信号２０を符号化して符号化された残差信号２１１を得る。符号化された第１の合成信号２１０を符号化された予測残余信号２１１と予測情報２０６とを組み合わせてエンコードされたマルチチャネル信号２１３を得るために、符号化された信号２１０，２１１の両方が出力インターフェース２１２に入力される。

実装に応じて、オプティマイザ２０７は、第１のチャネル信号２０１および第２のチャネル信号２０２のいずれかを受信するか、またはライン２１４および２１５によって示されるように、第１の合成信号２１４および第２の合成信号２１５は、後述する図１１Ａの結合器２０３１から得られる。

図１０には、符号化利得が最大化される、すなわちビットレートが可能な限り低減される最適化ターゲットが示されている。この最適化目標では、残差信号Ｄはαに対して最小化される。これは、言い換えると、予測情報αは、||Ｓ−αＭ||²が最小になるように選択されることを意味する。これにより、図１０に示すαの解が得られる。信号Ｓ、Ｍは、ブロック単位で与えられ、スペクトル領域の信号であり、表記||…||の引数の２ノルムを意味し、＜…＞はドットプロダクトを通常どおりに示す。第１のチャネル信号２０１および第２のチャネル信号２０２がオプティマイザ２０７に入力されると、オプティマイザは結合規則を適用する必要があり、例示的な結合規則が図１１Ｃに示されている。しかしながら、第１の合成信号２１４と第２の合成信号２１５がオプティマイザ２０７に入力された場合、オプティマイザ２０７はそれ自体で組み合わせルールを実装する必要はない。

他の最適化ターゲットは、知覚品質に関連してもよい。最適化目標は、最大知覚品質が得られることであり得る。次に、オプティマイザは、知覚モデルから追加の情報を必要とする。最適化ターゲットの他の実装形態は、最小ビットレートまたは固定ビットレートを得ることに関する。次に、オプティマイザ２０７は、特定のα値について必要とされるビットレートを決定するために量子化／エントロピー符号化動作を実行するように実施される。そのため、αは、最小ビットレートまたは固定ビットレートなどの要件を満たすように設定することができる。最適化ターゲットの他の実装形態は、エンコーダまたはデコーダリソースの最小限の使用に関連し得る。そのような最適化ターゲットの実施の場合、ある最適化のために必要とされるリソースに関する情報は、オプティマイザ２０７において利用可能である。さらに、これらの最適化ターゲットまたは他の最適化ターゲットの組み合わせを、予測情報２０６を計算するオプティマイザ２０７を制御するために適用することができる。

図１０のエンコーダ計算器２０３は異なる方法で実施することができ、例示的な第１の実施態様が図１１Ａに示されており、明示的な結合規則が結合器２０３１において実行される。マトリックス計算機２０３９が使用される代替的な例示的な実施が図１１Ｂに示されている。図１１Ａの結合器２０３１は、図１１Ｃに例示されている結合規則を実行するように実装されてもよく、これは、よく知られている中間側の符号化規則であり、すべてのブランチに０．５の重み付け係数が適用される。しかし、実装に応じて、他の重み付け係数または重み付け係数を全く実装することはできない。さらに、他の線形結合規則や非線形結合規則などの他の結合規則を適用することも可能であり、図１２Ａに示すデコーダ結合器１１６２に適用することができる対応する逆の結合規則が存在する限り、エンコーダによって適用される結合規則とは逆の結合規則を適用する。ジョイントステレオ予測のために、波形への影響が予測によって「平衡」される、すなわちエラーが送信された残差信号に含まれるので、任意の可逆予測規則を使用することができる。オプティマイザ２０７によるエンコーダ演算器２０３との予測演算が波形保存処理であるためである。

結合器２０３１は、第１の合成信号２０４および第２の合成信号２０３２を出力する。第１の合成信号は、予測器２０３３に入力され、第２の合成信号２０３２は、残差計算器２０３４に入力される。予測器２０３３は予測信号２０３５を計算し、これは第２の合成信号２０３２と合成されて最終的に残差信号２０５を得る。具体的には、結合器２０３１は、マルチチャネルオーディオ信号の２つのチャネル信号２０１および２０２を２つの異なる方法で結合して第１の合成信号２０４および第２の合成信号２０３２を得るように構成され、２つの異なる方法が図１１Ｃの例示的な実施形態で示されている。予測器２０３３は、予測信号２０３５を得るために、予測情報を第１の合成信号２０４または第１の合成信号から得られた信号に適用するように構成される。合成信号から得られる信号は、任意の非線形または線形演算によって導出することができ、ある値の加重加算を行うＦＩＲフィルタのような線形フィルタを用いて実現することができる、実数から虚数への変換／虚数から実数への変換が有利である。

図１１Ａの残差計算器２０３４は、予測信号２０３５が第２の合成信号から減算されるように減算演算を実行することができる。しかし、残りの計算機における他の動作も可能である。これに対応して、図１２Ａの合成信号計算器１１６１は、第２の組合せ信号１１６５を得るために、復号された残差信号１１４と予測信号１１６３とが加算される加算演算を実行することができる。

デコーダ計算器１１６は、異なる方法で実装することができる。第１の実施が図１２Ａに示されている。この実施例は、予測器１１６０と、合成信号計算器１１６１と、結合器１１６２とを備える。予測器は、復号された第１の合成信号１１２と予測情報１０８とを受け取り、予測信号１１６３を出力する。具体的には、予測器１１６０は、復号された第１の合成信号１１２または復号された第１の合成信号から導出された信号に予測情報１０８を適用するように構成される。予測情報１０８が適用される信号を導出するための導出ルールは、実数から虚数の変換であってもよく、等価的には、虚数−実数変換または重み付け演算、もしくは同程度に、実装、位相シフト演算、または結合重み付け／位相シフト演算に依存する。予測信号１１６３は、復号された第２の合成信号１１６５を計算するために、復号された残差信号と共に合成信号計算器１１６１に入力される。信号１１２および１１６５は、復号化された第１の合成信号および第２の合成信号を結合して、復号された第１のチャネル信号および復号された第２のチャネル信号を出力線１１６６および１１６７上に有する復号化マルチチャネルオーディオ信号を得る結合器１１６２にそれぞれ入力される。あるいは、デコーダ計算器は、復号化された第１の合成信号または信号Ｍ、復号された残差信号または信号Ｄおよび予測情報α１０８を入力として受け取る行列計算器１１６８として実装される。行列演算器１１６８は、１１６９として示す変換行列を信号Ｍ、Ｄに適用して、出力信号Ｌ、Ｒを得る。ここで、Ｌは復号された第１のチャネル信号であり、Ｒは復号された第２のチャネル信号である。図１２Ｂの表記は、左チャネルＬおよび右チャネルＲを用いたステレオ表記に似ている。この表記は、理解を容易にするために適用されているが、信号Ｌ、Ｒは、３つ以上のチャネル信号を有するマルチチャネル信号内の２つのチャネル信号の任意の組み合わせであり得ることは、当業者には明らかである。行列演算１１６９は、図１２Ａのブロック１１６０，１１６１および１１６２の演算を一種の「シングルショット」の行列計算に統一し、図１２Ａの回路への入力および図１２Ａの回路からの出力は、マトリクス演算器１１６８への入力およびマトリクス演算器１１６８からの出力とそれぞれ同一である。

図１２Ｃは、図１２Ａの結合器１１６２によって適用される逆結合規則の例を示す。特に、結合規則は、Ｌ＝Ｍ＋Ｓであり、Ｒ＝Ｍ−Ｓである周知のミッドサイドコーディングにおけるデコーダ側の結合規則に類似している。図１２Ｃの逆の結合規則によって使用される信号Ｓは、合成信号計算器によって計算された信号、すなわちライン１１６３上の予測信号とライン１１４上の復号済み残差信号の組み合わせであることが理解されるべきである。本明細書では、ライン上の信号は、ラインの参照番号によって時々命名されることがあり、時にはラインに起因する参照番号自体によって示されることが理解されるべきである。したがって、ある信号を有するラインが信号そのものを示すような表記である。回線はハードワイヤード実装の物理回線にすることができる。しかし、コンピュータ化された実装では、物理的な線は存在しないが、線によって表される信号は、ある計算モジュールから他の計算モジュールに伝送される。

図１３Ａは、オーディオエンコーダの実装を示す。図１１Ａに示すオーディオエンコーダと比較して、第１のチャネル信号２０１は、時間領域の第１のチャネル信号５５ａのスペクトル表現である。同様に、第２のチャネル信号２０２は、時間領域チャネル信号５５ｂのスペクトル表現である。時間領域からスペクトル表現への変換は、第１のチャネル信号用の時間／周波数変換器５０と、第２のチャネル信号用の時間／周波数変換器５１によって実行される。スペクトル変換器５０，５１は実数変換器として実現されることが好ましいが、必ずしもそうである必要はない。変換アルゴリズムは、離散コサイン変換、実数部分のみが使用されるＦＦＴ変換、ＭＤＣＴ、または実数値のスペクトル値を提供する他の変換とすることができる。代替的に、両方の変換は、虚数部のみが使用され、実数部が破棄されるＤＳＴ、ＭＤＳＴ、またはＦＦＴのような虚数変換として実施することができる。虚数値のみを提供する他の変換も同様に使用することができる。純粋な実数値変換または純粋な虚数変換を使用する１つの目的は計算上の複雑さであり、なぜなら、各スペクトル値に対して、大きさまたは実数部などの単一の値のみが処理されなければならないか、あるいは、位相または虚数部が処理されなければならないからである。ＦＦＴなどの完全に複雑な変換とは対照的に、２つの値は、すなわち、各スペクトル線の実数部および虚数部を処理しなければならず、これは少なくとも２つの因数による計算上の複雑さの増加である。ここで実数値変換を使用する別の理由は、このような変換シーケンスは、通常、相互変換オーバーラップの存在下でもクリティカルにサンプリングされることであり、したがって、信号量子化およびエントロピー符号化（「ＭＰ３」、ＡＡＣ、または同様のオーディオ符号化システムで実施される標準的な「知覚的オーディオ符号化」パラダイム）に適切な（および一般的に使用される）領域を提供する。

図１３Ａは、「プラス」入力でサイド信号を受信し、「マイナス」入力でプレディクタ２０３３によって出力された予測信号を受信する加算器としての残差計算器２０３４をさらに示している。さらに、図１３Ａは、予測子制御情報がオプティマイザから符号化されたマルチチャネルオーディオ信号を表す多重化されたビットストリームを出力するマルチプレクサ２１２に伝送される状況を示す。特に、予測動作は、図１３Ａの右側の式によって示されるように、中間信号からサイド信号が予測されるように実行される。

予測子制御情報２０６は、図１１Ｂの右側に示すような因子である。予測制御情報が、複素数値αの実数部または複素数値αの大きさなどの実数部のみを含む実施形態では、この部分がゼロ以外の因子に相当する場合には、中間信号とサイド信号との波形構造が類似しているが、振幅が異なる場合に顕著な符号化利得が得られる。

しかし、予測制御情報が、複素数ファクタの虚数部または複素数ファクタの位相情報となり得る第２の部分のみを含む場合、虚数部または位相情報がゼロとは異なる場合、本発明は、０度または１８０度とは異なる値だけ互いに位相シフトされた信号に対して有意な符号化利得を達成し、位相シフトを除いて、同様の波形特性および類似の振幅関係を有する。

予測制御情報は複素値である。そして、振幅が異なり、位相シフトされた信号に対して、有意な符号化利得を得ることができる。時間／周波数変換が複雑なスペクトルを提供する状況では、オペレーション２０３４が、予測子制御情報の実数部が複素スペクトルＭの実数部に適用され、複素数予測情報の虚数部が複素数スペクトルの虚数部に適用される複素演算である。次に、加算器２０３４において、この予測演算の結果は、予測実スペクトルと予測虚スペクトルであり、予測された実数スペクトルは、副信号Ｓの実数スペクトル（バンド単位）から差し引かれ、予測された虚スペクトルは、Ｓのスペクトルの虚部から減算され、複素残差スペクトルＤを得る。

時間領域信号ＬおよびＲは実数値信号であるが、周波数領域信号は実数または複素数値とすることができる。周波数領域信号が実数値である場合、変換は実数値変換である。周波数領域信号が複素数である場合、変換は複素数変換である。これは、時間−周波数変換への入力と周波数−時間変換の出力が実数値であることを意味し、周波数領域信号は、例えば、複素数値のＱＭＦドメイン信号になる。

図１３Ｂは、図１３Ａに示したオーディオエンコーダに対応するオーディオデコーダを示す。

図１３Ａのビットストリームマルチプレクサ２１２によるビットストリーム出力は、図１３Ｂのビットストリームデマルチプレクサ１０２に入力される。ビットストリームデマルチプレクサ１０２は、ビットストリームをダウンミックス信号Ｍと残差信号Ｄとに分離する。ダウンミックス信号Ｍは、逆量子化器１１０ａに入力される。残差信号Ｄは、逆量子化器１１０ｂに入力される。さらに、ビットストリーム逆多重化器１０２は、ビットストリームからの予測子制御情報１０８を逆多重化して、予測器１１６０に入力する。予測器１１６０は予測サイド信号α・Ｍを出力し、結合器１１６１は逆量子化器１１０ｂが出力した残差信号を予測サイド信号と合成して最終的に再構成されたサイド信号Ｓを得る。
次いで、サイド信号は、ミッド／サイドエンコーディングに関して図１２Ｃに示すように、例えば和差分処理を行うコンバイナ１１６２に入力される。具体的には、ブロック１１６２は、左チャネルの周波数領域表現および右チャネルの周波数領域表現を得るために、（逆の）ミッド／サイド復号を実行する。次に、周波数領域表現は、対応する周波数／時間変換器５２および５３によって時間領域表現に変換される。

システムの実装に応じて、周波数領域表現が実数値表現である場合、周波数／時間変換器５２，５３は実数値周波数／時間変換器であり、周波数領域表現が複素値表現である場合には、複素数値の周波数／時間変換器である。

しかしながら、効率を高めるために、実数値変換を実行することは、エンコーダについては図１４Ａに、デコーダについては図１４Ｂに示す別の実施例に示すように有利である。実数値変換５０および５１は、ＭＤＣＴ、すなわちＭＤＣＴ−ＩＶ、あるいは本発明によれば、ＭＤＣＴ−ＩＩまたはＭＤＳＴ−ＩＩまたはＭＤＳＴ−ＩＶによって実現される。また、予測情報は、実部と虚部とを有する複素値として算出される。両方のスペクトルＭ、Ｓは実数値スペクトルであるので、したがって、スペクトルの虚数部は存在せず、実数／虚数変換器２０７０が提供され、信号Ｍの実数スペクトルから推定虚数スペクトル６００を計算する。この実数−虚数変換器２０７０は、オプティマイザ２０７の一部であり、ブロック２０７０で推定された虚数スペクトル６００は実数スペクトルＭと共にαオプティマイザステージ２０７１に入力され、ここでは２０７３で示される実数値ファクタおよび２０７４で示される虚数ファクタを有する予測情報２０６を計算する。ここで、この実施形態によれば、第１の合成信号Ｍの実数値スペクトルは、実数部のサイドスペクトルから差し引かれる予測信号を得るために、実数部α_R２０７３と乗算される。さらに、虚数スペクトル６００は、２０７４で示された虚数部α_Iと乗算されてさらなる予測信号が得られ、この予測信号は次に２０３４ｂに示すように実数値のサイドスペクトルから減算される。次に、予測残差信号Ｄが量子化器２０９ｂにおいて量子化され、Ｍの実数値スペクトルがブロック２０９ａにおいて量子化／符号化される。さらに、図１３Ａのビットストリームマルチプレクサ２１２に伝送される符号化された複素数α値を得るために、量子化器／エントロピーエンコーダ２０７２において予測情報αを量子化して符号化することが有利であり、例えば、最終的に予測情報としてビットストリームに入力される。

αに対する量子化／符号化（Ｑ／Ｃ）モジュール２０７２の位置に関して、乗算器２０７３および２０７４は、デコーダにおいても同様に使用される（量子化された）αを正確に使用することに留意されたい。したがって、2２０７２を直接２０７１の出力に移行させることができ、あるいは、αの量子化が２０７１の最適化プロセスにおいてすでに考慮されていると考えることができる。

エンコーダ側では複雑なスペクトルを計算することができるが、全ての情報が利用可能であるため、図１４Ｂに示されたデコーダに関する同様の条件が生成されるように、エンコーダのブロック２０７０で実数から複素への変換を実行することが有利である。デコーダは、第１の合成信号の実数値符号化スペクトルと、符号化残差信号の実数値スペクトル表現とを受け取る。さらに、１０８で符号化された複素予測情報が得られ、ブロック６５においてエントロピー復号化および逆量子化が行われ、１１６０ｂに示される実数部α_Rおよび１１６０ｃに示される虚数部α_Iが得られる。重み付け要素１１６０ｂおよび１１６０ｃによって出力された中間信号は、復号化および逆量子化された予測残差信号に加算される。具体的には、複素予測係数の虚数部を重み付け係数とする重み付け器１１６０ｃに入力されたスペクトル値は、実数／虚数変換器１１６０ａによって実数値スペクトルＭから導出され、これはエンコーダ側に関する図２０のブロック２０７０と同じ方法で実施される。デコーダ側では、中間信号またはサイド信号の複素値表現は利用できない。エンコーダ側とは対照的である。その理由は、符号化された実数値のスペクトルのみが、ビットレートおよび複雑さの理由によりエンコーダからデコーダに送信されたためである。

実数から虚数の変圧器１１６０ａまたは図１４Ａの対応するブロック２０７０は、国際公開第２００４／０１３８３９号パンフレットまたは国際公開第２００８／０１４８５３号パンフレットまたは米国特許第６，９８０，９３３号に公開されているように実施することができる。あるいは、当技術分野で知られている任意の他の実装を適用することができる。

実施形態は、提案された適応型変換カーネルスイッチングがＨＥ−ＡＡＣのようなオーディオコーデックにおいてどのようにして有利に使用され、「課題ステートメント」の項で述べた２つの課題を最小限に抑え、あるいは回避するかをさらに示している。以下では、約９０度のチャネル間位相シフトを有するステレオ信号に対処する。ここでは、ＭＤＳＴ−ＩＶベースの符号化への切り替えは、２つのチャネルのうちの一方において使用され得るが、旧式のＭＤＣＴ−ＩＶ符号化は、他方のチャネルにおいて使用され得る。あるいは、ＭＤＣＴ−ＩＩコーディングは、あるチャンネルで使用し、ＭＤＳＴ−ＩＩコーディングを他のチャンネルで使用することができる。余弦関数と正弦関数が互いに９０度の位相シフトされた変形（ｃｏｓ（ｘ）＝ｓｉｎ（ｘ＋π／２））であると仮定すると、入力チャネルスペクトル間の対応する位相シフトは、このようにして、従来のＭ／Ｓベースのジョイントステレオ符号化を介して非常に効率的に符号化することができる０度または１８０度の位相シフトに変換することができる。従来のＭＤＣＴで準最適にコード化された高調波信号の場合と同様に、中間遷移変換が影響を受けるチャネルで有利である可能性がある。

どちらの場合も、約９０度のチャネル間位相シフトを伴う高調波信号およびステレオ信号の場合、エンコーダは、各変換に対して４つのカーネルのうちの１つを選択する（図７も参照）。本発明の変換カーネルスイッチングを適用するそれぞれのデコーダは、同じカーネルを使用して、信号を適切に再構成することができる。このようなデコーダが、所与のフレーム内の１つまたは複数の逆変換でどの変換カーネルを使用するかを知るためには、変換カーネルの選択を説明するサイド情報、あるいは、左右の対称性は、フレームごとに少なくとも１回、対応するエンコーダによって伝送されるべきである。次のセクションでは、ＭＰＥＧ−Ｈ３Ｄオーディオコーデックへの統合（すなわち、修正）を説明する。

さらなる実施形態は、オーディオ符号化に関し、特に、修正離散コサイン変換（ＭＤＣＴ）のようなラップ変換を用いた低レート知覚オーディオ符号化に関する。実施形態は、３つの他の同様の変換を含むようにＭＤＣＴ符号化原理を一般化することにより、従来の変換符号化に関する２つの特定の課題に関する。実施形態はさらに、各符号化されたチャネルまたはフレームにおけるこれらの４つの変換カーネル間の、または各符号化されたチャネルまたはフレームにおける各変換のための信号適応およびコンテキスト適応型スイッチングを示す。カーネル選択を対応するデコーダにシグナリングするために、それぞれのサイド情報が符号化されたビットストリームで送信されてもよい。

図１５は、符号化オーディオ信号を復号する方法１５００の概略ブロック図を示す。
方法１５００は、スペクトル値の連続するブロックを時間値の重なり合う連続ブロックに変換するステップ１５０５と、復号されたオーディオ値を得るために時間値の連続するブロックを重ね合わせて加算するステップ１５１０と、制御情報を受信し且つ制御情報に応じて、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換カーネルの第１のグループと、カーネルの両側に同じ対称性を有する１つ以上の変換カーネルを含む変換カーネルの第２のグループとの間で、切り替えるステップ１５１５と、を含む。

図１６は、オーディオ信号を符号化する方法１６００の概略ブロック図を示す。方法１６００は、時間値のオーバーラップするブロックをスペクトル値の連続するブロックに変換するステップ１６０５と、第１のグループの変換カーネルの変換カーネルと第２のグループの変換カーネルの変換カーネルとを切り替えるために、時間−スペクトル変換を制御するステップ１６１０と、制御情報を受信して且つ制御情報に応じて、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換カーネルの第１のグループと、変換カーネルの両側に同じ対称性を有する１つ以上の変換カーネルを含む変換カーネルの第２のグループとの間で、切り替えるステップ１６１５と、を含む。

本明細書では、ライン上の信号は、ラインの参照番号によって時々命名されることがあり、時にはラインに起因する参照番号自体によって示されることが理解されるべきである。したがって、ある信号を有するラインが信号そのものを示すような表記である。回線はハードワイヤードの実装の物理回線にすることができる。しかし、コンピュータ化された実装では、物理的なラインは存在しないが、ラインによって表される信号は、ある計算モジュールから他の計算モジュールに伝送される。

本発明は、ブロックが実際のまたは論理的なハードウェア構成要素を表すブロック図の文脈で説明されているが、本発明は、また、コンピュータ実装方法によって実施することもできる。後者の場合、ブロックは対応する方法ステップを表し、これらのステップは対応する論理ハードウェアブロックまたは物理ハードウェアブロックによって実行される機能を表す。

いくつかの態様が装置の文脈で説明されているが、これらの態様は、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する場合には、対応する方法の説明も表していることは明らかである。同様に、方法ステップの文脈において説明される態様は、対応するブロックまたは対応する装置のアイテムまたは特徴の記述も表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって実行されてもよい（または使用されてもよい）。いくつかの実施形態では、最も重要な方法ステップのうちのいくつか１つまたは複数を、そのような装置によって実行することができる。

本発明の送信または符号化された信号は、デジタル記憶媒体に格納することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送することができる。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実装は、電子的に読み取り可能な制御信号が格納されたフロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、およびＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、その上に、それらは、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する（または協働することができる）。従って、デジタル記憶媒体はコンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、プログラム可能なコンピュータシステムと協働することができる電気的に読み取り可能な制御信号を有するデータキャリアを備え、本明細書に記載の方法の１つが実行される。

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するときに、方法の１つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械読み取り可能なキャリアに格納することができる。

他の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、機械読み取り可能なキャリアに格納される。

換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、データキャリア（またはデジタル記憶媒体のような非一時的な記憶媒体またはコンピュータ可読媒体）を含み、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを記録している。データ担体、デジタル記憶媒体または記録媒体は、典型的には有形および／または非一時的である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して伝送されるように構成することができ、例えばインターネットを介して伝送される。

さらなる実施形態は、本明細書で説明される方法のうちの１つを実行するように構成された、または適応される処理手段、例えばコンピュータまたはプログラマブル論理装置を含む。

さらなる実施形態は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明によるさらなる実施形態は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムを受信機に伝送するように構成された装置またはシステムを含む（例えば、電子的にまたは光学的に）。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。この装置またはシステムは、例えば、コンピュータプログラムを受信機に伝送するためのファイルサーバを備えることができる。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明する方法の１つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。

上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載された構成および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、差し迫った特許請求の範囲によってのみ限定され、本明細書の実施形態の説明および説明によって示される特定の詳細によっては限定されないことが意図される。

参考文献
[1] H. S. Malvar, Signal Processing with Lapped Transforms, Norwood: Artech House, 1992.
[2] J. P. Princen and A. B. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time
Domain Aliasing Cancellation," IEEE Trans. Acoustics, Speech, and Signal Proc., 1986.
[3] J. P. Princen, A. W. Johnson, and A. B. Bradley, "Subband/transform coding using filter
bank design based on time domain aliasing cancellation," in IEEE ICASSP, vol. 12, 1987.
[4] H. S. Malvar, "Lapped Transforms for Efficient Transform/Subband Coding," IEEE Trans. Acoustics, Speech, and Signal Proc., 1990.
[5] http://en.wikipedia.org/wiki/Modified＿discrete＿cosine＿transform

Claims

符号化されたオーディオ信号（４）を復号するためのデコーダ（２）であって、
前記デコーダは、
連続するスペクトル値（４’、４’’）のブロックを連続する時間値（１０）のブロックに変換するための適応型スペクトル−時間変換器（６）、および
連続する時間値（１０）のブロックを重ね合わせて加算して、復号化されたオーディオ値（１４）を得るためのオーバーラップ加算プロセッサ（８）を含み、
前記適応型スペクトル−時間変換器（６）は、制御情報（１２）を受信し、前記制御情報に応じて、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換カーネルの第１のグループと、変換カーネルの両側に同じ対称性を有する１つ以上の変換カーネルを含む変換カーネルの第２のグループとの間で、切り替えるように構成され、
前記第１のグループおよび前記第２のグループの前記変換カーネルは、以下の式に基づいていて、
前記第１のグループの前記少なくとも１つの変換カーネルは、パラメータ
ｃｓ（）＝ｃｏｓ（）およびｋ ₀ ＝０．５
または
ｃｓ（）＝ｓｉｎ（）およびｋ ₀ ＝０．５
に基づいている、
または
前記第２のグループの前記少なくとも１つの変換カーネルは、パラメータ
ｃｓ（）＝ｃｏｓ（）およびｋ ₀ ＝０
または
ｃｓ（）＝ｓｉｎ（）およびｋ ₀ ＝１
に基づいており、
ここで、ｘ _i,n は時間領域出力であり、Ｃは定数パラメータであり、Ｎは時間窓長であり、ｓｐｅｃはブロックについてＭ個の値を有するスペクトル値であり、ＭはＮ／２に等しく、ｉは時間ブロックインデックスであり、ｋはスペクトル値を示すスペクトルインデックスであり、ｎはブロックｉにおける時間値を示す時間インデックスであり、ｎ ₀ は整数またはゼロである定数パラメータであり、
前記適応型スペクトル−時間変換器（６）は、以下の表に基づいて前記変換カーネルを適用するように構成されており：
ここでｓｙｍｍ _i は、インデックスｉにおける前記現在のフレームの前記制御情報であり、前記ｓｙｍｍ _i-1 は、インデックスｉ _-1 における前記前のフレームの前記制御情報である、デコーダ。
前記変換カーネルの第１のグループは、前記カーネルの前記左側に前記奇数対称性を有し、前記右側に前記偶数対称性を有する、またはその逆の１つ以上の変換カーネルを有する、あるいは前記変換カーネルの第２のグループは、前記カーネルの両側に前記偶数対称性または前記奇数対称性を有する１つ以上の変換カーネルを有する、請求項１に記載のデコーダ（２）。
前記変換カーネルの第１のグループは、逆ＭＤＣＴ−ＩＶ変換カーネルまたは逆ＭＤＳＴ−ＩＶ変換カーネルを含む、あるいは前記変換カーネルの第２のグループは、逆ＭＤＣＴ−ＩＩ変換カーネルまたは逆ＭＤＳＴ−ＩＩ変換カーネルを含み、
前記ＭＤＣＴ−ＩＶは左側に奇数対称性および右側に偶数対象性を示し、この変換の信号の逆畳み込みの間に、合成信号が左側で反転され、
前記ＭＤＳＴ−ＩＶは左側に偶数対称性および右側に奇数対象性を示し、この変換の信号の逆畳み込みの間に、合成信号が右側で反転され、
前記ＭＤＣＴ−ＩＩは左側に偶数対称性および右側に偶数対象性を示し、この変換の信号の逆畳み込みの間に、合成信号がいずれの側でも反転されず、
前記ＭＤＳＴ−ＩＩは左側に奇数対称性および右側に奇数対象性を示し、この変換の信号逆畳み込みの間に、合成信号が両側で反転される、請求項１または請求項２に記載のデコーダ（２）。
前記制御情報（１２）は、前記現在のフレームについての現在の対称性を示す現在のビットを含み、
前記適応型スペクトル−時間変換器（６）は、前記現在のビットが前記前のフレームで使用されたのと同じ対称性を示すとき、前記第１のグループから前記第２のグループに切り替わらないように構成され、
前記適応型スペクトル−時間変換器（６）は、前記現在のビットが前記前のフレームで使用されたものとは異なる対称性を示すとき、前記第１のグループから前記第２のグループに切り替えるように構成される、請求項１〜請求項３のいずれか１項に記載のデコーダ（２）。
前記適応型スペクトル−時間変換器（６）は、前記現在のフレームの現在の対称性を示す現在のビットが前記前のフレームで使用されたものと同じ対称性を示すとき、前記第２のグループを前記第１のグループに切り替えるように構成され、
前記適応型スペクトル−時間変換器（６）は、前記現在のビットが、前記現在のフレームの現在の対称性が前記前のフレームで使用されていたものとは異なる対称性を有することを示すとき、前記第２のグループから前記第１のグループに切り替わらないように構成される、請求項１〜請求項４のいずれか１項に記載のデコーダ（２）。
前記適応型スペクトル−時間変換器（６）は、前記前のフレームについての制御情報（１２）を符号化されたオーディオ信号（４）から、および前記前のフレームに続く前記現在のフレームについての制御情報を前記現在のフレームの制御データセクション内の前記符号化されたオーディオ信号から読み出すように構成される、あるいは
前記適応型スペクトル−時間変換器（６）は、前記現在のフレームの前記制御データセクションから前記制御情報（１２）を読み出し、前記前のフレームの制御データセクションから、または前記前のフレームに適用されたデコーダ設定から、前記前のフレームについての前記制御情報（１２）を取り出すように構成されている、請求項1〜請求項５のいずれか１項に記載のデコーダ（２）。
第１および第２のマルチチャネルを表すスペクトル値のブロックを受信し、ジョイントマルチチャネル処理技術に従って前記受信したブロックを処理して前記第１のマルチチャネルおよび前記第２のマルチチャネルのためのスペクトル値の処理されたブロックを得るためのマルチチャネルプロセッサ（４０）をさらに含み、前記適応型スペクトル−時間変換器（６）は、前記第１のマルチチャネルのための制御情報を使用して前記第１のマルチチャネルのための前記処理されたブロックを、および前記第２のマルチチャネルのための制御情報を使用して前記第２のマルチチャネルのための前記処理されたブロックを処理するように構成される、請求項１〜請求項６のいずれか１項に記載のデコーダ（２）。
前記マルチチャネルプロセッサは、前記第１および前記第２のマルチチャネルを表す前記スペクトル値のブロックに関連する複素予測制御情報を使用して複素予測を適用するように構成される、請求項７に記載のデコーダ（２）。
前記マルチチャネルプロセッサは、前記ジョイントマルチチャネル処理技術に従って前記受信したブロックを処理するように構成され、前記受信されたブロックは、前記第１のマルチチャネルの表現と前記第２のマルチチャネルの表現の符号化された残差信号を含み、前記マルチチャネルプロセッサは、前記残差信号およびさらなる符号化された信号を使用して、第１のマルチチャネル信号および第２のマルチチャネル信号を計算するように構成される、または、
前記ジョイントマルチチャネル処理技術は、ジョイントステレオ処理または２つ以上のチャネルのジョイント処理を意味し、マルチチャネル信号は２つのチャネル、または２つ以上のチャネルを有する、請求項７または請求項８のいずれか１項に記載のデコーダ。
オーディオ信号（２４）を符号化するためのエンコーダ（２２）であって、
前記エンコーダは、
オーバーラップする時間値（３０）のブロックを連続するスペクトル値（４’、４’’）のブロックに変換するための適応型時間−スペクトル変換器（２６）、および
変換カーネルの第１のグループの変換カーネルと、変換カーネルの第２のグループの変換カーネルとの間で切り替わるように、前記適応型時間−スペクトル変換器（２６）を制御するためのコントローラ（２８）を含み、
前記適応型時間−スペクトル変換器（２６）は、制御情報（１２）を受信して、前記制御情報に応じて、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換カーネルの第１のグループと、変換カーネルの両側に同じ対称性を有する１つ以上の変換カーネルを含む変換カーネルの第２のグループとの間で、切り替わるように構成され、
前記変換カーネルの第１のグループは、ＭＤＣＴ−ＩＶ変換カーネルまたはＭＤＳＴ−ＩＶ変換カーネルを含む、あるいは、前記変換カーネルの第２のグループは、ＭＤＣＴ−ＩＩ変換カーネルまたはＭＤＳＴ−ＩＩ変換カーネルを含み、
前記コントローラ（２８）は、前記ＭＤＣＴ−ＩＶ変換カーネルに前記ＭＤＳＴ−ＩＩ変換カーネルが後続する、あるいは前記ＭＤＳＴ−ＩＶ変換カーネルに前記ＭＤＣＴ−ＩＩ変換カーネルが後続する、あるいは前記ＭＤＣＴ−ＩＩ変換カーネルに前記ＭＤＣＴ−ＩＶ変換カーネルが後続する、あるいは前記ＭＤＳＴ−ＩＩ変換カーネルに前記ＭＤＳＴ−ＩＶ変換カーネルが後続するように構成される、エンコーダ。
現在のフレームについて、前記現在のフレームを生成するために使用される前記変換カーネルの対称性を示す制御情報（１２）を有する符号化されたオーディオ信号（４）を生成するための出力インタフェース（３２）をさらに含む、請求項１０に記載のエンコーダ（２２）。
前記出力インタフェース（３２）は、前記現在のフレームが独立したフレームである場合、前記現在のフレームの制御データセクションに、前記現在のフレームおよび前のフレームについての対称情報を含める、あるいは
前記現在のフレームが従属フレームである場合、前記現在のフレームの前記制御データセクションに、前記現在のフレームについての対称情報のみを含み、前記前のフレームについての対称情報を含めないように構成される、請求項１１に記載のエンコーダ（２２）。
前記変換カーネルの第１のグループは、左側に奇数対称性を有し、且つ、右側に偶数対称性を有する、あるいはその逆である１つ以上の変換カーネルを有する、あるいは前記変換カーネルの第２のグループは、両側に偶数対称性を有するまたは両側に奇数対称性を有する１つ以上の変換カーネルを有する、あるいは、
前記ＭＤＣＴ−ＩＶは左側に奇数対称性および右側に偶数対象性を示し、この変換の信号の逆畳み込みの間に、合成信号が左側で反転され、
前記ＭＤＳＴ−ＩＶは左側に偶数対称性および右側に奇数対象性を示し、この変換の信号の逆畳み込みの間に、合成信号が右側で反転され、
前記ＭＤＣＴ−ＩＩは左側に偶数対称性および右側に偶数対象性を示し、この変換の信号の逆畳み込みの間に、合成信号がいずれの側でも反転されず、
前記ＭＤＳＴ−ＩＩは左側に奇数対称性および右側に奇数対象性を示し、この変換の信号逆畳み込みの間に、合成信号が両側で反転される、請求項１０〜請求項１２のいずれか１項に記載のエンコーダ（２２）。
前記コントローラ（２８）は、第１のチャネルおよび第２のチャネルを有する前記時間値（３０）の重複ブロックを分析して、前記第１のチャネルのフレームと、前記第２のチャネルの対応するフレームについて、前記変換カーネルを決定するように構成される、請求項１０〜請求項１３のいずれか１項に記載のエンコーダ（２２）。
前記適応型時間−スペクトル変換器（２６）は、マルチチャネル信号の第１のチャネルおよび第２のチャネルを処理するように構成され、前記エンコーダ（２２）は、ジョイントマルチチャネル処理技術を用いて、前記第１のチャネルおよび前記第２のチャネルのスペクトル値の前記連続するブロックを処理して、処理されたスペクトル値のブロックを得るためのマルチチャネルプロセッサ（４０）と、前記処理されたスペクトル値のブロックを処理して符号化されたチャネルを得るための符号化プロセッサ（４６）とをさらに含む、請求項１０〜請求項１４のいずれか１項に記載のエンコーダ（２２）。
第１の処理されたスペクトル値のブロックは、前記ジョイントマルチチャネル処理技術の第１の符号化表現を表し、第２の処理されたスペクトル値のブロックは、前記ジョイントマルチチャネル処理技術の第２の符号化表現を表し、前記符号化プロセッサ（４６）は、量子化およびエントロピー符号化を使用して前記第１の処理されたブロックを処理して第１の符号化された表現を形成するように構成され、前記符号化プロセッサ（４６）は量子化およびエントロピー符号化を使用して前記第２の処理されたブロックを処理して第２の符号化された表現を形成するように構成され、前記符号化プロセッサ（４６）は、前記第１の符号化された表現および前記第２の符号化された表現を使用して、前記符号化されたオーディオ信号のビットストリームを形成するように構成される、または、
マルチチャネル処理は、ジョイントステレオ処理または２つ以上のチャンネルのジョイント処理を意味し、マルチチャネル信号は２つのチャネルまたは２つ以上のチャネルを有する、請求項１５に記載のエンコーダ（２２）。
符号化されたオーディオ信号を復号する方法（１５００）であって、
連続するスペクトル値のブロックを連続する時間値のブロックに変換するステップと、
復号されたオーディオ値を得るために連続する時間値のブロックを重ね合わせて加算するステップと、
制御情報を受信して、前記制御情報に応じて、且つ前記変換するステップにおいて、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換カーネルの第１のグループと、変換カーネルの両側に同じ対称性を有する１つ以上の変換カーネルを含む変換カーネルの第２のグループとの間で切り替えるステップを含み、
前記第１のグループおよび前記第２のグループの前記変換カーネルは、以下の式に基づいていて、
前記第１のグループの前記少なくとも１つの変換カーネルは、パラメータ
ｃｓ（）＝ｃｏｓ（）およびｋ ₀ ＝０．５
または
ｃｓ（）＝ｓｉｎ（）およびｋ ₀ ＝０．５
に基づいている、
または
前記第２のグループの前記少なくとも１つの変換カーネルは、パラメータ
ｃｓ（）＝ｃｏｓ（）およびｋ ₀ ＝０
または
ｃｓ（）＝ｓｉｎ（）およびｋ ₀ ＝１
に基づいており、
ここで、ｘ _i,n は時間領域出力であり、Ｃは定数パラメータであり、Ｎは時間窓長であり、ｓｐｅｃはブロックについてＭ個の値を有するスペクトル値であり、ＭはＮ／２に等しく、ｉは時間ブロックインデックスであり、ｋはスペクトル値を示すスペクトルインデックスであり、ｎはブロックｉにおける時間値を示す時間インデックスであり、ｎ ₀ は整数またはゼロである定数パラメータであり、
前記変換するステップは、以下の表に基づいて前記変換カーネルを適用するステップを含み：
ここでｓｙｍｍ _i は、インデックスｉにおける前記現在のフレームの前記制御情報であり、前記ｓｙｍｍ _i-1 は、インデックスｉ _-1 における前記前のフレームの前記制御情報である、方法。
オーディオ信号を符号化する方法（１６００）であって、
オーバーラップする時間値のブロックを連続するスペクトル値のブロックに変換するステップと、
適応型時間−スペクトル変換するステップを、変換カーネルの第１のグループの変換カーネルと変換カーネルの第２のグループの変換カーネルとで切り替えるように制御するステップと、
制御情報を受信して、前記制御情報に応じて、且つ、前記変換するステップにおいて、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換カーネルの第１のグループの変換カーネルと、変換カーネルの両側に同じ対称性を有する１つ以上の変換カーネルを含む変換カーネルの第２のグループとの間で切り替えるステップを含み、
前記変換カーネルの第１のグループは、ＭＤＣＴ−ＩＶ変換カーネルまたはＭＤＳＴ−ＩＶ変換カーネルを含む、あるいは、前記変換カーネルの第２のグループは、ＭＤＣＴ−ＩＩ変換カーネルまたはＭＤＳＴ−ＩＩ変換カーネルを含み、
前記制御するステップは、前記ＭＤＣＴ−ＩＶ変換カーネルに前記ＭＤＳＴ−ＩＩ変換カーネルが後続する、あるいは前記ＭＤＳＴ−ＩＶ変換カーネルに前記ＭＤＣＴ−ＩＩ変換カーネルが後続する、あるいは前記ＭＤＣＴ−ＩＩ変換カーネルに前記ＭＤＣＴ−ＩＶ変換カーネルが後続する、あるいは前記ＭＤＳＴ−ＩＩ変換カーネルに前記ＭＤＳＴ−ＩＶ変換カーネルが後続するように構成される、方法。
コンピュータまたはプロセッサ上で動作する時に、請求項１７または請求項１８に記載の方法を実行するためのコンピュータプログラム。