JP6911080B2

JP6911080B2 - 変換長切替えをサポートする周波数ドメインオーディオ符号化

Info

Publication number: JP6911080B2
Application number: JP2019132361A
Authority: JP
Inventors: ザッシャ・ディック; クリスティアン・ヘルムリッヒ; アンドレアス・ヘルツェール
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-07-22
Filing date: 2019-07-18
Publication date: 2021-07-28
Anticipated expiration: 2034-07-15
Also published as: CN105593934A; US20190189138A1; AU2014295313A1; US20240127836A1; JP2021170127A; EP3025339B1; RU2654139C2; JP6560320B2; CN110739001A; PL3312836T3; JP2023126886A; ES2650747T3; FI3961621T3; EP3025339A1; US10242682B2; US11862182B2; CA2918849A1; MX357694B; AU2014295313B2; RU2016105704A

Description

本出願は、変換長切替えをサポートする周波数ドメインオーディオ符号化に関する。

ＩＥＴＦ［１］、ＭＰＥＧ−４（ＨＥ−）ＡＡＣ［２］、又は、特にＭＰＥＧ−ＤｘＨＥ−ＡＡＣ（ＵＳＡＣ）［３］のＯｐｕｓ／Ｃｅｌｔコーデックのような現代の周波数ドメイン音声／オーディオ符号化システムは、信号の時間的安定性に応じて、１つの長い変換、すなわち長いブロック、又は８つの連続する短い変換、すなわち短いブロックを使用してオーディオフレームを符号化する手段を提供する。

雨又は大観衆の拍手のような特定のオーディオ信号については、長いブロックの符号化と短いブロックの符号化のいずれも、低ビットレートにおいて満足のいく品質をもたらさない。これは、そのような録音における顕著な過渡の密度によって説明することができる。すなわち、長いブロックのみによる符号化は、プリエコーとしても知られる、頻繁な、耳に聞こえる符号化エラーの時間的な不鮮明さを引き起こす可能性があり、一方で、短いブロックのみによる符号化は、スペクトルホールがもたらされるデータオーバヘッド増大により一般的に非効率である。

したがって、ちょうど概説した種類のオーディオ信号にも適した周波数ドメインオーディオ符号化概念が身近にあることが好ましい。当然ながら、とりわけ、特定の種類のオーディオ信号に適した特定の所望の変換長を包含する変換長セットの間での切替えをサポートする新規の周波数ドメインオーディオコーデックを構築することは実現可能である。しかしながら、市場に採用される新規の周波数ドメインオーディオコーデックを導入することは容易な仕事ではない。周知のコーデックはすでに利用可能であり、頻繁に使用されている。したがって、所望の新たな変換長をさらにサポートするが、それにもかかわらず、既存の符号化器及び復号器との下位互換性を維持するように、既存の周波数ドメインオーディオコーデックが拡張されることを可能にする概念を得ることが可能であることが好ましい。

[1] Internet Engineering Task Force (IETF), RFC 6716, "Definition of the Opus Audio Codec," Proposed Standard, Sep. 2012. Available online at http://tools.ietf.org/html/rfc6716. [2] International Organization for Standardization, ISO/IEC 14496-3:2009, "Infomation Technology - Coding of audio-visual objects - Part 3: Audio"; Geneva, Switzerland, Aug. 2009. [3] M. Neuendorf et al., "MPEG-Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types," in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013. [4] International Organization for Standardization, ISO/IEC 23003-3:2012, "Information Technology - MPEG audio - Part 3: Unified speech and audio coding," Geneva, Jan. 2012. [5] J.D.Johnston and A.J.Ferreira, "Sum-Difference Stereo Transform Coding", in Proc. IEEE ICASSP-92, Vol. 2, March 1992. [6] N.Rettelbach, et al., European Patent EP2304719A1, "Audio Encoder, Audio Decoder, Methods for Encoding and Decoding an Audio Signal, Audio Stream and Computer Program", April 2011.

したがって、本発明の目的は、この新たな変換長も含む変換長間で切り替えるように、追加の変換長のサポートに向けて、既存の周波数ドメインオーディオコーデックが下位互換的に拡張されることを可能にする概念を提供することである。

この目的は、本明細書に添付の独立請求項の主題によって達成される。

本発明は、いずれの変換長が実際に適用されるかについてそれぞれのフレームに対して信号伝達する信号化にかかわりなく、それぞれのフレームの周波数ドメイン係数がインターリーブされるように送信されるとき、並びに、さらに、周波数ドメイン係数抽出及びスケール係数抽出がその信号化とは無関係に動作するときに、付加的に特定の変換長を下位互換的にサポートする機能を有する周波数ドメインオーディオコーデックを提供することができるという所見に基づく。この方策によって、上記信号化に対応しない旧式の周波数ドメインオーディオ符号化器／復号器が、それにもかかわらず、誤りなく妥当な品質を再生して動作することが可能になる。同時に、付加的にサポートされる変換長へ／からの切替えに対応している周波数ドメインオーディオ符号化器／復号器は、下位互換性があるにもかかわらず、さらにより良好な品質を達成する。旧式の復号器に対してトランスペアレント（transparent）に周波数ドメイン係数が符号化されることに起因する符号化効率の不利益に関する限り、これは、インターリーブに起因して比較的些細な性質のものである。

本出願の有利な実施態様は、従属請求項の主題である。

一実施形態による、周波数ドメインオーディオ復号器の概略ブロック図である。図１の逆変換器の機能を示す概略図である。一実施形態による、図２の逆ＴＮＳフィルタリングプロセスの上流方向に向けての可能な変位を示す概略図である。一実施形態による、ＵＳＡＣにおける長い停止−開始窓の変換分割を使用するときの窓の選択の可能性を示す図である。一実施形態による、周波数ドメインオーディオ符号化器のブロック図である。

特に、本出願の好ましい実施形態を図面に関連して下記に説明する。

図１は、本出願の一実施形態による、変換長切替えをサポートする周波数ドメインオーディオ復号器を示す。図１の周波数ドメインオーディオ復号器は全体的に参照符号１０を使用して示されており、周波数ドメイン係数抽出器１２と、スケーリング係数抽出器１４と、逆変換器１６と、結合器１８とを備える。それらの入力において、周波数ドメイン係数抽出器１２とスケール係数抽出器１４は入来するデータストリーム２０にアクセスすることができる。周波数ドメイン係数抽出器１２とスケール係数抽出器１４の出力は、逆変換器１６のそれぞれの入力に接続されている。逆変換器１６の出力は、結合器１８の入力に接続されている。結合器１８は、符号化器１０の出力２２において再構築されたオーディオ信号を出力する。

周波数ドメイン係数抽出器１２は、データストリーム２０からオーディオ信号のフレーム２６の周波数ドメイン係数２４を抽出するように構成されている。周波数ドメイン係数２４はＭＤＣＴ係数であってもよく、又は別の重複変換のような他の何らかの変換に属してもよい。下記にさらに説明するように、特定のフレーム２６に属する周波数ドメイン係数２４は、様々なスペクトル−時間分解能でそれぞれのフレーム２６内のオーディオ信号のスペクトルを記述する。フレーム２６は、オーディオ信号が時間において連続的に区分化される時間部分を表す。すべてのフレームのすべての周波数ドメイン係数２４をまとめると、これはオーディオ信号のスペクトログラム２８を表す。フレーム２６は、例えば長さが等しくてもよい。オーディオ信号のオーディオ内容の種類が経時的に変化することに起因して、各フレーム２６のスペクトルを、例えば一定の変換長を有する変換を使用することによって、連続したスペクトル−時間分解能で記述するのは不利な場合がある。変換長は、例えば、各フレーム２６の時間長に及び、すなわち、オーディオ信号のこのフレーム２６内のサンプル値並びにそれぞれのフレームに先行する時間ドメインサンプル及び後続する時間ドメインサンプルを含むものである。例えば、それぞれのフレームのスペクトルを周波数ドメイン係数２４の形態で損失の多い送信をすると、プリエコーアーティファクトが生じる場合がある。したがって、さらに下記に概説する方法では、それぞれのフレーム２６の周波数ドメイン係数２４は、このフレーム２６内のオーディオ信号のスペクトルを、異なる変換長間で切り替えることによって切替え可能なスペクトル−時間分解能で記述する。しかしながら、周波数ドメイン係数抽出器１２に関する限り、後者の状況はこれに対してトランスペアレントである。周波数ドメイン係数抽出器１２は、フレーム２６の異なるスペクトル−時間分解能間でのちょうど言及した切替えを信号伝達するいかなる信号化とも無関係に動作する。

周波数ドメイン係数抽出器１２は、データストリーム２０から周波数ドメイン係数２４を抽出するためにエントロピー符号化を使用することができる。例えば、周波数ドメイン係数抽出器は、可変コンテキスト算術復号のようなコンテキストベースのエントロピー復号を使用して、それぞれの周波数ドメイン係数が属するフレーム２６のスペクトル−時間分解能を信号伝達する上述した信号化にかかわらず、周波数ドメイン係数２４の各々に同じコンテキストを割り当てることによって、データストリーム２０から周波数ドメイン係数２４を抽出することができる。あるいは、第２の例として、抽出器１２は、ハフマン復号を使用して、フレーム２６の分解能を指定する上記信号化にかかわらずハフマン符号語のセットを規定してもよい。

周波数ドメイン係数２４がスペクトログラム２８を記述する方法には複数の異なる可能性が存在する。例えば、周波数ドメイン係数２４は、何らかの予測残差を表すに過ぎない場合がある。例えば、周波数ドメイン係数は、少なくとも部分的に、信号スペクトログラム２８が属するマルチチャネルオーディオ信号からの対応するオーディオチャネル又はダウンミックスを表す別のオーディオ信号からのステレオ予測によって得られている予測の残差を表す場合がある。あるいは、又は予測残差に加えて、周波数ドメイン係数２４は、Ｍ／Ｓステレオパラダイム［５］による和（中間）又は差（外側）信号を表してもよい。さらに、周波数ドメイン係数２４はテンポラルノイズシェーピングを受けている場合がある。

その上、周波数ドメイン係数１２は量子化され、量子化誤差を心理音響検出（又はマスキング）閾値未満に維持するために、例えば、量子化刻み幅が、周波数ドメイン係数２４と関連付けられるそれぞれのスケーリング係数を介して制御されるように、スペクトル的に変更される。スケール係数抽出器１４は、データストリーム２０からスケーリング係数を抽出する役割を担う。

フレームからフレームへの異なるスペクトル−時間分解能間での切替えに関するもう少し踏み込んだ詳細について手短に紙幅を割き、以下陳述する。下記により詳細に説明するように、異なるスペクトル−時間分解能間の切替えは、特定のフレーム２６内ですべての周波数ドメイン係数２４が１つの変換に属すること、又は、それぞれのフレーム２６の周波数ドメイン係数２４が実際に異なる変換に属することのいずれかを示す。異なる変換は、例えば２つの変換であって、その変換長がちょうど言及した１つの変換の変換長の半分であるようなものである。図面に関連して以下に説明する実施形態は、一方における１つの変換と他方における２つの変換との間の切替えを仮定するが、実際には、１つの変換と３つ以上の変換との間の切替えも原則的に実現可能であり、下記に与えられる実施形態は、そのような代替的な実施形態に容易に変換可能である。

図１は、現在のフレームが２つの短い変換によって表されるタイプのものである例示的な事例を、ハッチングを使用して示している。２つの短い変換の一方はオーディオ信号の現在のフレーム２６の後半を使用して導出されており、他方はオーディオ信号の現在のフレーム２６の前半を変換することによって得られている。変換長が短縮されることに起因して、周波数ドメイン係数２４がフレーム２６のスペクトルを記述するスペクトル分解能が低減し、すなわち、２つの短い変換を使用する場合は半分になり、一方で時間分解能は増大し、すなわち、本事例では２倍になる。図１において、例えば、ハッチングで示されている周波数ドメイン係数２４は先行する変換に属するものとし、ハッチングの施されていない周波数ドメイン係数２４は後続する変換に属するものとする。したがって、スペクトル的に同じ位置にある（co-located）周波数ドメイン係数２４は、フレーム２６内のオーディオ信号の同じスペクトル成分を記述しているが、わずかに異なる時刻、すなわち、変換分割フレームの２つの連続する変換窓にある。

データストリーム２０において、周波数ドメイン係数２４は、２つの異なる変換のスペクトル的に対応する周波数ドメイン係数が互いに直に後続するように、インターリーブされた方法で送信される。さらに言い換えれば、周波数ドメイン係数抽出器１２から受信されたときの周波数ドメイン係数２４が、それらが長い変換の周波数ドメイン係数であるかのように連続的に順序付けさている場合、それらが、この系列においてインターリーブされたように配列され、それによって、スペクトル的に同じ位置にある周波数ドメイン係数２４が互いに直に隣接し、かつそのようなスペクトル的に同じ位置にある周波数ドメイン係数２４の対が、スペクトル／周波数順に従って順序付けされるように、分割変換フレーム、すなわち、変換分割がデータストリーム２０において信号伝達されているフレーム２６の周波数ドメイン係数２４が送信される。興味深いことに、そのように順序付けされると、インターリーブされた周波数ドメイン係数２４の系列は、１つの長い変換によって得られている周波数ドメイン係数２４の系列と同様に見える。ここでも、周波数ドメイン係数抽出器１２に関する限り、フレーム２６の単位における異なる変換長又はスペクトル−時間分解能間の切替えはこれに対してトランスペアレントであり、したがって、周波数ドメイン係数２４をコンテキスト適応的にエントロピー符号化するためのコンテキスト選択の結果として、抽出器１２が知らずに現在のフレームが実際に長い変換であるか、又は、現在のフレームが分割変換タイプのものであるかにかかわらず、同じコンテキストが選択されることになる。例えば、周波数ドメイン係数抽出器１２は、スペクトル−時間的に隣接するすでに符号化／復号されている周波数ドメイン係数に基づいて、特定の周波数ドメイン係数のために利用されるべきコンテキストを選択することができ、このスペクトル−時間的な隣接は、図１に示されているインターリーブされた状態において規定される。これは、以下の結果を有する。現在符号化／復号されている周波数ドメイン係数２４が、図１においてハッチングを使用して示されている先行する変換の一部分であったと想定されたい。スペクトル的に直に隣接する周波数ドメイン係数はこのとき、実際には同じ先行する変換（すなわち、図１におけるハッチングのあるもの）の周波数ドメイン係数２４である。しかしながら、それにもかかわらず、周波数ドメイン係数抽出器１２は、コンテキスト選択に、後続する変換、すなわち（短くなった変換の低減されたスペクトル分解能に従って）スペクトル的に隣接するもの、に属する周波数ドメイン係数２４を、現在の周波数ドメイン係数２４の１つの長い変換のスペクトル的に直に隣接するものと仮定して使用する。同様に、後続する変換の周波数ドメイン係数２４についてのコンテキストの選択において、周波数ドメイン係数抽出器１２は、スペクトル的に直に隣接するものとして、先行する変換に属し、かつ実際にはその係数とスペクトル的に同じ位置にある周波数ドメイン係数２４を使用する。特に、現在のフレーム２６の係数２４の間で規定される復号順序は、例えば、最低周波数から最高周波数へと続くことができる。同様の観測は、周波数ドメイン係数抽出器１２が、順序付けられているがデインターリーブされていないときの直に連続する周波数ドメイン係数２４のグループ／タプル内の現在のフレーム２６の周波数ドメイン係数２４をエントロピー復号するように構成されている場合に有効である。同じ短い変換のみに属するスペクトル的に隣接する周波数ドメイン係数２４のタプルを使用する代わりに、周波数ドメイン係数抽出器１２は、異なる短い変換に属する周波数ドメイン係数２４が混合されたスペクトル的に隣接する特定のタプルに基づいて、異なる変換に属する周波数ドメイン係数２４が混合されたスペクトル的に隣接するそのようなタプルに対してコンテキストを選択することもある。

上記で示したように、インターリーブされた状態において、２つの短い変換によって得られるものとしての結果もたらされるスペクトルは、１つの長い変換によって得られるスペクトルに非常に類似して見えるという事実に起因して、変換長切替えに依存しない周波数ドメイン係数抽出器１２の動作の結果としてもたらされるエントロピー符号化の不利益は低い。

上記で言及したように、データストリーム２０から周波数ドメイン係数２４のスケーリング係数を抽出する役割を担うスケーリング係数抽出器１４によって、復号器１０の説明を再開する。スケール係数が周波数ドメイン係数２４に割り当てられるスペクトル分解能は、長い変換によってサポートされる相対的に精細なスペクトル分解能よりも粗い。波括弧３０によって示されているように、周波数ドメイン係数２４は、複数のスケール係数帯域にグループ化することができる。スケール係数帯域における区分化は、心理音響的な考えに基づいて選択されてもよく、例えば、いわゆるバーク（又は臨界）帯域と一致してもよい。スケーリング係数抽出器１４は、ちょうど周波数ドメイン係数抽出器１２がそうであるように変換長切替えに依存しないため、スケーリング係数抽出器１４は、変換長切替え信号化にかかわらず、各フレーム２６が複数の等しいスケール係数帯域３０に区分化されると仮定し、そのような各スケール係数帯域３０についてスケール係数３２を抽出する。符号化器側において、これらのスケール係数帯域３０への周波数ドメイン係数２４の帰属は、図１に示されているデインターリーブされていない状態において行われる。結果として、分割変換に対応するフレーム２６に関する限り、各スケール係数３２は、先行する変換の周波数ドメイン係数２４及び後続する変換の周波数ドメイン係数２４の両方が所属するグループに属する。

逆変換器１６は、各フレーム２６について、対応する周波数ドメイン係数２４及び対応するスケール係数３２を受信し、スケール係数３２に従ってスケーリングされているフレーム２６の周波数ドメイン係数２４に逆変換を受けさせてオーディオ信号の時間ドメイン部分を取得するように構成されている。逆変換器１６によって、例えば、修正離散コサイン変換（ＭＤＣＴ:modified discrete cosine transform）のような重複変換を使用することができる。結合器１８は、オーディオ信号を得るために、例えば適切な重畳加算法を使用することなどによって時間ドメイン部分を組み合わせる。重畳加算法は、例えば、逆変換器１６によって出力される時間ドメイン部分の重なり合う部分の中での時間ドメインエイリアシング除去をもたらす。

当然ながら、逆変換器１６は、フレーム２６についてデータストリーム２０内で信号伝達される前述した変換長切替えに応答する。逆変換器１６の動作を、図２を参照してより詳細に説明する。

図２は、逆変換器１６の可能性のある内部構造をより詳細に示す。図２に示されているように、逆変換器１６は、現在のフレームについて、そのフレームと関連付けられる周波数ドメイン係数２４、及び周波数ドメイン係数２４を逆量子化するための対応するスケール係数３２を受信する。さらに、逆変換器１６は、各フレームについてデータストリーム２０内に存在する信号化３４によって制御される。逆変換器１６は、データストリーム２０内に任意に含まれるデータストリーム２０の他の成分を介してさらに制御することができる。以下の説明において、これらの追加のパラメータに関する詳細を説明する。

図２に示されているように、図２の逆変換器１６は逆量子化器３６と、起動可能デインターリーバ３８と、逆変換段階４０とを備える。以下の説明の理解を容易にするために、周波数ドメイン係数抽出器１２から現在のフレームについて導出されたときの入来周波数ドメイン係数２４が、０〜Ｎ−１の符号を付されて示されている。ここでも、周波数ドメイン係数抽出器１２は信号化３４に依存しない、すなわち、信号化３４とは無関係に動作するため、周波数ドメイン係数抽出器１２は、現在のフレームが分割変換タイプであるか、又は１変換タイプ、すなわち、周波数ドメイン係数２４の数がこの例の場合はＮであるかにかかわらず、逆変換器１６に同じ方法で周波数ドメイン係数２４を提供し、Ｎ個の周波数ドメイン係数２４へのインデックス０〜Ｎ−１の関連付けも信号化３４にかかわらず同じままである。現在のフレームが１又は長い変換タイプである場合、インデックス０〜Ｎ−１は最低周波数から最高周波数までの周波数ドメイン係数２４の順序付けに対応し、現在のフレームが分割変換タイプである場合、インデックスは周波数ドメイン係数に対する順序に対応するが、そのときの周波数ドメイン係数はスペクトル順に従ってスペクトル的に配列されているが、２つ目から１つおきの周波数ドメイン係数２４が後続する変換に属し、一方で他の周波数ドメイン係数２４が先行する変換に属するようにインターリーブされたように配列されている。

同様のことが、スケール係数３２に当てはまる。スケール係数抽出器１４は信号化３４に依存しないで動作するため、スケール係数抽出器１４から到来するスケール係数３２の数及び順序ならびに値は信号化３４とは無関係であり、図２におけるスケール係数３２は、これらのスケール係数が関連付けられるスケール係数帯域の間での連続した順序に対応するインデックスを用いて例示的にＳ₀〜Ｓ_Mとして示されている。

周波数ドメイン係数抽出器１２及びスケール係数抽出器１４と同様に、逆量子化器３６は信号化３４に依存しないで、又は信号化３４とは無関係に動作することができる。逆量子化器３６は、それぞれの周波数ドメイン係数が属するスケール係数帯域と関連付けられるスケール係数を使用して、入来する周波数ドメイン係数２４を逆量子化又はスケーリングする。ここでも、個々のスケール係数帯域に対する入来する周波数ドメイン係数２４の帰属関係、したがってスケール係数３２に対する入来する周波数ドメイン係数２４の関連付けは、信号化３４とは無関係であり、したがって、逆変換器１６は、周波数ドメイン係数２４に、信号化とは無関係なスペクトル分解能におけるスケール係数３２によるスケーリングを行う。例えば、逆量子化器３６は、信号化３４とは無関係に、周波数ドメイン係数に、第１のスケール係数帯域に対してインデックス０〜３を割り当て、したがって、第１のスケール係数はＳ₀となり、第２のスケール係数帯域に対してインデックス４〜９を割り当て、したがって、スケール係数Ｓ₁などとなる。スケール係数境界は例示であるように意図されているに過ぎない。逆量子化器３６は、例えば、周波数ドメイン係数２４を逆量子化するために、関連付けられたスケール係数を使用した乗算を実施することができ、すなわち、ｘ₀をｘ₀・ｓ₀,とし、ｘ₁をｘ₁・ｓ₀とし、…ｘ₃をｘ₃・ｓ₀とし、ｘ₄をｘ₄・ｓ₁とし、…ｘ₉をｘ₉・ｓ₁とし、他同様である。あるいは、逆量子化器３６は、スケール係数帯域によって規定される粗いスペクトル分解能から周波数ドメイン係数２４の逆量子化に実際に使用されるスケール係数の補間を実施してもよい。補間は信号化３４とは無関係とすることができる。しかしながら、あるいは、後者の補間は、現在のフレームが分割変換タイプのものであるか、又は１／長い変換タイプであるかに応じて周波数ドメイン係数２４の異なるスペクトル−時間サンプリング位置を考慮に入れるために、信号化に依存してもよい。

図２は、起動可能デインターリーバ３８の入力側まで、周波数ドメイン係数２４の間での順序が同じままであり、同じことが、その地点までの全体的な動作に関して、少なくとも部分的に当てはまることを示している。図２は、起動可能デインターリーバ３８の上流において、逆変換器１６によってさらなる動作を実施できることを示している。例えば、逆変換器１６は、周波数ドメイン係数２４に対してノイズ充填を実施するように構成することができる。例えば、周波数ドメイン係数２４の系列において、スケール係数帯域、すなわち、インデックス０〜Ｎ−１に従う順序で入来した周波数ドメイン係数のグループを識別することができ、ここで、それぞれのスケール係数帯域のすべての周波数ドメイン係数２４はゼロに量子化される。そのような周波数ドメイン係数は、例えば、疑似乱数生成器などを使用した、人工ノイズ生成を使用して充填することができる。ゼロ量子化スケール係数帯域内に充填されるノイズの強度／レベルは、それぞれのスケール係数帯域のスケール係数を使用して調整することができ、これは、内部のスペクトル係数がすべてゼロであるためにそれがスケーリングには必要とされないためである。そのようなノイズ充填は図２に４０で示されており、欧州特許出願公開第ＥＰ２３０４７１９Ａ１［６］における一実施形態により詳細に記載されている。

図２は、さらに、逆変換器１６がジョイントステレオ符号化及び／又はチャネル間ステレオ予測をサポートするように構成できることを示す。チャネル間ステレオ予測の枠組みにおいて、逆変換器１６は、例えば、オーディオ信号の別のチャネルから、インデックス０〜Ｎ−１の順序によって表されたデインターリーブされていない配列のスペクトルを予測４２できる。すなわち、これは、周波数ドメイン係数２４がステレオオーディオ信号のチャネルのスペクトログラムを記述するということ、及び、逆変換器１６が、周波数ドメイン係数２４を、このステレオオーディオ信号の他のチャネルから導出される予測信号の予測残差として処理するように構成されているということであり得る。このチャネル間ステレオ予測は、例えば、信号化３４とは無関係の或るスペクトル粒度において実施できる。複素ステレオ予測４２を制御する複素予測パラメータ４４が、例えば、前述したスケール係数帯域の特定のものについて、複素ステレオ予測４２を始動できる。複素予測パラメータ４４によって複素予測が始動される各スケール係数帯域について、それぞれのスケール係数帯域内に存在する０〜Ｎ−１の順序に配列された、スケーリングされている周波数ドメイン係数２４が、ステレオオーディオ信号の他のチャネルから得られるチャネル間予測信号と合計される。このそれぞれのスケール係数帯域の複素予測パラメータ４４内に含まれる複素係数が、予測信号を制御できる。

さらに、ジョイントステレオ符号化の枠組み内で、逆変換器１６はＭＳ復号４６を実施するように構成することができる。すなわち、図１の復号器１０が、これまで説明した動作を２回、すなわち、ステレオオーディオ信号の第１のチャネルのために１回、第２のチャネルのためにもう１回実施することができ、データストリーム２０内のＭＳパラメータを介して制御されて、逆変換器１６は、これらの２つのチャネルをＭＳ復号できるか、又はそれらのチャネルをそのまま、すなわち、ステレオオーディオ信号の左チャネル及び右チャネルのままにしておくことができる。ＭＳパラメータ４８は、フレームレベル、又はさらにはスケール係数帯域もしくはそのグループの単位のような何らかのより精細なレベルにおけるＭＳ符号化の間で切り替えることができる。例えば、始動されているＭＳ復号の場合、逆変換器１６は、係数の順序０〜Ｎ−１における対応する周波数ドメイン係数２４と、ステレオオーディオ信号の他のチャネルの対応する周波数ドメイン係数との和、又はそれらの差を形成することができる。

そこで、図２は、起動可能デインターリーバ３８が次のように現在のフレームに対する信号化３４に応答することを示している。すなわち、現在のフレームが信号化３４によって分割された変換フレームであるように信号伝達されている場合に、２つの変換、すなわち、先行する変換５０及び後続する変換５２を得るように入来する周波数ドメイン係数をデインターリーブし、現在のフレームが長い変換フレームであること示す信号化３４の場合に１つの変換５４をもたらすように周波数ドメイン係数をインターリーブされたままにする。デインターリーブする場合、デインターリーバ３８は、５０及び５２のうちの１つの変換、すなわち、偶数インデックスを有する周波数ドメイン係数から一方の短い変換、及び、奇数インデックス位置にある周波数ドメイン係数から他方の短い変換を形成する。例えば、偶数インデックスの周波数ドメイン係数は先行する変換（インデックス０で開始するとき）を形成し、一方、他方の周波数ドメイン係数は後続する変換を形成する。それらの変換５０及び５２は、それぞれ時間ドメイン部分５６及び５８をもたらす短い方の変換長の逆変換を受ける。図１の結合器１８は、時間ドメイン部分５６及び５８を時間的に正確に位置付け、すなわち、先行する変換５０からもたらされる時間ドメイン部分５６を、後続する変換５２からもたらされる時間ドメイン部分５８の前に位置付け、それらの間で、オーディオ信号の先行するフレーム及び後続するフレームからもたらされる時間ドメイン部分を用いて重畳加算プロセスを実施する。デインターリーブされない場合、インターリーバ３８に到来する周波数ドメイン係数がそのまま長い変換５４を形成し、逆変換段階４０が、現在のフレーム２６の時間間隔全体にわたって、またそれを超えて及ぶ時間ドメイン部分６０をもたらすように、当該周波数ドメイン係数に対して逆変換を実施する。結合器１８は、時間ドメイン部分６０と、オーディオ信号の先行するフレーム及び後続するフレームからもたらされるそれぞれの時間ドメイン部分とを組み合わせる。

これまでに説明した周波数ドメインオーディオ復号器は、信号化３４に対応しない周波数ドメインオーディオ復号器との互換性があることを可能にするように、変換長切替えを可能にする。特に、そのような「旧式」の復号器は、実際には信号化３４によって信号伝達されているフレームを、分割変換タイプであるように、長い変換タイプであるように誤って仮定することがある。すなわち、それらの復号器は誤って、分割タイプ周波数ドメイン係数をインターリーブされたままにし、長い変換長の逆変換を実施することがある。しかしながら、再構築されるオーディオ信号の影響を受けるフレームの結果としての品質は依然として十分に妥当なものである。

翻って、符号化効率の不利益も、依然として十分に妥当なものである。符号化効率の不利益は、周波数ドメイン係数及びスケール係数が、様々な係数の意味を考慮に入れることなく、符号化効率を増大させるようにこの変動を利用することなく符号化されるために、信号化３４を無視することからもたらされる。しかしながら、後者の不利益は、下位互換性を可能にする利点と比較して比較的小さい。後者の説明は、図２におけるインデックス０〜Ｎ−１によって規定されるデインターリーブされた状態における連続したスペクトル部分（スケール係数帯域）内のみでのノイズ充填器４０、複素ステレオ予測４２及びＭＳ復号４６の起動及び機能停止に対する制限に関しても当てはまる。（例えば、２つのノイズレベルを有する）フレームのタイプに特定的にこれらの符号化ツールの制御を可能にする機会は、場合によっては利点をもたらし得るが、これらの利点は、下位互換性を有する利点によって過補償される。

図２は、図１の復号器をさらに、信号化３４に対応しない復号器との下位互換性をなお維持しながらＴＮＳ（Temporal Noise Shaping:テンポラルノイズシェーピング）符号化をサポートするように構成できることを示す。特に、図２は、逆ＴＮＳフィルタリングを行う場合は、任意の複素ステレオ予測４２及びＭＳ復号４６の後に行う可能性を示している。下位互換性を維持するために逆変換器１６は、それぞれのＴＮＳ係数６４を使用して信号化３４にかかわらずＮ個の係数の系列に対して逆ＴＮＳフィルタリング６２を実施するように構成されている。この方策によって、データストリーム２０は、信号化３４にかかわらずＴＮＳ係数６４を等しく符号化する。すなわち、ＴＮＳ係数の数及びこれを符号化する方法は同じである。一方、逆変換器１６は、ＴＮＳ係数６４を別様に適用するように構成されている。現在のフレームが長い変換フレームである場合、逆ＴＮＳフィルタリングは長い変換５４、すなわち、インターリーブされた状態で系列化されている周波数ドメイン係数に対して実施され、現在のフレームが信号化３４によって分割された変換フレームとして信号伝達されている場合、逆変換器１６は、先行する変換５０及び後続する変換５２の連結、すなわち、インデックス０、２、…、Ｎ−２、１、３、５、…、Ｎ−１の周波数ドメイン係数の系列を逆ＴＮＳフィルタリング６２する。逆ＴＮＳフィルタリング６２は、例えば、フィルタを適用する逆変換器１６を含むことができ、そのフィルタの伝達関数はデインターリーバ３８の上流の処理系列を通過した係数のデインターリーブ又はインターリーブされた系列に対するＴＮＳ係数６４に従って設定される。

したがって、分割されたフレームタイプのフレームを誤って長い変換フレームとして処理する「旧式」の復号器は、２つの実時間変換すなわち５０及び５２の連結を分析することによって符号化器によって生成されているＴＮＳ係数６４を、変換５４へ適用し、したがって、変換５４に対して適用される逆変換によって不正確な時間ドメイン部分６０を生成する。しかしながら、そのような分割変換フレームの使用を信号が雨又は拍手などを表す場合に制限する場合、そのような復号器においてたとえこの品質劣化が発生するとしても、これは聴き手にとって耐えられるものであり得る。

網羅性のために、図３は、逆変換器１６の逆ＴＮＳフィルタリング６２は、図２に示されている処理系列内のどこかほかにも挿入できることを示している。例えば、逆ＴＮＳフィルタリング６２は、複素ステレオ予測４２の上流に配置することができる。逆ＴＮＳフィルタリング６２の下流及び上流においてデインターリーブされたドメインを保持するために、図３は、周波数ドメイン係数２４が事前にのみデインターリーブ６６されている場合において、これまでに処理されたときの周波数ドメイン係数２４がインデックス０、２、４、…、Ｎ−２、１、３、…、Ｎ−３、Ｎ−１の順序になっているデインターリーブ連結状態内で逆ＴＮＳフィルタリング６８を実施するために、周波数ドメイン係数を、再びそれらのインターリーブされた順序０、１、２、…、Ｎ−１における逆ＴＮＳフィルタリングされたバージョンで得るようにデインターリーブが逆転７０されることを示している。図２に示されている処理ステップ系列内の逆ＴＮＳフィルタリング６２の位置は、固定であってもよく、又は、例えば、フレームごとに又は何らかの他の粒度においてなどで、データストリーム２０を介して信号伝達してもよい。

説明を軽減するために、上記の実施形態は、長い変換フレーム及び分割変換フレームの併記のみに集中していることに留意すべきである。しかしながら、本出願の実施形態は、８つの短い変換から成るフレームのような他の変換タイプのフレームを導入することによって同様に拡張することもできる。これに関連して留意すべきことは、前述した非依存性は、さらなる信号化によって、任意の第３の変換タイプのそのような他のフレームから区別されるフレームのみに関係し、それによって、「旧式」の復号器は、すべてのフレームに含まれるさらなる信号化を検査することによって、分割された変換フレームを誤って長い変換フレームとして処理するということであり、他のフレーム（分割変換及び長い変換フレームを除くすべて）から区別されるフレームのみが信号化３４を含む。そのような他のフレーム（分割変換及び長い変換フレームを除くすべて）に関する限り、留意することは、コンテキスト選択などのような抽出器１２及び１４の動作モードは、さらなる信号化に依存し得るということ、すなわち、そのような動作モードは、分割変換及び長い変換フレームに適用される動作モードとは異なり得るということである。

上述した復号器の実施形態に適合する適切な符号化器を説明する前に、ｘＨＥ−ＡＡＣベースのオーディオ符号化器／復号器を、下位互換的な変換分割をサポートすることを可能にするように適応的に更新するのに適している、上記の実施形態の実施態様を説明する。

すなわち、以下において、低ビットレートにおける特定のオーディオ信号の符号化品質を改善する目的で、ＭＰＥＧ−ＤｘＨＥ−ＡＡＣ（ＵＳＡＣ）に基づくオーディオコーデックにおいて変換長分割を実施する方法の可能性を説明する。変換分割ツールは、旧来のｘＨＥ−ＡＡＣ復号器が明白なオーディオエラー又は脱落なしに上記の実施形態に従ってビットストリームを構文解析及び復号することができるように、半下位互換的に信号伝達される。以下に示すように、この半下位互換的信号化は、ノイズ充填の使用状況を条件付き符号化様式で制御するフレーム構文要素の使用されていない可能性のある値を利用する。旧来のｘＨＥ−ＡＡＣ復号器は、それぞれのノイズ充填構文要素のこれらの可能性のある値に対応しないが、改善されたオーディオ復号器は対応する。

特に、下記に説明する実施態様は、上述した実施形態と一致して、雨又は拍手と同様の符号化信号のための中間変換長、好ましくは分割された長いブロック、すなわち、長いブロックのスペクトル長の半分又は４分の１の各々である２つの連続する変換を提供することを可能にし、これらの変換の間の最大の時間的重複は、連続する長いブロック間の最大の時間的重複よりも小さい。変換分割を有する符号化ビットストリーム、すなわち信号化３４、が旧来のｘＨＥ−ＡＡＣ復号器によって読み出され構文解析されることを可能にするために、分割は半下位互換的に使用されるべきであり、そのような変換分割ツールが存在することによって、旧来の復号器が復号を停止するか又はさらには復号を開始しなくなるべきではない。ｘＨＥ−ＡＡＣインフラストラクチャによるそのようビットストリームの可読性はまた、市場採用を促進することもできる。ｘＨＥ−ＡＡＣ又はその可能性のある派生物に関して変換分割を使用するための、ちょうど言及した半下位互換性の目的を達成するために、変換分割はｘＨＥ−ＡＡＣのノイズ充填信号化を介して信号伝達される。上述した実施形態に従って、ｘＨＥ−ＡＡＣ符号化器／復号器への変換分割を構築するために、周波数ドメイン（ＦＤ）停止−開始窓系列の代わりに、２つの別個の半長変換から構成される分割変換を使用することができる。時間的に連続する半長変換は、変換分割をサポートしていない復号器、すなわち旧来のｘＨＥ−ＡＡＣ復号器、のために、係数ごとに単一の停止−開始状ブロックにインターリーブされる。ノイズ充填信号化を介した信号伝達は以下に説明するように実施される。特に８ビットノイズ充填サイド情報を、変換分割を信号伝達するのに使用できる。たとえ適用されるべきノイズレベルがゼロであっても８ビットすべてが送信されるとＭＰＥＧ−Ｄ規格［４］が述べているため、これは実現可能である。その状況において、ノイズ充填ビットのいくつかを、変換分割、すなわち信号化３４に再使用することができる。

旧来のｘＨＥ−ＡＡＣ復号器によるビットストリーム構文解析及び再生に関する半下位互換性は、以下のように保証することができる。変換分割はゼロのノイズレベル、すなわちすべてゼロの値を有する最初の３つのノイズ充填ビットを介して信号伝達され、それに変換分割及び失われるノイズレベルに関するサイド情報を含む５つの非ゼロビット（従来はノイズオフセットを表す）が続く。旧来のｘＨＥ−ＡＡＣ復号器は、３ビットノイズレベルがゼロである場合に５ビットオフセットの値を無視するため、変換分割信号化３４の存在は、旧来の復号器におけるノイズ充填にしか影響を及ぼさない。すなわち、最初の３ビットがゼロであるため、ノイズ充填はオフにされ、残りの復号動作は意図した通りに作動する。特に、分割変換は、（上述の係数インターリーブに起因して）全長逆変換を用いて従来の停止−開始ブロックのように処理され、デインターリーブは実施されない。したがって、旧来の復号器は、変換分割タイプのフレームが到達したときに出力信号２２を弱めるか、又は、さらには復号を中断する必要がないため、依然として、改善されたデータストリーム／ビットストリーム２０の優美な（graceful）復号を可能にする。当然ながら、そのような旧来の復号器は、分割変換フレームの正確な再構築をもたらすことは不可能であり、結果として、例えば、図１による適切な復号器による復号と比較すると影響を受けるフレームにおいて品質が劣化してしまう。それにもかかわらず、変換分割が意図される通りに、すなわち、低ビットレートにおける過渡的な又はノイズの多い入力に対してのみ使用されると仮定すると、ｘＨＥ−ＡＡＣ復号器による品質は、影響を受けるフレームが、弱まることに起因して脱落するか、又は、他の様態で明白な再生エラーをもたらす場合よりも良好になるはずである。

具体的には、ｘＨＥ−ＡＡＣ符号化器／復号器の変換分割に向けての拡張は以下の通りとすることができる。

上記の説明に従って、ｘＨＥ−ＡＡＣに使用されるべき新規のツールは、変換分割（ＴＳ:transform splitting）と呼ぶことができる。変換分割は、ｘＨＥ−ＡＡＣの周波数ドメイン（ＦＤ）符号化器、又は、例えば、ＵＳＡＣ［４］に基づいているＭＰＥＧ−Ｈ３Ｄ−Ａｕｄｉｏにおける新規のツールである。変換分割は、このとき、通常の長い変換（低ビットレートにおいて時間的な不鮮明さ、特にプリエコーをもたらす）又は８つの短い変換（低ビットレートにおいてスペクトルホール及びバブルアーティファクトをもたらす）に対する代替形態として、特定の過渡信号通過に対して使用可能である。このとき、変換分割は、旧来のＭＰＥＧ−ＤＵＳＡＣ復号器によって正確に構文解析することができる長い変換にＦＤ係数をインターリーブすることによって半下位互換的に信号伝達できる。

このツールの説明は上記の説明と同様である。変換分割が長い変換においてアクティブであるとき、１つの全長ＭＤＣＴの代わりに２つの半長ＭＤＣＴが利用され、２つのＭＤＣＴすなわち５０及び５２の係数が、ラインごとにインターリーブされるように送信される。インターリーブ送信は、例えば、周波数ドメイン（停止）開始変換の場合にすでに使用されており、時間的に最初のＭＤＣＴの係数が偶数インデックスに配置されており、時間的に２番目のＭＤＣＴの係数が奇数インデックスに配置されている（インデックス付けがゼロにおいて始まる場合）が、停止−開始変換を処理することが可能でない復号器は、データストリームを正確に構文解析することができていない。すなわち、周波数ドメイン係数をエントロピー符号化するのに使用される種々のコンテキストはそのような停止−開始変換、すなわち半分の変換に合理化された変化した構文、に有効であるので、停止−開始窓をサポートすることが可能でないいずれの復号器も、それぞれの停止−開始窓フレームを無視しなければならなかった。

上述した実施形態に戻って手短に参照すると、これは、図１の復号器が、これまで提示してきた説明を超えて、あるいは、さらなる変換長、すなわち、信号化３４を拡張する信号化を使用して２つよりもさらに多い変換に特定のフレーム２６を区分化することをサポートすることが可能になり得る。しかしながら、信号化３４を使用して始動される分割変換以外の、フレーム２６の変換区分化の併記に関して、ＦＤ係数抽出器１２及びスケーリング係数抽出器１４は、それらの動作モードが信号化３４に加えてさらなる信号化に応じて変化するという点において、この信号化に応答する。さらに、５６及び５９による分割変換タイプ以外の信号伝達される変換タイプに対して調整された、ＴＮＳ係数、ＭＳパラメータ及び複素予測パラメータの合理化された送信は、各復号器が、これらの「既知の変換タイプ」又は６０による長い変換タイプを含むフレームと、例えば、ＡＡＣの場合におけるような８つの短い変換への１つの区分化フレームのような他の変換タイプとの間の信号化選択に応答すること、すなわち、理解することが可能でなければならないことを必要とする。その場合、この「既知の信号化」は、信号化３４が分割変換タイプを信号伝達するフレーを長い変換タイプのフレームとして識別し、それによって、信号化３４を理解することが可能でない復号器が、これらのフレームを８つの短い変換タイプのフレームのような他のタイプのフレームではなく、長い変換フレームとして処理する。

再びｘＨＥ−ＡＡＣの可能な拡張の説明に戻って、変換分割ツールをこの符号化の枠組みに組み込むために、特定の動作制限が生じ得る。例えば、変換分割は、周波数ドメインの長い開始又は停止−開始窓においてのみ使用されることを許可され得る。すなわち、基礎となる構文要素 window_sequence が１に等しくなることを要求され得る。加えて、半下位互換性信号伝達に起因して、構文要素 noiseFilling が構文コンテナ UsacCoreConfig() において１であるときにのみ変換分割を適用することができることが要件になり得る。変換分割がアクティブであるように信号伝達されるとき、ＴＮＳ及び逆ＭＤＣＴを除くすべての周波数ドメインツールがインターリーブされた（長い）ＴＳ係数セットに対して動作する。これによって、スケール係数帯域オフセット及び長い変換算術符号化器テーブルならびに窓形状及び重複長さを再使用することが可能になる。

以下において、［４］において記載されているＵＳＡＣ規格が、下位互換性変換分割機能を提供するためにどのように拡張され得るかについて説明するために、以下において使用される用語及び定義を提示する。関心のある読者のために、その規格内のセクションを参照することがある。

新規のデータ要素は以下の通りであり得る。
split_transform: 変換分割が現在のフレーム及びチャネルにおいて利用されているか否かを示す２値フラグ

新規の補助要素は以下の通りであり得る。
window_sequence: 現在のフレーム及びチャネルの周波数ドメイン窓系列タイプ（セクション６.２.９）
noise_offset: ゼロ量子化帯域のスケール係数を修正するためのノイズ充填オフセット（セクション７.２）
noise_level: 追加されるスペクトルノイズの大きさを表すノイズ充填レベル（セクション７.２）
half_transform_length: coreCoderFrameLengthの２分の１（ccfl、変換長、セクション６.１.１）
half_lowpass_line: 現在のチャネルについて送信されるＭＤＣＴラインの数の２分の１

ＵＳＡＣの枠組みにおける変換分割（ＴＳ）を使用した周波数ドメイン（停止−）開始変換の復号が、以下のように純粋に連続したステップにおいて実施され得る。

最初に split_transform 及び half_lowpass_line の復号が実施できる。

split_transform は実際には独立したビットストリーム要素を表すのではなく、ノイズ充填要素、noise_offset 及び noise_level、ならびに、UsacChannelPairElement()の場合の、StereoCoreToolInfo()内の common_window フラグから導出される。noiseFilling == 0である場合、split_transform は０である。そうでない場合、以下のようになる。

言い換えれば、noise_level == 0である場合、noise_offset はsplit_transform フラグを含み、それには４ビットのノイズ充填データが続き、これらはその後再配列される。この動作は noise_level 及び noise_offset の値を変化させるため、セクション７.２のノイズ充填プロセスの前に実行されなければならない。さらに、UsacChannelPairElement()において common_window == 1である場合、split_transform は左（第１の）チャネルのみにおいて決定され、右チャネルの split_transform は左チャネルのsplit_transformに等しく設定され（そこから複製され）、上記の疑似コードは右チャネルでは実行されない。

half_lowpass_line は、「長い」スケール係数帯域オフセットテーブルswb_offset_long_window 及び現在のチャネルの max_sfb、又は、ステレオでかつcommon_window == 1である場合は max_sfb_ste から決定される。

StereoCoreToolInfo() 及び common_window == 1を有する要素内では max_sfb_ste であり、そうでない場合、lowpass_sfb =max_sfb である。igFilling フラグに基づいて、half_lowpass_line は以下のように導出される。

その後、第２のステップとして、テンポラルノイズシェーピングのための半長スペクトルのデインターリーブが実施される。

スペクトル逆量子化、ノイズ充填、及びスケール係数の適用後で、テンポラルノイズシェーピング（ＴＮＳ:Temporal Noise Shaping）の適用の前に、spec[]内のＴＳ係数が、ヘルパーbuffer[]を使用してデインターリーブされる。

インプレース（in-place）のデインターリーブによって、２つの半長ＴＳスペクトルが互いの上に効率的に配置され、ＴＮＳツールは、結果としてもたらされる全長疑似スペクトルに対して通常通りに動作する。

上記を参照して、そのような手順が図３に関連して説明されている。

その後、第３のステップとして、２つの連続する逆ＭＤＣＴとともに、時間的再インターリーブが使用される。

現在のフレームにおいて common_window == 1 であるか、又はＴＮＳ復号後にステレオ復号が実施される場合（セクション７.８において tns_on_lr == 0）、spec[] は全長スペクトルに時間的に再インターリーブされなければならない。

結果としてもたらされる疑似スペクトルはステレオ復号（セクション７.７）に使用されて、dmx_re_prev[] が更新される（セクション７.７.２及びＡ.１.４）。tns_on_lr == 0 の場合、ステレオ復号された全長スペクトルが再びセクションＡ.１.３.２のプロセスを反復することによってデインターリーブされる。最後に、２つの逆ＭＤＣＴが ccfl 及び現在の及び最後のフレームのそのチャネルの window_shape を用いて計算される。セクション７.９及び図１を参照されたい。

ｘＨＥ−ＡＡＣの複素予測ステレオ復号に何らかの修正を行うことができる。

ｘＨＥ−ＡＡＣ内にＴＳを組み込むために、黙示的な半下位互換的信号伝達方法を代替として使用することができる。

上記には、split_transform に含まれる、本発明の変換分割の使用状況を本発明の復号器に信号伝達するためにビットストリーム中の１ビットを利用する手法を述べた。特に、そのような信号伝達（明示的半下位互換的信号伝達と呼ぶ）は、後続の旧来のビットストリームデータ（ここでは、ノイズ充填サイド情報）が、本発明の信号とは無関係に使用されることを可能にする。すなわち、本発明の実施形態において、ノイズ充填データは変換分割データに依存せず、変換分割データもノイズ充填データに依存しない。例えば、すべてゼロから構成されるノイズ充填データ（noise_level = noise_offset = 0）を送信することができ、一方で、split_transform はいずれの可能な値（０又は１のいずれかの２値フラグである）も保持できる。

そのように、旧来のビットストリームデータと本発明のビットストリームデータとの間の厳密な独立が必要とされず、本発明の信号が二分決定である場合、信号伝達ビットを明示的に送信することを回避することができ、この二分決定は、黙示的半下位互換的信号伝達と呼ばれ得るものが存在するかしないかによって信号伝達することができる。再び上記の実施形態を例として取り上げると、変換分割の使用状況は、単純に本発明の信号伝達を使用することによって送信できる。すなわち、noise_levelがゼロであり、同時に noise_offset がゼロでない場合、split_transform は１に等しく設定される。noise_level及び noise_offset の両方がゼロでない場合、split_transform は０に等しく設定される。noise_level 及び noise_offset の両方がゼロであるとき、旧来のノイズ充填信号に対する、本発明の黙示的な信号の依存性が生じる。この場合、旧来の黙示的信号伝達が使用されているか、又は、本発明の黙示的信号伝達が使用されているかは不明確である。そのような曖昧さを回避するために、split_transform の値が前もって規定されなければならない。本例において、ノイズ充填データがすべてゼロから構成される場合、これは、変換分割を有しない旧来の符号化器が、ノイズ充填がフレーム内で使用されるべきではない場合を信号伝達すべきものであるため、split_transform = 0を規定することが適切である。

黙示的半下位互換的信号伝達の場合に解決すべきまま残っている問題は、同時にsplit_transform == 1及びノイズ充填がないことを信号伝達する方法である。前述のように、ノイズ充填データはすべてゼロであってはならず、ゼロのノイズの大きさが必要とされる場合、noise_level（上記のような(noise_offset & 14)/2）は０に等しくならなければならない。これによって、０よりも大きい noise_offset （上記のような(noise_offset & 1)^*16）のみが解として残る。好都合なことに、ＵＳＡＣ［４］に基づく復号器においてノイズ充填が実施されない場合、noise_offset の値は無視され、そのため、この手法は、本発明の実施形態において実現可能であることが分かる。それゆえ、上記のような疑似コードにおける split_transform の信号伝達は、noise_offset のための１ビットではなく２ビット（４つの値）を送信するために noise_offset を送信するために確保されているＴＳ信号伝達ビットを使用して、以下のように変更できる。

したがって、この代替形態を適用して、ＵＳＡＣの記述は、以下の説明を使用して拡張することができる。

ツールの記述は大まかには同じである。すなわち、
長い変換において変換分割（ＴＳ）がアクティブであるとき、１つの全長ＭＤＣＴの代わりに２つの半長ＭＤＣＴが利用される。２つのＭＤＣＴの係数は、従来の周波数ドメイン（ＦＤ）変換のようにラインごとにインターリーブされるように送信され、時間的に最初のＭＤＣＴの係数は偶数インデックスに配置され、時間的に２番目のＭＤＣＴの係数は奇数インデックスに配置される。

動作制限が、ＴＳがＦＤ長−開始又は停止−開始窓においてのみ使用できること（window_sequence == 1）、及び、ＴＳが、noiseFilling が UsacCoreConfig()において１であるときにのみ適用できることを必要とし得る。ＴＳが信号伝達されるとき、ＴＮＳ及び逆ＭＤＣＴを除くすべてのＦＤツールがインターリーブされた（長い）ＴＳ係数セットに対して動作する。これによって、スケール係数帯域オフセット及び長い変換算術符号化器テーブルならびに窓形状及び重複長さを再使用することが可能になる。

以下において使用される用語及び定義は、以下の補助要素を含む。
common_window: ＣＰＥのチャネル０及びチャネル１が同一の窓パラメータを使用する場合を示す（ISO/IEC 23003-3:2012セクション６.２.５.１.１参照）。
window_sequence: 現在のフレーム及びチャネルのＦＤ窓系列タイプ（ISO/IEC 23003-3:2012セクション６.２.９参照）。
tns_on_lr: ＴＮＳフィルタリングの動作モードを示す（ISO/IEC 23003-3:2012セクション７.８.２参照）。
noiseFilling: このフラグは、ＦＤコア符号化器におけるスペクトルホールのノイズ充填の使用状況を信号伝達する（ISO/IEC 23003-3:2012セクション６.１.１.１参照）。
noise_offset: ゼロ量子化帯域のスケール係数を修正するためのノイズ充填オフセット（ISO/IEC 23003-3:2012セクション７.２参照）。
noise_level: 追加されるスペクトルノイズの大きさを表すノイズ充填レベル（ISO/IEC 23003-3:2012セクション７.２参照）。
split_transform: ＴＳが現在のフレーム及びチャネルにおいて利用されているか否かを示す２値フラグ。
half_transform_length: coreCoderFrameLengthの２分の１（ccfl、変換長、ISO/IEC 23003-3:2012セクション６.１.１参照）。
half_lowpass_line: 現在のチャネルについて送信されるＭＤＣＴラインの数の２分の１。

ＴＳを含む復号プロセスは、以下のように説明できる。特に、ＴＳを伴うＦＤ（停止−）開始変換の復号が、以下のように３つの連続するステップにおいて実施される。

最初に、split_transform 及び half_lowpass_line の復号が実施される。補助要素split_transform は独立したビットストリーム要素を表すのではなく、ノイズ充填要素、noise_offset 及び noise_level、ならびに、UsacChannelPairElement()の場合の、StereoCoreToolInfo()内の common_window フラグから導出される。noiseFilling == 0である場合、split_transform は０である。そうでない場合は以下のようになる。

言い換えれば、noise_level == 0である場合、noise_offset はsplit_transform フラグを含み、それには４ビットのノイズ充填データが続き、これらはその後再配列される。この動作は noise_level 及び noise_offset の値を変化させるため、ISO/IEC 23003-3:2012セクション７.２のノイズ充填プロセスの前に実行されなければならない。

さらに、UsacChannelPairElement()においてcommon_window == 1である場合、split_transformは左（第１の）チャネルのみにおいて決定され、右チャネルのsplit_transformは左チャネルのsplit_transformに等しく設定され（そこから複製され）、上記の疑似コードは右チャネルでは実行されない。

補助要素 half_lowpass_line は、「長い」スケール係数帯域オフセットテーブル、swb_offset_long_window 及び現在のチャネルの max_sfb、又は、ステレオでかつcommon_window == 1である場合は max_sfb_ste から決定される。

igFilling フラグに基づいて、half_lowpass_line は以下のように導出される。

その後、テンポラルノイズシェーピングのための半長スペクトルのデインターリーブが実施される。

スペクトル逆量子化、ノイズ充填、及びスケール係数の適用後で、テンポラルノイズシェーピング（ＴＮＳ）の適用の前に、spec[ ]内のＴＳ係数がヘルパー buffer[]を使用してデインターリーブされる。

インプレースのデインターリーブによって、２つの半長ＴＳスペクトルが互いの上に効率的に配置され、ＴＮＳツールが次に結果としてもたらされる全長疑似スペクトルに対して通常通りに動作する。

最後に、時間的な再インターリーブ及び２つの連続する逆ＭＤＣＴを使用できる。

現在のフレームにおいて common_window == 1であるか、又はＴＮＳ復号後にステレオ復号が実施される場合（セクション７.８において tns_on_lr == 0）、spec[] が全長スペクトルに時間的に再インターリーブされなければならない。

結果としてもたらされる疑似スペクトルはステレオ復号（(ISO/IEC 23003-3:2012セクション７.７）に使用されて、dmx_re_prev[] が更新され（(ISO/IEC 23003-3:2012セクション７.７.２）、tns_on_lr == 0 の場合、ステレオ復号された全長スペクトルが再び、そのセクションのプロセスを反復することによってデインターリーブされる。最後に、ccfl 並びに現在及び最後のフレームのそのチャネルの window_shape を用いて、２つの逆ＭＤＣＴが計算される。

ＴＳに対する処理は、ISO/IEC 23003-3:2012セクション「７.９フィルタバンク及びブロック切替え」に与えられている記述に従う。以下の追加事項が考慮に入れられるべきである。

spec[] におけるＴＳ係数は、window_sequence 値に基づく窓長Ｎをもつヘルパー buffer[] を使用してデインターリーブされる。

このとき、半長ＴＳに対するＩＭＤＣＴは、以下のように規定される。

後続のウィンドウィング及びブロック切替えステップは次のサブセクションにおいて規定される。

STOP_START_SEQUENCE による変換分割は、以下の記述のように見える。

変換分割と組み合わさったSTOP_START_SEQUENCEは図２に示されている。これは、1024 (960, 768)であるN_l/2の長さを有する２つの重畳及び加算された半長窓５６、５８を含む。N_sがそれぞれ256 (240, 192)に設定される。

２つの半長ＩＭＤＣＴに対する窓(0,1)は以下のように与えられる。

ここで、第１のＩＭＤＣＴについて窓

が適用され、第２のＩＭＤＣＴについて、窓

が適用される。

ウィンドウィングされた時間ドメイン値 zi,n をもたらす２つの半長窓の間の重畳及び加算は、以下のように説明される。ここで、それぞれ N_l は2048 (1920, 1536)に設定され、N_s は256 (240, 192)に設定される。

LONG_START_SEQUENCEによる変換分割は、以下の記述のように見える。

変換分割と組み合わさったLONG_START_SEQUENCEは図４に示されている。これは、以下のように規定される３つの窓を含み、それぞれ N_l/ は1024 (960, 768)に設定され、N_s は256 (240, 192)に設定される。

左／右窓半部は、以下によって与えられる。

第３の窓は LONG_START_WINDOW の左半分に等しい。

ここで、

中間のウィンドウィングされた時間ドメイン値

をもたらす２つの半長窓の間の重畳及び加算は、以下のように説明される。ここで、それぞれ N_l は2048 (1920, 1536)に設定され、N_s は256 (240, 192)に設定される。

W2 を適用することによって、最終的なウィンドウィングされた時間ドメイン値 Z_i,n が得られる。

使用されている半下位互換的信号伝達が明示的であるか又は黙示的であるか（両方とも上述されている）にかかわらず、インターリーブされたスペクトルに対する有意義な動作を達成するために、ｘＨＥ−ＡＡＣの複素予測ステレオ復号に対して何らかの修正が必要なことがある。

複素予測ステレオ復号に対する修正は、以下のように実施できる。

ＴＳがチャネル対においてアクティブであるとき、ＦＤステレオツールはインターリーブされた疑似スペクトルに対して動作するため、基礎となるＭ／Ｓ又は複素予測処理に変更は必要ない。しかしながら、ISO/IEC 23003-3:2012セクション７.７.２における先行するフレームのダウンミックス dmx_re_prev[] の導出及びダウンミックス MDST dmx_im[] の計算は、ＴＳが最後又は現在のフレームのいずれかのチャネルにおいて使用される場合に適合される必要がある。

・ＴＳが最後から現在のフレームへといずれかのチャネル内でアクティブに変化した場合、use_prev_frame は０でなければならない。言い換えれば、その場合は変換長に起因して dmx_re_prev[] は使用されてはならない。

・ＴＳがアクティブであったか又はアクティブである場合、dmx_re_prev[] 及びdmx_re[] はインターリーブされた疑似スペクトルを指定し、正確なＭＤＳＴ計算のために、それらの対応する２つの半長ＴＳスペクトルにデインターリーブされなければならない。

・ＴＳがアクティブになると、適合されたフィルタ係数（表１及び表２）を使用して２つの半長ＭＤＳＴダウンミックスが計算され、（ちょうど dmx_re[] のように）全長スペクトル dmx_im[] にインターリーブされる。

・ window_sequence: ダウンミックスＭＤＳＴ推定値が、各グループ窓対について計算される。２つの半部窓対のうちの第１の半部窓対のみについて use_prev_frame が評価される。残りの窓対については、先行する窓対がＭＤＳＴ推定に常に使用され、これは use_prev_frame = 1であることを暗示する。

・窓形状: 現在の窓に対するＭＤＳＴ推定パラメータは下記に説明するようなフィルタ係数であり、左窓半部及び右窓半部の形状に依存する。第１の窓については、これは、フィルタパラメータが、現在のフレーム及び先行するフレームの window_shape フラグの関数であることを意味する。残りの窓は、現在の window_shape のみの影響を受ける。

最後に、図５は、完全を期すために、上記で概説した実施形態に適合している変換長切替えをサポートする可能な周波数ドメインオーディオ符号化器を示す。すなわち、全体的に参照符号１００を使用して示されている図５の符号化器はオーディオ信号１０２をデータストリーム２０に符号化することでき、その符号化は、上述した図１の復号器及び対応する変形形態がいくつかのフレームについて変換分割モールドを利用することができ、一方で「旧式」の復号器が、依然として構文解析エラーなどなしにＴＳフレームを処理することができるように行われる。

図５の符号化器１００は、変換器１０４と、逆スケーラ１０６と、周波数ドメイン係数挿入器１０８と、スケール係数挿入器１１０とを備える。変換器１０４は、符号化されるべきオーディオ信号１０２を受信し、オーディオ信号の時間ドメイン部分を変換してオーディオ信号のフレームの周波数ドメイン係数を得るように構成されている。特に、上記の説明から明らかになったように、変換器１０４は、これらのフレーム２６の変換、又は変換窓、へのいずれの区分化が使用されるかについて、フレームごとに決定する。上記で説明したように、フレーム２６は等しい長さとすることができ、変換は異なる長さの重なり合う変換を使用した重複変換とすることができる。図５は、例えば、フレーム２６ａが１つの長い変換を受け、フレーム２６ｂが変換分割、すなわち、半分の長さの２つの変換を受け、さらなるフレーム２６ｃが長い変換長の２^-nの長さの、３つ以上、すなわち２ⁿ＞２個のさらにより短い変換を受けることを示している。上述したように、この方策によって、符号化器１００は、変換器１０４によって実施される重複変換によって表されるスペクトログラムのスペクトル−時間分解能を、オーディオ信号１０２の時間的に変化するオーディオ内容又はオーディオ内容の種類に適合させることができる。

すなわち、オーディオ信号１０２のスペクトログラムを表す周波数ドメイン係数が、変換器１０４の出力にもたらされる。逆スケーラ１０６は変換器１０４の出力に接続されており、スケール係数に従って周波数ドメイン係数を逆スケーリングし、同時に量子化するように構成されている。特に、逆スケーラは、変換器１０４によって周波数係数が得られた時にそれらの周波数係数に対して動作する。すなわち、逆スケーラ１０６は、必ず、フレーム２６に対する変換長割り当て又は変換モード割り当てについて知っている必要がある。また、逆スケーラ１０６がスケール係数を決定する必要があることにも留意されたい。この目的のために、逆スケーラ１０６は、例えば、オーディオ信号１０２について決定される心理音響マスキング閾値を評価するフィードバック・ループの部分であり、量子化によって導入されスケール係数に従って漸進的に設定される量子化ノイズを、何らかのビットレート制限に従って又は従うことなく、可能な限り心理音響検出閾値を下回ったままに維持する。

逆スケーラ１０６の出力にスケール係数及び逆スケーリングされ量子化された周波数ドメイン係数が出力され、スケール係数挿入器１１０はデータストリーム２０にスケール係数を挿入するように構成されており、周波数ドメイン係数挿入器１０８は、スケール係数に従って逆スケーリングされ量子化された、オーディオ信号のフレームの周波数ドメイン係数をデータストリーム２０に挿入するように構成されている。復号器に対応するように、挿入器１０８及び１１０の両方は、長い変換モードのフレーム２６ａ及び変換分割モードのフレーム２６ｂの併記に関する限り、フレーム２６と関連付けられる変換モードとはかかわりなく動作する。

言い換えれば、挿入器１１０及び１０８は、変換器１０４がそれぞれフレーム２６ａ及び２６ｂのためにデータストリーム２０において信号伝達するように、又は、データストリーム２０に挿入するように構成されている上述した信号化３４とは無関係に動作する。

言い換えれば、上記の実施形態において、長い変換及び分割変換フレームの変換係数を適切に、すなわち、平面連続配列又はインターリーブによって配列するものが変換器１０４であり、挿入器は、実際に１０９とは無関係に動作する。しかし、より一般的な意味において、周波数ドメイン係数挿入器の、信号化からの独立が、スケール係数に従って逆スケーリングされているオーディオ信号の各長い変換及び分割変換フレームの周波数ドメイン係数の系列をデータストリームに挿入することに制限されることで十分である。それは、信号化に応じて、フレームが長い変換フレームである場合には、インターリーブされないように、１つの変換の周波数ドメイン係数を連続して配列することによって周波数ドメイン係数の系列が形成され、それぞれのフレームが分割変換フレームである場合には、それぞれのフレームの２つ以上の変換の周波数ドメイン係数をインターリーブすることによって周波数ドメイン係数の系列が形成される点においてである。

周波数ドメイン係数挿入器１０８に関する限り、これが、一方におけるフレーム２６ａと他方におけるフレーム２６ｂとの間を区別する信号化３４とは無関係に動作するという事実は、挿入器１０８が、スケール係数に従って逆スケーリングされているオーディオ信号のフレームの周波数ドメイン係数をデータストリーム２０に挿入し、その挿入が、１つの変換がそれぞれのフレームについてインターリーブされないように実施される場合には連続的に挿入し、２つ以上の変換、すなわち、図５の例においては２つの変換がそれぞれのフレームについて実施される場合には、インターリーブを使用してそれぞれのフレームの周波数ドメイン係数を挿入するようになされることを意味する。しかしながら、すでに上記で示したように、変換分割モードは１つの変換を３つ以上の変換に分割するように、別様に実施することもできる。

最後に、留意すべきことは、図５の符号化器は、ＭＳ符号化、複素ステレオ予測４２及びＴＮＳのような、図２に関連して上記で概説したすべての他の追加の符号化手段を実施するように適合化することもでき、この目的のためにそのそれぞれのパラメータ４４、４８及び６４が決定されるということである。

いくつかの態様が装置に関して説明されているが、これらの態様はまた、対応する方法の説明をも表すことは明らかであり、ブロック又はデバイスが方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップに関して説明されている態様も、対応する装置の対応するブロック、物又は特徴の説明を表す。方法ステップのいくつか又はすべては、例えば、マイクロプロセッサ、プログラム可能コンピュータ又は電子回路のようなハードウェア装置によって（又はそれを使用して）実施することができる。いくつかの実施形態において、最も重要な方法のうちのどれか１つ又は複数は、そのような装置によって実施することができる。

特定の実施要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実施することができる。その実施は、それぞれの方法が実現されるようにプログラム可能コンピュータシステムと協働する（又は協働できる）電子的に読取り可能な信号が記憶されているデジタル記憶媒体、例えば、フロッピーディスク、ＤＶＤ、Ｂｌｕ−Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、又はフラッシュメモリを使用して実現することができる。それゆえ、そのデジタル記憶媒体はコンピュータ読取可能とすることができる。

本発明によるいくつかの実施形態は、本明細書に記載されている方法のうちの１つが実施されるように、プログラム可能コンピュータシステムと協働することができる電子的に読取り可能な信号が記憶されているデータ担体を含む。

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実現することができ、そのプログラムコードはこのコンピュータプログラム製品がコンピュータ上で作動すると上記方法のうちの１つを実施するように動作可能である。そのプログラムコードは、例えば、機械読取り可能な担体上に記憶することができる。

他の実施形態は、機械読取り可能な担体上に記憶され、本明細書に記載されている方法のうちの１つを実施するためのコンピュータプログラムを含む。

言い換えれば、本発明の方法の一実施形態は、それゆえ、プログラムコードを有するコンピュータプログラムであり、そのプログラムコードはこのコンピュータプログラムがコンピュータ上で作動すると、本明細書に記載されている方法のうちの１つを実施するためのものである。

本発明の方法のさらなる実施形態は、それゆえ、本明細書に記載されている方法のうちの１つを実施するためのコンピュータプログラムを記録しているデータ担体（又はデジタル記憶媒体、又はコンピュータ読取り可能な媒体）である。そのデータ担体、デジタル記憶媒体又はコンピュータ読取り可能な媒体は、一般的に有形及び／又は非遷移型である。

本発明の方法のさらなる実施形態は、それゆえ、本明細書に記載されている方法のうちの１つを実施するためのコンピュータプログラムを表すデータストリーム又は信号系列である。そのデータストリーム又は信号系列は、例えば、データ通信接続、例えば、インターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記載されている方法のうちの１つを実施するように構成又は適合化されている処理手段、例えば、コンピュータ又はプログラム可能な論理デバイスを含む。

さらなる実施形態は、本明細書に記載されている方法のうちの１つを実施するためのコンピュータプログラムがインストールされているコンピュータを含む。

本発明によるさらなる実施形態は、本明細書に記載されている方法のうちの１つを実施するためのコンピュータプログラムを受信機に（例えば、電子的又は光学的に）転送するように構成されている装置又はシステムを含む。その受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどとすることができる。その装置又はシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。

いくつかの実施形態において、プログラム可能な論理デバイス（例えば、フィールドプログラマブルゲートアレイ）を本明細書に記載されている方法の機能のいくつか又はすべてを実施するために使用することができる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法のうちの１つを実施するために、マイクロプロセッサと協働することができる。一般的に、本発明の方法は好ましくは、任意のハードウェア装置によって実施される。

上述した実施形態は本発明の原理の例示にすぎない。当然のことながら、本明細書に記載されている構成及び詳細の修正形態及び変形形態は、他の当業者には明らかとなろう。それゆえ、意図するところは、本発明は、本明細書における実施形態の記述及び説明によって提示されている特定の詳細ではなく、添付の特許請求項の範囲によってのみ限定されるということである。

Claims

データストリームからオーディオ信号のフレームに関連する周波数ドメイン係数（２４）の系列を抽出し、
前記データストリームから前記フレームのスケール係数を抽出し、
前記フレームに対応する前記オーディオ信号の１つの時間ドメイン部分を得るために、前記スケール係数に従ってスケーリングされた前記周波数ドメイン係数を逆変換し、かつ
前記オーディオ信号を得るために前記時間ドメイン部分を重畳加算プロセスにかけるように構成されているオーディオ復号器であって、
前記オーディオ復号器は、前記データストリーム内における前記オーディオ信号の前記フレームの信号化に応答し、それによって、前記信号化に応じて、
周波数ドメイン係数（２４）の前記系列における前記周波数ドメイン係数の順序を維持することによって前記周波数ドメイン係数（２４）の前記系列から１つの変換を形成し、前記スケール係数に従ってスケーリングされた前記１つの変換に第１の変換長の逆変換を行うか、又は
周波数ドメイン係数（２４）の前記系列から前記周波数ドメイン係数をデインターリーブすることによって２つ以上の変換を形成し、前記スケール係数に従ってスケーリングされた前記２つ以上の変換の各々に、前記第１の変換長よりも短い第２の変換長の逆変換を行い、
前記オーディオ復号器は、前記周波数ドメイン係数（２４）の前記系列の数及び前記スケール係数の数、並びに前記データストリームから前記周波数ドメイン係数（２４）の前記系列を抽出する順序及び前記データストリームから前記スケール係数を抽出する順序が信号化とは無関係であるように、前記データストリームから前記周波数ドメイン係数（２４）の前記系列及び前記スケール係数を抽出するように構成されており、
オーディオ復号器は、
前記１つの変換の前記形成において、前記順序を使用して前記周波数ドメイン係数の前記系列に対して逆テンポラルノイズシェーピングフィルタリングを適用し、
前記２つ以上の変換の前記形成において、前記２つ以上の変換の前記周波数ドメイン係数をデインターリーブし、前記２つ以上の変換を変換ごとにスペクトル的に連結して前記２つ以上の変換の連結を生成し、前記２つ以上の変換の連結に対して逆テンポラルノイズシェーピングフィルタリングを適用することによって、前記周波数ドメイン係数の前記系列に対して逆テンポラルノイズシェーピングフィルタリングを適用するように構成されている、オーディオ復号器。
各周波数ドメイン係数について、前記信号化とは無関係に１つのコンテキスト又はコードブックを前記それぞれの周波数ドメイン係数に割り当てることによって、前記データストリームから前記周波数ドメイン係数の前記系列を抽出するために、コンテキストベース又はコードブックベースのエントロピー復号を使用するように構成されている、請求項１に記載のオーディオ復号器。
前記周波数ドメイン係数に、前記信号化とは無関係のスペクトル分解能で前記スケール係数によるスケーリングを行うように構成されている、請求項１又は２に記載のオーディオ復号器。
前記周波数ドメイン係数の前記系列に、前記信号化とは無関係であるスペクトル分解能でノイズ充填を行うように構成されている、請求項１から３のいずれか一項に記載のオーディオ復号器。
チャネル間ステレオ予測を用いるか又は用いることなくジョイントステレオ符号化をサポートし、前記チャネル間ステレオ予測の和（中間）スペクトルもしくは差（外側）スペクトル又は予測残差として前記周波数ドメイン係数の前記系列を使用するように構成されている、請求項１から４のいずれか一項に記載のオーディオ復号器。
前記２つ以上の変換の数は２に等しく、前記第１の変換長は前記第２の変換長の２倍である、請求項１から５のいずれか一項に記載のオーディオ復号器。
前記逆変換は、逆修正離散コサイン変換ＭＤＣＴである、請求項１から６のいずれか一項に記載のオーディオ復号器。
データストリームからオーディオ信号のフレームに関連する周波数ドメイン係数の系列を抽出するステップと、
前記データストリームから前記フレームのスケール係数を抽出するステップと、
前記オーディオ信号の１つの時間ドメイン部分を得るために、スケール係数に従ってスケーリングされた前記周波数ドメイン係数を逆変換するステップと、
前記オーディオ信号を得るために前記時間ドメイン部分を重畳加算プロセスにかけるステップとを含み、
前記逆変換するステップは、前記データストリーム内における前記フレームの信号化に応答し、それによって、前記信号化に応じて、
周波数ドメイン係数（２４）の前記系列における前記周波数ドメイン係数の順序を維持することによって前記周波数ドメイン係数（２４）の前記系列から１つの変換を形成し、前記スケール係数に従ってスケーリングされた前記１つの変換に第１の変換長の逆変換を行うこと、又は
前記周波数ドメイン係数（２４）の前記系列から前記周波数ドメイン係数をデインターリーブすることによって２つ以上の変換を形成し、前記スケール係数に従ってスケーリングされた前記２つ以上の変換の各々に、前記第１の変換長よりも短い第２の変換長の逆変換を行うことを含み、
前記周波数ドメイン係数を抽出するステップ及び前記スケール係数を抽出するステップは、
前記周波数ドメイン係数（２４）の前記系列の数及び前記スケール係数の数、並びに前記データストリームから前記周波数ドメイン係数（２４）の前記系列を抽出する順序及び前記データストリームから前記スケール係数を抽出する順序が前記信号化とは無関係であるように実施されており、
前記方法は、
前記１つの変換の前記形成において、前記順序を使用して前記周波数ドメイン係数の前記系列に対して逆テンポラルノイズシェーピングフィルタリングを適用することと、
前記２つ以上の変換の前記形成において、前記２つ以上の変換の前記周波数ドメイン係数をデインターリーブし、前記２つ以上の変換を変換ごとにスペクトル的に連結して前記２つ以上の変換の連結を生成し、前記２つ以上の変換の連結に対して逆テンポラルノイズシェーピングフィルタリングを適用することによって、前記周波数ドメイン係数の前記系列に対して逆テンポラルノイズシェーピングフィルタリングを適用することと、を含む、
オーディオ復号のための方法。
コンピュータ上で作動すると、請求項８に記載の方法を実施するためのプログラムコードを有するコンピュータプログラム。