JP6654236B2

JP6654236B2 - オーディオ変換コーディングにおけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法

Info

Publication number: JP6654236B2
Application number: JP2018515442A
Authority: JP
Inventors: クリスティアン・ヘルムリッヒ; ベルンド・エドラー; トビアス・シュヴェグラー; フロリアン・シュウ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2015-09-25
Filing date: 2016-09-23
Publication date: 2020-02-26
Anticipated expiration: 2036-09-23
Also published as: BR112018005901A2; RU2018115190A; CN108463850B; CN108463850A; RU2710929C2; KR20180067552A; BR112018005901B1; WO2017050398A1; RU2018115190A3; US20190103120A1; CA2998776C; EP3353782A1; KR102205824B1; US10770084B2; JP2018532153A; WO2017050993A1; EP3353782B1; ES2922975T3; CA2998776A1

Description

本発明は、オーディオ信号の符号化、処理および復号に関し、特に、オーディオ変換符号化におけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法に関する。

過去２０年の間、特にＭＰＥＧ−１レイヤ３（ＭＰ３）およびＡＣ−２（ＤｏｌｂｙＤｉｇｉｔａｌ）コーダの開発以来、知覚オーディオコーディングは、波形保持スペクトル量子化のために、Ｐｒｉｎｃｅｎらによって導入され、Ｍａｌｖａｒによって、変調重複変換（ＭＬＴ）の名前でさらに研究されている（［３］参照）、修正離散コサイン変換（ＭＤＣＴ）に専ら依存している（［１］、［２］参照）。この変換の逆は、フレームインデックスｉの長さＭスペクトルＸ_ｉ’を所与として、以下のように書くことができる。

式中、０≦ｎ≦Ｎであり、Ｎは窓の長さである。Ｍ＝Ｎ／２であるため、オーバーラップ率は５０％である。ＭＰＥＧ−２アドバンストオーディオコーディング（ＡＡＣ）仕様（［４］、［５］参照）に基づく最近の規格では、この概念はまた、ＭＤＣＴ領域のノイズ充填などのパラメトリックツールも可能になるように拡張されている。例えば、ＭＰＥＧ−Ｈ３Ｄオーディオフレームワーク（例えば［６］、［７］参照）は、例えば、セミパラメトリック変換領域コーディングのために、ある周波数より上のゼロ化スペクトル線のノイズ充填、セミパラメトリックジョイントステレオコーディングのためのステレオ充填（［８］、［９］参照）、および、帯域幅拡張のためのインテリジェントギャップフィリング（ＩＧＦ）（［１０］を参照）の機能を提供する。

［９］において、非自明なチャネル間位相差を伴う入力について変換カーネルスイッチングによって支援される、［８］においてスペクトル帯域置換（ＳＢＳ）と名づけられたＩＧＦとステレオ充填との組み合わせは、ほとんどの信号について良好なオーディオ品質を提供することが示されている。しかし、準定常高調波セグメントでは、擬似ＱＭＦ領域におけるスペクトル帯域複製（ＳＢＲ）および「統合ステレオ」ＭＰＥＧサラウンドを使用した代替の高遅延／複雑度３Ｄオーディオ構成よりも主観的性能が低かった。この挙動は、後者の構成で使用されるＭＤＣＴのより高い周波数分解能によって説明される。すなわち、４８ｋＨｚの所与の出力サンプルレートにおいて、Ｍサイズのコア変換が、２４ｋＨｚのダウンサンプリングされたダウンミックスおよび残留信号に対して動作し、フレーム長が倍増する。

ＳＢＳベースの３Ｄオーディオコーディングは、その遅延、複雑さ、および時間分解能の利点のために［８］、少なくともモノラルおよびステレオ信号に対し可変の選択肢を表しており、単一の楽器および他の音調録音であってもＱＭＦベースの構成のものと性能が一致し得るように、フレーム長を維持しながらその設計を改善することが望ましい。準定常セグメントでのスペクトル効率を高めるために実行可能なソリューションは、Ｍａｌｖａｒ（［１１］、［１２］参照）によって提案された拡張重複変換（ＥＬＴ）であり、その逆（合成）バージョンは、０≦ｎ＜Ｌ（Ｌ≧４Ｍ）であることを除いて、（１）と同一である。

したがって、式（１）は、逆ＥＬＴおよび逆ＭＬＴを示す。唯一の相違点は、逆ＭＬＴの場合、ｎが、０≦ｎ＜Ｎ（例えば、Ｎ＝２Ｍ）について定義され、逆ＥＬＴの場合、ｎが、０≦ｎ＜Ｌ（例えば、Ｌ≧４Ｍ）について定義されることである。

残念ながら、以下に示すように、ＥＬＴのオーバーラップ率は、ＭＤＣＴの５０％ではなく少なくとも７５％であり、これはドラム打ちまたは音の出だしなどの過渡波形部分の可聴アーチファクトをもたらすことが多い。さらに、異なる長さのＥＬＴ間、またはＥＬＴとＭＬＴとの間、のブロック長切り替えの実際的な解決策は、そのような過渡フレームに対してＭＤＣＴコーデックで適用される技法と同様に、提示されておらず、理論的な研究のみが公開されている（例えば、［１３］、［１４］、［１５］、［１６］、［１７］参照）。

本発明の目的は、オーディオ信号の符号化、処理および復号のための改善された概念を提供することである。

本発明の目的は、請求項１に記載の復号器、請求項２６に記載の符号化器、請求項５２に記載のシステム、請求項５５に記載の方法、請求項５６に記載の方法、および請求項５７に記載のコンピュータプログラムによって解決される。

複数のスペクトル領域オーディオサンプルを復号するための復号器が提供される。復号器は、スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第１のグループおよび第２のグループを生成するための第１の復号モジュールを備える。さらに、復号器は、時間領域中間オーディオサンプルの第１のグループを、時間領域中間オーディオサンプルの第２のグループと、５％を超え最大５０％のオーバーラップを伴ってオーバーラップ加算するオーバーラップ加算器を備える。さらに、復号器は、スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第３のグループおよび第４のグループを生成するための第２の復号モジュールを備える。さらに、復号器は出力インターフェースを備える。オーバーラップ加算器は、少なくとも時間領域中間オーディオサンプルの第３のグループを、時間領域中間オーディオサンプルの第４のグループと、６０％を超え１００％未満のオーバーラップを伴ってオーバーラップ加算するように構成されている。さらに、オーバーラップ加算器は、少なくとも時間領域中間オーディオサンプルの第２のグループおよび第３のグループをオーバーラップ加算するか、または少なくとも時間領域中間オーディオサンプルの第４のグループおよび第１のグループをオーバーラップ加算するように構成されている。

特に、複数のスペクトル領域オーディオサンプルを復号するための復号器が提供される。復号器は、スペクトル領域オーディオサンプルの第１のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第１のグループを生成することによって、スペクトル領域オーディオサンプルの第１のグループを復号し、スペクトル領域オーディオサンプルの第２のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第２のグループを生成することによって、スペクトル領域オーディオサンプルの第２のグループを復号するための第１の復号モジュールを備える。

さらに、復号器は、オーバーラップ加算器を備え、オーバーラップ加算器は、時間領域中間オーディオサンプルの正確に２つのグループをオーバーラップ加算するように構成され、上記正確に２つのグループは時間領域中間オーディオサンプルの第１のグループおよび第２のグループであり、オーバーラップ加算器は、上記正確に２つのグループを、５％を超え最大５０％のオーバーラップを伴ってオーバーラップ加算するように構成され、上記正確に２つのグループの上記オーバーラップ加算の結果として、オーディオ信号の第１の複数の時間領域オーディオ出力サンプルが生成される。

さらに、復号器は、スペクトル領域オーディオサンプルの第３のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第３のグループを生成することによって、スペクトル領域オーディオサンプルの第３のグループを復号し、スペクトル領域オーディオサンプルの第４のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第４のグループを生成することによって、スペクトル領域オーディオサンプルの第４のグループを復号するための第２の復号モジュールを備える。

さらに、復号器は、オーディオ信号の第１の複数の時間領域オーディオ出力サンプル、オーディオ信号の第２の複数の時間領域オーディオ出力サンプル、およびオーディオ信号の第３の複数の時間領域オーディオ出力サンプルを出力するための出力インターフェースを備える。

オーバーラップ加算器は、少なくとも時間領域中間オーディオサンプルの第３のグループの、時間領域中間オーディオサンプルの第４のグループとの、６０％を超え１００％未満のオーバーラップを伴ったオーバーラップ加算を使用して、第２の複数の時間領域オーディオ出力サンプルを得るように構成されている。

さらに、オーバーラップ加算器は、少なくとも時間領域中間オーディオサンプルの第２のグループの、時間領域中間オーディオサンプルの第３のグループとのオーバーラップ加算を用いて第３の複数の時間領域オーディオ出力サンプルを得るように構成されており、または、オーバーラップ加算器は、少なくとも時間領域中間オーディオサンプルの第４のグループの、時間領域中間オーディオサンプルの第１のグループとのオーバーラップ加算を用いて第３の複数の時間領域オーディオ出力サンプルを得るように構成されている。

さらに、時間領域オーディオサンプルの複数のグループからスペクトル領域オーディオサンプルの複数のグループを生成することによってオーディオ信号の複数の時間領域オーディオサンプルを符号化するための符号化器が提供される。

符号化器は、時間領域オーディオサンプルのグループのうちの第１のグループからスペクトル領域オーディオサンプルのグループのうちの第１のグループを生成し、時間領域オーディオサンプルのグループのうちの第２のグループからスペクトル領域オーディオサンプルのグループのうちの第２のグループを生成するための第１の符号化モジュールを備え、時間領域オーディオサンプルの第１のグループおよび時間領域オーディオサンプルの第２のグループは、時間領域オーディオサンプルのグループ内で時間的に隣接しており、時間領域オーディオサンプルの第１のグループは、時間領域オーディオサンプルの第２のグループの５％を超え最大５０％のオーディオサンプルを含み、時間領域オーディオサンプルの第２のグループは、時間領域オーディオサンプルの第１のグループの５％を超え最大５０％のオーディオサンプルを含む。

さらに、符号化器は、時間領域オーディオサンプルのグループのうちの第３のグループからスペクトル領域オーディオサンプルのグループのうちの第３のグループを生成し、時間領域オーディオサンプルのグループのうちの第４のグループからスペクトル領域オーディオサンプルのグループのうちの第４のグループを生成するための第２の符号化モジュールを備え、時間領域オーディオサンプルの第３のグループは、時間領域オーディオサンプルの第４のグループの６０％を超え１００％未満のオーディオサンプルを含み、時間領域オーディオサンプルの第４のグループは、時間領域オーディオサンプルの第３のグループの６０％を超え１００％未満のオーディオサンプルを含む。

さらに、符号化器は、スペクトル領域オーディオサンプルの第１のグループ、スペクトル領域オーディオサンプルの第２のグループ、スペクトル領域オーディオサンプルの第３のグループおよびスペクトル領域オーディオサンプルの第４のグループを出力する出力モジュールを備える。

時間領域オーディオサンプルの第３のグループは、時間領域オーディオサンプルの第２のグループのオーディオサンプルを含み、または、時間領域オーディオサンプルの第４のグループは、時間領域オーディオの第１のグループのオーディオサンプルを含む。

さらに、システムが提供される。本システムは、上述の実施形態のうちの１つによる符号化器と、上述の実施形態のうちの１つによる復号器とを備える。符号化器は、複数のスペクトル領域オーディオサンプルを生成することによって、オーディオ信号の複数の時間領域オーディオサンプルを符号化するように構成される。さらに、復号器は、符号化器から複数のスペクトル領域オーディオサンプルを受信するように構成される。さらに、復号器は、複数のスペクトル領域オーディオサンプルを復号するように構成される。

さらに、複数のスペクトル領域オーディオサンプルを復号するための方法が提供される。この方法は、以下のステップを含む。
− スペクトル領域オーディオサンプルの第１のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第１のグループを生成することによって、スペクトル領域オーディオサンプルの第１のグループを復号し、スペクトル領域オーディオサンプルの第２のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第２のグループを生成することによって、スペクトル領域オーディオサンプルの第２のグループを復号するステップ。
− 時間領域中間オーディオサンプルの正確に２つのグループをオーバーラップ加算するステップ。上記正確に２つのグループは時間領域中間オーディオサンプルの第１のグループおよび第２のグループであり、上記正確に２つのグループは、５％を超え最大５０％のオーバーラップを伴ってオーバーラップ加算され、上記正確に２つのグループの上記オーバーラップ加算の結果として、オーディオ信号の第１の複数の時間領域オーディオ出力サンプルが生成される。
− スペクトル領域オーディオサンプルの第３のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第３のグループを生成することによって、スペクトル領域オーディオサンプルの第３のグループを復号し、スペクトル領域オーディオサンプルの第４のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第４のグループを生成することによって、スペクトル領域オーディオサンプルの第４のグループを復号するステップ。
− オーディオ信号の第１の複数の時間領域オーディオ出力サンプル、オーディオ信号の第２の複数の時間領域オーディオ出力サンプル、およびオーディオ信号の第３の複数の時間領域オーディオ出力サンプルを出力するステップ。
− 少なくとも時間領域中間オーディオサンプルの第３のグループの、時間領域中間オーディオサンプルの第４のグループとの、６０％を超え１００％未満のオーバーラップを伴ったオーバーラップ加算を使用して、第２の複数の時間領域オーディオ出力サンプルを得るステップ。および：
− 少なくとも時間領域中間オーディオサンプルの第２のグループの、時間領域中間オーディオサンプルの第３のグループとのオーバーラップ加算を用いて第３の複数の時間領域オーディオ出力サンプルを得、または、少なくとも時間領域中間オーディオサンプルの第４のグループの、時間領域中間オーディオサンプルの第１のグループとのオーバーラップ加算を用いて第３の複数の時間領域オーディオ出力サンプルを得るステップ。

さらに、時間領域オーディオサンプルの複数のグループからスペクトル領域オーディオサンプルの複数のグループを生成することによってオーディオ信号の複数の時間領域オーディオサンプルを符号化するための方法が提供される。符号化器は、
− 時間領域オーディオサンプルのグループのうちの第１のグループからスペクトル領域オーディオサンプルのグループのうちの第１のグループを生成し、時間領域オーディオサンプルのグループのうちの第２のグループからスペクトル領域オーディオサンプルのグループのうちの第２のグループを生成するステップ。時間領域オーディオサンプルの第１のグループおよび時間領域オーディオサンプルの第２のグループは、時間領域オーディオサンプルのグループ内で時間的に隣接しており、時間領域オーディオサンプルの第１のグループは、時間領域オーディオサンプルの第２のグループの５％を超え最大５０％のオーディオサンプルを含み、時間領域オーディオサンプルの第２のグループは、時間領域オーディオサンプルの第１のグループの５％を超え最大５０％のオーディオサンプルを含む。
− 時間領域オーディオサンプルのグループのうちの第３のグループからスペクトル領域オーディオサンプルのグループのうちの第３のグループを生成し、時間領域オーディオサンプルのグループのうちの第４のグループからスペクトル領域オーディオサンプルのグループのうちの第４のグループを生成するステップ。時間領域オーディオサンプルの第３のグループは、時間領域オーディオサンプルの第４のグループの６０％を超え１００％未満のオーディオサンプルを含み、時間領域オーディオサンプルの第４のグループは、時間領域オーディオサンプルの第３のグループの６０％を超え１００％未満のオーディオサンプルを含む。
− スペクトル領域オーディオサンプルの第１のグループ、スペクトル領域オーディオサンプルの第２のグループ、スペクトル領域オーディオサンプルの第３のグループおよびスペクトル領域オーディオサンプルの第４のグループを出力するステップ。

さらに、コンピュータプログラムが提供される。コンピュータプログラムの各々は、上記の方法の各々がコンピュータプログラムのうちの１つによって実施されるように、コンピュータまたは信号プロセッサ上で実行されると上記の方法のうちの１つを実施するように構成されている。

それらのすべてが、周波数領域量子化のために、修正離散コサイン変換（ＭＤＣＴ）を５０％のオーバーラップ率で適用する現代の知覚オーディオコーダは、低ビットレートでも良好なコーディング品質を提供する。

しかし、実施形態は、準定常高調波入力についても許容可能な低レート性能には比較的長いフレームが必要であり、アルゴリズム待ち時間が増加し、時間的コーディング分解能が低下するという知見に基づいている。

いくつかの実施形態は、重複変換コーディングにおけるオーバーラップ率を現代のオーディオコーデックで用いられる従来の５０％超に拡張する。

いくつかの実施形態によれば、そのような入力に対して、７５％のオーバーラップ率を有する拡張重複変換（ＥＬＴ）が利用される。トランジェントセグメントの符号化のための高い時間分解能を維持するために、ＥＬＴ定義は、完全な時間領域エイリアシング除去（ＴＤＡＣ）が行われ、フレーム長が増大しない、ＥＬＴ（準定常用）とＭＤＣＴ符号化（非定常または非調性領域用）とのフレーム単位の切り替えが可能になるように修正される。

いくつかの実施形態は、５０％および７５％のオーバーラップ率による変換間の遷移を完全に再構築することを可能にする、ＥＬＴ概念の本発明の修正およびＥＬＴ式の本発明の修正を提供する。実施形態では、５０のオーバーラップ比によるＭＤＣＴコーディングと７５％の比によるＥＬＴコーディングとの間の適切なＴＤＡＣが達成される。

いくつかの実施形態では、本発明の新規のＥＬＴ窓が提供される。例えば、いくつかの実施形態では、フレーミングアーチファクトを回避するために、サイドローブ除去が改善された／サイドローブレベルが低い、本発明の新規のＥＬＴ窓関数が提供される。

いくつかの実施形態によれば、ＥＬＴ概念の本発明の修正およびＥＬＴ式の本発明の修正は、例えば、本発明の新規のＥＬＴ窓と組み合わせて使用することができる。

いくつかの実施形態は、率切り替え原理を適用する信号適応コーディング方式を提供する。ＭＰＥＧ−Ｈ３Ｄオーディオ仕様に基づく完全なコーディング方式が提供される（ＭＰＥＧ−Ｈ３Ｄオーディオ仕様の詳細については、［７］を参照されたい）。

実施形態は、ＭＤＣＴ、ＭＤＳＴ、およびコサインまたはサイン変調ＥＬＴコーディングの間で信号適応的に切り替えるための符号化器、復号器、システムおよび方法を提供する。実施形態は、高時間分解能での過渡入力のコード化を実現する。

好ましい実施形態は、従属請求項に記載されている。

以下では、本発明の実施形態を、図面を参照してより詳細に説明する。

一実施形態による復号器を示す図である。一実施形態による符号化器を示す図である。一実施形態によるシステムを示す図である。短いグループから長いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの４つのグループのオーバーラップを示す図である。短いグループから長いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの６つのグループのオーバーラップを示す図である。長いグループから短いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの４つのグループのオーバーラップを示す図である。長いグループから短いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの６つのグループのオーバーラップを示す図である。図４（ａ）ではＭＬＴ、図４（ｂ）ではＥＬＴ、図４（ｃ）ではＥＬＴを介したＭＬＴの場合の、重複変換におけるオーバーラップ加算（ＯＬＡ）中のＴＤＡＣを示す図である。図５（ａ）は不正確な非完全再構成を示し、図５（ｂ）は所望の完全再構成を示し、図５（ｃ）は所望の（修正）ＥＬＴを介したＭＬＴを示す、実施形態による遷移変換を伴うＭＬＴからＥＬＴへの切り替えを示す図である。実施形態による遷移変換を伴うＥＬＴからＭＬＴへの切り替えを示す図である。実施形態による、図７（ａ）ではＭＬＴ、図７（ｂ）ではＥＬＴ、図７（ｃ）では遷移の場合の完全な再構成窓設計を示す図である。実施形態による４つの入力信号に対する結果のフレーム単位のＥＬＴおよびＭＤＣＴ選択を示す図である。実施形態による９５％信頼区間による聴取試験結果の拡大図である。一実施形態による複数の分析窓を示す図である。一実施形態による複数の合成窓を示す図である。図１２（ａ）はＭＤＣＴ／ＭＤＳＴを示し、図１２（ｂ）はＥＬＴを示す、いくつかの特定の実施形態による、重複変換による基本フィルタバンクを示す図である。図１３（ａ）はＰｒｉｎｃｅｎ−Ｂｒａｄｌｅｙを示し、図１３（ｂ）はＭＥＬＴ−ＩＩを示す、いくつかの特定の実施形態による、偶数積み重ねフィルタバンクにおけるＴＤＡＣを示す図である。図１４（ａ）はコサイン変調からサイン変調への遷移を示し、図１４（ｂ）はサイン変調からコサイン変調への遷移を示す、特定の実施形態によるＭＥＬＴ−ＩＶフィルタバンクの特定のＴＤＡＣ準拠カーネル切り替えを示す図である。図１５（ａ）は７５％から５０％のオーバーラップ率への一時的な遷移を示し、図１５（ｂ）は、５０％から７５％へのオーバーラップ率の一時的な遷移を示す、一時的な遷移の間の、破線で示される特別な「ｓｔｏｐ−ｓｔａｒｔ」形状を有する特定の実施形態による改善された正確な窓処理を示す図である。

特定の実施形態を詳細に説明する前に、重複変換コーディングの原理について説明する。

上述のように、ＥＬＴ、ＭＬＴおよびＭＤＣＴは、逆を決定するための式（１）ならびに０≦ｋ＜Ｍ）および順方向（分析）の場合の

を用いた、一般的な重複変換式の具体的実現として考えられる。

式（２）において、ｃｏｓ（）関数は、ＣＬＴ（変調複素重複変換）（［１８］参照）および［８］、［９］に適用されている修正離散サイン変換（ＭＤＳＴ）のようなサイン変調形式を得るために（１、２）におけるｓｉｎ（）関数を使用することもできることを強調するために、プレースホルダｃｓ（）に置き換えられている。

したがって、ｃｓ（）はｓｉｎ（）またはｃｏｓ（）を使用できることを示すプレースホルダである。

逆ＭＬＴ（ＭＬＴの合成を実施する）の式（１）または（順方向）ＥＬＴ（ＥＬＴの分析を実施する）の式（２）の代わりに、複数の他の式が、ＭＬＴ（例えば、ＭＤＣＴまたはＭＤＳＴ）またはＥＬＴが実施されるときの重複変換式として利用される。そのような式の例が、ここで式（２ａ）〜（２ｊ）として示される。

以下のすべての式（２ａ）〜（２ｊ）および式（４ａ）〜（４ｈ）において、０≦ｋ＜Ｍおよび０≦ｎが適用され、Ｘ_ｉ（ｋ）はｋにおける周波数サンプルであり、ｘ_ｉ（ｎ）はｎにおける時間サンプルである。

一般化された重複変換式は、例えば、式（２ａ）および（２ｂ）のように定式化することができる。
順方向（分析）一般化重複変換定義：

逆（合成）一般化重複変換定義：

５０％のオーバーラップ率を有する重複変換は、例えば、式（２ｃ）〜（２ｊ）のように定式化することができる。
ＭＤＣＴ−ＩＶと呼ばれる順方向（分析）ＭＤＣＴ、タイプ４、Ｎ＝Ｌ／２：

ＩＭＤＣＴ−ＩＶと呼ばれる逆（合成）ＭＤＣＴ、タイプ４、ｎ＜Ｌ／２：

ＭＤＣＴ−ＩＩと呼ばれる順方向（分析）ＭＤＣＴ、タイプ２、Ｎ＝Ｌ／２：

ＩＭＤＣＴ−ＩＩと呼ばれる逆（合成）ＭＤＣＴ、タイプ２、ｎ＜Ｌ／２：

ＭＤＳＴ−ＩＶと呼ばれる順方向（分析）ＭＤＳＴ、タイプ４、Ｎ＝Ｌ／２：

ＩＭＤＳＴ−ＩＶと呼ばれる逆（合成）ＭＤＳＴ、タイプ４、ｎ＜Ｌ／２：

ＭＤＳＴ−ＩＩと呼ばれる順方向（分析）ＭＤＳＴ、タイプ２、Ｎ＝Ｌ／２：

ＩＭＤＳＴ−ＩＩと呼ばれる逆（合成）ＭＤＳＴ、タイプ２、ｎ＜Ｌ／２：

例えば、Ｍａｌｖａｒの順方向または逆方向拡張重複変換（ＥＬＴ）などの、７５％のオーバーラップ率を有する重複変換は、式（２ｃ）および（２ｄ）と同じ方法で定式化することができるが、Ｎ＝Ｌかつｎ＜Ｌである。

量子化（式（１）においてａ’で示されている）によって、少なくともスペクトル歪みが存在しない場合に、それぞれ式（１）および（２）の分析および合成変換を受けた後の入力信号ｓ_ｉ（ｎ）の完全な再構成（ＰＲ）を達成するために、窓ｗ（ｎ）が使用されて、Ｌサイズの分析入力

および合成出力

が重み付けされる。

は、重複変換のクリティカルサンプリング特性に起因する時間領域エイリアシング（ＴＤＡ）を示しているため、ｗ（ｎ）は特定の設計制約を満たさなければならない（［１］、［２］、［１２］参照）。Ｌ／Ｍが偶数であるＥＬＴについて、分析および合成についてｗ（ｎ）が等しく、対称であると仮定すると、これらは、以下によって与えられる。

ＭＬＴ、ＭＤＣＴ、またはＭＤＳＴ（Ｌ／Ｍ＝Ｎ／Ｍ＝２、以下、これら３つの用語は交換可能に適用される）について、ＴＤＡは、オーバーラップ加算（ＯＬＡ）手順によって、先行するフレーム

の

の第１の時間的半部と第２の半部とを組み合わせることによって相殺される。結果として得られる変換間オーバーラップ率は（２−１）／２＝５０％である。Ｌ＝４ＭであるＥＬＴの場合、ＯＬＡステップは、

の第１の四半部と、

の第２の四半部、

の第３の四半部、および

の第４の四半部を組み合わせなければならず、そのため、率は（４−１）／４＝７５％まで増大する。

図４は、この差および最悪の場合のプリエコー（コーディングエラーの時間的拡大）を示している。ＴＤＡおよび完全な再構成のより詳細な議論は、［１５］、［１６］、［１７］、［１８］、［１９］および［２０］に見出すことができる。

特に、図４は、重複変換におけるＯＬＡ中のＴＤＡＣを示し、図４（ａ）はＭＬＴ、図４（ｂ）はＥＬＴ、図４（ｃ）はＥＬＴを介したＭＬＴのものである。窓の下の線の長さは、最大プリエコーを示す。ＥＬＴの場合の最大プリエコーはＭＬＴの場合よりも長いことが分かる。

また、ＤＣＴ−ＩＩに基づく偶数積み重ね線形位相ＥＬＴ、または、例えば、Ｌ＝３Ｍの奇数長ＥＬＴも可能であり（［２１］、２２］参照）、以下に説明する実施形態はこのようなＥＬＴにも適用されることにも留意されたい。

長さ４ＭのＥＬＴ（Ｌ／Ｍ＝４）に着目すると、図５（ａ）に示すように、ＴＤＡ対称性は互換性がないため、ＭＬＴコーディングへの切り替えおよびＭＬＴコーディングからの切り替えの間に完全な再構成は達成されないことが分かる。言い換えれば、フレームｉ−４とフレームｉ−３との間では、隣接する偶奇の組み合わせ（［９］、［１９］参照）の必要性が失われる。

ここで、実施形態を詳細に説明する。

図１ｂは、一実施形態による、時間領域オーディオサンプルの複数のグループからスペクトル領域オーディオサンプルの複数のグループを生成することによってオーディオ信号の複数の時間領域オーディオサンプルを符号化するための符号化器を示す。

符号化器は、時間領域オーディオサンプルのグループのうちの第１のグループからスペクトル領域オーディオサンプルのグループのうちの第１のグループを生成し、時間領域オーディオサンプルのグループのうちの第２のグループからスペクトル領域オーディオサンプルのグループのうちの第２のグループを生成するための第１の符号化モジュール２１０を備え、時間領域オーディオサンプルの第１のグループおよび時間領域オーディオサンプルの第２のグループは、時間領域オーディオサンプルのグループ内で時間的に隣接しており、時間領域オーディオサンプルの第１のグループは、時間領域オーディオサンプルの第２のグループの５％を超え最大５０％のオーディオサンプルを含み、時間領域オーディオサンプルの第２のグループは、時間領域オーディオサンプルの第１のグループの５％を超え最大５０％のオーディオサンプルを含む。

さらに、符号化器は、時間領域オーディオサンプルのグループのうちの第３のグループからスペクトル領域オーディオサンプルのグループのうちの第３のグループを生成し、時間領域オーディオサンプルのグループのうちの第４のグループからスペクトル領域オーディオサンプルのグループのうちの第４のグループを生成するための第２の符号化モジュール２２０を備え、時間領域オーディオサンプルの第３のグループは、時間領域オーディオサンプルの第４のグループの６０％を超え１００％未満のオーディオサンプルを含み、時間領域オーディオサンプルの第４のグループは、時間領域オーディオサンプルの第３のグループの６０％を超え１００％未満のオーディオサンプルを含む。

さらに、符号化器は、スペクトル領域オーディオサンプルの第１のグループ、スペクトル領域オーディオサンプルの第２のグループ、スペクトル領域オーディオサンプルの第３のグループおよびスペクトル領域オーディオサンプルの第４のグループを出力する出力モジュール２３０を備える。

実施形態はとりわけ、時間領域オーディオ信号のある部分については、より高いオーバーラップを有するより長い変換窓がより適切であり、一方で、時間領域オーディオ信号の部分の他の信号グループについては、よりオーバーラップが低いより短い変換窓がより適切であるという知見に基づく。したがって、異なる変換窓間の切り替えは、実行時に実現される。可聴アーチファクトのないオーディオ符号化を実現するために、窓の長さが変化する場合であっても、隣接する変換窓はオーバーラップする。

図１ｂにおいて、第１の符号化モジュール２１０は、時間領域オーディオサンプルの他のグループとのより小さいオーバーラップを有する時間領域オーディオサンプルのより小さいグループを符号化するためのものである。しかし、第１の符号化モジュール２１０の場合であっても、少なくともいくらかのオーバーラップが存在するはずであるため、５％を超えるオーバーラップが必要とされる。

第２の符号化モジュール２２０は、第１の符号化モジュール２１０によって処理されるグループと比較してより大きなオーバーラップを有する時間領域オーディオサンプルのより大きなグループを符号化するためのものである。６０％を超える最小オーバーラップが必要とされる。

図２ａは、短いグループから長いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの４つのグループのオーバーラップを示す。

具体的には、時間領域オーディオサンプルの第１のグループ４１０、時間領域オーディオサンプルの第２のグループ４２０、時間領域オーディオサンプルの第３のグループ４３０、および時間領域オーディオサンプルの第４のグループ４４０の各々が、対応するブロックによって概略的に示されている。破線は、重複領域を識別する役割を果たす。

図から分かるように、時間領域オーディオサンプルの第１のグループ４１０および時間領域オーディオサンプルの第２のグループ４２０は、５０％のオーバーラップを有する。したがって、時間領域オーディオサンプルの第１のグループ４１０は、時間領域オーディオサンプルの第２のグループ４２０の正確に５０％の時間領域オーディオサンプルを含み、逆もまた同様である。

さらに、図から分かるように、時間領域オーディオサンプルの第３のグループ４３０および時間領域オーディオサンプルの第４のグループ４４０は、７５％のオーバーラップを有する。したがって、時間領域オーディオサンプルの第３のグループ４３０は、時間領域オーディオサンプルの第４のグループ４４０の正確に７５％の時間領域オーディオサンプルを含み、逆もまた同様である。

さらに、図から分かるように、時間領域オーディオサンプルの第３のグループ４３０は、時間領域オーディオサンプルの第２のグループ４２０のオーディオサンプルを含む。これは、両方のグループがオーバーラップする範囲を有するためである。

図２ａの実施形態を要約すると、時間領域オーディオサンプルの第１のグループ４１０は、時間領域オーディオサンプルの第２のグループ４２０に時間的に先行し、時間領域オーディオサンプルの第２のグループ４２０は、時間領域オーディオサンプルの第３のグループ４３０に時間的に先行し、時間領域オーディオサンプルの第３のグループ４３０は、時間領域オーディオサンプルの第４のグループ４４０に時間的に先行し、時間領域オーディオサンプルの第３のグループ４３０は、時間領域オーディオサンプルの第２のグループ４２０のオーディオサンプルを含む。図２ｂの実施形態についても同様である。

長いグループから短いグループへの切り替えの例が、図３ａによって提供される。

図３ａは、長いグループから短いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの４つのグループのオーバーラップを示す。

具体的には、ここでも、時間領域オーディオサンプルの第１のグループ４１１、時間領域オーディオサンプルの第２のグループ４２１、時間領域オーディオサンプルの第３のグループ４３１、および時間領域オーディオサンプルの第４のグループ４４１の各々が、対応するブロックによって概略的に示されている。ここでも、破線は、重複領域を識別する役割を果たす。

図から分かるように、時間領域オーディオサンプルの第１のグループ４１１および時間領域オーディオサンプルの第２のグループ４２１は、５０％のオーバーラップを有する。したがって、時間領域オーディオサンプルの第１のグループ４１１は、時間領域オーディオサンプルの第２のグループ４２１の正確に５０％の時間領域オーディオサンプルを含み、逆もまた同様である。

さらに、図から分かるように、時間領域オーディオサンプルの第３のグループ４３１および時間領域オーディオサンプルの第４のグループ４４１は、７５％のオーバーラップを有する。したがって、時間領域オーディオサンプルの第３のグループ４３１は、時間領域オーディオサンプルの第４のグループ４４１の正確に７５％の時間領域オーディオサンプルを含み、逆もまた同様である。

さらに、図から分かるように、時間領域オーディオサンプルの第４のグループ４４１は、時間領域オーディオサンプルの第１のグループ４１１のオーディオサンプルを含む。これは、両方のグループがオーバーラップする範囲を有するためである。

図３ａの実施形態を要約すると、時間領域オーディオサンプルの第３のグループ４３１は、時間領域オーディオサンプルの第４のグループ４４１に時間的に先行し、時間領域オーディオサンプルの第４のグループ４４１は、時間領域オーディオサンプルの第１のグループ４１１に時間的に先行し、時間領域オーディオサンプルの第１のグループ４１１は、時間領域オーディオサンプルの第２のグループ４２１に時間的に先行し、時間領域オーディオサンプルの第４のグループ４４１は、時間領域オーディオサンプルの第１のグループ４１１のオーディオサンプルを含む。図３ｂの実施形態についても同様である。

一実施形態によれば、時間領域オーディオサンプルの第１のグループ４１０、４１１は、例えば、時間領域オーディオサンプルの第２のグループ４２０、４２１の正確に５０％のオーディオサンプルを含むことができ、時間領域オーディオサンプルの第２のグループは、例えば、時間領域オーディオの第１のグループの正確に５０％のオーディオサンプルを含むことができる。図２ａ、図３ａ、図２ｂおよび図３ｂはそのような実施形態を実現する。

時間領域オーディオサンプルの第３のグループ４３０、４３１は、例えば、時間領域オーディオサンプルの第４のグループ４４０、４４１の少なくとも７５％で１００％未満のオーディオサンプルを含むことができ、時間領域オーディオサンプルの第４のグループ４４０、４４１は、例えば、時間領域オーディオサンプルの第３のグループ４３０、４３１の少なくとも７５％で１００％未満のオーディオサンプルを含むことができる。図２ａ、図３ａ、図２ｂおよび図３ｂはそのような実施形態をも実現する。

一実施形態では、第１の符号化モジュール２１０は、例えば、修正離散コサイン変換または修正離散サイン変換を実行するように構成されてもよく、第２の符号化モジュール２２０は、例えば、拡張重複変換または修正拡張重複変換を実行するように構成されてもよい。

一実施形態によれば、時間領域オーディオサンプルの第３のグループ４３０、４３１は、例えば、時間領域オーディオサンプルの第４のグループ４４０、４４１の正確に７５％のオーディオサンプルを含むことができ、時間領域オーディオサンプルの第４のグループ４４０、４４１は、例えば、時間領域オーディオサンプルの第３のグループ４３０、４３１の正確に７５％のオーディオサンプルを含むことができる。

一実施形態では、時間領域オーディオサンプルの第１のグループのうちの時間領域オーディオサンプルの第１の数は、例えば、時間領域オーディオサンプルの第２のグループのうちの時間領域オーディオサンプルの第２の数と等しくてもよい。一実施形態では、時間領域オーディオサンプルの第３のグループのうちの時間領域オーディオサンプルの第３の数は、例えば、時間領域オーディオサンプルの第４のグループのうちの時間領域オーディオサンプルの第４の数と等しくてもよい。第２の数は、例えば、第３の数を２で除算した数に等しくてもよく、第１の数は、例えば、第４の数を２で除算した数に等しくてもよい。

例えば、そのような実施形態の特定の例は、第２の符号化モジュール２２０によって符号化されるすべてのグループが、第１の符号化モジュール２１０によって符号化されるすべてのグループの正確に２倍のサンプルを有することである。

図１ｂの符号化器の一実施形態によれば、第２の符号化モジュール２２０は、時間領域オーディオサンプルの第５のグループからスペクトル領域オーディオサンプルの第５のグループを生成するように構成され、第２の符号化モジュール２２０は、時間領域オーディオサンプルの第６のグループからスペクトル領域オーディオサンプルの第６のグループを生成するように構成される。時間領域オーディオサンプルの第３のグループまたは第４のグループは、時間領域オーディオサンプルの第５のグループの少なくとも７５％で１００％未満のオーディオサンプルを含み、時間領域オーディオサンプルの第５のグループは、時間領域オーディオサンプルの第３のグループまたは第４のグループの少なくとも７５％で１００％未満のオーディオサンプルを含み、時間領域オーディオサンプルの第５のグループは、時間領域オーディオサンプルの第６のグループの少なくとも７５％で１００％未満のオーディオサンプルを含み、時間領域オーディオサンプルの第６のグループは、時間領域オーディオサンプルの第５のグループの少なくとも７５％で１００％未満のオーディオサンプルを含む。出力モジュール２３０は、スペクトル領域のオーディオサンプルの第５のグループおよびスペクトル領域オーディオサンプルの第６のグループをさらに出力するように構成される。

図２ｂは、短いグループから長いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの６つのグループのオーバーラップを示す。

図から分かるように、時間領域オーディオサンプルの第４のグループ４４０および時間領域オーディオサンプルの第５のグループ４５０は、７５％のオーバーラップを有する。したがって、時間領域オーディオサンプルの第５のグループ４５０は、時間領域オーディオサンプルの第４のグループ４４０の正確に７５％の時間領域オーディオサンプルを含み、逆もまた同様である。

さらに、図から分かるように、時間領域オーディオサンプルの第５のグループ４５０および時間領域オーディオサンプルの第５のグループ４６０は、７５％のオーバーラップを有する。したがって、時間領域オーディオサンプルの第６のグループ４６０は、時間領域オーディオサンプルの第５のグループ４５０の正確に７５％の時間領域オーディオサンプルを含み、逆もまた同様である。

実施形態によれば、時間領域オーディオサンプルの第１のグループ４１０、４１１、および時間領域オーディオサンプルの第２のグループ４２０、４２１は、時間的に隣接している。例えば、図２ｂでは、時間領域オーディオサンプルの６つのグループ、すなわち４１０、４２０、４３０、４４０、４５０、４６０が示されている。これら６つのグループについて、時系列を定義することができる。

例えば、時間領域オーディオサンプルの第１のグループ４１０の最初のサンプルは、時間領域オーディオサンプルの第２のグループ４２０の最初のサンプルよりも早い時点（より過去にある）に関連する。

時間領域オーディオサンプルの第２のグループ４２０の最初のサンプルは、時間領域オーディオサンプルの第３のグループ４３０の最初のサンプルと同じ時点に関連する。しかしながら、時間領域オーディオサンプルの第２のグループ４２０の最後のサンプルは、時間領域オーディオサンプルの第３のグループ４３０の最後のサンプルよりも早い時点に関連する。

時間領域オーディオサンプルの第３のグループ４３０の最初のサンプルは、時間領域オーディオサンプルの第４のグループ４４０の最初のサンプルよりも早い時点に関連する。

時間領域オーディオサンプルの第４のグループ４４０の最初のサンプルは、時間領域オーディオサンプルの第５のグループ４５０の最初のサンプルよりも早い時点に関連する。

時間領域オーディオサンプルの第５のグループ４５０の最初のサンプルは、時間領域オーディオサンプルの第６のグループ４６０の最初のサンプルよりも早い時点に関連する。

図２ｂの結果として得られる時系列は、４１０、４２０、４３０、４４０、４５０、４６０である。

図３ｂについて同じ論法を適用することに関連して、図３ｂの時系列４６１、４５１、４３１、４４１、４１１、４２１が得られる。

時系列を決定する論法は次のとおりである。

時間領域オーディオサンプルのグループＡの最初のサンプルが、時間領域オーディオサンプルのグループＢの最初のサンプルよりも早い時点に関係する場合、グループＡはグループＢよりも早い時系列に現れる。

時間領域オーディオサンプルのグループＡの最初のサンプルが、グループＢの最初のサンプルと同じ時点に関係する場合で、時間領域オーディオサンプルのグループＡの最後のサンプルが、グループＢの最後のサンプルよりも早い時点に関係する場合、グループＡはグループＢよりも早い時系列に現れる。

時間領域オーディオサンプルの２つのグループが、時間領域オーディオサンプルのグループの時系列において（直に）隣接する場合、それらのグループは時間的に隣接する。

例えば、図２ｂの時系列４１０、４２０、４３０、４４０、４５０、４６０を考える。ここで、グループ４１０および４２０は時間的に隣接し、グループ４２０および４３０は時間的に隣接し、グループ４３０および４４０は時間的に隣接し、グループ４４０および４５０は時間的に隣接し、グループ４５０およびグループ４６０は時間的に隣接しているが、２つのグループのいずれの他の対も、時間的に隣接していない。

例えば、図３ｂの時系列４６１、４５１、４３１、４４１、４１１、４２１を考える。ここで、グループ４６１および４５１は時間的に隣接し、グループ４５１および４３１は時間的に隣接し、グループ４３１および４４１は時間的に隣接し、グループ４４１および４１１は時間的に隣接し、グループ４１１およびグループ４２１は時間的に隣接しているが、２つのグループのいずれの他の対も、時間的に隣接していない。

図３ｂに関して、図３ｂは、長いグループから短いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの６つのグループのオーバーラップを示す。

図から分かるように、時間領域オーディオサンプルの第３のグループ４３１および時間領域オーディオサンプルの第５のグループ４５１は、７５％のオーバーラップを有する。したがって、時間領域オーディオサンプルの第５のグループ４５１は、時間領域オーディオサンプルの第３のグループ４３１の正確に７５％の時間領域オーディオサンプルを含み、逆もまた同様である。

さらに、図から分かるように、時間領域オーディオサンプルの第５のグループ４５１および時間領域オーディオサンプルの第５のグループ４６１は、７５％のオーバーラップを有する。したがって、時間領域オーディオサンプルの第６のグループ４６１は、時間領域オーディオサンプルの第５のグループ４５１の正確に７５％の時間領域オーディオサンプルを含み、逆もまた同様である。

実施形態では、第１の符号化モジュール２１０または第２の符号化モジュール２２０によって時間領域オーディオサンプルに窓関数を適用して、重み付けされた時間領域サンプルを取得し、その後、第１の符号化モジュール２１０または第２の符号化モジュール２２０は、重み付けされた時間領域サンプルからスペクトル領域オーディオサンプルを生成することができる。

一実施形態では、符号化器は、時間領域オーディオ信号の一部の信号特性に応じて、スペクトル領域オーディオサンプルの現在のグループを生成するために、第１の符号化モジュール２１０または第２の符号化モジュール２２０のいずれかを利用するように構成される。

一実施形態によれば、符号化器は、複数の時間領域オーディオサンプルからなる現在のグループが非定常領域および非調性領域の少なくとも１つを含むか否かを信号特性として決定するように構成される。符号化器は、複数の時間領域オーディオサンプルからなる現在のグループが非定常領域および非調性領域の上記少なくとも１つを含む場合、複数の時間領域オーディオサンプルからなる現在のグループに応じて、第１の符号化モジュール２１０を利用して、スペクトル領域オーディオサンプルの現在のグループを生成するように構成される。さらに、符号化器は、複数の時間領域オーディオサンプルからなる現在のグループが非定常領域および非調性領域の上記少なくとも１つを含まない場合、複数の時間領域オーディオサンプルからなる現在のグループに応じて、第２の符号化モジュール２２０を利用して、スペクトル領域オーディオサンプルの現在のグループを生成するように構成される。

一実施形態では、出力モジュール２３０は、信号特性に応じて第１のビット値または第２のビット値のいずれかを有するビットを出力するように構成される。したがって、符号化器が符号化のために第１の符号化モジュール２１０を使用したか、または、第２の符号化モジュール２２０を使用したかを決定するために、復号器側でビットを利用することができる。

図１ａは、一実施形態による複数のスペクトル領域オーディオサンプルを復号するための復号器を示す。

復号器は、スペクトル領域オーディオサンプルの第１のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第１のグループを生成することによって、スペクトル領域オーディオサンプルの第１のグループを復号し、スペクトル領域オーディオサンプルの第２のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第２のグループを生成することによって、スペクトル領域オーディオサンプルの第２のグループを復号するための第１の復号モジュール１１０を備える。

さらに、復号器は、オーバーラップ加算器１３０を備え、オーバーラップ加算器１３０は、時間領域中間オーディオサンプルの正確に２つのグループをオーバーラップ加算するように構成され、上記正確に２つのグループは時間領域中間オーディオサンプルの第１のグループおよび第２のグループであり、オーバーラップ加算器１３０は、上記正確に２つのグループを、５％を超え最大５０％のオーバーラップを伴ってオーバーラップ加算するように構成され、上記正確に２つのグループの上記オーバーラップ加算の結果として、オーディオ信号の第１の複数の時間領域オーディオ出力サンプルが生成される。

さらに、復号器は、スペクトル領域オーディオサンプルの第３のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第３のグループを生成することによって、スペクトル領域オーディオサンプルの第３のグループを復号し、スペクトル領域オーディオサンプルの第４のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第４のグループを生成することによって、スペクトル領域オーディオサンプルの第４のグループを復号するための第２の復号モジュール１２０を備える。

さらに、復号器は、オーディオ信号の第１の複数の時間領域オーディオ出力サンプル、オーディオ信号の第２の複数の時間領域オーディオ出力サンプル、およびオーディオ信号の第３の複数の時間領域オーディオ出力サンプルを出力するための出力インターフェース１４０を備える。

オーバーラップ加算器１３０は、少なくとも時間領域中間オーディオサンプルの第３のグループの、時間領域中間オーディオサンプルの第４のグループとの、６０％を超え１００％未満のオーバーラップを伴ったオーバーラップ加算を使用して、第２の複数の時間領域オーディオ出力サンプルを得るように構成されている。

さらに、オーバーラップ加算器１３０は、少なくとも時間領域中間オーディオサンプルの第２のグループの、時間領域中間オーディオサンプルの第３のグループとのオーバーラップ加算を用いて第３の複数の時間領域オーディオ出力サンプルを得るように構成されており、または、オーバーラップ加算器１３０は、少なくとも時間領域中間オーディオサンプルの第４のグループの、時間領域中間オーディオサンプルの第１のグループとのオーバーラップ加算を用いて第３の複数の時間領域オーディオ出力サンプルを得るように構成されている。

時間領域オーディオサンプルのグループ４１０、４１１、４２０、４２１、４３０、４３１、４４０、４４１、４５０、４５１、４６０および４６１のオーバーラップについて図２ａ、図２ｂ、図２ｃおよび図２ｄを参照して提供された説明が、時間領域中間オーディオサンプルのグループに等しく適用される。

実施形態では、第１のオーディオ出力サンプルは、第１の時間領域オーディオ出力サンプルおよび第２の時間領域オーディオ出力サンプルのオーバーラップ加算に基づいて生成され、第２のオーディオ出力サンプルは、第３の時間領域オーディオ出力サンプルおよび第４の時間領域オーディオ出力サンプルのオーバーラップ加算に基づいて生成される、

図２ａおよび図２ｂの状況に対応する復号器の実施形態では、オーディオ信号の第１の複数の時間領域オーディオ出力サンプルは、オーディオ信号の第３の複数の時間領域オーディオ出力サンプルに時間的に先行し、オーディオ信号の第３の複数の時間領域オーディオ出力サンプルは、オーディオ信号の第２の複数の時間領域オーディオ出力サンプルに時間的に先行し、オーバーラップ加算器１３０は、少なくとも時間領域中間オーディオサンプルの第２のグループと、時間領域中間オーディオサンプルの第３のグループとのオーバーラップ加算を使用して、第３の複数の時間領域オーディオ出力サンプルを取得するように構成される、または

図３ａおよび図３ｂの状況に対応する復号器の実施形態では、オーディオ信号の第２の複数の時間領域オーディオ出力サンプルは、オーディオ信号の第３の複数の時間領域オーディオ出力サンプルに時間的に先行し、オーディオ信号の第３の複数の時間領域オーディオ出力サンプルは、オーディオ信号の第１の複数の時間領域オーディオ出力サンプルに時間的に先行し、オーバーラップ加算器１３０は、少なくとも時間領域中間オーディオサンプルの第２のグループと、時間領域中間オーディオサンプルの第３のグループとのオーバーラップ加算を使用して、第３の複数の時間領域オーディオ出力サンプルを取得するように構成される。

さらに、時間領域中間オーディオサンプルの第１のグループおよび第２のグループは、５％を超え最大５０％がオーバーラップすると概説されている。ほとんどの実施形態では、第１の復号モジュール１１０は、同じ数のサンプルを有する時間領域中間オーディオサンプルのグループを生成する。換言すれば、第１の復号モジュール１１０によって使用される窓は、一般に常に同じサイズを有する。次に、時間領域中間オーディオサンプルの第１のグループおよび第２のグループのオーバーラップを決定するために、オーバーラップ加算において時間領域中間オーディオサンプルの第２のグループのサンプルとオーバーラップする第１のグループの中間時間領域オーディオサンプルの数（１０２４サンプル）が、時間領域中間オーディオサンプルの第１のグループのサンプルの総数（例えば、２０４８サンプル）で除算されて、オーバーラップ加算のオーバーラップが決定される（１０２４／２０４８＝５０％）。しかしながら、第１の復号モジュール１１０が、異なる数のサンプルを有する時間領域中間オーディオサンプルのグループを生成するという異常な実施形態では、時間領域中間オーディオサンプルのより大きなグループが考慮され、オーバーラップは、小さい方のグループのサンプルとオーバーラップする大きい方のグループの時間領域中間オーディオサンプルの数（例えば、７６８サンプル）を、大きい方のグループのサンプルの総数（例えば、２０４８サンプル）で除算した数として定義される（重複：７６８／２０４８＝３７．５％）。

さらに、時間領域中間オーディオサンプルの第３のグループおよび第４のグループは、６０％を超え１００％未満がオーバーラップすると概説されている。ほとんどの実施形態では、第２の復号モジュール１２０は、同じ数のサンプルを有する時間領域中間オーディオサンプルのグループを生成する。換言すれば、第２の復号モジュール１２０によって使用される窓は、一般に常に同じサイズを有する（ただし、グループ／窓のサイズは、第１の復号モジュール１１０によって生成／使用されるグループ／窓のサイズとは異なることが多い）。次に、時間領域中間オーディオサンプルの第３のグループおよび第４のグループのオーバーラップを決定するために、オーバーラップ加算において時間領域中間オーディオサンプルの第４のグループのサンプルとオーバーラップする第３のグループの中間時間領域オーディオサンプルの数（３５８４サンプル）が、時間領域中間オーディオサンプルの第１のグループのサンプルの総数（例えば、４０９６サンプル）で除算されて、オーバーラップ加算のオーバーラップが決定される（３５８４／４０９６＝８７．５％）。しかしながら、第２の復号モジュール１２０が、異なる数のサンプルを有する時間領域中間オーディオサンプルのグループを生成するという異常な実施形態では、時間領域中間オーディオサンプルのより大きなグループが考慮され、オーバーラップは、小さい方のグループのサンプルとオーバーラップする大きい方のグループの時間領域中間オーディオサンプルの数（例えば、３０７２サンプル）を、大きい方のグループのサンプルの総数（例えば、４０９６サンプル）で除算した数として定義される（３０７２／４０９６＝７５％）。
オーバーラップ加算は、当業者には周知である。時間領域オーディオサンプルの２つのグループのオーバーラップ加算は特に、当業者には周知である。

３つ以上のグループのオーバーラップ加算を実施する１つの方法は、例えば、３つ以上のグループのうちの２つをオーバーラップ加算して中間オーバーラップ加算結果を得、次に３つ以上のグループの第３のグループを中間オーバーラップ加算結果にオーバーラップ加算し、すべてのグループが（更新された）中間結果とオーバーラップ加算されるまで、同様に処理を続けることであり得る。

別の手法は、最初に３つ以上のグループのすべてを適切にオーバーラップさせ、その後、オーバーラップ内のグループの対応するサンプルを加算して、オーバーラップ加算の結果を得ることである。

一実施形態によれば、オーバーラップ加算器１３０は、例えば、時間領域中間オーディオサンプルの第１のグループを、時間領域中間オーディオサンプルの第２のグループと、正確に５０％のオーバーラップを伴ってオーバーラップ加算するように構成することができる。オーバーラップ加算器１３０は、例えば、少なくとも時間領域中間オーディオサンプルの第３のグループを、時間領域中間オーディオサンプルの第４のグループと、少なくとも７５％で１００％未満のオーバーラップを伴ってオーバーラップ加算するように構成することができる。

一実施形態では、第１の復号モジュール１１０は、例えば、逆修正離散コサイン変換または逆修正離散サイン変換を行うように構成されてもよい。第２の復号モジュール１２０は、逆拡張重複変換または逆修正拡張重複変換を実行するように構成される。

一実施形態によれば、オーバーラップ加算器１３０は、例えば、少なくとも時間領域中間オーディオサンプルの第３のグループを、時間領域中間オーディオサンプルの第４のグループと、正確に７５％のオーバーラップを伴ってオーバーラップ加算するように構成することができる。

一実施形態では、時間領域中間オーディオサンプルの第１のグループのうちの時間領域中間オーディオサンプルの第１の数は、例えば、時間領域中間オーディオサンプルの第２のグループのうちの時間領域中間オーディオサンプルの第２の数と等しくてもよい。時間領域中間オーディオサンプルの第３のグループのうちの時間領域中間オーディオサンプルの第３の数は、例えば、時間領域中間オーディオサンプルの第４のグループのうちの時間領域中間オーディオサンプルの第４の数と等しくてもよい。第２の数は、例えば、第３の数を２で除算した数に等しくてもよく、第１の数は、例えば、第４の数を２で除算した数に等しい。

図１ａの復号器の一実施形態によれば、第２の復号モジュール１２０は、例えば、スペクトル領域オーディオサンプルの第５のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第５のグループを生成することによって、スペクトル領域オーディオサンプルの第５のグループを復号し、スペクトル領域オーディオサンプルの第６のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第６のグループを生成することによって、スペクトル領域オーディオサンプルの第６のグループを復号するためように構成することができる。オーバーラップ加算器１３０は、時間領域中間オーディオサンプルの第３のグループまたは第４のグループが時間領域中間オーディオサンプルの第５のグループの少なくとも７５％で１００％未満とオーバーラップするように、かつ、時間領域中間オーディオサンプルの第５のグループが、時間領域中間オーディオサンプルの第６のグループの少なくとも７５％で１００％未満とオーバーラップするように、時間領域中間オーディオサンプルの第３のグループおよび時間領域中間オーディオサンプルの第４のグループおよび時間領域中間オーディオサンプルの第５のグループおよび時間領域中間オーディオサンプルの第６のグループをオーバーラップ加算することによって、第２の複数の時間領域オーディオ出力サンプルを取得するように構成される。

図２ｂおよび図３ｂの時間領域オーディオサンプルのグループ４１０，４１１，４２０，４２１，４３０，４３１，４４０，４４１，４５０，４５１，４６０および４６１に関して上述した説明を参照する。この説明は、時間領域中間オーディオサンプルのグループにも等しく適用される。

一実施形態において、オーバーラップ加算器１３０は、時間領域中間オーディオサンプルの第２のグループのすべての時間領域中間オーディオサンプルが、時間領域中間オーディオサンプルの第３のグループの時間領域中間オーディオサンプルとオーバーラップするように、少なくとも時間領域中間オーディオサンプルの第２のグループと、時間領域中間オーディオサンプルの第３のグループとをオーバーラップ加算するように構成されている。または、オーバーラップ加算器１３０は、時間領域中間オーディオサンプルの第１のグループのすべての時間領域中間オーディオサンプルが、時間領域中間オーディオサンプルの第４のグループとオーバーラップするように、少なくとも時間領域中間オーディオサンプルの第４のグループと、時間領域中間オーディオサンプルの第１のグループとをオーバーラップ加算するように構成されている。

図１ｃは、一実施形態によるシステムを示す。本システムは、上述の実施形態のうちの１つによる符号化器３１０と、上述の実施形態のうちの１つによる復号器３２０とを備える。符号化器３１０は、複数のスペクトル領域オーディオサンプルを生成することによって、オーディオ信号の複数の時間領域オーディオサンプルを符号化するように構成される。さらに、復号器３２０は、符号化器から複数のスペクトル領域オーディオサンプルを受信するように構成される。さらに、復号器は、複数のスペクトル領域オーディオサンプルを復号するように構成される。

図１ｂの符号化器の実施形態に関して、時間領域エイリアシングを低減または回避するために、第２の符号化モジュール２２０は、以下に応じてスペクトル領域オーディオサンプルの第３のグループおよび第４のグループのうちの少なくとも１つを生成するように構成されており、
ｃｓ（ａ（ｎ＋ｂ）（ｋ＋ｃ））
ここで、ｃｓ（）はｃｏｓ（）またはｓｉｎ（）であり、
ｎは、時間領域オーディオサンプルの第３のグループまたは第４のグループの時間領域オーディオサンプルのうちの１つの時間インデックスを示し、
ｋは、スペクトル領域オーディオサンプルの第１のグループもしくは第２のグループまたは第３のグループもしくは第４のグループのスペクトル領域オーディオサンプルのうちの１つのスペクトルインデックスを示し、−０．１≦ｃ≦０．１または０．４≦ｃ≦０．６または０．９≦ｃ≦１．１であり、
ａ＝ｑ／Ｍであり、
０．９・π≦ｑ≦１．１・πである。

Ｍは、スペクトル領域オーディオサンプルの第１のグループまたは第２のグループまたは第３のグループまたは第４のグループのスペクトル領域オーディオサンプルの数を示し、
ｂ＝（ｓ・Ｍ＋１）／２であり、
１．５≦ｓ≦４．５である。

一実施形態では、第１の符号化モジュール２１０は、以下に応じて、スペクトル領域オーディオサンプルの第１のグループおよび第２のグループのうちの少なくとも１つを生成するように構成されており、
ｃｓ_１（ａ（ｎ_１＋ｂ_１）（ｋ＋ｃ_１））
ここで、ｃｓ_１（）はｃｏｓ（）またはｓｉｎ（）であり、
ｎ_１は、時間領域オーディオサンプルの第１のグループまたは第２のグループの時間領域オーディオサンプルのうちの１つの時間インデックスを示し、−０．１≦ｃ_１≦０．１または０．４≦ｃ_１≦０．６または０．９≦ｃ_１≦１．１であり、
ｂ_１＝（Ｍ＋１）／２である。

一実施形態によれば、ｃ＝０、またはｃ＝０．５、またはｃ＝１であり、ｑ＝π、ｓ＝３である。

ｓ＝３に設定することによって、時間領域エイリアシングの最適な低減を達成することができ、一方で、１．５≦ｓ≦４．５（ｓ≠３）に設定することによって、ある程度の時間領域エイリアシングの低減が達成されるが、一般的にはｓ＝３ほどには低減しない。

特定の実施形態は特に良好に機能する。表１および表２を参照されたい。

表１：
ss.MLT -> tr.MLT -> tr.MELT -> ss.MELT -> ...
_______________________________________________
MDCT-IV MDCT-IV MECT-IV MECT-IV OK
MDCT-IV MDCT-IV MEST-II MECT-II OK
MDCT-IV MDST-II MEST-IV MEST-IV OK
MDCT-IV MDST-II MECT-II MEST-II OK

MDCT-II MDCT-IV MECT-IV MECT-IV OK
MDCT-II MDCT-IV MEST-II MECT-II OK
MDCT-II MDST-II MEST-IV MEST-IV OK
MDCT-II MDST-II MECT-II MEST-II OK

MDST-IV MDST-IV MEST-IV MEST-IV OK
MDST-IV MDST-IV MECT-II MEST-II OK
MDST-IV MDCT-II MECT-IV MECT-IV OK
MDST-IV MDCT-II MEST-II MECT-II OK

表１は、ＭＬＴからＥＬＴへの切り替えを示す。各行には、４つの後続の窓／時間領域オーディオサンプルの対応するグループの機能が示されている。最初の２つの列は最後の２つのＭＬＴ窓（最後から２つ目のＭＬＴ窓および最後のＭＬＴ窓）に関連し、列３および４はそれぞれ第１のＥＬＴ窓および第２のＥＬＴ窓に関連する。各行は、後続の窓のための関数の特に良好な組み合わせを表す。ＭＤＣＴ−ＩＩ、ＭＤＳＴ−ＩＩ、ＭＤＣＴ−ＩＶおよびＭＤＳＴ−ＩＶならびにＭＥＣＴ−ＩＩ、ＭＥＳＴ−ＩＩ、ＭＥＣＴ−ＩＶおよびＭＥＳＴ−ＩＶの式および対応する逆式は、式（２ａ）〜（２ｊ）および（４ａ）〜（４ｈ）に関連して提示されている。示された組み合わせは、逆関数を用いた逆変換についても等しく良好に機能する。

したがって、例えば、一実施形態では、ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝０．５であり、ｃ_１＝０．５である。

別の実施形態では、ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝１であり、ｃ_１＝０である。

別の実施形態では、ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０．５であり、ｃ_１＝１である。

別の実施形態では、ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０であり、ｃ_１＝１である。

別の実施形態では、ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０．５であり、ｃ_１＝０．５である。

別の実施形態では、ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０であり、ｃ_１＝０．５である。

別の実施形態では、ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝０．５であり、ｃ_１＝０である。

表２：
ss.MELT -> tr.MELT -> tr.MLT -> ss.MLT -> ...
__________________________________________________
MECT-IV MECT-IV MDCT-IV MDCT-IV
MECT-IV MECT-IV MDCT-IV MDST-II
MECT-IV MECT-IV MDST-II MDST-IV
MECT-IV MECT-IV MDST-II MDCT-II

MECT-II MEST-II MDST-IV MDST-IV
MECT-II MEST-II MDST-IV MDCT-II
MECT-II MEST-II MDCT-II MDCT-IV
MECT-II MEST-II MDCT-II MDST-II

MEST-IV MEST-IV MDST-IV MDST-IV
MEST-IV MEST-IV MDST-IV MDCT-II
MEST-IV MEST-IV MDCT-II MDCT-IV
MEST-IV MEST-IV MDCT-II MDST-II

表２は、ＥＬＴからＭＬＴへの切り替えを示す。各行には、４つの後続の窓（時間領域オーディオサンプルの対応するグループ）の機能が示されている。最初の２つの列は最後の２つのＥＬＴ窓（最後から２つ目のＥＬＴ窓および最後のＥＬＴ窓）に関連し、列３および４はそれぞれ第１のＭＬＴ窓および第２のＭＬＴ窓に関連する。各行は、後続の窓のための関数の特に良好な組み合わせを表す。ＭＤＣＴ−ＩＩ、ＭＤＳＴ−ＩＩ、ＭＤＣＴ−ＩＶおよびＭＤＳＴ−ＩＶならびにＭＥＣＴ−ＩＩ、ＭＥＳＴ−ＩＩ、ＭＥＣＴ−ＩＶおよびＭＥＳＴ−ＩＶの式および対応する逆式は、式（２ａ）〜（２ｊ）および（４ａ）〜（４ｈ）に関連して提示されている。示された組み合わせは、逆関数を用いた逆変換についても等しく良好に機能する。

一実施形態では、第２の符号化モジュール２２０は、以下に応じて、スペクトル領域オーディオサンプルの第３のグループおよび第４のグループのうちの少なくとも１つを生成するように構成されており、

、または

ここで、

は、スペクトル領域オーディオサンプルの第３のグループまたは第４のグループのスペクトル領域オーディオサンプルの１つを示し、

は時間領域値を示す。

一実施形態によれば、第２の符号化モジュール２２０は、

にしたがって、時間領域オーディオサンプルの第３のグループまたは第４のグループの時間領域オーディオサンプルｓ_ｉ（ｎ）に、重みｗ（ｎ）を適用して、時間領域値

を生成するように構成されている。

一実施形態において、時間領域オーディオサンプルの第２のグループのすべての時間領域オーディオサンプルは、時間領域オーディオサンプルの第３のグループの時間領域オーディオサンプルとオーバーラップし、または、時間領域オーディオサンプルの第１のグループのすべての時間領域オーディオサンプルは、時間領域オーディオの第４のグループとオーバーラップする。

同様に、図１ａの復号器に関して、一実施形態において、第２の復号モジュール１２０は、以下に応じて時間領域中間オーディオサンプルの第３のグループおよび時間領域中間オーディオサンプルの第４のグループのうちの少なくとも１つを生成するように構成されており、
ｃｓ（ａ（ｎ＋ｂ）（ｋ＋ｃ））
ここで、ｃｓ（）はｃｏｓ（）またはｓｉｎ（）であり、
ｎは、時間領域オーディオサンプルの第３のグループまたは第４のグループの時間領域オーディオサンプルのうちの１つの時間インデックスを示し、
ｋは、スペクトル領域オーディオサンプルの第３のグループまたは第４のグループのスペクトル領域オーディオサンプルのうちの１つのスペクトルインデックスを示し、
−０．１≦ｃ≦０．１または０．４≦ｃ≦０．６または０．９≦ｃ≦１．１であり、
ａ＝ｑ／Ｍであり、
０．９・π≦ｑ≦１．１・πであり、
Ｍはスペクトル領域オーディオサンプルの第３のグループまたは第４のグループのスペクトル領域オーディオサンプルの数を示し、
ｂ＝（ｓ・Ｍ＋１）／２であり、
１．５≦ｓ≦４．５である。

一実施形態において、第１の復号モジュール１１０は、以下に応じて時間領域中間オーディオサンプルの第１のグループおよび時間領域中間オーディオサンプルの第２のグループのうちの少なくとも１つを生成するように構成されており、
ｃｓ_１（ａ（ｎ_１＋ｂ_１）（ｋ_１＋ｃ_１））
ここで、ｃｓ（）はｃｏｓ（）またはｓｉｎ（）であり、
ｎは、時間領域オーディオサンプルの第３のグループまたは第４のグループの時間領域オーディオサンプルの時間領域中間オーディオサンプルのうちの１つの時間インデックスを示し、
ｋは、スペクトル領域オーディオサンプルの第１のグループもしくは第２のグループまたは第３のグループもしくは第４のグループのスペクトル領域オーディオサンプルのうちの１つのスペクトルインデックスを示し、
−０．１≦ｃ≦０．１または０．４≦ｃ≦０．６または０．９≦ｃ≦１．１であり、
ａ＝ｑ／Ｍであり、
０．９・π≦ｑ≦１．１・πであり、
Ｍはスペクトル領域オーディオサンプルの第１のグループもしくは第２のグループまたは第３のグループもしくは第４のグループのスペクトル領域オーディオサンプルの数を示し、
ｂ＝（ｓ・Ｍ＋１）／２であり、
１．５≦ｓ≦４．５である。

一実施形態では、第１の復号モジュール１１０は、以下に応じて、時間領域中間オーディオサンプルの第１のグループおよび時間領域中間オーディオサンプルの第２のグループのうちの少なくとも１つを生成するように構成されており、
ｃｓ_１（ａ（ｎ_１＋ｂ_１）（ｋ＋ｃ_１））
ここで、ｃｓ_１（）はｃｏｓ（）またはｓｉｎ（）であり、
ｎ_１は、時間領域中間オーディオサンプルの第１のグループまたは第２のグループの時間領域中間オーディオサンプルのうちの１つの時間インデックスを示し、−０．１≦ｃ_１≦０．１または０．４≦ｃ_１≦０．６または０．９≦ｃ_１≦１．１であり、
ｂ_１＝（Ｍ＋１）／２である。

一実施形態によれば、ｃ＝０、またはｃ＝０．５、またはｃ＝１、ｑ＝πであり、ｓ＝３である。

一実施形態では、第２の復号モジュール１２０は、以下に応じて、時間領域中間オーディオサンプルの第３のグループおよび時間領域中間オーディオサンプルの第４のグループのうちの少なくとも１つを生成するように構成されており、

、または

、または

、または

ここで、

は時間領域値を示す。

一実施形態によれば、第２の復号モジュール１２０は、

にしたがって、時間領域値

に、重みｗ（ｎ）を適用して、時間領域中間オーディオサンプルの第３のグループまたは第４のグループの時間領域中間オーディオサンプル

を生成するように構成されている。

図１ｂの符号化器に関して、一実施形態によれば、ｗ_ｅｌｔは第１の窓関数であり、ここで、ｗ_ｔｒは第２の窓関数であり、第２の窓関数ｗ_ｔｒの一部は以下に従って定義され、

Ｍは、スペクトル領域オーディオサンプルの第１のグループもしくは第２のグループまたは第３のグループもしくは第４のグループのスペクトル領域オーディオサンプルの数を示し、
ｋは０≦ｋ＜Ｍの数であり、
ｄは実数であり、
ｔ＝（Ｌ／２）＋ｋまたはｔ＝（Ｌ／２）−１−ｋである。

Ｌは、時間領域オーディオサンプルの第３のグループまたは第４のグループのサンプル数を示す。

時間領域オーディオサンプルの第３のグループは、時間領域オーディオサンプルの第２のグループのオーディオサンプルを含み、第２の符号化モジュール２２０は、時間領域オーディオサンプルの第４のグループに第１の窓関数Ｗ_ｅｌｔを適用するように構成され、第２の符号化モジュール２２０は、時間領域オーディオサンプルの第３のグループに第２の窓関数Ｗ_ｔｒを適用するように構成される。または、時間領域オーディオサンプルの第４のグループは、時間領域オーディオサンプルの第１のグループのオーディオサンプルを含み、第２の符号化モジュール２２０は、時間領域オーディオサンプルの第３のグループに第１の窓関数Ｗ_ｅｌｔを適用するように構成され、第２の符号化モジュール２２０は、時間領域オーディオサンプルの第４のグループに第２の窓関数Ｗ_ｔｒを適用するように構成される。

一実施形態によれば、ｗ_ｔｒ１は第３の窓関数であり、第３の窓関数の一部は以下に従って定義され、

ここで、ｔ_１＝（Ｎ／２）＋ｋまたはｔ_１＝（Ｎ／２）−１−ｋであり、
Ｎは、時間領域オーディオサンプルの第１のグループまたは第２のグループの時間領域オーディオサンプルの数を示す。

時間領域オーディオサンプルの第３のグループは、時間領域オーディオサンプルの第２のグループのオーディオサンプルを含み、第２の符号化モジュール（２２０）は、時間領域オーディオサンプルの第２のグループに第３の窓関数Ｗ_ｔｒ１を適用するように構成される。または、時間領域オーディオサンプルの第４のグループは、時間領域オーディオサンプルの第１のグループのオーディオサンプルを含み、第２の符号化モジュール（２２０）は、時間領域オーディオサンプルの第１のグループに第３の窓関数Ｗ_ｔｒ１を適用するように構成される。

一実施形態では、第１の窓関数Ｗ_ｅｌｔは以下に従って定義され、

ここで、

であり、
ｂ_０、ｂ_１、およびｂ_２は実数である。

０≦ｔ＜Ｌであり、Ｋは正の整数であり、ｃ_ｋは実数を示す。

一実施形態によれば、Ｋ＝３であり、
０．３≦ｂ０≦０．４、−０．６≦ｂ１≦−０．４、０．０１≦ｂ２≦０．２であり、
０．００１≦ｃ１≦０．０３であり、０．０００００１≦ｃ２≦０．０００５であり、０．０００００１≦ｃ３≦０．００００２である。

一実施形態によれば、０．８≦ｄ≦１．２５である。

特定の実施形態では、ｄ＝４０９６／４０６１である。

代替的な実施形態によれば、ｄ＝１である。

同様に、図１ａの復号器に関して、一実施形態によれば、ｗ_ｅｌｔは第１の窓関数であり、ここで、ｗ_ｔｒは第２の窓関数であり、第２の窓関数の一部は以下に従って定義され、

Ｌは、時間領域中間オーディオサンプルの第３のグループまたは第４のグループのサンプル数を示す。

オーバーラップ加算器１３０は、少なくとも時間領域中間オーディオサンプルの第２のグループと、時間領域中間オーディオサンプルの第３のグループとをオーバーラップ加算するように構成され、第２の復号モジュール１２０は、第１の窓関数Ｗｅｌｔに応じて時間領域中間オーディオサンプルの第４のグループを生成するように構成され、第２の復号モジュール１２０は、第２の窓関数Ｗ_ｔｒに応じて時間領域中間オーディオサンプルの第３のグループを生成するように構成されている。または、オーバーラップ加算器１３０は、少なくとも時間領域中間オーディオサンプルの第４のグループと、時間領域中間オーディオサンプルの第１のグループとをオーバーラップ加算するように構成され、第２の復号モジュール１２０は、第１の窓関数Ｗ_ｅｌｔに応じて時間領域中間オーディオサンプルの第３のグループを生成するように構成され、第２の復号モジュール１２０は、第２の窓関数Ｗ_ｔｒに応じて時間領域中間オーディオサンプルの第４のグループを生成するように構成されている。

一実施形態によれば、ｗ_ｔｒ１は第３の窓関数であり、第３の窓関数の一部は以下に従って定義され、
ここで、

ここで、ｔ_１＝（Ｎ／２）＋ｋまたはｔ_１＝（Ｎ／２）−１−ｋであり、
Ｎは、時間領域中間オーディオサンプルの第１のグループまたは第２のグループの時間領域中間オーディオサンプルの数を示す。

オーバーラップ加算器（１３０）は、少なくとも時間領域中間オーディオサンプルの第２のグループと、時間領域中間オーディオサンプルの第３のグループとをオーバーラップ加算するように構成され、第１の復号モジュール（１１０）は、第３の窓関数Ｗ_ｔｒ１に応じて時間領域中間オーディオサンプルの第２のグループを生成するように構成されている。オーバーラップ加算器（１３０）は、少なくとも時間領域中間オーディオサンプルの第４のグループと、時間領域中間オーディオサンプルの第１のグループとをオーバーラップ加算するように構成され、第１の復号モジュール（１１０）は、第３の窓関数Ｗ_ｔｒ１に応じて時間領域中間オーディオサンプルの第１のグループを生成するように構成されている。

ここで、

であり、
ｂ_０、ｂ_１、およびｂ_２は実数であり、０≦ｔ＜Ｌであり、Ｋは正の整数であり、ｃ_ｋは実数を示す。

一実施形態では、０．８≦ｄ≦１．２５である。

一実施形態によれば、ｄ＝４０６１／４０９６である。

代替的な実施形態によれば、ｄ＝１である。

図１ｃのシステムに関して、一実施形態によれば、システムの復号器３２０は、遷移窓関数

（（４０６１／４０９７）≦ｄ≦（４０６１／４０９５））を使用し、システムの符号化器３１０は、遷移窓関数

（（４０９５／４０６１）≦ｄ≦（４０９７／４０６１））を使用する。

特定の実施形態によれば、システムの復号器３２０は、遷移窓関数

（ｄ＝４０６１／４０９６）を使用し、システムの符号化器３１０は、遷移窓関数

（ｄ＝４０９６／４０６１）を使用する。

一実施形態によれば、図１ａの復号器は、複数のスペクトル領域オーディオサンプルの一部が第１の復号モジュール１１０によって復号されるか、または、第２の復号モジュール１２０によって復号されるかを示す復号情報を受信するように構成される。復号器は、時間領域中間オーディオサンプルの第１のグループまたは第２のグループまたは第３のグループまたは第４のグループを得るために、復号情報に応じて第１の復号モジュール１１０または第２の復号モジュール１２０のいずれかを利用することによって、複数のスペクトル領域オーディオサンプルの上記部分を復号するように構成される。

一実施形態では、復号器は、第１のビットおよび第２のビットを受信するように構成され、第１のビットおよび第２のビットはともに第１のビット値組み合わせ、または、第１のビット値組み合わせとは異なる第２のビット値組み合わせ、第１のビット値組み合わせおよび第２のビット値組み合わせとは異なる第３のビット値組み合わせ、または第１のビット値組み合わせおよび第２のビット値組み合わせおよび第３のビット値組み合わせとは異なる第４のビット値組み合わせを有する。さらに、復号器は、第１のビットおよび第２のビットがともに第１のビット値組み合わせを有する場合に、時間領域中間オーディオサンプルのうちの第１のグループまたは第２のグループを得るために、第１の復号モジュール１１０を利用することによって、カイザー−ベッセル関数に応じて複数のスペクトル領域オーディオサンプルの一部を復号するように構成されている。さらに、復号器は、第１のビットおよび第２のビットがともに第２のビット値組み合わせを有する場合に、時間領域中間オーディオサンプルのうちの第１のグループまたは第２のグループを得るために、第１の復号モジュール１１０を利用することによって、サイン関数またはコサイン関数に応じて複数のスペクトル領域オーディオサンプルの一部を復号するように構成されている。復号器は、第１のビットおよび第２のビットがともに第３のビット値組み合わせを有する場合に、時間領域中間オーディオサンプルのうちの第１のグループまたは第２のグループを得るために、第１の復号モジュール１１０を利用することによって、複数のスペクトル領域オーディオサンプルの一部を復号するように構成されている。さらに、復号器は、第１のビットおよび第２のビットがともに第４のビット値組み合わせを有する場合に、時間領域中間オーディオサンプルのうちの第３のグループまたは第４のグループを得るために、第２の復号モジュール１２０を利用することによって、複数のスペクトル領域オーディオサンプルの上記一部を復号するように構成されている。

ここで、特定実施形態をより詳細に説明する。

実施形態は、以下に説明される修正拡張重複変換を提供する。

一時的３パートＯＬＡ領域においても完全なＴＤＡ除去（ＴＤＡＣ）を達成することによって図５（ａ）の完全な再構成問題を修正するには、例えば、図５（ｂ）、図５（ｃ）のように、ＴＤＡ対称性が他方のものを補完するように１つの変換クラスを再定義すべきである。

特に、図５は、遷移変換を伴うＭＬＴからＥＬＴへの切り替えを示し、図５（ａ）は不正確な非完全再構成を示し、図５（ｂ）は所望の完全再構成を示し、図５（ｃ）はＭＬＴを示している所望のＥＬＴを介したＭＬＴを示す。

さらに、同様に、図６は、実施形態による遷移変換を伴うＥＬＴからＭＬＴへの切り替えを示す図である。

既存のＭＤＣＴおよびＭＤＳＴ実装の変更を避けることが望ましいため、ＥＬＴに重点が置かれる。さらに、すべての変換に対して完全な再構成遷移および定常状態窓を容易に得るためには、対応する分析式が望ましい。

最初に、実施形態によるオーバーラップ率の適合のための修正が説明される。

ＥＬＴにＭＬＴとの所望のＴＤＡ適合性を与えるために、時間的位相シフトがその基本関数において変更される。

ｋ、ｃｓは、

を使用して式（２）および逆ＥＬＴ（１）のように定義され、それに応じて適応される。（上記のようにｃｓ（）はｃｏｓ（）またはｓｉｎ（）であってもよい）。

上記で説明したように、Ｎ＝Ｌ（例えば、分析式（２ｃ）、（２ｅ）、（２ｇ）および（２ｉ）に対して）に設定し、０≦ｎ＜Ｌ（例えば、合成式（２ｄ）、（２ｆ）、（２ｈ）および（２ｊ）に対して）に設定することによって式（２ｃ）〜（２ｊ）を修正することによって、ＥＬＴ式および逆ＥＬＴ式が得られる。

これらのＥＬＴ式および逆ＥＬＴ式に式（４）の概念を適用すると、本発明の新規の修正拡張重複変換（ＭＥＬＴ）の実施形態を表す式（４ａ）〜（４ｈ）が得られる。式（４ａ）〜（４ｈ）の特定の実施形態は、７５％のオーバーラップ率を有する重複変換を実現する。

ここではＭＥＣＴ−ＩＶと呼ばれる順方向コサイン変調ＭＥＬＴ、タイプ４：

ここではＩＭＥＣＴ−ＩＶと呼ばれる逆コサイン変調ＭＥＬＴ、タイプ４（ｎ＜Ｌ）：

ここではＭＥＣＴ−ＩＩと呼ばれる順方向コサイン変調ＭＥＬＴ、タイプ２：

ここではＩＭＥＣＴ−ＩＩと呼ばれる逆コサイン変調ＭＥＬＴ、タイプ２（ｎ＜Ｌ）：

ここではＭＥＳＴ−ＩＶと呼ばれる順方向サイン変調ＭＥＬＴ、タイプ４：

ここではＩＭＥＳＴ−ＩＶと呼ばれる逆サイン変調ＭＥＬＴ、タイプ４（ｎ＜Ｌ）：

ここではＭＥＳＴ−ＩＩと呼ばれる順方向サイン変調ＭＥＬＴ、タイプ２：

ここではＩＭＥＳＴ−ＩＩと呼ばれる逆サイン変調ＭＥＬＴ、タイプ２：

いくつかの実施形態は、以下に説明するＭＬＴからＥＬＴへ、および、ＥＬＴからＭＬＴへの遷移のための特定の適切な窓設計を提供する。

図５が示すように、一時的ＭＬＴおよびＥＬＴ窓の４つの四半部には、それぞれの定常状態の重み付けに基づいており、第１の四半部および／または第４の四半部はゼロに設定され、重要な四半部は以下によって記述される。

図５のような切り替えについてｔ＝（Ｌ／２）＋ｋであり、または、逆ＥＬＴ−ＭＬＴ変換についてはｔ＝（Ｌ／２）−１−ｋである。ＥＬＴおよびＭＬＴ遷移重み付けの両方について、式（５）を使用して重要な四半部５１１，５１２，５２１，５２２（図５に示す）および重要な四半部６３１，６３２（図６に示す）を取得することによって、定常状態関数の選択のみを残して、一時的な窓の定義が完了する。

式（５）の拡張重複変換のための遷移窓の完全な定義は、例えば、５０％〜７５％のオーバーラップ率の遷移についての式（５ａ）における（Ｍ）ＥＬＴ窓として定義される。

７５％〜５０％のオーバーラップ率の遷移のための（Ｍ）ＥＬＴ窓について、定義は式（５ａ）の定義であるが、ｗ_ｔｒは時間的に逆である。

式（５ａ）において、ｄは、例えば、定数、例えば実数であってもよい。

式（５）および（５ａ）において、Ｗ_ｅｌｔ（ｎ）は、例えば、拡張重複変換の窓、例えば、現行の技術水準の拡張重複変換窓を示してもよい（文献［１１］：Ｓ．Ｍａｌｖａｒ「ＭｏｄｕｌａｔｅｄＱＭＦＦｉｌｔｅｒＢａｎｋｓｗｉｔｈＰｅｒｆｅｃｔＲｅｃｏｎｓｔｒｕｃｔｉｏｎ」（ＥｌｅｃｔｒｏｎｉｃｓＬｅｔｔｅｒｓ，ｖｏｌ．２６，ｎｏ．１３，ｐｐ．９０６−９０７，Ｊｕｎｅ１９９０）の式（１６）〜（１９）によって定義される窓のファミリを参照されたい）。

または、式（５）および（５ａ）において、Ｗ_ｅｌｔ（ｎ）は、例えば以下の式（８）で定義されるような、本発明の新規の拡張重複変換窓であってもよい。

式（５）および（５ａ）において、Ｌは、例えば、ＥＬＴ窓のサイズを示す数である。Ｎは、ＭＬＴ窓のサイズを示す数である。Ｍは、例えば、Ｍ＝Ｎ／２である数である。

式（５ａ）において、ｎは、例えば範囲０≦ｎ＜Ｌ内の数である。ｋは数である。

式（５）および（５ａ）において、ｋは範囲０≦ｋ＜Ｍ内で定義される。

以下では、実施形態による定常状態完全再構成重複変換窓を、図７を参照して説明する。

図７は、実施形態による、図７（ａ）ではＭＬＴ、図７（ｂ）ではＥＬＴ、図７（ｃ）では遷移の場合の完全な再構成窓設計を示す。

完全再構成のためのいわゆるＰｒｉｎｃｅｎ−Ｂｒａｄｌｅｙ条件を強制するいくつかの電力相補性（ＰＣ）ＭＬＴ窓が文書化されている（［２］参照）。図７（ａ）は、ＭＰＥＧオーディオコーデック（［５］、［７］参照）、ＭＬＴサイン（［３］、［１１］参照）およびカイザー−ベッセル導出（ＫＢＤ）窓（［２３］を参照）に使用される窓の形状および対応するオーバーサンプリング伝達関数を示す。また、［２４］には電力相補関数も示されており、その形状はＫＢＤ窓の形状に類似しているが、注目され得るように、より低い第１の（近接場）サイドローブレベルを示す。最後に、デュアルレートＳＢＲの場合に採用されるように、フレーム長が２倍になるサイン窓が参照として機能し、より長い窓が通過帯域幅と阻止帯域レベルの両方を著しく低減できることが示されている。

理想的には、式（３）の完全再構成制約を受けるＥＬＴ窓は、２倍長サイン窓の周波数応答に匹敵する周波数応答を示すはずであるが、完全再構成制約に起因して、メインローブ幅は、サイドローブの減衰を少なくすることによってのみ最小化することができる。例えば、図７（ｂ）に示すように、ｐ＝１でのＭａｌｖａｒの窓［１１］は、すべてのＥＬＴ設計のメインローブ幅が可能な限り小さいが、阻止帯域レベルが不必要に高いことが分かった。その時間的境界は明らかに不連続であり（窓範囲を超えるサンプルはゼロに等しいと仮定されるため）、本発明の実験ではサイドローブ減衰はわずか−６ｄＢ／オクターブ（［２４］参照）になり、フレーミングアーチファクトが生じている。ＴｅｍｅｒｉｎａｃおよびＥｄｌｅｒ（［１６］参照）は、彼らが図７にも示すＥＬＴ窓を得るために使用した再帰的設計手法を提示している（その表１の列「Ｌ＝４Ｎ」に値−０．０３８４１１がないことに注意する必要がある）。ｐ＝０．１４でのＭａｌｖａｒの式で密接に近似することができるこの窓は、より多くの、しかしなお非常に弱い阻止帯域減衰を提供する。

ｐ＝１の場合、Ｍａｌｖａｒの定式化をＨａｎｎ窓の定式化と同様の表記に変更することができる。

０≦ｔＬＬは、窓の時間的サンプルを示し、

は、完全再構成制約を強制するように選択されている（［１１］、［１２］、［１３］、［１４］参照）。直感的に、Ｂｌａｃｋｍａｎの窓（［２４］参照）を導出するために使用することができる以下のようなより多くのサイドローブ減衰を有する関数が、同様に適用可能と思われる。

ここで、ｂ_２＞０、残念なことに、ｂ_０の値にかかわらず、このような窓クラスで完全な再構成を達成することはできないことが示され得る。

しかしながら、実施形態によれば、より多くの項が追加される。

実施形態によれば、Ｗ_ｅｌｔ（ｔ）が提供される。

ｂ_ｋは上記の通りであり、ｂ_２≦３／８の任意の選択についての得られる形状は、完全な再構成が任意に接近するように修正することができる。特に、阻止帯域レベルを低くすること、および、完全再構成条件に加えて、アイソトーン左半部窓傾斜、および、したがってアンチトーン右半部窓傾斜の制限を目標とすると、Ｋ＝３、ｂ２＝０．１７６７５８、ならびに、これらの値に依存するｂ０＝０．３３０３および、
ｃ１＝０．０２３６６３、ｃ２＝０．０００４２４３、ｃ３＝０．００００１５２６（９）
を使用することによって、４・１０^−６を下回る誤差で完全な再構成を近似することができる。

図７（ｂ）に示すこのＥＬＴ窓関数は、［１１］および［１６］の提案よりもその境界で不連続性が少なく、その結果、図７（ａ）の２倍長サイン窓と同じレベルのサイドローブ除去が可能になる。同時に、そのメインローブはＭＬＴサイン窓のメインローブよりも狭いままである。興味深いことに、これは、形状が後者の窓にも類似する。

図７（ｃ）は、［２４］の電力相補設計、ならびに、式（８）および式（９）を用いたＷ_ｅｌｔに基づくＭＤＣＴ／ＭＤＳＴおよびＥＬＴ遷移窓、および、比較のための、ＡＡＣの２倍長開始窓のスペクトル形状および時間的形状を示している。

実施形態は、一般化された双直交ＥＬＴ遷移窓処理を利用する。

式（５）は、ＭＬＴコーディングからＥＬＴコーディングまたはＥＬＴコーディングからＭＬＴコーディングへのいずれかの遷移の長さ４Ｍの拡張重複変換（ＥＬＴ）窓の重要な四半部をどのように決定することができるかを指定している。

実施形態では、式（５）は、以下のように定数ｄ（一例として式（５ａ）を参照）との乗算によって調整される。

ｋ＝０，１、．．．、Ｍ−１であり、ｔは、ＫとＬの両方を使用して以前に定義した通りである。これにより、率切り替え遷移窓処理に関して、いわゆる双直交手法が可能となり、異なる重要な窓四半部が、分析および合成変換のために使用され得る。より具体的には、ＴＤＡＣを達成し、したがって完全な再構成を達成するために、ｗ_ｔｒ（ｔ）は分析（符号化器）側でｄ＝ｄ’を使用し、合成（復号器）側では、ｗ_ｔｒ（ｔ）は、逆、すなわち、ｄ＝１／ｄ’を適用することができる。特定の定常状態ＥＬＴ窓ｗ_ｅｌｔ、好ましくは本明細書の式（８）および（９）によって導出される窓を所与として、ｄ’は以下の２つの考慮事項の両方に基づいて決定されることが好ましい。

好ましくは、ｄ’を決定するために、すべての率切り替え遷移の間に、分析窓の最適なスペクトル属性と復号時の最大出力減衰の両方を生成するために、式（１０）が選択される。

分析窓処理の最適なスペクトル特性を達成するために、いくつかの実施形態は、特に定常高調波オーディオ信号のスペクトル圧縮を最大にするために、分析窓における可能な最小量のメインローブ幅および可能な最大量のサイドローブ減衰を達成する。定常状態ｗ_ｅｌｔ窓が既にこの目的のために最適化されていると仮定すると、これは４つの窓四半部間の境界での不連続性を回避することによって、ｗ_ｔｒにおいて達成できることが示され得る。より正確には、式（１０）のｗ_ｔｒ（ｔ）の最大値が、ｎ＝０，１、．．．、Ｌ−１でのｗ_ｅｌｔ（ｎ）の最大値に等しくなるようにｄ’を選択することにより、遷移窓形状における飛躍が完全に回避される。

したがって、一実施形態では、ｄ’は、上記２つの最大値の間の比率を反映し、これは、式（８）および（９）の場合には、
ｄ’＝４０９６／４０６１→１／ｄ’＝４０６１／４０９６によって近似することができる。

一実施形態によれば、合成窓処理時の最大出力減衰が達成される。変換ビンの量子化によって導入される、オーディオコーディングにおけるスペクトル領域の歪みを可能な限り抑えるために、ＯＬＡ処理の前に合成窓処理プロセス中の出力波形を可能な限り減衰させることが有用であり得る。しかしながら、完全再構成／ＴＤＡＣ要件に起因して、窓による強い減衰は実現可能ではない。なぜなら、この手法は、相補的な分析窓を効率に関して有害にするからである。良好な窓特性と受け入れ可能な復号器側出力減衰との間の良好なトレードオフは、ここでも、１／ｄ’＝４０６１／４０９６→ｄ’＝４０９６／４０６１を選択することによって得ることができることが示され得る。

言い換えれば、ｗ_ｔｒの両方の最適化手法は、好ましくは同じｄ’の値をもたらす。

例えば、式（２ａ）〜（２ｊ）の現行の技術水準の変換または式（４ａ）〜（４ｈ）の本発明の新規の変換などの変換の例は、既に与えられている。

一実施形態による式（１０）の遷移窓の一例は、例えば上で式（５ａ）によって与えられている。

図１０は、上述の実施形態による対応する分析窓を示す。

同様に、図１１は、上述の実施形態による対応する合成窓を示す。

以下では、入力適応的オーバーラップ率選択について説明する。

例えば、上記で与えられた窓を使用して上記で与えられた切り替えコーディング手法は、変換コーデックに統合することができる。これはとりわけ、調性入力に対する予想される主観的利点を検証する。簡潔にするために、高レベルの態様のみを記述する。

復号器の仕様および合成変換が考慮される。

ＥＬＴの適用をシグナリングする余分なビットが、長い変換（ブロック切り替えなし）が符号化器によって利用されたチャネルおよび／またはフレームごとに受信される。ＭＰＥＧコーディングの場合、この目的のために窓形状ビットを再使用することができる（例えば、「０」は、引用文献［２３］または引用文献［２４］の窓を使用するＭＬＴが利用されることを意味し、例えば「１」は、実施形態のＥＬＴ概念が利用されることを意味する）。

復号器は、現在のフレームと最後のフレームの両方のこのビットおよび窓シーケンス（変換長さおよびタイプ）に基づいて、上述のように正確なオーバーラップ率および窓を使用して逆重複変換を推定し適用することができる。

例えば、余分のビットは、符号化器がＭＬＴとＥＬＴとの間で切り替えることができるか否かを示すことができる。余分なビットが、符号化器がＭＬＴとＥＬＴとの間で切り替えることができることを示す場合、例えば現在のフレームに対してＭＬＴが使用されているかまたはＥＬＴが使用されているかを示すために窓形状ビットが再使用される。

ここで、ＥＬＴ検出器および符号化器の分析変換が考慮される。

符号化器および復号器が同期されるようにチャネル／フレームごとのＭＬＴ／ＥＬＴ選択を適用して送信する符号化器は、音声コーダで行われる（［２５］を参照）ように、入力の線形予測符号化（例えば１６次のＬＰＣ）残差を計算することによって静止ハーモニックフレームを検出することができる。

符号化器は、例えば、次のフレームと現在のフレームとの間の残差エネルギーとの比として時間的な平坦性ｆ_ｔをそこから導出し、定常性はｆ_ｔ＜１５／２として指定される。さらに、符号化器は、例えば、ｆ_ｓ＜１／８によって示される高い階調性を有する、現在および次のフレームの連結された残差のＤＦＴパワースペクトルから得られる、ウィナーエントロピーとしても知られているスペクトル平坦性ｆ_ｓをそこから導出する。

以下では、いくつかの実施形態による修正拡張重複変換（ＭＥＬＴ）のさらなる態様が提供される。

特に、切り替え可能なＭＥＬＴをＭＰＥＧ−Ｈ３Ｄオーディオコアコーディングシステムに統合する好ましい実施形態の実施態様の詳細な説明が提供される。

最初に、いくつかの実施形態による復号器、その仕様および合成変換について説明する。

例えば、ｕｓｅ＿ｍｅｌｔ＿ｅｘｔｅｎｓｉｏｎと呼ばれるグローバルな１ビット構文要素が、単一チャネル要素（ＳＣＥ）、チャネル対要素（ＣＰＥ）、および、任意選択的に、低周波強調要素（ＬＦＥ）の構文仕様のストリーム構成に導入される。これは、標準テキストのｍｐｅｇｈ３ＤＡＣｏｒｅＣｏｎｆｉｇ（）テーブルにｕｓｅ＿ｍｅｌｔ＿ｅｘｔｅｎｓｉｏｎを配置することで実現できる。所与のビットストリームがｕｓｅ＿ｍｅｌｔ＿ｅｘｔｅｎｓｉｏｎ＝０を特徴とするとき、コア復号器は従来技術で規定された従来のＭＰＥＧ−Ｈ方式で動作する。これは、５０％の変換オーバーラップ率を有するＭＤＣＴ（または、フレーム／チャネル内でカーネル切り替えが起動される場合はＭＤＳＴ、［２８］、特に、［２８］のセクション４の終わり、離散マルチチャネルコーディングツール参照）のみが許容されること、ならびに、ｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅ（ｏｎｌｙｌｏｎｇ、ｌｏｎｇｓｔａｒｔ、ｅｉｇｈｔｓｈｏｒｔ、ｌｏｎｇｓｔｏｐ、ｓｔｏｐ−ｓｔａｒｔ）およびｗｉｎｄｏｗ＿ｓｈａｐｅ（ｓｉｎｅまたはＫＢＤ）に関する新しい制限はないことを意味する。（［２８］において、適応的スペクトル−時間変換器は、カーネルの側で異なる対称性を有する１つまたは複数の変換カーネルを有する変換カーネルの第１のグループの変換カーネルと、カーネルの側で同じ対称性を有する１つまたは複数の変換カーネルを含む変換カーネルの第２のグループの変換カーネルとの間で切り替わる）。

しかしながら、ビットストリームにおいてｕｓｅ＿ｍｅｌｔ＿ｅｘｔｅｎｓｉｏｎ＝１である場合、「ｏｎｌｙｌｏｎｇ」ｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅを有するフレーム／チャネルのためのフレーム毎の１ビットのｗｉｎｄｏｗ＿ｓｈａｐｅ要素の意味は、前述通り、変更されるのが好ましい（０はα＝４の既存のＫＢＤ窓関数を使用するＭＤＣＴ／ＭＤＳＴを意味し（［２３］参照）、１は、本明細書で提案されるｗｅｌｔ窓関数を有するＭＥＬＴを意味する）。

符号化オーディオ信号４を復号するための復号器２の概略ブロック図が示されている。復号器は、適応的スペクトル−時間変換器６と、オーバーラップ加算プロセッサ８とを備える。適応的スペクトル−時間変換器は、例えば、周波数−時間変換を介して、スペクトル値の連続するブロック４’を時間値の連続するブロック１０に変換する。さらに、適応的スペクトル−時間変換器６は、制御情報１２を受信し、制御情報１２に応答して、カーネルの側で異なる対称性を有する１つまたは複数の変換カーネルを含む変換カーネルの第１のグループの変換カーネルと、カーネルの側で同じ対称性を有する１つまたは複数の変換カーネルを含む変換カーネルの第２のグループの変換カーネルとの間で切り替わる。さらに、オーバーラップ加算プロセッサ８は、時間値の連続するブロック１０をオーバーラップさせて加算して、復号オーディオ信号であってもよい復号オーディオ値１４を得る。

この設計には３つの理由がある。第１に、定常状態のＭＥＬＴに対して所望の窓関数は１つしか存在せず、従来技術におけるカイザー・ベッセル関数から導出されるＥＬＴ窓が存在しないため、「ｏｎｌｙｌｏｎｇ」フレーム／チャネルおよびアクティブにされたＭＥＬＴのｗｉｎｄｏｗ＿ｓｈａｐｅビットは、（従来技術で定義されているように解釈される場合）その値が無視される必要があるため、陳腐化していると考えられ、したがって不要であると考えられ得る。

第２に、「ｏｎｌｙｌｏｎｇ」ではないフレーム／チャネルにおけるＭＥＬＴコーディングの使用はサポートされておらず、例えば、ＭＤＣＴ／ＭＤＳＴの代わりに８つの短いＭＥＬＴのシーケンスが実現可能であるが、ブロック切り替え技法を非常に複雑にし、「ｅｉｇｈｔｓｈｏｒｔ」シーケンスの目的は、時間的コーディングの分解能を最大にするためであるため、知覚の観点から非生産的である）。

第３に、与えられた入力信号部分において、サイン窓がＫＢＤ窓よりも優れた符号化品質をもたらす「ｏｎｌｙｌｏｎｇ」フレーム／チャネルが、同じ信号部分に対してアクティブにされたときに、提案されているＥＬＴ設計からさらに利益を得ることが、本発明者によって見出された。言い換えれば、「ｓｉｎｅ」ｗｉｎｄｏｗ＿ｓｈａｐｅを有するＭＤＣＴ／ＭＤＳＴは主観的に、波形セグメントに対するＥＬＴ提案に一致するか、または、さらにＥＬＴ提案の方が優れ、ＥＬＴ提案は、「ＫＢＤ」ｗｉｎｄｏｗ＿ｓｈａｐｅを有するＭＤＣＴ／ＭＤＳＴコーディングよりも顕著に優れている。このように、ｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅが「ｏｎｌｙｌｏｎｇ」でｕｓｅ＿ｍｅｌｔ＿ｅｘｔｅｎｓｉｏｎ＝１の場合、既存のｗｉｎｄｏｗ＿ｓｈａｐｅビットを再使用および再指定することにより、冗長性は完全に回避され、ＭＥＬＴへのまたはＭＥＬＴからの提案される切り替えが所与のフレーム／チャネルで使用されるかをシグナリングするためにさらなるフレームごとのビットは必要とされない。

ｕｓｅ＿ｍｅｌｔ＿ｅｘｔｅｎｓｉｏｎ＝１のビットストリームの場合、以下のように行われる、逆変換およびオーバーラップ加算（ＯＬＡ）処理を除く、通常どおりの周波数領域（ＦＤ）ＭＰＥＧ−Ｈコア復号が行われる。

ｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅ＝「ｏｎｌｙｌｏｎｇ」かつｗｉｎｄｏｗ＿ｓｈａｐｅ＝０（ＫＢＤ）、またはｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅ≠「ｏｎｌｙｌｏｎｇ」かつｗｉｎｄｏｗ＿ｓｈａｐｅが任意のフレーム／チャネルについて、フレームごとの逆変換、合成窓処理、およびＯＬＡは、ＭＰＥＧ−Ｈ３Ｄオーディオ規格、すなわち、ＩＳＯ／ＩＥＣ２３００８−３：２０１５、ｓｕｂｃｌａｕｓｅ５．５．３．５．１およびＩＳＯ／ＩＥＣ２３００３−３：２０１２、ｓｕｂｃｌａｕｓｅ７．９において指定されているように実行される。

しかしながら、切り替え可能なＭＥＬＴの窓処理遅延の増加を計上するために、ＯＬＡステップから生じるフレーム毎の波形セグメントの出力は、１フレームだけ遅延される。これは、例えば、与えられたフレームがストリーム内の最初のフレームであるとき、ゼロ波形が出力されることを意味する。

ｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅ＝「ｏｎｌｙｌｏｎｇ」かつｗｉｎｄｏｗ＿ｓｈａｐｅ＝１（以前はｓｉｎｅ）のフレーム／チャネルの場合、０≦ｎ＜２Ｎかつｎ_０＝（３Ｎ／２＋１）／２であることを除いて、ＩＳＯ／ＩＥＣ２３００３−３：２０１２、ｓｕｂｃｌａｕｓｅ７．９．３．１で与えられた式と等価な、本明細書において提案されているＭＥＬＴの式を使用して逆変換が実行される。カーネル切り替えの変更、すなわち、ＭＥＬＴ（ＴＤＡ互換シーケンシングを想定）によってｃｏｓ（）関数およびｋ_０＝０（タイプＩＩコサイン変調の場合）またはｋ_０＝１（タイプＩＩサイン変調の場合）の代わりにｓｉｎ（）を使用することも可能であることに留意されたい。次に、所与のチャネルについて、現在および以前の両方のフレームについてｗｉｎｄｏｗ＿ｓｈａｐｅおよびｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅ値を使用して、表３に示すように検出される遷移窓を用いて、前述のセクション２およびセクション３で説明したように合成窓処理が適用される。表３はまた、許容されるすべてのシーケンス／形状遷移のセットを示す。

逆ＭＥＬＴ（または、さらに言えば元のＥＬＴ）は、高速フーリエ変換（ＦＦＴ）に基づく高速ＤＣＴ／ＤＳＴ実施態様を適用する既存のＭＤＣＴおよびＭＤＳＴ実現を使用して実施できることに留意されたい。より具体的には、サイン変調逆ＭＥＬＴは、すべての奇数インデックスのスペクトルサンプル（インデックスがゼロで始まる）をネゲートし、続いて逆ＭＤＣＴ−ＩＶを適用することによって実現することができ、結果として生じる２Ｎ出力サンプルを、符号をネゲートして時間的に繰り返すことによって完了することができる。

同様に、コサイン変調逆ＭＥＬＴは、すべての偶数インデックスのスペクトルサンプルをネゲートし、続いて逆ＭＤＳＴ−ＩＶを実行することによって得ることができ、最後にこれは、符号をネゲートして時間的に繰り返される。カーネル切り替えの場合に利用されるタイプＩＩコサインまたはサイン変調逆ＭＥＬＴ、ならびに上記のＭＥＬＴ構成のすべてについての順方向（分析）変換について同様の実現が達成され得る。したがって、従来のＭＤＣＴ／ＭＤＳＴアルゴリズムと比較した、ＭＥＬＴ処理によって引き起こされる唯一の複雑さの増加は、ネゲートされた時間的反復（逆の場合の拡張または順方向の場合の圧縮）の必要性に起因し、これは、２Ｎ個の入力または出力サンプルの−１）によるスケーリング、ＭＤＣＴ／ＭＤＳＴの場合の２倍数のサンプル（２Ｎではなく４Ｎ）の分析または合成窓処理、および復号器内のＯＬＡ中のさらなる加算による単純なコピー／乗加算を表す。言い換えれば、変換のＯ（ｎ（ｌｏｇｎ＋ｃ））アルゴリズムの複雑さを所与として、ＭＥＬＴ（またはＥＬＴ）の場合は定数ｃのみが増加し、本実施形態ではｎ＝１０２４または７６８であるため、ｃを約２〜３倍にすることは無視できると考えることができる（すなわち、これは、総変換、窓処理、およびＯＬＡ／フレーミングの複雑度の４分の１未満にしかならず、３Ｄオーディオ復号器全体の複雑度の一部に過ぎない）。

表３は、ＭＥＬＴ切り替え方式の場合のサポートされる窓シーケンスを示す。ＬＯＮＧシーケンスとはＭＤＣＴ／ＭＤＳＴを意味し、ＥＬＴ−ＬＯＮＧシーケンスをシグナリングするために「ｓｉｎｅ」窓構成のＬＯＮＧが再使用されるため、「ＫＢＤ」窓形状のみが許容される。

ｔｒ＜−ｔｒ＝ＥＬＴからの遷移；ｔｒ→ｔｒ＝ＥＬＴへの遷移；
ＫＢＤ＝カイザー−ベッセル導出
以下では、実施されたコーデック統合の評価について説明する。切り替え率提案のブラインド主観評価は、信号適応設計の利点を確認した。図８および図９が参照される。

図８は、ＥＬＴのスペクトルおよび時間的平坦性に基づく選択を示す。特に、図８は、４つの入力信号（この資料ではＭＤＳＴが使用されていない）に対する結果としてのフレームごとのＥＬＴおよびＭＤＣＴ選択を示す。定常トーナルパッセージは確実に検出される。下の（ピンクの）「ｓｅｌ」行は、ＭＥＬＴの値が「０」で、ＭＬＴの値が「−１」である。

図９は、９５％信頼区間による聴取試験結果の拡大図を示す。明確にするために、３．５ｋＨｚのアンカースコアは省略されている。

３Ｄオーディオコーデックに統合された、この方式の主観的試験の設計および結果は、次のとおりである。

ＭＤＣＴ（またはＭＤＳＴ、カーネル切り替え提案の場合など、［９］を参照）のみを用いた従来の方式と比較して、切り替えＭＤＣＴ−ＥＬＴコーディング方式の主観的性能を評価するために、ＭＵＳＨＲＡ（隠された基準およびアンカーによる複数刺激）原理（［２６］参照）による２回のブラインド聴取実験が実行された。この目的のために、切り替え率アーキテクチャは、［８］、［９］に記載されているように、帯域幅拡張にはＩＧＦを使用し、４８ｋｂｉｔ／ｓステレオにおけるセミパラメトリックチャネル対コーディングにはステレオ充填（ＳＦ）を使用する、ＭＰＥＧ−Ｈ３Ｄオーディオコーデックの符号化器および復号器実施態様に統合されている。試験は、ファンレスコンピュータおよび最新のＳＴＡＸヘッドフォンを使用して静かな部屋で１２人の経験豊富な聴取者（３９歳以下、女性１名を含む）によって行われた。

最初に実施された実験である、調性楽器信号を使用した４８ｋｂｉｔ／ｓの試験は、最後のセクションにおいて論じられているように、調性高調波オーディオ資料に対する従来のＭＤＣＴコーディングにまさるＥＬＴの利点、ならびに、過渡および音の出だしにおいてＥＬＴからＭＤＣＴコーディングへと切り替える利点を定量化するように意図されている。過去のＭＰＥＧコーデック評価［２５］、［２７］−アコーディオン、バグ／ピッチパイプ、およびハープシコードで既に使用された４つの調性試験信号のそれぞれについて、切り替え可能なＥＬＴを用いた３Ｄオーディオコード化刺激および用いない３Ｄオーディオコード化刺激が、統一ステレオＳＢＲおよびＭＰＥＧサラウンド２−１−２（したがって、２倍のフレーム長）を利用する３Ｄオーディオ基準条件とともに提示されている。

このテストの結果は、刺激ごとの９５％信頼区間とともに、図９（ａ）の全体平均スコア、および、図９（ｂ）のＥＬＴ条件に対する差分平均スコアとして示されている。それらは、４つの項目のうち３つについて、定常信号の通過中にＥＬＴに切り替えることによって、ＳＢＳベースの３Ｄオーディオコーデックの品質を大幅に改善できることを示している。さらに、非定常的な音の出だしおよび過渡の間にＭＤＣＴコーディングを用いることによって、より強いプリエコーアーチファクトに起因する知覚劣化が回避される。最後に、ＩＧＦとＳＦを用いた３Ｄオーディオ構成の主観的性能を、そのような項目のより長いフレームサイズの統一ステレオ基準のものに近づけることができます。ｓｍ０１（バグパイプ）を除くすべての刺激は、ここで、良好な品質を示している。

［９］の主観評価の結果がｐｈｉ７項目の現在のデータ（ピッチパイプ、ＥＬＴが数フレームを超えて適用されている［９］ないの唯一の信号）と組み合わされている、さまざまな信号タイプを使用した４８ｋｂｉｔ／ｓの仮想試験である第２の「仮想」聴取試験が構築された。

この設定では、切り替え可能なＥＬＴ方式によって強化されたＳＢＳベースの３Ｄオーディオコーディングが、多様な試験セットにおいてＱＭＦベースの３Ｄオーディオ構成よりも優れているか否かが明らかになるはずである。

図９（ｃ）は、この試験のために、刺激ごとおよび全体的な絶対平均スコアを再び信頼区間とともに示す。実際、ｐｈｉ７のような信号のＥＬＴによってもたらされる品質利得のおかげで、ＳＢＳ＋ＥＬＴ構成の平均知覚性能は統一ステレオ基準の平均知覚性能よりも著しく良好にされる。後者は、追加の擬似ＱＭＦバンクが必要とされることに起因してより高いアルゴリズム待ち時間および複雑度を示すため、この結果は非常に満足できるものである。

切り替えＥＬＴ手法の知覚上の利点は、正式な主観評価によって確認されている。これは、３Ｄオーディオフレームワークに対する品質の低下がないこと、さらに、４８ｋｂｉｔ／ｓステレオにおけるあらゆるタイプの入力信号に対する良好なコーディング品質の発明者の長期目標が、実際にはもう少し符号化器の調整を行うだけで実現することができることを示している。

いくつかの実施形態は、修正拡張重複変換（ＭＥＬＴ）の適応的適用による準定常高調波信号パッセージの改善を提供する。

これに関連して図１２は、いくつかの特定の実施形態による、重複変換による基本フィルタバンクを示し、図１２（ａ）はＭＤＣＴ／ＭＤＳＴを示し、図１２（ｂ）はＥＬＴを示す。

ＥＬＴに基づいて、いくつかの実施形態では、ＭＥＬＴは、図１２（ｂ）に示すように７５％の相互変換オーバーラップを有する奇数積み重ねフィルタバンクを構築し、これは、図１２（ａ）に示すように、同じフレーム長Ｍにおいて５０％のオーバーラップを有するＭＤＣＴまたはＭＤＳＴフィルタバンクよりも大幅に大きい波長選択性をもたらす。

しかし、ＥＬＴとは異なり、ＭＥＬＴは、例えば、いくつかの実施形態において特別な遷移窓のみを使用した、ＭＤＣＴへのおよびＭＤＣＴからの直接的な遷移を可能にする。特に、いくつかの実施形態は、例えば、それぞれのフレーム単位の信号適応的オーバーラップ率切り替え方式を提供することができる。

コサインおよびサイン変調ＭＥＬＴコーディングを実現する特定の実施例をここで説明する。

既に上で説明したように、時間信号ｘが与えられ、スペクトルＸを返す、インデックスｉにおけるフレームの順方向（分析）ＭＤＣＴは、例えば、以下のように書くことができる。

窓の長さＮ＝２Ｍであり、０≦ｋ＜Ｍである。同様に、順方向ＭＤＳＴは、余弦項の代わりに正弦を使用して定義される。

実施形態では、時間的長さおよび位相オフセットを変更することによって、これはＭＥＬＴをもたらす。

これは、増大した窓長さＬ＝４Ｍおよびコサイン変調を伴う。当然ながら、サイン変調された対応物も指定することができる。

逆（合成）ＭＥＬＴ変種は、例えば、式（１１ｃ）を適用するコサインバンクについては以下のとおりであり、

サインバンクについては以下のとおりである。

ここで、’はスペクトル処理を表し、０≦ｎ＜Ｌである。

利用される窓の長さは、例えば、式（１１ａ）、（１１ｂ）ならびに式（１１ｃ）、（１１ｄ）、（１１ｅ）および（１１ｆ）の間で変化し得るが、変換長さＭ、および、それによって、図１２に示す変換間刻み幅は同一のままであり、これによって、オーバーラップ率の差が説明される。いくつかの実施形態では、式（１１ｃ）、（１１ｄ）、（１１ｅ）および（１１ｆ）のコサインおよびサイン変調ＭＥＬＴ定義は、たとえ７５％の相互変換オーバーラップの場合でも、カーネル切り替え、および、それゆえ、±９０度のＩＰＤを有する信号の効率的なコード化を実現するためにさらに改善することができる。偶数積み重ねＰｒｉｎｃｅｎ−Ｂｒａｄｌｅｙフィルタバンクから採用されるタイプＩＩ遷移変換は、例えば、タイプＩＶのＭＤＣＴとＭＤＳＴとの間の切り替え時に、時間領域エイリアシング除去（ＴＤＡＣ）のために採用され得る。式（１１ａ）および（１１ｂ）を参照されたい。具体的には、チャネル内のＭＤＣＴ−ＩＶコーディングからＭＤＳＴ−ＩＶコーディングへの変更中にＭＤＳＴ−ＩＩが必要であり、ＭＤＣＴ−ＩＶコーディングに復帰するときにＭＤＣＴ−ＩＩが必要である。

上記のタイプＩＶ定義（式（１１ｃ）、（１１ｄ）、（１１ｅ）および（１１ｆ）を参照）に加えて、ＤＣＴ−ＩＩを使用する高速実装を可能にするＥＬＴベースのフィルタバンクも構築することができ、これは、５０％を超える相互変換オーバーラップを有するタイプＩＩフィルタバンクが実際に実現可能であることを証明している。ＴＤＡＣフィルタバンク設計に従う代替的であるが等価な手法は、タイプＩＩコサイン変調ＭＥＬＴバージョンであって、

クロネッカーデルタδ（０）＝１である、タイプＩＩコサイン変調ＭＥＬＴバージョンと、タイプＩＩサインベースＭＥＬＴであって、

ナイキスト係数のスケーリングのためのｋ’＝Ｍ−１−ｋである、タイプＩＩサインベースＭＥＬＴとの交互使用を介した偶数積み重ねシステムを考案することである。

それぞれ分析側の式（１１ｇ）および（１１ｈ）

および合成側の

が、図１３に示すように、ＴＤＡＣをもたらす。

特に、図１３は、いくつかの特定の実施形態による、偶数積み重ねフィルタバンクにおけるＴＤＡＣを示し、図１３（ａ）はＰｒｉｎｃｅｎ−Ｂｒａｄｌｅｙを示し、図１３（ｂ）はＭＥＬＴ−ＩＩを示す。ＴＤＡＣは、隣接する変換間の偶数−奇数または奇数−偶数時間領域エイリアシング結合の場合に可能である。

ＭＥＬＴコーディングおよびカーネル切り替えの組み合わせに関して、タイプＩＶコサインおよびサイン変調ＭＥＬＴ間で切り替えるときに、５０％オーバーラップのプロセスと同様に、式（１１ｇ）および（１１ｉ）または式（１１ｈ）および（１１ｊ）の遷移タイプＩＩインスタンスが利用されるとき、ＴＤＡＣは不可能であることが分かる。式（１１ｃ）、（１１ｄ）、（１１ｅ）および（１１ｆ）を参照されたい。瞬間的なオーバーラップ率に関係なくカーネルの切り替えを可能にする場合、コーデックのアーキテクチャ複雑度を低く保つことが望ましいため、以下の回避策が提案される。コサイン変調ＭＥＬＴ−ＩＶ（式（１１ｃ）および（１１ｅ）を参照）からサイン変調ＭＥＬＴ−ＩＶ（式（１１ｄ）および（１１ｆ）を参照）に切り替えるには、例えば、分析および合成の両側において、オーバーラップ率を５０％に一時的に減少させることと組み合わせた、遷移ＭＤＳＴ−ＩＩフレームを利用することができる。同様に、サインベースのＭＥＬＴコーディングからコサインベースのＭＥＬＴコーディングに戻すときには、中間ＭＤＣＴ−ＩＩを利用することができる。図１４は、特定の実施形態によるＭＥＬＴ−ＩＶフィルタバンクの特定のＴＤＡＣ準拠カーネル切り替えを示し、図１４（ａ）はコサイン変調からサイン変調への遷移を示し、図１４（ｂ）はサイン変調からコサイン変調への遷移を示す。

図１４に可視化されているように、各タイプＩＩ遷移とそのタイプＩＶ−ＭＥＬＴ近傍との間のオーバーラップ長さはＭ＝Ｎ／２に制限されるため、完全なＴＤＡＣが両方の場合で得られる。したがって、ＴＤＡＣを必要とする、コサイン変調ＭＥＬＴ−ＩＶとサイン変調ＭＥＬＴ−ＩＶとの間の時間的エイリアシング境界オーバーラップは存在しない。適切な窓処理を実現するために、実施形態では、図１５（ａ）に示すように、特殊な「ｓｔｏｐ−ｓｔａｒｔ」窓をタイプＩＩ変換に適用する必要がある。いくつかの実施形態によれば、非対称遷移重み付けに基づく、このような、例えば対称の窓が、以下でより詳細に説明される。

特に、図１５は、一時的な遷移の間の、破線で示される特別な「ｓｔｏｐ−ｓｔａｒｔ」形状を有する特定の実施形態による改善された窓処理を示し、図１５（ａ）は７５％から５０％のオーバーラップ率への一時的な遷移を示し、図１５（ｂ）は、５０％から７５％へのオーバーラップ率の一時的な遷移を示す。

以下では、いくつかの実施形態によるＭＥＬＴフレームからの遷移およびＭＥＬＴフレームへの遷移について説明する。

いくつかの実施形態によれば、フレーム間切り替えは、例えば、５０％のオーバーラップ率を有するＭＤＣＴの様な変換から、７５％のオーバーラップ率を有するＭＥＬＴへと、および、その逆に実現することができる。切り替えの間に完全なＴＤＡＣを維持するために、準定常信号パッセージの間に加えられる定常状態重み付けから得られる専用の非対称遷移窓を使用することができる。これらの窓は、例えば、オーバーラップが５０％から７５％に増加するときの最初のＭＥＬＴ窓（フレームｉについて図１５（ａ）に示されている太線形状）について、以下のように定義することができ、

オーバーラップを５０％に縮小するときの最初のＭＤＣＴ／ＭＤＳＴ窓（同じフレームについての図１５（ｂ）内の太線形状）について、以下のように定義することができる。

ｗ’_eltおよびｗ’_mltの補完、すなわち、５０％オーバーラップに切り替えるときの最後のＭＥＬＴ窓、および７５％オーバーラップに戻って切り替わる（図１５のフレームｉ−２）間の最後のＭＤＣＴ／ＭＤＳＴ窓はそれぞれ、式（１２）および（１３）の時間的逆転である。重要な窓部分（図１４も参照）で使用されるｋは、上記のように指定され、一方で、ｗ_eltおよびｗ_mltはそれぞれ、定常状態ＭＥＬＴおよびＭＤＣＴ／ＭＤＳＴの基礎となる窓関数を示す。ＥＬＴにも適用可能である（［１２］参照）前者について、ブロッキングアーチファクトを防止する改善された設計が上記で提供されている。

ｗ_ｔｒ（ｔ）は（ｔは、数Ｍの時間領域サンプルにまたがる）、例えば、重要な窓四半部、例えば、分析（符号化器）側または合成（復号器）側のいずれかに適用されるときのｗ’_eltまたはｗ’_mltのいずれかの、実数ｄでスケーリングされた平方根項によって特徴付けられる長さＭセグメントを表すものとする、ｄを用いることによって、異なる重要な窓部分が分析および合成変換に使用され得る、率切り替え遷移窓処理に関する、いわゆる双直交手法が可能になる。より具体的には、ＴＤＡＣを達成し、したがってＰＲを達成するために、ｗ_ｔｒ（ｔ）は分析（符号化器）側でｄ＝ｄ’を使用し、合成（復号器）側では、ｗ_ｔｒ（ｔ）は、逆、例えばｄ＝（１／ｄ’）’を適用することができる。特定の定常状態ＥＬＴ窓ｗ_eltが与えられると、ｄ’は、すべての率切り替え遷移中に、符号化中の分析窓の最適なスペクトル属性と、復号中の合成窓による最大出力減衰の両方をもたらすように、決定されることが好ましい。

復号器の実施形態によれば、ｗ_ｅｌｔは第１の窓関数であり、ｗ_ｍｌｔは第２の窓関数であり、ｗ’_mltは第３の窓関数であり、第３の窓関数は以下に従って定義され、

ここで、Ｍは、スペクトル領域オーディオサンプルの第１のグループまたは第２のグループまたは第３のグループまたは第４のグループのスペクトル領域オーディオサンプルの数を示し、ｋは０≦ｋ＜Ｍである数であり、ｄは実数であり、ｎは整数であり、オーバーラップ加算器１３０は、第３の窓関数ｗ’_mltに応じて、時間領域中間オーディオサンプルの第１のグループおよび第２のグループおよび第３のグループおよび第４のグループのうちの少なくとも１つを生成するように構成される。

同様に、符号化器の実施形態によれば、ｗ_ｅｌｔは第１の窓関数であり、ｗ_ｍｌｔは第２の窓関数であり、ｗ’_mltは第３の窓関数であり、第３の窓関数は以下に従って定義され、

ここで、Ｍは、スペクトル領域オーディオサンプルの第１のグループまたは第２のグループまたは第３のグループまたは第４のグループのスペクトル領域オーディオサンプルの数を示し、ｋは０≦ｋ＜Ｍである数であり、ｄは実数であり、ｎは整数であり、第１の符号化モジュール２１０および第２の符号化モジュール２２０のうちの少なくとも１つは、時間領域オーディオサンプルの第１のグループおよび第２のグループおよび第３のグループおよび第４のグループのうちの少なくとも１つに、第３の窓関数ｗ’_mltを適用するように構成される。

以下では、いくつかの実施形態による分析窓処理の改善された、好ましくは最適なスペクトル特性について説明する。いくつかの実施形態は、特に定常高調波オーディオ信号のスペクトル圧縮を増大するために、分析窓における小さい、好ましくは可能な最小量のメインローブ幅、および、強力な、好ましくは可能な最大量のサイドローブ減衰を達成しようとする。

それらの実施形態のいくつかについて、定常状態ｗ_elt窓が既にこの目的のために最適化されているとき、これは窓部分間の境界での不連続性を回避することによって、ｗ’_eltおよびｗ’_mlt（ならびに、無論、それらの時間的な逆）において達成できることが示され得る。より正確には、ｗ_ｔｒの最大値が、ｗ_eltの最大値（または、例えば、その最大値に近い値）に等しくなるようにｄ’を選択することにより、遷移窓形状における飛躍が完全に回避される。したがって、ｄ’は、上記２つの最大値の間の比率を反映し、これは、本事例においては、ｄ’＝（４０９６／４０６１）によって近似することができる。

以下では、合成窓処理時の出力減衰の増加、好ましくは最大化について説明する。変換ビンの量子化によって引き起こされる、オーディオコーディングにおけるスペクトル領域の歪みをより良好に（好ましくは可能な限り）抑えるために、ＯＬＡ処理の前に合成窓処理プロセス中の出力波形を、好ましくは可能な限り減衰させることが有用であり得る。しかしながら、ＰＲ／ＴＤＡＣ要件に起因して、窓による強い減衰は困難である。なぜなら、この手法は、相補的な分析窓を効率に関して有害にするからである。いくつかの実施形態によれば、良好な窓特性と受け入れ可能な復号器側出力減衰との間の良好なトレードオフは、１／ｄ’＝４０６１／４０９６を選択することによって得ることができる。

言い換えれば、ｗ_ｔｒの両方の最適化手法は、好ましくは同じｄ’の値をもたらす。ｗ_eltを利用する場合、ｗ’_eltおよびｗ’_mltにおける不連続性は非常に小さく（図９参照）、少なくとも合成側でそれらの回避することが、可聴改善をもたらすとは予測されない。特定の実施形態について図１５（ａ）に破線で示されており、以下にｗ_ｓｓによって示される、上述したＭＥＬＴベースのカーネル切り替えのための特別な遷移「ｓｔｏｐ−ｓｔａｒｔ」窓は、式（１２）または（１３）の重要な窓部分から導き出すことができる。

言い換えれば、ｗ_ｓｓは両方の半部に重要な部分を持つ対称窓であり、したがって、両側でオーバーラップ率の遷移が可能である。ｗ_ｓｓは、ＭＤＣＴおよびＭＤＳＴならびに異なるＭＥＬＴ変形（長さＬの重み付けの外側四半部がゼロに設定されると仮定して）に適用できることに留意すべきである。実際、分析側窓処理のためのそれを使用することによって、ＭＤＣＴおよびコサイン変調ＭＥＬＴ−ＩＶ係数を、図５ｃ）によって示されるように符号の差異とは別に同一にする。カーネルの切り替えを容易にすることとは別に、ｗ_ｓｓをも利用して、オーバーラップ率切り替え方式をより柔軟にすることができる。例えば、これによって、図１５ｂ）に示す一時的切り替え構成（５０から７５％のオーバーラップ）を達成することができる。

復号器の実施形態によれば、ｗ_ｅｌｔは第１の窓関数であり、ｗ_ｓｓは第２の窓関数であり、第２の窓関数は以下に従って定義され、

ここで、Ｍは、スペクトル領域オーディオサンプルの第１のグループまたは第２のグループまたは第３のグループまたは第４のグループのスペクトル領域オーディオサンプルの数を示し、ｋは０≦ｋ＜Ｍである数であり、ｄは実数であり、ｎは整数であり、オーバーラップ加算器１３０は、第２の窓関数ｗ_ｓｓに応じて、時間領域中間オーディオサンプルの第１のグループおよび第２のグループおよび第３のグループおよび第４のグループのうちの少なくとも１つを生成するように構成される。

同様に、符号化器の実施形態によれば、ｗ_ｅｌｔは第１の窓関数であり、ｗ_ｓｓは第２の窓関数であり、第２の窓関数は以下に従って定義され、

ここで、Ｍは、スペクトル領域オーディオサンプルの第１のグループまたは第２のグループまたは第３のグループまたは第４のグループのスペクトル領域オーディオサンプルの数を示し、ｋは０≦ｋ＜Ｍである数であり、ｄは実数であり、ｎは整数であり、第１の符号化モジュール２１０および第２の符号化モジュール２２０のうちの少なくとも１つは、時間領域オーディオサンプルの第１のグループおよび第２のグループおよび第３のグループおよび第４のグループのうちの少なくとも１つに、第２の窓関数ｗ_ｓｓを適用するように構成される。

いくつかの態様を装置の文脈で説明してきたが、これらの態様は、対応する方法の説明も表していることは明らかであり、そこで、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明をも表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって（またはそれを使用して）実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの１つまたは複数は、そのような装置によって実行されてもよい。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアもしくはソフトウェアにおいて、または少なくとも部分的にハードウェアにおいて、もしくは少なくとも部分的にソフトウェアにおいて実施することができる。実施態様は、電子的に読み取り可能な制御信号が記憶された、例えばフロッピーディスク、ＤＶＤ、Ｂｌｕ−Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、これはそれぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子可読制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに、方法の１つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納することができる。

他の実施形態は、機械可読キャリアに格納される、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

換言すれば、それゆえ、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを記録されているデータキャリア（またはデジタル記憶媒体もしくはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録媒体は、典型的には有形かつ／または非一時的である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えば、データ通信接続を介して、例えば、インターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するように構成または適合される処理手段、例えばコンピュータまたはプログラマブル論理装置を含む。

さらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールされているコンピュータを含む。

本発明によるさらなる実施形態は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的にまたは光学的に）転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。この装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。

いくつかの実施形態では、プログラマブル論理デバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明する方法の１つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。

本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実装することができる。

本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実施することができる。

上述の実施形態は、本発明の原理の例示にすぎない。当業者には、本明細書に記載された構成および詳細の変更および変形が明らかになることは理解されたい。したがって、本発明は添付の特許請求の範囲によってのみ限定され、本明細書の実施形態の記述および説明によって示される特定の詳細によっては限定されないことが意図される。

Claims

複数のスペクトル領域オーディオサンプルを復号するための復号器であって、
前記スペクトル領域オーディオサンプルの第１のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第１のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第１のグループを復号し、前記スペクトル領域オーディオサンプルの第２のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第２のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第２のグループを復号するための第１の復号モジュール（１１０）と、
オーバーラップ加算器（１３０）であって、前記オーバーラップ加算器（１３０）は、時間領域中間オーディオサンプルの正確に２つのグループのオーバーラップ加算を行うように構成されており、前記正確に２つのグループは、時間領域中間オーディオサンプルの前記第１のグループおよび前記第２のグループであり、前記オーバーラップ加算器（１３０）は、前記正確に２つのグループを、５％を超え最大５０％のオーバーラップを伴ってオーバーラップ加算するように構成されており、前記正確に２つのグループの前記オーバーラップ加算の結果として、オーディオ信号の第１の複数の時間領域オーディオ出力サンプルがもたらされる、オーバーラップ加算器（１３０）と、
前記スペクトル領域オーディオサンプルの第３のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第３のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第３のグループを復号し、前記スペクトル領域オーディオサンプルの第４のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第４のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第４のグループを復号するための第２の復号モジュール（１２０）と、
前記オーディオ信号の前記第１の複数の時間領域オーディオ出力サンプル、前記オーディオ信号の第２の複数の時間領域オーディオ出力サンプル、および、前記オーディオ信号の第３の複数の時間領域オーディオ出力サンプルを出力するための出力インターフェース（１４０）と
を備え、
前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第３のグループと、前記時間領域中間オーディオサンプルの第４のグループとの、６０％を超え１００％未満のオーバーラップを伴ったオーバーラップ加算を使用して、前記第２の複数の時間領域オーディオ出力サンプルを得るように構成されており、
前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第２のグループと、前記時間領域中間オーディオサンプルの第３のグループとのオーバーラップ加算を使用して前記第３の複数の時間領域オーディオ出力サンプルを得るように構成されており、または、前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第４のグループと、前記時間領域中間オーディオサンプルの第１のグループとのオーバーラップ加算を使用して前記第３の複数の時間領域オーディオ出力サンプルを得るように構成されている、復号器。
前記オーディオ信号の前記第１の複数の時間領域オーディオ出力サンプルは、時間的に前記オーディオ信号の前記第３の複数の時間領域オーディオ出力サンプルに先行し、前記オーディオ信号の前記第３の複数の時間領域オーディオ出力サンプルは、時間的に前記オーディオ信号の前記第２の複数の時間領域オーディオ出力サンプルに先行し、前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第２のグループと、前記時間領域中間オーディオサンプルの第３のグループとのオーバーラップ加算を使用して前記第３の複数の時間領域オーディオ出力サンプルを取得するように構成されており、または
前記オーディオ信号の前記第２の複数の時間領域オーディオ出力サンプルは、時間的に前記オーディオ信号の前記第３の複数の時間領域オーディオ出力サンプルに先行し、前記オーディオ信号の前記第３の複数の時間領域オーディオ出力サンプルは、時間的に前記オーディオ信号の前記第１の複数の時間領域オーディオ出力サンプルに先行し、前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第２のグループと、前記時間領域中間オーディオサンプルの第３のグループとのオーバーラップ加算を使用して前記第３の複数の時間領域オーディオ出力サンプルを取得するように構成されている、請求項１に記載の復号器。
前記オーバーラップ加算器（１３０）は、前記時間領域中間オーディオサンプルの第１のグループを、前記時間領域中間オーディオサンプルの第２のグループと、正確に５０％のオーバーラップを伴ってオーバーラップ加算するように構成されており、前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第３のグループを、前記時間領域中間オーディオサンプルの第４のグループと、少なくとも７５％で１００％未満のオーバーラップを伴ってオーバーラップ加算するように構成されている、請求項１または２に記載の復号器。
前記第１の復号モジュール（１１０）は、逆修正離散コサイン変換または逆修正離散サイン変換を実行するように構成されており、
前記第２の復号モジュール（１２０）は、逆拡張重複変換または逆修正拡張重複変換を実行するように構成されている、請求項３に記載の復号器。
前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第３のグループを、前記時間領域中間オーディオサンプルの第４のグループと、正確に７５％のオーバーラップを伴ってオーバーラップ加算するように構成されている、請求項３または４に記載の復号器。
前記時間領域中間オーディオサンプルの第１のグループの時間領域中間オーディオサンプルの第１の数が、前記時間領域中間オーディオサンプルの第２のグループの時間領域中間オーディオサンプルの第２の数と等しく、
前記時間領域中間オーディオサンプルの第３のグループの時間領域中間オーディオサンプルの第３の数が、前記時間領域中間オーディオサンプルの第４のグループの時間領域中間オーディオサンプルの第４の数と等しく、
前記第２の数は、前記第３の数を２で除算した数に等しく、前記第１の数は、前記第４の数を２で除算した数に等しい、請求項１〜５のいずれか一項に記載の復号器。
前記第２の復号モジュール（１２０）は、さらに、前記スペクトル領域オーディオサンプルの第５のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第５のグループを生成することによって、前記スペクトル領域オーディオサンプルの第５のグループを復号し、前記スペクトル領域オーディオサンプルの第６のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第６のグループを生成することによって、前記スペクトル領域オーディオサンプルの第６のグループを復号するように構成されており、
前記オーバーラップ加算器（１３０）は、前記第２の複数の時間領域オーディオ出力サンプルを取得するために、前記時間領域中間オーディオサンプルの前記第３のグループまたは前記第４のグループが、前記時間領域中間オーディオサンプルの第５グループの少なくとも７５％かつ１００％未満とオーバーラップし、前記時間領域中間オーディオサンプルの第５のグループが、前記時間領域中間オーディオサンプルの第６グループの少なくとも７５％かつ１００％未満とオーバーラップするように、前記時間領域中間オーディオサンプルの第３のグループおよび前記時間領域中間オーディオサンプルの第４のグループおよび前記時間領域中間オーディオサンプルの第５のグループおよび前記時間領域中間オーディオサンプルの第６のグループをオーバーラップ加算するように構成されている、請求項１〜６のいずれか一項に記載の復号器。
前記第２の復号モジュール（１２０）は、以下に応じて、前記時間領域中間オーディオサンプルの第３のグループおよび前記時間領域中間オーディオサンプルの第４のグループのうちの少なくとも１つを生成するように構成されており、
ｃｓ（ａ（ｎ＋ｂ）（ｋ＋ｃ））
ここで、ｃｓ（）はｃｏｓ（）またはｓｉｎ（）であり、
ｎは、前記時間領域中間オーディオサンプルの前記第３のグループまたは前記第４のグループに属する前記時間領域中間オーディオサンプルのうちの１つの時間インデックスを示し、
ｋは、前記スペクトル領域オーディオサンプルの前記第１のグループ、前記第２のグループ、前記第３のグループまたは前記第４のグループに属する前記スペクトル領域オーディオサンプルのうちの１つのスペクトルインデックスを示し、
−０．１≦ｃ≦０．１または０．４≦ｃ≦０．６または０．９≦ｃ≦１．１であり、
ａ＝ｑ／Ｍであり、
０．９・π≦ｑ≦１．１・πであり、
Ｍは前記スペクトル領域オーディオサンプルの前記第１のグループ、前記第２のグループ、前記第３のグループまたは前記第４のグループに属するスペクトル領域オーディオサンプルの数を示し、
ｂ＝（ｓ・Ｍ＋１）／２であり、
１．５≦ｓ≦４．５であり、ｃは第１のエイリアシング低減係数、ｑは第２のエイリアシング低減係数、ｓは第３のエイリアシング低減係数である、請求項１〜７のいずれか一項に記載の復号器。
前記第１の復号モジュール（１１０）は、以下に応じて、前記時間領域中間オーディオサンプルの第１のグループおよび前記時間領域中間オーディオサンプルの第２のグループのうちの少なくとも１つを生成するように構成されており、
ｃｓ_１（ａ（ｎ_１＋ｂ_１）（ｋ＋ｃ_１））
ここで、ｃｓ_１（）はｃｏｓ（）またはｓｉｎ（）であり、
ｋは、前記スペクトル領域オーディオサンプルの前記第１のグループまたは前記第２のグループに属する前記スペクトル領域オーディオサンプルのうちの１つのスペクトルインデックスを示し、
ｎ_１は、前記時間領域中間オーディオサンプルの前記第１のグループまたは前記第２のグループに属する前記時間領域中間オーディオサンプルのうちの１つの時間インデックスを示し、−０．１≦ｃ_１≦０．１または０．４≦ｃ_１≦０．６または０．９≦ｃ_１≦１．１であり、
ｂ_１＝（Ｍ＋１）／２であり、
Ｍは前記スペクトル領域オーディオサンプルの前記第１のグループまたは前記第２のグループに属するスペクトル領域オーディオサンプルの数を示す、請求項８に記載の復号器。
ｃ＝０、またはｃ＝０．５、またはｃ＝１であり、
ｑ＝πであり、
ｓ＝３である、請求項８または９に記載の復号器。
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝０．５であり、ｃ_１＝０．５であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝１であり、ｃ_１＝０であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０．５であり、ｃ_１＝１であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０であり、ｃ_１＝１であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０．５であり、ｃ_１＝０．５であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０であり、ｃ_１＝０．５であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝０．５であり、ｃ_１＝０であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝１であり、ｃ_１＝０である、請求項９に記載の復号器。
前記第２の復号モジュール１２０は、以下に応じて、前記時間領域中間オーディオサンプルの第３のグループおよび前記時間領域中間オーディオサンプルの第４のグループのうちの少なくとも１つを生成するように構成されており、

、または

、または

、または

ここで、

は、前記スペクトル領域オーディオサンプルの前記第３のグループまたは前記第４のグループに属する前記スペクトル領域オーディオサンプルの１つを示し、

は時間領域値を示し、
Ｍは前記スペクトル領域オーディオサンプルの前記第１のグループ、前記第２のグループ、前記第３のグループまたは前記第４のグループに属するスペクトル領域オーディオサンプルの数を示す、請求項１０に記載の復号器。
第２の復号モジュール（１２０）は、

にしたがって、前記時間領域値

に、重みｗ（ｎ）を適用して、前記時間領域中間オーディオサンプルの前記第３のグループまたは前記第４のグループに属する時間領域中間オーディオサンプル

を生成するように構成されている、請求項１２に記載の復号器。
前記オーバーラップ加算器（１３０）は、前記時間領域中間オーディオサンプルの第２のグループのすべての時間領域中間オーディオサンプルが、前記時間領域中間オーディオサンプルの第３のグループの時間領域中間オーディオサンプルとオーバーラップするように、少なくとも前記時間領域中間オーディオサンプルの第２のグループを、前記時間領域中間オーディオサンプルの第３のグループとオーバーラップ加算するように構成されており、または、
前記オーバーラップ加算器（１３０）は、前記時間領域中間オーディオサンプルの第１のグループのすべての時間領域中間オーディオサンプルが、前記時間領域中間オーディオサンプルの第４のグループの時間領域中間オーディオサンプルとオーバーラップするように、少なくとも前記時間領域中間オーディオサンプルの第４のグループを、前記時間領域中間オーディオサンプルの第１のグループとオーバーラップ加算するように構成されている、請求項１〜１３のいずれか一項に記載の復号器。
ｗ_ｅｌｔは第１の窓関数であり、
ｗ_ｔｒは第２の窓関数であり、
前記第２の窓関数の一部は以下に従って定義され、

Ｍは、前記スペクトル領域オーディオサンプルの前記第１のグループ、前記第２のグループ、前記第３のグループまたは前記第４のグループに属するスペクトル領域オーディオサンプルの数を示し、
ｋは０≦ｋ＜Ｍの数であり、
ｄは実数であり、
ｔ＝（Ｌ／２）＋ｋまたはｔ＝（Ｌ／２）−１−ｋであり、
Ｌは、前記時間領域中間オーディオサンプルの前記第３のグループまたは前記第４のグループに属する時間領域中間オーディオサンプルの数を示し、
前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第２のグループを前記時間領域中間オーディオサンプルの第３のグループとオーバーラップ加算するように構成され、前記第２の復号モジュール（１２０）は、前記第１の窓関数ｗ_ｅｌｔに応じて前記時間領域中間オーディオサンプルの第４のグループを生成するように構成されており、前記第２の復号モジュール（１２０）は、前記第２の窓関数ｗ_ｔｒに応じて前記時間領域中間オーディオサンプルの第３のグループを生成するように構成されており、または
前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第４のグループを前記時間領域中間オーディオサンプルの第１のグループとオーバーラップ加算するように構成され、前記第２の復号モジュール（１２０）は、前記第１の窓関数ｗ_ｅｌｔに応じて前記時間領域中間オーディオサンプルの第３のグループを生成するように構成されており、前記第２の復号モジュール（１２０）は、前記第２の窓関数ｗ_ｔｒに応じて前記時間領域中間オーディオサンプルの第４のグループを生成するように構成されている、請求項１〜１４のいずれか一項に記載の復号器。
ｗ_ｔｒ１は第３の窓関数であり、前記第３の窓関数の一部は以下に従って定義され、

ここで、ｔ_１＝（Ｎ／２）＋ｋまたはｔ_１＝（Ｎ／２）−１−ｋであり、
Ｎは、前記時間領域中間オーディオサンプルの前記第１のグループまたは前記第２のグループの時間領域中間オーディオサンプルの数を示し、
前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第２のグループを前記時間領域中間オーディオサンプルの第３のグループとオーバーラップ加算するように構成され、前記第１の復号モジュール（１１０）は、前記第３の窓関数ｗ_ｔｒ１に応じて前記時間領域中間オーディオサンプルの第２のグループを生成するように構成されており、または
前記オーバーラップ加算器（１３０）は、少なくとも前記時間領域中間オーディオサンプルの第４のグループを前記時間領域中間オーディオサンプルの第１のグループとオーバーラップ加算するように構成され、前記第１の復号モジュール（１１０）は、前記第３の窓関数ｗ_ｔｒ１に応じて前記時間領域中間オーディオサンプルの第１のグループを生成するように構成されている、請求項１５に記載の復号器。
前記第１の窓関数ｗ_ｅｌｔは以下に従って定義され、

ここで、

であり、
ｂ_０、ｂ_１、およびｂ_２は実数であり、
０≦ｔ＜Ｌであり、
Ｋは正の整数であり、
ｃ_ｋは実数を示す、請求項１５または１６に記載の復号器。
Ｋ＝３であり、
０．３≦ｂ_０≦０．４であり、
−０．６≦ｂ_１≦−０．４であり、
０．０１≦ｂ_２≦０．２であり、
０．００１≦ｃ_１≦０．０３であり、
０．０００００１≦ｃ_２≦０．０００５であり、
０．０００００１≦ｃ_３≦０．００００２である、請求項１７に記載の復号器。
ｗ_ｅｌｔは第１の窓関数であり、
ｗ_ｍｌｔは第２の窓関数であり、
ｗ’_ｍｌｔは第３の窓関数であり、前記第３の窓関数は以下に従って定義され、

ここで、Ｍは、前記スペクトル領域オーディオサンプルの前記第１のグループまたは前記第２のグループまたは前記第３のグループまたは前記第４のグループのスペクトル領域オーディオサンプルの数を示し、
ｋは０≦ｋ＜Ｍである数であり、
ｄは実数であり、
ｎは整数であり、
前記オーバーラップ加算器（１３０）は、前記第３の窓関数ｗ’_ｍｌｔに応じて、前記時間領域中間オーディオサンプルの前記第１のグループおよび前記第２のグループおよび前記第３のグループおよび前記第４のグループのうちの少なくとも１つを生成するように構成されている、請求項１〜１４のいずれか一項に記載の復号器。
ｗ_ｅｌｔは第１の窓関数であり、
ｗ_ｓｓは第２の窓関数であり、
前記第２の窓関数は以下に従って定義され、

ここで、Ｍは、前記スペクトル領域オーディオサンプルの前記第１のグループまたは前記第２のグループまたは前記第３のグループまたは前記第４のグループのスペクトル領域オーディオサンプルの数を示し、
ｋは０≦ｋ＜Ｍである数であり、
ｄは実数であり、
ｎは整数であり、
前記オーバーラップ加算器（１３０）は、前記第２の窓関数ｗ_ｓｓに応じて、前記時間領域中間オーディオサンプルの前記第１のグループおよび前記第２のグループおよび前記第３のグループおよび前記第４のグループのうちの少なくとも１つを生成するように構成されている、請求項１〜１４のいずれか一項に記載の復号器。
０．８≦ｄ≦１．２５
である、請求項１５〜２０のいずれか一項に記載の復号器。
ｄ＝４０６１／４０９６
である、請求項２１に記載の復号器。
ｄ＝１である、請求項１５〜２０のいずれか一項に記載の復号器。
前記復号器は、前記複数のスペクトル領域オーディオサンプルの一部分が前記第１の復号モジュール（１１０）によって復号されるべきかまたは前記第２の復号モジュール（１２０）によって復号されるべきかを示す復号情報を受信するように構成され、
前記復号器は、前記復号情報に応じて前記第１の復号モジュール（１１０）または前記第２の復号モジュール（１２０）のいずれかを利用して前記時間領域中間オーディオサンプルの前記第１のグループまたは前記第２のグループまたは前記第３のグループまたは前記第４のグループを得ることによって、前記複数のスペクトル領域オーディオサンプルの前記一部分を復号するように構成されている、請求項１〜２３のいずれか一項に記載の復号器。
前記復号器は、第１のビットおよび第２のビットを受信するように構成されており、前記第１のビットおよび前記第２のビットはともに、第１のビット値組み合わせ、または、前記第１のビット値組み合わせとは異なる第２のビット値組み合わせ、または、前記第１のビット値組み合わせおよび前記第２のビット値組み合わせとは異なる第３のビット値組み合わせ、または前記第１のビット値組み合わせおよび前記第２のビット値組み合わせおよび前記第３のビット値組み合わせとは異なる第４のビット値組み合わせを有し、
前記復号器は、前記第１のビットおよび前記第２のビットがともに前記第１のビット値組み合わせを有する場合に、前記時間領域中間オーディオサンプルのうちの前記第１のグループまたは前記第２のグループを得るために、前記第１の復号モジュール（１１０）を利用することによって、カイザー−ベッセル関数に応じて前記複数のスペクトル領域オーディオサンプルの一部を復号するように構成されており、
前記復号器は、前記第１のビットおよび前記第２のビットがともに前記第２のビット値組み合わせを有する場合に、前記時間領域中間オーディオサンプルのうちの前記第１のグループまたは前記第２のグループを得るために、前記第１の復号モジュール（１１０）を利用することによって、サイン関数またはコサイン関数に応じて前記複数のスペクトル領域オーディオサンプルの一部を復号するように構成されており、
前記復号器は、前記第１のビットおよび前記第２のビットがともに前記第３のビット値組み合わせを有する場合に、前記時間領域中間オーディオサンプルの前記第１のグループまたは前記第２のグループを得るために、前記第１の復号モジュール（１１０）を利用することによって、前記複数のスペクトル領域オーディオサンプルの一部を復号するように構成されており、
前記復号器は、前記第１のビットおよび前記第２のビットがともに第４のビット値組み合わせを有する場合に、前記時間領域中間オーディオサンプルのうちの前記第３のグループまたは前記第４のグループを得るために、前記第２の復号モジュール（１２０）を利用することによって、前記複数のスペクトル領域オーディオサンプルの前記一部を復号するように構成されている、請求項１〜２３のいずれか一項に記載の復号器。
時間領域オーディオサンプルの複数のグループからスペクトル領域オーディオサンプルの複数のグループを生成することによって、オーディオ信号の複数の時間領域オーディオサンプルを符号化するための符号化器であって、
前記時間領域オーディオサンプルのグループのうちの第１のグループから前記スペクトル領域オーディオサンプルのグループのうちの第１のグループを生成し、前記時間領域オーディオサンプルのグループのうちの第２のグループから前記スペクトル領域オーディオサンプルのグループのうちの第２のグループを生成するための第１の符号化モジュール（２１０）であり、前記時間領域オーディオサンプルの第１のグループおよび前記時間領域オーディオサンプルの第２のグループは、前記時間領域オーディオサンプルのグループ内で時間的に隣接しており、前記時間領域オーディオサンプルの前記第１のグループは、前記時間領域オーディオサンプルの前記第２のグループの前記オーディオサンプルの５％を超え５０％以下を含み、前記時間領域オーディオサンプルの前記第２のグループは、前記時間領域オーディオサンプルの前記第１のグループのオーディオサンプルの５％を超え５０％以下を含む、第１の符号化モジュール（２１０）と、
前記時間領域オーディオサンプルの前記グループのうちの第３のグループから前記スペクトル領域オーディオサンプルの前記グループのうちの第３のグループを生成し、前記時間領域オーディオサンプルの前記グループのうちの第４のグループから前記スペクトル領域オーディオサンプルの前記グループのうちの第４のグループを生成するための第２の符号化モジュール（２２０）であり、前記時間領域オーディオサンプルの前記第３のグループは、前記時間領域オーディオサンプルの前記第４のグループの前記オーディオサンプルの６０％を超え１００％未満を含み、前記時間領域オーディオサンプルの前記第４のグループは、前記時間領域オーディオサンプルの前記第３のグループの前記オーディオサンプルの６０％を超え１００％未満を含む、第２の符号化モジュール（２２０）と、
前記スペクトル領域オーディオサンプルの第１のグループ、前記スペクトル領域オーディオサンプルの第２のグループ、前記スペクトル領域オーディオサンプルの第３のグループおよび前記スペクトル領域オーディオサンプルの第４のグループを出力するための出力モジュール（２３０）と
を備え、
前記時間領域オーディオサンプルの前記第３のグループは、前記時間領域オーディオサンプルの前記第２のグループのオーディオサンプルを含み、または、前記時間領域オーディオサンプルの前記第４のグループは、前記時間領域オーディオサンプルの前記第１のグループのオーディオサンプルを含む、符号化器。
前記時間領域オーディオサンプルの前記第１のグループは、時間的に前記時間領域オーディオサンプルの前記第２のグループに先行し、前記時間領域オーディオサンプルの前記第２のグループは、時間的に前記時間領域オーディオサンプルの前記第３のグループに先行し、前記時間領域オーディオサンプルの前記第３のグループは、時間的に前記時間領域オーディオサンプルの前記第４のグループに先行し、前記時間領域オーディオサンプルの前記第３のグループは、前記時間領域オーディオサンプルの前記第２のグループのオーディオサンプルを含み、または
前記時間領域オーディオサンプルの前記第３のグループは、時間的に前記時間領域オーディオサンプルの前記第４のグループに先行し、前記時間領域オーディオサンプルの前記第４のグループは、時間的に前記時間領域オーディオサンプルの前記第１のグループに先行し、前記時間領域オーディオサンプルの前記第１のグループは、時間的に前記時間領域オーディオサンプルの前記第２のグループに先行し、前記時間領域オーディオサンプルの前記第４のグループは、前記時間領域オーディオサンプルの前記第１のグループのオーディオサンプルを含む、請求項２６に記載の符号化器。
前記時間領域オーディオサンプルの前記第１のグループは、前記時間領域オーディオサンプルの第２のグループの正確に５０％の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの第２のグループは、前記時間領域オーディオサンプルの第１のグループの正確に５０％の前記オーディオサンプルを含み、
前記時間領域オーディオサンプルの前記第３のグループは、前記時間領域オーディオサンプルの前記第４のグループの少なくとも７５％で１００％未満の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの前記第４のグループは、前記時間領域オーディオサンプルの前記第３のグループの少なくとも７５％で１００％未満の前記オーディオサンプルを含む、請求項２６または２７に記載の符号化器。
前記第１の符号化モジュール（２１０）は、修正離散コサイン変換または修正離散サイン変換を実行するように構成されており、
前記第２の符号化モジュール（２２０）は、拡張重複変換または修正拡張重複変換を実行するように構成されている、請求項２８に記載の符号化器。
前記時間領域オーディオサンプルの前記第３のグループは、前記時間領域オーディオサンプルの前記第４のグループの正確に７５％の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの前記第４のグループは、前記時間領域オーディオサンプルの前記第３のグループの正確に７５％の前記オーディオサンプルを含む、請求項２８または２９に記載の符号化器。
前記時間領域オーディオサンプルの前記第１のグループの時間領域オーディオサンプルの第１の数が、前記時間領域オーディオサンプルの前記第２のグループの時間領域オーディオサンプルの第２の数と等しく、
前記時間領域オーディオサンプルの前記第３のグループの時間領域オーディオサンプルの第３の数が、前記時間領域オーディオサンプルの前記第４のグループの時間領域オーディオサンプルの第４の数と等しく、
前記第２の数は、前記第３の数を２で除算した数に等しく、前記第１の数は、前記第４の数を２で除算した数に等しい、請求項２６〜３０のいずれか一項に記載の符号化器。
前記第２の符号化モジュール（２２０）は、前記時間領域オーディオサンプルの前記グループのうちの第５のグループから前記スペクトル領域オーディオサンプルのグループのうちの第５のグループを生成するように構成されており、前記第２の符号化モジュール（２２０）は、前記時間領域オーディオサンプルの前記グループのうちの第６のグループから前記スペクトル領域オーディオサンプルのグループのうちの第６のグループを生成するように構成されており、
前記時間領域オーディオサンプルの前記第３のグループまたは前記第４のグループは、前記時間領域オーディオサンプルの前記第５のグループの少なくとも７５％かつ１００％未満の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの前記第５のグループは、前記時間領域オーディオサンプルの前記第３のグループまたは前記第４のグループの少なくとも７５％かつ１００％未満の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの前記第５のグループは、前記時間領域オーディオサンプルの前記第６のグループの少なくとも７５％かつ１００％未満の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの前記第６のグループは、前記時間領域オーディオサンプルの前記第５のグループの少なくとも７５％かつ１００％未満の前記オーディオサンプルを含み、
前記出力モジュール（２３０）は、前記スペクトル領域オーディオサンプルの第５のグループ、および、前記スペクトル領域オーディオサンプルの第６のグループをさらに出力するように構成されている、請求項２６〜３１のいずれか一項に記載の符号化器。
前記符号化器は、前記時間領域オーディオ信号の一部の信号特性に応じて、スペクトル領域オーディオサンプルの現在のグループを生成するために、前記第１の符号化モジュール（２１０）または前記第２の符号化モジュール（２２０）のいずれかを利用するように構成されている、請求項２６〜３２のいずれか一項に記載の符号化器。
前記符号化器は、前記複数の時間領域オーディオサンプルからなる現在のグループが非定常領域および非調性領域の少なくとも１つを含むか、または前記少なくとも１つを含まないかを信号特性として決定するように構成されており、前記符号化器は、前記複数の時間領域オーディオサンプルからなる前記現在のグループが前記非定常領域および前記非調性領域の前記少なくとも１つを含む場合、前記複数の時間領域オーディオサンプルからなる前記現在のグループに応じて、前記第１の符号化モジュール（２１０）を利用して、前記スペクトル領域オーディオサンプルの現在のグループを生成するように構成されており、
前記符号化器は、前記複数の時間領域オーディオサンプルからなる前記現在のグループが前記非定常領域および前記非調性領域の前記少なくとも１つを含まない場合、前記複数の時間領域オーディオサンプルからなる前記現在のグループに応じて、前記第２の符号化モジュール（２２０）を利用して、前記スペクトル領域オーディオサンプルの現在のグループを生成するように構成されている、請求項３３に記載の符号化器。
前記出力モジュール（２３０）は、前記信号特性に応じて第１のビット値または第２のビット値のいずれかを有するビットを出力するように構成されている、請求項３３または３４に記載の符号化器。
前記第２の符号化モジュール（２２０）は、以下に応じて前記スペクトル領域オーディオサンプルの前記第３のグループおよび前記第４のグループのうちの少なくとも１つを生成するように構成されており、
ｃｓ（ａ（ｎ＋ｂ）（ｋ＋ｃ））
ここで、ｃｓ（）はｃｏｓ（）またはｓｉｎ（）であり、
ｎは、前記時間領域オーディオサンプルの前記第３のグループまたは前記第４のグループに属する時間領域オーディオサンプルのうちの１つの時間インデックスを示し、
ｋは、前記スペクトル領域オーディオサンプルの前記第１のグループ、前記第２のグループ、前記第３のグループまたは前記第４のグループに属するスペクトル領域オーディオサンプルのうちの１つのスペクトルインデックスを示し、
−０．１≦ｃ≦０．１または０．４≦ｃ≦０．６または０．９≦ｃ≦１．１であり、
ａ＝ｑ／Ｍであり、
０．９・π≦ｑ≦１．１・πであり、
Ｍは前記スペクトル領域オーディオサンプルの前記第１のグループもしくは前記第２のグループまたは前記第３のグループもしくは前記第４のグループのスペクトル領域オーディオサンプルの数を示し、
ｂ＝（ｓ・Ｍ＋１）／２であり、
１．５≦ｓ≦４．５であり、ｃは第１のエイリアシング低減係数、ｑは第２のエイリアシング低減係数、ｓは第３のエイリアシング低減係数である、請求項２６〜３５のいずれか一項に記載の符号化器。
前記第１の符号化モジュール（２１０）は、以下に応じて、前記スペクトル領域オーディオサンプルの前記第１のグループおよび前記第２のグループのうちの少なくとも１つを生成するように構成されており、
ｃｓ_１（ａ（ｎ_１＋ｂ_１）（ｋ＋ｃ_１））
ここで、ｃｓ_１（）はｃｏｓ（）またはｓｉｎ（）であり、
ｎ_１は、前記時間領域オーディオサンプルの前記第１のグループまたは前記第２のグループの前記時間領域オーディオサンプルのうちの１つの時間インデックスを示し、−０．１≦ｃ_１≦０．１または０．４≦ｃ_１≦０．６または０．９≦ｃ_１≦１．１であり、
ｂ_１＝（Ｍ＋１）／２であり、
ｋは、前記スペクトル領域オーディオサンプルの前記第１のグループまたは前記第２のグループに属するスペクトル領域オーディオサンプルのうちの１つのスペクトルインデックスを示し、
Ｍは前記スペクトル領域オーディオサンプルの前記第１のグループまたは前記第２のグループに属するスペクトル領域オーディオサンプルの数を示し、
ａ＝ｑ／Ｍであり、
０．９・π≦ｑ≦１．１・πであり、ｑは実数であり、
ａは第４のエイリアシング低減係数、ｎ _１は第５のエイリアシング低減係数、ｂ _１は第６のエイリアシング低減係数、ｃ _１は第７のエイリアシング低減係数である、請求項３６に記載の符号化器。
ｃ＝０、またはｃ＝０．５、またはｃ＝１であり、
ｑ＝πであり、
ｓ＝３である、請求項３６または３７に記載の符号化器。
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝０．５であり、ｃ_１＝０．５であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝１であり、ｃ_１＝０であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０．５であり、ｃ_１＝１であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０であり、ｃ_１＝１であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０．５であり、ｃ_１＝０．５であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｓｉｎ（）であり、ｃ＝０であり、ｃ_１＝０．５であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｃｏｓ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝０．５であり、ｃ_１＝０であり、または
ｑ＝πであり、ｓ＝３であり、ｃｓ（）はｓｉｎ（）であり、ｃｓ_１（）はｃｏｓ（）であり、ｃ＝１であり、ｃ_１＝０である、請求項３７に記載の符号化器。
前記第２の符号化モジュール（２２０）は、以下に応じて、前記スペクトル領域オーディオサンプルの前記第３のグループおよび前記第４のグループのうちの少なくとも１つを生成するように構成されており、

、または

、または

、または

ここで、

は、前記スペクトル領域オーディオサンプルの前記第３のグループまたは前記第４のグループに属するスペクトル領域オーディオサンプルの１つを示し、

は時間領域値を示す、請求項３８に記載の符号化器。
前記第２の符号化モジュール（２２０）は、

にしたがって、前記時間領域オーディオサンプルの前記第３のグループまたは前記第４のグループに属する時間領域オーディオサンプルｓ_ｉ（ｎ）に、重みｗ（ｎ）を適用して、前記時間領域値

を生成するように構成されている、請求項４０に記載の符号化器。
前記時間領域オーディオサンプルの前記第２のグループのすべての時間領域オーディオサンプルが、前記時間領域オーディオサンプルの前記第３のグループの時間領域オーディオサンプルと重複するか、または
前記時間領域オーディオサンプルの前記第１のグループのすべての時間領域オーディオサンプルが、前記時間領域オーディオサンプルの前記第４のグループと重複する、請求項２６〜４１のいずれか一項に記載の符号化器。
ｗ_ｅｌｔは第１の窓関数であり、
ｗ_ｔｒは第２の窓関数であり、
前記第２の窓関数の一部は以下に従って定義され、

Ｍは、前記スペクトル領域オーディオサンプルの前記第１のグループもしくは前記第２のグループまたは前記第３のグループもしくは前記第４のグループのスペクトル領域オーディオサンプルの数を示し、
ｋは０≦ｋ＜Ｍの数であり、
ｄは実数であり、
ｔ＝（Ｌ／２）＋ｋまたはｔ＝（Ｌ／２）−１−ｋであり、
Ｌは、前記時間領域オーディオサンプルの前記第３のグループまたは前記第４のグループの時間領域オーディオサンプルの数を示し、
前記時間領域オーディオサンプルの前記第３のグループは、前記前記時間領域オーディオサンプルの前記第２のグループのオーディオサンプルを含み、前記第２の符号化モジュール（２２０）は、前記時間領域オーディオサンプルの前記第４のグループに前記第１の窓関数ｗ_ｅｌｔを適用するように構成されており、前記第２の符号化モジュール（２２０）は、前記時間領域オーディオサンプルの前記第３のグループに前記第２の窓関数ｗ_ｔｒを適用するように構成されており、または
前記時間領域オーディオサンプルの前記第４のグループは、前記前記時間領域オーディオサンプルの前記第１のグループのオーディオサンプルを含み、前記第２の符号化モジュール（２２０）は、前記時間領域オーディオサンプルの第３のグループに前記第１の窓関数ｗ_ｅｌｔを適用するように構成されており、前記第２の符号化モジュール（２２０）は、前記時間領域オーディオサンプルの第４のグループに前記第２の窓関数ｗ_ｔｒを適用するように構成されている、請求項２６〜４２のいずれか一項に記載の符号化器。
ｗ_ｔｒ１は第３の窓関数であり、
前記第３の窓関数の一部は以下に従って定義され、

ここで、ｔ_１＝（Ｎ／２）＋ｋまたはｔ_１＝（Ｎ／２）−１−ｋであり、
Ｎは、前記時間領域オーディオサンプルの前記第１のグループまたは前記第２のグループの時間領域オーディオサンプルの数を示し、
前記時間領域オーディオサンプルの前記第３のグループは、前記前記時間領域オーディオサンプルの前記第２のグループのオーディオサンプルを含み、前記第２の符号化モジュール（２２０）は、前記時間領域オーディオサンプルの第２のグループに前記第３の窓関数ｗ_ｔｒ１を適用するように構成されており、または
前記時間領域オーディオサンプルの前記第４のグループは、前記前記時間領域オーディオサンプルの前記第１のグループのオーディオサンプルを含み、前記第２の符号化モジュール（２２０）は、前記時間領域オーディオサンプルの第１のグループに前記第３の窓関数ｗ_ｔｒ１を適用するように構成されている、請求項４３に記載の符号化器。
前記第１の窓関数ｗ_ｅｌｔは以下に従って定義され、

ここで、

であり、
ｂ_０、ｂ_１、およびｂ_２は実数であり、
０≦ｔ＜Ｌであり、
Ｋは正の整数であり、
ｃｋは実数を示す、請求項４３または４４に記載の符号化器。
Ｋ＝３であり、
０．３≦ｂ０≦０．４であり、
−０．６≦ｂ１≦−０．４であり、
０．０１≦ｂ２≦０．２であり、
０．００１≦ｃ１≦０．０３であり、
０．０００００１≦ｃ２≦０．０００５であり、
０．０００００１≦ｃ３≦０．００００２である、請求項４５に記載の符号化器。
ｗ_ｅｌｔは第１の窓関数であり、
ｗ_ｍｌｔは第２の窓関数であり、
ｗ’_ｍｌｔは第３の窓関数であり、前記第３の窓関数は以下に従って定義され、

ここで、Ｍは、前記スペクトル領域オーディオサンプルの前記第１のグループまたは前記第２のグループまたは前記第３のグループまたは前記第４のグループのスペクトル領域オーディオサンプルの数を示し、
ｋは０≦ｋ＜Ｍである数であり、
ｄは実数であり、
ｎは整数であり、
前記第１の符号化モジュール（２１０）および前記第２の符号化モジュール（２２０）のうちの少なくとも１つは、前記時間領域オーディオサンプルの前記第１のグループおよび前記第２のグループおよび前記第３のグループおよび前記第４のグループのうちの少なくとも１つに、前記第３の窓関数ｗ’_ｍｌｔを適用するように構成されている、請求項２６〜４２のいずれか一項に記載の符号化器。
ｗ_ｅｌｔは第１の窓関数であり、
ｗ_ｓｓは第２の窓関数であり、
前記第２の窓関数は以下に従って定義され、

ここで、Ｍは、前記スペクトル領域オーディオサンプルの前記第１のグループまたは前記第２のグループまたは前記第３のグループまたは前記第４のグループのスペクトル領域オーディオサンプルの数を示し、
ｋは０≦ｋ＜Ｍである数であり、
ｄは実数であり、
ｎは整数であり、
前記第１の符号化モジュール（２１０）および前記第２の符号化モジュール（２２０）のうちの少なくとも１つは、前記時間領域オーディオサンプルの前記第１のグループおよび前記第２のグループおよび前記第３のグループおよび前記第４のグループのうちの少なくとも１つに、前記第２の窓関数ｗ_ｓｓを適用するように構成されている、請求項２６〜４２のいずれか一項に記載の符号化器。
０．８≦ｄ≦１．２５である、請求項４３〜４８のいずれか一項に記載の符号化器。
ｄ＝４０９６／４０６１である、請求項４９に記載の符号化器。
ｄ＝１である、請求項４３〜４８のいずれか一項に記載の符号化器。
システムであって、
請求項２６〜５１のいずれか一項に記載の符号化器（３１０）と、
請求項１〜２５のいずれか一項に記載の復号器（３２０）と
を備え、
前記請求項２６〜５１のいずれか一項に記載の符号化器（３１０）は、複数のスペクトル領域オーディオサンプルを生成することによってオーディオ信号の複数の時間領域オーディオサンプルを符号化するように構成されており、
前記請求項１〜２５のいずれか一項に記載の復号器（３２０）は、前記符号化器から複数のスペクトル領域オーディオサンプルを受信するように構成されており、
前記請求項１〜２５のいずれか一項に記載の復号器（３２０）は、前記複数のスペクトル領域オーディオサンプルを復号するように構成されている、システム。
前記符号化器（３１０）が、請求項４９に記載の符号化器であり、
前記復号器（３２０）が、請求項２１に記載の復号器である、請求項５２に記載のシステム。
前記符号化器（３１０）が、請求項５０に記載の符号化器であり、
前記復号器（３２０）が、請求項２２に記載の復号器である、請求項５３に記載のシステム。
複数のスペクトル領域オーディオサンプルを復号するための方法であって、
前記スペクトル領域オーディオサンプルの第１のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第１のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第１のグループを復号し、前記スペクトル領域オーディオサンプルの第２のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第２のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第２のグループを復号することと、
時間領域中間オーディオサンプルの正確に２つのグループをオーバーラップ加算することであり、前記正確に２つのグループは、時間領域中間オーディオサンプルの前記第１のグループおよび前記第２のグループであり、前記正確に２つのグループは、５％を超え最大５０％のオーバーラップを伴ってオーバーラップ加算され、前記正確に２つのグループの前記オーバーラップ加算の結果として、オーディオ信号の第１の複数の時間領域オーディオ出力サンプルがもたらされる、オーバーラップ加算することと、
前記スペクトル領域オーディオサンプルの第３のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第３のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第３のグループを復号し、前記スペクトル領域オーディオサンプルの第４のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第４のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第４のグループを復号することと、
前記オーディオ信号の前記第１の複数の時間領域オーディオ出力サンプル、前記オーディオ信号の第２の複数の時間領域オーディオ出力サンプル、および、前記オーディオ信号の第３の複数の時間領域オーディオ出力サンプルを出力することと、
少なくとも前記時間領域中間オーディオサンプルの第３のグループと、前記時間領域中間オーディオサンプルの第４のグループとの、６０％を超え１００％未満のオーバーラップを伴ったオーバーラップ加算を使用して、前記第２の複数の時間領域オーディオ出力サンプルを得ることと、
少なくとも前記時間領域中間オーディオサンプルの第２のグループと、前記時間領域中間オーディオサンプルの第３のグループとのオーバーラップ加算を使用して前記第３の複数の時間領域オーディオ出力サンプルを得ること、または、少なくとも前記時間領域中間オーディオサンプルの第４のグループと、前記時間領域中間オーディオサンプルの第１のグループとのオーバーラップ加算を使用して前記第３の複数の時間領域オーディオ出力サンプルを得ること
を含む、方法。
時間領域オーディオサンプルの複数のグループからスペクトル領域オーディオサンプルの複数のグループを生成することによって、オーディオ信号の複数の時間領域オーディオサンプルを符号化するための方法であって、前記方法は、
前記時間領域オーディオサンプルのグループのうちの第１のグループから前記スペクトル領域オーディオサンプルのグループのうちの第１のグループを生成し、前記時間領域オーディオサンプルのグループのうちの第２のグループから前記スペクトル領域オーディオサンプルのグループのうちの第２のグループを生成することであり、前記時間領域オーディオサンプルの第１のグループおよび前記時間領域オーディオサンプルの第２のグループは、前記時間領域オーディオサンプルのグループ内で時間的に隣接しており、前記時間領域オーディオサンプルの前記第１のグループは、前記時間領域オーディオサンプルの前記第２のグループの前記オーディオサンプルの５％を超え５０％以下を含み、前記時間領域オーディオサンプルの前記第２のグループは、前記時間領域オーディオサンプルの前記第１のグループのオーディオサンプルの５％を超え５０％以下を含む、生成することと、
前記時間領域オーディオサンプルの前記グループのうちの第３のグループから前記スペクトル領域オーディオサンプルの前記グループのうちの第３のグループを生成し、前記時間領域オーディオサンプルの前記グループのうちの第４のグループから前記スペクトル領域オーディオサンプルの前記グループのうちの第４のグループを生成することであり、前記時間領域オーディオサンプルの前記第３のグループは、前記時間領域オーディオサンプルの前記第４のグループの前記オーディオサンプルの６０％を超え１００％未満を含み、前記時間領域オーディオサンプルの前記第４のグループは、前記時間領域オーディオサンプルの前記第３のグループの前記オーディオサンプルの６０％を超え１００％未満を含む、生成することと、
前記スペクトル領域オーディオサンプルの第１のグループ、前記スペクトル領域オーディオサンプルの第２のグループ、前記スペクトル領域オーディオサンプルの第３のグループおよび前記スペクトル領域オーディオサンプルの第４のグループを出力することと
を含み、
前記時間領域オーディオサンプルの前記第３のグループは、前記時間領域オーディオサンプルの前記第２のグループのオーディオサンプルを含み、または、前記時間領域オーディオサンプルの前記第４のグループは、前記時間領域オーディオサンプルの前記第１のグループのオーディオサンプルを含む、方法。
コンピュータまたは信号プロセッサ上で実行されるとき、請求項５５または５６に記載の方法を実施するためのコンピュータプログラム。