JP7323679B2

JP7323679B2 - ダウンスケールされた復号化

Info

Publication number: JP7323679B2
Application number: JP2022093395A
Authority: JP
Inventors: マルクスシュネル; マンフレードルツキ; エレニフォトプゥルゥ; コンスタンティンシュミット; コンラートベンドルフ; エイドリアントマセク; トビアスアルベルト; タイモンザイドル
Original assignee: フラウンホッファー－ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2015-06-16
Filing date: 2022-06-09
Publication date: 2023-08-08
Anticipated expiration: 2036-06-10
Also published as: JP7322249B2; CA3150683A1; EP4231287A1; EP3311380B1; JP2018524631A; JP7089079B2; CA3150637C; US10431230B2; ES2950408T3; KR20220095247A; MX2017016171A; EP4365895A2; FI3311380T3; KR20230145252A; CA3150666C; US11341979B2; EP4239633A3; KR102412485B1; JP2020064312A; EP4239632A2

Description

本出願は、ダウンスケールされた復号化の概念に関する。

ＭＰＥＧ－４拡張低遅延ＡＡＣ（ＭＰＥＧ－４ＥｎｈａｎｃｅｄＬｏｗＤｅｌａｙ；ＡＡＣ－ＥＬＤ）は、通常、最高４８ｋＨｚのサンプル・レートで処理され、１５ｍｓのアルゴリズムの遅延を結果として得る。いくつかのアプリケーション、たとえば、オーディオの同期録音の伝送のために、さらに低い遅延が望ましい。ＡＡＣ－ＥＬＤは、既に、より高いサンプル・レート、たとえば、９６ｋＨｚで処理することによってすでにこの種のオプションを提供する。したがって、処理モードにさらにより低い遅延、たとえば、７．５ｍｓを提供する。しかしながら、この処理モードは、高いサンプル・レートのため、不必要に高い複雑さによって進行する。

この課題の解決は、フィルタ・バンクのダウンスケールされたバージョンを適用して、したがって、より低いサンプル・レート、たとえば、９６ｋＨｚの代わりに４８ｋＨｚでオーディオ信号をレンダーすることである。ダウンスケールする処理は、すでに、ＭＰＥＧ－４ＡＡＣ－ＬＤコーデックから継承されて、すでに、そのままＡＡＣ－ＥＬＤの部分であり、ＡＡＣ－ＥＬＤの基礎として役立つ。

しかしながら、残る問題は、どのように、特定のフィルタ・バンクのダウンスケールされたバージョンを見つけるのかということである。すなわち、ＡＡＣ－ＥＬＤデコーダのダウンスケール処理モードの明確な一致テストを可能にする間、唯一の不確定度は、ウィンドウ係数が導出される方法である。

以下において、ＡＡＣ－（Ｅ）ＬＤコーデックのダウンスケールされた処理モードの原理が記載される。

ダウンスケールされた処理モードまたはＡＡＣ－ＬＤが、セクション４．６．１７．２．７「より低いサンプリング・レートを使用するシステムへの適応」のＩＳＯ／ＩＥＣ１４４９６－３：２００９において、ＡＡＣ－ＬＤについて以下のように記載される。

「特定のアプリケーションにおいて、ビットストリーム・ペイロードの名目上のサンプリング・レートが、より非常に高い（たとえば、約２０ｍｓのアルゴリズムのコーデック遅延に対応する、４８ｋＨｚ）一方、より低い遅延デコーダを、より低いサンプリング・レート（たとえば、１６ｋＨｚ）で動作しているオーディオシステムに集積するのに必要でありうる。そのような場合、復号化の後、付加的なサンプリング・レート変換処理を使用することよりむしろターゲットサンプリング・レートで直接低い遅延コーデックの出力を復号化することは、有利である。

これは、いくつかの整数ファクター（たとえば、２、３）によって、コーデックのその時間／周波数の解像度を結果として得るように、フレームサイズおよびサンプリング・レートの両方のダウンスケールに割り当てることによって、近似される。たとえば、コーデック出力は、たとえば、合成フィルタ・バンクに先行するスペクトル係数の最低３分の１（すなわち、４８０／３＝１６０）だけを保持し、逆変換サイズを次のように３分の１に低減することによって（すなわち、ウィンドウサイズ９６０／３＝３２０）、名目上４８ｋＨｚではなく１６ｋＨｚのサンプリング・レートで生成することができる。

結果として、より低いサンプリング・レートのための復号化は、メモリ要件および計算要件の両方を低減するが、帯域制限およびサンプル・レート変換に続く全帯域幅デコードと全く同じ出力を生成しない可能性がある。

上記のように、より低いサンプリング・レートで復号化することは、ＡＡＣ低遅延ビットストリーム・ペイロードの名目上のサンプリング・レートを意味するレベルの解釈には影響しないことに注意してください。」

ＡＡＣ－ＬＤは、標準のＭＤＣＴフレームワークと２つのウィンドウシェイプ、つまりサイン・ウィンドウとローオーバーラップウィンドウで動作する点に留意されたい。両方のウィンドウは式で完全に記述されているため、任意の変換長のウィンドウ係数を決定できる。

ＡＡＣ－ＬＤと比較して、ＡＡＣ－ＥＬＤコーデックは、２つの大きな違いを示す：
・低い遅延ＭＤＣＴウィンドウ（ＬＤ－ＭＤＣＴ）
・低遅延ＳＢＲツールを利用する可能性

低遅延ＭＤＣＴウィンドウを使用するＩＭＤＣＴアルゴリズムは、［１］の４．６．２０．２において記載され、それは、たとえば、サイン・ウィンドウを使用する標準ＩＭＤＣＴバージョンに非常に類似する。低ＭＤＣＴウィンドウ（４８０および５１２のサンプルフレームサイズ）の係数は、［１］の表４．Ａ．１５および表４．Ａ．１６において与えられる。係数は、最適化アルゴリズムの結果であるため、数式で係数を決定することはできない点に留意されたい。図９は、フレームサイズ５１２のウィンドウ形状のプロットを示す。

低遅延ＳＢＲ（ＬＤ－ＳＢＲ）ツールがＡＡＣ－ＥＬＤコーダと共に使用される場合、ＬＤ－ＳＢＲモジュールのフィルタ・バンクも同様にダウンスケールされる。これにより、ＳＢＲモジュールが同じ周波数分解能で処理することが保証されるため、これ以上の適応は必要ない。

したがって、上記の説明は、たとえば、ＡＡＣ－ＥＬＤでの復号化をダウンスケールするなど、復号化をダウンスケールする必要があることを明らかにする。ダウンスケールされた合成ウィンドウ関数の係数を新たに見つけることは可能であるが、これは厄介な作業であり、ダウンスケールされたバージョンを記憶するための追加の記憶を必要とし、非ダウンスケールされた復号化とダウンスケールされた復号化との間の適合チェックを、別の観点からは、たとえば、ＡＡＣ－ＥＬＤで要請されたダウンスケールの方法に従わない。ダウンスケール比、すなわち、もとのサンプリング・レートとダウンサンプルされたサンプリング・レートとの比に応じて、ダウンサンプルされた合成ウィンドウ関数を単純にダウンサンプル、すなわちもとの合成ウィンドウ関数の２番目、３番目、この手順では、それぞれ非ダウンスケールされた復号化とダウンスケールされた復号化の十分な適合性が得られない。合成ウィンドウ関数に適用されるより高度なデシメーションプロシージャを使用すると、もとの合成ウィンドウ関数形状からの許容できない偏差が生じる。したがって、当技術分野では、改良されたダウンスケールされる復号化の概念が必要とされている。

ISO/IEC 14496-3:2009 M13958, "Proposal for an Enhanced Low Delay Coding Mode", October 2006, Hangzhou, China

したがって、本発明の目的は、このような改良されたダウンスケールされた復号化を可能にするオーディオ復号化スキームを提供することである。

この目的は、独立請求項の主題によって達成される。

本発明は、ダウンスケールされたオーディオ復号化に使用される合成ウィンドウが、ダウンコンバートされたオーディオ復号化に含まれる参照合成ウィンドウのダウンサンプルされたバージョンである場合に、オーディオ復号化処理のダウンスケールされたバージョンがより効果的におよび／またはダウンサンプルされたサンプリング・レートおよびもとのサンプリング・レートが逸脱するダウンサンプリング係数によるダウンサンプリング化による非ダウンスケールされたオーディオ復号化処理と、フレーム長の１／４のセグメント補間を使用してダウンサンプルされる。

本出願の有利な態様は、従属請求項の主題である。本出願の好ましい実施形態は、図面に関して以下に説明される。

図１は、完全な再構成を保存するために復号化をダウンスケールするときに従う必要がある完全な再構成要件を示す概略図を示す。図２は、実施例に記載されるダウンスケールされた復号化のためのオーディオデコーダのブロック図を示す。図３は、オーディオ信号がもとのサンプリング・レートでデータストリームに符号化され、図２のオーディオデコーダの動作モードを示すように、上半分から破線の水平線で分離された下半分において、ダウンスケールされたデータストリームからオーディオ信号を低減またはダウンスケールされたサンプリング・レートで再構成するための復号化処理を実行する。図４は、図２のウィンドウ化器と時間領域エイリアシング・キャンセラーとの協働を示す概略図である。図５は、スペクトル対時間変調された時間部分のゼロ加重部分の特別な処理を使用して、図４による再構成を達成するための可能な実装を示す。図６は、ダウンサンプルされた合成ウィンドウを得るためのダウンサンプルを示す概略図を示す。図７は、低遅延ＳＢＲツールを含むＡＡＣ－ＥＬＤのダウンスケールされた処理を示すブロック図を示す。図８は、モジュレータ、ウィンドウおよびキャンセラーがリフティング実装に従って実施される実施形態によるダウンスケールされた復号化のためのオーディオデコーダのブロック図を示す。図９は、ダウンサンプルされる参照合成ウィンドウの一例としての５１２サンプルフレームサイズに対するＡＡＣ－ＥＬＤによる低遅延ウィンドウのウィンドウ係数のグラフを示す。

以下の説明は、ＡＡＣ－ＥＬＤコーデックに関するダウンスケールされた復号化のための実施形態の説明から始める。すなわち、以下の説明は、ＡＡＣ－ＥＬＤのためにダウンスケールされたモードを形成する実施形態から始める。この記述は、同時に、本出願の実施形態の根底にある動機づけの一種の説明を形成する。その後、この説明が一般化され、それにより、本出願の一実施形態によるオーディオデコーダおよびオーディオ復号方法が
説明される。

本願の明細書の導入部で説明したように、ＡＡＣ－ＥＬＤは低遅延ＭＤＣＴウィンドウを使用する。そのダウンスケールされたバージョン、すなわちダウンスケールされた低遅延ウィンドウを生成するために、ＡＡＣ－ＥＬＤのためのダウンスケールされたモードを形成するために後に説明される提案は、非常に高い精度を有するＬＤ－ＭＤＣＴウィンドウの完全な再構成特性（ＰＲ）を維持するセグメント・スプライン補間アルゴリズムを使用する。したがって、アルゴリズムは、［２］で説明されているように、ＩＳＯ／ＩＥＣ
１４４９６－３：２００９に記述されているように、直接形式のウィンドウ係数を互換性のある方法で生成することができる。これは、両方の実装が１６ビット準拠の出力を生成することを意味する。

低遅延ＭＤＣＴウィンドウの補間は、以下のように実行される。

一般に、スプライン補間は、周波数応答とほぼ完璧な再構成特性（約１７０ｄＢＳＮＲ）を維持するためにダウンスケールされたウィンドウ係数を生成するために使用される。補間は、完全な再構成特性を維持するために特定のセグメントにおいて制約を受ける必要がある。変換のＤＣＴカーネルをカバーするウィンドウ係数ｃ（図１も参照、ｃ（１０２４）…ｃ（２０４８））に対しては、以下の制約が必要である。

ｉ＝０…Ｎ／２－１に対して、
１＝｜（ｓｇｎ・ｃ（ｉ）・ｃ（２Ｎ－１－ｉ）＋ｃ（Ｎ＋１）・ｃ（Ｎ－１－ｉ）｜
（１）

ここで、Ｎは、フレームサイズを意味する。いくつかの実装は、複雑さを最適化するために、異なる記号を使用することができ、ここでは、ｓｇｎによって意味される。（１）の要件は、図１で説明することができる。単純にＦ＝２の場合であっても、すなわち、サンプリング・レートを半分にすると、参照合成ウィンドウの第２のウィンドウ係数を１つ置きに放棄して、ダウンスケールされた合成ウィンドウを得ることは要件を満たさないことを思い出さなければならない。

係数ｃ（０）…ｃ（２Ｎ－１）は、ダイヤモンド形状に沿ってリスト化される。フィルタ・バンクの遅延低減の原因となるウィンドウ係数のＮ／４個のゼロは、太い矢印でマークされる。図1は、ＭＤＣＴに含まれるフォールディングによって引き起こされる係数の
依存性と、望ましくない依存性を避けるために補間が拘束される必要がある点を示す。

・Ｎ／２係数ごとに、補間を停止して（１）を維持する必要がある。
・さらに、補間アルゴリズムは、挿入されたゼロのためにすべての係数を停止する必要がある。これにより、ゼロが維持され、補間誤差が広がらず、ＰＲを維持することが保証される。

第２の制約は、ゼロを含むセグメントだけでなく、他のセグメントに対しても必要である。ＤＣＴカーネル内のいくつかの係数が最適化アルゴリズムによって決定されなかったが、ＰＲを可能にするために式（１）によって決定されたことを知ると、ウィンドウ形状におけるいくつかの不連続性が、たとえば、図１におけるｃ（１５３６＋１２８）付近で説明される。ＰＲ誤差を最小にするために、補間は、Ｎ／４グリッドに現れるそのような点で停止することを必要とする。

この理由により、セグメント・スプライン補間のためのセグメント・サイズが、ダウンスケールされたウィンドウ係数を生成するために選択される。ソース・ウィンドウ係数は
、常にＮ＝５１２に使用される係数によって与えられ、Ｎ＝２４０またはＮ＝１２０のフレームサイズをもたらすダウンスケーリング演算についても同様である。基本的なアルゴリズムは、ＭＡＴＬＡＢコードとして以下に簡単に概説される。

FAC = Downscaling factor % e.g. 0.5
sb = 128; % segment size of source window
w＿down = []; % downscaled window
nSegments = length(W)/(sb);% number of segments; W=LD window coefficients for
N=512

xn=((0:(FAC*sb-1))+0.5)/FAC-0.5; % spline init
for i=1:nSegments,
w＿down=[w＿down,spline([0:(sb-1)],W((i-1)*sb+(1:(sb))),xn)];
end;

スプライン関数が完全に決定論的でない可能性があるため、完全アルゴリズムは、ＡＡＣ－ＥＬＤで改良されたダウンスケールモードを形成するために、ＩＳＯ／ＩＥＣ１４４９６－３：２００９に含まれる次のセクションで正確に規定される。

換言すると、以下のセクションは、上記の考え方をＥＲＡＡＣＥＬＤにどのように適用できるか、すなわち、第１のデータレートよりも低い第２のデータレートで、低複雑なデコーダがどのようにして第１のデータレートで符号化されたＥＲＡＡＣＥＬＤビットストリームを符号化するかについて、提供する。ただし、以下で使用されるＮの定義は、標準に準拠していることが強調される。ここで、Ｎは、ＤＣＴカーネルの長さに対応するが、本明細書の上、請求項およびその後に説明される一般化された実施形態では、Ｎはフレーム長、すなわちＤＣＴカーネルの相互オーバーラップ長、すなわちＤＣＴカーネル長の半分に対応する。したがって、したがって、上記ではＮを５１２としたが、たとえば、以下では１０２４とする。

以下のパラグラフは、１４４９６－３：２００９に改正を介して含めるために提案されている。

Ａ．０より低いサンプリング・レートを使用するシステムへの適応
特定のアプリケーションでは、ＥＲＡＡＣＬＤは追加のリサンプリングステップ（４．６．１７．２．７を参照）を避けるために再生サンプル・レートを変更することができる。ＥＲＡＡＣＥＬＤは、低遅延ＭＤＣＴウィンドウとＬＤ－ＳＢＲツールを使用して同様のダウンスケーリングステップを適用できる。ＡＡＣ－ＥＬＤがＬＤ－ＳＢＲツールで動作する場合、ダウンスケーリング係数は２の倍数に制限される。ＬＤ－ＳＢＲがなければ、ダウンスケールされたフレームサイズは整数でなければならない。

fs＿window＿size = 2048; /* Number of fullscale window coefficients.
According to ISO/IEC 14496-3:2009, use 2048. For lifting implemenations,
please adjust this variable accordingly */
ds＿window＿size = N * fs＿window＿size / (1024 * F); /* downscaled window
coefficients; N determines the transformation length according to 4.6.20.2 */fs＿segment＿size = 128;
num＿segments = fs＿window＿size / fs＿segment＿size;
ds＿segment＿size = ds＿window＿size / num＿segments;
tmp[128], y[128]; /* temporary buffers */

/* loop over segments */
for (b = 0; b < num＿segments; b++) ｛
/* copy current segment to tmp */
copy(&W＿LD[b * fs＿segment＿size], tmp, fs＿segment＿size);

/* apply cubic spline interpolation for downscaling */
/* calculate interpolating phase */
phase = (fs＿window＿size - ds＿window＿size) / (2 * ds＿window＿size);

/* calculate the coefficients c of the cubic spline given tmp */
/* array of precalculated constants */
m = ｛0.166666672, 0.25, 0.266666681, 0.267857134,
0.267942578, 0.267948717, 0.267949164｝;
n = fs＿segment＿size; /* for simplicity */

/* calculate vector r needed to calculate the coefficients c */
for (i = n - 3; i >= 0; i--)
r[i] = 3 * ((tmp[i + 2] - tmp[i + 1]) - (tmp[i + 1] - tmp[i]));
for (i = 1; i < 7; i++)
r[i] -= m[i - 1] * r[i - 1];
for(i = 7; i < n - 4; i++)
r[i] -= 0.267949194 * r[i - 1];

/* calculate coefficients c */
c[n - 2] = r[n - 3] / 6;
c[n - 3] = (r[n - 4] - c[n - 2]) * 0.25;
for (i = n - 4; i > 7; i--)
c[i] = (r[i - 1] - c[i + 1]) * 0.267949194;
for (i = 7; i > 1; i--)
c[i]=(r[i-1]-c[i+1])*m[i-1];
c[1] = r[0] * m[0];
c[0] = 2 * c[1] - c[2];
c[n-1] = 2 * c[n - 2] - c[n - 3];

/* keep original samples in temp buffer y because samples of
tmp will be replaced with interpolated samples */
copy(tmp, y, fs＿segment＿size);

/* generate downscaled points and do interpolation */
for (k = 0; k < ds＿segment＿size; k++) ｛
step = phase + k * fs＿segment＿size / ds＿segment＿size;
idx = floor(step);
diff = step - idx;
di = (c[idx + 1] - c[idx]) / 3;
bi = (y[idx + 1] - y[idx]) - (c[idx + 1] + 2 * c[idx]) / 3;
/* calculate downscaled values and store in tmp */
tmp[k] = y[idx] + diff * (bi + diff * (c[idx] + diff * di));
｝

/* assemble downscaled window */
Copy(tmp, &W＿LD＿d[b* ds＿segment＿size], ds＿segment＿size);
｝

Ａ．２低遅延ＳＢＲツールのダウンスケール
低遅延ＳＢＲツールをＥＬＤと組み合わせて使用する場合、このツールは、少なくとも２の倍数のダウンスケール係数の場合、サンプル・レートを下げるためにダウンスケールすることができる。ダウンスケール係数Ｆは、ＣＬＤＦＢ分析および合成フィルタ・バンクに使用される帯域の数を制御する。次の２つのパラグラフでは、ダウンスケールされたＣＬＤＦＢ分析および合成フィルタ・バンクについて説明する（４．６．１９．４も参照）。

Ｆ＝２に設定すると、４．６．１９．４．３に従ってダウンサンプルされた合成フィルタ・バンクが得られることに留意されたい。したがって、ダウンサンプルされたＬＤ－ＳＢＲビットストリームを追加のダウンスケール係数Ｆで処理するためには、Ｆに２を掛ける必要がある。

４．６．２０．５．２．３ダウンスケールされた実数値のＣＬＤＦＢフィルタ・バンク
ＣＬＤＦＢのダウンスケールは、同様に低電力ＳＢＲモードの実数値のバージョンのために適用されうる。また、説明のために、４．６．１９．５を考慮する。
ダウンスケールされた実数分析および合成フィルタ・バンクについては、４．６．２０．５．２．１および４．６．２０．２．２の説明に従い、ｃｏｓ（）のモジュレータによってＭのｅｘｐ（）モジュレータを交換する。

ウィンドウ処理と重畳加算は、以下の方法で行われる：

長さＮのウィンドウは長さ２Ｎのウィンドウに置き換えられ、過去のオーバーラップはより大きく、将来のオーバーラップはより少なくなる（Ｎ／８の値は実際にはゼロである）。

ここで、パラグラフは、１４４９６－３：２００９改正の終わりまでに含まれるように提案された。

当然のことながら、ＡＡＣ－ＥＬＤの可能なダウンスケールされたモードの上記説明は、本出願の一実施形態を単に表しており、いくつかの変更が可能である。一般に、本出願の実施形態は、ＡＡＣ－ＥＬＤ復号化のダウンスケールされたバージョンを実行するオーディオデコーダに限定されない。換言すれば、本出願の実施形態は、たとえば、スペクトルエンベロープのスケールファクタベースの送信、ＴＮＳ（時間ノイズシェイピング）フィルタリング、スペクトル・バンド複製（ＳＢＲ）などのＡＡＣ－ＥＬＤに特有の様々な他のタスクをサポートすることなく、または使用することなく、ダウンスケールされる方法において、逆変換処理を実行することができるオーディオデコーダを形成することによって導出されうる。

次に、オーディオデコーダのより一般的な実施形態について説明する。上述のダウンスケールされたモードをサポートするＡＡＣ－ＥＬＤオーディオデコーダのための上記の概要の例は、このようにして説明されるオーディオデコーダの実装を表すことができる。特に、後に説明されるデコーダは図２に示され、図３は図２のデコーダによって実行されるステップを示す。

図２のオーディオデコーダは、参照符号１０を使用して一般に示されており、レシーバ１２、グラバー１４、スペクトル時間モジュレータ１６、ウィンドウ化器１８、および時間領域エイリアシング・キャンセラー２０を含み、それらの言及の順序で互いに直列に接続されている。オーディオデコーダ１０のブロック１２～２０の相互作用および機能性は、図３に関して以下に説明される。本出願の説明の最後に記載されているように、ブロック１２～２０は、コンピュータ・プログラム、ＦＰＧＡまたは適切にプログラムされたコンピュータ、プログラムされたマイクロプロセッサまたは特定用途向け集積回路の形態のようなソフトウェア、プログラム可能ハードウェアまたはハードウェアそれぞれのサブルーチンや回路パス等を表すブロック１２～２０との間でデータのやり取りを行う。

以下でより詳細に概説されるように、図２のオーディオデコーダ１０は、オーディオストリーム２４からオーディオ信号２２を復号化するために、オーディオデコーダ１０の要素が適切に協働するように構成されている。オーディオデコーダ２２は、オーディオ信号２２が符号化側でデータストリーム２４に変換符号化されたサンプリング・レートの１／Ｆであるサンプリング・レートで信号２２を復号することは注目に値する。Ｆは、たとえば、１より大きい有理数であってもよい。オーディオデコーダは、異なるもしくは可変のダウンスケーリング係数Ｆまたは固定されたスケーリング係数Ｆで動作するように構成することができる。代替案については、後で詳しく説明する。

オーディオ信号２２が符号化またはもとのサンプリング・レートでデータストリームに変換符号化される方法は、図３の上半分に示されている。図３は、図３において水平に延びる時間軸３０および図３において垂直に走る周波数軸３２に沿ってスペクトル的に配置された小さなボックスまたは四角２８を使用するスペクトル係数を示す。スペクトル係数２８は、データストリーム２４内で送信される。したがって、スペクトル係数２８が得られる方法、そして、スペクトル係数２８がオーディオ信号２２を表す方法が、図３の３４に示されており、そしてそれは、時間軸３０の一部について、スペクトル係数２８が、どのようにオーディオ信号から得られるそれぞれの時間部分に属しているか、または表しているかを示す。

特に、データストリーム２４内で送信される係数２８は、オーディオ信号２２の重複変換の係数であり、その結果、もとのまたは符号化サンプリング・レートでサンプリングされたオーディオ信号２２は、時間的に連続し、所定の長さＮを有する。ここで、Ｎ個のスペクトル係数は、各フレーム３６についてデータストリーム２４で送信される。すなわち、変換係数２８は、臨界サンプリングされた重畳変換を用いてオーディオ信号２２から得られる。スペクトログラムスペクトログラム表示２６において、スペクトル係数２８の列の時間的シーケンスの各列は、一連のフレームのフレーム３６のそれぞれに対応する。Ｎ個のスペクトル係数２８は、結果として得られるスペクトル係数２８が属するフレーム３６にわたってだけでなく、Ｅ＋１個前のフレームにまたがり、時間的に伸びる変調関数が、スペクトル分解変換または時間スペクトル変調によって、対応するフレーム３６について得られる。ここで、Ｅは、任意の整数または０より大きい任意の偶数番号の整数でありうる。すなわち、あるフレーム３６に属する２６のスペクトログラムの１つの列のスペクトル係数２８は、変換ウィンドウに変換を適用することによって得られ、さらに、それぞれのフレームは過去に現在のフレームに関して存在するＥ＋１個のフレームを含む。３４で示された部分の中間フレーム３６に属する変換係数列２８の図３に示されているこの変換ウィンドウ３８内のオーディオ信号のサンプルのスペクトル分解は、低遅延ユニモーダルな分析を用いて達成されるＭＤＣＴまたはＭＤＳＴまたは他のスペクトル分解変換を施す前に、変換ウィンドウ３８内のスペクトルサンプルに重み付けをするためのウィンドウ関数４０を使用する。エンコーダ側遅延を低下させるために、分析ウィンドウ４０は、エンコーダが現在のフレーム３６内の最新のサンプルの対応する部分を待つ必要がないように、その時間的な前端にゼロ間隔４２を含み、この現在のフレーム３６のスペクトル係数２８を生成する。すなわち、ゼロインターバル４２内では、低遅延ウィンドウ関数４０はゼロであるか、またはゼロウィンドウ係数を有するので、現在のフレーム３６の同じ位置に配置されたオーディオサンプルは、ウィンドウ加重４０のために変換係数２８と、データストリーム２４とを含む。すなわち、上記を要約すると、現在のフレーム３６に属する変換係数２８は、変換ウィンドウ３８の範囲内におけるオーディオ信号のサンプルのウィンドウ化およびスペクトル分解によって得られ、そしてそれは、現在のフレームだけでなく時間的な先行フレームを含み、時間的に隣接するフレームに属するスペクトル係数２８を決定するために使用される対応する変換ウィンドウと時間的にオーバーラップする。

オーディオデコーダ１０の説明を再開する前に、これまでに提供されたデータストリーム２４内のスペクトル係数２８の伝送の説明は、スペクトル係数２８が量子化される方法に関して簡略化されている、オーディオ信号をラップ変換に供する前に、オーディオ信号２２が前処理された方法および／またはデータストリーム２４に符号化されうる。たとえば、変換符号化されたオーディオ信号２２をデータストリーム２４に有するオーディオエンコーダは、心理音響モデルを介して制御されてもよいし、心理音響モデルを使用して、量子化雑音を保持してもよく、量子化及び送信されたスペクトル係数２８がスケーリングされるスペクトル帯域のためのスケールファクタを決定する。スケールファクタは、データストリーム２４においてもシグナリングされる。あるいは、オーディオエンコーダは、ＴＣＸ（ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ：変換符号化励振）タイプのエンコーダでありうる。次に、オーディオ信号は、励起信号、すなわち線形予測残差信号に重複変換を適用することによって、スペクトル係数２８のスペクトル視覚的表現２６を形成する前に、線形予測分析フィルタリングを受けていたであろう。たとえば、線形予測係数もデータストリーム２４にシグナリングされ、スペクトル係数２８を得るためにスペクトル均一量子化を適用することができる。

さらに、これまでの説明は、フレーム３６のフレーム長さおよび／または低遅延窓関数４０に関して単純化されている。実際、オーディオ信号２２は、変化するフレームサイズおよび／または異なるウィンドウ４０を使用してデータストリーム２４に符号化されうる。しかしながら、以下の説明は、オーディオ信号をデータストリームに符号化する間にエントロピー符号器がこれらのパラメータを変更する場合に容易に拡張することができるが、以下の説明は１つのウィンドウ４０と１フレーム長に集中する。

図２のオーディオデコーダ１０およびその説明に戻ると、レシーバ１２はデータストリーム２４を受信し、それによって各フレーム３６に対してＮ個のスペクトル係数２８、すなわち図３に示す係数２８のそれぞれの列を受信する。もとの符号化サンプリング・レートまたは符号化サンプリング・レートのサンプルで測定されたフレーム３６の時間的長さは、図３の３４で示されるようにＮ個であるが、図２のオーディオデコーダ１０は、オーディオを復号化するように構成されている、信号２２を低減されたサンプリング・レートで受信する。オーディオデコーダ１０は、たとえば、以下で説明するこのダウンスケールされた復号化機能のみをサポートする。あるいは、オーディオデコーダ１０は、もとのまたは符号化サンプリング・レートでオーディオ信号を再構成することができるが、以下に説明するように、オーディオデコーダ１０の動作のモードと一致するように、ダウンスケールされた復号化モードと非ダウンスケールされた復号化モードとの間で切り替えられうる。たとえば、オーディオエンコーダ１０は、バッテリレベルが低い場合、再生環境能力が低下した場合等のように、ダウンスケールされた復号化モードに切り替えることができる。状況が変化するたびに、オーディオデコーダ１０は、たとえば、ダウンスケールされた復号化モードから非ダウンスケールされた復号化モードに切り替えることができる。いずれにしても、以下に説明するように、デコーダ１０のダウンスケールされた復号化処理に従って、オーディオ信号２２は、低減されたサンプリング・レートにおいて、フレーム３６が、この低減されたサンプリング・レートのサンプルにおいて測られる低い長さ、すなわち、低減されたサンプリング・レートでのＮ／Ｆサンプルの長さを有するサンプリング・レートで再構成される。

レシーバ１２の出力は、Ｎ個のスペクトル係数のシーケンス、すなわちフレーム３６ごとにＮ個のスペクトル係数の１組、すなわち図３の1つの列である。データを形成するた
めの変換符号化処理の上記の簡単な説明から既に明らかであるストリーム２４において、レシーバ１２は、フレーム３６ごとにＮ個のスペクトル係数を得る際に様々なタスクを適用することができる。たとえば、レシーバ１２は、データストリーム２４からスペクトル係数２８を読み出すためにエントロピー復号化を使用することができる。レシーバ１２は
また、データストリーム内に供給されるスケールファクタおよび／またはデータストリーム２４内に伝達される線形予測係数によって得られるスケールファクタを用いて、データストリームから読み取られたスペクトル係数をスペクトル的に整形することができる。たとえば、レシーバ１２は、データストリーム２４から、すなわちフレームごとおよびサブバンドごとにスケールファクタを取得し、これらのスケールファクタを使用して、データストリーム２４内で伝達されるスケールファクタをスケーリングすることができる。あるいは、レシーバ１２は、各フレーム３６について、データストリーム２４内で伝達された線形予測係数からスケールファクタを導出し、これらのスケールファクタを使用して、送信されたスペクトル係数２８をスケーリングすることができる。任意選択的に、レシーバ１２は、フレーム当たりＮ個のスペクトル係数１８のセット内のゼロ量子化部分を合成的に満たすためにギャップ充填を実行してもよい。それに加えて、またはこれに代えて、レシーバ１２は、ＴＮＳ係数をデータストリーム２４内で送信しながら、データストリームからのスペクトル係数２８の再構成を支援するために、フレームごとに送信ＴＮＳフィルタ係数にＴＮＳ合成フィルタを適用することができる。レシーバ１２の考えられる可能性のあるタスクは、可能な測定値の非限定的なリストとして理解されるべきであり、レシーバ１２は、データストリーム２４からのスペクトル係数２８の読み取りに関連してさらに実行され、あるいは他に負担をかける。

したがって、グラバー１４は、レシーバ１２からスペクトル係数２８のスペクトログラム２６を受信し、各フレーム３６について、各フレーム３６のＮ個のスペクトル係数の低周波数部分４４、すなわちＮ／Ｆ最低周波数スペクトル係数を取り込む。

すなわち、スペクトル時間モジュレータ１６は、グラバー１４から、スペクトログラム２６の低周波スライスに対応するフレーム３６ごとのＮ／Ｆスペクトル係数２８のストリームまたはシーケンス４６を受信し、最低周波数スペクトルにスペクトル的に記録され、図３のインデックス「０」を用いて示され、インデックスＮ／Ｆ－１のスペクトル係数まで伸びる係数を含む。

スペクトル時間モジュレータ１６は、各フレーム３６について、スペクトル係数２８の対応する低周波数部分４４を、長さ（Ｅ＋２）・Ｎ／Ｆの変調関数を有する逆変換４８にそれぞれ（Ｅ＋２）・Ｎ／Ｆの時間的部分、すなわち未だウィンドウ化されていない時間セグメント５２を得る。すなわち、スペクトル時間モジュレータは、たとえば、上記の代替案セクションＡ．４の提案された第１の式を用いて、同じ長さの変調関数を重み付けして合計することによって、低減されたサンプリング・レートの（Ｅ＋２）・Ｎ／Ｆサンプルの時間的時間セグメントを得ることができる。時間セグメント５２の最新のＮ／Ｆサンプルは、現在のフレーム３６に属する。変調関数は、示されるように、逆変換が逆ＭＤＣＴである場合には余弦関数であり、逆ＭＤＣＴである場合には正弦関数でありうる。

このようにして、ウィンドウ化器５２は、フレームごとに、時間的部分５２を受信し、そのＮ／Ｆサンプルは、それぞれの時間的部分５２の他のサンプルが対応する時間的に先行するフレームに属する間、それぞれのフレームに時間的に対応する。各フレーム３６について、長さ（Ｅ＋２）・Ｎ／Ｆのユニモーダルな合成ウィンドウ５４を使用して、ウィンドウ１８のウィンドウ３６をウィンドウ３６の長さ１／４の長さのゼロ部分５６、すなわち１／Ｆ・Ｎ／Ｆのゼロ値ウィンドウ係数を含み、時間的にゼロ部分５６、すなわちゼロ部分５２によってカバーされない時間的部分５２の時間間隔に続いてその時間間隔内にピーク５８を有する。後者の時間間隔は、ウィンドウ５８の非ゼロ部分と呼ばれ、低減されたサンプリング・レートのサンプル、すなわち７／４・Ｎ／Ｆウィンドウ係数で測定された７／４・Ｎ／Ｆの長さを有する。ウィンドウ化器１８は、たとえばウィンドウ５８を用いて時間的部分５２を重み付けする。この各時間的部分５２のウィンドウ５４による重み付けまたは乗算５８は、時間的範囲が関係する限りウィンドウ化された時間的部分６０
を各フレーム３６に対して１つずつ、それぞれの時間的部分５２と一致させる。上記の提案されたセクションＡ．４において、ウィンドウ１８によって使用され得る窓処理は、ｚ_i,nとｘ_i,nとの関係式によって記述される。ｘ_i,nは、ウィンドウ化されていない前述の
時間的部分５２に対応し、ｚ_i,nは、フレーム／ウィンドウのシーケンスをインデックス
するウィンドウ化された時間的部分６０に対応し、ｎは、各時間的部分５２／６０内で、減少されたサンプリング・レートに従って、それぞれの部分５２／６０の位置を決定する。

このようにして、時間領域エイリアシング・キャンセラー２０は、ウィンドウ化器１８から一連のウィンドウ化された時間的部分６０、すなわちフレーム３６ごとに１つを受信する。キャンセラー２０は、各ウィンドウ化された時間的部分６０をその先頭のＮ／Ｆ値と対応するフレーム３６と一致するように登録することによって、フレーム３６のウィンドウ化された時間的部分６０に重畳加算処理６２を行う。この方法により、現在のフレームのウィンドウ化された時間的部分６０の長さ（Ｅ＋１）／（Ｅ＋２）の終端部分、すなわち長さ（Ｅ＋１）・Ｎ／Ｆを有する剰余は、直前の先行するフレームの時間的部分の対応する等しい長さの先端の部分とオーバーラップする。式において、時間領域エイリアシング・キャンセラー２０は、セクションＡ．４の上記提案バージョンの最後の式に示すように動作することができる。ここで、ｏｕｔ_i,nは、低減されたサンプリング・レートで
の再構成オーディオ信号２２のオーディオサンプルに対応する。

ウィンドウ化器１８および時間領域エイリアシング・キャンセラー２０によって実行されるウィンドウ化処理５８および重畳加算６２の処理は、図４に関して以下により詳細に示される。図４は、上で提案されたセクションＡ．４に適用された体系と図３および図４に適用された参照符号の両方を使用する。ｘ_0,0からｘ_0,(E+2)・_N/F-1は、０番目のフレ
ーム３６の空間時間モジュレータ１６によって得られた０番目の時間的部分５２を表す。ｘの第１のインデックスはフレーム３６を時間的順序に沿ってインデックスし、ｘの第２のインデックスは時間的順序に沿った時間的サンプル、すなわち低減されたサンプル・レートに属するサンプル間ピッチをオーダーする。そして、図４において、ｗ₀からｘ_0,(E+2)・_N/F-1は、ウィンドウ５４のウィンドウ係数を示す。ｘの第２のインデックス、すな
わちモジュレータ１６の出力としての時間的部分５２と同様に、ウィンドウ５４がそれぞれの時間的部分５２に適用される場合、ｗのインデックスはインデックス０が最も古いものに対応し、インデックス（Ｅ＋２）・Ｎ／Ｆ－１が最新のサンプル値に対応する。０番目のフレームに対してウィンドウ化された時間的部分を意味するｚ_0,0からｚ_0,(E+2)・_N/F-1は、ｚ０，０＝ｘ_0,0・Ｗ₀，…，ｚ_0,(E+2)・_N/F-1・_W(E+2)・_N/F-1によって得られるように、ウィンドウ化された時間的部分６０を得るために、ウィンドウ化器１８は、ウィンドウ５４を用いて時間的部分５２をウィンドウ化する。ｚのインデックスはｘと同じ意味を有する。このようにして、モジュレータ１６およびウィンドウ化器１８は、ｘおよびｚの第１のインデックスによってインデックスされた各フレームに対して作用する。キャンセラー２０は、ここではｕ_-(E+1),0…ｕ_-(E+1),N/F-1のサンプルｕを得るために、キャンセラー２０は、Ｅ＋２個の直接に連続したフレームのＥ＋２個のウィンドウ化された時間的部分６０を合算し、ウィンドウ化された時間的部分６０のサンプルを互いに１フレーム、すなわちフレーム３６当たりのサンプル数、すなわちＮ／Ｆだけオフセットする。ここでも、ｕの第１のインデックスはフレーム番号を示し、第２のインデックスはこのフレームのサンプルを時間順に並べる。キャンセラーは、連続フレーム３６内の再構成されたオーディオ信号２２のサンプルが、互いに、ｕ_-(E+1),0…ｕ_-(E+1),N/F-1，ｕ_-E,N/F-1，ｕ_-(E-1),0…によって続くように、こうして得られた再構成されたフレームを結合する。キャンセラー２２は、ｕ_-(E+1),0＝ｚ_0,0＋ｚ_-1,N/F＋…ｚ_-(E+1),(E+1)・_N/F，…，ｕ_-(E+1),N/F-1＝ｚ_0,N/F-1＋ｚ_-1,2・_N/F-1＋…＋ｚ_-(E+1)，_(E+2)・_N/F-1によって、－（Ｅ＋１）番目のフレーム内のオーディオ信号２２の各サンプルを計算する。すなわち、現在のフレームのサンプルｕごとに（ｅ＋２）加数を加算する。

図５は、フレーム－（Ｅ＋１）のオーディオサンプルｕに寄与するちょうどウィンドウ化されたサンプルの中で、可能性のある利用を示し、それは、ウィンドウ５４のゼロ部分５６に対応するか、または使用してウィンドウ化される。すなわち、ｚ_(E+1),(E+7/4)・_N/F…ｚ_-(E+1),(E+2)・_N/F-1はゼロ値である。したがって、Ｅ＋２加数を使用してオーデ
ィオ信号ｕの－（Ｅ＋１）番目のフレーム３６内のすべてのＮ／Ｆサンプルを得る代わりに、キャンセラー２０は、その先頭の１／４を計算することができる。すなわち、ｕ_{-(E+1),(E+7/4)}・_N/F…ｕ_-(E+1),(E+2)・_N/F-1は、単に、ｕ_{-(E+1),(E+7/4)}・_N/F＝ｚ_0,3/4・_N/F＋ｚ_-1,7/4・_N/F＋…＋ｚ_-E,(E+3/4)・_N/F，…，ｕ_-(E+1),(E+2)・_N/F-1＝ｚ_0,N/F-1
＋ｚ_-1,2・_N/F-1＋…＋ｚ_-E,(E+1)・_N/F-1によってＥ＋１加数を使用する。このようにして、ウィンドウ化器はゼロ部分５６に対する重み付け５８の性能を効果的に排除することさえできる。現在の－（Ｅ＋１）番目のフレームのサンプルｕ_{-(E+1),(E+7/4)}・_N/F…ｕ_-(E+1),(E+2)・_N/F-1は、Ｅ＋１加数のみを使用して得られ、一方、ｕ_-(E+1),(E+1)・_N/F
…ｕ_{-(E+1),(E+7/4)}・_N/F-1は、Ｅ＋２加数を使用して得られる。

かくして、上記において概説したようにして、図２のオーディオデコーダ１０は、データストリーム２４に符号化されたオーディオ信号をダウンスケールされた態様で再生する。この目的のために、オーディオデコーダ１０は、それ自体が長さ（Ｅ＋２）・Ｎの参照合成ウィンドウのダウンサンプルされたバージョンであるウィンドウ関数５４を使用する。図６に関して説明されるように、このダウンサンプルされたバージョン、すなわちウィンドウ５４は、参照合成ウィンドウを係数Ｆ、すなわち、ダウンサンプルされていない状態で測定された場合、セグメント補間、すなわち長さ１／４・Ｎのセグメントを用いてダウンサンプルすることによって得られる時間的に測定され、サンプリング・レートとは独立して表現される、フレーム３６のフレーム長の１／４のセグメントにおける、ダウンサンプルされた領域における長さ１／４・Ｎのセグメントである。したがって、４・（Ｅ＋２）では補間が実行され、連結された４・（Ｅ＋２）×１／４・Ｎ／Ｆの長さのセグメントが生成され、長さの参照合成ウィンドウのダウンサンプルされたバージョン（Ｅ＋２）・Ｎである。図６を参照されたい。図６は、長さ（Ｅ＋２）・Ｎの参照合成ウィンドウ７０の下のダウンサンプルされたオーディオ復号化手順に従ってオーディオデコーダ１０によってユニモーダルに使用される合成ウィンドウ５４を示す。すなわち、参照合成ウィンドウ７０から、ダウンサンプルされた復号化のためにオーディオデコーダ１０によって実際に使用される合成ウィンドウ５４に至るダウンサンプル手順７２によって、ウィンドウ係数の数は、係数Ｆだけ低減される。図６において、図１および図２の体系は、すなわち、ｗはダウンサンプルされたバージョンのウィンドウ５４を示すために使用され、ｗ’は参照合成ウィンドウ７０のウィンドウ係数を示すために使用される。

上述したように、ダウンサンプル７２を実行するために、参照合成ウィンドウ７０は、等しい長さのセグメント７４で処理される。番号には、（Ｅ＋２）・４個のセグメント７４がある。もとのサンプリング・レート、すなわち参照合成ウィンドウ７０のウィンドウ係数の数で測定された各セグメント７４は、１／４・Ｎ個のウィンドウ係数ｗ’長さであり、低減またはダウンサンプルされたサンプリング・レートで測定される。各セグメント７４は、１／４・Ｎ／Ｆ個のウィンドウ係数ｗ長さである。

たとえば、合成ウィンドウ５４は、長さ１／４・Ｎ／Ｆのスプライン関数の連結であってもよい。３次元のスプライン関数を使用することができる。そのような例は、セクションＡ．１で概説されており、外側のｆｏｒ－ｎｅｘｔループがセグメント７４上を順次ループする。各セグメント７４において、ダウンサンプルまたは補間７２は、「係数ｃを計算するために必要なベクトルｒを計算する」セクションの次の句の最初の部分における現在のセグメント７４内の連続ウィンドウ係数ｗ’の数学的組合せを含んでいた。しかしながら、セグメントに適用される補間は、異なる方法で選択されうる。すなわち、補間はスプラインまたは３次元のスプラインに限定されない。むしろ、線形補間または任意の他の補間方法を同様に使用することができる。いずれにしても、補間のセグメント実装は、別のセグメントに隣接して、ダウンスケールされた合成ウィンドウのサンプル、すなわち、ダウンスケールされた合成ウィンドウのセグメントの最外サンプルの計算に、異なるセグメントに存在している参照合成ウィンドウのウィンドウ係数に依存しないようにさせる。

ウィンドウ化器１８は、ダウンサンプルされた合成ウィンドウ５４を、このダウンサンプルされた合成ウィンドウ５４のウィンドウ係数ｗ_iがダウンサンプル７２を用いて得ら
れた後に記憶されている記憶装置から得ることができる。あるいは、図２に示すように、オーディオデコーダ１０は、参照合成ウィンドウ７０に基づいて図６のダウンサンプル７２を実行するセグメントダウンサンプラ７６を備えてもよい。

図２のオーディオデコーダ１０は、ただ１つの固定ダウンサンプリング係数Ｆをサポートするように構成されてもよく、または異なる値をサポートしてもよいことに留意されたい。その場合、オーディオデコーダ１０は、図２に７８で示すようにＦの入力値に応答することができる。グラバー１４は、たとえば、上述したように、フレームのスペクトルごとのＮ／Ｆスペクトル値を取得するために、この値Ｆに応答することができる。同様に、オプションのセグメントダウンサンプラ７６は、上記のように動作するＦのこの値に応答
もしうる。Ｓ／Ｔモジュレータ１６は、Ｆに応答して、たとえば、ダウンスケールされていない動作モードで使用されるものに対してダウンスケール／ダウンサンプルされた、変調機能のダウンスケール／ダウンサンプルされたバージョンを計算的に得る。ここで、再構成により、完全なオーディオサンプルレートが得られる。

当然のことながら、モジュレータ１６は変調関数の適切にダウンサンプルされたバージョンを使用するので、モジュレータ１６はＦ入力７８にも応答するであろうし、低減またはダウンサンプルされたサンプリング・レートにおいて、フレームの実際の長さの適応に関しては同様のことがウィンドウ化器１８およびキャンセラー２０についても当てはまる。

たとえば、Ｆは、１．５以上１０以下である。

図２および図３のデコーダまたは本明細書で概説されたそれらの任意の修正は、たとえば、ＥＰ２３７８５１６Ｂ１に教示されているような低遅延ＭＤＣＴのリフティング実装を使用してスペクトルから時間への変換を実行するように実装されうる。

図８は、リフティングの概念を使用するデコーダの実装を示す。Ｓ／Ｔモジュレータ１６は、例示的に逆ＤＣＴ－ＩＶを実行し、続いて、ウィンドウ化器１８と時間領域エイリアシング・キャンセラー２０の連結を表すブロックが示される。図８の実施例において、Ｅは２、すなわちＥ＝２である。

モジュレータ１６は、逆タイプ－ｉｖ離散コサイン変換周波数／時間コンバータを含む。（Ｅ＋２）Ｎ／Ｆ長の時間的部分５２のシーケンスを出力する代わりに、Ｎ／Ｆ長のスペクトル４６のシーケンスから得られる長さ２・Ｎ／Ｆの時間的部分５２を出力するだけであり、これらの短縮部分５２は、ＤＣＴカーネル、すなわち、以前に記述された部分の２・Ｎ／Ｆ最新のサンプルに変換する。

ウィンドウ化器１８は、前述したように動作し、各時間的部分５２に対してウィンドウ化された時間的部分６０を生成するが、それは単にＤＣＴカーネル上で動作する。この目的のために、ウィンドウ化器１８は、カーネル・サイズを有するｉ＝０…２Ｎ／Ｆ－１のウィンドウ関数ω_iを使用する。ｉ＝０…（Ｅ＋２）・Ｎ／Ｆ－１のｗ_iとの関係は、後で述べるリフティング係数およびｉ＝０…（Ｅ＋２）・Ｎ／Ｆ－１のｗ_iの関係として記載
される。

上に適用された体系を使用して、これまでに記載された処理が得られる：

ｎ＝０，…，２Ｍ－１に対して、ｚ_k,n＝ω_n・ｘ_k,n

Ｍ＝Ｎ／Ｆを再定義することにより、Ｍが図２－６の体系を用いてダウンスケールされた領域で表現されたフレームサイズに対応するようにする。ここで、しかしながら、ｚ_k,n
およびｘ_k,nは、サイズ２・Ｍを有し、図４におけるサンプルＥ・Ｎ／Ｆ…（Ｅ＋２）・
Ｎ／Ｆ－１に時間的に対応するＤＣＴカーネル内のウィンドウ化された時間的部分および未だウィンドウ化されていない時間的部分のサンプルのみを含む。すなわち、ｎはサンプル・インデックスを示す整数であり、ω_nはサンプル・インデックスｎに対応する実数値
のウィンドウ関数の係数である。

キャンセラー２０の重畳加算処理は、上記の説明とは異なる方法で動作する。以下に記載の方程式または式に基づいて、中間の時間的部分ｍ_k（０），…ｍ_k（Ｍ－１）を生成する。

ｎ＝０，…，Ｍ－１に対して、ｍ_k,n＝ｚ_k,n＋ｚ_k-1,n+M

図８の実装において、この装置は、リフター８０が、モジュレータ機能の拡張機能およびゼロ部分５６を補償するために導入された過去に向けてのカーネルを越える合成ウィンドウを処理する代わりに、ＤＣＴカーネルへの処理を制限したので、モジュレータ１６およびウィンドウ化器１８の一部として解釈され得るリフター８０をさらに備える。リフター８０は、遅延器および乗算器８２および加算器８４のフレームワークを使用して、以下に記載の方程式または式に基づいて、直接に連続したフレーム対の長さＭの最終的に再構成された時間的部分またはフレームを生成する。

ｎ＝Ｍ／２，…，Ｍ－１に対して、ｕ_k,n＝ｍ_k,n＋ｌ_n-M/2・ｍ_k-1,M-1-n
および
ｎ＝０，…，Ｍ／２－１に対して、ｕ_k,n＝ｍ_k,n＋ｌ_M-1-n・ｏｕｔ_k-1,M-1-n

ここで、ｎ＝０…Ｍ－１であるｌ_nは、以下でより詳細に説明する方法で、ダウンスケー
ルされた合成ウィンドウに関連する実数値のリフティング係数である。

言い換えれば、Ｅ個のフレームの過去の重なり合いのために、リフター８０のフレームワークに見られるように、Ｍ個の追加の乗算－加算演算のみが必要とされる。これらの追加演算は、「ゼロ遅延行列」と呼ばれることもある。これらの操作は、「リフティングステップ」とも呼ばれる。図８に示す効率的な実装は、場合によっては、直接的な実装としてより効率的であり得る。より正確には、具体的な実装形態に依存して、このようなより効率的な実装は、図１９において示される実装のように、Ｍ個の動作の単純な実装の場合のように、Ｍ個の動作を節約する結果となる可能性があり、基本的に、モジュール８２０のフレームワークにおける２Ｍの操作と、リフター８３０のフレームワークにおけるＭの操作とを必要とする。

ｉ＝０…（Ｅ＋２）Ｍ－１を伴う合成ウィンドウｗ_i上のｎ＝０…２Ｍ－１を伴うω_nおよびｎ＝０…Ｍ－１を伴うｌ_nの依存性に関して（ここでＥ＝２）、以下の式は、それぞ
れの変数に続く括弧の中にこれまで使用されている添え字インデックスを置換することによるそれらの関係を説明している。

ウィンドウｗ_iは、この公式において右側のピーク値、すなわちインデックス２Ｍと４
Ｍ－１との間のピーク値を含むことに留意されたい。上記の式は、ダウンスケールされた合成ウィンドウのｎ＝０…（Ｅ＋２）Ｍ－１を伴う係数ｗ_nにｎ＝０…Ｍ－１を伴う係数
ｌ_nおよび０，…，２Ｍ－１を伴うω_nを関連付ける。見て分かるように、ｎ＝０…Ｍ－１を伴うｌ_nは、実際には、ダウンサンプルされた合成ウィンドウ、すなわち、ｎ＝０…（
Ｅ＋１）Ｍ－１を伴うｗ_nの係数の３／４にのみ依存し、一方、ｎ＝０，…，２Ｍ－１を
伴うω_nは、ｎ＝０…（Ｅ＋２）Ｍ－１を伴うすべてのｗ_nに依存する。

上述したように、ダウンサンプル７２を用いて得られた後、ウィンドウ化器１８は、このダウンサンプルされた合成ウィンドウ５４のウィンドウ係数ｗ_iが格納された記憶装置
から、ダウンサンプルされた合成ウィンドウ５４（ｎ＝０…（Ｅ＋２）Ｍ－１を伴うｗ_n
）を得ることができる。そして、そこから上記の関係を用いて、ｎ＝０…Ｍ－１を伴う係数ｌ_nおよびｎ＝０，…，２Ｍ－１を伴うω_nを計算するために読み出される。しかし、あるいは、ウィンドウ化器１８は、プレダウンサンプルされた合成ウィンドウから計算されたｎ＝０…Ｍ－１を伴う係数ｌ_nおよびｎ＝０，…，２Ｍ－１を伴うω_nを記憶装置から直接得る。あるいは、上述したように、オーディオデコーダ１０は、参照合成ウィンドウ７０に基づいて図６のダウンサンプル７２を実行するセグメントダウンサンプラ７６を備えることにより、ウィンドウ化器１８は、上記の関係／公式を用いて、ｎ＝０…Ｍ－１を伴う係数ｌ_nおよびｎ＝０，…，２Ｍ－１を伴うω_nを計算することに基づいて、ｎ＝０…（Ｅ＋２）Ｍ－１を伴うｗ_nを得る。リフティング実装を使用しても、Ｆの複数の値がサポ
ートされる。

リフティング実装を簡単に要約すると、オーディオ信号が第２のサンプリング・レートで変換符号化されるデータストリーム２４から第１のサンプリング・レートでオーディオ信号２２を復号化するように構成されたオーディオデコーダ１０においても同様の結果が得られ、第１のサンプリング・レートは第２のサンプリング・レートの１／Ｆであり、オーディオデコーダ１０は、オーディオ信号の長さＮ個のフレームごとにＮ個のスペクトル係数２８を受信するレシーバ１２を含み、各フレームについてグラブアウトするグラバー１４は、Ｎ個のスペクトル係数２８のうちの長さＮ／Ｆの低周波数部分であり、スペクトル時間モジュレータ１６は、各フレーム３６について対象とするように構成され、低周波数部分は、長さ２・Ｎ／Ｆの時間的部分を得るために、各フレームおよび先行するフレー
ムにわたって時間的に伸びる長さ２・Ｎ／Ｆの変調関数を有する逆変換へと変換され、そして、ｎ＝０…２Ｍ－１を伴うウィンドウ化された時間的部分ｚ_k,nを得るために、ウィ
ンドウ化器１８は、ｎ＝０，…，２Ｍ－１に対するｚ_k,nに従う時間的部分ｘ_k,nを、各フレーム３６について、ウィンドウ化する。時間領域エイリアシング・キャンセラー２０は、ｎ＝０，…，Ｍ－１に対してｍ_k,n＝ｚ_k,n＋ｚ_k-1,n+Mに従う中間の時間的部分ｍ_k（０），…ｍ_k（Ｍ－１）を生成する。最後に、リフター８０は、ｎ＝Ｍ／２，…，Ｍ－１に
対するｕ_k,n＝ｍ_k,n＋ｌ_n-M/2・ｍ_k-1,M-1-nおよびｎ＝０，…，Ｍ／２－１に対するｕ_k,n＝ｍ_k,n＋ｌ_n-M/2・ｍ_k-1,M-1-nに従うｎ＝０…Ｍ－１を伴うオーディオ信号のフレームｕ_k,nを計算し、ここで、ｎ＝０…Ｍ－１を伴うｌ_nは、リフティング係数であり、逆変換は、逆ＭＤＣＴまたは逆ＭＤＳＴであり、そして、ｎ＝０…Ｍ－１を伴うｌ_nおよびｎ＝
０，…，２Ｍ－１を伴うω_nは、合成ウィンドウのｎ＝０…（Ｅ＋２）Ｍ－１を伴う係数
ｗ_nに依存し、さらに、合成ウィンドウは、長さ４・Ｎの参照合成ウィンドウのダウンサ
ンプルされたバージョンであり、１／４・Ｎの長さのセグメントのセグメント補間によって係数Ｆでダウンサンプルされる。

図２のオーディオデコーダが低遅延ＳＢＲツールを伴う可能性がある、ダウンスケールされた復号化モードに関するＡＡＣ－ＥＬＤの拡張の提案に関する上記議論から既に判明した。たとえば、ＡＡＣ－ＥＬＤコーダが上記の提案されたダウンスケールされた動作モードをサポートするために、どのように拡張されたかについての以下の概要は、低遅延ＳＢＲツールを使用する場合に動作する。低遅延ＳＢＲツールがＡＡＣ－ＥＬＤコーダに関連して使用される場合、本出願の明細書の導入部で既に述べたように、低遅延ＳＢＲモジュールのフィルタ・バンクも同様にダウンスケールされる。これにより、ＳＢＲモジュールが同じ周波数分解能で動作することが保証され、それ以上の適応は必要ない。図７は、９６ｋＨｚで動作するＡＡＣ－ＥＬＤデコーダの信号経路の概要を示しており、フレームサイズが４８０サンプルであり、ダウンサンプルされたＳＢＲモードであり、ダウンスケーリング係数Ｆが２である。

図７において、ビットストリームは、ＡＡＣデコーダ、逆ＬＤ－ＭＤＣＴブロック、ＣＬＤＦＢ解析ブロック、ＳＢＲデコーダおよびＣＬＤＦＢ合成ブロック（ＣＬＤＦＢ＝複素低遅延フィルタ・バンク）のシーケンスによって処理されて達する。ビットストリームは、図１および図２に関して先に説明したデータストリーム２４に等しい。逆低遅延ＭＤＣＴブロックの出力においてダウンスケールされたオーディオ復号化によって得られたオーディオ信号のスペクトル周波数を拡張するスペクトル拡張帯域のスペクトル複製のスペクトル整形を支援するパラメトリックＳＢＲデータを付加的に伴い、スペクトル整形はＳＢＲデコーダによって実行される。特に、ＡＡＣデコーダは、適切な構文解析およびエントロピー復号化によって必要な構文要素のすべてを検索する。ＡＡＣデコーダは、図７において逆低遅延ＭＤＣＴブロックによって具現化されるオーディオデコーダ１０のレシーバ１２と部分的に一致してもよい。図７において、Ｆは典型的には２に等しい。すなわち、図７の逆低遅延ＭＤＣＴブロックは、図２の再構成オーディオ信号２２の一例として、オーディオ信号が最初に到着したビットストリームの中へレートの半分でダウンサンプルされた４８ｋＨｚの時間信号を出力する。ＣＬＤＦＢ分析ブロックは、この４８ｋＨｚの時間信号、すなわち、ダウンサンプルされたオーディオデコーダによって得られたオーディオ信号を、Ｎ個の帯域、ここではＮ＝１６に分割し、そして、ＳＢＲデコーダは、これらの帯域の再整形係数を計算し、それに応じてＮ帯域を再構成する。すなわち、ＡＡＣデコーダの入力に到着する入力ビットストリーム内のＳＢＲデータを介して制御され、そして、ＣＬＤＦＢ合成ブロックは、逆低遅延ＭＤＣＴブロックによって出力されたもとの復号化されたオーディオ信号に加えられるべき高周波数拡張信号を得ることによって、スペクトル領域から時間領域へと再変換する。

したがって、上記の例は、より低いサンプル・レートのシステムにコーデックを適応させるために、ＡＡＣ－ＥＬＤコーデックのいくつかの欠落した定義を提供した。これらの定義は、ＩＳＯ／ＩＥＣ１４４９６－３：２００９規格に含められうる。

したがって、上記の議論において、それは、とりわけ以下に記載される：

オーディオデコーダは、オーディオ信号が第２のサンプリング・レートで変換符号化されているデータストリームから、第１のサンプリング・レートでオーディオ信号を復号化するように構成することができ、第１のサンプリング・レートは、第２のサンプリング・レートの１／Ｆであり、オーディオデコーダは、オーディオ信号の長さＮのフレームごとに、Ｎ個のスペクトル係数を受信するように構成されるレシーバと、各フレームについて、Ｎ個のスペクトル係数から長さＮ／Ｆの低周波数部分をグラブアウトするように構成されるグラバーと、各フレームについて、低周波数部分を、それぞれのフレームおよびＥ＋１個の先行するフレームに時間的に広がる長さ（Ｅ＋２）・Ｎ／Ｆの変調関数を有する逆変換して、長さ（Ｅ＋２）・Ｎ／Ｆの時間的部分を得るように構成されたスペクトル時間モジュレータと、各フレームについて、その先端に長さ１／４・Ｎ／Ｆのゼロ部分を含み、合成ウィンドウの時間的間隔の範囲内においてピークを有する、長さ（Ｅ＋２）・Ｎ／Ｆの合成ウィンドウを使用して、時間的部分をウィンドウ化するように構成されるウィンドウ化器であって、時間的間隔は、ウィンドウ化器が、長さ（Ｅ＋２）・Ｎ／Ｆのウィンドウ化された時間的部分を得るように、ゼロ部分に続き、そして、長さ７／４・Ｎ／Ｆを有する、ウィンドウ化器と、現在のフレームのウィンドウ化された時間的部分の長さ（Ｅ＋１）／（Ｅ＋２）の終端部分が、先行するフレームのウィンドウ化された時間的部分の長さ（Ｅ＋１）／（Ｅ＋２）の先端と重なるように、フレームのウィンドウ化された時間的部分を重畳加算処理するように構成された時間領域エイリアシング・キャンセラーと、を備え、逆変換は、逆ＭＤＣＴまたは逆ＭＤＳＴであり、ユニモーダルな合成ウィンドウは、長さ（Ｅ＋２）・Ｎの参照ユニモーダル合成ウィンドウの、長さ１／４・Ｎ／Ｆのセグメントにおけるセグメント補間によって、係数Ｆでダウンサンプルされた、ダウンサンプルされたバージョンである。

実施例に記載のオーディオデコーダにおいて、ユニモーダルな合成ウィンドウは、長さ１／４・ＮＦのスプライン関数の連結である。

実施例に記載のオーディオデコーダにおいて、ユニモーダルな合成ウィンドウは、長さ１／４・ＮＦの３次元のスプライン関数の連結である。

前述の実施例のいずれかに記載のオーディオデコーダにおいて、Ｅ＝２である。

前述の実施例のいずれかに記載のオーディオデコーダにおいて、逆変換は、逆ＭＤＣＴである。

前述の実施例のいずれかに記載のオーディオデコーダにおいて、ユニモーダルな合成ウィンドウの主要部の８０％以上がゼロ部分に続く、長さ７／４・Ｎ／Ｆである時間的間隔の範囲内に含まれる。

前述の実施例のいずれかに記載のオーディオデコーダにおいて、オーディオデコーダは、記憶装置から補間を実行するように、または、合成ウィンドウを導出するように構成される。

前述の実施例のいずれかに記載のオーディオデコーダにおいて、Ｆについて異なる値をサポートするように構成される。

前述の実施例のいずれかに記載のオーディオデコーダにおいて、Ｆは、１．５以上１０以下である。

方法は、前述の実施例のいずれかに記載のオーディオデコーダによって実行される。

コンピュータ・プログラムは、コンピュータで動作させる場合に、実施例に記載の方法を実行するためのプログラムコードを有する。

「長さの」という用語に関しては、この用語はサンプルにおける長さを測定するものとして解釈されるべきであることに留意すべきである。ゼロ部分およびセグメントの長さに関する限り、それが整数値でありうることに留意すべきである。あるいは、それは、非整数値でもありうる。

ピークが位置する時間間隔に関しては、図１は、Ｅ＝２およびＮ＝５１２の参照ユニモーダルな合成ウィンドウの例についてのこのピークおよび時間間隔を例示的に示していることに留意されたい。ピークはおよそサンプル番号１４０８で最大値を有し、時間間隔はサンプル番号１０２４からサンプル番号１９２０まで及ぶ。従って、時間的間隔は、ＤＣＴカーネルの７／８である。

用語「ダウンサンプルされたバージョン」に関しては、上記の仕様では、この用語の代わりに、「ダウンスケールされたバージョン」が同義語として使用されていることに留意されたい。

「一定の間隔内の関数の主要部」という用語については、同じことがそれぞれの間隔内のそれぞれの関数の定積分を示すことに留意されたい。

Ｆの異なる値をサポートするオーディオ復号器の場合、それは、参照ユニモーダルな合成ウィンドウのそれに応じてセグメント補間されたバージョンを有する記憶装置を含むことができ、またはＦの現在アクティブな値についてセグメント補間を実行することができる。異なるセグメント補間バージョンは、補間がセグメント境界における不連続性に悪影
響を及ぼさないという共通点を有する。これらは、上述したように、スプライン関数でありうる。

上記の図１のような参照ユニモーダルな合成ウィンドウからセグメント補間によりユニモーダルな合成ウィンドウを導出することにより、４・（Ｅ＋２）個のセグメントは３次もとのスプライン等のスプライン近似によって形成され、遅延を小さくするための手段として、合成されたゼロ部分が１／４・Ｎ／Ｆのピッチでユニモーダルな合成ウィンドウに存在する不連続性が保存される。

文献
[1] ISO/IEC 14496-3:2009
[2] M13958, "Proposal for an Enhanced Low Delay Coding Mode", October 2006, Hangzhou, China

Claims

オーディオ信号のフレームのそれぞれについて、それぞれの前記フレームと３つの先行するフレームとを含む時間的部分のスペクトル分解を形成するスペクトルを受信するように構成されるレシーバと、
各フレームについて、前記スペクトルの長さ１／Ｆの低周波数部分をグラブアウトするように構成されるグラバーと、
各フレームについて、前記低周波数部分を逆変換して、前記時間的部分の時間的表現を取得するように構成されるスペクトル時間モジュレータと、
各フレームについて、合成ウィンドウを使用して、前記時間的部分の前記時間的表現をウィンドウ化するように構成されるウィンドウ化器であって、前記合成ウィンドウは、その先端にフレーム長の１／４のゼロ部分を含み、また前記ゼロ部分に続き、前記合成ウィンドウの時間的間隔の範囲内においてピークを含んでいて、前記ウィンドウ化器が、前記時間的部分のウィンドウ化された時間的表現を取得するようになっている、ウィンドウ化器と、
前記フレームの前記時間的部分の前記ウィンドウ化された時間的表現を、前記フレーム長に相当する相互のフレーム間距離で重畳加算処理するように構成される時間領域エイリアシング・キャンセラーと、
を備え、
ここで、前記逆変換は、逆ＭＤＣＴまたは逆ＭＤＳＴであり、
前記合成ウィンドウは、互いにセグメント長さが等しい１６個のセグメントにおけるセグメント補間によって、係数Ｆでダウンサンプルされた、参照合成ウィンドウのダウンサンプルされたバージョンであり、
前記合成ウィンドウは、前記１６個のセグメントのそれぞれについて、１つのスプライン関数を連結したものである、
オーディオデコーダ。
前記合成ウィンドウは、前記１６個のセグメントのそれぞれについて、１つの３次元スプライン関数を連結したものである、請求項１に記載のオーディオデコーダ。
前記スペクトル時間モジュレータ（１６）、前記ウィンドウ化器（１８）および前記時間領域エイリアシング・キャンセラー（２０）は、リフティング実装において協働するように実装された、請求項１に記載のオーディオデコーダ。
前記参照合成ウィンドウはユニモーダルである、請求項１に記載のオーディオデコーダ。
前記逆変換は、逆ＭＤＣＴである、請求項１に記載のオーディオデコーダ。
前記合成ウィンドウの主要部の８０％以上が、前記ゼロ部分に続く前記時間的間隔の範囲内に含まれ、前記ゼロ部分に続く前記時間的間隔は、前記フレーム長の７／４倍の長さである、請求項１に記載のオーディオデコーダ。
前記オーディオデコーダは、前記合成ウィンドウの係数の過半数が前記参照合成ウィンドウの２つ以上の係数に依存するように、且つ、前記合成ウィンドウの各係数が、それぞれの前記係数が位置するセグメントに対してオフセットに配置される前記参照合成ウィンドウの係数とは無関係になるように、前記補間を実行するように構成される、請求項１に記載のオーディオデコーダ。
前記オーディオデコーダは、セグメントの境界から係数２つ分以上離間する前記合成ウィンドウの各係数が、前記参照合成ウィンドウの２つ以上の係数に依存するように、前記補間を実行するように構成される、請求項１に記載のオーディオデコーダ。
前記合成ウィンドウを使用して、前記時間的部分に重み付けする際に前記ウィンドウ化器が前記ゼロ部分をスキップし、且つ、前記重畳加算処理において、前記時間領域エイリアシング・キャンセラーが、対応する前記ウィンドウ化された時間的部分の非重み付け部分を無視するように、前記ウィンドウ化器と前記時間領域エイリアシング・キャンセラーが協働する、請求項１に記載のオーディオデコーダ。
オーディオ信号を復号化するための方法であって、前記方法は、
前記オーディオ信号のフレームのそれぞれについて、それぞれの前記フレームと３つの先行するフレームとを含む時間的部分のスペクトル分解を形成するスペクトルを受信するステップと、
各フレームについて、前記スペクトラムの長さ１／Ｆの低周波数部分をグラブアウトするステップと、
各フレームについて、前記低周波数部分を逆変換して、前記時間的部分の時間的表現を取得するようにすることによって、スペクトル時間変調を実行するステップと、
各フレームについて、合成ウィンドウを使用して、前記時間的部分の前記時間的表現をウィンドウ化するステップであって、前記合成ウィンドウは、その先端にフレーム長の１／４のゼロ部分を含み、また前記ゼロ部分に続き、前記合成ウィンドウの時間的間隔の範囲内においてピークを含んでいて、前記時間的部分のウィンドウ化された時間的表現が取得されるようになっている、ウィンドウ化するステップと、
前記フレームの前記時間的部分の前記ウィンドウ化された時間的表現を、前記フレーム長に相当する相互フレーム間距離で重畳加算処理することによって時間領域エイリアシングのキャンセルを実行するステップと、
を備え、
ここで、前記逆変換は、逆ＭＤＣＴまたは逆ＭＤＳＴであり、
前記合成ウィンドウは、互いにセグメント長さが等しい１６個のセグメントにおけるセグメント補間によって、係数Ｆでダウンサンプルされた、参照合成ウィンドウのダウンサンプルされたバージョンであり、
前記合成ウィンドウは、前記１６個のセグメントのそれぞれについて、１つのスプライン関数を連結したものである、
方法。
コンピュータ・プログラムがコンピュータによって実行されるときに、請求項１０に記載のオーディオ信号を復号化するための方法を実行するための前記コンピュータ・プログラムを記憶した、非一時的デジタル記憶媒体。