JP6110314B2

JP6110314B2 - 整列したルックアヘッド部分を用いてオーディオ信号を符号化及び復号するための装置並びに方法

Info

Publication number: JP6110314B2
Application number: JP2013553900A
Authority: JP
Inventors: エマヌエル・ラベリ; ラルフ・ゲイゲル; マルクス・シュネル; ギルラウム・フッハス; ヴェザ・ルオッピラ; トム・ベックシュトレーム; ベルンハルド・グリル; クリスティアン・ヘルムリヒ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2011-02-14
Filing date: 2012-02-14
Publication date: 2017-04-05
Anticipated expiration: 2032-02-14
Also published as: JP2014510305A; EP3503098A1; CA2827272C; AU2012217153A1; CN103503062A; SG192721A1; MY160265A; AR102602A2; KR20130133846A; TW201506907A; KR101853352B1; TR201908598T4; EP4243017A3; MX2013009306A; WO2012110473A1; EP2676265B1; AU2012217153B2; US20130332148A1; ES2725305T3; TW201301262A

Description

本発明はオーディオ符号化に係り、より詳細には、交換型のオーディオエンコーダとこれに対応して制御されるオーディオデコーダによるオーディオ符号化、特に低遅延応用に適したオーディオ符号化に関する。

交換型のコーデック（符号器／復号器）によるいくつかのオーディオ符号化の概念が知られている。1つの周知のオーディオ符号化の概念は、３ＧＰＰＴＳ２６．２９０Ｂ１０．０．０（２０１１−０３）に記載されているように、いわゆる拡張された広帯域化オーディオ符号化方式（ＡＭＲ−ＷＢ＋：Extended Adaptive Multi-Rate- Wideband）コーデックである。ＡＭＲ−ＷＢ＋オーディオコーデックはＡＭＲ−ＷＢスピーチコーデックモード１〜９、ＡＭＲ−ＷＢＶＡＤ（有音／無音検出：Voice Activity Detection）及びＤＴＸ（不連続送信：Discontinuous Transmission）の全てを含む。ＡＭＲ−ＷＢ＋はＴＣＸ（変換符号励起：Transform Coded Excitation）、帯域拡張、及びステレオを加えることによってＡＭＲ−ＷＢコーデックを拡張している。

ＡＭＲ−ＷＢ＋オーディオコーデックは内部サンプリング周波数Ｆ_sで２０４８サンプルの入力フレームを処理する。内部サンプリング周波数は１２８００〜３８４００Ｈｚの範囲に限定されている。２０４８サンプルのフレームは、２つの厳密にサンプリングされた等しい周波数帯域に分割される。これによって低周波（ＬＦ）帯域と高周波（ＨＦ）帯域に対応する１０２４サンプルの２つのスーパーフレームが得られる。各スーパーフレームは、２５６サンプルの４つのフレームに分割される。内部サンプリングレートにおけるサンプリングは可変サンプリング変換方式を用いて行われ、この方式は入力信号を再サンプリングする。

その後、ＬＦ信号とＨＦ信号は、２つの異なる手法を使用して符号化される。ＬＦ信号は交換型のＡＣＥＬＰ（代数符号励振線形予測：Algebraic Code Excited Linear Prediction）及びＴＣＸに基づく「コア」エンコーダ／デコーダを使用して符号化及び復号される。ＡＣＥＬＰモードにおいて標準ＡＭＲ−ＷＢコーデックが使用される。ＨＦ信号は、帯域幅拡張（ＢＷＥ）方法を使用して比較的少数のビット（１６ビット／フレーム）で符号化される。エンコーダからデコーダに送られるパラメータは、モード選択ビット、ＬＦパラメータ及びＨＦパラメータである。各１０２４サンプルのスーパーフレームに対するパラメータは同一サイズの４つのパケットに分解される。入力信号がステレオの場合、左チャネルと右チャネルが結合されてＡＣＥＬＰ／ＴＣＸ符号化のためのモノラル信号になるが、ステレオ符号化は両方の入力チャネルを受けとる。デコーダ側において、ＬＦ帯域とＨＦ帯域は個別に復号された後、合成フィルタバンクで結合される。出力がモノラルのみに制限される場合、ステレオパラメータは省略され、デコーダはモノラルモードで動作する。ＬＦ信号を符号化する際、ＡＭＲ−ＷＢ＋コーデックはＡＣＥＬＰモードとＴＣＸモードの両方にＬＰ（線形予測：Linear Prediction）分析を適用する。ＬＰ係数は６４サンプルのサブフレームのすべてにおいて線形補間される。ＬＰ分析窓は３８４サンプル長のハーフ・コサイン（半余弦）である。コアモノラル信号を符号化するために、ＡＣＥＬＰ符号化又はＴＣＸ符号化のいずれかがフレームごとに使用される。符号化モードは、閉ループ分析合成方法に基づいて選択される。ＡＣＥＬＰフレームとしては２５６サンプルのフレームだけが符号化されるが、ＴＣＸモードでは２５６、５１２又は１０２４サンプルのフレームが符号化可能である。図５Ｂには、ＡＭＲ−ＷＢ＋のＬＰＣ（線形予測符号化：linear prediction coding）分析に使用される窓が示されている。２０ｍｓ（ミリ秒）のルックアヘッドをもつ対称形ＬＰＣ分析窓が使用されている。ルックアヘッドとは、図５Ｂに示されているように、符号５００で示されている現在フレームに対するＬＰＣ分析窓が、符号５０２で示されている現在フレーム（図５Ｂでは０ｍｓと２０ｍｓの間）内に広がるだけでなく将来フレーム（図５Ｂでは２０ｍｓと４０ｍｓの間）にも広がることを意味する。このことは、このＬＰＣ分析窓を用いることによって、２０ｍｓの更なる遅延、すなわち、将来フレーム全体に及ぶ遅延、が必要であることを意味する。したがって、図５Ｂにおいて符号５０４で示されているルックアヘッド部分はＡＭＲ−ＷＢ＋エンコーダに関連づけられた体系的な遅延をもたらす。換言すれば、将来フレームは、現在フレーム５０２のためのＬＰＣ分析係数を計算できるように完全に利用できなければならない。

図５Ａは、いわゆるＡＭＲ−ＷＢコーダと呼ばれる更なるエンコーダと、特に、現在フレームのための分析係数を計算するために用いられるＬＰＣ分析窓と、を示している。ここでもまた、現在フレームは０ｍｓと２０ｍｓの間に広がり、将来フレームは２０ｍｓと４０ｍｓの間に広がる。図５Ｂとは対照的に、符号５０６で示されるＡＭＲ−ＷＢのＬＰＣ分析窓は、５ｍｓだけ、つまり２０ｍｓから２５ｍｓの間の時間距離をもつルックアヘッド部分５０８をもっている。よって、ＬＰＣ分析により導入される遅延は、図５Ａに対して実質的に縮小される。しかしながら、一方では、次のことが分かった。ＬＰＣ係数を求めるためのルックアヘッド部分、すなわちＬＰＣ分析窓に対するルックアヘッド部分、が大きいほどＬＰＣ係数がよくなり、それゆえ残留信号におけるエネルギーが小さくなり、ビットレートが低くなる。これは、ＬＰＣ予測がオリジナル信号によりよく適合するからである。

図５Ａ及び図５Ｂは、1つのフレームに対するＬＰＣ係数を求めるために単一の分析窓だけをもつエンコーダに関するが、図５ＣはＧ．７１８のスピーチコーダの状況を示している。Ｇ７１８（０６−２００８）の仕様は、送信システム、媒体ディジタルシステム及びネットワークに関係しており、特にディジタル端末装置を記載している。特にディジタル端末装置のための音声信号とオーディオ信号の符号化について記載している。具体的には、この基準は、ＩＴＵ‐Ｔ（国際電気通信連合）勧告のＧ７１８に定義されているように８〜３２キロビット／秒のスピーチ及びオーディオのロバスト（robust）な狭帯域と広帯域の埋め込み可変ビットレート符号化に関係している。入力信号は２０ｍｓのフレームを使用して処理される。コーデックの遅延は入力と出力のサンプリングレートに依存する。広帯域の入力と出力に対して、この符号化の全体的なアルゴリズムの遅延は４２．８７５ｍｓである。この遅延は、１つの２０ｍｓフレーム、入出力再サンプリングフィルタの１．８７５ｍｓの遅延、エンコーダルックアヘッドの１０ｍｓ、後フィルタリングの１ｍｓの遅延、及びデコーダにおけるより上位レイヤ変換符号化のオーバーラップ加算演算を可能にするための１０ｍｓからなる。狭帯域入力と狭帯域出力に対しては上位レイヤが使用されないが、１０ｍｓのデコーダ遅延はフレーム消失が生じた場合と音楽信号に対する符号化性能を向上させるために使用される。出力がレイヤ２に限定される場合は、コーデック遅延を１０ｍｓだけ縮小することができる。エンコーダの説明は以下の通りである。下位の２レイヤは１２．８ｋＨｚでサンプリングされ前強調（pre-emphasized）された信号に適用され、上位の３レイヤは１６ｋＨｚでサンプリングされた入力信号ドメイン内で動作する。コア層は符号励振線形予測（ＣＥＬＰ）技術に基づいており、この技術においてスピーチ信号はスペクトル包絡線を表す線形予測（ＬＰ）合成フィルタを通過した励振信号によってモデル化される。ＬＰフィルタは、交換型の予測手法及び多段ベクトル量子化を用いてイミタンススペクトル周波数（ＩＳＦ：immittance spectral frequency）ドメイン内で量子化される。開ループピッチ分析は、平滑なピッチ輪郭を確実にするためにピッチ追跡アルゴリズムにより実行される。２つの並行ピッチエボリューシン輪郭が比較され、ピッチ推測をよりロバストにするためにより平滑な輪郭を形成する軌跡が選択される。フレームレベルの前処理は高域フィルタリング、毎秒１２８００サンプルへのサンプリング変換、前強調、スペクトル分析、狭帯域入力の検出、音声活動検出、ノイズ推測、ノイズ減少、線形予測分析、ＬＰからＩＳＦへの変換、並びに補間、重み付けされたスピーチ信号の演算、開ループピッチ分析、背景ノイズ更新、符号化モード選択のための信号分類及びフレーム消失隠蔽を含む。選択された符号化タイプを使用するレイヤ１の符号化は、無声符号化モード、有声符号化モード、遷移符号化モード、汎用符号化モード、並びに不連続送信及び雑音生成（ＤＴＸ／ＣＮＧ：discontinuous transmission and comfort noise generation）を含む。

自己相関手法を用いた長期予測又は線形予測（ＬＰ）分析は、ＣＥＬＰ（符号励振線形予測：Code Excited Linear Prediction）モデルの合成フィルタの係数を求める。しかしながら、ＣＥＬＰにおいては、長期予測は、通常、「適応コードブック」であるため、線形予測とは異なる。よって、線形予測は短期予測と見なすことができる。窓化されたスピーチの自己相関はレビンソン−ダービン（・・・・・・・・‐・・・・・・）アルゴリズムを使用してＬＰ係数へ変換される。その後、ＬＰＣ係数はイミタンススペクトルペア（ＩＳＰ）に変換され、結果的に、量子化と補間目的のためにイミタンススペクトル周波数（ＩＳＦ）へ変換される。補間された量子化係数と逆量子化係数は、サブフレームごとの合成フィルタと重み付けフィルタを構築するためにＬＰドメインへ変換して戻される。アクティブ信号フレームの符号化の場合、図５Ｃにおいて符号５１０及び５１２で示されている２つのＬＰＣ分析窓を用いて２セットのＬＰ係数が各フレームにおいて推測される。窓５１２は「中間フレームＬＰＣ窓」と呼ばれ、窓５１０は「エンドフレームＬＰＣ窓」と呼ばれる。１０ｍｓのルックアヘッド部分５１４はフレームエンド自己相関計算のために使用される。そのフレーム構造は図５Ｃに示されている。フレームは４つのサブフレームに分割され、各サブフレームは１２．８ｋＨｚのサンプリングレートにおいて６４サンプルに相当する５ｍｓの長さをもつ。フレームエンド分析と中間フレーム分析のための窓は、図５Ｃに示されているように、第４のサブフレームと第２のサブフレームにそれぞれの中心を置いている。３２０サンプル長をもつハミング（Hamming）窓が窓化のために使用される。その係数は、Ｇ．７１８、６．４．１節において定義されている。その自己相関演算は６．４．２節に記載されている。レビンソン−ダービンアルゴリズムは６．４．３節に、ＬＰからＩＳＰへの変換は６．４．４節に、ＩＳＰからＬＰへの変換は６．４．５節に記載されている。

適応コードブック遅延及び適応コードブックゲインなどのスピーチ符号化パラメータ、代数コードブックインデックス並びにゲインは、入力信号と知覚的に重み付けされたドメインでの合成信号の間の誤差を最小にすることによって検索される。知覚的重み付けは、ＬＰフィルタ係数から得られた知覚的重み付けフィルタを介して信号をフィルタリングすることにより実行される。知覚的に重み付けされた信号は開ループピッチ分析においても使用される。

Ｇ．７１８エンコーダは単一スピーチ符号化モードをもつだけの純粋スピーチコーダである。よって、Ｇ．７１８エンコーダは交換型のエンコーダではないことから、このエンコーダの欠点はコアレイヤ内で単一スピーチ符号化モードしか与えないことである。したがって、このコーダをスピーチ信号以外の信号、すなわち、一般的なオーディオ信号に用いた場合、ＣＥＬＰ符号化の後ろのモデルが不適切になるという品質上の問題が発生する。

更なる交換型のコーデックは、所謂ＵＳＡＣコーデック、すなわち、２０１０年９月２４日付けのＩＳＯ／ＩＥＣＣＤ（国際標準化機構／国際電気標準会議国際規格）２３００３−３において定義された統合型スピーチ／オーディオ符号化コーデックである。この交換型のコーデックに使用されるＬＰＣ分析窓が図５Ｄに符号５１６により示されている。ここでも、０ｍｓと２０ｍｓの間に広がる現在フレームが想定され、よって、このコーデックのルックアヘッド部分５１８は２０ｍｓであること、すなわち、Ｇ．７１８のルックアヘッド部分よりかなり大きいことがわかる。このように、ＵＳＡＣエンコーダはその交換型の性質により良好なオーディオ品質を与えるが、この遅延は、図５Ｄに示されるＬＰＣ分析窓ルックアヘッド部分５１８によりかなり大きい。ＵＳＡＣの一般的な構造は以下の通りである。まず、ステレオ又は多重チャネル処理を取り扱うＭＰＥＧサラウンド（ＭＰＥＧＳ）機能単位と、入力信号におけるより高いオーディオ周波数のパラメータ表示を取り扱う強化ＳＢＲ（ｅＳＢＲ）単位とからなる共通の前処理／後処理がある。次に、２つのブランチがある。1つのブランチは改良されたアドバンストオーディオコーディング（ＡＡＣ：先進的オーディオ符号化）ツール経路からなる。他のブランチは線形予測符号化（ＬＰ又はＬＰＣドメイン）ベース経路からなり、これはＬＰＣ残余の周波数ドメイン表示又は時間ドメイン表示のいずれかを特徴とする。ＡＣとＬＰＣの両方に対して送信された全てのスペクトルは、量子化と算術符号化の後、ＭＤＣＴ（Modified Discrete Cosine Transform：変形離散コサイン変換）ドメインで表示される。時間ドメイン表示は、ＡＣＥＬＰ励振符号化方式を使用する。ＡＣＥＬＰツールでは、長期予測器（適合コードワード）をパルス状シーケンス（イノベーションコードワード）に結合することによって時間ドメイン励振信号を効率的に表す方法が使用される。再構築された励振は、ＬＰ合成フィルタを介して送信されて、時間ドメイン信号を形成する。ＡＣＥＬＰツールへの入力は、適応及びイノベーションコードブック索引と、適応及びイノベーションゲイン値と、他の制御データと、逆量子化及び補間されたＬＰＣフィルタ係数と、を含む。ＡＣＥＬＰツールの出力は、時間ドメインの再構築されたオーディオ信号である。

ＭＤＣＴベースのＴＣＸ復号ツールは、ＭＤＣＴドメインからの重み付けされたＬＰ残余表示を時間ドメイン信号に逆変化させるように用いられ、重み付けされたＬＰ合成フィルタリングを含む重み付けされた時間ドメイン信号を出力する。ＩＭＤＣＴは、２５６、５１２又は１０２４のスペクトル係数を支援するように構成することができる。ＴＣＸツールへの入力は、（逆量子化された）ＭＤＣＴスペクトルと、逆量子化され補間されたＬＰＣフィルタ係数と、を含む。ＴＣＸツールの出力は時間ドメインの再構築されたオーディオ信号である。

図６はＵＳＡＣにおける状況を示しており、現在フレームに対するＬＰＣ分析窓５１６と過去又フレームは最終フレームに対するＬＰＣ分析窓５２０が示され、さらに、ＴＣＸ窓５２２が示されている。ＴＣＸ窓５２２の中心は、０ｍｓから２０ｍｓの間に広がる現在フレームの中心に位置し、過去フレームへ１０ｍｓ広がり、２０ｍｓから４０ｍｓの間に広がる将来フレームへ１０ｍｓ広がっている。このように、ＬＰＣ分析窓５１６は２０ｍｓから４０ｍｓの間、すなわち、２０ｍｓのＬＰＣルックアヘッド部分を必要とし、一方、ＴＣＸ分析窓はまた２０ｍｓから３０ｍｓの間で将来フレームへ広がるルックアヘッド部分をもっている。このことは、ＵＳＡＣ分析窓５１６によって導入される遅延が２０ｍｓであり、一方、ＴＣＸ窓によってエンコーダへ導入される遅延が１０ｍｓであることを意味する。よって、両方の種類の窓のルックアヘッド部分が互いに整列しないことが明らかになる。したがって、ＴＣＸ窓５２２が１０ｍｓの遅延を導入するにすぎないとしても、エンコーダの全体の遅延はＬＰＣ分析窓５１６により２０ｍｓになる。これにより、ＴＣＸ窓に対するルックアヘッド部分が極めて小さくても、それによってエンコーダの全体のアルゴリズム的遅延が縮小されるわけではない。というのは、全体の遅延は最も影響の大きい遅延により決まるからである。その影響の大きい遅延とは、この場合、将来フレームへ２０ｍｓ広がるＬＰＣ分析窓５１６による２０ｍｓの遅延であり、ＬＰＣ分析窓５１６は現在フレームをカバーするだけでなくさらに将来フレームもカバーする。

本発明の目的は、良好なオーディオ品質をもたらすとともに遅延縮小が得られるオーディオ符号化又は復号のための改良された符号化概念を提供することを目的とする。

本目的は、請求項１に記載のオーディオ信号を符号化するための装置、請求項１５に記載のオーディオ信号を符号化する方法、請求項１６に記載のオーディオデコーダ、請求項２４に記載のオーディオ復号方法、又は請求項２５に記載のコンピュータプログラムによって達成される。

本発明によれば、変換符号化ブランチと予測符号化ブランチをもつ交換型のオーディオコーデック方式が用いられる。重要なことは、２種類の窓、すなわち、一方の予測符号化分析窓と他方の変換符号化分析窓は、変換符号化ルックアヘッド部分と予測符号化ルックアヘッド部分が互いに一致するか、又は、異なっていてもその差異が変換符号化ルックアヘッド部分の２０％未満もしくは予測符号化ルックアヘッド部分の２０％未満であるように、それらのルックアヘッド部分に関して整列していることである。予測分析窓は予測符号化ブランチにおいてのみならず、実際には両方のブランチにおいて使用されることに留意されたい。ＬＰＣ分析は変換ドメインの雑音を整形するためにも使用される。したがって、言い換えれば、ルックアヘッド部分は互いに一致するか又は極めて近接している。これにより、最適な妥協が得られ、しかもオーディオ品質も遅延特徴も次善の方法をとらなくてもすむことが確実となる。それ故、分析窓の予測符号化については、ルックアヘッドが長くなるほどＬＰＣ分析の方がよいが、ルックアヘッド部分が長くなるにつれて遅延が大きくなることがわかる。他方で、同じことがＴＣＸ窓に当てはまる。ＴＣＸ窓のルックアヘッド部分が長くなるほど、長いＴＣＸ窓によって一般に低いビットレートが得られるので、ＴＣＸビットレートをより縮小することができる。したがって、本発明によれば、ルックアヘッド部分は互いに一致しているか、又は互いに極めて近接しており、特に、異なるにしても２０％未満で異なっているにすぎない。したがって、遅延理由次第では望ましくない場合もあるが、他方では、そのルックアヘッド部分は、符号化／復号ブランチの両方によって最適に使用される。

以上に鑑みて、本発明は、一方では、両方の分析窓に対するルックアヘッド部分が低く設定されるという改良された符号化概念を提供するとともに、他方では、オーディオ品質又はビットレートによる理由から導入の必要が生じる遅延が単一の符号化ブランチのみならず両方の符号化ブランチによっていずれにしろ最適に使用されるという事実によって良好な特徴をもつ符号化／復号概念を提供する。

オーディオサンプルのストリームをもつオーディオ信号を符号化するための装置が窓化器を備え、その窓化器は予測分析のための窓化データを取得するためにオーディオサンプルのストリームに予測符号化分析窓を適用し、変換分析のための窓化データを取得するためにオーディオサンプルのストリームに変換符号化分析窓を適用する。変換符号化分析窓は、オーディオサンプルの現在フレームのオーディオサンプルと、変換符号化ルックアヘッド部分である、オーディオサンプルの将来フレームの所定のルックアヘッド部分とに関連づけられる。

さらに、予測符号化分析窓は、現在フレームのオーディオサンプルの少なくとも一部と、予測符号化ルックアヘッド部分である、将来フレームの所定の部分のオーディオサンプル、とに関連づけられている。

変換符号化ルックアヘッド部分と予測符号化ルックアヘッド部分は互いに一致しているか、又は、互いから予測符号化ルックアヘッド部分の２０％未満だけもしくは変換符号化ルックアヘッド部分の２０％未満だけ異なっており、それ故、互いに極めて近接している。この装置は、予測分析のための窓化データを使用して現在フレームに対する予測符号化データを生成するか、又は、変換分析のための窓データを使用して現在フレームに対する変換符号化データを生成するための符号化プロセッサをさらに備えている。

符号化されたオーディオ信号を復号するためのオーディオデコーダは、符号化されたオーディオ信号から予測符号化フレームに対するデータの復号を実行するための予測パラメータデコーダを備え、第２のブランチに対しては、符号化されたオーディオ信号から変換符号化フレームに対するデータの復号を実行するための変換パラメータデコーダを備えている。

変換パラメータデコーダは、スペクトル時間変換、好ましくは、ＭＤＣＴ（Modified Discrete Cosine Transform：変形離散コサイン変換）、ＭＤＳＴ（Modified Discrete Sine Transform：変形離散サイン変換）又は他のこのような変換などのエイリアシングの影響を受けたスペクトル時間変換を実行するように構成され、かつ現在フレームと将来フレームに対するデータを取得するために変換されたデータに合成窓を適用するように構成されている。オーディオデコーダによって用いられる合成窓は、第１のオーバーラップ部分、これに隣接する第２の非オーバーラップ部分及びこれに隣接する第３のオーバーラップ部分をもつようになされ、第３のオーバーラップ部分が将来フレームに対するオーディオサンプルに関連づけられ、非オーバーラップ部分が現在フレームのデータに関連づけられている。さらに、デコーダ側が良好なオーディオ品質をもつように、オーバーラップ加算器が適用されて、現在フレームに対する合成窓の第３のオーバーラップ部分に関連づけられた合成窓化サンプルと、将来フレームに対する合成窓の第１のオーバーラップ部分に関連付けられた合成窓化サンプルと、をオーバーラップさせて加算し、将来フレームに対するオーディオサンプルの第１の部分を取得する。その際、現在フレームと将来フレームが変換符号化データを含むとき、将来フレームに対するオーディオサンプルの残りのサンプルは、オーバーラップ加算なしで得られた将来フレームに対する合成窓の第２の非オーバーラップ部分に関連づけられた合成窓化サンプルである。

本発明の好ましい幾つかの実施形態は、ＴＣＸブランチなどの変換符号化ブランチとＡＣＥＬＰブランチなどの予測符号化ブランチに対して同一のルックアヘッドは、両方の符号化モードが遅延の制約下で最大限利用可能なルックアヘッドをもつように互いに一致しているという特徴をもつ。さらに、ＴＣＸ窓のオーバーラップがルックアヘッド部分に制限されることが好ましく、その場合は1つのフレームから次のフレームまでの変換符号化モードから予測符号化モードへの切換えがエイリアシング問題を意識せずに容易に実行できる。

オーバーラップをルックアヘッドに制限するさらなる理由は、デコーダ側に遅延を発生させないためである。１０ｍｓのルックアヘッドと、例えば２０ｍｓのオーバーラップをもつＴＣＸ窓があるとすると、デコーダにおいて１０ｍｓのさらなる遅延が生じる。１０ｍｓのルックアヘッドと１０ｍｓのオーバーラップをもつＴＣＸ窓の場合は、デコーダ側でさらなる遅延は生じない。より簡単な切換えはその良い結果である。

したがって、分析窓、もちろん合成窓も、その第２の非オーバーラップ部分が現在フレームの終わりまで広がり、将来フレームでは第３のオーバーラップ部分がスタートするのみであることが好ましい。さらに、ＴＣＸ又は変換符号化分析／合成窓の非ゼロ部分がフレームの始まりに整列し、これによって、再び、1つのモードから他のモードへの簡単で低効率の切換えが利用可能となる。

また、複数のサブフレーム、例えば４つのサブフレーム、からなるフレーム全体が、（ＴＣＸモードなどの）変換符号化モード又は（ＡＣＥＬＰモードなどの）予測符号化モードのいずれかで完全に符号化することができることが好ましい。

さらに、単一のＬＰＣ分析窓のみならず２つの異なるＬＰＣ分析窓を使用し、一方のＬＰＣ分析窓が第４のサブフレームの中心に整列されるエンドフレーム分析窓であり、他方の分析窓が第２のサブフレームの中心に整列される中間フレーム分析窓であることが好ましい。しかし、エンコーダが変換符号化に切り換えられる場合は、エンドフレームＬＰＣ分析窓に基づいてＬＰＣ分析から得られた単一ＬＰＣ係数データセットを送信するだけにするのが好ましい。さらに、デコーダ側では、変換符号化合成、特に、ＴＣＸ係数のスペクトル重み付けに対してこのＬＰＣデータを直接使用しないことが好ましい。その代わり、現在フレームのエンドフレームＬＰＣ分析窓から得られたＴＣＸデータを過去フレーム、すなわち、現在フレームの時間的に直前のフレームからエンドフレームＬＰＣ分析窓によって取得したデータで補間することが好ましい。全体フレームに対する単一セットのＬＰＣ係数のみをＴＣＸモードで送信することによって、中間フレーム分析とエンドフレーム分析に対する２つのＬＰＣ係数データセットを送信するよりもビットレートをさらに縮小することができる。しかしながら、エンコーダがＡＣＥＬＰモードに切り換えられた場合、両セットのＬＰＣ係数はエンコーダからデコーダに送られる。

さらに、中間フレームＬＰＣ分析窓は現在フレームの後半のフレーム境界においてすぐに終了し、かつ過去フレームへさらに広がることが好ましい。これはいかなる遅延を発生させない。過去フレームはすでに利用可能であり遅延なく利用できるからである。

一方、エンドフレーム分析窓は現在フレーム内のどこかの時点でスタートするが現在フレームの最初でスタートしないことが好ましい。しかしながら、このことは問題を生じない。というのは、ＴＣＸ重み付けを形成する際、過去フレームに対するエンドフレームＬＰＣデータセットと現在フレームに対するエンドフレームＬＰＣデータセットの平均が使用され、その結果、最終的に、ある意味では、ＬＰＣ係数を計算するために全てのデータが使用されるからである。したがって、エンドフレーム分析窓のスタートは過去フレームのエンドフレーム分析窓のルックアヘッド部分内に含まれることが好ましい。

デコーダ側において、1つのモードから他のモードへ切り換えるための経費が大幅に縮小される。その理由は、合成窓の非オーバーラップ部分（好ましくはそれ自体の中で対称形である）は、現在フレームのサンプルには関連づけられないが将来フレームのサンプルに関連づけられ、かつそれ故、ルックアヘッド部分、すなわち、将来フレーム内へ広がるだけであるからである。よって、合成窓は、好ましくは現在フレームの直ぐのスタート時点からスタートする第１のオーバーラップ部分のみが現在フレーム内にあり、第２の非オーバーラップ部分が第１のオーバーラップ部分の終わりから現在フレームの終わりまで広がり、これによって、第２のオーバーラップ部分がルックアヘッド部分に一致するようにされている。したがって、ＴＣＸからＡＣＥＬＰへの遷移がある場合、合成窓のオーバーラップ部分によって得られたデータは単に破棄され、ＡＣＥＬＰブランチから出て将来フレームの先頭から利用可能な予測符号化データに置き換えられる。

一方、ＡＣＥＬＰからＴＣＸへ切換えがある場合、いかなるデータもオーバーラップ「パートナー」を見つけるために再構築する必要がないように、非オーバーラップ部分をもつ現在フレームの最初、すなわち、スイッチング直後のフレーム、において直ぐスタートする特定の遷移窓が用いられる。その代わり、合成窓の非オーバーラップ部分は、デコーダにおいて必要とされるオーバーラップやオーバーラップ加算手順なしで正確なデータを提供する。

オーバーラップ加算手順は、オーバーラップ部分、すなわち、現在フレームに対する窓の第３の部分及び次のフレームに対する窓の第１の部分に対してのみ有用である。また、オーバーラップ加算手順は、単純なＭＤＣＴにおけるように、1つのブロックから他のブロックまで連続的なフェードイン／フェードアウトをもつように実行され、従来の技術において、用語「タイム・ドメイン・エイリアシング・キャンセル（ＴＤＡＣ）」としても知られているＭＤＣＴの厳密にサンプリングされた性質によって、ビットレートを高める必要なしに、最終的に良好なオーディオ品質を得る。

さらに、このデコーダが有用であるのは、ＡＣＥＬＰ符号化モードではエンコーダにおける中間フレーム窓とエンドフレーム窓から得られたＬＰＣデータが送信され、一方、ＴＣＸ符号化モードではエンドフレーム窓から得られた単一ＬＰＣデータセットのみが使用される点にある。しかしながら、ＴＣＸ復号されたデータをスペクトル的に重み付けするために、送信されたＬＰＣデータはそのまま使用せずに、過去フレームに対して得られたエンドフレームＬＰＣ分析窓からの対応するデータで平均化される。

次に、本発明の好ましい実施形態を添付図面を参照して説明する。

交換型のオーディオエンコーダを示すブロック図である。対応する交換型のデコーダを示すブロック図である。図１Ｂに示されている変換パラメータデコーダの詳細を示す図である。図１Ａのエンコーダの変換符号化モードの詳細を示す図である。本発明の好ましい実施例による、一方でＬＰＣ分析のためのエンコーダに用いられる窓化器、他方で変換符号化分析のためのエンコーダに用いられる窓化器であり、図１Ｂの変換符号化デコーダに使用される合成窓を示す図である。２より多いフレームの時間間隔にわたって整列したＬＰＣ分析窓及びＴＣＸ窓の窓シーケンスを示す図である。ＴＣＸからＡＣＥＬＰへの遷移状態及びＡＣＥＬＰからＴＣＸへの遷移に対する遷移窓を示す図である。図１Ａのエンコーダの詳細を示す図である。あるフレームに対する符号化モードを決定するための分析−合成手順を示す図である。本発明の更なる実施形態による、フレームごとのモード間で決定する図である。現在フレームに２つの異なるＬＰＣ分析窓を使用することによって得られたＬＰＣデータの計算及び使用法を示す図である。エンコーダのＴＣＸブランチに対するＬＰＣ分析窓を使って窓化することによって得られたＬＰＣデータの使用法を示す図である。ＡＭＲ−ＷＢに対するＬＰＣ分析窓を示す図である。ＬＰＣ分析のためにＡＭＲ−ＷＢ＋の対称窓を示す図である。Ｇ．７１８エンコーダに対するＬＰＣ分析窓を示す図である。ＵＳＡＣで使用されるＬＰＣ分析窓を示す図である。現在フレームのためのＬＰＣ分析窓に対する現在フレームのためのＴＣＸ窓を示す図である。

図１Ａはオーディオサンプルのストリームをもつオーディオ信号を符号化するための装置を示している。オーディオサンプル又はオーディオデータは１００においてエンコーダに入る。オーディオデータは、予測分析のための窓化データを取得するためにオーディオサンプルのストリームに予測符号化分析窓を適用する窓化器（windower）１０２へ入力される。さらに、この窓化器１０２は、変換分析のための窓化データを取得するためにオーディオサンプルのストリームに変換符号化分析窓を適用するように構成されている。実施の方法にもよるが、ＬＰＣ窓はオリジナル信号に直接は適用されないが、（例えば、ＡＭＲ−ＷＢ、ＡＭＲ−ＷＢ＋、Ｇ７１８、及びＵＳＡＣにおけるように）「前強調」信号に適用される。一方、ＴＣＸ窓は、（ＵＳＡＣにおけるように）オリジナル信号に直接適用される。しかしながら、両窓とも、同一信号に適用することもでき、又は、ＴＣＸ窓は品質や圧縮効率を高めるために使用される前強調や任意の他の重み付けなどによってオリジナル信号から得られた処理ずみオーディオ信号に適用することもできる。

変換符号化分析窓は、オーディオサンプルの現在フレーム内のオーディオサンプルと、変換符号化ルックアヘッド部分である、オーディオサンプルの将来フレームの所定の部分のオーディオサンプルとに関連づけられている。

さらに、予測符号分析窓は、現在フレームのオーディオサンプルの少なくとも一部と、予測符号化ルックアヘッド部分である、将来フレームの所定の部分のオーディオサンプルとに関連づけられている。

ブロック１０２に略示されているように、変換符号化ルックアヘッド部分と予測符号化ルックアヘッド部分は互いに整列している。このことは、これらの部分が互いに一致しているか、又は、互いに異なっていても予測符号化ルックアヘッド部分の２０％未満もしくは変換符号化ルックアヘッド部分の２０％未満で異なっているにすぎないというように、互いに極めて近接していることを意味する。好ましくは、変換符号化ルックアヘッド部分と予測符号化ルックアヘッド部分は互いに一致しているか、又は予測符号化ルックアヘッド部分の高々５％未満もしくは変換符号化ルックアヘッド部分の高々５％未満で異なっているにすぎない。

このエンコーダは、予測分析のための窓化データを用いて現在フレームに対する予測符号化データを生成するか又は変換分析のための窓化データを用いて現在フレームに対する変換符号化データを生成するための符号化プロセッサ１０４をさらに備えている。

さらに、好ましくは、このエンコーダは、現在フレーム、実際には、フレームごとに、ＬＰＣデータ１０８ａ、及びライン１０８ｂ上で変換符号化データ（ＴＣＸデータなど）又は予測符号化データ（ＡＣＥＬＰデータ）を受けとるための出力インターフェース１０６を備えている。符号化プロセッサ１０４はこれら２種類のデータを出力し、入力として符号１１０ａで示される予測分析用窓化データと符号１１０ｂで示される変換分析用窓化データを受けとる。さらに、符号化装置は符号化モード選択器又はコントローラ１１２を備え、これは入力としてオーディオデータ１００を受けとり、制御ライン１１４ａを介して符号化プロセッサ１０４へ制御データを出力し、又は制御ライン１１４ｂを介して出力インターフェース１０６へ制御データを出力する。

図３Ａは、符号化プロセッサ１０４及び窓化器１０２に関してさらに詳細を示す。好ましくは、窓化器１０２は、第１のモジュールとしてＬＰＣ又は予測符号化分析窓化器１０２ａを備え、第２のコンポーネント又はモジュールとして変換符号化窓化器（ＴＣＸ窓化器など）１０２ｂを備えている。矢印３００で示されているように、ＬＰＣ分析窓とＴＣＸ窓は両窓のルックアヘッド部分が互いに一致するように整列しており、これは両方のルックアヘッド部分が同時刻になるまで将来フレームへ広がることを意味する。図３ＡでＬＰＣ窓化器１０２ａから右方へ進む上段ブランチは予測符号化ブランチであり、ＬＰＣ分析器及び補間器３０２、知覚的重み付けフィルタ又は重み付けブロック３０４、並びにＡＣＥＬＰパラメータ計算器などの予測符号化パラメータ計算器３０６を備えている。オーディオデータ１００はＬＰＣ窓化器１０２ａと知覚的重み付けブロック３０４へ与えられる。さらに、オーディオデータはＴＣＸ窓化器へ与えられ、ＴＣＸ窓化器の出力から右方へ進む下段ブランチは変換符号化ブランチを構成している。この変換符号化ブランチは、時間周波数変換ブロック３１０、スペクトル重み付けブロック３１２、及び処理／量子化符号化ブロック３１４を備えている。時間周波数変換ブロック３１０は、好ましくは、出力値より多数の入力値をもつＭＤＣＴ、ＭＤＳＴ又は任意の他の変換などのエイリアシング導入変換として実施される。時間−周波数変換は、ＴＣＸ又は一般的には変換符号化窓化器１０２ｂによって出力された窓化データを入力する。

図３Ａは、予測符号化ブランチについては、ＡＣＥＬＰ符号化アルゴリズムによるＬＰＣ処理を示しているが、従来技術において知られているＣＥＬＰや任意の他の時間ドメイン・コーダなどの他の予測コーダも同様に適用することができる。但し、品質面及び効率面から、ＡＣＥＬＰアルゴリズムが好ましい。

また、変換符号化ブランチついては、時間−周波数変換ブロック３１０でのＭＤＣＴ処理が特に好ましいが、任意の他のスペクトルドメイン変換も同様に実行することができる。

さらに、図３Ａは、ブロック３１０により出力されたスペクトル値をＬＰＣドメインへ変換するためのスペクトル重み付け３１２を示している。このスペクトル重み付け３１２は、予測符号化ブランチにおけるブロック３０２によって生成されたＬＰＣ分析データから導出された重み付けデータによって実行される。しかしながら、これとは別に、時間ドメインにおいて時間ドメインからＬＰＣドメインへの変換も実行することができる。この場合、ＬＰＣ分析フィルタは予測残留時間ドメインデータを計算するためにＴＣＸ窓化器１０２ｂの前に配置されることになるだろう。しかしながら、時間ドメインからＬＰＣドメインへの変換は、ＭＤＣＴドメインなどのスペクトルドメイン内の対応する重み付けファクタへＬＰＣデータから変換されたＬＰＣ分析データを用い、変換符号化データをスペクトル的に重み付けすることによって、スペクトルドメイン内で実行するのが好ましいことが分かっている。

図３Ｂは、フレームごとの符号化モードの分析合成又は「閉ループ」判定を概略的に示す図である。このために、図３Ｃに示されているエンコーダは、符号１０４ｂで示されている完全な変換符号化エンコーダ及び変換符号化デコーダと、さらに符号１０４ａで示されている完全な予測符号化エンコーダ及びそれに対応するデコーダを備えている。両ブロック１０４ａ、１０４ｂはオーディオデータを入力し、完全な符号化／復号動作を実行する。その後、両方の符号化ブランチ１０４ａ、１０４ｂに対する符号化／復号動作の結果がオリジナル信号と比較され、どちらの符号化モードの方がより良い品質が得られたかを見つけ出すために品質尺度が決定される。品質尺度は、例えば、３ＧＰＰＴＳ２６．２９０の５．２．３節において記載されているセグメント化ＳＮ比又は平均セグメント化ＳＮ比とすることができる。しかしながら、符号化／復号結果とオリジナル信号との比較に典型的に依存する品質尺度であれば、任意の他の品質尺度も同様に使うことができる。

各ブランチ１０４ａ、１０４ｂから判定器１１２へ与えられた品質尺度に基づいて、判定器１１２は、現在検討中のフレームがＡＣＥＬＰを使用して符号化すべきか又はＴＣＸを使用して符号化すべきか判定する。この判定に続いて、符号化モード選択を実行するためにはいくつかの方法がある。1つの方法は、対応するエンコーダ／デコーダブロック１０４ａ、１０４ｂだけが現在フレームに対する符号化結果を出力インターフェース１０６へ出力するように、判定器１１２がエンコーダ／デコーダブロック１０４ａ、１０４ｂを制御する方法であり、その結果、ある特定のフレームに対して、１つの符号化結果のみが出力符号化信号１０７に送られることが確実になる。

別の方法では、両方の装置１０４ａ、１０４ｂはそれらの符号化結果を既に出力インターフェース１０６へ転送できており、両方の結果が出力インターフェース１０６に格納された後に、判定器がライン１０５を介して出力インターフェースを制御してブロック１０４ｂ又はブロック１０４ａからのいずれかの結果を出力する。

図３Ｂは、図３Ｃの概念をより詳細に示している。特に、ブロック１０４ａは、完全なＡＣＥＬＰエンコーダ、完全なＡＣＥＬＰデコーダ及び比較器１１２ａを含む。比較器１１２ａは比較器１１２ｃに品質尺度を与える。同じことが、ＴＣＸ符号化され再び復号された信号をオリジナルオーディオ信号と比較して得られた品質尺度をもつ比較器１１２ｂにも当てはまる。次に、両比較器１１２ａ、１１２ｂはそれらの品質尺度を最終比較器１１２ｃに与える。どちらの品質尺度がより高いかに応じて、比較器はＣＥＬＰにするかＴＣＸにするかを決定する。その決定は、更なるファクタを導入することにより、より精緻化することができる。

また、現在フレームに対するオーディオデータ信号分析に基づいて現在フレームに対する符号化モードを判断するための開ループモードを実行することができる。この場合、図３Ｃの判定器１１２は現在フレームに対するオーディオデータ信号分析を実行し、その後、現在オーディオフレームを実際に符号化するためにＡＣＥＬＰエンコーダ又はＴＣＸエンコーダを制御するであろう。このような状況において、エンコーダは完全なデコーダを必要とせず、エンコーダ内の符号化ステップの実行のみで十分であろう。開ループ信号分類及び信号判定は、例えば、ＡＭＲ−ＷＢ＋（３ＧＰＰＴＳ２６．２９０）にも記載されている。

図２Ａは、窓化器１０２の好ましい実施、及び特にこの窓化器によって供給される窓を示している。

現在フレームに対する予測符号化分析窓は符号２００で示されており、好ましくはその中心が第４のサブフレームの中心に位置している。また、更なるＬＰＣ分析窓を使用することが好ましい。その窓は符号２０２で示された中間フレームＬＰＣ分析窓であり、その中心が現在フレームの第２のサブフレームの中心に位置している。さらに、変換符号化窓、例えばＭＤＣＴ窓２０４などは、図示されているように２つのＬＰＣ分析窓２００、２０２に相対して配置されている。特に、その分析窓のルックアヘッド部分２０６は、予測符号化分析窓のルックアヘッド部分２０８と同じ時間長をもっている。両ルックアヘッド部分は将来フレームへ１０ｍｓ広がっている。さらに、変換符号化分析窓は、オーバーラップ部分２０６だけでなく、１０ｍｓから２０ｍｓの間の非オーバーラップ部分２０８と第１オーバーラップ部分２１０とをもっていることが好ましい。オーバーラップ部分２０６及び２１０は、デコーダのオーバーラップ加算器がオーバーラップ部分においてオーバーラップ加算処理を実行するようにされているが、オーバーラップ加算手順は、非オーバーラップ部分に対しては必要ない。

好ましくは、第１のオーバーラップ部分２１０はフレームの最初、すなわち、０ｍｓでスタートし、フレームの中心すなわち１０ｍｓまで広がる。さらに、非オーバーラップ部分は、フレームの第１の部分２１０の最後から２０ｍｓにあるフレームの最後まで広がり、その結果、第２のオーバーラップ部分２０６がルックアヘッド部分と完全に一致する。これは一方のモードから他方のモードへの切換えによる利点をもっている。ＴＣＸ性能の観点から、完全オーバーラップ（ＵＳＡＣにおけるように２０ｍｓオーバーラップ）をもつ正弦窓を使用した方がよいであろう。ただし、その場合、ＴＣＸとＡＣＥＬＰの間の遷移には前方エイリアシングキャンセル（ＦＡＣ）のような技術を必要とするだろう。前方エイリアシングキャンセルは、（ＡＣＥＬＰに置き換えられる）次のＴＣＸフレームの欠損によって導入されるエイリアシングをキャンセルするためにＵＳＡＣにおいて使用されている。前方エイリアシングキャンセルは相当量のビットを必要とすることから、一定ビットレートで、かつ、特に既述の好ましい一実施形態のような低ビットレートのコーデックには適さない。したがって、本発明の幾つかの実施形態によれば、ＦＡＣを使用する代わりに、ＴＣＸ窓のオーバーラップが減少され、かつオーバーラップ部分２０６全体が将来フレーム内に位置するように窓が将来フレーム方向にシフトされている。さらに、次のフレームがＡＣＥＬＰであり前方エイリアシングキャンセルを使用しない場合、図２Ａに示されている変換符号化のための窓は、それでも最大オーバーラップをもち、現在フレームにおいて完全な再構築をなす。この最大オーバーラップは、好ましくは、時間的に利用可能なルックアヘッドである１０ｍｓに設定されている。それが１０ｍｓであることは図２Ａから明らかである。

図２Ａはエンコーダについて述べられており、そこでは変換符号化のための窓２０４は分析窓である、その窓２０４は変換復号のための合成窓も示していることにも留意されたい。好ましい実施形態においては、分析窓は合成窓に一致しており、両方の窓は窓自体に関して対称形である。これは、両方の窓が（垂直）中心線に対して対称をなすことを意味する。しかしながら、他の応用では非対称な窓を使用することができ、その場合、分析窓は合成窓とは形状が異なる。

図２Ｂは、過去フレームの一部、その後に続く現在フレーム、この現在フレームの後に続く将来フレーム、この将来フレームの後に続く次の将来フレームの部分にわたる一連の窓を示している。

符号２５０で示されオーバーラップ加算プロセッサによって処理されるオーバーラップ加算部分が、各フレームの最初から各フレームの中間まで広がることが明らかである。すなわち、オーバーラップ加算部分は、将来フレームデータ計算用は２０〜３０ｍｓ、次の将来フレームに対するＴＣＸデータ計算用は４０〜５０ｍｓ、又は現在フレームに対するデータ計算用はゼロ〜１０ｍｓである。しかしながら、各フレーム後半のデータ計算に対しては、オーバーラップ加算も、したがって前方エイリアシングキャンセル技術も必要とされない。これは、合成窓が各フレームの後半で非オーバーラップ部分をもっているからである。

典型的には、ＭＤＣＴ窓長はフレーム長の倍である。このことは本発明にも同様に当てはまる。しかしながら、図２Ａを再度みると、分析／合成窓が０ｍｓから３０ｍｓまで広がっているにすぎないが、窓の完全長さは４０ｍｓであることが分かる。この完全長さは、ＭＤＣＴ計算の対応する畳み込み又は畳み込み解除動作のための入力データを提供するためには十分な長さである。窓を全長４０ｍｓまで広げるために、ゼロ値の５ｍｓが−５ｍｓと０ｍｓの間に追加され、ＭＤＣＴゼロの０値の５ｍｓも３０ｍｓと３５ｍｓの間でフレームの最後に追加されている。しかし、ゼロ値だけをもっているこの追加部分は、遅延を考慮した場合、何の役割も果たさない。というのは、エンコーダ又はデコーダにとって最後の５ｍｓの窓と最初の５ｍｓの窓がゼロであることは既知であり、このデータは遅延なしで既に存在しているからである。

図２Ｃは２つの可能性のある遷移を示す。ＴＣＸからＡＣＥＬＰへの遷移については、しかしながら、特別な配慮は不要である。図２Ａを参照するに、将来フレームがＡＣＥＬＰフレームであると仮定した場合、ルックアヘッド部分２０６に対する最終フレームをＴＣＸ復号することによって得られたデータは単純に削除することができる。というのは、ＡＣＥＬＰフレームが将来フレームの最初において直ぐにスタートしてデータホール（data hole）が生じないからである。ＡＣＥＬＰデータは自己無撞着（self-consistent）であるため、デコーダは、ＴＣＸからＡＣＥＬＰへ切り換える場合、現在フレームのためにはＴＣＸから計算されたデータを使用し、将来フレームのためにはＴＣＸ処理によって得られたデータを破棄し、それに代わってＡＣＥＬＰブランチからの将来フレームデータを使用する。

しかしながら、ＡＣＥＬＰからＴＣＸへの遷移が実行される場合、図２Ｃに示されているように、特別な遷移窓が使用される。この窓は、フレームの最初でゼロから１へスタートし、非オーバーラップ部分２２０をもち、そして最後に単純なＭＤＣＴ窓のオーバーラップ部分２０６と一致する符号２２２で示されたオーバーラップ部分をもっている。

さらに、この窓は、窓の最初で−１２．５ｍｓ〜０の区間、窓の最後の３０〜３７．５ｍｓの区間、すなわちルックアヘッド部分２２２の後にゼロ値が継ぎ足されている。これによって変換長が大きくなる。この変換長は５０ｍｓだが、単純な分析／合成窓長は４０ｍｓにすぎない。このことが、しかし、効率を下げたりビットレートを上げたりはしない。そして、長い方の変換長は、ＡＣＥＬＰからＴＣＸへの切換えが起こる際に必要である。対応するデコーダに使用される遷移窓は、図２Ｃに示されている窓と同じである。

次に、デコーダをより詳細に説明する。図１Ｂは、符号化されたオーディオ信号を復号するためのオーディオデコーダを示している。このオーディオデコーダは予測パラメータデコーダ１８０を備えている。その予測パラメータデコーダは、１８１において受け取られかつインターフェース１８２へ入力される符号化されたオーディオ信号から予測符号化フレームのためのデータを復号するように構成されている。さらに、このデコーダは、ライン１８１上の符号化されたオーディオ信号から変換符号化フレームのためのデータを復号するための変換パラメータデコーダ１８３を備えている。この変換パラメータデコーダは、好ましくは、エイリアシングの影響を受けたスペクトル−時間変換を実行し、かつ変換されたデータに合成窓を適用して現在フレーム及び将来フレームのためのデータを取得するように構成されている。その合成窓は、図２Ａに示されているように第１のオーバーラップ部分、これに隣接する第２の非オーバーラップ部分及びこれに隣接する第３のオーバーラップ部分を有しており、第３のオーバーラップ部分は将来フレームに対するオーディオサンプルのみに関連づけられ、非オーバーラップ部分は現在フレームのデータのみに関連づけられている。さらに、オーバーラップ加算器１８４か設けられており、オーバーラップ加算器１８４は、現在フレームのための合成窓の第３のオーバーラップ部分に関連づけられた合成窓サンプルと、将来フレームのための合成窓の第１のオーバーラップ部分に関連づけられたサンプルにおける合成窓とをオーバーラップさせて加算し、将来フレームに対するオーディオサンプルの第１の部分を取得する。将来フレームのためのオーディオサンプルの残りは、現在フレームと将来フレームが変換符号化データを含む場合に、オーバーラップ加算を行わずに得られた将来フレームのための合成窓の第２の非オーバーラップ部分に関連づけられた合成窓化サンプルである。しかしながら、1つのフレームから次のフレームへの切換えが起こり、それが1つの符号化モードから他の符号化モーへの良好な切換えを配慮しなければならない場合、出力に復号されたオーディオデータを最終的に得るための結合器１８５が有用である。

図１Ｃは変換パラメータデコーダ１８３の構造をより詳細に示す。

このデコーダは、デコーダ処理ステージ１８３ａを含み、このステージ１８３ａは、符号化されたスペクトルデータを復号するために必要な全ての処理、例えば、算術的復号、ハフマン（Huffman）復号又は一般的にエントロピー復号と、その後の逆量子化、ノイズ充填などを実行し、ブロック１８３の出力において復号されたスペクトル値を取得するように構成されている。これらのスペクトル値は、スペクトル重み付け器１８３ｂへ入力される。このスペクトル重み付け器１８３ｂはＬＰＣ重み付けデータ計算器１８３ｃからスペクトル重み付けデータを受けとる。このスペクトル重み付けデータは、エンコーダ側の予測分析ブロックから生成されたＬＰＣデータによって与えられ、デコーダ側で入力インターフェース１８２を介して受け取られる。その後、例えば、将来フレームのためのデータがオーバーラップ加算器１８４に提供される前に逆スペクトル変換が実行される。その逆スペクトル変換は、第１のステージとして、好ましくは、ＤＣＴ（離散コサイン変換）−ＩＶ逆変換１８３ｄと、次の畳み込み解除及び合成窓化処理１８３ｅとを含む。オーバーラップ加算器１８４は、次の将来フレームのためのデータが使用可能になった時点で、オーバーラップ加算動作を実行することができる。ブロック１８３ｄと１８３ｅは、いっしょになって、スペクトル／時間変換、又は、図１Ｃの実施形態においては好ましいＭＤＣＴ逆変換（ＭＤＣＴ^-1）を構成する。

とりわけ、ブロック１８３ｄは、２０ｍｓのフレームのためのデータを受け取り、ブロック１８３ｅの畳み込み解除ステップにおいてデータ量を４０ｍｓのデータ、すなわち、以前のデータの２倍になるように大きくし、続いて、４０ｍｓ（窓の最初と最後にともにゼロ部分が加算された場合）の長さをもつ合成窓がこれらの４０ｍｓのデータへ適用される。その後、ブロック１８３ｅの出力において現在ブロックに対するデータ及び将来ブロックに対するルックアヘッド部分内のデータが利用可能になる。

図１Ｄは対応するエンコーダ側の処理を示している。図１Ｄに関連して説明される特徴は、符号化プロセッサ１０４において、又は、図３Ａの対応するブロックによって実施される。図３Ａにおける時間−周波数変換３１０は、好ましくは、ＭＤＣＴとして実施され、窓化、畳み込みステージ３１０ａを含み、このステージにおいてブロック３１０ａの窓化動作がＴＣＸ窓化器１０２ｂによって実施される。したがって、図３Ａのブロック３１０の実際の最初の動作は、４０ｍｓの入力データを２０ｍｓフレームデータへ戻すための畳み込み動作である。その後、この時点でエイリアシング寄与を受け取った畳み込みデータを用いてブロック３１０ｂに示されているＤＣＴ‐ＩＶが実行される。ブロック３０２（ＬＰＣ分析）は、エンドフレームＬＰＣ窓を使用した分析から得たＬＰＣデータを（ＬＰＣからＭＤＣＴへの）ブロック３０２ｂへ与え、ブロック３０２ｂは、スペクトル重み付け器３１２によってスペクトル重み付けを行うための重み付けファクタを生成する。好ましくは、ＴＣＸ符号化モードにおける２０ｍｓの１フレームに対する１６個のＬＰＣ係数は１６個のＭＤＣＴドメイン重み付けファクタへ変換されるが、このとき、好ましくは、ｏＤＦＴ（奇数離散フーリエ変換）を用いる。他のモード、例えば８ｋＨｚのサンプリングレートをもつＮＢ（狭帯域）モードの場合、ＬＰＣ係数の数はより少なく、例えば１０個とすることができる。より高いサンプリングレートをもつ他のモードの場合、１６個を上回るＬＰＣ係数もありうる。このｏＤＦＴの結果は１６個の重み付け値であり、各重み付け値がブロック３１０ｂで得られたスペクトルデータの帯域に関連づけられている。スペクトル重み付けは、1つの帯域あたりの全てのＭＤＣＴスペクトル値をこの帯域に関連づけられた同じ重み付け値で除算することによって行われるが、それはブロック３１２においてこのスペクトル重み付け動作を極力効率的に実行するためである。よって、１６個の帯域のＭＤＣＴ値はそれぞれが対応する重み付けファクタで除算されてスペクトル的に重み付けされたスペクトル値が出力され、その後、これらのスペクトル値はブロック３１４により、従来技術において知られているように、すなわち、例えば、量子化及びエントロピー符号化によってさらに処理される。

一方、デコーダ側では、図１Ｄのブロック３１２に対応しているスペクトル重み付けは、図１Ｃに示されているスペクトル重み付け器１８３ｂによって実行される乗算である。

次に、図４Ａ及び図４Ｂは、図２に示されている１つ又は２つのＬＰＣ分析窓によって生成されたＬＰＣデータが、ＡＣＥＬＰモード又はＴＣＸ／ＭＤＣＴモードにおいてどのように使用されるかを概略的に説明している。

ＬＰＣ分析窓の適用に続き、ＬＰＣ窓化データを用いて自己相関演算が行われる。その時、レビンソン−ダービン（Levinson Durbin）アルゴリズムが自己相関関数に適用される。その後、ＬＰ分析ごとの１６個のＬＰ係数、すなわち、中間フレーム窓に対する１６個の係数とエンドフレーム窓に対する１６個の係数がＩＳＰ（イミタンススペクトルペア）値に変換される。よって、自己相関計算からＩＳＰ変換までのステップは、例えば、図４Ａのブロック４００において実行される。その後、計算はエンコーダ側で続行され、ＩＳＰ係数が量子化される。その後、ＩＳＰ係数は再び逆量子化され、変換されてＬＰ係数ドメインへ逆る。よって、ＬＰＣデータ、いいかえると、ブロック４００で得られたＬＰＣ係数とは若干異なる１６個のＬＰＣ係数が（量子化及び再量子化によって）得られ、これらの１６個のＬＰＣ係数は、ステップ４０１に示されているように、第４のサブフレームのために直接使用することができる。しかしながら、他のサブフレームのためにはいくらかの補間、例えば、ＩＴＵ−Ｔ（国際電気通信連合）勧告のＧ．７１８（０６／２００８）、６．８．３節において概述されているような補間を行うことが好ましい。第３のサブフレームのためのＬＰＣデータは、ブロック４０２に示されているように、エンドフレームと中間フレームのＬＰＣデータを補間することによって計算される。好ましい補間は、各対応するデータが２で除算され、ともに加算される。すなわち、これは、エンドフレームＬＰＣデータと中間フレームＬＰＣデータの平均である。ブロック４０３に示されているように、第２サブフレームのためのＬＰＣデータを計算するためにさらに補間が行われる。具体的には、最後のフレームのエンドフレームＬＰＣデータの値の１０％、現在フレームのための中間フレームＬＰＣデータの８０％、現在フレームのエンドフレームのためのＬＰＣデータの値の１０％が使用されて、第２のサブフレームのためのＬＰＣデータが最終的に計算される。

最後に、ブロック４０４に示されているように、第１のサブフレームのためのＬＰＣデータは、最後のフレームのエンドフレームＬＰＣデータと現在フレームの中間フレームＬＰＣデータとの平均をとることによって計算される。

ＡＣＥＬＰ符号化を実行するために、両方の量子化されたＬＰＣパラメータセット、すなわち、中間フレーム分析とエンドフレーム分析から求めたパラメータセットがデコーダへ送られる。

ブロック４０１〜４０４において計算された個々のサブフレームのための結果値に基づいて、ブロック４０５に示されているように、ＡＣＥＬＰ計算が実行され、デコーダへ送られるＡＣＥＬＰデータが得られる。

次に、図４Ｂを説明する。ここでも、ブロック４００において、中間フレームＬＰＣデータとエンドフレームＬＰＣデータが計算される。しかしながら、ＴＣＸ符号化モードがあるので、エンドフレームＬＰＣデータのみがデコーダへ送られ、中間フレームＬＰＣデータはデコーダへ送られない。具体的には、ＬＰＣ係数自体はデコーダへ送信されないが、ＩＳＰ変換と量子化後に得られた値が送られる。よって、エンドフレームＬＰＣデータ係数から求められた量子化ＩＳＰ値が、ＬＰＣデータとしてデコーダへ送られることが好ましい。

しかしながら、エンコーダにおいて、ステップ４０６〜４０８は、それでも、現在フレームのＭＤＣＴスペクトルデータを重み付けするための重み付けファクタを取得するために実行される。このために、現在フレームのエンドフレームＬＰＣデータと過去フレームのエンドフレームＬＰＣデータが補間される。しかしながら、ＬＰＣ分析から直接得られたＬＰＣデータ係数自体は補間しないことが好ましい。その代わり、対応するＬＰＣ係数から得られ量子化され再び逆量子化されたＩＳＰ値を補間することは好ましい。
よって、ブロック４０１〜４０４で他の計算に使用されるＬＰＣデータのみならずブロック４０６で使用されるＬＰＣデータは、常に、ＬＰＣ分析窓あたり１６個の元のＬＰＣ係数から得られた量子化され再び逆量子化されたＩＳＰデータであることが好ましい。

ブロック４０６における補間は好ましくは純粋平均化であり、すなわち、対応する値が加算され、そして２で除算される。その後、ブロック４０７において、現在フレームのＭＤＣＴスペクトルデータが、補間されたＬＰＣデータを用いて重み付けされ、ブロック４０８において、重み付けされたスペクトルデータがさらに処理され、最終的に、エンコーダからデコーダへ送られる符号化されたスペクトルデータを得る。よって、ステップ４０７において実行される手順はブロック３１２に対応し、図４Ｂのブロック４０８において実行される手順は図１Ｄのブロック３１４に対応している。対応する動作は実際にデコーダ側で実行される。そのため、デコーダ側でスペクトル重み付けファクタを計算するか又は補間によって個別のサブフレームのためのＬＰＣ係数を計算するために、同じ補間がデコーダ側で必要である。したがって、図４Ａ及び図４Ｂは、ブロック４０１〜４０４又は図４Ｂの４０６における手順に関してはデコーダ側に同様に適用可能である。
ピー符号化によってさらに処理される。

本発明は、低遅延コーデックの実施に特に有用である。これは、このようなコーデックは、アルゴリズム遅延又はシステム遅延が、好ましくは４５ｍｓ未満、場合によっては３５ｍｓ以下にさえ設計されることを意味する。それでも、ＬＰＣ分析及びＴＣＸ分析のためのルックアヘッド部分は良好なオーディオ品質を得るためには必要である。したがって、両方の相矛盾する要請の間で良好な妥協が必要である。
遅延と品質の間での良好な妥協は２０ｍｓのフレーム長をもつ交換型のオーディオエンコーダ又はオーディオデコーダによって得ることができることが分かっているが、フレーム長に対する１５〜３０ｍｓという値も受容できる結果を与えることも分かっている。一方で、こと遅延に関しては、ルックアヘッド部分の１０ｍｓは受容できるが、５〜２０ｍｓの値も対応する応用次第では有用であることが分かっている。さらに、ルックアヘッド部分とフレーム長との関係は、値０．５をもつ場合に有用であるが、０．４〜０．６の間の他の値も有用であることが分かっている。また、本発明は、一方でＡＣＥＬＰ、他方でＭＤＣＴ−ＴＣＸについて説明しているが、ＣＥＬＰや任意の他の予測アルゴリズム又は波形アルゴリズムなどの時間ドメインで動作する他のアルゴリズムも同様に有用であることが分かっている。ＴＣＸ／ＭＤＣＴに関しては、ＭＤＳＴなどの他の変換ドメイン符号化アルゴリズムや他の変換ベースのアルゴリズムも同様に適用可能である。

同じことがＬＰＣ分析とＬＰＣ計算の具体的な実施に当てはまる。前述した手順に依存することは好ましいが、計算／補間及び分析のための他の手順も、それらの手順がＬＰＣ分析窓に依存する限り同様に使用可能である。

いくつかの局面を装置に関連して説明してきたが、これらの局面が対応する方法を表わしていることが明らかであり、ブロックやデバイスが方法ステップ又は方法ステップの特徴に対応する。同じ様に、方法ステップに関連して記載されている局面もまた、対応する装置の対応するブロック、項目又は特徴を表している。

実施の要請によっては、本発明の実施形態は、ハードウェア又はソフトウェアで実施できる。その実施はディジタル記憶媒体を用いて実行することができ。そのようなディジタル記憶媒体としてはフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はＦＬＡＳＨ（フラッシュ）メモリなどがあり、これらのディジタル記憶媒体は電子的に読み出し可能な制御信号を格納し、それらの読み出し可能な制御信号はそれぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する（又は協働可能である）。

本発明によるいくつかの実施形態は、電子的に読み出し可能な制御信号をもつ一時的でないデータキャリアを含み、それらの読み出し可能な制御信号は、本明細書に記載されている方法のいずれか1つが実行されるように、プログラマブルコンピュータシステムと協働可能である。

一般に、本発明の幾つかの実施形態は、プログラムコードをもつコンピュータプログラム製品として実施することができ、そのプログラムコードは、このコンピュータプログラムプロ製品がコンピュータ上で実行される時に本発明の方法のいずれか1つを実行するように動作できる。そのプログラムコードは、例えば、機械読取り可能な担体に格納できる。

他の幾つかの実施形態は、機械読取り可能な担体に記憶されて本明細書に記載されている方法のいずれか1つを実行するためのコンピュータプログラムを含む。

言い換えれば、したがって、本発明方法の一実施形態はプログラムコードをもったコンピュータプログラムであり、このコンピュータプログラムがコンピュータ上で実行される際、本明細書に記載されている方法の1つを実行する。

したがって、本発明方法の他の実施形態は、本明細書に記載されている方法の1つを実行するコンピュータプログラムを格納したデータキャリア（又はディジタル記憶媒体、又はコンピュータ読み出し可能媒体）である。

したがって、本発明方法の更なる実施形態は、本明細書に記載されている方法の1つを実行するためのコンピュータプログラムを表しているデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続例えばインターネットを介して転送されるように構成することができる。

更なる実施形態は、本明細書に記載されている方法の1つを実行するように構成され又は適合された処理手段、例えば、コンピュータ、又はプログラマブルロジックデバイスを含む。

更なる実施形態は、本明細書に記載されている方法の1つを実行するためにコンピュータプログラムをインストールしたコンピュータを含む。

いくつかの実施形態において、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を本明細書に記載されている方法の機能の幾らか又は全てを実行するために使用できる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法の1つを実行するためにマイクロプロセッサと協働することができる。一般に、本発明の方法は、好ましくは、どんなハードウェア装置によっても実行される。

上述した実施形態は本発明の基本原理を単に例示したにすぎず、本明細書に記載されている構成及び詳細の変更及び変形は、他の当業者によって明らかであることは理解されよう。本発明は、特許請求の範囲のみによって限定され、本明細書に記載されている実施形態の記載及び説明によって提示されている具体的な詳細によって限定されないことが意図されている。

Claims

オーディオサンプルのストリームをもつオーディオ信号（１００）を符号化するための装置であって、
予測分析のための第１の窓化データ（１１０ａ）を取得するために前記オーディオサンプルのストリームに予測符号化分析窓（２００）を適用し、変換分析のための第２の窓化データ（１１０ｂ）を取得するために前記オーディオサンプルのストリームに変換符号化分析窓（２０４）を適用する窓化器（１０２）を備えており、
前記変換符号化分析窓は、オーディオサンプルの現在フレーム内のオーディオサンプルと、変換符号化ルックアヘッド部分（２０６）である、オーディオサンプルの将来フレームの所定部分のオーディオサンプルとに関連づけられており、
前記予測符号化分析窓は、前記現在フレームのオーディオサンプルの少なくとも一部と、予測符号化ルックアヘッド部分（２０８）である、前記将来フレームの所定部分のオーディオサンプルとに関連づけられており、
前記変換符号化ルックアヘッド部分（２０６）と前記予測符号化ルックアヘッド部分（２０８）は互いに一致しているか、又は互いから前記予測符号化ルックアヘッド部分（２０８）の時間長の２０％未満だけ、もしくは前記変換符号化ルックアヘッド部分（２０６）の時間長の２０％未満だけ異なっており、
該装置は、さらに、前記予測分析のための前記窓化データを用いて前記現在フレームのための予測符号化データを生成し、又は、前記変換分析のための前記窓化データを用いて前記現在フレームのための変換符号化データを生成するための符号化プロセッサ（１０４）を備え、
前記符号化プロセッサ（１０４）は、
予測分析ための第１の窓化データ（１１０ａ）から前記現在フレームのための予測符号化データを得るための予測符号化分析器（３０２）と、
予測符号化ブランチであって、前記予測符号化データを用いて前記現在フレームのための前記オーディオサンプルからフィルタデータを計算するフィルタステージ（３０４）、及び前記現在フレームのための前記予測符号化データを生成するために前記符号化プロセッサが動作するときに、前記現在フレームのための予測符号化パラメータを計算する予測符号器パラメータ計算器（３０６）を含む予測符号化ブランチと、
変換符号化ブランチであって、変換符号化アルゴリズムのための第２の窓化データ（１１０ｂ）をスペクトル表示へ変換するための時間スペクトル変換器（３１０）、重み付けされたスペクトルデータを得るために前記予測符号化データから得られた重み付けされた重み付けデータを用いて前記スペクトルデータを重み付けするスペクトル重み付け器（３１２）、及び前記現在フレームのための前記予測符号化データを生成するために前記符号化プロセッサが動作するときに、前記現在フレームのための変換符号化データを取得するために前記重み付けされたスペクトルデータを処理するスペクトルデータプロセッサ（３１４）を含む変換符号化ブランチと、を含んでいる装置。
前記変換符号化分析窓（２０４）は前記変換符号化ルックアヘッド部分（２０６）に隣接する非オーバーラップ部（２０９）を含む請求項１に記載の装置。
前記変換符号化分析窓（２０４）が前記現在フレームの最初でスタートし前記非オーバーラップ部の最初で終了する更なるオーバーラップ部（２１０）を含む請求項２に記載の装置。
前記窓化器（１０２）は、1つのフレームから次のフレームへの予測符号化から変換符号化への遷移のためにだけスタート窓（２２０、２２２）を使用し、
1つのフレームから次のフレームへの変換符号化から予測符号化への遷移のためには前記スタート窓を使用しないように構成されている請求項１に記載の装置。
前記現在フレームのための符号化された信号を出力するための出力インターフェース（１０６）と、
前記符号化プロセッサ（１０４）を制御して前記現在フレームのために予測符号化データ又は変換符号化データのいずれかを出力する符号化モード選択器（１１２）と、をさらに備え、
前記符号化モード選択器（１１２）は、フレーム全体のために予測符号化又は変換符号化を切り換えるだけで、前記フレーム全体のための前記符号化された信号が予測符号化データ又は変換符号化データのいずれかを含むように構成されている請求項１から４のいずれか一項に記載の装置。
前記窓化器（１０２）は、前記予測符号化分析窓のほかに、前記現在フレームの最初に配置されたオーディオサンプルに関連づけられる更なる予測符号化分析窓（２０２）を使用し、前記予測符号化分析窓（２００）は前記現在フレームの最初に配置されたオーディオサンプルに関連づけられない請求項１から５のいずれか一項に記載の装置。
前記現在フレームが複数のサブフレームを含み、前記予測符号化分析窓（２００）は１つのサブフレーム中心に中心合わせされ、前記変換符号化分析窓（２０４）が２つのサブフレームの境界に中心合わせされている請求項１から６のいずれか一項に記載の装置。
前記予測符号化分析窓（２００）は前記現在フレームの最後のサブフレーム中心に中心合わせされ、更なる予測符号分析窓（２０２）は前記現在フレームの第２のサブフレーム中心に中心合わせされ、前記変換符号化分析窓は前記現在フレームの第３のサブフレームと第４のサブフレームの境界に中心合わせされ、前記現在フレームが４つのサブフレームに再分割されている請求項７に記載の装置。
前記将来フレーム内にルックアヘッド部分をもたず前記現在フレームのサンプルに関連づけられる更なる予測符号化分析窓（２０２）を使用する請求項１から８のいずれか一項に記載の装置。
前記変換符号化分析窓は、前記変換符号化分析窓の全時間長が前記現在フレームの時間長の２倍になるように、前記変換符号化分析窓の始まりの前のゼロ部と、前記変換符号化分析窓の終わりに続くゼロ部をさらに含む請求項１から９のいずれか一項に記載の装置。
1つのフレームから次のフレームへの予測符号化モードから変換符号化モードへの遷移に対し、遷移窓が前記窓化器（１０２）によって使用され、
前記遷移窓は前記現在フレームの最初でスタートする第１の非オーバーラップ部分と、前記第１の非オーバーラップ部分の最後でスタートし前記将来フレームへ広がる第２のオーバーラップ部分とを含み、
前記将来フレームへ広がる前記第２のオーバーラップ部分の長さは前記変換符号化分析窓の前記変換符号化ルックアヘッド部分（２０６）の長さに一致している請求項１０に記載の装置。
前記変換符号化分析窓の時間長は前記予測符号化分析窓（２００、２０２）の時間長より大である請求項１から１１のいずれか一項に記載の装置。
前記現在フレームに対して符号化された信号を出力するための出力インタフェース（１０６）と、
前記符号化プロセッサ（１０４）を制御して前記現在フレームに対して予測符号化データ又は変換符号化データのいずれかを出力する符号化モード選択器（１１２）と、
をさらに含み、
前記窓化器（１０２）は、前記予測符号化分析窓の前で前記現在フレームに配置されている更なる予測符号化窓を使用するように構成されており、
前記符号化モード選択器（１１２）は、前記変換符号化データが出力インターフェースへ出力されたとき、前記予測符号化窓から得られた予測符号化分析データのみは転送するが前記更なる予測符号化窓から得られた予測符号化分析データを転送しないように前記符号化プロセッサ（１０４）を制御するように構成されており、
前記符号化モード選択器（１１２）は、前記予測符号化データが前記出力インターフェースに出力されたとき、前記予測符号化窓から得られた予測符号化分析データを転送し前記更なる予測符号化窓から得られた前記予測符号化分析データも転送するように前記符号化プロセッサ（１０４）を制御するように構成されている請求項１から４及び６から１２のうちのいずれか一項に記載の装置。
オーディオサンプル（１００）のストリームをもつオーディオ信号を符号化するための方法であって、
予測分析用の第１の窓化データ（１１０ａ）を取得するためにオーディオサンプルストリームに予測符号化分析窓（２００）を適用し、変換分析用の第２の窓化データ（１１０ｂ）を取得するために前記オーディオサンプルストリームに変換符号化分析窓（２０４）を適用するステップ（１０２）を含み、
前記変換符号化分析窓はオーディオサンプルの現在フレーム内のオーディオサンプルと、変換符号化ルックアヘッド部分（２０６）である、オーディオサンプルの将来フレームの所定部分のオーディオサンプルに関連づけられ、
前記予測符号化分析窓は前記現在フレームのオーディオサンプルの少なくとも一部と、予測符号化ルックアヘッド部分（２０８）である、前記将来フレームの所定部分のオーディオサンプルに関連づけられ、
前記変換符号化ルックアヘッド部分（２０６）と前記予測符号化ルックアヘッド部分（２０８）は互いに一致しているか、又は互いから前記予測符号化ルックアヘッド部分（２０８）の時間長の２０％未満だけ、もしくは前記変換符号化ルックアヘッド部分（２０６）の時間長の２０％未満だけ異なっており、
該方法は、さらに、前記予測分析用の前記第１の窓化データ（１１０ａ）を用いて前記現在フレームのための予測符号化データを生成するか、又は前記変換分析用の前記第２の窓化データ（１１０ｂ）を用いて前記現在フレームのための変換符号化されたデータを生成するステップ（１０４）を含み、
前記生成するステップ（１０４）は、
前記予測分析用の前記第１の窓化データ（１１０ａ）から前記現在フレームのための予測符号化データを導出するステップ（３０２）と、
前記予測符号化データを用いて前記現在フレームのための前記オーディオサンプルからフィルタデータを計算するステップ（３０４）、及び前記生成するステップ（１０４）が前記現在フレームのための前記予測符号化データを生成することを含む場合に、前記現在フレームのための予測符号化パラメータを計算するステップ（３０６）、又は
前記変換分析用の前記第２の前記窓化データ（１１０ｂ）をスペクトル表示へ変換するステップ（３１０）、重み付けされたスペクトルデータを得るために前記予測符号化データから得られた重み付けデータを用いて前記スペクトルデータを重み付けするステップ（３１２）、及び前記生成するステップ（１０４）が前記現在フレームのための前記変換符号化されたデータを生成することを含む場合に、前記現在フレームのための前記変換符号化されたデータを取得するために重み付けされた前記スペクトルデータを処理するステップ（３１４）、
を含む方法。
符号化されたオーディオ信号を復号するためのオーディオデコーダであって、
前記符号化されたオーディオ信号から予測符号化フレームのためのデータの復号を実行するための予測パラメータデコーダ（１８０）と、
前記符号化されたオーディオ信号から変換符号化フレームのためのデータの復号を実行するための変換パラメータデコーダ（１８３）であって、前記変換パラメータデコーダ（１８３）は、
前記符号化されたオーディオ信号に含まれる予測符号化データを用いてスペクトル重み付けデータを計算するための予測符号化重み付けデータ計算器（１８３ｃ）、及び
重み付けされた変換スペクトルデータを得るために、前記スペクトル重み付けデータを用いて、前記現在フレームのための復号された変換スペクトルデータを重み付けするためのスペクトル重み付け器（１８３ｂ）を含み、
前記変換パラメータデコーダ（１８３）は、変換データを得るために前記重み付けされた変換スペクトルデータのスペクトル時間変換を実行するとともに、前記変換データへ合成窓を適用して現在フレームと将来フレームのためのデータを取得するように構成されており、前記合成窓は第１のオーバーラップ部分、これに隣接する第２の非オーバーラップ部分及びこれに隣接する第３のオーバーラップ部分（２０６）をもち、前記第３のオーバーラップ部分は前記将来フレームに対するオーディオサンプルに関連づけられ、前記隣接する第２の非オーバーラップ部分（２０９）は前記現在フレームのデータに関連づけられるものである変換パラメータデコーダ（１８３）と、
前記現在フレームのための合成窓の前記第３のオーバーラップ部分に関連づけられた合成窓化サンプルと前記将来フレームのための合成窓の前記第１のオーバーラップ部分に関連づけられた合成窓化サンプルとをオーバーラップさせて加算して、前記将来フレームのためのオーディオサンプルの第１の部分を取得するためのオーバーラップ加算器（１８４）であって、前記現在フレームと前記将来フレームが変換符号化データを含む場合、前記将来フレームに対する前記オーディオサンプルの残りが、オーバーラップ加算せずに得られた前記将来フレームのための前記合成窓の前記第２の非オーバーラップ部分に関連づけられた合成窓化サンプルであるオーバーラップ加算器（１８４）と、
を備えたオーディオデコーダ。
前記符号化されたオーディオ信号の前記現在フレームが変換符号化データを含み、前記将来フレームが予測符号化データを含んでおり、
前記変換パラメータデコーダ（１８３）は、前記現在フレームための前記合成窓を用いて合成窓化を実行して前記合成窓の前記隣接する第２の非オーバーラップ部分（２０９）に関連づけられた窓化オーディオサンプルを得るように構成されており、
前記現在フレームための前記合成窓の前記第３のオーバーラップ部分に関連づけられた合成窓化オーディオサンプルが廃棄され、
前記将来フレームのためのオーディオサンプルは前記変換パラメータデコーダ（１８３）からのデータなしに前記予測パラメータデコーダ（１８０）によって提供される請求項１５に記載のオーディオデコーダ。
前記現在フレームが予測符号化データを含んでおり、かつ前記将来フレームが変換符号化データを含んでおり、
前記変換パラメータデコーダ（１８３）は前記合成窓とは異なる遷移窓を使用するように構成されており、
前記遷移窓（２２０、２２２）は、前記将来フレームの最初において第１の非オーバーラップ部分（２２０）を含み、前記将来フレームの最後でスタートし前記将来フレームに時間的に追従するフレームへ広がる第２のオーバーラップ部分（２２２）を含んでおり、
前記将来フレームのための前記オーディオサンプルがオーバーラップなしで生成され、前記将来フレームのための前記遷移窓の前記第２のオーバーラップ部分（２２２）に関連づけられたオーディオデータが前記将来フレームに追従する前記フレームのための前記合成窓の前記第１のオーバーラップ部分を用いて前記オーバーラップ加算器（１８４）によって計算される請求項１５に記載のオーディオデコーダ。
前記予測符号化重み付けデータ計算器（１８３ｃ）は、補間された予測符号化データを前記スペクトル重み付けデータとして得るように過去フレームから得た予測符号化データと前記現在フレームから得た予測符号化データの重み付け和を結合することによって、前記予測符号化データを計算するように構成されている請求項１５から１７のいずれか一項に記載のオーディオデコーダ。
前記予測符号化重み付けデータ計算器（１８３ｃ）は前記予測符号化データを周波数帯域ごとに重み付け値をもつスペクトル表示へ変換するように構成されており、
前記スペクトル重み付け器（１８３ｂ）は1つの帯域内の全てのスペクトル値をこの帯域のための同じ重み付け値によって重み付けするように構成されている請求項１８に記載のオーディオデコーダ。
前記合成窓は全時間長が５０ｍｓを下回り２５ｍｓを上回るように構成されており、
前記第１のオーバーラップ部分と前記第３のオーバーラップ部分は同じ時間長をもち、前記第３のオーバーラップ部分は１５ｍｓを下回る時間長をもつ請求項１５から１８のいずれか一項に記載のオーディオデコーダ。
前記合成窓は時間長が３０ｍｓであり、ゼロ値の継ぎ足しをもたず、前記第１のオーバーラップ部分と前記第３のオーバーラップ部分の各時間長が１０ｍｓであり、前記非オーバーラップ部分の時間長が１０ｍｓである請求項１５から２０のいずれか一項に記載のオーディオデコーダ。
前記変換パラメータデコーダ（１８３）は、前記スペクトル時間変換のために、フレーム長に対応するサンプル数をもつＤＣＴ変換（１８３ｄ）を行い、前記ＤＣＴ変換（１８３ｄ）前の時間数値の２倍の時間数値を生成するための畳み込み解除演算（１８３ｅ）を行い、かつ、前記畳み込み解除演算の結果に前記合成窓を適用する（１８３ｅ）ように構成されており、
前記合成窓は、前記第１のオーバーラップ部分の前と前記第３のオーバーラップ部分の後に、前記第１、第３のオーバーラップ部分の長さの半分の長さのゼロ部分を含む請求項１５から２１のいずれか一項に記載のオーディオデコーダ。
符号化されたオーディオ信号を復号する方法であって、
前記符号化されたオーディオ信号から予測符号化フレームのためのデータの復号を実行するステップ（１８０）と、
前記符号化されたオーディオ信号から変換符号化フレームのためのデータの復号を実行するステップ（１８３）であって、
変換符号化フレームのためのデータの復号を実行する該ステップ（１８３）は、前記符号化されたオーディオ信号に含まれる予測符号化データを用いてスペクトル重み付けデータを計算するステップ（１８３ｃ）、及び重み付けされた変換スペクトルデータを得るために、前記スペクトル重み付けデータを用いて、前記現在フレームのための復号された変換スペクトルデータを重み付けするステップ（１８３ｂ）を含み、
変換符号化フレームのためのデータの復号を実行する該ステップ（１８３）は、変換データを得るために前記重み付けされた変換スペクトルデータのスペクトル時間変換を実行すること、及び前記変換データへ合成窓を適用して現在フレームと将来フレームのためのデータを得ることを含み、前記合成窓は第１のオーバーラップ部分、これに隣接する第２の非オーバーラップ部分（２０９）、及びこれに隣接する第３のオーバーラップ部分（２０６）を有し、前記隣接する第３のオーバーラップ部分（２０６）は前記将来フレームのためのオーディオサンプルに関連づけられ、前記隣接する第２の非オーバーラップ部分（２０９）は前記現在フレームのデータに関連づけられているステップ（１８３）と、
前記現在フレームのための合成窓の前記第３のオーバーラップ部分に関連づけられた合成窓化サンプルと前記将来フレームのための合成窓の前記第１のオーバーラップ部分に関連づけられた合成窓化サンプルをオーバーラップさせて加算して、前記将来フレームのためのオーディオサンプルの第１の部分を取得するステップ（１８４）であって、前記現在フレームと前記将来フレームが変換符号化データを含むとき、前記将来フレームのための前記オーディオサンプルの残りは、オーバーラップ加算なしで得られた前記将来フレームのための前記合成窓の第２の非オーバーラップ部分に関連づけられた合成窓化サンプルであるステップ（１８４）と、
を含む方法。
コンピュータに請求項１４のオーディオ信号を符号化する方法を実行させるためのコンピュータプログラム。
コンピュータに請求項２３のオーディオ信号を復号する方法を実行させるためのコンピュータプログラム。