JP2005527851A

JP2005527851A - 時間離散オーディオ信号を符号化する装置と方法および符号化されたオーディオデータを復号化する装置と方法

Info

Publication number: JP2005527851A
Application number: JP2003585070A
Authority: JP
Inventors: ラルフガイガー; トーマスシュポーラー; カールハインツブランデンブルグ; ユルゲンヘルレ; ユルゲンコラー; ヨヒムデグアラ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2002-04-18
Filing date: 2002-12-02
Publication date: 2005-09-15
Anticipated expiration: 2022-12-02
Also published as: CA2482427A1; EP1495464B1; DE50204426D1; AU2002358578A1; CN1625768A; WO2003088212A1; JP4081447B2; EP1495464A1; ATE305655T1; CA2482427C; DE10217297A1; CN1258172C; KR20050007312A; HK1077391A1; KR100892152B1

Abstract

時間離散オーディオ信号を処理して量子化されたスペクトル値を有する量子化ブロックを供給（５２）する。次に、整数変換アルゴリズムを用いて、時間離散オーディオ信号から整数スペクトル表現を生成（５６）する。聴覚心理モデル（５４）を用いて生成された量子化ブロックを逆量子化してラウンディング（５８）し、整数スペクトル値とこの逆量子化されラウンディングされたスペクトル値との間の差分を形成する。復号化の際には、量子化ブロックは聴覚心理的に符号化／復号化された損失のあるオーディオ信号を提供し、他方、量子化ブロックは結合ブロックと共に、損失がないか略損失がない状態で符号化／復号化されたオーディオ信号を提供する。周波数ドメインで差分信号を生成することで、より簡素な符号器／復号器を構築できる。

Description

本発明はオーディオ符号化／復号化に関し、特に、聴覚心理の第１スケーリングレイヤと第２スケーリングレイヤとを備え、損失のない復号化のための補助オーディオデータを含むスケーラブル符号化／復号化アルゴリズムに関する。

例えばＭＰＥＧレイヤ３（ＭＰ３）またはＭＰＥＧＡＡＣのような現代的なオーディオ符号化の方法は、オーディオ信号のブロック状の周波数表示を得るために、例えばいわゆる変形離散コサイン変換（ＭＤＣＴ）等の変換を用いている。そのようなオーディオ符号器は通常、時間離散オーディオサンプルからなるストリームを得る。オーディオサンプルからなるストリームは、ウィンドウ化され、例えば１０２４個または２０４８個のウィンドウ化オーディオサンプルからなる１個のウィンドウ化ブロックを得る。このウィンドウ化のためには、例えばサインウィンドウなど、様々なウィンドウ関数が用いられる。

ウィンドウ化された時間離散オーディオサンプルは、その後フィルタバンクによりスペクトル表示に変換される。これには原則的に、フーリエ変換、または特別な理由により、例えばＦＦＴ（高速フーリエ変換）や上述したＭＤＣＴなど、このフーリエ変換の変形が用いられる。フィルタバンクの出力におけるオーディオスペクトル値のブロックは、その後必要に応じてさらなる処理を受けてもよい。上述のオーディオ符号器では、次にオーディオスペクトル値の量子化が行われる。この場合、量子化ステージは、量子化に伴って入り込む量子化ノイズが聴覚心理マスキング閾値より低い値になる方法、すなわち典型的には「マスキングにより消去」されるような方法が選択される。量子化とは損失（データ削減量）のある符号化を意味する。さらにデータ量を削減するために、この量子化されたスペクトル値には次に、ハフマン符号化等によるエントロピー符号化が実行される。ビットストリームマルチプレクサにより、この量子化されエントロピー符号化されたスペクトル値から、例えばスケールファクタ等のサイドインフォメーションを追加することで、記憶されあるいは送信されるためのビットストリームが生成される。

オーディオ復号器の中では、ビットストリームは、ビットストリームデマルチプレクサにより、量子化され符号化されたスペクトル値とサイドインフォメーションとに分離される。この量子化されエントロピー符号化されたスペクトル値は、まずエントロピー復号化され、量子化されたスペクトル値を得る。その後、量子化されたスペクトル値は逆量子化され、復号化されたスペクトル値を得る。ここで得られる復号化されたスペクトル値は量子化ノイズを含むが、しかしこのノイズは聴覚心理マスキング閾値よりも低い範囲にあり、結果的に聞こえることはない。これらのスペクトル値は、その後合成フィルタバンク(synthesis filterbank)により時間ドメイン表示に変換され、復号化時間離散オーディオサンプルを得る。合成フィルタバンク内では、上記変換アルゴリズムとは逆の変換アルゴリズムが使用されなければならない。さらに、周波数−時間逆または後方変換の後に、ウィンドウ化は解除されなければならない。

良好な周波数選択性（frequency selectivity）を達成するために、現代的なオーディオ符号器は、典型的にはブロックオーバーラップを用いている。図４ａはこのような場合を示している。最初、手段４０２により、例えば２０４８個の時間離散オーディオサンプルが取り出され、ウィンドウ化される。このウィンドウは、手段４０２を具体的に表現したものであるが、２Ｎ個のサンプルのウィンドウ長を持ち、その出力側において、２Ｎ個のウィンドウ化サンプルからなる１つのブロックを出力する。手段４０４によるウィンドウのオーバーラップを達成するために、２Ｎ個のウィンドウ化サンプルからなる第２ブロックが生成される。この手段４０４は、明確に示す目的で、図４ａにおいては手段４０２とは別に示されているが、手段４０４に入力される２０４８個のサンプルは、第１ウィンドウからそのまま連続する時間離散オーディオサンプルではなく、手段４０２によりウィンドウ化されるサンプルの後半を含み、さらに追加的に、「新たな」サンプルを１０２４個だけ含む。図４ａにおいて、このオーバーラップが手段４０６により図式的に示されてあり、この手段４０６は５０％程度のオーバーラップを発生させる。次に、手段４０２により出力された２Ｎ個のウィンドウ化サンプルと、手段４０４により出力された２Ｎ個のウィンドウ化サンプルとの両方に対し、手段４０８および４１０によってＭＤＣＴアルゴリズム処理が行われる。手段４０８は、公知のＭＤＣＴアルゴリズムに従って、第１ウィンドウのためのＮ個のスペクトル値を出力し、他方、手段４１０もまた、第２ウィンドウのためのＮ個のスペクトル値を出力し、第１ウィンドウと第２ウィンドウとの間には５０％のオーバーラップが存在する。

復号器の中では、図４ｂに示すように、第１ウィンドウのＮ個のスペクトル値が手段４１２へと供給され、この手段４１２では、逆変形離散コサイン変換が実行される。同様に、第２ウィンドウのＮ個のスペクトル値もまた手段４１４へと供給され、この手段４１４でも逆変形離散コサイン変換が実行される。これら両方の手段４１２と手段４１４とは、２Ｎ個のサンプルを、第１ウィンドウと第２ウィンドウとに対して、それぞれ供給する。

図４ｂにおいて、ＴＤＡＣ（時間ドメインエリアシングキャンセレーション＝高効率変換符号化）と表示された手段４１６内では、上述の２つのウィンドウがオーバーラップしている事実が考慮に入れられる。特に、第１ウィンドウの後半にある１つのサンプルｙ１、すなわちＮ＋ｋの指数が付けられたサンプルｙ１は、第２ウィンドウの前半にある１つのサンプルｙ２、すなわちｋの指数が付けられたサンプルｙ２と合計され、その結果、復号器の出力側ではＮ個の復号化時間サンプルが出力される。

注目すべきことは、この手段４１６の関数すなわち加算関数と呼ぶことができる関数においては、符号器内で実行され、かつ図４ａに概略的に示されたウィンドウ化が、自動的に考慮されるということである。その結果、図４ｂに示される復号器内では、格別な「逆ウィンドウ化」は不要となる。

もし、手段４０２または４０４により実行される関数をｗ（ｋ）とし、指数ｋは時間を示すとすれば、次の条件を満たす必要がある。すなわち、２乗されたウィンドウ重量（squared window weight）ｗ（ｋ）と２乗されたウィンドウ重量ｗ（Ｎ＋ｋ）とが加算されて１となり、ｋは０からＮ−１まで変化するという条件である。もしウィンドウ重量（window weights）がサイン関数の波形の前半をたどるサインウィンドウを使用すれば、この条件は常に満たされることになる。なぜなら、サインの２乗とコサインの２乗との和は全ての角度において１の値となるからである。

図４ａに示され、ＭＤＣＴ関数を後続に持つウィンドウ方式の欠点は、ウィンドウ化が時間離散サンプルを乗算することで達成されるという事実であり、特にサインウィンドウを考慮した場合、浮動小数点数を用いて達成されるという事実である。なぜなら、０°から１８０°までの角度のサインは、９０°を除けば整数にはならないからである。たとえ整数時間離散サンプルがウィンドウ化されても、浮動小数点数はウィンドウ化の後に生ずる。

従って、たとえ聴覚心理符号器が使用されない場合、すなわちたとえ損失なしの符号化が実施されるべき場合でも、合理的に実行可能なエントロピー符号化処理を実行することができるように、手段４０８および／または４１０の出力側においては量子化が必要となる。

図４ａに基づいて示されるような公知の変換方法を、損失がないオーディオ符号化のために使用する場合には、上記浮動小数点数のラウンディング（丸め操作）に基づいて生じるエラーを無視できるように、非常に精度の高い量子化を実行するか、あるいは、そのエラー信号も例えば時間ドメインの中で追加的に符号化しなければならない。

前者の方法の概念、すなわち、量子化を非常に高い精度で調整し、その結果、浮動小数点数のラウンディングによって生じるエラーを無視できる程度に小さくする方法の概念は、例えば、特許文献１により明らかにされた。ここでは、オーディオ信号はスペクトル表示に変換され、量子化されたスペクトル値を得るために量子化される。量子化されたスペクトル値は、逆量子化され、時間ドメインに変換され、オリジナルのオーディオ信号と比較される。もしエラー、すなわちオリジナルのオーディオ信号と量子化／逆量子化されたオーディオ信号との間に起こるエラーが、エラー閾値を越えて存在する場合は、量子化器はフィードバックよりさらに高い精度で調整され、閾値との比較は再度実行される。エラーが閾値を下回るとき、この調整の反復は終了する。恐らくまだ存在するであろう剰余の信号は、時間ドメイン符号器によって符号化され、ビットストリームの中に書き込まれる。このビットストリームは、時間ドメイン符号化されたこの剰余の信号の他に、符号化されたスペクトル値であって、上記量子化器を調整する方法で量子化され、反復の終了時に存在していた値も含んでいる。注意すべきことは、量子化器は聴覚心理モデルによって制御される必要はなく、そのためこのように符号化されたスペクトル値は、典型的な聴覚心理モデルによって符号化された場合と比較して、より高い精度で量子化されるということである。

非特許文献１では、スケーラブル符号器が説明されている。ここスペクトル値では、例えばＭＰＥＧ符号器を第一の損失のあるデータ圧縮モジュールとして含み、このモジュールは、ブロック状のデジタル信号形式を入力信号として持ち、圧縮されたビットストリームを生成する。さらに、現存のある復号器でも、符号化が終了し、符号化／復号化された信号が生成される。この信号は、オリジナルの入力信号から符号化／復号化された信号を減算することにより、初期の入力信号と比較される。次に、エラー信号は第２モジュールに送られ、ここでは損失のないビット変換が用いられる。この変換は２つのステップを持つ。第１のステップは、２の補数フォーマット(a two'scomplement format）から前兆補数フォーマット(presign-complement format）への変換から成り、第２のステップは、処理ブロック内の垂直絶対値シーケンス(vertical magnitude sequence) から水平ビットシーケンス(horizontal bit sequence）への変換から成る。損失のないデータ変換は、ゼロの数、またはシーケンス内の連続するゼロの数を最大限にするよう実行され、デジタル数字の結果として存在する時間的エラー信号の、最良の圧縮を実現する。この原則は、非特許文献２に示されているビットスライス算術符号化(bit slice arithmetic coding）（BSAC）配列に基づく。

上述の概念の不利な点は、損失のない拡張レイヤ(expansion layer）のためのデータ、すなわちオーディオ信号の損失のない復号化を達成するのに必要な補助データは、時間ドメインの中で得られなければならないという事実である。これは、周波数／時間変換を含む完全な復号化が、時間ドメインの中で符号化／復号化された信号を得るために必要とされることを意味し、その結果、聴覚心理の符号化により損失のある符号化／復号化されたオーディオ信号と、オリジナルのオーディオ入力信号との間において、サンプル形式で差分を計ることで、エラー信号が計算されることを意味する。この概念は次の点で特に不利である。すなわち、オーディオデータストリームを作り出す符号器内では、例えばフィルタバンク、すなわちＭＤＣＴアルゴリズムのような、完全な時間／周波数変換手段が、前方変換のために必要であり、さらに同時に、上述のエラー信号を発生させるためだけのために、完全な逆フィルタバンクまたは完全な統合アルゴリズムが必要となる点である。そのため符号器は、本来備わっている符号器機能に加えて、完全な復号器の機能を備えていなければならない。もし符号器がソフトウェアで実現されたなら、これに対する蓄積能力と処理能力が必要となり、符号器の実現にかかる経費増加につながる。
ドイツ特許DE 197 42 201 C1 A Design of Lossy and Lossless Scalable Audio Coding (T. Moriya et al., Proc. ICASSP, 2000) Multi-Layer Bit Sliced Bit Rate Scalable Audio Coder (103rd AES Convention, Preprint No. 4520, 1997) " Audio Coding Based on Integer Transforms (111th AES convention, New York, 2001) Factoring Wavelet Transforms Into Lifting Steps (Ingrid Daubechies and Wim Sweldens, Preprint, Bell Laboratories, Lucent Technologies Multirate Systems And Filter Banks (P. P. Vaidyanathan, Prentice Hall, Englewood Cliffs, 1993) Signal Processing With Lapped Transforms (H. S. Malvar, Artech House, 1992) Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (ＴＮＳ) (J. Herre, J. D. Johnston, 101st, AES Convention,Los Angeles, 1996, Preprint 4384)

本発明の目的は、少なくともほとんど損失がない方法で復号化されるオーディオデータストリームを生成する概念であって、より安価で実現可能な概念を提供することである。

この目的は、請求項１に記載の時間離散オーディオ信号を符号化するための装置、請求項２１に記載の時間離散オーディオ信号を符号化するための方法、または請求項２２に記載の符号化されたオーディオデータを復号化するための装置、請求項３１に記載の符号化されたオーディオデータを復号化するための方法、または請求項３２あるいは３３に記載のコンピュータプログラムにより達成される。

本発明は、以下の知見に基づいている。すなわち、オーディオ信号の損失のない復号化を可能にしている補助オーディオデータは、量子化されたスペクトル値のブロックを通常通りに提供し、次に、逆量子化されたスペクトル値を得るために上記量子化されたスペクトル値を逆量子化することで得られ、この逆量子化されたスペクトル値は聴覚心理モデルによる量子化のために損失があるという知見に基づいている。この逆量子化されたスペクトル値は、次にラウンディングされ、逆量子化されラウンディングされたスペクトル値からなるラウンディングブロックを得る。差分形成のための参照として、本発明に従えば、整数変換アルゴリズムが使用されるが、このアルゴリズムは、整数時間離散サンプルのブロックからの整数スペクトル値だけを含む、スペクトル値の整数のブロックを生成する。本発明によると、ラウンディングブロック内のスペクトル値と整数ブロック内のスペクトル値との結合は、スペクトル値を基にして、つまり周波数ドメイン内で行われるので、符号器の中では、いかなる統合アルゴリズム、つまり逆フィルタバンクや逆ＭＤＣＴアルゴリズム等も必要ではない。差分スペクトル値を含む結合ブロックは整数値のみを含み、この値は整数変換アルゴリズムとラウンディングされた量子化値とにより、公知の方法でエントロピー符号化されても良い。注意すべきことは、この結合ブロックのエントロピー符号化のために、ハフマン符号器や算術符号器など、任意のエントロピー符号器を使用しても良いということである。

量子化ブロックの量子化されたスペクトル値を符号化するために、現代的なオーディオ符号器に通常に使われる公知の装置などの、任意の符号器が使われても良い。

注意すべきことは、本発明の符号化／復号化の概念は、ウィンドウスイッチ、ＴＮＳ、またはマルチチャンネルオーディオ信号のためのセンター／サイド符号化などの、現代的な符号化の装置と共有できることである。

本発明の望ましい実施例では、聴覚心理モデルを使って量子化されたスペクトル値の量子化ブロックを提供するために、ＭＤＣＴが使われる。さらに、整数変換アルゴリズムとしていわゆる整数ＭＤＣＴ（ＩｎｔＭＤＣＴ) を使うことが望ましい。

本発明の他の実施例では、これは通常のＭＤＣＴを使わずに実行されることもでき、整数ＭＤＣＴはＭＤＣＴの近似として使われても良い。つまり、整数変換アルゴリズムによって得た整数スペクトルを聴覚心理量子化器に供給し、量子化された整数ＭＤＣＴスペクトル値を得、その後再度、逆量子化しラウンディングしてオリジナルの整数スペクトル値と比較する。この場合、１回の変換だけが必要となる。つまり、整数時間離散サンプルから整数スペクトル値を生成する整数ＭＤＣＴである。

一般に、プロセッサは整数によって働くか、またはそれぞれの浮動小数点数を整数として表しても良い。もしプロセッサ内で整数の算術が使用されるならば、逆量子化されたスペクトル値のラウンディングを省略することもできる。なぜなら、プロセッサの計算によりラウンディングされた値は、LSB(least significant bit)すなわち最も重要でないビットの精度の範囲内に結局存在するからである。この場合、完全に損失のない処理、すなわち使用されたプロセッサシステムの精度の範囲内での処理が達成される。他の方法として、低い精度へのラウンディングが実行されても良い。この場合、結合ブロック内の差分信号はラウンディング関数により固定された精度にラウンディングされる。プロセッサシステムの既存のラウンディングを超えるラウンディングを導入することで、符号化の損失をなくす「度合」に影響する程度の適応性を可能にし、データ圧縮の意味でほぼ損失のない符号器を構成する。

本発明の復号器の特徴は、聴覚心理的に符号化されビットストリーム復号化されたオーディオデータと、そのオーディオデータから引き出され現存しうるエントロピー復号化を施された補助オーディオデータとが、次のように処理されることである。まず復号器内の量子化ブロックは逆量子化され、符号器で使われているラウンディング関数と同一の関数を使ってラウンディングされ、その後、エントロピー復号化された補助オーディオデータに加算される。復号器内には、オーディオ信号の聴覚心理的に圧縮されたスペクトル表現とオーディオ信号の損失のないスペクトル表現とが存在し、オーディオ信号の聴覚心理的に圧縮されたスペクトル表現は時間ドメインに変換され、損失のある符号化／復号化されたオーディオ信号を得る。他方では、損失のないスペクトル表現は、整数変換アルゴリズムと逆の整数変換アルゴリズムを使って時間ドメインに変換され、損失なく、または上述のようにほぼ損失なく符号化／復号化されたオーディオ信号を得る。

上記本発明の特徴および他の目的と特徴は、以下に添付した図を参照しながらさらに詳細に説明する。
時間離散オーディオサンプルを処理して整数値を得、この整数値から整数スペクトル値が得られるような望ましい方法のブロック回路図である。本発明の望ましい実施例に従った、ギブンズ回転におけるＭＤＣＴおよび逆ＭＤＣＴと、２つのＤＣＴ（離散コサイン変換）タイプＩＶ操作とを示す分解概要図である。順番に５０％のオーバーラップを伴うＭＤＣＴとＤＣＴタイプＩＶ操作との分解図である。ＭＤＣＴおよび５０％のオーバーラップを伴う公知の符号器を示す概要ブロック回路図である。図４ａの符号器によって生成された値を復号化するための公知の復号器を示すブロック回路図である。本発明の望ましい符号器の原理を示すブロック回路図である。本発明の他の望ましい符号器の原理を示すブロック回路図である。本発明の望ましい復号器の原理を示すブロック回路図である。第１スケーリングレイヤと第２スケーリングレイヤとを備えたビットストリームの概要図である。第１スケーリングレイヤと複数のさらなるスケーリングレイヤとを備えたビットストリームの概要図である。差分スペクトル値の精度（ビット）および／または差分スペクトル値の周波数（サンプル率）について、可能なスケーリングを表示するための、バイナリ符号化された差分スペクトル値の概要図である。

以下に、図５から図７に基づいて、本発明の符号器回路（図５と図６）または本発明の望ましい復号器回路（図７）について説明する。図５に示される本発明の符号器は、時間離散オーディオ信号が供給されても良い入力５０と、符号化されたオーディオデータが出力されても良い出力５２とを含む。入力５０へと供給された時間離散オーディオ信号は、量子化ブロックを供給する手段５２に送られ、この手段５２は、出力側で時間離散オーディオ信号の量子化ブロックを提供し、この量子化ブロックは、時間離散オーディオ信号５０の、聴覚心理モデル５４を用いて量子化されたスペクトル値を含む。本発明の符号器は、さらに整数変換アルゴリズムを用いて整数ブロックを生成するための手段５６を含み、ここでは整数アルゴリズムが整数時間離散サンプルから整数スペクトル値を形成する働きをする。

本発明の符号器はさらに、手段５２から出力された量子化ブロック出力を逆量子化する手段５８を含み、プロセッサの精度とは異なる精度が必要であれば、さらにラウンディング関数を含む。もし、上述のように、プロセッサシステムの精度を達成しなければならないときは、ラウンディング関数は量子化ブロックの逆量子化の中に本質的に含まれる。なぜなら、整数の算術を行うプロセッサは結局、非整数値を提供できないからである。手段５８は、逆量子化されたスペクトル値を含む、いわゆるラウンディングブロックを提供する。これらのスペクトル値は整数であり、すなわち既に内在的または明示的にラウンディングされた値である。ラウンディングブロックと整数ブロックとは、差分形成を用いて差分スペクトル値を有する差分ブロックを提供する結合手段に送られる。ここで「差分ブロック」という表現は、差分スペクトル値が整数ブロックとラウンディングブロックとの間の差分を含む値であることを示す。

手段５２から出力された量子化ブロックと差分形成手段５８から出力された差分ブロックとの両方は、例えば量子化ブロックの通常処理を行い、かつ差分ブロックを例えばエントロピー符号化する処理手段６０に供給される。処理手段６０は、出力５２で符号化されたオーディオデータを出力し、このデータは量子化ブロックと差分ブロックの両方の情報とを含んでいる。

図６のように、第１の望ましい実施例では、時間離散オーディオ信号がＭＤＣＴによってスペクトル表現に変換され、量子化される。量子化ブロックを提供する手段５２はＭＤＣＴ手段５２ａと量子化器５２ｂとから成る。

さらに、整数変換アルゴリズムとして整数ＭＤＣＴ手段５６を用い、整数ブロックを形成するのが望ましい。

図６では、図５に示された処理手段６０が、手段５２ｂにより出力された量子化ブロックをビットストリーム符号化するためのビットストリーム符号化手段６０ａと、差分ブロックをエントロピー符号化するためのエントロピー符号器６０ｂとして示される。ビットストリーム符号器６０ａは、聴覚心理的に符号化されたオーディオデータを出力し、エントロピー符号器６０ｂはエントロピー符号化された差分ブロックを出力する。ブロック６０ａと６０ｂの２つの出力データは適切な方法でビットストリーム内で結合されても良く、このビットストリームは、第１スケーリングレイヤとして聴覚心理的に符号化されたオーディオデータを持ち、第２スケーリングレイヤとして損失のない復号化のために追加的なオーディオデータを持つ。このようにスケールされたビットストリームは、図５に示す符号器の出力５２における符号化されたオーディオデータと一致する。

他の望ましい実施例では、図５で点線の矢印６２により示されるように、図６のＭＤＣＴブロック５２ａを省略しても良い。この場合、整数変換手段５６により提供された整数スペクトルは、差分形成手段５８と図６の量子化器５２ｂとの両方に供給される。整数変換により形成されたスペクトル値は、ここで、ある意味では通常のＭＤＣＴスペクトルの近似として用いられる。この実施例は、整数ＭＤＣＴアルゴリズムのみが符号器内に存在し、整数ＭＤＣＴアルゴリズムとＭＤＣＴアルゴリズムとの両方が符号器内に存在しなくてもよいという利点がある。

図６を参照して注意すべきことは、実線で描かれたブロックと線はＭＰＥＧ標準の一つに従う通常のオーディオ符号器を示し、点線で描かれたブロックと線はそのような通常のＭＰＥＧ符号器の拡張を示すということである。そのため注目すべきことは、通常のＭＰＥＧ符号器を根本的に変える必要はなく、本発明にかかる、整数変換による損失のない符号化のための補助オーディオデータのデータ収集手段が、符号器／復号器の基本的な構造を変化させずに追加されても良いということである。

図７は、図５の出力５２で出力された、符号化したオーディオデータを復号化するための、本発明の復号器の原理を示すブロック回路図である。このデータはまず、一つは聴覚心理的に符号化されたオーディオデータに、もう一つは補助オーディオデータに分離される。聴覚心理的に符号化されたオーディオデータは通常のビットストリーム復号器７０に供給され、補助オーディオデータは、上記の符号器内でエントロピー符号化されていた場合は、エントロピー復号器７２によってエントロピー復号化される。図７のビットストリーム復号器７０の出力では、量子化されたスペクトル値が存在し、これが逆量子化器７４に供給される。この逆量子化器７４は、図６に示された逆量子化器と本質的に等しい構造を持っていても良い。もしプロセッサの精度と対応しない精度が要求される場合には、復号器内にもラウンディング手段７６を備え、この手段７６が図６の手段５８内で実行されたのと同じアルゴリズムまたは同じラウンディング関数を備え、実際の数字を整数に変えるようにしても良い。復号器側の結合器７８では、逆量子化されラウンディングされたスペクトル値は、エントロピー符号化された補助オーディオデータと、望ましくは加算的にスペクトル値を基にして結合され、その結果、復号器内では、一方では手段７４の出力で逆量子化されたスペクトル値が存在し、もう一方では結合器７８の出力で整数スペクトル値が存在する。

手段７４の出力側のスペクトル値は、その後、逆ＭＤＣＴを実行する手段８０によって時間ドメインに変換され、聴覚心理的に損失がある状態に符号化され、再度復号化されたオーディオ信号を得ても良い。手段８２によって逆の整数ＭＤＣＴ（ＩｎｔＭＤＣＴ）を実行するために、結合器７８の出力信号もまた時間表現に変換され、損失のないように符号化／復号化されたオーディオ信号か、あるいは対応する精度の低いラウンディングが使用されたときは、ほぼ損失のないように符号化され再度復号化されたオーディオ信号を生成する。

以下に、図６のエントロピー符号器６０ｂの特に望ましい実施例について説明する。通常の現代的なＭＰＥＧ符号器内には、量子化されたスペクトル値の平均統計に依存して選択される複数のコード表が存在するので、結合器５８の出力において差分ブロックのエントロピー符号化のためにも、同じコード表またはコードブックを使うことが望ましい。差分ブロック、すなわち剰余の整数ＭＤＣＴスペクトルの絶対値が量子化の精度に依存するので、エントロピー符号器６０ｂのコードブックの選択は、補助サイド情報なしに行われても良い。

ＭＰＥＧ−２ＡＡＣ符号器では、スペクトル係数、すなわち量子化されたスペクトル値が、量子化ブロック内のスケールファクタバンドにグループ化され、このときこのスペクトル値が、１つのスケールファクタバンドと関連した対応するスケールファクタから得られる１つのゲインファクタによって重み付けされる。この公知の符号器の概念では、不均一の量子化器が重み付けされたスペクトル値を量子化するのに用いられているので、剰余値のサイズ、すなわち結合器５８の出力におけるスペクトル値は、スケールファクタだけでなく、量子化された値自体に依存する。しかし、スケールファクタと量子化されたスペクトル値は、図６の手段６０ａによって生成されたビットストリーム、すなわち聴覚心理的に符号化されたオーディオデータ内に含まれるので、符号器内では、差分スペクトル値のサイズに基づいたコードブックの選択を行うこと、また復号器内では、ビットストリーム内に送信されて来たスケールファクタと量子化された値との両方を基にして符号器内で使われているコード表を確認することが望ましい。結合器５８の出力においては、差分スペクトル値をエントロピー符号化するために、いかなるサイド情報も送信される必要がないので、エントロピー符号化はデータの割合圧縮のみにつながり、データストリーム内のいかなる信号用ビット(signalization bits)も、エントロピー符号器６０ｂのためのサイド情報として拡張する必要がない。

標準的なＭＰＥＧ−２ＡＡＣに従うオーディオ符号器の内では、一時的なオーディオ信号エリヤ内のプリエコーを防ぐためにウィンドウスイッチが用いられている。この技術は、ＭＤＣＴウィンドウの各半分の中にウィンドウの形を個別に選択する可能性に基づいており、かつ連続するブロック内でのブロックサイズの変化を可能にする。同様に、図１から図３を参照しながら説明したように、整数ＭＤＣＴの形式を有する整数変換アルゴリズムは、ウィンドウ化とＭＤＣＴの分離の時間ドメインエリアシング部分とにおいて、異なるウィンドウの形を使用するように実行される。そのため望ましいことは、整数変換アルゴリズムと、量子化ブロックを生成する変換アルゴリズムとの両方のために、同一のウィンドウ決定を使用することである。

ＭＰＥＧ−２ＡＡＣに従う符号器においては、複数のさらなる符号化ツールも存在するが、これらのうちで、ＴＮＳ（temporal noise shaping）とセンター／サイド（ＣＳ）ステレオ符号化のみについて言及する。ＴＮＳ符号化では、ちょうどＣＳ符号化のように、量子化の前にスペクトル値の修正が行われる。その結果、整数ＭＤＣＴの値すなわち整数ブロックと、量子化されたＭＤＣＴの値との差は増大する。本発明によれば、整数変換アルゴリズムは、整数スペクトル値のＴＮＳとセンター／サイド符号化との両方を許容するように形成されている。ＴＮＳ技術は、周波数に関するＭＤＣＴ値の適応型前方予測に基づいている。信号適応型の方法で通常のＴＮＳモジュールによって計算された同じ予測フィルタは、整数スペクトル値を予測するのにも使用されることが望ましく、この場合、もし非整数値がそれによって発生すると、下流方向へのラウンディングが使用され、再度整数値を形成しても良い。このラウンディングは各予測ステップの後で行われることが望ましい。復号器では、オリジナルのスペクトルが再度、整数フィルタと同じラウンディング関数を使用することで再構築されても良い。同様に、リフティング操作に基づいて、π／４の角度を持つラウンディングされたギブンズ回転を適用することにより、ＣＳ符号化もまた整数ＭＤＣＴスペクトル値に適用されても良い。それにより、復号器内のオリジナルの整数ＭＤＣＴ値が再度、再構築されても良い。

注意すべきことは、整数変換アルゴリズムとして整数ＭＤＣＴを備えた本発明の望ましい実施例における概念は、ＭＤＣＴに基づいた全ての聴覚適応型オーディオ符号器に適用されても良いということである。一例として挙げると、そのような符号器は、ＭＰＥＧ−４ＡＡＣスケーラブル、ＭＰＥＧ−４ＡＡＣ低遅延、ＭＰＥＧ−４ BSAC、ＭＰＥＧ−４ツインVQ、ドルビーＡＣ−３などに従う符号器である。

特に注意すべきことは、本発明の概念は逆方向にも適応できることである。聴覚適応型符号器または復号器は取り替えられるのではなく、ただ拡張されるのである。損失のない構成要素のための補助情報は、ＭＰＥＧ−２ＡＡＣ内の領域「補助データ」内のように、逆方向に適用できる方法で、聴覚適応型の方法により符号化されたビットストリーム内で送信されても良い。図７に点線で示された従来の聴覚適応型復号器への追加部分は、この補助データを評価し、量子化されたＭＤＣＴスペクトルとともに、聴覚適応型復号器からの損失のない整数ＭＤＣＴスペクトルを再構築しても良い。

聴覚心理符号化の本発明の概念は、損失のない、またはほぼ損失のない符号化により補足され、スケーラブルデータストリームの生成、送信、そして復号化に特に適応している。スケーラブルデータストリームは様々なスケーリングレイヤを含み、少なくともその最も低いスケーリングレイヤは、より高いスケーリングレイヤとは独立して送信され復号化されることは公知である。さらなるスケーリングレイヤまたは拡張レイヤ(enhancement layers)は、データのスケーラブル処理において、第１スケーリングレイヤまたはベースレイヤに付加される。完全な装備を持つ符号器は、第１スケーリングレイヤを備え、原則として、任意の数のさらなるスケーリングレイヤを備えるスケーラブルデータストリームを生成してもよい。上記スケーリング概念の利点は、ブロードバンド送信チャンネルが使用可能な場合、符号器によって生成されたスケールされたデータストリームは、そのブロードバンド送信チャンネルを介して、完全に、すなわち全てのスケーリングレイヤを含んだ状態で送信されても良い。しかし、もしもナロー（幅狭の）バンド送信チャンネルだけが存在する場合は、符号化された信号はこの場合でも送信チャンネルを通して送信されるが、第１スケーリングレイヤまたは特定数のさらなるスケーリングレイヤの形式において送信されるだけであり、このときの特定数とは、符号器によって生成されたスケーリングレイヤの全体の数より少ない。もちろん、接続されたチャンネルに対して適応する符号器は、ベーススケーリングレイヤまたは第１スケーリングレイヤと、そのチャンネルに依存するいくつかの更なるスケーリングレイヤとを、すでに生成していても良い。

復号器側でも、スケーラブル概念には、逆方向に適用できるという利点がある。つまり、第１スケーリングレイヤの処理だけができる復号器は、データストリーム内の第２とさらなるスケーリングレイヤとを単純に無視し、使用可能な出力信号を生成することができるという意味である。しかし、もし復号器が、スケーリングされたデータストリームから複数のスケーリングレイヤを処理することができる典型的な現代型の復号器であれば、この復号器は符号記と同じデータストリームを受け取りうるかもしれない。

本発明では、基本スケーラビリティは、量子化ブロック、すなわちビットストリーム符号器６０ａの出力が図８の第１スケーリングレイヤ８１に書き込まれ、これは図６から分かるように、例えば１つのフレームのために、聴覚心理的に符号化されたデータを含む。結合器５８によって生成され、望ましくはエントロピー符号化された差分スペクトル値は、単純なスケーラビリティでは第２スケーリングレイヤに書き込まれ、これは図８ａの番号８２に示されており、１つのフレームのための補助オーディオデータを含む。

もし符号器から復号器への送信チャンネルがブロードバンド送信チャンネルであれば、スケーリングレイヤ８１と８２との両方が復号器に送信されても良い。しかし、もし送信チャンネルがナローバンド送信チャンネルであって、第１スケーリングレイヤのみが「適合」するものである場合は、第２スケーリングレイヤは、送信の前に単にデータストリームから取り除かれても良く、その場合は、復号器に送信されるものは第１スケーリングレイヤだけになる。

復号器側では、聴覚心理的に符号化されたデータのみを処理することできる「ベース復号器」が、ブロードバンド送信チャンネルを通して第２スケーリングレイヤ８２を受け取った場合、単にその第２スケーリングレイヤ８２を省略しても良い。しかし、もし復号器が、聴覚心理復号化アルゴリズムと整数復号化アルゴリズムとの両方を含む完全に装備された復号器であれば、この完全に装備された復号器は、第１スケーリングレイヤと第２スケーリングレイヤとの両方を復号化のために使用し、損失のないよう符号化され、そして再び復号化された出力信号を生成することができる。

本発明の望ましい実施例では、図８ａにその概要を示されているように、フレームのための聴覚心理的に符号化されたデータは、やはり第１スケーリングレイヤに入る。しかし図８ｂの第２スケーリングレイヤは、もっと微細にスケールされ、その結果この図８ｂの第２スケーリングレイヤから、（さらに小さな）第２スケーリングレイヤ、第３スケーリングレイヤ、第４スケーリングレイヤ等の複数のスケーリングレイヤが発生する。

結合器５８から出力された差分スペクトルの値は、図９に基づいて示されたように、さらなるサブスケーリングに特に適合する。図９はバイナリ符号化されたスペクトル値を概要的に示す。図９の各横列９０はバイナリ符号化された差分スペクトル値を表している。図９では、矢印９１に示されるように、差分スペクトル値が周波数に従って分類され、差分スペクトル値９２は、差分スペクトル値９０より高い周波数を持つ。図９の格子図表の左から第１縦列は、差分スペクトル値の最重要ビット（ＭＳＢ）を示す。第２縦列に記入された数字は、ＭＳＢ−１の重要度を備えたビットであることを示す。第３縦列は、ＭＳＢ−２の重要度を備えたビットであることを示す。最後から数えて３番目の縦列は、ＬＳＢ＋２（最低重要度＋２）のビットであること示す。最後から２番目の縦列は、ＬＳＢ＋１の重要度を備えたビットを示す。最後に、最終縦列は、重要度が最低のビット（ＬＳＢ）、すなわち差分スペクトル値の最低重要度ビットであることを示している。

本発明の望ましい実施例では、精度スケーリング(accuracy scaling)は次のように実行される。すなわち、例えば差分スペクトル値の１６個の最も重要なビットが第２スケーリングレイヤとして使用され、そしてもし必要ならば、エントロピー符号器６０ｂによりエントロピー符号化される。第２スケーリングレイヤを使用した復号器は、出力側で１６ビットの精度を備えた差分スペクトル値を得、その結果この第２スケーリングレイヤは、第１スケーリングレイヤと共に、ＣＤの品質においては損失のないように復号化されたオーディオ信号を提供する。１６ビットの幅のあるCD品質のオーディオサンプルが存在することは公知である。

もし他方で、スタジオ品質のオーディオ信号、すなわち各サンプルに２４ビットを含むサンプルを備えたオーディオ信号が符号器に送られた場合は、符号器はさらに、差分スペクトル値の最終の８ビットを含み、また必要に応じてエントロピー符号化された（図６の手段６０）第３スケーリングレイヤを生成しても良い。

完全に装備された復号器が、第１スケーリングレイヤと、（差分スペクトル値の１６個の最重要ビットを含む）第２スケーリングレイヤと、（差分スペクトル値の８個の重要度が低いビットを含む）第３スケーリングレイヤとを備えたデータストリームを得た場合は、スタジオ品質で損失のないように符号化／復号化されたオーディオ信号、すなわち復号器の出力において存在する２４ビットのサンプルの語幅を備えた信号を、３つのスケーリングレイヤ全てを使用して出力しても良い。

注意すべきことは、一般的に、スタジオ領域内においては、消費者の領域内よりもサンプルの語長が大きいということである。消費者領域では、オーディオCD内の語幅は１６ビットであるのに対し、スタジオ領域内では２４または２０ビットが使用される。

整数ＭＤＣＴ領域でのスケーリングの概念に基づいて、上述のように、３つの精度全て（１６ビット、２０ビット、または２４ビット）、または最低では１ビットでスケールされた任意の精度が、スケーラブルに符号化されても良い。

ここで、２４ビットの精度で示されたオーディオ信号は、逆整数ＭＤＣＴを用いて整数スペクトル領域内に示され、かつ聴覚適応型のＭＤＣＴに基づくオーディオ符号器出力信号と、スケーラブルに結合される。

損失のない表現のために存在する整数差分値は、１つのスケーリングレイヤに完全に符号化されるのではなく、まず低い精度で符号化される。正確な表現に必要な剰余値は、さらなるスケーリングレイヤの中でのみ送信される。しかし他の方法として、差分スペクトル値は、例えば２４ビットによってさらなるスケーリングレイヤ内にも完全に表現される。その場合、このさらなるスケーリングレイヤを復号化するために、根底にあるスケーリングレイヤは必要ではない。この方法はすべて、ビットストリームサイズを大きくすることになるが、しかし、送信チャンネルのバンド幅に問題がなければ、復号器内での単純化に貢献するかもしれない。なぜなら、復号器内では、スケーリングレイヤはもはや結合される必要がなくなり、常に１つのスケーリングレイヤだけで復号化には充分だからである。

もし、例えば図９に示されるように重要度が低い８つのＬＳＢが最初に送信されなければ、２４ビットと１６ビットとの間のスケーラビリティは達成される。

低い精度で送信された値を時間ドメインへと逆変換するために、送信された値は望ましくは、例えば２⁸ によって乗算することで、たとえば２４ビットのオリジナルの領域にスケールバックされる。その後、逆整数ＭＤＣＴが同様にスケールバックされた値に適応される。

周波数ドメインにおける本発明の精度スケーリングでは、さらに望ましいことは、ＬＳＢ内での冗長性(redundancy)を利用することである。もし、例えばオーディオ信号が上部周波数ドメイン内でほんのわずかなエネルギーしか保持していないならば、これは整数ＭＤＣＴスペクトルにおいても非常に微小な値で表われ、例えば８ビットで可能な値（１２０から１２７）より著しく小さい。これは、整数ＭＤＣＴスペクトルのＬＳＢ値の圧縮率において表れる。さらに注意すべきことは、非常に小さな差分スペクトル値においては、一般的にＭＳＢからＭＳＢ−１までのビットの数がゼロに等しく、そのためバイナリ符号化された差分スペクトル値において１番目すなわち先頭の１は、重要度ＭＳＢ−ｎ−１を有するビットの前には発生しない。このような場合、第２スケーリングレイヤの差分スペクトル値がゼロのみを含むとき、エントロピー符号化はさらなるデータ圧縮に特によく適している。

本発明のさらなる実施例によると、図８ａの第２スケーリングレイヤ８２のために、サンプルレートスケーラビリティーが望ましい。サンプルレートスケーラビリティーは、図９の右側に示されているように、第２スケーリングレイヤに含まれる第１カット・オフ周波数(cut-off frequency)までの差分スペクトル値により達成され、他方、さらなるスケーリングレイヤには、第１カット・オフ周波数と最大周波数との間の周波数を有する差分スペクトル値が含まれる。もちろん、さらなるスケーリングが実行され、複数のスケーリングレイヤが周波数ドメイン全体から生成されても良い。

本発明の望ましい実施例では、図９の第２スケーリングレイヤは、４８ｋHzのサンプルレートに対応する２４ｋHzの周波数まで差分スペクトル値を含む。第３スケーリングレイヤは、９６ｋHzのサンプルレートに対応する、２４ｋHzから４８ｋHzまでの差分スペクトル値を含む。

さらに注意すべきことは、第２スケーリングレイヤと第３スケーリングレイヤでは、差分スペクトル値の全てのビットを符号化する必要はないことである。結合されたスケーラビリティのさらなる形式では、第２スケーリングレイヤが、所定のカット・オフ周波数までの差分スペクトル値のビットＭＳＢからＭＳＢ−Ｘまでを含むことができるであろう。第３スケーリングレイヤは、第１カット・オフ周波数から最高周波数までの差分スペクトル値のビットＭＳＢからＭＳＢ−Ｘまでを含むことができるであろう。第４スケーリングレイヤは、カット・オフ周波数までの差分スペクトル値のための剰余のビットを含むことができるであろう。そして最後のスケーリングレイヤは、それ以上の周波数のための差分スペクトル値のための剰余のビットを含むことができるであろう。この概念により図９の格子図表は４つの区域に分割され、これら４区域はそれぞれ１つのスケーリングレイヤを表している。

周波数のスケーラビリティに関しては、本発明の望ましい実施例においては、４８ｋHzから９６ｋHzまでのサンプルレートのスケーラビリティを説明する。９６ｋHzサンプル信号は、損失のない拡張レイヤの整数ＭＤＣＴ領域でまず半分だけ符号化され、送信される。もし上半分が追加的に送信されなければ、復号器内でゼロとみなされる。（符号器内と同じ長さの）逆整数ＭＤＣＴ内では９６ｋHz信号が発生し、この信号は高周波数ドメイン内にエネルギーを含まず、そのため４８ｋHzで品質の損失なくサブサンプル化されるであろう。

固定された境界を有する図９の上記４区域内における差分スペクトル値の上記のスケーリングは、スケーリングレイヤのサイズに関して望ましい。なぜなら、スケーリングレイヤ内には、実際、たとえば１６ビットあるいは８ビットのみとか、または上記カット・オフ周波数までのスペクトル値、あるいは上記カット・オフ周波数を超えるスペクトル値が含まれなければならないからである。

他のスケーリングは、図９の４区域の境界をある程度「緩和する」ものである。周波数スケーラビリティの例では、これはカット・オフ周波数前の差分スペクトル値は変化せず、カット・オフ周波数後はゼロであるという理由で、いわゆる「れんが壁ローパス」(brickwall low pass)を適応するのではないことを意味する。その代り、差分スペクトル値もまた、任意のローパスでフィルタリングされ、カット・オフ周波数を下回るスペクトル値を既にある程度抑制している可能性があり、カット・オフ周波数を上回るスペクトル値は、まだエネルギーを持っているが、差分スペクトル値はエネルギーにおいては減少している。このように生成されたスケーリングレイヤにおいても、カット・オフ周波数を上回るスペクトル値が含まれる。しかし、このようなスペクトル値は比較的小さいので、エントロピー符号化によって効果的に符号化しやすい。この場合、最高スケーリングレイヤは、完全な差分スペクトル値と第２スケーリングレイヤに含まれるスペクトル値との間の差分を有するであろう。

精度スケーリングもまた、同様にある程度柔軟と言える。第１スケーリングレイヤはたとえば１６ビット以上のスペクトル値を含んでも良く、この場合、次のスケーリングレイヤは依然として差分を有する。一般的に、第２スケーリングレイヤは低い精度で差分スペクトル値を持ち、他方、次のスケーリングレイヤ内では、残り、すなわち完全スペクトル値と第２スケーリングレイヤに含まれるスペクトル値の差分が送信される。これにより、様々な精度の低減が実現する。

本発明の符号化または復号化の方法は、望ましくは電子的に読み取り可能な制御信号とともにフレキシブルディスクなどのデジタル記憶媒体に記憶され、この制御信号はプログラムできるコンピュータシステムと協同し、符号化および／または復号化の方法が実行されても良い。言い換えれば、このプログラムがコンピュータ上で実行されるとき、符号化方法および／または復号化方法を実行するための、機械で読み取り可能な運搬媒体に記憶されたプログラムコードを備えた、コンピュータプログラムの製品が存在するということである。このプログラムがコンピュータ上で実行されるとき、本発明の方法は、本発明の方法を実行するためのプログラムコードを備えたコンピュータプログラムによって実現されるであろう。

以下に、整数変換アルゴリズムのための例として、非特許文献３に示されている整数ＭＤＣＴ変換アルゴリズムについて説明する。整数ＭＤＣＴは、オーディオ信号の良好なスペクトル表現や、臨界サンプリング(critical sampling)や、ブロックオーバーラップなどの、ＭＤＣＴの優れた特質を持っているため特に望ましい。整数ＭＤＣＴによるＭＤＣＴの良好な近似も、図５に示される符号器内で１つの変換アルゴリズムのみを使用することを可能にしている。これは、図５の矢印６２で示されている。図１から図４を基にして、整数変換アルゴリズムのこの特別な形式の本質的な特質を説明する。

図１は、オーディオ信号を表す時間離散サンプルを処理するための本発明の望ましい装置であって、整数値を得、その整数値に基づいて整数ＭＤＣＴ変換アルゴリズムが使用される装置を示す全体図である。時間離散サンプルは図１に示される装置によりウィンドウ化され、選択的にスペクトル表現に変換される。時間離散サンプルは入力１０においてこの装置に入力され、２Ｎ個の時間離散サンプルに相当する長さを持つウィンドウＷでウィンドウ化される。その結果、出力１２において整数のウィンドウ化サンプルが得られ、このサンプルは変換により、特に整数ＤＣＴを実行する手段１４により、スペクトル表現に変換されるのに適している。整数ＤＣＴはＮ個の入力値からＮ個の出力値を生成するように作られており、これは図４ａのＭＤＣＴの関数４０８とは対照的である。なぜなら、関数４０８は、ＭＤＣＴの方程式に従って、２Ｎ個のウィンドウ化されたサンプルからＮ個のスペクトル値しか生成しないからである。

時間離散サンプルをウィンドウ化するために、まず２個の時間離散サンプルが手段１６内において選択され、これらは合同して時間離散サンプルの１個のベクトルを表す。手段１６により選択された１つの時間離散サンプルは、ウィンドウの第１クォータ内に含まれ、もう１つの時間離散サンプルは、ウィンドウの第２クォータ内に含まれる。この点に関しては、図３においてより詳細に説明する。次に、手段１６により生成されたベクトルに対し、２×２のディメンションを持つ回転マトリクスが適用される。このベクトル回転操作は単一のステップで実行されるわけではなく、複数のいわゆるリフティングマトリクスによって実行される。

リフティングマトリクスとは、ウィンドウＷに依存し、かつ“１”でも“０”でもない成分を１つだけ備えるという特徴を持つ。

リフティングステップへのウェーブレット変換（wavelet transform）の因数分解は、非特許文献４に表されている。一般的に、リフティングの概要は、同一のローパスフィルタまたはハイパスフィルタを備えた完全再構築型フィルタ対の間の単純な関係式である。補足的なフィルタからなる各対は、リフティングステップへと因数分解されてもよい。特に、これはギブンズ回転に対して適用される。多相マトリクスがギブンズ回転である場合を考えてみる。この時、以下の方程式が適応される。

等記号の右側にある３つのリフティングマトリクスの夫々は、主対角成分(main diagonal elements)として値“１”を持つ。さらに、各リフティングマトリクスにおいて、主対角上には存在しない成分の１つは０であり、主対角上には存在しないもう１つの成分は回転角αに依存する。

ベクトルは、まず第３のリフティングマトリクス、すなわち上述の方程式の最も右側にあるリフティングマトリクスを用いて乗算され、第１結果ベクトルを得る。これは、図１内では手段１８により示されている。まず第１結果ベクトルは、実数値を整数値にマッピングする任意のラウンディング関数によりラウンディングされる。これは、図１内では手段２０により示されており、ラウンディングされた第１結果ベクトルが手段２０の出力において得られる。このラウンディングされた第１結果ベクトルは手段２２に供給され、ここで上述の方程式の中央のリフティングマトリクス、すなわち第２のリフティングマトリクスを用いて乗算され、第２結果ベクトルを得る。この第２結果ベクトルは、手段２４において再度ラウンディングされ、ラウンディングされた第２結果ベクトルを得る。このラウンディングされた第２結果ベクトルは、次に手段２６に対して供給され、上述の方程式の左側に記載のリフティングマトリクス、すなわち第１リフティングマトリクスを用いて乗算され、第３結果ベクトルを得る。この第３結果ベクトルは、手段２８により最終的にもう一度ラウンディングされ、出力１２においては整数ウィンドウ化サンプルが最終的に得られる。もしこの値のスペクトル表現が求められる場合には、スペクトル出力３０において整数スペクトル値を得るために、この整数ウィンドウ化サンプルは次に手段１４により処理されなければならない。

望ましくは、上記手段１４は整数ＤＣＴとして具体化させる。

長さＮを持ちタイプＩＶに従う離散コサイン変換（ＤＣＴ−ＩＶ）は、以下の方程式で表現できる。

ＤＣＴ−ＩＶの係数は正規直交Ｎ×Ｎマトリクスを形成する。各直交Ｎ×ＮマトリクスはＮ（Ｎ−１）／２ギブンズ回転に分解されてもよい。この点に関しては、非特許文献５に説明の通りである。また、さらなる分解も存在することにも留意すべきである。

様々なＤＣＴアルゴリズムの分類に関しては、非特許文献６を参照されたい。一般的に、ＤＣＴアルゴリズムはそれらの基底関数の種類により区別されている。本発明において望ましいとされるＤＣＴ−ＩＶは、非対称基底関数、すなわちコサイン１／４波、コサイン３／４波、コサイン５／４波、コサイン７／４波等を含むが、例えば、タイプＩＩの離散コサイン変換（ＤＣＴ−ＩＩ）は軸対称かつ点対称の基底関数を含む。０番目の基底関数はＤＣ要素(component)を持ち、１番目の基底関数は１／２コサイン波であり、２番目の基底関数は全コサイン波である等である。タイプＩＩの離散コサイン変換は特にＤＣ要素を考慮するという事実から、このタイプＩＩの離散コサイン変換はビデオ符号化に使用され、オーディオ符号化には使用されない。なぜなら、オーディオ符号化においては、ビデオ符号化とは対照的に、ＤＣ要素は関係がないからである。

以下に、ギブンズ回転の回転角αがいかにウィンドウ関数に依存するかという点について、説明する。

２Ｎウィンドウ長を持つＭＤＣＴは、Ｎウィンドウ長を持つタイプＩＶの離散コサイン変換へと減数されてもよい。これは、時間ドメインにおいてＴＤＡＣ操作を格別に実行し、その後ＤＣＴ−ＩＶを適用することで達成できる。５０％のオーバーラップにより、ブロックｔに対するウィンドウの左半分は、先行するブロック、すなわちブロックｔ−１の右半分と重複する。２個の連続するブロックｔ−１とブロックｔの重複する部分は時間ドメインの中で前処理される。すなわち、上記変換に先立ち、図１内の入力１０から出力１２の間で下記のように処理される。

波型記号を付して示された値は、図１の出力１２の値であり、他方、上記の式内で波型記号を付けずにｘ値として示される値は、図１の入力１０の値または選択手段１６の後の値である。変数(running index）ｋは０からＮ／２−１まで変化し、ｗはウィンドウ関数を表す。

ウィンドウ関数ｗのためのＴＤＡＣの条件から、以下の関係が成り立つ。

ある所定の角度α_k，ｋ＝０，…，Ｎ／２−１について、この時間ドメインにおける前処理は、上述のように、ギブンズ回転として記載されてもよい。

ギブンズ回転の角度αは以下のようにウィンドウ関数ｗに依存する。

留意すべき点は、このＴＤＡＣの条件が満たされる限りにおいては、任意のウィンドウ関数ｗも用いることができるという点である。

以下に、図２に基づいてカスケード符号器および復号器を説明する。１個のウィンドウで一緒に「ウィンドウ化」された時間離散サンプルｘ（０）〜ｘ（２Ｎ−１）は、まず図１内の手段１６により以下のように選択される。つまり、ウィンドウの第１クォータからサンプルｘ（０）が選択され、ウィンドウの第２クォータからサンプルｘ（Ｎ−１）が選択され、手段１６の出力においてベクトルを形成する。途中で交差する矢印は、ＤＣＴ−ＩＶのブロックの入力において整数ウィンドウ化サンプルを得るための、手段１８と２０、手段２２と２４、または手段２６と２８のリフティングマトリクスによる乗算とそれに続くラウンディングとを概略的に示す。

上述のような最初のベクトルが処理された時、ウィンドウの第１クォータからサンプルｘ（Ｎ／２−１）が選択され、ウィンドウの第２クォータからサンプルｘ（Ｎ／２）が選択されて２番目のベクトルも選択され、その後図１に示されたアルゴリズムによって再度処理される。上記と同様に、ウィンドウの第１および第２クォータからの他の全てのサンプルの対が処理される。同様の処理が第１ウィンドウの第３および第４クォータに対しても実行される。この時点で、出力１２においてＮ個のウィンドウ化された整数サンプルが存在し、これらは次に、図２に示されるように、ＤＣＴ−ＩＶ変換に対して入力される。特に、第２および第３クォータの整数ウィンドウ化サンプルがＤＣＴに対して入力される。ウィンドウの第１クォータの整数ウィンドウ化サンプルは、先行するウィンドウの第４クォータの整数ウィンドウ化サンプルと一緒に、先行するＤＣＴ−ＩＶ内で処理される。これと同様に、図２内の第４クォータの整数ウィンドウ化サンプルは、後続ウィンドウの第１クォータのサンプルと一緒に、ＤＣＴ−ＩＶ変換に対して入力される。図２に示されるように、中間の整数ＤＣＴ−ＩＶは、Ｎ個の整数スペクトル値ｙ（０）からｙ（Ｎ−１）までを供給する。これらの整数スペクトル値は、次に、例えばいかなる中間の量子化をも必要とせず、単純にエントロピー符号化されてもよい。なぜなら、上記のウィンドウ化と変換とは、整数出力値を提供するからである。

図２の右半分には、復号器が示されている。逆変換と「逆ウィンドウ化」とを含む復号器は、符号器とは逆に操作する。図２に示すように、ＤＣＴ−ＩＶの逆変換のために、逆ＤＣＴ−ＩＶが使用されてもよいことは既に公知である。図２に示すように、復号器ＤＣＴ−ＩＶの出力値は、先行する変換または後続の変換の対応する値と共に逆処理され、その結果、上記復号器ＤＣＴ−ＩＶの出力における整数ウィンドウ化サンプル、または前後の変換の出力における整数ウィンドウ化サンプルから、時間離散オーディオサンプルｘ（０）〜ｘ（２Ｎ−１）が生成される。

出力側の操作は、逆ギブンズ回転により実行される。すなわち、ブロック２６と２８、ブロック２２と２４、またはブロック１８と２０を逆方向に通過することになる。これは、方程式（１）の第２リフティングマトリクスに基づいて詳細に表されている。もし、（符号器内で）第２結果ベクトルが、ラウンディングされた第１結果ベクトルに第２リフティングマトリクスを乗算することで形成されるならば（手段２２）、その結果は以下の式に示される。

上記の式の右側にある値ｘ，ｙは整数である。しかし、ｘ・sinαの値は整数ではない。そこで、ラウンディング関数ｒが以下の方程式のように導入されなければならない。

上記手段２４はこの操作を実行する。

逆マッピング（復号器における）は、以下のように定義される。

ラウンディング操作の前にあるマイナス記号から自明なことは、リフティングステップの整数近似値は、いかなる誤差も導入されずに逆転されることができるということである。３つの各リフティングステップにおいてこの近似を適用すれば、ギブンズ回転の整数近似につながる。（符号器内で）ラウンディングされた回転は、（復号器内で）誤差を導入せずに逆回転させることができる。つまり、ラウンディングされた逆リフティングステップを逆の順序で実行することで、誤差を導入せずに逆回転させることが可能である。換言すれば、復号化において、図１に示されたアルゴリズムを下から上へという順序で実行すれば可能である。

もし、ラウンディング関数ｒが点対称であれば、逆ラウンディングされた回転は、角度−αでラウンディングされた回転と同一であり、次の式が成り立つ。

この場合、復号器のため、すなわち逆ギブンズ回転のためのリフティングマトリクスは、方程式（１）の“sinα”という表現を“−sinα”という表現に置き換えることで、直ちに結果が得られる。

以下に、オーバーラップウィンドウ４０〜４６を備えた一般的なＭＤＣＴの分解を、図３を参照しながら再度説明する。ウィンドウ４０〜４６は、それぞれ５０％のオーバーラップを持つ。各ウィンドウにおいて、ギブンズ回転は最初にウィンドウの第１および第２クォータ内またはウィンドウの第３および第４クォータ内で実行される。これは、矢印４８により図式的に示されている。次に、回転された値、すなわちウィンドウ化整数サンプルは、ＮからＮへの離散コサイン変換（Ｎ−ｔｏ−Ｎ−ＤＣＴ）に入力され、その結果、ウィンドウの第２クォータと第３クォータ、または第４クォータと後続のウィンドウの第１クォータとがＤＣＴ−ＩＶアルゴリズムにより常に一緒にスペクトル表現へと変換されるようになる。

このように、通常のギブンズ回転はリフティングマトリクスに分解される。これらのリフティングマトリクスの乗算は順に実行され、各リフティングマトリクスの乗算後にラウンディングステップが実行される。そのため、浮動小数点数が発生すると直ちにラウンディングされるので、結果ベクトルと（次の）リフティングマトリクスとの各乗算の前において、結果ベクトルは整数しか含まない。

以上のように、出力値は常に整数となるが、入力値も整数を使用することが望ましい。ただし、これに制約されるものではない。なぜなら、ＣＤに記憶されたいかなる典型的なＰＣＭサンプルも整数値であるからであり、その値の領域はビット幅に依存して変化し、つまりは時間離散デジタル入力値が１６ビット値か２４ビット値かという点に依存しているからである。しかし、上述のように、逆の順序で逆回転マトリクスを実行することで、全体的な処理を逆転させることが可能である。そのため、ＭＤＣＴの整数近似による、完全な再生、すなわち損失のない変換が可能となる。

上述の変換は、浮動小数点値に代えて整数出力値を提供する。それにより、もし前方変換およびその後の後方変換が実行された場合に、誤差が導入されずに完全な再生を実現できる。本発明の望ましい実施例によれば、この変換は変形離散コサイン変換に代わるものである。しかし、回転への分解と、その回転のリフティングステップへの分解とが可能であれば、他の変換方法もまた整数で実行可能であろう。

整数ＭＤＣＴは、ＭＤＣＴの望ましい特性の大部分を有する。オーバーラップ構造を備え、その結果として、オーバーラップなしのブロック変換より良好な周波数選択性を得ることができる。変換に先立つウィンドウ化の時に既に考慮されていたＴＤＡＣ関数のために、臨界サンプリングが維持され、その結果、１つのオーディオ信号を表すスペクトル値の全体数が入力サンプルの全体数と等しくなる。

浮動小数点サンプルを提供する通常のＭＤＣＴと比較して、上述の望ましい整数変換は以下の長所を開示している。すなわち、信号レベルが殆どないスペクトル領域でのみ、ノイズが上記通常のＭＤＣＴと比較して増大し、他方、意味のある信号レベルの中ではこのノイズの増大は認識されないという長所である。このため、上記の整数処理はハードウェアによる能率的な実施に適している。なぜなら、乗算ステップのみが使用されるからであり、それは容易にシフト／加算ステップに分解され、つまりはハードウェアで容易かつ迅速に実行可能であるからである。もちろん、ソフトウェアによる実施も可能である。

上記の整数変換は、オーディオ信号の良好なスペクトル表現を提供し、かつ整数領域に留まるものである。もし、オーディオ信号の調性部分(tonal parts）に適用される場合には、これにより、良好なエネルギー集中が得られる。このため、図１に示すウィンドウ化／変換をエントロピー符号器とカスケード接続することで、能率的で損失のない符号化機構が構築できるであろう。特に、ＭＰＥＧＡＡＣに使用されているような、エスケープ値を用いた積層符号化(stacked coding)は、望ましいものである。適切なコード表に適合するまで全ての値をある２の基数(power）により縮小し、その後追加的に、除外された最小限の重要性を持つビットを符号化することが望ましい。他の方法としてより大きなコード表を使用する方法があるが、その場合と比較して、上述の方法はコード表を記憶させるための記憶消費量という観点から見て、より望ましい。重要性がほとんどないビット内の所定のものを単純に除外することで、ほとんど損失のない符号器を得ることも可能であろう。

特に、調性信号に関しては、整数スペクトル値のエントロピー符号化は高い符号化ゲインを可能にする。信号の一時的な部分に関しては、この符号化ゲインは低い。これは、一時的信号のフラットスペクトル、すなわち０または略０に等しい低い数のスペクトル値に基づくからである。非特許文献７に記載のように、このフラット部分は、周波数ドメイン内で線形予測を用いることで使用されても良い。他の方法としては、開ループによる予測があり、さらに他の方法としては、閉ループによる予測がある。前者の方法、すなわち開ループによる予測は、ＴＮＳと呼ばれるものである。予測の後の量子化により、結果的に生じる量子化ノイズをオーディオ信号の時間構造に適応させ、聴覚心理オーディオ符号器におけるプリエコーを防止する。損失のないオーディオ符号化のためには、２番目の方法、すなわち閉ループによる予測がより適している。なぜなら、閉ループによる予測は入力信号の正確な再生を可能にするからである。もし、この技術が生成されたスペクトルに対して適用されれば、整数領域に留まるために、ラウンディングステップは各予測フィルタのステップの後で実行されなければならない。逆フィルタおよび同様のラウンディング関数を使用することで、オリジナルスペクトルが正確に再生されるであろう。

データ削減のため、２つのチャンネル間の冗長性を利用するために、もしα／４の角度を持つラウンディングされた回転が使用されるならば、損失のない方法でセンター／サイド符号化を用いてもよい。ステレオ信号の左右のチャネルの合計と差とを計算する他の方法と比較して、ラウンディングされた回転はエネルギーの維持という利点がある。標準ＭＰＥＧＡＡＣでも実行されているように、いわゆるジョイントステレオ符号化技術の使用は、各バンドに対してスウィッチオンまたはオフさせてもよい。２チャンネル間の冗長性をより柔軟に減少させることができるように、さらなる回転角度もまた考慮してもよい。

Claims

時間離散オーディオ信号を符号化し、符号化オーディオデータを得るための装置であって、
上記時間離散オーディオ信号のスペクトル値の量子化ブロックであって、聴覚心理モデル（５４）を用いて量子化された量子化ブロックを供給する手段（５２）と、
逆量子化されラウンディングされたスペクトル値を含むラウンディングブロックを提供するために、上記量子化ブロックを逆量子化し、この逆量子化されたスペクトル値をラウンディングする手段（５８）と、
整数時間離散サンプルのブロックからスペクトル値の整数ブロックを生成するため構成された整数変換アルゴリズムを用いて、整数スペクトル値の整数ブロックを生成する手段（５６）と、
差分スペクトル値を有する差分ブロックを得るために、上記ラウンディングブロックと上記整数ブロックとの間のスペクトル値を基にした差分に依存して上記差分ブロックを形成する結合手段（５８）と、
上記量子化ブロックに関する情報と上記差分ブロックに関する情報とを含む符号化オーディオデータを生成するために、上記量子化ブロックと上記差分ブロックとを処理する手段（６０）と、
を含むことを特徴とする装置。
請求項１に記載の装置において、
上記量子化ブロックを供給するための手段（５２）は、
ＭＤＣＴを用いて時間オーディオ信号値の時間ブロックからＭＤＣＴスペクトル値のＭＤＣＴブロックを生成し、かつ
量子化されたＭＤＣＴスペクトル値を含む上記量子化ブロックを生成するために、聴覚心理モデルを用いて上記ＭＤＣＴブロックを量子化するように構成されていることを特徴とする装置。
請求項２に記載の装置において、
上記整数ブロックを生成するための手段（５６）は、
上記時間ブロックに対して整数ＭＤＣＴを実行して、整数ＭＤＣＴスペクトル値を含む上記整数ブロックを生成するように形成されていることを特徴とする装置。
請求項１乃至３のいずれかに記載の装置において、
上記量子化ブロックを供給するための手段（５２）は、
浮動小数点変換アルゴリズムを用いて上記量子化ブロックを計算するように構成されていることを特徴とする装置。
請求項１乃至３のいずれかに記載の装置において、
上記量子化ブロックを供給するための手段（５２）は、
上記整数ブロックを生成するための手段（５６）によって生成された整数ブロックを用いて上記量子化ブロックを計算するように構成されていることを特徴とする装置。
請求項１乃至５のいずれかに記載の装置において、
上記処理手段（６０）は、
上記量子化ブロックをエントロピー符号化し、エントロピー符号化された量子化ブロックを得る手段（６０ａ）と、
上記ラウンディングブロックをエントロピー符号化し、エントロピー符号化されたラウンディングブロックを得る手段（６０ｂ）と、を備え、
上記符号化オーディオデータを表すスケーリングされたデータストリームの第１スケーリングレイヤに上記エントロピー符号化された量子化ブロックを変換し、
上記スケーリングされたデータストリームの第２スケーリングレイヤに上記エントロピー符号化されたラウンディングブロックを変換することを特徴とする装置。
請求項６に記載の装置において、
上記処理手段（６０）は、上記量子化ブロックのエントロピー符号化のために、上記量子化されたスペクトル値に依存して、複数のコード表から１つのコード表を使用するように形成され、かつ
上記処理手段（６０）は、上記差分ブロックのエントロピー符号化のために、上記量子化ブロックを生成するための量子化において使用される量子化器の特性に依存して、複数のコード表から１つのコード表を選択するように形成されていることを特徴とする装置。
請求項１乃至７のいずれかに記載の装置において、
上記量子化ブロックを供給するための手段（５２）は、オーディオ信号値の時間ブロックをウィンドウ化するための複数のウィンドウから、上記オーディオ信号の特性に依存して１つのウィンドウを使用し、
上記整数ブロックを生成するための手段（５６）は、上記整数変換アルゴリズムのために、同じウィンドウを選択することを特徴とする装置。
請求項１乃至８のいずれかに記載の装置において、
上記整数ブロックを生成するための手段（５６）は、
時間離散サンプルを２Ｎ個の時間離散サンプルに対応する長さを持つウィンドウ（Ｗ）でウィンドウ化する第１ステップであって、Ｎ個の入力値からＮ個の出力値を生成することができる変換によって、上記時間離散サンプルをスペクトル表現に変換するためのウィンドウ化された時間離散サンプルを提供するステップであり、以下のサブステップ１〜３、すなわち、
１つの時間離散サンプルを上記ウィンドウの１つのクォータから選択（１６）し、もう１つの時間離散サンプルを上記ウィンドウの他のクォータから選択して、時間離散サンプルのベクトルを得るサブステップ１と、
上記ベクトルに対し回転マトリクスを適用するサブステップ２であって、この回転マトリクスのディメンションは上記ベクトルのディメンションと一致し、さらに上記回転マトリクスは複数のリフティングマトリクスにより表現され、１つのリフティングマトリクスは上記ウィンドウ（Ｗ）に依存しかつ１でも０でもない成分を１つだけ有するものであり、さらに以下の小ステップ１〜３、すなわち、
上記ベクトルに１つのリフティングマトリクスを乗算（１８）し、第１結果ベクトルを得る小ステップ１と、
上記第１結果ベクトルの要素を、実数を整数にマッピングするラウンディング関数（ｒ）でラウンディング（２０）し、ラウンディングされた第１結果ベクトルを得る小ステップ２と、
全てのリフティングマトリクスが処理されるまで乗算（２２）およびラウンディング（２４）のステップを他のリフティングマトリクスを用いて順に実行し、その結果、上記ウィンドウの上記１つのクォータからの整数ウィンドウ化サンプルと上記ウィンドウの上記他のクォータからの整数ウィンドウ化サンプルとを有する回転されたベクトルを得る小ステップ３と、を含む回転マトリクスを適用するサブステップ２と、
上記ウィンドウの残りのクォータの全ての時間離散サンプルに対して上記ウィンドウ化ステップを実行し、２Ｎ個のウィンドウ化された整数サンプルを得るサブステップ３と、を含むウィンドウ化の第１ステップと、
上記ウィンドウの第２クォータおよび第３クォータのウィンドウ化された整数サンプルを持つ値に対して、整数ＤＣＴ変換を実行し、Ｎ個のウィンドウ化整数サンプルをスペクトル表現に変換（１４）し、Ｎ個の整数スペクトル値を得る第２ステップと、
を含む整数変換アルゴリズムを使用するように形成されたことを特徴とする装置。
請求項１乃至９のいずれかに記載の装置において、
上記量子化ブロックを供給するための手段（５２）は、量子化ステップ（５２ｂ）に先立ち、予測フィルタを用いて周波数に関するスペクトル値の予測を実行し、量子化後の上記量子化ブロックを表現する予測剰余スペクトル値を得るように形成され、
上記整数ブロックの上記整数スペクトル値の周波数に関する予測を実行する予測手段が設けられ、
さらに、上記ラウンディングブロックを表す上記整数スペクトル値によって、上記予測剰余スペクトル値をラウンディングするためのラウンディング手段が設けられていることを特徴とする装置。
請求項１乃至１０のいずれかに記載の装置において、
上記時間離散オーディオ信号は少なくとも２つのチャンネルを備え、
上記量子化ブロックを供給するための手段（５２）は、上記時間離散オーディオ信号のスペクトル値に対してセンター／サイド符号化を実行し、センター／サイドスペクトル値の量子化の後で上記量子化ブロックを得るように構成され、
上記整数ブロックを生成するための手段（５６）は、上記量子化ブロックを供給するための手段（５２）のセンター／サイド符号化に対応するセンター／サイド符号化を実行するように構成されていることを特徴とする装置。
請求項１乃至１１のいずれかに記載の装置において、
上記処理装置（６０）は、ＭＰＥＧ−２ＡＡＣデータストリームを生成するように構成され、
補助データの分野において、上記整数変換アルゴリズムのための補助情報が導入されることを特徴とする装置。
請求項１乃至１２のいずれかに記載の装置において、
上記処理装置（６０）は、上記符号化オーディオデータを複数のスケーリングレイヤを持つデータストリームとして出力するよう構成されていることを特徴とする装置。
請求項１３に記載の装置において、
上記処理装置（６０）は、上記量子化ブロックに関する情報を第１スケーリングレイヤ（８１）に挿入し、かつ上記差分ブロックに関する情報を第２スケーリングレイヤ（８２）に挿入するよう構成されていることを特徴とする装置。
請求項１３に記載の装置において、
上記処理装置（６０）は、上記量子化ブロックに関する情報を第１スケーリングレイヤに挿入し、かつ上記差分ブロックに関する情報を少なくとも第２および第３のスケーリングレイヤに挿入するよう構成されていることを特徴とする装置。
請求項１５に記載の装置において、
上記第２スケーリングレイヤの中に精度の低い差分スペクトル値が含まれ、
１つまたはそれ以上の高いスケーリングレイヤの中に上記差分スペクトル値の余剰部が含まれていることを特徴とする装置。
請求項１５または１６に記載の装置において、
上記差分ブロックに関する情報はバイナリ符号化差分スペクトル値を含み、
上記差分スペクトル値のための第２スケーリングレイヤは、最高重要ビット（ＭＳＢ）から低重要ビット（ＭＳＢ−ｘ）までの差分スペクトル値のための幾つかのビットを含み、
第３スケーリングレイヤは、低重要ビット（ＭＳＢ−ｘ−１）から最低重要ビット（ＬＳＢ）までの幾つかのビットを含むことを特徴とする装置。
請求項１７に記載の装置において、
上記時間離散オーディオ信号が２４ビットの幅を持つサンプルの形式で存在し、
上記処理装置（６０）は、差分スペクトル値のさらに重要な１６ビットを第２スケーリングレイヤに挿入し、差分スペクトル値の剰余の８ビットを第３スケーリングレイヤに挿入するよう構成され、その結果、上記第２スケーリングレイヤを用いた復号器はＣＤ品質に到達し、上記第３スケーリングレイヤをも用いた復号器はスタジオ品質に到達することを特徴とする装置。
請求項１５に記載の装置において、
上記処理装置（６０）は、ローパスフィルタリングされた信号を表すための差分スペクトル値の少なくとも一部を第２スケーリングレイヤに挿入し、上記第２スケーリングレイヤ内の差分スペクトル値とオリジナル差分スペクトル値との間の差分を少なくとも１つのさらなるスケーリングレイヤに挿入するよう構成されていることを特徴とする装置。
請求項１５または１９に記載の装置において、
上記処理装置（６０）は、所定のカット・オフ周波数までの差分スペクトル値の少なくとも一部を第２スケーリングレイヤに挿入し、上記所定のカット・オフ周波数より高周波数の差分スペクトル値の少なくとも一部を第３スケーリングレイヤに挿入するよう構成されていることを特徴とする装置。
時間離散オーディオ信号を符号化し、符号化オーディオデータを得るための方法であって、
聴覚心理モデル（５４）を用いて量子化された時間離散オーディオ信号のスペクトル値の量子化ブロックを供給するステップ（５２）と、
上記量子化ブロックを逆量子化し、この逆量子化されたスペクトル値をラウンディングして、逆量子化されラウンディングされたスペクトル値のラウンディングブロックを得るステップ（５８）と、
整数時間離散サンプルのブロックからスペクトル値の整数ブロックを生成するため構成された整数変換アルゴリズムを用いて、整数スペクトル値の整数ブロックを生成するステップ（５６）と、
差分スペクトル値を有する差分ブロックを得るために、上記ラウンディングブロックと上記整数ブロックとの間のスペクトル値を基にした差分に依存して上記差分ブロックを形成するステップ（５８）と、
上記量子化ブロックに関する情報と上記差分ブロックに関する情報とを含む符号化オーディオデータを生成するために、上記量子化ブロックと上記差分ブロックとを処理するステップ（６０）と
を含むことを特徴とする方法。
聴覚心理モデル（５４）を用いて量子化された時間離散オーディオ信号のスペクトル値の量子化ブロックを供給（５２）し、上記量子化ブロックを逆量子化（５８）し、この逆量子化されたスペクトル値をラウンディングして、逆量子化されラウンディングされたスペクトル値のラウンディングブロックを得、整数時間離散サンプルのブロックからスペクトル値の整数ブロックを生成するため構成された整数変換アルゴリズムを用いて、整数スペクトル値の整数ブロックを生成（５６）し、差分スペクトル値を有する差分ブロックを得るために、上記ラウンディングブロックと上記整数ブロックとの間のスペクトル値を基にした差分に依存して上記差分ブロックを形成（５８）することによって、時間離散オーディオ信号から生成された符号化オーディオデータを復号化するための装置であって、
量子化ブロックと差分ブロックとを得るために、上記符号化オーディオデータを処理する手段（７０）と、
逆量子化された整数量子化ブロックを得るために、上記量子化ブロックを逆量子化しかつラウンディングするための手段（７４）と、
結合ブロックを得るために、上記整数量子化ブロックと上記差分ブロックとをスペクトル値を基にして結合させるための手段（７８）と、
上記結合ブロックと、上記整数変換アルゴリズムとは逆の整数変換アルゴリズムとを用いて、上記時間離散オーディオ信号の時間的表現を生成するための手段（８２）と、
を備えたことを特徴とする装置。
請求項２２に記載の復号化するための装置において、
上記符号化オーディオデータはスケールされ、かつ複数のスケーリングレイヤを含み、上記符号化オーディオデータを処理する手段（７０）は、第１スケーリングレイヤとして上記符号化オーディオデータから上記量子化ブロックを確認し、第２スケーリングレイヤとして上記符号化オーディオデータから上記差分ブロックを確認するように構成されていることを特徴とする装置。
請求項２２に記載の装置において、
上記差分ブロックに関する情報はバイナリ符号化差分スペクトル値を含み、
上記符号化オーディオデータはスケーリングされ、かつ複数のスケーリングレイヤを含み、
上記符号化オーディオデータを処理する手段（７０）は、第１スケーリングレイヤとして上記符号化オーディオデータから上記量子化ブロックを確認し、第２スケーリングレイヤとして上記差分スペクトル値の表現を低い精度で引き出すように構成されていることを特徴とする装置。
請求項２４に記載の装置において、
上記符号化オーディオデータを処理する手段（７０）は、第２スケーリングレイヤとして、最高重要ビットから重要度が低いビットまでの幾つかのビットを引き出すように構成され、上記重要度が低いビットとは差分スペクトル値の最低重要ビットよりも重要度が高いビットであり、
上記時間離散オーディオ信号の時間的表現を生成するための手段（８２）は、上記整数変換アルゴリズムを用いる前に、差分スペクトル値のためにミッシングビットを合成的に生成するように構成されていることを特徴とする装置。
請求項２５に記載の装置において、
上記手段（８２）は、上記合成的な生成のために第２スケーリングレイヤのアップスケーリングを、そのアップスケーリングにおいて２^n、（ｎは第２スケーリングレイヤに含まれない低重要ビットの数である）に等しいスケールファクタが用いられるよう実行し、または上記合成的な生成のためにディザリングアルゴリズム（dithering algorithm)を用いるよう構成されていることを特徴とする装置。
請求項２２に記載の装置において、
上記符号化オーディオデータはスケールされ、かつ複数のスケーリングレイヤを含み、上記符号化オーディオデータを処理する手段（７０）は、第１スケーリングレイヤとして上記符号化オーディオデータの量子化ブロックを確認し、第２スケーリングレイヤとしてローパスフィルタリングされた差分スペクトル値を確認するように構成されていることを特徴とする装置。
請求項２２または２７に記載の装置において、
上記符号化オーディオデータはスケールされ、かつ複数のスケーリングレイヤを含み、上記符号化オーディオデータを処理する手段（７０）は、第１スケーリングレイヤとして上記符号化データの量子化ブロックを確認し、第２スケーリングレイヤとして第１カット・オフ周波数までの差分スペクトル値を確認するように構成され、
上記第１カット・オフ周波数は符号器の中で生成されうる差分スペクトル値の最大周波数より低いことを特徴とする装置。
請求項２８に記載の装置において、
上記時間的表現を生成するための手段（８２）は、上記第２スケーリングレイヤのカット・オフ周波数より高い入力値を、全長の整数変換アルゴリズムにおいて、所定値にセットし、かつ符号器の中で生成されうる差分スペクトル値の最大周波数と上記カット・オフ周波数との比に応じて選択されたファクタによって上記逆整数変換アルゴリズムを用いた後で、上記時間離散オーディオ信号の時間的表現をダウンサンプリングするように構成されていることを特徴とする装置。
請求項２９に記載の装置において、
上記所定値は上記カット・オフ周波数より高いすべての入力値に対してゼロであることを特徴とする装置。
供給し、逆量子化し、生成し、形成することによって、時間離散オーディオ信号から生成された符号化オーディオデータを復号化するための方法であって、
量子化ブロックと差分ブロックとを得るために、上記符号化オーディオデータを処理するステップ（７０）と、
逆量子化された整数量子化ブロックを得るために、上記量子化ブロックを逆量子化しかつラウンディングするステップ（７４）と、
結合ブロックを得るために、上記整数量子化ブロックと上記差分ブロックとをスペクトル値を基にして結合させるステップ（７８）と、
上記結合ブロックと上記整数変換アルゴリズムとは逆の整数変換アルゴリズムとを用いて、上記時間離散オーディオ信号の時間的表現を生成するステップ（８２）と、
を備えたことを特徴とする方法。
コンピュータ上で実行されるプログラムであって、請求項２１に記載の符号化方法を実行するためのプログラムコードを持つコンピュータプログラム。
コンピュータ上で実行されるプログラムであって、請求項３１に記載の復号化方法を実行するためのプログラムコードを持つコンピュータプログラム。