JP2005535940A

JP2005535940A - スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置

Info

Publication number: JP2005535940A
Application number: JP2004531856A
Authority: JP
Inventors: ガイガーラルフ; スポーラートーマス; ブランデンブルクカールハインツ; ヘルレユルゲン; コラーユルゲン; シューラーゲラルド
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ．
Priority date: 2002-08-09
Filing date: 2003-08-04
Publication date: 2005-11-24
Anticipated expiration: 2023-08-04
Also published as: DE10236694A1; AU2003250209A8; WO2004021710A2; JP4043476B2; EP1502255B1; CN1675683A; HK1072122A1; EP1502255A2; US20040184537A1; AU2003250209A1; WO2004021710A3; US7343287B2; CN1332373C

Abstract

オーディオおよび／またはビデオ情報を含む信号のスペクトルのスケーラブルエンコーディングのための装置であって、このスペクトルは２進スペクトル値を含み、この装置は、第１のサブスケーリングレイヤおよび第２のサブスケーリングレイヤを生成するための手段（１０２）を、エンコードされた信号を形成するための手段（１０６）に加えて含み、この形成手段（１０６）は、第１および第２のサブスケーリングレイヤが互いに別個にデコード可能なように、第１のサブスケーリングレイヤおよび第２のサブスケーリングレイヤを、エンコードされた信号中に含めるように実施される。フルスケーリングレイヤとは対照的に、１つのサブスケーリングレイヤは、バンド中の２進スペクトル値の一部の特定オーダのビットのみを含んでおり、その結果、サブスケーリングレイヤを付加的にデコードすることにより、より精密に制御可能で、より精密にスケーラブルな精度利得を達成し得る。

Description

本発明は、オーディオおよび／またはビデオエンコーダ／デコーダならびに、特に、スケーラビリティを有するエンコーダ／デコーダ手段に関する。

例えば、ＭＰＥＧレイヤ３（ＭＰ３）またはＭＰＥＧＡＡＣのような最新のオーディオエンコーディング方法は、オーディオ信号のブロック方式の周波数表現を得るために、例えばいわゆる変形離散コサイン変換（ＭＤＣＴ）のような変換を用いる。そのようなオーディオエンコーダは通常、時間離散オーディオサンプリング値の流れを得る。オーディオサンプル値のこの流れは、例えば１０２４個または２０４８個のウィンドウ化されたオーディオサンプル値の１つのウィンドウ化されたブロックを得るためにウィンドウ化される。ウィンドウ化のために、例えば、サインウィンドウ（ｓｉｎｅｗｉｎｄｏｗ）等のような様々なウィンドウ関数が用いられる。

ウィンドウ化された時間離散オーディオサンプル値は次に、フィルタバンクによりスペクトル表現に変えられる。原則的に、フーリエ変換、または特別な理由により、例えば高速フーリエ変換（ＦＦＴ）または、実行されてきたように、ＭＤＣＴのような前記フーリエ変換の変種が用いられる。フィルタバンクの出力におけるオーディオスペクトル値のブロックは次に、必要に応じてさらなる処理を受けることができる。上述のオーディオエンコーダであれば、オーディオスペクトル値の量子化が続き、この量子化段階は典型的には、量子化により導入される量子化ノイズが心理聴覚マスキング閾値以下に位置するように、すなわち「マスキング消去（ｍａｓｋｅｄａｗａｙ）」されるように選択される。量子化は、損失性エンコーディングである。さらなるデータ量削減を得るため、この量子化されたスペクトル値には次に、ハフマンエンコーディングによるエントロピーエンコーディングに付される。例えばスケールファクタ等のページ情報を追加することにより、格納または伝送し得るビットストリームが、ビットストリームマルチプレクサにより、量子化されエントロピー符号化されたスペクトル値から生成される。

オーディオデコーダにおいて、ビットストリームは、ビットストリームデマルチプレクサにより、符号化され量子化されたスペクトル値およびページ情報に編成される。エントロピーエンコードされた量子化スペクトル値は、量子化スペクトル値を得るために、最初にエントロピーデコードされる。次にこの量子化スペクトル値は、デコードされたスペクトル値を得るために逆量子化される。このデコードされたスペクトル値は量子化ノイズを含むが、このノイズは心理聴覚マスキング閾値以下に位置しており、従って聞こえることはない。これらのスペクトル値は次に、時間離散デコードされたオーディオサンプル値を得るために、合成フィルタバンクにより時間表現に変えられる。合成フィルタバンクにおいては、変換アルゴリズムとは逆の変換アルゴリズムが使用されなければならない。さらに、周波数−時間再変換後、ウィンドウ化は解除されなければならない。

良好な周波数選択性を得るために、最新のオーディオエンコーダは、典型的にはブロックオーバーラッピングを用いる。そのようなケースが図１０ａに示してある。最初、例えば２０４８個の時間離散オーディオサンプル値が取り出され、手段４０２によりウィンドウ化される。このウィンドウは、手段４０２を具体化したものであり、２Ｎ個のサンプル値のウィンドウ長を有し、その出力側において、２Ｎ個のウィンドウ化サンプル値のブロックを出力する。ウィンドウオーバーラッピングを達成するために、２Ｎ個のウィンドウ化サンプル値の第２のブロックが手段４０４により形成され、この手段は、単にはっきりさせるために、図１０ａにおいては手段４０２とは別個に表されている。しかしながら、手段４０４に入力される２０４８個のサンプル値は、第１のウィンドウに直ちに関連する時間離散オーディオサンプル値ではなく、手段４０２によりウィンドウ化されるサンプル値の後半を含み、さらに新たなサンプル値を１０２４個だけ含む。図１０ａにおいて、このオーバーラッピングが手段４０６により図式的に示されており、この手段は、５０％程度のオーバーラッピングを引き起こす。次に、手段４０２により出力された２Ｎ個のウィンドウ化サンプル値および手段４０４により出力された２Ｎ個のウィンドウ化サンプル値の双方は、手段４０８および／または４１０によりＭＤＣＴアルゴリズムを受ける。手段４０８は、従来技術のＭＤＣＴアルゴリズムに従って、第１のウィンドウのためのＮ個のスペクトル値を出力するのに対し、手段４１０もＮ個のスペクトル値（ただし第２のウィンドウのための）を出力し、第１ウィンドウと第２ウィンドウとの間には５０％のオーバーラップが存在する。

デコーダにおいて、図１０ｂに示されるように、第１のウィンドウのＮ個のスペクトル値が手段４１２に供給され、この手段は、逆変形離散コサイン変換を実行する。同じことが、第２のウィンドウのＮ個のスペクトル値に当てはまる。これらのスペクトル値は手段４１４に供給され、この手段も逆変形離散コサイン変換を実行する。手段４１２および手段４１４の双方は、２Ｎ個のサンプル値を第１のウィンドウにおよび／または２Ｎ個のサンプル値を第２ウィンドウにそれぞれ供給する。

図１０ｂにおいて、ＴＤＡＣ（ＴＤＡＣ＝時間帯域標準化エイリアスキャンセル（ｔｉｍｅｄｏｍａｉｎａｌｉａｓｉｎｇｃａｎｃｅｌｌａｔｉｏｎ））として示される手段４１６は、２つのウィンドウがオーバーラップしている事実を考慮に入れる。特に、第１のウィンドウの後半の１つのサンプル値ｙ₁、すなわちＮ＋ｋの指数を有するサンプル値は、第２のウィンドウの前半の１つのサンプル値ｙ₂、すなわちｋの指数を有するサンプル値ｙ₂と合計され、その結果、出力側、すなわちデコーダにおいて、Ｎ個のデコードされた時間サンプル値が生じる。

加算関数と呼ばれることもある手段４１６の関数により、図１０ａにより概略的に示されるエンコーダ内で実行されるウィンドウ化が自動的に考慮され、その結果、図１０ｂに示されるデコーダにおいて、どのような明確な「逆ウィンドウ化」も行われる必要がないことが理解されるべきである。

手段４０２または４０４により実施される関数をｗ（ｋ）（指数ｋは時間を示す）とすると、２乗ウィンドウ重みｗ（Ｎ＋ｋ）に加算された２乗ウィンドウ重みｗ（ｋ）（ｋは０からＮ−１）が１の２乗となるという条件が満たされなければならない。サイン関数の波形の前半をウィンドウ重みがたどるサインウィンドウが用いられれば、この条件は常に満たされる。なぜならば、サインの２乗とコサインの２乗とは、各角度について常に１の値という結果になるからである。

後のＭＤＣＴ関数を有する図１０ａに示されるウィンドウ方法の１つの欠点は、ウィンドウ化が、サインウィンドウを考えた場合に、浮動小数点数を有する時間離散サンプル値の乗算により達成されるという事実である。なぜならば、０度から１８０度までの角度のサインは、９０度の角度を除けば整数にならないからである。整数の時間離散サンプル値がウィンドウ化されたとしても、浮動小数点数はウィンドウ化後に生じる。

従って、たとえ心理聴覚エンコーダが１つも用いられないとしても、すなわちいかなる無損失エンコーディングも達成されないとしても、合理的に明確なエントロピーエンコード処理を実行できるように、手段４０８および／または４１０の出力において量子化が必要である。

従って、無損失オーディオエンコーディングのために図１０ａにより操作されたような周知の変換が使用されるのであれば、浮動小数点数の丸めに基づいて生じるエラーを無視できるように非常に精密な量子化が利用されなければならないか、それとも、そのエラー信号が、例えば時間領域中でさらにエンコードされなければならない。

第１の種類の概念、すなわち量子化が非常に精密に調整されているので、不動小数点数の丸めに基づいて、結果として生じるエラーが無視できるという概念が、例えば独国特許出願公開第ＤＥ１９７４２２０１Ｃ１号に開示されている。ここでは、１つのオーディオ信号がそのスペクトル表現に変えられ、量子化されたスペクトル値を得るために量子化される。量子化されたスペクトル値は再び逆量子化され、時間領域に転送され、オリジナルのオーディオ信号と比較される。オリジナルのオーディオ信号と量子化／逆量子化されたオーディオ信号との間のエラーを意味するエラーがエラー閾値以上に位置すれば、量子化器はフィードバック的なやり方でより精密に調整され、比較が改めて実行される。エラーがエラー閾値以下になれば、反復は終了する。ことによると依然として存在している残留信号は、時間領域エンコーダでエンコードされ、ビットストリーム中に書き込まれる。このビットストリームは、時間領域エンコードされた残留信号に加えて、反復中断の時点で利用可能な量子化器設定に従って量子化されたエンコードされたスペクトル値も含んでいる。用いられる量子化器は心理音響モデルにより制御される必要がなく、その結果、エンコードされたスペクトル値は典型的には、心理音響モデルに基づいたときよりも、より正確に量子化されることが理解されるべきである。

技術刊行物「損失性および無損失のスケーラブルオーディオ符号化のデザイン（ＡＤｅｓｉｇｎｏｆＬｏｓｓｙａｎｄｌｏｓｓｌｅｓｓＳｃａｌａｂｌｅＡｕｄｉｏＣｏｄｉｎｇ）」，Ｔ．Ｍｏｒｉｙａｅｔａｌ，Ｐｒｏｃ．ＩＣＡＳＳＰ，２０００には、スケーラブルエンコーダが記載されており、これは、第１の損失性データ圧縮モジュールとして、例えば、ＭＰＥＧエンコーダを含んでおり、これは入力信号としてブロック方式デジタル波形を有し、圧縮されたビットコードを生成する。同じく存在するローカルデコーダにおいては、エンコーディングが省かれ、エンコード／デコードされた信号が生成される。この信号は、エンコード／デコードされた信号をオリジナルの入力信号から減算することによりオリジナルの入力信号と比較される。次にエラー信号は、第２のモジュールに供給され、そのモジュールでは無損失ビット変換が用いられる。この変換には２つのステップがある。第１のステップは、２の補数形式の値符号形式への変換である。第２のステップは、処理ブロックにおける垂直マグニチュードシーケンスの水平ビットシーケンスへの変換である。無損失データ変換は、できるだけ良好な時間エラー信号の圧縮を達成するように、信号の数を最大化したり、連続するゼロの数を最大化したりするように実行され、この圧縮は、デジタル数の結果として利用可能である。この原理は、ビットスライス算術符号化方式（ＢｉｔＳｌｉｃｅＡｒｉｔｈｍｅｔｉｃＣｏｄｉｎｇｓｃｈｅｍｅ）（ＢＳＡＣ方式）に基づくものであり、技術刊行物「Ｍｕｌｔｉ−ＬａｙｅｒＢｉｔＳｌｉｃｅｄＢｉｔＲａｔｅＳｃａｌａｂｌｅＡｕｄｉｏＣｏｄｅｒ」, １０３．ＡＥＳｃｏｎｖｅｎｔｉｏｎ，ｐｒｅ−ｐｒｉｎｔＮｏ．４５２０，１９９７に示されている。

上記のＢＳＡＣ刊行物は、図８に示されるようなエンコーダをほぼ開示している。時間信号がブロック８０に供給され、このブロックは、「ウィンドウ」および時間周波数変換で示される。典型的には、ブロック８０においてＭＤＣＴ（ＭＤＣＴ＝変形離散コサイン変換）が利用される。その結果、ブロック８０により生成されたＭＤＣＴスペクトル値は、２進形式の量子化されたスペクトル値を得るために、ブロック８２において量子化される。ブロック８２による量子化は、心理音響モデルを用いてマスキング閾値を計算する手段８４により制御され、ブロック８２における量子化は、量子化ノイズが心理音響マスキング閾値以下に留まるように実行される。ブロック８５では、量子化されたスペクトル値は次に、量子化されたスペクトル値の等オーダのビットが１つのカラム中に整列されるように、ビット方式で配列される。ブロック８６では、次にスケーリングレイヤが形成され、１つのスケーリングレイヤは１つのカラムに対応する。従って、１つのスケーリングレイヤは、量子化された全スペクトル値の等オーダのビットを含んでいる。続いて、各スケーリングレイヤは、算術エンコーディング（ブロック８７）に連続的にかけられるのに対して、ブロック８７により出力されたスケーリングレイヤは、それらの冗長的にエンコードされた形で、ビットストリーム形成手段８８に供給され、この手段は、スケーリング／エンコードされた信号をその出力側に提供し、この信号は、個々のスケーリングレイヤのほかに、知られているようにサイド情報も含んでいる。

一般的に言えば、従来技術のスケーラブルＢＳＡＣエンコーダは、心理音響的局面に従って量子化された全スペクトル値の最高オーダビットを取り、それらのビットを算術エンコーディングにかけ、次に第１のスケーリングレイヤとしてそれらをビットストリーム中に書き込む。典型的には、利用可能になる非常に大きいスペクトル値は非常に少ないので、「１」に等しい最高オーダビットを有する量子化されたスペクトル値は非常に少ない。

第２のスケーリングレイヤを生成するために、全スペクトル値の２番目に高いオーダのビットが取られ、算術エンコーディングにかけられ、次に第２のスケーリングレイヤとしてビットストリーム中に書き込まれる。この手順は、すべての量子化されたスペクトル値の最低オーダのビットが算術的にエンコードされ、最後のスケーリングレイヤとしてビットストリーム中に書き込まれるまでの回数繰り返される。

図９は、図８に示されるスケーラブルエンコーダにより生成されたスケーリング／デコードされた信号をデコードするためのスケーラブルデコーダを示す。最初に、スケーラブルデコーダは、ビットストリームデフォーマッティング手段９０、スケーリングレイヤ抽出手段／デコーディング手段９１、逆量子化手段９２ならびに周波数領域／時間領域変換手段９３を、デコードされた信号を得るために含んでおり、信号の品質は、手段９１により選択されたスケーリングレイヤの数に比例して依存する。

詳細には、ビットストリーム変形手段は、ビットストリームをデパックし、サイド情報に加えて様々なスケーリングレイヤを提供する。最初に、手段９１は第１のスケーリングレイヤを算術的にデコードし格納する。次に、第２のスケーリングレイヤが算術的にデコードされて格納される。この手順は、スケーリング／エンコードされた信号に含まれているすべてのスケーリングレイヤが算術的にデコードされて格納されるまでの回数繰り返されるか、あるいは、この手順は、制御入力９４を介して要求される数のスケーリングレイヤがデコードされて格納されるまでの回数繰り返される。従って、各個別の量子化されたスペクトルラインについての２進パターンは連続的に生成され、２進形式で表されるこれらの量子化されたスペクトル値は、デコードされた信号を得るために手段９３により時間領域に変換される必要がある逆量子化されたスペクトル値を得るためにスケールファクタ等を考慮して逆量子化９２にかけられる。

デコード時、各スペクトル値について１つのビットがこのように各スケーリングレイヤと共に得られる。５つのスケーリングレイヤをデコードした後に利用可能になる各スペクトルラインについてのこれらのビットは、一番上の５ビットを含んでいる。その最上位ビットのみが第５の位置に来る非常に小さいスペクトル値の場合、このスペクトルラインのＭＳＢ（ＭＳＢ＝最上位ビット）は５つのスケーリングレイヤのデコーディング後に利用可能にならず、このスペクトルラインのより正確な表現のためには、さらなるスケーリングレイヤが処理される必要がある。

スペクトル値の２進表現−ＭＤＣＴスペクトル値は、例えば振幅値である−は、各付加ビットが６ｄｂのスペクトルラインについての精度利得を意味するという結果になる。

かくして、各付加スケーリングレイヤは、全スペクトル値の精度の６ｄｂ増加という結果になる。

少なくともノイズの多い信号において、聴力のマスキング閾値が信号より約６ｄｂ低いだけであることを考慮すると、ビット方式スケーリングは精度の点で問題となることが示され、このビット方式スケーリングは、従来技術のエンコーダ／デコーダ概念により提供され、特に、まさに聞かれようとしている信号部分の効率的エンコーディングのために、すなわち、例えば、心理音響的局面に従って量子化されたスペクトル値の低位ビットのために用いられる。

例えば、伝送チャンネル隘路状況に基づいて、図８のブロック８８により出力されたスケーリング／エンコードされた信号の最下位スケーリングレイヤが伝送されなければ、これは６ｄｂの精度損失という結果になり、この精度損失は、好ましくない配列において、デコードされた信号における明らかに可聴な干渉という結果になる。

より精細なスケーラビリティにより達成し得るスケーラブルエンコーディング／デコーディングのための概念を提供することが本発明の目的である。

この目的は、特許請求項１に従うスケーラブルエンコーディングのための装置、特許請求項１７に従うスケーラブルデコーディングのための方法、特許請求項１９に従うスケーラブルエンコーディングのための方法、特許請求項２０に従うスケーラブルデコーディングのための方法または特許請求項２１に従うコンピュータプログラムにより達成される。

本発明は、１つのバンド中のスペクトルラインの精度を向上させることにより、あたかもバンド全体における精度の通常の部分的向上（ただし、この精度向上はスケーリングレイヤのビット方式分割においてはできない）が実行されるかのように、周波数領域における心理可聴マスキング効果が生じるという考えに基づいている。本発明に従い、精密スケーリングの改善は、ビットレイヤをサブスケーリングレイヤに再分割することによって達成される。量子化された全スペクトル値の特定オーダのビットがまとめられてスケーリングレイヤを形成する従来技術とは異なり、このオーダのビットは本発明においては、第１のサブスケーリングレイヤにおいて、量子化されたスペクトル値の一部分のみにより、考慮されるバンド中のサブスケーリングレイヤとして用いられる。次のサブスケーリングレイヤは次に、第２のサブスケーリングレイヤを得るために、同じオーダのビットを、ただし今度は、第１のサブスケーリングレイヤにおけるものとは別の量子化されたスペクトル値から得る。

例えば、ｍ＝４量子化されたスペクトル値を有するバンドが考慮されるのであれば、現在の技術水準においては、特定のスケーリングレイヤが、考慮されるバンド中の４つのスペクトルライン全部の特定オーダのビットを含むであろう。次のスケーリングレイヤは再び、スケーリングレイヤからスケーリングレイヤへかけて、スペクトルラインあたり６ｄｂの精度利得が結果として生じるように、すべての量子化されたスペクトルラインの特定オーダ−１の全ビットを含むであろう。

本発明に従って、決定されたスケーリングレイヤは、今度は最大ｍ個のサブスケーリングレイヤに再分割される。第１のサブスケーリングレイヤはその場合、第１のスペクトルラインの特定オーダのビットのみを含み、第２、第３および第４のスペクトルラインのビットは全く含まないであろう。第２のサブスケーリングレイヤはその場合、第２の量子化されたスペクトルラインの特定オーダのビットを含むが、第１、第３および第４のスペクトルラインについてのビットは全く含まないであろう。同様に、第３のサブスケーリングレイヤは、第３のスペクトルラインの特定オーダのビットを含み、第４のサブスケーリングレイヤは、考慮されるバンドの第４のスペクトルラインの特定オーダのビットを含む。述べたように、マスキング効果は、バンド方式および非ライン的に生じるので、各付加サブスケーリングレイヤは、６／ｍｄｂの精度利得をもたらす。これは、考慮される例ｍ＝４において、各サブスケーリングレイヤが１．５ｄｂの精度利得という結果になることを意味している。

１つのサブスケーリングレイヤ中で、１を超える量子化されたスペクトルラインの特定オーダのビットが同様に存在し得るということが理解されるべきである。考慮された例において、サブスケーリングレイヤが、２つの量子化されたスペクトルラインの特定オーダのビットを含んでいれば、サブスケーリングレイヤあたりの精度利得はもはや１．５ｄｂではなく、３．５ｄｂとなるであろう。一般的に言って、それらのビットが第２のサブスケーリングレイヤ中に存在する量子化されたスペクトル値の第２の数は、その数が１以上かつそのバンド中の量子化されたスペクトル値の総数未満となるように選択され、スペクトル値の第２の数はさらに、量子化された２進スペクトル値の第１の数の中には存在しておらず、そのビットは第１のサブスケーリングレイヤ中に存在している量子化されたスペクトル値の特定オーダのビットを少なくとも含む。

本発明に従って、次のサブスケーリングレイヤのためにどのスペクトル値が選択されるかに関して、様々な可能性の選択が存在する。聴覚マスキング閾値が、例えば、ライン中で提示されれば（例えば、６-ｄｂ-ステップよりも精密）、エンコーダにおいて、これらのｍ本のスペクトルラインのどれがこれまで最も低精度であったあったかを正確に確かめることが可能である。

対照的に、聴覚マスキング閾値がバンド方式で表されれば（例えば、６−ｄｂ−ステップ）、１つの新たなレイヤのエンコーディングの最初に、すなわち、新たなビットレイヤについてのサブスケーリングレイヤを生成する場合に、各スペクトルラインは、聴覚マスキング閾値に関して同じ精度で伝送される。サブレイヤ中のラインオーダを選択する場合、これまで伝送されてきたスペクトルラインの値を考慮できるようになる。例えば、小さいスペクトル値を有するスペクトルラインが後続のサブレイヤ中で最初にエンコードされれば、結果として生じる量子化エラーのより精密なスペクトル形成がもたらされる。

本発明の好ましい実施の形態において、サブスケーリングレイヤは心理音響的に量子化されたスペクトル値を用いて形成され、ビットの特定オーダは、ｍ本のスペクトルラインを考慮されるバンド以上において一定であるサブスケーリングレイヤ中で処理される。心理音響的に量子化された２進スペクトル値の場合、心理音響的に透明なエンコーディングのためには、量子化されたスペクトル値のすべてのビットが伝送されなければならない。この場合、特に２進量子化されたスペクトル値の低オーダビットに関して、考慮されるサブスケーリングレイヤの数に応じて品質が緩やかに低下するデコーディングが可能になるように、より精細なスケーラビリティが有利である。

本発明の別の実施の形態においては、量子化されたスペクトル値は、心理音響的局面を考慮して量子化されるのではなく、量子化の前にコンピュータの計算精度の枠内で利用可能である。また、量子化されたスペクトル値は、“ＡｕｄｉｏＣｏｄｉｎｇＢａｓｅｄｏｎＩｎｔｅｇｅｒＴｒａｎｓｆｏｒｍｓ（整数変換に基づくオーディオ符号化）”１１１ＡＥＳＣｏｎｖｅｎｔｉｏｎ，ＮｅｗＹｏｒｋ，２００１，Ｇｅｉｇｅｒ，Ｈｅｒｒｅ，Ｋｏｌｌｅｒ，Ｂｒａｎｄｅｎｂｕｒｇに記載される整数ＭＤＣＴを用いて生成されてきた。

ＩｎｔＭＤＣＴは、例えば、オーディオ信号の良好なスペクトル表現、臨界サンプリングおよびブロックオーバーラッピングのような、ＭＤＣＴの魅力的な特性を備えているので、特に好適である。述べたように、ＩｎｔＭＤＣＴは無損失変換であり、すなわち、順方向変換の間の整数値への丸めは、逆方向変換における逆丸め演算により考慮でき、その結果、どのような丸めエラーも生じない。

従って、ＩｎｔＭＤＣＴスペクトル値は、無損失な形で存在し、すなわち、それらのスペクトル値は、心理音響的局面を考慮して量子化されなかった。

心理音響マスキング閾値を基準にしたスケーリング演算については、各スペクトル値および／または各バンドについての心理音響マスキング閾値の最上位ビットを少なくとも決定すること、および−心理音響的に量子化されたスペクトル値の場合と同様に−絶対的なやり方で−ただし心理音響マスキング閾値の対応する最上位ビットを基準として、スケーリングレイヤ中におよび／またはサブスケーリングレイヤ中に入ることになる特定オーダのビットをもはや設定しないことが好ましい。従って、スケーリングレイヤ中のビットについての特定オーダは、例えば、スペクトル値のビットが、例えば、対応するスペクトル値についておよび／または−心理音響マスキング閾値のバンド方式の供給において−スペクトル値が位置するバンドについての心理音響マスキングレイヤのＭＳＢより１大きいオーダを含むスケーリングレイヤ中でエンコードされるという点で、心理音響マスキング閾値を基準として定義される。心理音響的法則を考慮して量子化していないスペクトル値の場合、スケーリングレイヤを定義するための特定オーダは、従って、それぞれのスペクトル値について適切な心理音響マスキング閾値のＭＳＢに関連した相対的オーダである。

本発明に従って、心理音響透明エンコーディング／デコーディングについては、心理音響マスキング閾値のＭＳＢと同じオーダまたは心理音響マスキング閾値のＭＳＢのオーダより高いオーダを有する個々のスケーリングレイヤまたはサブスケーリングレイヤ中の量子化されたスペクトル値のすべてのビットを伝送することが好ましい。

特に、量子化されたスペクトル値のビットを含むことになっており、心理音響マスキングレイヤの最上位ビットと同じオーダを含むスケーリングレイヤを定義する場合、言わば干渉の可聴性限界においてより良い精度を達成するように、サブスケーリングレイヤへの分類を実行することが好ましい。例えば、周波数領域全体または周波数領域の一部が、例えば、それぞれ４つのスペクトル値のバンドに再分割されれば、そして、サブスケーリングレイヤ中で伝送される結果として生じるすべてのバンドの１つのスペクトル値が常にあれば、各サブスケーリングレイヤによって１．５ｄｂの精度増加が達成され得るであろう。

精密度スケーリングは、バンドのサイズを設定することによって自由に選択可能であることが理解されるべきである。例えば、８つのスペクトル値が１つのバンドにグループ化されれば、そして各サブスケーリングレイヤが、このバンドのスペクトル値のビットのみを含んでいれば、０．７５ｄｂの精密スケーリングが達成されるであろう。

１つのスケーリングレイヤをいくつかのサブスケーリングレイヤ、ただし互いに独立して抽出およびデコードし得るサブスケーリングレイヤに再分割するという本発明の概念の１つの利点は、この概念が、他のすべての既存のスケーラビリティオプションと共存できるという点にある。例として、低ビットレートでのオーディオ信号の音響的に適合させられたエンコーディングのために、残りのスペクトル値を十分な精度で表すことができるようにオーディオバンド幅の低減が大部分実行される、バンド幅スケーリングが言及されるべきである。このチャネル依存性バンド幅スケーリングは、例えば、サブスケーリングレイヤを用いるという本発明の文脈においても実施し得る。この目的のため、第１のレイヤにおいては、上限を有する周波数領域のみが考慮され、さらなるレイヤおよび／またはサブレイヤにおける精度の増大に伴い、これまでは考慮されていなかったより高い周波数領域がステップ方式に基づいてエンコードされる。

本発明のサブスケーリングレイヤの概念のさらなる利点は、この概念が、ＭＰＥＧ−４ＢＳＡＣにおいても用いられる文脈依存性算術エンコーディングと共存できるという点にある。ＭＰＥＧ−４ＢＳＡＣは、“ＣｏｄｉｎｇｏｆＡｕｄｉｏＶｉｓｕａｌＯｂｊｅｃｔｓ，Ａｕｄｉｏ（オーディオビジュアルオブジェクトの符号化、オーディオ）”, ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄ１４４９６−３，２ｅｄｉｔｉｏｎ，ＩＳＯ／ＩＥＣＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔＧｒｏｕｐ，ＩＳＯ／ＩＥＣＪＴＣＩ／ＳＣ２９／ＷＧ１１，２００１に記載されている。

デコーダ側で、量子化された値のどのような解釈も実行できるという点で、本発明の概念はさらに有利である。スペクトルのビットレイヤのすべてが伝送されなければ、各スペクトル値について、デコーダにおいて高オーダビットのみが利用可能になる。さらに、本発明の好ましい実施の形態において伝送される聴覚マスキング閾値を考慮し、および伝送されたビットレイヤの数を考慮して、このスペクトル値のいくつのビットが伝送されなかったかを決定することが可能である。このデータから、デコーダは、量子化されたスペクトル値を再構成しなければならない。このための妥当な可能性は、伝送されなかったビットをゼロで置き換えることであろう。従って、スケーリングレイヤを除去することにより、量子化プロセスは常に、より小さい絶対値への丸めという結果になる。しかしながら、このタイプの量子化は、最小可能平均量子化エラーという結果になる。平均量子化エラーは、この種類の量子化において、代わりのデコーダ再構成ストラテジーを用いることによって低減し得る。

本発明の好ましい実施の形態を添付図面に関連して以下で説明する。

図１ａは、オーディオおよび／またはビデオ情報を含む信号のスペクトルをスケーラブルエンコードするための装置の概略ブロック図を示し、スペクトルは、バンドにグループ化されている２進スペクトル値を含む。オーディオおよび／またはビデオ信号の２進スペクトル値のバンドは、図１ａのスケーラブルエンコーディング装置の入力１００に供給される。バンド中の２進スペクトル値のグループ化は、どのようなやり方でも実行し得る。述べたように、本発明は、周波数領域におけるマスキング効果はスペクトル値方式ではなく、バンド方式に基づいて生じるという事実に基づいている。この理由から、バンド中の２進スペクトル値のグループ化を、心理音響的または心理光学的周波数グループが、例えば、２つ以上のバンドにグループ化されるように、例えば、周波数グループ（臨界バンド）を用いてまたは周波数グループよりも小さい、すなわち、周波数グループよりも小さいスペクトル値を含むバンドを用いて実行するのが好ましい。

オーディオおよび／またはビデオ信号の２進スペクトル値のバンドは、サブスケーリングレイヤを生成するための入力１０２に供給され、サブスケーリングレイヤを生成するためのこの手段１０２は、第１のサブスケーリングレイヤ、第２のサブスケーリングレイヤ、そして必要であれば、さらなるサブスケーリングレイヤを生成する。これらのサブスケーリングレイヤは、手段１０２から出力ライン１０４ａ、１０４ｂ．．．に出力され、エンコードされた信号をスケーリングするための手段１０６に伝送され、エンコードされた信号を形成するための手段１０６は、第１および第２のサブスケーリングレイヤが互いに別個にデコードされ得るように、図１ａに示される装置における出力１０８においてエンコードされた信号中に第１のサブスケーリングレイヤ（ＴＳＳ）および第２のサブスケーリングレイヤを含めるように実施される。

サブスケーリングレイヤを生成するための手段１０２は、１つのバンド中の２進スペクトル値の第１の数の特定オーダのビットを用いて動作し、この第１の数は、１以上かつそのバンド中の２進スペクトル値の総数未満である。第２のサブスケーリングレイヤを生成するため、手段１０２は、２進スペクトル値の第２の数の特定オーダのビットを用い、２進スペクトル値の第２の数は、１以上かつバンド中の２進スペクトル値の総数未満となるように選択され、２進スペクトル値の第２の数は、これらの値が、２進スペクトル値の第１の数に含まれていない少なくとも１つの２進スペクトル値を含むように決定される。これは、各サブスケーリングレイヤは、もしそれがデコードされていれば、デコーダにおいて考慮されるバンドの少なくとも１つのスペクトル値が、このサブスケーリングレイヤが考慮されなかった場合よりも、高い精度で存在するという結果になることを意味している。

図１ｂは、スケーリングされエンコードされた信号を概略的ビットストリームとして示す。スケーリングされエンコードされた信号を表しているこのビットストリームは、最初にサイド情報１１０を含んでおり、このサイド情報は、ＢＳＡＣ基準により規定されるように実施し得る。次にこのビットストリームは、第１のスケーリングレイヤ１１１、第２のスケーリングレイヤ１１２および第３のスケーリングレイヤ１１４、第４のスケーリングレイヤ１１４、第５のスケーリングレイヤ１１５．．．を含んでいる。単に一例として、図１ｂに示されるスケーリング／エンコードされた信号において、第３のスケーリングレイヤ１１３は、１１３ａ〜１１３ｄで表される４つのサブスケーリングレイヤ（ＳＳＬ）に再分割されている。さらに、単に一例として、第５のスケーリングレイヤも、サブスケーリングレイヤ、すなわち１１５ａ、１１５ｂ、１１５ｃ．．．に再分割されている。

第１のスケーリングレイヤ１１１は、例えば、絶対的にまたは、上記のように、オーディオおよび／またはビデオ信号のスペクトルのスペクトル値の心理音響マスキング閾値に関して、最高オーダのビットを含んでいる。完全なスケーリングレイヤとして、第２のスケーリングレイヤ１１２も、１だけ低いオーダを有するスペクトル値のビットを含んでいる。

全部で、第３のスケーリングレイヤは、２だけ低いスペクトル値のオーダのビットを含んでいるが、ただし、完全なスケーリングレイヤとしてではなく、これは完全にデコードできるだけであるが、−より精細な精密スケーリングのためには−互いに分離した４つの決定可能なサブスケーリングレイヤ１１３ａ、１１３ｖ、１１３ｃ、１１３ｄに再分割される。図１ｂに表されている例において、全スペクトル、すなわちスペクトル値の総数は、それぞれ４つのスペクトル値のバンドに再分割される。第１のサブスケーリングレイヤ１１３ａは次に、バンドの１つの中の１つのスペクトル値のオーダのビットをそれぞれ含み、このオーダは３だけ低い。これに類似して、第２のサブスケーリングレイヤは、同じオーダの（ただし、個別のバンド中の他のスペクトル値の同じオーダの）ビットを含んでいる。第３のサブスケーリングレイヤ１１３ｃは、同じオーダの（ただし、再びバンド中の他のスペクトル値の同じオーダの）ビットを含んでいる。同じことが、第４のサブスケーリングレイヤについて当てはまる。４つのスペクトル値をそれぞれ含んでいるバンドが選択されれば、各サブスケーリングレイヤは、各バンドについてのスペクトル値の１つのビットを有する。これは、図１ｂに表される例における各サブスケーリングレイヤが、例えば第１のスケーリングレイヤ１１１または第２のスケーリングレイヤ１１２のような完全なスケーリングレイヤのように、ビットの数の４分の１の情報を含むことを意味している。

以下では、聴覚マスキング閾値と並行するビットレイヤにおける大きさ（マグニチュード）スペクトルの再分割を図２に示す。図２においてそれらのビットパターンにより表されているスペクトル値は、例えば、以下で詳細に説明されるＩｎｔＭＤＣＴにより得られるようなスペクトル値である。図２においてそれらのビットパターンにより表されている２進スペクトル値も、主に任意サイズの２進整数として表される、例えばＦＦＴのような任意の時間領域／周波数領域変換アルゴリズムの結果であり得る。従って、図２において表されている２進スペクトル値は、まだ心理音響的局面を用いて量子化されていない。

さらに、図２において、聴覚の心理音響マスキング閾値は、０ｄｂにおいて示された連続線としてプロットされている。

このスペクトル中の聴覚マスキング閾値の経路から、−聴覚マスキング閾値と並行して走る−ビットレイヤが結果として生じ、１つのビットレイヤへの１つのビットの帰属は、このビットの心理音響的／または心理光学的関連性を反映している。例えば、図２から、１において示されたスペクトル値が、聴覚マスキング閾値上方の２つのビットレイヤを占めるビットを含むことが分かる。対照的に、いっそう大きいスペクトル値５は、このスペクトル値が、聴覚マスキング閾値上方の３つのビットレイヤを占めているより高いオーダビットを含むという点で特徴付けられる。スペクトル値２、３、および４は、対照的に、聴覚マスキング閾値下方のビットレイヤ中に位置するビットを含んでいるだけである。

心理音響的透明性、すなわち量子化に基づいておよび／または低オーダビット「除外（ｌｅａｖｉｎｇｏｕｔ）」に基づいた干渉の可聴性に関して、聴覚マスキング閾値は、０−ｄｂ−ラインと呼ばれる。心理音響的に最上位のビットレイヤ、従って、図２に示される例における第１のスケーリングレイヤは、１２ｄｂ〜１８ｄｂのビットレイヤである。ここでは、番号５を有するスペクトル値だけが寄与している。従って、図１ｂの第１のスケーリングレイヤ１０７は、図２に示される例におけるスペクトル値５についての情報のみを含んでいるであろう。

６ｄｂ〜１２ｄｂの第２のビットレイヤ、すなわち図２の第２のスケーリングレイヤ１１２は、第１のスペクトル値および第５のスペクトル値のビットについての情報を含んでいるのみで、他のスペクトル値のＭＳＢがより下位のビットレイヤ中に位置しているので、他のスペクトル値についての情報は全く含んでいない。

図２に示される例において、第３のビットレイヤ１１３は、図２において０−ｄｂ−ラインと＋６−ｄｂ−ラインとの間のビットを含んでおり、今度は、第６、第５、および第１のスペクトルラインについての情報のみを含んでおり、他のスペクトル値についての情報はやはり全く含んでいない。図２の例における第３のスケーリングレイヤが、完全なスケーリングレイヤとして処理されたら、第２スケーリングから第３のスケーリングレイヤへの精密漸変は、−第３のスケーリングレイヤなしでの−第１および第２のスケーリングレイヤのみのデコーディングが強い可聴干渉をまねくであろうという点で、非常に強いであろう。対照的に、第３のスケーリングレイヤの考慮は、どのような可聴干渉もほとんど生じないであろう。本発明に従って、この範囲内の漸変は、第３のスケーリングレイヤのサブスケーリングレイヤが形成されるという点で達成され、そこで、図２に示される状況では、例えば、ｍ＝５のバンド分割にもかかわらず、２つのサブスケーリングレイヤのみで十分であるがこれに対して、第１のサブスケーリングレイヤは、スペクトル値Ｎｏ．１の第２のオーダビットを含むのに対し、第２のサブスケーリングレイヤは、スペクトル値Ｎｏ．５の第３のオーダビットを含み、スペクトル値Ｎｏ．１およびスペクトル値Ｎｏ．５についてのサブスケーリングレイヤ中のこれらのビットは、マスキング閾値の最も重要度の低いビットに関して同じオーダを有している。

これらの事実をはっきりさせるために、以下では図３を参照する。図３は、図２における状況の詳細な表現を示しており、聴覚マスキング閾値は、図２において例示されるように、もはやその実際の値によってプロットされていないが、図３においては、その最上位ビットに関して表されている。

本発明に従って、心理音響的透明性については、どのような好ましくない事例も回避するためには、量子化されたスペクトル値の非常に多くのビットが、最後に伝送されたビットのオーダがこのスペクトル値に関連付けられたマスキング閾値の最上位ビットのオーダと対応するように、伝送されなければならないことが見出されている。言い換えれば、これは、あるスペクトル値に関連付けられたマスキング閾値のＭＳＢよりも高いオーダを有するこのスペクトル値の全てのビットが、−もし同じものが存在すれば−伝送されなければならないこと、およびさらに、マスキング閾値のＭＳＢと同じオーダを有するスペクトル値のビットも伝送されるべきであることを意味している。

本発明の精密スケーリングは、心理音響マスキング閾値に関して、すなわちスペクトル値に関連付けられたマスキング閾値のＭＳＢと同じオーダを有するスペクトル値のビットについて特に興味深い。図３に示される図において、これらのビットは太線枠のボックスとしてプロットされている。

一般的に言って、ビットオーダは、図３において、ＭＳＢからＭＳＢ−１、ＭＳＢ−２、ＭＳＢ−３、ＬＳＢ＋２、ＬＳＢ＋１を越えてＬＳＢまでを意味する垂直方向にプロットされている。しかしながら、図３における表現「ＭＳＢ」は、特定のスペクトル値または心理音響マスキング閾値のＭＳＢを示すのではなく、絶対ＭＳＢ、すなわち、２進法における２の最大表現可能累乗である。

対照的に、図３に表されている太線枠のボックスにおいて、聴覚マスキング閾値のＭＳＢは、１から６までのスペクトル値について表される。特に、各ボックスは、点線の対角線により再分割されており、スペクトル値のビットは対角線の上方にあるのに対して、対角線の下方には、このスペクトル値についてのマスキング閾値のビットがある。「１」で示されるビットは、１の値を有している。「ゼロ」で示されるビットは、「０」の値を有している。最後に、「ｘ」で示されるビットは、値「０」または「１」を有している。従って、図３に示される例における第１のスケーリングレイヤおよび／または第１のビットレイヤは、スペクトル値５のビットＭＳＢ、スペクトル値４のビット「ＭＳＢ−１」、スペクトル値３のビット「ＭＳＢ−２」、スペクトル値２のビット「ＭＳＢ−１」およびスペクトル値１のビットＭＳＢを含む。従って、第１のスケーリングレイヤ中のビットの特定オーダは、マスキング閾値のＭＳＢが位置するビットのオーダよりも３だけ大きい。

第２のスケーリングレイヤは次に、５、４、３、２、および１のスペクトル値について、ビット（ＭＳＢ−１）、（ＭＳＢ−２）（ＭＳＢ−３）、（ＭＳＢ−２）および（ＭＳＢ−１）を含むであろう。第３のスケーリングレイヤは次に、再びスペクトル値５、４、３、２、および１について、ビット（ＭＳＢ−２）、（ＭＳＢ−３）、（ＬＳＢ＋２）、（ＭＳＢ−３）、および（ＭＳＢ−２）を含むであろう。サブスケーリングレイヤに分割されるのが好ましい第４のスケーリングレイヤは次に、図３の太線枠ビット、すなわち、再びスペクトル値５、４、３、２、および１について、（ＭＳＢ−３）、（ＬＳＢ＋２）、（ＬＳＢ＋１）、（ＬＳＢ＋２）、および（ＭＳＢ−３）を含むであろう。第１、第２、第３、および第４のスケーリングレイヤの伝送は、心理音響的透明性という結果になるのに対して、もし第４のスケーリングレイヤが除外されれば、６ｄｂの精度損失がもたらされるであろう。

本発明に従って、第４のスケーリングレイヤは、例えば、５つのサブスケーリングレイヤに再分割され、各サブスケーリングレイヤにおいて、５つのスペクトル値を含むバンド中に、１つのスペクトル値についてのスペクトル値ビットが提供される。

従って、各サブスケーリングレイヤは、６ｄｂ／（ｍ＝５）＝１．５ｄｂの精度利得をもたらす。

図３に示される実施の形態におけるデコーダにおけるビットレイヤの経路をトレースできるようにするために、聴覚マスキング閾値および／または心理音響的に重要なビット、すなわち聴覚マスキング閾値のＭＳＢ、のみの経路が、図１ｂのサイド情報１１０中でデコーダへ伝送される。

この目的のために、２つの選択肢が好ましい。これらの選択肢は、ライン方式表現およびバンド方式表現を含んでいる。

聴覚マスキング閾値は、その連続的経路のせいで、係数がほとんどないＦＩＲフィルタ（有限インパルス応答フィルタ）の周波数応答によりまたは多項補間法によりライン方式で効率的に表現し得る。ここでは、各周波数応答について、聴覚マスキング閾値の個別の値が生成される。

バンド方式表現においては、聴覚マスキング閾値に基づく心理音響マスキング効果は、バンド方式に基づいて表現され得るという事実が言及され、バンド分割は、バークスケールに準拠することができ、好ましくは、バークスケールの改善を表す。このバンド方式表現は、例えば、ＭＰＥＧ−２ＡＡＣのような音響的に適合されたオーディオエンコーディングのための従来技術の方法においても用いられる。従って、聴覚マスキング閾値を表すためには、１つのバンドあたり１つの値を伝送すれば十分である。

すでに述べたように、図２および図３は、例えば、ＩｎｔＭＤＣＴスペクトルにおいて同一の心理音響的重要性のビットレイヤの定義を表している。述べたように、ビットは、最も高いレイヤから始めてレイヤごとにエンコードされ、そして伝送される。聴覚マスキング閾値に対応するビットレイヤ（図３の太線枠のビット）に達すると、伝送された信号は心理音響的に透明である。さらなるビットレイヤの伝送は、すなわち、図３に表される太線枠のボックスの下方のビットの伝送は、精度を増大し、従って、聴覚マスキング閾値への安全距離を増大させる。最後に、すべての利用可能なビットが伝送されれば、この方法は、無損失的に働く。述べたように、算術エンコーディングは、好ましくは、伝送されたビットの冗長性低減のために用いられる。

デコーダ中で互いに別個に処理できる、本発明において用いられるサブスケーリングレイヤの基本原理の精密スケーリングの改善は、（聴覚マスキング閾値のＭＳＢに関連して）聴覚マスキング閾値の上方、聴覚マスキング閾値の上および聴覚マスキング閾値の下方の領域において特に有利である。どのような精度スケーリングもなくても、ＩｎｔＭＤＣＴスペクトルのビットのレイヤ方式伝送において６ｄｂの精度増加が生じる。しかしながら、少なくともノイズの多い信号において、聴覚マスキング閾値が信号の約６ｄｂ下方に位置していることを考慮すれば、６−ｄｂ−ステップの精度のスケーリングは、可聴信号部分のみの効率的エンコーディングにとって粗すぎることが明らかである。

上記の１．５−ｄｂ−ステップでの再分割は、４つのスペクトル値を有するバンドが用いられれば、そして各サブスケーリングレイヤ中に１つの単独スペクトル値が配置されれば、または、例えば、８つのスペクトル値を有するバンドが用いられかつ２つのスペクトル値が各サブスケーリングレイヤ中で考慮されれば、精度の適合に関しては、対応性は、ＭＰＥＧ-２ＡＡＣにおいても存在している１．５−ｄｂ−ステップであるべきである。ここで、連続スペクトル値のバンド方式適応量子化は、２^0.25xnの形のスケーリングファクタにより行われる（ｎは、整数値とする）。ｎを１増加させると、量子化の精度は、ＭＰＥＧ-２ＡＡＣにおいて１．５ｄｂだけ変化するであろう。

本発明の概念は、サブスケーリングレイヤ中のビットレイヤを再分割することにより精密スケーリングのこの改善をもたらし、１つのレイヤのｍ個のサブレイヤは、ｍ個のサブレイヤ上のｍ本の隣接ラインを再分割することによって得られる。新たに伝送された各サブレイヤによって、精度は６／ｍｄｂだけ増加する。ｍ＝４については、１．５−ｄｂ−ステップでの漸変も可能である。ＭＰＥＧ-２ＡＡＣ法における上記の量子化と対照的に、各サブレイヤにおける精度は、本発明の概念におけるｍ本のスペクトルラインの１つについてのみ増加する。心理音響マスキング効果は、ライン方式ではなく、バンド方式に基づいて周波数領域において生じるので、バンドあたりの同じ精度利得は、バンド全体において規則的に精度を増加させる時のように、スペクトルライン精度の増加させることによって得られる。

図４および５から、次のサブレイヤ中のｍ本のスペクトルラインのどれが改善されるかを選択する最良の形態を詳細に参照する。

図４は、聴覚マスキング閾値がライン方式に基づいて表されるケースを示している。聴覚マスキング閾値は、連続した線としてプロットされている。聴覚マスキング閾値のＭＳＢは、「×印」の形でプロットされている。図４においては示されていない、上に位置するすべてのスケーリングレイヤのデコーディングは、スペクトル値１、２、３、および４が、「０」で表される精度で存在するように、すでに完了されている。従って、「０」で表される前に伝送されたビットは、デコーダにおけるスペクトルラインの精度を表している。エンコーダにおける前に処理されたスペクトル値の値を、このスペクトル値についての聴覚マスキング閾値の値と比較することにより、どのスペクトル値が最も不正確でないやり方で前に伝送されたかが直ちに明らかになる。図４に示される例においては、図４から容易に分かるように、この例はスペクトル値２を含んでいる。従って、第１のサブスケーリングレイヤは、スペクトル値Ｎｏ．２の次のビットを得る。

第２のサブスケーリングレイヤについての次のスペクトル値は、スペクトル値Ｎｏ．４である。次に第３のサブスケーリングレイヤについてのスペクトル値Ｎｏ．１が続き、最後に第４のサブスケーリングレイヤについてのスペクトル値Ｎｏ．３が続くはずである。

従って、符号化される次のビットは、前に処理されたスペクトル値の精度と聴覚マスキング閾値との間の最大差分を有する周波数ラインから決定される。

デコーダにおけるこのプロセスは、心理音響マスキング閾値の連続経路をこのデコーダが知っている限り、次にデコードされるサブスケーリングレイヤによりどのスペクトル値がさらに改善されるかを、どのような付加的サイド情報もなしで、このデコーダが見出し得るように、反転し得ることが理解されるべきである。

図５は、聴覚マスキング閾値のバンド方式表現のケースを示している。図５から、スペクトル値２、３、および４のビットを、次に処理されるサブスケーリングレイヤとみなし得ることが分かる。なぜならば、聴覚マスキング閾値と比較して、これらのビットは、最大の距離により同じものから離間されているからである。それとは対照的に、スペクトル値１の値は、聴覚マスキング閾値の近くにすでに配置されており、その結果、スペクトル値１は、必ずしも改良される必要はないが、スペクトル値２、３、および４は改善されなければならない。

原則として、スペクトル値２、３、４の各々は、次のサブスケーリングレイヤにおいて考慮できたであろう。しかしながら、すでにエンコーダにおいておよび／またはデコーダにおいて処理されたようなスペクトル値２、３、および４の絶対値が考慮されるという点で、ノイズシェイピング（ｎｏｉｓｅｓｈａｐｉｎｇ）が達成され得る。例えば、スペクトル値Ｎｏ．２が非常に大きいことを示す、スペクトル値Ｎｏ．２についての、例えば６つのより高いオーダのビットがすでに伝送されていることが判明すれば、これは、相対的に言って、このスペクトル値はすでに相当明確に表されていることを意味している。対照的に、例えば、１つの単独のより高いオーダのビットが伝送されている点でのみ、スペクトル値Ｎｏ．３がより小さいことが見出されれば、最初にスペクトル値Ｎｏ．３は、本発明に従って好ましいとされるように、サブスケーリングレイヤ中で、次にスペクトルＮｏ．２中で処理される。この認識は、聴覚の印象についての相対的精度は絶対精度よりも重要であると想定されるという事実に基づいている。

図６は、本発明のエンコーダの全体ブロック図を示す。時間信号は、例えば、周波数領域に変換されたＩｎｔＭＤＣＴ６０２によってエンコーダ中の入力６００に供給される。これと並行して、図８に示される心理音響モデル８４と同じ構造を主に含み得る心理音響モデル４が動作している。心理音響モデル８４により計算されるマスキング閾値は、スケーリングレイヤの定義６０４を除けば、図８におけるように、今は量子化のために用いられない。特に、本発明の好ましい実施の形態において、手段８４は、いわば図３において示される太線枠ボックスを決定するために、スペクトル値ごとかバンドごとにマスキング閾値のＭＳＢを提供する。次に手段６０４は、（図３の太線枠ボックスの）マスキング閾値のＭＳＢのオーダと関連するスケーリングレイヤを定義する。

スケーリングレイヤおよびサブスケーリングレイヤ双方が用いられる必要があれば、スケーリングレイヤを定義するための手段６０４は、サブスケーリングレイヤを生成するためおよび／またはスケーリングレイヤを生成するための手段１３２を制御する。図３に示される実施の形態において、手段１０２は、この手段が３つの完全なサブスケーリングレイヤを生成し、算術的にエンコードするための手段６０６にそれらを供給し、次に、そのオーダがマスキング閾値のＭＳＢのオーダに等しいスペクトル値のビットに関する第４のレイヤのために、それらのビットを特定数のサブスケーリングレイヤに再分割するように動作する。サブスケーリングレイヤの算術エンコーディングの後、スケーリングレイヤおよびサブスケーリングレイヤは、図１ｂに示される構造を主に含み得るスケーリング／エンコードされた信号を得るために、ビットストリーム形成手段６０８によりビットストリーム中で生成される。

スケーリング／エンコードされた信号は、サブスケーリングレイヤ等からサイド情報を分離するために図１ｂに示されるビットストリームをデフォーマットする手段７０２を有する図７に示されるデコーダの入力７００に供給される。次に抽出／エンコーディング手段７０４は、デコーダ側に置かれた図７に示されないメモリ中で、個別のスペクトル値のビットパターンが次々に蓄積できるように、スケーリングレイヤおよびサブスケーリングレイヤの算術エンコーディングを連続して実行する。

伝送されたスケーリングレイヤの数に応じておよび／または手段７０４中の制御入力における制御信号に応じて、デコーダは、さらなるスケーリングレイヤまたはサブスケーリングレイヤのデコードをそのうち停止する。エンコーダ側で生成されたすべてのスケーリングレイヤおよびサブスケーリングレイヤがビットストリーム中で伝送およびデコードされれば、無損失のエンコーディング／伝送／デコーティングが行われ、デコーダは、量子化された値のどのような解釈も実行する必要がない。無損失またはほとんど無損失のエンコーディング／伝送／デコーディングに続いて得られたスペクトル値は、逆方向変換手段７０６に供給され、この手段は、例えば、デコードされた信号を出力７０８において得るために、逆ＩｎｔＭＤＣＴ（ＩｎｔＭＤＣＴ^-1）を実行する。例えば、伝送チャンネルに基づいて決定されたスケーリングレイヤまたはサブスケーリングレイヤが遮断されたり、デコーダが、その構造のせいで、すべてのスケーリングレイヤまたはサブスケーリングレイヤを処理できなかったり、特定数のスケーリングレイヤおよび／またはサブスケーリングレイヤのみを処理するために手段７０４が制御されたりすれば、本発明のデコーダは、前に利用可能であったスペクトル値ビットパターンの解釈を実行する。スペクトルのすべてのビットレイヤが伝送されなければ、デコーダ中の各スペクトル値について、より高いオーダビットのみが利用可能になる。

聴覚マスキング閾値および無損失のケースについてデコーダ中で全体で生成されたおよび／または全体で生成され得るビットレイヤの数が分かれば、今度そのデコーダは、いくつのビットレイヤが−従っていくつのビットが−各個別のスペクトル値について伝送されていないのかを決定する。これらのデータから、デコーダは、量子化されたスペクトル値を構成する。このための最も容易なアプローチは、伝送されなかったビットをゼロで置き換えるというものである。このケースでは、量子化プロセスは常に、より小さい絶対値への丸めという結果になる。

本発明に従って、平均量子化エラーをできるだけ小さく保つことが好ましい。これは、Ｎ．Ｓ．ＪａｙａｎｔおよびＰ．Ｎｏｌｌ：「波形のデジタル符号化（Ｄｉｇｉｔａｌｃｏｄｉｎｇｏｆｗａｖｅｆｏｒｍ）」，Ｐｒｅｎｔｉｃｅ−Ｈａｌｌ，１９８４に記載されているような、いわゆる「ＵｎｉｆｏｒｍＭｉｄｒｉｓｅＱｕａｎｔｉｚｅｒ」を用いることにより達成される。この量子化器は、量子化において用いられる量子化間隔を据え置くが、量子化された値、すなわち量子化間隔の代表および従って特定の値による伝送されたビットの解釈をシフトする。量子化間隔の中心へのシフトが、例えば、ビットパターン「１０００．．．」を欠落ビットについて用いることにより達成される。スペクトル値の、欠落している低オーダビットについては、「０００．．．」により表される「丸めビットパターン」とは区別されるビットパターンを量子化器中で再構成のために用いるのが一般に好ましい。言い換えれば、これは、再構成ビットパターンが、少なくとも１つの「１」を含むこと、および好ましくは、再構成ビットパターンの最重要ビットが「１」であることを意味している。

以下では、好ましい変換アルゴリズムとしてＩｎｔＭＤＣＴを含んでいる、図６に示されるエンコーダおよび図７に示されるデコーダの機能性に詳細に言及する。ＩｎｔＭＤＣＴ−スペクトルは、オーディオ信号のスペクトル整数表現を提供する。これと並行して、図６に示されるエンコーダにおける心理音響モデルは、聴覚マスキング閾値を計算する。述べたように、聴覚マスキング閾値は、連続する経路のために効率的にエンコードでき、例えば、ＦＩＲフィルタの係数または多項補間法によってビットストリーム中で伝送され得る。

各スペクトルラインについて、心理音響的に重要でない、すなわち、そのオーダがこのスペクトル値についての聴覚マスキング閾値のＭＳＢ未満であるスペクトル値のビットの数は、聴覚マスキング閾値に起因する。図３に関しては、これらは、太線枠のボックス下方のビットである。

同一の心理音響重要性のビットレイヤを、手段６０４により、周波数領域に沿って、例えば、依然として心理音響的に重要なビットのレイヤと並行して定義するために、整数スペクトル値の各マグニチュード値がビット方式に基づいて表され、より重要なレイヤにおける低オーダ周波数を優先するのが好ましい。これらのビットは、重要性レイヤに沿って、最重要ビットから並べられる。開始レイヤは、理論的最大値か、エンコードされた聴覚マスキング閾値の効率的にエンコードされたスペクトル包絡線か、聴覚マスキング閾値の、例えば、５ビットに相当する３０ｄｂの平行移動の結果もたらされる。

重要性の高いレイヤにおいて「１」が発生する見込みは非常に薄い。なぜならば、例えば、図２または図３のスペクトルライン５のような、聴覚マスキング閾値から大きく突出するスペクトルラインはほとんどないからである。下方のレイヤに向かって、「１」と会う確率は増加し、５０％に近づく。このようにしてビットシーケンスが配置されると、ビット方式の算術エンコーディングを冗長性低減のために適用することが好ましい。

本発明の１つの局面において、ＭＰＥＧ−４ＢＳＡＣにおけるように、スケーラビリティ領域は、心理音響透明性に関するだけでなく、無損失のエンコーディング／デコーディングに関しても拡張される。エンコードされたビットシーケンス全体および、対応する表現によって、スペクトル値の関連符号も伝送されれば、その実施の態様は、無損失ベースで動作するであろう。エンコードされたビットシーケンスの一部のみが伝送されれば、これはすでに散布度低減という結果になるであろう。エンコードされたビットシーケンスがかろうじて意味のあるビットのレイヤとして伝送されれば、この方法は、かろうじて透明モードで動作する。伝送されるビットがより少なければ、ビットレートの低下が生じ、これも、オーディオ／ビデオ品質の低下という結果になるであろう。

これらの心理音響的に重要なレイヤに加え、さらなるレイヤが伝送されれば、オーディオ信号（ビデオ信号）は、マスキング閾値までの付加的な安全距離によって表され、従って、後処理ステップに対するような大きな堅牢性を有するほとんど無損失の表現が可能になる。

透明性を達成するために必要とされるビット数は、ブロックごとに変動する。この情報が完全な無損失ビットストリーム中にエンコードされれば、この情報は、一定のビットレートを達成するためにビット割り当てを制御するために用い得る。この情報は正確に利用可能であり、どのような所望の一定のビットレートについても用い得る。従って、完全な無損失エンコードされたビットストリームから、音響的に適合されたエンコードされたサブビットストリームを、各々の指定された一定のビットレートについて取ることができ、前者は、局所的に変動するビットレートの機能性を用いる。

最後に、透明性を達成するために必要とされる、サイド情報におけるビットレイヤの伝送により、この値を、実際に伝送されたビットレイヤの数と比較することによってサブビットストリーム中で伝送された現在のオーディオ品質の制御が可能になる。

整数変換アルゴリズムの１つの例として、以下では、“ＡｕｄｉｏＣｏｄｉｎｇＢａｓｅｄｏｎＩｎｔｅｇｅｒＴｒａｎｓｆｏｒｍｓ（整数変換に基づくオーディオ符号化）”１１１^th ＡＥＳＣｏｎｖｅｎｔｉｏｎ，ＮｅｗＹｏｒｋ，２００１に記載されるＩｎｔＭＤＣＴ変換アルゴリズムを参照する。ＩｎｔＭＤＣＴは、例えば、オーディオ信号の良好なスペクトル表現、臨界サンプリング、およびブロックオーバーラッピングのようなＭＤＣＴの最も魅力的な特性を提供するので、特に有利である。

図１１は、ＩｎｔＭＤＣＴ整数変換アルゴリズムがそれに頼って動作する整数値を得るために、オーディオ信号を表している時間離散サンプル値を処理するための本発明の好ましい装置についての概要図を示す。時間離散サンプル値は次に、図１１に示される装置によってウィンドウ化され、必要に応じてスペクトル表現に変換される。入力１０においてこの装置に供給される時間離散サンプル値は、変換および特に整数ＤＣＴを実行するための手段１４のための手段を用いてスペクトル表現に変換されるのに適した整数ウィンドウ化されたサンプル値を出力１２において得るために、２Ｎ個の時間離散サンプル値に対応する長さを有するウィンドウｗでウィンドウ化される。整数ＤＣＴは、Ｎ個の入力値からＮ個の出力値を生成するように実施され、これは、ＭＤＣＴ式に基づいて２Ｎ個のウィンドウ化されたサンプル値からＮ個のスペクトル値を生成するにすぎない図１０ａのＭＤＣＴ機能４０８とは対照的である。

時間離散サンプル値をウィンドウ化するために、２つの時間離散サンプル値が最初に手段１６において選択され、これらのサンプル値は一緒に時間離散サンプル値のベクトルを表す。手段１６により選択された１つの時間離散サンプル値は、ウィンドウの第１の四半分中に置かれる。他の時間離散サンプル値は、図１３によってより詳細に示されるように、ウィンドウの第２の四半分中に置かれる。手段１６により生成されたベクトルは、今度は次元２×２の回転行列を提供され、この演算は、直ちに実行されるのではなく、いくつかのいわゆるリフティング行列（ｌｉｆｔｉｎｇｍａｔｒｉｃｅｓ）によって実行される。

リフティング行列は、ウィンドウｗに依存し「１」または「０」に等しくない１つの要素のみを含むという特性を有している。

リフティングステップへのウェーブレット変換の因数分解は、技術刊行物「ＦａｃｔｏｒｉｎｇＷａｖｅｌｅｔＴｒａｎｓｆｏｒｍｓＩｎｔｏＬｉｆｔｉｎｇＳｔｅｐｓ（リフティングステップへのウェーブレット変換の因数分解）」, ＩｎｇｒｉｄＤａｕｂｅｃｈｉｅｓａｎｄＷｉｍＳｗｅｌｄｅｎｓ，Ｐｒｅｐｒｉｎｔ，ＢｅｌｌＬｂｏｒａｔｏｒｉｅｓ，ＬｕｃｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ，１９９６に示されている。一般に、リフティング方式は、同じ低パスまたは高パスフィルタを含む完全な再構成フィルタペア間の単純な関係である。相補的フィルタの各ペアは、リフティングステップに因数分解し得る。特に、これはギブンズ回転にあてはまる。多相行列がギブンズ回転であるケースを考えよう。その場合は、以下の式が有効である：

等号の右の３つのリフティング行列の各々は、主対角線要素として値「１」を有している。さらに、各リフティング行列において、１つの補助対角線要素は０に等しく、１つの補助対角線要素は、回転角αに依存する。

このベクトルは、第１の結果ベクトルを得るために、今度は、第３のリフティング行列、すなわち上記の式の一番右のリフティング行列を掛けられる。これは、図１１の手段１８により表されている。本発明に従って、第１の結果ベクトルは今度、図１１において手段２０により表されるように整数の量の中の実数の量をマッピングする任意の丸め関数により丸められる。手段２０の出力において、丸められた第１の結果ベクトルが得られる。丸められた第１の結果ベクトルは今度、これに中間、すなわち第２のリフティング行列を掛けて第２の結果ベクトルを得るために手段２２に供給され、この第２の結果ベクトルは、丸められた第２の結果ベクトルを得るために手段２４において再び丸められる。この丸められた第２の結果ベクトルは今度、これに上記の式の左側に示されるリフティング行列、すなわち第１のリフティング行列を掛けて第３の結果ベクトルを得るために手段２６に供給され、この第３の結果ベクトルは、出力１２において整数ウィンドウサンプル値を最終的に得るために、手段２８により最終的にもう一度丸められ、この整数ウィンドウ値は今度、スペクトル出力３０において整数スペクトル値を得るためにこれのスペクトル表現が望まれれば、手段１４により処理されなければならない。

好ましくは、手段１４は、整数ＤＣＴまたは整数ＤＣＴとして実施される。

長さＮを有するタイプ４に従う離散コサイン変換（ＤＣＴ−ＩＶ）は、以下の式により与えられる：

ＤＣＴ−ＩＶの係数は、正規直交Ｎ×Ｎ行列を形成する。各直交Ｎ×Ｎ行列は、技術刊行物「ＭｕｌｔｉｒａｔｅＳｙｓｔｅｍｓＡｎｄＦｉｌｔｅｒＢａｎｋｓ（マルチレートシステムおよびフィルタバンク）」，ＰｒｅｎｔｉｃｅＨａｌｌ，ＥｎｇｌｅｗｏｏｄＣｌｉｆｆｓ，１９９３に示されるように、Ｎ（Ｎ−１）／２個のギブンズ回転に分解し得る。さらなる分解も存在することが理解されるべきである。

様々なＤＣＴアルゴリズムの分類に関しては、Ｈ．Ｓ．Ｍａｌｖａｒ，「ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＷｉｔｈＬａｐｐｅｄＴｒａｎｓｆｏｒｍｓ（ラップされた変換を用いる信号処理）」，ＡｒｔｅｃｈＨｏｕｓｅ，１９９２を参照するべきである。一般に、ＤＣＴアルゴリズムは、それらの基底関数のタイプによって区別される。本発明において好ましいとされるＤＣＴ−ＩＶは、非対称基底関数、すなわち、コサイン４分の１波、コサイン３／４波、コサイン５／４波、コサイン７／４波等を含んでいるのに対して、例えば、タイプＩＩの離散コサイン変換（ＤＣＴ−ＩＩ）は、軸対称および点対称基底関数を有している。第０の基底関数は、直接成分を有し、第１の基底関数は半コサイン波であり、第２の基底関数は全コサイン波であり、以下同様である。ＤＣＴ−ＩＩが直接成分を特に考慮するという事実のため、同じものが、ビデオエンコーディングにおいて用いられるが、オーディオエンコーディングにおいては用いられない。なぜならば、オーディオエンコーディングにおいては、ビデオエンコーディングとは対照的に、直接成分が関係しないからである。

以下では、ギブンズ回転の回転角αが窓関数にどのように依存するかについて特に言及する。

２Ｎのウィンドウ長を有するＭＤＣＴは、長さＮを有するタイプＩＶの離散コサイン変換に還元し得る。これは、時間領域においてＴＤＡＣ変換を明示的に実行し、次にＤＣＴ−ＩＶを適用することにより達成される。５０％オーバーラップにおいては、ブロックtのためのウィンドウの左半分が、先行ブロック、すなわちブロックｔ−１の右半分と重なる。連続する２つのブロックｔ−１およびｔのオーバーラップ部分は、時間領域において、すなわち、変換の前に以下のように前処理され、すなわち、図１１の入力１０と出力１２との間で処理される：

波形符号を付した値は、図１の出力１２における値であるのに対して、上記の式において波形符号が付してないｘ値は、選択されるべき入力１０におけるおよび／または手段１６の後の値である。作動インデックスｋは、０〜Ｎ／２−１であるのに対して、ｗは、窓関数を表している。

窓関数ｗのためのＴＤＡＣ条件から、以下の関連が有効である：

特定の角度α_k（ｋ＝０，．．．，Ｎ／２−１）については、時間領域におけるこの前処理は、述べたようにギブンズ回転として書き得る。

ギブンズ回転の角度αは、以下のように窓関数ｗに依存する：

（数５）
α＝ａｒｃｔａｎ［ｗ（Ｎ／２−１−ｋ）／ｗ（Ｎ／２＋ｋ）］

このＴＤＡＣ条件が果たされる限り、任意の窓関数ｗを用い得ることが理解されるべきである。

以下では、カスケード式エンコーダおよびデコーダを図１２により説明する。１つのウィンドウにより一緒にウィンドウ化される時間離散サンプル値ｘ（０）〜ｘ（２Ｎ−１）は、サンプル値ｘ（０）およびサンプル値ｘ（Ｎ−１）、すなわちウィンドウの第１の四半分のサンプル値およびウィンドウの第２の四半分のサンプル値が、手段１６の出力においてベクトルを形成するように、図１１の手段１６により選択される。交差している矢印は、ＤＣＴ−ＩＶブロックの入力において整数ウィンドウサンプル値を得るために、手段１８、２０および／または２２、２４および／または２６、２８のリフティング乗算およびその後の丸めを概略的に表している。

第１のベクトルが、上記のように、処理された場合、第２のベクトルが、サンプル値ｘ（Ｎ／２-１）およびｘ（Ｎ／２）から、すなわち、再びウィンドウの第１の四半分のサンプル値およびウィンドウの第２の四半分のサンプル値からさらに選択され、図１に記載されるアルゴリズムによって処理される。これに類似するものとして、ウィンドウの第１および第２の四半分の他のすべてのサンプル値ペアが処理される。同じ処理が、第１のウィンドウの第３および第４の四半分について実行される。２Ｎ個のウィンドウ化された整数サンプリング値は今度、出力１２に存在し、図１２において示されるように、ＤＣＴ−ＩＶ変換へ供給される。特に、第２および第３の四半分の整数ウィンドウ化されたサンプル値がＤＣＴに供給される。ウィンドウの第１の四半分のウィンドウ化された整数サンプル値は、先行ＤＣＴ−ＩＶにおいて、先行ウィンドウの第４の四半分のウィンドウ化された整数サンプル値と一緒に処理される。これに類似するものとして、図１２のウィンドウ化された整数サンプル値の第４の四半分が次のウィンドウの第１の四半分と一緒にＤＣＴ−ＩＶ変換において供給される。図１２に示される中間の整数ＤＣＴ−ＩＶ変換３２が今度は、ｙ（０）〜ｙ（Ｎ−１）のＮ個の整数スペクトル値を提供する。本発明のウィンドウ化および変換は整数出力値を提供するので、これらの整数スペクトル値は、どのような中間量子化も必要とすることなく、そのままエントロピーエンコーディングにかけることができる。

図１２の右半分にデコーダが示されている。再変換および逆ウィンドウ化で構成されるこのデコーダは、エンコーダとは逆に作動する。ＤＣＴ−ＩＶの逆変換のために、図１２に示されるように、逆ＤＣＴ−ＩＶを用い得ることが知られている。図２に示されるように、デコーダＤＣＴ−ＩＶ３４の出力値は、手段３４の出力におけるおよび／または先行および後続の変換の整数ウィンドウ化されたサンプル値から、時間離散オーディオサンプル値をｘ（０）〜ｘ（２Ｎ−１）を生成するために、本発明に従って先行する変換および／または後続の変換の対応する値を用いて逆に処理される。

出力側演算は、逆ギブンズ回転により、すなわち、ブロック２６、２８および／または２２、２４および／または１８、２０が反対方向に通り抜けるように、本発明により生じる。これは、式１の第２のリフティング行列によってより詳細に表されるはずである。（エンコーダにおいて）第２の結果ベクトルが、丸められた第１の結果ベクトルに第２のリフティング行列（手段２２）を乗算することにより形成されれば、以下の式が結果として生じる：

（数６）
（ｘ，ｙ）→（ｘ，ｙ＋ｘｓｉｎα）

この式６の右側の値ｘ、ｙは整数である。しかしながら、これは値ｓｉｎαにはあてはまらない。ここで、丸め関数ｒが、以下の式の場合にように導入される必要がある：

（数７）
（ｘ，ｙ）→（ｘ，ｙ＋ｒ（ｘｓｉｎα））

手段２４がこの演算を実行する。

（デコーダ中での）逆マッピングは次の通り定義される：

（数８）
（ｘ’，ｙ’）→（ｘ’，ｙ’−ｒ（（ｘｓｉｎα））

丸め演算の前のマイナス記号から、どのようなエラーも導入されることなく、リフティングステップの整数近似を反転し得ることが明らかである。３つのリフティングステップの各々にこの近似を適用することにより、ギブンズ回転の整数近似が結果として生じる。（エンコーダにおいて）丸められた回転は、エラーを導入することなく、つまり逆丸めされたリフティングステップを逆順で通過することにより、すなわち、図１のアルゴリズムがデコーディングの間にボトムからトップへ実行されれば、（デコーダにおいて）反転され得る。

丸め関数ｒが点対称であれば、逆丸めされた回転は、角度−αを有する丸められた回転と同一であり、以下の通りである：

デコーダのための、すなわち逆ギブンズ回転のためのリフティング行列は、この場合、単に式「ｓｉｎα」を式「−ｓｉｎα」で置き換えることにより数式（１）から直ちに生じる。

以下では、ウィンドウ４２〜４６がオーバーラップしている一般のＭＤＣＴの分解を図１３により再度示す。ウィンドウ４０〜４６はそれぞれ、５０％のオーバーラップを有している。ウィンドウ毎に、矢印４８により図式的に表されるように、ギブンズ回転が最初に、ウィンドウの第１および第２の四半分内部および／またはウィンドウの第３および第４の四半分内部で実行される。次に、回転値、すなわちウィンドウ化された整数サンプル値は、ウィンドウの第２および第３の四半分および／または次のウィンドウの第４および第１の四半分が、ＤＣＴ−ＩＶアルゴリズムによってスペクトル表現において常に一緒に実施されるように、Ｎ−ｔｏ−Ｎ−ＤＣＴに供給される。

本発明に従って、通常のギブンズ回転は、逐次的に実行されるリフティング行列中で分解され、各リフティング行列の乗算後、リフティング行列により結果ベクトルの各乗算の前に、その結果ベクトルが整数のみを含むように、浮動小数点数がそれらの出現後直ちに丸められるように、丸めステップが実行される。

従って、出力値は常に整数のままであり、整数入力値を用いるのが好ましい。これは、どのような制約も意味しない。なぜならば、ＣＤ中に格納されるような、ＰＣＭサンプル値は整数値であり、その値領域は、ビット幅に応じて、すなわち、時間離散デジタル入力値が１６ビット値であるか２４ビット値であるかに応じて、変わるからである。それにもかかわらず、述べたように、全体のプロセスは、逆順での逆回転を実行することにより反転可能である。本発明に従って、ＭＤＣＴの整数近似は、完全な再構成、すなわち無損失変換のために存在する。

本発明の変換は、浮動小数点値の代わりに整数出力値を提供する。順方向そして次に逆方向変換が実行されれば、エラーが全く導入されないように、この変換は完全な再構成を提供する。本発明の好ましい実施の形態に従って、この変換は、変形離散コサイン変換の代替である。回転における分解およびリフティングステップにおける回転の分解が可能である限り、他の変換方法も整数に基づいて実行し得る。

本発明に従う整数ＭＤＣＴは、ＭＤＣＴの最も有利な特性を提供する。この整数ＭＤＣＴは、オーバーラップ構造を有しており、その結果として、非オーバーラップブロックを用いた場合よりも優れた周波数選択性を得ることができる。変換に先がけてウィンドウ化する際にすでに考慮されているＴＤＡＣ機能に基づいて、オーディオ信号を表しているスペクトル値の総数が入力されたサンプル値の総数に等しくなるように、臨界サンプリングが維持される。

浮動小数点サンプル値を提供する別の通常のＭＤＣＴと比較すると、ノイズは、通常のＭＤＣＴと比較して、信号レベルがほとんどないスペクトル領域においてのみ増大する一方で、このノイズ増大は、重要な信号レベルにおいて認められないことを本発明の整数変換は開示している。この目的のために、本発明の整数処理は、効率的なハードウェア実装に適している。なぜならば、シフト／加算ステップに容易に分解でき、ハードウェアに基づいて容易かつ迅速に実施され得る乗算ステップのみが用いられるからである。

本発明の整数変換は、オーディオ信号の良好なスペクトル表現を提供し、それでもなお整数の領域内にとどまる。オーディオ信号の音色部分に適用されれば、これは良好なエネルギー集中という結果になる。従って、効率的な無損失エンコーディング方式は、図１に表される本発明のウィンドウ化／変換を単にエントロピーエンコーダとカスケードすることにより組み立て得る。特に、ＭＰＥＧＡＡＣにおいて用いられているように、エスケープ値を用いる積重ねエンコーディングが本発明にとって有利である。すべての値を、所望の符号表にそれらの値が適合するまで、特定の累乗でスケールダウンし、次に省略された最も重要性の低いビットを付加的にエンコードするのが好ましい。より大きい符号表使用の選択肢と比較して、記載された選択肢は、符号表を格納するためのメモリ消費量に関して、より安価である。ほとんど無損失なエンコーダも、最も重要性の低いビットのうちの特定のものを単に省略することによって得られる。

特に音色信号について、整数スペクトル値のエントロピーエンコーディングにより高いエンコーディング利得が可能になる。信号の非常駐部分については、エンコーディング利得は低い、すなわち非常駐信号のフラットなスペクトルのためであり、つまり０に等しいかほぼ０であるスペクトル値の数が少ないためである。Ｊ．Ｈｅｒｒｅ．Ｊ．Ｄ．Ｊｏｈｎｓｔｏｎ：「ＥｎｈａｎｃｉｎｇｔｈｅＰｅｒｆｏｒｍａｎｃｅｏｆＰｅｒｃｅｐｔｕａｌＡｕｄｉｏＣｏｄｅｒｓｂｙＵｓｉｎｇＴｅｍｐｏｒａｌＮｏｉｓｅＳｈａｐｉｎｇ（ＴＮＳ）」１０１，ＡＥＳＣｏｎｖｅｎｔｉｏｎ，ＬｏｓＡｎｇｅｌｓ，１９９６，Ｐｒｅｐｒｉｎｔ４３８４に記載されているように、このフラットさは、しかしながら、周波数領域における線形予測を用いることにより使用し得る。１つの選択肢は、開ループを伴う予測である。別の選択肢は、閉ループを伴う予測子である。第１の選択肢、すなわち開ループを伴う予測子は、ＴＮＳと呼ばれる。予測の量子化は、結果として生じる量子化ノイズのオーディオ信号の時間構造への適合という結果になり、心理音響オーディオエンコーディングにおけるプレエコーを防止する。無損失オーディオエンコーディングのために、第２の選択肢、すなわち閉ループを伴う予測子がより適している。なぜならば、閉ループを伴う予測により、入力信号の正確な再構成が可能になるからである。本発明により生成されたスペクトルにこの技術が適用されれば、整数の範囲にとどまるために、予測フィルタの各ステップの後に丸めステップが実行されなければならない。逆フィルタおよび同じ丸め関数を用いることにより、オリジナルのスペクトルが正確に再生され得る。

２つのチャンネル間の冗長性をデータ量低減に利用するために、角度π／４を有する丸められた回転が用いられれば、中間側エンコーディングを無損失ベースで利用し得る。ステレオ信号の左右のチャンネルの合計および差分を計算する選択肢と比較して、丸められた回転は、省エネルギーという利点をもたらす。いわゆるジョイントステレオエンコーディング技術の使用は、標準ＭＰＥＧＡＡＣにおいて実行されているように、各バンドについてオン・オフし得る。さらに、２つのチャンネル間の冗長性をより柔軟なやり方で低減できるように、回転角も考慮され得る。

実際の状況に応じて、本発明のエンコーダ概念および／または本発明のデコーダ概念は、ハードウェア中またはソフトウェア中で実施し得る。この実施は、デジタル記憶媒体上で、特にフロッピー（登録商標）ディスクまたはＣＤ上で、電子可読な制御信号を用いて行われ、これらの制御信号は、対応する方法が実行されるように、プログラム可能なコンピュータシステムと協働し得る。一般に、本発明は、コンピュータ上で実行される場合に、本発明のエンコーディング方法または本発明のデコーディング方法を実行するための、機械可読坦体上に格納されたプログラムコードを有するコンピュータプログラム製品にも存する。言い換えれば、本発明は従って、コンピュータプログラムがコンピュータ上で実行される場合に、デコーディング方法を実行するためおよび／またはエンコーディング方法を実行するためのプログラムコードを有するコンピュータプログラムである。

本発明のエンコーダのブロック図を示す。スケーリングレイヤおよびサブスケーリングレイヤを有するスケーリングされエンコードされた信号の概略表現を示す。聴覚マスキング閾値に並行するビットレイヤのマグニチュードスペクトルの再分割を示す。図２の再分割の概略表現をマスキング閾値のＭＳＢを考慮して示す。連続的に与えられる聴覚マスキング閾値の次のサブスケーリングレイヤのためのスペクトル値の選択を例示するための概略表現を示す。聴覚マスキング閾値のバンド方式表現におけるサブスケーリングレイヤのためのスペクトル値の選択を例示するための概略表現を示す。本発明のエンコーダの詳細なブロック図を示す。ＩｎｔＭＤＣＴを有する本発明のデコーダのブロック図を示す。従来技術のＢＳＡＣエンコーダのブロック図を示す。従来技術のＢＳＡＣデコーダのブロック図を示す。ＭＤＣＴおよび５０％オーバーラッピングを有する従来技術のエンコーダの概略ブロック図を示す。図１０ａにより生成された値をデコードするための従来技術のデコーダのブロック図を示す。整数スペクトル値が平均され得る整数値を得るために時間離散オーディオサンプル値を処理するための好ましい手段のブロック図を示す。ギブンズ回転および２つのＤＣＴ−ＩＶ−演算におけるＭＤＣＴおよび逆ＭＤＣＴの分解の概略表現を示す。回転における５０％オーバーラッピングおよびＤＣＴ−ＩＶ−演算を有するＭＤＣＴの分解を例示するための表現を示す。

Claims

オーディオおよび／またはビデオ情報を含む信号のスペクトルをスケーラブルエンコードするための装置であって、スペクトルは２進スペクトル値を含み、
１つのバンド中の２進スペクトル値の第１の数の特定オーダのビットを用いて第１のサブスケーリングレイヤを生成するためおよび２進スペクトル値の第２の数の特定オーダのビットを用いて第２のサブスケーリングレイヤを生成するための手段（１０２）であり、第１の数は、１以上かつバンド中の２進スペクトル値の総数未満であり、生成するための手段（１０２）は、２進スペクトル値の第２の数を、該数が１以上かつバンド中の２進スペクトル値の総数未満となるように選択するように、そしてさらに、スペクトル値の第２の数を、該数が２進スペクトル値の第１の数に含まれていない少なくとも１つの２進スペクトル値を含むように決定するように実施される手段（１０２）と、
エンコードされた信号を形成するための手段（１０６）であり、第１および第２のサブスケーリングレイヤ（１１３ａ，１１３ｂ）が互いに別個にデコードできるように、第１のサブスケーリングレイヤおよび第２のサブスケーリングレイヤを、エンコードされた信号中に含めるように実施される手段（１０６）とを含む装置。
バンド中の特定のオーダと異なるオーダを有するすべてのビットを用いてフルスケーリングレイヤを生成するための手段をさらに含み、
フルスケーリングレイヤが第１および第２のサブスケーリングレイヤ（１１３ａ，１１３ｂ）とは独立してデコード可能になるように、フルスケーリングレイヤをビットストリーム中に含めるように、形成するための手段（１０６）がさらに実施される請求項１に記載の装置。
２進スペクトル値が量子化され、
バンドについての心理音響マスキング閾値の最重要ビットのオーダを計算するための手段（８４）と、
２進スペクトル値のビットのスケーリングレイヤを定義するための手段（６０４）とをさらに含み、スケーリングレイヤは、２進スペクトル値のビットを含み、該ビットのオーダは、バンドについての心理音響マスキング閾値の最重要ビットのオーダとは特定の差があり、またはビットのオーダは、これらのバンドについての心理音響マスキング閾値の最重要ビットのオーダに等しい請求項１または２に記載の装置。
第１および第２のサブスケーリングレイヤ（１１３ａ，１１３ｂ）を生成するための手段（１０２）は、２進スペクトル値のビットを特定オーダのビットとして用いるように実施され、バンドにおける心理音響マスキング閾値の最重要ビットのオーダとの差は、「＋１」、「０」および／または「−１」に等しい請求項３に記載の装置。
心理音響マスキング閾値の最重要ビットオーダを計算するための手段（８４）は、バンド中の各スペクトル値について最重要ビットのオーダを決定するようにまたはバンド全体について心理音響マスキング閾値の最重要ビットのオーダを決定するように実施される請求項３または４に記載の装置。
形成するための手段（１０６）は、心理音響マスキング閾値についての情報を副次的情報（１１０）として、エンコードされた信号中に含ませるようにさらに実施される請求項３〜５のいずれか１項に記載の装置。
第１のサブスケーリングレイヤは、第２のサブスケーリングレイヤの前にデコード可能であり、
第１および第２のサブスケーリングレイヤを生成するための手段（１０２）は、バンドについての最大精度利得をそれにより達成できるスペクトル値を２進スペクトル値の第１の数について選択するように実施される先行請求項のいずれか１項に記載の装置。
第１のサブスケーリングレイヤは、第２のサブスケーリングレイヤの前にデコード可能であり、
第１および第２のサブスケーリングレイヤを生成するための手段（１０２）は、第１のサブスケーリングレイヤのために、より高いスケーリングレイヤのビットにより表される、バンド中のスペクトル値についての心理音響マスキング閾値との最大の差を有する２進スペクトル値を用いるように実施される請求項１ないし７のいずれか１項に記載の装置。
第１および第２のサブスケーリングレイヤを生成するための手段（１０２）は、第１のサブスケーリングレイヤのために、より高いスケーリングレイヤのビットにより表される、バンド中で最小の量子化されたスペクトル値である２進スペクトル値を用いるように実施される先行請求項のいずれか１項に記載の装置。
スペクトル値は、整数ＭＤＣＴにより信号の時間サンプル値から生成されている先行請求項のいずれか１項に記載の装置。
スペクトル値は、心理音響および／または心理光学モデル（８２）を用いて量子化されている請求項１または２に記載の装置。
第１および第２のサブスケーリングレイヤを生成するための手段（１０２）は、バンド中のビットの一定の特定オーダを用いるように実施される請求項１１に記載の装置。
特定オーダは、量子化された２進スペクトル値のビットの最も重要でないオーダを含む請求項１１または１２に記載の装置。
１つのバンドがｍ個のスペクトル値を含み、
ｍは、２以上であり、
第１および第２のサブスケーリングレイヤを生成するための手段（１０２）は、サブスケーリングレイヤの第１および第２の数を、それらの数が最大でｍに等しく最小で１に等しくなるように計算するように実施され、ｍ個のサブスケーリングレイヤが存在する場合に、各サブスケーリングレイヤが、正確に１つのスペクトル値の特定オーダの１つのビットを含み、１つのスペクトル値が、特定オーダについて正確に１つのサブスケーリングレイヤ中にのみ存在する先行請求項のいずれか１項に記載の装置。
ｍは、４に等しい請求項１４に記載の装置。
第１および第２のサブスケーリングレイヤを生成するための手段（１０２）は、特定オーダの量子化されたスペクトル値の第１および／または第２の数のビットの算術エンコーディングを実行するように実施される先行請求項のいずれか１項に記載の装置。
第１および第２のサブスケーリングレイヤを含むエンコードされた信号をスケーラブルデコードするための装置であって、第１のサブスケーリングレイヤは、１つのバンド中の２進スペクトル値の第１の数の特定オーダのビットを含んでおり、第２のサブスケーリングレイヤは、バンド中の２進スペクトル値の第２の数の特定オーダのビットを含んでおり、さらに第２の数は、第１の数には含まれない少なくとも１つのスペクトル値を含んでおり、
第１のサブスケーリングレイヤをエンコードされた信号からおよび第２のサブスケーリングレイヤをエンコードされた信号から抽出するための手段（７０４）と、
バンド中の２進量子化されたスペクトル値の特定オーダのビットを決定するように、第１のサブスケーリングレイヤおよび第２のサブスケーリングレイヤを処理するための手段とを含む装置。
第１のサブスケーリングレイヤのための２進スペクトル値の第１の数は、１つのバンドについて最大精度利得を達成するように選択され、
抽出のための手段（７０４）は、第２のサブスケーリングレイヤの前に、第１のサブスケーリングレイヤを抽出するように実施される請求項１７に記載の装置。
オーディオおよび／またはビデオ情報を含む信号のスペクトルをスケーラブルエンコードするための方法であって、スペクトルは２進スペクトル値を含み、
１つのバンド中の２進スペクトル値の第１の数の特定オーダのビットを用いて第１のサブスケーリングレイヤを生成するためおよび２進スペクトル値の第２の数の特定オーダのビットを用いて第２のサブスケーリングレイヤを生成するためのステップ（１０２）であり、第１の数は、１以上かつバンド中の２進スペクトル値の総数未満であり、生成するための手段（１０２）は、２進スペクトル値の第２の数を、該数が１以上かつバンド中の２進スペクトル値の総数未満となるように選択するように、そしてさらに、スペクトル値の第２の数を、該数が２進スペクトル値の第１の数に含まれていない少なくとも１つの２進スペクトル値を含むように決定するように実施されるステップ（１０２）と、
エンコードされた信号を形成するためのステップ（１０６）であり、形成するための手段は、第１および第２のサブスケーリングレイヤ（１１３ａ，１１３ｂ）が互いに別個にデコードできるように、第１のサブスケーリングレイヤおよび第２のサブスケーリングレイヤを、エンコードされた信号中に含めるように実施されるステップ（１０６）とを含む方法。
第１および第２のサブスケーリングレイヤを含むエンコードされた信号をスケーラブルデコードするための方法であって、第１のサブスケーリングレイヤは、１つのバンド中の２進スペクトル値の第１の数の特定オーダのビットを含んでおり、第２のサブスケーリングレイヤは、バンド中の２進スペクトル値の第２の数の特定オーダのビットを含んでおり、さらに第２の数は、第１の数には含まれない少なくとも１つのスペクトル値を含んでおり、
第１のサブスケーリングレイヤをエンコードされた信号からおよび第２のサブスケーリングレイヤをエンコードされた信号から抽出するステップ（７０４）と、
バンド中の２進量子化されたスペクトル値の特定オーダのビットを決定するように、第１のサブスケーリングレイヤおよび第２のサブスケーリングレイヤを処理するステップとを含む方法。
コンピュータプログラムであって、コンピュータ上で実行される場合に、請求項１９または請求項２０に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。