JP2010508550A

JP2010508550A - スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ

Info

Publication number: JP2010508550A
Application number: JP2009534996A
Authority: JP
Inventors: エドラー、バーント; ゲイガー、ラルフ; アーテル、クリスティアン; ヒルペルト、ヨハネス; ポップ、ハラルド
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2006-11-02
Filing date: 2007-09-28
Publication date: 2010-03-18
Anticipated expiration: 2027-09-28
Also published as: EP2264699A3; EP2264699A2; ES2354743T3; PL2264699T3; BRPI0716308A2; AU2007315373A8; CA2668056C; KR20090085047A; NO343261B1; RU2009117571A; US20100017213A1; AU2007315373B2; AU2011200509B2; IL198192A; US8321207B2; EP2264699B1; TW200836492A; MY156427A; PT2264699T; TWI350068B

Abstract

オーディオ信号をスペクトル表現に変換するための第１の変換アルゴリズムを基礎とするスペクトル値を後処理するために、オーディオ信号のサンプルのブロックシーケンスを表すスペクトル値のブロックシーケンスが出力される。この直後に、前記ブロックシーケンスのスペクトル値の重み付け加算が実行され、後処理されたスペクトル値のブロックシーケンスが得られる。結合は、周波数帯域及び持続時間に関する後処理されたスペクトル値の計算に際して、周波数帯域及び持続時間に関するブロックシーケンスのスペクトル値と、別の周波数帯域及び別の持続時間に関するスペクトル値とが使用されるように実行され、結合はさらに、後処理されたスペクトル値が、第１の変換アルゴリズムとは異なる第２の変換アルゴリズムを使用してオーディオ信号をスペクトル表現に変換することにより得られるスペクトル値への近似値であるような重み係数が使用されるように実行される。後処理されたスペクトル値は、具体的には、スケーラブルエンコーダ内での差分形成に、またはスケーラブルデコーダ内での加算に各々使用される。
【選択図】図１

Description

本発明は、音声の符号化／復号化に関し、具体的には、基本層と拡張層とを有するスケーラブルなエンコーダ／デコーダ概念に関する。

オーディオエンコーダ／デコーダは、長期にわたって知られている。具体的には、ＭＰ３規格としても知られる規格ＩＳＯ／ＩＥＣ１１１７２−３に従って動作するオーディオエンコーダ／デコーダは、変換エンコーダと呼ばれる。このようなＭＰ３エンコーダは、一連の時間サンプルを、ウィンドウ処理を受ける入力信号として受信する。ウィンドウ処理は、時間サンプルの順次ブロックをもたらし、これらは次にブロックごとにスペクトル表現へと変換される。ＭＰ３規格によれば、この場合の変換は所謂ハイブリッドフィルターバンクを使用して実行される。ハイブリッドフィルターバンクの第１段階は、３２個の副帯信号を生成するための３２個のチャンネルを有するフィルターバンクである。この第１段階の副帯フィルターは重なり合う通過帯域を備えるが、これは、このフィルタリングがエイリアシングを被りがちであるためである。第２段階は、３２副帯信号を５７６個のスペクトル値に分割するＭＤＣＴ段階である。これらのスペクトル値は次に、音響心理学的モデルを考慮して量子化され、続くハフマン符号化によって、最終的にハフマンコードワードのストリーム及び復号に必要なサイド情報を含むビットシーケンスが得られる。

デコーダ側では、次に、ハフマンコードワードが量子化指数に計算し戻される。再量子化によってもたらされるスペクトル値は、次に、解析フィルターバンクと同様に実施されるハイブリッド合成フィルターバンクへ供給され、符号化されかつ再度復号されたオーディオ信号の時間サンプルブロックが得られる。エンコーダ側及びデコーダ側の全てのステップは、ＭＰ３規格に提示されている。用語法に関しては、以下、「逆量子化」にも言及する点に留意されたい。量子化は、回復不能なデータ損失を伴うことから可逆性ではないが、逆量子化という表現は、先に提示した再量子化を指すものとしてしばしば使用される。

また、ＡＡＣ（ＡＡＣ＝アドバンスト・オーディオ・コーディング）と呼ばれるオーディオエンコーダ／デコーダアルゴリズムも当該技術分野で知られている。国際標準ＩＳＯ／ＩＥＣ１３８１８−７において規格化されているこのようなエンコーダも、オーディオ信号の時間サンプルに基づき再度動作する。オーディオ信号のこの時間サンプルも再度ウィンドウ処理され、ウィンドウ処理された時間サンプルの順次ブロックが得られる。ハイブリッドフィルターバンクが使用されるＭＰ３エンコーダに対して、ＡＡＣエンコーダでは、単一のＭＤＣＴ変換が実行されてＭＤＣＴスペクトル値のブロックシーケンスが得られる。次に、これらのＭＤＣＴスペクトル値は、音響心理学的モデルに基づき再度量子化され、量子化されたスペクトル値は最終的にハフマン符号化される。デコーダ側の処理は相応的であり、ハフマンコードワードが復号され、次いでこれにより取得される量子化指数または量子化されたスペクトル値が各々再量子化または逆量子化されて最終的にスペクトル値が得られる。このスペクトル値は、最終的に符号化／復号化された時間サンプルを再び得るためにＭＤＣＴ合成フィルターバンクへ供給されてもよい。

両方法は、専門家による刊行物、ベルント・エドラー著「コーディーランク・フォン・アォディオシグナーレン・ミット・ウーベルラッペンダー・トランスフォルマツィオーン・ウント・アダプティフェン・フェンスターフンクツィオーネン」フレークヴェンツ第４３巻、２５２−２５６ページ、１９８９年、に記述されているように、重なり合うブロック及び適応的なウィンドウ関数を使用して動作する。

具体的には、遷移領域がオーディオ信号内で決定される場合、長いウィンドウ関数から短いウィンドウ関数への切換が実行され、より優れた時間分解能のための低減された周波数分解能が達成される。一連の短いウィンドウは開始ウィンドウによって導入され、一連の短いウィンドウは停止ウィンドウによって終了される。これにより、重なり合う長いウィンドウ関数から重なり合う短いウィンドウ関数への隙間のない遷移が達成され得る。実施状況に応じて、短いウィンドウによる重複面積は長いウィンドウによる重複面積より小さく、これは、遷移信号部分はオーディオ信号内に存在するという事実に関して妥当であるが、必ずしもそうである必要はない。従って、短いウィンドウのシーケンス並びに長いウィンドウのシーケンスは、５０パーセントの重なりを有して実施されてもよい。しかしながら、具体的には、短いウィンドウの場合、遷移信号部分の符号化を向上させるために、５０パーセントではなく例えば僅か１０パーセントまたはそれ以下のような低減された重複幅が選択される場合もある。

ＭＰ３規格の場合もＡＡＣ規格の場合も共に、ウィンドウ処理は長いウィンドウ及び短いウィンドウを伴って存在し、開始ウィンドウまたは停止ウィンドウは各々、概して常に同じブロックラスタが保持され得るようにスケーリングされる。ＭＰ３規格の場合、これは、長いブロックの各々について５７６個のスペクトル値が生成され、かつ３つの短いブロックが１つの長いブロックに相当することを意味し、これは、１つの短いブロックが１９２個のスペクトル値を生成することを意味する。従って、重なりが５０パーセントである場合、５０パーセントオーバーラップの重複加算原理に起因して２つの時間サンプルブロックは常に１つのスペクトル値ブロックに繋がることから、ウィンドウ処理のために１１５２個の時間サンプルのウィンドウ長さが使用される。

ＭＰ３エンコーダの場合もＡＡＣエンコーダの場合も共に、ロスのある圧縮が生じる。ロスは、スペクトル値の量子化が実行されることによって導入される。スペクトル値は、具体的には、量子化により導入される量子化ノイズとも呼ばれる歪が音響心理学的マスキングしきい値より少ないエネルギーを有するように量子化される。

オーディオ信号の量子化が粗いほど、即ち、量子化器のステップサイズが大きいほど、量子化ノイズは高くなる。しかしながら、一方で、より粗い量子化の場合、考慮されるべき量子化器の出力値セットは少なくなり、よって、より粗く量子化される値は、より少数のビットを使用してエントロピー符号化される場合がある。これは、より粗い量子化はより高いデータ圧縮をもたらすが、同時により高い信号ロスに繋がることを意味する。

これらの信号ロスは、マスキングしきい値より低ければ問題にならない。仮に音響心理学的マスキングしきい値が僅かに超過されたとしても、おそらくはこれが未熟な聞き手に対して可聴妨害をもたらすことはない。しかしながら、何れにしても情報ロスが生じ、これは例えば所定の状況では可聴であり得るアーティファクトに起因して望ましくない場合がある。

具体的には、広帯域データ接続の場合、またはデータレートが決定的なパラメータでない場合、もしくは広帯域及び狭帯域データネットワークの双方が利用可能である場合は各々、ロスの多いものではなく、ロスレスまたはほぼロスレスであるオーディオ信号の圧縮表示を有することが望ましい場合がある。

図７に略示したこのようなスケーラブルエンコーダ及び図８に略示した関連のデコーダは、専門家による刊行物、ラルフ・ゲイガー、ユルゲン・ヘレ、ユルゲン・コーラー、カールハインツ・ブランデンブルグ共著「ＩＮＴＭＤＣＴ − ア・リンク・ビットウィーン・パーセプチュアル・アンド・ロスレス・オーディオ・コーディング」音響音声及び信号処理に関する国際会議（ＩＣＡＳＳＰ）、２００２年５月１３日−１７日、フロリダ州オーランド、から知られている。同様の技術は、欧州特許ＥＰ１４９５４６４Ｂ１に記述されている。図７において、要素７１、７２、７３、７４は、「知覚的に符号化されたビットストリーム」と呼ばれるロス有りの符号化されたビットストリームを生成するためのＡＡＣエンコーダを示す。このビットストリームは、基本層を表す。具体的には、図７におけるブロック７１は、ＡＡＣ規格に従った長いウィンドウ及び短いウィンドウによるウィンドウ処理を含む解析フィルターバンクを示す。ブロック７３は、ＡＡＣ規格に従った量子化／符号化を表し、ブロック７４は、出力側のビットストリームが量子化されたスペクトル値のハフマンコードワードだけでなく、復号が実行されてもよいように例えばスケール係数等の必要なサイド情報も含むようなビットストリーム生成を示す。ブロック７３におけるロス有りの量子化は、ここでは、図７において「知覚的モデル」７２として示されている音響心理学的モデルによって制御される。

既に指摘したように、ブロック７４の出力信号は、比較的少数のビットを必要とする基本スケーリング層であるが、単に元のオーディオ信号のロス有り表現であり、エンコーダアーティファクトを含む場合もある。ブロック７５、７６、７７、７８は、図７に示されているように、ロスレスまたは事実上ロスレスである拡張ビットストリームを生成するために必要とされる追加要素を表す。具体的には、ブロック７５が示すように、元のオーディオ信号は入力７０において整数ＭＤＣＴ（ＩｎｔＭＤＣＴ）の処理を受ける。さらに、ブロック７３により生成される、エンコーダロスが既に導入されている量子化されたスペクトル値は、逆量子化及びこれに続く丸め処理を受け、丸められたスペクトル値が得られる。これらは差分形成器７７へ供給されてスペクトル値に関する差が形成され、これは、次にブロック７８においてエントロピー符号化処理を施され、図７におけるスケーリングスキームのロスレス強化ビットストリームが生成される。従って、ブロック７７の出力における差分値のスペクトルは、ブロック７３において音響心理学的量子化により導入される歪を表す。

デコーダ側では、ロス有りの符号化されたビットストリームまたは知覚的に符号化されたビットストリームがビットストリームデコーダ８１へ供給される。ブロック８１は、その出力側で量子化されたスペクトル値のブロックシーケンスを提供し、これらは次に、ブロック８２において逆量子化処理を受ける。従って、ブロック８２の出力側には、逆量子化されたスペクトル値が存在するが、これらは、ブロック８２の入力における値とは違ってもはや量子化指数を表さず、この時点ではいわば「正しい」スペクトル値である。しかしながら、これらは、ロス有りの量子化に起因して、図７のブロック７３における符号化より前のスペクトル値とは異なる。これらの量子化されたスペクトル値は、次にブロック８３において各々合成フィルターバンクまたは逆ＭＤＣＴ変換（逆ＭＤＣＴ）へ供給され、音響心理学的に符号化されかつ再度復号されたオーディオ信号（知覚的オーディオ）が得られる。これは、図７のエンコーダにより導入される符号化誤差に起因して、図７の入力７０における元のオーディオ信号とは異なる。ロス有り圧縮だけでなくロスレス圧縮をも達成するために、ブロック８２のオーディオ信号は、ブロック８４における丸め処理へ供給される。次に加算器８５では、逆量子化されて丸められたスペクトル値が差分形成器７７により生成された差分値へ加算される。この場合、ブロック８６では、エントロピー復号化が実行され、拡張ビットストリームに含まれる、各々ロスレスまたは事実上ロスレスである情報を含むエントロピーコードワードが復号される。

従って、ブロック８５の出力においては、最適な場合では図７に示すエンコーダのブロック７５の出力におけるＭＤＣＴスペクトル値と同一であるＩｎｔＭＤＣＴスペクトル値が存在する。これは次に、逆整数ＭＤＣＴ（逆ＩｎｔＭＤＣＴ）処理を施され、ブロック８７の出力において符号化されたロスレスオーディオ信号または事実上ロスレスであるオーディオ信号（ロスレスオーディオ）が得られる。

しかしながら、整数ＭＤＣＴ（ＩｎｔＭＤＣＴ）は、整数出力値を生成するＭＤＣＴの近似値であり、リフティングスキームを使用してＭＤＣＴから導出される。これは、具体的には、ＭＤＣＴが所謂ギブンス回転に分割されるときに機能する。すると、結果的に、エンコーダ側のギブンス回転及びこれに続くＤＣＴ−ＩＶ、及びデコーダ側のＤＣＴ−ＩＶ及び下流の幾つかのギブンス回転による２段アルゴリズムが整数ＭＤＣＴとして生じる。従って、図７及び図８のスキームでは、ＡＡＣエンコーダにおいて生成される量子化されたＭＤＣＴスペクトルを使用して整数ＭＤＣＴスペクトルが予測される。従って、整数ＭＤＣＴは、概して、整数スペクトル値を生成しかつこの整数スペクトル値から丸め誤差によりロスが導入されることなしに再度時間サンプルを生成する整数変換の一例である。しかし、整数ＭＤＣＴ以外にも整数変換は存在する。

図７及び図８に示されているスケーリングスキームは、差分形成器７７の出力における差が小さい場合に十分効率的である程度でしかない。図７に示すスキームでは、各々ＭＤＣＴ及び整数ＭＤＣＴが類似し、かつブロック７５におけるＩｎｔＭＤＣＴがブロック７１においてＭＤＣＴから導出されることから、こうした状況が当てはまる。当てはまらなければ、多くの場合、差分値は元のＭＤＣＴ値より大きく、または元のＩｎｔＭＤＣＴ値よりも大きくなることから、これらの図に示されているスキームは適切ではなくなる。この場合、ブロック７８により出力される拡張スケーリング層は基本スケーリング層に関して高い冗長性を有するので、図７におけるスケーリングスキームはその価値を失ってしまう。

基本層が幾つかのビットを備え、拡張層が幾つかのビットを備え、かつ基本層内のビット数と拡張層内のビット数との和が、基本層が既にロスレス符号化であれば得られるはずのビット数に等しい場合、スケーラビリティスキームは常に最適である。但し、実際のスケーラビリティスキームでは、拡張層に追加のシグナリングビットが必要であることから、この最適状況は絶対に達成されない。しかしながら、目標は、この最適状況を可能な限り実現することにある。図７では、ブロック７１と７５における変換が比較的似ていることから、図７に示す概念は最適に近い。

しかしながらＭＰ３エンコーダは、図示されているように、フィルターバンクとして純粋なＭＤＣＴフィルターバンクを備えず、異なる副帯信号を生成するための第１のフィルターバンク段階と、これらの副帯信号をさらに分解するための下流ＭＤＣＴとを有するハイブリッドフィルターバンクを備え、さらに、ＭＰ３規格にも指摘されているように、ハイブリッドフィルターバンクにエイリアシング相殺段階がさらに追加実施されているので、この単純なスケーラビリティ概念は、ＭＰ３エンコーダの出力信号に適用される類のものではない場合がある。図７のブロック７５における整数ＭＤＣＴには、ＭＰ３規格によるハイブリッドフィルターバンクとの類似性がほとんどないことから、図７に示す概念をＭＰ３出力信号に直に適用すると、差分形成器７７の出力において極めて高い差分値が生じることになり、結果的に、差分形成器７７の出力における差分値を妥当に符号化するためには拡張層が膨大な数のビットを必要とするという理由により、極めて非効率的なスケーラビリティ概念が生じる。

ＭＰ３出力信号の拡張ビットストリームを生成する可能性を、エンコーダに関して図９に、かつデコーダに関して図１０に示す。ＭＰ３エンコーダ９０は、オーディオ信号を符号化して出力側に基本層９１を与える。ＭＰ３符号化されたオーディオ信号は、次にＭＰ３デコーダ９２へ供給され、ＭＰ３デコーダ９２は時間領域におけるロス有りオーディオ信号を出力する。次に、この信号は、原則的には図７におけるブロック７５と同様にセットアップされてもよいＩｎｔＭＤＣＴへ供給され、このブロック７５は次に、出力側にＩｎｔＭＤＣＴスペクトル値をもたらし、これが差分形成器７７へ供給される。差分形成器７７は、さらなる入力値として別のＩｎｔＭＤＣＴスペクトル値も有するが、これは、ＭＰ３復号化されたオーディオ信号によって生成されたものではなく、ＭＰ３エンコーダ９０へ供給された元のオーディオ信号によって生成されたものである。

デコーダ側では、基本層が再度ＭＰ３デコーダ９２へ供給され、出力１００において、図８のブロック８３の出力における信号に一致すると思われる復号されたロス有りオーディオ信号がもたらされる。この信号は次に、整数ＭＤＣＴ７５の処理を施され、その後、差分形成器７７の出力において生成された拡張層９３と共に符号化される。すると、加算器１０２の出力側１０１にロスレススペクトルが存在することになり、これを単に逆ＩｎｔＭＤＣＴ１０３によって時間領域に変換するだけで、図８のブロック８７の始まりにおける「ロスレスオーディオ」に一致するロスレスに復号されたオーディオ信号が得られる。

図９及び図１０に示す概念は、図７及び８に示す概念と同様に比較的効率よく符号化される拡張層をもたらすが、各々エンコーダ側（図９）及びデコーダ側（図１０）の双方において高価である。また、図７における概念と比較すると、完全なＭＰ３デコーダ９２及び追加的なＩｎｔＭＤＣＴ７５が必要である。

このスキームにおける別の欠点は、ビット精度の高いＭＰ３デコーダが規定されなければならなくなることにある。しかしながら、ＭＰ３規格はビット精度の高い仕様を示さず、デコーダとしての「適合性」の範囲内での準拠を求めているだけであることから、これは意図されていない。

デコーダ側では、さらに、完全なＩｎｔＭＤＣＴ７５を追加することが要求される。これらの追加要素は共に演算オーバーヘッドを生じさせ、具体的には、チップ消費及び電流消費の双方の観点から、及び付随する遅延の観点からモバイル機器における使用に不利である。

要するに、図７及び図８に示す概念の優位点は、時間領域方法に比べて、符号化されたオーディオ適応信号の完全な復号化が不要であることと、追加的に符号化されるべき周波数領域の量子化誤差を表すことによって効率的な符号化が達成されることにある。従って、ＩＳＯ／ＩＥＣＭＰＥＧ４スケーラブルロスレス符号化（ＳＬＳ）により標準化される方法は、Ｒ．ゲイガー、Ｒ．ユ、Ｊ．ヘレ、Ｓ．ラハルジャ、Ｓ．キム、Ｘ．リン、Ｍ．シュミット共著「ＩＳＯ／ＩＥＣＭＰＥＧ４・ハイディフィニション・スケーラブル・アドヴァンスト・オーディオ・コーディング」１２０回ＡＥＳ会議、２００６年５月２０−２３日、フランス、パリ、事前印刷６７９１、に記述されているように、この手法を使用している。従って、ＭＤＣＴをフィルターバンクとして使用する、例えばＭＰＥＧ−２／４ＡＡＣであるオーディオ符号化方法のバックワード互換ロスレス拡張が達成される。

しかしながら、この方法に使用されるハイブリッドフィルターバンクは、ＭＤＣＴとは対照的にＩｎｔＭＤＣＴまたは別の整数変換と互換性がないことから、この手法は、広範に使用されている方法ＭＰＥＧ−１／２の層３（ＭＰ３）へ直接適用できない場合がある。従って、復号されたスペクトル値と対応するＩｎｔＭＤＣＴ値との差分形成は概して小さい差分値には至らず、よって、差分値の効率的な符号化はもたらされない。この場合の問題点の核心は、ＩｎｔＭＤＣＴ及びＭＰ３ハイブリッドフィルターバンクの対応する変調関数間の時間シフトにある。これらの時間シフトは、不利なケースでは、差分値がＩｎｔＭＤＣＴ値より高い値を含むという事実にも繋がる位相シフトをもたらす。また、ＩｎｔＭＤＣＴの根底にある、例えばリフティングスキームのような原理をＭＰ３ハイブリッドフィルターバンクへ適用することは、ハイブリッドフィルターバンクは、ＭＤＣＴとは対照的に、その基本的手法に関して完全な復元をもたらさないフィルターバンクであるので、問題がある。

本発明の目的は、オーディオデータを処理するための、かつ具体的には、オーディオデータを符号化または復号化するための効率的な概念を提供することにある。

この目的は、請求項１に記載されているスペクトル値を後処理するための装置、請求項１７に記載されているエンコーダ、請求項２２に記載されているデコーダまたは請求項２３、２４、２５に記載されている方法もしくは請求項２６に記載されているコンピュータプログラムによって達成される。

本発明は、例えばスケーリングスキームの基本層を表すスペクトル値、即ちＭＰ３スペクトル値等は後処理を施され、この後処理から、代替変換アルゴリズムに従って得られる対応する値との互換性を有する値が得られる、という知見を基礎とする。従って、本発明によれば、このような後処理は、後処理の結果が、同じオーディオ信号のスペクトル表現への変換が第１の変換アルゴリズムではなく、本発明の好適な実施形態では整数変換アルゴリズムである第２の変換アルゴリズムによって行われる場合に達成される結果に可能な限り類似するように、スペクトル値の重み付け加算を使用して実行される。

従って、第１の変換アルゴリズムと第２の変換アルゴリズムとが著しく非互換的である場合でも、第１の変換アルゴリズムの所定のスペクトル値の重み付け加算によって、後処理された値と第２の変換の結果との間に、図９及び図１０における概念による高価かつ延いては不利な符号化及び復号化を必要としない、差分値によって効率的な拡張層が形成され得るほどに優れた互換性が達成されることが発見されている。具体的には、重み付け加算は、後処理されたスペクトル値が第１の変換アルゴリズムの出力において１つのスペクトル値と隣接するスペクトル値との重み付け加算から生成されるように実行され、この場合、好適には、各々隣接する周波数領域からのスペクトル値及び隣接する時間ブロックまたは時間周期からのスペクトル値の双方が使用される。隣接するスペクトル値の重み付け加算によって、第１の変換アルゴリズムにおいては、フィルターバンクの隣接するフィルター同士が、事実上全てのフィルターバンクにおいてそうであるように重なり合うことが考えられる。時間的に隣接するスペクトル値の使用により、即ち、第１の変換のスペクトル値による後続の２ブロックからの（例えば、同じ周波数またはほんの僅かに異なる周波数の）スペクトル値を重み付け加算することにより、さらに、典型的には、ブロックの重なりを使用する変換アルゴリズムが使用されることが考えられる。

好適には、重み係数はエンコーダ側及びデコーダ側の双方で永久的にプログラムされ、よって、重み係数を変換する追加ビットは不要である。代わりに、重み係数は信号依存性ではなく、単に第１の変換アルゴリズム及び第２の変換アルゴリズムに依存するだけであるので、重み係数は一度だけ設定され、例えばテーブルとして格納され、もしくはハードウェア内に固定的に実装される。具体的には、重み係数は、第１の変換アルゴリズム及び後処理構造のインパルス応答が第２の変換アルゴリズムのインパルス応答に等しくなるように設定することが好適である。この点に関して、重み係数の最適化は手動で使用されてもよく、または既知の最適化方法を使用して、例えば所定の代表的な試験信号を使用して、もしくは、先に示したように結果的なフィルターのインパルス応答を直に使用してコンピュータ援用されてもよい。

この同じ後処理装置は、事実上不適合である第１の変換アルゴリズムのスペクトル値を第２の変換アルゴリズムのスペクトル値に適合させるためにエンコーダ側及びデコーダ側の双方に使用されてもよく、よって、双方のスペクトル値ブロックは、最終的に、例えば基本層におけるＭＰ３符号化信号でありかつ拡張層としてロスレス拡張部を含むオーディオ信号のための拡張層を提供するために、差分形成処理を施されてもよい。

本発明がＭＰ３と整数ＭＤＣＴとの組合せに限定されないこと、但し、例えばオーディオエンコーダまたはオーディオデコーダにおける差分形成、加算または他の任意の組合せ演算を目的として事実上非互換的な変換アルゴリズム同士のスペクトル値を纏めて処理しなければならない場合には、本発明がどこでも使用されることは留意されるべきである。しかしながら、本発明に係る後処理デバイスの好適な使用法は、オーディオ信号が所定の品質で符号化される基本層のための拡張層を設けることにあり、この場合、拡張層は、基本層と共により高品質の復号化を達成するように機能する。このより高品質の復号化は、好適には既にロスレス復号化であるが、拡張層を使用して復号されたオーディオ信号の品質が基本層のみを使用する復号化よりも向上される限り、これは事実上のロスレス復号化であってもよい。

スペクトル値を後処理するための本発明に係る装置を示す。本発明に係るエンコーダ概念のエンコーダ側を示す。本発明に係るデコーダ概念のデコーダ側を示す。長いブロックのための本発明に係る後処理及び差分形成の好適な実施形態を示す詳細図である。第１の変形例による、短いブロックのための本発明に係る後処理の好適な実装を示す。図５Ａに示す概念において共に属する値ブロックを示す略図である。図５Ａに示す変形例のウィンドウシーケンスを示す。本発明の第２の変形例による短いブロックのための本発明に係る後処理装置及び差分形成の好適な実装を示す。図６Ａに示す変形例の様々な値を示す図である。図６Ａに示す変形例のブロックラスタを示す。スケーリングされたデータストリームを生成するための先行技術によるエンコーダを示す。スケーリングされたデータストリームを処理するための先行技術によるデコーダを示す。エンコーダの非効率的な変形例を示す。デコーダの非効率的な変形例を示す。

以下、添付の図面を参照して、本発明の好適な実施形態をさらに詳しく説明する。

図１は、好適にはオーディオ信号のロス有り表現であるスペクトル値を後処理するための本発明に係る装置を示し、前記スペクトル値は、オーディオ信号を、それらがロス有りであるか否かという事実に関わらずスペクトル表現に変換するための基本的な第１の変換アルゴリズムを有する。図１に示す本発明に係る装置、または図１に略示している方法は各々、装置に関して、オーディオ信号サンプルのブロックシーケンスを示すスペクトル値のブロックシーケンスを出力するための手段１２によって特徴づけられる。後述する本発明の好適な一実施形態では、手段１２によって出力されるブロックシーケンスは、ＭＰ３フィルターバンクにより生成されるブロックシーケンスである。スペクトル値のこのブロックシーケンスは、本発明に係るな結合器１３へ供給される。結合器は、スペクトル値のブロックシーケンスのスペクトル値重み付け加算を実行し、出力１４が示すように出力側において後処理されたスペクトル値のブロックシーケンスを取得するように実施される。具体的には、結合器１３は、周波数帯域及び時間周期用に後処理されたスペクトル値を計算するために、その周波数帯域及び時間周期のためのブロックシーケンスのスペクトル値と、隣接する周波数帯域及び／又は隣接する時間周期のスペクトル値とを使用するように実施される。さらに、結合器は、使用されるスペクトル値を加重するための重み係数を使用するように実装されることから、後処理されたスペクトル値は、オーディオ信号をスペクトル表現に変換するための第２の変換アルゴリズムにより取得されるスペクトル値の近似値である。しかしながら、この第２の変換アルゴリズムは第１の変換アルゴリズムとは異なる。

図１の底部の略図は、これを示す。第１の変換アルゴリズムは、参照符号１６で示されている。結合器により実行される後処理は、参照符号１３で示され、第２の変換アルゴリズムは参照符号１７で示されている。ブロック１６、１３及び１７のうちで、ブロック１６及び１７は固定的であり、典型的には、外部条件に起因して不可欠である。唯一、参照符号１８で示される後処理手段１３または結合器１３の重み係数は、ユーザにより設定されてもよい。この関係性において、前記重み係数は信号依存性ではないが、第１の変換アルゴリズム及び第２の変換アルゴリズムに依存する。互いに結合させるべき、周波数に関して隣接するスペクトル値または時間的に隣接するスペクトル値の個数が、重み係数１８によりさらに設定されてもよい。図４から図６を参照して後に説明するように、重み係数が０に設定されれば、この重み係数に関連づけられるスペクトル値はこの結合において考慮されない。

本発明の好適な実施形態では、各スペクトル値について、重み係数セットが準備される。従って、結果的にかなりの量の重み係数が生じる。しかしながら、重み係数は変換される必要がなく、エンコーダ側及びデコーダ側へ永久的にプログラムされるだけでよいので、これが問題になることはない。エンコーダ及びデコーダが、このようにして各スペクトル値に関する重み係数セットの点で一致すれば、かつ適用可能であれば、本発明では各時間周期、または後に示すように各サブブロックまたは順序づけ位置の各々について信号伝送をする必要がなく、よって、本本発明に係る概念は、追加情報を信号伝送することなく拡張層におけるデータレートの実質的低減を達成し、品質ロスも伴わない。

従って、本発明は、第１の変換アルゴリズムにより取得される周波数値と、第２の変換アルゴリズムにより取得される周波数値との間の位相シフトの補償を提供する。位相シフトのこの補償は、複素スペクトル表現によって提示されてもよい。この目的のために、明確を期して、実数部フィルターバンク出力値から虚数部を計算するために時間的及びスペクトル的に隣接するスペクトル値の一次結合が取得される、ＤＥ１０２３４１３０に記述されている概念が包含される。復号されたＭＰ３スペクトル値にこの処置が使用されていれば、複素値のスペクトル表現が取得されることになる。次に、結果的に生じる複素スペクトル値の各々は、本発明に従って可能な限り第２の変換アルゴリズムに近い値、即ち好適には対応するＩｎｔＭＤＣＴ値に近い値を得るように、かつ延いては差分形成に適するように、その位相位置において複素値補正係数による乗算によって修正されてもよい。さらに、本発明によれば、必要とされる可能性のある振幅補正も実行される。本発明によれば、各々複素値スペクトル表現の形成及び位相または和補正のためのこれらのステップは、第１の変換アルゴリズムを基礎とするスペクトル値と時間的及びスペクトル的近傍値との一次結合によって、差分を対応するＩｎｔＭＤＣＴ値まで最小化する新しいスペクトル値が形成されるように集約される。本発明によれば、ＤＥ１０２３４１３０とは対照的に、実数部及び虚数部を取得するために重み係数を使用するフィルターバンク出力値の後処理は実行されない。代わりに、本発明によれば、後処理は、図１の底部に示したように、第１の変換アルゴリズム１６と後処理１３との結合が可能な限り第２の変換アルゴリズムに一致する結果をもたらすような重み係数によって設定される類の重み係数を使用して実行される。

図２及び図３は、スケーラブルエンコーダのエンコーダ側（図２）及びデコーダ側（図３）の双方における、図１に示す本発明に係る概念の好適な一使用分野を示す。第１の変換アルゴリズムによって取得されてもよいＭＰ３ビットストリーム２０、または概してビットストリームは、各々ブロック２１へ供給され、ビットストリームから、例えばＭＰ３スペクトル値であるスペクトル値が生成される。従って、ブロック２１におけるスペクトル値の復号化は、典型的には、エントロピー復号化と逆量子化とを含む。

次に、ブロック１０において近似値の計算が実行されるが、各々近似値または後処理されたスペクトル値ブロックの計算は、図１に示したようにして実行される。この直後、ブロック２２において、ブロック２３におけるＩｎｔＭＤＣＴ変換により得られるＩｎｔＭＤＣＴスペクトル値を使用して差分形成が実行される。従って、ブロック２３はオーディオ信号を入力信号として取得するが、入力２０へ供給されるＭＰ３ビットストリームは、このオーディオ信号から符号化により得られたものである。好適には、ブロック２２によって取得される差分スペクトルは、例えばデルタ符号化、ハフマン符号化、算術符号化またはデータレートは低減されるが信号ロスは導入されない他の任意のエントロピー符号化を含むロスレス符号化２４を施される。

デコーダ側において、ＭＰ３ビットストリーム２０は、図２の入力２０へ供給されたものと同様に、ここでもブロック２１によってスペクトル値の復号化処理が施され、これは図２のブロック２１に相当してもよい。この直後、ブロック２１の出力において得られたＭＰ３スペクトル値が再度図１またはブロック１０に従って処理される。しかしながら、デコーダ側では、ブロック１０により出力される後処理されたスペクトル値のブロックは加算段３０へ供給される。加算段３０は、別の入力において、図２におけるブロック２４により出力されたロスレス拡張ビットストリームからロスレス復号化３１により得られるＩｎｔＭＤＣＴ差分値を取得する。次に、ブロック３１により出力されるＩｎｔＭＤＣＴ差分値と、ブロック１０により出力される処理されたスペクトル値との加算により、加算段３０の出力３２において、元のオーディオ信号の、即ち図２のブロック２３へ入力されたオーディオ信号のロスレス表現であるＩｎｔＭＤＣＴスペクトル値のブロックが取得される。次に、ブロック３３により、ロスレスオーディオ出力信号が生成される。ブロック３３は、ロスレスまたは事実上ロスレスであるオーディオ出力信号を得るために、逆ＩｎｔＭＤＣＴを実行する。総体的に、ブロック３３の出力におけるオーディオ出力信号は、ブロック２１の出力信号がＭＰ３合成ハイブリッドフィルターバンクによって処理されていれば取得されるはずのオーディオ信号より優れた品質を有する。従って、出力３３におけるオーディオ出力信号は、実施状況に応じて、図２のブロック２３へ入力されたオーディオ信号と同一の再生版、あるいは、このオーディオ信号と同一ではない、即ち完全にロスレスではないが、既に通常のＭＰ３符号化オーディオ信号より優れた品質を有する表現であり得る。

この時点で、第１の変換アルゴリズムとしては、そのハイブリッドフィルターバンクを有するＭＰ３変換アルゴリズムが好適であること、及び第２の変換アルゴリズムとしては、整数変換アルゴリズムのようなＩｎｔＭＤＣＴアルゴリズムが好適であることは留意されるべきである。しかしながら、本発明は既に、２つの変換アルゴリズムが互いに異なるあらゆる状況において効果的であり、この場合、２つの変換アルゴリズムは必ずしもＩｎｔＭＤＣＴ変換の範囲内にある整数変換アルゴリズムである必要はない。これら２つの変換アルゴリズムはＭＤＣＴの範囲内で必ずしも可逆整数変換である必要はない通常の変換アルゴリズムであってもよい。しかしながら、本発明によれば、第１の変換アルゴリズムは非整数変換アルゴリズムであること、及び第２の変換アルゴリズムは整数変換アルゴリズムであることが好適であり、本発明による後処理は、特に、第１の変換アルゴリズムが、第２の変換アルゴリズムにより出力されるスペクトルに比べて位相シフトされかつ／またはその量が変更されたスペクトルを出力する場合に効果的である。具体的には、第１の変換アルゴリズムが完全な再構成性でない場合、一次結合を使用する単純な本発明による後処理は特に効果的であり、かつ効率的に使用される場合がある。

図４は、エンコーダ内部の結合器１３の好適な実施を示す。しかしながら、デコーダ内での実装は、図４の場合のように加算器２２が加算器２２の上のマイナス符号で示される差分形成を実行しない場合、但し、図３のブロック３０に示すような加算演算が実行される場合に、同一である。何れの場合も、入力４０へ供給される値は、エンコーダ実施において図２の第２の変換アルゴリズム２３によって取得される値であり、またはデコーダ実施において図３のブロック３１により取得される値である。

本発明の好適な一実施形態では、結合器は３つのセクション４１、４２、４３を含む。各セクションは３つの乗算器４２ａ、４２ｂ、４２ｃを含み、各乗算器は周波数指数ｋ−１、ｋまたはｋ＋１を有するスペクトル値に関連づけられる。従って、乗算器４２ａは周波数指数ｋ−１に関連づけられ、乗算器４２ｂは周波数指数ｋに関連づけられ、かつ乗算器４２ｃは周波数指数ｋ＋１に関連づけられる。

従って、各分岐は、ブロック指数νまたは各々ｎ＋１、ｎまたはｎ−１を有する電流ブロックのスペクトル値に加重して、その電流ブロックの重み付けスペクトル値を得るように機能する。

従って、第２のセクション４２は、時間的に先行するブロックまたは時間的に後続するブロックのスペクトル値に加重するように機能する。セクション４１に関連して、セクション４２は、ブロックｎ＋１に時間的に続くブロックｎのスペクトル値に加重するように機能し、かつセクション４３は、ブロックｎに続くブロックｎ−１に加重するように機能する。これを示すために、図４では遅延要素４４が示されている。明確を期して、参照符号４４により遅延要素「ｚ^-1」を１つだけ示す。

具体的には、各乗算器は、スペクトル指数依存重み係数ｃ₀（ｋ）からｃ₈（ｋ）を有している。従って、本発明のこの好適な実施形態では、結果的に９個の重み付けスペクトル値が生成され、これらから、周波数指数ｋ及び時間ブロックｎに関して後処理されたスペクトル値ｙ＾が計算される。これらの９個の重み付けスペクトル値は、ブロック４５において合計される。

従って、周波数指数ｋ及び時間指数ｎに関して後処理されたスペクトル値は、時間的に先行するブロック（ｎ−１）及び時間的に後続するブロック（ｎ＋１）の異なって加重される可能性のあるスペクトル値の加算によって、及び各々上方に（ｋ＋１）かつ下方に（ｋ−１）隣接するスペクトル値を使用して計算される。しかしながら、より単純な実施では、周波数指数ｋのスペクトル値が同じブロックからの隣接する１つのスペクトル値ｋ＋１またはｋ−１のみと結合されるだけであってもよく、周波数指数ｋのスペクトル値と結合されるこのスペクトル値は、必ずしも直に隣接している必要はなく、そのブロックからの別のスペクトル値であってもよい。しかしながら、隣接する帯域同士の典型的な重なり合いに起因して、上側及び／又は下側の直に隣接するスペクトル値との結合を実行することが好適である。

さらに、或いは、または追加的に、異なる持続時間、即ち異なるブロック指数のスペクトル値を有する各スペクトル値は、ブロックｎからの対応するスペクトル値と結合されてもよい。この場合、異なるブロックからのこのスペクトル値は、必ずしも同じ周波数指数を有する必要はなく、異なる、例えば隣接する周波数指数を有してもよい。しかしながら、好適には、少なくとも同じ周波数指数を有する異なるブロックからのスペクトル値が、その時点の関連ブロックからのスペクトル値と結合される。この異なるブロックもやはり、必ずしも時間的に直に隣接するものである必要はないが、ＭＰ３エンコーダまたはＡＡＣエンコーダの場合に典型的であるように、第１の変換アルゴリズム及び／又は第２の変換アルゴリズムがブロック重複特性を有する場合には、そうであることが特に好適である。

これは、図４の重み係数が考慮される場合、少なくとも重み係数ｃ₄（ｋ）はゼロではなく、及び少なくとも第２の重み係数もゼロではないが、他の全ての重み係数がゼロであってもよいことを意味する。これにより、既に処理が施されている場合もあるが、この処理は、ゼロではない重み係数が少数であることに起因して、図１の下半分を考慮すれば、第２の変換アルゴリズムの比較的粗い概算でしかない場合がある。１０個以上のスペクトル値を考慮するためには、さらに未来かつさらに過去のブロックへのさらなる分岐が追加されてもよい。また、スペクトル的にさらに離れて存在するスペクトル値のためのさらなる乗算器及び対応するさらなる重み係数が追加されて、図４の３×３のフィールドから４つ以上のライン及び／又は４つ以上のカラムを備えるフィールドが生成されてもよい。しかしながら、各スペクトル値に９個の重み係数が許容される場合は、これより少数の重み係数の場合に比べて実質的向上が達成されるが、重み係数の数が増えても、ブロック２２の出力における差分値の低減に関してさらなる実質的向上は達成されず、よって、隣接するサブバンドフィルターの重なり合い及び隣接するブロックの時間的重なり合いを有する典型的な変換アルゴリズムによるより多くの重み係数は実質的な向上をもたらさないことが発見されている。

長いブロックのシーケンスに使用される５０パーセントの重なりに関して、図５Ｃの略図における左側の４５を参照する。４５には、連続する２つの長いブロックが略示されている。従って、本発明によれば、図４に示す結合器の概念は、長いブロックのシーケンスが使用される場合に常に使用される。この場合、ＩｎｔＭＤＣＴアルゴリズム２３のブロック長さ及びＩｎｔＭＤＣＴアルゴリズムの重なり合いの程度は、ＭＰ３解析フィルターの重なり合いの度合い及びＭＰ３分析フィルターのブロック長さに等しく設定される。概して、両変換アルゴリズムのブロックの重なり合い及びブロック長さは等しく設定されることが好適である。第２の変換アルゴリズム、即ち例えば図２のＩｎｔＭＤＣＴ２３はこれらのパラメータに関して容易に設定できるが、第１の変換アルゴリズムに関しては、特に第１の変換アルゴリズムがＭＰ３の例に関連するものとして標準化され、かつ頻繁に使用され、よって変更されなくてもよい場合にこれらの設定が容易ではないので、これらの設定に関して特別な限定を提示しない。

図２及び図３を参照して既に示したように、図３における関連のデコーダは、図２のブロック２２の出力において、または図３のブロック３１の出力において再度同じ近似値、即ちＩｎｔＭＤＣＴ差分値を加算することにより差分形成を逆転する。

従って、本発明によれば、この方法は、概して異なるフィルターバンクを使用して得られる、即ち第１の変換アルゴリズムを基礎とする１つのフィルターバンク／変換が第２の変換アルゴリズムを基礎とするフィルターバンク／変換とは異なる場合に得られるスペクトル表現間の差分形成に適用されてもよい。

具体的なアプリケーションの一例は、図４を参照して記述したような、「長いブロック」からのＭＰ３スペクトル値をＩｎｔＭＤＣＴに関連して使用することである。この場合のハイブリッドフィルターバンクの周波数分解能は５７６であることから、ＩｎｔＭＤＣＴも５７６の周波数分解能を備えることになり、よって、ウィンドウの長さは最大１１５２個の時間サンプルを備えてもよい。

次に説明する例では、時間的及びスペクトル的に直近の値しか使用されないが、一般的なケースでは、より遠くに離れた値も（または代替的に）使用されてもよい。

ｎ番目のＭＰ３ブロックにおけるｋ番目の帯域のスペクトル値がｘ（ｋ，ｎ）で示され、かつＩｎｔＭＤＣＴの対応するスペクトル値がｙ（ｋ，ｎ）で示されていれば、図４に示すように、ｄ（ｋ，ｎ）について差分が計算される。ｙ＾（ｋ，ｎ）は、一次結合によって得られるｙ（ｋ，ｎ）の近似値であり、図４下部の長い式が示すようにして決定される。

ここで、５７６個の副帯の各々で位相差が異なることに起因して、明確な係数セットが要求される場合があることは留意されるべきである。実際の実現においては、図４に示すように、時間的に隣接するスペクトル値へアクセスするために、出力値が各々対応する先行ブロック内の入力値に一致する遅延４４が使用される。従って、時間的に後続するスペクトル値へのアクセスを有効化するためには、やはり、入力４０へ印加されるＩｎｔＭＤＣＴスペクトル値が遅延４６によって遅延される。

図５Ａは、ＭＰ３ハイブリッドフィルターバンクが、１９２個のスペクトル値により各々３つのサブブロックが生成される短いブロックを準備する場合の幾分修正された手順を示す。この場合、本発明によれば、図５Ａの第１の変形例とは別に、図６Ａにおける第２の変形例も好適である。

第１の変形例は、対応するスペクトル値ブロックを形成するための周波数分解能１９２を有するＩｎｔＭＤＣＴの三重のアプリケーションを基礎とする。この場合、近似値は、１つの周波数指数に属する３つの値及びそれらに対応するスペクトル近傍値から形成されてもよい。この場合、各サブブロックについて、明確な係数セットが要求される。従って、この手順を記述するために、サブブロック指数ｕを導入する。よって、ｕもまた、長さ５７６の完全なブロックの指数に一致する。従って、式に表すと、図５Ａの式システムのようになる。このようなブロックシーケンスを、値に関して図５Ｂに、かつウィンドウに関して図５Ｃに示す。ＭＰ３エンコーダは、５０において示すように短いＭＰ３ブロックを準備する。第１の変形例も、図５Ｂにおける５１に示すように、短いＩｎｔＭＤＣＴブロックｙ（ｕ₀）、ｙ（ｕ₁）及びｙ（ｕ₂）を準備する。これにより、３つの短い差分ブロック５２は、ブロック５０、５１及び５２において周波数ｋにおける対応するスペクトル値の間に１：１表現が生じるように計算されてもよい。

図４とは対照的に、図５Ａでは、遅延４４が示されていないことに留意すべきである。これは、ブロックｎの３つのサブブロック０、１、２が全て計算されている場合にのみ後処理を実行し得るという事実の結果である。指数０を有するサブブロックが時間的に最初のサブブロックであり、かつ指数１を有する次のサブブロックが時間的に後のブロックであり、かつ指数ｕ＝２が同じく時間的に後の短いブロックであれば、指数ｕ＝０の差分ブロックは、サブブロックｕ₀、サブブロックｕ₁及びサブブロックｕ₂からのスペクトル値を使用して計算される。これは、指数０を有するその時点で計算されているサブブロックに関して、未来のサブブロック１及び２が使用されるが、過去のスペクトル値は使用されないことを意味する。これは、既知でありかつ例えば先に述べたエドラーによる専門家の刊行物において示されているように、オーディオ信号内に一時的結果が存在していて、短いブロックへの切換が実行されたので、実用的である。しかしながら、サブブロック指数１を有する差分値を得るために使用される指数１を有するサブブロックの後処理された値は、時間的に先行するサブブロック、その時点の現行サブブロック、かつ時間的に後続するサブブロックから計算される。一方で、指数２を有する第３のサブブロックの後処理されたスペクトル値は、未来のサブブロックを使用して計算されず、単に指数１及び指数０を有する過去のサブブロックを使用して計算される。これもまた、図５Ｃに示すように、長いウィンドウへのウィンドウ切換が停止ウィンドウによってやはり容易に開始され、よって、後に再度、図４に示す長いブロックのスキームへの直接的変更が実行され得る限りにおいて、技術的に実用的である。

従って、図５は、具体的には短いブロックの場合、しかし一般的に見ても、重み付け及び合計後に後処理されたスペクトル値をもたらすスペクトル値を得るためには、過去のみ、または未来のみを参照し、必ずしも、図４に示すように過去及び未来の双方を参照しないことが実用的であり得る点を明らかにしている。

以下、図６Ａ、６Ｂ及び６Ｃを参照して、短いブロックの第２の変形例を示す。この第２の変形例でも、ＩｎｔＭＤＣＴの周波数分解能は５７６であり、よって、スペクトル的に隣接する３つのＩｎｔＭＤＣＴスペクトル値は各々、１つのＭＰ３スペクトル値の周波数領域内に存在する。従って、これらの３つのＩｎｔＭＤＣＴスペクトル値の各々について、差分形成を目的として、これらの時間的に連続する３つのサブブロックスペクトル値及びそのスペクトル的な近傍値から明確な一次結合が形成される。順位指数とも称される指数ｓは、この場合、３値よりなる各グループ内の位置を示す。従って、結果的に、図６Ａにおいてブロック図の下に示した式が生じる。この第２の変形例は、ＩｎｔＭＤＣＴにおいて重なり合う面積が小さいウィンドウ関数が使用される場合に、考慮される信号セクションが３つのサブブロックのそれに十分に一致することから、特に適切である。この場合は、第１の変形例の場合と同様に、先行または後続の長いブロックのＩｎｔＭＤＣＴのウィンドウの形を、各々完全な復元がもたらされるように適合化することが好適である。第１の変形例の対応するブロック図を、図５Ｃに示す。図６Ｃは、第２の変形例の対応するブロック図を示すが、この場合は、長いウィンドウ６３によって唯一の長いＩｎｔＭＤＣＴブロックが生成される。この長いＩｎｔＭＤＣＴブロックは、ここではスペクトル値のｋ個の三重ブロックを備え、ｓ＝０、ｓ＝１及びｓ＝２から結果的に生じるこのような三重ブロックの帯域幅は、図６Ｂにおける短いＭＰ３ブロック６０のブロックｋの帯域幅に等しい。図６Ａからは、指数ｋを有する三重ブロックに関する、ｓ＝０を有する第１のスペクトル値からの減算に際しても、現行のサブブロック、未来のサブブロック及びその次の未来のサブブロック０、１、２の値は使用されるが、過去の値は使用されないことが分かると思われる。しかしながら、三重グループの第２の値ｓ＝１に関して差分値を計算するためには、先行するサブブロック及び未来のサブブロックからのスペクトル値が使用され、一方で、順位指数ｓ＝２を有する差分スペクトル値を計算するためには、図６Ａにおいて分岐４３に対して過去である分岐４１及び４２が示すように、先行するサブブロックのみが使用される。

この時点で、全ての計算規定に従って、周波数領域の限界を超える項、即ち、例えば周波数指数−１または５７６または１９２が各々省略されることは留意されるべきである。従ってこれらの場合、図４から図６における一般例では、一次結合は９項ではなく６項に減らされる。

以下、図５Ｃ及び図６Ｃにおけるウィンドウシーケンスを詳細に参照する。これらのウィンドウシーケンスは、図４におけるシナリオによって処理される一連の長いブロックからなる。ここで、開始ウィンドウ５６は、開始ウィンドウの始まりにおける長い重複領域から開始ウィンドウの終わりにおける短い重複領域へ「変換」されながら非対称形状を有して続く。これに類似して、やはり一連の短いブロックから一連の長いブロックへ変換され、よって始まりにおける短い重複領域と終わりにおける長い重複領域とを備える停止ウィンドウ５７が存在する。

ウィンドウ切換は、先に述べたエドラーによる専門家の刊行物に示されているように、オーディオ信号における持続時間が、過渡信号を備えるエンコーダによって検出されれば選択される。

このようなシグナリングはＭＰ３ビットストリーム内に位置づけられ、よって、ＩｎｔＭＤＣＴが、図２に従って、かつ図５Ｃの第１の変形例に従って同じく短いブロックに切換すれば、明確な過渡検出は不要であり、ＭＰ３ビットストリーム内の短いウィンドウの認知のみに基づく過渡検出が行われる。開始ウィンドウにおいて値の後処理を行うためには、先行するウィンドウとの長い重複領域に起因して、先行するブロックの指数ｎ−１を有するブロックを使用することが好適であり、後続ブロックの指数を有するブロックは、重複領域が短いので、僅かだけ加重されるか概して使用されない。これに類似して、後処理を行う停止ウィンドウは、現行ブロックｎの値の他に未来のブロックの指数ｎ＋１を有する値しか考慮せず、過去の値に対しては単に軽い重み付けを実行するか０に等しい重み付けを実行し、即ち、過去の値、例えば第３の短いブロックは使用しない。

しかしながら、図６Ｃに示すように、ＩｎｔＭＤＣＴ２３によって、即ち第２の変換アルゴリズムによって実行されるウィンドウのシーケンスは短いウィンドウへの切換を実行せず、選好的に使用されるウィンドウ切換を実行する場合は、各々図６Ｃにおける６３により、また開始ウィンドウ５６及び停止ウィンドウ５７により示される短い重複を有するウィンドウを開始または停止することが好適である。

図６Ｃに示す実施形態では、図２のＩｎｔＭＤＣＴは短いウィンドウのモードへ変わらないが、ＭＰ３ビットストリーム内の短いウィンドウのシグナリングは、ともかくも開始ウィンドウ、図６Ｃに６３で示される短い重複のウィンドウ及び停止ウィンドウとのウィンドウ切換を起動するために使用されてもよい。

さらに、具体的には、ＡＡＣ規格に示される、各々長いブロック用の５７６個の値及び短いブロック用の１９２個の値よりなるＭＰ３ブロック長さまたはＭＰ３フィードに適合化されたウィンドウシーケンス、及び具体的には、そこに示される開始ウィンドウ及び停止ウィンドウが、本発明のブロック２３におけるＩｎｔＭＤＣＴの実施に特に適することは留意されるべきである。

以下、第１の変換アルゴリズム及び後処理の近似値の精度を参照する。

ブロック内の位置０．．．５７５に各々１つのインパルスを有する５７６個の入力信号について、下記のステップを実行した。
−ハイブリッドフィルターバンク＋近似値を計算する。
−ＭＤＣＴを計算する。
−ＭＤＣＴスペクトル成分の二乗和を計算する。
−ＭＤＣＴスペクトル成分と近似値との偏差の二乗和を計算する。ここでは、５７６個の信号全てにわたる最大二乗偏差が決定される。

全ての位置に及ぶ最大相対二乗偏差は、下記の通りであった。
−図４による長いブロックを使用した場合、約３．３％。
−図６による短いブロック（ハイブリッド）及び長いブロック（ＭＤＣＴ）を使用した場合、約２０．６％。

従って、２つの変換の入力にインパルスが存在する場合、第２の変換の近似値とスペクトル成分との偏差の二乗和は、入力ブロックにおけるインパルスの位置に関わらず、第２の変換のスペクトル成分の二乗和の３０％以下（かつ好適には、各々２５％または１０％以下）であるべきであると言うことができる。二乗和を計算するためには、インパルスによって影響されるスペクトル成分の全てのブロックを考慮すべきである。

前述の誤差検査（ＭＤＣＴ対ハイブリッドＦＢ＋後処理）では、信号非依存性の相対誤差が常に考慮されたことは留意されるべきである。

しかしながら、ＩｎｔＭＤＣＴ（対ＭＤＣＴ）では、絶対誤差は信号非依存であり、丸められた整数値のほぼ−２から２までの範囲内に存在する。このことから、結果的に、相対誤差は信号依存になる。この信号依存性を排除するために、好適には、完全に制御されたインパルス（例えば、１６ビットのＰＣＭで値３２７６７）を想定する。すると、これにより結果的に、約３２７６７／平方根（５７６）＝１３６５の平均振幅を有する事実上平坦なスペクトルが生じる（エネルギー保存）。よって、平均二乗誤差は約２＾２／１３６５＾２＝０．０００２％になり、即ち取るに足らないものとなる。

しかしながら、入力におけるインパルスが極めて小さいものであれば、誤差は絶大になる。振幅１または２のインパルスは、事実上、ＩｎｔＭＤＣＴ近似値誤差内で完全に失われる。

従って、近似値、即ち重み係数として望ましい値の精度に関する誤差基準は、完全に制御されたインパルスに関して指示されるときに最も比肩し得るものとなる。

状況に依存して、本発明による方法は、ハードウェアまたはソフトウェアで実施されてもよい。実施は、デジタル記憶媒体上で、具体的には、本発明が実行されるようにプログラム可能コンピュータシステムと協働し得る電子読取り可能な制御信号を有する磁気記録ディスクまたはＣＤ上で行われてもよい。従って一般に、本発明は、コンピュータ上で起動された際、本発明による方法を実行するための機械読取り可能なキャリア上へ格納されるプログラムコードを有するコンピュータプログラム製品にも存する。従って言い換えれば、本発明は、コンピュータ上で実行されると本方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現されてもよい。

Claims

オーディオ信号をスペクトル表現に変換するための第１の変換アルゴリズム（１６）を基礎としてスペクトル値を後処理するための装置（１０）であって、
前記オーディオ信号のサンプルのブロックシーケンスを表すスペクトル値のブロックシーケンスを出力するための手段（１２）と、
後処理されたスペクトル値のブロックシーケンスを得るために、前記スペクトル値のブロックシーケンスのスペクトル値を重み付け加算するための結合器（１３）と、
を備え、
前記結合器（１３）は、周波数帯域及び持続時間に関して後処理されたスペクトル値を計算するために、前記周波数帯域及び前記持続時間に関する前記ブロックシーケンスのスペクトル値と、別の周波数帯域または別の持続時間に関するスペクトル値とを使用し、
前記結合器（１３）は、重み付け加算に際して、前記後処理されたスペクトル値が、前記オーディオ信号をスペクトル表現に変換するための第２の変換アルゴリズム（１７）によって得られるスペクトル値の近似値となるような重み係数を使用し、
前記第２の変換アルゴリズム（１７）は前記第１の変換アルゴリズム（１６）とは異なること、
を特徴とする装置。
前記第１の変換アルゴリズム（１６）は２つの段を有するハイブリッド変換アルゴリズムであり、かつ、前記第２の変換アルゴリズム（１７）は一段変換アルゴリズムであること、を特徴とする請求項１記載の装置。
前記第１の変換アルゴリズム（１６）は多相フィルターバンクと、修正離散余弦変換とを備え、前記第２の変換アルゴリズム（１７）は整数ＭＤＣＴであること、を特徴とする請求項１記載の装置。
前記第１の変換アルゴリズム（１６）及び前記第２の変換アルゴリズム（１７）は実出力信号を出力すること、を特徴とする請求項１記載の装置。
前記結合器（１３）は、前記第１の変換アルゴリズム（１６）及び前記結合器（１３）により実行される後処理が共に、前記第２の変換アルゴリズム（１７）のインパルス応答に近似するインパルス応答をもたらすような重み係数を使用するように実装されること、を特徴とする請求項１記載の装置。
前記第１の変換アルゴリズム及び後処理からの近似において、前記重み係数は、前記２つの変換の入力におけるインパルスによって、前記近似と前記第２の変換のスペクトル成分との偏差の二乗和が前記第２の変換のスペクトル成分の二乗和の３０％以下であるように選択されること、を特徴とする請求項５記載の装置。
前記ブロックシーケンスを出力するための手段（１２）は、前記オーディオ信号のロス有り表現であるブロックを出力すること、を特徴とする請求項１記載の装置。
周波数帯域ｋの後処理されたスペクトル値を計算するための前記結合器（１３）は、
現行ブロックの重み付けされたスペクトル値を得るために、周波数帯域ｋ、周波数帯域ｋ−１または周波数帯域ｋ＋１の現行ブロックのスペクトル値に加重するための第１のセクション（４１、４２、４３）と、
時間的に先行するブロック、または時間的に後続するブロックの重み付けされたスペクトル値を取得するために、時間的に先行するブロックｋ−１、または時間的に後続するブロックｋ＋１のスペクトル値に加重するための第２のセクション（４１、４２、４３）と、
前記重み付けされたスペクトル値を加算して、後処理されたスペクトル値の現行ブロックまたは先行するブロックもしくは後続するブロックの前記周波数帯域ｋの後処理されたスペクトル値を得るための手段（４５）と、
を備えたこと、
を特徴とする請求項１記載の装置。
先行するブロックのスペクトル値に加重するための第３のセクション（４３）をさらに備え、前記第１のセクションは後続するブロックのスペクトル値に加重し、前記第２のセクション（４２）は現行ブロックのスペクトル値に加重し、加算器（４５）は、前記３つのセクションの重み付けされたスペクトル値を加算して、前記後処理されたスペクトル値の現行ブロックの後処理されたスペクトル値を得ること、を特徴とする請求項８記載の装置。
前記第１の変換アルゴリズムはブロック重複関数を備え、前記スペクトル値のブロックシーケンスの基礎である時間オーディオ信号のサンプルブロックは重なり合うこと、を特徴とする請求項１記載の装置。
前記結合器（１３）は、各スペクトル値について、信号非依存の重み係数セットを使用すること、を特徴とする請求項１記載の装置。
前記スペクトル値のブロックシーケンスは、そのブロックセットに後続する、またはそのブロックセットに先行する長いスペクトル値ブロックより短いスペクトル値ブロックセットを備え、
前記結合器（１３）は、前記短いブロックセットのうちの幾つかのブロックから同じ周波数帯域または隣接する周波数帯域を使用して、前記スペクトル値ブロックセットの後処理されたスペクトル値を計算すること、
を特徴とする請求項１記載の装置。
前記結合器（１３）は、短いスペクトル値ブロックに起因して、短いブロックのスペクトル値のみを使用しかつ先行する長いブロックまたは後続する長いブロックのスペクトル値を使用せずに後処理されたスペクトル値を計算するように実装されること、を特徴とする請求項１２記載の装置。
前記結合器（１３）は、下記の式を実行し、

ｙ＾（ｋ，ｎ）は、周波数指数ｋ及び時間指数ｎに関する後処理されたスペクトル値であり、ｘ（ｋ，ｎ）は、周波数指数ｋ及び時間指数ｎを有するスペクトル値ブロックのスペクトル値であり、ｃ₀（ｋ），．．．，ｃ₈（ｋ）は周波数指数ｋに関連づけられる重み係数であり、ｋ−１は減分された周波数指数であり、ｋ＋１は増分された周波数指数であり、ｎ−１は減分された時間指数でありかつｎ＋１は増分された時間指数であること、
を特徴とする請求項１記載の装置。
前記結合器（１３）は、下記の式を実行し、

ｙ＾（ｋ，ｎ，ｕ）は、周波数指数ｋ及び時間指数ｎ及びサブブロック指数ｕに関する後処理されたスペクトル値であり、ｘ（ｋ，ｎ，ｕ）は、周波数指数ｋ及び時間指数ｎ及びサブブロック指数ｕを有するスペクトル値ブロックのスペクトル値であり、ｃ₀（ｋ），．．．，ｃ₈（ｋ）は周波数指数ｋに関連づけられる重み係数であり、ｋ−１は減分された周波数指数であり、ｋ＋１は増分された周波数指数であり、ｎ−１は減分された時間指数であり、ｎ＋１は増分された時間指数であり、ｕはサブブロックシーケンスにおける１つのサブブロックの位置を示すサブブロック指数であり、前記時間指数は長いブロックを特定し、かつ前記サブブロック指数は比較的短いブロックを特定すること、
を特徴とする請求項１記載の装置。
前記結合器（１３）は、下記の式を実行し、

ｙ＾（ｋ，ｎ）は、周波数指数ｋ及び時間指数ｎに関する後処理されたスペクトル値であり、ｘ（ｋ，ｎ，ｕ）は、周波数指数ｋ及び時間指数ｎ及びサブブロック指数ｕを有するスペクトル値ブロックのスペクトル値であり、ｃ₀（ｋ），．．．，ｃ₈（ｋ）は周波数指数ｋに関連づけられる重み係数であり、ｋ−１は減分された周波数指数であり、ｋ＋１は増分された周波数指数であり、ｎ−１は減分された時間指数であり、ｎ＋１は増分された時間指数であり、ｓはサブブロックシーケンスにおける１つのサブブロックの位置を示す順位指数であり、前記時間指数は長いブロックを特定し、かつ前記サブブロック指数は比較的短いブロックを特定すること、
を特徴とする請求項１記載の装置。
オーディオ信号を符号化するためのエンコーダであって、
請求項１記載のスペクトル値を後処理するための装置（１０）と、
前記第２の変換アルゴリズム（１７）に従って前記オーディオ信号からスペクトル値のブロックシーケンスを計算するための手段（２３）と、
前記第２の変換アルゴリズムに起因するブロックシーケンスと、前記後処理されたスペクトル値のブロックシーケンスとの間のスペクトル値に関する差分を形成するための手段（２２）と、
を備えたことを特徴とするエンコーダ。
スペクトル値に関する差分を形成するための前記手段（２２）により生じる結果に起因して拡張ビットストリームを生成するための手段（２４）をさらに備えたこと、を特徴とする請求項１７記載のエンコーダ。
前記生成するための手段（２４）はエントロピーエンコーダを備えたこと、を特徴とする請求項１８記載のエンコーダ。
前記第１の変換アルゴリズム（１６）に起因するブロックシーケンスはロス有り圧縮を基礎とし、前記第２の変換アルゴリズム（１７）に起因するブロックシーケンスはロスレスまたは事実上ロスレスである圧縮を基礎とすること、を特徴とする請求項１７記載のエンコーダ。
前記重み係数を格納するためのメモリを備え、前記重み係数は信号とは独立して格納可能であること、を特徴とする請求項１７記載のエンコーダ。
前記第２の変換アルゴリズム（１７）を使用してブロックシーケンスを生成するための手段（２３）は、前記第１の変換アルゴリズム（１６）に起因して与えられるスペクトル値のブロックシーケンスが基礎とするウィンドウシーケンスに依存するウィンドウシーケンスによってウィンドウ処理を実行すること、を特徴とする請求項１７記載のエンコーダ。
前記第２の変換アルゴリズム（１７）を使用してブロックシーケンスを出力するための手段（２３）は、前記スペクトル値のブロックシーケンスにおいて、前記第１の変換アルゴリズム（１６）に起因して短いウィンドウへの切換が生じると、長い重複領域を有する長いウィンドウから短い重複領域を有する１つの短いウィンドウまたは複数の短いウィンドウへ切り換えること、を特徴とする請求項２２記載のエンコーダ。
符号化されたオーディオ信号を復号するためのデコーダであって、
請求項１記載のスペクトル値を後処理するための装置と、
前記第１の変換アルゴリズム（１６）に起因する後処理されたスペクトル値のブロックシーケンスと前記第２の変換アルゴリズム（１７）に起因するブロックシーケンスとの間のスペクトル値に関する差分値を出力するための手段（３１）と、
前記後処理されたスペクトル値のブロックシーケンスと前記差分値とを結合して、結合スペクトル値のブロックシーケンスを得るための手段（３０）と、
前記第２の変換アルゴリズム（１７）に従って前記結合スペクトル値のブロックシーケンスを逆変換し、復号されたオーディオ信号を得るための手段（３３）と、
を備えたことを特徴とするデコーダ。
オーディオ信号をスペクトル表現に変換するための第１の変換アルゴリズム（１６）を基礎としてスペクトル値を後処理するための方法（１０）であって、
前記オーディオ信号のサンプルのブロックシーケンスを表す前記スペクトル値のブロックシーケンスを出力するステップ（１２）と、
後処理されたスペクトル値のブロックシーケンスを得るために、前記スペクトル値のブロックシーケンスのスペクトル値を重み付け加算するステップ（１３）と、
を備え、
周波数帯域及び持続時間に関して後処理されたスペクトル値を計算するために、前記周波数帯域及び前記持続時間に関する前記ブロックシーケンスのスペクトル値と、別の周波数帯域または別の持続時間のスペクトル値とが使用され、前記重み係数は、重み付け加算に際して、前記後処理されたスペクトル値が、前記オーディオ信号をスペクトル表現に変換するための第２の変換アルゴリズム（１７）によって得られるスペクトル値に近似するように使用され、前記第２の変換アルゴリズム（１７）は前記第１の変換アルゴリズム（１６）とは異なること、
を特徴とする方法。
オーディオ信号を符号化するための方法であって、
請求項２５に従ってスペクトル値を後処理するステップ（１０）と、
前記第２の変換アルゴリズム（１７）に従って前記オーディオ信号からスペクトル値のブロックシーケンスを計算するステップ（２３）と、
前記第２の変換アルゴリズムに起因する前記スペクトル値のブロックシーケンスと、前記後処理されたスペクトル値のブロックシーケンスとの間のスペクトル値に関する差分を形成するステップ（２２）と、
を備えたことを特徴とする方法。
符号化されたオーディオ信号を復号するための方法であって、
請求項２５記載のスペクトル値を後処理するステップと、
前記第１の変換アルゴリズム（１６）に起因する後処理されたスペクトル値のブロックシーケンスと、前記第２の変換アルゴリズム（１７）に起因するスペクトル値のブロックシーケンスとの間のスペクトル値に関する差分値を出力するステップ（３１）と、
前記後処理されたスペクトル値のブロックシーケンスと前記差分値とを結合して、結合スペクトル値のブロックシーケンスを得るステップ（３０）と、
前記第２の変換アルゴリズム（１７）に従って前記結合スペクトル値のブロックシーケンスを逆変換し、復号されたオーディオ信号を得るステップ（３３）と、
を備えたことを特徴とする方法。
コンピュータ上で起動された際、請求項２５記載の方法を実行するためのプログラムコードを有することを特徴とするコンピュータプログラム。
オーディオデコーダに入力するためのビットストリーム拡張層であって、前記ビットストリーム拡張層は差分値のブロックシーケンスを備え、差分値のブロックは、スペクトル値に関連して第２の変換アルゴリズム（１７）から得られるスペクトル値のブロックと後処理されたスペクトル値のブロックとの間の差分を含み、前記後処理されたスペクトル値は、第１の変換アルゴリズム（１６）から得られるブロックシーケンスのスペクトル値を重み付け加算することによって生成され、周波数帯域及び持続時間に関連して後処理されたスペクトル値を計算するために、前記周波数帯域及び前記持続時間に関する前記ブロックシーケンスのスペクトル値と、別の周波数帯域または別の持続時間のスペクトル値とが使用され、結合に際しては、前記後処理されたスペクトル値が前記第２の変換アルゴリズム（１７）によって得られるスペクトル値への近似値を表すように重み係数が使用され、前記第２の変換アルゴリズム（１７）は前記第１の変換アルゴリズム（１６）とは異なること、を特徴とするビットストリーム拡張層。