JP2012098759A

JP2012098759A - スケール調節可能な圧縮されたオーディオビットストリーム、並びに階層的フィルターバンクおよび多チャンネルジョイントコーディングを使用したコーデック

Info

Publication number: JP2012098759A
Application number: JP2012036055A
Authority: JP
Inventors: Dmitry V Shmunk; ドミトリーヴィーシュムンク; J BEATON Richard; リチャードジェイビートン
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2005-06-17
Filing date: 2012-02-22
Publication date: 2012-05-24
Anticipated expiration: 2026-06-16
Also published as: WO2007074401A3; TR200806842T1; HK1117655A1; EP1891740A4; CN101199121B; IL187402A0; ES2717606T3; EP1891740B1; NZ563337A; JP5291815B2; JP5164834B2; NZ593517A; EP2479750B1; US20070063877A1; TR200806843T1; AU2006332046A1; NZ590418A; HK1171859A1; WO2007074401A2; PL2479750T3

Abstract

【課題】任意に規定されたデータ転送速度を有するスケール調節されたビットストリームを形成するようにスケール調節できるマスタービットストリームを形成すること、および該スケール調節されたビットストリームをデコード化してオーディオ信号を再構成することである。
【解決手段】階層的フィルタバンク（２１００）は、入力信号を、エンコーダがそこから音色成分（２１０６）および残余成分（２１１７）の両方を効率的に抽出できる多重分解能の時間／周波数表現に分解し、同じマスキング関数または異なる音響心理学的基準を参照して量子化する。選択された音色成分は適切にコード化され、残余成分を構成する時間−サンプルおよびスケール因子成分も、ジョイントチャンネルコーディングによりコード化される。デコーダは、逆階層的フィルタバンクにより、スケール調節されたビットストリーム中の音色成分および残余成分からオーディオ信号を再構築する。
【選択図】図２１

Description

本発明は、オーディオ信号のスケール調節可能なコード化に関し、より詳細には、このデータ転送速度スケール調節を、階層的フィルタリング、音色成分のジョイントコーディング、および残余信号における時間ドメイン成分のジョイントチャンネルコーディングを含む、多チャンネルオーディオ信号のための効率的な方法で実行する方法に関する。

オーディオ圧縮アルゴリズムの主な目的は、可能な限り少ないデジタルビットを使用して、入力オーディオ信号の音響的に許容可能な表現を作製することである。これは、入力オーディオ信号の低データ転送速度バージョンを、インターネットのような制限されたバンド幅の送信チャンネル上で配信することを可能にし、また入力されたオーディオ信号の将来の再生のための保存に要する保存量を低減させることを可能にする。送信チャンネルのデータ容量が固定され且つ経時的に変化せず、またはオーディオの保存を必要とする量（分）が予め既知で且つ増大しないようなこれらの応用について、従来のオーディオ圧縮法では、圧縮コード化時のデータ転送速度、従ってオーディオ品質のレベルが固定される。元の信号を低データ転送速度で記録し、または圧縮されたオーディオ信号を復元し、次いでこの復元された信号を低データ転送速度で再圧縮することなしには、データ転送速度の更なる低下を行うことはできない。これらの方法は、チャンネル容量を変化させること、追加の内容を固定されたメモリー上に保存すること、または異なるアプリケーションについて変化するデータ転送速度でビットストリームを読取ることの問題に対処するために「スケール調節可能」ではない。

スケール調節可能な特性を備えたビットストリームを作製し、且つ先に述べた限界を回避するために使用される一つの技術は、入力オーディオ信号を、低速データ転送ビットストリームのサブセットで構成される高データ転送速度ビットストリームとしてコード化する。これらコード化された低データ転送速度ビットストリームは、コード化された信号から抽出され、且つ組合されて、そのデータ転送速度が広範囲のデータ転送速度に亘って調節可能な出力ビットストリームを提供することができる。この概念を実行するための一つのアプローチは、最初にデータを最低のサポートされたデータ転送速度でコード化し、次いで、元の信号と、該最低データ転送速度のビットストリームのデコード化バージョンとの間のエラーをコード化することである。このコード化されたエラーは保存され、サポートされた最低データ転送速度のビットストリームと組合わされて、二番目に低いデータ転送速度のビットストリームが作製される。元の信号と、この２番目に低いデータ転送速度の信号のデコード化バージョンとの間のエラーが保存され、２番目に低いデータ転送速度のビットストリームに加えられて、３番目に低いデータ転送速度のビットストリームが形成され、以下同様に行われる。このプロセスは、こうして誘導された各エラー信号のビットストリームに関連したデータ転送速度と、サポートされた最低データ転送速度のビットストリームのデータ転送速度との合計が、サポートされるべき最大データ転送速度のビットストリームに等しくなるまで反復される。この最終的なスケール調節可能な高データ転送速度のビットストリームは、最低データ転送速度のビットストリームおよび各コード化されたエラービットストリームで構成される。

広く離れた最低データ転送速度および最高データ転送速度の間の、少数の異なるデータ転送速度を支持するために通常使用される第二の技術は、二以上の圧縮アルゴリズムを用いて、「階層化された」スケール調節可能なビットストリームを作製することである。この方法でコード化されたビットストリームに対してスケール調節操作を実行する装置は、出力データ転送速度要件に応じて、コード化されたオーディオ出力として使用するために、階層化されたビットストリームの中に担持される複数のビットストリームの何れか一つを選択する。コード化効率を改善し、広範囲のスケール調節されたデータ転送速度を提供するために、低速ビットストリームに担持されたデータは高速ビットストリームにより使用されて、追加のより高品質で、より高速のビットストリームを形成することができる。

本発明は、任意に規定されたデータ転送速度を有するスケール調節されたビットストリームを形成するようにスケール調節できるマスタービットストリームを形成するために、および該スケール調節されたビットストリームをデコード化してオーディオ信号を再構成するために、オーディオ入力信号をコード化するための方法を提供する。

これは一般には、オーディオ入力信号を圧縮し、これらをアレンジしてマスタービットストリームを形成することにより達成される。このマスタービットストリームは量子化された成分を含んでおり、これらは、デコード化された信号の品質に対するそれらの相対的寄与に基づいて順位付けされる。該入力信号は、それを複数の音色成分および残余成分に分離し、次いでこれら成分を順位付けおよび量子化することにより、適切に圧縮される。分離は、階層的フィルタバンクを使用して適切に実行される。これら成分は、同じマスキング機能または異なる音響心理学的基準を参照して、適切に順位付けおよび量子化される。次いで、効率的なスケール調節を容易にするために、これら成分はそれらの順位付けに基づいて並べられてよい。望ましいデータ転送速度よりも低いか、または概略これに等しいスケール調節されたデータ速度を有するスケール調節されたビットストリームを形成するために、前記マスタービットストリームは、充分な数の前記低い順位付けの成分を除去することによってスケール調節される。このスケール調節されたビットストリームは、周波数スペクトルにおける当該成分の位置を示す情報を含んでいる。スケール調節されたビットストリームは、この位置情報に基づいて量子化された成分を配列し、失われた成分を無視し、アレンジされた成分をデコード化して出力ビットストリームを生じさせることにより、逆階層的フィルタバンクを使用して適切にデコード化される。

一つの実施形態において、エンコーダは、階層的フィルタバンクを使用して入力信号を多重分解能の時間／周波数表現に分解する。該エンコーダは、ＨＦＢの各反復において異なる周波数分解能で音色成分を抽出し、これらの音色成分を入力信号から除去して残余信号を次のＨＦＢ反復へと通過させ、次いで最後の残余信号から残余成分を抽出する。音色成分は、周波数分解能当り少なくとも一つの周波数副ドメインにグループ化され、それらのコード化された信号の品質に対する音響心理学的重要度に従って順位付けされる。残余成分は、時間サンプル成分（例えばグリッドＧ）、および該時間サンプル成分を修飾するスケール因子成分（例えばグリッドＧ０、Ｇ１）を含んでいる。時間サンプル成分は、少なくとも一つの時間−サンプル副ドメインにグループ化され、当該ドメイン信号の品質に対するそれらの寄与に従って順位付けされる。

デコーダでは、逆階層的フィルタバンクが、一つの効率的フィルタバンク構造内で音色成分および残余成分の両方を抽出するために使用されてよい。全ての成分が逆量子化され、またスケール因子を時間サンプルに適用することによって残余信号が再構築される。周波数サンプルが再構築され、出力オーディオ信号を生じるために該再構築された時間サンプルに加えられる。なお、コード化プロセスの際に階層的フィルタバンクが使用されたかどうかに関係なく、逆階層的フィルタバンクがデコーダで使用されてよい。

一つの例示的実施形態では、多重チャンネルオーディオ信号における選択された音色成分が、異なるコーディングを使用してコード化される。各音色成分について一つのチャンネルが主チャンネルとして選択される。該主チャンネルのチャンネル数、およびその振幅および位相がビットストリームの中に保存される。他のチャンネルの何れが示された音色成分を含み、従って副チャンネルとしてコード化されるべきかを指示するビットマスクが保存される。次いで、主振幅と副振幅との間の差および位相がエントロピーコード化され、前記音色成分が存在する各副チャンネルについて保存される。

一つの例示的実施形態において、残余信号を形成する時間−サンプルおよびスケール因子成分は、多重チャンネルオーディオにまで拡張されたジョイントチャンネルコーディング（ＪＣＣ）を使用してコード化される。チャンネルのグループ化プロセスは、最初に、何れの多重チャンネルが一緒にコード化され得るかを決定し、また全てのチャンネルがグループに形成され、最後のグループは恐らく不完全である。

本発明の更なる目的、特徴および利点は、以下の例示的実施形態の議論に含まれるが、この議論は添付の図面と共に読まれるべきである。これらの例示的実施形態はオーディオデータに関するものであるが、ビデオ、マルチメディアおよび他の種類のデータもまた、同様の方法で処理されてよいことが理解されるであろう。

図１は、本発明による残余コーディングトポロジーを使用した、スケール調節可能なビットストリームエンコーダのブロック図である。図２ａは、階層的フィルタバンクと共に使用するためのシュムンク・ウインドウの周波数および時間ドメイン表現である。図２ｂは、階層的フィルタバンクと共に使用するためのシュムンク・ウインドウの周波数および時間ドメイン表現である。図３は、そこから本発明を用いて音色成分および残余成分を抽出できる入力信号の多重分解能の時間／周波数表現を提供するための、階層的フィルタバンクの図である。図４は、階層的フィルタバンクに関連したステップのフローチャートである。図５ａ〜図５ｃは、「重なり加算」ウインドウ機能を示している。図６は、階層的フィルタバンクにおける周波数応答のプロットである。図７は、エンコーダに使用するための、階層的分析フィルタバンクの実施例を示すブロック図である。図８ａは、３段階の階層的フィルタバンクの単純化されたブロック図、および１段階のより詳細なブロック図である。図８ｂは、３段階の階層的フィルタバンクの単純化されたブロック図、および１段階のより詳細なブロック図である。図９は、音色成分の差動コーディングを多重チャンネルオーディオに拡張するためのビットマスクである。図１０は、本発明のエンコーダの一実施形態において使用される残余エンコーダの詳細な実施形態を表している。図１１は、多重チャンネルオーディオをコードするジョイントチャンネルのためのブロック図である。図１２は、本発明のスケール調節可能なビットストリームエンコーダによって作製されたデータのスケール調節可能なフレームを概略的に表している。図１３は、本発明に使用されるデコーダの一実施例の詳細なブロック図を示している。図１４は、本発明に従って、時間サンプル成分および周波数成分の両方から時間シリーズのデータを再構成するための、逆階層的フィルタバンクの説明図である。図１５は、逆階層的フィルタバンクの一実施例のブロック図である。図１６は、デコーダにおいて逆階層的フィルタバンクを使用して、音色成分および残余成分を組合せるブロック図である。図１７ａは、３段階逆階層的フィルタバンクの単純化されたブロック図、および１段階の詳細なブロック図である。図１７ｂは、３段階逆階層的フィルタバンクの単純化されたブロック図、および１段階の詳細なブロック図である。図１８は、残余デコーダの詳細なブロック図である。図１９は、Ｇ１マッピング表である。図２０は、基本関数合成の補正係数の表である。図２１は、エンコーダの機能ブロック図であり、オーディオ・エンコーダにおける階層的フィルタバンクにおける多重分解能の時間／周波数表現の適用を図示している。図２２は、デコーダの機能ブロック図であり、オーディオデコーダにおける階層的フィルタバンクの多重分解時間／周波数表現の適用を図示している。

本発明は、任意に規定されたデータ転送速度を有するスケール調節可能なビットストリームを形成するようにスケール調節できるマスタービットストリームを形成するために、オーディオ入力信号を圧縮およびコード化し、また前記オーディオ信号を再構築するために前記スケール調節されたビットストリームをデコード化する方法を提供する。階層的フィルタバンク（ＨＦＢ）が入力信号の多重分解能の時間／周波数表現を提供し、エンコーダは、そこから音色成分および残余信号の両者を効率的に抽出できる。多重チャンネルオーディオのために、音色成分のジョイントコーディングおよび残余信号における残余成分のジョイントチャンネルコーディングが実施される。これらの成分は、デコード化された信号品質に対するそれらの相対的な寄与に基づいて順位付けされ、マスキング機能を基準に量子化される。該マスタービットストリームは、望ましいデータ転送速度よりも低いか、または概略これに等しいスケール調節されたデータ転送速度を有するスケール調節されたビットストリームを形成するために、充分な数の低順位成分を排除することによってスケール調節される。該スケール調節されたビットストリームは、位置情報に基づいて量子化された成分をアレンジし、失われた成分を無視し、前記配列された成分をデコード化して出力ビットストリームを作製することにより、逆階層的フィルターバンクを使用して適切にデコード化される。一つの可能な応用において、マスタービットストリームは保存され、次いで、もう一つ媒体に記録されるために、またはバンドが制限されたチャンネル上での送信のために、望ましいデータ転送速度までスケールダウンされる。多重スケール調節されたビットストリームが媒体上に保存されるもう一つの応用では、全てのビットストリームに対する集合データ転送速度制約を満たしながら、知覚される品質を最大にするために、各ストリームのデータ転送速度は独立に且つ動的に制御される。

ここで使用する「ドメイン」、「副ドメイン」および「成分」の用語は、ビットストリームにおけるスケール調節可能な要素の階層を記述するものである。その例には下記のものが含まれる。

＜残余コーディングトポロジーを備えたスケール調節可能なビットストリームエンコーダ＞
図１に示すように、一つの例示的実施形態において、スケール調節可能なビットストリームエンコーダは、コア成分（音色成分）および／または残余成分（時間−サンプルおよびスケール因子）から最低順位の成分を選択的に排除することによって、ビットストリームを任意のデータ転送速度にスケール調節するために、残余コーディングトポロジーを使用する。該エンコーダは、階層的フィルタバンクを使用して入力信号を多重分解能の時間／周波数表現へと効率的に分解し、該エンコーダはそこから音色成分および残余成分を効率的に抽出することができる。多重分解能の時間／周波数表現を提供するためにここに記載する階層的フィルタバンク（ＨＦＢ）は、入力信号のこのような表現が望ましい他の多くのアプリケーションで使用することができる。階層的フィルタバンクの一般的説明およびオーディオエンコーダで使用するためのその構成、並びに特定のオーディオエンコーダによって使用される修飾されたＨＦＢが以下で説明される。

入力信号１００が、マスキング計算機１０１および多元音色抽出器１０２に適用される。マスキング計算機１０１は入力信号１００を分析し、周波数の関数としてマスキングレベルを同定する（入力信号１０１中に存在するそれよりも低い周波数は人間の耳には聞こえない）。多元音色抽出器１０２は、例えば多重重なりＦＦＴを使用して、入力信号１０１の中に存在する周波数を認識し、または図示のようなＭＤＣＴに基づく階層的フィルタバンク（音色について定義された音響心理学的基準に合致する）が、該基準に従って音色を選択し、これら選択された音色の振幅、周波数、位相および位置成分を量子化し、音色リストの中にこれら音色を配置する。各反復またはレベルにおいて、選択された音色が該入力信号から除去され、残余信号が前方へと通される。完了したら、音色についての基準に合致しない全ての他の周波数が入力信号から抽出され、多元音色抽出器１０２、特に階層的フィルタバンクＭＤＣＴの最終段階（２５６）から、最終残余信号としてライン１１１上の時間ドメインで出力される。

多元音色抽出器１０２は、例えば、最大から出発して最小まで小さくなる五次元の重なり変換器を使用し、基本関数の使用により音色を検出する。サンプリング速度が４４１００Ｈｚのオーディオ信号について、サイズがそれぞれ８１９２、４０９６、２０４８、１０２４および５１２の変換器が使用される。他の変換サイズを選択することもできるであろう。図７は、これら変換器が如何にして相互に重なるかを図示している。基本関数は次式により定義される。

ここで：
Ａ_i＝振幅＝（Ｒｅ_i・Ｒｅ_i＋Ｉｍ_i・Ｉｍ_i）
−（Ｒｅ_i+1・Ｒｅ_i+1＋Ｉｍ_i+1・Ｉｍ_i+1）
ｔ＝時間（ｔ∈Ｎ正の整数値である）
ｌ＝パワーが２の時の変換サイズ（ｌ∈５１２、１０２４、…、８１９２）
Φ＝位相
ｆ＝周波数

各変換サイズで検出された音色は、本発明のデコーダで使用されるのと同じデコードプロセスを使用して、ローカルにデコード化される。これらのローカルにデコード化された音色は位相を反転され、時間ドメイン合算を通して元の入力信号と組合されて残余信号を形成し、該残余信号はＨＦＢの次の反復またはレベルに通される。

マスキング計算機１０１からのマスキングレベルおよび多元音色抽出器１０２からの音色リストは、音色セレクタ１０３への入力である。音色セレクタ１０３は、先ず、マスキング計算機１０１により与えられるマスキングレベルに対する相対的パワーによって、多元音色抽出器１０２から提供される音色リストをグループ化する。次いで、反復プロセスを使用して、何れの音色成分がマスタービットストリーム中のコード化されたデータのフレームに適合するかを決定する。音色成分のためにフレーム中で利用可能な空間の量は、スケール調節前の、コード化されたマスタービットストリームの予め定められたデータ転送速度に依存する。全体のフレームが音色成分のために配分されれば、残余コード化は行われない。一般に、利用可能なデータ転送速度の或る部分は音色成分のために配分され、残り（マイナスオーバーヘッド）は残余成分のためにリザーブされる。

チャンネル群は、多重チャンネル信号のため、および知覚品質への寄与のような測定基準に従って、各チャンネル群内で同定されたチャンネルのために適切に選択される。選択された音色成分は、好ましくは、差動コーディングを使用して保存される。ステレオオーディオについて、２ビットフィールドは主チャンネルおよび副チャンネルを示す。振幅／位相および差動振幅／位相が、主チャンネルおよび副チャンネルのためにそれぞれ保存される。多重チャンネルオーディオについて、主チャンネルはその振幅および位相と共に保存され、またビットマスク（図９参照）は、全ての副チャンネルについて、含められた副チャンネルのための差動振幅／位相と共に保存される。該ビットマスクは、何れの他のチャンネルが主チャンネルと共にコード化されて、主チャンネルにおける各音色成分についてのビットストリームの中に保存されるかを指示する。

この反復プロセスの際に、フレームに適合しないと決定される音色成分の幾つかまたは全部が、時間ドメインへと逆変換されて、残余信号１１１と組合されてよい。しかし、該データ転送速度が低ければ、相対的に強い「選択解除された」音色成分が適切に残余成分から除外される。これにより、低データ転送速度における知覚品質を改善されることが分かっている。信号１１０によって表される選択解除された音色成分は、それらをライン１１４上の時間ドメインに逆変換するために、ローカルデコーダ１０４を介してローカルにデコード化され、コンバイナ１０５において多元音色抽出器１０２からの残余信号１１１と組合されて、合体された残余信号１１３が形成される。なお、この組合せプロセスは、容易に実行できるように、ライン１１４および１１１上に現れる信号は両者共に時間ドメイン信号である。合体された残余信号１１３は、残余エンコーダ１０７によって更に処理される。

残余エンコーダ１０７によって行われる最初の動作は、該信号を臨界的にサンプリングされた時間ドメイン周波数副バンドへと細分割するフィルタバンクを通して、合体された残余信号１１３を処理することである。好ましい実施形態では、音色成分を抽出するために階層的フィルタバンドが使用されるときは、これらの時間サンプル成分を階層的フィルタバンクから直接読取ることができ、それによって残余信号処理専用の第二のフィルタバンクの必要性を排除することができる。この場合、図２１に示すように、コンバイナ１０４は、階層的フィルタバンクの最終段階（ＭＤＣＴ（２５６））からの出力上で動作して、「選択解除され」且つデコード化された音色成分１１４を残余信号１１１と合体させた後、副バンド時間サンプルを生じるＩＭＤＣＴ２１０６を計算する（図７のステップ３９０６、３９０８および３９１０も参照のこと）。次いで、これら副バンドの音響心理学的に関連した順序への更なる分解、量子化およびアレンジが行われる。この残余成分（時間サンプルおよびスケール因子）は、ジョイントチャンネルコーディングを使用して適切にコード化され、ここでは時間サンプルがグリッドＧによって表され、またスケール因子がグリッドＧ０およびＧ１によって表される（図１１参照）。この残余信号のジョイントコーディングは、チャンネル群に適用される部分グリッドを使用するが、これは主チャンネル群および副チャンネル群間における信号エネルギーの比を表す。これらのグループは、相互相関または他の測定基準を介して選択される（動的または静的に）。二以上のチャンネルを合体して、主チャンネルとして使用することができる（例えばＬ＋Ｒ主チャンネル、Ｃ副チャンネル）。時間／周波数ディメンジョンでのスケール因子グリッド部分Ｇ０、Ｇ１の使用は、これら多重チャンネル群に適用されるときは新規であり、また二以上の副チャンネルが所定の主チャンネルに関連する可能性がある。個々のグリッド要素および時間サンプルが周波数によって順位付けされ、低い周波数には高い順位付けが与えられる。このグリッドは、ビット速度に従って順位付けされる。副チャンネル情報は、主チャンネル情報よりも低い優先度で順位付けされる。

コードストリング発生器１０８は、ライン１２０上の音色セレクタ１０３およびライン１２２上の残余エンコーダ１０７から入力を取り、これら二つの入力からの値を、当該技術で周知のエントロピーコーディングを使用して、ビットストリーム１２４へとコード化する。ビットストリームフォーマッタ１０９は、音色セレクタ１０３および残余エンコーダ１０７からの音響心理学的要素が、コードストリング発生器１０８を介してコード化された後に、マスタービットストリーム１２６における適切な位置に出現することを保証する。「順位付け」は、異なる成分のオーダリングによって、マスタービットストリームの中に暗示的に含められる。

スケーラ１１５は、エンコーダにより生じたマスタービットストリーム１２６の各フレームから、充分な数の最低ランクのコード化された成分を除去して、望ましいデータ転送速度未満または略これに等しいデータ転送速度を有するスケール調節されたビットストリーム１１６を形成する。

＜階層的フィルタバンク＞
多元音色抽出器１０２は、好ましくは「修飾された」階層的フィルタバンクを使用して、そこから音色成分および残余成分の両方を効率的に抽出できる多重分解能の時間／周波数分解能を提供する。ＨＦＢは、連続的な各反復において、入力信号を逐次的により低い周波数分解能で変換係数に分解し、また逐次的により精細な時間スケール分解能で時間ドメイン副バンドサンプルに戻す。階層的フィルタバンクによって発生された音色成分は、多重重なりＦＦＴによって発生されたものと正確に同じであるが、コンピュータ処理の負荷は遥かに低い。階層的フィルタバンクは、入力信号を異なる時間／周波数分解能で同時に分析し、略任意の時間／周波数分解を達成することによって、ヒト聴覚系の等しくない時間／周波数分解能をモデル化する問題を取扱う。階層的フィルタバンクは、既知の分解能では見られない内部変換において、ウインドウ化および重なり加算ステップを使用する。該ウインドウ機能のこのステップおよび新規な設計は、望ましい分解を達成するために、この構造が任意のツリーにおいて反復されることを可能にし、また信号適応性で行われることができるであろう。

図２１に示すように、信号−チャンネル・エンコーダ２１００は、各反復２１０１ａ、…２１０１ｅにおける変換係数から音色成分を抽出し、該抽出された音色成分を量子化し、音色リスト２１０６の中に保存する。以下に、多重チャンネル信号のための音色信号および残余信号のジョイントコード化について述べる。各反復において、時間ドメイン入力信号（残余信号）が引出され２１０７、Ｎ点ＮＤＣＴが適用されて２１０８、変換係数を生じる。該変換係数から音色が抽出され２１０９、量子化され２１１０、音色リストに追加される。選択された音色成分がローカルにデコード化され２１１１、変換係数から差引かれ２１１２、その後に逆変換が行われて２１１３、時間ドメイン副バンドサンプルが発生され、該サンプルはＨＦＢの次の反復のための残余信号２１１４を形成する。最後のＨＦＢ反復よりも比較的低周波分解能を備えた最後の逆変換２１１５は、最終的な組合された残余１１３に対して実行され、ウインドウ化されて、残余成分Ｇ２１１７が抽出される。先に述べたように、何れかの「選択解除された」音色がローカルにデコード化され１０４、最終逆変換のコンピュータ剃りの前に残余信号１１１と組合される。該残余成分は時間サンプル成分（グリッドＧ）およびスケール因子成分（グリッドＧ０、Ｇ１）を含んでおり、これらは２１１８および２１１９のグリッドＧから抽出される。グリッドＧは再計算され２１２０、グリッドＧおよびＧ１は量子化される２１２１，２１２２。グリッドＧ，Ｇ１およびＧ０の計算を以下に説明する。音色リスト上の量子化された音色はグリッドＧおよびスケール因子グリッドＧ１は、全てコード化され、マスタービットストリームの中に配置される。各反復における入力信号からの選択された音色の除去、および最終逆変換のコンピュータ処理は、オーディオエンコーダによってＨＦＢに課される変更である。

オーディオコーディングにおける基本的な困難は、人間の知覚における時間／周波数分解能のモデリングである。手拍子のような一過性の信号は、時間ドメインにおける高分解能を必要とする一方、管楽器のような調和的な信号は、コード化されたビットストリームによって正確に表されるため、周波数ドメインにおける高分解能を必要とする。しかし、時間分解能および周波数分解能が相互に逆であり、一つの変換は、両方のドメインにおける高精度を同時に与えることはできないことが周知の原理である。有効なオーディオコーデックは、時間および周波数分解能の間のこのトレードオフをバランスさせることを必要とする。

この問題に対する既知の解決策は、ウインドウの切り替えを利用し、変換サイズを入力信号の一時的性質に適合させる（K. Brandenburg et al., "The ISO-MPEG-Audio Codec: A Generic Standard for Coding of High Quality Digital Audio", Journal of Audio Engineering Society, Vol. 42, No. 10, October, 1994参照）。この分析ウインドウサイズの適合は、更なる複雑さを導入し、入力信号における一時的事象の検出を必要とする。アルゴリズムの複雑さを管理するために、先行技術のウインドウ切り替え方位方は、典型的には異なるウインドウサイズの数を二つに限定する。ここで述べる階層的フィルタバンクは、複数の時間／周波数分解能を並列に与えるフィルタバンクによって、信号／聴覚特徴に対するこの粗略な調節を回避する。

ハイブリッドフィルタバンクとして知られている多くのフィルタバンクが存在し、これは、入力信号を与えられた時間／周波数表現に分解する。例えば、ＩＳＯ／ＩＥＣ１１１７２−３に記載されたＭＰＥＧ層３アルゴリズムは、各副バンドにおいて擬直交ミラーフィルタバンクに続くＭＤＣＴ変換を利用して、望ましい周波数分解能を提供する。我々の階層的フィルタバンクにおいて、我々は、スペクトルライン群に対して、ＭＤＣＴのような変換に続く逆変換（例えばＩＭＤＣＴ）を利用して、入力信号の融通性のある時間／周波数変換を実行する。

ハイブリッドフィルタバンクと異なり、階層的フィルタバンクは、二つの連続的かつ重なった外側の変換からの結果を使用して、「重なった」内側の変換を計算する。階層的フィルタバンクを用いれば、最初の変換の頂部に二以上の変換を集めることが可能である。これはまた、先行技術のフィルタバンク（例えばツリー様フィルタバンク）を用いても可能であるが、レベル数の増大に伴う周波数ドメイン分離の迅速な劣化のため実際的ではない。階層的フィルタバンクは、幾らかの時間ドメイン劣化を犠牲にして、この周波数ドメインの劣化を回避する。しかし、この時間ドメインの劣化は、ウインドウ形状の適切な選択を介して制御することができる。適切な分析ウインドウを選択すると、内側変換の係数もまた、時間シフト対して不変で、内側変換のサイズに等しくすることができる（従来のアプローチのように最も外側の変換のサイズではない）。

ここでは「シュマンク・ウインドウ（Ｓｈｍｕｎｋｗｉｎｄｏｗ）」と称される、階層的フィルタバンクと共に使用するための適切なウインドウＷ（ｘ）は、次式によって定義される。

ここで、ｘは時間ドメインサンプル指数（０＜ｘ≦Ｌ＞であり、またＬはサンプル中のウインドウの長さである。

通常使用されるカイゼル−ベッセルに誘導されたウインドウ２６０２と比較したときの周波数レスポンス２６０３が、図２ａに示されている。二つのウインドウは形状が類似しているが、副ローブの減衰は本提案になるウインドウの方が大きいことが見て取れる。シュマンク・ウインドウの時間ドメインレスポンス２６０４は、図２ｂに示されている。

時間／周波数分解を提供するための一般的に適用可能な階層的フィルタバンクが、図３および図４に示されている。このＨＦＢは、オーディオ・コーデックに使用するために、上記で述べたように改変されなければならないであろう。図３において、各点線における数字は、各レベルでの等間隔の周波数ビンの数を表す（しかし、これらビンの全てが計算される訳ではない）。下に向う矢印は、Ｎ／２副バンドを生じるＮ点ＭＤＣＴ変換を表す。上に向う矢印は、Ｎ／８副バンドを取り、それらを一つの副バンド内でＮ／４時間サンプルへと変換するＩＭＤＣＴを表す。各正方形は一つの副バンドを表す。各長方形はＮ／２副バンドを表す。この階層的フィルタバンクは以下のステップを実行入する：
（ａ）図５ａに示すように、入力信号サンプル２７０２がＮサンプル２７０４のフレームの中にバッファーされ、各フレームはＮサンプルウインドウ関数（図５ｂ）２７０６を乗じられて、Ｎウインドウ化されたサンプル２７０８（図５ｃ）を生じる（ステップ２９００）；

（ｂ）図３に示すように、Ｎ点変換（図３において下向きの矢印２８０２で表される）がウインドウ化されたサンプル２７０８に適用されて、Ｎ／２変換係数２８０４を生じる（ステップ２９０２）；
（ｃ）任意に、１以上の隣接変換係数の線型結合を適用することによって、リンギング除去が１以上入の変換係数２８０４に適用される；
（ｄ）Ｎ／２変換係数２８０４がＰ群のＭｉ係数に分割され、ここでのＭｉ係数の総和はＮ／２である。即ち、

（ｅ）Ｐ群の各々について（２＊Ｍｉ）点逆変換が前記変換係数に適用され、各群から（２＊Ｍｉ）副バンドサンプルを生じる（ステップ２９０６）；
（ｄ）各副バンドにおいて、（２＊Ｍｉ）点ウインドウ関数２７０６により（２＊Ｍｉ）副バンドサンプルが適用される（ステップ２９０８）；
（ｅ）各副バンドにおいて、Ｍｉの先のサンプルが重ねられ、対応する現在の値に付加されて、各副バンドについてＭｉの新たなサンプルを生じる（ステップ２９１０）；
（ｆ）Ｎが、先のＭｉに等しく設定され、ＰおよびＭｉについて新たな値を選択する；（ｇ）望ましい時間／変換分解能が達成されるまで（ステップ２９１４）、Ｎについての連続的に小さくなる変換サイズを使用して、Ｍｉの新規なサンプルの１以上の副バンドに対して上記ステップが反復される（ステップ２９１２）。なお、ステップは全ての副バンド、最低の副バンドのみ、またはこれらの何れか望ましい組み合わせに対して反復されてよいことに留意されたい。これらのステップが全ての副バンドに対して反復されれば該ＨＦＢは均一であり、そうでなければそれは不均一である。

図３および上記で述べたフィルタバンクの実行における周波数レスポンス３３００プロットが、図６（ここではＮ＝１２８、Ｍｉ＝１６、およびＰ＝４）に示されており、これらステップは各段階における最も低い二つの副バンドに対して反復される。

この階層的フィルタバンクの潜在的な応用は、オーディオを越えて、ビデオおよび他のタイプの信号（例えば地震、医療、他の時間シリーズの信号）の処理にまで及ぶ。ビデオのコード化および圧縮は、時間／周波数分解についての同様の要件を有し、階層的フィルタバンクにより与えられる該分解の任意的性質は、個別のコサイン変換およびウエーブレット分解に基づく現在の技術の状態に対して顕著な利点を有する。フィルタバンクはまた、地震もしくは機械的な測定値、生物医学的信号処理、天然もしくは生理学的な信号の処理、スピーチ、または他の時間シリーズ信号の分析および処理にも適用されてよい。周波数ドメイン情報は、連続的に低くなる周波数分解能で、各反復において生じた変換係数から抽出されることができる。同様に、時間ドメイン情報は、連続的に更に精細になる時間スケールで、各反復において生じた時間ドメイン副バンドサンプルから抽出することができる。

＜階層的フィルタバンク：均一に離間された副バンド＞
図７は、均一に離間した副バンドフィルタバンクを実行する、階層的フィルタバンクの例示的実施形態３９００のブロック図である。均一なフィルタバンクについては、Ｍｉ＝Ｍ＝Ｎ／（２＊Ｐ）である。副バンド信号３９１４への入力信号の分解について以下に述べる：
１．入力時間サンプル３９０２が、Ｎ点（５０％が重なるフレーム３９０４）においてウインドウ化される。
２．Ｎ点ＭＤＣＴ３９０６が、各フレームに対して実行される。
３．得られたＭＤＣＴ係数が、各群において、Ｐ群３９０８のＭ係数にグループ化される。
４．各群に対して（２＊Ｍ）点のＩＭＤＣＴ３９１０が実行され、（２＊Ｍ）副バンド時間サンプル３９１１が形成される。
５．得られた時間サンプル３９１１は、（２＊Ｍ）点、５０％重なりフレーム、および重なり加算（ＯＬＡ）でウインドウ化され、各副バンドにおいてＭ倍のサンプルが形成される。

例示的実施例では、Ｎ＝２５６、Ｐ＝３２、およびＭ＝４である。なお、Ｎ，ＰおよびＭについての異なる選択によって表される異なる変換サイズおよび副バンドグルーピングもまた、望ましい時間／周波数分解を達成するために用いることができる。

＜階層的フィルタバンク：不均一に離間されたサブバンド＞
階層的フィルタバンク３０００のもう一つの実施形態が、図８ａおよび図８ｂに示されている。この実施形態では、異なる周波数分解能を表す変換係数を備えた三つの異なる周波数範囲を用いた変換を生じさせるためには、幾つかのフィルタバンク段階が不完全である。時間ドメイン信号は、一連のカスケード化された単一要素のフィルタバンクを使用して、これらの変換係数へと分解される。詳細なフィルタバンク要素は、望ましい時間／周波数分解を生じるように何回も反復されてよい。なお、バッファーサイズ、変換サイズ、およびウインドウサイズについての数字、並びに変換のためのＭＤＣＴ／ＩＭＤＣＴの使用は、例示的実施形態だけのためのものであり、本発明の範囲を限定するものではない。他のバッファーウインドウおよび変換サイズ、並びに他の変換タイプもまた有用であり得る。一般に、Ｍｉは相互に異なるが、Ｍｉの合計がＮ／２に等しいとの制約条件を満たす。

図８ｂに示すように、単一のフィルタバンク要素バッファ３０２２は、サンプル３０２０を入力して、２５６のサンプル３０２４のバッファを形成し、これは該サンプルに２５６サンプルのウインドウ関数を乗じることによってウインドウ化される。このウインドウ化されたサンプル３０２８は、２５６点ＭＤＣＴ３０３０を介して変換され、１２８の変換係数３０３２を形成する。これら１２８の係数のうち、９６の最も高い周波数係数が出力３０３７のために選択され３０３４、更に処理されることはない。この３２の最も低い周波数係数は、次いで逆変換３０４２されて、６４の時間ドメインサンプルを生じ、次いで、これはサンプル３０４６にウインドウ化され、先の出力フレームを重なり加算３０４８されて、３２の出力サンプル３０５０を生じる。

図８ａに示した例では、フィルタバンクは、２５６サンプルの入力バッファサイズで１回反復された一つのフィルタバンク要素３００４に続き、これも２５６サンプルの入力バッファサイズで反復された一つのフィルタバンク要素３０１０で構成されている。最終段階３０１０は、短縮された単一のフィルタバンク要素を表しており、バッファリング３０２２、ウインドウイング３０２６、およびＭＤＣＴ３０３０ステップのみで構成されて、０〜１３７８Ｈｚの最低周波数範囲を表す１２８周波数ドメイン係数を出力する。

従って、４４１００Ｈｚのサンプル速度を備えた入力３００２を想定すれば、図示のフィルタバンクは、「Ｏｕｔ１」３００８における周波数範囲５５１３〜２２０５０Ｈｚを表す９６係数、「Ｏｕｔ１」３０１４における周波数範囲１３７９〜５５１２Ｈｚを表す９６係数、および「Ｏｕｔ３」３０１８における周波数範囲０〜１３７８Ｈｚを表す１２８係数を生じる。

なお、周波数変換／逆変換のためのＭＤＣＴ／ＩＭＤＣＴの使用は例示であり、本発明の一部として、他の時間／周波数変換を適用できることに留意すべきである。このアプローチでは、上記で述べた階層における何れかのブランチを選択的に拡張することによって、変換サイズについての他の値も可能であり、他の分解も可能である。

＜音色成分および残余成分の多重チャンネルジョイントコーディング＞
図１における音色セレクタ１０３は、入力として、マスク計算機１０１からのデータおよび多元音色抽出器１０２からの音色リストを取る。音色セレクタ１０３は、最初に、マスク計算機１０１に対する相対的出力によって音色リストを保存し、音響心理学的重要度による序列を形成する。用いられる式は下記により与えられる：

ここで、
Ａ_k＝スペクトル線振幅
Ｍ_ik＝ｉのマスク副フレームにおけるｋのスペクトル線についてのマスキングレベル
ｌ＝マスク副フレームの項における基本関数の長さ
である。
合計は、スペクトル成分が非ゼロ値を有する副フレームに対して行われる。

次いで、音色セレクタ１０３は反復プロセスを使用して、当該フレームのために保存された音色リストから、何れの音色成分がビットストリームに適合するかを決定する。二以上のチャンネルにおいて音色の振幅が概略同じであるステレオもしくは多重チャンネルオーディオ信号において、完全な振幅および位相のみが主チャンネルに保存される；該主チャンネルは、音色成分について最大振幅を備えたチャンネルである。同様の音色特性を有する他のチャンネルは、主チャンネルからの相違を保存する。

各変換サイズについてのデータは、副フレームの数を包含し、最も小さい変換サイズは２つの副フレーム；二番目は４つの副フレーム；３番目は８つの副フレーム；四番目は１６の副フレーム；５番目は３２の副フレームをカバーする。１フレームには１６の副フレームが存在する。音色データは、音色情報が見出される変換のサイズによってグループ化される。各変換サイズについて、以下の音色成分データが量子化され、エントロピーコード化されて、ビットストリームの中に配置される：エントロピーコードされた副フレーム位置、エントロピーコードされたスペクトル位置、エントロピーコードされた量子化振幅、および量子化された位相。

多重チャンネルオーディオの場合、各音色成分について一つのチャンネルが主チャンネルとして選択される。何れのチャンネルを主チャンネルとすべ気化の決定は、固定されてもよく、または信号特性または知覚基準に基づくものであってよい。主チャンネルのチャンネル数、並びにその振幅および位相はビットストリームの中に保存される。図９に示すように、他のチャンネルの何れが指示された音色成分を含み、従って副チャンネルとしてコード化されるべきかを示すビットマスク３６０２が保存される。次いで、主および副の振幅および位相の間の差がエントロピーコード化され、その中に音色成分が存在する各副チャンネルについて保存される。この特定の例は７チャンネルを仮定しており、主チャンネルはチャンネル３である。ビットマスク３６０２は、副チャンネル１，４，および５上に音色成分の存在を指示する。主チャンネルのために使用されたビットは存在しない。

多元音色抽出器１０２は、１以上の分解能でのＭＤＣＴ係数のフレームで成り立っている。音色セレクタ１０３は、コードストリング発生器１０８により、それらのデコード化された信号品質に対する関係に基づいて、ビットストリーム出力フレームの中への挿入のために何れの音色成分が保持され得るかを決定する。当該フレーム中に適合しないと決定されたこれら音色成分は、ローカルデコーダ１０４への出力１１０である。該ローカルデコーダ１０４は、音色セレクタ１０３の出力を取り、対照表（図２０）からの合成係数２０００でスケール調節された各音色成分を加えることによって全ての音色成分を合成し、ＭＤＣＴ係数のフレームを生じさせる（図１６参照）。これらの係数は、コンバイナ１０５において多元音色抽出器１０２の出力１１１に加えられて、階層的フィルタバンクの最後の反復のＭＤＣＴ分解で残余信号１１３を生じる。

図１０に示すように、各チャンネルについての残余信号１１３は、図７に示したウインドウ化および重なり加算３９０４、並びにＩＭＤＣＴ３９１０のステップの前に、階層的フィルタバンク３９００のＭＤＣＴ係数３９０８として残余エンコーダ１０７へと通される。ＩＭＤＣＴ３９１０、ウインドウ化および重なり加算３９１２の後続のステップが実行され、各チャンネルのための時間ドメインにおいて、３２の等間隔で臨界サンプリングされた周波数副バンド３９１４を生じる。時間サンプル成分を構成するこの３２の副バンドは、グリッドＧと称される。なお、上記で概説したもの以外の異なる時間／周波数分解を実施するためのエンコーダにおいて、階層的フィルタバンクの他の実施形態を使用することもでき、また音色成分を抽出するために他の変換を使用することもできるであろう。音色成分を抽出するために階層的フィルタバンクが使用されないならば、もう一つの形態のフィルタバンクを使用して副バンドを抽出することができるが、より高いコンピュータ負荷を伴う。

ステレオもしくは多重チャンネルオーディオのために、チャンネル選択ブロック５０１において幾つかの計算が行われ、音色成分をコード化するための主チャンネルおよび副チャンネル、並びに音色成分をコード化するための方法（例えば左−右、中央−側部）を決定する。図１１に示すように、チャンネルグループ化プロセス３７０２は、最初に、多重チャンネルの何れが一緒にコード化され得るかを決定し、また全てのチャンネルが群に形成され、最後の群はおそらく不完全である。このグループ化は、聴取者の知覚的基準およびコード化効率によって決定され、チャンネル群は三つ以上のチャンネルの組合せで構成されてよい。例えば、Ｌ，Ｒ，Ｌｓ，ＲｓおよびＣチャンネルで構成される５チャンネル信号は、｛Ｌ，Ｒ｝、｛Ｌｓ，Ｒｓ｝、｛Ｌ＋Ｒ，Ｃ｝としてグループ化されてよい。次いで、これらの群は主チャンネルおよび副チャンネルとして整理される。例示的多重チャンネルの実施形態において、主チャンネルの選択は、フレーム全体に亘るチャンネルの相対的パワーに基づいて行われる。以下の式は、相対的パワーを定義する。

グループ化モードはまた、図１１のステップ３７０４に示したようにして決定される。音色成分は、左−右または中央−側部の表現としてコード化されてよく、或いは、このステップの出力は、点線で示すように一つの主チャンネルのみを生じてもよい。左−右の表現において、副バンドのための最も高いパワーを持ったチャンネルは主チャンネルとみなされ、また右チャンネルが最高パワーのチャンネルであれば、副バンドのためのビットストリーム３７０６において単一ビットが設定される。以下の条件が副バンドについて満たされるときに、中央−側部コード化が該副バンドのために使用いされる：

多重チャンネル信号の場合、各チャンネル群について上記が実行される。

ステレオ信号の場合、グリッド計算５０２がステレオパンニンググリッドを提供し、ここではステレオパンニングが概略的に再構成されて、残余信号に適用されることができる。該ステレオグリッドは、４副バンド×４時間の間隔であり、該ステレオグリッドにおける各副バンドは、３ｋＨｚを越える周波数バンドで出発して、四つの副バンドおよびフィルタバンク５００の出力からの３２のサンプルをカバーする。他のグリッドサイズ、カバーされた周波数副バンド、および時間分割が選択され得るであろう。ステレオグリッドのセルにおける値は、該セルによってカバーされた値の範囲について、主チャンネルのパワーに対する所定のチャンネルのパワーの比率である。次いで、この比率は、音色成分をコード化するために使用されたのと同じ表に量子化される。多重信号の場合、上記ステレオグリッドは各チャンネル群について計算される。

多重チャンネル信号の場合、グリッド計算５０２は複数のスケール因子グリッド（各チャンネル群当り一つ）を提供し、これらは空間ドメインにおけるそれらの音響心理学的重要度の序列でビットストリームの中に挿入される。４副バンド×３２サンプルの各郡についての主チャンネルに対する、所定のチャンネルのパワーの比率が計算される。次いで、この比率は量子化され、この量子化された値プラス該パワー比率の対数符号が、前記ビットストリームの中に挿入される。

スケール因子計算５０３はグリッドＧ１を計算し、これはビットストリームの中に置かれる。次に、Ｇ１を計算する方法を説明する。Ｇ０が、最初にＧから誘導される。Ｇ０は全部で３２の副バンドを含んでいるが、Ｇの時間分解能の半分に過ぎない。Ｇ０におけるセルの内容は、Ｇから与えられた副バンドの二つの隣接値の最大値の量子化された値である。量子化（以下の式ではＱｕａｎｔｉｚｅと称する）は、多元音色抽出器１０２における音色成分をコード化するために使用したのと同じ修飾された対数量子化表を使用して実行される。従って、Ｇ０における各セルは、次式によって決定される：

ここで、
ｍは副バンドの数であり、
ｎはＧ０の欄番号である。

Ｇ１は、Ｇ０から誘導される。Ｇ１は、１１の重なり副バンドおよびＧ０の１／８時間分解を有しており、１１×８次元のグリッドを形成する。Ｇ１における各セルは、音色成分のために使用されたのと同じ表を使用して量子化され、次式を使用して見出される：

ここで、Ｗ_Iは、図１９における表１から得られた重み値である。

Ｇ０は、ローカルグリッドデコーダ５０６におけるＧ１から再計算される。時間サンプル量子化ブロック５０７において、出力時間サンプル（「時間サンプル成分」）が階層的フィルタバンク（グリッドＧ）から抽出され、これは量子化レベル選択ブロック５０４を通過し、時間サンプル成分をローカルグリッドデコーダ５０６から再計算されたＧ０におけるそれぞれの値で割ることによってスケール調節され、量子化レベル選択ブロック５０４によって決定された副バンドの関数として量子化レベルの数に量子化される。次いで、これら量子化された時間サンプルは、量子化されたグリッドＧ１と共にコード化されたビットストリームの中に配置される。全ての場合において、ビットストリーム保存操作のための優先度を決定するために、これら成分の音響心理学的重要度を反映するモデルが使用される。

幾つかの信号についてコード化利得を改善するための追加の向上ステップにおいては、量子化およびコード化の前に、二次元個別コサイン変換（ＤＣＴ）を適用することによって、Ｇ，Ｇ１および部分グリッドを含むグリッドを更に処理してよい。

＜スケール調節可能なビットストリームおよびスケール調節機構＞
典型的には、マスタービットストリームの各フレームは、（ａ）入力信号の異なる周波数分解能での周波数ドメイン内容を表す複数の量子化された音色成分、（ｂ）再構築された音色成分と入力信号の間の相違から形成された時間ドメイン残余を表す、量子化された残余時間サンプル成分、および（ｃ）入力信号の周波数範囲に亘る、残余信号の信号エネルギーを表すケール因子グリッドを含んでいる。多重チャンネル信号については、各フレームが、ｄ）チャンネル群内での残余信号チャンネルの信号エネルギー比率を表す部分グリッド、およびｅ）音色成分のための副チャンネルの共同コード化を特定する各主チャンネルについてのビットマスクを含んでいる。通常は、各フレームにおける利用可能なデータ転送速度の一部は、音色成分（ａ）から割当てられ、また一部は残余成分（ｂ、ｃ）のために割当てられる。しかし、幾つかの場合には、利用可能な転送速度の全てが、音色成分をコード化するために割り当てられてよい。或いは、利用可能な転送速度の全てが、残余成分をコード化するために割り当てられてよい。極端な場合、スケール因子グリッドだけがコード化されてよく、この場合にはデコーダがノイズ信号を使用して、出力信号を再構築する。実際の応用の殆ど全てにおいて、該スケール調節されたビットストリームは、音色成分を含む少なくとも幾つかのフレーム、およびスケール因子グリッドを含む幾つかのフレームを含むであろう。

マスタービットストリームの中に配置された成分の構造および序列は、本発明によって定義されたように、広いビット範囲の、微細に粒状化された、ビットストリームスケール調節可能性を提供する。外部機構によってビットストリームを滑らかにスケール調節することを可能にするのは、この構造および序列である。図１２は、図１のオーディオ成分コーデックに基づく成分の構造および序列を描いており、これは元のビットストリームを音響心理学的に関連した成分の特定の組に分解する。この例において使用されるスケール調節可能なビットストリームは、多くの資源交換ファイルフォーマット、またはＲＩＦＦ、即ち、「チャンク」と呼ばれるデータ構造で構成されるが、他のデータ構造を使用いすることもできる。当業者に周知のこのファイルフォーマットは、チャンクによって運ばれるデータのタイプ、並びにチャンクによって運ばれるデータ量の同定を可能にする。なお、その定義されたビットストリームデータ構造の中に担持されるデータの量および種類に関する情報を運ぶ如何なるビットストリームフォーマットも、本発明を実施するために使用できることに留意すべきである。

図１２は、スケール調節可能なデータ転送速度フレームチャンク９００を、該フレームチャンク９００内に担持される音響心理学的データを含む副チャンク９０２、９０３、９０４、９０５、９０６、９０６、９０７、９０８、９０９、９１０および９１２と共に示している。図１２は、フレームチャンクのためのチャンクＩＤおよびチャンク長さのみを描いているが、副チャンクＩＤおよび副チャンク長さのデータが各副チャンク内に含められる。図１２は、スケール調節可能なビットストリームのフレームにおける副チャンクの序列を示している。これらの副チャンクは、コード化されたビットストリームの各副ドメインのために使用されるユニークな副チャンクと共に、スケール調節可能なビットストリームによって生じた音響心理学的成分を含んでいる。論理的決定または計算によって、音響心理学的重要度で整列された副チャンクに加えて、副チャンク内の成分もまた、音響心理学的重要度で配列される。当該フレームにおける最後のチャンクであるゼロチャンク９１１は、当該フレームが一定もしくは特定のサイズであることが必要とされる場合に、チャンクを埋めるために使用される。従って、チャンク９１１は音響心理学的関連を有しておらず、最も低い重要度の音響心理学的チャンクである。時間サンプル２チャンク９１０は当該図の右手側に現れ、また最も重要な音響心理学的チャンク、即ちグリッド１チャンク９０２は、当該図の左手側に現れる。ビットストリームの最後にある最も音響心理学的関連性の低いチャンク、即ちチャンク９１０からのデータを最初に除去するように操作し、該ビットストリームの最初に向って徐々により大きな音響心理学的関連を有する成分、即ちチャンク９０２を除去する方向で作業することによって、データ転送速度における各連続的な低下について可能な最高品質が維持される。なお、該ビットストリームによってサポートされることが可能な最高のデータ転送速度、および最高のオーディオ品質は、コード化時間において定義される。しかし、スケール調節後の最低データ転送速度は、アプリケーションによる使用のために許容可能なオーディオ品質のレベルによって、またはチャンネルまたはメディア上に置かれる速度制約によって定義される。

除去された各音響心理学的成分は、同じビット数を利用しない。本発明の現時点での実施のためのスケール調節分解能は、音響学的重要度が最低の成分についての１ビットから、音響学的重要度が最高の成分についての３２ビットにまで亘っている。該ビットストリームをスケール調節するための機構は、全体のチャンクを一度に除去することを必要としない。先に述べたように、各チャンク内の成分は、音響学的に最も重要なデータが該チャンクの最初に配置されるように配列される。この理由で、除去された各成分について可能な最良のオーディオ品質を維持しながら、成分はチャンクの最後から、スケール調節機構によって一度に一つの成分だけ除去されることができる。本発明の一実施形態においては、スケール調節機構によって全体の成分が除去される一方、他の実施形態においては、幾つかまたは全ての成分が除去されてよい。該スケール調節機構は、必要に応じてチャンク内の成分を除去し、当該成分が除去された特定のチャンク、即ち、フレームチャンク長さ９１５およびフレームチェックサム９０１のチャンク長さフィールドを更新する。本発明の例示的実施形態の詳細な議論から分かるように、スケール調節された各チャンクについての更新されたチャンク長さ、並びにデコーダに利用可能な更新されたフレームチャンク長さおよびフレームチェックサム情報を用いれば、該デコーダは、該ビットストリーム内に失われた成分であるチャンク、並びに前記ビットストリームから完全に失われるチャンクが存在したとしても、スケール調節されたビットストリームを適性に処理し、ＤＡＣへ送達するための固定されたサンプル速度オーディオ出力信号を自動的に生じることができる。

＜残余コード化技術のためのスケール調節可能なビットストリームデコーダ＞
図１３は、デコーダのためのブロック図を示している。ビットストリームパーサ６００は、コード化前のコード化される信号のヘルツでのサンプル速度、該ストリームの元のデータ転送速度、およびコード化されたデータ転送速度からなる初期副情報を読取る。この初期副情報は、元の信号の完全なデータ転送速度を再構築することを可能にする。ビットストリーム５９９における更なる成分は、ビットストリームパーサ６００によって構文解析され、適切なデコード要素：音色デコーダ６０１または残余デコーダ６０２へと回される。音色デコーダ６０１を介してデコード化された成分は、信号を時間ドメインへと戻し変換する逆周波数変換６０４を通して処理される。重なり加算ブロック６０８は、先にデコード化されたフレームの最後の半分の値を、逆周波数変換６０４の出力である丁度デコード化されたばかりのフレームの最初の半分の値に加える。ビットストリームパーサ６００が残余デコード化プロセスの一部であると決定する成分は、残余デコーダ６０２を通して処理される。時間ドメイン中に表された３２の周波数副バンドを含む残余デコーダ６０２の出力は、逆フィルタバンク６０５を通して処理される。逆フィルタバンク６０５は、３２の副バンドを、コンバイナ６０７において重なり加算６０８の出力と組合される一つの信号に再合体させる。コンバイナ６０７の出力は、デコード化された出力信号６１４である。

コンピュータ処理負荷を低減するために、信号を時間ドメインへと戻し変換する逆周波数変換６０４および逆フィルタバンク６０５を、これら動作をコンバイナ６０７と一体化させてデコード化された時間ドメイン出力オーディオ信号６１４を形成する逆階層的フィルタバンクと共に実装することができる。デコーダでの階層的フィルタバンクで音色成分が残余成分と合体される方法での、デコーダにおける階層的フィルタバンクの使用は新規である。残余信号は、各副バンドにおけるＭＤＣＴを使用して順方向変換され、次いで、この音色成分が再構築されて、最終段階のＩＭＤＣＴの前で合体される。多重分解能アプローチは、他の用途のためにも一般化することができるであろう（例えば、多重レベルの異なる分解は、本発明のこの側面によってカバーされるであろう）。

＜逆階層的フィルタバンク＞
デコーダの複雑さを低減するために、階層的フィルタバンクを使用して、逆周波数変換６０４、逆フィルタバンク６０５、重なり加算６０８およびコンバイナ６０７のステップを合体してもよい。図１５に示すように、残余デコーダ６０２は逆階層的フィルタバンク４０００の最初の段階へと通される一方、音色デコーダ６０１の出力は、最終逆変換４０１０の前の高周波数分解能段階において、残余サンプルに加えられる。次いで、こうして得られた逆変換されたサンプルが重なり加算されて、線型出力サンプル４０１６を生じる。

ＨＦＢ２４００を使用した単一チャンネルについてのデコーダの全体的な動作が、図２２に示されている。音色信号および残余信号の多重チャンネルデコード化についての追加のステップが、図１０、図１１および図１８に示されている。量子化グリッドＧ１およびＧ’は、ビットストリームパーサ６００によってビットストリーム５９９から読み取られる。残余デコーダ６０２は、グリッドＧ’およびＧ１２４０４を逆量子化（Ｑ^-1）２４０１、２４０２し、グリッドＧ１からＧ０を再構築する２４０５。グリッドＧ０は、各グリッドにおける対応する要素を掛け合わせることによって、グリッドＧ’に適用され、スケール調節されたグリッドＧが形成され、これは階層的フィルタバンク２４０１での次の段階に入力される副バンド時間サンプル４００２からなっている。多重チャンネル信号の場合は、副チャンネルをデコード化するために部分グリッド５０８が使用されるであろう。

最低周波数分解能（Ｐ＝１６、Ｍ＝２５６）の音色成分（Ｔ５）２４０７が、ビットストリームパーサ６００によってビットストリームから読取られる。音色デコーダ６０１は、音色成分を逆量子化２４０８および合成２４０９し、Ｐ群のＭ周波数ドメイン係数を発生させる。

グリッドＧ時間サンプル４００２は、図１５に示すようにしてウインドウ化および重なり加算２４１０され、次いでＰ（２＊Ｍ）点ＭＤＣＴ２４１１により順方向変換されてＰ群のＭ周波数ドメインン係数が形成され、これは次いで、図１６に示した音色成分から合成されたＰ群のＭ周波数ドメイン係数と合体２４１２される。この合体された周波数ドメイン係数は、次いで、長さ−Ｎ・ＩＭＤＣＴ２４１３によって濃縮および逆変換され、ウインドウ化および重なり加算２４１４されてＮ個の出力サンプル２４１５を発生し、これは当該階層的フィルタバンクの次の段階へと入力される。

次に低い周波数分解能音色成分（Ｔ４）がビットストリームから読み出され、上記で述べたようにして階層的フィルタバンクの先の段階の出力と組み合わされ、次いで、全ての周波数成分が当該ビットストリームから読み出され、合体および再構成されるまで、Ｐ＝８，４，２，１およびＭ＝５１２，１０２４，２０４８，４０９６についてこの反復が継続される。

該デコーダの最終段階において、この逆変換は、デコードされた出力６１４として出力されるＮ個の完全バンド幅の時間サンプルを生じる。先のＰ，ＭおよびＮの値は、一つの例示的実施形態についてのものに過ぎず、本発明の範囲を限定するものではない。他のバッファサイズ、ウインドウサイズおよび変換のサイズ、並びに他の変換タイプもまた使用されてよい。

説明したように、デコーダは、音色成分、時間サンプル成分およびスケール因子グリッドを含むフレームを受信することを予想している。しかし、これらの１以上がスケール調節されたビットストリームから失われれば、該デコーダはこのデコード化された出力を連続的に再構築する。例えば、フレームが音色成分のみを含んでいれば、４００２での時間−サンプルはゼロであり、残余成分は、逆ＨＦＢの最初の段階において合成された音色成分との合体２４０３はされない。１以上の音色成分Ｔ５，…Ｔ１が失われていれば、当該反復においてゼロ値が合体される２４０３。当該フレームが、スケール因子グリッドのみを含んでいれば、該デコーダはグリッドＧの代りにノイズ信号で置換して、出力信号をデコード化する。その結果、スケール調節されたビットストリームの各フレームの組成は、信号の内容、変化するデータ転送速度制約などによって変化し得るので、該デコーダは、デコード化された出力信号を連続的に再構築することができる。

図１６は、図１５の逆階層的フィルタバンク内において、音色成分が如何にして組合されるかを、より詳細に示している。この場合、副バンド残余信号４００４がウインドウ化および重なり加算され４００６、順方向変換され４００８、全ての副バンドから得られた係数がグループされて、係数の単一フレーム４０１０が形成される。次いで、各音色係数は、音色成分振幅エンベロープ４１２０に合成係数の群４１０４（通常は表照合により与えられる）を乗じることによって、またその結果を所定の音色成分周波数４１０６の回りにセンタリングされた係数に加えることによって、残余係数のフレームと組合される。これらの音色合成係数の追加は、音色成分の全長に亘って同じ周波数領域のスペクトル線上で実行される。この方法で全ての音色成分が追加された後に、最終ＩＭＤＣＴが実行され、その結果がウインドウ化され、且つ先のフレームに重なり加算されて、出力時間サンプル４０１６を生じる。

逆階層的フィルタバンク２８５０の一般的形態が図１４に示されており、これは図３に示した階層的フィルタバンクに適合する。各入力フレームは、Ｐの副バンドの各々にＭ_iの時間サンプルを含んでおり、Ｍ_iの係数の合計がＮ／２であるようになっている：

図１４において、上向きの矢印はＮ−点のＩＭＤＣＴ変換を表し、これはＮ／２のＭＤＣＴを取って、それらをＮ個の時間ドメインサンプルへと変換する。下向きの矢印はＭＤＣＴを表し、これは一つの副バンド内のＮ／４サンプルを取って、それらをＮ／８のＭＤＣＴ係数に変換する。各正方形は一つの副バンドを表す。各長方形は、Ｎ／２のＭＤＣＴ係数を表す。以下のステップが図１４に示されている：
（ａ）各副バンドにおいて、Ｍ_iの先のサンプルがバッファーされ、現在のＭ_iサンプルと連結されて、各副バンドについての（２＊Ｍ_i）の新たなサンプルを生じる２８２８；（ｂ）各副バンドにおいて、（２＊Ｍ_i）の副バンドサンプルは、（２＊Ｍ_i）点ウインドウ関数を乗じられる２７０６（図５ａ〜図５ｃ）；
（ｃ）（２＊Ｍ_i）点変換（下向き矢印２８２６で表される）が適用されて、各副バンドについてＭ_iの変換係数を生じる；
（ｄ）各副バンドについてのＭ_iの変換係数が濃縮されて、Ｎ／２の係数の一つの群２８２４が形成される；
（ｅ）Ｎ点逆変換（上向き矢印２８２２で表される）が前記連結された係数に適用されて、Ｎのサンプルを生じる；
（ｆ）Ｎサンプルの各フレーム２７０４は、Ｎ−サンプルウインドウ関数２７０６を乗じられ、Ｎウインドウ化されたサンプル２７０８を生じる。
（ｇ）得られたウインドウ化されたサンプル２７０８が重なり加算されて、所定の副バンドレベルでＮ／２の新たな出力サンプルを生じる。
（ｈ）上記ステップは、全ての副バンドが処理されてしまうまで、現在のレベルおよび全ての後続レベルにおいて反復されて、元の時間サンプル２８４０が再構築される。

＜逆解創意的フィルタバンク：均一に離間された副バンド＞
図１５は、図７に示した順方向フィルタバンクと適合する、逆階層的フィルタバンク４０００の例示的実施形態のブロック図を示している。デコード化された出力信号の合成を、以下で更に詳細に説明する：
１．各入力フレーム４００２は、Ｐの副バンドの各々の中にＭ個の時間サンプルを含んでいる。
２．各副バンド４００４をバッファーし、Ｍの新たなサンプルの中にシフトし、（２＊Ｍ）点ウインドウを、５０％重なり加算（ＯＬＡ）４００６を適用して、Ｍの新たな副バンドサンプルを生じる。
３．（２＊Ｍ）点ＭＤＣＴ４００６が各副バンド内で実行されて、Ｐの福バンドの各々において、ＭのＭＤＣＴ係数の一つのフレームが形成される。
４．得られたＭＤＣＴ係数がグループ化されて、（Ｎ／２）のＭＤＣＴ係数の一つのフレーム４０１０が形成される。
５．各フレーム上で、Ｎ点ＩＭＤＣＴ４０１２が実行される。
６．ＩＭＤＣＴ出力は、Ｎ点の５０％重なりフレームでウインドウ化され、重なり加算４０１４されて、Ｎ／２の新たな出力サンプル４０１６が形成される。

一つの例示的実施形態においては、Ｎ＝２５６、Ｐ＝３２、およびＮ＝４である。なお、Ｎ，Ｐ，およびＭについての異なる選択によって表される異なる変換サイズおよび副バンドグループ化もまた、望ましい時間／周波数分解を達成するために用いることができる。

＜逆階層的フィルタバンク：不均一に離間した副バンド＞
逆階層的フィルタバンクのもう一つの実施形態が図１７ａ〜１７ｂに示されており、これは図８ａ〜８ｂに示したフィルタバンクと適合する。この実施形態において、詳述されたフィルタバンク要素の幾つかは、三つの異なる周波数範囲を用い、各範囲において異なる周波数分解能を表す変換係数を用いて変換を生じるためには不完全である。これら変換係数からの時間ドメイン信号の再構築について、次の通り説明する。

この場合、第一の合成要素３１１０は、図１７ｂに示された詳述した要素のバッファリング３１２２、ウインドウ化３１２４、およびＭＤＣＴ３１２６のステップを省略している。その代りに、入力３１０２が単一組の係数を形成し、該係数は逆変換されて２５６の時間サンプルを生じ、これはウインドウ化され３１３２、また先のフレームを重なり加算３１３４されて、この段階について１２８の新たな時間サンプルの出力３１３６を生じる。

第一の要素３１１０の出力および９６の係数３１０６が、第二の要素３１１２へと入力され、図１７ｂに示すように組合されて、フィルタバンクの第三の要素３１１４への入力のための１２８の時間サンプルを生じる。図１７ａにおける第二の要素３１１２および第三の要素３１１４は、図１７ｂの完全に詳述された要素を組込んでおり、１２８の新たな時間サンプル出力を生じるようにカスケードされる。なお、該バッファサイズおよび変換サイズは単なる例として提供されるものであり、他のサイズが使用されてもよい。特に、詳述された要素への入力におけるバッファリング３１２２は、一般的フィルタバンクの階層においてそれが使用される場所に応じて、異なる入力サイズに適応するように変化してよいことに留意すべきである。

次に、デコーダブロックに関する更なる詳細を説明する。
ビットストリームパーサ６００
ビットストリームパーサ６００は、ビットストリームからＩＦＦチャンク情報を読取り、該情報の要素を適切なデコーダ、音色デコーダ６０１または残余デコーダ６０２上に回す。該デコーダに到達する前に、ビットストリームがスケール調節されていることも可能である。用いられるスケール調節の方法に応じて、チャンクの最後にある音響心理学的データ要素は、失われたビットに起因して無効にされてよい。音色デコーダ６０１および残余デコーダ６０２は、チャンクの最後において無効であることが分かったデータを適切に無視する。当該要素のビットが失われている時に、全体の音響心理学的データ要素を無視する音色デコーダ６０１および残余デコーダ６０２に対する代替法は、これらデコーダを得て、存在しないビットにおける読取り、残りの失われたビットにはゼロ、ランダムパターン、または先の音響心理学的データ要素に基づくパターンを充填することにより、可能な限り多くの要素を修復することである。よりコンピュータ処理集約的ではあるが、結果として得られるデコード化されたオーディオが元のオーディオ信号に更に密接にマッチすることができるので、先の音響心理学的データ要素に基づくデータを使用する方が好ましい。

音色デコーダ６０１
ビットストリームパーサ６００によって見出された音色情報は、音色デコーダ６０１を介して処理される。音色成分の再合成は、先に述べたような階層的フィルタバンクを使用して実行される。或いは、逆迅速フーリエ変換を使用することができ、そのサイズは、エンコーダにおいて音色成分を抽出するために使用された最小変換サイズと同じサイズである。

音色デコード化のために、以下の工程が実行される：
ａ）周波数ドメイン副フレームを、ゼロ値で初期化する；
ｂ）音色成分の必要な部分を、最小変換サイズから周波数ドメイン副フレームに再合成する；
ｃ）必要な位置において、他の四つの変換サイズからの音色成分を同じ副フレームに再合成する。これら他の四つの変換サイズの再合成は、如何なる順序でも生じることができる。

音色デコーダ６０１は、各変換サイズグルーピングのために以下の値をデコード化する：即ち、量子化された振幅、量子化された位相、グルーピングのための先の音色成分からのスペクトル距離、および完全なフレーム内での該成分の位置である。多重チャンネル信号については、主チャンネル値からの相違として二次情報が保存され、またビットストリームから得られた値を主チャンネルについて得た値に加えることによって、絶対値に復元される必要がある。多重チャンネル信号については、チャンネル当りの音色成分の「存在」もまたビットマスク３６０２によって与えられ、これはビットストリームからデコード化される。副チャンネル上での更なる処理は、主チャンネルとは独立に行われる。音色デコーダ６０１は、チャンクから音色を再構成するために必要な要素を完全に取得できず、音色要素が廃棄される。前記量子化された振幅は、エンコーダにおいて値を量子化するために使用される表の逆を使用して脱量子化される。前記量子化された位相は、エンコーダにおいて位相を量子化するために使用された線型量子化の逆を使用して、脱量子化される。ビットストリームから得られた相違値を先にデコード化された値に加えることによって、絶対的周波数スペクトル位置が決定される。Ａｍｐｌｉｔｕｄｅを脱量子化された振幅と定義し、Ｐｈａｓｅを脱量子化された位相と定義し、Ｆｒｅｑを絶対的周波数位置と定義すると、以下の擬コードは、最小変換サイズの音色成分の再合成を記述する：
Ｒｅ［Ｆｒｅｑ］
＋＝Ａｍｐｌｉｔｕｄｅ＊ｓｉｎ（２＊Ｐｉ＊Ｐｈａｓｅ／８）；
Ｉｍ［Ｆｒｅｑ］
＋＝Ａｍｐｌｉｔｕｄｅ＊ｃｏｓ（２＊Ｐｉ＊Ｐｈａｓｅ／８）；
Ｒｅ［Ｆｒｅｑ＋１］
＋＝Ａｍｐｌｉｔｕｄｅ＊ｓｉｎ（２＊Ｐｉ＊Ｐｈａｓｅ／８）；
Ｉｍ［Ｆｒｅｑ＋１］
＋＝Ａｍｐｌｉｔｕｄｅ＊ｃｏｓ（２＊Ｐｉ＊Ｐｈａｓｅ／８）；

より長い基本関数の再合成は、より多くの副フレームに亘って広がり、従って、振幅および位相の値は、周波数および基本関数の長さに従って更新される必要がある。以下の擬コードは、これが如何にしてなされるかを記述する：
ｘＦｒｅｑ＝Ｆｒｅｑ＞＞（Ｇｒｏｕｐ−１）；
ＣｕｒｒｅｎｔＰｈａｓｅ＝Ｐｈａｓｅ−２＊（２＊ｘＦｒｅｑ＋１）；
ｆｏｒ（ｉ＝０；ｉ＜ｌｅｎｇｔｈ；ｉ＝ｉ＋１）
｛
ＣｕｒｒｅｎｔＰｈａｓｅ＋＝２＊（２＊Ｆｒｅｑ＋１）／ｌｅｎｇｔｈ；
ＣｕｒｒｅｎｔＡｍｐｌｉｔｕｄｅ
＝Ａｍｐｌｉｔｕｄｅ＊Ｅｎｖｅｌｏｐｅ［Ｇｒｏｕｐ］［ｉ］；
Ｒｅ［ｉ］［ｘＦｒｅｑ］＋＝
ＣｕｒｒｅｎｔＡｍｐｌｉｔｕｄｅ＊
ｓｉｎ（２＊Ｐｉ＊ＣｕｒｒｅｎｔＰｈａｓｅ／８）；
Ｉｍ［ｉ］［ｘＦｒｅｑ］＋＝
ＣｕｒｒｅｎｔＡｍｐｌｉｔｕｄｅ＊
ｃｏｓ（２＊Ｐｉ＊ＣｕｒｒｅｎｔＰｈａｓｅ／８）；
Ｒｅ［ｉ］［ｘＦｒｅｑ＋１］＋＝
ＣｕｒｒｅｎｔＡｍｐｌｉｔｕｄｅ＊
ｓｉｎ（２＊Ｐｉ＊ＣｕｒｒｅｎｔＰｈａｓｅ／８）；
Ｉｍ［ｉ］［ｘＦｒｅｑ＋１］＋＝
ＣｕｒｒｅｎｔＡｍｐｌｉｔｕｄｅ＊
ｃｏｓ（２＊Ｐｉ＊ＣｕｒｒｅｎｔＰｈａｓｅ／８）；
｝
ここで、
Ａｍｐｌｉｔｕｄｅ、ＦｒｅｑおよびＰｈａｓｅは先に定義したのと同じである。
Ｇｒｏｕｐは、基本関数変換サイズを表す数字であり、最小の変換については１であり、最大の変換については５である。
ｌｅｎｇｔｈは、Ｇｒｏｕｐについての副フレームであり、
ｌｅｎｇｔｈ＝２＾（Ｇｒｏｕｐ−１）
によって与えられる。
＞＞は、右シフトオペレータである。
ＣｕｒｒｅｎｔＡｍｐｌｉｔｕｄｅ、およびＣｕｒｒｅｎｔＰｈａｓｅは、次の副フレームのために保存される。
Ｅｎｖｅｌｏｐｅ［Ｇｒｏｕｐ］［ｉ］は、各群についての適切な長さ（ｌｅｎｇｔｈ）の三角形状のエンベロープであり、両端ではゼロ値であり、中央では１の値である。

上記で述べた方法を介しての、最大の三つの変換サイズにおける低い波数の再合成は、出力オーディオにおいて聴取可能な歪みを生じ、従って、グループ３、４、および５において６０未満のスペクトル線に対して、以下の経験に基づく補正が適用される：
ｘＦｒｅｑ＝Ｆｒｅｑ＞＞（Ｇｒｏｕｐ−１）；
ＣｕｒｒｅｎｔＰｈａｓｅ＝Ｐｈａｓｅ−２＊（２＊ｘＦｒｅｑ＋１）；
ｆ＿ｄｌｔ＝Ｆｒｅｑ−（ｘＦｒｅｑ＜＜（Ｇｒｏｕｐ−１））；
ｆｏｒ（ｉ＝０；ｉ＜ｌｅｎｇｔｈ；ｉ＝ｉ＋１）
{
ＣｕｒｒｅｎｔＰｈａｓｅ＋＝２＊（２＊Ｆｒｅｑ＋１）／ｌｅｎｇｔｈ；
ＣｕｒｒｅｎｔＡｍｐｌｉｔｕｄｅ
＝Ａｍｐｌｉｔｕｄｅ＊Ｅｎｖｅｌｏｐｅ［Ｇｒｏｕｐ］［ｉ］；

Ｒｅ＿Ａｍｐ＝ＣｕｒｒｅｎｔＡｍｐｌｉｔｕｄｅ＊
ｓｉｎ（２＊Ｐｉ＊ＣｕｒｒｅｎｔＰｈａｓｅ／８）；
Ｉｍ＿Ａｍｐ＝ＣｕｒｒｅｎｔＡｍｐｌｉｔｕｄｅ＊
ｃｏｓ（２＊Ｐｉ＊ＣｕｒｒｅｎｔＰｈａｓｅ／８）；

ａ０＝Ｒｅ＿Ａｍｐ＊ＣｏｒｒＣｆ［ｆ＿ｄｌｔ］［０］；
ｂ０＝Ｉｍ＿Ａｍｐ＊ＣｏｒｒＣｆ［ｆ＿ｄｌｔ］［０］；
ａ１＝Ｒｅ＿Ａｍｐ＊ＣｏｒｒＣｆ［ｆ＿ｄｌｔ］［１］；
ｂ１＝Ｉｍ＿Ａｍｐ＊ＣｏｒｒＣｆ［ｆ＿ｄｌｔ］［１］；
ａ２＝Ｒｅ＿Ａｍｐ＊ＣｏｒｒＣｆ［ｆ＿ｄｌｔ］［２］；
ｂ２＝Ｉｍ＿Ａｍｐ＊ＣｏｒｒＣｆ［ｆ＿ｄｌｔ］［２］；
ａ３＝Ｒｅ＿Ａｍｐ＊ＣｏｒｒＣｆ［ｆ＿ｄｌｔ］［３］；
ｂ３＝Ｉｍ＿Ａｍｐ＊ＣｏｒｒＣｆ［ｆ＿ｄｌｔ］［３］；
ａ４＝Ｒｅ＿Ａｍｐ＊ＣｏｒｒＣｆ［ｆ＿ｄｌｔ］［４］；
ｂ４＝Ｉｍ＿Ａｍｐ＊ＣｏｒｒＣｆ［ｆ＿ｄｌｔ］［４］；

Ｒｅ［ｉ］［ａｂｓ（ｘＦｒｅｑ−２）］ −＝ａ４；
Ｉｍ［ｉ］［ａｂｓ（ｘＦｒｅｑ−２）］ −＝ｂ４；
Ｒｅ［ｉ］［ａｂｓ（ｘＦｒｅｑ−１）］＋＝（ａ３−ａ０）；
Ｉｍ［ｉ］［ａｂｓ（ｘＦｒｅｑ−１）］＋＝（ｂ３−ｂ０）；
Ｒｅ［ｉ］［ｘＦｒｅｑ］＋＝Ｒｅ＿Ａｍｐ−ａ２−ａ３；
Ｉｍ［ｉ］［ｘＦｒｅｑ］＋＝Ｉｍ＿Ａｍｐ−ｂ２−ｂ３；
Ｒｅ［ｉ］［ｘＦｒｅｑ＋１］＋＝ａ１＋ａ４−Ｒｅ＿Ａｍｐ；
Ｉｍ［ｉ］［ｘＦｒｅｑ＋１］＋＝ｂ１＋ｂ４−Ｉｍ＿Ａｍｐ；
Ｒｅ［ｉ］［ｘＦｒｅｑ＋２］＋＝ａ０−ａ１；
Ｒｅ［ｉ］［ｘＦｒｅｑ＋３］＋＝ａ２；
Ｉｍ［ｉ］［ｘＦｒｅｑ＋３］＋＝ａ２；
｝
ここで、
Ａｍｐｌｉｔｕｄｅ、Ｆｒｅｑ、Ｐｈａｓｅ、Ｅｎｖｅｌｏｐｅ［Ｇｒｏｕｐ］［ｉ］、Ｇｒｏｕｐ、およびＬｅｎｇｔｈは、全て先に定義した通りである。
ＣｏｒｒＣｆは、表２（図２０）によって与えられる。
ａｂｓ（ｖａｌ）は、ｖａｌの絶対値を戻す関数である。

ビットストリームは、コード化された音色成分の数に関して如何なる情報も含まないので、当該デコーダは、各変換サイズについての音色データを、該サイズのためのデータを使い果たすまで読取るだけである。従って、外部手段によってビットストリームから除去された音色成分は、当該ビットストリームの中に未だ含まれているデータを取扱うデコーダの能力に対して影響を持たない。ビットストリームから要素を除去することは、除去されたデータ成分の量だけオーディオ品質を正に劣化させる。音色チャンクもまた除去されることができ、この場合、デコーダは当該変換サイズのための音色成分の如何なる再構築作業も行わない。

逆周波数変換６０４
逆周波数変換６０４は、エンコーダにおける周波数ドメイン表現を作成するために使用される変換の逆である。現在の実施形態では、上記で述べた逆階層的フィルタバンクを用いる。或いは、逆迅速フーリエ変換を使用することができ、これは、重なりＦＦＴがコード時間で使用されたとすれば、エンコーダにより音色を抽出するために使用された最小ＦＦＴの逆である。

残余デコーダ６０２
残余デコーダ６０２の詳細なブロック図が、図１８に示されている。ビットストリームパーサ６００は、ビットストリームからのＧ１要素を、ライン６１０上でグリッドデコーダ７０２へと通す。グリッドデコーダ７０２は、Ｇ１をデコードして、６４時間間隔による３２の周波数ウ副バンドであるＧ０を再生する。該ビットストリームは、量子化されたＧ１値およびこれら値の間の距離を含む。ビットストリームからのＧ１値は、音色成分振幅を脱量子化するために使用したのと同じ脱量子化表を使用して脱量子化される。ビットストリームからの値の間の線型補間は、各Ｇ１副バンドについて８の最終Ｇ１振幅へと導く。Ｇ１の副バンド０および１はゼロに初期化され、ゼロ値は、これら二つの副バンドについての情報がビットストリームの中に見出されたときに置換えられる。次いで、これら振幅は、図１９における表１から得られるマッピング重みを使用して、再生されたＧ０グリッドの中に重み付けされる。Ｇ０についての一般式は下記によって与えられる：

ここで、
ｍは、副バンド数であり、
Ｗは、表１化らのエントリーであり、
ｎは、Ｇ０カラム数であり、
ｋは、１１のＧ１副バンドに亘る。

脱量子化器７００
ビットストリームパーサ６００によって認められた時間サンプルは、脱量子化器７００において脱量子化される。脱量子化器７００は、エンコーダの逆プロセスを使用して、ビットストリームからの時間サンプルを脱量子化する。副バンドゼロからの時間サンプルは１６のレベルに、副バンド１および副バンド２は８のレベルに、副バンド１１〜２５は３のレベルに、また副バンド２６〜３１は２のレベルに脱量子化される。如何なる失われた時間サンプルまたは無効の時間サンプルも、白−ノイズ・スペクトルエネルギー分布を有する−１〜１の範囲にある値の擬ランダム配列で置換される。このような値の配列は、ゼロ値での置換よりも元の信号に更に密接に似た特性を有するので、これはスケール調節されたビットストリームオーディオの品質を改善する。

チャンネル分離器（ＣｈａｎｎｅｌＤｅｍｕｘｅｒ）７０１
ビットストリームにおける副チャンネル情報は、ビットストリームにおけるフラッグ組に依存して、幾つかの副バンドについて主チャンネルからの差として保存される。これら副バンドのために、チャンネル分離器７０１は、主チャンネルにおける値およびビットストリームにおける相違値から、副チャンネルにおける値を修復する。副チャンネル情報が失われていれば、主チャンネル情報いを副チャンネルの中に複製し、また後述するステレオグリッドを使用することによって、ビットストリーム副チャンネル情報は主チャンネルから概略的に修復されることができる。

チャンネル再構築７０６
ステレオ再構築７０６は、副チャンネル情報（時間サンプル）がビットストリームの中に見出されないときに、副チャンネルに対して適用される。グリッドデコーダ７０２によって再構築されたステレオグリッドは、チャンネル間の元のステレオパワー比率を維持するために、主チャンネル時間サンプル情報を複製することによリ回復された二次時間サンプルに適用される。

多重チャンネル再構築
多重チャンネル再構築７０６は、副チャンネルについての二次情報（時間サンプルまたはグリッド）がビットストリームの中に存在しないときに、副チャンネルに対して適用される。このプロセスは、グリッドデコーダ７０２によって再構築された部分グリッドが各チャンネル群内の副チャンネルの時間サンプルに適用され、副チャンネル内における適性なパワーレベルを維持するように主チャンネル時間サンプル情報を複製することによって回復されることを除き、ステレオ再構築７０６に類似している。この部分グリッドは、グリッドＧの時間サンプルに各副チャンネルについての部分グリッドの対応する要素を乗じることによって、スケール調節ステップ７０３でのグリッドＧ０を含む他のスケール因子グリッドによるスケール調節に続き、再構築されたチャンネル群における各副チャンネルに個別的に適用される。グリッドＧ０、部分グリッドは、本発明に即して如何なる順序で適用されてもよい。

本発明の幾つかの例示的実施例を示し、説明してきたが、多くの変形例およびだいたいれいが当業者に生じるであろう。このような変形例および代替例は、添付の特許請求の範囲に定義された本発明の精神および範囲を逸脱することなく行うことができる。

Claims

入力信号をコード化する方法であって：
階層的フィルタバンク（ＨＦＢ）を使用して、入力信号（１００）を多重分解能の時間／周波数表現に分解すること（２１０１ａ、…２１０Ｉｅ）と；
前記時間／周波数表現から、多重周波数分解能で音色成分を抽出すること（２１０９）と；
前記時間／周波数表現から残余成分を抽出すること（２１１７，２１１８，２１１９）と；
前記成分を、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けすること（１０２，１０７，１０８）と；
充分な数の最低順位のコード化された成分を除去して（１１５）、望ましいデータ転送速度未満または概略これに等しいデータ転送速度を有するスケール調節されたビットストリーム（１１６）を形成すること
を含んでなる方法。
請求項１に記載の方法であって、前記成分は、最初に音色成分を異なる周波数分解能で少なくとも一つの周波数副ドメイン（９０３，９０４，９０５，９０６，９０７）にグループ化し、また残余成分を異なる時間スケールおよび／または周波数分解能で少なくとも一つの残余副ドメイン（９０８，９０９，９１０）にグループ化し、これら副ドメインを、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けし、また各副ドメイン内の前記成分を、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けすることによって順位付けされる方法。
請求項２に記載の方法であって、更に、
その中で前記副ドメインおよび各副ドメイン内の成分がそれらの順位付け（１０９）に基づいて並べられるマスタービットストリーム（１２６）を形成することを含み、前記低順位付け成分は、最低順位の副ドメイン内における最低順位の成分から出発して、望ましいデータ転送速度が達成されるまで（１１５）、順序に従って成分を排除することにより除去される方法。
請求項１に記載の方法であって、更に、
順位付けされた量子化成分（１０９）を含むマスタービットストリーム（１２６）を形成することを含んでなり、該マスタービットストリームは、充分な数の低順位成分を除去してスケール調節されたビットストリーム（１１５）を形成することにより、スケール調節される方法。
請求項４に記載の方法であって、前記スケール調節されたビットストリーム（１１６）は、制約として望ましいデータ転送速度を有するチャンネル上に記録され、または該チャンネル上を送信される方法。
請求項５に記載の方法であって、前記スケール調節されたビットストリーム（１１６）は複数のスケール調節されたビットストリームの一つであり、また、各個別のビットストリームのデータ転送速度は独立に制御されるが、個々のデータ転送速度の総和は最大の合計データ転送速度を超えてはならず、且つ前記各データ転送速度はデコード化信号品質に従ってインタイムで且つ動的に制御されるとの制約条件を伴う方法。
請求項１に記載の方法であって、前記残余成分は、前記入力信号および音色成分の間の残余信号（１１３）から誘導され、それによって前記スケール調節されたビットストリームを形成するために排除される音色成分は、前記残余信号（２１１４）からも除去される（２１１２）方法。
請求項１に記載の方法であって、前記残余成分は時間サンプル成分（２１１７）と、該時間サンプル成分を異なる時間スケールおよび／または周波数分解能で修飾するスケール因子成分（２１１８，２１１９）とを含む方法
請求項８に記載の方法であって、前記時間サンプル成分は、グリッドＧ（２１１７）によって表され、また前記スケール因子成分は、前記グリッドＧを時間／周波数平面内のＧ０およびＧ１のグリッド要素で分割することにより時間サンプル成分に適用される、複数の時間スケールおよび周波数分解能での一連の１以上のグリッドＧ０，Ｇ１（２１１８，２１１９）を含んでなり、各グリッドＧ０、Ｇ１は時間および／または周波数における異なる数のスケール因子を有する方法。
請求項８に記載の方法であって、前記スケール因子は、前記スケール因子成分に対して二次元変換を適用し、且つ前記変換係数を量子化することによってコード化される（１０７）方法。
請求項１０に記載の方法であって、前記変換は、二次元離散コサイン変換である方法。
請求項１に記載の方法であって、前記ＨＦＢは、連続的に低下する周波数分解能レベルで、連続的反復において前記入力信号を変換係数に分解し、また前記音色成分および残余成分は、
各反復において、前記変換係数から音色成分を抽出し（２１０９）、該抽出された音色成分を量子化（２１１０）および音色リストに保存すること（２１０６）と；
前記入力信号から前記音色成分（２１１１，２１１２）を除去して、残余信号（２１１４）をＨＦＢの次の反復へと通過させることと；
前記ＨＦＢの最終反復よりも比較的低い周波数分解能を備えた最終逆変換（２１１５）を、前記残余信号（１１３）に適用して、前記残余成分（２１１７）を抽出すること
によって抽出される方法。
請求項１２に記載の方法であって、更に、
前記最終反復の後に、前記音色リストから音色成分（１１４）の幾つかを除去することと；
前記除去された量子化音色成分（１１４）をローカルにデコード化および逆量子化（１０４）し、最終反復においてそれらを残余信号（１１１）と合体させること
を含んでなる方法。
請求項１３に記載の方法であって、前記リストから除去された比較的強い音色成分の少なくとも幾つかは、ローカルにデコード化および合体されない方法。
請求項１２に記載の方法であって、各周波数分解能での前記音色成分は、
知覚モデルの適用を介して、望ましい音色成分を同定すること；
知覚的に最も有意な変換係数を選択すること；
各選択された変換係数のパラメータを音色成分として保存し、前記パラメータは振幅、周波数、位相、および対応する変換係数のフレームにおける位置を含むこと；および
前記音色リストにおける各音色成分について、前記パラメータをビットストリームへの挿入のために量子化およびコード化（２１１０）すること
によって抽出（２１０９）される方法。
請求項１２に記載の方法であって、前記残余成分はグリッドＧ（２１１７）で表された時間サンプル成分を含み、前記残余成分の抽出は更に、
異なる時間／周波数分解能の１以上のスケール因子グリッド（２１１８，２１１９）であって、その要素が、時間／周波数領域における最大信号値または信号エネルギーを表すグリッドを構築すること；
時間−サンプルグリッドＧの要素を、スケール因子グリッドの対応する要素で割って、スケール調節された時間サンプルグリッドＧ（２１２０）を生じさせることと；
前記スケール調節された時間サンプルグリッドＧ（２１２２）およびスケール因子グリッド（２１２１）を、前記コード化されたビットストリームの中に挿入するために量子化およびコード化すること
を含んでなる方法。
請求項１に記載の方法であって、前記入力信号が分解され、前記音色成分および残余成分は、
（ａ）前記入力信号のサンプルを、Ｎサンプルのフレームの中にバッファーすること（２９００）；
（ｂ）前記各フレームにおけるＮサンプルに、Ｎ−サンプルウインドウ関数を乗じること（２９００）；
（ｃ）Ｎ−点変換を適用して、Ｎ／２の元の変換係数を生じること（２９０２）；
（ｄ）前記Ｎ／２の元の変換係数から音色成分を抽出し（２１０９）、該抽出された音色成分を量子化（２１１０）および音色リストの中に保存すること（２１０６）；
（ｅ）前記音色成分を逆量子化によって差引き（２１１１）、得られた音色変換係数を元の変換係数から差引いて（２１１２）、Ｎ／２の残余変換係数を得ること；
（ｆ）該Ｎ／２の残余変換係数をＰ群のＭ_i係数に分割し、Ｍ_i係数の総和がＮ／２になるようにすること（２９０６）；

（ｇ）Ｐ群の各々について、（２＊Ｍ_i）点逆変換を前記変換係数に適用して、各群から（２＊Ｍｉ）副バンドサンプルを生じること（２９０６）；
（ｈ）各副バンドにおいて、（２＊Ｍ_i）副バンドサンプルに、（２＊Ｍ_i）点ウインドウ関数を乗じること（２９０８）；
（ｉ）各副バンドにおいて、Ｍ_iの先のサンプルを重ならせ、対応する値を付加して、各副バンドについてＭ_iの新たなサンプルを生じること（２９１０）；
（ｊ）望ましい時間／変換分解能が得られるまで（２９０１４）、連続的に小さくなる変換サイズＮを用いて、Ｍ_iの新たなサンプルの副バンドの１以上に対して上記のステップ（ａ）〜（ｉ）を反復すること（２９１２）；および
（ｋ）比較的低い周波数分解能Ｎを備えた最終逆変換を、最終反復において出力された各副バンドについてのＭ_iの新たなサンプルに適用して（２１１５）、副バンドのグリドＧにおける時間サンプルの副バンド、および各副バンドにおける複数の時間サンプルを生じること
によって抽出される方法。
請求項１に記載の方法であって、前記入力信号は多重チャンネル入力信号であり、前記音色成分は前記チャンネルの群を形成することによって、また前記各群について、
主チャンネル、および副チャンネルの存在を同定する各ビットを用いてビットマスクを介して同定される（３６０２）少なくとも一つの副チャンネルを選択すること；
前記主チャンネルを量子化およびコード化すること（１０２，１０８）；および
前記主チャンネルおよび各副チャンネルの間の差を量子化およびコード化すること
によって一緒にコード化される方法。
請求項１８に記載の方法であって、各チャンネル群をコード化するためのジョイントチャンネルモードは、デコード化された出力信号における望ましいデータ転送速度について、何れのモードが知覚される最小の歪みを与えるかを示す測定基準に基づいて選択される方法。
請求項１に記載の方法であって、前記入力信号は多重チャンネル信号であり、更に、
前記抽出された音色成分を各チャンネルについての入力信号から差引いて、残余信号を形成すること（２１０９ａ，．．２１０９ｅ）；
残余信号のチャンネルを、知覚基準およびコード化効率によって決定される群に形成すること（３７０２）；
前記の各残余信号群について、主チャンネルおよび副チャンネルを決定すること（３７０４）；
部分グリッド（５０８）を計算して、各残余信号群における各主／副チャンネル対の間の相対的空間情報をコード化すること（５０２）；
各群における主チャンネルのための残余成分を、夫々のグリッドＧとして量子化およびコード化すること（２１１０ａ）；
前記部分グリッドを量子化およびコード化して、必要なデータ転送速度を低下させること（２１１０ａ）；および
前記コード化された部分グリッドおよび各群についてのグリッドＧを、スケール調節されたビットストリームの中に挿入すること（３７０６）
を含んでなる方法。
請求項２０に記載の方法であって、前記副チャンネルが１以上のチャンネルの線型結合から構築される（３７０４）方法。
オーディオ入力信号をコード化する方法であって：
オーディオ入力信号（１００）を多重分解能の時間／周波数表現に分解すること（２１０１ａ、…２１０Ｉｅ）と；
各周波数分解能で音色成分を抽出すること（２１０９）と；
前記時間／周波数表現から音色成分を除去して（２１１１，２１１２）、残余信号を形成すること（１１３）と；
前記残余信号から残余成分を抽出すること（２１１７，２１１８，２１１９）；
前記音色成分を、少なくとも一つの周波数副ドメインにグループ化すること（９０３，９０４，９０５，９０６，９０７）と；
前記残余成分を、少なくとも一つの残余副ドメインにグループ化すること（９０８，９０９，９１０）と；
前記副ドメインを、音響心理学的重要度に基づいて順位付けすること（１０３，１０７，１０９）と；
各副ドメイン内の前記成分を、音響心理学的重要度に基づいて順位付けすること（９０３，９０４，９０５，９０６，９０７）と；
各副ドメイン内の成分を量子化およびコード化すること（１０２，１０７，１０８）と；
充分な数の最低順位のコード化された成分を除去して（１１５）、望ましいデータ転送速度未満または概略これに等しいデータ転送速度を有するスケール調節されたビットストリーム（１１６）を形成すること
を含んでなる方法。
請求項２２に記載の方法であって、前記音色成分は、異なる周波数分解能で複数の周波数副ドメイン（９０３，９０４，９０５，９０６，９０７）にグループ化され、また前記残余成分は、異なる時間スケールおよび／または周波数分解能で複数の残余副ドメイン（９０８，９０９，９１０）にグループ化されるグリッドを含んでいる方法。
請求項２２に記載の方法であって、更に、
その中で前記副ドメインおよび各副ドメイン内の成分がそれらの順位付けに基づいて並べられるマスタービットストリーム（１２６）を形成することを含み、前記低順位付け成分は、最低順位の副ドメイン内における最低順位の成分から出発して、望ましいデータ転送速度が達成されるまで、順序に従って成分を排除することにより除去される（１１５）方法。
入力オーディオ信号をコード化し、スケール調節可能なビットストリームを形成するためのスケール調節可能なビットストリームエンコーダであって：
入力オーディオ信号を、連続的に低下する周波数分解能レベルで変換係数に分解し（２１０８）、また連続的反復で、連続的に精細になる時間スケールで時間ドメイン副バンドサンプルに戻す階層的フィルタバンク（ＨＦＢ）（２１００）と；
音色エンコーダ（１０２）であって、（ａ）各反復において前記変換係数から音色成分を抽出し（２１０９）、それらを量子化（２１１０）および音色リストの中に保存し（２１０６）、（ｂ）前記入力オーディオ信号から前記音色成分を除去し、残余信号（２１１４ｂ）をＨＦＢの次の反復へと通過させ、（ｃ）全ての前記抽出された音色成分を、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けする音色エンコーダと；
ＨＦＢの最終反復（２１０１ｅ）よりも相対的に低い周波数分解能で、最終の残余信号（１１３）に最終逆変換（２１１５）を適用して、残余成分（２１１７，２１１８，２１１９）を抽出し、該残余成分を、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けする残余エンコーダ（１０７）と；
前記音色成分および残余成分をフレーム毎のベースでアセンブリングして、マスタービットストリーム（１２６）を形成するビットストリームフォーマット器（１０９）と；
前記マスタービットストリームの各フレームから、充分な数の低順位でコード化された成分を除去して、望ましいデータ転送速度未満またはこれに概略等しいデータ転送速度を有するスケール調節されたビットストリーム（１１６）を形成する、スケール調節器と
を含んでなるスケール調節可能なビットストリームエンコーダ。
請求項２５に記載のエンコーダであって、前記音色エンコーダは、異なる周波数分解能で前記音色成分を周波数副ドメインにグループ化して（９０３，９０４，９０５，９０６，９０７）、これら成分を各副ドメインと共に順位付けし、また前記残余エンコーダは、異なる時間スケールおよび／または周波数分解能で前記残余成分を残余副ドメインにグループ化して（９０８，９０９，９１０）、これら成分を各副ドメインと共に順位付けし、また前記ビットストリームフォーマット器は、前記副ドメインを、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けするエンコーダ。
請求項２６に記載のエンコーダであって、前記ビットストリームフォーマット器は、各副ドメイン内の前記副ドメインおよび前記成分を、それらの順位に基づいて整列させ、前記スケール調節器（１１５）は、最低順位の副ドメイン内における最低順位の成分で出発して、望ましいデータ転送速度が達成されるまで（１１５）順序に従って成分を排除するエンコーダ。
請求項２５に記載のエンコーダであって、前記入力オーディオ信号は多重チャンネル入力オーディオ信号であり、前記音色エンコーダは、前記チャンネルの群を形成することによって、また前記の各群について、
主チャンネル、および副チャンネルの存在を同定する各ビットを用いてビットマスクを介して同定される（３６０２）少なくとも一つの副チャンネルを選択すること；
前記主チャンネルを量子化およびコード化すること（１０２，１０８）；および
前記主チャンネルおよび各副チャンネルの間の差を量子化およびコード化すること（１０２，１０８）
によって一緒にコード化されるエンコーダ。
請求項２５に記載のエンコーダであって、前記入力信号は多重チャンネルオーディオ信号であり、前記残余エンコーダは、
残余信号のチャンネルを、知覚基準およびコード化効率によって決定される群に形成し（３７０２）；
前記の各残余信号群について、主チャンネルおよび副チャンネルを決定し（３７０４）；
部分グリッド（５０８）を計算して、各残余信号群における各主／副チャンネル対の間の相対的空間情報をコード化し（５０２）；
各群における主チャンネルのための残余成分を、夫々のグリッドＧとして量子化およびコード化し（２１１０ａ）；
前記部分グリッドを量子化およびコード化して、必要なデータ転送速度を低下させ（２１１０ａ）；および
前記コード化された部分グリッドおよび各群についてのグリッドＧを、スケール調節されたビットストリームの中に挿入する（３７０６）
エンコーダ。
請求項２５に記載のエンコーダであって、前記残余エンコーダは、グリッドＧ（２１１７）によって表された前記時間サンプル成分、および複数の時間スケールおよび周波数分解能での一連の１以上のグリッドＧ０，Ｇ１（２１１８，２１１９）を抽出し、これらは前記グリッドＧを時間／周波数平面内のＧ０およびＧ１のグリッド要素で分割する（２１２０）ことにより時間サンプル成分に適用され、各グリッドＧ０、Ｇ１は時間および／または周波数における異なる数のスケール因子を有するエンコーダ。
コード化されたビットストリームから時間ドメイン出力信号を再構築する方法であって：
所定の範囲内の予め定められたデータ転送速度を有するスケール調節されたビットストリーム（５９９）をフレームのシーケンスとして受信し、各フレームは次の（ａ）〜（ｃ）の少なくとも一つを含んでいること：（ａ）入力信号の異なる周波数分解能において周波数ドメイン内容を表す複数の量子化された音色成分（２４０７）、（ｂ）再構成された音色成分と入力信号の間の差から形成された時間ドメイン残余を表す、量子化された残余時間サンプル成分（２４０３）、および（ｃ）入力信号の周波数範囲に少なくとも部分的に広がる残余信号の信号エネルギーを表すスケール因子グリッド（２４０４）；
各フレームについて、前記周波数配位内での前記量子化された成分および／またはグリッドの位置に関する情報を受信すること；
前記スケール調節されたビットストリームのフレームを、前記成分およびグリッドに構文解析すること（６００）；
全ての音色成分デコード化して、変換係数を形成すること（２４０８）；
全ての時間サンプル成分および全てのグリッドをデコード化すること（２４０１〜２４０５）；
前記時間サンプル成分にグリッド要素を乗じて、時間ドメインサンプルを形成すること（２４０６）；および
前記変換係数（２４０７）および時間ドメインサンプル（４００２）に逆階層的フィルタバンク（２４００）を適用して、時間ドメイン出力信号（６１４）を再構成すること
を含んでなる方法。
請求項３１に記載の方法であって、前記時間ドメインサンプルが、
前記ビットストリームを、スケール因子グリッドＧ１（２４０４）および時間サンプル成分（２４０３）に構文解析すること；
グリッドＧ１スケール因子グリッドをデコードおよび逆量子化して、Ｇ０スケール因子グリッド（２４０５）を生じさせること；および
前記時間サンプル成分をデコード化および逆量子化し、これら時間サンプル値にＧ０スケール因子グリッド値を乗じて（２４０６）、再構築された時間サンプルを生じさせること（４００２）
によって形成される方法。
請求項３２に記載の方法であって、前記信号は残余チャンネルがグループ化およびコード化されている多重チャンネル信号であり、前記の各フレームはまた、ｄ）チャンネルグループ内における前記残余信号チャンネルの信号エネルギー比率を表す部分グリッドを含んでおり、更に、
前記ビットストリームを部分グリッド（５０８）に構文解析すること；
前記部分グリッドをデコード化および逆量子化すること（２４０１）；および
前記再構築された時間サンプルに、チャンネル群における各副チャンネルに適用される前記部分グリッド（５０８）を乗じて、再構築された時間ドメインサンプルを生じさせること
を含んでなる方法。
請求項３１に記載の方法であって、前記入力信号は多重チャンネルであり、その中では音色成分軍が主チャンネルおよび１以上の副チャンネルを含んでおり、前記各フレームはまた、ｅ）各群における主チャンネルに付随したビットマスクを含んでおり、ここでの各ビットは前記主チャンネルと一緒にコード化された副チャンネルの存在を同定し、
前記ビットストリームをビットマスクに構文解析し（３６０２）；
各群における主チャンネルについて前記音色成分（６０１）をデコード化し；
各群において、前記一緒にコード化された音色成分（６０１）をデコード化し；
各群について、前記ビットマスクを使用して、前記各副チャンネルのための音色成分を、前記主チャンネルの音色成分および一緒にコード化された音色成分（６０１）から再構築する方法。
請求項３４に記載の方法であって、前記副チャンネル音色成分が、主周波数および副周波数の間の差情報をデコード化することによってデコード化され、前記音色成分が存在する各副チャンネルについて振幅および位相がエントロピーコード化されて保存される方法。
請求項３１に記載の方法であって、前記階層的フィルタバンク（２４００）は、時間ドメインサンプル（４００２）を残余変換係数（２４１１）に変換し、それを低周波数分解能で一組の音色成分（２４０７）についての変換係数（２４０９）と組み合せ（２４１２）、この組合された変換係数を逆変換（２４１３）して部分的に再構築された出力信号を形成し（２４１５）、該部分的に再構築された出力信号に対して、出力信号（６１４）が再構築されるまで、次に高い周波数分解能のもう一つの組の音色成分についての変換係数を用いてこれらステップを反復することにより、出力信号（６１４）を再構築する方法。
請求項３６に記載の方法であって、前記時間ドメインサンプルが副バンドとして表され、前記逆階層的フィルタバンクは、下記ａ）〜ｇ）により時間ドメイン出力信号を再構築する方法：
ａ）前記入力フレームの時間ドメイン副バンドの各々において信号をウインドウ化して、ウインドウ化された時間ドメイン副バンドを形成すること（２４１０）；
ｂ）前記ウインドウ化された時間ドメイン副バンドの各々に対して時間から周波数メインへの変換を適用し、変換係数を形成すること（２４１１）；
ｃ）得られた変換係数を連結して、より大きな組の残余変換係数を形成すること（２４１１）；
ｄ）前記一組の音色成分から前記変換係数を合成すること（２４０９）；
ｅ）前記音色成分および時間ドメイン成分から再構築された変換係数を、単一組の合体された変換係数に組み合せること（２４１２）；
ｆ）前記合体された変換係数に逆変換を適用し、ウインドウ化し、先のフレームと重なり加算して（２４１４）、部分的に再構築された時間ドメイン信号を再構築すること（２４１５）；
ｇ）時間ドメイン出力信号（６１４）が再構築されるまで、前記部分的に再構築された時間ドメイン信号に対して、次の組の音色成分を使用してステップ（ａ）〜（ｆ）の連続的反復を適用すること（２４０７）。
請求項３６に記載の方法であって、各入力フレームがＰの副バンドの各々の中にＭ_iの時間サンプルを含み、前記逆階層的フィルタバンクが以下のステップを実行する方法：
ａ）各副バンドｉにおいて、Ｍ_iの先のサンプルをバッファーし、現在のＭ_iサンプルと連結して、２＊Ｍ_iの新たなサンプルを生じること（４００４）
ｂ）各副バンドｉにおいて、前記２＊Ｍ_iの副バンドサンプルに２＊Ｍ_i点ウインドウ関数を乗じること（４００６）；
ｃ）前記副バンドサンプルに（２＊Ｍ_i）点変換を適用して、各副バンドｉのためのＭ_iの変換係数を生じること（４００８）；
ｄ）各副バンドｉのための前記Ｍ_iの変換係数を連結して、一組のＮ／２の係数を形成すること（４０１０）；
ｅ）前記デコード化および逆量子化された一組の音色成分から音色変換係数を合成し、それらを先のステップの前記連結された係数と組み合せて、一組の組合され連結された係数を形成すること（２４０７，２４０８，２４０９，２４１２）；
ｆ）前記組合され連結された係数にＮ点逆変換を適用して、Ｎのサンプルを生じさせること（４０１２）；
ｇ）Ｎのサンプルの各フレームにＮのサンプルウインドウ関数を乗じて、Ｎのウインドウサンプルを生じさせること（４０１４）
ｈ）得られた前記ウインドウ化されたサンプルを重なり加算し（４０１４）、部分的に再構築された出力信号として、所定の副バンドレベルでＮ／２の新たな出力サンプルを生じること（４０１６）；
ｉ）全ての副バンドが処理され且つＮの元の時間サンプルが出力信号（６１４）として再構築されるまで、前記Ｎ／２の新たな出力サンプルに対して、次の組の音色成分を使用してステップ（ａ）〜（ｈ）を反復すること（２４０７）。
コード化されたビットストリームから時間ドメイン出力オーディオ信号を再構築するためのデコーダであって：
スケール調節されたビットストリームの各フレームを、そのオーディオ成分に構文解釈するためのビットストリームパーサ（６００）であって、各フレームは次の（ａ）〜（ｃ）の少なくとも一つを含んでいるビットストリームパーサ：（ａ）入力信号の異なる周波数分解能において周波数ドメイン内容を表す複数の量子化された音色成分、（ｂ）再構成された音色成分と入力信号の間の差から形成された時間ドメイン残余を表す、量子化された残余時間サンプル成分、および（ｃ）入力信号の周波数範囲に少なくとも部分的に広がる残余信号の信号エネルギーを表すスケール因子グリッド；
全ての時間サンプル成分および全てのグリッドをデコード化して、時間サンプルを再構築するための残余デコーダ（６０２）；
全ての音色成分をデコード化して変換係数を形成するための音色デコーダ（６０１）；および
時間サンプルを残余変換係数に変換し、それらを低周波数分解能で一組の音色成分のための変換係数と組み合せ、組合された変換係数を逆変換して部分的に再構築された出力信号を形成し、この部分的に再構築された出力信号に対して、次の最高周波数分解能でのもう一つの組の音色成分のための変換係数を用いて、前記オーディオ信号が再構築されるまでこれらステップを反復することによって、出力信号を再構築する逆階層的フィルタバンク（２４００）
を含んでなるデコーダ。
請求項３９に記載のデコーダであって、各入力フレームがＰの副バンドの各々の中にＭ_iの時間サンプルを含み、前記逆階層的フィルタバンクが以下のステップを実行するデコーダ：
ａ）各副バンドｉにおいて、Ｍ_iの先のサンプルをバッファーし、現在のＭ_iサンプルと連結して、２＊Ｍ_iの新たなサンプルを生じること（４００４）
ｂ）各副バンドｉにおいて、前記２＊Ｍ_iの副バンドサンプルに２＊Ｍ_i点ウインドウ関数を乗じること（４００６）；
ｃ）前記副バンドサンプルに（２＊Ｍ_i）点変換を適用して、各副バンドｉのためのＭ_iの変換係数を生じること（４００８）；
ｄ）各副バンドｉのための前記Ｍ_iの変換係数を連結して、一組のＮ／２の係数を形成すること（４０１０）；
ｅ）前記デコード化および逆量子化された一組の音色成分から音色変換係数を合成し、それらを先のステップの前記連結された係数と組み合せて、一組の組合され連結された係数を形成すること（２４０７，２４０８，２４０９，２４１２）；
ｆ）前記組合され連結された係数にＮ点逆変換を適用して、Ｎのサンプルを生じさせること（４０１２）；
ｇ）Ｎのサンプルの各フレームにＮのサンプルウインドウ関数を乗じて、Ｎのウインドウサンプルを生じさせること（４０１４）
ｈ）得られた前記ウインドウ化されたサンプルを重なり加算し（４０１４）、部分的に再構築された出力信号として、所定の副バンドレベルでＮ／２の新たな出力サンプルを生じること（４０１６）；
ｉ）全ての副バンドが処理され且つＮの元の時間サンプルが出力信号（６１４）として再構築されるまで、前記Ｎ／２の新たな出力サンプルに対して、次の組の音色成分を使用してステップ（ａ）〜（ｈ）を反復すること（２４０７）。
入力信号を階層的にフィルタリングして、ほぼ任意の時間／周波数分解を達成する方法であって：
（ａ）前記入力信号のサンプルを、Ｎサンプルのフレームの中にバッファーするステップ（２９００）と；
（ｂ）前記各フレームにおけるＮサンプルに、Ｎ−サンプルウインドウ関数を乗じるステップ（２９００）と；
（ｃ）Ｎ−点変換を適用して、Ｎ／２の元の変換係数を生じるステップ（２９０２）；（ｄ）該Ｎ／２の残余変換係数をＰ群のＭ_i係数に分割し、Ｍ_i係数の総和がＮ／２になるようにするステップ（２９０６）と；

（ｅ）Ｐ群の各々について、（２＊Ｍ_i）点逆変換を前記変換係数に適用して、各群から（２＊Ｍｉ）副バンドサンプルを生じるステップ（２９０６）と；
（ｆ）各副バンドにおいて、（２＊Ｍ_i）副バンドサンプルに、（２＊Ｍ_i）点ウインドウ関数を乗じるステップ（２９０８）と；
（ｇ）各副バンドにおいて、Ｍ_iの先のサンプルを重ならせ、対応する値を付加して、各副バンドについてＭ_iの新たなサンプルを生じるステップ（２９１０）と；
（ｈ）望ましい時間／変換分解能が達成されるまで（２９１４）、Ｍ_iの新たなサンプルの１以上の副バンドに対して、連続的に小さくなる変換サイズＮを使用してステップ（ａ）〜（ｇ）を反復するステップ（２９１２）
を含んでなる方法。
請求項４１に記載の方法であって、前記変換がＭＤＣＴ変換である方法。
請求項４１に記載の方法であって、Ｍ_iの全ての副バンドに対してステップ（ａ）〜（ｇ）が反復される方法。
請求項４１に記載の方法であって、Ｍ_iの低周波数右副バンドの定義された組に対してのみ、ステップ（ａ）〜（ｇ）が反復される方法。
入力信号の時間サンプルを階層的に再構築する方法であって、各入力フレームがＰの副バンドの各々の中にＭ_iの時間サンプルを含み、以下のステップを実行することを含んでなる方法：
ａ）各副バンドｉにおいて、Ｍ_iの先のサンプルをバッファーし、現在のＭ_iサンプルと連結して、２＊Ｍ_iの新たなサンプルを生じること（４００４）
ｂ）各副バンドｉにおいて、前記２＊Ｍ_iの副バンドサンプルに２＊Ｍ_i点ウインドウ関数を乗じること（４００６）；
ｃ）前記ウインドウ化された副バンドサンプルに（２＊Ｍ_i）点変換を適用して、各副バンドｉのためのＭ_iの変換係数を生じること（４００８）；
ｄ）各副バンドｉのための前記Ｍ_iの変換係数を連結して、一つのＮ／２の係数群を形成すること（４０１０）；
ｅ）前記連結された係数にＮ点逆変換を適用して、Ｎのサンプルを生じさせること（４０１２）；
ｆ）Ｎのサンプルの各フレームにＮ−サンプルウインドウ関数を乗じて、Ｎのウインドウサンプルを生じさせること（４０１４）
ｇ）得られた前記ウインドウ化されたサンプルを重なり加算し（４０１４）、所定の副バンドレベルでＮ／２の新たな出力サンプルを生じること（４０１６）；および
ｈ）全ての副バンドが処理され且つＮの元の時間サンプルが再構築されるまで、ステップ（ａ）〜（ｇ）を反復すること。