JP6013646B2

JP6013646B2 - オーディオ処理システム

Info

Publication number: JP6013646B2
Application number: JP2016505845A
Authority: JP
Inventors: クヨーリング，クリストファー; プルンハーゲン，ヘイコ; ヴィレモーズ，ラーシュ
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2013-04-05
Filing date: 2014-04-04
Publication date: 2016-10-25
Anticipated expiration: 2034-04-04
Also published as: US20160055855A1; BR112015025092A2; HK1214026A1; CN109509478A; US9478224B2; JP2016514858A; US9812136B2; EP2981956B1; RU2625444C2; US20160372123A1; KR20150139601A; CN105247613B; RU2015147158A; ES2934646T3; EP2981956A2; WO2014161996A2; JP6407928B2; CN105247613A; KR101717006B1; CN109509478B

Description

関連出願への相互参照
本願は、2013年4月5日に出願された米国仮特許出願第61/809,019号および2013年9月10日に出願された米国仮特許出願第61/875,959号の優先権を主張するものである。

技術分野
本開示は概括的にはオーディオ・エンコードおよびデコードに関する。さまざまな実施形態は声エンコードおよびデコードに特に好適なオーディオ・エンコードおよびデコード・システム（オーディオ・コーデック・システムと称される）を提供する。

オーディオ・コーデック・システムを含む複雑な技術的システムは典型的には、長期間にわたって累積的に、しばしば独立した諸研究開発チームにおける協調のない努力によって進化する。結果として、そのようなシステムは、種々の設計パラダイムおよび／または不均等な技術進歩レベルを表わすコンポーネントのぎこちない組み合わせを含むことがある。レガシー設備との互換性を保持したいというよくある望みが設計者に対してさらなる制約条件を課し、比較的コヒーレントでないシステム構成につながることがある。特に、マルチチャネル・オーディオ・コーデック・システムでは、後方互換性は特に、ダウンミックス信号が処理機能のないモノまたはステレオ再生システムにおいて再生されるときにまともに聞こえる出力を返す符号化フォーマットを提供することに関わることがある。

現状技術を表わす利用可能なオーディオ符号化フォーマットはMPEGサラウンド、USACおよび高効率AAC v2を含む。これらは文献において十全に記述され、分析されている。

Herre et al., "MPEG Surround -- The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol.56, No. 11, 2008 November

特に声信号について、納得のいくパフォーマンスをもつ、多様だが構成上一様なオーディオ・コーデックを提案することが望ましいであろう。

発明コンセプト内の実施形態についてこれから付属の図面を参照しつつ、詳細に述べる。
ある例示的実施形態に基づくオーディオ処理システムの全体構造を示す一般化されたブロック図である。前記オーディオ処理システムの二つの異なるモノ・デコード・モードのための処理経路を示す図である。波形符号化された低周波数コンテンツによるポスト・アップミックス増強のないものとそれを含むものの、二つの異なるパラメトリック・ステレオ・デコードのための処理経路を示す図である。前記オーディオ処理システムが、離散的に符号化されたチャネルをもって、完全に波形符号化されたステレオ信号を処理するデコード・モードのための処理経路を示す図である。前記オーディオ処理システムが、スペクトル帯域複製を適用した後に三チャネル・ダウンミックス信号をパラメトリックにアップミックスすることによって、五チャネル信号を提供するデコード・モードのための処理経路を示す図である。ある例示的実施形態に基づくオーディオ処理システムの構成およびシステム中のあるコンポーネントの内部動作を示す図である。ある例示的実施形態に基づくデコード・システムの一般化されたブロック図である。図７のデコード・システムの第一の部分を示す図である。図７のデコード・システムの第二の部分を示す図である。図７のデコード・システムの第三の部分を示す図である。ある例示的実施形態に基づくデコード・システムの一般化されたブロック図である。図１１のデコード・システムの第三の部分を示す図である。ある例示的実施形態に基づくデコード・システムの一般化されたブロック図である。図１３のデコード・システムの第一の部分を示す図である。図１３のデコード・システムの第二の部分を示す図である。図１３のデコード・システムの第三の部分を示す図である。第一の例示的実施形態に基づくエンコード・システムの一般化されたブロック図である。第二の例示的実施形態に基づくエンコード・システムの一般化されたブロック図である。一定ビットレートでビットストリームを提供する例示的なオーディオ・エンコーダのブロック図である。可変ビットレートでビットストリームを提供する例示的なオーディオ・エンコーダのブロック図である。変換係数の複数のブロックに基づく例示的な包絡の生成を示す図である。変換係数のブロックの例示的な包絡を示す図である。例示的な補間された包絡の決定を示す図である。量子化器の例示的な諸集合を示す図である。例示的なオーディオ・デコーダのブロック図である。図２３ａのオーディオ・デコーダの例示的な包絡デコーダのブロック図である。図２３ａのオーディオ・デコーダの例示的なサブバンド予測器のブロック図である。図２３ａのオーディオ・デコーダの例示的なスペクトル・デコーダのブロック図である。受け入れ可能な量子化器の例示的な集合のブロック図である。例示的なディザリングされる量子化器のブロック図である。変換係数のブロックのスペクトルに基づく量子化器の例示的な選択を示す図である。エンコーダおよび対応するデコーダにおける量子化器の集合を決定するための例示的な方式を示す図である。ディザリングされる量子化器を使って決定された、エントロピー・エンコードされた量子化インデックスをデコードするための例示的な方式のブロック図である。例示的なビット割り当てプロセスを示す図である。すべての図面は概略的であり、一般に、本発明を明快にするために必要な部分を示すのみである。他の部分は省略されたり、単に示唆されるだけのことがある。

オーディオ処理システムは、オーディオ・データを担持するフレームにセグメント分割されたオーディオ・ビットストリームを受け入れる。オーディオ・データは、音波をサンプリングして、こうして得られた電子的な時間サンプルをスペクトル係数に変換することによって用意されたものであってもよい。スペクトル係数はその後、量子化され、伝送または記憶に好適なフォーマットで符号化される。オーディオ処理システムは、サンプリングされた音波を、単一チャネル、ステレオまたはマルチチャネルのフォーマットで再構成するよう適応される。本稿での用法では、オーディオ信号は純粋なオーディオ信号またはビデオ、オーディオビジュアルまたはマルチメディア信号のオーディオ部分に関係しうる。

オーディオ処理システムは概して、フロントエンド・コンポーネントと、処理段と、サンプル・レート変換器とに分割される。フロントエンド・コンポーネントは、量子化されたスペクトル係数を受領し、中間信号の第一の周波数領域表現を出力するよう適応された量子化解除段と；前記中間信号の前記第一の周波数領域表現を受領し、それに基づいて前記中間信号の時間領域表現を合成する逆変換段とを含む。いくつかの実施形態では完全にバイパスしてもよい処理段は：前記中間信号の前記時間領域表現を受領し、前記中間信号の第二の周波数領域表現を出力する分解フィルタバンクと；前記中間信号の前記第二の周波数領域表現を受領して処理されたオーディオ信号の周波数領域表現を出力する少なくとも一つの処理コンポーネントと；前記処理されたオーディオ信号の前記周波数領域表現を受領し、前記処理されたオーディオ信号の時間領域表現を出力する合成フィルタバンクとを含む。最後に、前記サンプル・レート変換器は、前記処理されたオーディオ信号の前記時間領域表現を受領し、ターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を出力するよう構成される。

ある例示的実施形態によれば、本オーディオ処理システムは、単一レート構成であり、前記中間オーディオ信号の前記時間領域表現および前記処理されたオーディオ信号の前記時間領域表現のそれぞれの内部サンプリング・レートは等しい。

フロントエンド段がコア符号化器を有し、処理段がパラメトリック・アップミックス段を有する個別的な例示的実施形態では、コア符号化器およびパラメトリック・アップミックス段は等しいサンプリング・レートで動作する。追加的または代替的に、コア符号化器は、変換長のより広い範囲を扱うよう拡張されてもよく、サンプリング・レート変換器は、ビデオ同期的なオーディオ・フレームの復号を許容するために標準的なビデオ・フレーム・レートにマッチングするよう構成されていてもよい。これはオーディオ・モード符号化の節でのちにより詳細に述べる。

さらなる個別的な例示的実施形態では、フロントエンド・コンポーネントは、オーディオ・モードおよびオーディオ・モードとは異なる声モードで動作可能である。声モードは声コンテンツに特に適応しているので、そのような信号がより忠実に再生できる。オーディオ・モードでは、フロントエンド・コンポーネントは、図６および本記述の関連する節において開示されるものと同様に動作してもよい。声モードでは、フロントエンド・コンポーネントは、声モード符号化の節でのちに具体的に論じるように動作してもよい。

例示的実施形態では、一般に、声モードはフロントエンド・コンポーネントのオーディオ・モードとは、逆変換段がより短いフレーム長（または変換サイズ）で動作するという点で異なる。短縮されたフレーム長は、より効率的に声コンテンツを捕捉することが示されている。いくつかの例示的実施形態では、フレーム長はオーディオ・モード内およびビデオ・モード内で可変であり、たとえば信号中の過渡成分を捕捉するために断続的に短縮されてもよい。そのような状況では、オーディオ・モードから声モードへのモード変化は――他のすべての要因が等しければ――逆変換段のフレーム長の短縮を含意する。別の言い方をすれば、オーディオ・モードから声モードへのそのようなモード変化は、（オーディオ・モードおよび声モードのそれぞれの中での選択可能なフレーム長のうちの）最大フレーム長の短縮を含意する。特に、声モードにおけるフレーム長は、オーディオ・モードにおける現在フレーム長のある固定割合（たとえば1/8）であってもよい。

ある例示的実施形態では、処理段に並列なバイパス・ラインは、所望される周波数領域処理がないデコード・モードにおいて処理段がバイパスされることを許容する。これは、システムが離散的に符号化されたステレオまたはマルチチャネル信号、特にフル・スペクトル範囲が波形符号化されている（よってスペクトル帯域複製が必要とされなくてもよい）信号をデコードするときに好適でありうる。バイパス・ラインが切り換えにより処理経路に入れられたり外されたりする機会における時間シフトを回避するために、バイパス・ラインは好ましくは、その現在モードにおける処理段の遅延（またアルゴリズム遅延）にマッチする遅延段を有する。処理段がその現在の動作モードとは独立に一定の（アルゴリズム）遅延をもつよう構成されている実施形態では、バイパス・ライン上の遅延段は一定のあらかじめ決定された遅延を被ることがある。そうでない場合には、バイパス・ラインにおける遅延段は好ましくは適応的であり、処理段の現在動作モードに応じて変化する。

ある例示的実施形態では、パラメトリック・アップミックス段は、3チャネル・ダウンミックス信号を受領し、5チャネル信号を返すモードで動作可能である。任意的に、スペクトル帯域複製コンポーネントがパラメトリック・アップミックス段の上流に配置されていてもよい。三つの前方チャネル（たとえばL、R、C）および二つのサラウンド・チャネル（たとえばLs、Rs）をもつ再生チャネル構成では、符号化された信号が「前方ヘビー」である場合、この例示的実施形態はより効率的な符号化を達成しうる。実際、オーディオ・ビットストリームの利用可能な帯域幅は、主として、三つの前方チャネルのできるだけ多くを波形符号化しようとする試みに費やされる。オーディオ処理システムによってデコードされるべきオーディオ・ビットストリームを準備するエンコード装置は、エンコードされるべきオーディオ信号の属性を測定することによって、このモードにおけるデコードを適応的に選択してもよい。一つのダウンミックス信号を二つのチャネルにアップミックスするアップミックス手順および対応するダウンミックス手順のある例示的実施形態について、ステレオ符号化という見出しのもとでのちに論じる。

上記の例示的実施形態のあるさらなる発展では、ダウンミックス信号における前記三つのチャネルのうちの二つは、オーディオ・ビットストリームにおける合同符号化されたチャネルに対応する。そのような合同符号化は、たとえば、一方のチャネルのスケーリングが他方のチャネルとの比較で表わされることに関わってもよい。同様のアプローチは、AACインテンシティー・ステレオ符号化において実装されている。その場合、二つのチャネルがチャネル対要素としてエンコードされうる。聴取実験により、所与のビットレートでは、ダウンミックス信号のうちのいくつかのチャネルが合同で符号化されるときに、再構成されたオーディオ信号の知覚される品質が改善されることが証明されている。

ある例示的実施形態では、オーディオ処理システムはさらに、スペクトル帯域複製モジュールを有する。スペクトル帯域複製モジュール（または高周波数再構成段）は、ステレオ符号化という見出しのもとでのちにより詳細に論じる。スペクトル帯域複製モジュールは好ましくは、パラメトリック・アップミックス段がアップミックス動作を実行するとき、すなわち受け取る信号より多くのチャネルをもつ信号を返すときにアクティブである。しかしながら、パラメトリック・アップミックス段がパススルー・コンポーネントとして機能するときは、スペクトル帯域複製モジュールは、パラメトリック・アップミックス段の特定の現在モードとは独立に動作させられることができる。すなわち、非パラメトリック・デコード・モードでは、スペクトル帯域複製機能は任意的である。

ある例示的実施形態では、前記少なくとも一つの処理コンポーネントはさらに、波形符号化段を含む。これについてはのちにマルチチャネル符号化の節でより詳細に述べる。

ある例示的実施形態では、オーディオ処理システムは、レガシー再生設備に好適なダウンミックス信号を提供するよう動作可能である。より正確には、ダウンミックス信号における第一のチャネルには同相のサラウンド・チャネル・コンテンツを加え、第二のチャネルには（たとえば90度）位相シフトされたサラウンド・チャネル・コンテンツを加えることによって、ステレオ・ダウンミックス信号が得られる。これは、再生設備が、組み合わされた逆位相シフトおよび減算動作によってサラウンド・チャネル・コンテンツを導出することを許容する。ダウンミックス信号は、左総合／右総合のダウンミックス信号を受け入れるよう構成された再生設備にとって受け入れ可能でありうる。好ましくは、位相シフト機能はオーディオ処理システムのデフォルト設定ではなく、オーディオ処理システムがこの型の再生設備のために意図されていないダウンミックス信号を準備するときには非アクティブ化されることができる。実際、位相シフトされたサラウンド信号では貧弱に再生される既知の特殊なコンテンツ型がある。特に、限られた空間的広がりをもつ音源から記録された音がその後左前方および左サラウンド信号の間でパンされるものは、期待されるように対応する左前方および左サラウンド・スピーカーの間に位置されるよう知覚されるのではなく、多くの聴取者によれば、よく定義された空間位置に関連付けられない。このアーチファクトは、サラウンド・チャネル位相シフトを任意的な、非デフォルト機能として実装することによって回避できる。

ある例示的実施形態では、フロントエンド・コンポーネントは予測器と、スペクトル・デコーダと、加算ユニットと、逆平坦化ユニットとを有する。声型信号を処理したときにシステムのパフォーマンスを向上させるこれらの要素は、声モード符号化の見出しのもとでのちにより詳細に述べる。

ある例示的実施形態では、オーディオ処理システムはさらに、オーディオ・ビットストリーム中の情報に基づいて少なくとも一つの追加的チャネルを準備するLfeデコーダを有する。好ましくは、Lfeデコーダは、オーディオ・ビットストリームによって担持される他のチャネルとは別個に、波形符号化される低周波数効果（low-frequency effects）チャネルを提供する。該追加的チャネルが再構成されるオーディオ信号の他のチャネルと一緒に離散的に符号化される場合、対応する処理経路はオーディオ処理システムの残りとは独立になることができる。各追加的チャネルは再構成されるオーディオ信号のチャネルの総数に対する追加となり、たとえば、パラメトリック・アップミックス段――それが設けられるとして――がN＝5モードで動作し、一つの追加的チャネルがある使用事例では、再構成されるオーディオ信号におけるチャネルの総数はN＋1＝6となる。

さらなる例示的実施形態は、使用中に上記のオーディオ処理システムによって実行される動作に対応する段階を含む方法およびプログラム可能なコンピュータにそのような方法を実行させるためのコンピュータ・プログラム・プロダクトを提供する。

本発明の概念はさらに、オーディオ信号を、上記の（デコーダ型）オーディオ処理システムにおけるデコードのために好適なフォーマットを有するオーディオ・ビットストリームにエンコードするエンコーダ型オーディオ処理システムに関する。第一の発明概念はさらに、エンコード方法およびオーディオ・ビットストリームを準備するためのコンピュータ・プログラム・プロダクトを包含する。

図１は、ある例示的実施形態に基づくオーディオ処理システム１００を示している。コア・デコーダ１０１はオーディオ・ビットストリームを受領し、少なくとも、量子化されたスペクトル係数を出力し、該量子化されたスペクトル係数は量子化解除段１０２および逆変換段１０３を有するフロントエンド・コンポーネントに供給される。フロントエンド・コンポーネントは、いくつかの例示的実施形態ではデュアル・モード型であってもよい。それらの実施形態では、フロントエンド・コンポーネントは、汎用オーディオ・モードと個別的オーディオ・モード（たとえば声モード）において選択的に動作させることができる。フロントエンド・コンポーネントの下流では、処理段が、その上流端では分解フィルタバンク１０４によって、その下流端では合成フィルタバンク１０８によって画定される。分解フィルタバンク１０４と合成フィルタバンク１０８の間に配置されたコンポーネントは周波数領域処理を実行する。図１に示した第一の概念の実施形態では、これらのコンポーネントは：
・圧伸（companding）コンポーネント１０５；
・高周波数再構成、パラメトリック・ステレオおよびアップミックスのための組み合わされたコンポーネント１０６；および
・ダイナミックレンジ制御コンポーネント１０７
を含む。

コンポーネント１０６はたとえば、本稿のステレオ符号化の節で後述するアップミックスを実行してもよい。

処理段の下流では、オーディオ処理システム１００はさらに、ターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を提供するよう構成されたサンプル・レート変換器１０９を有する。

下流端では、システム１００は、任意的に、非クリップ（non-clip）条件を充足することを受け持つ信号制限コンポーネント（図示せず）を含んでいてもよい。

さらに、任意的に、システム１００は、一つまたは複数の追加的チャネル（たとえば低周波数効果チャネル）を提供するための並列処理経路を有していてもよい。並列処理経路は、オーディオ・ビットストリームまたはその一部を受領し、このように準備された追加的なチャネル（単数または複数）を再構成されるオーディオ信号中に挿入するよう構成されているLfeデコーダ（図１および図３〜１１には示さず）として実装されてもよい。挿入点は、サンプル・レート変換器１０９のすぐ上流であってもよい。

図２は、図１に示したオーディオ処理システムの二つのモノ・デコード・モードを対応するラベル付けとともに示している。より正確には、図２は、デコード中にアクティブであり、オーディオ・ビットストリームに基づいて再構成された（モノ）オーディオ信号を準備するための処理経路を形成するシステム・コンポーネントを示している。図２の処理経路はさらに、非クリップ条件を満たすよう信号値をダウンスケールするよう構成された最終的な信号制限コンポーネント（「Lim」）を含んでいることを注意しておく。図２における上のデコード・モードは、高周波数再構成を使用し、一方、図２における下のデコード・モードは、完全に波形符号化されたチャネルをデコードする。よって、下のデコード・モードでは、高周波数再構成コンポーネント（「HFR」）は、HFRコンポーネントのアルゴリズム遅延に等しい遅延を受ける遅延段（「Delay」）によって置き換えられている。

図２の下部が示唆するように、処理段（「QMF」「Delay」「DRC」「QMF^-1」）を完全にバイパスすることも可能である；これは、信号に対してダイナミックレンジ制御（DRC）処理が実行されないときに適用可能でありうる。処理段をバイパスすることは、完璧でない再構成を伴いうるQMF分解およびその後のQMF合成に起因する信号の潜在的な劣化をなくす。バイパス・ラインは、処理段の全（アルゴリズム）遅延に等しい量だけ信号を遅延させるよう構成された第二の遅延線段を含む。

図３は、二つのパラメトリック・ステレオ・デコード・モードを示している。両方のモードにおいて、ステレオ・チャネルは、高周波数再構成を第一のチャネルに適用し、脱相関器（「D」）を使ってこれの脱相関されたバージョンを生成し、次いで両者の線形結合を形成してステレオ信号を得ることによって得られる。線形結合は、DRC段の上流に配置されたアップミックス段（「Upmix」）によって計算される。これらのモードの一方――図の下部に示されるほう――では、オーディオ・ビットストリームはさらに、両チャネルについて波形符号化された低周波数コンテンツ（右下がりの斜線を付した領域）を担持する。後者のモードの実装上の詳細は、図７〜図１０および本稿の対応する節によって記述される。

図４は、オーディオ処理システムが離散的に符号化されたチャネルをもつ完全に波形符号化されたステレオ信号を処理するデコード・モードを示している。これは、高ビットレート・ステレオ・モードである。DRC処理が必要と見なされないなら、図４に示されるそれぞれの遅延段をもつ二つのバイパス・ラインを使って、処理段を完全にバイパスすることができる。遅延段は好ましくは、他のデコード・モードにあるときの処理段の遅延に等しい遅延を受ける。よって、モード切り換えは、信号コンテンツに関して連続的に起こりうる。

図５は、オーディオ処理システムが、スペクトル帯域複製を適用したあとに三チャネル・ダウンミックス信号をパラメトリック・アップミックスすることによって五チャネル信号を提供するデコード・モードを示している。すでに述べたように、チャネルのうちの二つ（右上がりの斜線を付した領域）を合同して（たとえばチャネル対要素として）符号化することが有利であり、オーディオ処理システムは好ましくはこの属性をもつビットストリームを扱うよう設計される。この目的のため、オーディオ処理システムは二つの受領部を有し、下のほうはチャネル対要素をデコードするよう構成され、上のほうは残りのチャネル（右下がりの斜線を付した領域）をデコードするよう構成される。QMF領域における高周波数再構成後、チャネル対の各チャネルは別個に脱相関され、その後、第一のアップミックス段は第一のチャネルとその脱相関されたバージョンとの第一の線形結合を形成し、第二のアップミックス段は第二のチャネルとその脱相関されたバージョンとの第二の線形結合を形成する。この処理の実装詳細は、図７〜図１０および本稿の対応する節によって記述される。全部で五チャネルが次いでQMF合成の前にDRC処理にかけられる。

〈オーディオ・モード符号化〉
図６は、エンコードされたオーディオ・ビットストリームPを受領し、図６ではステレオ・ベースバンド信号L、Rの対として示されている再構成されたオーディオ信号をその最終出力としてもつオーディオ処理システム１００の一般化されたブロック図である。この例では、ビットストリームPは量子化された、変換符号化された二チャネルのオーディオ・データを含むことが想定される。オーディオ処理システム１００は、通信ネットワーク、無線受信機またはメモリ（図示せず）からオーディオ・ビットストリームPを受領してもよい。システム１００の出力は、再生のためにラウドスピーカーに供給されてもよく、あるいは通信ネットワークまたは無線リンクを通じたさらなる伝送のためまたはメモリにおける記憶のために同じまたは異なるフォーマットで再エンコードされてもよい。

オーディオ処理システム１００は、ビットストリームPを量子化されたスペクトル係数および制御データにデコードするためのデコーダ１０８を有する。その構造についてのちにより詳細に論じるフロントエンド・コンポーネント１１０は、これらのスペクトル係数を量子化解除し、処理段１２０によって処理されるべき中間オーディオ信号の時間領域表現を供給する。中間オーディオ信号は分解フィルタバンク１２２_L、１２２_Rによって、先述した符号化変換に関連付けられたものとは異なる第二の周波数領域に変換される。第二の周波数領域表現は、直交ミラー・フィルタ（QMF）表現であってもよく、その場合、分解フィルタバンク１２２_L、１２２_RはQMFフィルタバンクとして提供されてもよい。分解フィルタバンク１２２_L、１２２_Rの下流では、高周波数再構成を受け持つスペクトル帯域複製（SBR）モジュール１２４およびダイナミックレンジ制御（DRC）モジュール１２６が、中間オーディオ信号の第二の周波数領域表現を処理する。その下流では、合成フィルタバンク１２８_L、１２８_Rがこのように処理されたオーディオ信号の時間領域表現を生成する。本開示を吟味した当業者は理解するであろうが、スペクトル帯域複製モジュール１２４もダイナミックレンジ制御モジュール１２６も本発明の必須要素ではない。逆に、異なる例示的実施形態に基づくオーディオ処理システムは、処理段１２０内の追加的または代替的なモジュールを含んでいてもよい。処理段１２０の下流では、サンプル・レート変換器１３０が、処理されたオーディオ信号のサンプリング・レートを調整して、意図された再生設備（図示せず）が指定されている所望されるオーディオ・サンプリング・レート、たとえば44.1kHzまたは48kHzにするよう動作可能である。出力におけるアーチファクトが少ないサンプル・レート変換器１３０をどのように設計するか自身は当技術分野において既知である。サンプル・レート変換器１３０は、該サンプル・レート変換器１３０が必要とされない時、すなわち処理段１２０が供給する処理されたオーディオ信号がすでにターゲット・サンプリング周波数をもつ時には非アクティブ化されてもよい。サンプル・レート変換器１３０の下流に配置される任意的な信号制限モジュール１４０が、クリップなし（no-clip）条件に従って必要に応じてベースバンド信号値を制限するよう構成される。クリップなし条件はやはり特定の意図される再生設備に鑑みて選ばれてもよい。

図６の下部に示されるように、フロントエンド・コンポーネント１１０は、異なるブロック・サイズをもついくつかのモードの一つで動作できる量子化解除段１１４と、やはり異なるブロック・サイズに対して動作できる逆変換段１１８_L、１１８_Rとを有する。好ましくは、量子化解除段１１４および逆変換段１１８_L、１１８_Rのモード変化は同期的であり、よってブロック・サイズはすべての時点においてマッチする。これらのコンポーネントの上流では、フロントエンド・コンポーネント１１０は、制御データから量子化されたスペクトル係数を分離するためのデマルチプレクサ１１２を有する。典型的には、それは制御データを逆変換段１１８_L、１１８_Rに転送し、量子化されたスペクトル係数（および任意的には前記制御データ）を量子化解除段１１４に転送する。量子化解除段１１４は、（典型的には整数として表わされる）量子化インデックスの一つのフレームから（典型的には浮動小数点数として表わされる）スペクトル係数の一つのフレームへのマッピングを実行する。各量子化インデックスは、量子化レベル（または再構成点）に関連付けられている。オーディオ・ビットストリームが上記で論じたように非一様量子化を使って準備されたとすると、量子化インデックスがどの周波数帯域を指すかが指定されない限り、その関連付けは一意的ではない。別の言い方をすれば、量子化解除プロセスは、各周波数帯域についての異なるコードブックに従ってもよく、コードブックの集合がフレーム長および／またはビットレートの関数として変わってもよい。図６では、これは概略的に示されている。ここで、縦軸は周波数を表わし、横軸は単位周波数当たりの割り当てられた符号化ビットの量を表わす。周波数帯域は典型的にはより高い周波数についてはより広くなり、内部サンプリング周波数f_iの半分で終わることを注意しておく。内部サンプリング周波数は、サンプル・レート変換器１３０における再サンプリングの結果として、数値的に異なる物理的なサンプリング周波数にマッピングされてもよい。たとえば、4.3%のアップサンプリングはf_i＝46.034kHzを近似的な物理的周波数48kHzにマッピングし、低いほうの周波数帯域境界を同じ因子だけ増大させる。図６がさらに示唆するように、オーディオ・ビットストリームを準備するエンコーダは典型的には、異なる周波数帯域には、符号化される信号の複雑さおよび人間の聴覚の期待される感度変動に従って、異なる量の符号化ビットを割り当てる。

オーディオ処理システム１００、特にフロントエンド・コンポーネント１１０の動作モードを特徴付ける定量的データが表１に与えられている。

表１における三つの強調された列は、制御可能な量の値を含んでいる。残りの量はこれらに依存するものと見なされてよい。さらに、再サンプリング（SRC）因子の理想的な値が(24/25)×(1000/1001)≒0.9560、24/25＝0.96および1000/1001≒0.9990であることを注意しておく。表１に挙げたSRC因子の値は丸められている。フレーム・レート値も同様である。再サンプリング因子1.000は厳密であり、SRC １３０が非アクティブ化されているまたは完全に存在しないことに対応する。例示的実施形態では、オーディオ処理システム１００は、そのうちの一つまたは複数が表１のエントリーに一致してもよい異なるフレーム長をもつ少なくとも二つのモードで動作可能である。

フロントエンド・コンポーネントのフレーム長が1920サンプルに設定されるモードa〜dは、普及している符号化フォーマットのビデオ・フレーム・レートに厳密に一致するよう選択された（オーディオ）フレーム・レート23.976、24.000、24.975および25.000Hzを扱うために使われる。異なるフレーム長のため、モードa〜dでは、内部サンプリング周波数（フレーム・レート×フレーム長）は約46.034kHzから48.000kHzまで変わる。臨界サンプリングおよび均等に離間した周波数ビンを想定すると、これは11.988Hzから12.500Hzの範囲内のビン幅値（内部サンプリング周波数の半分／フレーム長）に対応する。内部サンプリング周波数の変動は制限されているので（フレーム・レートの変動範囲が約5%である結果、それは約5%）、オーディオ処理システム１００は、はいってくるオーディオ・ビットストリームが準備された物理的なサンプリング周波数に厳密にマッチしないにもかかわらず、四つのモードa〜dのすべてにおいて合理的な出力品質を与える。

フロントエンド・コンポーネント１１０の下流に続けると、分解（QMF）フィルタバンク１２２は、すべてのモードa〜dにおいて64個の帯域またはQMFフレーム当たり30個のサンプルをもつ。物理的には、これは各分解周波数帯域のわずかに変動する幅に対応するが、変動はやはり無視できるほど限られている。特に、SBRおよびDRC処理モジュール１２４、１２６は、出力品質に不都合なく、現在モードについて不可知であってもよい。しかしながら、SRC １３０はモード依存であり、処理されたオーディオ信号の各フレームが物理的単位において48kHzのターゲット外部サンプリング周波数に対応する数のサンプルを含むことを保証するために―ターゲット外部サンプリング周波数と内部サンプリング周波数の商に一致するよう選ばれる―特定の再サンプリング因子を使う。

モードa〜dのそれぞれにおいて、オーディオ処理システム１００は、ビデオ・フレーム・レートと外部サンプリング周波数両方に厳密にマッチする。すると、オーディオ処理システム１００はマルチメディア・ビットストリームT1およびT2のオーディオ部分を扱いうる。ここで、オーディオ・フレームA11、A12、A13、…；A22、A23、A24、…およびビデオ・フレームV11、V12、V13、…；V22、V23、V24は各ストリーム内において時間的に一致する。このとき、進んでいるストリームにおけるオーディオ・フレームおよび関連付けられたビデオ・フレームを削除することによって、ストリームT1、T2の同期を改善することができる。あるいはまた、遅れているストリームにおけるオーディオ・フレームおよび関連付けられたビデオ・フレームが複製され、もとの位置の次に挿入される。この際、可能性としては知覚可能なアーチファクトを軽減するために補間措置が組み合わされる。

フレーム・レート29.97Hzおよび30.00Hzを扱うよう意図されたモードeおよびfは、第二のサブグループとして見分けられる。すでに説明したように、オーディオ・データの量子化は、約48kHzの内部サンプリング周波数のために適応される（または最適化される）。よって、各フレームがより短いので、フロントエンド・コンポーネント１１０のフレーム長はより小さな値、1536サンプルに設定され、それにより約46.034および46.080kHzの内部サンプリング周波数となる。分解フィルタバンク１２２が64個の周波数帯域をもちモード独立であれば、各QMFフレームは24サンプルを含む。

同様に、50Hzおよび60Hz（標準化されたテレビジョン・フォーマットにおけるリフレッシュ・レートの二倍に対応）および120Hzまたはその付近のフレーム・レートは、それぞれモードg〜i（フレーム長960サンプル）、モードj〜k（フレーム長768サンプル）およびモードl（フレーム長384サンプル）によってカバーされる。内部サンプリング周波数はそれぞれの場合において48kHzに近いままであり、よってオーディオ・ビットストリームが生成されたときの量子化プロセスのいかなる音響心理学的チューニングも少なくとも近似的には有効なままであることを注意しておく。64帯域フィルタバンクにおけるそれぞれのQMFフレーム長は15、12および6サンプルである。

上述したように、オーディオ処理システム１００は、オーディオ・フレームをより短いサブフレームに細分するよう動作可能であってもよい。こうする理由は、オーディオ過渡成分をより効率的に捕捉することであってもよい。48kHzサンプリング周波数および表１で与えられた設定については、下記の表２〜表４が2、4、8および16サブフレームへの細分から帰結するビン幅およびフレーム長を示している。表１に基づく設定は時間および周波数分解能の有利なバランスを達成すると思われる。

フレームの細分に関係する決定は、オーディオ・エンコード・システム（図示せず）におけるようなオーディオ・ビットストリームを準備するプロセスの一部として行なわれてもよい。表１においてモードmによって示されるように、オーディオ処理システム１００はさらに、96kHzの増大した外部サンプリング周波数および128QMF帯域で動作することを可能にされてもよい。これはQMFフレーム当たり30サンプルに対応する。外部サンプリング周波数はたまたま内部サンプリング周波数と一致するので、SRC因子は1である。これは再サンプリングが必要ないことに相当する。

〈マルチチャネル符号化〉
本節での用法では、オーディオ信号は、純粋なオーディオ信号、オーディオビジュアル信号またはマルチメディア信号のオーディオ部分またはこれらの任意のものをメタデータと組み合わせたものでありうる。

本節での用法では、複数の信号のダウンミックスは、たとえば線形結合を形成することによって該複数の信号を組み合わせることを意味する。それより、より少数の信号が得られる。ダウンミックスに対する逆の動作はアップミックスと称される。すなわち、より少数の信号に対して動作を実行してより多数の信号を得ることである。

図７は、M個のエンコードされたチャネルを再構成するためのマルチチャネル・オーディオ処理システムにおけるデコーダ１００の一般化されたブロック図である。デコーダ１００は、のちに図１７〜図１９との関連でより詳細に説明される三つの概念部分２００、３００、４００を有する。第一の概念部分２００では、エンコーダは、デコードされるべきマルチチャネル・オーディオ信号を表わす、N個の波形符号化されたダウンミックス信号およびM個の波形符号化された信号を受領する。ここで、1＜N＜Mである。図示した例ではN＝2に設定されている。第二の概念部分３００では、M個の波形符号化された信号がダウンミックスされ、N個の波形符号化されたダウンミックス信号と組み合わされる。次いで、組み合わされたダウンミックス信号について高周波数再構成（HFR）が実行される。第三の概念部分４００では、高周波数再構成された信号がアップミックスされ、M個の波形符号化された信号がアップミックス信号と組み合わされて、M個のエンコードされたチャネルを再構成する。

図８〜図１０との関連で記述される例示的実施形態では、エンコードされた5.1サラウンド・サウンドの再構成が記述される。低周波数効果信号が記載される実施形態や図面で言及されていないことを注意しておいてもよいだろう。これは、いかなる低周波数効果も無視されることを意味するのではない。低周波数効果（Lfe）は、当業者によく知られている任意の好適な仕方で再構成された五チャネルに加えられてもよい。記載されるデコーダは、7.1または9.1サラウンド・サウンドのような他の型のエンコードされたサラウンド・サウンドにも等しく好適であることを注意しておいてもよいだろう。

図８は、図７におけるデコーダ１００の第一の概念部分２００を示している。デコーダは、二つの受領段２１２、２１４を有する。第一の受領段２１２では、ビットストリーム２０２がデコードされて、量子化解除されて二つの波形符号化されたダウンミックス信号２０８ａ〜ｂにされる。これら二つの波形符号化されたダウンミックス信号２０８ａ〜ｂのそれぞれは、第一のクロスオーバー周波数k_yと第二のクロスオーバー周波数k_xとの間の周波数に対応するスペクトル係数を含む。

第二の受領段２１４では、ビットストリーム２０２がデコードされて、量子化解除されて五つの波形符号化された信号２１０ａ〜ｅにされる。これら五つの波形符号化された信号２１０ａ〜ｅのそれぞれは、第一のクロスオーバー周波数k_xまでの周波数に対応するスペクトル係数を含む。

例として、信号２１０ａ〜ｅは、二つのチャネル対要素および中央チャネルについての一つの単独チャネル要素を含む。チャネル対要素はたとえば、左前方および左サラウンド信号の組み合わせであってもよく、右前方および右サラウンド信号の組み合わせであってもよい。さらなる例は、左前方および右前方信号の組み合わせおよび左サラウンドおよび右サラウンド信号の組み合わせである。これらのチャネル対要素はたとえば、和差フォーマットで符号化されてもよい。五つの信号２１０ａ〜ｅすべてが、独立窓掛けをもつ重複窓掛け変換を使って符号化され、デコーダによってデコード可能であってもよい。これは、改善された符号化品質を、よってデコードされた信号の改善された品質を許容しうる。

例として、第一のクロスオーバー周波数k_yは1.1kHzである。例として、第二のクロスオーバー周波数k_xは5.6〜8kHzの範囲内にある。第一のクロスオーバー周波数k_yは、個々の信号ベースでも変わりうることを注意しておくべきである。すなわち、エンコーダは、ある特定の出力信号中のある信号成分がステレオ・ダウンミックス信号２０８ａ〜ｂによって忠実に再生されないことがありうることを検出することができ、その特定の時点について、信号成分の適正な波形符号化を行なうために、関連する波形符号化された信号、すなわち２１０ａ〜ｅの帯域幅、すなわち第一のクロスオーバー周波数k_yを増すことができる。

本稿において後述するように、エンコーダ１００の残りの諸段は典型的には直交ミラー・フィルタ（QMF）領域で動作する。このため、第一および第二の受領段２１２、２１４によって受領される信号２０８ａ〜ｂ、２１０ａ〜ｅのそれぞれは、修正離散コサイン変換（MDCT）形式で受領されるが、逆MDCT ２１６を適用することによって時間領域に変換される。次いで各信号はQMF変換２１８を適用することによって周波数領域に変換し戻される。

図９では、ダウンミックス段３０８において、五つの波形符号化された信号２１０がダウンミックスされて、第一のクロスオーバー周波数k_yまでの周波数に対応するスペクトル係数を含む二つのダウンミックス信号３１０、３１２にされる。これらのダウンミックス信号３１０、３１２は、図８に示した二つのダウンミックス信号２０８ａ〜ｂを生成するためにエンコーダにおいて使われたのと同じダウンミックス方式を使って低域通過マルチチャネル信号２１０ａ〜ｅに対してダウンミックスを実行することによって形成されてもよい。

二つの新しいダウンミックス信号３１０、３１２は次いで第一の組み合わせ段３２０、３２２において、対応するダウンミックス信号２０８ａ〜ｂと組み合わされ、組み合わされたダウンミックス信号３０２ａ〜ｂを形成する。組み合わされたダウンミックス信号３０２ａ〜ｂのそれぞれは、このように、ダウンミックス信号３１０、３１２に由来する第一のクロスオーバー周波数k_yまでの周波数に対応するスペクトル係数と、第一の受領段２１２（図８に示す）において受領される波形符号化されたダウンミックス信号２０８ａ〜ｂに由来する第一のクロスオーバー周波数k_yと第二のクロスオーバー周波数k_xとの間の周波数に対応するスペクトル係数を含む。

エンコーダはさらに、高周波数再構成（HFR）段３１４を有する。HFR段は、高周波数再構成を実行することにより、組み合わせ段からの二つの組み合わされたダウンミックス信号３０２ａ〜ｂを、第二のクロスオーバー周波数k_xより上の周波数範囲に拡張するよう構成されている。実行される高周波数再構成は、いくつかの実施形態によれば、スペクトル帯域複製（SBR）を実行することを含んでいてもよい。高周波数再構成は、任意の好適な仕方でHFR段３１４によって受領されうる高周波数再構成パラメータを使って行なわれてもよい。

高周波数再構成段３１４からの出力は、適用されるHFR拡張３１６、３１８とともにダウンミックス信号２０８ａ〜ｂを含む二つの信号３０４ａ〜ｂである。上記のように、HFR段３１４は、上記二つのダウンミックス信号２０８ａ〜ｂと組み合わされた第二の受領段２１４（図８に示す）からの入力信号２１０ａ〜ｅに存在する周波数に基づいて高周波数再構成を実行する。いくらか単純化されて、HFR範囲３１６、３１８は、上の該HFR範囲３１６、３１８にコピーされたダウンミックス信号３１０、３１２からのスペクトル係数の部分を含んでいる。結果として、五つの波形符号化された信号２１０ａ〜ｅの諸部分がHFR段３１４からの出力３０４のHFR範囲３１６、３１８に現われる。

高周波数再構成段３１４に先立つダウンミックス段３０８におけるダウンミックスおよび第一の組み合わせ段３２０、３２２における組み合わせが時間領域で、すなわち各信号が逆修正離散コサイン変換（MDCT）２１６（図８に示す）を適用することによって時間領域に変換された後で、なされることができることを注意しておくべきである。しかしながら、波形符号化された信号２１０ａ〜ｅおよび波形符号化されたダウンミックス信号２０８ａ〜ｂが、独立窓掛けをもつ重複窓掛け変換を使って波形符号化器によって符号化されることができることを与えられると、信号２１０ａ〜ｅおよび２０８ａ〜ｂは時間領域においてはシームレスに組み合わされないことがありうる。よって、少なくとも第一の組み合わせ段３２０、３２２における組み合わせがQMF領域で行なわれる場合によりよい制御されたシナリオが達成される。

図１０は、デコーダ１００の第三にして最後の概念部分４００を示している。HFR段３１４からの出力３０４はアップミックス段４０２への入力をなす。アップミックス段４０２は、周波数拡張された信号３０４ａ〜ｂに対してパラメトリック・アップミックスを実行することにより、五つの信号出力４０４ａ〜ｅを生成する。五つのアップミックス信号４０４ａ〜ｅのそれぞれは、第一のクロスオーバー周波数k_yより上の周波数についてのエンコードされた5.1サラウンド・サウンドにおける五つのエンコードされたチャネルのうちの一つに対応する。例示的なパラメトリック・アップミックス手順によれば、アップミックス段４０２はまずパラメトリック混合パラメータを受領する。アップミックス段４０２はさらに、二つの周波数拡張された組み合わされたダウンミックス信号３０４ａ〜ｂの脱相関されたバージョンを生成する。アップミックス段４０２はさらに、二つの周波数拡張された組み合わされたダウンミックス信号３０４ａ〜ｂと、該二つの周波数拡張された組み合わされたダウンミックス信号３０４ａ〜ｂの脱相関されたバージョンとを行列演算にかける。ここで、行列演算のパラメータは前記アップミックス・パラメータによって与えられる。あるいはまた、当技術分野において既知の他の任意のパラメトリック・アップミックス手順が適用されてもよい。適用可能なパラメトリック・アップミックス手順はたとえば非特許文献１に記載されている。

アップミックス段４０２からの出力４０４ａ〜ｅはこのように、第一のクロスオーバー周波数k_yより下の周波数を含まない。第一のクロスオーバー周波数k_yまでの周波数に対応する残りの周波数係数は、アップミックス段４０４のタイミングにマッチするよう遅延段４１２によって遅延された五つの波形符号化された信号２１０ａ〜ｅに存在する。

エンコーダ１００はさらに、第二の組み合わせ段４１６、４１８を有する。第二の組み合わせ段４１６、４１８は、五つのアップミックス信号４０４ａ〜ｅを、第二の受領段２１４（図８に示す）によって受領された五つの波形符号化された信号２１０ａ〜ｅと組み合わせるよう構成される。

結果として得られる組み合わされた信号４２２に、別個の信号として任意の存在するLfe信号が加えられてもよいことを注意しておいてもよいだろう。信号４２２のそれぞれは次いで、逆QMF変換４２０を適用することによって時間領域に変換される。逆QMF変換４１４からの出力はこのように、フルにデコードされた5.1チャネル・オーディオ信号である。

図１１は、図７のデコード・システムの修正であるデコード・システム１００’を示している。デコード・システム１００’は、図１６の概念部分１００、２００および３００に対応する概念部分２００’、３００’および４００’を有する。図１１のデコード・システム１００’と図７のデコード・システムとの間の相違は、概念部分２００’における第三の受領段６１６および第三の概念部分４００’におけるインターリーブ段７１４があることである。

第三の受領段６１６は、さらなる波形符号化された信号を受領するよう構成される。さらなる波形符号化された信号は、第一のクロスオーバー周波数より上の周波数のある部分集合に対応するスペクトル係数を含む。さらなる波形符号化された信号は、逆MDCT ２１６を適用することによって時間領域に変換されてもよい。それは次いで、QMF変換２１８を適用することによって周波数領域に変換し戻されてもよい。

さらなる波形符号化された信号は別個の信号として受領されてもよいことは理解される。しかしながら、さらなる波形符号化された信号は五つの波形符号化された信号２１０ａ〜ｅの一つまたは複数の一部をなしてもよい。換言すれば、さらなる波形符号化された信号は、五つの波形符号化された信号２０１ａ〜ｅの一つまたは複数と一緒に、たとえば同じMCDT変換を使って合同符号化されてもよい。もしそうなら、第三の符号化段６１６は第二の受領段に対応する。すなわち、さらなる波形符号化された信号は、第二の受領段２１４を介して、五つの波形符号化された信号２１０ａ〜ｅと一緒に受領される。

図１２は、図１１のデコーダ１００’の第三の概念部分３００’をより詳細に示している。高周波数拡張されたダウンミックス信号３０４ａ〜ｂおよび五つの波形符号化された信号２１０ａ〜ｅに加えて、さらなる波形符号化された信号７１０は、第三の概念部分４００’に入力される。図示した例では、さらなる波形符号化された信号７１０は五つのチャネルの第三のチャネルに対応する。さらなる波形符号化された信号７１０はさらに、第一のクロスオーバー周波数k_yから始まる周波数区間に対応するスペクトル係数を含む。しかしながら、さらなる波形符号化された信号７１０によってカバーされる第一のクロスオーバー周波数より上の周波数範囲の前記部分集合の形は、もちろん、種々の実施形態において変わりうる。複数の波形符号化された信号７１０ａ〜ｅが受領されることがあることも注意しておく。ここで、異なる波形符号化された信号は異なる出力チャネルに対応してもよい。前記複数のさらなる波形符号化された信号７１０ａ〜ｅによってカバーされる周波数範囲の前記部分集合は、前記複数のさらなる波形符号化された信号７１０ａ〜ｅのうちの異なるものの間で変わりうる。

さらなる波形符号化された信号７１０は、アップミックス段４０２から出力されるアップミックス信号４０４のタイミングにマッチするよう遅延段７１２によって遅延されてもよい。アップミックス信号４０４およびさらなる波形符号化された信号７１０は次いで、インターリーブ段７１４に入力される。インターリーブ段７１４は、アップミックス信号４０４をさらなる波形符号化された信号７１０とインターリーブする、すなわち組み合わせて、インターリーブされた信号７０４を生成する。今の例では、インターリーブ段７１４はこうして第三のアップミックス信号４０４ｃを、さらなる波形符号化された信号７１０とインターリーブする。インターリーブは、二つの信号を一緒に加えることによって実行されてもよい。しかしながら、典型的には、インターリーブは、信号が重複する周波数範囲および時間範囲においてアップミック信号４０４をさらなる波形符号化された信号７１０で置き換えることによって実行される。

インターリーブされる信号７０４は次いで第二の組み合わせ段４１６、４１８に入力され、そこで波形符号化された信号２０１ａ〜ｅと組み合わされて、図１９を参照して述べるのと同じ仕方で出力信号７２２を生成する。インターリーブ段７１４と第二の組み合わせ段４１６、４１８の順序は逆にされ、組み合わせがインターリーブより前に実行されてもよいことを注意しておく。

また、さらなる波形符号化された信号７１０が五つの波形符号化された信号２１０ａ〜ｅのうちの一つまたは複数の一部をなす状況では、第二の組み合わせ段４１６、４１８およびインターリーブ段７１４は単一の段に組み合わされてもよい。特に、そのような組み合わされた段は、第一のクロスオーバー周波数k_yまでの周波数について五つの波形符号化された信号２１０ａ〜ｅのスペクトル内容を使う。第一のクロスオーバー周波数より上の周波数については、組み合わされた段は、さらなる波形符号化された信号７１０とインターリーブされたアップミックス信号４０４を使う。

インターリーブ段７１４は、制御信号の制御のもとで動作してもよい。この目的のために、デコーダ１００’は、さらなる波形符号化された信号をどのようにしてM個のアップミックス信号のうちの一つとインターリーブするかを示す制御信号を、たとえば第三の受領段６１６を介して、受領してもよい。たとえば、制御信号は、さらなる波形符号化された信号７１０がアップミックス信号４０４の一つとインターリーブされる周波数範囲および時間範囲を指示してもよい。たとえば、周波数範囲および時間範囲は、インターリーブがなされるべき時間／周波数タイルで表わされてもよい。時間／周波数タイルは、インターリーブが行なわれるところのQMF領域の時間／周波数格子に関する時間／周波数タイルであってもよい。

制御信号は、インターリーブがなされる時間／周波数タイルを指示するために二進ベクトルのようなベクトルを使ってもよい。特に、インターリーブが実行されるべき周波数を示す、周波数方向に関係する第一のベクトルがあってもよい。指示はたとえば、第一のベクトルにおける対応する周波数区間について論理的な1を示すことによってなされてもよい。また、インターリーブが実行されるべき時間区間を示す、時間方向に関係する第二のベクトルがあってもよい。指示はたとえば、第二のベクトルにおける対応する時間区間について論理的な1を示すことによってなされてもよい。この目的のために、時間フレームは典型的には複数の時間スロットに分割され、時間指示はフレームより小さい単位で行なわれてもよい。第一および第二のベクトルの交わりを取ることにより、時間／周波数マトリクスが構築されてもよい。たとえば、時間／周波数マトリクスは、第一および第二のベクトルが論理的な1を示す各時間／周波数タイルについて論理的な1を有する二進マトリクスであってもよい。すると、インターリーブ段７１４は、インターリーブを実行する際に、時間／周波数マトリクスを使ってもよい。たとえば、時間／周波数マトリクスにおいて論理的な1などにより指示される時間／周波数タイルについて、アップミックス信号７０４の一つまたは複数がさらなる波形符号化された信号７１０によって置き換えられる。

インターリーブが行なわれるべき時間／周波数タイルを示すために、ベクトルは、二進方式以外の他の方式を使ってもよいことを注意しておく。たとえば、ベクトルは0のような第一の値によってインターリーブが行なわれないことを示すことや、第二の値によって、該第二の値によって同定されるあるチャネルに関してインターリーブが行なわれることを示すこともできる。

〈ステレオ符号化〉
この節での用法では、左右符号化またはエンコードは、左（L）および右（R）のステレオ信号が、信号間のいかなる変換も実行することなく符号化されることを意味する。

この節での用法では、和差符号かまたはエンコードは、左および右のステレオ信号の和Mが一つの信号（和）として符号化され、左右のステレオ信号の差Sが一つの信号（差）として符号化されることを意味する。和差符号化は中央／サイド符号化と呼ばれることもある。よって、左右形式と和差形式の間の関係は、M＝L＋RおよびS＝L−Rとなる。左右ステレオ信号を和差形式に変換し、逆に和差形式を左右ステレオ信号に変換するとき、両方向における変換がマッチする限り、種々の規格化またはスケーリングが可能であることが注意されうる。本開示では、M＝L＋RおよびS＝L−Rが主として使われるが、異なるスケーリング、たとえばM＝(L＋R)/2およびS＝(L−R)/2を使うシステムも同じようにうまく機能する。

この節での用法では、ダウンミックス相補的（dmx/comp）符号化またはエンコードは、左右ステレオ信号を、符号化前に、重み付けパラメータaに依存する行列乗算を受けさせることを意味する。よって、dmx/comp符号化は、dmx/comp/a符号化と呼ばれることもある。ダウンミックス相補形式と左右形式および和差形式の間の関係は、典型的には、dmx＝L＋R＝Mおよびcomp＝(1−a)L−(1＋a)R＝−aM＋Sである。注目すべきことに、このように、ダウンミックス相補表現でのダウンミックス信号は和差表現の和信号Mと等価である。

この節での用法では、オーディオ信号は純粋なオーディオ信号、オーディオビジュアル信号またはマルチメディア信号のオーディオ部分またはこれらの任意のものをメタデータと組み合わせたものでありうる。

図１３は、のちに図１４〜図１６との関連でより詳細に説明する三つの概念部分２００、３００、４００を有するデコード・システム１００の一般化されたブロック図である。第一の概念部分２００では、ビットストリームが受領され、第一および第二の信号にデコードされる。第一の信号は、第一のクロスオーバー周波数までの周波数に対応するスペクトル・データを含む第一の波形符号化された信号と、前記第一のクロスオーバー周波数より上の周波数に対応するスペクトル・データを含む波形符号化されたダウンミックス信号とを両方含む。第二の信号は、前記第一のクロスオーバー周波数までの周波数に対応するスペクトル・データを含む第二の波形符号化された信号のみを含む。

第二の概念部分３００では、前記第一および第二の信号の波形符号化された部分が和差形式でなく、たとえばM/S形式である場合、前記第一および第二の信号の波形符号化された部分が和差形式に変換される。その後、前記第一および第二の信号は時間領域に、次いで直交ミラー・フィルタ（QMF）領域に変換される。第三の概念部分４００では、第一の信号は高周波数再構成される（HFR）。前記第一および第二の部分の両方は次いでアップミックスされて、デコード・システム１００によってデコードされるエンコードされた信号の周波数帯域全体に対応するスペクトル係数をもつ左右のステレオ信号出力を生成する。

図１４は、図１３におけるデコード・システム１００の第一の概念部分２００を示している。デコード・システム１００は受領段２１２を有する。受領段２１２では、ビットストリーム・フレーム２０２がデコードされて、量子化解除されて第一の信号２０４ａおよび第二の信号２０４ｂにされる。ビットストリーム・フレーム２０２は、デコードされる前記二つのオーディオ信号の時間フレームに対応する。第一の信号２０４ａは、第一のクロスオーバー周波数k_yまでの周波数に対応するスペクトル・データを含む第一の波形符号化された信号２０８と、前記第一のクロスオーバー周波数より上の周波数に対応するスペクトル・データを含む波形符号化されたダウンミックス信号２０６とを含む。例として、第一のクロスオーバー周波数k_yは1.1kHzである。

いくつかの実施形態によれば、前記波形符号化されたダウンミックス信号２０６は、前記第一のクロスオーバー周波数k_yと第二のクロスオーバー周波数k_xとの間の周波数に対応するスペクトル・データを含む。例として、第二のクロスオーバー周波数k_xは5.6〜8kHzの範囲内にある。

受領された第一および第二の波形符号化された信号２０８、２１０は、左右形式、和差形式および／またはダウンミックス相補形式で波形符号化されていてもよい。ここで、相補信号は、信号適応的である重み付けパラメータaに依存する。波形符号化されたダウンミックス信号２０６は、パラメトリック・ステレオに好適なダウンミックスに対応し、これは上記によれば和形式に対応する。しかしながら、信号２０４ｂは第一のクロスオーバー周波数k_yより上には内容をもたない。各信号２０６、２０８、２１０は修正離散コサイン変換（MDCT）領域で表現される。

図１５は、図１３のデコード・システム１００の第二の概念部分３００を示している。デコード・システム１００は混合段３０２を有する。デコード・システム１００の設計は、のちにより詳細に述べる高周波数再構成段への入力が和フォーマットである必要があることを要求する。結果として、混合段は、第一および第二の波形符号化された信号２０８、２１０が和差形式であるかどうかを検査するよう構成される。第一および第二の信号波形符号化された信号２０８、２１０が前記第一のクロスオーバー周波数k_yまでのすべての周波数について和差形式であるのでなければ、混合段３０２は、波形符号化された信号２０８、２１０全体を和差形式に変換する。混合段３０２への入力信号２０８、２１０の周波数の少なくとも部分集合がダウンミックス相補形式である場合には、混合段３０２への入力として、重み付けパラメータaが要求される。入力信号２０８、２１０がダウンミックス相補形式で符号化されたいくつかの部分集合の周波数を含んでいてもよいこと、その場合には各部分集合が重み付けパラメータaの同じ値を使って符号化される必要はないことを注意してもよい。この場合、いくつかの重み付けパラメータaが混合段３０２への入力として要求される。

上述したように、混合段３０２は常に入力信号２０４ａ〜ｂの和差表現を出力する。MDCT領域で表現された信号を和差表現に変換できるためには、MDCT符号化された信号の窓掛けが同じである必要がある。これは、第一および第二の信号波形符号化された信号２０８、２１０がL/Rまたはダウンミックス相補形式である場合には、信号２０４ａについての窓掛けと信号２０４ｂについての窓掛けが独立であることができないことを含意する。

結果として、第一および第二の信号波形符号化された信号２０８、２１０が和差形式である場合、信号２０４ａについての窓掛けと信号２０４ｂについての窓掛けは独立であってもよい。

混合段３０２のあと、和差信号は、逆修正離散コサイン変換（MDCT^-1）３１２を適用することによって、時間領域に変換される。

次いで、二つの信号３０４ａ〜ｂは、二つのQMFバンク３１４を用いて解析される。ダウンミックス信号３０６が前記低周波数を含まないので、周波数分解能を増すために信号をナイキスト・フィルタバンクを用いて解析する必要はない。これは、ダウンミックス信号が低周波数を含むシステム、たとえばMPEG-4パラメトリック・ステレオのような通常のパラメトリック・ステレオ・デコードに比較されうる。そうしたシステムでは、ダウンミックス信号は、周波数分解能をQMFバンクによって達成されるより高くし、それによりたとえばバーク周波数スケールによって表わされる人間の聴覚系の周波数選択性によりよくマッチするために、ナイキスト・フィルタバンクを用いて解析される必要がある。

QMFバンク３１４からの出力信号３０４は、第一のクロスオーバー周波数k_yまでの周波数に対応するスペクトル・データを含む波形符号化された和信号３０８と、第一のクロスオーバー周波数k_yと第二のクロスオーバー周波数k_xとの間の周波数に対応するスペクトル・データを含む波形符号化されたダウンミックス信号３０６との組み合わせである第一の信号３０４ａを含む。出力信号３０４はさらに、第一のクロスオーバー周波数k_yまでの周波数に対応するスペクトル・データを含む波形符号化された差信号３１０を含む第二の信号３０４ｂを含む。信号３０４ｂは、第一のクロスオーバー周波数k_yより上には内容をもたない。

のちに述べるように、高周波数再構成段４１６（図１６との関連で示す）は、前記低周波数、すなわち前記出力信号３０４からの前記第一の波形符号化された信号３０８および前記波形符号化されたダウンミックス信号３０６を、第二のクロスオーバー周波数k_xより上の周波数を再構成するために使う。高周波数再構成段４１６が作用する信号が、前記低周波数にわたって同様の型の信号であることが有利である。この観点から、混合段３０２に、常に前記第一および第二の信号波形符号化された信号２０８、２１０の和差表現を出力させることが有利である。これが、出力される第一の信号３０４ａの第一の波形符号化された信号３０８および波形符号化されたダウンミックス信号３０６が同様の性質であることを含意するからである。

図１６は、図１３のデコード・システム１００の第三の概念部分４００を示している。高周波数再構成（HFR）段４１６は、高周波数再構成を実行することにより、第一の信号入力信号３０４ａのダウンミックス信号３０６を第二のクロスオーバー周波数k_xより上の周波数範囲に拡張する。HFR段４１６の構成設定に依存して、HFR段４１６への入力は信号３０４ａ全体またはダウンミックス信号３０６だけである。高周波数再構成は、任意の好適な仕方で高周波数再構成段４１６によって受領されうる高周波数再構成パラメータを使うことによってなされる。ある実施形態によれば、実行される高周波数再構成は、スペクトル帯域複製（SBR）を実行することを含む。

高周波数再構成段３１４からの出力は、SBR拡張４１２が適用されたダウンミックス信号４０６を含む信号４０４である。高周波数再構成された信号４０４および信号４０３ｂは次いで、左Lおよび右Rステレオ信号４１２ａ〜ｂを生成するよう、アップミックス段４２０にフィードされる。第一のクロスオーバー周波数k_yより下の周波数に対応するスペクトル係数については、アップミックスは、第一および第二の信号４０８、３１０の逆和差変換を実行することを含む。これは単に、先に概説したように中央‐サイド表現から左‐右表現に移行することを意味する。第一のクロスオーバー周波数k_yまでの周波数に対応するスペクトル係数については、ダウンミックス信号４０６およびSBR拡張４１２は脱相関器４１８を通じてフィードされる。ダウンミックス信号４０６およびSBR拡張４１２ならびにダウンミックス信号４０６およびSBR拡張４１２の脱相関されたバージョンは、次いで、パラメトリック混合パラメータを使ってアップミックスされ、第一のクロスオーバー周波数k_yより上の周波数についての左および右のチャネル４１６、４１４を再構成する。当技術分野において知られている任意のパラメトリック・アップミックス手順が適用されうる。

図１３〜図１６に示したエンコーダの上記の例示的な実施形態１００では、第一の受領される信号２０４ａが第二のクロスオーバー周波数k_xまでの周波数に対応するスペクトル・データしか含まないので、高周波数再構成が必要とされていることを注意しておくべきである。さらなる実施形態では、第一の受領された信号は、エンコードされた信号の全周波数に対応するスペクトル・データを含む。この実施形態によれば、高周波数再構成は必要とされない。当業者は、この場合に例示的なエンコーダ１００をどのように適応させるべきかを理解する。

図１７は、ある実施形態に基づくエンコード・システム５００の一般化されたブロック図を例として示している。

このエンコード・システムでは、エンコードされるべき第一および第二の信号５４０、５４２が受領段（図示せず）によって受領される。これらの信号５４０、５４２は、左５４０および右５４２のステレオ・オーディオ・チャネルの時間フレームを表わす。信号５４０、５４２は時間領域で表現されている。エンコード・システムは、変換段５１０を有する。信号５４０、５４２は変換段５１０において和差フォーマット５４４、５４６に変換される。

エンコード・システムはさらに、変換段５１０から第一および第二の変換された信号５４４、５４６を受領するよう構成されている波形符号化段５１４を含む。波形変換段は典型的には、MDCT領域で動作する。この理由により、変換された信号５４４、５４６は、波形符号化段５１４の前にMDCT変換５１２にかけられる。波形符号化段では、第一および第二の変換された信号５４４、５４６は波形符号化されて、それぞれ第一および第二の波形符号化された信号５１８、５２０にされる。

第一のクロスオーバー周波数k_yより上の周波数については、波形符号化段５１４は、第一の変換された信号５４４を波形符号化して、第一の波形符号化された信号５１８の波形符号信号５５２にするよう構成されている。波形符号化段５１４は、第一のクロスオーバー周波数k_yより上では第二の波形符号化された信号５２０を0に設定するよう、あるいはこれらの周波数を全くエンコードしないよう、構成されていてもよい。第一のクロスオーバー周波数k_yより上の周波数については、波形符号化段５１４は、第一の変換された信号５４４を波形符号化して、第一の波形符号化された信号５１８の波形符号化された信号５５２にするよう構成されている。

第一のクロスオーバー周波数k_yより下の周波数については、前記二つの信号５４８、５５０についてどの種類のステレオ符号化を使うべきかについて、波形符号化段５１４において決定がなされる。第一のクロスオーバー周波数k_yより下での変換された信号５４４、５４６の特性に依存して、波形符号化された信号５４８、５５０の異なる部分集合について異なる決定がされることができる。符号化は、左／右符号化、中央／サイド符号化、すなわち和と差の符号化またはdmx/comp/a符号化であることができる。信号５４８、５５０が波形符号化段５１４において和差符号化によって波形符号化される場合、波形符号化された信号５１８、５２０は、それぞれ信号５１８、５２０についての独立な窓掛けを用いる重複窓掛け変換を使って符号化されてもよい。

例示的な第一のクロスオーバー周波数k_yは1.1kHzであるが、この周波数はステレオ・オーディオ・システムのビット伝送レートに依存して、あるいはエンコードされるべきオーディオの特性に依存して変わりうる。

こうして、波形符号化段５１４から少なくとも二つの信号５１８、５２０が出力される。第一のクロスオーバー周波数k_yより下の信号の一つまたは複数の部分集合または周波数帯域全体が重み付けパラメータaに依存して行列演算を実行することによってダウンミックス／相補形式で符号化される場合、このパラメータも信号５２２として出力される。いくつかの部分集合がダウンミックス／相補形式でエンコードされる場合、各部分集合は重み付けパラメータaの同じ値を使って符号化される必要はない。この場合、いくつかの重み付けパラメータが信号５２２として出力される。

これら二つまたは三つの信号５１８、５２０、５２２はエンコードおよび量子化５２４されて単一の合成信号５５８にされる。

デコーダ側で第一のクロスオーバー周波数より上の周波数について第一および第二の信号５４０、５４２のスペクトル・データを再構成できるために、パラメトリック・ステレオ・パラメータ５３６が信号５４０、５４２から抽出される必要がある。この目的のために、エンコーダ５００は、パラメトリック・ステレオ（PS）エンコード段５３０を有する。PSエンコード段５３０は典型的にはQMF領域で動作する。したがって、PSエンコード段５３０に入力される前に、第一および第二の信号５４０、５４２はQMF分解段５２６によってQMF領域に変換される。PSエンコーダ段５３０は、第一のクロスオーバー周波数k_yより上の周波数についてパラメトリック・ステレオ・パラメータ５３６を抽出するだけであるよう適応される。

パラメトリック・ステレオ・パラメータ５３６がパラメトリック・ステレオ・エンコードされる信号の特性を反映することを注意しておいてもいいだろう。よって、これらのパラメータは周波数選択的である、すなわち、パラメータ５３６の各パラメータは、左または右の入力信号５４０、５４２の周波数の部分集合に対応しうる。PSエンコード段５３０はパラメトリック・ステレオ・パラメータ５３６を計算し、これらを一様または非一様な仕方で量子化する。パラメータは上述したように周波数選択的に計算され、ここで、入力信号５４０、５４２の周波数範囲全体はたとえば15個のパラメータ帯域に分割される。これらは人間の聴覚系の周波数分解能のモデル、たとえばバーク・スケールに従って離間されていてもよい。

図１７に示したエンコーダ５００の例示的な実施形態では、波形符号化段５１４は、第一のクロスオーバー周波数k_yと第二のクロスオーバー周波数k_xとの間の周波数について第一の変換された信号５４４を波形符号化し、第二のクロスオーバー周波数k_xより上では第一の波形符号化された信号５１８を0に設定するよう構成されている。これは、エンコーダ５００を一部とするオーディオ・システムの要求される伝送レートをさらに軽減するためになされてもよい。第二のクロスオーバー周波数k_xより上の信号を再構成できるために、高周波数再構成パラメータ５３８が生成される必要がある。この例示的実施形態によれば、これはダウンミックス段５３４においてQMF領域で表わされる二つの信号５４０、５４２をダウンミックスすることによってなされる。結果として得られるダウンミックス信号はたとえば信号５４０、５４２の和に等しく、次いで、高周波数パラメータ５３８を生成するために、高周波数再構成（HFR）エンコード段５３２における高周波数再構成エンコードにかけられる。パラメータ５３８はたとえば、当業者によく知られるように、第二のクロスオーバー周波数k_xより上の周波数のスペクトル包絡、ノイズ加算情報などを含んでいてもよい。

例示的な第二のクロスオーバー周波数k_xは5.6〜8kHzであるが、この周波数はステレオ・オーディオ・システムのビット伝送レートに依存して、あるいはエンコードされるオーディオの特性に依存して変えられてもよい。

エンコーダ５００はさらに、ビットストリーム生成段、すなわちビットストリーム・マルチプレクサ５２４を有する。エンコーダ５００の例示的な実施形態によれば、ビットストリーム生成段は、エンコードされ、量子化された信号５４４および二つのパラメータ信号５３６、５３８を受領するよう構成されている。これらは、ステレオ・オーディオ・システムにおいてさらに頒布されるため、ビットストリーム生成段５６２によってビットストリーム５６０に変換される。

もう一つの実施形態によれば、波形符号化段５１４が、第一のクロスオーバー周波数k_yより上のすべての周波数について第一の変換された信号５４４を波形符号化するよう構成されている。この場合、HFRエンコード段５３２は必要とされず、結果として、高周波数再構成パラメータ５３８はビットストリームに含められない。

図１８は、例として、もう一つの実施形態に基づくエンコーダ・システム６００の一般化されたブロック図を示している。

〈声モード符号化〉
図１９ａは、例示的な変換ベースの発話エンコーダ１００のブロック図を示している。エンコーダ１００は、入力として、変換係数のブロック１３１（符号化単位とも称される）を受領する。変換係数のブロック１３１は、入力オーディオ信号のサンプルのシーケンスを時間領域から変換領域に変換するよう構成された変換ユニットによって得られたものであってもよい。変換ユニットは、MDCTを実行するよう構成されていてもよい。変換ユニットは、AACまたはHE-AACのような一般的オーディオ・コーデックの一部であってもよい。そのような一般的オーディオ・コーデックは、異なるブロック・サイズ、たとえば長ブロックおよび短ブロックを利用してもよい。例示的なブロック・サイズは長ブロックについては1024サンプル、短ブロックについては256サンプルである。サンプリング・レート44.1kHzおよび50%の重複を想定すると、長ブロックは入力オーディオ信号の約20msをカバーし、短ブロックは入力オーディオ信号の約5msをカバーする。長ブロックは典型的には、入力オーディオ信号の静的セグメントのために使われ、短ブロックは典型的には入力オーディオ信号の過渡的セグメントのために使われる。

発話信号は、約20msの時間的セグメントにおいて静的であると考えられてもよい。特に、発話信号のスペクトル包絡は、約20msの時間的セグメントにおいて静的であると考えられてもよい。そのような20msセグメントについて変換領域において意味のある統計量を導出できるためには、変換ベースの発話エンコーダ１００に、変換係数の（たとえば5msの長さをもつ）諸短ブロック１３１を提供することが有用でありうる。そうすることにより、複数の短ブロック１３１は、たとえば20msの時間セグメント（たとえば長ブロックの時間セグメント）に関して統計を導出するために使用されることができる。さらに、これは、発話信号について十分な時間分解能を提供する利点がある。

よって、変換ユニットは、入力オーディオ信号の現在セグメントが発話に分類される場合には、変換係数の短ブロック１３１を提供するよう構成されていてもよい。エンコーダ１００は、ブロック１３１の集合１３２と称される変換係数の複数のブロック１３１を抽出するよう構成されたフレーミング・ユニット１０１を有していてもよい。ブロックの集合１３２はフレームと称されてもよい。例として、ブロック１３１の集合１３２は、256個の変換係数の四つの短ブロックを含んでいてもよく、それにより入力オーディオ信号の約20msのセグメントをカバーする。

ブロックの集合１３２は、包絡推定ユニット１０２に提供されてもよい。包絡推定ユニット１０２は、ブロックの集合１３２に基づいて包絡１３３を決定するよう構成されていてもよい。包絡１３３は、ブロックの集合１３２内に含まれる複数のブロック１３１の対応する変換係数の二乗平均平方根（RMS）値に基づいていてもよい。ブロック１３１は典型的には、対応する複数の周波数ビン３０１（図２１ａ参照）において複数の変換係数（たとえば256個の変換係数）を与える。複数の周波数ビン３０１は、複数の周波数帯域３０２にグループ化されてもよい。複数の周波数帯域３０２は、音響心理学的考察に基づいて選択されてもよい。例として、周波数ビン３０１は、対数スケールまたはバーク・スケールに従って周波数帯域３０２にグループ化されてもよい。ブロックの現在集合１３２に基づいて決定された包絡１３４は、それぞれ複数の周波数帯域３０２についての複数のエネルギー値を含んでいてもよい。特定の周波数帯域３０２についての特定のエネルギー値は、その特定の周波数帯３０２内にはいる周波数ビン３０１に対応する、集合１３２の諸ブロック１３１の変換係数に基づいて決定されてもよい。特定のエネルギー値は、これらの変換係数のRMS値に基づいて決定されてもよい。よって、ブロックの現在の集合１３２についての包絡１３３（現在の包絡１３３とも称される）は、ブロックの現在集合１３２内に含まれる変換係数の諸ブロック１３１の平均包絡を示してもよく、あるいは包絡１３３を決定するために使われる変換係数の諸ブロック１３２の平均包絡を示してもよい。

現在の包絡１３３が、ブロックの現在集合１３２に隣接する変換係数の一つまたは複数のさらなるブロック１３１に基づいて決定されてもよいことを注意しておくべきである。これは図２０において示されている。そこでは、現在の包絡１３３（量子化された現在の包絡１３４によって示される）がブロックの現在集合１３２の諸ブロック１３１に基づき、かつブロックの現在集合１３２に先行するブロックの集合からのブロック２０１に基づいて決定される。図示した例では、現在の包絡１３３は、五つのブロック１３１に基づいて決定される。現在の包絡１３３を決定するときに隣接するブロックを考慮に入れることにより、ブロックの隣接する諸集合１３２の諸包絡の連続性が保証されうる。

現在の包絡１３３を決定するとき、異なるブロック１３１の変換係数が重み付けされてもよい。特に、現在の包絡１３３を決定するために考慮に入れられた最も外側のブロック２０１、２０２は、残りのブロック１３１より低い重みを有していてもよい。例として、最も外側のブロック２０１、２０２の変換係数は、0.5で重み付けされてもよく、他のブロック１３１の変換係数は1で重み付けされてもよい。

ブロックの先行する集合１３２の諸ブロック２０１を考慮するのと同様の仕方で、ブロックの直後の集合１３２の一つまたは複数のブロック（いわゆる先読みブロック）が、現在の包絡１３３を決定するために考慮されてもよいことを注意しておくべきである。

現在の包絡１３３のエネルギー値は、対数スケールで（たとえばdBスケールで）表わされてもよい。現在の包絡１３３は、現在の包絡１３３のエネルギー値を量子化するよう構成されている包絡量子化ユニット１０３に提供されてもよい。包絡量子化ユニット１０３は、所定の量子化器分解能、たとえば3dBの分解能を提供してもよい。包絡１３３の量子化インデックスは、エンコーダ１００によって生成されたビットストリーム内の包絡データ１６１として提供されてもよい。さらに、量子化された包絡１３４、すなわち包絡１３３の量子化されたエネルギー値を有する包絡は、補間ユニット１０４に提供されてもよい。

補間ユニット１０４は、量子化された現在の包絡１３４に基づき、かつ量子化された以前の包絡１３５（ブロックの現在集合１３２の直前のブロックの集合１３２について決定されたもの）に基づいてブロックの現在の集合１３２の各ブロック１３１について包絡を決定するよう構成されている。補間ユニット１０４の動作は図２０、図２１ａおよび図２１ｂに示されている。図２０は、変換係数の諸ブロック１３１のシーケンスを示している。ブロック１３１のシーケンスはブロックの相続く諸集合１３２にグループ化される。ここで、ブロックの各集合１３２は、量子化された包絡、たとえば量子化された現在の包絡１３４および量子化された以前の包絡１３５を決定するために使われる。図２１ａは、量子化された以前の包絡１３５および量子化された現在の包絡１３４の例を示している。上記で示したように、これらの包絡は、スペクトル・エネルギー３０３を（たとえばdBスケールで）示していてもよい。同じ周波数帯域３０２についての量子化された以前の包絡１３５および量子化された現在の包絡１３４の対応するエネルギー値３０３が（たとえば線形補間を使って）補間されて、補間された包絡１３６を決定してもよい。換言すれば、ある特定の周波数帯域３０２の諸エネルギー値３０３が補間されて、その特定の周波数帯域３０２内の補間された包絡１３６のエネルギー値３０３を提供してもよい。

補間された包絡１３６が決定され、適用されるブロックの集合は、量子化された現在の包絡１３４が決定されるもとになったブロックの現在の集合１３２とは異なることがあることを注意しておくべきである。これは図２０に示されている。図２０は、ブロックのシフトされた集合３３２を示している。これは、ブロックの現在の集合１３２に比してシフトされており、ブロックの以前の集合１３２のブロック３および４（それぞれ参照符号２０３および２０１によって示されている）およびブロックの現在の集合１３２のブロック１および２（それぞれ参照符号２０４および２０５によって示されている）を含む。実のところ、量子化された現在の包絡１３４に基づき、かつ量子化された以前の包絡１３５に基づいて決定された補間された包絡１３６は、ブロックの現在の集合１３２のブロックについての関連性に比べ、ブロックのシフトされた集合３３２のブロックについて増大した関連性を有することがある。

よって、図２１ｂに示される補間された包絡が、ブロックのシフトされた集合３３２のブロック１３１を平坦化するために使われてもよい。これは、図２０と組み合わせて図２１ｂによって示されている。図２１ｂの補間された包絡３４１が図２０のブロック２０３に適用されてもよいこと、図２１ｂの補間された包絡３４２が図２０のブロック２０１に適用されてもよいこと、図２１ｂの補間された包絡３４３が図２０のブロック２０４に適用されてもよいこと、図２１ｂの補間された包絡３４４（図示した例ではこれは量子化された現在の包絡１３６に対応）が図２０のブロック２０５に適用されてもよいこと、が見て取れる。よって、量子化された現在の包絡１３４を決定するためのブロックの集合１３２は、補間された包絡１３６がそれについて決定され、補間された包絡１３６が（平坦化のために）それに適用されるところのブロックのシフトされた集合３３２とは異なることがある。特に、量子化された現在の包絡１３６は、ブロックのシフトされた集合３３２のブロック２０３、２０１、２０４、２０５に関してある種の先読みを使って決定されてもよい。これらのブロックは、量子化された現在の包絡１３４を使って平坦化される。これは、連続性の観点から有益である。

補間された包絡１３６を決定するためのエネルギー値３０３の補間は、図２１ｂに示される。量子化された以前の包絡１３５のエネルギー値から量子化された現在の包絡１３４の対応するエネルギー値の間の補間により、補間された包絡１３６のエネルギー値が、ブロックのシフトされた集合３３２の諸ブロック１３１について決定されうることが見て取れる。特に、シフトされた集合３３２の各ブロック１３１について、補間された包絡１３６が決定されてもよく、それによりブロックのシフトされた集合３３２の複数のブロック２０３、２０１、２０４、２０５について複数の補間された包絡１３６を提供する。変換係数のあるブロック１３１（たとえば、ブロックのシフトされた集合３３２のブロック２０３、２０１、２０４、２０５のうちの任意のもの）の補間された包絡１３６は、変換係数のブロック１３１をエンコードするために使われてもよい。現在の包絡１３３の量子化インデックス１６１がビットストリーム内の対応するデコーダに提供されることを注意しておくべきである。結果として、対応するデコーダは、エンコーダ１００の補間ユニット１０４と類似の仕方で前記複数の補間された包絡１３６を決定するよう構成されていてもよい。

フレーミング・ユニット１０１、包絡推定ユニット１０３、包絡量子化ユニット１０３および補間ユニット１０４はブロックの集合（すなわち、ブロックの現在の集合１３２および／またはブロックのシフトされた集合３３２）に対して動作する。他方、変換係数の実際のエンコードはブロックごとに実行されてもよい。以下では、ブロックのシフトされた集合３３２（または変換ベースの発話エンコーダ１００の他の実装において可能性としてはブロックの現在の集合１３２）の複数のブロック１３１のうちの任意のものであってよい変換係数の現在ブロック１３１のエンコードが参照される。

現在ブロック１３１についての現在の補間された包絡１３６は、現在ブロック１３１の変換係数のスペクトル包絡の近似を提供してもよい。エンコーダ１００は、事前平坦化ユニット１０５および包絡利得決定ユニット１０６を有していてもよい。これらは、現在の補間された包絡１３６に基づき、かつ現在ブロック１３１に基づいて、現在ブロック１３１についての調整された包絡１３９を決定するよう構成される。特に、現在ブロック１３１の平坦化された変換係数の分散が調整されるよう、現在ブロック１３１についての包絡利得が決定されてもよい。X(k)、k＝1,…,Kは現在ブロック１３１の変換係数であってもよく（たとえばK＝256）、E(k)、k＝1,…,Kは現在の補間された包絡１３６の平均スペクトル・エネルギー値であってもよい（同じ周波数帯域３０２のエネルギー値E(k)は等しい）。包絡利得aは、平坦化された変換係数の分散

が調整されるよう決定されてもよい。特に、包絡利得aは分散が1になるよう決定されてもよい。

包絡利得aが、変換係数の現在ブロック１３１の完全な周波数範囲のサブ範囲について決定されてもよいことを注意しておく。換言すれば、包絡利得aは、周波数ビン３０１の部分集合のみに基づいておよび／または周波数帯域３０２の部分集合のみに基づいて決定されてもよい。例として、包絡利得aは、開始周波数ビン３０４（開始周波数ビンは0または1より大きい）より大きい諸周波数ビン３０１に基づいて決定されてもよい。結果として、現在ブロック１３１についての調整された包絡１３９は、包絡利得aを、開始周波数ビン３０４より上にある諸周波数ビン３０１に関連付けられた現在の補間された包絡１３６の平均スペクトル・エネルギー値３０３にのみ適用することによって決定されてもよい。よって、現在のブロック１３１についての調整された包絡１３９は、開始周波数ビン以下の諸周波数ビン３０１については現在の補間された包絡１３６に対応してもよく、開始周波数より上の諸周波数ビン３０１については現在の補間された包絡１３６を包絡利得aによりオフセットしたものに対応してもよい。これは、調整された包絡３３９によって図２１ａに示されている（破線で示す）。

包絡利得a １３７（レベル補正利得とも称される）の、現在の補間された包絡１３６への適用１３７は、現在の補間された包絡１３６の調整またはオフセットに対応し、それにより図２１ａに示されるように調整された包絡１３９が与えられる。包絡利得a １３７は、利得データ１６２として、ビットストリーム中にエンコードされてもよい。

エンコーダ１００はさらに、包絡利得a １３７に基づき、かつ現在の補間された包絡１３６に基づいて、調整された包絡１３９を決定するよう構成される包絡洗練ユニット１０７を有していてもよい。調整された包絡１３９は、変換係数のブロック１３１の信号処理のために使われてもよい。包絡利得a １３７は、（3dBのきざみで量子化されていてもよい）現在の補間された包絡１３６に比べ、より高い分解能に（たとえば1dBきざみで）量子化されてもよい。よって、調整された包絡１３９は、包絡利得a １３７の前記より高い分解能まで（たとえば、1dBきざみで）量子化されてもよい。

さらに、包絡洗練ユニット１０７は、割り当て包絡１３８を決定するよう構成されていてもよい。割り当て包絡１３８は、調整された包絡１３９の量子化されたバージョン（たとえば3dB量子化レベルまで量子化）に対応してもよい。割り当て包絡１３８は、ビット割り当て目的のために使われてもよい。特に、割り当て包絡１３８は、――現在ブロック１３１のある特定の変換係数について――所定の一組の量子化器からある特定の量子化器を決定するために使われてもよい。ここで、前記特定の量子化器が、前記特定の変換係数を量子化するために使われる。

エンコーダ１００は、調整された包絡１３９を使って現在ブロック１３１を平坦化し、それにより平坦化された変換係数のブロック１４０を与えるよう構成されている平坦化ユニット１０８を有する。平坦化された変換係数のブロック１４０は、変換領域内で予測ループを使ってエンコードされてもよい。よって、ブロック１４０は、サブバンド予測器１１７を使ってエンコードされてもよい。予測ループは、平坦化された変換係数

のブロック１４０に基づき、かつ推定された変換係数

のブロック１５０に基づき、予測誤差係数Δ(k)のブロック１４１を決定するよう構成された差分ユニット１１５を有する。たとえば、

ブロック１４０が平坦化された変換係数、すなわち調整された包絡１３９のエネルギー値３０３を使って正規化または平坦化された変換係数を含むという事実のため、推定された変換係数のブロック１５０も平坦化された変換係数の推定値を含むことを注意しておくべきである。換言すれば、差分ユニット１１５はいわゆる平坦化領域（flattened domain）で動作する。結果として、予測誤差係数Δ(k)のブロック１４１は平坦化された領域で表わされる。

予測誤差係数Δ(k)のブロック１４１は、1とは異なる分散を示すことがある。エンコーダ１００は、予測誤差係数Δ(k)を再スケーリングして、再スケーリングされた誤差係数のブロック１４２を与えるよう構成された再スケーリング・ユニット１１１を有していてもよい。再スケーリング・ユニット１１１は、再スケーリングを実行するために一つまたは複数の所定のヒューリスティック規則を利用してもよい。結果として、再スケーリングされた誤差係数のブロック１４２は、（予測誤差係数のブロック１４１に比べて）（平均で）1により近い分散を示す。これは、その後の量子化およびエンコードにとって有益であることがある。

エンコーダ１００は、予測誤差係数のブロック１４１または再スケーリングされた誤差係数のブロック１４２を量子化するよう構成された係数量子化ユニット１１２を有する。係数量子化ユニット１１２は、一組の所定の量子化器を有していてもよく、あるいはそれを利用してもよい。前記一組の所定の量子化器は、異なる精密度または異なる分解能を諸量子化器に与えてもよい。このことは、種々の量子化器３２１、３２２、３２３が示される図２２に示されている。種々の量子化器は異なるレベルの精度（異なるdB値によって示される）を提供しうる。前記複数の量子化器３２１、３２２、３２３のうちの特定の量子化器が、割り当て包絡１３８の特定の値に対応してもよい。よって、割り当て包絡１３８のエネルギー値は、前記複数の量子化器の対応する量子化器をポイントしてもよい。よって、割り当て包絡１３８の決定は、ある特定の誤差係数について使われるべき量子化器の選択プロセスを簡略化しうる。換言すれば、割り当て包絡１３８はビット割り当てプロセスを簡略化しうる。

前記一組の量子化器は、量子化誤差をランダム化するためのディザリングを利用する一つまたは複数の量子化器３２２を有していてもよい。これは図２２に示されている。この図は、ディザリングされる量子化器（dithered quantizer）の部分集合３２４を含む所定の量子化器の第一の集合３２６と、ディザリングされる量子化器の部分集合３２５を含む所定の量子化器の第二の集合３２７とを示している。よって、係数量子化ユニット１１２は、所定の量子化器の異なる集合３２６、３２７を利用しうる。ここで、係数量子化ユニット１１２によって使用される所定の量子化器の集合は、予測器１１７によって提供されるおよび／またはエンコーダにおいておよび対応するデコーダにおいて利用可能な他のサイド情報に基づいて決定される制御パラメータ１４６に依存してもよい。特に、係数量子化ユニット１１２は、制御パラメータ１４６に基づいて、再スケーリングされた誤差係数のブロック１４２を量子化するための所定の量子化器の集合３２６、３２７を選択するよう構成されていてもよい。ここで、制御パラメータ１４６は、予測器１１７によって提供される一つまたは複数の予測パラメータに依存してもよい。前記一つまたは複数の予測器パラメータは、予測器１１７によって提供される推定される変換係数のブロック１５０の品質を示してもよい。

量子化された誤差係数は、たとえばハフマン符号を使ってエントロピー符号化されてもよく、それによりエンコーダ１００によって生成されるビットストリーム中に含められる係数データ１６３を与える。

以下では、一組３２６の量子化器３２１、３２２、３２３の選択または決定に関するさらなる詳細を述べる。一組３２６の量子化器は、量子化器の順序付けられた集合３２６に対応してもよい。量子化器の順序付けられた集合３２６はN個の量子化器を含み、各量子化器は異なる歪みレベルに対応してもよい。よって、量子化器の集合３２６は、N個の可能な歪みレベルを提供しうる。集合３２６の量子化器は、歪みの降順に従って（あるいは等価だがSNRの昇順に従って）順序付けされてもよい。さらに、量子化器は、整数ラベルでラベル付けされてもよい。例として、量子化器は0,1,2などとラベル付けされてもよい。ここで、整数ラベルの増大はSNRの増大を示してもよい。

量子化器の集合３２６は、二つの連続する量子化器の間のSNRギャップが少なくともほぼ一定であるようなものであってもよい。たとえば、ラベル「1」をもつ量子化器のSNRは1.5dBであってもよく、ラベル「2」をもつ量子化器のSNRは3.0dBであってもよい。よって、量子化器の順序付けられた集合３２６の量子化器は、第一の量子化器から隣接する第二の量子化器に変わることによって、第一および第二の量子化器のすべての対について、SNR（信号対雑音比）が実質的に一定値（たとえば1.5dB）だけ増大するようなものであってもよい。

量子化器の集合３２６は、次の量子化器を含んでいてもよい。
・ノイズ充填量子化器３２１。これは、0dBよりやや低いまたは0dBに等しいSNRを与えうる。該SNRはレート割り当てプロセスについては0dBと近似されてもよい。
・N_dith個の量子化器３２２。これは減算的ディザリングを使ってもよく、典型的には中間的なSNRレベルに対応する。（たとえばN_dith＞0）
・N_cq個の古典的量子化器３２３。これは減算的ディザリングを使わず、典型的には比較的高いSNRレベルに対応する（たとえばN_cq＞0）。ディザリングされない量子化器３２３はスカラー量子化器に対応しうる。

量子化器の総数NはN＝1＋N_dith＋N_cqによって与えられる。

量子化器集合３２６の例が図２４ａに示されている。量子化器の集合３２６のノイズ充填量子化器３２１はたとえば、あらかじめ定義された統計モデルに従ってランダム変数の実現を出力する乱数発生器を使って実装されてもよい。

加えて、量子化器の集合３２６は、一つまたは複数のディザリングされる量子化器３２２を含んでいてもよい。前記一つまたは複数のディザリングされる量子化器は、図２４ａに示されるように、擬似数ディザ信号６０２の実現を使って生成されてもよい。擬似数ディザ信号６０２は、擬似ランダム・ディザ値のブロック６０２に対応してもよい。ディザ数のブロック６０２は、量子化されるべき、再スケーリングされた誤差係数のブロック１４２の次元と同じ次元を有していてもよい。ディザ信号６０２（またはディザ値のブロック６０２）は、ディザ生成器６０１を使って生成されてもよい。特に、ディザ信号６０２は、一様に分布したランダム・サンプルを含むルックアップテーブルを使って生成されてもよい。

図２４ｂのコンテキストにおいて示されるように、ディザ値のブロック６０２の個々のディザ値６３２は、量子化されるべき対応する係数に（たとえば、再スケーリングされた誤差係数のブロック１４２の対応する再スケーリングされた誤差係数に）ディザを適用するために使われる。再スケーリングされた誤差係数のブロック１４２は、総数K個の再スケーリングされた誤差係数を含んでいてもよい。同様にして、ディザ値のブロック６０２はK個のディザ値６３２を含んでいてもよい。ディザ値のブロック６０２のk番目のディザ値６３２、k＝1,…,Kは、再スケーリングされた誤差係数のブロック１４２のk番目の再スケーリングされた誤差係数に適用されてもよい。

上記で示したように、ディザ値のブロック６０２は、量子化されるべき再スケーリングされた誤差係数のブロック１４２と同じ次元を有していてもよい。これは量子化器の集合３２６のすべてのディザリングされる量子化器３２２についてディザ値の単一のブロック６０２を使うことを許容するので、有益である。換言すれば、再スケーリングされた誤差係数の所与のブロック１４２を量子化し、エンコードするために、擬似ランダム・ディザ６０２は、量子化器のすべての許容可能な集合３２６、３２７について、歪みについてのすべての可能な割り当てについて、一回生成されればよい。これは、エンコーダ１００と対応するデコーダの間の同期を達成することを容易にする。単一のディザ信号６０２の使用は対応するデコーダに明示的に信号伝達される必要がないからである。特に、エンコーダ１００および対応するデコーダは、再スケーリングされた誤差係数のブロック１４２についてのディザ値の同じブロック６０２を生成するよう構成されている同じディザ生成器６０１を利用してもよい。

量子化器の集合３２６の組成は、好ましくは、音響心理学的な考察に基づく。低レートの変換符号化は、変換係数に適用される通常の量子化方式において行なわれる逆注水（reverse-water filling）プロセスの性質によって引き起こされる、スペクトル上の穴および帯域制限を含むスペクトル・アーチファクトにつながりうる。スペクトルの穴の可聴性は、ノイズを、短期間にわたってたまたま水位より低かった、よって0ビットレートを割り当てられた周波数帯域３０２にノイズを注入することによって、低減されることができる。

一般に、ディザリングされる量子化器３２２を用いて任意に低いビットレートを達成することが可能である。たとえば、スカラーの場合、非常に大きな量子化きざみサイズを使うことを選んでもよい。にもかかわらず、0ビットレート動作は実際上は現実的ではない。可変長符号化器と一緒に量子化器の動作を可能にするために必要とされる数値精度に対して、強い要求を課すからである。これは、0dB SNRの歪みレベルに対して、ディザリングされる量子化器３２２を適用するのではなく、一般的なノイズ充填量子化器３２１を適用する動機を与える。量子化器の提案される集合３２６は、ディザリングされる量子化器３２２が、比較的小さなきざみサイズに関連付けられている歪みレベルについて使われ、可変長符号化が、数値精度を維持することに関する問題に対処する必要なしに実装できるよう、設計される。

スカラー量子化の場合、減算的ディザリングのある量子化器３２２は、ほぼ最適なMSEパフォーマンスを提供する事後利得を使って実装されてもよい。減算的にディザリングされるスカラー量子化器３２２の例が図２４ｂに示されている。ディザリングされる量子化器３２２は、減算的ディザリング構造内で使われる一様スカラー量子化器Q ６１２を有している。減算的ディザリング構造は、（再スケーリングされた誤差係数のブロック１４２からの）対応する誤差係数から（ディザ値のブロック６０２からの）ディザ値６３２を減算するよう構成されているディザ減算ユニット６１１を有する。さらに、減算的ディザリング構造は、対応するスカラー量子化された誤差係数に（ディザ値のブロック６０２からの）ディザ値６３２を加算するよう構成された対応する加算ユニット６１３を有する。図示した例では、ディザ減算ユニット６１１は、スカラー量子化器Q ６１２の上流に置かれ、ディザ加算ユニット６１３はスカラー量子化器Q ６１２の下流に置かれる。ディザ値のブロック６０２からのディザ値６３２は、区間[−0.5,0.5)または[0,1)からの値にスカラー量子化器６１２のきざみサイズをかけた値を取ってもよい。ディザリングされる量子化器３２２の代替的な実装では、ディザ減算ユニット６１１とディザ加算ユニット６１３は互いに交換されうることを注意しておく。

減算的ディザリング構造には、量子化器事後利得γによって前記量子化された誤差係数を再スケーリングするよう構成されているスケーリング・ユニット６１４が続いてもよい。量子化された誤差係数のスケーリングのあと、量子化された誤差係数のブロック１４５が得られる。ディザリングされる量子化器３２２への入力Xは典型的には、ディザリングされた量子化器３２２を使って量子化されるべき特定の周波数帯域中にはいる、再スケーリングされた誤差係数のブロック１４２の係数に対応することを注意しておくべきである。同様にして、ディザリングされる量子化器３２２の出力は典型的には、その特定の周波数帯域中にはいる、量子化された誤差係数のブロック１４５の量子化された係数に対応する。

ディザリングされる量子化器３２２への入力Xは零平均であり、入力Xの分散σ_X ²＝E{X²}は既知であると想定されてもよい。（たとえば、信号の分散は、信号の包絡から決定されうる。）さらに、ディザ値６３２を含む擬似ランダム・ディザ・ブロックZ ６０２がエンコーダ１００および対応するデコーダに対して利用可能であると想定されてもよい。さらに、ディザ値６３２は入力Xとは独立であると想定されてもよい。さまざまな異なるディザ６０２が使われうるが、以下では、ディザZ ６０２は、0とΔの間に一様に分布していると想定する。それは、U(0,Δ)によって表わされてもよい。実際には、いわゆるSchuchman条件を満たすいかなるディザが使用されてもよい（たとえば、[−0.5,05.)かけるスカラー量子化器６１２のきざみサイズΔの間に一様に分布しているディザ６０２）。

量子化器Q ６１２は、格子〔ラティス〕であってもよく、そのボロノイ・セルの広がりはΔであってもよい。この場合、ディザ信号は使用されるラティスのボロノイ・セルの広がりにわたって一様分布をもつことになる。

量子化器事後利得γは、信号の分散および量子化きざみサイズが当てられて導出されうる。ディザ量子化器は、任意のきざみサイズ（すなわちビットレート）について解析的に扱えるからである。特に、事後利得は、減算的ディザをもつ量子化器のMSEパフォーマンスを改善するよう導出されてもよい。事後利得は次式によって与えられてもよい。

たとえ事後利得γの適用によってディザリングされる量子化器３２２のMSEパフォーマンスが改善されうるとしても、ディザリングされる量子化器３２２は典型的には、ディザリングなしの量子化器より低いMSEパフォーマンスをもつ（このパフォーマンス損失はビットレートが増すと消失するが）。結果として、一般に、ディザリングされる量子化器は、ディザリングされないバージョンよりノイズが多い。よって、ディザリングされる量子化器３２２の使用がディザリングされる量子化器３２２の知覚的に有益なノイズ充填属性によって正当化されるときにのみ、ディザリングされる量子化器３２２を使うことが望ましいことがありうる。

よって、三つの型の量子化器を含む量子化器の集合３２６が提供されてもよい。順序付けられた量子化器集合３２６は、単一のノイズ充填量子化器３２１と、減算的ディザリングのある一つまたは複数の量子化器３２２と、一つまたは複数の古典的な（ディザリングされない）量子化器３２３を含んでいてもよい。連続する量子化器３２１、３２２、３２３はSNRに対して段階的な改善を提供しうる。量子化器の順序付けられた集合３２６の隣り合う一対の量子化器の間の段階的な改善は、隣り合う量子化器の対の一部または全部について実質的に一定であってもよい。

量子化器の特定の集合３２６は、ディザリングされる量子化器３２２の数によって、かつ特定の集合３２６内に含まれるディザリングされない量子化器３２３の数によって定義されてもよい。さらに、量子化器の特定の集合３２６は、ディザ信号６０２の特定の実現によって定義されてもよい。集合３２６は、変換係数の知覚的に効率的な量子化を提供するために設計されてもよく、0レート・ノイズ充填（0dBよりわずかに低いまたは0dBに等しいSNRを与える）；中間的な歪みレベル（中間的なSNR）での減算的ディザリングによるノイズ充填；および低歪みレベル（高いSNR）でのノイズ充填の欠如を与える。集合３２６は、レート割り当てプロセスの間に選択されうる一組の許容可能な量子化器を提供する。量子化器の集合３２６からの特定の量子化器の、ある特定の周波数帯域３０２の係数への適用は、レート割り当てプロセスの間に決定される。特定の周波数帯域３０２の係数を量子化するためにどの量子化器が使われるかは典型的には事前には知られていない。しかしながら、典型的には、量子化器の集合３２６の組成がどうなっているかは事前に知られている。

誤差係数のブロック１４２の異なる周波数帯域３０２について異なる型の量子化器を使う側面が図２４ｃに示されている。ここでは、レート割り当てプロセスの例示的な帰結が示されている。この例では、レート割り当てはいわゆる逆注水原理に従うと想定される。図２４ｃは、入力信号のスペクトル６２５（または量子化されるべき係数のブロックの包絡線）を示している。周波数帯域６２３が比較的高いスペクトル・エネルギーをもち、比較的低い歪みレベルを与える古典的量子化器３２３を使って量子化されることが見て取れる。周波数帯域６２２は水レベル６２４より上のスペクトル・エネルギーを示す。これらの周波数帯域６２２における係数は、中程度の歪みレベルを与えるディザリングされる量子化器３２２を使って量子化されてもよい。周波数帯域６２１は水レベル６２４より下のスペクトル・エネルギーを示す。これらの周波数帯域６２１における係数は、0レートのノイズ充填を使って量子化されてもよい。（スペクトル６２５によって表わされる）係数の特定のブロックを量子化するために使われる異なる量子化器は、その特定の係数ブロックについて決定された、量子化器の特定の集合３２６の一部であってもよい。

よって、三つの異なる型の量子化器３２１、３２２、３２３は選択的に適用されてもよい（たとえば、周波数に関して選択的に）。特定の型の量子化器の適用についての決定は、下記で述べるレート割り当て手順のコンテキストにおいて決定されてもよい。レート割り当て手順は、入力信号のRMS包絡から（またはたとえば信号のパワースペクトル密度から）導出できる知覚的基準を利用してもよい。特定の周波数帯域３０２において適用される量子化器の型は、対応するデコーダに明示的に信号伝達される必要がない。量子化器の選択された型を信号伝達する必要性がなくなるのは、対応するデコーダが、入力信号のブロックを量子化するために使われた量子化器の特定の集合３２６を、根底にある知覚的基準（たとえば割り当て包絡１３８）から、量子化器の集合の所定の組成（たとえば、量子化器の種々の集合の所定のセット）からおよび単一のグローバルなレート割り当てパラメータ（オフセット・パラメータとも称される）から決定できるからである。

エンコーダ１００によって使用された量子化器の集合３２６のデコーダにおける決定は、量子化器の集合３２６を、量子化器がその歪み（たとえばSNR）に従って順序付けられるように設計することによって容易にされる。集合３２６の各量子化器は、一定値だけ直前の量子化器の歪みを減少させてもよい（SNRを洗練してもよい）。さらに、量子化器の特定の集合３２６は、レート割り当てプロセス全体の間、擬似ランダム・ディザ信号６０２の単一の実現に関連付けられていてもよい。この結果として、レート割り当て手順の帰結は、ディザ信号６０２の実現に影響しない。これは、レート割り当て手順の収束を保証するために有益である。さらに、これは、デコーダがディザ信号６０２の単一の実現を知っている場合にデコーダがデコードを実行することを可能にする。デコーダは、エンコーダ１００においてと対応するデコーダにおいてとで同じ擬似ランダム・ディザ生成器６０１を使うことによって、ディザ信号６０２の実現を知らされてもよい。

上記で示したように、エンコーダ１００は、ビット割り当てプロセスを実行するよう構成されていてもよい。この目的のために、エンコーダ１００は、ビット割り当てユニット１０９、１１０を有していてもよい。ビット割り当てユニット１０９は、再スケーリングされた誤差係数の現在ブロック１４２をエンコードするために利用可能である総ビット数１４３を決定するよう構成されていてもよい。総ビット数１４３は、割り当て包絡１３８に基づいて決定されてもよい。ビット割り当てユニット１１０は、割り当て包絡１３８における対応するエネルギー値に依存して、種々の再スケーリングされた誤差係数へのビットの相対的な割り当てを提供するよう構成されていてもよい。

ビット割り当てプロセスは、逐次反復的な割り当て手順を利用してもよい。割り当て手順の過程で、割り当て包絡１３８は、オフセット・パラメータを使ったオフセットされてもよい。それにより、増大／減少した分解能をもつ量子化器が選択される。よって、オフセット・パラメータは、全体的な量子化を洗練するまたは粗くするために使われてもよい。オフセット・パラメータは、オフセット・パラメータおよび割り当て包絡１３８によって与えられる量子化器を使って得られる係数データ１６３が、現在ブロック１３１に割り当てられた総ビット数１４３に対応する（またはそれを超えない）ビット数を含むように決定されてもよい。現在ブロック１３１をエンコードするためにエンコーダ１００によって使われたオフセット・パラメータは、係数データ１６３としてビットストリーム中に含められる。結果として、対応するデコーダは、再スケーリングされた誤差係数のブロック１４２を量子化するために係数量子化ユニット１１２によって使用された量子化器を決定することができるようにされる。

よって、レート割り当てプロセスは、エンコーダ１００において実行されてもよく、知覚的モデルに従って利用可能なビット１４３を分配することをねらいとする。知覚的モデルは、変換係数のブロック１３１から導出された割り当て包絡１３８に依存してもよい。レート割り当てアルゴリズムは利用可能なビット１４３を、異なる型の量子化器、すなわち0レートのノイズ充填３２１、前記一つまたは複数のディザリングされる量子化器３２２および前記一つまたは複数の古典的なディザリングされない量子化器３２３の間で分配する。スペクトルの特定の周波数帯域３０２の係数を量子化するために使われる量子化器の型についての最終的な決定は、知覚的信号モデル、擬似ランダム・ディザの実現およびビットレート制約条件に依存しうる。

対応するデコーダでは、ビット割り当て（割り当て包絡１３８およびオフセット・パラメータによって示される）は、無損失のデコードを容易にするために、量子化インデックスの確率を計算するために使われてもよい。量子化インデックスの確率の計算方法であって、フル帯域擬似ランダム・ディザ６０２の実現、単一の包絡１３８およびレート割り当てパラメータ（すなわちオフセット・パラメータ）によってパラメータ化される知覚的モデルの使用を用いるものが使われてもよい。割り当て包絡１３８、オフセット・パラメータおよびディザ値のブロック６０２に関する知識を使って、デコーダにおける量子化器の集合３２６の組成が、エンコーダ１００において使われた集合３２６と同期しうる。

上記で概説したように、ビットレート制約条件は、フレーム当たりの最大許容されるビット数１４３を用いて指定されてもよい。これはたとえば、たとえばハフマン符号を使ってその後、エントロピー符号化される量子化インデックスに適用される。特に、これは、一時に単一のパラメータが量子化される、逐次的な仕方でビットストリームが生成される符号化シナリオにおいて適用され、対応する量子化インデックスがバイナリー符号語に変換されてビットストリームにアペンドされる。

算術符号化（または範囲符号化）が使われている場合、原理は異なる。算術符号化のコンテキストでは、典型的には量子化インデックスの長いシーケンスに単一の符号語が割り当てられる。ビットストリームの特定の部分をある特定のパラメータと厳密に関連付けることは、典型的には可能ではない。特に、算術符号化のコンテキストでは、信号のランダムな実現をエンコードするために必要とされるビット数は典型的には未知である。これは、たとえ信号の統計モデルが既知であったとしても成り立つ。

上述した技術的課題に対処するために、算術符号化器をレート割り当てアルゴリズムの一部とすることが提案される。レート割り当てプロセスの間に、エンコーダは一つまたは複数の周波数帯域３０２の係数の集合を量子化し、エンコードしようとする。そのようなすべての試行について、算術符号化器の状態の変化を観察し、（ビット数を計算する代わりに）ビットストリーム中で進む位置の数を計算することが可能である。最大ビットレート制約条件が設定されている場合、この最大ビットレート制約条件は、レート割り当て手順において使用されてもよい。算術符号の終端ビット（termination bits）のコストは、最後の符号化されたパラメータのコストに含められてもよく、一般に、終端ビットのコストは算術符号化器の状態に依存して変わる。にもかかわらず、ひとたび終端コストが利用可能になれば、前記一つまたは複数の周波数帯域３０２の係数の集合に対応する量子化インデックスをエンコードするために必要とされるビット数を決定することができる。

算術符号化のコンテキストでは、ディザ６０２の単一の実現が（係数の特定のブロック１４２の）レート割り当てプロセス全体について使用されてもよいことを注意しておくべきである。上記で概説したように、算術符号化器は、レート割り当て手順内で特定の量子化器選択のビットレート・コストを推定するために使われてもよい。算術符号化器の状態の変化が観察されてもよく、状態変化が、量子化を実行するために必要とされるビット数を計算するために使われてもよい。さらに、算術符号の終端のプロセスが、レート割り当てプロセス内で使われてもよい。

上記で示したように、量子化インデックスは、算術符号またはエントロピー符号を使ってエンコードされてもよい。量子化インデックスがエントロピー符号化される場合、個々の量子化インデックスまたは量子化インデックスのグループに可変長の符号語を割り当てるために、量子化インデックスの確率分布が考慮に入れられてもよい。ディザリングの使用は、量子化インデックスの確率分布に対する影響をもつことがある。特に、ディザ信号６０２の特定の実現は、量子化インデックスの確率分布に影響をもつことがある。ディザ信号６０２の実現の事実上無制限の数のため、一般的な場合において、符号語確率は事前に知られてはおらず、ハフマン符号化を使うことは可能ではない。

可能なディザ実現の数を、ディザ信号６０２の実現の比較的小さい、扱える程度の集合にまで減らすことが可能であることが発明者によって観察された。例として、各周波数帯域３０２について、ディザ値の限られた集合が提供されてもよい。この目的のために、エンコーダ１００（および対応するデコーダ）は、M個の所定のディザ実現のうちの一つを選択することによってディザ信号６０２を生成するよう構成された離散的ディザ生成器８０１を有していてもよい（図２６参照）。例として、M個の異なる所定のディザ実現は、すべての周波数帯域３０２について使用されてもよい。所定のディザ実現の数はM＜5であってもよい（たとえばM＝4またはM＝3）。

ディザ実現の限られた数Mのため、各ディザ実現について（可能性としては多次元の）ハフマン・コードブックをトレーニングすることが可能である。それにより、M個のコードブックの集合６０３が与えられる。エンコーダ１００は、選択されたディザ実現に基づいて、M個の所定のコードブックの集合８０３のうちの一つを選択するよう構成されているコードブック選択ユニット８０２を有していてもよい。そうすることにより、エントロピー符号化がディザ生成と同期していることが保証される。選択されたコードブック８１１は、選択されたディザ実現を使って量子化された個々の量子化インデックスまたは量子化インデックスのグループをエンコードするために使われてもよい。結果として、ディザリングされる量子化器を使うときエントロピー符号化のパフォーマンスが改善されることができる。

所定のコードブックの集合８０３および離散的ディザ生成器８０１は、（図２６に示されるように）対応するデコーダにおいても使用されてもよい。擬似ランダム・ディザが使われる場合、およびデコーダがエンコーダ１００と同期したままである場合、デコードは実現可能である。この場合、デコーダにおいて離散的ディザ生成器８０１はディザ信号６０２を生成し、特定のディザ実現はコードブックの集合８０３から特定のハフマン・コードブック８１１に一意的に関連付けられている。音響心理学的モデル（たとえば、割り当て包絡１３８およびレート割り当てパラメータによって表わされる）および選択されたコードブック８１１を与えられて、デコーダはハフマン・デコーダ５５１を使ったデコードを実行し、デコードされた量子化インデックス８１２を与えることができる。

よって、算術符号化の代わりに、ハフマン・コードブックの比較的小さな集合８０３が使われてもよい。ハフマン・コードブックの集合８１３からの特定のコードブック８１１の使用は、ディザ信号６０２の所定の実現に依存してもよい。同時に、M個の所定のディザ実現を形成する許容可能なディザ値の限られた集合が使われてもよい。その際、レート割り当てプロセスは、ディザリングされない量子化器、ディザリングされる量子化器およびハフマン符号化の使用に関わっていてもよい。

再スケーリングされた誤差係数の量子化の結果として、量子化された誤差係数のブロック１４５が得られる。量子化された誤差係数のブロック１４５は、対応するデコーダにおいて利用可能な誤差係数のブロックに対応する。結果として、量子化された誤差係数のブロック１４５は推定された変換係数のブロック１５０を決定するために使用されうる。エンコーダ１００は、再スケーリング・ユニット１１３によって実行された再スケーリング動作の逆を実行して、それによりスケーリングされた量子化された誤差係数のブロック１４７を与えるよう構成された逆再スケーリング・ユニット１１３を有していてもよい。推定された変換係数のブロック１５０をスケーリングされた量子化された誤差係数のブロック１４７に加えることによって、再構成された平坦化された係数のブロック１４８を決定するために、加算ユニット１１６が使われてもよい。さらに、再構成された平坦化された係数のブロック１４８に調整された包絡１３９を適用し、それにより再構成された係数のブロック１４９を与えるために、逆平坦化ユニット１１４が使われてもよい。再構成された係数のブロック１４９は、対応するデコードにおいて利用可能な変換係数のブロック１３１のバージョンに対応する。結果として、再構成された係数のブロック１４９は、予測器１１７において、推定された係数のブロック１５０を決定するために使われてもよい。

再構成された係数のブロック１４９は、平坦化されていない領域で表現されている。すなわち、再構成された係数のブロック１４９は、現在ブロック１３１のスペクトル包絡をも表わす。下記で概説するように、これは、予測器１１７のパフォーマンスにとって有益であることがある。

予測器１１７は、再構成された係数の一つまたは複数の以前のブロック１４９に基づいて、推定された変換係数のブロック１５０を推定するよう構成されていてもよい。特に、予測器１１７は、所定の予測誤差基準が低減される（たとえば最小化される）よう一つまたは複数の予測器パラメータを決定するよう構成されていてもよい。例として、前記一つまたは複数の予測器パラメータは、予測誤差係数のブロック１４１のエネルギーまたは知覚的に重み付けされたエネルギーが低減される（たとえば最小化される）よう決定されてもよい。前記一つまたは複数の予測器パラメータは、予測器データ１６４として、エンコーダ１００によって生成されるビットストリーム中に含められてもよい。

予測器１１７は、その内容が参照によって組み込まれる特許出願US61750052およびその優先権を主張する諸特許出願において記述されているような信号モデルを利用してもよい。前記一つまたは複数の予測器パラメータは、信号モデルの一つまたは複数のモデル・パラメータに対応してもよい。

図１９ｂは、さらなる例示的な変換ベースの発話エンコーダ１７０のブロック図を示している。図１９ｂの変換ベースの発話エンコーダ１７０は、図１９ａのエンコーダ１００のコンポーネントの多くを有するが、図１９ｂの変換ベースの発話エンコーダ１７０は可変ビットレートをもつビットストリームを生成するよう構成されている。この目的のために、エンコーダ１７０は、先行する諸ブロック１３１によってすでに使用されたビットレートを追跡するよう構成された平均ビットレート（ABR）状態ユニット１７２を有する。ビット割り当てユニット１７１は、変換係数の現在ブロック１３１をエンコードするために利用可能な総ビット数１４３を決定するためにこの情報を使う。

以下では、対応する変換ベースの発話デコーダ５００が図２３ａないし２３ｄのコンテキストにおいて記述される。図２３ａは、例示的な変換ベースの発話デコーダ５００のブロック図を示している。ブロック図は、再構成された係数のブロック１４９を変換領域から時間領域に変換し、それによりデコードされたオーディオ信号のサンプルを与えるために使われる合成フィルタバンク５０４（逆変換ユニットとも称される）を示している。合成フィルタバンク５０４は、所定のストライド（たとえば、約5msまたは256サンプルのストライド）をもつ逆MDCTを利用してもよい。

デコーダ５００の主ループは、このストライドの単位で動作する。各ステップは、システムの所定の帯域幅設定に対応する長さまたは次元をもつ変換領域ベクトル（ブロックとも称される）を生成する。合成フィルタバンク５０４の変換サイズにするゼロ・パディングに際し、変換領域ベクトルは、合成フィルタバンク５０４の重複／加算プロセスへの所定の長さ（たとえば5ms）の時間領域信号更新を合成するために使われる。

上記で示したように、一般的な変換ベースのオーディオ・コーデックは、典型的には、過渡成分の扱いのための5ms範囲の短ブロックのシーケンスをもつ諸フレームを用いる。よって、一般的な変換ベースのオーディオ・コーデックは、短ブロックおよび長ブロックのシームレスな共存のための必要な変換および窓切り換えツールを提供する。したがって、図２３ａの合成フィルタバンク５０４を省略することによって定義される声スペクトル・フロントエンドは、追加的な切り換えツールを導入する必要なしに、汎用の変換ベースのオーディオ・コーデックに便利に統合されうる。換言すれば、図２３ａの変換ベースの発話デコーダ５００は、一般的な変換ベースのオーディオ・デコーダと便利に組み合わされてもよい。特に、図２３ａの変換ベースの発話デコーダ５００は、一般的な変換ベースのオーディオ・デコーダ（たとえばAACまたはHE-AACデコーダ）によって提供される合成フィルタバンク５０４を利用してもよい。

はいってくるビットストリームから（特にビットストリーム内に含まれる包絡データ１６１からおよび利得データ１６２から）、包絡デコーダ５０３によって、信号包絡が決定されてもよい。特に、包絡デコーダ５０３は、包絡データ１６１および利得データ１６２に基づいて、調整された包絡１３９を決定するよう構成されてもよい。よって、包絡デコーダ５０３は、エンコーダ１００、１７０の補間ユニット１０４および包絡洗練ユニット１０７と同様のタスクを実行してもよい。上記で概説したように、調整された包絡１０９は、あらかじめ定義された周波数帯域３０２の集合における信号分散のモデルを表わす。

さらに、デコーダ５００は、調整された包絡１３９を、名目上分散1であってもよい要素をもつ平坦化領域ベクトルに適用するよう構成されている逆平坦化ユニット１１４を有する。平坦化領域ベクトルは、エンコーダ１００、１７０のコンテキストにおいて記述された再構成された平坦化された係数のブロック１４８に対応する。逆平坦化ユニット１１４の出力において、再構成された係数のブロック１４９が得られる。再構成された係数のブロック１４９は、（デコードされたオーディオ信号を生成するための）合成フィルタバンク５０４およびサブバンド予測器５１７に与えられる。

サブバンド予測器５１７は、エンコーダ１００、１７０の予測器１１７と同様の仕方で動作する。特に、サブバンド予測器５１７は、（ビットストリーム内で信号伝達される前記一つまたは複数の予測器パラメータを使って）再構成された係数の一つまたは複数の以前のブロック１４９に基づいて、（平坦化された領域における）推定された変換係数のブロック１５０を決定するよう構成されている。換言すれば、サブバンド予測器５１７は、予測器ラグおよび予測器利得のような予測器パラメータに基づいて、以前にデコードされた出力ベクトルおよび信号包絡のバッファから、予測された平坦化領域ベクトルを出力するよう構成されている。デコーダ５００は、予想器データ１６４をデコードして前記一つまたは複数の予測器パラメータを決定するよう構成された予測器デコーダ５０１を有する。

デコーダ５００はさらに、典型的にはビットストリームの最大の部分に基づいて（すなわち、係数データ１６３に基づいて）予測された平坦化領域ベクトルに加算的補正を備えるよう構成されているスペクトル・デコーダ５０２を有する。スペクトル・デコード・プロセスは、前記包絡および伝送された割り当て制御パラメータ（オフセット・パラメータとも称される）から導出される割り当てベクトルによって主として制御される。図２３ａに示されるように、スペクトル・デコーダ５０２の予測器パラメータ５２０への直接的な依存性があってもよい。よって、スペクトル・デコーダ５０２は、受領された係数データ１６３に基づいてスケーリングされた量子化された誤差係数のブロック１４７を決定するよう構成されていてもよい。エンコーダ１００、１７０のコンテキストで概説したように、再スケーリングされた誤差係数のブロック１４２を量子化するために使われる量子化器３２１、３２２、３２３は、典型的には、割り当て包絡１３８（これは調整された包絡１３９から導出できる）およびオフセット・パラメータに依存する。さらに、量子化器３２１、３２２、３２３は、予測器１１７によって提供される制御パラメータに依存してもよい。制御パラメータ１４６は、（エンコーダ１００、１７０と類似の仕方で）予測器パラメータ５２０を使ってデコーダ５００によって導出されてもよい。

上記で示したように、受領されるビットストリームは、包絡データ１６１および利得データ１６２を含み、これは調整された包絡１３９を決定するために使用されうる。特に、包絡デコーダ５０３のユニット５３１は、包絡データ１６１から、量子化された現在の包絡１３４を決定するよう構成されていてもよい。例として、量子化された現在の包絡１３４は、（図２１ａに示されるように）あらかじめ定義された周波数帯域３０２における3dBの分解能を有していてもよい。量子化された現在の包絡１３４は、ブロックの集合１３２、３３２毎に（たとえば四つの符号化単位、すなわちブロック毎に、あるいは20ms毎に）、特にブロックのシフトされた集合３３２毎に更新されてもよい。量子化された現在の包絡１３４の周波数帯域３０２は、人間の聴覚の属性に適合するために、周波数の関数として、周波数ビン３０１の増大する数を有していてもよい。

量子化された現在の包絡１３４は、ブロックのシフトされた集合３３２の（あるいは可能性としてはブロックの現在の集合１３２の）各ブロック１３１について、量子化された以前の包絡１３５から補間された包絡１３６に、線形に補間されてもよい。補間された包絡１３６は、量子化された3dB領域で決定されてもよい。これは、補間されたエネルギー値３０３が最も近い3dBレベルに丸められてもよいことを意味する。例示的な補間された包絡１３６は図２１ａの点線のグラフによって示されている。各量子化された現在の包絡１３４について、四レベルの補正利得a １３７（包絡利得とも称される）が利得データ１６２として提供される。利得デコード・ユニット５３２は、利得データ１６２からレベル補正利得a １３７を決定するよう構成されていてもよい。レベル補正利得は、1dBきざみで量子化されてもよい。各レベル補正利得は、種々のブロック１３１について調整された包絡１３９を提供するために対応する補間された包絡１３６に適用される。レベル補正利得１３７の増大した分解能のため、調整された包絡１３９は増大した分解能（たとえば1dB分解能）をもつことがある。

図２１ｂは、量子化された以前の包絡１３５と量子化された現在の包絡１３４との間の例示的な線形または幾何的補間を示している。包絡１３５、１３４は、対数スペクトルの平均レベル部分および形状部分に分離されてもよい。これらの部分は、線形、幾何的または調和的（並列な抵抗器）戦略のような独立な戦略を用いて補間されてもよい。よって、補間された包絡１３６を決定するために種々の補間方式が使用されうる。デコーダ５００によって使われる補間方式は典型的には、エンコーダ１００、１７０によって使われた補間方式に対応する。

包絡デコーダ５０３の包絡洗練ユニット１０７は、調整された包絡１３９を（たとえば3dBきざみに）量子化することによって、調整された包絡１３９から割り当て包絡１３８を決定するよう構成されていてもよい。割り当て包絡１３８は、割り当て制御パラメータまたはオフセット・パラメータ（係数データ１６３内に含まれる）との関連で使われて、スペクトル・デコード、すなわち係数データ１６３のデコードを制御するために使用される名目整数割り当てベクトルを生成してもよい。特に、名目整数割り当てベクトルは、係数データ１６３内に含まれる量子化インデックスを逆量子化するための量子化器を決定するために使われてもよい。割り当て包絡１３８および名目整数割り当てベクトルは、エンコーダ１００、１７０においてとデコーダ５００においてとで類似の仕方で決定されてもよい。

図２７は、割り当て包絡１３８に基づく例示的なビット割り当てプロセスを示している。上記で概説したように、割り当て包絡１３８は、所定の分解能（たとえば3dB分解能）に従って量子化されてもよい。割り当て包絡１３８の各量子化されたスペクトル・エネルギー値は対応する整数値に割り当てられてもよい。ここで、隣接する整数値は、所定の分解能（たとえば3dB分解能）に対応するスペクトル・エネルギーにおける差を表わしていてもよい。結果として得られる整数の集合は、整数割り当て包絡１００４（iEnvと称する）と称されてもよい。整数割り当て包絡１００４は、オフセット・パラメータによってオフセットされて、名目整数割り当てベクトル（iAllocと称される）を与えてもよい。このiAllocが、特定の周波数帯域３０２（周波数帯域インデックスbandIdxによって同定される）の係数を量子化するために使われるべき量子化器の直接的な指示を与える。

図２７は、描画１００３において、整数割り当て包絡１００４を周波数帯域３０２の関数として示している。周波数帯域１００２（bandIdx＝7）について、整数割り当て包絡１００４が整数値−17を取ることが見て取れる（iEnv[7]＝−17）。整数割り当て包絡１００４は、ある最大値（iMaxと称される；たとえばiMax＝−15）に制限されてもよい。ビット割り当てプロセスは、整数割り当て包絡１００４およびオフセット・パラメータ（AllocOffsetと称される）の関数として量子化器インデックス１００６（iAlloc[bandIdx]と称される）を与えるビット割り当て公式を利用してもよい。上記で概説したように、オフセット・パラメータ（すなわち、AllocOffset）は対応するデコーダ５００に伝送され、それにより、デコーダ５００がビット割り当て公式を使って量子化器インデックス１００６を決定できるようにする。ビット割り当て公式は
iAlloc[bandIdx]＝iEnv[bandIdx]−(iMax−CONSTANT_OFFSET)＋AllocOffset
によって与えられてもよい。ここで、CONSTANT_OFFSETは一定のオフセットであってもよく、たとえばCONSTANT_OFFSET＝20である。例として、ビット割り当てプロセスが、ビットレート制約条件がオフセット・パラメータAllocOffset＝−13を使って達成できると判定したとすると、七番目の周波数帯域の量子化器インデックス１００７はiAlloc[7]＝−17−(−15−20)−13＝5として得られうる。上述したビット割り当て公式をすべての周波数帯域３０２について使うことによって、すべての周波数帯域３０２についての量子化器インデックス１００６（および結果として量子化器３２１、３２２、３２３）が決定されうる。0より小さい量子化器インデックスは量子化器インデックス0に丸められてもよい。同様に、最大の利用可能な量子化器インデックスより大きい量子化器インデックスは、最大の利用可能な量子化器インデックスまで丸められてもよい。

さらに、図２７は、本稿に記載される量子化方式を使って達成されうる例示的なノイズ包絡１０１１を示している。ノイズ包絡１０１１は、量子化の間に導入される量子化ノイズの包絡を示している。（図２７において整数割り当て包絡１００４によって表わされる）信号包絡と一緒にプロットされたら、ノイズ包絡１０１１は、量子化ノイズの分布が信号包絡に関して知覚的に最適化されているという事実を示す。

デコーダ５００が受領されたビットストリームと同期できるようにするために、種々の型のフレームが伝送されうる。フレームは、ブロックの集合１３２、３３２、特にブロックのシフトされたブロック３３２に対応しうる。特に、以前のフレームに対して相対的な仕方でエンコードされる、いわゆるPフレームが伝送されてもよい。上記において、デコーダ５００は量子化された以前の包絡１３５を知っていることが想定された。量子化された以前の包絡１３５は以前のフレーム内で与えられてもよく、よって、現在の集合１３２または対応するシフトされた集合３３２がPフレームに対応しうる。しかしながら、スタートアップ・シナリオでは、デコーダ５００は典型的には量子化された以前の包絡１３５を知らない。この目的のために、（たとえばスタートアップ時にまたは定期的に）Iフレームが伝送されてもよい。Iフレームは二つの包絡を含んでいてもよく、その一方が量子化された以前の包絡１３５として使われ、他方が量子化された現在の包絡１３４として使われる。Iフレームは、声スペクトル・フロントエンドの（すなわち、変換ベースの発話デコーダ５００の）スタートアップの場合のために、たとえば異なるオーディオ符号化モードを用いるフレームに続くときに、および／またはオーディオ・ビットストリームの接合点を明示的に可能にするためのツールとして、使われてもよい。

サブバンド予測器５１７の動作が図２３ｄに示されている。図示した例では、予測器パラメータ５２０はラグ・パラメータおよび予測器利得パラメータgである。予測器パラメータ５２０は、ラグ・パラメータおよび予測器利得パラメータについての可能な値の所定のテーブルを使って、予測器データ１６４から決定されてもよい。これは、予測器パラメータ５２０のビットレート効率のよい伝送を可能にする。

前記一つまたは複数の以前にデコードされた変換係数ベクトル（すなわち、再構成された係数の前記一つまたは複数の以前のブロック１４９）は、サブバンド（またはMDCT）信号バッファ５４１内に記憶されてもよい。バッファ５４１は、ストライドに従って（たとえば5ms毎に）更新されてもよい。予測器抽出器５４３は、規格化されたラグ・パラメータTに依存してバッファ５４１に対して作用するよう構成されていてもよい。規格化されたラグ・パラメータTは、ラグ・パラメータ５２０をストライド単位に（たとえばMDCTストライド単位に）規格化することによって決定されてもよい。ラグ・パラメータTが整数であれば、抽出器５４３は、T時間単位バッファ５４１にはいったところの一つまたは複数の以前にデコードされた変換係数ベクトルを取ってきてもよい。換言すれば、ラグ・パラメータTは、再構成された係数の前記一つまたは複数の以前のブロック１４９のうちのどれが推定される変換係数のブロック１５０を決定するために使われるかを示してもよい。抽出器５４３の可能な実装に関する詳細な議論は、その内容が参照によって組み込まれる特許出願US61750052およびその優先権を主張する諸特許出願において提供されている。

抽出器５４３は、フル信号包絡を担持するベクトル（またはブロック）に対して作用してもよい。他方、（サブバンド予測器５１７によって与えられる）推定された変換係数のブロック１５０は、平坦化された領域で表わされてもよい。結果的に、抽出器５４３の出力は、平坦化領域ベクトルに整形されてもよい。これは、再構成された係数の前記一つまたは複数の以前のブロック１４９の調整された包絡１３９を利用する整形器５４４を使って達成されてもよい。再構成された係数の前記一つまたは複数の以前のブロック１４９の調整された包絡１３９は、包絡バッファ５４２に記憶されていてもよい。整形器ユニット５４４は、T₀時間単位だけ包絡バッファ５４２にはいったところから平坦化において使われる遅延された信号包絡を取ってくるよう構成されていてもよい。ここで、T₀はTに最も近い整数である。次いで、平坦化領域ベクトルは、利得パラメータgによってスケーリングされて、（平坦化領域での）推定された変換係数のブロック１５０を与えてもよい。

代替として、平坦化領域で作用するサブバンド予測器５１７、たとえば再構成された平坦化された係数のブロック１４８に対して作用するサブバンド予測器５１７を使うことによって、整形器５４４によって実行される遅延された平坦化プロセスは省略されてもよい。しかしながら、平坦化領域ベクトル（またはブロック）のシーケンスが、変換（たとえばMDCT変換）の時間エイリアシングされた（time-aliased）諸側面のため、時間信号にはうまくマップしないことが見出されている。結果として、抽出器５４３の根底にある信号モデルへのフィットが低減され、より高いレベルの符号化ノイズがこの代替構成から帰結する。換言すれば、サブバンド予測器５１７によって使用される信号モデル（たとえば正弦波または周期的モデル）は、（平坦化された領域に比して）平坦化されない領域において増大したパフォーマンスを与えることが見出されている。

ある代替的な例では、予測器５１７の出力（すなわち、推定された変換係数のブロック１５０）は、逆平坦化ユニット１１４の出力において（すなわち再構成された係数のブロック１４９に）加えられてもよいことを注意しておくべきである（図２３ａ参照）。その場合、図２３ｃの整形器ユニット５４４は、遅延された平坦化および逆平坦化の組み合わされた動作を実行するよう構成されていてもよい。

受領されたビットストリーム中の要素が、サブバンド・バッファ５４１および包絡バッファ５４１を、たとえばIフレームの最初の符号化単位（すなわち、最初のブロック）の場合に、時折フラッシュすることを制御してもよい。これは、以前のデータを知ることなくIフレームをデコードすることを可能にする。最初の符号化単位は典型的には予測寄与を利用できないが、それでも予測器情報５２０を伝達するために比較的少数のビットを使ってもよい。予測利得の喪失は、この最初の符号化単位の予測誤差符号化により多くのビットを割り当てることによって補償されてもよい。典型的には、予測器寄与はIフレームの第二の符号化単位（すなわち第二のブロック）についてやはり実質的である。これらの側面のため、たとえIフレームを非常に頻繁に使ったとしても、比較的小さなビットレート増で品質を維持できる。

換言すれば、ブロックの集合１３２，３３２（フレームとも称される）は、予測符号化を使ってエンコードされうる複数のブロック１３１を含む。Iフレームをエンコードするとき、ブロックの集合３３２の最初のブロック２０３だけは、予測エンコーダによって達成される符号化利得を使ってエンコードされることができない。すでに直後のブロック２０１は予測エンコードの恩恵を利用しうる。つまり、符号化効率に関するIフレームの欠点は、フレーム３３２の変換係数の最初のブロック２０３のエンコードに限定され、フレーム３３２の他のブロック２０１、２０４、２０５には当てはまらないということである。よって、本稿に記載される変換ベースの発話符号化方式は、符号化効率に対する著しい影響なしに、Iフレームの比較的頻繁な使用を許容する。よって、本稿に記載される変換ベースの発話符号化方式は、比較的高速および／またはデコーダとエンコーダの間の比較的頻繁な同期を必要とする用途に特に好適である。

図２３ｄは、例示的なスペクトル・デコーダ５０２のブロック図を示している。スペクトル・デコーダ５０２は、エントロピー符号化された係数データ１６３をデコードするよう構成されている無損失デコーダ５５１を有する。さらに、スペクトル・デコーダ５０２は、係数データ１６３内に含まれる量子化インデックスに係数値を割り当てるよう構成されている逆量子化器５５２を有する。エンコーダ１００、１７０のコンテキストにおいて概説したように、所定の量子化器の集合、たとえばモデル・ベースのスカラー量子化器の有限な集合から選択される異なる量子化器を使って異なる変換係数が量子化されてもよい。図２２に示されるように、量子化器３２１、３２２、３２３の集合は、量子化器の種々の型を含んでいてもよい。量子化器の集合は、（0ビットレートの場合）ノイズ合成を提供する量子化器３２１、（比較的低い信号対雑音比SNRのためおよび中間的なビットレートのための）一つまたは複数のディザリングされる量子化器３２２および／または（比較的高いSNRおよび比較的高いビットレートのための）一つまたは複数の普通の量子化器３２３を含んでいてもよい。

包絡洗練ユニット１０７は、割り当てベクトルを与えるために係数データ１６３内に含まれるオフセット・パラメータと組み合わされてもよい割り当て包絡１３８を提供するよう構成されていてもよい。割り当てベクトルは、各周波数帯３０２について整数値を含む。特定の周波数帯域３０２についての整数値は、特定の周波数帯域３０２の変換係数の逆量子化のために使われるべきレート‐歪み点を指す。換言すれば、特定の周波数帯域３０２についての整数値は、特定の周波数帯域３０２の変換係数の逆量子化のために使われるべき量子化器を指す。整数値が1増すことは、SNRにおける1.5dBの増加に対応する。ディザリングされる量子化器３２２および普通の量子化器３２３について、ラプラシアン確率分布モデルが、算術符号化を用いてもよい無損失符号化において使われてもよい。低ビットレートと高ビットレートの場合の間でシームレスな仕方でギャップを埋めるために、一つまたは複数のディザリングされる量子化器３２２が使われてもよい。ディザリングされる量子化器３２２は、静的なノイズ様信号について十分になめらかな出力オーディオ品質を生成することにおいて有益でありうる。

換言すれば、逆量子化器５２２は、変換係数の現在のブロック１３１の係数量子化インデックスを受領するよう構成されていてもよい。特定の周波数帯域３０２の前記一つまたは複数の係数量子化インデックスは、所定の一組の量子化器からの対応する量子化器を使って決定されている。特定の周波数帯域３０２についての（オフセット・パラメータを用いて割り当て包絡１３８をオフセットすることによって決定されうる）割り当てベクトルの値は、特定の周波数帯域３０２の前記一つまたは複数の係数量子化インデックスを決定するために使われた量子化器を示す。量子化器を同定したら、前記一つまたは複数の係数量子化インデックスは、逆量子化されて、量子化された誤差係数のブロック１４５を与えてもよい。

さらに、スペクトル・デコーダ５０２は、スケーリングされた量子化された誤差係数のブロック１４７を提供する逆再スケーリング・ユニット１１３を有していてもよい。図２３ｄの無損失デコーダ５５１および逆量子化器５５２のまわりの追加的なツールおよび相互接続は、図２３ａに示される全体的なデコーダ５００におけるその使用にスペクトル・デコードを適応させるために使われてもよい。ここで、スペクトル・デコーダ５０２の出力（すなわち量子化された誤差係数のブロック１４５）は、予測された平坦化領域ベクトルに（すなわち、推定された変換係数のブロック１５０）加算的補正を提供するために使われる。特に、追加的なツールは、デコーダ５００によって実行される処理がエンコーダ１００、１７０によって実行された処理に対応することを保証してもよい。

特に、スペクトル・デコーダ５０２は、ヒューリスティック・スケーリング・ユニット１１１を有していてもよい。エンコーダ１００、１７０との関連で示したように、ヒューリスティック・スケーリング・ユニット１１１はビット割り当てに対する影響をもつことがある。エンコーダ１００、１７０では、予測誤差係数の現在ブロック１４１が、ヒューリスティック規則によって分散1までスケール・アップされてもよい。結果として、デフォルトの割り当ては、ヒューリスティック・スケーリング・ユニット１１１の最終的なダウンスケーリングされた出力の細かすぎる量子化につながることがある。よって、割り当ては、予測誤差係数の修正と同様の仕方で修正されるべきである。

しかしながら、下記で概説するように、低周波数ビン（または低周波数帯域）の一つまたは複数についての符号化資源の低減を避けることが有益であることがある。特に、これは、実は有声状況において（すなわち、比較的大きな制御パラメータ１４６，rfuをもつ信号について）最も顕著であるLF（低周波数）ランブル／ノイズ・アーチファクトに対応するために有益であることがある。よって、後述する制御パラメータ１４６に依存したビット割り当て／量子化器選択は、「有声適応LF品質ブースト」と考えられてもよい。

スペクトル・デコーダは、rfuと名付けられる制御パラメータ１４６に依存してもよい。rfuは予測器利得gの制限されたバージョンであってもよく、たとえば
rfu＝min(1,max(g,0))
である。

制御パラメータ１４６を使って、エンコーダ１００、１７０の係数量子化ユニット１１２において使われるおよび逆量子化器５５２において使われる量子化器の集合が適応されてもよい。特に、量子化器の集合のノイズ性が、制御パラメータ１４６に基づいて適応されてもよい。例として、1に近い制御パラメータ１４６ rfuの値は、ディザリングされる量子化器を使って割り当てレベルの範囲の制限をトリガーしてもよく、ノイズ合成レベルの分散の低減をトリガーしてもよい。一例では、rfu＝0.75におけるディザ決定閾値および1−rfuに等しいノイズ利得が設定されてもよい。ディザ適応は、無損失デコードおよび逆量子化器の両方に影響しうる一方、ノイズ利得適応は典型的には逆量子化器のみに影響する。

予測器寄与は有声／トーン性状況について実質的であることが想定されてもよい。よって、比較的高い予測器利得g（すなわち、比較的高い制御パラメータ１４６）は有声またはトーン性の発話信号を示していてもよい。そのような状況では、ディザに関係したまたは明示的な（0割り当ての場合）ノイズの追加は、経験的に、エンコードされた信号の知覚される品質に対して逆効果であることが示されている。結果として、ディザリングされる量子化器３２２の数および／またはノイズ合成量子化器３２１のために使われるノイズの型は、予測器利得gに基づいて適応され、それによりエンコードされた発話信号の知覚される品質を改善してもよい。

よって、制御パラメータ１４６は、ディザリングされる量子化器３２２が使用されるSNRの範囲３２４、３２５を修正するために使われてもよい。例として、制御パラメータ１４６ rfu＜0.75である場合には、ディザリングされる量子化器の範囲３２４が使われてもよい。換言すれば、制御パラメータ１４６が所定の閾値より下であれば、量子化器の第一の集合３２６が使用されてもよい。他方、制御パラメータ１４６ rfu≧0.75であれば、ディザリングされる量子化器のための範囲３２５が使われてもよい。換言すれば、制御パラメータ１４６が前記所定の閾値以上であれば、量子化器の第二の集合３２７が使用されてもよい。

さらに、制御パラメータ１４６は、分散およびビット割り当ての修正のために使われてもよい。その理由は、典型的には、うまくいった予測では必要とされる補正も小さく、特に0〜1kHzの低周波数範囲ではそうであるということである。より高い周波数帯域３０２に符号化資源を解放するために、単位分散モデルからのこの逸脱を量子化器に明示的に知らせることが有利であることがありうる。

〈等価物、拡張、代替その他〉
上記の記述を吟味すれば、当業者には本発明のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、本発明はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本発明の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。

上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働していくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体（または非一時的な媒体）および通信媒体（または一時的な媒体）を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク（DVD）または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。
いくつかの態様を記載しておく。
〔態様１〕
オーディオ・ビットストリームを受け入れるよう構成されたオーディオ処理システム（図１、１００）であって：
フロントエンド・コンポーネントであって：
・量子化されたスペクトル係数を受領し、中間信号の第一の周波数領域表現を出力するよう適応された量子化解除段；および
・前記中間信号の前記第一の周波数領域表現を受領し、それに基づいて前記中間信号の時間領域表現を合成する逆変換段を含む、
フロントエンド・コンポーネントと；
処理段であって：
・前記中間信号の前記時間領域表現を受領し、前記中間信号の第二の周波数領域表現を出力する分解フィルタバンク；
・前記中間信号の前記第二の周波数領域表現を受領して処理されたオーディオ信号の周波数領域表現を出力する少なくとも一つの処理コンポーネント；および
・前記処理されたオーディオ信号の前記周波数領域表現を受領し、前記処理されたオーディオ信号の時間領域表現を出力する合成フィルタバンクを含む、
処理段と；
サンプル・レート変換器であって、前記処理されたオーディオ信号の前記時間領域表現を受領し、ターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を出力するサンプル・レート変換器とを有し、
前記中間オーディオ信号の前記時間領域表現および前記処理されたオーディオ信号の前記時間領域表現のそれぞれの内部サンプリング・レートは等しい、
オーディオ処理システム。
〔態様２〕
前記フロントエンド・コンポーネントが、オーディオ・モードおよび該オーディオ・モードとは異なる声モードで動作可能である、態様１記載のオーディオ処理システム。
〔態様３〕
前記フロントエンド・コンポーネントの前記オーディオ・モードから前記声モードへのモード変化は前記逆変換段の最大フレーム長を短縮することを含む、態様２記載のオーディオ処理システム。
〔態様４〕
前記少なくとも一つの処理コンポーネントが：
M個のチャネルをもつダウンミックス信号を受領し、それに基づいてN個のチャネルをもつ信号を出力するパラメトリック・アップミックス段であって、少なくとも、1≦M＜Nであるモードおよび1≦M＝Nであるモードにおいて動作可能である、パラメトリック・アップミックス段と；
前記処理段が一定の総合遅延をもつために前記パラメトリック・アップミックス段の現在モードを補償するよう構成された第一の遅延段とを含む、
態様１ないし３のうちいずれか一項記載のオーディオ処理システム。
〔態様５〕
前記処理段に並列に配置され、前記処理段の一定の前記総合遅延に等しい遅延を受けるよう構成された第二の遅延段を有するバイパス・ラインをさらに有する、態様４記載のオーディオ処理システム。
〔態様６〕
前記パラメトリック・アップミックス段がさらに、少なくとも、M＝3かつN＝5であるモードで動作可能である、態様４または５記載のオーディオ処理システム。
〔態様７〕
前記フロントエンド・コンポーネントが、M＝3かつN＝5である前記パラメトリック・アップミックス段のモードにおいて、ダウンミックス信号を含む中間信号を与えるよう構成されており、前記フロントエンド・コンポーネントは、前記オーディオ・ビットストリーム中の合同符号化されたチャネルから前記M＝3個のチャネルのうちの二つのチャネルを導出する、態様６記載のオーディオ処理システム。
〔態様８〕
前記少なくとも一つの処理コンポーネントがさらに、前記パラメトリック・アップミックス段の上流に配置され、高周波数内容を再構成するよう動作可能なスペクトル帯域複製モジュールをさらに含み、前記スペクトル帯域複製モジュールは
・少なくとも、前記パラメトリック・アップミックス段のM＜Nであるモードにおいてアクティブであるよう構成され、
・前記パラメトリック・アップミックス段がM＝Nであるモードのいずれかにあるときは前記パラメトリック・アップミックス段の現在モードとは独立に動作可能である、
態様４ないし７のうちいずれか一項記載のオーディオ処理システム。
〔態様９〕
前記少なくとも一つの処理コンポーネントがさらに、前記パラメトリック・アップミックス段と並列にまたは前記パラメトリック・アップミックス段の下流に配置され、前記N個のチャネルのそれぞれを波形符号化された低周波数内容で補強するよう動作可能な波形符号化段（図８、２１４）を含み、前記波形符号化段は、前記パラメトリック・アップミックス段および前記スペクトル帯域複製モジュールの現在モードとは独立にアクティブ化可能かつ非アクティブ化可能である、態様８記載のオーディオ処理システム。
〔態様１０〕
少なくとも、前記パラメトリック・アップミックス段がM＞2であるM＝Nモードにあるデコード・モードにおいて動作可能である、態様９記載のオーディオ処理システム。
〔態様１１〕
少なくとも次のデコード・モード、すなわち：
ｉ）パラメトリック・アップミックス段がM＝N＝1モードにある；
ｉｉ）パラメトリック・アップミックス段がM＝N＝1モードにあり、スペクトル帯域複製モジュールがアクティブ；
ｉｉｉ）パラメトリック・アップミックス段がM＝1、N＝2モードにあり、スペクトル帯域複製モジュールがアクティブ；
ｉｖ）パラメトリック・アップミックス段がM＝1、N＝2モードにあり、スペクトル帯域複製モジュールがアクティブであり、波形符号化段がアクティブ；
ｖ）パラメトリック・アップミックス段がM＝2、N＝5モードにあり、スペクトル帯域複製モジュールがアクティブ；
ｖｉ）パラメトリック・アップミックス段がM＝2、N＝5モードにあり、スペクトル帯域複製モジュールがアクティブであり、波形符号化段がアクティブ；
ｖｉｉ）パラメトリック・アップミックス段がM＝3、N＝5モードにあり、スペクトル帯域複製モジュールがアクティブ；
ｖｉｉｉ）パラメトリック・アップミックス段がM＝N＝2モードにある；
ｉｘ）パラメトリック・アップミックス段がM＝N＝2モードにあり、スペクトル帯域複製モジュールがアクティブ；
ｘ）パラメトリック・アップミックス段がM＝N＝7モードにある；
ｘｉ）パラメトリック・アップミックス段がM＝N＝7モードにあり、スペクトル帯域複製モジュールがアクティブ
において動作可能な態様１０記載のオーディオ処理システム。
〔態様１２〕
前記処理段の下流に配置された次のコンポーネント、すなわち
少なくとも一つのチャネルがサラウンド・チャネルを表わす前記処理されたオーディオ信号の前記時間領域表現を受領し、前記少なくとも一つのサラウンド・チャネルに対して90度の位相シフトを実行するよう構成された位相シフト・コンポーネント；および
前記位相シフト・コンポーネントから前記処理されたオーディオ信号を受領し、それに基づいて二つのチャネルをもつダウンミックス信号を出力するよう構成されたダウンミックス・コンポーネント
をさらに有する、態様１ないし１１のうちいずれか一項記載のオーディオ処理システム。
〔態様１３〕
前記フロントエンド・コンポーネントが：
再構成された変換係数の一つまたは複数の以前のブロック（図２３ａ、１４９）に基づき、かつ前記ビットストリームから導出された一つまたは複数の予測器パラメータ（図２３ａ、５２０）に基づいて、推定された平坦化された変換係数の現在ブロック（図２３ａ、１５０）を決定するよう構成されている予測器（図２３ａ、５１７）と；
所定の量子化器の集合（図２２、３２６、３２７）を使って前記ビットストリーム内に含まれる係数データ（図２３ａ、１６３）に基づいて、量子化された予測誤差係数の現在ブロック（図１７ａ、１４７）を決定するよう構成されたスペクトル・デコーダであって、前記スペクトル・デコーダは前記一つまたは複数の予測器パラメータに依存して所定の量子化器の前記集合を決定するよう構成されている、スペクトル・デコーダ（図２３ａ、５０２）と；
推定された平坦化された変換係数の前記現在ブロック（図２３ａ、１５０）に基づき、かつ量子化された予測誤差係数の前記現在ブロック（図２３ａ、１４７）に基づいて、再構成された平坦化された変換係数の現在ブロック（図２３ａ、１４８）を決定するよう構成された加算ユニット（図２３ａ、１１６）と；
現在ブロック包絡（図２３ｂ、１３６）を使って、再構成された平坦化された変換係数の前記現在ブロックにスペクトル形状を与えることによって、再構成された変換係数の現在ブロック（図２３ａ、１４９）を決定するよう構成された逆平坦化ユニット（図２３ａ、１１４）とをさらに含み、前記再構成された発話信号は再構成された変換係数の前記現在ブロックに基づいて決定される、
態様１ないし１２のうちいずれか一項記載のオーディオ処理システム。
〔態様１４〕
前記オーディオ・ビットストリームに基づいて少なくとも一つの追加的チャネルを用意し、前記追加的チャネルを前記再構成されたオーディオ信号に含めるよう構成されたLfeデコーダをさらに有する、態様１ないし１３のうちいずれか一項記載のオーディオ処理システム。
〔態様１５〕
オーディオ・ビットストリームを処理する方法であって：
量子化されたスペクトル係数を受領し、周波数から時間への変換が後続する逆量子化を実行し、それにより中間オーディオ信号の表現が得られる、段階と；
前記中間オーディオ信号に対して周波数領域において少なくとも一つの処理ステップを実行する段階と；
処理されたオーディオ信号のサンプリング・レートをターゲット・サンプリング周波数に変え、それにより再構成されたオーディオ信号の時間領域表現が得られる、段階とを含み、
前記中間オーディオ信号の前記時間領域表現および前記処理されたオーディオ信号の前記時間領域表現のそれぞれの内部サンプリング・レートは等しく、
前記逆量子化および／または周波数から時間への変換は、少なくともオーディオ・モードおよび声モードで動作可能なハードウェア・コンポーネントにおいて実行され、現在モードは前記量子化されたスペクトル係数に関連付けられたメタデータに従って選択される、
方法。
〔態様１６〕
態様１５記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。

Claims

オーディオ・ビットストリームを受け入れるよう構成されたオーディオ処理システムであって：
前記ビットストリームを受領して量子化されたスペクトル係数を出力するよう適応されたデコーダと；
フロントエンド・コンポーネントであって：
・前記量子化されたスペクトル係数を受領し、中間信号の第一の周波数領域表現を出力するよう適応された量子化解除段；および
・前記中間信号の前記第一の周波数領域表現を受領し、それに基づいて前記中間信号の時間領域表現を合成する逆変換段を含む、
フロントエンド・コンポーネントと；
処理段であって：
・前記中間信号の前記時間領域表現を受領し、前記中間信号の第二の周波数領域表現を出力する分解フィルタバンク；
・前記中間信号の前記第二の周波数領域表現を受領して処理されたオーディオ信号の周波数領域表現を出力する少なくとも一つの処理コンポーネント；および
・前記処理されたオーディオ信号の前記周波数領域表現を受領し、前記処理されたオーディオ信号の時間領域表現を出力する合成フィルタバンクを含む、
処理段と；
サンプル・レート変換器であって、前記処理されたオーディオ信号の前記時間領域表現を受領し、ターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を出力するサンプル・レート変換器とを有し、
前記中間オーディオ信号の前記時間領域表現および前記処理されたオーディオ信号の前記時間領域表現のそれぞれの内部サンプリング・レートは等しく、
前記少なくとも一つの処理コンポーネントが：
M個のチャネルをもつダウンミックス信号を受領し、それに基づいてN個のチャネルをもつ信号を出力するパラメトリック・アップミックス段であって、少なくとも、1≦M＜Nである、遅延が付随するモードおよび1≦M＝Nであるモードにおいて動作可能である、パラメトリック・アップミックス段と；
前記処理段が前記パラメトリック・アップミックス段の現在の動作モードとは独立に一定の総合遅延をもつために、前記パラメトリック・アップミックス段が1≦M＝Nのモードのとき、1≦M＜Nであるモードに付随する前記遅延を補償するよう、遅延を受けるように構成された第一の遅延段とを含む、
オーディオ処理システム。
前記フロントエンド・コンポーネントが、オーディオ・モードおよび声固有モードで動作可能であり、前記フロントエンド・コンポーネントの前記オーディオ・モードから前記声固有モードへのモード変化は前記逆変換段の最大フレーム長を短縮することを含む、請求項１記載のオーディオ処理システム。
前記サンプル・レート変換器が、前記処理されたオーディオ信号の前記時間領域表現の内部サンプリング・レートから高々5%異なるターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を与えるよう動作可能である、請求項２記載のオーディオ処理システム。
前記処理段に並列に配置され、前記処理段の一定の前記総合遅延に等しい遅延を受けるよう構成された第二の遅延段を有するバイパス・ラインをさらに有する、請求項１ないし３のうちいずれか一項記載のオーディオ処理システム。
前記パラメトリック・アップミックス段がさらに、少なくとも、M＝3かつN＝5であるモードで動作可能である、請求項１ないし４のうちいずれか一項記載のオーディオ処理システム。
前記フロントエンド・コンポーネントが、M＝3かつN＝5である前記パラメトリック・アップミックス段のモードにおいて、ダウンミックス信号を含む中間信号を与えるよう構成されており、前記フロントエンド・コンポーネントは、前記M＝3個のチャネルのうちの二つのチャネルを前記オーディオ・ビットストリーム中の合同符号化されたチャネルから導出する、請求項５記載のオーディオ処理システム。
前記少なくとも一つの処理コンポーネントがさらに、前記パラメトリック・アップミックス段の上流に配置され、高周波数内容を再構成するよう動作可能なスペクトル帯域複製モジュールをさらに含み、前記スペクトル帯域複製モジュールは
・少なくとも、前記パラメトリック・アップミックス段のM＜Nであるモードにおいてアクティブであるよう構成され、
・前記パラメトリック・アップミックス段がM＝Nであるモードのいずれかにあるときは前記パラメトリック・アップミックス段の現在モードとは独立に動作可能である、
請求項１ないし６のうちいずれか一項記載のオーディオ処理システム。
前記少なくとも一つの処理コンポーネントがさらに、前記パラメトリック・アップミックス段と並列にまたは前記パラメトリック・アップミックス段の下流に配置され、前記N個のチャネルのそれぞれを波形符号化された低周波数内容で補強するよう動作可能な波形符号化段を含み、前記波形符号化段は、前記パラメトリック・アップミックス段および前記スペクトル帯域複製モジュールの現在モードとは独立にアクティブ化可能かつ非アクティブ化可能である、請求項７記載のオーディオ処理システム。
少なくとも、前記パラメトリック・アップミックス段がM＞2であるM＝Nモードにあるデコード・モードにおいて動作可能である、請求項８記載のオーディオ処理システム。
少なくとも次のデコード・モード、すなわち：
ｉ）パラメトリック・アップミックス段がM＝N＝1モードにある；
ｉｉ）パラメトリック・アップミックス段がM＝N＝1モードにあり、スペクトル帯域複製モジュールがアクティブ；
ｉｉｉ）パラメトリック・アップミックス段がM＝1、N＝2モードにあり、スペクトル帯域複製モジュールがアクティブ；
ｉｖ）パラメトリック・アップミックス段がM＝1、N＝2モードにあり、スペクトル帯域複製モジュールがアクティブであり、波形符号化段がアクティブ；
ｖ）パラメトリック・アップミックス段がM＝2、N＝5モードにあり、スペクトル帯域複製モジュールがアクティブ；
ｖｉ）パラメトリック・アップミックス段がM＝2、N＝5モードにあり、スペクトル帯域複製モジュールがアクティブであり、波形符号化段がアクティブ；
ｖｉｉ）パラメトリック・アップミックス段がM＝3、N＝5モードにあり、スペクトル帯域複製モジュールがアクティブ；
ｖｉｉｉ）パラメトリック・アップミックス段がM＝N＝2モードにある；
ｉｘ）パラメトリック・アップミックス段がM＝N＝2モードにあり、スペクトル帯域複製モジュールがアクティブ；
ｘ）パラメトリック・アップミックス段がM＝N＝7モードにある；
ｘｉ）パラメトリック・アップミックス段がM＝N＝7モードにあり、スペクトル帯域複製モジュールがアクティブ
において動作可能な請求項９記載のオーディオ処理システム。
前記処理段の下流に配置された次のコンポーネント、すなわち
少なくとも一つのチャネルがサラウンド・チャネルを表わす前記処理されたオーディオ信号の前記時間領域表現を受領し、前記少なくとも一つのサラウンド・チャネルに対して90度の位相シフトを実行するよう構成された位相シフト・コンポーネント；および
前記位相シフト・コンポーネントから前記処理されたオーディオ信号を受領し、それに基づいて二つのチャネルをもつダウンミックス信号を出力するよう構成されたダウンミックス・コンポーネント
をさらに有する、請求項１ないし１０のうちいずれか一項記載のオーディオ処理システム。
前記オーディオ・ビットストリームに基づいて少なくとも一つの追加的チャネルを用意し、前記追加的チャネルを前記再構成されたオーディオ信号に含めるよう構成されたLfeデコーダをさらに有する、請求項１ないし１１のうちいずれか一項記載のオーディオ処理システム。
オーディオ・ビットストリームを処理する方法であって：
前記ビットストリームに基づいて量子化されたスペクトル係数を提供する段階と；
前記量子化されたスペクトル係数を受領し、周波数から時間への変換が後続する逆量子化を実行し、それにより中間オーディオ信号の時間領域表現が得られる、段階と；
前記中間オーディオ信号の前記時間領域表現に基づいて前記中間オーディオ信号の周波数領域表現を提供する段階と；
前記中間オーディオ信号の前記周波数領域表現に対して少なくとも一つの処理ステップを実行することによって、処理されたオーディオ信号の周波数領域表現を提供する段階と；
前記処理されたオーディオ信号の前記周波数領域表現に基づいて、前記処理されたオーディオ信号の時間領域表現を提供する段階と；
前記処理されたオーディオ信号の前記時間領域表現のサンプリング・レートをターゲット・サンプリング周波数に変え、それにより再構成されたオーディオ信号が得られる、段階とを含み、
前記中間オーディオ信号の前記時間領域表現および前記処理されたオーディオ信号の前記時間領域表現のそれぞれの内部サンプリング・レートは等しく、
当該方法はさらに：
前記少なくとも一つの処理コンポーネントが：
少なくとも、1≦M＜Nである、遅延が付随するモードおよび1≦M＝Nであるモードのうちから現在モードを決定する段階を含み、
前記少なくとも一つの処理ステップは：
M個のチャネルをもつダウンミックス信号を受領し、それに基づいてN個のチャネルをもつ信号を出力し；
前記処理ステップの総合遅延が前記現在モードとは独立に一定であるために、前記現在モードが1≦M＝Nのモードであることに応答して、1≦M＜Nであるモードに付随する前記遅延を補償する遅延を受けることを含む、
方法。
前記逆量子化および／または周波数から時間への変換は、少なくともオーディオ・モードおよび声固有モードで動作可能なハードウェア・コンポーネントにおいて実行され、現在モードは前記量子化されたスペクトル係数に関連付けられたメタデータに従って選択され、前記オーディオ・モードから前記声固有モードへのモード変化は前記周波数から時間への変換の最大フレーム長を短縮することを含む、請求項１３記載の方法。
請求項１３または１４記載の方法をコンピュータに実行するためのコンピュータ・プログラム。