JP2011503653A

JP2011503653A - スケーラブルなスピーチおよびオーディオコーデックにおける、量子化ｍｄｃｔスペクトルに対するコードブックインデックスのエンコーディング／デコーディングのための技術

Info

Publication number: JP2011503653A
Application number: JP2010533189A
Authority: JP
Inventors: レズニク、ユリー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2007-11-04
Filing date: 2008-11-04
Publication date: 2011-01-27
Anticipated expiration: 2028-11-04
Also published as: KR20100086031A; CN101849258B; TW200935403A; TWI405187B; WO2009059333A1; EP2220645A1; MX2010004823A; US20090240491A1; US8515767B2; KR101139172B1; CA2703700A1; AU2008318328A1; RU2437172C1; CN101849258A; IL205375A0; JP5722040B2

Abstract

スケーラブルなスピーチおよびオーディオコーデックに対するコードブックインデックスが、そのようなコードブックインデックスに対して予期される確率分布に基づいて、効率的にエンコードされる。コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの残差信号が取得されてもよく、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である。残差信号は、離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて変換されて、対応する変換スペクトルが取得されてもよい。変換スペクトルは複数のスペクトル帯域に分割され、各スペクトル帯域は、複数のスペクトル線を有する。複数の異なるコードブックがスペクトル帯域をエンコードするために選択され、各コードブックは、コードブックインデックスに関係付けられている。

Description

合衆国法典第３５部第１１９条に基づく優先権の主張

特許に対する本出願は、２００７年１１月４日に出願され、本出願の譲受人に譲渡され、参照により明白にここに組み込まれている、“スケーラブルなスピーチ＋オーディオコーデックにおける、量子化ＭＤＣＴスペクトルのエンコーディング／デコーディングに対する低複雑さの技術”と題する米国仮出願第６０／９８５，２６３号に対する優先権を主張する。

分野

以下の記述は一般に、エンコーダおよびデコーダに関し、より詳細には、スケーラブルなスピーチおよびオーディオコーデックの一部として修正離散コサイン変換（ＭＤＣＴ）スペクトルをコード化する効率的な方法に関する。

背景

オーディオコード化の１つの目標は、できるだけ元のサウンド品質を保持しながら、オーディオ信号を所望の制限された情報量に圧縮することである。エンコーディングプロセスにおいて、時間領域におけるオーディオ信号は、周波数領域に変換される。

ＭＰＥＧレイヤ−３（ＭＰ３）、ＭＰＥＧ−２およびＭＰＥＧ−４のような知覚オーディオコード化技術は、データ量を低減させるために、人間の耳の信号マスキング特性を利用する。そうすることによって、量子化雑音は、優勢な全信号によってかき消されるような、すなわち、聞こえないままであるような方法で、周波数帯域に分配される。オーディオ品質の知覚可能な損失をほとんどまたはまったく伴わずに、かなりの記憶装置のサイズの低減が可能である。知覚オーディオコード化技術は、スケーラブルであることが多く、ベースまたはコアレイヤと、少なくとも１つの拡張レイヤとを有する階層化されたビットストリームを生成させる。これは、ビットレートのスケーラビリティ、すなわち、デコーダ側において異なるオーディオ品質レベルでデコードすること、または、トラフィックシェーピングまたはトラフィックコンディショニングによって、ネットワークにおいてビットレートを低減させることを可能にする。

コード励振線形予測（ＣＥＬＰ）は、代数ＣＥＬＰ（ＡＣＥＬＰ）、リラックスＣＥＬＰ（ＲＣＥＬＰ）、低遅延（ＬＤ−ＣＥＬＰ）およびベクトル和励振線形予測（ＶＳＥＬＰ）を含むアルゴリズムのクラスであり、スピーチコード化のために広く使用されている。ＣＥＬＰの背景にある１つの原理は、合成による分析（ＡｂＳ）と呼ばれており、エンコーディング（分析）が、閉ループにおいてデコードされた（合成）信号を知覚的に最適化することによって実行されることを意味する。理論上は、最良のＣＥＬＰストリームは、すべての可能性のあるビットの組み合せを試み、かつ、最良の響きのデコード信号を生成させる１つを選択することによって、生成される。これは、明らかに、２つの理由から実際には可能でない：実現するのに非常に複雑であり、“最良の響き”の選択基準が、人間のリスナーを含意する。限定された計算リソースを使用してリアルタイムのエンコーディングを達成するために、ＣＥＬＰサーチは、知覚的重み付け関数を使用して、より小さく扱いやすい逐次サーチに分解される。通常、エンコーディングは、（ａ）入力オーディオ信号に対して、線形予測コード化係数を（通常、線スペクトル対として）計算および／または量子化することと、（ｂ）コードブックを使用して、ベストマッチをサーチして、コード化された信号を発生させることと、（Ｃ）コード化信号と、真の入力信号との間の差である誤差信号を生成させることと、（ｄ）さらに、１つ以上のレイヤにおいて（通常、ＭＤＣＴスペクトルにおける）そのような誤差信号をエンコードして、再構成された、または合成された信号の品質を向上させることとを含む。

ＣＥＬＰアルゴリズムに基づいてスピーチおよびオーディオコーデックを実現するのに多くの異なる技術が利用可能である。これらの技術のうちのいくつかにおいて、誤差信号が発生され、その後、（通常、ＤＣＴ、ＭＤＣＴ、または類似の変換を使用して）変換され、エンコードされて、エンコードされた信号の品質がさらに改善される。しかしながら、多くの移動デバイスおよびネットワークの、処理および帯域幅の制限により、そのようなＭＤＣＴスペクトルコード化の効率的な構成は、記憶または送信される情報のサイズを低減させることが望ましい。

概要

いくつかの実施形態の基本的な理解を提供するために、以下の記述は、１つ以上の実施形態の単純化した概要を与える。この概要は、考えられるすべての実施形態の広範な概観ではなく、すべての実施形態の主なまたは重要な要素を識別するようにも、いくつかのまたはすべての実施形態の範囲を詳細に描写するようにも向けられていない。その唯一の目的は、後に与えられるより詳細な説明に対するプレリュードとして、単純化した形態で１つ以上の実施形態のいくつかの概念を与えることである。

１つの例において、スケーラブルなスピーチおよびオーディオエンコーダを提供する。コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号が取得され、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である。残差信号は、離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて変換されて、対応する変換スペクトルが取得されてもよい。ＤＣＴタイプの変換レイヤは、修正離散コサイン変換（ＭＤＣＴ）レイヤであり、変換スペクトルは、ＭＤＣＴスペクトルである。変換スペクトルは、複数のスペクトル帯域に分割されてもよく、各スペクトル帯域は、複数のスペクトル線を有する。いくつかの構成において、エンコードすることに先立って、１組のスペクトル帯域を落として、スペクトル帯域の数を低減させてもよい。複数の異なるコードブックが、スペクトル帯域をエンコードするために選択され、コードブックは、関連付けられたコードブックインデックスを有する。ベクトル量子化が、選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対して実行されて、ベクトル量子化インデックスが取得される。

コードブックインデックスはエンコードされ、ベクトル量子化インデックスもまた、エンコードされる。１つの例において、コードブックインデックスをエンコードすることは、少なくとも２つの隣接スペクトル帯域を、隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含んでもよい。少なくとも２つの隣接スペクトル帯域をエンコードすることは、（ａ）スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、（ｂ）スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、および／または、（ｃ）各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含んでもよい。第１の記述子成分と第２の記述子成分とをペアでエンコードして、ペアワイズ記述子コードを取得する。ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード（ＶＬＣ）のうちの１つにマッピングしてもよい。オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、ＶＬＣコードブックが、記述子成分の各ペアに割り当てられてもよい。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。単一の記述子成分が、値ｋよりも大きいコードブックインデックスに対して利用されてもよく、拡張コード成分が、値ｋよりも大きいコードブックインデックスに対して利用される。１つの例において、各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスは、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。

エンコード化されたコードブックインデックスとエンコード化されたベクトル量子化インデックスとのビットストリームが形成されて、量子化変換スペクトルが表される。

スケーラブルなスピーチおよびオーディオデコーダも提供する。複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームが取得され、残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である。複数のエンコードされたコードブックインデックスがデコードされて、複数のスペクトル帯域に対するデコードされたコードブックインデックスが取得される。同様に、複数のエンコードされたベクトル量子化インデックスもデコードされて、複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスが取得される。デコードされたコードブックインデックスと、デコードされたベクトル量子化インデックスとを使用して、複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、残差信号の再構成されたバージョンを取得できる。ＩＤＣＴタイプの変換レイヤは、逆修正離散コサイン変換（ＩＭＤＣＴ）レイヤであり、変換スペクトルは、ＩＭＤＣＴスペクトルである。

複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表されてもよい。ペアワイズ記述子コードは、隣接スペクトル帯域の量子化された特性の確率分布に基づいていてもよい。ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード（ＶＬＣ）のうちの１つにマッピングする。オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、ＶＬＣコードブックが、記述子成分の各ペアに割り当てられる。

１つの例において、複数のエンコードされたコードブックインデックスをデコードすることは、（ａ）複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、（ｂ）複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、（ｃ）記述子成分と、拡張コード成分とに基づいて、複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、および／または、（ｄ）コードブックインデックスを利用して、複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含んでもよい。記述子成分は、可能性のあるコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられていてもよく、選択されることに関してより大きい確率を有するコードブックインデックスは、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。単一の記述子成分は、値ｋよりも大きいコードブックインデックスに対して利用されてもよく、拡張コード成分は、値ｋよりも大きいコードブックインデックスに対して利用される。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。

同一の参照文字が全体を通して対応したものを識別している図面を参照すると、以下で示される詳細な説明から様々な特徴、特質、および利点が明白となろう。

図１は、１つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。図２は、１つの例にしたがって、効率的なオーディオコード化を実行するように構成されていてもよい送信デバイスを図示するブロック図である。図３は、１つの例にしたがって、効率的なオーディオデコーディングを実行するように構成されていてもよい受信デバイスを図示するブロック図である。図４は、１つの例にしたがった、スケーラブルなエンコーダのブロック図である。図５は、エンコーダのより高いレイヤによって実現されてもよい、例示的なＭＤＣＴスペクトルエンコーディングプロセスを図示するブロック図である。図６は、ＭＤＣＴスペクトルのエンコーディングを容易にするために、ＭＤＣＴスペクトルオーディオフレームが複数のｎポイント帯域（またはサブベクトル）に分割される方法を図示する図である。図７は、ＭＤＣＴ埋め込み代数ベクトル量子化（ＥＡＶＱ）コードブックインデックスのエンコーディングを実行するエンコーディングアルゴリズムの１つの例を説明するフロー図である。図８は、スケーラブルなスピーチおよびオーディオコーデックのためのエンコーダを図示するブロック図である。図９は、複数のスペクトル帯域をエンコードするペアワイズ記述子コードを取得する方法の例を説明するブロック図である。図１０は、確率分布に基づいて、コードブックと記述子との間のマッピングを発生させる方法の例を説明するブロック図である。図１１は、記述子値を発生させる方法の例を図示するブロック図である。図１２は、スペクトル帯域に対する複数の記述子の確率分布に基づいて、ペアワイズ記述子コードへの記述子ペアのマッピングを発生させる方法の例を説明するブロック図である。図１３は、デコーダの例を図示するブロック図である。図１４は、ペアワイズ記述子コードを効率的にデコードしてもよいデコーダを図示するブロック図である。図１５は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を説明するブロック図である。

詳細な説明

図面に関連して、さまざまな実施形態をこれから記述し、全体を通して同じ要素に言及するために、同じ参照番号を使用する。以下の記述において、説明のため、１つ以上の実施形態の完全な理解を提供するために、多数の特定の詳細な説明を述べる。しかしながら、これらの特定の詳細な説明なしに、そのような実施形態を実施できることは明白であるかもしれない。他の例において、１つ以上の実施形態を記述することを容易にするために、よく知られている構造およびデバイスをブロック図の形態で示す。

概観
コード化の複数のレイヤを使用して、オーディオ信号を反復的にエンコードする、オーディオ信号をエンコード／デコードするためのスケーラブルなコーデックにおいて、修正離散コサイン変換が、１つ以上のコード化レイヤにおいて使用され、オーディオ信号の残差がエンコーディングのために（例えば、ＭＤＣＴ領域に）変換される。ＭＤＣＴ領域において、スペクトル線のフレームを複数の帯域に分割してもよい。各スペクトル帯域は、コードブックインデックスによって効率的にエンコードされてもよい。コードブックインデックスは、拡張コードを有する小さい組の記述子にさらにエンコードされてもよく、隣接スペクトル帯域に対する記述子は、ペアワイズ記述子コードにさらにエンコードされてもよく、ペアワイズ記述子コードは、いくつかのコードブックインデックスおよび記述子が他よりも高い確率分布を有することを認識する。さらに、コードブックインデックスは、変換スペクトル内の対応するスペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいてエンコードされる。

１つの例において、１組の埋め込み代数ベクトル量子化器（ＥＡＶＱ）が、ＭＤＣＴスペクトルのｎポイント帯域のコード化に対して使用される。ベクトル量子化器は、各ｎポイント帯域をエンコードするために使用されるレートおよびコードブック番号を規定するインデックスに、損失なく圧縮されてもよい。コードブックインデックスは、１組の文脈選択可能ハフマンコードを使用してさらにエンコードされてもよく、１組の文脈選択可能ハフマンコードは、隣接スペクトル帯域に対するペアワイズコードブックインデックスを表す。インデックスの大きな値に対して、さらなる単進コード化拡張をさらに使用して、コードブックインデックスを表す記述子値を表わしてもよい。

通信システム
図１は、１つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。コーダ１０２は、到来する入力オーディオ信号１０４を受け取り、エンコードされたオーディオ信号１０６を発生させる。エンコードされたオーディオ信号１０６は、（例えば、ワイヤレスまたはワイヤードの）送信チャネルを通してデコーダ１０８に送信される。デコーダ１０８は、エンコードされたオーディオ信号１０６に基づいて入力オーディオ信号１０４を再構成することを試みて、再構成された出力オーディオ信号１１０を発生させる。説明のために、コーダ１０２は、送信デバイス上で動作してもよく、一方、デコーダデバイスは、受信デバイス上で動作してもよい。しかしながら、そのようなデバイスは、エンコーダおよびデコーダの両方を含んでいてもよいことが明白であるはずである。

図２は、１つの例にしたがって、効率的なオーディオコード化を実行するように構成されている送信デバイス２０２を図示するブロック図である。入力オーディオ信号２０４が、マイクロフォン２０６によって取り込まれ、増幅器２０８によって増幅され、Ａ／Ｄコンバータ２１０によってデジタル信号に変換され、デジタル信号は、スピーチエンコーディングモジュール２１２に送られる。スピーチエンコーディングモジュール２１２は、入力信号の多層の（スケーリングされた）コード化を実行するように構成されており、少なくとも１つのそのようなレイヤは、ＭＤＣＴスペクトルにおける残差（誤差信号）をエンコードすることを伴う。スピーチエンコーディングモジュール２１２は、図４、５、６、７、８、９および１０に関して説明するようにエンコーディングを実行してもよい。スピーチエンコーディングモジュール２１２からの出力信号は、送信パスエンコーディングモジュール２１４に送られ、そこでは、チャネルデコーディングが実行され、結果として生じる出力信号が、変調回路２１６に送られて変調されて、Ｄ／Ａコンバータ２１８およびＲＦ増幅器２２０を介して、エンコードされたオーディオ信号２２４の送信のためにアンテナ２２２に送られる。

図３は、１つの例にしたがって、効率的なオーディオデコーディングを実行するように構成されていてもよい受信デバイス３０２を図示するブロック図である。エンコードされたオーディオ信号３０４が、アンテナ３０６によって受信され、ＲＦ増幅器３０８によって増幅され、Ａ／Ｄコンバータ３１０を介して復調回路３１２に送られ、それにより、復調された信号が、送信パスデコーディングモジュール３１４に提供される。送信パスデコーディングモジュール３１４からの出力信号は、入力信号の多層の（スケーリングされた）デコーディングを実行するように構成されているスピーチデコーディングモジュール３１６に送られ、ここで、少なくとも１つのそのようなレイヤは、ＩＭＤＣＴスペクトルにおける残差（誤差信号）をデコードすることを伴う。スピーチデコーディングモジュール３１６は、図１１、１２および１３に関して説明したような信号デコーディングを実行してもよい。スピーチデコーディングモジュール３１６からの出力信号は、Ｄ／Ａコンバータ３１８に送られる。Ｄ／Ａコンバータ３１８からのアナログスピーチ信号は、増幅器３２０を介してスピーカ３２２に送られて、再構成された出力オーディオ信号３２４が提供される。

スケーラブルなオーディオコーデックアーキテクチャ
コーダ１０２（図１）、デコーダ１０８（図１）、スピーチ／オーディオエンコーディングモジュール２１２（図２）および／またはスピーチ／オーディオデコーディングモジュール３１６（図３）は、スケーラブルなオーディオコーデックとして実現されてもよい。そのようなスケーラブルなオーディオコーデックは、高品質の、配信されるエンコードされた狭帯域スピーチ信号または広帯域オーディオ／音楽信号をともなう、誤りをこうむりやすい電気通信チャネルに対して、高性能広帯域スピーチコード化を提供するように実現されていてもよい。スケーラブルなオーディオコーデックに対する１つのアプローチは、反復的エンコーディングレイヤを提供することであり、１つのレイヤからの誤差信号（残差）が、後続のレイヤにおいてエンコードされて、前のレイヤにおいてエンコードされたオーディオ信号がさらに改善される。例えば、コードブック励振線形予測（ＣＥＬＰ）は、異なる励振信号のコードブックがエンコーダおよびデコーダ上で維持される線形予測コード化の概念に基づいている。エンコーダは、最も適切な励振信号を見つけ、（固定型の代数コードブック、および／または適応型コードブックから）その対応するインデックスをデコーダに送り、デコーダは次に、それを使用して、（コードブックに基づいて）信号を再生する。エンコーダは、オーディオ信号をエンコードし、次にデコードすることによって、合成による分析を実行して、再構成された、または合成されたオーディオ信号を生成する。エンコーダは次に、誤差信号の、すなわち、元のオーディオ信号と、再構成された、または、合成されたオーディオ信号との間の差の、エネルギーを最小にするパラメータを見つける。出力ビットレートは、より多いまたはより少ないコード化レイヤを使用することによって調整して、チャネル要求および所望のオーディオ品質を満たすことができる。そのようなスケーラブルなオーディオコーデックは、いくつかのレイヤを含んでいてもよく、より低いレイヤのデコーディングに影響を及ぼすことなく、より高いレイヤのビットストリームを廃棄できる。

そのような多層アーキテクチャを使用する既存のスケーラブルなコーデックの例は、ＩＴＵ−Ｔ勧告Ｇ．７２９．１と、新生のＩＴＵ−Ｔ標準規格と、コード名がつけられたＧ．ＥＶ−ＶＢＲとを含む。例えば、エンベデッド可変ビットレート（ＥＶ−ＶＢＲ）コーデックは、複数のレイヤＬ１（コアレイヤ）ないしＬＸ（ここで、Ｘは、最も高い拡張レイヤの番号である）として実現してもよい。そのようなコーデックは、１６ｋＨｚでサンプリングされた広帯域（ＷＢ）信号と、８ｋＨｚでサンプリングされた狭帯域（ＮＢ）信号との両方を受け入れてもよい。同様に、コーデック出力は、広帯域または狭帯域とすることができる。

コーデック（例えば、ＥＶ−ＶＢＲコーデック）に対するレイヤ構造の例は、表１において示され、Ｌ１（コアレイヤ）ないしＬ５（最も高い拡張レイヤ）と呼ばれている５つのレイヤを備えている。より低い２つのレイヤ（Ｌ１およびＬ２）は、コード励振線形予測（ＣＥＬＰ）アルゴリズムに基づいていてもよい。コアレイヤＬ１は、可変マルチレート広帯域（ＶＭＲ−ＷＢ）スピーチコード化アルゴリズムから導出されてもよく、異なる入力信号に対して最適化されるいくつかのコード化モードを含んでいてもよい。すなわち、コアレイヤＬ１は、入力信号を分類して、オーディオ信号をより良くモデル化してもよい。コアレイヤＬ１からのコード化誤差（残差）は、適応型コードブックおよび固定型代数コードブックに基づいて、強化または拡張レイヤＬ２によってエンコードされる。レイヤＬ２からの誤差信号（残差）は、修正離散コサイン変換（ＭＤＣＴ）を使用して、変換領域において、より高いレイヤ（Ｌ３ないしＬ５）によってさらにコード化されてもよい。フレーム消失隠蔽（ＦＥＣ）を向上させるために、サイド情報がレイヤＬ３中で送られてもよい。

コアレイヤＬ１コーデックは本質的に、ＣＥＬＰベースのコーデックであり、適応マルチレート（ＡＭＲ）、ＡＭＲワイドバンド（ＡＭＲ−ＷＢ）、可変マルチレートワイドバンド（ＶＭＲ−ＷＢ）、拡張可変レートコーデック（ＥＶＲＣ）、または、ＥＶＲワイドバンド（ＥＶＲＣ−ＷＢ）コーデックのような、多数のよく知られている狭帯域または広帯域のボコーダのうちの１つと互換性があってもよい。

スケーラブルなコーデックにおけるレイヤ２は、コードブックを使用して、コアレイヤＬ１からの知覚的に重み付けされたコード化誤差（残差）をさらに最小にしてもよい。コーデックフレーム消失隠蔽（ＦＥＣ）を向上させるために、サイド情報が計算されて、後続のレイヤＬ３中に送信されてもよい。コアレイヤのコード化モードとは無関係に、サイド情報は、信号の分類を含んでいてもよい。

広帯域出力に対して、レイヤＬ２エンコーディング後の重み付けされた誤差信号は、修正離散コサイン変換（ＭＤＣＴ）または類似のタイプの変換に基づく、重複加算（overlap-add）変換を使用してコード化されることを仮定する。すなわち、コード化レイヤＬ３、Ｌ４および／またはＬ５に対して、信号は、ＭＤＣＴスペクトルにおいてエンコードされてもよい。それゆえに、ＭＤＣＴスペクトルにおいて信号をコード化する効率的な方法を提供する。

エンコーダの例
図４は、１つの例にしたがった、スケーラブルなエンコーダ４０２のブロック図である。エンコーディングの前の事前処理の段階において、入力信号４０４は、望まれない低周波数成分を抑制するためにハイパスフィルタリング４０６されて、フィルタリングされた入力信号Ｓ_HP（ｎ）が生成される。例えば、ハイパスフィルタ４０６は、広帯域入力信号に対して２５Ｈｚのカットオフと、狭帯域入力信号に対して１００Ｈｚのカットオフとを有していてもよい。フィルタリングされた入力信号Ｓ_HP（ｎ）は次に、再サンプリングモジュール４０８によって再サンプリングされて、再サンプリングされた入力信号Ｓ_12.8（ｎ）が生成される。例えば、オリジナル入力信号４０４は、１６ｋＨｚでサンプリングされていてもよく、１２．８ｋＨｚに再サンプリングされ、１２．８ｋＨｚは、レイヤＬ１および／またはＬ２エンコーディングに対して使用される内部周波数であってもよい。事前エンファシスモジュール４１０が次に、１次ハイパスフィルタを適用して、再サンプリングされた入力信号Ｓ_12.8（ｎ）のより高い周波数を強調し、（および低周波数を減衰させる）。結果として生じる信号は次に、エンコーダ／デコーダモジュール４１２に渡され、エンコーダ／デコーダモジュール４１２は、コード励振線形予測（ＣＥＬＰ）ベースのアルゴリズムに基づいてレイヤＬ１および／またはＬ２エンコーディングを実行してもよく、スピーチ信号は、スペクトル包絡を表す線形予測（ＬＰ）合成フィルタを通過した励振信号によってモデル化される。信号エネルギーが、各知覚臨界帯域に対して計算されて、レイヤＬ１およびＬ２エンコーディングの一部として使用されてもよい。さらに、エンコードされるエンコーダ／デコーダモジュール４１２はまた、入力信号のバージョンを合成（再構成）してもよい。すなわち、エンコーダ／デコーダモジュール４１２が入力信号をエンコードした後、エンコーダ／デコーダモジュール４１２は、入力信号をデコードし、逆エンファシスモジュール４１６および再サンプリングモジュール４１８が、入力信号４０４のバージョンｓ₂^（ｎ）を再作成する。残差信号ｘ₂（ｎ）が、元の信号Ｓ_HP（ｎ）と、再作成された信号ｓ₂^（ｎ）との間の差４２０を取ることにより発生される（すなわち、ｘ₂（ｎ）＝Ｓ_HP（ｎ）−ｓ₂^（ｎ））。残差信号ｘ₂（ｎ）は次に、重み付けモジュール４２４によって知覚的に重み付けされ、ＭＤＣＴ変換モジュール４２８によってＭＤＣＴスペクトルまたは領域に変換されて、残差信号Ｘ₂（ｋ）が発生される。そのような変換の実行において、信号は、フレームと呼ばれる、サンプルのブロックに分割されてもよく、各フレームは、例えば、離散フーリエ変換または離散コサイン変換のような線形直交変換によって処理されて、量子化できる変換係数が発生されてもよい。

残差信号Ｘ₂（ｋ）は次にスペクトルエンコーダ４３２に提供され、スペクトルエンコーダ４３２は、残差信号Ｘ₂（ｋ）をエンコードして、レイヤＬ３、Ｌ４および／またはＬ５に対してエンコードされたパラメータを生成させる。１つの例において、スペクトルエンコーダ４３２は、残差信号Ｘ₂（ｋ）において非ゼロのスペクトル線（パルス）を表すインデックスを発生させる。

レイヤＬ１ないしＬ５からのパラメータは、出力ビットストリームとして機能を果たす送信機および／または記憶デバイス４３６に送ることができ、送信機および／または記憶デバイス４３６は、後に、デコーダにおいて元の入力信号４０４のバージョンを再構成または合成するために使用できる。

レイヤ１−分類エンコーディング：コアレイヤＬ１は、エンコーダ／デコーダモジュール４１２において実現されてもよく、信号分類および４つの別個のコード化モードを使用して、エンコーディング性能を向上させてもよい。１つの例において、各フレームの異なるエンコーディングに対して考慮できる、これらの４つの別個の信号クラスは、（１）無声音のスピーチフレームに対する無声音コード化（ＵＣ）と、（２）滑らかなピッチ展開を有する準周期的セグメントに対して最適化される有声音コード化（ＶＣ）と、（３）フレームの消失のケースにおいて誤り伝播を最小にするように設計された、有声音の開始に続くフレームに対する移行モード（ＴＣ）と、（４）他のフレームに対する共通コード化（ＧＣ）とを含んでいてもよい。無声音コード化（ＵＣ）において、適応型コードブックは使用されず、励振がガウスコードブックから選択される。準周期的セグメントは、有声音コード化（ＶＣ）モードによりエンコードされる。有声音コード化の選択は、滑らかなピッチ展開によって調整される。有声音コード化モードは、ＡＣＥＬＰ技術を使用してもよい。移行コード化（ＴＣ）フレームにおいて、最初のピッチ周期の声門インパルスを含んでいるサブフレームにおける適応型コードブックは、固定型コードブックに取って代わられる。

コアレイヤＬ１において、信号は、スペクトル包絡を表す線形予測（ＬＰ）合成フィルタを通過する励振信号によるＣＥＬＰベースのパラダイムを使用してモデル化されてもよい。ＬＰフィルタは、共通コード化モードおよび有声音コード化モードに対して、セーフティネットアプローチおよび多段ベクトル量子化（ＭＳＶＱ）を使用して、イミタンススペクトル周波数（ＩＳＦ）領域において量子化されてもよい。開ループ（ＯＬ）ピッチ分析が、滑らかなピッチ輪郭を保証するためにピッチ追跡アルゴリズムによって実行される。しかしながら、ピッチ推定のロバストネスを向上させるために、２つの同時発生のピッチ展開の輪郭が比較されてもよく、より滑らかな輪郭を生じるトラックが選択される。

２つの組のＬＰＣパラメータが推定され、２０ｍｓの分析ウィンドを使用してほとんどのモードにおいてフレーム毎にエンコードされる。２組のＬＰＣパラメータのうちの一方は、フレームエンドに対するものであり、他方は、ミッドフレームに対するものである。ミッドフレームＩＳＦは、各ＩＳＦサブグループに対して見つけられている線形補間係数を有する補間分割ＶＱによりエンコードされ、それにより、推定された量子化ＩＳＦと補間された量子化ＩＳＦとの差が最小化される。１つの例において、ＬＰ係数のＩＳＦ表現を量子化するために、（弱い予測および強い予測に対応する）２つのコードブックの組が同時にサーチされて、推定されるスペクトル包絡の歪みを最小にする予測量およびコードブックを見つけてもよい。セーフティネットアプローチに対する主な理由は、フレームの消失が、スペクトル包絡が急速に発達しているセグメントと同時に起こるときに誤り伝播を低減させることである。追加の誤りのロバストネスを提供するために、弱い予測子は、ゼロに設定されることがあり、予測を有さない量子化を結果として生じる。予測を有さないパスは、その量子化歪みが、予測を有するパスに十分に近いときに、または、その量子化歪みが、トランスペアレントなコード化を提供するほど十分に小さいときに、常に選ばれてもよい。さらに、強い予測コードブックサーチにおいて、準最適コードベクトルがクリーンチャネル性能に影響を及ぼさず、フレーム消失がある状態で誤り伝播を低下させることが予測される場合、準最適コードベクトルが選ばれる。ＵＣおよびＴＣフレームのＩＳＦは、予測を有さないで、さらに体系的に量子化される。ＵＣフレームに対して、予測を有さない場合でさえ非常に良好なスペクトル量子化を可能にするために、十分なビットが利用可能である。ＴＣフレームは、クリーンチャネル性能における低減の可能性にもかかわらず、フレーム消失に対して非常に影響されやすく、予測を使用できないと考えられる。

狭帯域（ＮＢ）信号に対して、ピッチ推定は、量子化されない最適利得で発生されるＬ２励振を使用して実行される。このアプローチは、利得量子化の影響を除去し、レイヤにわたってピッチ遅れ推定を改善させる。広帯域（ＷＢ）信号に対して、標準的なピッチ推定（量子化された利得を有するＬ１励振）が使用される。

レイヤ２−強化エンコーディング：レイヤＬ２において、エンコーダ／デコーダモジュール４１２は、代数コードブックを再び使用して、コアレイヤＬ１からの量子化誤差をエンコードしてもよい。Ｌ２レイヤにおいて、過去のＬ１の寄与だけでなく、過去のＬ２の寄与も含むように、エンコーダはさらに適応型コードブックを修正する。レイヤ間の時間同期を維持するために、適応ピッチ遅れは、Ｌ１およびＬ２において同じである。Ｌ１およびＬ２に対応する適応型コードブックおよび代数コードブックの利得は、知覚的に重み付けされたコード化誤りを最小にするために再び最適化される。更新されたＬ１利得およびＬ２利得は、Ｌ１においてすでに量子化されている利得に関して予測的にベクトル量子化される。ＣＥＬＰレイヤ（Ｌ１およびＬ２）は、内部（例えば、１２．８ｋＨｚ）サンプリングレートで動作してもよい。したがって、レイヤＬ２からの出力は、０ないし６．４ｋＨｚ周波数帯域においてエンコードされた合成信号を含む。広帯域出力に対して、ＡＭＲ−ＷＢ帯域幅の拡張を使用して、欠落している６．４ないし７ｋＨｚ帯域幅を発生させてもよい。

レイヤ３−フレーム消失隠蔽：フレーム消失状態（ＦＥＣ）におけるパフォーマンスを向上させるために、フレーム誤り隠蔽モジュール４１４が、エンコーダ／デコーダモジュール４１２からサイド情報を取得してもよく、それを使用してレイヤＬ３パラメータを発生させる。サイド情報は、すべてのコード化モードに対するクラス情報を含んでいてもよい。前のフレームスのペクトル包絡が、コアレイヤの移行コード化のために送信されてもよい。他のコアレイヤコード化モードに対して、合成信号の位相情報およびピッチ同期エネルギーを送ってもよい。

レイヤ３、４、５−変換コード化：レイヤＬ２における第２段階のＣＥＬＰコード化から結果として生じる残差信号Ｘ₂（ｋ）は、ＭＤＣＴまたは重複加算構造を有する類似の変換を使用して、レイヤＬ３、Ｌ４およびＬ５において量子化されてもよい。すなわち、前のレイヤからの残差すなわち“誤差”信号は、後続のレイヤによって使用されて、（デコーダへの送信のために、そのような誤差を効率的に表すことを求める）そのパラメータが発生される。

ＭＤＣＴ係数は、いくつかの技術を使用することによって量子化されてもよい。いくつかの例において、ＭＤＣＴ係数は、スケーラブルな代数ベクトル量子化を使用して量子化される。ＭＤＣＴは、２０ミリ秒（ｍｓ）毎に計算されてもよく、そのスペクトル係数は、８次元ブロックにおいて量子化される。オーディオクリーナ（ＭＤＣＴ領域の雑音整形フィルタ）が適用され、オリジナル信号のスペクトルから導出される。グローバルな利得がレイヤＬ３において送信される。さらに、いくつかのビットが、高周波数補償に対して使用される。残りのレイヤＬ３ビットが、ＭＤＣＴ係数の量子化に対して使用される。レイヤＬ４およびＬ５レベルにおいて性能が独立して最大化されるように、レイヤＬ４およびＬ５ビットが使用される。

いくつかの構成において、ＭＤＣＴ係数が、スピーチおよび音楽優勢オーディオコンテンツに対して、異なるように量子化されてもよい。スピーチコンテンツおよび音楽コンテンツの間の区別は、Ｌ２の重み付けされた合成ＭＤＣＴ成分を、対応する入力信号成分と比較することによる、ＣＥＬＰモデルの効率の評価に基づいている。スピーチ優勢コンテンツに対して、スケーラブルな代数ベクトル量子化（ＡＶＱ）が、Ｌ３およびＬ４において使用され、スペクトル係数が８次元ブロックにおいて量子化される。グローバルな利得がＬ３において送信され、いくつかのビットが高周波数補償に対して使用される。残りのＬ３およびＬ４ビットが、ＭＤＣＴ係数の量子化に対して使用される。量子化方法は、マルチレート格子ＶＱ（ＭＲＬＶＱ）である。新規なマルチレベル順列ベースのアルゴリズムが、指標付け手続きの複雑さとメモリコストとを低減させるために使用されている。ランク計算がいくつかのステップにおいて実施される：第１に、入力ベクトルが、符号ベクトルと絶対値ベクトルとに分解される。第２に、絶対値ベクトルが、いくつかのレベルにさらに分解される。最も高いレベルのベクトルは、元の絶対値ベクトルである。各下位レベルのベクトルは、上位レベルのベクトルから最も多い周波数成分を取り除くことによって取得される。その上位レベルのベクトルに関連する各下位レベルのベクトルの位置パラメータは、順列および組み合せの機能に基づいてインデックス付けされる。最後に、すべての下位レベルのインデックスおよび符号が、出力インデックスに構成される。

音楽優勢コンテンツに対して、帯域選択型形状利得ベクトル量子化（形状利得ＶＱ）が、レイヤＬ３において使用されてもよく、追加のパルス位置ベクトル量子化器が、レイヤＬ４に適用されてもよい。レイヤＬ３において、帯域選択は、ＭＤＣＴ係数のエネルギーを計算することによって最初に実行されてもよい。次に、選択された帯域におけるＭＤＣＴ係数が、マルチパルスコードブックを使用して量子化される。ベクトル量子化器が、帯域に対して、ＭＤＣＴ係数（スペクトル線）に対する帯域利得を量子化するために使用される。レイヤＬ４に対して、全帯域幅が、パルスポジショニング技術を使用してコード化されてもよい。オーディオ源モデルの不整合に起因して、スピーチモデルが望まれない雑音を生成させるイベントにおいて、Ｌ２レイヤ出力のいくつかの周波数を減衰させて、ＭＤＣＴ係数がよりアグレッシブにコード化されることを可能にしてもよい。これは、レイヤＬ４を通して、入力信号のＭＤＣＴと、コード化されたオーディオ信号のＭＤＣＴとの間の二乗誤差を最小化することによって、閉ループ法で実施される。適用される減衰量は、６ｄＢまでであってもよく、２またはよりすくないビットを使用することによって伝達されてもよい。レイヤＬ５は、追加のパルス位置コード化技術を使用してもよい。

ＭＤＣＴスペクトルのコード化
レイヤＬ３、Ｌ４およびＬ５は、ＭＤＣＴスペクトル（例えば、前のレイヤに対する残差を表すＭＤＣＴ係数）においてコード化を実行することから、そのようなＭＤＣＴスペクトルコード化は効率的であることが望まれる。それゆえに、ＭＤＣＴスペクトルコード化の効率的な方法を提供する。

図５は、エンコーダのより高いレイヤにおいて実現してもよい、例示的なＭＤＣＴスペクトルエンコーディングプロセスを図示するブロック図である。エンコーダ５０２は、前のレイヤから残差信号５０４の入力ＭＤＣＴスペクトルを取得する。そのような残差信号５０４は、オリジナル信号と、（例えば、オリジナル信号のエンコードされたバージョンから再構成された）オリジナル信号の再構成されたバージョンとの間の差であってもよい。残差信号のＭＤＣＴ係数を量子化して、所定のオーディオフレームに対するスペクトル線を発生させてもよい。

１つの例において、ＭＤＣＴスペクトル５０４は、ＣＥＬＰコア（レイヤ１および２）が適用された後の、誤差信号の完全なＭＤＣＴスペクトル、または、この手続きの前の適用後の残差ＭＤＣＴスペクトルのいずれであってもよい。すなわち、レイヤ３において、レイヤ１および２からの残差信号に対する完全なＭＤＣＴスペクトルが受け取られて、部分的にエンコードされる。次に、レイヤ４において、レイヤ３からの信号のＭＤＣＴスペクトルの残差がエンコードされる、などである。

エンコーダ５０２は帯域選択器５０８を含んでいてもよく、帯域選択器５０８は、ＭＤＣＴスペクトル５０４を複数の帯域に分けるか、または分割し、各帯域は、複数のスペクトル線または変換係数を含む。帯域エネルギー推定器５１０が次に、帯域の１つ以上におけるエネルギーの推定を提供してもよい。知覚帯域ランキングモジュール５１２が、各帯域を知覚的にランクづけてもよい。知覚帯域選択器５１４が次に、いくつかの帯域をエンコードし、その一方で、他の帯域をすべてゼロの値に強制することを決定してもよい。例えば、しきい値を上回る信号エネルギーを示す帯域をエンコードしてもよく、一方、そのようなしきい値を下回る信号エネルギーを有する帯域をすべてゼロに強制してもよい。例えば、そのようなしきい値は、知覚マスキングおよび他の人間のオーディオ感知現象にしたがって設定されてもよい。この概念がなければ、人間が何故そうすることを望むのか明白でない。コードブックインデックスおよびレート割振器５１６が、選択された帯域に対するコードブックインデックスおよびレートの割り振りを決定してもよい。すなわち、各帯域に対して、帯域を最もよく表すコードブックが、突きとめられて、インデックスによって識別される。コードブックに対する“レート”は、コードブックによって達成される圧縮量を指定する。ベクトル量子化器５１８が次に、各帯域に対する複数のスペクトル線（変換係数）を、量子化されるスペクトル線（変換係数）を特徴づけるベクトル量子化（ＶＱ）値（大きさまたは利得）に量子化する。

ベクトル量子化において、いくつかのサンプル（スペクトル線または変換係数）が、ともにベクトルにブロック化され、各ベクトルは、コードブックの１つのエントリにより近似（量子化）される。（帯域におけるスペクトル線または変換係数を表す）入力ベクトルを量子化するために選択されるコードブックエントリは、一般に、距離基準にしたがった、コードブック空間における最も近い近隣である。例えば、１つ以上のセントロイドを使用して、コードブックの複数のベクトルを表してもよい。次に、帯域を表す入力ベクトルをコードブックのセントロイドと比較して、どのコードブック（および／またはコードブックのベクトル）が最小の距離測定（例えば、ユークリッド距離）を提供するかを決定する。最も近い距離を有するコードブックが、帯域を表すために使用される。コードブックにおいてより多くのエントリを追加することは、ビットレートおよび複雑さを増加させるが、平均の歪みを低減させる。コードブックのエントリは、コードベクトルと呼ばれることが多い。

その結果、エンコーダ５０２は、１つ以上のコードブックインデックス（ｎＱ）５２６、ベクトル量子化値（ＶＱ）５２８、ならびに／あるいは、残差信号５０４に対するＭＤＣＴスペクトルのバージョンを再構成するために使用できる他のオーディオフレームおよび／または帯域情報に、ＭＤＣＴスペクトル５０４をエンコードしてもよい。デコーダにおいて、受信した量子化インデックスおよびベクトル量子化値は、フレーム中の各帯域に対する量子化されたスペクトル線（変換係数）を再構成するために使用される。次に、逆変換が、これらの量子化されたスペクトル線（変換係数）に適用されて、合成されたフレームが再構成される。

出力残差信号５２２が、（元の入力残差信号５０４から残差信号Ｓｘ_tを減算５２０することによって）取得されてもよく、出力残差信号５２２は、エンコーディングの次のレイヤに対する入力として使用できる。出力ＭＤＣＴスペクトル残差信号５２２を取得するために、例えば、コードブックインデックス５２６およびベクトル量子化値５２８からＭＤＣＴスペクトルを再構成し、入力ＭＤＣＴスペクトル５０４から、再構成されたＭＤＣＴスペクトルを減算することによって、そのような出力ＭＤＣＴスペクトル残差信号５２２を取得してもよい。

１つの特徴にしたがうと、ワイドバンドオーディオコード化への適用を有する埋め込み代数ベクトル量子化（ＥＡＶＱ）、アコースティック、スピーチおよび信号処理に関するＩＥＥＥ国際会議（ＩＣＡＳＳＰ）、アトランタ、ＧＡ、米国、巻１、２４０頁ないし２４３頁、１９９６（Ｘｉｅ、１９９６）において、Ｍ．Ｘｉｅ氏およびＪ．−Ｐ．Ａｄｏｕｌ氏によって記述された、埋め込み代数ベクトル量子化スキームの変形体であるベクトル量子化スキームが実現される。特に、２つ以上の連続したスペクトル帯域のインデックスを組み合わせて、確率分布を利用して、コードインデックスをよりコンパクトに表すことによって、コードブックインデックス５２６を効率的に表してもよい。

図６は、ＭＤＣＴスペクトルのエンコーディングを容易にするために、ＭＤＣＴスペクトルオーディオフレーム６０２を複数のｎポイント帯域（またはサブベクトル）に分割する方法を図示する図である。例えば、３２０本のスペクトル線（変換係数）のＭＤＣＴスペクトルオーディオフレーム６０２を、４０個の帯域（サブベクトル）６０４に分割してもよく、各帯域６０４ａは、８ポイント（またはスペクトル線）を有する。（例えば、入力信号がより狭いスペクトルを有するという予備知識をともなう）いくつかの実際的な状況において、最後の４ないし５個の帯域にゼロを強制することがさらに可能であり、３５ないし３６個の帯域だけがエンコードされる。（例えば、より高いレイヤのエンコーディングにおける）いくつかの追加の状況において、１０個ぐらいのより低い順位の（低い周波数）帯域をスキップすることが可能であってもよく、その結果、エンコードすべき帯域の数がちょうど２５ないし２６個にさらに低減される。より一般的なケースにおいて、各レイヤは、エンコードすべき特定のサブセットの帯域を指定してもよく、これらの帯域は、以前にエンコードされたサブセットとオーバーラップしてもよい。例えば、レイヤ３帯域Ｂ１ないしＢ４０は、レイヤ４帯域Ｃ１ないしＣ４０とオーバーラップしてもよい。各帯域６０４は、コードブックインデックスｎＱｘおよびベクトル量子化値ＶＱｘによって表されてもよい。

ベクトル量子化エンコーディングスキーム
１つの例において、エンコーダは、ｎ＝０、２、３、４、．．．最大、に対して、ｎ＊４ビットの対応する割り当てられたレートを有する、コードブックＱ_nのアレイを利用してもよい。Ｑ₀はすべてゼロのベクトルを含み、そのため、いかなるビットもそれを送信するのに必要とされない。さらに、インデックスｎ＝１は使用されず、これは、コードブックの数を低減させるために実施される。そのため、非ゼロのベクトルを有するコードブックに割り当てることができる最小のレートは、２＊４＝８ビットである。どのコードブックが各帯域のエンコーディングに対して使用されるかを指定するために、コードブックインデックスｎＱ（値ｎ）が、各帯域に対して、ベクトル量子化（ＶＱ）値またはインデックスとともに使用される。

一般に、各コードブックインデックスは、記述子成分によって表されてもよく、記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいており、選択されることに関してより大きな確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。

先に示したように、一連の可能なコードブックインデックス（ｎ）は、コードブックインデックス０とインデックス２との間に不連続を有し、実際に３６ほどの大きさであってもよい最大番号に続く。さらに、可能な値ｎの分布の統計分析は、すべてのケースの９０％以上が、小さい組のコードブックインデックスｎ＝｛０、２、３｝に集中していることを示す。したがって、値｛ｎ｝をエンコードするために、表１中で示すように、よりコンパクトな組の記述子においてそれらをマッピングすることが有利であるかもしれない。

ｎ≧４のすべての値が単一の記述子の値３にマッピングされることから、このマッピングは全単射ではない。この記述子の値３は、“エスケープコード”の目的を果たす：それは、コードブックインデックスｎの真の値は、記述子の後に送信される拡張コードを使用してデコードされるのを必要とすることを示す。可能な拡張コードの例は、表２中で示す典型的な単進コードであり、コードブックインデックス≧４の送信に対して使用できる。

さらに、記述子はペアでエンコードされてもよく、各ペアワイズ記述子コードは、表３中で図示するように割り当てられてもよい、３つの可能な可変長コード（ＶＬＣ）のうちの１つを有していてもよい。

これらのペアワイズ記述子コードは、記述子の各ペアにおける、記述子の値の量子化された組の典型的な確率分布に基づいていてもよく、例えば、ハフマンアルゴリズムまたはコードを使用することによって、構成できる。

記述子の各ペアに対して使用するＶＬＣコードブックの選択は、各帯域の位置およびエンコーダ／デコーダのレイヤ番号に部分的に基づいて実施できる。そのような可能な割り当ての例は表４中で示されており、ＶＬＣコードブック（例えば、コードブック０、１、または２）は、オーディオフレーム内のスペクトル帯域の位置（例えば、０／１、２／３、４／５、６／７、．．．）およびエンコーダ／デコーダのレイヤ番号に基づいて、スペクトル帯域に割り当てられる。

表４中で図示した例は、いくつかの例において、コードブックインデックスおよび／またはコードブックに対する記述子ペアの分布が、どのスペクトル帯域がオーディオフレーム内で処理されているか次第で、また、どのエンコーディングレイヤ（例えば、レイヤ３、４または５）がエンコーディングを実行しているか次第で変化することを認識する。その結果、使用されるＶＬＣコードブックは、オーディオフレーム内の（隣接帯域に対応する）記述子のペアの相対的な位置と、対応する帯域が属するエンコーディングレイヤとに依存してもよい。

図７は、ＭＤＣＴ埋め込み代数ベクトル量子化（ＥＡＶＱ）コードブックインデックスのエンコーディングを実行するエンコーディングアルゴリズムの１つの例を説明するフロー図である。ＭＤＣＴスペクトルオーディオフレームを表す複数のスペクトル帯域が取得される（７０２）。各スペクトル帯域は、複数のスペクトル線または変換係数を含んでいてもよい。スペクトル帯域の、連続した、または隣接するペアがスキャンされて、それらの特性が突きとめられる（７０４）。各スペクトル帯域の特性に基づいて、対応するコードブックインデックスがスペクトル帯域のそれぞれに対して識別される（７０６）。コードブックインデックスは、そのようなスペクトル帯域の特性を最良に表すコードブックを識別してもよい。すなわち、各帯域に対して、帯域中のスペクトル線を代表するコードブックインデックスが取得される。さらに、ベクトル量子化値またはインデックスが、各スペクトル帯域に対して取得される（７０８）。そのようなベクトル量子化値は、コードブック中の選択されたエントリ（例えば、コードブック内の再構成ポイント）へのインデックスを少なくとも部分的に提供してもよい。１つの例において、コードブックインデックスのそれぞれは、記述子成分および拡張コード成分に分割されるか、または分けられる（７１０）。例えば、第１のコードブックインデックスに対して、第１の記述子が表１から選択される。同様に、第２のコードブックインデックスに対して、第２の記述子もまた、表１から選択される。一般に、コードブックインデックスと記述子との間のマッピングは、可能なコードブックインデックスの分布の統計分析に基づいていてもよく、信号における大多数の帯域が、コードブックの、小さい番号（サブセット）に集中したインデックスを有する傾向がある。隣接（例えば、連続した）コードブックインデックスの記述子成分が次に、例えば、ペアワイズ記述子コードによる表３に基づいて、ペアとしてエンコードされる（７１２）。これらのペアワイズ記述子コードは、各ペアにおける記述子の値の量子化された組の典型的な確率分布に基づいていてもよい。記述子の各ペアに対して使用するＶＬＣコードブックの選択は、図４中で図示したように、各帯域の位置およびレイヤ番号に部分的に基づいて実施できる。さらに、拡張コード成分が、例えば、表２に基づいて、各コードブックインデックスに対して取得される（７１４）。ペアワイズ記述子コード、各コードブックインデックスに対する拡張コード成分、および各スペクトル帯域に対するベクトル量子化値は次に、送信または記憶される（７１６）。

ここで記述するコードブックインデックスのエンコーディングスキームを適用することによって、例えば、Ｇ．７２９オーディオ圧縮アルゴリズム埋め込み可変（ＥＶ）−可変ビットレート（ＶＢＲ）コーデックにおいて使用される先行技術の方法と比較して、おおよそ２５ないし３０％のビットレートの節約が達成され得る。

エンコーダの例
図８は、スケーラブルなスピーチおよびオーディオコーデックのためのエンコーダを図示するブロック図である。エンコーダ８０２は、帯域発生器を含んでいてもよく、帯域発生器は、ＭＤＣＴスペクトルオーディオフレーム８０１を受け取り、それを複数の帯域に分割する。各帯域は、複数のスペクトル線または変換係数を有していてもよい。コードブック選択器８０８が次に、各帯域を表すために、複数のコードブック８０４のうちの１つからコードブックを選択してもよい。

オプションとして、コードブック（ＣＢ）インデックス識別器８０９が、特定の帯域に対して選択されたコードブックを表すコードブックインデックスを取得してもよい。記述子選択器８１２が次に、予め確立されている、コードブックから記述子へのマッピングテーブル８１３を使用して、各コードブックインデックスを記述子として表してもよい。記述子へのコードブックインデックスのマッピングは、可能なコードブックインデックスの分布の統計分析に基づいていてもよく、オーディオフレームにおける大多数の帯域は、コードブックの、小さい番号（サブセット）に集中したインデックスを有する傾向がある。

コードブックインデックスエンコーダ８１４が次に、選択されたコードブックに対するコードブックインデックスをエンコードして、エンコードされたコードブックインデックス８１８を生成させてもよい。そのようなエンコードされるコードブックインデックスは、スピーチ／オーディオエンコーディングモジュール（例えば、図２のモジュール２１２）の変換レイヤにおいてエンコードされ、送信パスエンコーディングモジュール（例えば、図２のモジュール２１４）においてエンコードされないことが明白であるはずである。例えば、（隣接帯域のペアに対する）記述子のペアが、ペアワイズ記述子エンコーダ（例えば、コードブックインデックスエンコーダ８１４）によってペアとしてエンコードされてもよく、ペアワイズ記述子エンコーダは、記述子ペアおよび可変長コード間の予め確立されている関連付けを使用して、ペアワイズ記述子コード（例えば、エンコードされたコードブックインデックス８１８）を取得してもよい。記述子ペアおよび可変長コード間の予め確立されている関連付けは、より高い確率の記述子ペアに対してより短い長さのコードを利用し、より低い確率の記述子ペアに対してより長いコードを利用してもよい。いくつかの例において、複数のコードブック（ＶＬＣ）を単一の記述子ペアにマッピングすることは有利であるかもしれない。例えば、記述子ペアの確率分布は、エンコーダ／デコーダのレイヤおよび／またはフレーム内の対応するスペクトル帯域の位置次第で変化することが見出されるかもしれない。その結果、そのような予め確立されている関連付けは、複数のＶＬＣコードブック８１６として表されてもよく、複数のＶＬＣコードブック８１６において、特定のコードブックが、（オーディオフレーム内の）エンコード／デコードされているスペクトル帯域のペアの位置と、エンコーディング／デコーディングのレイヤとに基づいて選択される。ペアワイズ記述子コードは、帯域に対する、組み合わされたコードブックインデックスまたは個々の記述子よりも少ないビットで、２つ（またはより多い）の連続した帯域に対するコードブックインデックスを表してもよい。さらに、拡張コード選択器８１０が、拡張コード８２０を発生させて、記述子コードの下で一緒にグループ化されているインデックスを表してもよい。ベクトル量子化器８１１が、各スペクトル帯域に対するベクトル量子化値またはインデックスを発生させてもよい。ベクトル量子化インデックスエンコーダ８１５が次に、ベクトル量子化値またはインデックスのうちの１つ以上をエンコードして、エンコードされたベクトル量子化値／インデックス８２２を生成させてもよい。ベクトル量子化インデックスのエンコーディングは、ベクトル量子化インデックスを表すために使用されるビットの数を低減させるような方法で実行してもよい。

エンコードされたコードブックインデックス８１８（例えば、ペアワイズ記述子コード）、拡張コード８２０、および／または、エンコードされたベクトル量子化値／インデックス８２２は、ＭＤＣＴスペクトルオーディオフレーム８１０のエンコードされた表示として送信され、および／または記憶されてもよい。

図９は、複数のスペクトル帯域をエンコードするペアワイズ記述子コードを取得する方法を説明するブロック図である。１つの例において、この方法は、スケーラブルなスピーチおよびオーディオコーデックにおいて動作してもよい。残差信号が、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから取得され、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である（９０２）。残差信号は、離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて変換されて、対応数する変換スペクトルが取得される（９０４）。例えば、ＤＣＴタイプの変換レイヤは、修正離散コサイン変換（ＭＤＣＴ）レイヤであってもよく、変換スペクトルは、ＭＤＣＴスペクトルである。変換スペクトルは次に、複数のスペクトル帯域に分割され、各スペクトル帯域は、複数のスペクトル線を有する（９０６）。いくつかの例において、エンコーディングに先立って、スペクトル帯域のうちのいくつかは取り除かれて、スペクトル帯域の数が低減される。複数の異なるコードブックが、スペクトル帯域をエンコードするために選択され、コードブックは、関係付けられたコードブックインデックスを有する（９０８）。例えば、隣接の、または連続した、スペクトル帯域のペアがスキャンされて、それらの特性（例えば、スペクトル帯域中のスペクトル係数および／または線の１つ以上の特性）が突きとめられてもよく、スペクトル帯域のそれぞれを最も良く表すコードブックが選択され、コードブックインデックスが識別され、および／または、スペクトル帯域の隣接ペアのそれぞれに関係付けられてもよい。いくつかの構成において、各コードブックインデックスを表すために、記述子成分および／または拡張コード成分を取得して使用してもよい。ベクトル量子化が次に、選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対して実行されて、ベクトル量子化インデックスが取得される（９１０）。選択されたコードブックインデックスが次にエンコードされる（９１２）。１つの例において、隣接スペクトル帯域に対するコードブックインデックスまたは関係付けられた記述子が、ペアワイズ記述子コードにエンコードされてもよく、ペアワイズ記述子コードは、隣接スペクトル帯域の量子化特性の確率分布に基づいている。さらに、ベクトル量子化インデックスがエンコードされる（９１４）。ベクトル量子化インデックスのエンコーディングは、ベクトル量子化インデックスを表すために使用されるビットの数を低減させる任意のアルゴリズムを使用して実行されてもよい。エンコードされたコードブックインデックスおよびエンコードされたベクトル量子化インデックスを使用してビットストリームを形成して、変換スペクトルを表わしてもよい（９１６）。

ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード（ＶＬＣ）のうちの１つにマッピングしてもよい。オーディオフレーム内の対応する各スペクトル帯域の位置およびエンコーダのレイヤ番号に基づいて、ＶＬＣコードブックが、記述子成分の各ペアに割り当てられてもよい。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。

１つの例において、各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分を有し、選択されることに関してより大きな確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。単一の記述子の値は、値ｋよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、値ｋよりも大きいコードブックインデックスに対して利用される。

記述子発生の例
図１０は、確率分布に基づいて、コードブックと記述子との間にマッピングを発生させる方法の例を説明するブロック図である。複数のスペクトル帯域がサンプリングされて、各スペクトル帯域の特性が突きとめられる（１０００）。サウンドおよびコードブックの定義の性質のために、小さいサブセットのコードブックが利用されやすいことを認識して、対象となっている信号に統計分析を実行して、より効率的に記述子を割り当ててもよい。したがって、サンプリングされた各スペクトル帯域は、複数のコードブックのうちの１つに関係付けられ、関係付けられたコードブックは、スペクトル帯域の特性のうちの少なくとも１つを表す（１００２）。複数のコードブックのそれぞれに関係付けられている、複数のサンプリングされたスペクトル帯域に基づいて、統計的確率が各コードブックに対して割り当てられる（１００４）。しきい値の確率よりも大きい統計的確率を有する複数のコードブックのそれぞれに対して、異なる個々の記述子も割り当てられる（１００６）。単一の記述子が次に、他の残りのコードブックに割り当てられる（１００８）。拡張コードが、単一の記述子が割り当てられたコードブックのそれぞれに関係付けられる（１０１０）。その結果、この方法を用いて、スペクトル帯域の十分に大きいサンプルを取得して、それにより、コードブックインデックスをより小さい組の記述子にマッピングする表（例えば、表１）を構築してもよい。さらに、拡張コードは、表２中に図示するような単進コードであってもよい。

図１１は、記述子値を発生させる方法の例を図示するブロック図である。例示的なスペクトル帯域のシーケンスＢ０．．．Ｂｎ１１０２に対して、コードブック１１０４が、各スペクトル帯域を表すために選択される。すなわち、スペクトル帯域の特性に基づいて、スペクトル帯域を最も厳密に表すコードブックが選択される。いくつかの構成において、各コードブックは、そのコードブックインデックス１１０６によって参照されてもよい。このプロセスを使用して、コードブックに対してスペクトル帯域の統計分布を発生させてもよい。この例において、コードブックＡ（例えば、すべてゼロのコードブック）が、２つのスペクトル帯域に対して選択され、コードブックＢが、１つのスペクトル帯域によって選択され、コードブックＣが、３つのスペクトル帯域に対して選択される、などである。その結果、最も頻繁に選択されるコードブックが識別されてもよく、異なる／個々の記述子値“０”、“１”、および“２”が、これらの頻繁に選択されるコードブックに割り当てられる。残りのコードブックには、単一の記述子値“３”が割り当てられる。この単一の記述子“３”によって表される帯域に対して、拡張コード１１１０を使用して、（例えば、表２のように）単一の記述子によって識別される特定のコードブックをより詳細に識別してもよい。この例において、コードブックＢ（インデックス１）は、記述子値の数を４つに低減させるために無視される。４つの記述子“０”、“２”、“３”および“４”は、２つのビットにマッピングして、表すことができる（例えば、表１）。コードブックの大部分は、単一の２ビットの記述子値“３”によって表されることから、この統計分布の収集は、さもなければ、例えば、３６個のコードブック（すなわち、６ビット）を表すために使用されるビットの数を低減させるのに役立つ。

図１０および１１は、コードブックインデックスがより少ないビットにエンコードされる方法の例を説明する。他のさまざまな構成において、同じ結果を達成しながら、“記述子”の概念を回避し、および／または修正してもよい。

ペアワイズ記述子コード発生の例
図１２は、スペクトル帯域に対する複数の記述子の確率分布に基づいて、ペアワイズ記述子コードへの記述子ペアのマッピングを発生させる方法の例を説明するブロック図である。（以前に記述したような）記述子値への複数のスペクトル帯域のマッピング後に、記述子値のペアに対して（例えば、オーディオフレームの、連続した、または隣接するスペクトル帯域に対して）、確率分布が決定される。隣接スペクトル帯域（例えば、２つの連続した帯域）に関係付けられている複数の記述子値（例えば、２つ）が取得される（１２００）。予期される確率分布が、記述子値の異なるペアに対して取得される（１２０２）。すなわち、記述子値の各ペア（例えば、０／０、０／１、０／２、０／３、１／０、１／１、１／２、１／３、２／０、２／１．．．３／３）が発生する尤度に基づいて、（例えば、２つの隣接する、または連続したスペクトル帯域に対して）最も発生しやすい記述子ペアから最も発生しにくい記述子ペアまでの分布を突きとめることができる。さらに、予期される確率分布は、オーディオフレーム内の特定の帯域の相対的な位置と、特定のエンコーディングレイヤ（例えば、Ｌ３、Ｌ４、Ｌ５など）とに基づいて収集されてもよい。次に、記述子値のペアの予期される確率分布と、オーディオフレーム中のそれらの相対的な位置と、エンコーダレイヤとに基づいて、異なる可変長コード（ＶＬＣ）が、記述子値の各ペアに割り当てられる（１２０４）。例えば、（特定のエンコーダレイヤおよびフレーム内の相対的な位置に対する）より高い確率の記述子ペアには、より低い確率の記述子ペアよりも短いコードが割り当てられてもよい。１つの例において、ハフマンコード化を使用して、可変長コードを発生させてもよく、（例えば、表３のように）より高い確率の記述子ペアには、より短いコードが割り当てられ、より低い確率の記述子ペアには、より長いコードが割り当てられる。

このプロセスを繰り返して、異なるレイヤに対して記述子の確率分布を取得してもよい（１２０６）。その結果、異なる可変長コードを、異なるエンコーダ／デコーダのレイヤにおける同じ記述子ペアに対して利用してもよい。複数のコードブックを利用して、可変長コードを識別してもよく、可変長コードを暗号化／復号化するためにどのコードブックを使用するかは、エンコード／デコードされている各スペクトル帯域の相対位置およびエンコーダのレイヤ番号に依存する（１２０８）。表４中で図示した例において、レイヤおよびエンコード／デコードされている帯域のペアの位置次第で、異なるＶＬＣコードブックを使用してもよい。

この方法は、異なるエンコーダ／デコーダのレイヤにわたって、記述子ペアに対する確率分布を構築することを可能にし、その結果、各レイヤに対して、可変長コードへの記述子ペアのマッピングが可能になる。最も共通の（より高い確率の）記述子ペアには、より短いコードが割り当てられることから、これにより、スペクトル帯域をエンコードするときに使用されるビットの数が低減される。

ＭＤＣＴスペクトルのデコーディング
図１３は、デコーダの例を図示するブロック図である。各オーディオフレーム（例えば、２０ミリ秒フレーム）に対して、デコーダ１３０２は、エンコードされたＭＤＣＴスペクトルの１つ以上のレイヤの情報を含んでいる入力ビットストリームを受信機または記憶デバイス１３０４から受信してもよい。受信レイヤは、レイヤ１からレイヤ５までの範囲にわたり、８ｋビット／秒ないし３２ｋビット／秒のビットレートに対応してもよい。これは、デコーダの動作が、各フレームにおいて受信される、ビットの数（レイヤ）により調整されることを意味する。この例において、出力信号１３３２はＷＢであり、すべてのレイヤがデコーダ１３０２において正確に受信されているものと仮定する。コアレイヤ（レイヤ１）およびＡＣＥＬＰ強化レイヤ（レイヤ２）が、デコーダモジュール１３０６によって最初にデコードされ、信号合成が実行される。合成された信号は次に、逆エンファシスモジュール１３０８によって逆強調され、再サンプリングモジュール１３１０によって１６ｋＨｚに再サンプリングされて、信号ｓ₁₆^（ｎ）が発生される。事後処理モジュールが信号ｓ₁₆^（ｎ）をさらに処理して、レイヤ１またはレイヤ２の合成信号ｓ₂^（ｎ）を発生させる。

より高いレイヤ（レイヤ３、４、５）が次に、スペクトルデコーダモジュール１３１６によってデコードされて、ＭＤＣＴスペクトル信号Ｘ₂₃₄^（ｋ）が取得される。ＭＤＣＴスペクトル信号Ｘ₂₃₄^（ｋ）は、逆ＭＤＣＴモジュール１３２０によって逆変換され、結果として生じる信号ｘ_w,234^（ｎ）が、レイヤ１および２の知覚的に重み付けられた合成信号ｓ_w,2^（ｎ）に加えられる。時間領域雑音整形が次に、整形モジュール１３２２によって適用される。現在のフレームとオーバーラップしている以前のフレームの重み付けされた合成信号ｓ_w,2^が次に、合成に加えられる。逆知覚的重み付け１３２４が次に、合成ＷＢ信号を復元するために適用される。最後に、ピッチ事後フィルタ１３２６が、復元された信号に適用され、ハイパスフィルタ１３２８が後に続く。事後フィルタ１３２６は、ＭＤＣＴ（レイヤ３、４、５）の重複加算合成によって導入される、余分のデコーダ遅延を活用する。それは、最適の方法で、２つのピッチ事後フィルタ信号を組み合わせる。１つは、余分のデコーダ遅延を活用することによって発生される、レイヤ１またはレイヤ２のデコーダ出力の高品質ピッチ事後フィルタ信号ｓ₂^（ｎ）である。他方は、より高いレイヤ（レイヤ３、４、５）合成信号の低遅延ピッチ後フィルタ信号ｓ＾（ｎ）である。フィルタリングされた合成信号ｓ_HP＾（ｎ）が次に、雑音ゲート１３３０によって出力される。

図１４は、ペアワイズ記述子コードを効率的にデコードするデコーダを図示するブロック図である。デコーダ１４０２は、エンコードされたコードブックインデックス１４１８を受信してもよい。例えば、エンコードされたコードブックインデックス１４１８は、ペアワイズ記述子コードおよび拡張コード１４２０であってもよい。ペアワイズ記述子コードは、帯域に対する組み合わされたコードブックインデックスまたは個々の記述子よりも少ないビットで、２つ（またはより多い）の連続した帯域に対するコードブックインデックスを表わしてもよい。コードブックインデックスデコーダ１４１４が次に、エンコードされたコードブックインデックス１４１８をデコードしてもよい。例えば、コードブックインデックスデコーダ１４１４は、複数のＶＬＣコードブック１４１６によって表される、予め確立されている関連付けを使用することによって、ペアワイズ記述子コードをデコードしてもよく、ＶＬＣコードブック１４１６は、（オーディオフレーム内の）デコードされるスペクトル帯域のペアの位置およびデコーディングレイヤに基づいて選択されてもよい。記述子ペアと可変長コードとの間の予め確立されている関連付けは、より高い確率の記述子ペアに対してより短い長さのコードを利用し、より低い確率の記述子ペアに対してより長いコードを利用してもよい。１つの例において、コードブックインデックスデコーダ１４１４は、２つの隣接スペクトル帯域を表す記述子のペアを生成させてもよい。（隣接帯域のペアに対する）記述子は次に、記述子識別器１４１２によってデコードされ、記述子識別器１４１２は、可能なコードブックインデックスの分布の統計分析に基づいて発生される、記述子からコードブックインデックスへのマッピングテーブル１４１３を使用し、ここで、オーディオフレーム中の大多数の帯域は、コードブックの、小さい番号（サブセット）に集中したインデックスを有する傾向がある。その結果、記述子識別器１４１２は、対応するスペクトル帯域を表すコードブックインデックスを提供してもよい。コードブックインデックス識別器１４０９が次に、各帯域に対するコードブックインデックスを識別する。さらに、拡張コード識別器１４１０が、受信した拡張コード１４２０を使用して、単一の記述子にグループ化されているコードブックインデックスをさらに識別してもよい。ベクトル量子化デコーダ１４１１が、各スペクトル帯域に対する、受信された、エンコードされているベクトル量子化値／インデックス１４２２をデコードしてもよい。コードブック選択器１４０８が次に、ベクトル量子化値１４２２を使用して各スペクトル帯域を再構築するために、識別されたコードブックインデックスおよび拡張コード１４２０に基づいて、コードブックを選択してもよい。帯域合成器１４０６が次に、再構成されたスペクトル帯域に基づいて、ＭＤＣＴスペクトルオーディオフレーム１４０１を再構成し、各帯域は、複数のスペクトル線または変換係数を有してもよい。

デコーディング方法の例
図１５は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を説明するブロック図である。複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームが、受信または取得されてもよく、ここで、残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である（１５０２）。ＩＤＣＴタイプの変換レイヤは、逆修正離散コサイン変換（ＩＭＤＣＴ）レイヤであってもよく、変換スペクトルはＩＭＤＣＴスペクトルである。複数のエンコードされているコードブックインデックスが次にデコードされて、複数のスペクトル帯域に対して、デコードされたコードブックインデックスが取得される（１５０４）。同様に、複数のエンコードされたベクトル量子化インデックスがデコードされて、複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスが取得される（１５０６）。

１つの例において、複数のエンコードされたコードブックインデックスをデコードすることは、（ａ）複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、（ｂ）複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、（ｃ）記述子成分と拡張コード成分とに基づいて、複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、（ｄ）コードブックインデックスを利用して、複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することと、を含んでいてもよい。記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられていてもよく、選択されることに関してより大きな確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。単一の記述子成分は、値ｋよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、値ｋよりも大きいコードブックインデックスに対して利用される。複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表しているペアワイズ記述子コードによって表されてもよい。ペアワイズ記述子コードは、隣接スペクトル帯域の量子化特性の確率分布に基づいていてもよい。１つの例において、ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード（ＶＬＣ）のうちの１つにマッピングしてもよい。ＶＬＣコードは、オーディオフレーム内の対応する各スペクトル帯域の位置と、エンコーダのレイヤ番号とに基づいて、記述子成分の各ペアに割り当てられてもよい。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。

複数のスペクトル帯域が次に、デコードされたコードブックインデックスとデコードされたベクトル量子化インデックスとを使用して合成されて、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、残差信号の再構成されたバージョンが取得されてもよい（１５０８）。

電子ハードウェア、ソフトウェアまたは両方の組み合わせとして、ここで記述したさまざまな実例となる論理ブロック、モジュール、回路およびアルゴリズムステップを実現または実行してもよい。ハードウェアおよびソフトウェアのこの互換性を明瞭に説明するために、さまざまな実例となるコンポーネント、ブロック、モジュール、回路、およびステップをそれらの機能の点から一般的に上述した。このような機能がハードウェアまたはソフトウェアとして実現されるかどうかは、特定の用途およびシステム全体に課される設計制約に依存する。フローチャートとして描写されるプロセス、フロー図、構造図、またはブロック図として、構成を記述してもよいことが注目される。フローチャートは、一連のプロセスとして動作を記述してもよいが、動作の多くは、並行または同時に実行できる。加えて、動作の順序は、並べ変えてもよい。プロセスは、その動作が完了するとき終了する。プロセスは、方法、関数、手続き、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、その終了は、呼出し関数または主関数への関数の戻りに対応する。

ハードウェアにおいて実現されるとき、さまざまな例は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラム可能ゲートアレイ信号（ＦＰＧＡ）または他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいはここで記述した機能を実行するために設計された、これらの任意の組み合わせを用いてもよい。汎用プロセッサはマイクロプロセッサでもよいが、代わりに、プロセッサは任意の従来のプロセッサ、制御装置、マイクロ制御装置、または状態遷移機械であってもよい。計算デバイスの組み合わせとして、例えば、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアに関連した１つ以上のマイクロプロセッサ、または他の任意のこのような構成として、プロセッサを実現してもよい。

ソフトウェアにおいて実現されるとき、さまざまな例は、ファームウェア、ミドルウェアまたはマイクロコードを用いてもよい。必要なタスクを実行するためのプログラムコードまたはコードセグメントが、記憶媒体または他の記憶装置のようなコンピュータ読み取り可能媒体中に記憶されていてもよい。プロセッサが必要なタスクを実行してもよい。コードセグメントは、手続き、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令の任意の組み合わせ、データ構造、またはプログラムのステートメントを表してもよい。情報、データ、引き数、パラメータ、またはメモリのコンテンツを渡し、および／または受け取ることにより、コードセグメントを、別のコードセグメントまたはハードウェア回路に結合してもよい。メモリの共有、メッセージ受渡し、トークンパッシング方式、ネットワーク送信などを含む任意の適切な手段を使用して、情報、引き数、パラメータ、データなどを渡し、転送し、または送信してもよい。

本出願中で使用されるような、用語“コンポーネント”、“モジュール”、“システム”、およびこれらに類似するものは、コンピュータ関連エンティティ、ハードウェア、ファームウェア、ハードウェアとソフトウェアとの組み合わせ、ソフトウェアまたは実行中のソフトウェアのいずれかを指すように意図されている。例えば、コンポーネントはプロセッサ上で実行するプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および／またはコンピュータであってもよいが、それだけに限られない。実例として、計算デバイス上で実行するアプリケーションと計算デバイスとの両方をコンポーネントとすることができる。１つ以上のコンポーネントが１つのプロセスおよび／または実行のスレッド内に存在してもよく、コンポーネントが１つのコンピュータ上にローカライズされてもよく、および／または２つ以上のコンピュータ間に分散されてもよい。また、これらのコンポーネントは、記憶されているさまざまなデータ構造を有するさまざまなコンピュータ読み取り可能媒体から実行できる。コンポーネントは、（例えば、ローカルシステム中の、分散システム中の別のコンポーネントと対話する１つのコンポーネントからのデータ、および／または、インターネットのようなネットワークを通して信号により他のシステムと対話する１つのコンポーネントからのデータのような）１つ以上のデータパケットを有する信号にしたがうような、ローカルおよび／またはリモートプロセスによって通信してもよい。

ここでの１つ以上の例において、記述した機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせ中で実現してもよい。ソフトウェアにおいて実現する場合、コンピュータ読み取り可能媒体上に、１つ以上の命令またはコードとして、機能を記憶させてもよく、または機能を送信してもよい。コンピュータ読み取り可能媒体は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を容易にする何らかの媒体を含む通信媒体との両方を含む。記憶媒体は、コンピュータによりアクセスできる任意の利用可能な媒体であってもよい。一例として、限定ではないが、そのようなコンピュータ読み取り可能媒体は，ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光学ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、命令またはデータ構造の形態で所望のプログラムコード手段を搬送または記憶するために使用でき、そして、コンピュータによりアクセスできる他の任意の媒体を備えることができる。さらに、いくつかの接続は、適切にコンピュータ読み取り可能媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア線、デジタル加入者線（ＤＳＬ）、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバまたは他のリモート情報源から送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア線、ＤＳＬ、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用されるディスク（Ｄｉｓｋおよびｄｉｓｃ）は、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタルバーサタイルディスク（ＤＶＤ）、フロッピー（登録商標）ディスク、およびブルーレイディスクを含み、ディスク（ｄｉｓｋ）は通常、磁気的にデータを再生し、一方、ディスク（ｄｉｓｃ）は、レーザにより光学的にデータを再生する。上述の組み合わせもまた、コンピュータ読み取り可能媒体の範囲内に含まれるべきである。ソフトウェアは、単一の命令、または、多くの命令を含んでいてもよく、いくつかの異なるコードセグメントに対して、異なるプログラム間に、および複数の記憶媒体にわたって分散されていてもよい。例示的な記憶媒体は、プロセッサに結合されていてもよく、それにより、プロセッサは、記憶媒体から情報を読み出すことができ、記憶媒体に情報を書き込むことができる。代替として、記憶媒体は、プロセッサと一体化していてもよい。

ここで開示した方法は、記述した方法を達成するために、１つ以上のステップまたは動作を含んでいる。方法のステップおよび／または動作は、特許請求の範囲から逸脱することなく、互いに置き換えられてもよい。すなわち、ステップまたは動作の特定の順序が、記述されている実施形態の適切な動作に対して必要とされない限り、特定のステップおよび／または動作の順序および／または使用は、特許請求の範囲から逸脱することなく修正してもよい。

図１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４および／または１５中で図示したコンポーネント、ステップ、および／または機能のうちの１つ以上は、単一のコンポーネント、ステップまたは機能に再編成され、および／または組み合わされてもよく、あるいは、いくつかのコンポーネント、ステップまたは機能において具現されてもよい。追加のエレメント、コンポーネント、ステップおよび／または機能を追加してもよい。図１、２、３、４、５、８、１３および１４中で図示した装置、デバイスおよび／またはコンポーネントは、図６ないし図７、図９ないし図１２、および図１５中で記述した方法、特徴またはステップのうちの１つ以上を実行するように構成または適合されていてもよい。ここで記述したアルゴリズムは、ソフトウェアにおいて効率的に実現されてもよく、および／またはハードウェアに埋め込まれていてもよい。

上述の構成は例に過ぎず、特許請求の範囲を限定するものとして解釈すべきでないことに注目すべきである。構成の記述は、実例であるように向けられており、特許請求の範囲を限定するように向けられていない。そのため、本教示は、他のタイプの装置に容易に適用でき、多くの代替、修正およびバリエーションが当業者に明らかになるであろう。

上述の構成は例に過ぎず、特許請求の範囲を限定するものとして解釈すべきでないことに注目すべきである。構成の記述は、実例であるように向けられており、特許請求の範囲を限定するように向けられていない。そのため、本教示は、他のタイプの装置に容易に適用でき、多くの代替、修正およびバリエーションが当業者に明らかになるであろう。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［１］スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを含む方法。
［２］前記ＤＣＴタイプの変換レイヤは、修正離散コサイン変換（ＭＤＣＴ）レイヤであり、前記変換スペクトルは、ＭＤＣＴスペクトルである上記［１］記載の方法。
［３］エンコードすることに先立って、１組のスペクトル帯域を落として、スペクトル帯域の数を低減させることをさらに含む上記［１］記載の方法。
［４］前記コードブックインデックスをエンコードすることは、少なくとも２つの隣接スペクトル帯域を、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含む上記［１］記載の方法。
［５］前記少なくとも２つの隣接スペクトル帯域をエンコードすることは、
スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含む上記［４］記載の方法。
［６］第１の記述子成分と第２の記述子成分とをペアでエンコードして、前記ペアワイズ記述子コードを取得することをさらに含む上記［５］記載の方法。
［７］前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード（ＶＬＣ）のうちの１つにマッピングする上記［５］記載の方法。
［８］オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、ＶＬＣコードブックが、記述子成分の各ペアに割り当てられる上記［７］記載の方法。
［９］前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記［８］記載の方法。
［１０］単一の記述子成分が、値ｋよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、前記値ｋよりも大きいコードブックインデックスに対して利用される上記［５］記載の方法。
［１１］各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる上記［５］記載の方法。
［１２］スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合されている離散コサイン変換（ＤＣＴ）タイプの変換レイヤモジュールと、
前記変換スペクトルを複数のスペクトル帯域に分割する帯域選択器であって、各スペクトル帯域は、複数のスペクトル線を有する帯域選択器と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するコードブック選択器であって、前記コードブックは、関連付けられたコードブックインデックスを有するコードブック選択器と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するベクトル量子化器と、
複数のコードブックインデックスを一緒にエンコードするコードブックインデックスエンコーダと、
前記ベクトルをエンコードするベクトル量子化インデックスエンコーダと、
量子化された変換スペクトルを表す、前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを送信する送信機とを具備するデバイス。
［１３］前記ＤＣＴタイプの変換レイヤモジュールは、修正離散コサイン変換（ＭＤＣＴ）レイヤモジュールであり、前記変換スペクトルは、ＭＤＣＴスペクトルである上記［１２］記載のデバイス。
［１４］前記コードブックインデックスエンコーダは、少なくとも２つの隣接スペクトル帯域に対するコードブックインデックスを、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードするように適合されている上記［１２］記載のデバイス。
［１５］前記コードブック選択器は、スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめるように適合されており、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別するコードブックインデックス識別器と、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得する記述子選択器モジュールとをさらに具備する上記［１４］記載のデバイス。
［１６］前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード（ＶＬＣ）のうちの１つにマッピングする上記［１４］記載のデバイス。
［１７］オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、ＶＬＣコードブックが、記述子成分の各ペアに割り当てられる上記［１６］記載のデバイス。
［１８］ケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得する手段であって、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得する手段と、
前記変換スペクトルを複数のスペクトル帯域に分割する手段であって、各スペクトル帯域は、複数のスペクトル線を有する手段と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択する手段であって、前記コードブックは、関連付けられたコードブックインデックスを有する手段と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得する手段と、
前記コードブックインデックスをエンコードする手段と、
前記ベクトル量子化インデックスをエンコードする手段と、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表す手段とを具備するデバイス。
［１９］スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
前記回路は、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合され、
前記変換スペクトルを複数のスペクトル帯域に分割するように適合され、各スペクトル帯域は、複数のスペクトル線を有し、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するように適合され、前記コードブックは、関連付けられたコードブックインデックスを有し、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するように適合され、
前記コードブックインデックスをエンコードするように適合され、
前記ベクトル量子化インデックスをエンコードするように適合され、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すように適合されているプロセッサ。
［２０］スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
１つ以上のプロセッサによって実行されるとき、前記命令は、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを前記プロセッサに生じさせる機械読み取り可能媒体。
［２１］スケーラブルなスピーチおよびオーディオコーデック中でデコードする方法において、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを含む方法。
［２２］前記ＩＤＣＴタイプの変換レイヤは、逆修正離散コサイン変換（ＩＭＤＣＴ）レイヤであり、前記変換スペクトルは、ＩＭＤＣＴスペクトルである上記［２１］記載の方法。
［２３］前記複数のエンコードされたコードブックインデックスをデコードすることは、
前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、
前記コードブックインデックスを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含む上記［２１］記載の方法。
［２４］前記記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる上記［２３］記載の方法。
［２５］単一の記述子成分は、値ｋよりも大きいコードブックインデックスに対して利用され、拡張コード成分は、前記値ｋよりも大きいコードブックインデックスに対して利用される上記［２４］記載の方法。
［２６］前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される上記［２１］記載の方法。
［２７］前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている上記［２６］記載の方法。
［２８］前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード（ＶＬＣ）のうちの１つにマッピングする上記［２６］記載の方法。
［２９］前記オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、ＶＬＣコードブックが、記述子成分の各ペアに割り当てられる上記［２８］記載の方法。
［３０］前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記［２６］記載の方法。
［３１］スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する受信機であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である受信機と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するコードブックインデックスデコーダと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するベクトル量子化インデックスデコーダと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する帯域合成器とを具備するデバイス。
［３２］前記ＩＤＣＴタイプの変換レイヤモジュールは、逆修正離散コサイン変換（ＩＭＤＣＴ）レイヤモジュールであり、前記変換スペクトルは、ＩＭＤＣＴスペクトルである上記［３１］記載のデバイス。
［３３］前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得する記述子識別器モジュールと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得する拡張コード識別器と、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得するコードブックインデックス識別器と、
前記コードブックインデックスと、対応するベクトル量子化インデックスとを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成するコードブック選択器とをさらに具備する上記［３１］記載のデバイス。
［３４］前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される上記［３１］記載のデバイス。
［３５］前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている上記［３４］記載のデバイス。
［３６］前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記［３４］記載のデバイス。
［３７］スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得する手段と、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得する手段と、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する手段とを具備するデバイス。
［３８］スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
前記回路は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するように適合され、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するように適合され、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得するように構成されているプロセッサ。
［３９］スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
１つ以上のプロセッサによって実行されるとき、前記命令は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを前記プロセッサに生じさせる機械読み取り可能媒体。

合衆国法典第３５部第１１９条に基づく優先権の主張

分野

背景

概要

詳細な説明

先に示したように、一連の可能なコードブックインデックス（ｎ）は、コードブックインデックス０とインデックス２との間に不連続を有し、実際に３６ほどの大きさであってもよい最大番号に続く。さらに、可能な値ｎの分布の統計分析は、すべてのケースの９０％以上が、小さい組のコードブックインデックスｎ＝｛０、２、３｝に集中していることを示す。したがって、値｛ｎ｝をエンコードするために、表２中で示すように、よりコンパクトな組の記述子においてそれらをマッピングすることが有利であるかもしれない。

ｎ≧４のすべての値が単一の記述子の値３にマッピングされることから、このマッピングは全単射ではない。この記述子の値３は、“エスケープコード”の目的を果たす：それは、コードブックインデックスｎの真の値は、記述子の後に送信される拡張コードを使用してデコードされるのを必要とすることを示す。可能な拡張コードの例は、表３中で示す典型的な単進コードであり、コードブックインデックス≧４の送信に対して使用できる。

さらに、記述子はペアでエンコードされてもよく、各ペアワイズ記述子コードは、表４中で図示するように割り当てられてもよい、３つの可能な可変長コード（ＶＬＣ）のうちの１つを有していてもよい。

記述子の各ペアに対して使用するＶＬＣコードブックの選択は、各帯域の位置およびエンコーダ／デコーダのレイヤ番号に部分的に基づいて実施できる。そのような可能な割り当ての例は表５中で示されており、ＶＬＣコードブック（例えば、コードブック０、１、または２）は、オーディオフレーム内のスペクトル帯域の位置（例えば、０／１、２／３、４／５、６／７、．．．）およびエンコーダ／デコーダのレイヤ番号に基づいて、スペクトル帯域に割り当てられる。

表５中で図示した例は、いくつかの例において、コードブックインデックスおよび／またはコードブックに対する記述子ペアの分布が、どのスペクトル帯域がオーディオフレーム内で処理されているか次第で、また、どのエンコーディングレイヤ（例えば、レイヤ３、４または５）がエンコーディングを実行しているか次第で変化することを認識する。その結果、使用されるＶＬＣコードブックは、オーディオフレーム内の（隣接帯域に対応する）記述子のペアの相対的な位置と、対応する帯域が属するエンコーディングレイヤとに依存してもよい。

図７は、ＭＤＣＴ埋め込み代数ベクトル量子化（ＥＡＶＱ）コードブックインデックスのエンコーディングを実行するエンコーディングアルゴリズムの１つの例を説明するフロー図である。ＭＤＣＴスペクトルオーディオフレームを表す複数のスペクトル帯域が取得される（７０２）。各スペクトル帯域は、複数のスペクトル線または変換係数を含んでいてもよい。スペクトル帯域の、連続した、または隣接するペアがスキャンされて、それらの特性が突きとめられる（７０４）。各スペクトル帯域の特性に基づいて、対応するコードブックインデックスがスペクトル帯域のそれぞれに対して識別される（７０６）。コードブックインデックスは、そのようなスペクトル帯域の特性を最良に表すコードブックを識別してもよい。すなわち、各帯域に対して、帯域中のスペクトル線を代表するコードブックインデックスが取得される。さらに、ベクトル量子化値またはインデックスが、各スペクトル帯域に対して取得される（７０８）。そのようなベクトル量子化値は、コードブック中の選択されたエントリ（例えば、コードブック内の再構成ポイント）へのインデックスを少なくとも部分的に提供してもよい。１つの例において、コードブックインデックスのそれぞれは、記述子成分および拡張コード成分に分割されるか、または分けられる（７１０）。例えば、第１のコードブックインデックスに対して、第１の記述子が表２から選択される。同様に、第２のコードブックインデックスに対して、第２の記述子もまた、表２から選択される。一般に、コードブックインデックスと記述子との間のマッピングは、可能なコードブックインデックスの分布の統計分析に基づいていてもよく、信号における大多数の帯域が、コードブックの、小さい番号（サブセット）に集中したインデックスを有する傾向がある。隣接（例えば、連続した）コードブックインデックスの記述子成分が次に、例えば、ペアワイズ記述子コードによる表４に基づいて、ペアとしてエンコードされる（７１２）。これらのペアワイズ記述子コードは、各ペアにおける記述子の値の量子化された組の典型的な確率分布に基づいていてもよい。記述子の各ペアに対して使用するＶＬＣコードブックの選択は、図４中で図示したように、各帯域の位置およびレイヤ番号に部分的に基づいて実施できる。さらに、拡張コード成分が、例えば、表３に基づいて、各コードブックインデックスに対して取得される（７１４）。ペアワイズ記述子コード、各コードブックインデックスに対する拡張コード成分、および各スペクトル帯域に対するベクトル量子化値は次に、送信または記憶される（７１６）。

記述子発生の例
図１０は、確率分布に基づいて、コードブックと記述子との間にマッピングを発生させる方法の例を説明するブロック図である。複数のスペクトル帯域がサンプリングされて、各スペクトル帯域の特性が突きとめられる（１０００）。サウンドおよびコードブックの定義の性質のために、小さいサブセットのコードブックが利用されやすいことを認識して、対象となっている信号に統計分析を実行して、より効率的に記述子を割り当ててもよい。したがって、サンプリングされた各スペクトル帯域は、複数のコードブックのうちの１つに関係付けられ、関係付けられたコードブックは、スペクトル帯域の特性のうちの少なくとも１つを表す（１００２）。複数のコードブックのそれぞれに関係付けられている、複数のサンプリングされたスペクトル帯域に基づいて、統計的確率が各コードブックに対して割り当てられる（１００４）。しきい値の確率よりも大きい統計的確率を有する複数のコードブックのそれぞれに対して、異なる個々の記述子も割り当てられる（１００６）。単一の記述子が次に、他の残りのコードブックに割り当てられる（１００８）。拡張コードが、単一の記述子が割り当てられたコードブックのそれぞれに関係付けられる（１０１０）。その結果、この方法を用いて、スペクトル帯域の十分に大きいサンプルを取得して、それにより、コードブックインデックスをより小さい組の記述子にマッピングする表（例えば、表２）を構築してもよい。さらに、拡張コードは、表３中に図示するような単進コードであってもよい。

図１１は、記述子値を発生させる方法の例を図示するブロック図である。例示的なスペクトル帯域のシーケンスＢ０．．．Ｂｎ１１０２に対して、コードブック１１０４が、各スペクトル帯域を表すために選択される。すなわち、スペクトル帯域の特性に基づいて、スペクトル帯域を最も厳密に表すコードブックが選択される。いくつかの構成において、各コードブックは、そのコードブックインデックス１１０６によって参照されてもよい。このプロセスを使用して、コードブックに対してスペクトル帯域の統計分布を発生させてもよい。この例において、コードブックＡ（例えば、すべてゼロのコードブック）が、２つのスペクトル帯域に対して選択され、コードブックＢが、１つのスペクトル帯域によって選択され、コードブックＣが、３つのスペクトル帯域に対して選択される、などである。その結果、最も頻繁に選択されるコードブックが識別されてもよく、異なる／個々の記述子値“０”、“１”、および“２”が、これらの頻繁に選択されるコードブックに割り当てられる。残りのコードブックには、単一の記述子値“３”が割り当てられる。この単一の記述子“３”によって表される帯域に対して、拡張コード１１１０を使用して、（例えば、表３のように）単一の記述子によって識別される特定のコードブックをより詳細に識別してもよい。この例において、コードブックＢ（インデックス１）は、記述子値の数を４つに低減させるために無視される。４つの記述子“０”、“２”、“３”および“４”は、２つのビットにマッピングして、表すことができる（例えば、表２）。コードブックの大部分は、単一の２ビットの記述子値“３”によって表されることから、この統計分布の収集は、さもなければ、例えば、３６個のコードブック（すなわち、６ビット）を表すために使用されるビットの数を低減させるのに役立つ。

ペアワイズ記述子コード発生の例
図１２は、スペクトル帯域に対する複数の記述子の確率分布に基づいて、ペアワイズ記述子コードへの記述子ペアのマッピングを発生させる方法の例を説明するブロック図である。（以前に記述したような）記述子値への複数のスペクトル帯域のマッピング後に、記述子値のペアに対して（例えば、オーディオフレームの、連続した、または隣接するスペクトル帯域に対して）、確率分布が決定される。隣接スペクトル帯域（例えば、２つの連続した帯域）に関係付けられている複数の記述子値（例えば、２つ）が取得される（１２００）。予期される確率分布が、記述子値の異なるペアに対して取得される（１２０２）。すなわち、記述子値の各ペア（例えば、０／０、０／１、０／２、０／３、１／０、１／１、１／２、１／３、２／０、２／１．．．３／３）が発生する尤度に基づいて、（例えば、２つの隣接する、または連続したスペクトル帯域に対して）最も発生しやすい記述子ペアから最も発生しにくい記述子ペアまでの分布を突きとめることができる。さらに、予期される確率分布は、オーディオフレーム内の特定の帯域の相対的な位置と、特定のエンコーディングレイヤ（例えば、Ｌ３、Ｌ４、Ｌ５など）とに基づいて収集されてもよい。次に、記述子値のペアの予期される確率分布と、オーディオフレーム中のそれらの相対的な位置と、エンコーダレイヤとに基づいて、異なる可変長コード（ＶＬＣ）が、記述子値の各ペアに割り当てられる（１２０４）。例えば、（特定のエンコーダレイヤおよびフレーム内の相対的な位置に対する）より高い確率の記述子ペアには、より低い確率の記述子ペアよりも短いコードが割り当てられてもよい。１つの例において、ハフマンコード化を使用して、可変長コードを発生させてもよく、（例えば、表４のように）より高い確率の記述子ペアには、より短いコードが割り当てられ、より低い確率の記述子ペアには、より長いコードが割り当てられる。

このプロセスを繰り返して、異なるレイヤに対して記述子の確率分布を取得してもよい（１２０６）。その結果、異なる可変長コードを、異なるエンコーダ／デコーダのレイヤにおける同じ記述子ペアに対して利用してもよい。複数のコードブックを利用して、可変長コードを識別してもよく、可変長コードを暗号化／復号化するためにどのコードブックを使用するかは、エンコード／デコードされている各スペクトル帯域の相対位置およびエンコーダのレイヤ番号に依存する（１２０８）。表５中で図示した例において、レイヤおよびエンコード／デコードされている帯域のペアの位置次第で、異なるＶＬＣコードブックを使用してもよい。

Claims

スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを含む方法。
前記ＤＣＴタイプの変換レイヤは、修正離散コサイン変換（ＭＤＣＴ）レイヤであり、前記変換スペクトルは、ＭＤＣＴスペクトルである請求項１記載の方法。
エンコードすることに先立って、１組のスペクトル帯域を落として、スペクトル帯域の数を低減させることをさらに含む請求項１記載の方法。
前記コードブックインデックスをエンコードすることは、少なくとも２つの隣接スペクトル帯域を、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含む請求項１記載の方法。
前記少なくとも２つの隣接スペクトル帯域をエンコードすることは、
スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含む請求項４記載の方法。
第１の記述子成分と第２の記述子成分とをペアでエンコードして、前記ペアワイズ記述子コードを取得することをさらに含む請求項５記載の方法。
前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード（ＶＬＣ）のうちの１つにマッピングする請求項５記載の方法。
オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、ＶＬＣコードブックが、記述子成分の各ペアに割り当てられる請求項７記載の方法。
前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている請求項８記載の方法。
単一の記述子成分が、値ｋよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、前記値ｋよりも大きいコードブックインデックスに対して利用される請求項５記載の方法。
各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる請求項５記載の方法。
スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合されている離散コサイン変換（ＤＣＴ）タイプの変換レイヤモジュールと、
前記変換スペクトルを複数のスペクトル帯域に分割する帯域選択器であって、各スペクトル帯域は、複数のスペクトル線を有する帯域選択器と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するコードブック選択器であって、前記コードブックは、関連付けられたコードブックインデックスを有するコードブック選択器と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するベクトル量子化器と、
複数のコードブックインデックスを一緒にエンコードするコードブックインデックスエンコーダと、
前記ベクトルをエンコードするベクトル量子化インデックスエンコーダと、
量子化された変換スペクトルを表す、前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを送信する送信機とを具備するデバイス。
前記ＤＣＴタイプの変換レイヤモジュールは、修正離散コサイン変換（ＭＤＣＴ）レイヤモジュールであり、前記変換スペクトルは、ＭＤＣＴスペクトルである請求項１２記載のデバイス。
前記コードブックインデックスエンコーダは、少なくとも２つの隣接スペクトル帯域に対するコードブックインデックスを、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードするように適合されている請求項１２記載のデバイス。
前記コードブック選択器は、スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめるように適合されており、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別するコードブックインデックス識別器と、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得する記述子選択器モジュールとをさらに具備する請求項１４記載のデバイス。
前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード（ＶＬＣ）のうちの１つにマッピングする請求項１４記載のデバイス。
オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、ＶＬＣコードブックが、記述子成分の各ペアに割り当てられる請求項１６記載のデバイス。
スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得する手段であって、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得する手段と、
前記変換スペクトルを複数のスペクトル帯域に分割する手段であって、各スペクトル帯域は、複数のスペクトル線を有する手段と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択する手段であって、前記コードブックは、関連付けられたコードブックインデックスを有する手段と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得する手段と、
前記コードブックインデックスをエンコードする手段と、
前記ベクトル量子化インデックスをエンコードする手段と、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表す手段とを具備するデバイス。
スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
前記回路は、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合され、
前記変換スペクトルを複数のスペクトル帯域に分割するように適合され、各スペクトル帯域は、複数のスペクトル線を有し、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するように適合され、前記コードブックは、関連付けられたコードブックインデックスを有し、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するように適合され、
前記コードブックインデックスをエンコードするように適合され、
前記ベクトル量子化インデックスをエンコードするように適合され、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すように適合されているプロセッサ。
スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
１つ以上のプロセッサによって実行されるとき、前記命令は、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを前記プロセッサに生じさせる機械読み取り可能媒体。
スケーラブルなスピーチおよびオーディオコーデック中でデコードする方法において、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを含む方法。
前記ＩＤＣＴタイプの変換レイヤは、逆修正離散コサイン変換（ＩＭＤＣＴ）レイヤであり、前記変換スペクトルは、ＩＭＤＣＴスペクトルである請求項２１記載の方法。
前記複数のエンコードされたコードブックインデックスをデコードすることは、
前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、
前記コードブックインデックスを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含む請求項２１記載の方法。
前記記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる請求項２３記載の方法。
単一の記述子成分は、値ｋよりも大きいコードブックインデックスに対して利用され、拡張コード成分は、前記値ｋよりも大きいコードブックインデックスに対して利用される請求項２４記載の方法。
前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される請求項２１記載の方法。
前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている請求項２６記載の方法。
前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード（ＶＬＣ）のうちの１つにマッピングする請求項２６記載の方法。
前記オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、ＶＬＣコードブックが、記述子成分の各ペアに割り当てられる請求項２８記載の方法。
前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている請求項２６記載の方法。
スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する受信機であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である受信機と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するコードブックインデックスデコーダと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するベクトル量子化インデックスデコーダと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する帯域合成器とを具備するデバイス。
前記ＩＤＣＴタイプの変換レイヤモジュールは、逆修正離散コサイン変換（ＩＭＤＣＴ）レイヤモジュールであり、前記変換スペクトルは、ＩＭＤＣＴスペクトルである請求項３１記載のデバイス。
前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得する記述子識別器モジュールと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得する拡張コード識別器と、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得するコードブックインデックス識別器と、
前記コードブックインデックスと、対応するベクトル量子化インデックスとを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成するコードブック選択器とをさらに具備する請求項３１記載のデバイス。
前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される請求項３１記載のデバイス。
前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている請求項３４記載のデバイス。
前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている請求項３４記載のデバイス。
スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得する手段と、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得する手段と、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する手段とを具備するデバイス。
スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
前記回路は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するように適合され、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するように適合され、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得するように構成されているプロセッサ。
スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
１つ以上のプロセッサによって実行されるとき、前記命令は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを前記プロセッサに生じさせる機械読み取り可能媒体。