JP2007531012A

JP2007531012A - 可逆マルチチャネル・オーディオ・コーデック

Info

Publication number: JP2007531012A
Application number: JP2007505046A
Authority: JP
Inventors: フェジゾ，ゾラン
Original assignee: ディー・ティー・エス，インコーポレーテッド
Priority date: 2004-03-25
Filing date: 2005-03-21
Publication date: 2007-11-01
Anticipated expiration: 2025-03-21
Also published as: JP4934020B2; US7272567B2; JP5551677B2; JP5593419B2; CN1961351A; US7392195B2; HK1105475A1; KR20120116019A; US20080021712A1; KR101307693B1; JP2013148935A; CN101027717B; RU2006137566A; JP2012078865A; ES2363932T3; US20050246178A1; ES2363346T3; CN101027717A; RU2387022C2; JP5599913B2

Abstract

可逆オーディオコーデックは、各セグメントを完全に復号可能とし且つ最大サイズ未満とすべきという制約に従って、圧縮性能を高めるように各フレームのオーディオデータをセグメント化する。フレーム毎に、コーデックは、セグメント持続時間、及び符号化パラメータ、例えば、特定のエントロピ符号器及びそのパラメータを選択し、制約に従ってフレーム全体の符号化ペイロードを最小にする。チャネル毎に異なる組の符号化パラメータを選択しても、全チャネルに対してグローバルな１組の符号化パラメータを選択してもよい。Ｍチャネルのオーディオに対して、Ｍ／２個の無相関化チャネルを形成して、圧縮性能を更に高められ得る。チャネルの３つ組「基底、相関化、無相関化」は、圧縮性能を更に高めるためのセグメント化およびエントロピー符号化の最適化の際に考慮され得る可能な２つの対の組合せ「基底、相関化」及び「基底、無相関化」を提供する。

Description

本願は、米国特許法第１１９条（ｅ）に基づき、２００４年３月２５日に出願された「ＢａｃｋｗａｒｄＣｏｍｐａｔｉｂｌｅＬｏｓｓｌｅｓｓＡｕｄｉｏＣｏｄｅｃ」と題される米国特許仮出願第６０／５６６１８３号の優先権の利益を主張するものであり、その内容全体が参照により組み込まれる。

本発明は、可逆オーディオ・コーデックに関し、より詳細には、圧縮性能が改善された可逆マルチチャネル・オーディオ・コーデックに関する。

多数の低ビット・レートの不可逆オーディオ符号化システムが、広範囲の民生用及びプロ用のオーディオ再生の製品及びサービスで現在使用されている。例えば、ドルビー（登録商標）ＡＣ３（ドルビー（登録商標）・デジタル）オーディオ符号化システムは、６４０キロビット／秒までのビット・レートを使用する、レーザ・ディスク、ＮＴＳＣ符号化ＤＶＤビデオ及びＡＴＶ用のステレオ及び５．１チャネル・オーディオ・サウンド・トラックを符号化するための世界標準である。ＭＰＥＧＩ及びＭＰＥＧＩＩオーディオ符号化標準は、７６８キロビット／秒までのビット・レートで、ＰＡＬ符号化ＤＶＤビデオ、ヨーロッパでの地上デジタル無線放送、及び米国での衛星放送をステレオ及びマルチチャネル・サウンド・トラック符号化するために広く使用されている。ＤＴＳ（デジタル・シアター・システム）コヒーレント・アコースティックス・オーディオ符号化システムは、コンパクト・ディスク、ＤＶＤビデオ、ヨーロッパでの衛星放送、及びレーザ・ディスク用の、１５３６キロビット／秒までのビット・レートでの、スタジオ品質の５．１チャネル・オーディオ・サウンド・トラックに頻繁に使用される。

最近、多くの消費者が、こうしたいわゆる「可逆（lossless、ロスレス）」コーデックに興味を示してきている。「可逆」コーデックは、いかなる情報も破棄せずにデータを圧縮し、（デジタル化された）ソース信号と同一の復号信号を生成するアルゴリズムを用いる。そのようなコーデックでは典型的に不可逆コーデックよりも帯域幅を必要とし、データを圧縮する度合いが低い、という犠牲をこの実施は伴う。

図１は、単一オーディオ・チャネルを可逆圧縮するのに関与する動作を表現するブロック図である。マルチチャネル・オーディオにおける各チャネルは一般に独立ではないが、依存性は弱いことが多く、考慮するのは困難である。従って、各チャネルは典型的には別々に圧縮される。しかしながら、符号器によっては、単純な残差信号を形成し、符号化する（Ｃｈ１、Ｃｈ１−Ｃｈ２）ことによって、相関を除去しようと試みる。より高度な複雑な手法では、例えば、チャネル次元上の幾つかの連続する正射影ステップを行う。すべての技法は、まず信号から冗長性を除去し、次にその結果得られる信号を効率的なデジタル符号化方式を用いて符号化する、という原理に基づいている。可逆コーデックは、ＭＬＰ（ＤＶＤオーディオ）、Ｍｏｎｋｅｙ’ｓＡｕｄｉｏ（コンピュータ用途）、ＡｐｐｌｅＬｏｓｓｌｅｓｓ、Ｗｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＰｒｏＬｏｓｓｌｅｓｓ、ＡｕｄｉｏＰａｋ、ＤＶＤ、ＬＴＡＣ、ＭＵＳＩＣｃｏｍｐｒｅｓｓ、ＯｇｇＳｑｕｉｓｈ、Ｐｈｉｌｉｐｓ、Ｓｈｏｒｔｅｎ、Ｓｏｎａｒｃ、及びＷＡを含む。こうしたコーデックのうちの多くに関する検討が、ＭａｔＨａｎｓ、ＲｏｎａｌｄＳｃｈａｆｅｒの「ＬｏｓｓｌｅｓｓＣｏｍｐｒｅｓｓｉｏｎｏｆＤｉｇｉｔａｌＡｕｄｉｏ」、ＨｅｗｌｅｔｔＰａｃｋａｒｄ、１９９９年で提供されている。

編集を可能にするためにフレーム化１０が導入されるが、純粋にデータ量のために、編集される領域の前にある信号全体を繰り返して圧縮解除することはできない。オーディオ信号は、等しい持続時間（期間）の独立のフレームに分割される。この持続時間は、短すぎるべきではない。なぜなら、各フレームの先頭に付けられるヘッダによって、著しいオーバヘッドが生じることがあるからである。逆に、フレーム持続時間は、長すぎるべきではない。なぜなら、この持続時間が、時間的な適応性を制限し、編集をより困難にすることになるからである。多くの用途では、フレーム・サイズは、オーディオが転送される媒体のピーク・ビット・レートと、復号器のバッファ容量と、各フレームを独立に復号可能にさせることの望ましさとによって、制限される。

チャネル内無相関化１２では、フレーム内の各チャネル中のオーディオ・サンプルを無相関化（decorrelate）することによって、冗長性を除去する。大部分のアルゴリズムは、何らかのタイプの、信号の線形予測モデリングによって、冗長性を除去する。この手法では、線形予測子（linear predictor）が、各フレーム内のオーディオ・サンプルに適用され、その結果、一連の予測誤差サンプルが得られる。第２の、より一般的ではない手法は、信号の低ビット・レート量子化の又は不可逆の表現を得て、次に不可逆バージョンと元のバージョンとの差を可逆圧縮する。エントロピー符号化１４では、いかなる情報も失わずに、残差信号からの誤差から冗長性を除去する。典型的な方法は、ハフマン符号化、ランレングス符号化、及びライス符号化を含む。出力は、可逆再構築され得る圧縮信号である。

既存のＤＶＤ仕様及び暫定的なＨＤＤＶＤ仕様では、１データ・アクセス単位のサイズに対するハード・リミットを設定している。１データ・アクセス単位は、抽出された後に、完全に復号され得且つその再構築されたオーディオ・サンプルが出力バッファへ送信され得る、オーディオ・ストリームの一部を表す。可逆ストリームに関してこのことが意味するのは、各アクセス単位が表すことのできる時間量は、ピーク・ビット・レートの最悪のケースでも符号化されたペイロード（encoded payload、符号化ペイロード）がハード・リミットを超えないだけ、十分に小さい必要がある、ということである。ピーク・ビット・レートを増大させることになる、サンプリング・レートの増大及びチャネル数の増大のために、持続時間が低減される必要もある。

互換性を確保するために、こうした既存の符号器では、最悪のケースのチャネル／サンプリング周波数／ビット幅構成におけるハード・リミットを超えないように、フレーム全体の持続時間を十分短く設定する必要が生じる。大部分の構成では、これが過剰となり、圧縮性能を著しく低下させることがある。更に、この最悪のケースについての手法では、追加のチャネルとうまくスケーリングがなされない。

本発明は、独立に復号可能な各データ単位に対する最大サイズの制約に従って圧縮性能が最適化される、可逆オーディオ・コーデックを提供する。

可逆オーディオ・コーデックは、各セグメントが完全に復号可能であり且つ最大サイズ未満でなければならないという制約に従って、圧縮性能を高めるように、各フレーム内のオーディオ・データをセグメント化する。各フレームごとに、コーデックは、セグメント持続時間、及び各セグメントごとの符号化パラメータ、例えば、特定のエントロピー符号器及びそのパラメータを選択し、それにより、制約に従って、フレーム全体での符号化ペイロードを最小にする。各チャネルごとに、異なる組の符号化パラメータが選択されてよく、或いは、すべてのチャネルに対してグローバルな１組の符号化パラメータが選択されてもよい。Ｍチャネルのオーディオに対して、Ｍ／２個の無相関チャネルを形成することによって、圧縮性能が更に高められ得る。チャネル（基底、相関化、無相関化）の３つ組（トリプレット）は、圧縮性能を更に高めるために、セグメント化およびエントロピー符号化の最適化の時に考慮され得る可能な２つの対の組合せ「基底、相関化」及び「基底、無相関化」を提供する。チャネル対（チャネル・ペア）は、セグメントごと又はフレームごとに指定されてよい。

例示的な一実施形態では、符号器は、オーディオ・データをフレーム化し、次に、基底チャネル（basis channel）及び相関化チャネル（correlated channel、相関したチャネル）を含む順になったチャネル・ペアを抽出し、無相関化チャネル（decorrelated channel、相関していないチャネル）を生成して、少なくとも１つの三つ組（トリプレット）「基底、相関化、無相関化」を形成する。チャネル数が奇数の場合、追加の基底チャネルが処理される。各チャネルに、適応予測又は固定多項式予測が適用されて、残差信号を形成する。

符号器は、まずフレームを最大数の最小持続時間のセグメントに区分化（パーティション化）することによって、セグメント持続時間、フレームに対するチャネル・ペア（「基底、相関化」又は「基底、無相関化」）、並びに各セグメントごとの符号化パラメータの組（エントロピー符号選択及びパラメータ）を決定する。１又は複数のエントロピー符号器（２進、ライス、ハフマンなど）用のパラメータを計算し、各セグメントごとに各チャネル（基底、相関化、無相関化）についての最小の符号化ペイロードとなる符号器及びパラメータを選択することによって、現在のパーティションでの最適な符号化パラメータが決定される。各トリプレットに対して、最小の符号化ペイロードとなるチャネル・ペア「基底、相関化」又は「基底、無相関化」が選択される。選択されたチャネル・ペアを使用して、すべてのチャネルにわたって各セグメントごとに、グローバルな符号化パラメータの組が決定され得る。符号器は、グローバルな１組の符号化パラメータ又は異なる複数組の符号化パラメータを、どちらが最小の総符号化ペイロード（ヘッダ及びオーディオ・データ）を有するかに基づいて、選択する。

現在のパーティションに対する最適な符号化パラメータ組及びチャネル・ペアが決定された後、符号器は、すべてのチャネルにわたって各セグメント中の符号化ペイロードを計算する。最大セグメント・サイズに対する制約が満たされると仮定すると、符号器は、現在のパーティションに関するフレーム全体での総符号化ペイロードが、前のパーティションに関する現在の最適条件未満であるかどうかを判定する。真の場合、現在の符号化パラメータ組及び符号化ペイロードが記憶され、セグメント持続時間が増加される。このプロセスは、セグメント・サイズが最大サイズ制約に違反するまで、又はセグメント持続時間が増加してフレーム持続時間に達するまで、繰り返す。符号器は、選択されたチャネル・ペアの各オーディオ・チャネル及び対にされていないすべてのチャネル中の残差信号を、エントロピー符号化する（選択されたエントロピー符号器及びパラメータを使用する）。

本発明の上記及びその他の特徴及び利点は、添付の図面と併せて、好ましい実施形態の以下の詳細な説明から、当業者には明らかになるであろう。

本発明は、独立に復号可能な各データ単位に対する最大サイズの制約に従って圧縮性能が最適化される、可逆オーディオ・コーデックを提供する。オーディオ符号器は、マルチチャネル・オーディオでのチャネル数が増加し続けるにつれて、スケーリングを行う。

可逆オーディオ・コーデック
図２ａ及び図２ｂに示されているように、基本的な動作ブロックは、セグメント化及びエントロピー符号選択を除き、既存の可逆符号器及び復号器と同様である。マルチチャネルＰＣＭオーディオ２０は、分析ウィンドウ処理２２にかけられ、この分析ウィンドウ処理では、フレーム内の各チャネル中のオーディオ・サンプルを無相関化することによって、一定の持続時間のフレームにデータをブロック化し、冗長性を除去する。残差信号を直接にエントロピー符号化する代わりに、本発明では、最適なセグメント化及びエントロピー符号選択プロセス２４を実行する。このプロセスは、データを複数のセグメントにセグメント化し、セグメント持続時間、及び各セグメントごとの符号化パラメータ、例えば、特定のエントロピー符号器及びそのパラメータの選択を決定し、それにより、各セグメントが完全に復号可能であり且つ最大サイズ未満でなければならないという制約に従って、フレーム全体での符号化ペイロードを最小にする。それぞれの異なるチャネルに対して符号化パラメータの組が最適化され、また、グローバルな符号化パラメータの組に対して最適化されてもよい。次に、その特定の組の符号化パラメータに従って、各セグメントがエントロピー符号化２６される。符号化されたデータ及びヘッダ情報は、ビット・ストリーム３０へとパック２８される。

図３に示されているように、ヘッダ３２は、セグメント化及びエントロピー符号選択を実装するために、可逆コーデックに通常提供されるものに加えて追加の情報も含む。より具体的には、ヘッダは、セグメント数（ＮｕｍＳｅｇｍｅｎｔｓ）や各セグメント中のサンプル数（ＮｕｍＳａｍｐｌｅｓＩｎＳｅｇｍ）などの共通のヘッダ情報３４、量子化無相関係数（ＱｕａｎｔＣｈＤｅｃｏｒｒＣｏｅｆｆ［］［］）などのチャネル・セット・ヘッダ情報３６及びそのチャネル・セットに関する現在のセグメント中のバイト数（ＣｈＳｅｔＢｙｔｅＣＯｎｓ）などのセグメント・ヘッダ情報３８、グローバル最適化フラグ（ＡｌｌＣｈＳａｍｅＰａｒａｍＦｌａｇ）、並びにライス符号化又は２進符号化のどちらが使用されるか及び符号化パラメータを示すエントロピー符号器フラグ（ＲｉｃｅＣｏｄｅＦｌａｇ［］、ＣｏｄｅＰａｒａｍ［］）を含む。

図２ｂに示されているように、復号動作を実施するために、ビット・ストリーム３０がアンパック４０されて、ヘッダ情報及び符号化データを抽出する。割り当てられた符号化パラメータに従って、各チャネルの各セグメントに対してエントロピー復号４２が実行されて、残差信号を可逆再構築する。次に、これらの信号は、逆分析ウィンドウ処理４４にかけられ、この処理では、予測と逆の処理（逆予測）を実行して、元のＰＣＭオーディオ２０を可逆再構築する。

分析ウィンドウ（analysis window）処理
図４ａ及び４ｂに示されているように、分析ウィンドウ処理２２の例示的な一実施形態では、適応予測（adaptive prediction）４６又は固定多項式予測（fixed polynomial prediction）４８を選択して各チャネルを無相関化するが、これは、かなり一般的な手法である。後に図６を参照して詳細に述べるように、各チャネルごとに、最適な予測子次数（predictor order）が推定される。その次数（order）がゼロよりも大きい場合、適応予測が適用される。そうでない場合は、より単純な固定多項式予測が使用される。同様に、復号器では、逆分析ウィンドウ処理（分析ウィンドウ処理の逆の処理）４４が、逆適応予測（適応予測の逆の処理）５０又は逆固定多項式予測（固定多項式予測の逆の処理）５２を選択して、残差信号からＰＣＭオーディオを再構築する。適応予測子次数及び適応予測係数インデックス、並びに固定予測子次数が、チャネル・セット・ヘッダ情報へとパック５３される。

相互チャネル（cross-channel）無相関化
本発明によれば、圧縮性能は、相互チャネル無相関化５４を実施することによって、更に高められ得る。この相互チャネル無相関化は、Ｍ個の入力チャネルを、チャネル間の相関尺度に従って、チャネル・ペアに配列する。チャネルのうちの一方が、「基底（basis）」チャネルと呼ばれ、他方が「相関化（correlated）」チャネルと呼ばれる。それぞれのチャネル・ペアごとに無相関化チャネルが生成されて、「トリプレット」（基底、相関化、無相関化）を形成する。トリプレット（三つ組）を形成することで、更に圧縮性能を高めるために、セグメント化及びエントロピー符号化の最適化中に考慮され得る、可能な２つの対組合せ「基底、相関化」及び「基底、無相関化」を得る（図８ａ参照）。より単純であるがより効果の少ない手法としては、例えば、その差異が小さかった場合には、相関化チャネルを無相関化チャネルで置き換える手法がある。

元のＭチャネルＰＣＭ２０及びＭ／２チャネル無相関化ＰＣＭ５６は、どちらも適応予測及び固定多項式予測の処理に転送され、これらは、各チャネルごとに残差信号を生成する。図３に示されているように、ペアごとの無相関化プロセス中に実行されるソートの前のチャネルの元の順序を示すインデックス（ＯｒｉｇＣｈＯｒｄｅｒ［］）、及び量子化された無相関係数用の符号の存在を示す各チャネル・ペアごとのフラグＰＷＣｈＤｅｃｏｒｒＦｌａｇ［］が、図３のチャネル・セット・ヘッダ３６に記憶される。

図４ｂに示されているように、逆分析ウィンドウ処理４４の復号動作を実行するために、ヘッダ情報をアンパック５８し、そして、ヘッダ情報、即ち、各チャネルごとの適応及び固定予測子次数に従って、残差が、逆固定多項式予測５２又は逆適応予測５０の処理を経由する。Ｍチャネル無相関化ＰＣＭオーディオ（Ｍ／２チャネルはセグメント化中に破棄される）は、逆相互チャネル無相関化（相互チャネル無相関化の逆）６０の処理を経由し、この逆相互チャネル無相関化では、ＯｒｉｇＣｈＯｒｄｅｒ［］インデックス及びＰＷＣｈＤｅｃｏｒｒＦｌａｇｇ［］フラグをチャネル・セット・ヘッダから読み取り、ＭチャネルＰＣＭオーディオ２０を可逆に再構築する。

相互チャネル無相関化５４を実行する例示的なプロセスが、図５に示されている。例を挙げると、ＰＣＭオーディオが、Ｍ＝６個の異なるチャネルＬ、Ｒ、Ｃ、Ｌｓ、Ｒｓ、及びＬＦＥとして提供され、これはまた、フレーム内に記憶された１つのチャネル・セット構成にも直接に対応する。その他のチャネル・セットは、例えば、７．１サラウンド・オーディオを生成するための、左のセンタ後方サラウンド及び右のセンタ後方サラウンドであり得る。このプロセスは、まず最初にフレーム・ループを開始し、チャネル・セット・ループを開始する（ステップ７０）。各チャネルのゼロ遅延自己相関推定値（ステップ７２）、及びチャネル・セット中のチャネル・ペアのすべての可能な組合せに対するゼロ遅延相互相関推定値（ステップ７４）が、計算される。次に、チャネル・ペアごとの相関係数ＣＯＲＣＯＥＦが、ゼロ遅延相互相関推定値を、その対中の関与するチャネルに関するゼロ遅延自己相関推定値の積で除算したものとして、概算される（ステップ７６）。これらのＣＯＲＣＯＥＦは、最大の絶対値から最小の絶対値の順にソートされ、テーブルに記憶される（ステップ７８）。テーブルの一番上から、すべてのペアが構成されるまで、対応するチャネル・ペア・インデックスが抽出される（ステップ８０）。例えば、６つのチャネルが、それらのＣＯＲＣＯＥＦに基づいて、（Ｌ、Ｒ）、（Ｌｓ、Ｒｓ）、及び（Ｃ、ＬＦＥ）として対にされ得る。

このプロセスでは、チャネル・ペア・ループを開始し（ステップ８２）、より小さいゼロ遅延自己相関推定値をもつものとして「基底」チャネルを選択し、これは、より低いエネルギを示すものである（ステップ８４）。この例では、Ｌ、Ｌｓ及びＣチャネルが基底チャネルを形成する。チャネル・ペア無相関係数（ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ）は、ゼロ遅延相互相関推定値を、基底チャネルのゼロ遅延自己相関推定値で除算したものとして計算される（ステップ８６）。無相関化チャネルは、基底チャネル・サンプルにＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆを乗算し、その結果を、相関化チャネルの対応するサンプルから減算することによって、生成される（ステップ８８）。チャネル・ペア及びそれらの関連した無相関化チャネルは、「トリプレット」（Ｌ、Ｒ、Ｒ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［１］＊Ｌ）、（Ｌｓ、Ｒｓ、Ｒｓ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［２］＊Ｌｓ）、（Ｃ、ＬＦＥ、ＬＦＥ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［３］＊Ｃ）を定義する（ステップ８９）。各チャネル・ペア（及び各チャネル・セット）のＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［］と、ペア構成を定義するチャネル・インデックスとが、チャネル・セット・ヘッダ情報に記憶される（ステップ９０）。このプロセスは、フレーム内の各チャネル・セットごとに、次いでウィンドウ化ＰＣＭオーディオ中の各フレームごとに、繰り返す（ステップ９２）。

適応予測（adaptive prediction）
適応予測分析及び残差生成
線形予測では、オーディオ信号のサンプル間の相関を除去しようと試みる。線形予測の基本的原理は、前のサンプルｓ（ｎ−１）、ｓ（ｎ−２）、．．．、を使用してサンプルｓ（ｎ）の値を予測し、予測された値

を元のサンプルｓ（ｎ）から減算するものである。その結果得られる残差信号

は理想的には、無相関となり、従って平坦な周波数スペクトルを有することになる。更に、残差信号は、より小さい差異を有することになり、その結果、元の信号は、そのデジタル表現のために必要なビットが少なくなることを示唆する。

オーディオ・コーデックの例示的な一実施形態では、ＦＩＲ予測子モデルが次式で表される。

上記の式で、Ｑ｛｝は量子化演算を表し、Ｍは予測子次数を表し、ａ_ｋは量子化予測係数である。可逆圧縮には特定の量子化Ｑ｛｝が必要である。なぜなら、元の信号は、様々な有限の精度のプロセッサ・アーキテクチャを使用して、復号側で再構築されるからである。Ｑ｛｝の定義は、符号器と復号器との両方に利用可能であり、元の信号の再構築は単に次式によって得られる。

上記の式で、同じａ_ｋ量子化予測係数が、符号器と復号器との両方に利用可能であると仮定されている。各分析ウィンドウ（フレーム）ごとに新しい予測子パラメータの組が伝送され、それにより、この予測子が、時間変化するオーディオ信号構造に適合することが可能になる。

予測係数は、平均２乗予測残差を最小にするように設計される。量子化Ｑ｛｝により、予測子は非線形予測子になる。しかしながら、この例示的な実施形態では、量子化は２４ビット精度で行われ、その結果得られる非線形効果は、予測子係数最適化中は無視されてよいと想定するのが妥当である。量子化Ｑ｛｝を無視すると、根底にある最適化問題は、信号自己相関シーケンスの遅延及び未知の予測子係数を伴う１次方程式の組として表され得る。この１組の１次方程式は、レビンソン−ダービン（ＬＤ）アルゴリズムを使用して効率的に解決され得る。

その結果得られる線形予測係数（ＬＰＣ）は、符号化ストリームで効率的に伝送され得るように、量子化される必要がある。残念ながら、ＬＰＣの直接的な量子化は、最も効率的な手法ではない。なぜなら、小さい量子化誤差が、大きいスペクトル誤差を生じさせることがあるからである。ＬＰＣの代替表現が反射係数（ＲＣ）表現であり、これは、量子化誤差に対する感度が低い。また、この表現は、ＬＤアルゴリズムからも得られ得る。ＬＤアルゴリズムの定義により、ＲＣは、１以下の大きさを有することが保証されている（数値的誤差は無視する）。ＲＣの絶対値が１に近いときは、量子化ＲＣに存在する量子化誤差に対する線形予測の感度が高くなる。その解決策は、１近くでより微細な量子化ステップを用いて、ＲＣの非一様な量子化を行うことである。これは、以下の２つのステップで実施できる。
１）次のマッピング関数によって、ＲＣを対数面積比（log-area ratio）（ＬＡＲ）表現に変換する。

ここで、ｌｏｇは、自然対数を表す。

２）ＬＡＲを一様に量子化する。
ＲＣからＬＡＲへの変換は、ステップ１及び２の結果が１付近で微細な量子化ステップを用いた非一様な量子化と同等になるように、パラメータの振幅スケールをラップ（wrap）させる。

図６ａに示されているように、適応予測分析の例示的な一実施形態では、適応予測子パラメータを表現するために、量子化ＬＡＲパラメータが使用され、符号化ビット・ストリームで伝送される。各入力チャネルのサンプルは互いに独立して処理され、従って、ここでの説明では、単一チャネルの処理についてのみ考慮することにする。

第１のステップでは、分析ウィンドウ（フレーム）の持続時間にわたって自己相関シーケンスを計算する（ステップ１００）。フレーム境界での不連続によって生じるブロック化の影響を最小にするために、データがまずウィンドウ化される。指定された数の遅延（最大ＬＰ次数＋１に等しい）に対する自己相関シーケンスが、ウィンドウ化されたデータ・ブロックから推定される。

１組の推定された自己相関遅延に、レビンソン−ダービン（ＬＤ）アルゴリズムが適用され、最大ＬＰ次数までの、１組の反射係数（ＲＣ）が計算される（ステップ１０２）。その（ＬＤ）アルゴリズムの中間結果は、最大ＬＰ次数までの、それぞれの線形予測次数ごとの予測残差の推定された分散（variance）の組である。次のブロックで、この１組の残差の分散を使用して、線形予測子（ＰｒＯｒ）次数が選択される（ステップ１０４）。

選択された予測子次数に対して、前述のマッピング関数を使用して、１組の反射係数（ＲＣ）が、１組の対数面積比パラメータ（ＬＡＲ）に変換される（ステップ１０６）。０による除算を回避するために、変換前にＲＣの制限が導入される。

ここで、Ｔｒｅｓｈは、１に近いがそれ未満の数を表す。ＬＡＲパラメータは、次のルールに従って量子化される（ステップ１０８）。

ここで、ＱＬＡＲＩｎｄは、量子化されたＬＡＲインデックスを表し、

は、ｘ以下の最大の整数値を発見する演算を表し、ｑは、量子化ステップ・サイズを表す。例示的な実施形態では、領域［−８〜８］が、８ビット、即ち

を使用して符号化され、従って、ＱＬＡＲＩｎｄが、次式に従って制限される。

パック（ステップ１１０）する前に、次のマッピングを使用して、ＱＬＡＲＩｎｄが、符号付きの値から符号なしの値へと変換される。

「ＲＣＬＵＴ」ブロックでは、参照テーブルを使用して、単一ステップで、ＬＡＲパラメータの量子化の逆の処理（逆量子化）及びＲＣパラメータへの変換が行われる（ステップ１１２）。参照テーブルは、次式によって与えられる、ＲＣからＬＡＲへのマッピングの逆、即ち、ＬＡＲからＲＣへのマッピングの量子化値からなる。

参照テーブルは、０、１．５＊ｑ、２．５＊ｑ、．．．、１２７．５＊ｑと等しいＬＡＲの量子化値で計算される。対応するＲＣ値は、２^１６のスケーリング後、１６ビット符号なし整数に丸められ、Ｑ１６符号なし固定小数点数として１２８エントリのテーブルに記憶される。

そのテーブル及び量子化ＬＡＲインデックスＱＬＡＲＩｎｄから、量子化ＲＣパラメータが、次式のように計算される。

量子化ＲＣパラメータＱＲＣ_ｏｒｄ（ｏｒｄ＝１、．．．、ＰｒＯｒ）は、次のアルゴリズムに従って、量子化線形予測パラメータ（ＬＰ_ｏｒｄ（ｏｒｄ＝１、．．．、ＰｒＯｒ））に変換される（ステップ１１４）。

Ｆｏｒｏｒｄ＝０ｔｏＰｒＯｒ−１ｄｏ
Ｆｏｒｍ＝１ｔｏｏｒｄｄｏ
Ｃ_{ｏｒｄ＋１，ｍ}＝Ｃ_{ｏｒｄ，ｍ}＋（ＱＲＣ_{ｏｒｄ＋１}＊Ｃ_{ｏｒｄ，ｏｒｄ＋１−ｍ}＋（１＜＜１５））＞＞１６
ｅｎｄ
Ｃ_{ｏｒｄ＋１，ｏｒｄ＋１}＝ＱＲＣ_{ｏｒｄ＋１}
ｅｎｄ
Ｆｏｒｏｒｄ＝０ｔｏＰｒＯｒ−１ｄｏ
ＬＰ_{ｏｒｄ＋１}＝Ｃ_{ＰｒＯｒ，ｏｒｄ＋１}
ｅｎｄ

量子化ＲＣ係数は、Ｑ１６符号付き固定小数点フォーマットで表現されたので、上記のアルゴリズムは、Ｑ１６符号付き固定小数点フォーマットでもＬＰ係数を生成する。可逆復号器の計算経路は、２４ビットの中間結果までサポートするように設計される。従って、Ｃ_{ｏｒｄ＋１，ｍ}が計算されるたびに、飽和チェックを実行する必要がある。このアルゴリズムの何れかの段階で飽和が生じた場合、飽和フラグが設定され、特定のチャネルに対する適応予測子次数ＰｒＯｒが、０にリセットされる（ステップ１１６）。ＰｒＯｒ＝０であるこの特定のチャネルでは、適応予測の代わりに、固定係数予測が実行される（「固定係数予測」を参照）。符号なしＬＡＲ量子化インデックス（ＰａｃｋＬＡＲＩｎｄ［ｎ］（ｎ＝１、．．．、ＰｒＯｒ［Ｃｈ］））は、ＰｒＯｒ［Ｃｈ］＞０であるチャネルについてのみ、符号化ストリームにパックされることに留意されたい。

最後に、ＰｒＯｒ＞０である各チャネルに対して適応線形予測が実行され、次式に従って、予測残差ｅ（ｎ）が計算される（ステップ１１８）。

この例示的な実施形態における設計の目標は、すべてのフレームが「ランダム・アクセス点」となることなので、サンプル履歴は、フレーム間にわたって引き継がれない。その代わりに、予測は、フレーム内のＰｒＯｒ＋１サンプルにおいてのみ関わる。

適応予測残差ｅ（ｎ）は、更に、エントロピー符号化され、符号化ビット・ストリームへとパックされる。

復号側での逆適応予測
復号側において、適応予測の逆の処理（逆適応予測）を実行する最初のステップでは、ヘッダ情報をアンパックし、各チャネルＣｈ＝１、．．．、ＮｕｍＣｈについての適応予測次数ＰｒＯｒ［Ｃｈ］を抽出する（ステップ１２０）。次に、ＰｒＯｒ［Ｃｈ］＞０であるチャネルに対して、符号なしバージョンのＬＡＲ量子化インデックス（ＰａｃｋＬＡＲＩｎｄ［ｎ］（ｎ＝１、．．．、ＰｒＯｒ［Ｃｈ］））が抽出される。予測次数ＰｒＯｒ［Ｃｈ］＞０である各チャネルＣｈに対して、次のマッピングを使用して、符号なしＰａｃｋＬＡＲＩｎｄ［ｎ］が、符号付き値ＱＬＡＲＩｎｄ［ｎ］にマッピングされる。

上記の式で、「＞＞」は、整数の右シフト演算を表す。

ＱｕａｎｔＲＣＬＵＴを使用して、単一ステップで、ＬＡＲパラメータの逆量子化及びＲＣパラメータへの変換が行われる（ステップ１２２）。これは、符号化側で定義されたのと同じ参照テーブルＴＡＢＬＥ｛｝である。各チャネルＣｈごとの量子化反射係数（ＱＲＣ［ｎ］（ｎ＝１、．．．、ＰｒＯｒ［Ｃｈ］））が、ＴＡＢＬＥ｛｝及び量子化ＬＡＲインデックスＱＬＡＲＩｎｄ［ｎ］から、次式のように計算される。

各チャネルＣｈについて、次のアルゴリズムに従って、量子化ＲＣパラメータＱＲＣ_ｏｒｄ（ｏｒｄ＝１、．．．、ＰｒＯｒ［Ｃｈ］）が、量子化線形予測パラメータ（ＬＰ_ｏｒｄ、ｏｒｄ＝１、．．．、ＰｒＯｒ［Ｃｈ］）に変換される（ステップ１２４）。

Ｆｏｒｏｒｄ＝０ｔｏＰｒＯｒ−１ｄｏ
Ｆｏｒｍ＝１ｔｏｏｒｄｄｏ
Ｃ_{ｏｒｄ＋１，ｍ}＝Ｃ_{ｏｒｄ，ｍ}＋（ＱＲＣ_{ｏｒｄ＋１}＊Ｃ_{ｏｒｄ，ｏｒｄ＋１−ｍ}＋（１＜＜１５））＞＞１６
ｅｎｄ
Ｃ_{ｏｒｄ＋１，ｏｒｄ}＋１＝ＱＲＣ_{ｏｒｄ＋１}
ｅｎｄ
Ｆｏｒｏｒｄ＝０ｔｏＰｒＯｒ−１ｄｏ
ＬＰ_{ｏｒｄ＋１}＝Ｃ_{ＰｒＯｒ，ｏｒｄ＋１}
ｅｎｄ

符号化側で、中間結果の飽和の可能性が除去される。従って、復号側では、各Ｃ_{ｏｒｄ＋１，ｍ}の計算後に飽和チェックを行う必要はない。

最後に、ＰｒＯｒ［Ｃｈ］＞０である各チャネルについて、適応線形予測の逆の処理（逆適応線形予測）が実行される（ステップ１２６）。予測残差ｅ（ｎ）が以前に抽出されてエントロピー復号されると仮定すると、再構築される元の信号ｓ（ｎ）は、次式に従って計算される。

サンプル履歴はフレーム間で保持されないので、逆適応予測は、フレーム内の（ＰｒＯｒ［Ｃｈ］＋１）サンプルから開始することになる。

固定係数予測
線形予測子の非常に単純な固定係数形態が、有用であるとわかった。固定予測係数は、Ｓｈｏｒｔｅｎによって最初に提案された、非常に単純な多項式近似方法（Ｔ．Ｒｏｂｉｎｓｏｎ．ＳＨＯＲＴＥＮの「Ｓｉｍｐｌｅｌｏｓｓｌｅｓｓａｎｄｎｅａｒｌｏｓｓｌｅｓｓｗａｖｅｆｏｒｍｃｏｍｐｒｅｓｓｉｏｎ．」、Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔ１５６、ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＥｎｇｉｎｅｅｒｉｎｇＤｅｐａｒｔｍｅｎｔ、ＴｒｕｍｐｉｎｇｔｏｎＳｔｒｅｅｔ、ＣａｍｂｒｉｄｇｅＣＢ２１ＰＺ、ＵＫ、１９９４年１２月）に従って得られる。このケースでは、予測係数は、ｐ次多項式を最後のｐ個のデータ点に適合させることによって指定されるものである。４つの近似に対して詳しく述べると、次式のようになる。

これらの多項式近似の興味深い特性は、その結果として得られる残差信号

が、次の再帰的方式で効率的に実現され得ることである。

ｅ_０［ｎ］＝ｓ［ｎ］
ｅ_１［ｎ］＝ｅ_０［ｎ］−ｅ_０［ｎ−１］
ｅ_２［ｎ］＝ｅ_１［ｎ］−ｅ_１［ｎ−１］
ｅ_３［ｎ］＝ｅ_２［ｎ］−ｅ_２［ｎ−１］

固定係数予測分析は、フレームごとに適用され、前のフレーム（ｅｋ［−１］＝０）で計算されたサンプルに依存しない。フレーム全体にわたる大きさ合計の最も小さい残差セットが、最良の近似と定義される。最適な残差次数が、各チャネルについて別々に計算され、固定予測次数（ＦＰＯ［Ｃｈ］）としてストリームにパックされる。現在のフレーム内の残差ｅ_{ＦＰＯ［Ｃｈ］}［ｎ］が、更にエントロピー符号化され、ストリームにパックされる。

復号側での固定係数予測の逆のプロセスは、サンプリング例ｎでのｋ次残差の計算のための次の次数再帰式によって定義される。

ｅ_ｋ［ｎ］＝ｅ_ｋ＋１［ｎ］＋ｅ_ｋ［ｎ−１］
ここで、所望される元の信号ｓ［ｎ］は、次式
ｓ［ｎ］＝ｅ_０［ｎ］
で与えられ、ここで、各ｋ次残差に対して、ｅ_ｋ［−１］＝０である。

一例として、３次固定係数予測の再帰が提示される。ここでは、残差ｅ_３［ｎ］が符号化され、ストリームで伝送され、復号側でアンパックされる。

ｅ_２［ｎ］＝ｅ_３［ｎ］＋ｅ_２［ｎ−１］
ｅ_１［ｎ］＝ｅ_２［ｎ］＋ｅ_１［ｎ−１］
ｅ_０［ｎ］＝ｅ_１［ｎ］＋ｅ_０［ｎ−１］
ｓ［ｎ］＝ｅ_０［ｎ］

セグメント化及びエントロピー符号選択
セグメント化及びエントロピー符号選択２４の例示的な一実施形態が、図７及び図８に示されている。最適なセグメント持続時間、符号化パラメータ（エントロピー符号選択及びパラメータ）、及びチャネル・ペアを確定するために、複数の異なるセグメント持続時間に対して符号化パラメータ及びチャネル・ペアが決定され、それらの候補から、各セグメントが独立に復号可能であり且つ最大サイズを超えないという制約を満たす、１フレームあたりの最小符号化ペイロードをもつものが選択される。もちろん、「最適な」セグメント化、符号化パラメータ、及びチャネル・ペアは、符号化プロセスの制約及びセグメント・サイズに対する制約に従う。例えば、この例示的なプロセスでは、フレーム内のすべてのセグメントの持続時間が等しく、ダイアディック・グリッド（ｄｙａｄｉｃｇｒｉｄ）に対して最適な持続時間の検索が行われ、フレーム全体にわたってチャネル・ペア選択が有効である。符号器の複雑化及びオーバヘッド・ビットの増加という犠牲を払うことで、持続時間は、フレーム内で変化させることが可能になり、最適な持続時間の検索をより細かくでき、チャネル・ペア選択をセグメントごとに行わせることもできる。

例示的なプロセスでは、まず、セグメント中の最小サンプル数、セグメントの最大許容サイズ、最大セグメント数、及び最大パーティション数などの、セグメント・パラメータを初期設定する（ステップ１５０）。その後、この処理では、０から、最大パーティション数−１のインデックスが付けられるパーティション・ループを開始し（ステップ１５２）、セグメント数、セグメント中のサンプル数、及びパーティション中で消費されるバイト数を含むパーティション・パラメータを、初期設定する（ステップ１５４）。この特定の実施形態では、セグメントは、等しい持続時間であり、セグメント数は２の累乗でスケーリングされ、各パーティションが繰返す。セグメント数は、好ましくは、最大値に初期設定され、従って最小持続時間となる。しかしながら、このプロセスでは、可変持続時間のセグメントを使用することもできる。これは、オーディオ・データをよりよく圧縮し得るがオーバヘッドが増すという犠牲を払う。更に、セグメント数は、必ずしも２の累乗に限定される必要はなく、また、最小持続時間から最大持続時間まで検索される必要もない。

初期設定された後、これらのプロセスでは、チャネル・セット・ループを開始し（ステップ１５６）、各セグメントについての最適なエントロピー符号化パラメータ及びチャネル・ペアの選択、並びに対応するバイト消費を決定する（ステップ１５８）。符号化パラメータＰＷＣｈＤｅｃｏｒｒＦｌａｇ［］［］、ＡｌｌＣｈＳａｍｅＰａｒａｍＦｌａｇ［］［］、ＲｉｃｅＣｏｄｅＦｌａｇ［］［］［］、ＣｏｄｅＰａｒａｍ［］［］［］、及びＣｈＳｅｔＢｙｔｅＣｏｎｓ［］［］が記憶される（ステップ１６０）。これは、チャネル・セット・ループが終了するまで、各チャネル・セットに対して繰り返される（ステップ１６２）。

このプロセスは、セグメント・ループを開始し（ステップ１６４）、すべてのチャネル・セットにわたって各セグメント中のバイト消費（ＳｅｇｍＢｙｔｅＣｏｎｓ）を計算し（ステップ１６６）、バイト消費（ＢｙｔｅＣｏｎｓＩｎＰａｒｔ）を更新する（ステップ１６８）。この時点で、セグメントのサイズは、最大サイズ制約と比較される（ステップ１７０）。制約に違反した場合、現在のパーティションが破棄される。更に、このプロセスは、最小持続時間と設定して開始するので、セグメント・サイズが大きすぎると、パーティション・ループは終了し（ステップ１７２）、その時点での最良の解（持続時間、チャネル・ペア、符号化パラメータ）が、ヘッダにパックされ（ステップ１７４）、このプロセスは次のフレームへ移る。最小セグメント・サイズに対する制約が満たされない場合（ステップ１７６）、最大サイズの制約を満たすことができないので、このプロセスは終了し、エラーを報告する（ステップ１７８）。制約が満たされると仮定すると、このプロセスは、セグメント・ループが終了するまで、現在のパーティション中の各セグメントに対して繰り返される（ステップ１８０）。

セグメント・ループが完了し、ＢｙｔｅＣｏｎｓｉｎＰａｒｔで表されるフレーム全体に対するバイト消費が計算された後、このペイロードは、前のパーティション繰返しからの現在の最小ペイロード（ＭｉｎＢｙｔｅＩｎＰａｒｔ）と比較される（ステップ１８２）。現在のパーティションが、改善されたことを表している場合、現在のパーティション（ＰａｒｔＩｎｄ）が最適なパーティション（ＯｐｔＰａｒｔｉｎｄ）として記憶され、最小ペイロードが更新される（ステップ１８４）。これらのパラメータ及び記憶された符号化パラメータは、次に、現在の最適解として記憶される（ステップ１８６）。これは、パーティション・ループが終了する（ステップ１７２）まで繰り返され、その終了時点で、セグメント化情報及び符号化パラメータが、図３に示されるように、ヘッダにパックされる（ステップ１５０）。

現在のパーティションについてのチャネル・セットに対して最適な符号化パラメータ及び関連したビット消費を決定する（ステップ１５８）ための例示的な一実施形態が、図８ａ及び図８ｂに示されている。このプロセスではセグメント・ループ（ステップ１９０）及びチャネル・ループ（ステップ１９２）を開始し、このプロセスにおけるチャネルのここでの現在の例は下記のようである。

Ｃｈ１：Ｌ
Ｃｈ２：Ｒ
Ｃｈ３：Ｒ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［ｌ］＊Ｌ
Ｃｈ４：Ｌｓ
Ｃｈ５：Ｒｓ
Ｃｈ６：Ｒｓ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［２］＊Ｌｓ
Ｃｈ７：Ｃ
Ｃｈ８：ＬＦＥ
Ｃｈ９：ＬＦＥ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［３］＊Ｃ

このプロセスでは、基底及び相関化チャネルに関する、エントロピー符号のタイプ、対応する符号化パラメータ、及び対応するビット消費を決定する（ステップ１９４）。この例において、このプロセスでは、２進符号及びライス符号に対する最適な符号化パラメータを計算し、次に、チャネル及び各セグメントについてビット消費が最低のものを選択する（ステップ１９６）。一般に、最適化は、１つ、２つ、又はそれより多くの可能なエントロピー符号に対して行うことができる。２進符号では、ビット数は、現在のチャネルのセグメント中の全サンプルの最大絶対値から計算される。ライス符号化パラメータは、現在のチャネルのセグメント中の全サンプルの平均絶対値から計算される。選択に基づいて、ＲｉｃｅＣｏｄｅＦｌａｇが設定され、ＢｉｔＣｏｎｓが設定され、ＣｏｄｅＰａｒａｍが、ＮｕｍＢｉｔｓＢｉｎａｒｙ又はＲｉｃｅＫＰａｒａｍに設定される（ステップ１９８）。

処理される現在のチャネルが相関されたチャネルである場合（ステップ２００）、対応する無相関化チャネルに対して同じ最適化が繰り返され（ステップ２０２）、最良のエントロピー符号が選択され（ステップ２０４）、符号化パラメータが設定される（ステップ２０６）。このプロセスは、チャネル・ループが終了するまで繰り返し（ステップ２０８）、セグメント・ループが終了する（ステップ２１０）。

この時点で、各セグメントについて及び各チャネルについての最適な符号化パラメータが決定されている。これらの符号化パラメータ及びペイロードは、チャネル・ペア「基底、相関化」に対して、元のＰＣＭオーディオから返されることができる。しかしながら、トリプレット中の、「基底、相関化」チャネルか「基底、無相関化」チャネルかを選択することによって、圧縮性能は改善され得る。

３つのトリプレットに対して、チャネル・ペア「基底、相関化」か「基底、無相関化」かを決定するために、チャネル・ペアループが開始され（ステップ２１１）、全体的なフレーム・ビット消費に対しての、各相関化チャネル（Ｃｈ２、Ｃｈ５、及びＣｈ８）及び各無相関化チャネル（Ｃｈ３、Ｃｈ６、及びＣｈ９）の寄与が計算される（ステップ２１２）。それぞれの相関化チャネルについてのフレーム消費寄与が、対応する無相関化チャネルについてのフレーム消費寄与と比較され、即ち、Ｃｈ２対Ｃｈ３、Ｃｈ５対Ｃｈ６、及びＣｈ８対Ｃｈ９というように比較される（ステップ２１４）。無相関化チャネルの寄与が相関化チャネルよりも大きい場合、ＰＷＣｈＤｅｃｏｒｒｒＦｌａｇが、偽に設定される（ステップ２１６）。そうでない場合は、相関化チャネルが無相関化チャネルで置き換えられ（ステップ２１８）、ＰＷＣｈＤｅｃｏｒｒｒＦｌａｇが真に設定され、チャネル・ペアが「基底、無相関化」として構成される（ステップ２２０）。

これらの比較に基づいて、このアルゴリズムは以下の選択、即ち、
１．対応する基底チャネルＣｈ１と対となるチャネルとしてＣｈ２又はＣｈ３の選択、
２．対応する基底チャネルＣｈ４と対となるチャネルとしてＣｈ５又はＣｈ６の選択、
３．対応する基底チャネルＣｈ７と対となるチャネルとしてＣｈ８又はＣｈ９の選択
を行う。
これらのステップは、ループが終了するまで、すべてのチャネル・ペアに対して繰り返される（ステップ２２２）。

この時点で、各セグメント及び異なる各チャネルについての最適な符号化パラメータ、並びに最適なチャネル・ペアが決定されている。それぞれの異なるチャネル・ペア及びペイロードに対してのこれらの符号化パラメータは、パーティション・ループへ返されることができる。しかしながら、すべてのチャネルにわたって各セグメントについて１組のグローバル符号化パラメータを計算することによって、圧縮性能の向上が可能となり得る。せいぜい、ペイロードの符号化データ部分は、各チャネルについての最適化された符号化パラメータと同じサイズにしかならず、おそらくは幾分大きくなる。しかしながら、オーバヘッド・ビットにおける低減は、データの符号化効率を相殺するより大きくなり得る。

同じチャネル・ペアを使用して、このプロセスでは、セグメント・ループを開始し（ステップ２３０）、異なる複数組の符号化パラメータを使用してすべてのチャネルに対するセグメントあたりのビット消費（ＣｈＳｅｔＢｙｔｅＣｏｎｓ［ｓｅｇ］）を計算し（ステップ２３２）、ＣｈＳｅｔＢｙｔｅＣｏｎｓ［ｓｅｇ］を記憶する（ステップ２３４）。次に、すべてのチャネルにわたることを除いて以前のように、同じ２進符号計算及びライス符号計算を使用して、すべてのチャネルにわたるセグメントに対して、グローバルな符号化パラメータ（エントロピー符号選択及びパラメータ）の組が決定される（ステップ２３６）。最良のパラメータが選択され、バイト消費（ＳｅｇｍＢｙｔｅＣｏｎｓ）が計算される（ステップ２３８）。ＳｅｇｍＢｙｔｅＣｏｎｓは、ＣＨＳｅｔＢｙｔｅＣｏｎｓ［ｓｅｇ］と比較される（ステップ２４０）。グローバル・パラメータを使用してもビット消費が低減しない場合、ＡｌｌＣｈＳａｍＰａｒａｍＦｌａｇ［ｓｅｇ］が偽に設定される（ステップ２４２）。そうでない場合、ＡｌｌＣｈＳａｍｅＰａｒａｍＦｌａｇ［ｓｅｇ］が真に設定され（ステップ２４４）、グローバル符号化パラメータ及び１セグメントあたりの対応するビット消費が保存される（ステップ２４６）。このプロセスは、セグメント・ループの終了に到達するまで、繰り返される（ステップ２４８）。プロセス全体は、チャネル・セット・ループが終了するまで繰り返す（ステップ２５０）。

符号化プロセスは、少数のフラグの制御によって異なる機能が無効化され得るように、構成される。例えば、一つのフラグは、ペアのチャネル無相関分析が実行されるか否かを、制御する。別のフラグは、適応予測（固定予測に関しては更に別のフラグ）分析が実行されるか否かを、制御する。更に、ある一つのフラグは、すべてのチャネルにわたるグローバル・パラメータの検索が実行されるか否かを、制御する。また、パーティション数及び最小セグメント持続時間を設定する（最も単純な形態では、所定のセグメント持続時間をもつ一つのパーティションとすることができる）ことによって、セグメント化も制御可能である。基本的に、符号器における少数のフラグを設定することにより、符号器は、単純なフレーム化及びエントロピー符号化にすることができる。

後方互換（バックワード・コンパチブル）可逆オーディオ・コーデック
可逆コーデックは、不可逆コア符号器と組み合わせて、「拡張符号器」として使用され得る。「不可逆（lossy）」コア符号ストリームが、コア・ビット・ストリームとしてパックされ、可逆符号化差信号が、別になった拡張ビット・ストリームとしてパックされる。拡張された可逆機能をもつ復号器で復号した後、不可逆及び可逆のストリームが組み合わせされて、可逆再構築信号を構築する。前の世代の復号器では、可逆ストリームが無視され、コア「不可逆」ストリームが復号されて、コアストリームの帯域幅及び信号対雑音比特性をもつ、高品質のマルチチャネル・オーディオ信号を提供した。

図９は、マルチチャネル信号の１つのチャネルに関する後方互換可逆符号器４００のシステム・レベル図を示す。入力４０２で、デジタル化オーディオ信号、適切にはＭビットＰＣＭオーディオ・サンプルが提供される。好ましくは、デジタル化オーディオ信号は、改変された不可逆コア符号器４０４のものを超えるサンプリング・レート及び帯域幅を有する。一実施形態では、デジタル化オーディオ信号のサンプリング・レートは、９６ｋＨｚ（サンプリングされたオーディオについての４８ｋＨｚの帯域幅に相当する）である。また、入力オーディオは、各チャネルが９６ｋＨｚでサンプリングされるマルチチャネル信号とすることができ、それが好ましいことも、理解されるべきである。以下の議論は、一つのチャネルの処理に的を絞って行うが、多数のチャネルへの拡張は単純明快である。ノード４０６で入力信号が複製され、並列の枝路で処理される。信号経路の第１の枝路では、改変された不可逆の広帯域符号器４０４が、信号を符号化する。以下に詳述される改変されたコア符号器４０４は、符号化したコア・ビット・ストリーム４０８を生成し、このコア・ビット・ストリームは、パッカ又はマルチプレクサ４１０へと運ばれる。また、コア・ビット・ストリーム４０８は、改変されたコア復号器４１２へも伝達され、このコア復号器は、出力として、改変された再構築されたコア信号４１４を生成する。

一方、平行経路中の入力デジタル化オーディオ信号４０２は、再構築オーディオ・ストリームへもたらされる遅延と実質的に等しい補償遅延４１６を受け（改変符号器及び改変復号器による）、遅延されたデジタル化オーディオ・ストリームを生じさせる。加算ノード４２０で、遅延デジタル化オーディオ・ストリーム４１４から、オーディオ・ストリーム４００が減算される。加算ノード４２０は、元の信号及び再構築コア信号を表す差信号４２２を生成する。純粋な「可逆」符号化を実現するためには、可逆符号化技法を用いて、差信号を符号化し、伝送する必要がある。従って、差信号４２２は可逆符号器４２４で符号化され、拡張ビット・ストリーム４２６はパッカ４１０でコア・ビット・ストリーム４０８とパックされて、出力ビット・ストリーム４２８が生成される。

可逆符号化では、可逆符号器の必要性に対応するために、可変ビット・レートである拡張ビット・ストリーム４２６を生成することに留意されたい。次に、パックされたストリームは、オプションで、チャネル符号化を含めた更なる複数層の符号化の処理を受け、次いで伝送されたり記録されたりする。この開示では、記録は、チャネルを介した伝送とみなされてもよいことに留意されたい。

コア符号器４０４は「改変」と記述されているが、これは、拡張された帯域幅を扱うことのできる実施形態では、コア符号器は改変（改造）を必要とすることになるからである。その符号器内の６４帯域分析フィルタ・バンク４３０は、その出力データの半分を破棄し（４３２）、コア・サブバンド符号器４３４は、下位の３２周波数帯域のみを符号化する。この破棄された情報は、何れにせよ信号スペクトルの上半分を再構築することはできないであろう従来からの復号器（legacy decoder、レガシー復号器）には、重要ではない。残りの情報は、未改変の符号器により符号化されて、後方互換性のコア出力ストリームを形成する。しかしながら、４８ｋＨｚのサンプリング・レート以下で動作する別の実施形態では、コア符号器は、実質的に未改変の従来のコア符号器でもよい。同様に、レガシー復号器のサンプリング・レートを超える動作では、改変コア復号器４１２は、下位３２サブバンドのサンプルを復号するコア・サブバンド復号器４３６を含む。改変コア復号器は、下位３２サブバンドからサブバンド・サンプルをとり、上位３２帯域に対して伝送されないサブバンド・サンプルをゼロにし（zero out、ゼロ・アウトし）（４３８）、６４帯域ＱＭＦ合成フィルタ４４０を使用して６４帯域すべてを再構築する。従来のサンプリング・レート（例えば、４８ｋＨｚ以下）での動作では、コア復号器は、従来のコア復号器又は同等の物の、実質的に未改変のものとすることができる。実施形態によっては、サンプリング・レートの選択は、符号化の時点で行われてもよく、符号化モジュール及び復号モジュールは、その時点でソフトウェアによって所望されるように再構築されてもよい。

差信号を符号化するために可逆符号器が使用されているので、単純なエントロピー符号でも十分であるように思われる。しかしながら、既存の不可逆コア・コーデックに対するビット・レート制限があるので、可逆ビット・ストリームを提供するのに必要とされる相当な量の合計ビットが、なおも残る。更に、コア・コーデックの帯域幅制限があるので、差信号中の２４ｋＨｚを超える情報内容は、なおも相関させられている（例えば、トランペット、ギター、トライアングルなどを含む多くの高調波成分は、３０ｋＨｚをはるかに越える）。従って、圧縮性能を高める高性能の可逆コーデックは価値が高まる。更に、用途によっては、コア及び拡張ビット・ストリームは、復号可能な単位が最大サイズを超えてはならないという制約を、なおも満たさなければならない。本発明の可逆コーデックは、圧縮性能の改善と、これらの制約を満たすための柔軟性の改善との両方を提供する。

例を挙げると、８チャネルの２４ビット９６ＫＨｚＰＣＭオーディオでは、１８．５Ｍｂｐｓを必要とする。可逆圧縮では、これを約９Ｍｂｐｓまで低減させることができる。ＤＴＳＣｏｈｅｒｅｎｔＡｃｏｕｓｔｉｃｓ（ＤＴＳコヒーレント・アコースティックス）は、コアを１．５Ｍｂｐｓで符号化し、７．５Ｍｂｐｓの差信号を残しておく。最大２キロバイトのセグメント・サイズでは、平均セグメント持続時間は、２０４８＊８／７５０００００＝２．１８ミリ秒、即ち、９６ｋＨｚでおよそ２０９サンプルである。最大サイズを満たすための不可逆コアの典型的なフレーム・サイズは、１０〜２０ミリ秒である。

システム・レベルでは、既存の不可逆コーデックとの後方互換性を維持しつつ、拡張された帯域幅で追加のオーディオ・チャネルを可逆的に符号化するために、可逆コーデックと後方互換可逆コーデックとが組み合わされてもよい。例えば、１８．５Ｍｂｐｓでの８チャネルの９６ｋＨｚのオーディオは、１．５Ｍｂｐｓで５．１チャネルの４８ｋＨｚのオーディオを含むように、可逆符号化され得る。コア＋可逆符号器を使用して、５．１チャネルを符号化することになる。可逆符号器が使用されて、５．１チャネル中の差信号を符号化する。残りの２チャネルは、異なるチャネル・セットで可逆符号器を使用して符号化される。セグメント持続時間を最適化しようとするときには、すべてのチャネル・セットを考慮する必要があるので、すべての符号化ツールが何らかの方法で使用される。互換（コンパチブル）復号器は、８チャネルすべてを復号し、９６ｋＨｚの１８．５Ｍｂｐｓオーディオ信号を可逆的に再構築する。旧来の復号器は、５．１チャネルのみを復号し、４８ｋＨｚの１．５Ｍｂｐｓを再構築することになる。

一般に、復号器の複雑さをスケーリングするために、１より多くの純粋な可逆チャネル・セットが提供され得る。例えば、１０．２のオリジナル・ミックスでは、チャネル・セットは、以下のように編成され得る。

− ＣＨＳＥＴ１は、５．１（埋込まれた１０．２から５．１へのダウン・ミックスを用いる）を搬送し、「コア＋可逆」を使用して符号化される。
− ＣＨＳＥＴ１＋ＣＨＳＥＴ２は、７．１（埋込まれた１０．２から７．１へのダウン・ミックスを用いる）を搬送し、ここでＣＨＳＥＴ２は可逆を使用して２チャネルを符号化する。
− ＣＨＳＥＴ１＋ＣＨＳＥＴ２＋ＣＨＳＥＴ３は、完全ディスクリートの１０．２ミックスを搬送し、ここでＣＨＳＥＴ３は、可逆のみ使用して残りの３．１チャネルを符号化する。

５．１丁度を復号することのできる復号器は、ＣＨＳＥＴ１のみの復号を行い、他のすべてのチャネル・セットを無視する。７．１丁度を復号することのできる復号器は、ＣＨＳＥＴ１＋ＣＨＳＥＴ２を復号し、他のすべてのチャネル・セットを無視する。・・・。

更に、「不可逆＋可逆コア」は、５．１だけに限定されない。現在の実装形態では、不可逆（コア＋Ｘチャネル）及び可逆を使用して６．１までサポートし、任意のチャネル・セット数に編成される一般的なｍ．ｎチャネルをサポートすることもできる。不可逆符号化は、５．１後方互換コアを有することになり、不可逆コーデックを用いて符号化される他のすべてのチャネルは、ＸＸチャネル拡張となることになる。これにより、追加のチャネルをサポートしながらも、既存の復号器との後方互換性を維持するための相当な設計柔軟性を伴って、全体的な可逆符号化がもたらされる。

本発明の幾つかの例示的な実施形態が示され、説明されているが、多くの変形形態及び代替実施形態が、当業者には想到されよう。そのような変形形態及び代替実施形態は、企図されており、特許請求の範囲に定義される本発明の趣旨及び範囲から逸脱することなく実施され得る。

図１は、上述のように、標準の可逆オーディオ符号器に関するブロック図である。図２ａは、本発明による可逆オーディオ符号器のブロック図である。図２ｂは、本発明による可逆オーディオ復号器のブロック図である。図３は、セグメント化及びエントロピー符号選択に関連したヘッダ情報の図である。図４ａは、分析ウィンドウ処理のブロック図である。図４ｂは、分析ウィンドウ処理を逆にしたブロック図である。図５は、相互チャネル無相関化の流れ図である。図６ａは、適応予測分析及び処理のブロック図である。図６ｂは、適応予測処理を逆にしたブロック図である。図７ａおよび図７ｂは、最適なセグメント化及びエントロピー符号選択の流れ図である。図７ａおよび図７ｂは、最適なセグメント化及びエントロピー符号選択の流れ図である。図８ａおよび図８ｂは、チャネル・セットに対するエントロピー符号選択の流れ図である。図８ａおよび図８ｂは、チャネル・セットに対するエントロピー符号選択の流れ図である。図９ａ及び９ｂは、コア＋可逆拡張コーデックのブロック図である。

Claims

マルチチャネル・オーディオを可逆符号化する方法であって、
前記マルチチャネル・オーディオを、等しい持続時間のフレームへとブロック化するステップと、
各フレームを、各セグメントが完全に復号可能であり且つ最大サイズ未満でなければならないという制約に従って、前記フレームの符号化ペイロードを低減させるように、所定の持続時間の複数のセグメントへとセグメント化するステップと、
前記フレームの各チャネルについての前記セグメントをエントロピー符号化するステップと、
各セグメントについての符号化された前記オーディオ・データを前記フレームにパックするステップと
を備える方法。
請求項１に記載の方法であって、前記所定の持続時間が、
ａ）前記フレームを、所与の持続時間の幾つかのセグメントに区分化するステップと、
ｂ）各チャネルの各セグメントに対して、１組の符号化パラメータ及び符号化ペイロードを決定するステップと、
ｃ）すべてのチャネルにわたり各セグメント・ペアして前記符号化ペイロードを計算するステップと、
ｄ）すべてのチャネルにわたる何れかのセグメントについての前記符号化ペイロードが前記最大サイズを超える場合、前記１組の符号化パラメータを破棄するステップと、
ｅ）前記現在のパーティションについての前記フレームに対する前記符号化ペイロードが前のパーティションに対する最小の符号化ペイロード未満の場合、現在の前記１組の符号化パラメータを記憶し、前記最小の符号化ペイロードを更新するステップと、
ｆ）異なる持続時間の複数のセグメントについてステップａからｅを繰り返すステップと
によって決定される、
方法。
請求項２に記載の方法であって、前記セグメントの持続時間が、最初には最小持続時間に設定され、パーティションの繰返し毎に増加される、方法。
請求項３に記載の方法であって、前記セグメントの持続時間が、最初に２の累乗に設定され、パーティションの繰返し毎に２倍にされる、方法。
請求項３に記載の方法であって、すべてのチャネルにわたり何れかのセグメントに対する前記符号化ペイロードが前記最大サイズを超えた場合、前記パーティションの繰返しが終了する、方法。
請求項２に記載の方法であって、前記１組の符号化パラメータが、エントロピー符号器及びそのパラメータの選択を含む、方法。
請求項６に記載の方法であって、前記エントロピー符号器及びそのパラメータが、そのチャネル中のそのセグメントに対する前記符号化ペイロードを最小にするように、選択される、方法。
請求項２に記載の方法であって、
３つ組「基底、相関化、無相関化」を形成するように、チャネル・ペアに対して無相関化チャネルを生成するステップと、
「基底、相関化」チャネル・ペア又は「基底、無相関化」チャネル・ペアを選択するステップと、
選択された前記チャネル・ペアの前記チャネルをエントロピー符号化するステップと
を更に含む方法。
請求項２に記載の方法であって、決定される前記１組の符号化パラメータは、前記フレームのヘッダ及びオーディオ・データの両方を含めてのより小さい符号化ペイロードを何れが生成するかに基づいて、各チャネルごとに異なるものとするか又は全てのチャネルに対してグローバルなものとする、方法。
請求項１に記載の方法であって、前記セグメントの前記所定の持続時間が、各フレームの前記符号化ペイロードを最小にするように決定される、方法。
請求項１に記載の方法であって、前記セグメントの前記所定の持続時間が、各セグメントごとに、複数のエントロピー符号器のうちの１つ及びその符号化パラメータを含む１組の符号化パラメータを選択することによって、部分的に決定される、方法。
請求項１１に記載の方法であって、前記セグメントの前記所定の持続時間が、各チャネルについて異なる符号化パラメータの組をを選択することによって、又は前記複数のチャネルに対してグローバルな符号化パラメータの組を選択することによっての何れかにより、部分的に決定される、方法。
請求項１１に記載の方法であって、複数組の符号化パラメータが、異なるセグメント持続時間に対して計算され、前記最大セグメント・サイズに対する前記制約を満たす前記最小の符号化ペイロードを有する前記１組に対応する持続時間が選択される、方法。
請求項１に記載の方法であって、少なくとも１つの３つ組「基底、相関化、無相関化」を形成するように、チャネル・ペアに対して無相関化チャネルを生成するステップを更に備え、前記セグメントの前記所定の持続時間が、エントロピー符号化するためにそれぞれの前記３つ組について「基底、相関化」チャネル・ペア又は「基底、無相関化」チャネル・ペアの何れかを選択することによって、部分的に決定される、方法。
請求項１４に記載の方法であって、前記チャネル・ペアが、前記無相関化チャネル又は相関化チャネルが前記符号化ペイロードに対して最少のビット数を提供するかどうかを判定することによって、選択される、方法。
請求項１４に記載の方法であって、前記２つの最も相関した相関化チャネルが第１のペアを形成し、以下同様に、前記チャネルがなくなるまでペアが形成されてゆき、端数のチャネルが残る場合はそれが基底チャネルを形成する、方法。
請求項１６に記載の方法であって、各ペアにおいて、より小さいゼロ遅延自己相関推定値を有する前記チャネルが前記基底チャネルである、方法。
請求項１７に記載の方法であって、前記無相関化チャネルは、前記基底チャネルに無相関係数を乗算し、その結果を前記相関化チャネルから減算することによって生成される、方法。
ＰＣＭオーディオ・データを可逆符号化する方法であって、
前記マルチチャネル・オーディオを等しい持続時間のフレームへとブロック化するステップと、
基底チャネル及び相関化チャネルを含むチャネル・ペアを配列するように前記マルチチャネル・オーディオを処理するステップと、
少なくとも１つの３つ組「基底、相関化、無相関化」を形成するように、各チャネル・ペアについて無相関化チャネルを生成するステップと、
前記基底及び相関化チャネルと、前記基底及び無相関化チャネルとの可能なチャネル・ペアの組合せに基づいて、符号化パラメータを選択するステップと、
各前記３つ組から、チャネル・ペア「基底、相関化」又は「基底、無相関化」を選択するステップと、
前記符号化パラメータに従って、選択された前記ペアの各チャネルをエントロピー符号化するステップと、
符号化した前記オーディオ・データをビット・ストリームへとパックするステップと
を備える方法。
請求項１９に記載の方法であって、前記２つの最も相関した相関化チャネルが第１のペアを形成し、以下同様に、前記チャネルがなくなるまでペアが形成されてゆき、端数のチャネルが残る場合はそれが基底チャネルを形成する、方法。
請求項２０に記載の方法であって、各ペアにおいて、より小さいゼロ遅延自己相関推定値を有する前記チャネルが前記基底チャネルである、方法。
請求項２１に記載の方法であって、前記無相関化チャネルは、前記基底チャネルに無相関係数を乗算し、その結果を前記相関化チャネルから減算することによって生成される、方法。
ＰＣＭオーディオ・データを可逆符号化する方法であって、
基底チャネル及び相関化チャネルを含むチャネル・ペアを作成するように前記マルチチャネル・オーディオを処理するステップと、
少なくとも１つの３つ組「基底、相関化、無相関化」を形成するように、各チャネル・ペアについて無相関化チャネルを生成するステップと、
前記マルチチャネル・オーディオを等しい持続時間のフレームへとブロック化するステップと、
各セグメントが完全に復号可能であり且つ最大サイズ未満でなければならないという制約に従って、前記フレームの符号化ペイロードを最小にするように、各フレームを所定の持続時間の複数のセグメントへとセグメント化し、少なくとも１つの前記３つ組からチャネル・ペア「基底、相関化」又は「基底、無相関化」を選択するステップと、
前記符号化パラメータに従って、選択された前記ペアの各チャネルの各セグメントをエントロピー符号化するステップと、
符号化された前記オーディオ・データをビット・ストリームにパックするステップと
を備える方法。
請求項２３に記載の方法であって、前記セグメントの前記所定の持続時間が、複数のエントロピー符号器のうちの１つ及びその符号化パラメータを選択することによって、部分的に決定される、方法。
請求項２３に記載の方法であって、各チャネルに、選択された前記エントロピー符号器及びそのパラメータを含む１組の符号化パラメータが割り当てられ、前記セグメントの前記持続時間は、各チャネルに対して異なる１組の符号化パラメータを選択することによって、又は前記複数のチャネルに対してグローバルな１組の符号化パラメータを選択することによっての何れかにより、部分的に決定される、方法。
請求項２３に記載の方法であって、前記所定の持続時間は、フレーム内のすべてのセグメントに対して同じである、方法。
請求項２３に記載の方法であって、前記所定の持続時間は、各フレームに対して決定され、一連の前記フレームにわたって変化する、方法。
既知のサンプリング・レートでサンプリングされ、或るオーディオ帯域幅を有し、一連のフレームにブロック化されたデジタルオーディオ信号を符号化するためのマルチチャネル・オーディオ符号器であって、
前記デジタルオーディオ信号からコア信号を抽出し、コア・ビットへと符号化するコア符号器と、
「前記コアビット＋ヘッダ情報」を第１のビット・ストリームにパックするパッカと、
前記コアビットを復号して、再構築されたコア信号を形成するコア復号器と、
前記多数のオーディオ・チャネルのそれぞれに対して、前記再構築されたコア信号及び前記デジタルオーディオ信号から差信号を形成する加算ノードと、
マルチチャネルの前記差信号の各フレームを複数のセグメントにセグメント化し、前記セグメントを拡張ビットへとエントロピー符号化する可逆符号器であって、各セグメントが完全に復号可能であり且つ最大サイズ未満でなければならないという制約に従って、前記フレームの前記差信号の符号化ペイロードを低減させるようにセグメント持続時間を選択する可逆符号器と、
前記拡張ビットを第２のビット・ストリームにパックするパッカと
を備えるマルチチャネル・オーディオ符号器。
請求項２８に記載のマルチチャネル・オーディオ符号器であって、
前記コア符号器が、上位のＮ／２サブバンドを破棄するＮ帯域分析フィルタ・バンクと、下位のＮ／２サブバンドのみを符号化するコア・サブバンド符号器とを備え、
前記コア復号器が、前記下位のＮ／２サブバンドに対してのサンプルへと前記コアビットを復号するコア・サブバンド復号器と、前記下位のＮ／２サブバンドに対しての前記サンプルをとり、前記上位のＮ／２サブバンドに対しての伝送されない前記サブバンド・サンプルをゼロにするＮ帯域合成フィルタ・バンクとを備え、前記既知のサンプリング・レートでサンプリングされた再構築された前記オーディオ信号を合成する、
マルチチャネル・オーディオ符号器。
請求項２８に記載のマルチチャネル・オーディオ符号器であって、前記可逆符号器が、前記セグメント持続時間を、
ａ）前記フレームを、所与の持続時間の幾つかのセグメントへと区分化するステップと、
ｂ）各チャネルの各セグメントに対して、１組の符号化パラメータ及び符号化ペイロードを決定するステップと、
ｃ）すべてのチャネルにわたり各セグメントについて前記符号化ペイロードを計算するステップと、
ｄ）すべてのチャネルにわたって何れかのセグメントに対する前記符号化ペイロードが前記最大サイズを超えた場合、前記１組の符号化パラメータを破棄するステップと、
ｅ）前記現在のパーティションについての前記フレームに対する前記符号化ペイロードが、前のパーティションに対する最小の符号化ペイロード未満の場合、前記現在の１組の符号化パラメータを記憶し、前記最小の符号化ペイロードを更新するステップと、
ｆ）異なる持続時間の複数のセグメントに対してステップａからｅを繰り返すステップと
によって決定する、
マルチチャネル・オーディオ符号器。
請求項３０に記載のマルチチャネル・オーディオ符号器であって、前記可逆符号器は、チャネル・ペアに対して無相関化チャネルを生成して３つ組「基底、相関化、無相関化」を形成し、「基底、相関化」チャネル・ペア又は「基底、無相関化」チャネル・ペアを選択し、選択された前記チャネル・ペアの前記チャネルをエントロピー符号化する、マルチチャネル・オーディオ符号器。
請求項２８に記載のマルチチャネル・オーディオ符号器であって、前記デジタルオーディオ信号は、少なくとも第１及び第２のチャネル・セットに編成される多数のオーディオ・チャネルを備え、前記第１のチャネル・セットは前記コア符号器及び可逆符号器によって符号化され、前記第２のチャネル・セットは前記可逆符号器のみによって符号化される、マルチチャネル・オーディオ符号器。
請求項３２に記載のマルチチャネル・オーディオ符号器であって、前記可逆符号器の前記第１のチャネル・セットは５．１チャネル構成を含む、マルチチャネル・オーディオ符号器。
請求項３３に記載のマルチチャネル・オーディオ符号器であって、前記コア符号器は、前記コア信号を符号化する最大ビット・レートを有する、マルチチャネル・オーディオ符号器。
請求項３２に記載のマルチチャネル・オーディオ符号器であって、前記コア符号器は、前記所定のサンプリング・レートの２分の１のサンプリング・レートで前記コア信号を抽出し符号化する、マルチチャネル・オーディオ符号器。
可逆ビット・ストリームを復号する方法であって、
セグメント数及び１セグメントあたりのサンプル数を含む共通ヘッダ情報と、消費されるバイト、及びエントロピー符号フラグ及び符号化パラメータ、及び複数のセグメント中に記憶される符号化残差マルチチャネル・オーディオ信号を含む、各チャネル・セットについてのセグメントヘッダ情報とを備える一連のフレームとしてビット・ストリームを受け取るステップと、
前記ヘッダをアンパックして、前記エントロピー符号フラグ及び符号化パラメータ及び前記符号化残差オーディオ信号を抽出し、選択された前記エントロピー符号及び符号化パラメータを使用して、前記フレームの各セグメントに対してエントロピー復号を実行して、各セグメントについて残差オーディオ信号を生成するステップと、
前記ヘッダをアンパックして、予測係数を抽出し、前記残差オーディオ信号に対して逆予測を実行して各セグメントに対してのＰＣＭオーディオを生成するステップと
を備える方法。
請求項３６に記載の方法であって、前記セグメントヘッダ情報は、前記エントロピー符号及び符号化パラメータが各チャネルごとに異なるか又はすべてのチャネルに対して同じかを示す全チャネル同一パラメータフラグも含む、方法。
請求項３６に記載の方法であって、前記ビット・ストリームは、ペアのチャネル無相関化フラグ、元のチャネル次数、及び量子化チャネル無相関係数を含むチャネル・セット・ヘッダ情報を更に含み、前記逆予測が無相関化ＰＣＭオーディオを生成し、前記方法は、
前記ヘッダをアンパックして、前記元のチャネル次数、前記ペアのチャネル無相関化フラグ、及び前記量子化チャネル無相関係数を抽出し、逆相互チャネル無相関化を実行してマルチチャネルＰＣＭオーディオを生成するステップを更に含む、方法。
請求項３８に記載の方法であって、前記ペアのチャネル無相関化フラグは、３つ組「基底、相関化、無相関化」についての「基底、相関化」チャネル・ペアが符号化されたか又は「基底、無相関化」チャネル・ペアが符号化されたかを示し、
前記フラグが「基底、無相関化」チャネル・ペアを示す場合、前記相関化チャネルに前記量子化チャネル無相関係数を乗算し、その結果を前記基底チャネルに加算して、前記相関化チャネルを生成するステップを更に含む、方法。
媒体に保存される可逆符号化オーディオ・データの一連のフレームに分けられたビット・ストリームを含む物品であって、それぞれの前記フレームは複数のセグメントに細分され、前記セグメントの持続時間は、各セグメントが完全に復号可能であり且つ最大サイズ未満でなければならないという制約に従って、前記フレームの前記オーディオ・データの符号化ペイロードを最小にするように選択される、物品。
請求項４０に記載の物品であって、各セグメントがエントロピー符号化され、エントロピー符号フラグを含むセグメントヘッダ情報を含む前記ビット・ストリームが、特定のエントロピー符号及びそのエントロピー符号に対する符号化パラメータを示す、物品。
請求項４１に記載の物品であって、前記セグメントヘッダ情報は、前記エントロピー符号及び符号化パラメータがチャネルごとに異なるか又はすべてのチャネルに対して同じであるかを示す全チャネル同一パラメータフラグも含む、物品。
請求項４１に記載の物品であって、オーディオ・データの各セグメントは、オーディオ・チャネル・ペアごとに、「基底、相関化」チャネル・ペア又は「基底、無相関化」チャネル・ペアを含み、前記ビット・ストリームは、何れのペアが含まれるかを示すペアのチャネル無相関化フラグと、元のチャネル次数と、前記無相関化チャネルが含まれる場合には前記相関化チャネルを生成するための量子化チャネル無相関係数とを含むチャネル・セット・ヘッダ情報を備える、物品。