JP2011516902A

JP2011516902A - ランダムアクセスポイント（ｒａｐ）及び多重予測パラメータセット（ｍｐｐｓ）機能を備えた適応セグメンテーションを使用する無損失マルチチャンネルオーディオコーデック

Info

Publication number: JP2011516902A
Application number: JP2010544991A
Authority: JP
Inventors: ゾーランフェイゾ
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2008-01-30
Filing date: 2009-01-09
Publication date: 2011-05-26
Anticipated expiration: 2029-01-09
Also published as: AU2009209444A1; CN101933009A; BRPI0906619B1; EP2250572B1; CA2711632C; CN101933009B; TWI474316B; ES2792116T3; US20080215317A1; TW200935401A; KR20100106579A; BRPI0906619A2; IL206785A0; ES2700139T3; HK1147132A1; CA2711632A1; JP5356413B2; WO2009097076A1; AU2009209444B2; EP3435375B1

Abstract

無損失オーディオコーデック、特に、ランダムアクセスポイント（ＲＡＰ）機能及び多重予測パラメータセット（ＭＰＰＳ）機能を備えた適応セグメンテーションを使用する無損失マルチチャンネルオーディオコーデックを提供する。無損失オーディオコーデックは、ランダムアクセスポイント（ＲＡＰ）機能によって無損失可変ビットレート（ＶＢＲ）ビットストリームを符号化／復号し、フレーム内の指定されたセグメントでの無損失復号、及び／又はトランジエント効果を軽減するために仕切られた多重予測パラメータセット（ＭＰＰＳ）機能を開始する。これは、フレームにおける望ましいＲＡＰ及び／又は検出されたトランジエントの存在によって課せられる制約に基づいてセグメント開始ポイントを固定し、各フレームにおける最適セグメント持続時間を選択し、ＲＡＰ及びＭＰＰＳが特に適用可能である符号化セグメントペイロード制約を受ける符号化フレームペイロードを低減し、より長いフレーム持続時間に対する全体的な性能を改善する適応セグメンテーション技術によって達成される。
【選択図】図２ａ

Description

関連出願への相互参照
本出願は、全体が引用により本明細書に組み込まれる２００４年８月４日出願の「無損失マルチチャンネルオーディオコーデック」という名称の米国特許出願第１０／９１１、０６７号の一部継続出願（ＣＩＰ）として３５Ｕ．Ｓ．.Ｃ．１２０の下で優先権の恩典を請求するものである。
本発明は、無損失オーディオコーデックに関し、より具体的に、ランダムアクセスポイント（ＲＡＰ）機能及び多重予測パラメータセット（ＭＰＰＳ）機能を備えた適応セグメンテーションを使用する無損失マルチチャンネルオーディオコーデックに関する。

多くの低ビットレート損失性オーディオ符号化システムが、現在、広範囲の民生及び専門オーディオ再生製品及びサービスに使用されている。例えば、「ＤｏｌｂｙＡＣ３」（ドルビーデジタル）オーディオ符号化システムは、６４０ｋｂｉｔ／ｓまでのビットレートを使用してレーザディスク、ＮＴＳＣ符号化ＤＶＤビデオ、及びＡＴＶのためのステレオ及び５．１チャンネルオーディオサウンドトラックを符号化するための世界的な規格である。ＭＰＥＧＩ及びＭＰＥＧＩＩオーディオ符号化規格は、７６８ｋｂｉｔ／ｓまでのビットレートでのＰＡＬ符号化ＤＶＤビデオ、ヨーロッパにおける地上デジタル無線ブロードキャスティング、及び米国における衛星ブロードキャスティングに対するステレオ及びマルチチャンネルサウンドトラック符号化のために広く使用されている。ＤＴＳ（デジタルシアターシステム）コヒーレント音響オーディオ符号化システムは、コンパクトディスク、ＤＶＤビデオ、ヨーロッパにおける衛星ブロードキャスト、及びレーザディスクのためのスタジオ品質５．１チャンネルオーディオサウンドトラック、及び１５３６ｋｂｉｔ／ｓまでのビットレートに対して頻繁に使用されている。

最近では、多くの消費者が、これらのいわゆる「無損失」コーデックに関心を示している。「無損失」コーデックは、いかなる情報も廃棄することなくデータを圧縮し、更に（デジタル化）ソース信号に同一の復号信号を生成するアルゴリズムに頼っている。この性能は、犠牲を伴い、すなわち、このようなコーデックは、一般的に、損失性コーデックよりも大きなバンド幅を必要とし、データをより小さい程度までしか圧縮しない。

図１は、単一オーディオチャンネルを無損失で圧縮することに伴う演算のブロック図表示である。マルチチャンネルオーディオのチャンネルは、一般的に独立していないが、依存性は、多くの場合に弱く、考慮に入れ難い。従って、チャンネルは、一般的に別々に圧縮される。しかし、一部の符号器は、単純な残留信号を形成して符号化することにより（Ｃｈ１、Ｃｈ１−ＣＨ２）、相関関係の除去を試みることになる。より高度な手法は、例えば、チャンネル方向にわたっていくつかの連続正投影段階を取る。全ての技術は、最初に信号から冗長性を取り除き、次に、効率的なデジタル符号化方式によって得られる信号を符号化する原理に基づいている。無損失コーデックは、ＭＰＬ（ＤＶＤオーディオ）、Ｍｏｎｋｅｙのオーディオ（コンピュータアプリケーション）、アップル無損失、ウィンドウズメディアプロ無損失、ＡｕｄｉｏＰａｋ、ＤＶＤ、ＬＴＡＣ、ＭＵＳＩＣｃｏｍｐｒｅｓｓ、ＯｇｇＳｑｕｉｓｈ、Ｐｈｉlｉｐｓ、Ｓｈｏｒｔｅｎ、Ｓｏｎａｒｃ、及びＷＡを含む。これらのコーデックのうちの多くのレビューは、ＭａｔＨａｎｓ、ＲｏｎａｌｄＳｃｈａｆｅｒ著「デジタルオーディオの無損失圧縮」、ヒューレットパッカード、１９９９年によって提供されている。

フレーミング１０は、編集可能性を提供するために導入され、莫大な量のデータは、編集される領域に先行する信号全体のそれぞれの解凍を妨げる。オーディオ信号は、等しい持続時間の独立したフレームに仕切られる。有意なオーバヘッドが、各フレームの前に置かれるヘッダから生じる場合があるので、この持続時間は、短すぎてはいけない。逆に、フレーム持続時間は、これが、時間的な適応性を制限して編集をより困難にすると考えられるので、長すぎてもいけない。多くのアプリケーションにおいて、フレームサイズは、オーディオが転送されるメディアのピークビットレート、復号器のバッファ容量、及び各フレームを独立して復号可能にする望ましさによって制限される。

チャンネル内相関解除１２は、フレーム内の各チャンネルにおけるオーディオサンプルを相関解除することによって冗長性を取り除く。多くのアルゴリズムは、何らかのタイプの信号の線形予測モデリングによって冗長性を取り除く。この手法では、線形予測子が、各フレームにおけるオーディオサンプルに適用され、予測エラーサンプルのシーケンスをもたらす。第２のあまり一般的でない手法は、信号の低ビットレート量子化又は損失性表現を取得し、次に、損失性バージョンとオリジナルバージョン間の差を無損失で圧縮することである。エントロピー符号化１４は、いかなる情報も失うことなく残留信号からのエラーから冗長性を取り除く。典型的な方法は、Ｈｕｆｆｍａｎ符号化、実行長さ符号化、及びＲｉｃｅ符号化を含む。出力は、無損失で再構成することができる圧縮信号である。

既存のＤＶＤ仕様及び予備的なＨＤのＤＶＤ仕様は、１データアクセスユニットのサイズに厳しい制限を設定しており、これは、オーディオストリームの一部が、抽出された状態で、完全に復号され、再構成されるオーディオサンプルを出力バッファに送信することができることを表している。これが無損失ストリームに対して意味することは、各アクセスユニットが表すことのできる時間の量が、ピークビットレートが最悪の場合に、符号化されたペイロードが厳しい制限値を超えないほど十分に小さくなければならないということである。持続時間も、ピークビットレートを増加させるサンプリング速度及びチャンネルの数の増大に対して低減しなくてはならない。

米国特許出願第１０／９１１、０６７号

ＭａｔＨａｎｓ、ＲｏｎａｌｄＳｃｈａｆｅｒ著「デジタルオーディオの無損失圧縮」、ヒューレットパッカード、１９９９年Ｔ．Ｒｏｂｉｎｓｏｎ．ＳＨＯＲＴＥＮ著「簡単な無損失及び無損失に近い波形圧縮」、技術報告１５６、ケンブリッジ大学工学部、トランピントン通り、ケンブリッジ、ＣＢ２１ＰＺ、英国、１９９４年１２月

互換性を保証するために、これらの既存の符号器は、フレーム全体の持続時間が最悪ケースのチャンネル／サンプリング周波数／ビット幅構成における厳しい制限値を超えないほど十分に短く設定しなくてはならないことになる。多くの構成では、これは、行き過ぎであることになり、圧縮性能を深刻に劣化させる場合がある。更に、この最悪ケース手法は、追加チャンネルで十分に拡張されない。

本発明は、フレーム内で指定されたセグメントで無損失復号を開始するランダムアクセスポイント（ＲＡＰ）機能、及び／又はトランジエント効果を軽減するために仕切られた多重予測パラメータセット（ＭＰＰＳ）機能を備えた無損失可変ビットレート（ＶＢＲ）ビットストリームを生成するオーディオコーデックを提供する。
これは、フレームにおける望ましいＲＡＰ及び／又は１つ又はそれよりも多くのトランジエントの存在によって課せられるセグメント上の境界制約を保証するためにセグメント開始ポイントを判断し、かつ符号化セグメントペイロード制約を受ける符号化フレームペイロードを低減するために各フレームにおける最適セグメント持続時間を選択する適応セグメンテーション技術によって達成される。一般的に、境界制約は、望ましいＲＡＰ又はトランジエントが、セグメントの開始のある一定数の分析ブロック内になくてはならないことを指定する。フレーム内のセグメントが、同じ持続時間であり、分析ブロック持続時間の２のべき乗である例示的な実施形態では、最大セグメント持続時間は、望ましい条件が満たされることを保証するように判断される。ＲＡＰ及びＭＰＰＳは、より長いフレーム持続時間に対して全体性能を改善するように特に適用可能である。

例示的な実施形態では、無損失ＶＢＲオーディオビットストリームは、符号化器タイミングコードに設けられた望ましいＲＡＰの指定された許容範囲内で整列したＲＡＰ（ＲＡＰセグメント）によって符号化される。各フレームは、１つ又はそれよりも多くの分析ブロックの持続時間に等しい持続時間を有する各セグメントによって分析ブロックのシーケンスにブロック化される。各連続フレームでは、１ＲＡＰ分析ブロックまでが、タイミングコードから判断される。ＲＡＰ分析ブロックのロケーション、及びＲＡＰ分析ブロックがＲＡＰセグメントの開始のＭ分析ブロック内に入らなければならないという制約が、ＲＡＰセグメントの開始を固定する。ＭＰＳが有効にされ、トランジエントがチャンネルで検出された場合、予測パラメータは、フレーム、パラメータの２セット（１チャンネルにつき）に対して判断される。オーディオフレームにおけるサンプルは、圧縮され、予測は、ＲＡＰセグメントの開始に続く予測オーダーまで第１サンプルに対して無効にされる。適応セグメンテーションが、各セグメントに対するセグメント持続時間及びエントロピー符号化パラメータを判断してＲＡＰセグメントの固定された開始及び符号化されたセグメントペイロード制約を受ける符号化フレームペイロードを最小にするために残留サンプルに用いられる。ＲＡＰセグメントの存在及びロケーションを指示するＲＡＰパラメータ及びナビゲーションデータは、ヘッダに圧縮される。シーンのユーザ選択又はサーフィンのような再生を開始するためのナビゲーション指令に応答して、復号器は、ＲＡＰセグメントを含むフレームが検出されるまで、ＲＡＰパラメータを読み取るためにビットストリームにおける次のフレームのヘッダを解凍する。復号器は、ＲＡＰセグメントの開始にナビゲートするために、セグメント持続時間及びナビゲーションデータを抽出する。復号器は、予測履歴が再構成されるまで第１サンプルに対する予測を無効にし、次に、セグメントの残り及び次のフレームを順々に復号し、ＲＡＰセグメントが出現する毎に予測子を無効にする。この構成により、復号器は、サブ−フレーム解像度を有する符号化器指定ＲＡＰで又はその非常に近くで復号を開始することができる。これは、例えば、チャプターの始めでＲＡＰを指定するビデオタイミングコードにオーディオ再生を同期しようとする時のより長いフレーム持続時間と共に特に有用である。

別の例示的な実施形態では、無損失ＶＢＲオーディオビットストリームは、検出されたトランジエントが、そのそれぞれのチャンネルにおけるセグメントの最初のＬ分析ブロック内に位置するように仕切られたＭＰＰＳによって符号化される。各連続のフレームでは、１チャンネルセットあたりのチャンネルあたり１トランジエントまでとフレーム内のそのロケーションとが検出される。予測パラメータは、トランジエントによって課せられるセグメント開始ポイントを考慮して各分割に対して判断される。各分割におけるサンプルは、それぞれのパラメータセットによって圧縮される。適応セグメンテーションは、各セグメントに対するセグメント持続時間及びエントロピー符号化パラメータを判断するために残留サンプルに用いられ、トランジエント（及びＲＡＰ）及び符号化セグメントペイロード制約によって課せられるセグメント開始制約を受ける符号化フレームペイロードを最小にする。第１トランジエントセグメント（チャンネルあたり）の存在及びロケーションを指示するトランジエントパラメータ及びナビゲーションデータが、ヘッダに圧縮される。復号器は、トランジエントパラメータ及び予測パラメータの付加的なセットを抽出するために、フレームヘッダを解凍する。チャンネルセットにおける各チャンネルに対して、復号器は、トランジエントセグメントが出現するまで予測パラメータの第１セットを使用し、セグメントの残りに対して第２セットに切り換える。フレームのセグメンテーションは、チャンネル及び複数のチャンネルセットにわたって同じであるが、トランジエントのロケーションは（あるとすれば）、セット間で及びセット内で変化することがある。この構成により、復号器は、サブ−フレーム解像度を備えた検出されたトランジエントの開始で又はこのごく近くで予測パラメータセットを切り換えることができる。これは、全体的な符号化効率を改善するより長いフレーム持続時間で特に有用である。

圧縮性能は、Ｍ−チャンネルオーディオに対してＭ／２非相関チャンネルを形成することによって更に強化される。チャンネルのトリプレット（ベース、相関、非相関）は、セグメンテーション及びエントロピー符号化最適化中に考えられる２つの可能な対組合せ（ベース、相関）及び（ベース、非相関）を提供し、圧縮性能を更に改善する。チャンネル対は、１つのセグメントあたり又は１つのフレームあたりで指定することができる。例示的な実施形態では、符号化器は、オーディオデータをフレーム化し、次に、ベースチャンネル及び相関チャンネルを含む順序付けられたチャンネル対を抽出し、かつ少なくとも１つのトリプレット（ベース、相関、非相関）を形成するために非相関チャンネルを生成する。チャンネルの数が奇数の場合、余分のベースチャンネルが処理される。適応又は固定多項式予測が、残留信号を形成するために各チャンネルに適用される。各トリプレットに対して、最も小さい符号化ペイロードを備えたチャンネル対（ベース、相関)又は（ベース、非相関）が選択される。選択されたチャンネル対を使用して、符号化パラメータのグローバルセットが、全てのチャンネルにわたって各セグメントに対して判断される。符号化器は、最も小さい総符号化ペイロード（ヘッダ及びオーディオデータ）を有するものに基づいて符号化パラメータのグローバルセット又は個別のセットを選択する。

いずれの手法においても、現在の分割（セグメント持続時間）に対する符号化パラメータ及びチャンネル対の最適セットが判断された状態で、符号化器は、全てのチャンネルにわたって各セグメントにおける符号化ペイロードを計算する。あらゆる望ましいＲＡＰ又は検出されたトランジエントに対するセグメント開始及び最大セグメントペイロードサイズにおける制約が満たされたと仮定すると、符号化器は、現在の分割に対するフレーム全体に対する総符号化ペイロードが、前の分割に対する現在の最適条件よりも小さいか否かを判断する。真である場合、符号化パラメータ及び符号化ペイロードの現在のセットが記憶され、セグメント持続時間が増加する。セグメンテーションアルゴリズムは、フレームを分析ブロックサイズに等しい最小セグメントサイズに分割することによって適切に開始し、各段階で２のべき乗によってセグメント持続時間を増加させる。この処理は、セグメントサイズが最大サイズ制約を破るか、又はセグメント持続時間が最大セグメント持続時間まで増加することのいずれかまで繰り返される。ＲＡＰ又はＭＰＰＳ特徴の使用可能性及びフレーム内の望ましいＲＡＰ又は検出されたトランジエントの存在により、適応セグメンテーションルーチンは、そうでなければ選ぶものよりも小さいセグメント持続時間を選択することができる。
本発明のこれらの及び他の特徴及び利点は、添付の図面を用いた好ましい実施形態の以下の詳細説明から当業者には明らかであろう。

上述のような標準的な無損失オーディオ符号化器を示すブロック図である。本発明による無損失オーディオ符号化器を示すブロック図である。本発明による無損失オーディオ復号器を示すブロック図である。セグメンテーション及びエントロピーコード選択に関するヘッダ情報を示す図である。分析ウィンドウ処理を示すブロック図である。逆分析ウィンドウ処理を示すブロック図である。クロスチャンネル非相関を示す流れ図である。適応予測分析処理を示すブロック図である。逆適応予測処理を示すブロック図である。最適セグメンテーションを示す流れ図である。エントロピーコード選択を示す流れ図である。チャンネルセットに対するエントロピーコード選択を示す流れ図である。チャンネルセットに対するエントロピーコード選択を示す流れ図である。コアプラス無損失拡張コーデックを示すブロック図である。各フレームがヘッダ及び複数のセグメントを含むビットストリームのフレームを示す図である。ＲＡＰ及びＭＰＰＳの規格に関する付加的なヘッダ情報を示す図である。ＲＡＰ及びＭＰＰＳの規格に関する付加的なヘッダ情報を示す図である。望ましいＲＡＰ又は検出されたトランジエントに対するセグメント境界又は最大セグメント持続時間を判断するための流れ図である。ＭＰＰＳを判断するための流れ図である。セグメント開始ポイント又は最大セグメント持続時間の選択を例示するフレームを示す図である。ＲＡＰセグメント及びトランジエントでのビットストリーム及びビットストリームの復号を示す図である。ＲＡＰセグメント及びトランジエントでのビットストリーム及びビットストリームの復号を示す図である。最大セグメントペイロード及び最大セグメント持続時間制約に基づく適応セグメンテーションを示す図である。

本発明は、フレーム内で指定されたセグメントで無損失復号を開始するためのランダムアクセスポイント（ＲＡＰ）機能及び／又はトランジエント影響を軽減するために仕切られた多重予測パラメータセット（ＭＰＰＳ）機能を備えた無損失可変ビットレート（ＶＢＲ）ビットストリームを生成する適応セグメンテーションアルゴリズムを提供する。適応セグメンテーション技術は、セグメント開始ポイントを判断及び固定し、望ましいＲＡＰ及び／又は検出されたトランジエントによって課せられる境界条件が満たされることを保証し、更に、符号化セグメントペイロード制約及び固定されたセグメント開始ポイントの影響を受ける符号化フレームペイロードを低減するために、各フレームにおける最適セグメント持続時間を選択する。一般的に、境界制約は、望ましいＲＡＰ又はトランジエントが、セグメントの開始のある一定の数の分析ブロック内になくてはならないことを指定する。望ましいＲＡＰは、セグメント開始から分析ブロックの数をプラス又はマイナスしたものにすることができる。トランジエントは、セグメントの最初の番号の分析ブロック内にある。フレーム内のセグメントが同じ持続時間であり、分析ブロック持続時間の２のべき乗である例示的な実施形態では、最大セグメント持続時間は、望ましい条件を保証するように判断される。ＲＡＰ及びＭＰＰＳは、より長いフレーム持続時間に対する全体的な性能を改善するために特に利用可能である。

無損失オーディオコーデック
図２ａ及び２ｂに示すように、基本的な演算ブロックは、ＲＡＰ及び／又はトランジエント及びセグメンテーション及びエントロピーコード選択に対するセグメント開始条件を設定するための分析ウィンドウ処理への修正の例外を有する既存の無損失符号化器及び復号器に類似である。分析ウィンドウプロセッサは、マルチチャンネルＰＣＭオーディオ２０をデータをある一定の持続時間のフレームにブロック化する分析ウィンドウ処理２２にかけ、望ましいＲＡＰ及び／又は検出されたトランジエントに基づいてセグメント開始ポイントを固定し、フレーム内の各チャンネルにおけるオーディオサンプルを非相関にすることによって冗長性を取り除く。相関解除は、現在のオリジナルサンプルに対する値を推定して残りを判断するために、古い再構成オーディオサンプル（予測履歴）を使用するあらゆる処理に広義に定められる予測を使用して実行される。予測技術は、なかでも固定又は適応及び線形又は非線形を包含する。残留信号を直接エントロピー符号化する代わりに、適応セグメント化器は、データを複数のセグメントにセグメント化する最適セグメンテーション及びエントロピーコード選択処理２４を実行し、セグメント持続時間及び符号化パラメータ、例えば、各セグメントに対して特定のエントロピー符号器及びそのパラメータの選択を判断し、各セグメントが、フレームサイズよりも小さいバイトの最大数よりも小さく、フレーム持続時間よりも短く、完全に無損失で復号可能にしなくてはならず、かついかなる望ましいＲＡＰ及び／又は検出されたトランジエントも、セグメントの開始から分析ブロックの指定された数（サブ−フレーム解像度）内になくてはならないという制約を受けるフレーム全体に対して符号化ペイロードを最小にする。符号化パラメータのセットは、各個別チャンネルに対して最適化され、符号化パラメータのグローバルセットに対して最適化することができる。エントロピー符号器エントロピーは、符号化パラメータのその特定のセットに従って各セグメントを符号化する（２６）。圧縮器は、符号化されたデータ及びヘッダ情報をビットストリーム３０に圧縮する（２８）。

図２ｂに示すように、復号演算を実行するために、復号器は、例えば、ビデオシーン又はチャプターのユーザ選択又はユーザサーフィンに応答して、ビットストリーム３０におけるポイントにナビゲートし、解凍器が、ヘッダ情報及び符号化データを抽出するためにビットストリームを解凍する（４０）。復号器は、復号を始めることができる次のＲＡＰセグメントを判断するために、ヘッダ情報を解凍する。次に、復号器は、ＲＡＰセグメントにナビゲートし、復号を開始する。復号器は、復号器が各ＲＡＰセグメントに遭遇した時にある一定の数のサンプルに対して予測を無効にする。復号器がフレームにおけるトランジエントの存在を検出した場合、復号器は、予測パラメータの第１セットを使用し、第１パーティションを復号し、次に、フレーム内で順方向にトランジエントから復号するために予測パラメータの第２セットを使用する。エントロピー復号器は、残留信号を無損失で再構成するために、割り当てられた符号化パラメータに従って各チャンネルの各セグメントにおいてエントロピー復号４２を実行する。逆分析ウィンドウプロセッサは、これらの信号を逆分析ウィンドウ処理４４にかけ、逆分析ウィンドウ処理４４が、オリジナルＰＣＭオーディオ２０を無損失で再構成するために逆予測を実行する。

ビットストリームナビゲーション及びヘッダフォーマット
図１０に示すように、ビットストリーム３０におけるフレーム５００は、ヘッダ５０２及び複数のセグメント５０４を含む。ヘッダ５０２は、同期５０６、共通ヘッダ５０８、１つ又はそれよりも多くのチャンネルセットに対するサブ−ヘッダ５１０、及びナビゲーションデータ５１２を含む。この実施形態では、ナビゲーションデータ５１２は、ＮＡＶＩチャンク５１４及びエラー訂正コードＣＲＣ１６（５１６）を含む。ＮＡＶＩチャンクは、全ナビゲーションを可能にするために、ナビゲーションデータをビットストリームの最小部分に分解することが好ましい。チャンクは、各セグメントに対してＮＡＶＩセグメント５１８を含み、各ＮＡＶＩセグメントは、各チャンネルセットに対してＮＡＶＩＣｈセットペイロードサイズ５２０を含む。特に、それによって復号器は、あらゆる指定されたチャンネルセットに対してＲＡＰセグメントの開始にナビゲートすることができるようなる。各セグメント５０４は、各チャンネルセットにおける各チャンネルに対してエントロピー符号化残余５２２（及び予測がＲＡＰに対して無効の場合はオリジナルサンプル）を含む。

ビットストリームは、少なくとも１つの及び好ましくは複数の異なるチャンネルセットに対して、ヘッダ情報及び符号化データを含む。例えば、第１チャンネルセットは、２．０構成とすることができ、第２チャンネルセットは、５．１チャンネル呈示から成る付加的な４チャンネルとすることができ、第３チャンネルセットは、全体的に７．１チャンネル呈示から成る付加的な２サラウンドチャンネルとすることができる。８チャンネル復号器は、その出力で７．１チャンネル呈示を生成する全ての３チャンネルセットを抽出して復号する。６チャンネル復号器は、５．１チャンネル呈示を生成するチャンネルセット３を完全に無視し、チャンネルセット１及びチャンネルセット２を抽出して復号する。２チャンネル復号器は、チャンネルセット１だけを抽出して復号し、２チャンネル呈示を生成するチャンネルセット２及び３を無視する。この方法で構造化されたストリームを有することは、復号器の複雑さの拡張容易性を考慮するものである。

符号化中に、時間符号化器は、いわゆる「組込みダウン−ミクシング」を実行し、それによって７．１→５．１ダウン−ミックスが、チャンネルセット１及び２で符号化される５．１チャンネルにおいて容易に利用可能である。同様に、５．１→２．０ダウン−ミックスは、チャンネルセット１として符号化される２．０チャンネルにおいて容易に利用可能である。チャンネルセット１及び２を復号することにより、６チャンネル復号器は、符号化側で実行された５．１→２．０ダウン−ミックス組込みの演算を取り消した後に５．１ダウン−ミックスを取得する。同様に、全８チャンネル復号器は、チャンネルセット１、２、及び３を復号し、かつ符号化側で実行された７．１→５．１及び５．１→２．０ダウン−ミックス組込みの演算を取り消すことにより、オリジナル７．１呈示を取得する。

図３に示すように、ヘッダ３２は、セグメンテーション及びエントロピーコード選択を実施するために無損失コーデックに本来提供されているものを超えた付加的な情報を含む。より具体的に、ヘッダは、セグメントの数（ＮｕｍＳｅｇｍｅｎｔｓ）及び各セグメントにおけるサンプルの数（ＮｕｍＳａｍｐｌｅｓＩｎＳｅｇｍ）のような共通ヘッダ情報３４、量子化非相関係数（ＱｕａｎｔＣｈＤｅｃｏｒｒＣｏｅｆｆ［］［］）のようなチャンネルセットヘッダ情報３６、及びチャンネルセットに対する現在のセグメントにおけるバイトの数（ＣｈＳｅｔＢｙｔｅＣＯｎｓ）のようなセグメントヘッダ情報３８、Ｒｉｃｅ又はＢｉｎａｒｙ符号化のいずれが使用されているかを指示するグローバル最適化フラグ（ＡｌｌＣｈＳａｍｅＰａｒａｍＦｌａｇ）及びエントロピー符号器フラグ（ＲｉｃｅＣｏｄｅＦｌａｇ［］、ＣｏｄｅＰａｒａｍ［］）、及び符号化パラメータを含む。この特定のヘッダ構成は、フレーム内の等しい持続時間のセグメント、及び分析ブロック持続時間の２のべき乗であるセグメントを仮定する。フレームのセグメンテーションは、チャンネルセット内のチャンネルにわたって及びチャンネルセットにわたって均一である。

図１１ａに示すように、ヘッダは、所定のフレーム内のＲＡＰの存在及びロケーションを指定する共通ヘッダにおけるＲＡＰパラメータ５３０を更に含む。この実施形態では、ヘッダは、ＲＡＰがプレゼントである場合には、ＲＡＰフラグ＝真を含む。ＲＡＰのＩＤは、望ましいＲＡＰでビットストリームにアクセスする場合に復号を開始するために、ＲＡＰセグメントのセグメント数を指定する。代替的に、ＲＡＰ＿ＭＡＳＫは、ＲＡＰでないセグメントを指示するために使用することができる。ＲＡＰは、全てのチャンネルセットにわたって一貫していることになる。

図１１ｂに示すように、ヘッダは、全体のフレーム、又はトランジエントの場合にトランジエントの前のフレームの第１パーティションのいずれかにおけるチャンネルｃｈに対するＡｄＰｒｅｄＯｒｄｅｒ［０］［ｃｈ］＝適応予測子のオーダー又はＦｉｘｅｄＰｒｅｄＯｒｄｅｒ［０］［ｃｈ］＝固定予測子のオーダーを含む。適応予測が選択された（ＡｄＰｒｅｄＯｒｄｅｒ［０］［ｃｈ］＞０）の場合、適応予測係数が符号化され、ＡｄＰｒｅｄＣｏｄｅｓ［０］［ｃｈ］［ＡｄＰｒｅｄＯｒｄｅｒ［０］［ｃｈ］］に圧縮される。

ＭＰＰＳの場合、ヘッダは、チャンネルセットヘッダ情報にトランジエントパラメータ５３２を更に含む。この実施形態では、各チャンネルセットヘッダは、トランジエントがチャンネルｃｈで検出された場合、ＥｘｔｒａＰｒｅｄＳｅｔｓＰｒｓｅｎｔ［ｃｈ］フラグ＝真、ＳｔａｒｔＳｅｇｍｅｎｔ［ｃｈ］＝チャンネルｃｈに対するトランジエント開始セグメントを指示する指標、及びＡｄＰｒｅｄＯｒｄｅｒ［１］［ｃｈ］＝適応予測子のオーダー又はＦｉｘｅｄＰｒｅｄＯｒｄｅｒ［１］［ｃｈ］＝フレームポストにおける第２パーティションに利用可能でトランジエントを含むチャンネルｃｈに対する固定予測子のオーダーを含む。適応予測が選択された（ＡｄＰｒｅｄＯｒｄｅｒ［１］［ｃｈ］＞０）の場合、適応予測係数の第２セットが符号化され、ＡｄＰｒｅｄＣｏｄｅｓ［１］［ｃｈ］［ＡｄＰｒｅｄＯｒｄｅｒ［１］［ｃｈ］］に圧縮される。トランジエントの存在及びロケーションは、チャンネルセット内のチャンネルにわたって及びチャンネルセットにわたって変えることができる。

分析ウィンドウ処理
図４ａ及び４ｂに示すように、分析ウィンドウ処理２２の例示的な実施形態は、極めて一般的な手法である適応予測４６又は固定多項式予測４８のいずれかから選択し、各チャンネルを非相関にする。図６ａに関して詳しく説明するように、最適予測子オーダーが、各チャンネルに対して推定される。オーダーがゼロよりも大きい場合、適応予測が加えられる。そうでなければ、より単純な固定多項式予測が使用される。同様に、復号器では、逆分析ウィンドウ処理４４が、逆適応予測５０又は逆固定多項式予測５２のいずれかから選択し、残留信号からＰＣＭオーディオを再構成する。適応予測子オーダー及び適応予測係数指標及び固定予測子オーダーは、チャンネルセットヘッダ情報に圧縮される（５３）。

クロス−チャンネル非相関
本発明によると、圧縮性能は、チャンネル間の相関尺度に従ってＭ入力チャンネルをチャンネル対にオーダー化するクロスチャンネル非相関５４を実施することによって更に拡張することができる（望ましいＲＡＰポイントでのＭ分析ブロック制約とは異なる「Ｍ」）。チャンネルの１つは、「ベース」チャンネルとして指定されており、他は、「相関」チャンネルとして指定されている。非相関チャンネルは、「トリプレット」（ベース、相関、非相関）を形成するために、各チャンネル対に対して生成される。トリプレットの形成は、セグメンテーション及びエントロピー符号化最適化中に考えられる２つの可能な対組合せ（ベース、相関）及び（ベース、非相関）を提供し、圧縮性能を更に改善する（図８ａを参照）。

（ベース、相関）と（ベース、非相関）の間の判断は、（何らかのエネルギ尺度に基づいて）適応セグメンテーションの前に又は適応セグメンテーションと統合して実行することができる。前者の手法は、複雑さを低減し、後者は、効率を上げる。「ハイブリッド」手法は、相関チャンネルよりもかなり小さな分散（閾値に基づいて）を備えた非相関チャンネルを有するトリプレットに対して使用することができ、適応セグメンテーションの前の非相関チャンネルによる相関チャンネルの単純な置換が使用され、同時に、全ての他のトリプレットに対して、符号化相関又は非相関チャンネルに関する判断が、適応セグメンテーション処理に委ねられる。これは、符号化効率を犠牲にすることなく適応セグメンテーション処理の複雑さを幾らか単純にする。

オリジナルＭ−ｃｈのＰＣＭ２０及びＭ／２−ｃｈ非相関ＰＣＭ５６は、両方とも適応予測及び固定多項式予測演算に転送され、チャンネルの各々に対する残留信号を生成する。図３に示すように、対方式非相関処理中に実行される選別の前のチャンネルのオリジナルオーダーを指示する指標（ＯｒｉｇＣｈＯｒｄｅｒ［］）及び量子化非相関係数に対するコードの存在を指示する各チャンネル対に対するフラグＰＷＣｈＤｅｃｏｒｒＦｌａｇ［］が、図３のチャンネルセットヘッダ３６に記憶される。

図４ｂに示すように、逆分析ウィンドウ処理４４の復号演算を実行するために、ヘッダ情報は、解凍され（５８）、残り（ＲＡＰセグメントの最初のオリジナルサンプル）は、ヘッダ情報、すなわち、各チャンネルに対する適応及び固定予測子オーダーに従って逆固定多項式予測５２又は逆適応予測５０のいずれかを通過する。チャンネルにおけるトランジエントの存在下では、チャンネルセットは、そのチャンネルに対する予測パラメータの２つの異なるセットを有することになる。Ｍ−チャンネル非相関ＰＣＭオーディオ（Ｍ／２チャンネルがセグメンテーション中に廃棄される）が、チャンネルセットヘッダからＯｒｉｇＣｈＯｒｄｅｒ［］指標及びＰＷＣｈＤｅｃｏｒｒＦｌａｇｇ［］フラグを読み取る逆クロスチャンネル非相関６０を通過させられ、Ｍ−チャンネルＰＣＭオーディオ２０を無損失で再構成する。

クロスチャンネル非相関５４を実行するための例示的な処理が図５に示されている。一例として、ＰＣＭオーディオが、Ｍ＝６の個別のチャンネル、Ｌ、Ｒ、Ｃ、Ｌｓ、Ｒｓ、及びＬＦＥとして提供され、これは、フレームに記憶された１つのチャンネルセット構成に直接対応する。他のチャンネルセットは、例えば、中央左側後方サラウンド及び中央右側後方サラウンドとすることができ、７．１サラウンドオーディオを生成する。処理は、フレームループを開始し、チャンネルセットループを開始することによって始まる（段階７０）。各チャンネルに対するゼロ−ラグ自己相関推定値（段階７２）及びチャンネルセットにおけるチャンネル対の全ての可能な組合せに対するゼロ−ラグ相互相関推定値（段階７４）が計算される。次に、チャンネル対方式相関係数ＣＯＲＣＯＥＦは、対における包含されたチャンネルに対するゼロ−ラグ自己相関推定値の積によって割算されたゼロ−ラグ相互相関推定値として推定される(段階７６)。ＣＯＲＣＯＥＦは、最も大きな絶対値から最も小さな絶対値に分類され、テーブルに記憶される（段階７８）。テーブルの最上位から開始して、対応するチャンネル対指標は、全ての対が構成されるまで抽出される（段階８０）。例えば、６チャンネルは、（Ｌ、Ｒ）、（Ｌｓ、Ｒｓ）、及び（Ｃ、ＬＦＥ）としてそのＣＯＲＣＯＥＦに基づいて対にすることができる。

処理は、チャンネル対ループを開始し（段階８２）、低エネルギを指示する小さなゼロ−ラグ自己相関推定値を有するものとして「ベース」チャンネルを選択する（段階８４）。この例では、Ｌ、Ｌｓ及びＣチャンネルは、ベースチャンネルを形成する。チャンネル対非相関係数（ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ）は、ベースチャンネルのゼロ−ラグ自己相関推定値によって割算されるゼロ−ラグ相互相関推定値として計算される（段階８６）。非相関チャンネルが、ベースチャンネルサンプルをＣＨＰａｉｒＤｅｃｏｒｒＣｏｅｆｆで乗算し、かつ相関チャンネルの対応するサンプルからその結果を減算することによって生成される（段階８８）。チャンネル対及びその関連付けられた非相関チャンネルは、「トリプレット」を定める（Ｌ、Ｒ、Ｒ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［１］^*Ｌ）、（Ｌｓ、Ｒｓ、Ｒｓ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［２］^*Ｌｓ）、（Ｃ、ＬＦＥ、ＬＦＥ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［３］ ^*Ｃ）（段階８９）。各チャンネル対（及び各チャンネルセット）に対するＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［］及び対構成を定めるチャンネル指標が、チャンネルセットヘッダ情報に記憶される（段階９０）。この処理は、フレームにおける各チャンネルセットに対して、かつ次にウィンドウＰＣＭオーディオにおける各フレームに対して繰り返される（段階９２）。

ＲＡＰ及びトランジエントに対するセグメント開始ポイントの判断
望ましいＲＡＰ及び／又は検出されたトランジエントに対応するために、セグメント開始及び持続時間制約を判断するための例示的な手法が、図１２から１４に示されている。処理されるオーディオデータの最小ブロックは、「分析ブロック」と呼ばれる。分析ブロックは、符号化器でのみ目に見え、復号器は、セグメントを処理するだけである。例えば、分析ブロックは、６４分析ブロックを含む３２ｍｓフレームにおけるオーディオデータの０．５ｍｓを表すことができる。セグメントは、１つ又はそれよりも多くの分析ブロックから成る。理想的には、フレームは、望ましいＲＡＰ又は検出されたトランジエントが、ＲＡＰ又はトランジエントセグメントの第１分析ブロックに入るように仕切られる。しかし、望ましいＲＡＰ又はトランジエントのロケーションに応じて、この条件を保証するために、符号化フレームペイロードをあまりにも増加させるサブ最適セグメンテーション（非常に短いセグメント持続時間）を強いる場合がある。従って、トレードオフは、あらゆる望ましいＲＡＰも、ＲＡＰセグメントの開始のＭ分析ブロック内（チャンネル非相関ルーチンにおけるＭチャンネルとは異なる「Ｍ」）に入らなくてはならず、かついかなるトランジエントも、対応するチャンネルにおけるトランジエントセグメントの開始に続く最初のＬ分析ブロック内になくてはならないと指定することである。Ｍ及びＬは、フレームにおける分析ブロックの総数よりも小さく、各条件に対する望ましいアラインメント許容範囲を保証するように選択される。例えば、フレームが６４分析ブロックを含む場合、Ｍ及び／又はＬは、１、２、４、８、又は１６とすることができる。一般的に、総数よりも小さい２のべき乗及び一般的にその小さな部分（僅か２５％）は、真のサブ−フレーム解像度を提供する。更に、フレーム内で変えることができるセグメント持続時間は、適応セグメンテーションアルゴリズムを有意に複雑にし、符号化効率における比較的小さな改善と共にヘッダオーバーヘッドビットを増加させる。この結果、一般的な実施形態は、セグメントをフレーム内の等しい持続時間及び分析ブロック持続時間の２のべき乗に等しい持続時間に制限し、例えば、Ｐ＝０、１、２、４、８などである場合、セグメント持続時間＝２^P*分析ブロック持続時間である。より一般的なケースでは、アルゴリズムが、ＲＡＰ又はトランジエントセグメントの開始を指定する。制約されたケースでは、アルゴリズムは、条件が満たされることを保証する各フレームに対する最大セグメント持続時間を指定する。

図１２に示すように、チャプター又はシーンの開始を指定するビデオタイミングコードのような望ましいＲＡＰを含む符号化タイミングコードは、アプリケーション層によって提供される（段階６００）。上述のＭ及びＬの最大値を指示するアラインメント許容範囲が提供される（段階６０２）。フレームは、複数の分析ブロックにブロック化され、望ましいＲＡＰを分析ブロックに整列させるためにタイミングコードに同期化される（段階６０３）。望ましいＲＡＰがフレーム内にある場合、符号化器は、ＲＡＰ分析ブロックがＲＡＰセグメントの開始前又は後のＭ分析ブロック内になくてはならない場合にＲＡＰセグメントの開始を固定する（段階６０４）。望ましいＲＡＰが、ＲＡＰセグメントの開始のＭ分析ブロック内のＲＡＰセグメントに先行するセグメントに実際に入ることができる点に注意されたい。この手法は、適応／固定予測分析を開始し（段階６０５）、チャンネルセットループを開始し（段階６０６）、かつ図１３に示されているルーチンを呼び出すことによってチャンネルセットにおける適応／固定予測分析を開始する（段階６０８）。チャンネルセットループは、ＥｘｔｒａＰｒｅｄＳｅｔｓＰｒｅｓｅｎｔ［］＝偽の場合に（ＡｄＰｒｅｄＯｒｄｅｒ［０］［］、FｉｘｅｄＰｒｅｄＯｒｄｅｒ［０］［］、及びＡｄｐｒｅｄＣｏｄｅｓ［０］［］［］）である予測パラメータの１つのセット、又はＥｘｔｒａＰｒｅｄＳｅｔｓＰｒｅｓｅｎｔ［］＝真の場合に（ＡｄＰｒｅｄＯｒｄｅｒ［０］［］、FｉｘｅｄＰｒｅｄＯｒｄｅｒ［０］［］、ＡｄｐｒｅｄＣｏｄｅｓ［０］［］［］、ＡｄＰｒｅｄＯｒｄｅｒ［１］［］、ＦｉｘｅｄＰｒｅｄＯｒｄｅｒ［１］［］、及びＡｄＰｒｅｄＣｏｄｅｓ［１］［］［］）である予測パラメータの２つのセット、チャンネルあたりのあらゆる検出されたトランジエントの残余及びロケーション（ＳｔａｒｔＳｅｇｍｅｎｔ［］）（段階６１２）を戻すルーチンによって終了する（段階６１０）。段階６０８は、ビットストリームにおいて符号化される各チャンネルセットに対して繰り返される。各フレームに対するセグメント開始ポイントは、ＲＡＰセグメント開始ポイント及び／又は検出されたトランジエントセグメント開始ポイントから判断され、図１６及び７ａ−７ｂの適応セグメンテーションアルゴリズムに送られる（段階６１４）。セグメント持続時間が均一かつ分析ブロック長の２のべき乗に制約される場合、最大セグメント持続時間は、固定開始ポイントに基づいて選択され、適応セグメンテーションアルゴリズムに送られる（段階６１６）。最大セグメント持続時間制約は、固定開始ポイントにプラスして持続時間における制約を加えて維持される。

チャンネルセットルーチンにおける開始適応／固定予測分析の例示的な実施形態（段階６０８）が、図１３に示されている。ルーチンは、ｃｈ毎に指標付けされたチャンネルループを開始し（段階７００）、フレームベースの予測係数及びパーティションベースの予測係数（トランジエントが検出された場合）を計算し、かつチャンネルあたり最良符号化効率を備えた手法を選択する。トランジエントが検出された場合でも、最も効率的な符号化は、トランジエントを無視することである。ルーチンは、あらゆる符号化トランジエントの予測パラメータセット、残余、及びロケーションも戻す。

より具体的には、ルーチンは、図６ａに示す適応予測ルーチンを呼び出すことによってフレームベースの予測分析を実行し（段階７０２）、フレームベースの予測パラメータのセットを選択する（段階７０４）。パラメータのこの単一セットは、次に、フレームにおけるあらゆるＲＡＰセグメントの開始も考察してオーディオサンプルのフレームに予測を実行するために使用される（段階７０６）。より具体的には、予測は、予測の順番まで第１サンプルに対してＲＡＰセグメントの開始時に無効にされる。フレームベースの残余ノルムの尺度、例えば、残余エネルギは、残余値及び予測が無効にされたオリジナルサンプルから推定される。

並行して、ルーチンは、いずれかのトランジエントが現在のフレーム内の各チャンネルに対するオリジナル信号に存在するか否かを検出する（段階７０８）。閾値が、偽検出及び失敗検出の間の均衡を取るために使用される。トランジエントを包含する分析ブロックの指標が記録される。トランジエントが検出された場合、ルーチンは、トランジエントがセグメントの最初のＬ分析ブロック内に入るようにするために位置したトランジエントセグメントの開始ポイントを固定し（段階７０９）、更に、フレームは、第１及び第２パーティションに仕切られ、第２パーティションは、トランジエントセグメントの開始と一致する（段階７１０）。次に、ルーチンは、図６ａに示す適応予測ルーチンを二度呼び出し（段階７１２）、第１及び第２パーティションに対してパーティションベースの予測パラメータの第１及び第２セットを選択する（段階７１４）。パラメータの２つのセットは、次に、フレームにおけるあらゆるＲＡＰセグメントの開始も考察し、オーディオサンプルの第１及び第２パーティションそれぞれに予測を実行するために使用される（段階７１６）。パーティションベースの残余ノルムの尺度（例えば、残余エネルギ）は、予測が無効にされた場合、残余値及びオリジナルサンプルから推定される。

ルーチンは、各チャンネルに対する複数のパーティションに対して要求された増加したヘッダ情報を明らかにするために、フレームベースの残余ノルムを閾値によって乗算されたパーティションベースの残余ノルムと比較する（段階７１６）。フレームベースの残余エネルギが小さい場合、フレームベースの残余及び予測パラメータが戻され（段階７１８）、そうでなければ、パーティションベースの残余、予測パラメータの２つのセット、及び記録されたトランジエントの指標が、そのチャンネルに対して戻される（段階７２０）。チャンネル毎に指標付けされたチャンネルループ（段階７２２）及びチャンネルセットにおける適応／固定予測分析（段階７２４）は、終了の前に１つのセットにおけるチャンネル及びチャンネルセットの全てにわたって反復される。

単一のフレーム８００に対するセグメント開始ポイント又は最大セグメント持続時間の判断が図１４に示されている。フレーム８００は、３２ｍｓであり、持続時間において各々が０．５ｍｓの６４の分析ブロック８０２を包含すると仮定する。ビデオタイミングコード８０４は、９番目の分析ブロック内に入る望ましいＲＡＰ８０６を指定する。トランジエント８０８及び８１０は、第５及び第１８分析ブロック内にそれぞれ入るＣＨ１及び２で検出される。制約されないケースでは、ルーチンは、分析ブロック５、９、及び１８でセグメント開始ポイントを指定することができ、ＲＡＰ及びトランジエントが、そのそれぞれのセグメントの第１分析ブロックに入るようにする。適応セグメンテーションアルゴリズムは、他の制約を満たすために更にフレームを分割し、これらの開始ポイントが維持される限りフレームペイロードを最小にすることができる。適応セグメンテーションアルゴリズムは、セグメント境界を変えることができ、かつ他の制約を満たすか又はペイロードをより最適化するために望ましいＲＡＰ又はトランジエントが指定された数の分析ブロック内に入るという条件を満たすことができる。

制約されるケースでは、ルーチンは、この実施例では、望ましいＲＡＰ及び２つのトランジエントの各々における条件を満たす最大セグメント持続時間を判断する。望ましいＲＡＰ８０６が第９分析ブロック内に入るので、ＲＡＰがＲＡＰセグメントの第１分析ブロックに確実に入るようにする最大セグメント持続時間は、８ｘ（分析ブロックの持続時間によってスケーリングされる）である。従って、許容可能なセグメントサイズ（分析ブロックの２の倍数として）は、１、２、４、及び８である。同様に、Ｃｈ１トランジエント８０８が第５分析ブロック内に入るので、最大セグメント持続時間は４である。ＣＨ２におけるトランジエント８１０は、第１分析ブロックで発生することを保証するために分析ブロックに等しいセグメント持続時間（１Ｘ）を必要とするのでより問題がある。しかし、トランジエントが第２分析ブロックに位置する場合、最大セグメント持続時間は１６ｘである。これらの制約の下で、ルーチンは、４の最大セグメント持続時間を選択することができ、それによってフレームペイロードを最小にして他の制約を満足させるために、１ｘ、２ｘ、及び４ｘから適応セグメンテーションアルゴリズムが選択することを可能にする。

他の実施形態では、ｎ番目毎のフレームの第１セグメントは、タイミングコードがそのフレームにおける異なるＲＡＰセグメントを指定しない限り、デフォルトによってＲＡＰセグメントとすることができる。デフォルトＲＡＰは、例えば、ユーザが、ビデオタイミングコードによって指定されたＲＡＰだけに制約されるのではなく、オーディオビットストリーム内をジャンプ又は「サーフィン」することを可能にするのに有用である場合がある。

適応予測
適応予測分析及び残余生成
線形予測は、オーディオ信号のサンプル間の相関関係を取り除こうとする。線形予測の基本原理は、前のサンプルｓ（ｎ−１）、ｓ（ｎ−２）、．．．を使用してサンプルｓ（ｎ）の値を予測し、オリジナルサンプルｓ（ｎ）から予測された値：

を差し引くことである。得られる残留信号：

は、理想的には、非相関であり、この結果、平坦周波数スペクトルを有することになる。更に、残留信号は、より小さな分散を有することになり、オリジナル信号は、次に、より少ないビットがそのデジタル表現に必要であることを意味する。

オーディオコーデックの例示的な実施形態では、ＦＩＲ予測子モデルは、以下の式によって表される：

ここで、Ｑ｛｝は、量子化演算を示し、Ｍは、予測子オーダーを示し、ａ_kは、量子化予測係数である。特定の量子化Ｑ｛｝は、オリジナル信号が、様々な有限精度プロセッサアーキテクチャを使用して復号側において再構成されるので、無損失圧縮に必要である。Ｑ｛｝の定義は、符号器及び復号器の両方に利用可能であり、オリジナル信号の再構成は、次式によって簡単に得られる：

ここで、同じａ_k量子化予測係数は、符号化器及び復号器の両方に利用可能であると仮定する。予測子パラメータの新しいセットは、各分析ウィンドウ（フレーム）に対して送信され、それによって予測子は、時間変化オーディオ信号構造に適応することができる。トランジエント検出のケースでは、予測パラメータの２つの新しいセットが、トランジエントが検出された各チャンネルに対するフレームに対して送信され、１つは、トランジエントの前の残余を復号するためであり、１つは、トランジエントを含みかつトランジエントの次の残余を復号するためである。

予測係数は、平均二乗予測残余を最小にするように設計されている。量子化Ｑ｛｝は、予測子を非線形予測子にする。しかし、例示的な実施形態では、量子化は、２４ビット精度によって行われ、得られる非線形効果が予測係数最適化中に無視されると仮定することが妥当である。量子化Ｑ｛｝を無視して、元にある最適化問題は、信号自己相関シーケンスと未知の予測子係数のラグを伴う連立１次方程式として表される。この連立１次方程式は、レビンソン−ダービン（ＬＤ）アルゴリズムを使用して効率良く解くことができる。

得られる線形予測係数（ＬＰＣ）は、量子化を必要とし、それによってこれらは、符号化ストリームで効率良く送信される。残念ながら、ＬＰＣの直接量子化は、小さな量子化エラーが大きなスペクトルエラーを引き起こす場合があるので、最も効率的な手法ではない。ＬＰＣの他の表現は、量子化エラーに対する感度をあまり示さない反射係数（ＲＣ）表現である。この表現は、ＬＤアルゴリズムから取得することができる。ＬＤアルゴリズムの定義により、ＲＣは、マグニチュード≦１（数値エラーを無視する）を有することが保証される。ＲＣの絶対値が１に近い場合、量子化ＲＣに存在する量子化エラーへの線形予測の感度は高くなる。解法は、１付近の精密な量子化段階によってＲＣの不均一量子化を実行することである。これは、以下の２つの段階で達成することができる：
１）ＲＣをマッピング関数によってログ−エリア比（ＬＡＲ）表現に変換する：

ここで、ログは、自然対数を示している。
２）ＬＡＲを均一に量子化する。
ＲＣ→ＬＡＲ変換は、パラメータの振幅スケールをワープし、それによって段階１及び２の結果は、１付近のより精密な量子化段階によって不均一量子化に同等である。

図６ａに示すように、適応予測分析の例示的な実施形態では、量子化されたＬＡＲパラメータが、適応予測子パラメータを表すために使用され、符号化ビット−ストリームで送信される。各入力チャンネルにおけるサンプルは、互いに関係なく処理され、結果として、本説明は、単一チャンネルにおける処理のみを考慮することになる。
第１段階は、分析ウィンドウの持続時間にわたる自己相関シーケンスを計算することである（検出されたトランジエントの前及び後のフレーム全体又はパーティション）（段階１００）。フレーム境界の不連続によって引き起こされるブロック効果を最小にするために、データは、最初にウィンドウに通される。ラグの指定された数（最大ＬＰオーダー＋１に等しい）に対する自己相関シーケンスは、ウィンドウに通されたデータのブロックから推定される。

レビンソン−ダービン（ＬＤ）アルゴリズムは、推定された自己相関ラグのセットに加えられ、最大ＬＰオーダーまでの反射係数（ＲＣ）のセットが計算される（段階１０２）。（ＬＤ）アルゴリズムの中間結果は、最大ＬＰオーダーまでの各線形予測オーダーに対する予測残余の推定される分散のセットである。次のブロックでは、残余分散のこのセットを使用して、線形予測子（ＡｄＰｒｅｄＯｒｄｅｒ）オーダーが選択される（段階１０４）。

選択された予測子オーダーに対して、反射係数（ＲＣ）のセットが、上述のマッピング関数を使用してログ−エリア比パラメータ（ＬＡＲ）のセットに変換される（段階１０６）。０による割算を避けるために、ＲＣの制限が変換の前に導入される：

ここで、Ｔｒｅｓｈは、１に近いが１よりも小さい数を示している。ＬＡＲパラメータは、以下の規則に従って量子化される（段階１０８）：

ここで、ＱＬＡＲＩｎｄは、量子化されたＬＡＲ指標を示し、［ｘ］は、ｘよりも小さいか又は等しい最も大きな整数値を見つける演算を示し、ｑは、量子化段階サイズを示している。例示的な実施形態では、領域［−８から８］が、８ビットを使用して符号化される、すなわち、ｑ＝２^*８／２⁸、及び結果として、ＱＬＡＲＩｎｄは、次式に従って制限される：

ｐＱＬＡＲＩｎｄは、以下のマッピングを使用して符号付きから符号なしの値に変換される：

「ＲＣＬＵＴ」ブロックでは、ＬＡＲパラメータの逆量子化及びＲＣパラメータへの変換が、ルック−アップテーブルを使用した単一段階で行われる（段階１１２）。ルック−アップテーブルは、逆ＲＣ→ＬＡＲマッピング、すなわち、次式によって与えられるＬＡＲ→ＲＣマッピングの量子化値から成る：

ルックアップテーブルは、０、１．５^*ｑ、２．５^*ｑ、．．．１２７．５^*ｑに等しいＬＡＲの量子化値で計算される。対応するＲＣ値は、２¹⁶によってスケーリングした後、１６ビット符号なし整数に丸められ、１２８エントリテーブルにおいてＱ１６符号なし固定小数点数として記憶される。

量子化ＲＣパラメータは、次式のようにテーブル及び量子化ＬＡＲ指標ＱＬＡＲＩｎｄから計算される：

ｏｒｄ＝１、．．．ＡｄＰｒｅＯｒｄｅｒに対する量子化ＲＣパラメータＱＲＣ_ordは、以下のアルゴリズムに従って量子化線形予測パラメータに変換される（ｏｒｄ＝１、．．．ＡｄＰｒｅｄＯｒｄｅｒに対するＬＰｏｒｄ）（段階１１４）：

量子化ＲＣ係数がＱ１６符号つき固定小数点フォーマットで表されるので、上述のアルゴリズムは、Ｑ１６符号つき固定小数点フォーマットでＬＰ係数を生成する。無損失復号器計算経路は、２４ビット中間結果までサポートするように設計されている。従って、各Ｃ_ord+1、mが計算された後に、飽和検査を実行する必要がある。飽和がアルゴリズムのいずれかのステージで発生する場合、飽和フラグが設定され、特定のチャンネルに対する適応予測子オーダーＡｄＰｒｅｄＯｒｄｅｒが０にリセットされる（段階１１６）。ＡｄｐｒｅｄＯｒｄｅｒ＝０を備えたこの特定のチャンネルに対して、固定係数予測が、適応予測の代わりに行われる（固定係数予測を参照されたい）。符号なしＬＡＲ量子化指標（ｎ＝１、．．．ＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］に対するＰａｃｋＬＡＲＩｎｄ［ｎ］）は、ＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］＞０を備えたチャンネルに対してのみ符号化ストリームに圧縮される。

最後に、ＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］＞０を備えた各チャンネルに対して、適応線形予測が行われ、予測残余ｅ（ｎ）が、以下の式に従って計算される（段階１１８）：

例示的な実施形態における設計目標は、ある一定のフレームの特定のＲＡＰセグメントが「ランダムアクセスポイント」であることなので、サンプル履歴は、先行セグメントからＲＡＰセグメントに持ち越されない。代わりに、予測が、ＲＡＰセグメントにおけるＡｄＰｒｅｄＯｒｄｅｒ＋１サンプルでのみ関わってくる。
適応予測残余ｅ（ｎ）は、更に、エントロピー符号化され、符号化ビットストリームに圧縮される。

復号側の逆適応予測
復号側では、逆適応予測を実行する場合の第１段階は、ヘッダ情報を解凍することである（段階１２０）。復号器が、再生タイミングコードに従って（例えば、チャプターのユーザ選択又はサーフィン）復号を開始しようにとする場合、復号器は、そのポイントの近くであるが前のオーディオビットストリームにアクセスし、フレームにおけるＲＡＰセグメントの存在を指示するＲＡＰ＿Ｆｌａｇ＝ＴＲＵＥを見つけるまで、次のフレームのヘッダを検索する。次に、復号器は、ＲＡＰセグメントナンバー（ＲＡＰＩＤ）及びナビゲーションデータ（ＮＡＶＩ）を抽出し、ＲＡＰセグメントの開始にナビゲートし、ｉｎｄｅｘ＞ｐｒｅｄ＿ｏｒｄｅｒになるまで予測を無効にし、かつ無損失復号を開始する。復号器は、フレーム及び次のフレームにおける残りのセグメントを復号し、ＲＡＰセグメントが出現する度に予測を無効にする。ＥｘｔｒａＰｒｅｄＳｅｔｓＰｒｓｎｔ＝ＴＲＵＥが、チャンネルに対してフレームで出現した場合、復号器は、予測パラメータの第１及び第２セット及び第２セットに対する開始セグメントを抽出する。

各チャンネルＣｈ＝１、．．．ＮｕｍＣｈに対する適応予測オーダーＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］が抽出される。次に、ＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］＞０を有するチャンネルに対して、ＬＡＲ量子化指標の符号なしバージョン（ｎ＝１、．．．ＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］に対するＡｄＰｒｅｄＣｏｄｅｓ［ｎ］）が抽出される。予測オーダーＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］＞０を有する各チャンネルＣｈに対して、符号なしＡｄＰｒｅｄＣｏｄｅｓ［ｎ］が、以下のマッピングを使用して符号付き値ＱＬＡＲＩｎｄ［ｎ］にマップされる：

ここで、＞＞は、整数右方シフト演算を示している。

ＬＡＲパラメータの逆量子化及びＲＣパラメータへの変換は、「ＱｕａｎｔＲＣＬＵＴ」を使用した単一段階で行われる（段階１２２）。これは、符号化側で定められたのと同じルックアップテーブルＴＡＢＬＥ｛｝である。各チャンネルＣｈに対する量子化反射係数（ｎ＝１、．．．ＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］に対するＱＲＣ［ｎ］）が、次式の通りにＴＡＢＬＥ｛｝及び量子化ＬＡＲ指標ＱＬＡＲＩｎｄ［ｎ］から計算される：

各チャンネルＣｈに対して、ｏｒｄ＝１、．．．ＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］に対する量子化ＲＣパラメータＱＲＣ_ordは、以下のアルゴリズムに従って量子化線形予測パラメータ（ｏｒｄ＝１、．．．ＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］に対するＬＰ_ord）に変換される（段階１２４）：

中間結果の飽和のあらゆる可能性も、符号化側において取り除かれる。従って、復号側においては、各Ｃ_ord+1、mの計算後に飽和検査を実行する必要はない。

最後に、ＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］＞０を有する各チャンネルに対して、逆適応線形予測が行われる（段階１２６）。予測残余ｅ（ｎ）が以前に抽出及びエントロピー復号されていると仮定すると、再構成オリジナル信号ｓ（ｎ）は、以下の式に従って計算される：

サンプル履歴がＲＡＰセグメントで保持されないので、逆適応予測は、ＲＡＰセグメントにおける（ＡｄＰｒｅｄＯｒｄｅｒ［Ｃｈ］＋１）サンプルから開始することになる。

固定係数予測
線形予測の非常に単純な固定係数形式は、有用であることが見出されている。固定予測係数は、Ｓｈｏｒｔｅｎによって最初に提案された非常に単純な多項式近似法に従って得られる（Ｔ．Ｒｏｂｉｎｓｏｎ．ＳＨＯＲＴＥＮ著「簡単な無損失及び無損失に近い波形圧縮」、技術報告１５６、ケンブリッジ大学工学部、トランピントン通り、ケンブリッジ、ＣＢ２１ＰＺ、英国、１９９４年１２月）。このケースでは、予測係数は、ｐ次多項式を最後のｐデータポイントに当て嵌めることによって指定されるものである。以下の４つの近似に拡張する。

これらの多項式近似の興味深い特性は、得られる残留信号：

が、以下の再帰法で効率良く実施することができるということである。

固定係数予測分析が、１フレームあたりに適用され、前のフレームで計算されたサンプル（ｅｋ［−１］＝０）には頼らない。フレーム全体にわたって最小和マグニチュードを有する残余セットは、最良近似として定められる。最適残余オーダーは、各チャンネルに対して別々に計算され、固定予測オーダー（ＦＰＯ［Ｃｈ］）としてストリームに圧縮される。現在のフレームにおける残余ｅ_FPO[Ch]［ｎ］は、更にエントロピー符号化されストリームに圧縮される。

逆固定係数予測処理は、復号側において、サンプリングインスタンスｎでのｋオーダー残余の計算のためのオーダー再帰式によって定められる：

ここで、望ましいオリジナル信号ｓ［ｎ］は、次式によって与えられる：

ここで、各ｋオーダー残余に対してｅｋ［−１］＝０である。一例として、第３オーダー固定係数予測に対する再帰は、残余ｅ₃［ｎ］が符号化される場合に示され、ストリームで送信され、復号側において解凍される：

段階１２６で行われる逆線形予測は、適応又は固定に関わらず、ｍ＋１セグメントがＲＡＰセグメント９００である場合について図１５ａに、及びｍ＋１セグメントがトランジエントセグメント９０２である場合について図１５ｂに示されている。５タップ予測子９０４は、無損失オーディオサンプルを再構成するのに使用される。一般的に、予測子は、現在のサンプル９１０を無損失で再構成するために現在の残余９０８に加えられる予測された値９０６を生成するために、５つの前の無損失で再構成されたサンプルを再結合する。ＲＡＰ実施例では、圧縮オーディオビットストリーム９１２における最初の５サンプルは、圧縮されていないオーディオサンプルである。この結果、予測子は、前のサンプルからあらゆる履歴も必要とすることなくセグメントｍ＋１での無損失復号を開始することができる。言い換えると、セグメントｍ＋１は、ビットストリームのＲＡＰである。トランジエントがセグメントｍ＋１で検出された場合、セグメントｍ＋１及びフレームの残余に対する予測パラメータは、セグメント１からｍで使用されたものとは異なるものになる点に注意されたい。トランジエントの例では、セグメントｍ及びｍ＋１におけるサンプルの全てが、残余であり、ＲＡＰではない。復号が開始され、予測子に対する予測履歴が利用可能である。図示のように、セグメントｍ及びｍ＋１におけるオーディオサンプルを無損失で再構成するために、予測パラメータの異なるセットが使用される。セグメントｍ＋１で第１無損失サンプル１を生成するために、予測子は、セグメントｍから最後の５つの無損失で再構成されたサンプルを使用してセグメントｍ＋１に対するパラメータを使用する。セグメントｍ＋１がＲＡＰセグメントである場合、セグメントｍ＋１の最初の５つのサンプルは、オリジナルサンプルであり、残余ではない点に注意されたい。一般的に、所定のフレームは、ＲＡＰ又はトランジエントのいずれも包含せず、実際に、これはより一般的な結果である。代替的に、フレームは、ＲＡＰセグメント又はトランジエントセグメント又は両方を含むことができる。１つのセグメントは、ＲＡＰ及びトランジエントセグメントの両方とすることができる。

セグメント開始条件及び最大セグメント持続時間が、望ましいＲＡＰ又はセグメント内の検出されたトランジエントの許容可能なロケーションに基づいて設定されるので、最適セグメント持続時間の選択は、望ましいＲＡＰ又は検出されたトランジエントが、ＲＡＰ又はトランジエントセグメントの次のセグメント内に実際に入るビットストリームを生成することができる。これは、境界Ｍ及びＬが比較的大きく、かつ最適セグメント持続時間がＭ及びＬよりも小さい場合に起こる場合がある。望ましいＲＡＰは、実際には、ＲＡＰセグメントに先行するセグメントに入るが、指定された許容範囲にある場合がある。符号化側におけるアラインメント許容範囲の条件は、依然として維持され、復号器は、その差を知らない。復号器は、ＲＡＰ及びトランジエントセグメントに単純にアクセスする。

セグメンテーション及びエントロピーコード選択
適応セグメンテーションアルゴリズムによって対処される制約された最適化問題が図１６に示されている。問題は、各オーディオセグメントが、バイトの最大数よりも小さい符号化セグメントペイロードによって完全にかつ無損失で復号可能であるという制約に影響を受ける符号化フレームペイロードを最小にするような方法で、マルチチャンネルオーディオの１つ又はそれよりも多くのチャンネルセットをＶＢＲビットストリームに符号化することである。バイトの最大数は、フレームサイズよりも小さく、一般的には、ビットストリームを読み取るための最大アクセスユニットサイズによって設定される。望ましいＲＡＰが、ＲＡＰセグメントの開始のプラス又はマイナスＭ分析ブロック内に入らなくてはならず、かつトランジエントが、セグメントの最初のＬ分析ブロック内に入らなくてはならないようにセグメントが選択されることを要求することにより、ランダムアクセス及びトランジエントに対応するために問題が更に制約される。最大セグメント持続時間は、復号器出力バッファのサイズによって更に制約される。この実施例では、フレーム内のセグメントは、同じ長さ、及び分析ブロック持続時間の２のべき乗になるように制約される。

図１６に示すように、符号化フレームペイロード９３０を最小にするための最適セグメント持続時間は、付加的なオーバヘッドビットのコストに対して多数のより短い持続時間セグメントに対する予測利得における改善を均衡させる。この実施例では、１フレームあたり４セグメントが、２又は８セグメントのいずれよりも小さいフレームペイロードを提供する。２セグメントソリューションは、第２セグメントに対するセグメントペイロードが最大セグメントペイロード制約９３２を超えるので、不適切である。２及び４セグメントパーティションの両方に対するセグメント持続時間は、例えば、復号器出力バッファサイズ、ＲＡＰセグメント開始ポイントのロケーション、及び／又はトランジエントセグメント開始ポイントのロケーションの何らかの組合せによって設定される最大セグメント持続時間９３４を超える。この結果、適応セグメンテーションアルゴリズムは、等しい持続時間の８セグメント９３６、及びそのパーティションに対して最適化された予測及びエントロピー符号化パラメータを選択する。

制約されたケース（均一セグメント、分析ブロック持続時間の２のべき乗）に対するセグメンテーション及びエントロピーコード選択２４の例示的な実施形態が、図７ａ−ｂ及び８ａ−ｂに示されている。最適セグメント持続時間を設定するために、符号化パラメータ（エントロピーコード選択及びパラメータ）及びチャンネル対、符号化パラメータ及びチャンネル対が、最大セグメント持続時間まで複数の異なるセグメント持続時間に対して判断され、これらの候補の中から、各セグメントが完全に及び無損失で復号可能であり、かつ最大サイズ（バイトの数）を超えないという制約を満たす１フレームあたり最小符号化ペイロードを有するものが選択される。「最適」セグメンテーション、符号化パラメータ、及びチャンネル対は、勿論、符号化処理の制約、並びにセグメントサイズにおける制約を受ける。例えば、例示的な処理では、フレームでの全てのセグメントの持続時間は等しく、最適持続時間に対する検索は、分析ブロック持続時間に等しく２のべき乗ずつ増加するセグメント持続時間で始まる２項グリッドで行われ、チャンネル対選択は、フレーム全体にわたって有効である。付加的な符号化器の複雑さ及びオーバーヘッドビットの代償として、持続時間は、フレーム内で変えることができ、最適持続時間の検索をより精密に解決することができ、かつチャンネル対選択を１セグメントあたりで実行することができる。この「制約された」ケースでは、いずれの望ましいＲＡＰ又は検出されたトランジエントも指定された解像度内のセグメントの開始に整列することを保証する制約が、最大セグメント持続時間に具現化される。

例示的な処理は、セグメントにおけるサンプルの最小数、セグメントの最大許容可能符号化ペイロードサイズ、セグメントの最大数及びパーティションの最大数、及び最大セグメント持続時間のようなセグメントパラメータを初期化すること（段階１５０）によって始まる。その後、処理は、０からパーティションの最大数マイナス１まで指標付けされているパーティションループを始め（段階１５２）、かつセグメントの数、セグメントにおけるｎｕｍサンプル、及びパーティションで消費されるバイトの数を含むパーティションパラメータを初期化する（段階１５４）。この特定的な実施形態では、セグメントは、等しい持続時間であり、セグメントの数は、各パーティション反復によって２のべき乗としてスケーリングされる。セグメントの数は、最大に初期化されるのが好ましく、従って、最小持続時間は、１つの分析ブロックに等しい。しかし、処理は、持続時間を変化させるセグメントを使用することができると考えられ、これは、ＲＡＰ及びトランジエント条件を満足させるために、付加的なオーバヘッド及び付加的な複雑さになるが、オーディオデータの最適な圧縮を提供することができるであろう。更に、セグメントの数は、２のべき乗に制限する必要はなく、又は最小から最大の持続時間から検索される。このケースでは、望ましいＲＡＰ及び検出されたトランジエントによって判断されたセグメント開始ポイントは、適応セグメンテーションアルゴリズムにおける付加的な制約である。

初期化された状態で、処理は、チャンネルセットループを開始し（段階１５６）、各セグメントに対する最適エントロピー符号化パラメータ及びチャンネル対選択及び対応するバイト消費を判断する（段階１５８）。符号化パラメータＰＷＣｈＤｅｃｏｏＦｌａｇ［］［］、ＡｌｌＣｈＳａｍｅＰａｒａｍＦｌａｇ［］［］、ＲｉｃｅＣｏｄｅＦｌａｇ［］［］［］、ＣｏｄｅＰａｒａｍ［］［］［］、及びＣｈＳｅｔＢｙｔｅＣｏｎｓ［］［］が記憶される（段階１６０）。これは、チャンネルセットループが終了するまで各チャンネルセットに対して繰り返される（段階１６２）。

処理は、セグメントループを開始し（段階１６４）、全てのチャンネルセットにわたって各セグメントにおけるバイト消費（ＳｅｇｍＢｙｔｅＣｏｎｓ）を計算し（段階１６６）、かつバイト消費を更新する（ＢｙｔｅＣｏｎｓＩｎＰａｒｔ）（段階１６８）。この時点で、セグメントのサイズ（バイトでの符号化セグメントペイロード）が、最大サイズ制約と比較される（段階１７０）。制約が侵された場合、現在のパーティションが廃棄される。更に、処理が最小持続時間から始まるので、セグメントサイズが大き過ぎた場合は、パーティションループが終了し（段階１７２）、そのポイントに対する最良ソリューション（持続時間、チャンネル対、符号化パラメータ）がヘッダに圧縮され（段階１７４）、かつ処理は、次のフレームに移る。制約が最小セグメントサイズに対して不足する場合（段階１７６）、次に、最大サイズ制約を満たすことができないので、処理は終了し、かつエラーを報告する（段階１７８）。制約が満たされたと仮定すると、この処理は、セグメントループが終了するまで現在のパーティションにおける各セグメントに対して繰り返される（段階１８０）。

セグメントループが完了し、ＢｙｔｅＣｏｎｓｉｎＰａｒｔによって表されるフレーム全体に対するバイト消費が計算された状態で、このペイロードは、前のパーティション反復からの現在の最小ペイロード（ＭｉｎＢｙｔｅＩｎＰａｒｔ）と比較される（段階１８２）。現在のパーティションが改善を表す場合、現在のパーティション（ＰａｒｔＩｎｄ）は、最適パーティション（ＯｐｔＰａｒｔｉｎｄ）として記憶され、最小ペイロードが更新される（段階１８４）。これらのパラメータ及び記憶された符号化パラメータは、次に、現在の最適ソリューションとして記憶される（段階１８６）。これは、セグメンテーション情報及び符号化パラメータが図３及び１１ａ及び１１ｂに示すようにヘッダに圧縮されるポイントで（段階１５０）、最大セグメント持続時間によってパーティションループが終了するまで繰り返される（段階１７２）。

現在のパーティションに対するチャンネルセットのための最適符号化パラメータ及び関連のビット消費を判断する（段階１５８）ための例示的な実施形態が、図８ａ及び８ｂに示されている。処理は、セグメントループ（段階１９０）及びチャンネルループ（段階１９２）を開始し、ここで、本発明者による現在の実施例に対するチャンネルは以下の通りである。
Ｃｈ１：Ｌ、
Ｃｈ２：Ｒ
Ｃｈ３：Ｒ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［１］^*Ｌ
Ｃｈ４：Ｌｓ
Ｃｈ５：Ｒｓ
Ｃｈ６：Ｒｓ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［２］^*Ｌｓ
Ｃｈ７：Ｃ
Ｃｈ８：ＬＦＥ
Ｃｈ９：ＬＦＥ−ＣｈＰａｉｒＤｅｃｏｒｒＣｏｅｆｆ［３］^*Ｃ）

処理は、ベースチャンネル及び相関チャンネルに対するエントロピーコードのタイプ、対応する符号化パラメータ、及び対応するビット消費を判断する（段階１９４）。この実施例では、処理は、バイナリコード及びＲｉｃｅコードに対する最適符号化パラメータを計算し、次に、チャンネル及び各セグメントに対する最低ビット消費を有するものを選択する（段階１９６）。一般的に、最適化は、１、２、又はそれよりも多くの可能なエントロピーコードに対して実行することができる。バイナリコードでは、ビットの数は、現在のチャンネルのセグメントにおける全サンプルの最大絶対値から計算される。Ｒｉｃｅ符号化パラメータは、現在のチャンネルのセグメントにおける全サンプルの平均絶対値から計算される。選択に基づいて、ＲｉｃｅＣｏｄｅＦｌａｇが設定され、ＢｉｔＣｏｎｓが設定され、かつＣｏｄｅＰａｒａｍが、ＮｕｍＢｉｔｓＢｉｎａｒｙ又はＲｉｃｅＫＰａｒａｍのいずれかに設定される（段階１９８）。

処理される現在のチャンネルが相関チャンネルである場合（段階２００）、同じ最適化が、対応する非相関チャンネルに対して繰り返され（段階２０２）、最良エントロピーコードが選択され（段階２０４）、かつ符号化パラメータが設定される（段階２０６）。処理は、チャンネルループが終了するまで繰り返され（段階２０８）、セグメントループは終了する（段階２１０）。
この時点で、各セグメント及び各チャンネルに対する最適符号化パラメータが判断される。これらの符号化パラメータ及びペイロードは、オリジナルＰＣＭオーディオからチャンネル対（ベース、相関）に対して戻すことができる。しかし、圧縮性能は、トリプレットにおける（ベース、相関）と（ベース、非相関）チャンネル内で選択することによって改善することができる。

３つのトリプレットに対するチャンネル対（ベース、相関)又は（ベース、非相関）を判断するために、チャンネル対ループが開始され（段階２１１）、全体的なフレームビット消費への各相関チャンネル（Ｃｈ２、Ｃｈ５及びＣｈ８）及び各非相関チャンネル（Ｃｈ３、Ｃｈ６及びＣｈ９）の寄与が計算される（段階２１２）。各相関チャンネルに対するフレーム消費の寄与が、対応する非相関チャンネルに対するフレーム消費の寄与に対して、すなわち、Ｃｈ２対Ｃｈ３、Ｃｈ５対Ｃｈ６、及びＣｈ８対Ｃｈ９（段階２１４）で比較される。非相関チャンネルの寄与が相関チャンネルよりも大きい場合、ＰＷＣｈＤｅｃｏｒｒｒＦｌａｇは偽に設定される（段階２１６）。そうでなければ、相関チャンネルは、非相関チャンネルで置換され（段階２１８）、ＰＷＣｈＤｅｃｏｒｒｒＦｌａｇは真に設定され、チャンネル対は、（ベース、非相関）として構成される（段階２２０）。

これらの比較に基づいて、アルゴリズムは以下を選択する：
１．対応するベースチャンネルＣｈ１と対にされるチャンネルとしてＣｈ２又はＣｈ３のいずれか、
２．対応するベースチャンネルＣｈ４と対にされるチャンネルとしてＣｈ５又はＣｈ６のいずれか、かつ
３．対応するベースチャンネルＣｈ７と対にされるチャンネルとしてＣｈ８又はＣｈ９のいずれか。
これらの段階は、ループが終了するまで全てのチャンネル対に対して繰り返される（段階２２２）。

この時点で、各セグメント及び各個別チャンネルに対する最適符号化パラメータ及び最適チャンネル対が判断される。各個別チャンネル対及びペイロードに対するこれらの符号化パラメータは、パーティションループに戻すことができる。しかし、付加的な圧縮性能は、全てのチャンネルにわたる各セグメントに対するグローバル符号化パラメータのセットを計算することによって利用可能になる。高々、ペイロードの符号化データ部分は、各チャンネルに対して最適化された符号化パラメータと同じサイズ及び場合があるとすれば幾らか大きいものになる。しかし、オーバーヘッドビットにおける低減は、データの符号化効率のオフセット以上のものがあると考えられる。

同じチャンネル対を使用して、処理は、セグメントループを開始し（段階２３０）、符号化パラメータの個別のセットを使用してチャンネル全てに対する１セグメントあたりのビット消費（ＣｈＳｅｔＢｙｔｅＣｏｎｓ［ｓｅｇ］）を計算し（段階２３２）、かつＣｈＳｅｔＢｙｔｅＣｏｎｓ［ｓｅｇ］を記憶する（段階２３４）。符号化パラメータのグローバルセット（エントロピーコード選択及びパラメータ）が、次に、全てのチャンネルをわたることを除いて従来通りに同じバイナリコード及びＲｉｃｅコード計算を使用してチャンネルの全てにわたってセグメントに対して判断される（段階２３６）。最良パラメータが選択され、バイト消費（ＳｅｇｍＢｙｔｅＣｏｎｓ）が計算される（段階２３８）。ＳｅｇｍＢｙｔｅｓＣｏｎｓは、ＣＨＳｅｔＢｙｔｅＣｏｎｓ［ｓｅｇ］と比較される（段階２４０）。グローバルパラメータを使用することがビット消費を低減しない場合、ＡｌｌＣｈＳａｍＰａｒａｍＦｌａｇ［ｓｅｇ］が偽に設定される（段階２４２）。そうでなければ、ＡｌｌＣｈＳａｍｅＰａｒａｍＦｌａｇ［ｓｅｇ］は真に設定され（段階２４４）、グローバル符号化パラメータ及び１つのセグメントあたりの対応するビット消費が保存される（段階２４６）。この処理は、セグメントループの終わりに達するまで繰り返される（段階２４８）。全処理は、チャンネルセットループが終了するまで繰り返される（段階２５０）。

符号化処理は、異なる機能が少ないフラグの制御によって無効にすることができるように構成されている。例えば、１つの単一フラグは、対方式チャンネル非相関分析が実行されるか否かを制御する。別のフラグは、適応予測（固定予測に対する更に別のフラグ）分析が実行されるか否かを制御する。更に、単一フラグは、全てのチャンネルにわたるグローバルパラメータの検索が実行されるか否かを制御する。セグメンテーションは、パーティションの数及び最小セグメント持続時間（最も単純な形式では、所定のセグメント持続時間を有する単一パーティションとすることができる）を設定することによって制御可能である。フラグは、ＲＡＰセグメントの存在を指示し、別のフラグは、トランジエントの存在を指示する。基本的に、符号化器において少数のフラグを設定することにより、符号化器は、単純なフレーミング及びエントロピー符号化に崩すことができる。

後方互換性無損失オーディオコーデック
無損失コーデックは、損失性コア符号器と組み合わせて「拡張符号器」として使用することができる。「損失性」コアコードストリームは、コアビットストリームとして圧縮され、無損失で符号化された差信号は、別の拡張ビットストリームとして圧縮される。拡張された無損失機能による復号器における復号に応答して、損失性及び無損失ストリームは、無損失再構成信号を構成するために結合される。事前生成復号器では、無損失ストリームは無視され、コア「損失性」ストリームが、コアストリームのバンド幅及びＳＮ比特性を提供するために、高品質マルチチャンネルオーディオ信号に復号される。

図９は、マルチチャンネル信号の１つのチャンネルに対する後方互換性無損失符号化器４００のシステムレベルビューを示している。デジタル化オーディオ信号、適切には、Ｍ−ビットＰＣＭオーディオサンプルが入力４０２で提供される。デジタル化オーディオ信号は、修正された損失性コア符号化器４０４を超えるサンプリング速度及びバンド幅を有することが好ましい。一実施形態では、デジタル化オーディオ信号のサンプリング速度は、９６ｋＨｚである（サンプルオーディオに対する４８ｋＨｚのバンド幅に対応する）。入力オーディオは、マルチチャンネル信号とすることができ、マルチチャンネル信号であるのが好ましく、ここでは、各チャンネルは９６ｋＨｚでサンプリングされていることも理解すべきである。以下の説明は、単一チャンネルの処理に着目するが、マルチチャンネルへの拡張は分かり易いものである。入力信号は、ノード４０６で複製され、並行ブランチで処理される。信号経路の第１ブランチでは、修正損失性広帯域符号化器４０４が信号を符号化する。以下に詳しく説明する修正コア符号化器４０４は、圧縮器又はマルチプレクサ４１０に運ばれる符号化コアビットストリーム４０８を生成する。コアビットストリーム４０８は、修正コア復号器４１２に伝達され、修正コア復号器４１２が、出力として、修正再構成コア信号４１４を生成する。
一方、並行経路での入力デジタル化オーディオ信号４０２は、（修正符号化及び修正復号器により）再構成オーディオストリームに導入される遅延にほぼ等しい補償遅延４１６を受け、遅延デジタル化オーディオストリームを生成する。オーディオストリーム４００は、加算ノード４２０で遅延デジタル化オーディオストリーム４１４から減算される。

加算ノード４２０は、オリジナル信号及び再構成コア信号を表す差信号４２２を生成する。純粋に「無損失」符号化を達成するために、無損失符号化技術によって差信号を符号化及び送信する必要がある。従って、差信号４２２は、無損失符号化器４２４によって符号化され、拡張ビットストリーム４２６が、圧縮器４１０でコアビットストリーム４０８と共に圧縮され、出力ビットストリーム４２８を生成する。
無損失符号化は、無損失符号器の必要性に対応するために、可変ビットレートである拡張ビットストリーム４２６を生成する。圧縮されたストリームは、次に、任意的に、チャンネル符号化を含む更に別の層の符号化を受け、次に、送信又は記録される。この開示の目的のために、記録は、チャンネルを通じた送信として考えることができる。

拡張バンド幅を処理することができる実施形態では、コア符号化器は修正を必要とするので、コア符号化器４０４は、「修正された」として説明される。符号化器内の６４バンド分析フィルタバンク４３０は、その出力データ４３２の半分を廃棄し、コアサブバンド符号化器４３４は、より低い３２周波数バンドだけを符号化する。この廃棄された情報は、いかなるケースでも信号スペクトルの上部半分を再構成できないレガシー復号器には関係ない。残りの情報は、後方互換性コア出力ストリームを形成するために未修正符号化器により符号化される。しかし、４８ｋＨｚサンプリング速度又はこれより下で作動する別の実施形態では、コア符号化器は、以前のコア符号化器の実質的に修正されていないバージョンとすることができる。同様に、レガシー復号器のサンプリング速度より上の演算では、修正コア復号器４１２は、サンプルを低３２サブバンドで復号するコアサブバンド復号器４３６を含む。修正コア復号器は、低３２サブバンドからサブバンドサンプルを取り、上部３２帯域４３８に対する送信されていないサブバンドサンプルを消去し、６４帯域ＱＭＦ合成フィルタ４４０を使用して全６４バンドを再構成する。従来のサンプリング速度での演算（例えば、４８ｋＨｚ及びこれより下）では、コア復号器は、以前のコア復号器又は均等物の実質的に修正されていないバージョンとすることができる。一部の実施形態では、サンプリング速度の選択は、符号化時に行われ、符号化及び復号モジュールが、必要に応じてソフトウエアによってその時間に再構成される。

無損失符号化器が差信号を符号化するのに使用されるので、単純なエントロピーコードで十分であると考えられる。しかし、既存の損失性コアコーデックにおけるビットレート制限のために、無損失ビットストリームを提供するのに必要な総ビットのかなりの量が残っている。更に、コアコーデックのバンド幅制限のために、差信号における２４ｋＨｚより上の情報コンテンツは、まだ相関付けられている。例えば、３０ｋＨｚを遥かに超えるものに達するトランペット、ギター、トライアングル．．を含むたくさんの高調波成分がある。従って、より高度な無損失コーデックは、圧縮性能及び価値を改善する。更に、一部のアプリケーションでは、コア及び拡張ビットストリームは、復号可能なユニットが最大サイズを超えてはならないという制約を満たさなくてはならない。本発明の無損失コーデックは、これらの制約を満足させるための改善した圧縮性能及び改善した柔軟性の両方を提供する。

一例として、２４ビット９６ＫｈｚＰＣＭオーディオの８チャンネルは、１８．５Ｍｂｐｓを必要とする。無損失圧縮は、これを約９Ｍｂｐｓまで低減することができる。ＤＴＳコヒーレントアコースティックは、７．５Ｍｂｐｓの差信号をそのままにして、１．５Ｍｂｐｓでコアを符号化する。２ｋバイト最大セグメントサイズに対して、平均セグメント持続時間は、９６ｋＨｚで２０４８^*８／７５０００００＝２．１８ミリ秒又は大体２０９サンプルである。最大サイズを満足させるための損失性コアの一般的なフレームサイズは、１０及び２０ミリ秒の間である。

システムレベルでは、無損失コーデック及び後方互換性無損失コーデックは、既存の損失性コーデックとの後方互換性を維持しながら拡張されたバンド幅で余分のオーディオチャンネルを無損失で符号化するために結合することができる。例えば、１８．５Ｍｂｐｓでの９６ｋＨｚオーディオの８チャンネルは、１．５Ｍｂｐｓでの４８ｋＨｚオーディオの５．１チャンネルを含むために無損失で符号化することができる。コアプラス無損失符号化器は、５．１チャンネルを符号化するのに使用される。無損失符号化器は、５．１チャンネルにおける差信号を符号化するのに使用される。残りの２チャンネルは、無損失符号化器を使用して個別のチャンネルで符号化される。セグメント持続時間を最適化しようにとする場合に全てのチャンネルセットを考慮する必要があるので、符号化ツールの全ては、１つの方法又は別の方法で使用される。互換性復号器は、全ての８チャンネルを復号し、９６ｋＨｚ１８．５Ｍｂｐｓオーディオ信号を無損失で再構成する。古い復号器は、５．１チャンネルのみを復号し、４８ｋＨｚ１．５Ｍｂｐｓを再構成する。

一般的に、１つよりも多い純粋な無損失チャンネルセットが、復号器の複雑さをスケーリングするために提供される。例えば、１０．２オリジナルミックスに対して、チャンネルセットは、以下のように組織される：
−ＣＨＳＥＴ１は、５．１を運び（組込み１０．２から５．１ダウンミックスにより）、かつコア＋無損失を使用して符号化される。
−ＣＨＳＥＴ１及びＣＨＳＥＴ２は、７．１を運び（組込み１０．２から７．１ダウンミックスにより）、ここで、ＣＨＳＥＴ２は、無損失を使用して２チャンネルを符号化する。
−ＣＨＳＥＴ１＋ＣＨＳＥＴ２＋ＣＨＳＥＴ３は、全個別１０．２ミックスを運び、ここで、ＣＨＳＥＴ３は、無損失のみを使用して残りの３．１チャンネルを符号化する。

５．１だけを復号することができる復号器は、ＣＨＳＥＴ１のみを復号し、全ての他のチャンネルセットを無視することになる。７．１だけを復号することができる復号器は、ＣＨＳＥＴ１及びＣＨＳＥＴ２を復号し、全ての他のチャンネルセットを無視することになる。
更に、損失性プラス無損失コアは、５．１に制限されない。現在の実施例は、損失性（コア＋ＸＣｈ）及び無損失を使用して６．１までをサポートし、チャンネルセットのいずれの数でも組織される一般ｍ．ｎチャンネルをサポートすることができる。損失性符号化は、５．１後方互換性コアを有し、損失性コーデックによって符号化された全ての他のチャンネルは、ＸＸＣｈ拡張に入る。これは、既存の復号器との後方互換性をそのままにし、同時に付加的なチャンネルをサポートするために、かなりの設計柔軟性を全体的な無損失符号化に提供する。
本発明のいくつかの例示的な実施形態を示して説明したが、多数の変形及び代替実施形態が当業者には想起されるであろう。このような変形及び代替実施形態は、想定されており、添付の特許請求の範囲に規定される本発明の精神及び範囲から逸脱することなく行うことができる。

２０マルチチャンネルＰＣＭオーディオ
２２分析ウィンドウ処理
２４最適セグメンテーション及びエントロピーコード選択処理
３０ビットストリーム

Claims

ランダムアクセスポイント（ＲＡＰ）を備えたマルチチャンネルオーディオを無損失可変ビットレート（ＶＢＲ）オーディオビットストリームに符号化する方法であって、
望ましいランダムアクセスポイント（ＲＡＰ）を指定する符号化タイミングコードをオーディオビットストリームに受信する段階と、
少なくとも１つのチャンネルセットを含むマルチチャンネルオーディオを各フレームがヘッダ及び複数のセグメントを含む等しい持続時間のフレームにブロック化する段階と、
各前記セグメントが１つ又はそれよりも多くの分析ブロックの持続時間を有する等しい持続時間の複数の分析ブロックに各フレームをブロック化する段階と、
望ましいＲＡＰを分析ブロックに整列させるために前記符号化タイミングコードをフレームのシーケンスに同期させる段階と、
を含み、
各連続フレームに対して、
前記符号化タイミングコードにおいて望ましいＲＡＰに整列する１つのＲＡＰ分析ブロックまで判断する段階と、
ＲＡＰセグメントの開始を固定し、それによって前記ＲＡＰ分析ブロックが該開始のＭ分析ブロック内に入る段階と、
前記チャンネルセットにおける各チャンネルに対して前記フレームのための予測パラメータの少なくとも１つのセットを判断する段階と、
前記予測パラメータに従って前記チャンネルセットにおける各チャンネルに対する前記オーディオフレームを圧縮し、予測が、残余オーディオサンプルによって先行される及び／又はその後に続くオリジナルオーディオサンプルを生成するために、前記ＲＡＰセグメントの前記開始に続く予測オーダーまで最初のサンプルに対して無効にされる段階と、
各セグメントが完全に及び無損失で復号可能であるべきであるという制約を受ける前記フレームの可変サイズ符号化ペイロードを低減し、前記フレーム持続時間よりも短い持続時間を有し、かつ前記フレームサイズよりも少ないバイトの最大数よりも少ない符号化セグメントペイロードを有するように、前記オリジナル及び残余オーディオサンプルから各セグメントに対するセグメント持続時間及びエントロピー符号化パラメータを判断する段階と、
セグメント持続時間、前記ＲＡＰの存在及びロケーションを指示するＲＡＰパラメータ、予測及びエントロピー符号化パラメータ、及びビットストリームナビゲーションデータを含むヘッダ情報を前記ビットストリームにおけるフレームヘッダ内に詰め込む段階と、
各セグメントに対する前記圧縮されたかつエントロピー符号化されたオーディオデータを前記ビットストリームにおけるフレームセグメント内に詰め込む段階と、
を含む、
ことを特徴とする方法。
前記符号化タイミングコードは、ビデオ信号の特定の部分の開始に対応する望ましいＲＡＰを指定するビデオタイミングコードであることを特徴とする請求項１に記載の方法。
前記オーディオビットストリームにおける前記ＲＡＰセグメントの前記開始のＭ分析ブロック内に前記ＲＡＰ分析ブロックを配置する段階が、前記望ましいＲＡＰの指定されたアラインメント許容範囲内の復号機能を保証することを特徴とする請求項１に記載の方法。
Ｎフレーム毎の最初のセグメントが、望ましいＲＡＰが該フレーム内に入らない限りデフォルトＲＡＰセグメントであることを特徴とする請求項１に記載の方法。
前記チャンネルセットの１つ又はそれよりも多くのチャンネルに対する前記フレームにおける分析ブロック内のトランジエントの存在を検出する段階と、
あらゆる検出されたトランジエントがそれらのそれぞれのチャンネルにおけるセグメントの最初のＬ分析ブロック内に位置するように前記フレームを仕切る段階と、
検出されたトランジエントの前のかつそれを含まないセグメントに対する予測パラメータの第１セット、及び前記チャンネルセットにおける各チャンネルに対する該トランジエントを含みかつその後のセグメントに対する予測パラメータの第２セットを判断する段階と、
ＲＡＰ分析ブロックが、前記ＲＡＰセグメントの前記開始のＭ分析ブロック内に入らなければならず、かつトランジエントが、対応するチャンネルのセグメントの最初のＬ分析ブロック内に入らなければならない前記セグメント持続時間を判断する段階と、
を更に含むことを特徴とする請求項１に記載の方法。
前記ＲＡＰ分析ブロックが、前記ＲＡＰセグメントの前記開始のＭ分析ブロック内に入り、かつ前記トランジエントが、セグメントの最初のＬ分析ブロック内に入るように、該ＲＡＰ分析ブロックのロケーション及び／又はトランジエントのロケーションを使用して分析ブロック持続時間の２のべき乗として最大セグメント持続時間を判断する段階、
を更に含み、
前記分析ブロック持続時間の２のべき乗であり、かつ前記最大セグメント持続時間を超えない均一セグメント持続時間が、前記制約を受ける符号化フレームペイロードを低減するように判断される、
ことを特徴とする請求項５に記載の方法。
前記ＲＡＰ分析ブロックが、前記ＲＡＰセグメントの前記開始のＭ分析ブロック内に入るように、該ＲＡＰ分析ブロックのロケーションを使用して分析ブロック持続時間の２のべき乗として最大セグメント持続時間を判断する段階、
を更に含み、
前記分析ブロック持続時間の２のべき乗であり、かつ前記最大セグメント持続時間を超えない均一セグメント持続時間が、前記制約を受ける符号化フレームペイロードを低減するように判断される、
ことを特徴とする請求項１に記載の方法。
前記最大セグメント持続時間は、復号器において利用可能な出力バッファサイズによって更に制約されることを特徴とする請求項７に記載の方法。
前記符号化セグメントペイロードに対するバイトの最大数が、前記オーディオビットストリームのアクセスユニットサイズ制約によって課せられることを特徴とする請求項１に記載の方法。
前記ＲＡＰパラメータは、ＲＡＰの存在を指示するＲＡＰフラグと該ＲＡＰのロケーションを指示するＲＡＰのＩＤとを含むことを特徴とする請求項１に記載の方法。
第１チャンネルセットが、５．１マルチチャンネルオーディオを含み、第２チャンネルセットが、少なくとも１つの付加的なオーディオチャンネルを含むことを特徴とする請求項１に記載の方法。
ベース、相関チャンネル、及び非相関チャンネルを含むトリプレットを形成するためにチャンネルの対に対して非相関チャンネルを生成する段階、ベース及び相関チャンネルを含む第１チャンネル対又はベース及び非相関チャンネルを含む第２チャンネル対のいずれかを選択する段階、及び該選択されたチャンネル対における該チャンネルをエントロピー符号化する段階を更に含むことを特徴とする請求項１に記載の方法。
前記チャンネル対は、
前記非相関チャンネルの分散が、閾値だけ前記相関チャンネルの分散よりも小さい場合に、セグメント持続時間を判断する前に前記第２チャンネル対を選択し、
そうでなければ、どのチャンネル対が前記符号化ペイロードに対して最も少ないビットに寄与するかに基づくセグメント持続時間の判断まで前記第１又は第２チャンネルの選択を延期する、
ことによって選択される、
ことを特徴とする請求項１２に記載の方法。
実行された時に請求項１に記載の方法を実施するコンピュータ実行可能命令、
を含むことを特徴とする、１つ又はそれよりも多くのコンピュータ可読媒体。
請求項１に記載の方法を実施するように構成されたデジタル回路、
を含むことを特徴とする、１つ又はそれよりも多くの半導体装置。
ランダムアクセスポイント（ＲＡＰ）で無損失可変ビットレート（ＶＢＲ）マルチチャンネルオーディオビットストリームの復号を開始する方法であって、
可変長フレームペイロードを有し、かつマルチチャンネルオーディオ信号に対する複数のオーディオチャンネルを含む少なくとも１つの独立に復号可能かつ無損失で再構成可能なチャンネルセットを含む複数のセグメントに仕切られたフレームのシーケンスとして無損失ＶＢＲマルチチャンネルオーディオビットストリームを受信し、各フレームが、セグメント持続時間、１つのＲＡＰセグメントまでの存在及びロケーションを指示するＲＡＰパラメータ、ナビゲーションデータ、各該チャンネルセットにおける各該チャンネルに対する予測係数を含むチャンネルセットヘッダ情報、及び少なくとも１つのエントロピーコードフラグ及び少なくとも１つのエントロピー符号化パラメータを含む各該チャンネルセットに対するセグメントヘッダ情報を含むヘッダ情報と、前記番号のセグメントに記憶されたエントロピー符号化圧縮マルチチャンネルオーディオ信号とを含む段階と、
前記ビットストリームにおける次のフレームのヘッダを取り出して、ＲＡＰセグメントを有するフレームが検出されるまで前記ＲＡＰパラメータを抽出する段階と、
前記選択されたフレームのヘッダを取り出して、前記セグメント持続時間及びナビゲーションデータを抽出し、前記ＲＡＰセグメントの開始にナビゲートする段階と、
前記少なくとも１つの前記チャンネルセットに対するヘッダを取り出して、前記エントロピーコードフラグ及び符号化パラメータ及び前記エントロピー符号化圧縮マルチチャンネルオーディオ信号を抽出し、かつ該選択されたエントロピーコード及び符号化パラメータを使用して前記ＲＡＰセグメントにエントロピー復号を実施して該ＲＡＰセグメントに対する圧縮オーディオ信号を生成し、予測オーダーまでの該ＲＡＰセグメントの前記第１オーディオサンプルが解凍されている段階と、
前記少なくとも１つの前記チャンネルセットのヘッダを取り出して予測係数を抽出し、かつ前記圧縮オーディオ信号を再構成し、予測が、前記ＲＡＰセグメントに対する該チャンネルセットにおける各オーディオチャンネルに対するＰＣＭオーディオを無損失で再構成するために前記予測オーダーまで前記第１オーディオサンプルに対して無効にされる段階と、
前記フレーム及びその後のフレームにおける前記セグメントの残余を順々に復号する段階と、
を含むことを特徴とする方法。
前記符号化タイミングコードにおいて指定された望ましいＲＡＰが、前記ビットストリームにおける前記ＲＡＰセグメントの前記開始のアラインメント許容範囲内に入ることを特徴とする請求項１６に記載の方法。
フレーム内の前記ＲＡＰセグメントのロケーションが、前記符号化器タイミングコードにおける前記望ましいＲＡＰのロケーションに基づいて前記ビットストリームを通して変化することを特徴とする請求項１７に記載の方法。
取り消し
別のＲＡＰセグメントが次のフレームに出現した時に復号が開始された後で、前記予測は、無損失で前記ＰＣＭオーディオを再構成し続けるために前記予測オーダーまで最初のオーディオサンプルに対して無効にされることを特徴とする請求項１６に記載の方法。
前記セグメント持続時間は、望ましいＲＡＰが前記ＲＡＰセグメントの前記開始の指定された許容範囲内に整列するという制約を受ける前記フレームペイロードを低減し、各符号化セグメントペイロードは、前記フレームサイズよりも小さい最大ペイロードサイズよりも小さく、かつ前記セグメントが取り出された状態で完全に復号可能かつ無損失で再構成可能であることを特徴とする請求項１６に記載の方法。
セグメントの数及び持続時間は、前記符号化セグメントペイロードがバイトの最大数よりも小さく、無損失で再構成可能という制約を受ける各フレームの前記可変長ペイロードを最小にするために、フレーム毎に変化し、符号化タイミングコードにおいて指定された望ましいＲＡＰが、前記ＲＡＰセグメントの前記開始のアラインメント許容範囲内に入ることを特徴とする請求項１６に記載の方法。
各チャンネルにおけるトランジエントセグメントの存在及びロケーションを指示するトランジエントパラメータを含むヘッダ情報と、トランジエントが存在しない場合はフレームベースの予測係数の単一セット、及びトランジエントが各前記チャンネルセットに存在する場合はパーティションベースの予測係数の第１及び第２セットを含む各該チャンネルに対する予測係数とを含む各フレームを受信する段階と、
前記少なくとも１つの前記チャンネルセットに対するヘッダを取り出して前記トランジエントパラメータを抽出し、該チャンネルセットにおける各チャンネルでのトランジエントセグメントの存在及びロケーションを判断する段階と、
前記少なくとも１つの前記チャンネルセットに対するヘッダを取り出し、トランジエントの存在に応じて、各チャンネルに対するフレームベースの予測係数の単一セット又はパーティションベースの予測係数の第１及び第２セットを抽出する段階と、
前記チャンネルセットにおける各チャンネルに対して、ＰＣＭオーディオを無損失で再構成するために、前記フレームにおける全セグメントに対する前記圧縮オーディオ信号に前記予測係数の単一セットを適用するか、又は第１セグメントで始まる前記圧縮オーディオ信号に前記予測係数の第１セットを適用し、かつ前記トランジエントセグメントで始まる前記圧縮オーディオ信号に前記予測係数の第２セットを適用するかのいずれかを行う段階と、
を更に含むことを特徴とする請求項１６に記載の方法。
前記ビットストリームは、対方式チャンネル非相関フラグ、オリジナルチャンネルオーダー、及び量子化チャンネル非相関係数を含むチャンネルセットヘッダ情報を更に含み、前記再構成は、非相関ＰＣＭオーディオを生成し、
前記ヘッダを取り出して、前記オリジナルチャンネルオーダー、前記対方式チャンネル非相関フラグ、及び前記量子化チャンネル非相関係数を抽出し、かつ前記チャンネルセットにおける各オーディオチャンネルに対するＰＣＭオーディオを再構成するために逆クロスチャンネル非相関を実施する段階、
を更に含むことを特徴とする請求項１６に記載の方法。
前記対方式チャンネル非相関フラグは、ベース及び相関チャンネルを含む第１チャンネル対、又は該ベース、相関及び非相関チャンネルを含むトリプレットに対して該ベース及び非相関チャンネルを含む第２チャンネル対のいずれが符号化されているかを指示し、
前記フラグが第２チャンネル対を指示する場合に、前記ベースチャンネルを前記量子化チャンネル非相関係数によって乗算し、かつそれを前記非相関チャンネルに加えて前記相関チャンネルにおけるＰＣＭオーディオを生成する段階、
を更に含むことを特徴とする請求項２４に記載の方法。
実行された時に請求項１６に記載の方法を実施するコンピュータ実行可能命令、
を含むことを特徴とする、１つ又はそれよりも多くのコンピュータ可読媒体。
請求項１６に記載の方法を実施するように構成されたデジタル回路、
を含むことを特徴とする、１つ又はそれよりも多くの半導体装置。
マルチチャンネルオーディオを無損失可変ビットレート（ＶＢＲ）オーディオビットストリームに符号化する方法であって、
少なくとも１つのチャンネルセットを含むマルチチャンネルオーディオを、各フレームが、ヘッダ及び複数のセグメントを含み、各該セグメントが、１つ又はそれよりも多くの分析ブロックの持続時間を有する等しい持続時間のフレームにブロック化する段階、
を含み、
各連続フレームに対して、
前記チャンネルセットの各チャンネルに対して前記フレームでのトランジエント分析ブロックにおけるトランジエントの存在を検出する段階と、
あらゆるトランジエント分析ブロックがそれらの対応するチャンネルにおけるセグメントの最初のＬ分析ブロック内に位置するように前記フレームを仕切る段階と、
前記トランジエント分析ブロックの前のかつそれを含まないセグメントに対する予測パラメータの第１セットと、前記チャンネルセットにおける各チャンネルに対する前記トランジエント分析ブロックを含みかつそれに続くセグメントに対する予測パラメータの第２セットとを判断する段階と、
第１及び第２パーティションそれぞれに対して前記予測パラメータの第１及び第２セットを使用して前記オーディオデータを圧縮し、残余オーディオ信号を生成する段階と、
前記残余オーディオサンプルから各セグメントに対するセグメント持続時間及びエントロピー符号化パラメータを判断して、各セグメントが、完全かつ無損失で復号可能であり、フレーム持続時間よりも少ない持続時間を有し、かつフレームサイズよりも少ないバイトの最大数よりも少ない符号化セグメントペイロードを有するべきであるという制約を受ける前記フレームの可変サイズ符号化ペイロードを低減する段階と、
セグメント持続時間、前記トランジエントの存在及びロケーションを指示するトランジエントパラメータ、予測パラメータ、エントロピー符号化パラメータ、及びビットストリームナビゲーションデータを含むヘッダ情報を前記ビットストリームにおけるフレームヘッダに詰め込む段階と、
各セグメントに対する前記圧縮かつエントロピー符号化されたオーディオデータを前記ビットストリームにおける前記フレームセグメントに詰め込む段階と、
を含む、
ことを特徴とする方法。
前記チャンネルセットにおける各チャンネルに対して、
フレーム全体に対する予測パラメータの第３セットを判断する段階と、
フレーム全体に対して前記予測パラメータの第３セットを使用して前記オーディオデータを圧縮し、残余オーディオ信号を生成する段階と、
予測パラメータの第３セット又は第１及び第２セットのいずれかをそれらのそれぞれの残余オーディオ信号から符号化効率の尺度に基づいて選択する段階と、
を更に含み、
前記第３セットが選択された場合には、セグメントの開始のＬ分析ブロック内の前記トランジエントのロケーションに関するセグメント持続時間に対する前記制約を無効にする、
ことを特徴とする請求項２８に記載の方法。
望ましいランダムアクセスポイント（ＲＡＰ）を指定するタイミングコードを前記オーディオビットストリームに受信する段階と、
前記タイミングコードから前記フレーム内の１つのＲＡＰ分析ブロックまでを判断する段階と、
前記ＲＡＰ分析ブロックが前記開始のＭ分析ブロック内に入るようにＲＡＰセグメントの開始を固定する段階と、
前記フレームを仕切る時に前記ＲＡＰセグメントによって課せられるセグメント境界を考慮して、前記予測パラメータの第１及び第２セットを判断する段階と、
前記ＲＡＰセグメントの前記開始に続く予測オーダーまで第１サンプルに対する該予測を無効にし、前記予測パラメータの前記第１及び第２、及び第３セットに対して残余オーディオサンプルによって先行される及び／又はその後に続くオリジナルオーディオサンプルを生成する段階と、
ＲＡＰ分析ブロックが、前記ＲＡＰセグメントの前記開始のＭ分析ブロックと共にあり、及び／又はトランジエント分析ブロックが、セグメントの最初のＬ分析ブロック内に入るべきであるという制約を満足させながら、符号化フレームペイロードを低減する前記セグメント持続時間を判断する段階と、
前記ＲＡＰの存在及びロケーションを指示するＲＡＰパラメータ及びビットストリームナビゲーションデータを前記フレームヘッダに詰め込む段階と、
を更に含むことを特徴とする請求項２８に記載の方法。
前記トランジエント分析ブロックの検出されたロケーションを使用して、前記トランジエントがセグメントの最初のＬ分析ブロック内に入るように前記分析ブロック持続時間の２のべき乗として最大セグメント持続時間を判断する段階、
を更に含み、
前記分析ブロック持続時間の２のべき乗であり、かつ前記最大セグメント持続時間を超えない均一セグメント持続時間が、前記制約を受ける符号化フレームペイロードを低減するように判断される、
ことを特徴とする請求項２８に記載の方法。
前記最大セグメント持続時間は、復号器で利用可能な出力バッファサイズによって更に制約されることを特徴とする請求項３１に記載の方法。
前記符号化セグメントペイロードに対するバイトの最大数が、前記オーディオビットストリームのアクセスユニットサイズ制約によって課せられることを特徴とする請求項２８に記載の方法。
前記ビットストリームは、第１及び第２チャンネルセットを含み、
方法が、それぞれのチャンネルセットにおける少なくとも１つのチャンネルに対する様々なロケーションでのトランジエントの検出に基づいて、各チャンネルセットにおける各チャンネルに対する予測パラメータの第１及び第２セットを選択し、
前記セグメント持続時間は、各前記トランジエントが該トランジエントが発生するセグメントの最初のＬ分析ブロック内に入るように判断される、
ことを特徴とする請求項２８に記載の方法。
前記第１チャンネルセットは、５．１マルチチャンネルオーディオを含み、前記第２チャンネルセットは、少なくとも１つの付加的なオーディオチャンネルを含むことを特徴とする請求項３４に記載の方法。
前記トランジエントパラメータは、トランジエントの存在を指示するトランジエントフラグと、該トランジエントが発生するセグメント番号を指示するトランジエントＩＤとを含むことを特徴とする請求項２８に記載の方法。
チャンネルの対に対して非相関チャンネルを生成してベース、相関、及び非相関チャンネルを含むトリプレットを形成する段階、ベース及び相関チャンネルを含む第１チャンネル対、又はベース及び非相関チャンネルを含む第２チャンネル対のいずれかを選択する段階、及び該選択されたチャンネル対における該チャンネルをエントロピー符号化する段階を更に含むことを特徴とする請求項２８に記載の方法。
前記チャンネル対は、
前記非相関チャンネルの分散が、閾値だけ前記相関チャンネルの分散よりも小さい場合に、セグメント持続時間を判断する前に前記第２チャンネル対を選択し、
そうでなければ、どのチャンネル対が前記符号化ペイロードに対して最も少ないビットに寄与するかに基づくセグメント持続時間の判断まで前記第１又は第２チャンネルの選択を延期する、
ことによって選択される、
ことを特徴とする請求項３７に記載の方法。
実行された時に請求項２８に記載の方法を実施するコンピュータ実行可能命令、
を含むことを特徴とする、１つ又はそれよりも多くのコンピュータ可読媒体。
請求項２８に記載の方法を実施するように構成されたデジタル回路、
を含むことを特徴とする、１つ又はそれよりも多くの半導体装置。
無損失可変ビットレート（ＶＢＲ）マルチチャンネルオーディオビットストリームを復号する方法であって、
無損失ＶＢＲマルチチャンネルオーディオビットストリームを、可変長フレームペイロードを有し、かつマルチチャンネルオーディオ信号に対して複数のオーディオチャンネルを含む少なくとも１つの独立して復号可能でありかつ無損失で再構成可能なチャンネルセットを含む複数のセグメントに仕切られたフレームのシーケンスとして受信し、各フレームが、セグメント持続時間、各チャンネルにおけるトランジエントセグメントの存在及びロケーションを指示するトランジエントパラメータを含むチャンネルセットヘッダ情報、トランジエントが存在しない場合にフレームベースの予測係数の単一セット及びトランジエントが各該チャンネルセットに存在する場合にパーティションベースの予測係数の第１及び第２セットを含む各該チャンネルに対する予測係数、及び少なくとも１つのエントロピーコードフラグ及び少なくとも１つのエントロピー符号化パラメータを含む各該チャンネルセットに対するセグメントヘッダ情報を含むヘッダ情報と、前記番号のセグメントに記憶されたエントロピー符号化圧縮マルチチャンネルオーディオ信号とを含む段階と、
前記ヘッダを取り出して、前記セグメント持続時間を抽出する段階と、
前記少なくとも１つの前記チャンネルセットに対するヘッダを取り出して、各セグメントに対する前記エントロピーコードフラグ及び符号化パラメータ及び前記エントロピー符号化圧縮マルチチャンネルオーディオ信号を抽出し、かつ該選択されたエントロピーコード及び符号化パラメータを使用して各セグメントに対してエントロピー復号を実施し、各セグメントに対する圧縮オーディオ信号を生成する段階と、
前記少なくとも１つの前記チャンネルセットに対するヘッダを取り出し、前記トランジエントパラメータを抽出して該チャンネルセットにおける各チャンネルでのトランジエントセグメントの存在及びロケーションを判断する段階と、
前記少なくとも１つの前記チャンネルセットに対するヘッダを取り出し、トランジエントの存在に応じて、各チャンネルに対するフレームベースの予測係数の単一セット又はパーティションベースの予測係数の第１及び第２セットを抽出する段階と、
前記チャンネルセットにおける各チャンネルに対して、ＰＣＭオーディオを無損失で再構成するために、前記フレームにおける全セグメントに対する前記圧縮オーディオ信号に前記予測係数の単一セットを適用するか、又は第１セグメントで始まる前記圧縮オーディオ信号に前記予測係数の第１セットを適用し、かつ前記トランジエントセグメントで始まる前記圧縮オーディオ信号に前記予測係数の第２セットを適用するかのいずれかを行う段階と、
含むことを特徴とする方法。
前記ビットストリームは、対方式チャンネル非相関フラグ、オリジナルチャンネルオーダー、及び量子化チャンネル非相関係数を含むチャンネルセットヘッダ情報を更に含み、前記再構成は、非相関ＰＣＭオーディオを生成し、
前記ヘッダを取り出して、前記オリジナルチャンネルオーダー、前記対方式チャンネル非相関フラグ、及び前記量子化チャンネル非相関係数を抽出し、かつ前記チャンネルセットにおける各オーディオチャンネルに対するＰＣＭオーディオを再構成するために逆クロスチャンネル非相関を実施する段階、
を更に含むことを特徴とする請求項４１に記載の方法。
前記対方式チャンネル非相関フラグは、ベース及び相関チャンネルを含む第１チャンネル対、又は該ベース、相関及び非相関チャンネルを含むトリプレットに対して該ベース及び非相関チャンネルを含む第２チャンネル対のいずれが符号化されているかを指示し、
前記フラグが第２チャンネル対を指示する場合に、前記ベースチャンネルを前記量子化チャンネル非相関係数によって乗算し、かつそれを前記非相関チャンネルに加えて前記相関チャンネルにおけるＰＣＭオーディオを生成する段階、
を更に含むことを特徴とする請求項４２に記載の方法。
１つのＲＡＰセグメントまでの存在及びロケーションを指示するＲＡＰパラメータ及びナビゲーションデータを含むヘッダ情報を有するフレームを受信する段階と、
ＲＡＰセグメントを有するフレームが検出されるまでその次のフレームに飛んでＲＡＰでの復号を開始しようにとする場合に、前記ＲＡＰパラメータを抽出するために前記ビットストリームにおける該次のフレームのヘッダを取り出し、かつ該ＲＡＰセグメントの始まりにナビゲートするために前記ナビゲーションデータを使用する段階と、
ＲＡＰセグメントが出現した時に、前記ＰＣＭオーディオを無損失で再構成するために予測オーダーまで第１オーディオサンプルに対する予測を無効にする段階と、
を更に含むことを特徴とする請求項４１に記載の方法。
セグメントの数及び持続時間は、前記符号化セグメントペイロードが、フレームサイズよりも小さいバイトの最大数よりも小さく、かつ無損失で再構成可能であるという制約を受ける各フレームの可変長ペイロードを最小にするために、フレーム毎に変化することを特徴とする請求項４１に記載の方法。
実行された時に請求項４１に記載の方法を実施するコンピュータ実行可能命令、
を含むことを特徴とする、１つ又はそれよりも多くのコンピュータ可読媒体。
請求項４１に記載の方法を実施するように構成されたデジタル回路、
を含むことを特徴とする、１つ又はそれよりも多くの半導体装置。
ランダムアクセスポイント（ＲＡＰ）で無損失可変ビットレート（ＶＢＲ）マルチチャンネルオーディオビットストリームの復号を開始するためのマルチチャンネルオーディオ復号器であって、
可変長フレームペイロードを有し、かつマルチチャンネルオーディオ信号に対する複数のオーディオチャンネルを含む少なくとも１つの独立に復号可能かつ無損失で再構成可能なチャンネルセットを含む複数のセグメントに仕切られたフレームのシーケンスとして無損失ＶＢＲマルチチャンネルオーディオビットストリームを受信して、各フレームが、セグメント持続時間、１つのＲＡＰセグメントまでの存在及びロケーションを指示するＲＡＰパラメータ、ナビゲーションデータ、各該チャンネルセットにおける各該チャンネルに対する予測係数を含むチャンネルセットヘッダ情報、及び少なくとも１つのエントロピーコードフラグ及び少なくとも１つのエントロピー符号化パラメータを含む各該チャンネルセットに対するセグメントヘッダ情報を含むヘッダ情報と、前記番号のセグメントに記憶されたエントロピー符号化圧縮マルチチャンネルオーディオ信号とを含み、
前記ビットストリームにおける次のフレームのヘッダを取り出して、ＲＡＰセグメントを有するフレームが検出されるまで前記ＲＡＰパラメータを抽出し、
前記選択されたフレームのヘッダを取り出して、前記セグメント持続時間及びナビゲーションデータを抽出し、前記ＲＡＰセグメントの開始にナビゲートし、
前記少なくとも１つの前記チャンネルセットに対するヘッダを取り出して、前記エントロピーコードフラグ及び符号化パラメータ及び前記エントロピー符号化圧縮マルチチャンネルオーディオ信号を抽出し、かつ該選択されたエントロピーコード及び符号化パラメータを使用して前記ＲＡＰセグメントにエントロピー復号を実施して該ＲＡＰセグメントに対する圧縮オーディオ信号を生成し、予測オーダーまでの該ＲＡＰセグメントの前記第１オーディオサンプルが解凍されており、
前記少なくとも１つの前記チャンネルセットのヘッダを取り出して予測係数を抽出し、かつ前記圧縮オーディオ信号を再構成し、予測が、前記ＲＡＰセグメントに対する該チャンネルセットにおける各オーディオチャンネルに対するＰＣＭオーディオを無損失で再構成するために前記予測オーダーまで前記第１オーディオサンプルに対して無効にされ、かつ
前記フレーム及びその後のフレームにおける前記セグメントの残余を順々に復号する、
ように構成されていることを特徴とする復号器。
取り消し
無損失可変ビットレート（ＶＢＲ）マルチチャンネルオーディオビットストリームを復号するためのマルチチャンネルオーディオ復号器であって、
無損失ＶＢＲマルチチャンネルオーディオビットストリームを、可変長フレームペイロードを有し、かつマルチチャンネルオーディオ信号に対して複数のオーディオチャンネルを含む少なくとも１つの独立して復号可能でありかつ無損失で再構成可能なチャンネルセットを含む複数のセグメントに仕切られたフレームのシーケンスとして受信して、各フレームが、セグメント持続時間、各チャンネルにおけるトランジエントセグメントの存在及びロケーションを指示するトランジエントパラメータを含むチャンネルセットヘッダ情報、トランジエントが存在しない場合にフレームベースの予測係数の単一セット及びトランジエントが各該チャンネルセットに存在する場合にパーティションベースの予測係数の第１及び第２セットを含む各該チャンネルに対する予測係数、及び少なくとも１つのエントロピーコードフラグ及び少なくとも１つのエントロピー符号化パラメータを含む各該チャンネルセットに対するセグメントヘッダ情報を含むヘッダ情報と、前記番号のセグメントに記憶されたエントロピー符号化圧縮マルチチャンネルオーディオ信号とを含み、
前記ヘッダを取り出して、前記セグメント持続時間を抽出し、
前記少なくとも１つの前記チャンネルセットに対するヘッダを取り出して、各セグメントに対する前記エントロピーコードフラグ及び符号化パラメータ及び前記エントロピー符号化圧縮マルチチャンネルオーディオ信号を抽出し、かつ該選択されたエントロピーコード及び符号化パラメータを使用して各セグメントに対してエントロピー復号を実施し、各セグメントに対する圧縮オーディオ信号を生成し、
前記少なくとも１つの前記チャンネルセットに対するヘッダを取り出し、前記トランジエントパラメータを抽出して該チャンネルセットにおける各チャンネルでのトランジエントセグメントの存在及びロケーションを判断し、
前記少なくとも１つの前記チャンネルセットに対するヘッダを取り出し、トランジエントの存在に応じて、各チャンネルに対するフレームベースの予測係数の単一セット又はパーティションベースの予測係数の第１及び第２セットを抽出し、かつ
前記チャンネルセットにおける各チャンネルに対して、ＰＣＭオーディオを無損失で再構成するために、前記フレームにおける全セグメントに対する前記圧縮オーディオ信号に前記予測係数の単一セットを適用するか、又は第１セグメントで始まる前記圧縮オーディオ信号に前記予測係数の第１セットを適用し、かつ前記トランジエントセグメントで始まる前記圧縮オーディオ信号に前記予測係数の第２セットを適用するかのいずれかを行う、
ように構成されていることを特徴とする復号器。