JP2007531010A

JP2007531010A - スケーラブル可逆オーディオ・コーデック及びオーサリング・ツール

Info

Publication number: JP2007531010A
Application number: JP2007505034A
Authority: JP
Inventors: フェジゾ，ゾラン
Original assignee: ディー・ティー・エス，インコーポレーテッド
Priority date: 2004-03-25
Filing date: 2005-03-21
Publication date: 2007-11-01
Anticipated expiration: 2025-03-21
Also published as: KR20070002065A; KR101243412B1; JP4997098B2; TR200606137T1; EP2270775A2; KR101149956B1; WO2005098823A3; WO2005098823A2; DK1743326T3; EP2270774A3; ATE511178T1; TR200606136T1; WO2005098822A2; PL2228791T3; ATE510279T1; WO2005098822A3; EP2228791B1; IL178243A0; KR20070020012A; EP2228792A3

Abstract

オーディオ・コーデックは、オーディオ・データを、スケーラブル・ビットストリームの一連の分析ウィンドウに可逆符号化する。これは、オーディオ・データをＭＳＢ部分とＬＳＢ部分に分け、それぞれを異なる可逆アルゴリズムで符号化することによって、適切に行われる。オーサリング・ツールは、それぞれのウィンドウについてバッファ・ペイロードと許容ペイロードとを比較し、非適合のウィンドウ中の可逆符号化オーディオ・データ、適切にはＬＳＢ部分、を選択的にスケーリングして、符号化ペイロード、従ってバッファ・ペイロードを低減させる。この手法は、元のオーディオ・データをフィルタする必要も、再符号化する必要もなく、また、可逆ビットストリームを乱すこともなく、媒体ビット・レート及びバッファ容量の制約を満たす。

Description

本願は、米国特許法第１１９条（ｅ）に基づき、２００４年３月２５日に出願された「ＢａｃｋｗａｒｄＣｏｍｐａｔｉｂｌｅＬｏｓｓｌｅｓｓＡｕｄｉｏＣｏｄｅｃ」と題される米国特許仮出願第６０／５６６１８３号の優先権の利益を主張するものであり、その内容全体を参照により組み込むものとする。

本発明は、可逆オーディオ・コーデックに関し、より詳細には、スケーラブル可逆オーディオ・コーデック及びオーサリング・ツールに関する。

多数の低ビット・レートの不可逆（lossy）オーディオ符号化方式が、広範囲の民生用及びプロ用のオーディオ再生製品及びサービスで現在使用されている。例えば、ドルビー（登録商標）ＡＣ３（ドルビー（登録商標）・デジタル）オーディオ符号化方式は、６４０キロビット／秒までのビット・レートを使用してのレーザ・ディスク、ＮＴＳＣ符号化ＤＶＤビデオ、及びＡＴＶ用の、ステレオ及び５．１チャネル・オーディオ・サウンド・トラックを符号化するための世界標準である。ＭＰＥＧＩ及びＭＰＥＧＩＩオーディオ符号化標準は、７６８キロビット／秒までのビット・レートで、ＰＡＬ符号化ＤＶＤビデオ、ヨーロッパでの地上デジタル無線放送、及び米国での衛星放送を、ステレオ及びマルチチャネル・サウンド・トラック符号化するのに広く使用されている。ＤＴＳ（デジタル・シアター・システム）コヒーレント・アコースティックス・オーディオ符号化方式は、コンパクト・ディスク、ＤＶＤビデオ、ヨーロッパでの衛星放送、及びレーザ・ディスク用に、１５３６キロビット／秒までのビット・レートでのスタジオ品質の５．１チャネル・オーディオ・サウンド・トラックに頻繁に使用される。

９６ｋＨｚの帯域幅と２４ビットの分解能を提供する改良型のコーデックが、米国特許第６２２６６１６号（デジタル・シアター・システムズ社に譲渡されている）に開示されている。その特許では、コアおよび拡張の方法を使用し、この方法では、従来のオーディオ符号化アルゴリズムが「コア」オーディオ符号器を構成し、変更されないままで残っている。より高いオーディオ周波数（より高いサンプリング・レートの場合）又はより高いサンプル分解能（より大きなワード長の場合）、或いはその両方を表現する必要のあるオーディオ・データは、「拡張」ストリームとして伝送される。これにより、オーディオ・コンテンツ・プロバイダは、民生用機器ベースに在る様々なタイプの復号器との互換性のある単一オーディオ・ビットストリームを含むことが可能になる。コアストリームは、拡張データを無視する旧型の復号器により復号され、一方、新型の復号器は、コア・データ・ストリーム及び拡張データ・ストリームの双方を用いて、より高い品質の音響再生を提供する。しかしながら、この従来技術の手法は、真の可逆の符号化や復号化を提供していない。米国特許第６２２６２１６号のシステムは、優れた品質のオーディオ再生を提供するが、「可逆（lossless、ロスレス）」性能は提供しない。

最近、多くの消費者が、こうしたいわゆる「可逆」コーデックに興味を示してきている。「可逆」コーデックは、いかなる情報も破棄せずにデータを圧縮するアルゴリズムを用いる。従って、それらは、「マスキング」などの心理音響効果を用いない。可逆コーデックは、ソース信号（デジタル化されたソース信号）と同一の復号信号を生成する。この実施には以下のような犠牲、すなわち、そのようなコーデックでは典型的に不可逆コーデックよりも多くの帯域幅を必要とし、データを圧縮する度合いが低い、という犠牲を伴う。

ディスク、ＣＤ、ＤＶＤなどにコンテンツがオーサリングされているとき、特に、ソース素材の相関が非常に低い場合や非常に大きなソース帯域幅を必要とする場合は、圧縮を欠くと問題が生じ得る。媒体の光学的特性により、すべてのコンテンツに対する超過できないピーク・ビット・レートが確立される。図１に示されているように、合計ビット・レートが媒体の限度を超えないように、ハード的しきい値１０、例えば、ＤＶＤオーディオでは９．６Ｍｂｐｓが、典型的にはオーディオに対して確立されている。

オーディオおよびその他のデータは、様々な媒体の制約を満たし且つ所与のフレームを復号するのに必要とされるすべてのデータがオーディオ復号器バッファ中に存在するようにさせるように、ディスク上にレイアウトされる。そのバッファは、フレーム間で激しく変動し得るフレーム間符号化ペイロード（ビット・レート）１２を平滑化する効果を有しており、バッファ・ペイロード１４、即ち、フレーム間符号化ペイロードのバッファ平均が生成する。所与のチャネルに対する可逆ビットストリームのバッファ・ペイロード１４が、任意の点でしきい値を超えた場合、オーディオ入力ファイルは、それらの情報コンテンツを低減させるように変更される。それらのオーディオ・ファイルは、２４ビットから２２ビットへなどのように１又は複数のチャネルのビット深度を減らすことによって、又はチャネルの周波数帯域幅をローパスだけでフィルタすることによって、又は９６ｋＨｚでのサンプリング時に４０ｋＨｚを超える情報をフィルタするなどによりオーディオ帯域幅を減らすことによって、変更され得る。変更されたオーディオ入力ファイルは、ペイロード１６がしきい値１０を超えることのないように、再符号化される。このプロセスの一例が、ＳｕｒＣｏｄｅＭＬＰのＯｗｎｅｒ’ｓＭａｎｕａｌ（オーナーズ・マニュアル）の２０〜２３ページに記載されている。

これは、計算的且つ時間的に非常に非効率なプロセスである。更に、オーディオ符号器は可逆ではあるが、ユーザへ送達されるオーディオ・コンテンツの量が、ビットストリーム全体にわたって低減されてしまう。更に、削除される情報が少なすぎる場合は、変更プロセスが不正確となり、問題がやはり存在し得、情報が多く削除された場合は、オーディオ・データが不必要に破棄される。更に、オーサリング（authoring）・プロセスを、媒体の特定の光学的特性及び復号器のバッファ・サイズに適合させる必要が生じる。

本発明は、可逆ビットストリームを生成するオーディオ・コーデックと、オーディオ入力ファイルをフィルタする必要も再符号化する必要も可逆ビットストリームを乱す必要もなく、媒体やチャネルや復号器バッファや再生装置ビット・レートの制約を満たすようにビットを選択的に破棄するオーサリング・ツールとを提供する。

これは、一連の分析ウィンドウにおいてオーディオ・データをスケーラブル・ビットストリームへ可逆（ロスレス）に符号化し、各ウィンドウについてバッファ・ペイロードと許容ペイロードとを比較し、非適合のウィンドウ中の可逆符号化されたオーディオ・データを選択的にスケーリングして、符号化ペイロードを、従って、バッファ・ペイロードを低減させ、それにより損失をもたらすことによって達成される。

例示的な一実施形態では、オーディオ符号器は、オーディオ・データを最上位ビット（ＭＳＢ）部分と最下位ビット（ＬＳＢ）部分とに分離し、それぞれを異なる可逆アルゴリズムで符号化する。オーサリング・ツールは、ＭＳＢ部分をビットストリームへ書き込み、適合するウィンドウ（conforming window）中のＬＳＢ部分をそのビットストリームに書き込み、の非適合のフレーム（non-conforming frame）の可逆ＬＳＢ部分をスケーリングして適合させ、現不可逆（lossy）ＬＳＢ部分をそのビットストリームに書き込む。オーディオ復号器は、ＭＳＳ部分及びＬＳＢ部分を復号し、ＰＣＭオーディオ・データを再び組み立てる。

オーディオ符号器は、各オーディオ・サンプルをＭＳＢ部分とＬＳＢ部分とに分割し、ＭＳＢ部分を第１の可逆アルゴリズムで符号化し、ＬＳＢ部分を第２の可逆アルゴリズムで符号化し、符号化オーディオ・データをスケーラブル可逆ビットストリームにパックする。ＭＳＢ部分とＬＳＢ部分との間の境界点は、分析ウィンドウ中のサンプルのエネルギ及び／又は最大振幅によって、適切に確立される。ＬＳＢビット幅はビットストリームにパックされる。ＬＳＢ部分は、好ましくは、幾つか又はすべてのＬＳＢが選択的に破棄され得るように、符号化される。周波数拡張は、ＭＳＢ／ＬＳＢと共に同様に符号化されてもよく、また、ＬＳＢとしてすべて符号化されてもよい。

符号化データをディスク（媒体）上にレイアウトするために、オーサリング・ツールが使用される。初期レイアウトは、バッファ・ペイロードに対応する。このツールは、各分析ウィンドウごとにバッファ・ペイロードと許容ペイロードとを比較して、レイアウトの改変を必要とするかどうかを判定する。改変を必要としない場合、可逆ビットストリームの可逆ＭＳＢ部分及びＬＳＢ部分のすべてが、ビットストリームに書き込まれ、ディスク上に記録される。改変を必要とする場合、オーサリング・ツールは、制約を満たすように可逆ビットストリームをスケーリングする。より具体的には、このツールは、適合するウィンドウのすべてに対して可逆ＭＳＢ及びＬＳＢ部分を、また、非適合のウィンドウについてはヘッダおよび可逆ＭＳＢ部分を、改変ビットストリームに書き込む。次に、優先順位ルールに基づいて、それぞれの非適合のウィンドウについて、オーサリング・ツールは、１又は複数のオーディオ・チャネルに対して分析ウィンドウ中の各オーディオ・サンプルから幾つのＬＳＢを破棄するかを決定し、そのＬＳＢ部分を、それらの改変ビット幅をもつ改変ビットストリームに再パックする。これは、バッファ・ペイロードが許容ペイロードを超える分析ウィンドウに対してのみ、繰り返される。

復号器は、媒体又は伝送チャネルを介して、オーサリングされたビットストリームを受け取る。オーディオ・データはバッファへ送られ、このバッファは、オーサリングのためオーバフローすることはなく、そして、現在の分析ウィンドウに対するオーディオ・データを復号するために、十分なデータをＤＳＰチップへ提供する。ＤＳＰチップは、ヘッダ情報を抽出し、オーディオ・データのＭＳＢ部分を抽出し、復号し、組み立てる。オーサリング中にＬＳＢのすべてが破棄された場合、ＤＳＰチップは、ＭＳＢサンプルを元のビット幅のワードに変換し、そのＰＣＭデータを出力する。そうでない場合は、ＤＳＰチップは、ＬＳＢ部分を復号し、ＭＳＢ及びＬＳＢのサンプルを組み立て、組み立てられたサンプルを元のビット幅のワードに変換し、そのＰＣＭデータを出力する。

本発明の上記その他の特徴及び利点は、添付の図面と併せて、以下の好ましい実施形態の詳細な説明から、当業者には明らかになるであろう。

本発明は、可逆オーディオ・コーデックと、オーディオ入力ファイルをフィルタする必要も、再符号化する必要も、また、可逆ビットストリームを乱す必要もなく、媒体や、チャネルや、復号器バッファや、再生装置のビット・レートの制約を満たすようにビットを選択的に破棄するためのオーサリング・ツールとを提供する。

図２に示されているように、オーディオ符号器２０は、一連の分析ウィンドウ（analysis window）中のオーディオ・データを可逆符号化し、その符号化データ及びヘッダ情報をスケーラブル可逆ビットストリーム２２にパックし、この可逆ビットストリームが、アーカイブ２４に適切に記憶される。分析ウィンドウは典型的には符号化データのフレームであるが、本明細書で用いられるように、そのウィンドウは複数のフレームにわたってもよい。更に、分析ウィンドウは、フレーム内のデータの１又は複数のセグメント、セグメント内の１又は複数のチャネル・セット、各チャネル・セット内の１又は複数のチャネル、及び最後にはチャネル中の１又は複数の周波数拡張へと、精細化されてもよい。ビットストリームに対するスケーリングの判断は、非常に粗く（多数のフレーム）するようにしてもよいし、より精細化（１フレームごと１チャネル・セットごと１周波数拡張ごと）するようにしてもよい。

復号器のバッファ容量に従って、符号化データをディスク（媒体）上にレイアウトするために、オーサリング・ツール３０が使用される。初期レイアウトは、バッファ・ペイロードに対応する。このツールは、それぞれの分析ウィンドウごとにバッファ・ペイロードと許容ペイロードとを比較して、レイアウトの改変を必要とするかどうかを判定する。許容ペイロードは、典型的には、媒体（ＤＶＤディスク）又は伝送チャネルによってサポートされるピーク・ビット・レートに応じて変わる。許容ペイロードは、固定でもよいし、また、グローバル最適化の一部であれば可変でもよい。オーサリング・ツールは、非適合のウィンドウ中の可逆符号化オーディオ・データを選択的にスケーリングして、符号化ペイロード、従って、バッファ・ペイロードを低減させる。そのスケーリング・プロセスでは、符号化データにある程度の損失を導入するが、非適合のウィンドウだけに限定され、適切には、それは各ウィンドウを適合させるのにちょうど十分なだけの量である。オーサリング・ツールは、可逆及び不可逆データ並びに改変されたヘッダ情報を、ビットストリーム３２にパックする。ビットストリーム３２は典型的には、媒体３４上に記憶されたり、伝送チャネル３６を介して伝送されて、シングル又はマルチチャネルＰＣＭ（パルス符号変調）オーディオ・ストリーム４０を生成するオーディオ復号器３８によって後に再生される。

図３及び図４に示される例示的な実施形態では、オーディオ符号器２０は、各オーディオ・サンプルをＭＳＢ部分４２とＬＳＢ部分４４とに分割する（ステップ４６）。オーディオ・データを分離する境界点４８は、最初に、それぞれのオーディオ・サンプルごとの最小符号化レベルを確立する最小ＭＳＢビット幅（ＭｉｎＭＳＢ）５０を割り当てることによって、計算される。例えば、オーディオ・データのビット幅５２が２０ビットである場合、ＭｉｎＭＳＢは１６ビットであり得る。その結果、最大ＬＳＢビット幅（ＭａｘＬＳＢ）５４は、ビット幅５２−ＭｉｎＭＳＢ５０となる。符号器は、分析ウィンドウ中のオーディオ・データについて、費用関数（コスト関数）、例えば、Ｌ_２ノルムやＬ_∞ノルムを計算する。コスト関数がしきい値を超える場合、符号器は、少なくとも１ビットで且つＭａｘＬＳＢ以下のＬＳＢビット幅５６を計算する。コスト関数がしきい値を超えない場合、ＬＳＢビット幅５６は、ゼロ・ビットに設定される。一般に、このＭＳＢ／ＬＳＢ分割は、それぞれの分析ウィンドウごとに行われる。上述のように、これは典型的には、１又は複数のフレームである。この分割は、例えば、それぞれのデータ・セグメントや、チャネル・セットや、チャネルや、周波数拡張に対して、精細化され得る。より精細にすると、計算が増え、ビットストリーム中のオーバヘッドが増すという犠牲を払うが、符号化性能が向上する。

符号器は、ＭＳＢ部分（ステップ５８）及びＬＳＢ部分（ステップ６０）を、異なる可逆アルゴリズムで可逆符号化する。ＭＳＢ部分中のオーディオ・データは、典型的には、１チャネル内でもチャネル間でも、時間的に高度に相関している。従って、可逆アルゴリズムは、エントロピー符号化、固定予測、適応予測、及び結合チャネル無相関の技法を適切に使用して、ＭＳＢ部分を効率的に符号化する。適切な可逆符号器が、２００４年８月８日に出願された同時係属出願「ＬｏｓｓｌｅｓｓＭｕｌｔｉ−ＣｈａｎｎｅｌＡｕｄｉｏＣｏｄｅｃ」、出願番号第１０／９１１０６７号に記載されており、この出願をここに参照により組み込む。適切な可逆符号器には、ＭＬＰ（ＤＶＤオーディオ）、Ｍｏｎｋｅｙ’ｓＡｕｄｉｏ（コンピュータ用途）、ＡｐｐｌｅＬｏｓｓｌｅｓｓ、Ｗｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＰｒｏＬｏｓｓｌｅｓｓ、ＡｕｄｉｏＰａｋ、ＤＶＤ、ＬＴＡＣ、ＭＵＳＩＣｃｏｍｐｒｅｓｓ、ＯｇｇＳｑｕｉｓｈ、Ｐｈｉｌｉｐｓ、Ｓｈｏｒｔｅｎ、Ｓｏｎａｒｃ、及びＷＡが含まれる。こうしたコーデックのうちの多くに関する検討が、ＭａｔＨａｎｓ、ＲｏｎａｌｄＳｃｈａｆｅｒの「ＬｏｓｓｌｅｓｓＣｏｍｐｒｅｓｓｉｏｎｏｆＤｉｇｉｔａｌＡｕｄｉｏ」、ＨｅｗｌｅｔｔＰａｃｋａｒｄ、１９９９年においてなされている。

逆に、ＬＳＢ部分中のオーディオ・データは、高度に無相関であり、ノイズにより近い。従って、高度に複雑な圧縮技法は、大部分は効果がなく、処理リソースを消費するだけである。更に、ビットストリームを効率的にオーサリングするために、非常に低次の非常に単純な予測と、それに続く単純なエントロピー符号器とを使用する、非常に単純な可逆符号が非常に望ましい。実際、現在好ましいアルゴリズムでは、ＬＳＢビットをそのまま単に複製することによって、ＬＳＢ部分を符号化する。これにより、ＬＳＢ部分を復号する必要なく個々のＬＳＢが破棄されることが可能になる。

符号器は、容易にアンパックされ復号され得るように、スケーラブル可逆ビットストリーム６２に、符号化ＭＳＢ部分と符号化ＬＳＢ部分を別々にパックする（ステップ６４）。通常のヘッダ情報に加えて、符号器は、ＬＳＢビット幅５６もヘッダにパックする（ステップ６６）。ヘッダはまた、ＬＳＢビット幅低減６８用のスペースも含んでいるが、これは、符号化中は使用されない。このプロセスは、分割のために再計算されるそれぞれの分析ウィンドウ（フレーム（複数）や、フレーム（１）や、セグメントや、チャネル・セットや、周波数拡張）ごとに繰り返される。

図５、図６、及び図７に示されているように、オーサリング・ツール３０は、ユーザが、媒体のピーク・ビット・レートの制約を満たすように、復号器のバッファ容量に従って、媒体上にオーディオ及びビデオ・ビットのストリームをレイアウトするときに最初のパスを作る（ステップ７０）ことを可能にする。オーサリング・ツールは、分析ウィンドウ・ループを開始し（ステップ７１）、バッファ・ペイロードを計算し（ステップ７２）、分析ウィンドウ７３についてバッファ・ペイロードと許容ペイロードとを比較して、可逆ビットストリームが制約を満たすためにスケーリングを必要とするかどうかを判定する（ステップ７４）。許容ペイロードは、オーディオ復号器のバッファ容量と、媒体又はチャネルのピーク・ビット・レートとによって決定される。符号化ペイロードは、オーディオ・データのビット幅と、全てのデータ・セグメント７５のサンプル数にヘッダ７６を加えたものとによって決定される。許容ペイロードを超過しない場合、可逆符号化したＭＳＢ部分及びＬＳＢ部分は、改変ビットストリーム７９中のデータ・セグメント７５のＭＳＢ区域７７及びＬＳＢ区域７８にパックされる（ステップ８０）。許容ペイロードを決して超過しない場合には、可逆ビットストリームは、媒体又はチャネルへ直接に転送される。

バッファ・ペイロードが許容ペイロードを超える場合、オーサリング・ツールは、ヘッダ及び可逆符号化ＭＳＢ部分４２を改変ビットストリーム７９にパックする（ステップ８１）。優先順位ルールに基づいて、オーサリング・ツールはＬＳＢビット幅低減６８の計算を行い、符号化ペイロード、従ってバッファ・ペイロードを最大で許容ペイロードまで低減させる（ステップ８２）。可逆符号化中にＬＳＢ部分が単に複製されるものと仮定すると、オーサリング・ツールは、好ましくは、ＬＳＢビット幅低減を越えた次のＬＳＢビットをディザリングするように、各ＬＳＢ部分にディザを追加し、次にＬＳＢ部分を右にＬＳＢビット幅低減の分だけシフトしてビットを破棄することによって、ＬＳＢ部分をスケーリングする（ステップ８４）。ＬＳＢ部分が符号化された場合、それらは、復号され、ディザリングされ、シフトされ、再符号化される必要が生じる。このツールは、現時点の適合するウィンドウに対する現時点の不可逆符号化ＬＳＢ部分を、改変ＬＳＢビット幅５６及びＬＳＢビット幅低減６８及びディザ・パラメータと共にビットストリームにパックする（ステップ８６）。

図６に示されているように、ＬＳＢ部分４４は、３のビット幅から１ビットの改変ＬＳＢビット幅５６へとスケーリングされている。破棄された２つのＬＳＢ８８は、２ビットのＬＳＢビット幅低減６８に合致する。例示的な実施形態では、改変ＬＳＢビット幅５６及びＬＳＢビット幅低減６８は、ヘッダで復号器へ伝送される。或いは、これらの何れかが省略されてもよく、元のＬＳＢビット幅が伝送されてもよい。パラメータのうちの何れも、他の２つのパラメータによって一意に決定される。

スケーラブル可逆符号器及びオーサリング・ツールの利点は、図８で行われているように、図１でのオーサリングされたビットストリームに対してのバッファ・ペイロード９０をかぶせることによって、最もよく示される。コンテンツを削除するためにオーディオ・ファイルを変更し、次に可逆符号器で単に再符号化する既知の手法を使用すると、バッファ・ペイロード１４は、許容ペイロード１０未満であるバッファ・ペイロード１６へと下方に事実上シフトされている。ピーク・ペイロードが許容ペイロード未満であるようにさせるには、ビットストリーム全体にわたって相当な量のコンテンツが犠牲にされる。それに比べて、バッファ・ペイロード９０は、バッファ・ペイロードが許容ペイロードを超える幾つかのウィンドウ（フレーム）中のものを除き、元の可逆的なバッファ・ペイロード１４を複製する。これらの区域では、符号化ペイロード、従って、バッファ・ペイロードは、制約を満たすのにちょうど十分なだけ低減され、好ましくはそれ以上は低減されない。その結果、元のオーディオ・ファイルを変更又は再符号化する必要なく、ペイロード容量がより効率的に使用され、より多くのコンテンツがエンド・ユーザへ送達される。

図９、図１０、及び図１１に示されているように、オーディオ復号器３８は、ディスク１００を介して、オーサリングされたビットストリームを受け取る。そのビットストリームは一連の分析ウィンドウに分離され、それぞれが、ヘッダ情報及び符号化オーディオ・データを含む。大部分のウィンドウは、可逆符号化されたＭＳＢ部分及びＬＳＢ部分、元のＬＳＢビット幅、及びゼロのＬＳＢビット幅低減を含む。ディスク１００のピーク・ビット・レート及びバッファ１０２の容量によって設定されるペイロードの制約を満たすために、幾つかのウィンドウは、可逆符号化されたＭＳＢ部分及び不可逆ＬＳＢ部分、不可逆ＬＳＢ部分の改変ビット幅、及びＬＳＢビット幅低減を含む。

コントローラ１０４は、ディスク１００上のビットストリームから符号化オーディオ・データを読み取る。パーサ１０６が、ビデオからオーディオ・データを分離し、オーディオ・データをオーディオ・バッファ１０２へ流すが、このオーディオ・バッファは、オーサリングのためオーバフローすることはない。このバッファは、現在の分析ウィンドウについてオーディオ・データを復号するために、十分なデータをＤＳＰチップ１０８へ提供する。ＤＳＰチップは、改変ＬＳＢビット幅５６と、ＬＳＢビット幅低減６８と、幾つかの空のＬＳＢ１１２とを含むヘッダ情報を、元のワード幅から抽出し（ステップ１１０）、オーディオ・データのＭＳＢ部分を、抽出し、復号し、組み立てる（ステップ１１４）。オーサリング中にすべてのＬＳＢが破棄されたか、又は元のＬＳＢビット幅が０であった場合（ステップ１１５）、ＤＳＰチップは、ＭＳＢサンプルを元のビット幅のワードに変換し、ＰＣＭデータを出力する（ステップ１１６）。そうでない場合、ＤＳＰチップは、可逆及び不可逆のＬＳＢ部分を復号し（ステップ１１８）、ＭＳＢ及びＬＳＢのサンプルを組み立て（ステップ１２０）、ヘッダ情報を使用して、組み立てられたサンプルを元のビット幅のワードに変換する（ステップ１２２）。

マルチチャネル・オーディオ・コーデック及びオーサリング・ツール
一連のフレームとして提示される符号化オーディオ・ビットストリーム用のオーディオ・コーデック及びオーサリング・ツールの例示的な実施形態が、図１２〜図１５に示されている。図１２に示されているように、各フレーム２００は、共通情報２０４およびＬＳＢビット幅及びＬＳＢビット幅低減を記憶する各チャネル・セットごとのサブヘッダ２０６を記憶するためのヘッダ２０２と、１又は複数のデータ・セグメント２０８とを含む。各データ・セグメントは、１又は複数のチャネル・セット２１０を含み、各チャネル・セットは、１又は複数のオーディオ・チャネル２１２を含む。各チャネルは、１又は複数の周波数拡張２１４を含み、少なくとも最低周波数拡張は、符号化ＭＳＢ部分２１６及び符号化ＬＳＢ部分２１８を含む。ビットストリームは、各フレームの各チャネル・セットの各チャネルごとに、異なるＭＳＢ及びＬＳＢを分割する。高域周波数拡張は、同様に分割されてもよく、また、ＬＳＢ部分としてすべて符号化されてもよい。

このビットストリームがオーサリングされる元であるスケーラブル可逆ビットストリームは、図１３ａ及び１３ｂに示されるように符号化される。符号器は、元のワードのビット幅（２４ビット）、ＭｉｎＭＳＢ（１６ビット）、２乗されるＬ２のノルムに対するしきい値（Ｔｈ）、及びそのノルムに対するスケール・ファクタ（ＳＦ）を設定する（ステップ２２０）。符号器は、フレーム・ループ（ステップ２２２）及びチャネル・セット・ループ（ステップ２２４）を開始する。オーディオ・データの実際の幅（２０ビット）が元のワード幅未満であり得るので、符号器は、空のＬＳＢの数（２４−２０＝４）（現在のフレーム内のＰＣＭサンプルにおける「０」のＬＳＢの最小数）を計算し、その量だけすべてのサンプルを右シフトする（ステップ２２６）。データのビット幅は、元のビット幅（２４）から空のＬＳＢ数（４）を減算したものである（ステップ２２８）。符号器は次に、ＬＳＢ部分の一部として符号化されることを許される最大ビット数（ＭａｘＬＳＢ）を、Ｍａｘ（ビット幅−ＭｉｎＭＳＢ，０）として決定する（ステップ２３０）。現在の例では、ＭａｘＬＳＢ＝２０−１６＝４ビットである。

オーディオ・データをＭＳＢ部分とＬＳＢ部分とに分割するための境界点を決定するために、符号器は、チャネル・ループ・インデックスを開始し（ステップ２３２）、Ｌ_∞ノルムを、チャネル中のオーディオ・データの最大絶対振幅として計算し、２乗Ｌ２ノルムを、分析ウィンドウ中のオーディオ・データの２乗振幅（振幅の２乗）の合計として計算する（ステップ２３４）。符号器は、パラメータＭａｘＡｍｐを、ｌｏｇ_２（Ｌ_∞）以上の最小整数として設定し（ステップ２３６）、ＬＳＢビット幅をゼロに初期設定する（ステップ２３７）。ＭａｘＡｍｐがＭｉｎＭＳＢよりも大きい場合（ステップ２３８）、ＬＳＢビット幅は、ＭａｘＡｍｐとＭｉｎＭＳＢとの差に等しく設定される（ステップ２４０）。そうでない場合に、Ｌ２ノルムがしきい値を超える（振幅は小さいが差異が大きい）場合（ステップ２４２）、ＬＳＢビット幅は、ＭａｘＡｍｐをスケール・ファクタ（典型的には１より大きい）で除算したものと等しく設定される（ステップ２４４）。双方の試験で偽の場合、ＬＳＢビット幅はゼロのままである。言い換えれば、最小符号化品質、例えば、ＭｉｎＭＳＢを維持するために、ＬＳＢは利用可能でない。符号器は、ＭａｘＬＳＢ値でＬＳＢビット幅をクリップし（ステップ２４６）、その値をサブヘッダ・チャネル・セットにパックする（ステップ２４８）。

境界点、即ち、ＬＳＢビット幅が決定された後、符号器は、オーディオ・データをＭＳＢ部分とＬＳＢ部分とに分割する（ステップ２５０）。ＭＳＢ部分は、適切なアルゴリズムを使用して可逆符号化され（ステップ２５２）、現在のフレームのチャネル・セットにおける特定のチャネル中の最低の周波数拡張にパックされる（ステップ２５４）。ＬＳＢ部分は、適切なアルゴリズム、例えば、単純なビット複製を使用して可逆符号化され（ステップ２５６）、パックされる（ステップ２５８）。

このプロセスは、ビットストリーム中の各フレームごとに（ステップ２６４）、各チャネル・セットごとに（ステップ２６２）、各チャネルごとに（ステップ２６０）、繰り返される。更に、高い周波数の拡張に対して同じ手順が繰り返されてもよい。しかしながら、こうした拡張に含まれる情報は少ないので、ＭｉｎＭＳＢは、ＬＳＢとしてすべて符号化されるように、０に設定されてもよい。

あるオーディオ・コンテンツに対してスケーラブル可逆ビットストリームが符号化された後、オーサリング・ツールは、搬送媒体のピーク・ビット・レートの制約及びオーディオ復号器中のバッファの容量を満足させる、できる限り最良のビットストリームを、作成する。図１４に示されているように、ユーザは、ビット・レート及びバッファ容量の制約に適合するように、媒体上に可逆ビットストリーム２６８をレイアウトしようと試みる（ステップ２７０）。成功した場合、可逆ビットストリーム２６８は、オーサリングされたビットストリーム２７２として書き出され、媒体に記憶される。そうでない場合、オーサリング・ツールは、フレーム・ループを開始し（ステップ２７４）、バッファ・ペイロード（バッファ平均フレーム間（buffered average frame-to-frame）ペイロード）と許容ペイロード（ピーク・ビット・レート）とを比較する（ステップ２７６）。現在のフレームが許容ペイロードに適合する場合、可逆符号化されたＭＳＢ部分及びＬＳＢ部分が、可逆ビットストリーム２６８から抽出され、オーサリングされたビットストリーム２７２に書き込まれ、そのフレームがインクリメント（増分）される。

オーサリング・ツールが、バッファ・ペイロードが許容ペイロードを超える非適合のフレームに遭遇した場合、このツールは、チャネル・セット中のすべてのＬＳＢ部分を破棄することによって実現され得る最大低減を計算し、それをバッファ・ペイロードから減算する（ステップ２７８）。なおも最小ペイロードが大きすぎる場合、このツールは、過剰のデータ量及びフレーム数を含むエラー・メッセージを表示する（ステップ２８０）。このケースでは、ＭｉｎＭＳＢが減らされるか、又は元のオーディオ・ファイルが変更され再符号化される。

そうでない場合、オーサリング・ツールは、指定のチャネル優先順位ルールに基づいて、現在のフレームの各チャネルに対してＬＳＢビット幅低減を、以下のようにして計算する（ステップ２８２）。

ビット幅低減［ｎＣｈ］＜ＬＳＢビット幅［ｎＣｈ］
ここで、ｎＣｈ＝０、．．．、ＡｌｌＣｈａｎｎｅｌｓ−１
バッファ・ペイロード［ｎＦｒ］−Σ（ビット幅低減［ｎＣｈ］＊フレーム内のＮｕｍＳａｍｐｌｅｓ）＜許容ペイロード［ｎＦｒ］

これらの値によるＬＳＢビット幅の低減によって、フレームは許容ペイロードに適合するようになる。これは、最小量の損失が非適合のフレームにもたらされるが、それ以外には可逆の適合するフレームに影響を与えないで、行われる。

オーサリング・ツールは、各チャネルの符号化ＬＳＢ部分（ビット複製符号化と仮定する）を、フレームの各ＬＳＢ部分にディザを付加して次のビットをディザリングし、次いでＬＳＢビット幅低減の分だけ右シフトすることによって、調整する（ステップ２８４）。ディザを付加することは必ずしも必要ではないが、量子化誤差を無相関化し且つ元のオーディオ信号からも無相関化するためには、非常に望ましい。このツールは、現時点の不可逆のスケーリングされたＬＳＢ部分（ステップ２８６）、各チャネルの改変ＬＳＢビット幅及びＬＳＢビット幅低減（ステップ２８８）、並びに改変ストリーム・ナビゲーション点（ステップ２９０）を、オーサリングされたビットストリームにパックする。ディザが付加される場合、ディザ・パラメータがビットストリームにパックされる。次にこのプロセスは、終了する（ステップ２９４）まで、それぞれのフレームごとに繰り返される（ステップ２９２）。

図１５ａ及び１５ｂに示されているように、適切な復号器がビットストリームに同期し（ステップ３００）、フレーム・ループを開始する（ステップ３０２）。復号器は、セグメント数、セグメント中のサンプル数、チャネル・セット数などを含むフレーム・ヘッダ情報を抽出し（ステップ３０４）、チャネル・セットごとにチャネル・セット中のチャネル数、空のＬＳＢ数、ＬＳＢビット幅、ＬＳＢビット幅低減を含むチャネル・セット・ヘッダ情報を抽出し（ステップ３０６）、各チャネル・セットごとにそれを記憶する（ステップ３０７）。

ヘッダ情報が利用可能となった後、復号器は、現在のフレームに対して、セグメント・ループ（ステップ３０８）及びチャネル・セット・ループ（ステップ３１０）を開始する。復号器は、ＭＳＢ部分をアンパックし、復号し（ステップ３１２）、ＰＣＭサンプルを記憶する（ステップ３１４）。復号器は次いで、現在のチャネル・セットにおけるチャネル・ループを開始し（ステップ３１６）、符号化ＬＳＢデータを続ける。

改変ＬＳＢビット幅がゼロを超えない場合（ステップ３１８）、復号器は現在のセグメントにおいてサンプル・ループを開始し（ステップ３２０）、ＭＳＢ部分に対するＰＣＭサンプルを元のワード幅に変換し（ステップ３２２）、サンプル・ループが終了するまでこれを繰り返す（ステップ３２４）。

そうでない場合、復号器は、現在のセグメントでサンプル・ループを開始し（ステップ３２６）、ＬＳＢ部分をアンパックし、復号し（ステップ３２８）、ＬＳＢ部分をＭＳＢ部分に追加することによってＰＣＭサンプルを組み立てる（ステップ３３０）。復号器は次いで、ヘッダからの空ＬＳＢ、改変ＬＳＢビット幅、及びＬＳＢビット幅低減の情報を使用して、ＰＣＭサンプルを元のワード幅に変換し（ステップ３３２）、サンプル・ループが終了するまでそのステップを繰り返す（ステップ３３４）。オーディオ・シーケンス全体を再構築するために、復号器は、各フレームで（ステップ３４０）、各チャネル・セットで（ステップ３３８）、各チャネルで（ステップ３３６）、これらのステップを繰り返す。

後方互換スケーラブル・オーディオ・コーデック
スケーラビリティの特性は、後方互換（バックワード・コンパチブル）の可逆符号器、ビットストリーム・フォーマット、及び復号器に組み込まれ得る。「不可逆（lossy）」コア符号ストリームは、伝送（又は記録）のために、オーディオ・データの可逆符号化ＭＳＢ部分及びＬＳＢ部分と共にパックされる。拡張された可逆機能を用いて復号器で復号した後、不可逆と可逆とのＭＳＢストリームが組み合わされ、ＬＳＢストリームが追加されて、可逆再構築信号を構築する。前の世代の復号器では、可逆のＭＳＢ及びＬＳＢの拡張ストリームが無視され、コア「不可逆」ストリームが復号されて、コアストリームの帯域幅及び信号対雑音比の特性をもつ高品質のマルチチャネル・オーディオ信号を提供する。

図１６ａは、スケーラブル後方互換符号器４００のシステム・レベルの図を示す。デジタル化オーディオ信号、適切にはＭビットＰＣＭオーディオ・サンプルが、入力４０２で提供される。好ましくは、デジタル化オーディオ信号は、改変された不可逆コア符号器４０４のものを超えるサンプリング・レート及び帯域幅を有する。一実施形態では、デジタル化オーディオ信号のサンプリング・レートは、９６ｋＨｚ（サンプリングされたオーディオの４８ｋＨｚの帯域幅に相当する）である。入力オーディオはマルチチャネル信号でもよく、好ましくはそうであることも理解すべきであり、各チャネルは９６ｋＨｚでサンプリングされる。以下の議論では、一つのチャネルの処理について集中して述べるが、多数のチャネルへの拡張は単純明快である。入力信号はノード４０６で複製され、並列の枝路で処理される。信号経路の第１の枝路では、改変された不可逆の広帯域の符号器４０４が、信号を符号化する。以下に詳述される改変コア符号器４０４は、符号化データ・ストリーム（コアストリーム４０８）を生成し、このコアストリームは、パッカ又はマルチプレクサ４１０へと運ばれる。また、コアストリーム４０８は、改変されたコアストリーム復号器４１２へも伝達され、このコアストリーム復号器は、出力として、改変された再構築されたコア信号４１４を生成する。この再構築コア信号４１４は、Ｎビットだけ右シフトされて（＞＞Ｎ４１５）、そのＮ個のＬＳＢが破棄される。

一方、並列経路中の入力デジタル化オーディオ信号４０２は、再構築オーディオ・ストリームに導入される遅延（改変符号化及び改変復号器による）と実質的に等しい補償遅延４１６を受け、遅延デジタル化オーディオ・ストリームを生成する。そのオーディオ・ストリームは、上述のように、ＭＳＢ部分とＬＳＢ部分に分割される４１７。ＮビットＬＳＢ部分４１８が、パッカ４１０へ運ばれる。ＭＳＢ部分と整合するようにシフトされたＭ−Ｎビット再構築コア信号４１４は、減算ノード４２０で、遅延デジタル化オーディオ・ストリーム４１９のＭＳＢ部分から減算される。（入力のうちの１つの極性を変更することにより、減算ノードの代わりに加算ノードを使用でき得ることに留意されたい。従って、この目的では、加算及び減算は実質的に等価となり得る。）

減算ノード４２０は、元の信号と再構築コア信号とのＭ−ＮＭＳＢの間の差を表す差信号４２２を生成する。純粋に「可逆」符号化するためには、その差信号を、可逆符号化技法を用いて符号化し伝送する必要がある。従って、Ｍ−Ｎビット差信号４２２は、可逆符号器４２４で符号化され、この符号化Ｍ−Ｎビット信号４２６は、パッカ４１０でコアストリーム４０８とパックされ又は多重化されて、多重化された出力ビットストリーム４２８を生成する。可逆符号器の必要性に対応するために、可逆符号化では、可変ビット・レートの符号化可逆ストリーム４１８及び４２６を生成したことに留意されたい。次に、パックされたストリームに対して、オプションで、チャネル符号化を含めた更に複数層の符号化が行われ、次いで伝送されたり記録されたりする。この開示では、記録は、チャネルを介した伝送とみなされてもよいことに留意されたい。

コア符号器４０４は、「改変（modified）」と記述されているが、これは、拡張された帯域幅を扱うことのできる実施形態では、コア符号器は改変（変更）を必要とすることになるからである。符号器内の６４帯域分析フィルタ・バンクが、その出力データの半分を破棄し、下位の３２周波数帯域だけを符号化する。この破棄された情報は、何れにせよ信号スペクトルの上半分を再構築することができないであろう従来からの復号器には、重要ではない。残りの情報が、未改変の符号器により符号化されて、後方互換のコア出力ストリームを形成する。しかしながら、４８ｋＨｚのサンプリング・レート以下で動作する別の実施形態では、コア符号器は、実質的に未改変のバージョンの従来のコア符号器でもよい。同様に、従来からの復号器のサンプリング・レートを超える動作では、コア復号器４１２は、後述のように改変される必要がある。従来のサンプリング・レート（例えば、４８ｋＨｚ以下）での動作では、コア復号器は、実質的に未改変のバージョンの従来のコア復号器又はそれと同等の物でよい。実施形態によっては、サンプリング・レートの選択は符号化時に行われてもよく、符号化及び復号のモジュールが、その時にソフトウェアによって所望されるように再構成されてもよい。

図１６ｂに示されているように、復号の方法は、符号化の方法と相補的である。従来の復号器は、単にコアストリーム４０８を復号し、可逆ＭＳＢ部分及びＬＳＢ部分を破棄することによって、不可逆コア・オーディオ信号を復号することができる。そのような従来の復号器において生成されるオーディオの品質は極めて良く、従来のオーディオと同等であり、単に可逆でないだけである。

次に図１６ｂを参照すると、着信ビットストリーム（伝送チャネル又は記録媒体から復元）が、アンパッカ４３０でまずアンパックされ、このアンパッカは、可逆拡張データ・ストリーム４１８（ＬＳＢ）及び４２６（ＭＳＢ）からコアストリーム４０８を分離する。コアストリームは、改変コア復号器４３２によって復号され、この改変コア復号器は、再構築中に６４帯域合成における上位３２帯域に対して未伝送のサブバンド・サンプルをゼロにすることによって、コアストリームを再構築する。（標準コア符号化が実行された場合、このゼロ化は不要であることに留意されたい。）可逆ＭＳＢ復号器４３４によって、ＭＳＢ拡張フィールドが復号される。ＬＳＢデータは、ビット複製を使用して可逆符号化されたので、復号の必要はない。

コア及び可逆ＭＳＢ拡張を並行して復号した後、補間されたコア再構築データが、Ｎビットだけ右シフトされ４３６、加算器４３８で加算することによって、データの可逆部分と組み合わされる。加算された出力は、Ｎビットだけ左シフトされて４４０、可逆ＭＳＢ部分４４２を形成し、ＮビットＬＳＢ部分４４４と合わせて組み立てられて、元のオーディオ信号４０２の可逆の再構築された表現であるＰＣＭデータ・ワード４４６を生成する。

その信号は、正確な入力信号から、復号された不可逆の再構築物を減算することによって、符号化されたので、再構築信号は、元のオーディオ・データが正確に再構築されたものを表す。従って、逆説的に、不可逆コーデックと可逆符号化信号との組合せは、純粋な可逆コーデックとして実際に機能するが、符号化データは従来の可逆復号器との互換性が維持されるという、追加の利点も有する。更に、ビットストリームは、媒体ビット・レートの制約及びバッファ容量に適合するように、ＬＳＢを選択的に破棄することによってスケーリングされることができる。

本発明の幾つかの例示的な実施形態が図示され、説明されているが、多くの変形形態及び代替実施形態が、当業者には想到されよう。そのような変形形態及び代替実施形態は、企図されており、添付の特許請求の範囲に定義される本発明の趣旨及び範囲から逸脱することなく実施され得る。

図１は、上述のように、可逆オーディオ・チャネルでのビット・レート及びペイロード対時間のグラフである。図２は、本発明による可逆オーディオ・コーデック及びオーサリング・ツールのブロック図である。図３は、オーディオ符号器の簡略化された流れ図である。図４は、可逆ビットストリーム中のサンプルに対するＭＳＢ／ＬＳＢ分割の図である。図５は、オーサリング・ツールの簡略化された流れ図である。図６は、オーサリングされたビットストリーム中のサンプルに対するＭＳＢ／ＬＳＢ分割の図である。図７は、ＭＳＢ部分及びＬＳＢ部分及びヘッダ情報を含むビットストリームの図である。図８は、可逆およびオーサリングされたビットストリームに対するペイロードのグラフである。図９は、オーディオ復号器の簡単なブロック図である。図１０は、復号プロセスの流れ図である。図１１は、組み立てられたビットストリームの図である。図１２は、特定の実施形態でのビットストリーム・フォーマットを示す。図１３ａおよび１３ｂは、特定の実施形態での符号化を示す。図１３ａおよび図１３ｂは、特定の実施形態での符号化を示す。図１４は、特定の実施形態でのオーサリングを示す。図１５ａおよび図１５ｂは、特定の実施形態での復号を示す。図１５ａおよび図１５ｂは、特定の実施形態での復号を示す。図１６ａは、不可逆コア符号器と後方互換であるスケーラブル可逆コーデック用の符号器のブロック図である。図１６ｂは、不可逆コア符号器と後方互換であるスケーラブル可逆コーデック用の復号器のブロック図である。

Claims

オーディオ・データを符号化およびオーサリングする方法であって、
一連の分析ウィンドウにおける前記オーディオ・データを、スケーラブル・ビットストリームへと可逆符号化するステップと、
それぞれのウィンドウについて、符号化された前記オーディオ・データに対するバッファ・ペイロードと許容ペイロードとを比較するステップと、
非適合のウィンドウにおける可逆符号化された前記オーディオ・データをスケーリングして、前記ビットストリームに対する前記バッファ・ペイロードが前記許容ペイロードを超えないようにするものであり、このスケーリング動作は、それらのウィンドウにおける符号化された前記データに損失を導入させるものである、スケーリングするステップと
を備える方法。
請求項１に記載の方法であって、前記オーディオ・データが、それぞれの分析ウィンドウごとに最上位ビット（ＭＳＢ）部分及び最下位ビット（ＬＳＢ）部分に分離され、異なる可逆アルゴリズムで符号化される、方法。
請求項２に記載の方法であって、前記オーディオ・データが、
最小ＭＳＢビット幅（ＭｉｎＭＳＢ）を割り当てるステップと、
前記分析ウィンドウにおける前記オーディオ・データに対するコスト関数を計算するステップと、
前記コスト関数がしきい値を超える場合に、前記ＭｉｎＭＳＢを満たす少なくとも１ビットのＬＳＢビット幅を計算するステップと、
前記コスト関数が前記しきい値を超えない場合に、前記ＬＳＢビット幅をゼロ・ビットになるように割り当てるステップと
によって分離される、
方法。
請求項３に記載の方法であって、
最大ＬＳＢビット幅（ＭａｘＬＳＢ）を、前記オーディオ・データのビット幅からＭｉｎＭＳＢを減算したものとして計算するステップと、
Ｌ_∞ノルムを、前記分析ウィンドウにおける前記オーディオ・データの最大絶対振幅として計算するステップと、
ＭａｘＡｍｐを、−Ｌ_∞に等しい値をもつサンプルを表すために必要なビット数として計算するステップと、
２乗されたＬ２ノルムを、前記分析ウィンドウにおける前記オーディオ・データの２乗された振幅の合計として計算するステップと、
ＭａｘＡｍｐがＭｉｎＭＳＢを超えず、且つ前記Ｌ２ノルムがしきい値を超えない場合に、前記ＬＳＢビット幅をゼロ・ビットに設定するステップと、
ＭａｘＡｍｐがＭｉｎＭＳＢを超えないが、前記Ｌ２ノルムが前記しきい値を超える場合に、前記ＬＳＢビット幅を、前記ＭａｘＬＳＢビット幅をスケーリング・ファクタで除算した値に設定するステップと、
ＭａｘＡｍｐが前記ＭｉｎＭＳＢを超える場合に、前記ＬＳＢビット幅を、前記ＭａｘＡｍｐからＭｉｎＭＳＢを減算したものに設定するステップと
を更に含む、方法。
請求項４に記載の方法であって、前記ＬＳＢビット幅が、前記ＭｉｎＭＳＢ及び前記オーディオ・データのワード幅によって決定される最大ＬＳＢビット幅（ＭａｘＬＳＢ）に制限される、方法。
請求項２に記載の方法であって、ＬＳＢビット幅及び符号化された前記ＭＳＢ部分及びＬＳＢ部分が、それぞれの分析ウィンドウごとにビットストリームへとパックされる、方法。
請求項２に記載の方法であって、前記ＭＳＢ部分が、多数のオーディオ・チャネル間の無相関化及び各オーディオ・チャネル内の適応予測を含む可逆アルゴリズムで符号化される、方法。
請求項２に記載の方法であって、前記ＬＳＢ部分が、ＰＣＭサンプルに対するビットを複製する可逆アルゴリズムで符号化される、方法。
請求項２に記載の方法であって、前記ＬＳＢ部分が、低次の予測及びエントロピー符号化を使用する可逆アルゴリズムで符号化される、方法。
請求項２に記載の方法であって、前記分析ウィンドウはフレームであり、各フレームは、前記ＬＳＢビット幅及び１又は複数のセグメントを記憶するためのヘッダを含み、各セグメントは、１又は複数のチャネル・セットを含み、各チャネル・セットは、１又は複数のオーディオ・チャネルを含み、各チャネルは、１又は複数の周波数拡張を含み、前記最低の周波数拡張は、符号化ＭＳＢ部分及びＬＳＢ部分を含む、方法。
請求項１０に記載の方法であって、前記ビットストリームが、各フレームにおける各チャネル・セットにおける各チャネルについて異なるＭＳＢ及びＬＳＢ分割を有する、方法。
請求項１１に記載の方法であって、高域の前記周波数拡張が、符号化ＬＳＢ部分だけを含む、方法。
請求項２に記載の方法であって、前記ビットストリームが、
すべての前記ウィンドウについて、可逆符号化された前記ＭＳＢ部分を前記ビットストリームにパックするステップと、
適合する前記ウィンドウにつして、可逆符号化された前記ＬＳＢ部分を前記ビットストリームにパックするステップと、
非適合のウィンドウについて、可逆符号化された前記ＬＳＢ部分を、それらが適合するようにスケーリングするステップと、
現時点の適合するウィンドウについて、現時点の不可逆符号化された前記ＬＳＢ部分を前記ビットストリームにパックするステップと
によってオーサリングされる、
方法。
請求項１３に記載の方法であって、前記ＬＳＢ部分が、
前記分析ウィンドウに対してＬＳＢビット幅低減を計算するステップと、
前記非適合のウィンドウの前記ＬＳＢ部分を復号するステップと、
前記ＬＳＢビット幅低減の数のＬＳＢを破棄することにより、前記ＬＳＢビット幅低減の分だけ、前記ＬＳＢ部分を低減させるステップと、
改変された前記ＬＳＢ部分を、前記可逆符号化アルゴリズムで符号化するステップと、
符号化された前記ＬＳＢ部分をパックするステップと、
改変された前記ＬＳＢビット幅及び前記ＬＳＢビット幅低減を前記ビットストリームにパックするステップと
によってスケーリングされる、
方法。
請求項１４に記載の方法であって、前記可逆符号化が単純なビット複製であり、前記ＬＳＢ部分が、
各ＬＳＢ部分にディザを加えて、前記ＬＳＢビット幅低減を越えた次のＬＳＢをディザリングするようにする、ステップと、
前記ＬＳＢ部分を、前記ＬＳＢビット幅の低減の分だけ右へシフトするステップと
によって低減される、
方法。
請求項１４に記載の方法であって、前記ＬＳＢビット幅の低減は過不足のないものであり、前記バッファ・ペイロードが前記許容ペイロードを超えないようにするものである、方法。
請求項１４に記載の方法であって、前記オーディオ・データが多数のチャネルを含み、前記ＬＳＢビット幅の低減が、チャネル優先順位ルールに従ってそれぞれのチャネルごとに計算される、方法。
オーディオ・データに対してスケーラブルの可逆のビットストリームの符号化を行う方法であって、
分析ウィンドウについて、オーディオ・データをＭＳＢ部分とＬＳＢ部分に分けるブレークポイントを決定するステップと、
前記ＭＳＢ部分を可逆符号化するステップと、
前記ＬＳＢ部分を可逆符号化するステップと、
符号化された前記ＭＳＢ部分及び前記ＬＳＢ部分を可逆ビットストリームにパックするステップと、
前記ＬＳＢ部分のビット幅を前記可逆ビットストリームにパックするステップと
を備える方法。
請求項１８に記載の方法であって、前記ブレークポイントが、
最小ＭＳＢビット幅（ＭｉｎＭＳＢ）を割り当てるステップと、
前記分析ウィンドウの前記オーディオ・データに対してコスト関数を計算するステップと、
前記コスト関数がしきい値を超える場合に、前記ＭｉｎＭＳＢを満たす少なくとも１ビットのＬＳＢビット幅を計算するステップと、
前記コスト関数が前記しきい値を超えない場合に、前記ＬＳＢビット幅をゼロ・ビットになるように割り当てるステップと
によって決定される、
方法。
請求項１８に記載の方法であって、前記ＬＳＢ部分が、前記オーディオ・データのビットを複製する可逆アルゴリズムで符号化される、方法。
媒体上にオーディオ・ビットストリームをオーサリングする方法であって、
ａ）復号器バッファのために媒体上にビットストリームからの前記符号化オーディオ・データをレイアウトするための方式を決定するステップであって、前記ビットストリームが一連の分析ウィンドウにおける可逆に符号化されたＭＳＢ部分及びＬＳＢ部分を含む、ステップと、
ｂ）次の分析ウィンドウに対しての前記符号化オーディオ・データに対するバッファ・ペイロードを計算するステップと、
ｃ）前記バッファ・ペイロードが分析ウィンドウに対して許容ペイロード内の場合は、可逆に符号化された前記ＭＳＢ部分及び前記ＬＳＢ部分を、改変されたビットストリームにパックするステップと、
ｄ）前記バッファ・ペイロードが分析ウィンドウに対して前記許容ペイロードを超える場合は、
可逆に符号化された前記ＭＳＢ部分を前記改変されたビットストリームにパックし、
前記バッファ・ペイロードが前記許容ペイロード内となるように、可逆に符号化された前記ＬＳＢ部分を不可逆に符号化されたＬＳＢ部分へとスケーリングし、
不可逆に符号化された前記ＬＳＢ部分を、そのスケーリング情報と共に前記改変されたビットストリームにパックするステップと、
ｅ）それぞれの分析ウィンドウごとにステップｂからｄを繰り返すステップと
を備える方法。
請求項２１に記載の方法であって、前記ＬＳＢ部分が、
前記分析ウィンドウについてＬＳＢビット幅低減を計算するステップと、
非適合の前記ウィンドウにおける前記ＬＳＢ部分を復号するステップと、
前記ＬＳＢビット幅低減の数のＬＳＢを破棄することにより、前記ＬＳＢビット幅低減だけ、前記ＬＳＢ部分を低減させるステップと、
改変された前記ＬＳＢ部分を前記の可逆符号化アルゴリズムで符号化するステップと、
符号化された前記ＬＳＢ部分をパックするステップと、
改変された前記ＬＳＢビット幅及び前記ＬＳＢビット幅低減を前記ビットストリームにパックするステップと
によってスケーリングされる、
方法。
請求項２２に記載の方法であって、前記の可逆符号化及び復号化が、単純なビット複製であり、前記ＬＳＢ部分が、
前記ＬＳＢビット幅低減を越えた次のＬＳＢをディザリングするように、それぞれのＬＳＢ部分にディザを加えるステップと、
前記ＬＳＢ部分を、前記ＬＳＢビット幅低減分だけ右にシフトするステップと
によって低減される、
方法。
媒体上に記憶された符号化オーディオ・データの一連の分析ウィンドウに分離されたビットストリームを備える物品であって、それぞれの前記分析ウィンドウにおける前記オーディオ・データは、必要に応じて前記分析ウィンドウの前記バッファ・ペイロードを許容ペイロード以下に低減させることを除き、可逆符号化される、物品。
請求項２４に記載の物品であって、幾つかの前記分析ウィンドウは、可逆に符号化されたＭＳＢ部分及びＬＳＢ部分を含み、残りの分析ウィンドウは、可逆に符号化されたＭＳＢ部分及び不可逆に符号化されたＬＳＢ部分を含む、物品。
請求項２５に記載の物品であって、前記ビットストリームは、前記ＬＳＢ部分の改変された前記ビット幅と、前記ＬＳＢ部分の前記ビット幅低減とを含むヘッダ情報を含む、物品。
請求項２６に記載の物品であって、前記ＬＳＢ部分が、ビット複製を使用して可逆及び不可逆に符号化される、物品。
請求項２７に記載の物品であって、前記ＬＳＢ部分の前記ビット幅低減は、前記バッファ・ペイロードが前記許容ペイロードを超えないものとするように過不足のないものである、物品。
オーディオ・ビットストリームを復号する方法であって、
ビットストリームを一連の分析ウィンドウとして受け取るステップであって、前記分析ウィンドウは、ＬＳＢビット幅及びＬＳＢビット幅低減を含むヘッダ情報と、可逆に符号化されたＭＳＢ部分および可逆に符号化されたＬＳＢ部分またはスケーリングされたＬＳＢ部分を含むオーディオ・データとを含み、それぞれの分析ウィンドウのバッファ・ペイロードが許容ペイロード内であるようにされている、ステップと、
それぞれの分析ウィンドウごとに前記ＬＳＢビット幅及び前記ＬＳＢビット幅低減を抽出するステップと、
前記可逆に符号化されたＭＳＢ部分を抽出し、それらをＰＣＭオーディオ・データに復号するステップと、
前記可逆に符号化されたＬＳＢ部分又は前記スケーリングされたＬＳＢ部分を抽出し、それらをＰＣＭオーディオ・データに復号するステップと、
それぞれのＰＣＭオーディオ・サンプルについての前記ＭＳＢ部分及び前記ＬＳＢ部分を組み立てるステップと、
前記ＬＳＢビット幅及び前記ＬＳＢビット幅低減を使用して、組み立てられた前記ＰＣＭオーディオ・データを元のビット幅のワードに変換するステップと、
それぞれの分析ウィンドウについて前記ＰＣＭオーディオ・データを出力するステップと
を備える方法。
請求項２９に記載の方法であって、前記可逆に符号化されたＬＳＢ部分及び前記スケーリングされたＬＳＢ部分が、ビット複製によって復号される、方法。
ビットストリームを受け取り、ＰＣＭオーディオ・データを出力するように構成される復号器チップであって、前記復号器チップは、
前記ビットストリームのそれぞれの分析ウィンドウについてＬＳＢビット幅及びＬＳＢビット幅低減を抽出するステップと、
可逆に符号化されたＭＳＢ部分を抽出し、それらをＰＣＭオーディオ・データに復号するステップと、
可逆に符号化されたＬＳＢ部分又はスケーリングされたＬＳＢ部分を抽出し、それらをＰＣＭオーディオ・データに復号するステップと、
それぞれのＰＣＭオーディオ・サンプルについて前記ＭＳＢ部分及び前記ＬＳＢ部分を組み立てるステップと、
前記ＬＳＢビット幅及び前記ＬＳＢビット幅低減を使用して、組み立てられた前記ＰＣＭオーディオ・データを元のビット幅のワードに変換するステップと、
それぞれの分析ウィンドウについて前記ＰＣＭオーディオ・データを出力するステップと
を実行するように構成される、復号器チップ。
オーディオ復号器であって、
媒体上のビットストリームから符号化オーディオ・データを読み取るためのコントローラと、
前記符号化オーディオ・データの複数の分析ウィンドウをバッファするためのバッファと、
連続する各分析ウィンドウについて前記符号化オーディオ・データを復号し、ＰＣＭオーディオ・データを出力するためのＤＳＰチップであって、分析ウィンドウを復号するように構成され、前記分析ウィンドウは、ＬＳＢビット幅及びＬＳＢビット幅低減を含むヘッダ情報と、可逆に符号化されたＭＳＢ部分および可逆に符号化されたＬＳＢ部分またはスケーリングされたＬＳＢ部分を含むオーディオ・データとを含むものであり、バッファされるペイロードは、前記媒体及び前記バッファの容量によりサポートされるピーク・ビット・レートによって決定される許容ペイロードを超えないものである、ＤＳＰチップと
を備えるオーディオ復号器。
請求項３２に記載のオーディオ復号器であって、前記ＤＳＰチップは、
前記ビットストリームにおける各分析ウィンドウについて、前記ＬＳＢビット幅及び前記ＬＳＢビット幅低減を抽出するステップと、
前記可逆に符号化されたＭＳＢ部分を抽出し、それらをＰＣＭオーディオ・データに復号するステップと、
前記可逆に符号化されたＬＳＢ部分又は前記スケーリングされたＬＳＢ部分を抽出し、それらをＰＣＭオーディオ・データに復号するステップと、
それぞれのＰＣＭオーディオ・サンプルについて前記ＭＳＢ部分及び前記ＬＳＢ部分を組み立てるステップと、
前記ＬＳＢビット幅及び前記ＬＳＢビット幅低減を使用して、組み立てられた前記ＰＣＭオーディオ・データを元のビット幅のワードに変換するステップと、
それぞれの分析ウィンドウについて前記ＰＣＭオーディオ・データを出力するステップと
を実行する、
オーディオ復号器。
不可逆コア復号器と後方互換であるＭビット・オーディオ・データに対してのスケーラブルの可逆のビットストリームの符号化を行う方法であって、
前記Ｍビット・オーディオ・データを、不可逆のＭビット・コアストリームに符号化するステップと、
前記不可逆のＭビット・コアストリームをビットストリームにパックするステップと、
前記Ｍビット・コアストリームを、再構築されたコア信号に復号するステップと、
前記Ｍビット・オーディオ・データを、Ｍ−ＮビットのＭＳＢ部分とＮビットのＬＳＢ部分とに分けるステップと、
前記ＮビットのＬＳＢ部分を前記ビットストリームにパックするステップと、
前記再構築されたコア信号をＮビットだけ右シフトして、それを前記ＭＳＢ部分と整合させるステップと、
前記ＭＳＢ部分から前記再構築されたコア信号を減算して、Ｍ−Ｎビット残差信号を形成するステップと、
前記残差信号を可逆符号化するステップと、
符号化された前記残差信号を前記ビットストリームにパックするステップと、
前記ＬＳＢ部分のビット幅を前記可逆のビットストリームにパックするステップと
を備える方法。
請求項３４に記載の方法であって、右シフトする前記ステップの前にディザを前記再構築されたコア信号に加えるステップと、ディザ・パラメータを前記ビットストリームにパックするステップとを更に備える方法。