JP2015519615A5

JP2015519615A5 -

Info

Publication number: JP2015519615A5
Application number: JP2015516683A
Authority: JP
Filing date: 2013-06-12
Publication date: 2016-08-04
Anticipated expiration: 2033-06-12

Description

二重の互換性を持つ損失のないオーディオ帯域幅拡張

本発明は、デジタルオーディオ信号に関し、特に標準ＰＣＭ再生との互換性を持つ損失のない帯域幅拡張スキームに関する。

多くのオーディオ愛好家やミュージシャンが、現行媒体の４４．１ｋＨｚ又は４８ｋＨｚよりもかなり高い平均周波数でサンプリングされ、かつ１６ビットよりも多いビット数の分解能で量子化されたオーディオであると通常は理解される、「高分解能」デジタルオーディオを要望している。

損失のある圧縮がなされたオーディオは、需要者市場でありふれたものであるが、経験は、「透明」であると主張されるシステムの経験でさえも、損失のある圧縮がなされたオーディオに対する疑問へと、多くの人々を導いてきた。１つの例外は、一定のビット深度への、単純な、非適応的な、ノイズシェーピングされ、ディザリングされた、再量子化である。適切な注意を払えば、これは、（入力と出力との間の差違の１次及び２次の統計に従い、）一定のノイズを付加することに等しい（J. Vanderkooy and S. P. Lipshitz, “Digital Dither: Signal Processing with Resolution Far below the Least Significant Bit” in Proc. AES 7th Int. Conf. on Audio in Digital Times (Toronto, Ont., Canada, 1989), pp. 87-96.参照）。そのようなノイズは、アナログ媒体及びデジタル媒体の双方における数十年にわたる経験の結果、「良性」であると考えられている。

２つの音楽配布媒体が大量消費市場で優勢である。１つはコンパクトディスク（ＣＤ）であり、これは、４４．１ｋＨｚのサンプリング周波数と、１６ビットのビット深度とを持つ。他の１つはインターネットダウンロードであり、これは、一般にコンピュータ又はパーソナルプレーヤを通じて聞かれる。大抵のダウンロードは損失のある圧縮がなされているが、コンピュータ又はプレーヤは、ほぼ必ず、４４．１ｋＨｚ及び４８ｋＨｚのサンプリング周波数で非圧縮のＰＣＭ（Pulse Code Modulation）信号を扱うことができる。多くは２４ビットのビット深度を扱うことができるが、いくつかのパーソナルプレーヤは１６ビットに制限されている。

オーディオ愛好家バージョン（一般に９６ｋＨｚのサンプリング周波数を持つ）と、大量消費市場プレーヤで再生可能なフォーマットとの双方でオーディオ録音を発行することは、商業的には魅力がない。標準大量消費市場プレーヤで再生可能な録音でありながら、特別なデコーダが追加の帯域幅を再生することを可能にする隠れた情報をも含む録音を発行する可能性が、過去に何度も探られてきた（MITSUYA KOMAMURA “Wide-Band and Wide-Dynamic-Range Recording and Reproduction of Digital Audio” J.Audio Eng. soc. Vol.43, No.1/2,1995 January/Februaryを含む）。しかしながら、今までのところ、オリジナルの高サンプリングレート信号の、損失のない再生への要求に注意を向けつつも、いすれも標準ＰＣＭ再生互換性を提供していない。また、２つの異なるビット深度（例えば１６ビットプレーヤと２４ビットプレーヤとの双方）で、デコーダがリスナに如何にして最適な経験を提供するかという問題を、いずれも考えてこなかった。

国際公開第２００７／１２８６６２号には、エンコードされた損失のあるデータストリームと、損失のない拡張データストリームとを用いた、ソース信号の損失のないエンコードのための方法及び装置が開示されている。他の文献（M van der Veen et al: “High Capacity Reversible Watermarking for Audio”, Security and Watermarking of Multimedia Contents V, Proceedings of SPIE-IS&T Electronic Imaging, SPIE vol. 5020, 1 January 2003, pages 1-11）には、入力信号のダイナミックレンジが制限され、かつウォーターマークビットのエンコードに不使用部分のビットが用いられる、デジタルオーディオ信号のための可逆的なウォーターマーク技術が記載されている。

本発明の第１の観点によれば、損失のないオーディオエンコーダは、第１のサンプリングレートで入力デジタルオーディオ信号を受け取り、かつ、それから、複数のサンプルを有しかつ第１のサンプリングレートよりも低い第２のサンプリングレートを持つＰＣＭデジタルオーディオ出力を生成するように構成され、
複数のサンプルの各々は、上位部分と下位部分とを持ち、
上位部分と下位部分とは、いずれも、第１のデコーダが損失なしで入力デジタルオーディオ信号を再生できるようにする情報を含み、
標準ＰＣＭストリームとして解釈されたとき、上位部分は、低減された帯域幅を持つ入力デジタルオーディオ信号のバージョンの損失のある表現を提供し、
上位部分は、前記低減された帯域幅よりも大きい帯域幅を持つ入力デジタルオーディオ信号の損失のある表現を第２のデコーダが再生できるようにする情報を含み、
入力デジタルオーディオ信号は、高周波数出力と低周波数出力とを持つ損失のない帯域分割器に結合され、高周波数出力は、損失のある圧縮出力と復元出力とを持つ圧縮ユニットに結合され、
上位部分は、低周波数出力及び損失のある圧縮出力に応じて引き出され、下位部分は、復元出力に応じて引き出される。

本発明での使用のために設計されたものでない標準『遺産』ＰＣＭ再生装置は、一般に、ここでは『上位部分』と称される、一般に４４．１ｋＨｚ又は４８ｋＨｚの第２のサンプリングレートでサンプリングされたオーディオストリームの各サンプルの上位１６ビットのみを受け取り又は再生し、およそ０〜２０ｋＨｚの帯域幅で損失のある表現をリスナへ提供する。第２のデコーダは、同じ１６ビットの４４．１ｋＨｚ又は４８ｋＨｚストリームから、拡張された帯域幅が再生されることを可能にする。第１のデコーダは、一般に、２４ビットストリームを受け取り、かつ、各サンプルの『下位部分』へ、すなわち１６番目を超えるビットへもアクセスすることを見込んでいる。この追加情報は、８８ｋＨｚ又は９６ｋＨｚのような、第１の、より高いサンプリングレートで、そして０〜４０ｋＨｚのような、より広いオーディオ帯域幅を持つ、入力オーディオ信号の損失のない再生が提供されることを可能にする。

以下の説明では、復元出力又は復元信号が、修整出力又は修整信号として、より口語的な表現として参照されることがある。

好ましくは、第１の損失のある表現は、時不変のフィルタリング効果と、サンプリングレートの低減効果と、時不変のノイズフロアを課す再量子化効果とを除いて、入力デジタルオーディオ信号の正確な表現である。もしサンプリングレートの低減を伴う量子化を含む全ての量子化が、一定のビット深度に対してかつ適切なディザを伴って実行されるならば、『損失のある』表現は、ＣＤ品質と同等の標準的な表現であり得て、数年前にも『オーディオ愛好家』向けの再生と考えられたであろう。これは、スペクトル的なノイズフロアと時折入力信号に応じた帯域幅とを動的に採用する、伝統的な『損失のあるコーデック』と対照的である。

好ましくは、圧縮ユニットは、損失のある圧縮出力に結合された出力を持つ、損失のある圧縮ユニットを備える。

損失のない帯域分割器は、オリジナル信号スペクトラムの一般には二半部の取り扱いを分割し、下半部はＰＣＭとして伝達され、上半部は圧縮されたフォーマットで伝達されるための鍵である。

ある実施形態では、各上位部分は、１６バイナリビットからなる。ある実施形態では、各下位部分は、８バイナリビットからなる。

ある実施形態では、第２のサンプリングレートは、第１のサンプリングレートの半分である。特に好ましい第２のサンプリングレートは、４８ｋＨｚ及び４４．１ｋＨｚを含む。

本発明のエンコーダでは、第２のデコーダは、第１のサンプリングレートに対応するナイキスト周波数に等しいオーディオ帯域幅を再生し得る。あるいは、第２のデコーダは、第１のサンプリングレートに対応するナイキスト周波数の４分の３に等しい帯域幅を再生し得る。

「ナイキスト周波数」という用語は、デジタルシステムのサンプリングレートの半分を意味するものと、通常は理解されている。したがって、一般に、第１のサンプリングレートは９６ｋＨｚであり、第２のサンプリングレートは４８ｋＨｚであり、第１のサンプリングレートに対応するナイキスト周波数もまた４８ｋＨｚであって、第２のデコーダは、４８ｋＨｚであるナイキスト周波数までの信号の損失のある再生を提供する。他の構成は、第２のデコーダが３６ｋＨｚまでの損失のある再生を提供することを可能にする。その利点は、０〜２４ｋＨｚの範囲でノイズフロアが若干低い点にある。

ある実施形態では、圧縮ユニットは、損失のある圧縮ユニットに結合された入力と、復元出力に結合された出力とを持つ、損失のない圧縮ユニットを更に備える。損失のない圧縮器は、最下位ユニットにおけるビットの使用を最適化する。あるいは、もし修整出力が既に圧縮された形式又は『パックされた』形式であれば、別個の損失のない圧縮器は不要である。

下位部分は、帯域分割器の低周波数出力に応じても引き出され得る。これは、帯域分割器の低周波数出力の全体が上位部分中に伝達された場合よりも精密に量子化されたオリジナル信号を、第１のデコーダが損失なしで再生することを可能にする。

好ましくは、損失のない帯域分割器の低周波数出力は、上位部分に結合された第１の出力と、下位部分に結合された第２の出力とを持つ分割器に結合されている。好ましくは、分割器は、ノイズシェーピングフィルタを備える。分割器は、帯域分割器のＬＦ出力の量子化されかつ好ましくはノイズシェーピングされた表現を上位部分へ提供する。一方、その第２の出力は、量子化により除去された情報を第１のデコーダが再生することを可能にする。

ある実施形態では、上位部分の中の複数のビットは、損失のない帯域分割器の低周波数出力に結合された第１の入力と、損失のある圧縮ユニットの圧縮出力に結合された第２の入力とを持つ減算器の出力に応じて引き出されることが好ましい。上位部分は、第２のデコーダの動作をサポートするために、圧縮出力を含まなければならない。しかしながら、圧縮出力は、オーディオ信号ではなくでデータ信号であって、減算器の目的は、遺産装置により再生されたオーディオ信号への、このデータ信号の効果を補償することにある。

本発明の第２の観点によれば、第１の観点による損失のないオーディオエンコーダに結合されたノイズシェーパを備えた装置が提供される。通常、このノイズシェーパは、９６ｋＨｚで動作して、４８ｋＨｚのサンプリング周波数にて２４ビット出力ワードの制約下で、入力信号が損失なしで伝達されるように、エンコーダへの入力信号のワード幅を低減する。

本発明の第３の観点によれば、ウォーターマーク出力を供給する損失なしの可逆的なウォーターマークエンコーダに結合された、第１の観点による損失のないオーディオエンコーダを備えた装置が提供される。しかも、当該装置は、コンフィギュレーションパラメータに応じてエンコーディングを実行し、かつ、ウォーターマークエンコーダは、デコーダによる使用のためにウォーターマーク出力の中にコンフィギュレーションパラメータを埋め込む。

当該装置は、損失のないオーディオエンコーダの入力に量子化された信号を供給するノイズシェーパを更に備え得る。当該ノイズシェーパは、あるビット深度まで量子化し、コンフィギュレーションパラメータは、ビット深度を含む。また、当該装置は、下位部分の情報保持容量を超えないようにオーディオ品質を最大化するために、量子化のビット深度を選択する選択ユニットを更に備え得る。

このように、本発明は、高品質・広帯域幅信号がベースバンドＰＣＭ伝送チャンネルを介して伝達され得て、伝送チャンネルがトップ１６ビットを伝達するのみであっても良好な動作をし、エンコードされたストリームが、信号をベースバンドＰＣＭと解釈する遺産装置によりデコードされた際に、帯域制限されたオーディオの妥当な抽出を更に提供するシステムを提供する。

本発明の第４の観点によれば、対応する第１の観点のオーディオエンコーダにより第２のサンプリングレートで生成された複数の入力サンプルを有するＰＣＭ入力デジタルオーディオ信号を受け取るように構成されたオーディオデコーダが提供される。当該オーディオデコーダは、ＰＣＭ入力デジタルオーディオ信号から、第２のサンプリングレートよりも高い第１のサンプリングレートを持つ出力デジタルオーディオ信号を生成するように更に構成され、
出力デジタルオーディオ信号と比較信号との間の差違は、０〜５ｋＨｚの周波数範囲で、静的な統計でスペクトル的にシェーピングされたノイズであって、比較信号は、入力デジタルオーディオ信号から、フィルタリングの動作及び第１のサンプリングレートへのリサンプリングの動作により生成され、
出力デジタルオーディオ信号と第２の出力信号との間の差違は、０〜５ｋＨｚの周波数範囲で、静的な統計でスペクトル的にシェーピングされたノイズであって、第２の出力信号は、デコーダに送られるとき、各サンプルから下位部分を除去する以外はＰＣＭ入力デジタルオーディオ信号と一致する信号から作られ、
出力デジタルオーディオ信号は、エンコーダに提供されたデジタルオーディオ入力信号の正確なレプリカである。

したがって、第４の観点のデコーダは、第１の観点による対応するエンコーダとともに使用されることが意図されている。当該エンコーダの出力は、単純なＰＣＭ信号と解釈されたときに、スペクトル的にシェーピングされてはいるが時間とともに変化することのないノイズフロアのような、オーディオ愛好家の基準を満足し得る。デコーダは、出力信号を生成するために、フィルタリング動作、リサンプリング動作及び量子化動作を実行する。比較信号は、デコーダのフィルタリング動作及びリサンプリング動作を模倣することにより、ただしデコーダの量子化なしで高精度で、生成され得る。その結果、出力デジタル信号と比較信号との間の差違は、デコーダにより持ち込まれた量子化歪みを抜き出す。デコーダへの入力は、好ましくはオーディオ愛好家の基準を満足する信号であるので、比較信号もまたオーディオ愛好家の基準を満足し、よって比較信号と出力信号との間の差違は、オーディオ愛好家の基準を満足し、かつ、したがって静的な統計でスペクトル的にシェーピングされたノイズに等価である量子化歪みのみを含むことになる。このことは、聴取により、又はスペクトラムアナライザの使用により、テストされ得る。

本発明の第５の観点によれば、第２のサンプリングレートで複数の入力サンプルを有するＰＣＭ入力デジタルオーディオ信号を受け取り、かつ、それから、第２のサンプリングレートよりも高い第１のサンプリングレートを持つ出力デジタルオーディオ信号を生成するように構成されたオーディオデコーダが提供される。当該デコーダは、
高周波数入力と低周波数入力とを持ち、出力デジタルオーディオ信号を供給する、損失のない帯域合成器と、
損失のある入力と、復元入力と、出力とを持ち、出力は損失のない帯域合成器の高周波数入力に結合された伸張ユニットとを備え、
各入力サンプルは、上位部分と下位部分とを有し、
帯域合成器の低周波数入力は、上位部分に応じて引き出され、
伸張ユニットの損失のある入力は、上位部分に応じて、かつ下位部分から独立して引き出され、
伸張ユニットの復元入力は、下位部分に応じて、かつ上位部分から独立して引き出される。

帯域合成器及び伸張ユニットは、対応するエンコーダで実行された帯域分割動作及び圧縮動作を逆転させるために必要とされる。完全な損失のない再生は、完全な入力サンプルがデコーダに提供されることを要求するが、下位部分がない場合には損失のある再生をサポートすることも要求される。この理由から、伸張への損失のある入力はストリームの上位部分から送られ、帯域合成器への低周波数入力は実質的に上位部分から取られ、下位部分への依存は低周波数信号の分解能を改善するためのみであることもまた、要求される。

好ましくは、帯域合成器の低周波数入力は、上位部分の中に含まれる全ビットに応じて引き出される。上位部分は、損失のない帯域合成器へ高周波数入力を提供する伸張ユニットへ送られるビットを含む。したがって、低周波数入力を引き出す際には、これらのビットを除外するのが自然であろう。これらのビットは、上位部分を標準ＰＣＭデコーダでデコードする遺産リスナの耳に入る信号に影響を及ぼす。しかしながら、それらのビットが低周波数入力に寄与することを可能にすることが好ましい。エンコーダは、本発明のデコーダと標準ＰＣＭデコーダとの一致を結果としてもたらす態様で、『負の埋め込みデータ』の原理に従って他のビットを調整することにより、これらのビットを補償することができる。

好ましくは、帯域合成器の低周波数入力もまた、下位部分に応じている。このことは、下位部分がデコーダで使用可能である場合に改善されるように、その分解能の信号が帯域合成器の低周波数入力に提供されることを可能にする。

更に、出力デジタルオーディオ信号と比較信号との間の差違は、０〜５ｋＨｚの周波数範囲で、静的な統計でスペクトル的にシェーピングされたノイズであって、比較信号は、ＰＣＭ入力デジタルオーディオ信号から、フィルタリングの動作及び第１のサンプリングレートへのリサンプリングの動作により生成されることが好ましい。したがって、本発明の第４の観点に関して上記した利点の１つは、本発明の第５の観点により提供される利点と結合され得る。

好ましくは、オーディオデコーダは、対応するオーディオエンコーダにより生成された信号を受け取るように構成され、出力デジタルオーディオ信号は、対応するオーディオエンコーダに提供されたデジタルオーディオ入力信号の正確なレプリカである。

このように、第４の観点に関して上記した他の利点は、本発明の第５の観点により提供される利点と結合され得る。

当業者により評価されるように、本発明の損失のないオーディオエンコーダの他の採用も可能である。更に、他の観点によれば、対応するデコーダは、エンコーダとデコーダとを備えた通信システムと考えられる。

本発明の実施例を、添付の図面を参照しながら詳細に説明する。

（ａ）は単純な損失のある帯域幅拡張を持つ従来のエンコーダを示す図であり、（ｂ）は対応するデコーダを示す図である。（ａ）は改善された損失のある帯域幅拡張を持つエンコーダを示す図であり、（ｂ）は対応するデコーダを示す図である。（ａ）は単純な損失のある帯域幅拡張を持つノイズシェーパ及びエンコーダを示す図であり、（ｂ）は対応するデコーダを示す図である。（ａ）はリフティングを用いた損失のない帯域分割を示す図であり、（ｂ）は対応する帯域合成を示す図である。（ａ）は単純な二重の互換性を持つ損失のない帯域幅拡張を有するノイズシェーパ及びエンコーダを示す図であり、（ｂ）は対応するデコーダを示す図である。（ａ）は改善された二重の互換性を持つ損失のない帯域幅拡張を有するノイズシェーパ及びエンコーダを示す図であり、（ｂ）は対応するデコーダを示す図である。（ａ）はノイズシェーピングされた分割器を用いた、二重の互換性を持つ損失のない帯域幅拡張を有するノイズシェーパ及びエンコーダを示す図であり、（ｂ）はノイズシェーピングされた合成器を用いた、対応するデコーダを示す図である。（ａ）はノイズシェーピングされた分割器を示す図であり、（ｂ）は対応する合成器を示す図である。図７（ａ）のエンコーダの部分の他の構成と、ノイズシェーピングされた分割器とを示す図である。

損失のある帯域幅拡張
需要者オーディオのための商業的な「スケーラブル」伝送システムが、米国特許第６２２６６１６号明細書（You et. al.: “Sound Quality of Established Low Bit-Rate Audio Coding Systems without loss of Decoder Compatibility”）に掲載された。損失のある圧縮がなされたオーディオ信号を表すデータストリームを、標準ＳＰＤＩＦデジタルオーディオインターフェイスで転送され得る１６ビットワードへパッケージ化する確立したシステムから始めて、強化されたシステムは、より高いオーディオ品質を可能にするために、オリジナルシステムのために設計されたデコーダと互換性を持つ態様で、更に「拡張ストリーム」を同じフォーマットへパックするというオプションを提供する。しかしながら、ＰＣＭストリームを伝達するのにＳＰＤＩＦがしばしば用いられるが、この場合の『互換性』は、所有者デコーダの確立したインフラストラクチャに関するものであって、特別なデコーダなしにＰＣＭストリームを再生するために採用された装置に関するものではなく、このことが本発明の目的である。

図１（ａ）及び図１（ｂ）は、上記文献でＫｏｍａｍｕｒａが提案したスキームと同様の、ＰＣＭ互換性を持つ帯域幅拡張スキームを示している。図１（ａ）のエンコーダでは、帯域分割器３が、例えば９６ｋＨｚのレートでサンプリングされて潜在的に周波数範囲０〜４８ｋＨｚの情報を伝えるオリジナル信号２を受け取る。帯域分割器は、直交ミラーフィルタ（Quadrature Mirror Filter）のような既知の方法を使用して、各々低周波数０〜２４ｋＨｚの情報と高周波数２４〜４８ｋＨｚの情報とを伝える低周波数（ＬＦ）信号１５と高周波数（ＨＦ）信号２８とに信号２を分割する。ＬＦ信号とＨＦ信号との各々は、４８ｋＨｚで、すなわちオリジナルサンプリングレートの半分のレートでサンプリングされる。ＨＦストリームは、既知の方法を用いた損失のある圧縮４がなされて、少数ビット、例えば１、２又は３ビットを持つデータストリーム７となる。一方、ＬＦストリームは、切り捨てられ又はノイズシェーピング５がなされて、多数ビット、例えば１５、１４又は１３ビットを持つ信号６となる。図１（ａ）は、データストリーム７が３ビットを持ち、信号６が１３ビットを持つ例を示している。そして、図１（ａ）に示すように、２つのストリームからのサンプルを、１６ビットサンプル、つまりビットＢ_１〜Ｂ_１６を持つ単一の複合出力ストリーム８へパックするのが直接的である。１６ビット出力ストリームは、低いレート、例えば４８ｋＨｚのサンプルを含み、サンプルストリーム８の再生も可能な標準需要者装置を用いて転送されかつ格納され得る。

Ｋｏｍａｍｕｒａの提案は、損失のある圧縮の基礎としてＡＤＰＣＭ（Adaptive Differential Pulse Code Modulation）を用いる。Ｋｏｍａｍｕｒａは、２４ｋＨｚのレートでＨＦストリームの表現を提供するために、ＡＤＰＣＭユニットの前にダウンサンプラを置く。この表現は次に１サンプルあたり２ビットに圧縮され、当該２ビットはシリアル化されて４８ｋＨｚの１ビットストリームとなる。したがって、ＨＦ情報は最終１６ビット出力のうちの１ビットのみを占め、１５ビットのＬＦ分解能を可能にする。ダウンサンプリング自体は損失のある処理であるので、Ｋｏｍａｍｕｒａのダウンサンプラ及びＡＤＰＣＭユニットは、損失のある圧縮ユニット４であると考え得る。ダウンサンプリングの結果、デコーダは、４８ｋＨｚまでの、又は３６ｋＨｚまでの周波数の明瞭な再生を提供することができる。

図１（ｂ）は、図１（ａ）に対応するデコーダを示している。ここでは、ストリーム６及び７が、各々転送されたストリーム８のトップ１３ビットＢ_１〜Ｂ_１３及びボトム３ビットＢ_１４〜Ｂ_１６からアンパックされる。伸張ユニット９は、帯域分割器３によって作られたＬＦ信号１５及びＨＦ信号２８に実質的に同様のＬＦ信号及びＨＦ信号が帯域合成器１０に送られるように、圧縮ユニット４の動作を逆転させる。帯域合成器１０は、周波数範囲０〜２４ｋＨｚにおけるオーディオ品質が主としてノイズシェーパ５により制限され、かつ超音波範囲２４〜４８ｋＨｚでは圧縮ユニット４と伸張ユニット９との結合動作により歪みが持ち込まれる、出力信号１１を作るために、これら２つの信号を再結合させる。

デコーダを持たずにストリーム８をＰＣＭオーディオとして再生する『遺産』リスナは、主として帯域分割器からのノイズシェーピングされた（又は切り捨てられた）ＬＦ出力を耳にするが、これは、オリジナル信号２のダウンサンプリングされた低品質バージョンとして受け容れ可能であろう。しかしながら、圧縮されたＨＦ信号７を含むストリーム８の最下位３ビットは、遺産リスナのプレーヤのオーディオ出力にも寄与する。理想圧縮器の出力はノイズ様であって、そのほか冗長を含み、原理的には改善された圧縮を与えるように除去され得るものである。実用上は、音の歪みを除去して圧縮器の出力を真にノイズ様にするように、明示的スクランブルを提供することが必要であり得る。本明細書では、もし必要なら圧縮器４がそのようなスクランブルを内部に含むものとする。これにより、その出力が統計的に独立なバイナリビットからなることを保証する。

本明細書を通じた他の仮定は、圧縮及び伸張といった処理が瞬時的であることである。実用上は、これらの処理は信号ディレイを招く。したがって、並列信号パスにディレイ補償が持ち込まれなければならない。明瞭性のために、処理ユニットの正常な動作にとって便利であり又は必要である場合には、そのようなディレイ補償は図面から省略され、同様に図面はブロック中に信号サンプリングを組織化することを妨げない。

負の埋め込みデータを用いた帯域幅拡張
図２（ａ）では、損失のある圧縮器４の出力はデータ信号であるが、図１（ａ）に関して説明したように、それはオーディオ信号として遺産リスナの耳にも入る。このような二重解釈は、図２（ａ）にて認識される。つまり、ユニット１２は、実用上は存在しなくてもよいが、信号７がデータ信号とＰＣＭオーディオ信号との二重解釈を持つことを強調するために含められており、信号７は、オーディオ信号として解釈される場合には、右詰めされたものと考えられて、１６ビットワードのボトム３ビット、すなわちビットＢ_１４〜Ｂ_１６を占め、当該ワードの他のビットはゼロである。

したがって、オーディオ信号として解釈された信号７は、減算器１３へ送られる結果、ノイズシェーパ５は、出力ワード８のトップ１３ビットＢ_１〜Ｂ_１３に配置される、修飾された１３ビット信号６’を作るために、ＬＦ信号とは逆位相で信号７を受け取る。遺産リスナは、信号６’及び７の和である、ＰＣＭオーディオ信号として解釈された出力ワード８の全体を耳にする。したがって、遺産リスナは、完全なワード８のボトム３ビットを介して直接に、またワード８のトップ１３ビットにてノイズシェーパを介した逆位相で、圧縮器信号７を耳にする。したがって、これらの圧縮器信号７の２つの表現は、打ち消し合う。これは、M. A. Gerzon and P. G. Craven, “A High-Rate Buried Data Channel for Audio CD,” J. Audio Eng. Soc. Volume 43 Issue 1/2 pp. 3-22; February 1995に記載された『負の埋め込みデータ』の例である。

内部的には、ノイズシェーパ５は、１３ビット量子化器とノイズシェーピングフィルタとを含む。圧縮器からのノイズを打ち消すのと同様に、負の埋め込みデータは、１３ビット量子化器のための負のディザを提供する。加法性ノイズ以外の量子化歪みは、いまや１３ビットレベルではなく、１６ビットレベルである。１３ビットレベルにおける加法性ノイズは、ノイズシェーピングフィルタによりシェーピングされて、潜在的に２ビット以上の知覚的利点を提供する一方、負のディザは、従来のＴＰＤＦディザよりも４．７７ｄＢだけ小さいノイズを持ち込む。ゆえに、知覚されるパフォーマンスは、ＴＰＤＦディザを用いる１６ビットシステムのパフォーマンスと等価である。

対応するデコーダは、図２（ｂ）に示されている。このデコーダは、帯域合成器１０へのＬＦ入力が、トップ１３ビットのみではなくて１６ビット複合信号の全体から送られることを除いて、図１（ｂ）のデコーダと同様である。したがって、このＬＦ信号は、信号６’及び７の結合であり、遺産リスナの耳に入るものと同様であって、リスナは負のディザと同様の利点を享受する。

Ｇｅｒｚｏｎ及びＣｒａｖｅｎによる上記参考文献は、非整数ビットの他のデータをＰＣＭ信号のボトムビットの中に「埋め込む」方法をも記載している。特に、２チャンネル（ステレオ）ストリームの各チャンネルに半整数ビットを埋め込むのが直接的である。簡単のために、本明細書では整数を仮定するが、ここに記載した着想が非整数ビットの圧縮データとともに使用可能であることは明らかであろう。

損失のない帯域幅拡張 − 一般的検討
図３（ａ）及び図３（ｂ）は、各々単純な損失のない帯域幅拡張システムのためのエンコーダ及びデコーダを示している。図３（ａ）及び図３（ｂ）と図１（ａ）及び図１（ｂ）との間の構造的類似性は明白であるが、損失のない再生のための要求は、追加の制約を課し、かつ、損失のある場合には生じることのなかった、量子化の観点への注意深い配慮を必要とする。

損失のないシステムは情報を捨てることが許されないので、伝送チャンネルは、少なくとも伝達されるべき信号中の情報と同じ大きさの情報保持容量を持たねばならない。損失のない圧縮での経験は、１６ビット以上の分解能を持つ９６ｋＨｚオーディオ信号における冗長が一般に約８ビットであることを示唆している。したがって、１６ビットの９６ｋＨｚ信号は、１サンプルあたり８ビットのデータレートに圧縮され得る。そして、２４ビットの９６ｋＨｚ信号は、１６ビットに圧縮され得る。したがって、１６ビットの９６ｋＨｚ信号は、通常、１６ビットの４８ｋＨｚチャンネルを通じて転送され得る。しかしながら、それは互換性を持たない。なぜなら、最適に圧縮された信号は、ＰＣＭ信号として解釈された場合には、フルスケールのホワイトノイズとして現れるからである。ＰＣＭ互換性の要求は、ＰＣＭ信号中への冗長を課し、したがってより大きいワード幅を必要とする。

したがって、一般に、１６ビットの９６ｋＨｚ信号を１６ビットの４８ｋＨｚチャンネルへ損失なしでかつＰＣＭ互換性をもってパックすることは不可能である。また、一般に、２４ビットの９６ｋＨｚ信号を２４ビットの４８ｋＨｚチャンネルへ損失なしでかつＰＣＭ互換性をもってパックすることも不可能である。しかしながら、１６ビットの９６ｋＨｚ信号の、２４ビットの４８ｋＨｚチャンネルへの、ＰＣＭ互換性を持つ損失のないパッキングは、通常は実行可能である。

現在、『９６／２４』（すなわち，サンプリングレート９６ｋＨｚ、ビット深度２４ビット）が、ＣＤ（Compact Didc）の『４４／１６』からの次ステップとして広く認識されている。しかしながら、Ｇｅｒｚｏｎによって１９９５年に、ノイズシェーピングにとって９６ｋＨｚサンプリングが大いに有利であって、ＣＤで広く用いられてきた４４．１ｋＨｚシェーパよりも、高周波数ノイズスペクトラムにおける緩やかな上昇をもって大きい知覚的改善を可能にすることが現実化された。Ｇｅｒｚｏｎの９６ｋＨｚシェーパのための係数は、ほぼ５ビットの知覚的改善を提供するものであって、Acoustic Renaissance for Audio, “A Proposal for High-Quality Application of High-Density CD Carriers” private publication (1995 April); reprinted in Stereophile (1995 Aug.); in Japanese in J. Japan Audio Soc., vol. 35 (1995 Oct.); available for download at www.meridian- audio.com/araに与えられている。Ｓｔｕａｒｔは、人の聴覚能力を考慮した注意深い分析を提供しており（“Coding for High-Resolution Audio Systems” J. Audio Eng. Soc., Vol. 52, No. 3, 2004 March，特に図１６参照）、これから、ＴＰＤＦディザをもって（ただし、ノイズシェーピングなしで）２０．５ビットに適切に量子化された４４．１ｋＨｚサンプリングのデジタルシステムは、配布媒体としての十分なダイナミックレンジを常に提供する、ということが結論付けられよう。９６ｋＨｚサンプリングが採用される場合には、ノイズシェーピングされないときのノイズスペクトル密度が、更に３．４ｄＢだけ低減される。適切なノイズシェーピングを伴う１６ビットの９６ｋＨｚチャンネルは、配布フォーマットとして全面的に適切であって、ある余裕をもってオーディオ愛好家の要求を満足する、との結論付けが可能である。

したがって、情報理論の議論とともに音響心理学の議論を考慮すれば、２４ビットのような大きいビット深度を持ち得る９６ｋＨｚ入力信号を、１６ビットのような小さいビット深度へ再量子化することは、必要であり、かつ許容される。ゆえに、図３（ａ）には９６ｋＨｚノイズシェーパ１が示され、『Ａ』で識別される量子化された信号２を供給するように、不特定の分解能を持つ９６ｋＨｚ入力信号を、例えば１７ビットに再量子化する。帯域分割器３は、損失のない分割器であって、また１７ビットの低周波数出力１５と、１８ビットと表示された分解能を持つ高周波数出力２８とを作る。ただし、１８ビットの全てを与えることは、現実のオーディオ信号ではまれであろう。したがって、２４ビット出力ワード１６を仮定したとき、低周波数出力は出力ワード１６のうちの１７ビットＢ_１〜Ｂ_１７を占め、残る７ビットＢ_１８〜Ｂ_２４は、損失のない圧縮器１４で作られた、高周波数信号２８の損失なしで圧縮されたバージョンである。

図３（ｂ）のデコーダでは、損失のない伸張ユニット９が、高周波数信号２８のレプリカとして信号２８ａを再生する。そして、損失のない帯域合成器１０は、損失のない帯域分割器３により作られた信号１５及び２８と同様の信号を受け取り、その結果、信号２の損失のないレプリカとして、出力信号１１を再生することができる。したがって、信号１１もまた『Ａ』で識別される。

量子化は損失のある処理なので、図３（ａ）及び図３（ｂ）に示された全処理が損失のない処理ではあり得ず、損失がないのは、エンコーダ中の信号２からデコーダの出力１１までのパスである。したがって、図３（ａ）及び図３（ｂ）のエンコーダ及びデコーダにより提供される処理は、全体として、入力信号のノイズシェーピングされたバージョンを届ける。ここで、ノイズシェーピング１は、ディザを含みかつ一定のビット深度を持つオーディオ愛好家の基準を満足するように選択され得る。

「リフティング」を用いた損失のない帯域分割器及び帯域合成器
図３（ａ）及び図３（ｂ）の構成は、損失のない帯域分割器３及び帯域合成器１０を必要とする。ここで、『損失のない』とは、処理の中の量子化誤差を考慮に入れた、ビット的に正確な再生のことである。そのような損失のない帯域分割器及び帯域合成器を構成する方法はいくつかある。図４（ａ）及び図４（ｂ）に示されたものは、「リフティング」原理に基づくものである（Calderbank, Daubechies, Sweldon and Yeo: “Wavelet Transforms That Map Integers to Integers” Applied and Computational Harmonic Analysis, vol. 5, pp 332-369 (1998)，特にその図４及び図５参照）。

図４（ａ）の帯域分割器では、９６ｋＨｚのような『２ｘ』サンプリングレートでサンプリングされた入力ストリームが、各々４８ｋＨｚのような『１ｘ』サンプリングレートで奇数番サンプルと偶数番サンプルとの別個のストリームを作るためにデインターリーブされる。これら２つのストリームは、ほとんど又は全く共起関係にはなく、２ｘストリーム中のオリジナルの低周波数信号は、偶数ストリームに対する奇数ストリームにて、１ｘサンプルの半分だけ遅れて又は進んで現れる。

ここで、２つのリフティングステップが適用される。１つのリフティングステップは、ある信号の関数を他の信号に加算する。つまり、
Ｘ’＝Ｘ＋ｆ（Ｙ）
Ｙ’＝Ｙ
であって、これを単純に逆転させれば、
Ｘ＝Ｘ’ − ｆ（Ｙ’）
Ｙ＝Ｙ’
となる。これら２つの場合の間で関数ｆが正確に一致（状態変数の量子化又は初期化を含む。）するという条件では、損失がない。

図４（ａ）の第１のリフティングステップでは、『Ｘ』は奇数番サンプルのストリームで識別され、『Ｙ』は偶数番サンプルのストリームで識別される。奇数ストリームから偶数ストリームを引き算すると実質的に低周波数が打ち消されるが、最善の打ち消しのためには、半サンプルシフトの修正が必要である。したがって、偶数番サンプルに半サンプルディレイを適用したい。これは、偶数のタップを持つ対称ＦＩＲフィルタによって近似され得るが、それは因果的でなく、フィルタ『ｆ』は、実際には、あるｎに対して（ｎ＋１／２）サンプルディレイを実行し、奇数パスにはｎサンプルの補償ディレイが存在する。次式は、ｎ＝２で２．５サンプルのディレイを持つようなフィルタの例である。

１０〜２０タップの長さのフィルタが、『ＨＦ』ストリームを供給するのに妥当であり得る。このフィルタは、オリジナルスペクトラム、すなわち２４ｋＨｚよりもかなり低い周波数のうちのボトム側の半分のほとんどを、良好に阻止する。

２ｘストリームが９６ｋＨｚでサンプリングされるものと再び仮定すれば、オリジナルスペクトラムのトップ側の半分は、ともにデインターリーブユニットから逆位相で現れる偶数及び奇数ストリームの双方にて、０〜２４ｋＨｚにエイリアスを生じる。したがって、２４〜４８ｋＨｚの範囲のオリジナル信号は、第１のリフティング動作により振幅が２倍になり、１ｘのＨＦ出力は、潜在的に２ｘ入力の振幅の２倍の振幅を持つ。これは、図３（ａ）にてＨＦ出力２８が１７ビットではなくて１８ビットを持つものとして示されている理由である。

図４（ａ）中の第１のリフティングステップは、奇数サンプルストリームに影響を及ぼさず、その結果、奇数サンプルストリームは、オリジナルの２ｘスペクトラムのトップ側及びボトム側の両半部からの信号を、同程度に伝える。第２のリフティングステップの目的は、偶数ストリームからＨＦ出力を引き算することにより、オリジナルの高周波数情報を除去することにある。再び『半サンプルディレイ』フィルタ（実際にはｎ−１／２サンプル）が時間合わせのために必要とされるとともに、ＨＦ出力の２倍になった振幅を補償するために０．５をかける乗算が必要とされる。

図４（ｂ）は、図４（ａ）のリフティングステップの順序が逆転されることを、右から左への信号の流れで強調した、対応する帯域合成器を示す。１ｘサンプリングレートでの『奇数』及び『偶数』の結果は、２ｘサンプリングレートでオリジナルストリームを損失なしに再生するために、インターリーブされる。

２つのリフティング動作は、１対のストリーム（ＬＦ，ＨＦ）を供給する。このストリームでは、クロスオーバー近傍のＬＦストリームの正確な応答は理想的でなく、カットオフ前に若干上昇し得る。これが問題であると考えられる場合には、調整されたフィルタ構造とともに３つのリフティング動作を使用することで、問題を回避し得る。

各量子化Ｑ_１，Ｑ_２は、もし帯域分割器への入力が−１から＋１までの信号範囲を占める１７ビット信号である場合には、オリジナルのステップサイズ、例えば２^−１６に一致すべきである。図４（ａ）における帯域分割器のＬＦ出力及びＨＦ出力も、そのようなオリジナルのステップサイズに量子化される。

損失のない再生のため、デコーダ中の各量子化Ｑ_１，Ｑ_２は、エンコーダ中の対応ブロックと同様の動作、例えば両者とも切り上げ、又は両者とも切り下げという動作をしなければならない。

損失のない帯域幅拡張 − 単一の互換性
図３（ａ）に戻って、損失のない帯域分割器３に１７ビット入力が与えられるとき、その合計出力ビット数（半分のサンプリングレートで）は、１７＋１８＝３５ビットであって、これは、要求される２４ビット出力ワードに明らかに適合しない。

ＨＦ信号が潜在的に１８ビットの情報を含む一方、実用上、そのピークレベルは、「力強い」商業的録音であっても、理論最大値より３５ｄＢ以上も低い。損失のない圧縮がビット数を低減する手段として示されていることは、明らかである。損失のない圧縮器は、元来、可変のデータレートを作り出し、これは、実用上は、例えばＦＩＦＯ（First In First Out）バッファを用いたバッファリングにより平滑化される必要がある。一般に、帯域分割により作られたＨＦ信号は、標準オーディオ信号よりも「バースト的」に現れるので、バッファリングはより重要でさえある。明瞭性のために、図面にはここに必要なバッファが示されていないが、ＭＬＰ圧縮システムの場合と同様に、損失のない圧縮器及び伸張器の各々にそのようなバッファが組み込まれていることを仮定している。もちろん、ＦＩＦＯバッファリングはディレイを持ち込むので、時間合わせを維持するように、（ＬＦ信号パスのような）並列信号パスにて一定のディレイを加えることが必要である。ただし、再び明瞭性のために、そのような一定のディレイは図面から省略されている。

商業的な９６ｋＨｚ録音の９７０例からなるコーパスに基づくテストは、０．３秒のＦＩＦＯバッファで、複合ＬＦと損失なし圧縮ＨＦとの情報は、もし１５ビットと１８ビットとの間のビット深度に量子化されるならば、９７．６％のケースで２４ビットに適合することを示している。

したがって、一般には、異なる量子化深度でのエンコーディング試行は、各アイテムがエンコードされる際に使用されるべき最大の量子化深度を確立するのに用いられ得る。９６ｋＨｚ量子化を粗くすることは、複合情報により必要とされるビット幅を２つの方法で低減する、すなわち、
・直接には、ＬＦ信号が粗く量子化されるので、
・間接には、ＨＦ信号が、粗く量子化される結果、少ないビットからなるので、
ということが判る。

しかしながら、粗い量子化は、またＨＦ信号の中のシェーピングされたノイズを増加させる。これが重大な効果をもたらすかどうかは、ＨＦパスの信号中でノイズが、つまり時間とともに変化し得るものが、そしていかなる時点でも損失のないエンコーダのＦＩＦＯバッファ中に格納されたデータに寄与する各瞬間で異なるものが優勢であるかどうかにかかっている。経験的に、９６ｋＨｚ量子化を１ビットだけ粗くすることは、４８ｋＨｚでの複合情報を１．５ビットだけ低減し得ることが知られている。

１６ビットのオリジナル素材の場合、複合情報は、しばしば２４ビットに直接適合する。この場合には、図３（ａ）に示されている前段の量子化器は除去され得る。

既に示されているように、図３（ｂ）の『Ａ』で示されているデコーダの出力１１は、同じく『Ａ』で示されているエンコーダ中の信号２の、損失のないレプリカである。したがって、デコードされた出力１１を耳にしたリスナは、単に１６ビットのみへの量子化であっても２０ビット量子化又は２１ビット量子化と等価なノイズ密度を０〜７ｋＨｚの範囲で提供し得る、９６ｋＨｚノイズシェーパの利益を享受する。

デコーダを持たない『遺産』リスナは、ＰＣＭ信号として解釈されたエンコーダ出力を耳にする。したがって、主として帯域分割器のＬＦ出力が、しかし潜在的には損失のない圧縮器の出力もが、２４ビットワードのうちのボトムビットにてＰＣＭ信号として解釈される。既に言及したように、この出力は、それが未だノイズ様の信号でない場合には、ランダム化されなければならない。

また、遺産リスナは、図４（ａ）中の量子化器Ｑ_１及びＱ_２によって作られる量子化歪みを体験する。これらが帯域分割器のＬＦ出力に結合されているからである。これらの歪みは、ディザの使用により良性にされ、かつノイズシェーピングにより知覚的に低減され得る。しかしながら、損失のない再生を維持するため、図４（ｂ）のデコーダは、その量子化器Ｑ_１及びＱ_２にて同様のノイズシェーピングと同様の同期したディザとを用いなければならない。更に、ノイズシェーパが状態変数を有する場合には、デコーダ及びエンコーダで同様に、これらの変数を初期化することが必要であり得る。

二重の互換性：単純なアプローチ
図５（ａ）は、図３（ａ）及び図１（ａ）に示された着想を結合したエンコーダを示しており、次の３つの聴取オプションを提供する。すなわち、
・遺産リスナは、１ｘサンプリングレートで信号の１３ビット表現を耳にするが、図２（ａ）及び図２（ｂ）の、ノイズシェーピングの利益と負のディザの利点とは得られない、
・複合信号のトップ１６ビットのみにアクセスするリスナは、１３ビット表現の損失のある帯域幅拡張を享受するために、図１（ｂ）のデコーダを使用し得る、
・全２４ビットにアクセスするリスナは、『Ａ』点にて、すなわち９６ｋＨｚシェーパの結果として臨界的な周波数範囲０〜７ｋＨｚで１７ビット又は１８ビットの分解能をもって、１３ビット信号の完全な帯域幅を持つ損失のない再生を享受するために、図５（ｂ）のデコーダを使用し得る、
というオプションである。

信号『Ａ』が１３ビットに量子化されているので、帯域分割器３は、出力ワード１６のトップ１３ビットＢ_１〜Ｂ_１３に直接に適合する１３ビットのＬＦ出力１５を作るためにも構成され得る。ＨＦ出力２８は、損失のある圧縮４がなされ、かつ出力ワード１６の第１４〜第１６ビットＢ_１４〜Ｂ_１６へと桁合わせ１２がなされる。したがって、１６ビットリスナのために、出力ワード１６の上位部分８は、上記２つの黒丸により与えられるように、図１（ａ）にて１６ビットワード８が提供したのと同じデコーディングオプションを提供する。

２４ビットリスナのための損失のないエンコーディングをサポートするために、図５（ａ）のエンコーダと同様のエンコーダは、圧縮された信号２７を供給するように、ＨＦ信号２８の損失のない圧縮１４を提供し得る。そして、圧縮された信号２７は、出力ストリーム１６の下位部分１７、すなわちＢ_１７〜Ｂ_２４に位置する。しかしながら、エンコーダのために改善がなされて、図５（ｂ）のデコーダ中で使用される損失のある伸張ユニット９のレプリカ９’を組み入れ、損失のない圧縮ユニット１４に送られる『修整』信号を形成するようにユニット９’の出力を非圧縮のＨＦ信号２８から減算１８する。損失のある圧縮及び伸張の適切な設計があれば、減算１８は、損失のある圧縮された信号７が消耗するデータレートにほぼ等しい大きさだけ、圧縮された修整信号２７のデータレートを低減し得る。

図５（ｂ）のデコーダは、修整信号のレプリカを供給するように、圧縮されたストリーム２７を伸張１９し、その修整信号のレプリカは、エンコーダ中の減算１８を補償するために、損失のある伸張器９の出力に加算２０されて、帯域分割器出力２８のレプリカ２８ａを供給する。したがって、帯域合成器１０は、帯域分割器３からの信号１５及び２８と同じ信号１５及び２８ａの供給を受け、信号２の正確なレプリカ『Ａ』である出力１１を供給することができる。

一般に、図５（ａ）に示された伸張、減算、及び損失のない圧縮は、データレートが不十分であって、修整信号を直接に提供するための損失のある圧縮器を採用することにより、修整信号のよりコンパクトな表現が通常は引き出され得る。例えば、Ｙｕらは、損失のあるＭＰＥＧ４コーデックが、ＭＰＥＧ−ＳＬＳとして損失のない動作に、いかにして効率良く拡張されるかを示している（Yu, Geiger, Rahardja, Herre, Lin, and Huang: “MPEG-4 Scalable to Lossless Audio Coding”, Audio Eng. Soc. 117th Convention 2004 October 28-31 San Francisco, AES preprint # 6183）。

したがって、図６（ａ）では、これら全ての処理が単一の圧縮ユニット２１の内部で実行されることが仮定され、圧縮ユニット２１が効率良くパックされた修整信号を生成するので、別個の損失のない圧縮器の要求は生じない。逆の処理が図６（ｂ）中の伸張ユニット２２の内部で実行されることが同様に仮定され、伸張ユニット２２は、標準的な損失のある圧縮された信号７と修整信号とを入力として受け取る。

したがって、ある好ましくない実施形態では、圧縮ユニット２１は、図５（ａ）中の破線で囲まれた枠内に示された内部サブユニットを含み、同様に伸張ユニット２２は、図５（ｂ）中の破線で囲まれた枠内の内部サブユニットを含み得るが、これは次善の構成である。

図６（ａ）及び図６（ｂ）は、ＨＦ信号及びＬＦ信号の各々の量子化深度の間の異なる関係をも示している。９６ｋＨｚ量子化は１５ビットへの量子化であるが、損失のない帯域分割器のＬＦ出力１５は、単に１３ビットのみへ量子化され、一方のＨＦ出力は、１８ビットへ量子化される。このような量子化深度の不均等は、図５（ａ）の帯域分割器のＬＦ出力から最下位２ビットを取り、それらのビットをＨＦワードのボトムへ加えることにより達成され得る。より洗練された方法のためには、上記Ｃａｌｄｅｒｂａｎｋらの文献の２．３章“Different Expansion Factors for the High and Low Pass Channels”を参照されたい。この変更は１６ビットリスナの助けにはならないが、長いＨＦワードから引き出された修整信号が依然として８ビットに適合するように十分に圧縮されているならば、２４ビットリスナは、追加２ビットの分解能の利益が得られる。

本明細書及び図面では、１３ビット及び１５ビットのような９６ｋＨｚ量子化ビット深度が示されているが、それは単なる例示であって、それに限定することを意図したものではない。同じことは、９６ｋＨｚの周波数自体にも言える。同様に、損失のある圧縮出力として示された３ビットは例であって、より少ないビット数への圧縮が実用上は使用可能である。

改良された二重の互換性
図６（ａ）及び図６（ｂ）のスキームは、２４ビットリスナにとって優れたパフォーマンスを提供するが、遺産リスナにとって、またデコーダを持った１６ビットリスナにとっては、図２（ａ）のエンコーダを用いた場合よりもパフォーマンスが悪くなる。図６（ａ）及び図６（ｂ）は、図２（ａ）及び図２（ｂ）のスキームにより提供される、ＬＦ信号をノイズシェーピングする利点と、ＬＦ信号のための負のディザとして、圧縮されたＨＦ信号を使用する利点とを失うからである。図７（ａ）のエンコーダは、これらの利点を回復して、複合ワード１６の次の３つの聴取可能性を提供するように設計されている。すなわち、
・遺産リスナにより、そのプレーヤが上位部分８を標準１６ビットＰＣＭ信号として解釈する、
・リスナにより１６ビット上位部分のみが受け取られて、図２（ｂ）のデコーダが使用される、
・リスナにより全２４ビットが受け取られて、図７（ｂ）のデコーダが使用される、
という可能性である。

出力ワードの下位部分１７とそれを供給する信号パスとを削除し、ノイズシェーピングされた分割器５’をノイズシェーパ５に置き換えるならば、図７（ａ）のエンコーダは、図２（ａ）のエンコーダと等価になるという点に注意すべきである。したがって、図２（ａ）及び図２（ｂ）のスキームを参照して既になされた説明は、遺産であるか図２（ｂ）のデコーダを使用するかにかかわらず１６ビットリスナにも通用するので、これら２つの場合の正常なデコーディングが保証される。そこで、ここでは、リスナは複合ワードの全２４ビットを受け取るとの仮定のもとに、図７（ｂ）とともに図７（ａ）の動作に説明を集中することとする。

図７（ａ）の新規な特徴は、ノイズシェーピングされた出力６’と、ノイズシェーピング処理で除去された情報を含む『ＬＳＢ』信号２３とを提供するノイズシェーピングされた分割器５’である。信号２３は、出力ワード１６の下位部分１７のうちビットＢ_１７〜Ｂ_２０のいくつかへ導かれる。その結果、図７（ｂ）のデコーダでは、信号６’及び２３の双方が、ノイズシェーピングされた合成器２４にて使用可能となり、当該合成器２４は、信号２６のレプリカとして信号２６ａを再生する。信号７は、図７（ａ）のエンコーダ中の信号１５のレプリカとしてＬＦ信号１５ａを供給するために、信号２６ａに加算２５される。

図７（ｂ）中の伸張器２２は、図６（ｂ）の場合と同様に機能して、ＨＦ信号２８の損失のない再生であるＨＦ信号２８ａを提供する。したがって、損失なしで再生されたＬＦ信号及びＨＦ信号を受け、帯域合成器１０は、信号２の損失のないレプリカとして出力信号１１を再生することができる。

エンコーダは、複合ワードの上位部分８と下位部分１７との間でＬＦ信号１５の情報を分けるので、当該エンコーダは、図６（ａ）のエンコーダの場合よりも高精度の９６ｋＨｚ信号２を扱うことができる。図７（ａ）及び図７（ｂ）は、１７ビットを持つ信号２に対してシステムがどのように構成されるかを示している。信号２が１６ビットの場合には、信号２６も１６ビットを持ち、信号２３は３ビットを持ち、したがって『修整（パックされた）』信号２７は５ビットになる。信号２が１８ビットの場合には、信号２６も１８ビットを持ち、信号２３は５ビットを持ち、したがって『修整（パックされた）』信号２７は３ビットになる。

各々ノイズシェーピングされた分割器５’及び合成器２４は、種々の方法で実装され得る。図８（ａ）及び図８（ｂ）は、各々の例を提供する。

図８（ａ）では、１３ビット量子化器３１は、インパルス応答がゼロ遅延項を持たず、かつ伝達関数がＨ（ｚ）−１であるフィルタ３３を用いて、ノイズシェーピングされる。関数Ｈの最適化は、文献にて広く議論されてきた。Ｈ（ｚ）＝１−０．８８６ｚ^−１＋０．３９１ｚ^−２なるＨ（ｚ）が１つの選択であるが、更に多くの『アグレッシブな』シェーパが、２ビット以上の知覚的改善をもたらすものとして知られている。出力６’を作るためのサブユニット３０，３１，３２及び３３の動作もまた、広く議論されてきた。

標準的な実務では、フィルタ３３の出力が入力信号から直接に引き算される。しかしながら、ここでは、ノイズシェーピングが損失のある処理であるので、２４ビットデコーダがシェーパの効果を『元に戻す』ことができなければならない。図７（ｂ）を参照すれば、合成器２４は、いずれもエンコーダの分割器５’からの出力である、『ＭＳＢ』６’と『ＬＳＢ』２３との双方を受け取る。もしノイズシェーピングがなければ、合成器は、ＭＳＢとＬＳＢとを（適切に桁合わせしたうえで）加算することによって、信号２６を再生することができたであろう。もしノイズシェーピングからの信号修飾がＬＳＢの決定関数であるなら、合成器は、入力２６を再生することもできる。もしＨが、量子化された係数を持つ有限インパルス応答フィルタであるなら、当該修飾が決定的であるように準備することは、最も容易である。更に、このフィルタ３３の出力は、入力と同じビット幅に、すなわち図示のように１７ビットに量子化３６がなされるべきである。さもなければ、ＬＳＢ出力のビット幅は増加するであろう。更にまた、１７ビットレベルでのディザリングがなされない量子化歪みが遺産リスナ及び１６ビットリスナの耳に入る信号に持ち込まれることを回避するため、１７ビットへの量子化は、ディザリング３５がなされるべきである。このディザは決定的でなければならず、またディザ生成器３５，３５ａは、エンコーダとデコーダとの間で同期していなければならない。

これらの条件が与えられるなら、図８（ｂ）の合成器は、ユニット３３ａ，３４ａ，３５ａ，３６ａにて、『ＬＳＢ』信号２３から、図８（ａ）の分割器にてユニット３３，３４，３５及び３６により作られたノイズシェーピング修飾３８のレプリカ３８ａを作ることができる。加算器３２ａは、量子化器３’により信号３７から取り出された下位ビット２３を加算し、加算器３０ａは、減算器３０の効果を補償し、これにより信号２６のレプリカ２６ａを作る。

図７（ａ）及び図７（ｂ）に戻って、信号２のビット数が１６ビットよりも少ない場合には、システムは、次のようにして改善され得る。すなわち、ノイズシェーピングされた分割器５’は１６ビット入力２６を受け取るように構成され、その結果、その１６ビットのうちのボトムビットは、減算器１３により持ち込まれる符号が逆転される点を除いて、対応するボトムビットの圧縮された信号７のみを含み得る。図８（ａ）では、これらのビットもまた、分割器を通して伝播し、ノイズシェーピング修飾３８が引き算されている点を除いて、信号２３の中に現れる。ゆえに、その信号３８の情報を持つデコーダは、これらのビットを推論し得る。したがって、これらのビットは、信号７及び信号２３の両者において二重に、複合ワードへ効果的に提供される。このため、エンコーダは、信号２３から冗長なビットを除去するように変形され得る。このとき、デコーダは、除去されたビットを回復する。信号２が１５ビット信号の場合には、『ＬＳＢ』信号２３から最下位の１ビットのみがエンコーダにより除去され、その１ビットは、
− 図８（ｂ）中の信号３８ａの最下位ビット出力と、
− 図７（ｂ）中の信号７の最下位ビットと
の排他的ＯＲとして回復され得る。

この処理は、再帰的である。なぜなら、このようにしてある特定のサンプリング時に引き出された、回復された分割器ＬＳＢは、ノイズシェーピングフィルタ３３ａを通した伝播のゆえに、次のサンプリング時に信号３８ａに影響を及ぼすからである。したがって、ノイズシェーピングフィルタ３３及び３３ａの中の各々の状態変数が同じ値に初期化されることを、保証することが必要である。ストリームの開始時に、エンコーダ及びデコーダの双方にて、これらの変数をゼロに設定するのが自然であろう。

エンコードされた複合ワードのうちの下位部分の割り付けは、実装者の裁量による。例えば、シェーパからのＬＳＢとパックされた修整信号とは、全体動作にいかなる効果をも及ぼすことなく、交換され得る。図９は、破線で囲まれた枠内に示されたように、出力複合ワードの上位部分８を直接に提供する１６ビット信号２９を供給する分割器を組み入れた、エンコーダの関連部分を示している。解析により、図７（ａ）中の対応する要素１２，１３及び５’を図９に置き換えれば、複合ワード１６に何の変更もないことが判る。当業者ならば、ステップサイズが必ずしも正確な２のべき乗によらない量子化に、量子化１及び３１が置き換えられ得ることをも実現するであろう。この場合には、信号のうちのいくつかはバイナリでなくｎ値であって、最高効率のために、これらの信号は、複合ワードの中にエントロピ符号化がなされ得る。しかしながら、ＰＣＭ互換性のため、『ＭＳＢ』信号６’は、標準バイナリフォーマットにて整数として表現され、かつエントロピ符号化がなされないべきである。

ある状況にて、２０ビットオーディオなら伝達可能であるが、２４ビットオーディオは伝達不可能であるという事態を考慮すれば、三重の互換性を提供するとの要求もあり得る。すなわち、２４ビットリスナのための損失のない拡張された帯域幅再生を提供するだけでなく、遺産リスナと、デコーダを持つ１６ビットリスナと、デコーダを持つ２０ビットリスナとの間のバランスした利点をも提供するとの要求である。これは、２４ビット複合ワードのうちの下位部分の更なる細分と、既に説明した原理の更なる応用とによって、達成され得る。

本明細書における１６ビット及び２４ビットへの参照は、単に現在の実務で一般的なワード幅を反映したものであって、本発明は、これより長い又は短いワード幅の、異なるワード幅の値であっても、等しく好適に適用され得る。

以上を要約すれば、様々なデコーディングオプションとともにＰＣＭ互換性を持つストリームを提供するシステムを説明してきた。オリジナルの高サンプリングレート信号の損失のない再生を実現するためにはデコーダが必要であり、したがって遺産リスナに提供される信号は「損失のある」信号であると説明したが、損失のある信号への減縮は、時不変のフィルタリング動作と、サンプリングレート低減動作と、時不変のノイズフロアを課す再量子化動作とを用いるだけで、オーディオ愛好家仲間で「良性」であると称される態様で実行される。

Claims

第１のサンプリングレートで入力デジタルオーディオ信号（２）を受け取り、かつ、それから、複数のサンプル（１６）を有しかつ前記第１のサンプリングレートよりも低い第２のサンプリングレートを持つＰＣＭデジタルオーディオ出力を生成するように構成された、損失のないオーディオエンコーダであって、
前記複数のサンプル（１６）の各々は、上位部分（８）と下位部分（１７）とを持ち、
前記上位部分（８）と前記下位部分（１７）とは、いずれも、第１のデコーダが損失なしで前記入力デジタルオーディオ信号（２）を再生できるようにする情報を含み、
標準ＰＣＭストリームとして解釈されたとき、前記上位部分（８）は、低減された帯域幅を持つ前記入力デジタルオーディオ信号のバージョンの第１の損失のある表現を提供し、
前記上位部分（８）は、前記第１の損失のある表現の帯域幅よりも大きい帯域幅を持つ前記入力デジタルオーディオ信号の第２の損失のある表現を第２のデコーダが再生できるようにする情報を含み、
前記入力デジタルオーディオ信号（２）は、高周波数出力（２８）と低周波数出力（１５）とを持つ損失のない帯域分割器（３）に結合され、前記高周波数出力（２８）は、損失のある圧縮出力（７）と復元出力（２７）とを持つ圧縮ユニット（２１）に結合され、
前記上位部分（８）は、前記低周波数出力（１５）及び前記損失のある圧縮出力（７）に応じて引き出され、前記下位部分（１７）は、前記復元出力（２７）に応じて引き出されるオーディオエンコーダ。
請求項１記載の損失のないオーディオエンコーダにおいて、
前記第１の損失のある表現は、時不変のフィルタリングと、サンプリングレートの低減と、時不変のノイズフロアを課す再量子化とのうちの１つ以上のみにかけられた、前記入力デジタルオーディオ信号（２）の正確な表現であるオーディオエンコーダ。
請求項１又は２に記載の損失のないオーディオエンコーダにおいて、
各上位部分は、１６バイナリビットからなるオーディオエンコーダ。
先行する請求項のいずれか１項に記載の損失のないオーディオエンコーダにおいて、
各下位部分は、８バイナリビットからなるオーディオエンコーダ。
先行する請求項のいずれか１項に記載の損失のないオーディオエンコーダにおいて、
前記第２のサンプリングレートは、前記第１のサンプリングレートの半分であるオーディオエンコーダ。
請求項１〜５のいずれか１項に記載の損失のないオーディオエンコーダにおいて、
前記第２のサンプリングレートは、４８ｋＨｚであるオーディオエンコーダ。
請求項１〜５のいずれか１項に記載の損失のないオーディオエンコーダにおいて、
前記第２のサンプリングレートは、４４．１ｋＨｚであるオーディオエンコーダ。
請求項１〜７のいずれか１項に記載の損失のないオーディオエンコーダにおいて、
前記第２のデコーダは、前記第１のサンプリングレートに対応するナイキスト周波数に等しいオーディオ帯域幅を再生するオーディオエンコーダ。
請求項１〜７のいずれか１項に記載の損失のないオーディオエンコーダにおいて、
前記第２のデコーダは、前記第１のサンプリングレートに対応するナイキスト周波数の４分の３に等しい帯域幅を再生するオーディオエンコーダ。
先行する請求項のいずれか１項に記載の損失のないオーディオエンコーダにおいて、
前記圧縮ユニット（２１）は、前記損失のある圧縮出力（７）に結合された出力を持つ、損失のある圧縮ユニット（４）を備えたオーディオエンコーダ。
請求項１０記載の損失のないオーディオエンコーダにおいて、
前記圧縮ユニット（２１）は、前記損失のある圧縮ユニット（４）に結合された入力と、前記復元出力（２７）に結合された出力とを持つ、損失のない圧縮ユニット（１４）を更に備えたオーディオエンコーダ。
先行する請求項のいずれか１項に記載の損失のないオーディオエンコーダにおいて、
前記下位部分（１７）は、前記帯域分割器（３）の低周波数出力（１５）に応じて引き出されるオーディオエンコーダ。
先行する請求項のいずれか１項に記載の損失のないオーディオエンコーダにおいて、
前記損失のない帯域分割器（３）の低周波数出力（１５）は、前記上位部分（８）に結合された第１の出力（６’）と、前記下位部分（１７）に結合された第２の出力（２３）とを持つ分割器（５’）に結合されているオーディオエンコーダ。
請求項１３記載の損失のないオーディオエンコーダにおいて、
前記分割器（５’）は、ノイズシェーピングフィルタを備えたオーディオエンコーダ。
先行する請求項のいずれか１項に記載の損失のないオーディオエンコーダにおいて、
前記上位部分（８）の中の複数のビットは、前記損失のない帯域分割器（３）の前記低周波数出力（１５）に結合された第１の入力と、前記圧縮出力（７）に結合された第２の入力とを持つ減算器（１３）の出力に応じて引き出されるオーディオエンコーダ。
先行する請求項のいずれか１項に記載の損失のないオーディオエンコーダに結合されたノイズシェーパ（１）を備えた装置。
ウォーターマーク出力を供給する損失なしの可逆的なウォーターマークエンコーダに結合された、請求項１〜１５のいずれか１項に記載の損失のないオーディオエンコーダを備えた装置であって、
前記装置は、コンフィギュレーションパラメータに応じてエンコーディングを実行し、かつ、前記ウォーターマークエンコーダは、デコーダによる使用のために前記ウォーターマーク出力の中に前記コンフィギュレーションパラメータを埋め込む装置。
請求項１７記載の装置において、
前記損失のないオーディオエンコーダの入力に量子化された信号を供給するノイズシェーパを更に備え、
前記ノイズシェーパは、あるビット深度まで量子化し、前記コンフィギュレーションパラメータは、前記ビット深度を含む装置。
請求項１８記載の装置において、
前記下位部分の情報保持容量を超えないようにオーディオ品質を最大化するために、前記量子化のビット深度を選択する選択ユニットを更に備えた装置。
対応する請求項１記載のオーディオエンコーダにより第２のサンプリングレートで生成された複数の入力サンプル（１６）を有するＰＣＭ入力デジタルオーディオ信号を受け取るように構成されたオーディオデコーダであって、
前記オーディオデコーダは、前記ＰＣＭ入力デジタルオーディオ信号から、前記第２のサンプリングレートよりも高い第１のサンプリングレートを持つ出力デジタルオーディオ信号（１１）を生成するように更に構成され、
前記出力デジタルオーディオ信号と比較信号との間の差違は、０〜５ｋＨｚの周波数範囲で、静的な統計でスペクトル的にシェーピングされたノイズであって、前記比較信号は、前記入力デジタルオーディオ信号から、フィルタリングの動作及び前記第１のサンプリングレートへのリサンプリングの動作により生成され、
前記出力デジタルオーディオ信号と第２の出力信号との間の差違は、０〜５ｋＨｚの周波数範囲で、静的な統計でスペクトル的にシェーピングされたノイズであって、前記第２の出力信号は、前記デコーダに送られるとき、各サンプルから下位部分を除去する以外は前記ＰＣＭ入力デジタルオーディオ信号と一致する信号から作られ、
前記出力デジタルオーディオ信号（１１）は、前記エンコーダに提供されたデジタルオーディオ入力信号（２）の正確なレプリカであるオーディオデコーダ。
第２のサンプリングレートで複数の入力サンプル（１６）を有するＰＣＭ入力デジタルオーディオ信号を受け取り、かつ、それから、前記第２のサンプリングレートよりも高い第１のサンプリングレートを持つ出力デジタルオーディオ信号（１１）を生成するように構成されたオーディオデコーダであって、
前記デコーダは、
高周波数入力（２８ａ）と低周波数入力（１５ａ）とを持ち、前記出力デジタルオーディオ信号（１１）を供給する、損失のない帯域合成器（１０）と、
損失のある入力（７）と、復元入力（２７）と、出力（２８ａ）とを持ち、前記出力は前記損失のない帯域合成器（１０）の前記高周波数入力に結合された伸張ユニット（２２）とを備え、
各入力サンプル（１６）は、上位部分（８）と下位部分（１７）とを有し、
前記帯域合成器（１０）の前記低周波数入力（１５）は、前記上位部分（８）に応じて引き出され、
前記伸張ユニット（２２，９）の前記損失のある入力（７）は、前記上位部分（８）に応じて、かつ前記下位部分（１７）から独立して引き出され、
前記伸張ユニット（２２，１９）の前記復元入力（２７）は、前記下位部分（１７）に応じて、かつ前記上位部分（８）から独立して引き出されるオーディオデコーダ。
請求項２１記載のオーディオデコーダにおいて、
前記帯域合成器（１０）の前記低周波数入力（１５）は、前記上位部分（８）の中に含まれる全ビットに応じて引き出されるオーディオデコーダ。
請求項２１又は２２に記載のオーディオデコーダにおいて、
前記帯域合成器（１０）の前記低周波数入力（１５）もまた、前記下位部分（１７）に応じているオーディオデコーダ。
請求項２１〜２３のいずれか１項に記載のオーディオデコーダにおいて、
前記出力デジタルオーディオ信号（１１）と比較信号との間の差違は、０〜５ｋＨｚの周波数範囲で、静的な統計でスペクトル的にシェーピングされたノイズであって、前記比較信号は、前記ＰＣＭ入力デジタルオーディオ信号から、フィルタリングの動作及び前記第１のサンプリングレートへのリサンプリングの動作により生成されるオーディオデコーダ。
請求項２１〜２４のいずれか１項に記載のオーディオデコーダにおいて、
対応するオーディオエンコーダにより生成された信号を受け取るように構成され、
前記出力デジタルオーディオ信号（１１）は、前記対応するオーディオエンコーダに提供されたデジタルオーディオ入力信号（２）の正確なレプリカであるオーディオデコーダ。