JP2005535940A - スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置 - Google Patents

スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置 Download PDF

Info

Publication number
JP2005535940A
JP2005535940A JP2004531856A JP2004531856A JP2005535940A JP 2005535940 A JP2005535940 A JP 2005535940A JP 2004531856 A JP2004531856 A JP 2004531856A JP 2004531856 A JP2004531856 A JP 2004531856A JP 2005535940 A JP2005535940 A JP 2005535940A
Authority
JP
Japan
Prior art keywords
layer
scaling
bits
subscaling
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004531856A
Other languages
English (en)
Other versions
JP4043476B2 (ja
Inventor
ガイガー ラルフ
スポーラー トーマス
ブランデンブルク カールハインツ
ヘルレ ユルゲン
コラー ユルゲン
シューラー ゲラルド
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ. filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ.
Publication of JP2005535940A publication Critical patent/JP2005535940A/ja
Application granted granted Critical
Publication of JP4043476B2 publication Critical patent/JP4043476B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Discrete Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオおよび/またはビデオ情報を含む信号のスペクトルのスケーラブルエンコーディングのための装置であって、このスペクトルは2進スペクトル値を含み、この装置は、第1のサブスケーリングレイヤおよび第2のサブスケーリングレイヤを生成するための手段(102)を、エンコードされた信号を形成するための手段(106)に加えて含み、この形成手段(106)は、第1および第2のサブスケーリングレイヤが互いに別個にデコード可能なように、第1のサブスケーリングレイヤおよび第2のサブスケーリングレイヤを、エンコードされた信号中に含めるように実施される。フルスケーリングレイヤとは対照的に、1つのサブスケーリングレイヤは、バンド中の2進スペクトル値の一部の特定オーダのビットのみを含んでおり、その結果、サブスケーリングレイヤを付加的にデコードすることにより、より精密に制御可能で、より精密にスケーラブルな精度利得を達成し得る。

Description

本発明は、オーディオおよび/またはビデオエンコーダ/デコーダならびに、特に、スケーラビリティを有するエンコーダ/デコーダ手段に関する。
例えば、MPEGレイヤ3(MP3)またはMPEG AACのような最新のオーディオエンコーディング方法は、オーディオ信号のブロック方式の周波数表現を得るために、例えばいわゆる変形離散コサイン変換(MDCT)のような変換を用いる。そのようなオーディオエンコーダは通常、時間離散オーディオサンプリング値の流れを得る。オーディオサンプル値のこの流れは、例えば1024個または2048個のウィンドウ化されたオーディオサンプル値の1つのウィンドウ化されたブロックを得るためにウィンドウ化される。ウィンドウ化のために、例えば、サインウィンドウ(sine window)等のような様々なウィンドウ関数が用いられる。
ウィンドウ化された時間離散オーディオサンプル値は次に、フィルタバンクによりスペクトル表現に変えられる。原則的に、フーリエ変換、または特別な理由により、例えば高速フーリエ変換(FFT)または、実行されてきたように、MDCTのような前記フーリエ変換の変種が用いられる。フィルタバンクの出力におけるオーディオスペクトル値のブロックは次に、必要に応じてさらなる処理を受けることができる。上述のオーディオエンコーダであれば、オーディオスペクトル値の量子化が続き、この量子化段階は典型的には、量子化により導入される量子化ノイズが心理聴覚マスキング閾値以下に位置するように、すなわち「マスキング消去(masked away)」されるように選択される。量子化は、損失性エンコーディングである。さらなるデータ量削減を得るため、この量子化されたスペクトル値には次に、ハフマンエンコーディングによるエントロピーエンコーディングに付される。例えばスケールファクタ等のページ情報を追加することにより、格納または伝送し得るビットストリームが、ビットストリームマルチプレクサにより、量子化されエントロピー符号化されたスペクトル値から生成される。
オーディオデコーダにおいて、ビットストリームは、ビットストリームデマルチプレクサにより、符号化され量子化されたスペクトル値およびページ情報に編成される。エントロピーエンコードされた量子化スペクトル値は、量子化スペクトル値を得るために、最初にエントロピーデコードされる。次にこの量子化スペクトル値は、デコードされたスペクトル値を得るために逆量子化される。このデコードされたスペクトル値は量子化ノイズを含むが、このノイズは心理聴覚マスキング閾値以下に位置しており、従って聞こえることはない。これらのスペクトル値は次に、時間離散デコードされたオーディオサンプル値を得るために、合成フィルタバンクにより時間表現に変えられる。合成フィルタバンクにおいては、変換アルゴリズムとは逆の変換アルゴリズムが使用されなければならない。さらに、周波数−時間再変換後、ウィンドウ化は解除されなければならない。
良好な周波数選択性を得るために、最新のオーディオエンコーダは、典型的にはブロックオーバーラッピングを用いる。そのようなケースが図10aに示してある。最初、例えば2048個の時間離散オーディオサンプル値が取り出され、手段402によりウィンドウ化される。このウィンドウは、手段402を具体化したものであり、2N個のサンプル値のウィンドウ長を有し、その出力側において、2N個のウィンドウ化サンプル値のブロックを出力する。ウィンドウオーバーラッピングを達成するために、2N個のウィンドウ化サンプル値の第2のブロックが手段404により形成され、この手段は、単にはっきりさせるために、図10aにおいては手段402とは別個に表されている。しかしながら、手段404に入力される2048個のサンプル値は、第1のウィンドウに直ちに関連する時間離散オーディオサンプル値ではなく、手段402によりウィンドウ化されるサンプル値の後半を含み、さらに新たなサンプル値を1024個だけ含む。図10aにおいて、このオーバーラッピングが手段406により図式的に示されており、この手段は、50%程度のオーバーラッピングを引き起こす。次に、手段402により出力された2N個のウィンドウ化サンプル値および手段404により出力された2N個のウィンドウ化サンプル値の双方は、手段408および/または410によりMDCTアルゴリズムを受ける。手段408は、従来技術のMDCTアルゴリズムに従って、第1のウィンドウのためのN個のスペクトル値を出力するのに対し、手段410もN個のスペクトル値(ただし第2のウィンドウのための)を出力し、第1ウィンドウと第2ウィンドウとの間には50%のオーバーラップが存在する。
デコーダにおいて、図10bに示されるように、第1のウィンドウのN個のスペクトル値が手段412に供給され、この手段は、逆変形離散コサイン変換を実行する。同じことが、第2のウィンドウのN個のスペクトル値に当てはまる。これらのスペクトル値は手段414に供給され、この手段も逆変形離散コサイン変換を実行する。手段412および手段414の双方は、2N個のサンプル値を第1のウィンドウにおよび/または2N個のサンプル値を第2ウィンドウにそれぞれ供給する。
図10bにおいて、TDAC(TDAC=時間帯域標準化エイリアスキャンセル(time domain aliasing cancellation))として示される手段416は、2つのウィンドウがオーバーラップしている事実を考慮に入れる。特に、第1のウィンドウの後半の1つのサンプル値y1、すなわちN+kの指数を有するサンプル値は、第2のウィンドウの前半の1つのサンプル値y2、すなわちkの指数を有するサンプル値y2と合計され、その結果、出力側、すなわちデコーダにおいて、N個のデコードされた時間サンプル値が生じる。
加算関数と呼ばれることもある手段416の関数により、図10aにより概略的に示されるエンコーダ内で実行されるウィンドウ化が自動的に考慮され、その結果、図10bに示されるデコーダにおいて、どのような明確な「逆ウィンドウ化」も行われる必要がないことが理解されるべきである。
手段402または404により実施される関数をw(k)(指数kは時間を示す)とすると、2乗ウィンドウ重みw(N+k)に加算された2乗ウィンドウ重みw(k)(kは0からN−1)が1の2乗となるという条件が満たされなければならない。サイン関数の波形の前半をウィンドウ重みがたどるサインウィンドウが用いられれば、この条件は常に満たされる。なぜならば、サインの2乗とコサインの2乗とは、各角度について常に1の値という結果になるからである。
後のMDCT関数を有する図10aに示されるウィンドウ方法の1つの欠点は、ウィンドウ化が、サインウィンドウを考えた場合に、浮動小数点数を有する時間離散サンプル値の乗算により達成されるという事実である。なぜならば、0度から180度までの角度のサインは、90度の角度を除けば整数にならないからである。整数の時間離散サンプル値がウィンドウ化されたとしても、浮動小数点数はウィンドウ化後に生じる。
従って、たとえ心理聴覚エンコーダが1つも用いられないとしても、すなわちいかなる無損失エンコーディングも達成されないとしても、合理的に明確なエントロピーエンコード処理を実行できるように、手段408および/または410の出力において量子化が必要である。
従って、無損失オーディオエンコーディングのために図10aにより操作されたような周知の変換が使用されるのであれば、浮動小数点数の丸めに基づいて生じるエラーを無視できるように非常に精密な量子化が利用されなければならないか、それとも、そのエラー信号が、例えば時間領域中でさらにエンコードされなければならない。
第1の種類の概念、すなわち量子化が非常に精密に調整されているので、不動小数点数の丸めに基づいて、結果として生じるエラーが無視できるという概念が、例えば独国特許出願公開第DE19742201C1号に開示されている。ここでは、1つのオーディオ信号がそのスペクトル表現に変えられ、量子化されたスペクトル値を得るために量子化される。量子化されたスペクトル値は再び逆量子化され、時間領域に転送され、オリジナルのオーディオ信号と比較される。オリジナルのオーディオ信号と量子化/逆量子化されたオーディオ信号との間のエラーを意味するエラーがエラー閾値以上に位置すれば、量子化器はフィードバック的なやり方でより精密に調整され、比較が改めて実行される。エラーがエラー閾値以下になれば、反復は終了する。ことによると依然として存在している残留信号は、時間領域エンコーダでエンコードされ、ビットストリーム中に書き込まれる。このビットストリームは、時間領域エンコードされた残留信号に加えて、反復中断の時点で利用可能な量子化器設定に従って量子化されたエンコードされたスペクトル値も含んでいる。用いられる量子化器は心理音響モデルにより制御される必要がなく、その結果、エンコードされたスペクトル値は典型的には、心理音響モデルに基づいたときよりも、より正確に量子化されることが理解されるべきである。
技術刊行物「損失性および無損失のスケーラブルオーディオ符号化のデザイン(A Design of Lossy and lossless Scalable Audio Coding)」,T. Moriya et al, Proc. ICASSP, 2000には、スケーラブルエンコーダが記載されており、これは、第1の損失性データ圧縮モジュールとして、例えば、MPEGエンコーダを含んでおり、これは入力信号としてブロック方式デジタル波形を有し、圧縮されたビットコードを生成する。同じく存在するローカルデコーダにおいては、エンコーディングが省かれ、エンコード/デコードされた信号が生成される。この信号は、エンコード/デコードされた信号をオリジナルの入力信号から減算することによりオリジナルの入力信号と比較される。次にエラー信号は、第2のモジュールに供給され、そのモジュールでは無損失ビット変換が用いられる。この変換には2つのステップがある。第1のステップは、2の補数形式の値符号形式への変換である。第2のステップは、処理ブロックにおける垂直マグニチュードシーケンスの水平ビットシーケンスへの変換である。無損失データ変換は、できるだけ良好な時間エラー信号の圧縮を達成するように、信号の数を最大化したり、連続するゼロの数を最大化したりするように実行され、この圧縮は、デジタル数の結果として利用可能である。この原理は、ビットスライス算術符号化方式(Bit Slice Arithmetic Coding scheme)(BSAC方式)に基づくものであり、技術刊行物「Multi−Layer Bit Sliced Bit Rate Scalable Audio Coder」, 103. AES convention, pre−print No.4520, 1997に示されている。
上記のBSAC刊行物は、図8に示されるようなエンコーダをほぼ開示している。時間信号がブロック80に供給され、このブロックは、「ウィンドウ」および時間周波数変換で示される。典型的には、ブロック80においてMDCT(MDCT=変形離散コサイン変換)が利用される。その結果、ブロック80により生成されたMDCTスペクトル値は、2進形式の量子化されたスペクトル値を得るために、ブロック82において量子化される。ブロック82による量子化は、心理音響モデルを用いてマスキング閾値を計算する手段84により制御され、ブロック82における量子化は、量子化ノイズが心理音響マスキング閾値以下に留まるように実行される。ブロック85では、量子化されたスペクトル値は次に、量子化されたスペクトル値の等オーダのビットが1つのカラム中に整列されるように、ビット方式で配列される。ブロック86では、次にスケーリングレイヤが形成され、1つのスケーリングレイヤは1つのカラムに対応する。従って、1つのスケーリングレイヤは、量子化された全スペクトル値の等オーダのビットを含んでいる。続いて、各スケーリングレイヤは、算術エンコーディング(ブロック87)に連続的にかけられるのに対して、ブロック87により出力されたスケーリングレイヤは、それらの冗長的にエンコードされた形で、ビットストリーム形成手段88に供給され、この手段は、スケーリング/エンコードされた信号をその出力側に提供し、この信号は、個々のスケーリングレイヤのほかに、知られているようにサイド情報も含んでいる。
一般的に言えば、従来技術のスケーラブルBSACエンコーダは、心理音響的局面に従って量子化された全スペクトル値の最高オーダビットを取り、それらのビットを算術エンコーディングにかけ、次に第1のスケーリングレイヤとしてそれらをビットストリーム中に書き込む。典型的には、利用可能になる非常に大きいスペクトル値は非常に少ないので、「1」に等しい最高オーダビットを有する量子化されたスペクトル値は非常に少ない。
第2のスケーリングレイヤを生成するために、全スペクトル値の2番目に高いオーダのビットが取られ、算術エンコーディングにかけられ、次に第2のスケーリングレイヤとしてビットストリーム中に書き込まれる。この手順は、すべての量子化されたスペクトル値の最低オーダのビットが算術的にエンコードされ、最後のスケーリングレイヤとしてビットストリーム中に書き込まれるまでの回数繰り返される。
図9は、図8に示されるスケーラブルエンコーダにより生成されたスケーリング/デコードされた信号をデコードするためのスケーラブルデコーダを示す。最初に、スケーラブルデコーダは、ビットストリームデフォーマッティング手段90、スケーリングレイヤ抽出手段/デコーディング手段91、逆量子化手段92ならびに周波数領域/時間領域変換手段93を、デコードされた信号を得るために含んでおり、信号の品質は、手段91により選択されたスケーリングレイヤの数に比例して依存する。
詳細には、ビットストリーム変形手段は、ビットストリームをデパックし、サイド情報に加えて様々なスケーリングレイヤを提供する。最初に、手段91は第1のスケーリングレイヤを算術的にデコードし格納する。次に、第2のスケーリングレイヤが算術的にデコードされて格納される。この手順は、スケーリング/エンコードされた信号に含まれているすべてのスケーリングレイヤが算術的にデコードされて格納されるまでの回数繰り返されるか、あるいは、この手順は、制御入力94を介して要求される数のスケーリングレイヤがデコードされて格納されるまでの回数繰り返される。従って、各個別の量子化されたスペクトルラインについての2進パターンは連続的に生成され、2進形式で表されるこれらの量子化されたスペクトル値は、デコードされた信号を得るために手段93により時間領域に変換される必要がある逆量子化されたスペクトル値を得るためにスケールファクタ等を考慮して逆量子化92にかけられる。
デコード時、各スペクトル値について1つのビットがこのように各スケーリングレイヤと共に得られる。5つのスケーリングレイヤをデコードした後に利用可能になる各スペクトルラインについてのこれらのビットは、一番上の5ビットを含んでいる。その最上位ビットのみが第5の位置に来る非常に小さいスペクトル値の場合、このスペクトルラインのMSB(MSB=最上位ビット)は5つのスケーリングレイヤのデコーディング後に利用可能にならず、このスペクトルラインのより正確な表現のためには、さらなるスケーリングレイヤが処理される必要がある。
スペクトル値の2進表現−MDCTスペクトル値は、例えば振幅値である−は、各付加ビットが6dbのスペクトルラインについての精度利得を意味するという結果になる。
かくして、各付加スケーリングレイヤは、全スペクトル値の精度の6db増加という結果になる。
少なくともノイズの多い信号において、聴力のマスキング閾値が信号より約6db低いだけであることを考慮すると、ビット方式スケーリングは精度の点で問題となることが示され、このビット方式スケーリングは、従来技術のエンコーダ/デコーダ概念により提供され、特に、まさに聞かれようとしている信号部分の効率的エンコーディングのために、すなわち、例えば、心理音響的局面に従って量子化されたスペクトル値の低位ビットのために用いられる。
例えば、伝送チャンネル隘路状況に基づいて、図8のブロック88により出力されたスケーリング/エンコードされた信号の最下位スケーリングレイヤが伝送されなければ、これは6dbの精度損失という結果になり、この精度損失は、好ましくない配列において、デコードされた信号における明らかに可聴な干渉という結果になる。
より精細なスケーラビリティにより達成し得るスケーラブルエンコーディング/デコーディングのための概念を提供することが本発明の目的である。
この目的は、特許請求項1に従うスケーラブルエンコーディングのための装置、特許請求項17に従うスケーラブルデコーディングのための方法、特許請求項19に従うスケーラブルエンコーディングのための方法、特許請求項20に従うスケーラブルデコーディングのための方法または特許請求項21に従うコンピュータプログラムにより達成される。
本発明は、1つのバンド中のスペクトルラインの精度を向上させることにより、あたかもバンド全体における精度の通常の部分的向上(ただし、この精度向上はスケーリングレイヤのビット方式分割においてはできない)が実行されるかのように、周波数領域における心理可聴マスキング効果が生じるという考えに基づいている。本発明に従い、精密スケーリングの改善は、ビットレイヤをサブスケーリングレイヤに再分割することによって達成される。量子化された全スペクトル値の特定オーダのビットがまとめられてスケーリングレイヤを形成する従来技術とは異なり、このオーダのビットは本発明においては、第1のサブスケーリングレイヤにおいて、量子化されたスペクトル値の一部分のみにより、考慮されるバンド中のサブスケーリングレイヤとして用いられる。次のサブスケーリングレイヤは次に、第2のサブスケーリングレイヤを得るために、同じオーダのビットを、ただし今度は、第1のサブスケーリングレイヤにおけるものとは別の量子化されたスペクトル値から得る。
例えば、m=4量子化されたスペクトル値を有するバンドが考慮されるのであれば、現在の技術水準においては、特定のスケーリングレイヤが、考慮されるバンド中の4つのスペクトルライン全部の特定オーダのビットを含むであろう。次のスケーリングレイヤは再び、スケーリングレイヤからスケーリングレイヤへかけて、スペクトルラインあたり6dbの精度利得が結果として生じるように、すべての量子化されたスペクトルラインの特定オーダ−1の全ビットを含むであろう。
本発明に従って、決定されたスケーリングレイヤは、今度は最大m個のサブスケーリングレイヤに再分割される。第1のサブスケーリングレイヤはその場合、第1のスペクトルラインの特定オーダのビットのみを含み、第2、第3および第4のスペクトルラインのビットは全く含まないであろう。第2のサブスケーリングレイヤはその場合、第2の量子化されたスペクトルラインの特定オーダのビットを含むが、第1、第3および第4のスペクトルラインについてのビットは全く含まないであろう。同様に、第3のサブスケーリングレイヤは、第3のスペクトルラインの特定オーダのビットを含み、第4のサブスケーリングレイヤは、考慮されるバンドの第4のスペクトルラインの特定オーダのビットを含む。述べたように、マスキング効果は、バンド方式および非ライン的に生じるので、各付加サブスケーリングレイヤは、6/m dbの精度利得をもたらす。これは、考慮される例m=4において、各サブスケーリングレイヤが1.5dbの精度利得という結果になることを意味している。
1つのサブスケーリングレイヤ中で、1を超える量子化されたスペクトルラインの特定オーダのビットが同様に存在し得るということが理解されるべきである。考慮された例において、サブスケーリングレイヤが、2つの量子化されたスペクトルラインの特定オーダのビットを含んでいれば、サブスケーリングレイヤあたりの精度利得はもはや1.5dbではなく、3.5dbとなるであろう。一般的に言って、それらのビットが第2のサブスケーリングレイヤ中に存在する量子化されたスペクトル値の第2の数は、その数が1以上かつそのバンド中の量子化されたスペクトル値の総数未満となるように選択され、スペクトル値の第2の数はさらに、量子化された2進スペクトル値の第1の数の中には存在しておらず、そのビットは第1のサブスケーリングレイヤ中に存在している量子化されたスペクトル値の特定オーダのビットを少なくとも含む。
本発明に従って、次のサブスケーリングレイヤのためにどのスペクトル値が選択されるかに関して、様々な可能性の選択が存在する。聴覚マスキング閾値が、例えば、ライン中で提示されれば(例えば、6-db-ステップよりも精密)、エンコーダにおいて、これらのm本のスペクトルラインのどれがこれまで最も低精度であったあったかを正確に確かめることが可能である。
対照的に、聴覚マスキング閾値がバンド方式で表されれば(例えば、6−db−ステップ)、1つの新たなレイヤのエンコーディングの最初に、すなわち、新たなビットレイヤについてのサブスケーリングレイヤを生成する場合に、各スペクトルラインは、聴覚マスキング閾値に関して同じ精度で伝送される。サブレイヤ中のラインオーダを選択する場合、これまで伝送されてきたスペクトルラインの値を考慮できるようになる。例えば、小さいスペクトル値を有するスペクトルラインが後続のサブレイヤ中で最初にエンコードされれば、結果として生じる量子化エラーのより精密なスペクトル形成がもたらされる。
本発明の好ましい実施の形態において、サブスケーリングレイヤは心理音響的に量子化されたスペクトル値を用いて形成され、ビットの特定オーダは、m本のスペクトルラインを考慮されるバンド以上において一定であるサブスケーリングレイヤ中で処理される。心理音響的に量子化された2進スペクトル値の場合、心理音響的に透明なエンコーディングのためには、量子化されたスペクトル値のすべてのビットが伝送されなければならない。この場合、特に2進量子化されたスペクトル値の低オーダビットに関して、考慮されるサブスケーリングレイヤの数に応じて品質が緩やかに低下するデコーディングが可能になるように、より精細なスケーラビリティが有利である。
本発明の別の実施の形態においては、量子化されたスペクトル値は、心理音響的局面を考慮して量子化されるのではなく、量子化の前にコンピュータの計算精度の枠内で利用可能である。また、量子化されたスペクトル値は、“Audio Coding Based on Integer Transforms(整数変換に基づくオーディオ符号化)”111 AES Convention, New York, 2001, Geiger, Herre, Koller, Brandenburgに記載される整数MDCTを用いて生成されてきた。
IntMDCTは、例えば、オーディオ信号の良好なスペクトル表現、臨界サンプリングおよびブロックオーバーラッピングのような、MDCTの魅力的な特性を備えているので、特に好適である。述べたように、IntMDCTは無損失変換であり、すなわち、順方向変換の間の整数値への丸めは、逆方向変換における逆丸め演算により考慮でき、その結果、どのような丸めエラーも生じない。
従って、IntMDCTスペクトル値は、無損失な形で存在し、すなわち、それらのスペクトル値は、心理音響的局面を考慮して量子化されなかった。
心理音響マスキング閾値を基準にしたスケーリング演算については、各スペクトル値および/または各バンドについての心理音響マスキング閾値の最上位ビットを少なくとも決定すること、および−心理音響的に量子化されたスペクトル値の場合と同様に−絶対的なやり方で−ただし心理音響マスキング閾値の対応する最上位ビットを基準として、スケーリングレイヤ中におよび/またはサブスケーリングレイヤ中に入ることになる特定オーダのビットをもはや設定しないことが好ましい。従って、スケーリングレイヤ中のビットについての特定オーダは、例えば、スペクトル値のビットが、例えば、対応するスペクトル値についておよび/または−心理音響マスキング閾値のバンド方式の供給において−スペクトル値が位置するバンドについての心理音響マスキングレイヤのMSBより1大きいオーダを含むスケーリングレイヤ中でエンコードされるという点で、心理音響マスキング閾値を基準として定義される。心理音響的法則を考慮して量子化していないスペクトル値の場合、スケーリングレイヤを定義するための特定オーダは、従って、それぞれのスペクトル値について適切な心理音響マスキング閾値のMSBに関連した相対的オーダである。
本発明に従って、心理音響透明エンコーディング/デコーディングについては、心理音響マスキング閾値のMSBと同じオーダまたは心理音響マスキング閾値のMSBのオーダより高いオーダを有する個々のスケーリングレイヤまたはサブスケーリングレイヤ中の量子化されたスペクトル値のすべてのビットを伝送することが好ましい。
特に、量子化されたスペクトル値のビットを含むことになっており、心理音響マスキングレイヤの最上位ビットと同じオーダを含むスケーリングレイヤを定義する場合、言わば干渉の可聴性限界においてより良い精度を達成するように、サブスケーリングレイヤへの分類を実行することが好ましい。例えば、周波数領域全体または周波数領域の一部が、例えば、それぞれ4つのスペクトル値のバンドに再分割されれば、そして、サブスケーリングレイヤ中で伝送される結果として生じるすべてのバンドの1つのスペクトル値が常にあれば、各サブスケーリングレイヤによって1.5dbの精度増加が達成され得るであろう。
精密度スケーリングは、バンドのサイズを設定することによって自由に選択可能であることが理解されるべきである。例えば、8つのスペクトル値が1つのバンドにグループ化されれば、そして各サブスケーリングレイヤが、このバンドのスペクトル値のビットのみを含んでいれば、0.75dbの精密スケーリングが達成されるであろう。
1つのスケーリングレイヤをいくつかのサブスケーリングレイヤ、ただし互いに独立して抽出およびデコードし得るサブスケーリングレイヤに再分割するという本発明の概念の1つの利点は、この概念が、他のすべての既存のスケーラビリティオプションと共存できるという点にある。例として、低ビットレートでのオーディオ信号の音響的に適合させられたエンコーディングのために、残りのスペクトル値を十分な精度で表すことができるようにオーディオバンド幅の低減が大部分実行される、バンド幅スケーリングが言及されるべきである。このチャネル依存性バンド幅スケーリングは、例えば、サブスケーリングレイヤを用いるという本発明の文脈においても実施し得る。この目的のため、第1のレイヤにおいては、上限を有する周波数領域のみが考慮され、さらなるレイヤおよび/またはサブレイヤにおける精度の増大に伴い、これまでは考慮されていなかったより高い周波数領域がステップ方式に基づいてエンコードされる。
本発明のサブスケーリングレイヤの概念のさらなる利点は、この概念が、MPEG−4 BSACにおいても用いられる文脈依存性算術エンコーディングと共存できるという点にある。MPEG−4 BSACは、“Coding of Audio Visual Objects, Audio(オーディオビジュアルオブジェクトの符号化、オーディオ)”, International Standard 14496−3, 2 edition, ISO/IEC Moving Pictures Expert Group, ISO/IEC JTCI/SC29/WG11, 2001に記載されている。
デコーダ側で、量子化された値のどのような解釈も実行できるという点で、本発明の概念はさらに有利である。スペクトルのビットレイヤのすべてが伝送されなければ、各スペクトル値について、デコーダにおいて高オーダビットのみが利用可能になる。さらに、本発明の好ましい実施の形態において伝送される聴覚マスキング閾値を考慮し、および伝送されたビットレイヤの数を考慮して、このスペクトル値のいくつのビットが伝送されなかったかを決定することが可能である。このデータから、デコーダは、量子化されたスペクトル値を再構成しなければならない。このための妥当な可能性は、伝送されなかったビットをゼロで置き換えることであろう。従って、スケーリングレイヤを除去することにより、量子化プロセスは常に、より小さい絶対値への丸めという結果になる。しかしながら、このタイプの量子化は、最小可能平均量子化エラーという結果になる。平均量子化エラーは、この種類の量子化において、代わりのデコーダ再構成ストラテジーを用いることによって低減し得る。
本発明の好ましい実施の形態を添付図面に関連して以下で説明する。
図1aは、オーディオおよび/またはビデオ情報を含む信号のスペクトルをスケーラブルエンコードするための装置の概略ブロック図を示し、スペクトルは、バンドにグループ化されている2進スペクトル値を含む。オーディオおよび/またはビデオ信号の2進スペクトル値のバンドは、図1aのスケーラブルエンコーディング装置の入力100に供給される。バンド中の2進スペクトル値のグループ化は、どのようなやり方でも実行し得る。述べたように、本発明は、周波数領域におけるマスキング効果はスペクトル値方式ではなく、バンド方式に基づいて生じるという事実に基づいている。この理由から、バンド中の2進スペクトル値のグループ化を、心理音響的または心理光学的周波数グループが、例えば、2つ以上のバンドにグループ化されるように、例えば、周波数グループ(臨界バンド)を用いてまたは周波数グループよりも小さい、すなわち、周波数グループよりも小さいスペクトル値を含むバンドを用いて実行するのが好ましい。
オーディオおよび/またはビデオ信号の2進スペクトル値のバンドは、サブスケーリングレイヤを生成するための入力102に供給され、サブスケーリングレイヤを生成するためのこの手段102は、第1のサブスケーリングレイヤ、第2のサブスケーリングレイヤ、そして必要であれば、さらなるサブスケーリングレイヤを生成する。これらのサブスケーリングレイヤは、手段102から出力ライン104a、104b...に出力され、エンコードされた信号をスケーリングするための手段106に伝送され、エンコードされた信号を形成するための手段106は、第1および第2のサブスケーリングレイヤが互いに別個にデコードされ得るように、図1aに示される装置における出力108においてエンコードされた信号中に第1のサブスケーリングレイヤ(TSS)および第2のサブスケーリングレイヤを含めるように実施される。
サブスケーリングレイヤを生成するための手段102は、1つのバンド中の2進スペクトル値の第1の数の特定オーダのビットを用いて動作し、この第1の数は、1以上かつそのバンド中の2進スペクトル値の総数未満である。第2のサブスケーリングレイヤを生成するため、手段102は、2進スペクトル値の第2の数の特定オーダのビットを用い、2進スペクトル値の第2の数は、1以上かつバンド中の2進スペクトル値の総数未満となるように選択され、2進スペクトル値の第2の数は、これらの値が、2進スペクトル値の第1の数に含まれていない少なくとも1つの2進スペクトル値を含むように決定される。これは、各サブスケーリングレイヤは、もしそれがデコードされていれば、デコーダにおいて考慮されるバンドの少なくとも1つのスペクトル値が、このサブスケーリングレイヤが考慮されなかった場合よりも、高い精度で存在するという結果になることを意味している。
図1bは、スケーリングされエンコードされた信号を概略的ビットストリームとして示す。スケーリングされエンコードされた信号を表しているこのビットストリームは、最初にサイド情報110を含んでおり、このサイド情報は、BSAC基準により規定されるように実施し得る。次にこのビットストリームは、第1のスケーリングレイヤ111、第2のスケーリングレイヤ112および第3のスケーリングレイヤ114、第4のスケーリングレイヤ114、第5のスケーリングレイヤ115...を含んでいる。単に一例として、図1bに示されるスケーリング/エンコードされた信号において、第3のスケーリングレイヤ113は、113a〜113dで表される4つのサブスケーリングレイヤ(SSL)に再分割されている。さらに、単に一例として、第5のスケーリングレイヤも、サブスケーリングレイヤ、すなわち115a、115b、115c...に再分割されている。
第1のスケーリングレイヤ111は、例えば、絶対的にまたは、上記のように、オーディオおよび/またはビデオ信号のスペクトルのスペクトル値の心理音響マスキング閾値に関して、最高オーダのビットを含んでいる。完全なスケーリングレイヤとして、第2のスケーリングレイヤ112も、1だけ低いオーダを有するスペクトル値のビットを含んでいる。
全部で、第3のスケーリングレイヤは、2だけ低いスペクトル値のオーダのビットを含んでいるが、ただし、完全なスケーリングレイヤとしてではなく、これは完全にデコードできるだけであるが、−より精細な精密スケーリングのためには−互いに分離した4つの決定可能なサブスケーリングレイヤ113a、113v、113c、113dに再分割される。図1bに表されている例において、全スペクトル、すなわちスペクトル値の総数は、それぞれ4つのスペクトル値のバンドに再分割される。第1のサブスケーリングレイヤ113aは次に、バンドの1つの中の1つのスペクトル値のオーダのビットをそれぞれ含み、このオーダは3だけ低い。これに類似して、第2のサブスケーリングレイヤは、同じオーダの(ただし、個別のバンド中の他のスペクトル値の同じオーダの)ビットを含んでいる。第3のサブスケーリングレイヤ113cは、同じオーダの(ただし、再びバンド中の他のスペクトル値の同じオーダの)ビットを含んでいる。同じことが、第4のサブスケーリングレイヤについて当てはまる。4つのスペクトル値をそれぞれ含んでいるバンドが選択されれば、各サブスケーリングレイヤは、各バンドについてのスペクトル値の1つのビットを有する。これは、図1bに表される例における各サブスケーリングレイヤが、例えば第1のスケーリングレイヤ111または第2のスケーリングレイヤ112のような完全なスケーリングレイヤのように、ビットの数の4分の1の情報を含むことを意味している。
以下では、聴覚マスキング閾値と並行するビットレイヤにおける大きさ(マグニチュード)スペクトルの再分割を図2に示す。図2においてそれらのビットパターンにより表されているスペクトル値は、例えば、以下で詳細に説明されるIntMDCTにより得られるようなスペクトル値である。図2においてそれらのビットパターンにより表されている2進スペクトル値も、主に任意サイズの2進整数として表される、例えばFFTのような任意の時間領域/周波数領域変換アルゴリズムの結果であり得る。従って、図2において表されている2進スペクトル値は、まだ心理音響的局面を用いて量子化されていない。
さらに、図2において、聴覚の心理音響マスキング閾値は、0dbにおいて示された連続線としてプロットされている。
このスペクトル中の聴覚マスキング閾値の経路から、−聴覚マスキング閾値と並行して走る−ビットレイヤが結果として生じ、1つのビットレイヤへの1つのビットの帰属は、このビットの心理音響的/または心理光学的関連性を反映している。例えば、図2から、1において示されたスペクトル値が、聴覚マスキング閾値上方の2つのビットレイヤを占めるビットを含むことが分かる。対照的に、いっそう大きいスペクトル値5は、このスペクトル値が、聴覚マスキング閾値上方の3つのビットレイヤを占めているより高いオーダビットを含むという点で特徴付けられる。スペクトル値2、3、および4は、対照的に、聴覚マスキング閾値下方のビットレイヤ中に位置するビットを含んでいるだけである。
心理音響的透明性、すなわち量子化に基づいておよび/または低オーダビット「除外(leaving out)」に基づいた干渉の可聴性に関して、聴覚マスキング閾値は、0−db−ラインと呼ばれる。心理音響的に最上位のビットレイヤ、従って、図2に示される例における第1のスケーリングレイヤは、12db〜18dbのビットレイヤである。ここでは、番号5を有するスペクトル値だけが寄与している。従って、図1bの第1のスケーリングレイヤ107は、図2に示される例におけるスペクトル値5についての情報のみを含んでいるであろう。
6db〜12dbの第2のビットレイヤ、すなわち図2の第2のスケーリングレイヤ112は、第1のスペクトル値および第5のスペクトル値のビットについての情報を含んでいるのみで、他のスペクトル値のMSBがより下位のビットレイヤ中に位置しているので、他のスペクトル値についての情報は全く含んでいない。
図2に示される例において、第3のビットレイヤ113は、図2において0−db−ラインと+6−db−ラインとの間のビットを含んでおり、今度は、第6、第5、および第1のスペクトルラインについての情報のみを含んでおり、他のスペクトル値についての情報はやはり全く含んでいない。図2の例における第3のスケーリングレイヤが、完全なスケーリングレイヤとして処理されたら、第2スケーリングから第3のスケーリングレイヤへの精密漸変は、−第3のスケーリングレイヤなしでの−第1および第2のスケーリングレイヤのみのデコーディングが強い可聴干渉をまねくであろうという点で、非常に強いであろう。対照的に、第3のスケーリングレイヤの考慮は、どのような可聴干渉もほとんど生じないであろう。本発明に従って、この範囲内の漸変は、第3のスケーリングレイヤのサブスケーリングレイヤが形成されるという点で達成され、そこで、図2に示される状況では、例えば、m=5のバンド分割にもかかわらず、2つのサブスケーリングレイヤのみで十分であるがこれに対して、第1のサブスケーリングレイヤは、スペクトル値No.1の第2のオーダビットを含むのに対し、第2のサブスケーリングレイヤは、スペクトル値No.5の第3のオーダビットを含み、スペクトル値No.1およびスペクトル値No.5についてのサブスケーリングレイヤ中のこれらのビットは、マスキング閾値の最も重要度の低いビットに関して同じオーダを有している。
これらの事実をはっきりさせるために、以下では図3を参照する。図3は、図2における状況の詳細な表現を示しており、聴覚マスキング閾値は、図2において例示されるように、もはやその実際の値によってプロットされていないが、図3においては、その最上位ビットに関して表されている。
本発明に従って、心理音響的透明性については、どのような好ましくない事例も回避するためには、量子化されたスペクトル値の非常に多くのビットが、最後に伝送されたビットのオーダがこのスペクトル値に関連付けられたマスキング閾値の最上位ビットのオーダと対応するように、伝送されなければならないことが見出されている。言い換えれば、これは、あるスペクトル値に関連付けられたマスキング閾値のMSBよりも高いオーダを有するこのスペクトル値の全てのビットが、−もし同じものが存在すれば−伝送されなければならないこと、およびさらに、マスキング閾値のMSBと同じオーダを有するスペクトル値のビットも伝送されるべきであることを意味している。
本発明の精密スケーリングは、心理音響マスキング閾値に関して、すなわちスペクトル値に関連付けられたマスキング閾値のMSBと同じオーダを有するスペクトル値のビットについて特に興味深い。図3に示される図において、これらのビットは太線枠のボックスとしてプロットされている。
一般的に言って、ビットオーダは、図3において、MSBからMSB−1、MSB−2、MSB−3、LSB+2、LSB+1を越えてLSBまでを意味する垂直方向にプロットされている。しかしながら、図3における表現「MSB」は、特定のスペクトル値または心理音響マスキング閾値のMSBを示すのではなく、絶対MSB、すなわち、2進法における2の最大表現可能累乗である。
対照的に、図3に表されている太線枠のボックスにおいて、聴覚マスキング閾値のMSBは、1から6までのスペクトル値について表される。特に、各ボックスは、点線の対角線により再分割されており、スペクトル値のビットは対角線の上方にあるのに対して、対角線の下方には、このスペクトル値についてのマスキング閾値のビットがある。「1」で示されるビットは、1の値を有している。「ゼロ」で示されるビットは、「0」の値を有している。最後に、「x」で示されるビットは、値「0」または「1」を有している。従って、図3に示される例における第1のスケーリングレイヤおよび/または第1のビットレイヤは、スペクトル値5のビットMSB、スペクトル値4のビット「MSB−1」、スペクトル値3のビット「MSB−2」、スペクトル値2のビット「MSB−1」およびスペクトル値1のビットMSBを含む。従って、第1のスケーリングレイヤ中のビットの特定オーダは、マスキング閾値のMSBが位置するビットのオーダよりも3だけ大きい。
第2のスケーリングレイヤは次に、5、4、3、2、および1のスペクトル値について、ビット(MSB−1)、(MSB−2)(MSB−3)、(MSB−2)および(MSB−1)を含むであろう。第3のスケーリングレイヤは次に、再びスペクトル値5、4、3、2、および1について、ビット(MSB−2)、(MSB−3)、(LSB+2)、(MSB−3)、および(MSB−2)を含むであろう。サブスケーリングレイヤに分割されるのが好ましい第4のスケーリングレイヤは次に、図3の太線枠ビット、すなわち、再びスペクトル値5、4、3、2、および1について、(MSB−3)、(LSB+2)、(LSB+1)、(LSB+2)、および(MSB−3)を含むであろう。第1、第2、第3、および第4のスケーリングレイヤの伝送は、心理音響的透明性という結果になるのに対して、もし第4のスケーリングレイヤが除外されれば、6dbの精度損失がもたらされるであろう。
本発明に従って、第4のスケーリングレイヤは、例えば、5つのサブスケーリングレイヤに再分割され、各サブスケーリングレイヤにおいて、5つのスペクトル値を含むバンド中に、1つのスペクトル値についてのスペクトル値ビットが提供される。
従って、各サブスケーリングレイヤは、6db/(m=5)=1.5dbの精度利得をもたらす。
図3に示される実施の形態におけるデコーダにおけるビットレイヤの経路をトレースできるようにするために、聴覚マスキング閾値および/または心理音響的に重要なビット、すなわち聴覚マスキング閾値のMSB、のみの経路が、図1bのサイド情報110中でデコーダへ伝送される。
この目的のために、2つの選択肢が好ましい。これらの選択肢は、ライン方式表現およびバンド方式表現を含んでいる。
聴覚マスキング閾値は、その連続的経路のせいで、係数がほとんどないFIRフィルタ(有限インパルス応答フィルタ)の周波数応答によりまたは多項補間法によりライン方式で効率的に表現し得る。ここでは、各周波数応答について、聴覚マスキング閾値の個別の値が生成される。
バンド方式表現においては、聴覚マスキング閾値に基づく心理音響マスキング効果は、バンド方式に基づいて表現され得るという事実が言及され、バンド分割は、バークスケールに準拠することができ、好ましくは、バークスケールの改善を表す。このバンド方式表現は、例えば、MPEG−2 AACのような音響的に適合されたオーディオエンコーディングのための従来技術の方法においても用いられる。従って、聴覚マスキング閾値を表すためには、1つのバンドあたり1つの値を伝送すれば十分である。
すでに述べたように、図2および図3は、例えば、IntMDCTスペクトルにおいて同一の心理音響的重要性のビットレイヤの定義を表している。述べたように、ビットは、最も高いレイヤから始めてレイヤごとにエンコードされ、そして伝送される。聴覚マスキング閾値に対応するビットレイヤ(図3の太線枠のビット)に達すると、伝送された信号は心理音響的に透明である。さらなるビットレイヤの伝送は、すなわち、図3に表される太線枠のボックスの下方のビットの伝送は、精度を増大し、従って、聴覚マスキング閾値への安全距離を増大させる。最後に、すべての利用可能なビットが伝送されれば、この方法は、無損失的に働く。述べたように、算術エンコーディングは、好ましくは、伝送されたビットの冗長性低減のために用いられる。
デコーダ中で互いに別個に処理できる、本発明において用いられるサブスケーリングレイヤの基本原理の精密スケーリングの改善は、(聴覚マスキング閾値のMSBに関連して)聴覚マスキング閾値の上方、聴覚マスキング閾値の上および聴覚マスキング閾値の下方の領域において特に有利である。どのような精度スケーリングもなくても、IntMDCTスペクトルのビットのレイヤ方式伝送において6dbの精度増加が生じる。しかしながら、少なくともノイズの多い信号において、聴覚マスキング閾値が信号の約6db下方に位置していることを考慮すれば、6−db−ステップの精度のスケーリングは、可聴信号部分のみの効率的エンコーディングにとって粗すぎることが明らかである。
上記の1.5−db−ステップでの再分割は、4つのスペクトル値を有するバンドが用いられれば、そして各サブスケーリングレイヤ中に1つの単独スペクトル値が配置されれば、または、例えば、8つのスペクトル値を有するバンドが用いられかつ2つのスペクトル値が各サブスケーリングレイヤ中で考慮されれば、精度の適合に関しては、対応性は、MPEG-2 AACにおいても存在している1.5−db−ステップであるべきである。ここで、連続スペクトル値のバンド方式適応量子化は、20.25xnの形のスケーリングファクタにより行われる(nは、整数値とする)。nを1増加させると、量子化の精度は、MPEG-2 AACにおいて1.5dbだけ変化するであろう。
本発明の概念は、サブスケーリングレイヤ中のビットレイヤを再分割することにより精密スケーリングのこの改善をもたらし、1つのレイヤのm個のサブレイヤは、m個のサブレイヤ上のm本の隣接ラインを再分割することによって得られる。新たに伝送された各サブレイヤによって、精度は6/mdbだけ増加する。m=4については、1.5−db−ステップでの漸変も可能である。MPEG-2 AAC法における上記の量子化と対照的に、各サブレイヤにおける精度は、本発明の概念におけるm本のスペクトルラインの1つについてのみ増加する。心理音響マスキング効果は、ライン方式ではなく、バンド方式に基づいて周波数領域において生じるので、バンドあたりの同じ精度利得は、バンド全体において規則的に精度を増加させる時のように、スペクトルライン精度の増加させることによって得られる。
図4および5から、次のサブレイヤ中のm本のスペクトルラインのどれが改善されるかを選択する最良の形態を詳細に参照する。
図4は、聴覚マスキング閾値がライン方式に基づいて表されるケースを示している。聴覚マスキング閾値は、連続した線としてプロットされている。聴覚マスキング閾値のMSBは、「×印」の形でプロットされている。図4においては示されていない、上に位置するすべてのスケーリングレイヤのデコーディングは、スペクトル値1、2、3、および4が、「0」で表される精度で存在するように、すでに完了されている。従って、「0」で表される前に伝送されたビットは、デコーダにおけるスペクトルラインの精度を表している。エンコーダにおける前に処理されたスペクトル値の値を、このスペクトル値についての聴覚マスキング閾値の値と比較することにより、どのスペクトル値が最も不正確でないやり方で前に伝送されたかが直ちに明らかになる。図4に示される例においては、図4から容易に分かるように、この例はスペクトル値2を含んでいる。従って、第1のサブスケーリングレイヤは、スペクトル値No.2の次のビットを得る。
第2のサブスケーリングレイヤについての次のスペクトル値は、スペクトル値No.4である。次に第3のサブスケーリングレイヤについてのスペクトル値No.1が続き、最後に第4のサブスケーリングレイヤについてのスペクトル値No.3が続くはずである。
従って、符号化される次のビットは、前に処理されたスペクトル値の精度と聴覚マスキング閾値との間の最大差分を有する周波数ラインから決定される。
デコーダにおけるこのプロセスは、心理音響マスキング閾値の連続経路をこのデコーダが知っている限り、次にデコードされるサブスケーリングレイヤによりどのスペクトル値がさらに改善されるかを、どのような付加的サイド情報もなしで、このデコーダが見出し得るように、反転し得ることが理解されるべきである。
図5は、聴覚マスキング閾値のバンド方式表現のケースを示している。図5から、スペクトル値2、3、および4のビットを、次に処理されるサブスケーリングレイヤとみなし得ることが分かる。なぜならば、聴覚マスキング閾値と比較して、これらのビットは、最大の距離により同じものから離間されているからである。それとは対照的に、スペクトル値1の値は、聴覚マスキング閾値の近くにすでに配置されており、その結果、スペクトル値1は、必ずしも改良される必要はないが、スペクトル値2、3、および4は改善されなければならない。
原則として、スペクトル値2、3、4の各々は、次のサブスケーリングレイヤにおいて考慮できたであろう。しかしながら、すでにエンコーダにおいておよび/またはデコーダにおいて処理されたようなスペクトル値2、3、および4の絶対値が考慮されるという点で、ノイズシェイピング(noise shaping)が達成され得る。例えば、スペクトル値No.2が非常に大きいことを示す、スペクトル値No.2についての、例えば6つのより高いオーダのビットがすでに伝送されていることが判明すれば、これは、相対的に言って、このスペクトル値はすでに相当明確に表されていることを意味している。対照的に、例えば、1つの単独のより高いオーダのビットが伝送されている点でのみ、スペクトル値No.3がより小さいことが見出されれば、最初にスペクトル値No.3は、本発明に従って好ましいとされるように、サブスケーリングレイヤ中で、次にスペクトルNo.2中で処理される。この認識は、聴覚の印象についての相対的精度は絶対精度よりも重要であると想定されるという事実に基づいている。
図6は、本発明のエンコーダの全体ブロック図を示す。時間信号は、例えば、周波数領域に変換されたIntMDCT602によってエンコーダ中の入力600に供給される。これと並行して、図8に示される心理音響モデル84と同じ構造を主に含み得る心理音響モデル4が動作している。心理音響モデル84により計算されるマスキング閾値は、スケーリングレイヤの定義604を除けば、図8におけるように、今は量子化のために用いられない。特に、本発明の好ましい実施の形態において、手段84は、いわば図3において示される太線枠ボックスを決定するために、スペクトル値ごとかバンドごとにマスキング閾値のMSBを提供する。次に手段604は、(図3の太線枠ボックスの)マスキング閾値のMSBのオーダと関連するスケーリングレイヤを定義する。
スケーリングレイヤおよびサブスケーリングレイヤ双方が用いられる必要があれば、スケーリングレイヤを定義するための手段604は、サブスケーリングレイヤを生成するためおよび/またはスケーリングレイヤを生成するための手段132を制御する。図3に示される実施の形態において、手段102は、この手段が3つの完全なサブスケーリングレイヤを生成し、算術的にエンコードするための手段606にそれらを供給し、次に、そのオーダがマスキング閾値のMSBのオーダに等しいスペクトル値のビットに関する第4のレイヤのために、それらのビットを特定数のサブスケーリングレイヤに再分割するように動作する。サブスケーリングレイヤの算術エンコーディングの後、スケーリングレイヤおよびサブスケーリングレイヤは、図1bに示される構造を主に含み得るスケーリング/エンコードされた信号を得るために、ビットストリーム形成手段608によりビットストリーム中で生成される。
スケーリング/エンコードされた信号は、サブスケーリングレイヤ等からサイド情報を分離するために図1bに示されるビットストリームをデフォーマットする手段702を有する図7に示されるデコーダの入力700に供給される。次に抽出/エンコーディング手段704は、デコーダ側に置かれた図7に示されないメモリ中で、個別のスペクトル値のビットパターンが次々に蓄積できるように、スケーリングレイヤおよびサブスケーリングレイヤの算術エンコーディングを連続して実行する。
伝送されたスケーリングレイヤの数に応じておよび/または手段704中の制御入力における制御信号に応じて、デコーダは、さらなるスケーリングレイヤまたはサブスケーリングレイヤのデコードをそのうち停止する。エンコーダ側で生成されたすべてのスケーリングレイヤおよびサブスケーリングレイヤがビットストリーム中で伝送およびデコードされれば、無損失のエンコーディング/伝送/デコーティングが行われ、デコーダは、量子化された値のどのような解釈も実行する必要がない。無損失またはほとんど無損失のエンコーディング/伝送/デコーディングに続いて得られたスペクトル値は、逆方向変換手段706に供給され、この手段は、例えば、デコードされた信号を出力708において得るために、逆IntMDCT(IntMDCT-1)を実行する。例えば、伝送チャンネルに基づいて決定されたスケーリングレイヤまたはサブスケーリングレイヤが遮断されたり、デコーダが、その構造のせいで、すべてのスケーリングレイヤまたはサブスケーリングレイヤを処理できなかったり、特定数のスケーリングレイヤおよび/またはサブスケーリングレイヤのみを処理するために手段704が制御されたりすれば、本発明のデコーダは、前に利用可能であったスペクトル値ビットパターンの解釈を実行する。スペクトルのすべてのビットレイヤが伝送されなければ、デコーダ中の各スペクトル値について、より高いオーダビットのみが利用可能になる。
聴覚マスキング閾値および無損失のケースについてデコーダ中で全体で生成されたおよび/または全体で生成され得るビットレイヤの数が分かれば、今度そのデコーダは、いくつのビットレイヤが−従っていくつのビットが−各個別のスペクトル値について伝送されていないのかを決定する。これらのデータから、デコーダは、量子化されたスペクトル値を構成する。このための最も容易なアプローチは、伝送されなかったビットをゼロで置き換えるというものである。このケースでは、量子化プロセスは常に、より小さい絶対値への丸めという結果になる。
本発明に従って、平均量子化エラーをできるだけ小さく保つことが好ましい。これは、N. S. JayantおよびP. Noll:「波形のデジタル符号化(Digital coding of waveform)」,Prentice−Hall, 1984に記載されているような、いわゆる「Uniform Midrise Quantizer」を用いることにより達成される。この量子化器は、量子化において用いられる量子化間隔を据え置くが、量子化された値、すなわち量子化間隔の代表および従って特定の値による伝送されたビットの解釈をシフトする。量子化間隔の中心へのシフトが、例えば、ビットパターン「1 0 0 0...」を欠落ビットについて用いることにより達成される。スペクトル値の、欠落している低オーダビットについては、「0 0 0 ...」により表される「丸めビットパターン」とは区別されるビットパターンを量子化器中で再構成のために用いるのが一般に好ましい。言い換えれば、これは、再構成ビットパターンが、少なくとも1つの「1」を含むこと、および好ましくは、再構成ビットパターンの最重要ビットが「1」であることを意味している。
以下では、好ましい変換アルゴリズムとしてIntMDCTを含んでいる、図6に示されるエンコーダおよび図7に示されるデコーダの機能性に詳細に言及する。IntMDCT−スペクトルは、オーディオ信号のスペクトル整数表現を提供する。これと並行して、図6に示されるエンコーダにおける心理音響モデルは、聴覚マスキング閾値を計算する。述べたように、聴覚マスキング閾値は、連続する経路のために効率的にエンコードでき、例えば、FIRフィルタの係数または多項補間法によってビットストリーム中で伝送され得る。
各スペクトルラインについて、心理音響的に重要でない、すなわち、そのオーダがこのスペクトル値についての聴覚マスキング閾値のMSB未満であるスペクトル値のビットの数は、聴覚マスキング閾値に起因する。図3に関しては、これらは、太線枠のボックス下方のビットである。
同一の心理音響重要性のビットレイヤを、手段604により、周波数領域に沿って、例えば、依然として心理音響的に重要なビットのレイヤと並行して定義するために、整数スペクトル値の各マグニチュード値がビット方式に基づいて表され、より重要なレイヤにおける低オーダ周波数を優先するのが好ましい。これらのビットは、重要性レイヤに沿って、最重要ビットから並べられる。開始レイヤは、理論的最大値か、エンコードされた聴覚マスキング閾値の効率的にエンコードされたスペクトル包絡線か、聴覚マスキング閾値の、例えば、5ビットに相当する30dbの平行移動の結果もたらされる。
重要性の高いレイヤにおいて「1」が発生する見込みは非常に薄い。なぜならば、例えば、図2または図3のスペクトルライン5のような、聴覚マスキング閾値から大きく突出するスペクトルラインはほとんどないからである。下方のレイヤに向かって、「1」と会う確率は増加し、50%に近づく。このようにしてビットシーケンスが配置されると、ビット方式の算術エンコーディングを冗長性低減のために適用することが好ましい。
本発明の1つの局面において、MPEG−4 BSACにおけるように、スケーラビリティ領域は、心理音響透明性に関するだけでなく、無損失のエンコーディング/デコーディングに関しても拡張される。エンコードされたビットシーケンス全体および、対応する表現によって、スペクトル値の関連符号も伝送されれば、その実施の態様は、無損失ベースで動作するであろう。エンコードされたビットシーケンスの一部のみが伝送されれば、これはすでに散布度低減という結果になるであろう。エンコードされたビットシーケンスがかろうじて意味のあるビットのレイヤとして伝送されれば、この方法は、かろうじて透明モードで動作する。伝送されるビットがより少なければ、ビットレートの低下が生じ、これも、オーディオ/ビデオ品質の低下という結果になるであろう。
これらの心理音響的に重要なレイヤに加え、さらなるレイヤが伝送されれば、オーディオ信号(ビデオ信号)は、マスキング閾値までの付加的な安全距離によって表され、従って、後処理ステップに対するような大きな堅牢性を有するほとんど無損失の表現が可能になる。
透明性を達成するために必要とされるビット数は、ブロックごとに変動する。この情報が完全な無損失ビットストリーム中にエンコードされれば、この情報は、一定のビットレートを達成するためにビット割り当てを制御するために用い得る。この情報は正確に利用可能であり、どのような所望の一定のビットレートについても用い得る。従って、完全な無損失エンコードされたビットストリームから、音響的に適合されたエンコードされたサブビットストリームを、各々の指定された一定のビットレートについて取ることができ、前者は、局所的に変動するビットレートの機能性を用いる。
最後に、透明性を達成するために必要とされる、サイド情報におけるビットレイヤの伝送により、この値を、実際に伝送されたビットレイヤの数と比較することによってサブビットストリーム中で伝送された現在のオーディオ品質の制御が可能になる。
整数変換アルゴリズムの1つの例として、以下では、“Audio Coding Based on Integer Transforms(整数変換に基づくオーディオ符号化)”111th AES Convention, New York, 2001に記載されるIntMDCT変換アルゴリズムを参照する。IntMDCTは、例えば、オーディオ信号の良好なスペクトル表現、臨界サンプリング、およびブロックオーバーラッピングのようなMDCTの最も魅力的な特性を提供するので、特に有利である。
図11は、IntMDCT整数変換アルゴリズムがそれに頼って動作する整数値を得るために、オーディオ信号を表している時間離散サンプル値を処理するための本発明の好ましい装置についての概要図を示す。時間離散サンプル値は次に、図11に示される装置によってウィンドウ化され、必要に応じてスペクトル表現に変換される。入力10においてこの装置に供給される時間離散サンプル値は、変換および特に整数DCTを実行するための手段14のための手段を用いてスペクトル表現に変換されるのに適した整数ウィンドウ化されたサンプル値を出力12において得るために、2N個の時間離散サンプル値に対応する長さを有するウィンドウwでウィンドウ化される。整数DCTは、N個の入力値からN個の出力値を生成するように実施され、これは、MDCT式に基づいて2N個のウィンドウ化されたサンプル値からN個のスペクトル値を生成するにすぎない図10aのMDCT機能408とは対照的である。
時間離散サンプル値をウィンドウ化するために、2つの時間離散サンプル値が最初に手段16において選択され、これらのサンプル値は一緒に時間離散サンプル値のベクトルを表す。手段16により選択された1つの時間離散サンプル値は、ウィンドウの第1の四半分中に置かれる。他の時間離散サンプル値は、図13によってより詳細に示されるように、ウィンドウの第2の四半分中に置かれる。手段16により生成されたベクトルは、今度は次元2×2の回転行列を提供され、この演算は、直ちに実行されるのではなく、いくつかのいわゆるリフティング行列(lifting matrices)によって実行される。
リフティング行列は、ウィンドウ wに依存し「1」または「0」に等しくない1つの要素のみを含むという特性を有している。
リフティングステップへのウェーブレット変換の因数分解は、技術刊行物「Factoring Wavelet Transforms Into Lifting Steps(リフティングステップへのウェーブレット変換の因数分解)」, Ingrid Daubechies and Wim Sweldens, Preprint, Bell Lboratories, Lucent Technologies, 1996に示されている。一般に、リフティング方式は、同じ低パスまたは高パスフィルタを含む完全な再構成フィルタペア間の単純な関係である。相補的フィルタの各ペアは、リフティングステップに因数分解し得る。特に、これはギブンズ回転にあてはまる。多相行列がギブンズ回転であるケースを考えよう。その場合は、以下の式が有効である:
Figure 2005535940
等号の右の3つのリフティング行列の各々は、主対角線要素として値「1」を有している。さらに、各リフティング行列において、1つの補助対角線要素は0に等しく、1つの補助対角線要素は、回転角αに依存する。
このベクトルは、第1の結果ベクトルを得るために、今度は、第3のリフティング行列、すなわち上記の式の一番右のリフティング行列を掛けられる。これは、図11の手段18により表されている。本発明に従って、第1の結果ベクトルは今度、図11において手段20により表されるように整数の量の中の実数の量をマッピングする任意の丸め関数により丸められる。手段20の出力において、丸められた第1の結果ベクトルが得られる。丸められた第1の結果ベクトルは今度、これに中間、すなわち第2のリフティング行列を掛けて第2の結果ベクトルを得るために手段22に供給され、この第2の結果ベクトルは、丸められた第2の結果ベクトルを得るために手段24において再び丸められる。この丸められた第2の結果ベクトルは今度、これに上記の式の左側に示されるリフティング行列、すなわち第1のリフティング行列を掛けて第3の結果ベクトルを得るために手段26に供給され、この第3の結果ベクトルは、出力12において整数ウィンドウサンプル値を最終的に得るために、手段28により最終的にもう一度丸められ、この整数ウィンドウ値は今度、スペクトル出力30において整数スペクトル値を得るためにこれのスペクトル表現が望まれれば、手段14により処理されなければならない。
好ましくは、手段14は、整数DCTまたは整数DCTとして実施される。
長さNを有するタイプ4に従う離散コサイン変換(DCT−IV)は、以下の式により与えられる:
Figure 2005535940
DCT−IVの係数は、正規直交N×N行列を形成する。各直交N×N行列は、技術刊行物「Multirate Systems And Filter Banks(マルチレートシステムおよびフィルタバンク)」,Prentice Hall, Englewood Cliffs, 1993に示されるように、N(N−1)/2個のギブンズ回転に分解し得る。さらなる分解も存在することが理解されるべきである。
様々なDCTアルゴリズムの分類に関しては、H.S. Malvar,「Signal Processing With Lapped Transforms(ラップされた変換を用いる信号処理)」,Artech House, 1992を参照するべきである。一般に、DCTアルゴリズムは、それらの基底関数のタイプによって区別される。本発明において好ましいとされるDCT−IVは、非対称基底関数、すなわち、コサイン4分の1波、コサイン3/4波、コサイン5/4波、コサイン7/4波等を含んでいるのに対して、例えば、タイプIIの離散コサイン変換(DCT−II)は、軸対称および点対称基底関数を有している。第0の基底関数は、直接成分を有し、第1の基底関数は半コサイン波であり、第2の基底関数は全コサイン波であり、以下同様である。DCT−IIが直接成分を特に考慮するという事実のため、同じものが、ビデオエンコーディングにおいて用いられるが、オーディオエンコーディングにおいては用いられない。なぜならば、オーディオエンコーディングにおいては、ビデオエンコーディングとは対照的に、直接成分が関係しないからである。
以下では、ギブンズ回転の回転角αが窓関数にどのように依存するかについて特に言及する。
2Nのウィンドウ長を有するMDCTは、長さNを有するタイプIVの離散コサイン変換に還元し得る。これは、時間領域においてTDAC変換を明示的に実行し、次にDCT−IVを適用することにより達成される。50%オーバーラップにおいては、ブロックtのためのウィンドウの左半分が、先行ブロック、すなわちブロックt−1の右半分と重なる。連続する2つのブロックt−1およびtのオーバーラップ部分は、時間領域において、すなわち、変換の前に以下のように前処理され、すなわち、図11の入力10と出力12との間で処理される:
Figure 2005535940
波形符号を付した値は、図1の出力12における値であるのに対して、上記の式において波形符号が付してないx値は、選択されるべき入力10におけるおよび/または手段16の後の値である。作動インデックスkは、0〜N/2−1であるのに対して、wは、窓関数を表している。
窓関数wのためのTDAC条件から、以下の関連が有効である:
Figure 2005535940
特定の角度αk(k=0,...,N/2−1)については、時間領域におけるこの前処理は、述べたようにギブンズ回転として書き得る。
ギブンズ回転の角度αは、以下のように窓関数wに依存する:
(数5)
α=arctan[w(N/2−1−k)/w(N/2+k)]
このTDAC条件が果たされる限り、任意の窓関数wを用い得ることが理解されるべきである。
以下では、カスケード式エンコーダおよびデコーダを図12により説明する。1つのウィンドウにより一緒にウィンドウ化される時間離散サンプル値x(0)〜x(2N−1)は、サンプル値x(0)およびサンプル値x(N−1)、すなわちウィンドウの第1の四半分のサンプル値およびウィンドウの第2の四半分のサンプル値が、手段16の出力においてベクトルを形成するように、図11の手段16により選択される。交差している矢印は、DCT−IVブロックの入力において整数ウィンドウサンプル値を得るために、手段18、20および/または22、24および/または26、28のリフティング乗算およびその後の丸めを概略的に表している。
第1のベクトルが、上記のように、処理された場合、第2のベクトルが、サンプル値x(N/2-1)およびx(N/2)から、すなわち、再びウィンドウの第1の四半分のサンプル値およびウィンドウの第2の四半分のサンプル値からさらに選択され、図1に記載されるアルゴリズムによって処理される。これに類似するものとして、ウィンドウの第1および第2の四半分の他のすべてのサンプル値ペアが処理される。同じ処理が、第1のウィンドウの第3および第4の四半分について実行される。2N個のウィンドウ化された整数サンプリング値は今度、出力12に存在し、図12において示されるように、DCT−IV変換へ供給される。特に、第2および第3の四半分の整数ウィンドウ化されたサンプル値がDCTに供給される。ウィンドウの第1の四半分のウィンドウ化された整数サンプル値は、先行DCT−IVにおいて、先行ウィンドウの第4の四半分のウィンドウ化された整数サンプル値と一緒に処理される。これに類似するものとして、図12のウィンドウ化された整数サンプル値の第4の四半分が次のウィンドウの第1の四半分と一緒にDCT−IV変換において供給される。図12に示される中間の整数DCT−IV変換32が今度は、y(0)〜y(N−1)のN個の整数スペクトル値を提供する。本発明のウィンドウ化および変換は整数出力値を提供するので、これらの整数スペクトル値は、どのような中間量子化も必要とすることなく、そのままエントロピーエンコーディングにかけることができる。
図12の右半分にデコーダが示されている。再変換および逆ウィンドウ化で構成されるこのデコーダは、エンコーダとは逆に作動する。DCT−IVの逆変換のために、図12に示されるように、逆DCT−IVを用い得ることが知られている。図2に示されるように、デコーダDCT−IV34の出力値は、手段34の出力におけるおよび/または先行および後続の変換の整数ウィンドウ化されたサンプル値から、時間離散オーディオサンプル値をx(0)〜x(2N−1)を生成するために、本発明に従って先行する変換および/または後続の変換の対応する値を用いて逆に処理される。
出力側演算は、逆ギブンズ回転により、すなわち、ブロック26、28および/または22、24および/または18、20が反対方向に通り抜けるように、本発明により生じる。これは、式1の第2のリフティング行列によってより詳細に表されるはずである。(エンコーダにおいて)第2の結果ベクトルが、丸められた第1の結果ベクトルに第2のリフティング行列(手段22)を乗算することにより形成されれば、以下の式が結果として生じる:
(数6)
(x,y)→(x,y+xsinα)
この式6の右側の値x、yは整数である。しかしながら、これは値sinαにはあてはまらない。ここで、丸め関数rが、以下の式の場合にように導入される必要がある:
(数7)
(x,y)→(x,y+r(xsinα))
手段24がこの演算を実行する。
(デコーダ中での)逆マッピングは次の通り定義される:
(数8)
(x’,y’)→(x’,y’−r((xsinα))
丸め演算の前のマイナス記号から、どのようなエラーも導入されることなく、リフティングステップの整数近似を反転し得ることが明らかである。3つのリフティングステップの各々にこの近似を適用することにより、ギブンズ回転の整数近似が結果として生じる。(エンコーダにおいて)丸められた回転は、エラーを導入することなく、つまり逆丸めされたリフティングステップを逆順で通過することにより、すなわち、図1のアルゴリズムがデコーディングの間にボトムからトップへ実行されれば、(デコーダにおいて)反転され得る。
丸め関数rが点対称であれば、逆丸めされた回転は、角度−αを有する丸められた回転と同一であり、以下の通りである:
Figure 2005535940
デコーダのための、すなわち逆ギブンズ回転のためのリフティング行列は、この場合、単に式「sinα」を式「−sinα」で置き換えることにより数式(1)から直ちに生じる。
以下では、ウィンドウ42〜46がオーバーラップしている一般のMDCTの分解を図13により再度示す。ウィンドウ40〜46はそれぞれ、50%のオーバーラップを有している。ウィンドウ毎に、矢印48により図式的に表されるように、ギブンズ回転が最初に、ウィンドウの第1および第2の四半分内部および/またはウィンドウの第3および第4の四半分内部で実行される。次に、回転値、すなわちウィンドウ化された整数サンプル値は、ウィンドウの第2および第3の四半分および/または次のウィンドウの第4および第1の四半分が、DCT−IVアルゴリズムによってスペクトル表現において常に一緒に実施されるように、N−to−N−DCTに供給される。
本発明に従って、通常のギブンズ回転は、逐次的に実行されるリフティング行列中で分解され、各リフティング行列の乗算後、リフティング行列により結果ベクトルの各乗算の前に、その結果ベクトルが整数のみを含むように、浮動小数点数がそれらの出現後直ちに丸められるように、丸めステップが実行される。
従って、出力値は常に整数のままであり、整数入力値を用いるのが好ましい。これは、どのような制約も意味しない。なぜならば、CD中に格納されるような、PCMサンプル値は整数値であり、その値領域は、ビット幅に応じて、すなわち、時間離散デジタル入力値が16ビット値であるか24ビット値であるかに応じて、変わるからである。それにもかかわらず、述べたように、全体のプロセスは、逆順での逆回転を実行することにより反転可能である。本発明に従って、MDCTの整数近似は、完全な再構成、すなわち無損失変換のために存在する。
本発明の変換は、浮動小数点値の代わりに整数出力値を提供する。順方向そして次に逆方向変換が実行されれば、エラーが全く導入されないように、この変換は完全な再構成を提供する。本発明の好ましい実施の形態に従って、この変換は、変形離散コサイン変換の代替である。回転における分解およびリフティングステップにおける回転の分解が可能である限り、他の変換方法も整数に基づいて実行し得る。
本発明に従う整数MDCTは、MDCTの最も有利な特性を提供する。この整数MDCTは、オーバーラップ構造を有しており、その結果として、非オーバーラップブロックを用いた場合よりも優れた周波数選択性を得ることができる。変換に先がけてウィンドウ化する際にすでに考慮されているTDAC機能に基づいて、オーディオ信号を表しているスペクトル値の総数が入力されたサンプル値の総数に等しくなるように、臨界サンプリングが維持される。
浮動小数点サンプル値を提供する別の通常のMDCTと比較すると、ノイズは、通常のMDCTと比較して、信号レベルがほとんどないスペクトル領域においてのみ増大する一方で、このノイズ増大は、重要な信号レベルにおいて認められないことを本発明の整数変換は開示している。この目的のために、本発明の整数処理は、効率的なハードウェア実装に適している。なぜならば、シフト/加算ステップに容易に分解でき、ハードウェアに基づいて容易かつ迅速に実施され得る乗算ステップのみが用いられるからである。
本発明の整数変換は、オーディオ信号の良好なスペクトル表現を提供し、それでもなお整数の領域内にとどまる。オーディオ信号の音色部分に適用されれば、これは良好なエネルギー集中という結果になる。従って、効率的な無損失エンコーディング方式は、図1に表される本発明のウィンドウ化/変換を単にエントロピーエンコーダとカスケードすることにより組み立て得る。特に、MPEG AACにおいて用いられているように、エスケープ値を用いる積重ねエンコーディングが本発明にとって有利である。すべての値を、所望の符号表にそれらの値が適合するまで、特定の累乗でスケールダウンし、次に省略された最も重要性の低いビットを付加的にエンコードするのが好ましい。より大きい符号表使用の選択肢と比較して、記載された選択肢は、符号表を格納するためのメモリ消費量に関して、より安価である。ほとんど無損失なエンコーダも、最も重要性の低いビットのうちの特定のものを単に省略することによって得られる。
特に音色信号について、整数スペクトル値のエントロピーエンコーディングにより高いエンコーディング利得が可能になる。信号の非常駐部分については、エンコーディング利得は低い、すなわち非常駐信号のフラットなスペクトルのためであり、つまり0に等しいかほぼ0であるスペクトル値の数が少ないためである。J.Herre. J. D. Johnston:「Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping(TNS)」101, AES Convention, Los Angels, 1996, Preprint 4384に記載されているように、このフラットさは、しかしながら、周波数領域における線形予測を用いることにより使用し得る。1つの選択肢は、開ループを伴う予測である。別の選択肢は、閉ループを伴う予測子である。第1の選択肢、すなわち開ループを伴う予測子は、TNSと呼ばれる。予測の量子化は、結果として生じる量子化ノイズのオーディオ信号の時間構造への適合という結果になり、心理音響オーディオエンコーディングにおけるプレエコーを防止する。無損失オーディオエンコーディングのために、第2の選択肢、すなわち閉ループを伴う予測子がより適している。なぜならば、閉ループを伴う予測により、入力信号の正確な再構成が可能になるからである。本発明により生成されたスペクトルにこの技術が適用されれば、整数の範囲にとどまるために、予測フィルタの各ステップの後に丸めステップが実行されなければならない。逆フィルタおよび同じ丸め関数を用いることにより、オリジナルのスペクトルが正確に再生され得る。
2つのチャンネル間の冗長性をデータ量低減に利用するために、角度π/4を有する丸められた回転が用いられれば、中間側エンコーディングを無損失ベースで利用し得る。ステレオ信号の左右のチャンネルの合計および差分を計算する選択肢と比較して、丸められた回転は、省エネルギーという利点をもたらす。いわゆるジョイントステレオエンコーディング技術の使用は、標準MPEG AACにおいて実行されているように、各バンドについてオン・オフし得る。さらに、2つのチャンネル間の冗長性をより柔軟なやり方で低減できるように、回転角も考慮され得る。
実際の状況に応じて、本発明のエンコーダ概念および/または本発明のデコーダ概念は、ハードウェア中またはソフトウェア中で実施し得る。この実施は、デジタル記憶媒体上で、特にフロッピー(登録商標)ディスクまたはCD上で、電子可読な制御信号を用いて行われ、これらの制御信号は、対応する方法が実行されるように、プログラム可能なコンピュータシステムと協働し得る。一般に、本発明は、コンピュータ上で実行される場合に、本発明のエンコーディング方法または本発明のデコーディング方法を実行するための、機械可読坦体上に格納されたプログラムコードを有するコンピュータプログラム製品にも存する。言い換えれば、本発明は従って、コンピュータプログラムがコンピュータ上で実行される場合に、デコーディング方法を実行するためおよび/またはエンコーディング方法を実行するためのプログラムコードを有するコンピュータプログラムである。
本発明のエンコーダのブロック図を示す。 スケーリングレイヤおよびサブスケーリングレイヤを有するスケーリングされエンコードされた信号の概略表現を示す。 聴覚マスキング閾値に並行するビットレイヤのマグニチュードスペクトルの再分割を示す。 図2の再分割の概略表現をマスキング閾値のMSBを考慮して示す。 連続的に与えられる聴覚マスキング閾値の次のサブスケーリングレイヤのためのスペクトル値の選択を例示するための概略表現を示す。 聴覚マスキング閾値のバンド方式表現におけるサブスケーリングレイヤのためのスペクトル値の選択を例示するための概略表現を示す。 本発明のエンコーダの詳細なブロック図を示す。 IntMDCTを有する本発明のデコーダのブロック図を示す。 従来技術のBSACエンコーダのブロック図を示す。 従来技術のBSACデコーダのブロック図を示す。 MDCTおよび50%オーバーラッピングを有する従来技術のエンコーダの概略ブロック図を示す。 図10aにより生成された値をデコードするための従来技術のデコーダのブロック図を示す。 整数スペクトル値が平均され得る整数値を得るために時間離散オーディオサンプル値を処理するための好ましい手段のブロック図を示す。 ギブンズ回転および2つのDCT−IV−演算におけるMDCTおよび逆MDCTの分解の概略表現を示す。 回転における50%オーバーラッピングおよびDCT−IV−演算を有するMDCTの分解を例示するための表現を示す。

Claims (21)

  1. オーディオおよび/またはビデオ情報を含む信号のスペクトルをスケーラブルエンコードするための装置であって、スペクトルは2進スペクトル値を含み、
    1つのバンド中の2進スペクトル値の第1の数の特定オーダのビットを用いて第1のサブスケーリングレイヤを生成するためおよび2進スペクトル値の第2の数の特定オーダのビットを用いて第2のサブスケーリングレイヤを生成するための手段(102)であり、第1の数は、1以上かつバンド中の2進スペクトル値の総数未満であり、生成するための手段(102)は、2進スペクトル値の第2の数を、該数が1以上かつバンド中の2進スペクトル値の総数未満となるように選択するように、そしてさらに、スペクトル値の第2の数を、該数が2進スペクトル値の第1の数に含まれていない少なくとも1つの2進スペクトル値を含むように決定するように実施される手段(102)と、
    エンコードされた信号を形成するための手段(106)であり、第1および第2のサブスケーリングレイヤ(113a,113b)が互いに別個にデコードできるように、第1のサブスケーリングレイヤおよび第2のサブスケーリングレイヤを、エンコードされた信号中に含めるように実施される手段(106)とを含む装置。
  2. バンド中の特定のオーダと異なるオーダを有するすべてのビットを用いてフルスケーリングレイヤを生成するための手段をさらに含み、
    フルスケーリングレイヤが第1および第2のサブスケーリングレイヤ(113a,113b)とは独立してデコード可能になるように、フルスケーリングレイヤをビットストリーム中に含めるように、形成するための手段(106)がさらに実施される請求項1に記載の装置。
  3. 2進スペクトル値が量子化され、
    バンドについての心理音響マスキング閾値の最重要ビットのオーダを計算するための手段(84)と、
    2進スペクトル値のビットのスケーリングレイヤを定義するための手段(604)とをさらに含み、スケーリングレイヤは、2進スペクトル値のビットを含み、該ビットのオーダは、バンドについての心理音響マスキング閾値の最重要ビットのオーダとは特定の差があり、またはビットのオーダは、これらのバンドについての心理音響マスキング閾値の最重要ビットのオーダに等しい請求項1または2に記載の装置。
  4. 第1および第2のサブスケーリングレイヤ(113a,113b)を生成するための手段(102)は、2進スペクトル値のビットを特定オーダのビットとして用いるように実施され、バンドにおける心理音響マスキング閾値の最重要ビットのオーダとの差は、「+1」、「0」および/または「−1」に等しい請求項3に記載の装置。
  5. 心理音響マスキング閾値の最重要ビットオーダを計算するための手段(84)は、バンド中の各スペクトル値について最重要ビットのオーダを決定するようにまたはバンド全体について心理音響マスキング閾値の最重要ビットのオーダを決定するように実施される請求項3または4に記載の装置。
  6. 形成するための手段(106)は、心理音響マスキング閾値についての情報を副次的情報(110)として、エンコードされた信号中に含ませるようにさらに実施される請求項3〜5のいずれか1項に記載の装置。
  7. 第1のサブスケーリングレイヤは、第2のサブスケーリングレイヤの前にデコード可能であり、
    第1および第2のサブスケーリングレイヤを生成するための手段(102)は、バンドについての最大精度利得をそれにより達成できるスペクトル値を2進スペクトル値の第1の数について選択するように実施される先行請求項のいずれか1項に記載の装置。
  8. 第1のサブスケーリングレイヤは、第2のサブスケーリングレイヤの前にデコード可能であり、
    第1および第2のサブスケーリングレイヤを生成するための手段(102)は、第1のサブスケーリングレイヤのために、より高いスケーリングレイヤのビットにより表される、バンド中のスペクトル値についての心理音響マスキング閾値との最大の差を有する2進スペクトル値を用いるように実施される請求項1ないし7のいずれか1項に記載の装置。
  9. 第1および第2のサブスケーリングレイヤを生成するための手段(102)は、第1のサブスケーリングレイヤのために、より高いスケーリングレイヤのビットにより表される、バンド中で最小の量子化されたスペクトル値である2進スペクトル値を用いるように実施される先行請求項のいずれか1項に記載の装置。
  10. スペクトル値は、整数MDCTにより信号の時間サンプル値から生成されている先行請求項のいずれか1項に記載の装置。
  11. スペクトル値は、心理音響および/または心理光学モデル(82)を用いて量子化されている請求項1または2に記載の装置。
  12. 第1および第2のサブスケーリングレイヤを生成するための手段(102)は、バンド中のビットの一定の特定オーダを用いるように実施される請求項11に記載の装置。
  13. 特定オーダは、量子化された2進スペクトル値のビットの最も重要でないオーダを含む請求項11または12に記載の装置。
  14. 1つのバンドがm個のスペクトル値を含み、
    mは、2以上であり、
    第1および第2のサブスケーリングレイヤを生成するための手段(102)は、サブスケーリングレイヤの第1および第2の数を、それらの数が最大でmに等しく最小で1に等しくなるように計算するように実施され、m個のサブスケーリングレイヤが存在する場合に、各サブスケーリングレイヤが、正確に1つのスペクトル値の特定オーダの1つのビットを含み、1つのスペクトル値が、特定オーダについて正確に1つのサブスケーリングレイヤ中にのみ存在する先行請求項のいずれか1項に記載の装置。
  15. mは、4に等しい請求項14に記載の装置。
  16. 第1および第2のサブスケーリングレイヤを生成するための手段(102)は、特定オーダの量子化されたスペクトル値の第1および/または第2の数のビットの算術エンコーディングを実行するように実施される先行請求項のいずれか1項に記載の装置。
  17. 第1および第2のサブスケーリングレイヤを含むエンコードされた信号をスケーラブルデコードするための装置であって、第1のサブスケーリングレイヤは、1つのバンド中の2進スペクトル値の第1の数の特定オーダのビットを含んでおり、第2のサブスケーリングレイヤは、バンド中の2進スペクトル値の第2の数の特定オーダのビットを含んでおり、さらに第2の数は、第1の数には含まれない少なくとも1つのスペクトル値を含んでおり、
    第1のサブスケーリングレイヤをエンコードされた信号からおよび第2のサブスケーリングレイヤをエンコードされた信号から抽出するための手段(704)と、
    バンド中の2進量子化されたスペクトル値の特定オーダのビットを決定するように、第1のサブスケーリングレイヤおよび第2のサブスケーリングレイヤを処理するための手段とを含む装置。
  18. 第1のサブスケーリングレイヤのための2進スペクトル値の第1の数は、1つのバンドについて最大精度利得を達成するように選択され、
    抽出のための手段(704)は、第2のサブスケーリングレイヤの前に、第1のサブスケーリングレイヤを抽出するように実施される請求項17に記載の装置。
  19. オーディオおよび/またはビデオ情報を含む信号のスペクトルをスケーラブルエンコードするための方法であって、スペクトルは2進スペクトル値を含み、
    1つのバンド中の2進スペクトル値の第1の数の特定オーダのビットを用いて第1のサブスケーリングレイヤを生成するためおよび2進スペクトル値の第2の数の特定オーダのビットを用いて第2のサブスケーリングレイヤを生成するためのステップ(102)であり、第1の数は、1以上かつバンド中の2進スペクトル値の総数未満であり、生成するための手段(102)は、2進スペクトル値の第2の数を、該数が1以上かつバンド中の2進スペクトル値の総数未満となるように選択するように、そしてさらに、スペクトル値の第2の数を、該数が2進スペクトル値の第1の数に含まれていない少なくとも1つの2進スペクトル値を含むように決定するように実施されるステップ(102)と、
    エンコードされた信号を形成するためのステップ(106)であり、形成するための手段は、第1および第2のサブスケーリングレイヤ(113a,113b)が互いに別個にデコードできるように、第1のサブスケーリングレイヤおよび第2のサブスケーリングレイヤを、エンコードされた信号中に含めるように実施されるステップ(106)とを含む方法。
  20. 第1および第2のサブスケーリングレイヤを含むエンコードされた信号をスケーラブルデコードするための方法であって、第1のサブスケーリングレイヤは、1つのバンド中の2進スペクトル値の第1の数の特定オーダのビットを含んでおり、第2のサブスケーリングレイヤは、バンド中の2進スペクトル値の第2の数の特定オーダのビットを含んでおり、さらに第2の数は、第1の数には含まれない少なくとも1つのスペクトル値を含んでおり、
    第1のサブスケーリングレイヤをエンコードされた信号からおよび第2のサブスケーリングレイヤをエンコードされた信号から抽出するステップ(704)と、
    バンド中の2進量子化されたスペクトル値の特定オーダのビットを決定するように、第1のサブスケーリングレイヤおよび第2のサブスケーリングレイヤを処理するステップとを含む方法。
  21. コンピュータプログラムであって、コンピュータ上で実行される場合に、請求項19または請求項20に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
JP2004531856A 2002-08-09 2003-08-04 スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置 Expired - Lifetime JP4043476B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10236694A DE10236694A1 (de) 2002-08-09 2002-08-09 Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
PCT/EP2003/008623 WO2004021710A2 (de) 2002-08-09 2003-08-04 Vorrichtung und verfahren zum skalierbaren codieren und vorrichtung und verfahren zum skalierbaren decodieren eines audiosignales

Publications (2)

Publication Number Publication Date
JP2005535940A true JP2005535940A (ja) 2005-11-24
JP4043476B2 JP4043476B2 (ja) 2008-02-06

Family

ID=30775133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004531856A Expired - Lifetime JP4043476B2 (ja) 2002-08-09 2003-08-04 スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置

Country Status (8)

Country Link
US (1) US7343287B2 (ja)
EP (1) EP1502255B1 (ja)
JP (1) JP4043476B2 (ja)
CN (1) CN1332373C (ja)
AU (1) AU2003250209A1 (ja)
DE (1) DE10236694A1 (ja)
HK (1) HK1072122A1 (ja)
WO (1) WO2004021710A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011529199A (ja) * 2008-07-24 2011-12-01 ディーティーエス・インコーポレイテッド 二次元変換によるオーディオスケールファクタの圧縮
US8095360B2 (en) 2006-03-20 2012-01-10 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
DE10129240A1 (de) * 2001-06-18 2003-01-02 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten von zeitdiskreten Audio-Abtastwerten
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
ATE543179T1 (de) 2002-09-04 2012-02-15 Microsoft Corp Entropische kodierung mittels anpassung des kodierungsmodus zwischen niveau- und lauflängenniveau-modus
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US7822150B2 (en) * 2003-03-15 2010-10-26 Alcatel-Lucent Usa Inc. Spherical decoder for wireless communications
JP4486646B2 (ja) * 2003-05-28 2010-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム
KR100885437B1 (ko) * 2003-09-29 2009-02-24 에이전시 포 사이언스, 테크놀로지 앤드 리서치 시간 도메인에서 주파수 도메인으로 그리고 그 반대로디지털 신호를 변환하는 방법
KR100571824B1 (ko) * 2003-11-26 2006-04-17 삼성전자주식회사 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치
KR100537517B1 (ko) * 2004-01-13 2005-12-19 삼성전자주식회사 오디오 데이타 변환 방법 및 장치
EP1914722B1 (en) 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
EP1780895B1 (en) * 2004-07-28 2020-07-01 III Holdings 12, LLC Signal decoding apparatus
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
DE102004041418A1 (de) * 2004-08-26 2006-03-09 Micronas Gmbh Verfahren zur Codierung eines ersten und zweiten Datenwortes und Verfahren zur Decodierung eines codierten Datenwortes
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
JP5101292B2 (ja) 2004-10-26 2012-12-19 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号の感知音量及び/又は感知スペクトルバランスの計算と調整
KR100685992B1 (ko) 2004-11-10 2007-02-23 엘지전자 주식회사 디지털 방송 수신기에서 채널 전환시 정보 출력 방법
JP5542306B2 (ja) * 2005-01-11 2014-07-09 コーニンクレッカ フィリップス エヌ ヴェ オーディオ信号のスケーラブル符号化及び復号
TWI397903B (zh) * 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
EA026063B1 (ru) * 2005-04-18 2017-02-28 Басф Се Сополимер, синтезированный из по меньшей мере трех различных моноэтиленненасыщенных мономеров
JP5191886B2 (ja) * 2005-06-03 2013-05-08 ドルビー ラボラトリーズ ライセンシング コーポレイション サイド情報を有するチャンネルの再構成
CN101199005B (zh) * 2005-06-17 2011-11-09 松下电器产业株式会社 后置滤波器、解码装置以及后置滤波处理方法
US7684981B2 (en) * 2005-07-15 2010-03-23 Microsoft Corporation Prediction of spectral coefficients in waveform coding and decoding
US7693709B2 (en) * 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US7933337B2 (en) * 2005-08-12 2011-04-26 Microsoft Corporation Prediction of transform coefficients for image compression
US7565018B2 (en) * 2005-08-12 2009-07-21 Microsoft Corporation Adaptive coding and decoding of wide-range coefficients
KR100738077B1 (ko) * 2005-09-28 2007-07-12 삼성전자주식회사 계층적 오디오 부호화 및 복호화 장치와 방법
EP1949693B1 (en) * 2005-10-12 2012-04-18 Samsung Electronics Co., Ltd. Method and apparatus for processing/transmitting bit-stream, and method and apparatus for receiving/processing bit-stream
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
JP5185254B2 (ja) * 2006-04-04 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Mdct領域におけるオーディオ信号音量測定と改良
NO345590B1 (no) 2006-04-27 2021-05-03 Dolby Laboratories Licensing Corp Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
EP1855271A1 (en) * 2006-05-12 2007-11-14 Deutsche Thomson-Brandt Gmbh Method and apparatus for re-encoding signals
EP1883067A1 (en) * 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
BRPI0717484B1 (pt) 2006-10-20 2019-05-21 Dolby Laboratories Licensing Corporation Método e aparelho para processar um sinal de áudio
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
US8184710B2 (en) 2007-02-21 2012-05-22 Microsoft Corporation Adaptive truncation of transform coefficient data in a transform-based digital media codec
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
WO2008114080A1 (en) * 2007-03-16 2008-09-25 Nokia Corporation Audio decoding
ES2377719T3 (es) * 2007-07-13 2012-03-30 Dolby Laboratories Licensing Corporation Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
EP2193348A1 (en) * 2007-09-28 2010-06-09 Voiceage Corporation Method and device for efficient quantization of transform information in an embedded speech and audio codec
KR101238239B1 (ko) * 2007-11-06 2013-03-04 노키아 코포레이션 인코더
US8315398B2 (en) * 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
US8386271B2 (en) * 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
BR122021003142B1 (pt) 2008-07-11 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio, e fluxo de áudio
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
EP2306456A1 (en) 2009-09-04 2011-04-06 Thomson Licensing Method for decoding an audio signal that has a base layer and an enhancement layer
EP2524371B1 (en) * 2010-01-12 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries
US8374858B2 (en) * 2010-03-09 2013-02-12 Dts, Inc. Scalable lossless audio codec and authoring tool
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
US9210442B2 (en) 2011-01-12 2015-12-08 Google Technology Holdings LLC Efficient transform unit representation
US9380319B2 (en) 2011-02-04 2016-06-28 Google Technology Holdings LLC Implicit transform unit representation
AU2012217269B2 (en) 2011-02-14 2015-10-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
AR085361A1 (es) 2011-02-14 2013-09-25 Fraunhofer Ges Forschung Codificacion y decodificacion de posiciones de los pulsos de las pistas de una señal de audio
EP2676266B1 (en) 2011-02-14 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based coding scheme using spectral domain noise shaping
JP5712288B2 (ja) * 2011-02-14 2015-05-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 重複変換を使用した情報信号表記
TWI476760B (zh) 2011-02-14 2015-03-11 Fraunhofer Ges Forschung 用以使用暫態檢測及品質結果將音訊信號的部分編碼之裝置與方法
US9015042B2 (en) 2011-03-07 2015-04-21 Xiph.org Foundation Methods and systems for avoiding partial collapse in multi-block audio coding
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US8838442B2 (en) * 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
US10515643B2 (en) * 2011-04-05 2019-12-24 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoder, decoder, program, and recording medium
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9225310B1 (en) * 2012-11-08 2015-12-29 iZotope, Inc. Audio limiter system and method
US9967559B1 (en) 2013-02-11 2018-05-08 Google Llc Motion vector dependent spatial transformation in video coding
US9544597B1 (en) 2013-02-11 2017-01-10 Google Inc. Hybrid transform in video encoding and decoding
US9674530B1 (en) 2013-04-30 2017-06-06 Google Inc. Hybrid transforms in video coding
US9613634B2 (en) * 2014-06-19 2017-04-04 Yang Gao Control of acoustic echo canceller adaptive filter for speech enhancement
US9565451B1 (en) 2014-10-31 2017-02-07 Google Inc. Prediction dependent transform coding
US9742780B2 (en) * 2015-02-06 2017-08-22 Microsoft Technology Licensing, Llc Audio based discovery and connection to a service controller
US9769499B2 (en) 2015-08-11 2017-09-19 Google Inc. Super-transform video coding
US10277905B2 (en) 2015-09-14 2019-04-30 Google Llc Transform selection for non-baseband signal coding
US9807423B1 (en) 2015-11-24 2017-10-31 Google Inc. Hybrid transform scheme for video coding
EP3616196A4 (en) * 2017-04-28 2021-01-20 DTS, Inc. AUDIO ENCODER WINDOW AND TRANSFORMATION IMPLEMENTATIONS
US11272207B2 (en) * 2017-06-12 2022-03-08 Futurewei Technologies, Inc. Selection and signaling of motion vector (MV) precisions
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11122297B2 (en) 2019-05-03 2021-09-14 Google Llc Using border-aligned block functions for image compression

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
GB9703441D0 (en) 1997-02-19 1997-04-09 British Tech Group Progressive block-based coding for image compression
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
DE19742201C1 (de) 1997-09-24 1999-02-04 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren von Audiosignalen
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
DE19804564A1 (de) * 1998-02-05 1999-08-12 Fraunhofer Ges Forschung Kommunikationsnetz, Verfahren zum Übertragen eines Signals, Netzverbindungseinheit und Verfahren zum Anpassen der Datenrate eines skalierten Datenstroms
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
DE10007171A1 (de) 2000-02-17 2001-08-30 Siemens Ag Verfahren und Anordnung zur Codierung bzw. zur Codierung und Decodierung einer Zahlenfolge

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8095360B2 (en) 2006-03-20 2012-01-10 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
JP2011529199A (ja) * 2008-07-24 2011-12-01 ディーティーエス・インコーポレイテッド 二次元変換によるオーディオスケールファクタの圧縮

Also Published As

Publication number Publication date
DE10236694A1 (de) 2004-02-26
AU2003250209A8 (en) 2004-03-19
WO2004021710A2 (de) 2004-03-11
JP4043476B2 (ja) 2008-02-06
EP1502255B1 (de) 2014-11-19
CN1675683A (zh) 2005-09-28
HK1072122A1 (en) 2005-08-12
EP1502255A2 (de) 2005-02-02
US20040184537A1 (en) 2004-09-23
AU2003250209A1 (en) 2004-03-19
WO2004021710A3 (de) 2004-04-22
US7343287B2 (en) 2008-03-11
CN1332373C (zh) 2007-08-15

Similar Documents

Publication Publication Date Title
JP4043476B2 (ja) スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置
US7275036B2 (en) Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
JP4081447B2 (ja) 時間離散オーディオ信号を符号化する装置と方法および符号化されたオーディオデータを復号化する装置と方法
EP2301020B1 (en) Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
JP5705964B2 (ja) オーディオエンコーダ、オーディオデコーダ、及び複素数予測を使用したマルチチャンネルオーディオ信号処理方法
JP5820464B2 (ja) オーディオまたはビデオエンコーダ、オーディオまたはビデオデコーダ、及び予測方向可変の予測を使用したマルチチャンネルオーディオまたはビデオ信号処理方法
EP0785631B1 (en) Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
EP2255358B1 (en) Scalable speech and audio encoding using combinatorial encoding of mdct spectrum
EP2016583B1 (en) Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
EP1852851A1 (en) An enhanced audio encoding/decoding device and method
US20100274555A1 (en) Audio Coding Apparatus and Method Thereof
US20110145003A1 (en) Simultaneous Time-Domain and Frequency-Domain Noise Shaping for TDAC Transforms
NO20171179A1 (no) System og metode for etterbehandling av spektrale verdier, koder og dekoder for lydsignaler
JP3814611B2 (ja) 時間離散オーディオサンプル値を処理する方法と装置
TW200400487A (en) Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
EP2227682A1 (en) An encoder
US20100280830A1 (en) Decoder

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071113

R150 Certificate of patent or registration of utility model

Ref document number: 4043476

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131122

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term