JP3814611B2 - 時間離散オーディオサンプル値を処理する方法と装置 - Google Patents

時間離散オーディオサンプル値を処理する方法と装置 Download PDF

Info

Publication number
JP3814611B2
JP3814611B2 JP2003505919A JP2003505919A JP3814611B2 JP 3814611 B2 JP3814611 B2 JP 3814611B2 JP 2003505919 A JP2003505919 A JP 2003505919A JP 2003505919 A JP2003505919 A JP 2003505919A JP 3814611 B2 JP3814611 B2 JP 3814611B2
Authority
JP
Japan
Prior art keywords
integer
window
vector
matrix
lifting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003505919A
Other languages
English (en)
Other versions
JP2004531151A (ja
JP2004531151A5 (ja
Inventor
ラルフ ガイガー
トーマス シュポーラー
ユルゲン コラー
カールハインツ ブランデンブルグ
ユルゲン ヘルレ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2004531151A publication Critical patent/JP2004531151A/ja
Publication of JP2004531151A5 publication Critical patent/JP2004531151A5/ja
Application granted granted Critical
Publication of JP3814611B2 publication Critical patent/JP3814611B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本発明はオーディオエンコード(符号化)に関し、特に、整数の出力値を得るために時間離散オーディオサンプル値を処理する方法と装置に関する。
これまで、例えばMPEGレイヤ3(MP3)またはMPEG AACのようなオーディオエンコードの方法は、オーディオ信号のブロック状の周波数表示を得るために、例えばいわゆる変形離散コサイン変換(MDCT)等の変換を用いている。そのようなオーディオエンコーダ(符号器)は通常、時間離散オーディオサンプル値からなるビットストリームを受け取る。オーディオサンプル値からなるビットストリームは、ウィンドウ化され、例えば1024個または2048個のウィンドウ化オーディオサンプル値からなる1個のウィンドウ化ブロックを得る。ウィンドウ化のためには、例えばサインウィンドウなど、様々なウィンドウ関数が用いられる。
ウィンドウ化された時間離散オーディオサンプル値は、その後フィルタバンクによりスペクトル表示化される。これには原則的に、フーリエ変換、または特別な理由により、例えばFFT(高速フーリエ変換)やこれまで実行されてきたMDCTなど、このフーリエ変換の亜種が用いられる。フィルタバンクの出力におけるオーディオスペクトル値のブロックは、その後必要に応じてさらなる処理を受ける。上述のオーディオエンコーダを使用すれば、次にオーディオスペクトル値の量子化が行われる。この場合、量子化ステージは、量子化に伴って入り込む量子化ノイズが聴覚心理マスキング閾値より低い値になる方法、すなわち典型的には「マスキングにより消去」されるような方法が選択される。量子化とは損失(データ削減量)のある符号化を意味する。さらにデータ量を削減するために、この量子化されたスペクトル値には次に、ハフマン符号化によるエントロピー符号化が実行される。その後、ビットストリームマルチプレクサにより、この量子化されエントロピー符号化されたスペクトル値から、例えばスケールファクタ等のページインフォメーションを追加することで、記憶されあるいは伝送されるであろうビットストリームが生成される。
オーディオデコーダ(復号器)の中では、上記ビットストリームは、ビットストリームデマルチプレクサにより、量子化されエントロピー符号化されたスペクトル値とページインフォメーションとに編成される。この量子化されエントロピー符号化されたスペクトル値は、まずエントロピー復号化され、量子化されたスペクトル値を得る。その後、量子化されたスペクトル値は逆量子化され、復号化されたスペクトル値を得る。ここで得られる復号化されたスペクトル値は量子化ノイズを含むが、しかしこのノイズは聴覚心理マスキング閾値よりも低い範囲にあり、結果的に聞こえることはない。これらのスペクトル値は、その後合成フィルタバンク(synthesis filterbank)により時間ドメインによって表示され、復号化時間離散オーディオサンプル値を得る。合成フィルタバンク内では、上記変換アルゴリズムとは逆の変換アルゴリズムが使用されなければならない。さらに、周波数−時間逆変換の後に、ウィンドウ化は解除されなければならない。
良好な周波数選択性(frequency selectivity)を達成するために、これまでのオーディオエンコーダは、典型的にはブロックオーバーラッピングを用いている。図4aはこのような場合を示している。最初、手段402により、例えば2048個の時間離散オーディオサンプル値が取り出され、ウィンドウ化される。このウィンドウは、手段402を具体的に表現したものであるが、2N個のサンプル値のウィンドウ長を持ち、その出力側において、2N個のウィンドウ化サンプル値からなる1つのブロックを出力する。ウィンドウのオーバーラップを達成するために、2N個のウィンドウ化サンプル値からなる第2ブロックが、手段404により生成される。この手段404は、明確に示す目的で、図4aにおいては手段402とは別に示されている。しかし、手段404に入力される2048個のサンプル値は、第1ウィンドウにそのまま関連する時間離散オーディオサンプル値ではなく、手段402によりウィンドウ化されるサンプル値の後半を含み、さらに追加的に、新たなサンプル値を1024個だけ含む。図4aにおいて、このオーバーラッピングが手段406により図式的に示されてあり、この手段406は50%程度のオーバーラッピングを発生させる。次に、手段402により出力された2N個のウィンドウ化サンプル値と、手段404により出力された2N個のウィンドウ化サンプル値との両方に対し、手段408および/または410によってMDCTアルゴリズム処理が行われる。手段408は、従来技術のMDCTアルゴリズムに従えば、第1ウィンドウのためのN個のスペクトル値を出力し、他方、手段410もまた、第2ウィンドウのためのN個のスペクトル値を出力し、第1ウィンドウと第2ウィンドウとの間には50%のオーバーラップが存在する。
デコーダの中では、図4bに示すように、第1ウィンドウのN個のスペクトル値が手段412へと供給される。この手段412では、逆変形離散コサイン変換が実行される。同様に、第2ウィンドウのN個のスペクトル値もまた手段414へと供給され、この手段414でも逆変形離散コサイン変換が実行される。これら両方の手段412と手段414とはそれぞれ、2N個のサンプル値を第1ウィンドウおよび/または第2ウィンドウについて供給する。
図4bにおいて、TDAC(時間ドメインエリアシングキャンセレーション=高効率変換符号化)と表示された手段416内では、上述の2つのウィンドウがオーバーラップしている事実を考慮に入れる。具体的には、第1ウィンドウの後半にある1つのサンプル値y1、すなわちN+kの指数が付けられたサンプル値y1は、第2ウィンドウの前半にある1つのサンプル値y2、すなわちkの指数が付けられたサンプル値y2と合計され、その結果、デコーダの出力側ではN個の復号化時間サンプル値が出力される。
注目すべきことは、この手段416の関数すなわち加算関数と呼ぶことができる関数により、図4aに概略的に示されたエンコーダ内で実行されるウィンドウ化が自動的に考慮されるということである。その結果、図4bに示されるデコーダ内では、格別な「逆ウィンドウ化」は不要となる。
もし、手段402または404により実行される関数をw(k)とし、指数kは時間を示すとすれば、次の条件を満たす必要がある。すなわち、2乗されたウィンドウ重量(squared window weight)w(k)と2乗されたウィンドウ重量w(N+k)とが加算されて1となり、kは0からN−1までの領域を持つという条件である。もしウィンドウ重量(window weightings)がサイン関数の波形の前半をたどるサインウィンドウを使用すれば、この条件は常に満たされることになる。なぜなら、サインの2乗とコサインの2乗との和は全ての角度において1の値となるからである。
図4aに示された後段のMDCT関数を持つウィンドウ方式の欠点は、ウィンドウ化が時間離散サンプル値を乗算することで達成されるという事実であり、特にサインウィンドウを考慮した場合、浮動小数点数を乗算することで達成されるという事実である。なぜなら、0°から180°までの角度のサインは、90°を除けば整数にはならないからである。
従って、たとえ聴覚心理エンコーダが使用されない場合、すなわちたとえ損失なしの符号化が実施されるべき場合でも、明快なエントロピー符号化処理を実行することができるように、手段408および/または410の出力側においては量子化が必要となる。
もし、損失がないオーディオ符号化のために図4aのような公知の変換方法を使用する必要がある場合には、上記浮動小数点数のラウンディング(丸め操作)に基づいて生じるエラーを無視できるように、非常に精密な量子化を実行するか、あるいは、そのエラー信号も例えば時間ドメインの中で追加的に符号化されなければならない。
さらに、デジタル信号プロセッサは通常、多すぎるラウンディング操作を避ける目的で、通常の作業用長さよりも長い語長を持つ蓄積手段(accumulator)を備えている。フィルタバンクを実行するために高速アルゴリズムを使用すれば、典型的な結果として、後の段階で使用するために途中の計算結果を記憶する必要が生じる。途中の計算結果は操作精度に従ってラウンディング操作を施される必要があり、また記憶操作の中へと分類されていく必要がある。典型的な場合、ラウンディング操作のエラーは数回もの処理段階を通して蓄積される。大多数の浮動小数点デジタル信号プロセッサが、たった24ビットの仮数(mantissa)を備えた32ビットの語長を持つことを考慮すれば、24ビットの精度を持つ入力信号に対して何が起こるかということは自明である。
精密過ぎる量子化の結果として、およびこれに代わるエラー信号の追加的な符号化の結果として、エンコーダ内の計算はより複雑なものとなり、エンコーダも複雑となる。また、これに対応してデコーダもより複雑となる。特にデコーダは、例えばインターネットを介した音楽の配信を考えた場合、市場に出回る他のデコーダと比較して優位性を持つために、大量生産品でかつ低コスト品でなければならない。このような必要性を考慮すれば、非常に精密な量子化または追加的なエラー信号の符号化を用いることは、多くの場合両立するものではない。なぜなら、追加的なコストはデコーダにとってより高いコストを招くからである。
同時に、競争が激しいオーディオエンコーダの市場に出回るエンコーダという視点から見れば、大きなデータ量を生成することも、多くの場合、容認できるものではない。換言すれば、可能な限り高い圧縮ファクタを達成することは非常に重要な意味を持つ。なぜなら、バンド幅が限られたネットワークがしばしば存在し、圧縮率が低いオーディオ作品はそのようなネットワークを介した伝送時間があまりにも長くかかるため、顧客はすぐにより高いデータ圧縮率とより短い伝送時間を持つ別の製品を選ぶという結果になるからである。
本発明の目的は、損失のない符号化に適し、同時に容認可能な程度の複雑さという点も考慮して、高いデータ圧縮率を提供できるエンコーダおよびデコーダの概念を提供することである。
上記目的は、請求項1に記載の時間離散オーディオサンプル値を処理する方法と、請求項16に記載の整数値を逆処理する方法と、請求項21に記載の時間離散オーディオサンプル値を処理する装置と、請求項22に記載の整数値を逆処理する装置とで達成される。
本発明は次のような知見に基づいている。すなわち、ウィンドウ化の段階における浮動小数点値の発生は、ある時間ドメイン、すなわち変換を行う前の時点においてTDAC操作を格別に実行することで防ぐことができるという知見である。これは、当該技術分野の現状とは逆に、変換の前に既にオーバーラップを考慮することと、1つのウィンドウの異なるクォータ(4分の1:quarter)からの2つの時間離散サンプル値を処理することで達成されるであろう。この処理とは、そのウィンドウの異なるクォータからの2つの時間離散サンプル値のベクトルに対して回転マトリクスを適用することで実行され、この回転マトリクスは、複数のいわゆるリフティングマトリクスにより表すことができる。公知のように、リフティングマトリクスは“0”でも“1”でもない成分、すなわち非整数の成分はただ1つしか持たないという特徴がある。リフティングマトリクスと時間離散サンプル値のベクトルとの乗算およびそれに続く非整数ベクトル要素のラウンディング操作を順に実行することで、浮動小数点数はそれらが発生する直後に均一にラウンディングされるであろう。注目すべきは、リフティングマトリクスの上述の特性により、乗算で生じた結果ベクトル(result vector)のただ1つの要素だけがラウンディングされればよいという点である。
望ましくは、回転マトリクスはギブンズ(Givens)回転マトリクスであり、公知のように、3つのリフティングマトリクスにより表されてもよい。ギブンズ回転マトリクスの回転角はウィンドウ関数に依存する。注目すべきは、本発明の方法に対し、上述の条件を満たす限りにおいて全てのウィンドウ関数を適用できるという点である。すなわち、1つのウィンドウ重量の2乗と、それからNウィンドウ重量だけ離れたもう1つのウィンドウ重量の2乗との和が、常に1の値になるという条件である。さらに注目すべきは、この条件は異なる形を持つ2つの連続するウィンドウ、例えば1つのサインウィンドウと1つのカイザー−ベッセルウィンドウ(Kaiser-Bessel window)等によって満たされてもよいという点である。
本発明の望ましい実施例においては、50%のオーバーラップを伴うMDCT処理は、リフティングマトリクスおよびラウンディングと、それに続く非対称基底関数(non-symmetric basis function)を持つDCT(離散コサイン変換)、すなわちタイプIVのDCTとによって置き換えられる。
整数ウィンドウ化を達成するためだけではなく、整数離散コサイン変換を達成するためにも、DCT変換をギブンズ回転により置き換えることが望ましい。特に、リフティングマトリクスと、各リフティングマトリクスの乗算後のラウンディングとによる処理で置き換えることが望ましい。
本発明の長所は、ウィンドウ化の途中かあるいはオフセット値を完全に変換している時にのみ、ウィンドウサンプル値あるいはスペクトル値が整数として存続するという点である。さらに、リフティングマトリクスによる処理に関しては単純に逆回転マトリクスを逆の順序で適用し、かつ同じラウンディング関数を適用することで、全体的なプロセスを逆転させることが可能となる点である。そのため、本発明の概念は、完全な再構成の可能性を備えたMDCTの整数近似法として適切であり、ゆえに、整数変形離散コサイン変換(INT MDCT)と呼べるものである。
本発明の概念はさらに、MDCTの望ましい特性、すなわちオーバーラッピング構造を備えている。この構造は、非オーバーラッピングブロック変換と比較してより良好な周波数選択性と、臨界サンプリング(critical sampling) とを提供するものであり、この場合、1つのオーディオ信号を表すスペクトル値の合計数は入力されたサンプル値の数を超えない。そのため、回転段階におけるラウンディングにより、非線形性が導入されるであろう。しかし、同時にラウンディングの結果は、整数スペクトル値の数領域の中にあり、本質的に入力値の数領域を超えない。オーバーラッピング構造であるため、パーセバルの定理(Parseval theorem)によって与えられるようなブロック単位でのエネルギー保存は存在しないが、本発明の整数MDCTは、各ブロックの中心エネルギーが維持されるという特徴がある。なぜなら、望ましくはラウンディングされたギブンズ回転マトリクスのみが使用されるからであり、その結果、一般的にはエネルギー保存を生じさせるからである。
さらに本発明の長所は、整数出力値が存在するという事実から、後続の量子化が省略されてもよいという点である。その結果、整数MDCTの出力値が直後にエントロピー符号化され、損失のないデータ圧縮が得られる。
本発明の望ましい実施例を、以下に添付した図を参照しながら説明する。
図1は、時間離散オーディオサンプル値を処理して整数値を得るための本発明に係る装置のブロック図を示し、
図2は、本発明の望ましい実施例に従った、ギブンズ回転におけるMDCTおよび逆MDCTと、2つのDCT(離散コサイン変換)タイプIV操作とを示す分解概要図であり、
図3は、順番に50%のオーバーラップを伴うMDCTとDCTタイプIV操作との分解図であり、
図4aは、MDCTおよび50%のオーバーラップを伴う従来技術のエンコーダを示す概要ブロック回路図であり、
図4bは、図4aのエンコーダによって生成された値を復号化するための従来技術のデコーダを示すブロック図である。
図1は、オーディオ信号を表す時間離散サンプル値を処理して整数値を得るための本発明の装置および/または本発明の方法を示す全体図である。時間離散サンプル値は図1に示される装置によりウィンドウ化され、選択的にスペクトル表現で示される。時間離散サンプル値は、入力10においてこの装置に入力され、2N個の時間離散サンプル値に相当する長さを持つウィンドウWでウィンドウ化される。その結果、出力12において整数のウィンドウ化サンプル値が得られ、このサンプル値は変換、特に整数DCTを実行する手段14により、スペクトル表現で示されるのに適している。整数DCTはN個の入力値からN個の出力値を生成するように作られており、これは図4aのMDCTの関数408とは対照的である。なぜなら、MDCTの方程式に従えば、2N個のウィンドウ化されたサンプル値からN個のスペクトル値しか生成されないからである。
時間離散サンプル値をウィンドウ化するために、まず2個の時間離散サンプル値が手段16内において選択され、これらは合同して時間離散サンプル値の1個のベクトルを表す。手段16により選択された1つの時間離散サンプル値は、ウィンドウの第1クォータに対応し、もう1つの時間離散サンプル値は、ウィンドウの第2クォータに対応する。この点に関しては、図3においてより詳細に説明する。2×2のディメンションを持つ回転マトリクスが、手段16により生成されたベクトルに対して適用される。このベクトル回転操作は単一のステップで実行されるわけではなく、複数のいわゆるリフティングマトリクスによって実行される。
リフティングマトリクスとは、ウィンドウWに依存し、かつ“1”でも“0”でもない成分を1つだけ備えるという特徴を持つ。
リフティングステップにおけるウェーブレット変換(wavelet transform)の因数分解は、"Factoring Wavelet Transforms Into Lifting Steps" という技術文献(Ingrid Daubechies and Wim Sweldens, Preprint, Bell Laboratories, Lucent Technologies, 1996)に表されている。一般的に、リフティングの概要は、同一のローパスフィルタまたはハイパスフィルタを備えた完全再構築型フィルタ対の間の単純な関係式である。補足的なフィルタからなる各対は、リフティングステップにおいて因数分解されてもよい。特に、これはギブンズ回転に対して適用される。多相マトリクスがギブンズ回転である場合を考えてみる。この時、以下の方程式が有効となる。
Figure 0003814611
等記号の右側にある3つのリフティングマトリクスの夫々は、主対角成分(main diagonal elements)として値“1”を持つ。さらに、各リフティングマトリクスにおいて、1つの副対角成分(subsidiary diagonal element)は0であり、もう1つの補助対角成分は回転角αに依存する。
ベクトルは、まず第3のリフティングマトリクス、すなわち上述の方程式の最も右側にあるリフティングマトリクスを用いて乗算され、第1結果ベクトルを得る。これは、図1内では手段18により示されている。本発明によれば、第1結果ベクトルは、次に実数値を整数値にマッピングするいずれかのラウンディング関数によりラウンディングされる。これは、図1内では手段20により示されており、ラウンディングされた第1結果ベクトルが手段20の出力において得られる。このラウンディングされた第1結果ベクトルは手段22に供給され、ここで上述の方程式の中間のリフティングマトリクス、すなわち第2のリフティングマトリクスを用いて乗算され、第2結果ベクトルを得る。この第2結果ベクトルは、手段24において再度ラウンディングされ、ラウンディングされた第2結果ベクトルを得る。このラウンディングされた第2結果ベクトルは、次に手段26に対して供給され、上述の方程式の左側に記載のリフティングマトリクス、すなわち第1リフティングマトリクスを用いて乗算され、第3結果ベクトルを得る。この第3結果ベクトルは、手段28により最終的にもう一度ラウンディングされ、出力12においては整数ウィンドウ化サンプル値が最終的に得られる。もしスペクトル出力30において整数スペクトル値を得るために、この値のスペクトル表現が求められる場合には、この整数ウィンドウ化サンプル値は次に手段14により処理されなければならない。
望ましくは、上記手段14は整数DCTとしての役割を果たす。
長さNを持ちタイプIVに従う離散コサイン変換(DCT−IV)は、以下の方程式で表現できる。
Figure 0003814611
DCT−IVの係数は正規直交N×Nマトリクスを形成する。各直交N×NマトリクスはN(N−1)/2ギブンズ回転に分解されてもよい。この点に関しては、技術文献P. P. Vaidyanathan, “Multirate Systems And Filter Banks", Prentice Hall, Englewood Cliffs, 1993 に説明の通りである。また、さらなる分解も存在することにも留意すべきである。
様々なDCTアルゴリズムの分類に関しては、H. S. Malvarの“Signal Processing With Lapped Transforms", Artech House, 1992を参照されたい。一般的に、DCTアルゴリズムはそれらの基底関数のタイプにより特徴づけられている。本発明において望ましいとされるDCT−IVは、非対称基底関数、すなわちコサイン1/4波、コサイン3/4波、コサイン5/4波、コサイン7/4波等を含むが、タイプIIの離散コサイン変換(DCT−II)は軸対称かつ点対称の基底関数を含む。0番目の基底関数は直結要素(direct component)を持ち、1番目の基底関数は1/2コサイン波であり、2番目の基底関数は全コサイン波である等である。タイプIIの離散コサイン変換は特に直結要素を考慮するという事実から、このタイプIIの離散コサイン変換はビデオ符号化に使用され、オーディオ符号化には使用されない。なぜなら、オーディオ符号化においては、ビデオ符号化とは対照的に、直結要素は関係がないからである。
以下に、ギブンズ回転の回転角αがいかにウィンドウ関数に依存するかという点について、特に説明する。
2Nウィンドウ長を持つMDCTは、Nウィンドウ長を持つタイプIVの離散コサイン変換へと減数されてもよい。これは、時間ドメインにおいてTDAC変換を格別に実行し、その後DCT−IVを適用することで達成できる。50%のオーバーラップにより、ブロックtに対するウィンドウの左半分は、先行するブロック、すなわちブロックt−1の右半分と重複する。2個の連続するブロックt−1とブロックtの重複する部分は時間ドメインの中で前処理される。すなわち、上記変換に先立ち、図1内の入力10から出力12の間で下記のように処理される。
Figure 0003814611
波型記号を付して示された値は、図1の出力12の値を示し、他方、上記の式内で波型記号を付けずにx値として示される値は、図1の入力10の値および/または選択手段16の後の値を示す。変数(running index)kは0からN/2−1まで変化し、wはウィンドウ関数を表す。
ウィンドウ関数wのためのTDACの条件から、以下の式が有効となる。
Figure 0003814611
ある所定の角度αk ,k=0,…,N/2−1について、この時間ドメインにおける前処理は、上述のように、ギブンズ回転として記載されてもよい。
ギブンズ回転の角度αは以下のようにウィンドウ関数wに依存する。
Figure 0003814611
留意すべき点は、このTDACの条件が満たされる限りにおいては、いかなるウィンドウ関数wも用いることができるという点である。
以下に、図2を参照しながらカスケードエンコーダおよびデコーダを説明する。1個のウィンドウで一緒にウィンドウ化された時間離散サンプル値x(0)〜x(2N−1)は、図1内の手段16により以下のように選択される。つまり、ウィンドウの第1クォータからサンプル値x(0)が選択され、ウィンドウの第2クォータからサンプル値x(N−1)が選択され、手段16の出力においてベクトルを形成する。途中で交差する矢印は、DCT−IVのブロックの入力において整数ウィンドウ化サンプル値を得るため、手段18と20、手段22と24、および/または手段26と28のリフティングマトリクスによる乗算とそれに続くラウンディングとを概略的に示す。
上述のような最初のベクトルが処理された時、次に、ウィンドウの第1クォータからサンプル値x(N/2−1)が選択され、ウィンドウの第2クォータからサンプル値x(N/2)が選択されて2番目のベクトルが形成され、その後図1に示されたアルゴリズムによって処理される。上記と同様に、ウィンドウの第1および第2クォータからの他の全てのサンプル値が処理される。同様の処理が第1ウィンドウの第3および第4クォータに対しても実行される。この時点で、出力12において2N個のウィンドウ化された整数サンプル値が存在し、これらは次に、図2に示されるように、DCT−IVに対して入力される。特に、第2および第3クォータの整数ウィンドウ化サンプル値がDCTに対して入力される。ウィンドウの第1クォータの整数ウィンドウ化サンプル値は、先行するウィンドウの第4クォータの整数ウィンドウ化サンプル値と一緒に、先行するDCT−IV内で処理される。これと同様に、図2内の第4クォータの整数ウィンドウ化サンプル値は、後続ウィンドウの第1クォータのサンプル値と一緒に、DCT−IVに対して入力される。図2に示す中間の整数DCT−IVは、N個の整数スペクトル値y(0)からy(N−1)までを供給する。これらの整数スペクトル値は、次に、いかなる中間の量子化をも必要とせず、単純にエントロピー符号化を施されてもよい。なぜなら、本発明のウィンドウ化と変換とは、整数出力値を提供するからである。
図2の右半分には、デコーダが示されている。逆変換と逆ウィンドウ化とからなるデコーダは、エンコーダとは逆に操作する。図2に示すように、DCT−IVの逆変換のために、逆DCT−IVが使用されてもよいことは既に公知である。本発明によれば、図2に示すように、逆DCT−IVの出力値は、先行する変換および/または後続の変換の対応する値と共に逆処理され、その結果、逆DCT−IVの出力における整数ウィンドウ化サンプル値、および/または前後の変換の出力における整数ウィンドウ化サンプル値から、時間離散オーディオサンプル値x(0)〜x(2N−1)が生成される。
出力側の操作は、本発明によれば、逆ギブンズ回転により実行される。すなわち、ブロック26と28、ブロック22と24、および/またはブロック18と20を逆方向に通過することになる。これは、方程式(1)の第2リフティングマトリクスにより詳細に表されている。もし、(エンコーダ内で)第2結果ベクトルが、ラウンディングされた第1結果ベクトルに第2リフティングマトリクスを乗算することで形成されるならば(手段22)、その結果は以下の式に示される。
Figure 0003814611
上記の式の右側にある値x,yは整数である。しかし、sinαの値は整数ではない。そこで、ラウンディング関数rが以下の方程式のように導入されなければならない。
Figure 0003814611
上記手段24はこの操作を実行する。
逆マッピング(デコーダにおける)は、以下のように定義される。
Figure 0003814611
ラウンディング操作の前にあるマイナス記号から自明なことは、リフティングステップの整数近似値は、いかなる誤差も導入されずに逆転されることができるということである。3つの各リフティングステップにおいてこの近似法を適用する結果、ギブンズ回転の整数近似値を得ることができる。(エンコーダ内で)ラウンディングされた回転は、(デコーダ内で)誤差を導入せずに逆回転させることができる。つまり、ラウンディングされた逆リフティングステップを逆の順序で実行することで、誤差を導入せずに逆回転させることが可能である。換言すれば、復号化において、図1に示されたアルゴリズムを下から上へという順序で実行すれば可能である。
もし、ラウンディング関数rが点対称であれば、逆ラウンディングされた回転は、角度−αでラウンディングされた回転と同一であり、次の式が成り立つ。
Figure 0003814611
この場合、デコーダのため、すなわち逆ギブンズ回転のためのリフティングマトリクスは、方程式(1)の“sinα”という表現を“−sinα”という表現に置き換えることで、直ちに結果が得られる。
以下に、オーバーラップウィンドウ42〜46を備えた一般的なMDCTの分解を、図3を参照しながら再度説明する。ウィンドウ40〜46は、それぞれ50%のオーバーラップを持つ。各ウィンドウにおいて、ギブンズ回転は最初にウィンドウの第1および第2クォータ内および/またはウィンドウの第3および第4クォータ内で実行される。これは、矢印48により図式的に示されている。次に、回転する値、すなわちウィンドウ化整数サンプル値は、NからNへの離散コサイン変換(N−to−N−DCT)に入力され、その結果、ウィンドウの第2クォータと第3クォータ、および/または第4クォータと後続のウィンドウの第1クォータとがDCT−IVアルゴリズムにより常に一緒にスペクトル表現へと処理されるようになる。
本発明によれば、通常のギブンズ回転はリフティングマトリクスに分解される。これらのリフティングマトリクスの乗算は順に実行され、各リフティングマトリクスの乗算後にラウンディングステップが実行される。そのため、浮動小数点数が発生すると直ちにラウンディングされるので、結果ベクトルと(次の)リフティングマトリクスとの各乗算の前において、結果ベクトルは整数しか含まない。
以上のように、出力値は常に整数となるが、入力値も整数を使用することが望ましい。但し、これに制約されるものではない。なぜなら、CDに記憶されたいかなるPCMサンプル値も整数値であるからであり、その値の領域はビット幅に依存しており、つまりは時間離散デジタル入力値が16ビット値か24ビット値かという点に依存しているからである。さらに、上述のように、逆の順序で逆回転マトリクスを実行することで、全体的な処理を逆転させることが可能である。本発明によれば、MDCTの整数近似値法により、完全な再生すなわち損失のない変換が可能となる。
本発明の変換は、浮動小数点値に代えて整数出力値を提供する。それにより、もし前方変換およびその後の後方変換が実行された場合に、誤差が導入されずに完全な再生を実現できる。本発明の望ましい実施例によれば、この変換は変形離散コサイン変換に代わるものである。回転への分解と、リフティングステップへの回転の分解とが可能であれば、他の変換方法もまた整数で実行可能であろう。
本発明の整数MDCTは、MDCTの最も望ましい特性を提供する。オーバーラップ構造を備え、その結果として、オーバーラップなしのブロック変換より良好な周波数選択性を得ることができる。変換に先立ちウィンドウ化の時に既に考慮されていたTDAC関数を基礎として、臨界サンプリングが維持され、その結果、1つのオーディオ信号を表すスペクトル値の全体数が入力サンプル値の全体数と等しくなる。
浮動小数点サンプル値を提供する他の通常MDCTと比較して、本発明の整数変換は以下の点を開示している。すなわち、通常MDCTと比較して、信号レベルが殆どないところではノイズはスペクトル領域でのみ増大し、他方、意味のある信号レベルの中ではこのノイズの増大は認識されないであろう。この目的のために、本発明の整数処理はハードウェアによる能率的な実施に適している。なぜなら、乗算ステップのみが使用されるからであり、それは容易にシフト/加算ステップに分解され、つまりはハードウェアで容易かつ迅速に実行可能であるからである。
本発明の整数変換は、オーディオ信号の良好なスペクトル表現を提供し、かつ整数領域に留まるものである。もし、オーディオ信号の調性部分(tonal parts)に適用される場合には、これにより、良好なエネルギー集中が得られる。そのため、図1に示す本発明のウィンドウ化/変換をエントロピーエンコーダとカスケード接続することで、能率的で損失のない符号化機構が構築できるであろう。特に、MPEG AACに使用されているような、エスケープ値を用いた積層符号化は、本発明にとって望ましいものである。適切なコード表に適合するまで全ての値をある所定の冪(power)により縮小し、その後追加的に、除外された最小限の重要性を持つビットを符号化することが望ましい。他の方法としてより大きなコード表を使用する方法があるが、その場合と比較して、上述の方法はコード表を記憶させるための記憶消費量という観点から見て、より経済的である。重要性がほとんどないビット中の所定のものを単純に除外することで、ほとんど損失のないエンコーダを得ることも可能であろう。
特に、調性信号に関しては、整数スペクトル値のエントロピー符号化は高い符号化ゲインを可能にする。信号の一時的な部分に関しては、この符号化ゲインは低い。これは、一時的信号のフラットスペクトル、すなわち0または略0に等しい低い数のスペクトル値に基づくからである。J. Herre, J. D. Johnstonの著書である"Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)" 101, AES Convention, Los Angeles, 1996, Preprint 4384 に記載のように、このフラット部分は、周波数ドメイン内で線形予測を用いることで使用可能となるであろう。他の方法としては、開ループによる予測があり、さらに他の方法としては、閉ループによる予測がある。前者の方法、すなわち開ループによる予測は、TNSと呼ばれるものである。予測の量子化により、結果的に生じる量子化ノイズをオーディオ信号の時間構造に適応させ、聴覚心理オーディオ符号化におけるプリエコーを防止する。損失のないオーディオ符号化のためには、2番目の方法、すなわち閉ループによる予測がより適している。なぜなら、閉ループによる予測は入力信号の正確な再生を可能にするからである。もし、この技術が本発明の技術で生成されたスペクトルに対して適用されれば、整数領域に留まるために、ラウンディングステップは各予測フィルタのステップの後で実行されなければならない。逆フィルタおよび同様のラウンディング関数を使用することで、オリジナルスペクトルが正確に再生されるであろう。
データ削減のため、2チャンネル間の余分な重複を利用するために、もしπ/4の角度を持つラウンディングされた回転が使用されるならば、損失のない限りにおいてミドルサイド符号化(middle-side encoding)を用いてもよい。ステレオ信号の左右のチャネルの合計と差とを計算する他の方法と比較して、ラウンディングされた回転はエネルギーの集中という利点がある。標準MPEG AACで実行されているように、いわゆるジョイントステレオ符号化技術の使用は、各バンドに対してオンまたはオフさせてもよい。2チャンネル間の余分な重複をより柔軟な方法で減少させることができるように、さらなる回転角度もまた考慮してもよい。
時間離散オーディオサンプル値を処理して整数値を得るための本発明に係る装置のブロック図である。 本発明の望ましい実施例に従った、ギブンズ回転におけるMDCTおよび逆MDCTと、2つのDCT(離散コサイン変換)タイプIV操作とを示す分解概要図である。 順に50%のオーバーラップを伴うMDCTとDCT−IVの操作を示す分解図である。 50%のオーバーラップを伴うMDCTを用いた従来技術のエンコーダを示す概要ブロック回路図である。 図4aのエンコーダによって生成された値を復号化するための従来技術のデコーダを示すブロック図である。
符号の説明
10 入力
14 整数DCT
16 選択手段
18,22,26 リフティングマドリクスによる乗算手段
20,24,28 ラウンディング手段

Claims (22)

  1. オーディオ信号を表す時間離散サンプル値を処理し、整数値を得る方法であって、
    N個の入力値からN個の出力値を生成する変換によって、上記時間離散サンプル値をスペクトル表現に変換するのに用いるウィンドウ化時間離散サンプル値を得るために、上記時間離散サンプル値を2N個の時間離散サンプル値に対応する長さを持つ1つのウィンドウ(W)でウィンドウ化するステップを含み、
    上記ウィンドウ化のステップは、
    1つの時間離散サンプル値を上記ウィンドウの1つのクォータから選択し、もう1つの時間離散サンプル値を上記ウィンドウの他の1つのクォータから選択して、時間離散サンプル値の1つのベクトルを得るサブステップ(16)と、
    上記ベクトルに対し回転マトリクスを適用するサブステップであって、この回転マトリクスのディメンションは上記ベクトルのディメンションと一致し、さらに上記回転マトリクスは複数のリフティングマトリクスにより表現され、リフティングマトリクスは上記ウィンドウ(W)に依存しかつ1でも0でもない成分を1つだけ持つものであるサブステップとを含み、
    上記回転マトリクスを適用するサブステップは、
    上記ベクトルに1つのリフティングマトリクスを乗算(18)し、第1結果ベクトルを得るサブステップと、
    上記第1結果ベクトルの要素を、実数を整数にマッピングするラウンディング関数(r)でラウンディング(20)し、ラウンディングされた第1結果ベクトルを得るサブステップと、
    全てのリフティングマトリクスが処理されるまで、上記ラウンディングされた第1結果ベクトルに他のリフティングマトリクスを乗算(22)し、得られた結果ベクトルの要素をラウンディング(24)する処理を順に実行し、その結果、上記ウィンドウの上記1つのクォータからの整数ウィンドウ化サンプル値と上記ウィンドウの上記他の1つのクォータからの整数ウィンドウ化サンプル値とを持つ回転されたベクトルを得るサブステップと、を含むことを特徴とする方法。
  2. 請求項1に記載の方法において、
    上記リフティングマトリクスは2×2マトリクスであり、3つのリフティングマトリクスの全てを各回転マトリクスにおいて実行することを特徴とする方法。
  3. 請求項1または2に記載の方法において、
    上記ベクトルまたはラウンディングされた結果ベクトルを乗算するサブステップは、部分要素を形成しかつその部分要素を合計することで実行され、この合計の前に非整数部分要素に対し上記ラウンディングステップが実行されることを特徴する方法。
  4. 請求項1乃至3のいずれかに記載の方法において、
    上記ウィンドウは2の累乗に等しい2N個のサンプル値を備えることを特徴とする方法。
  5. 請求項1乃至4のいずれかに記載の方法において、
    上記回転マトリクスはギブンズ回転マトリクスであることを特徴とする方法。
  6. 請求項1乃至5のいずれかに記載の方法であって、
    上記ウィンドウの上記クォータの全ての時間離散サンプル値に対して上記ウィンドウ化ステップを実行し、2N個のウィンドウ化された整数サンプル値を得るステップと、
    上記ウィンドウの第2クォータおよび第3クォータのウィンドウ化された整数サンプル値を持つ値に対して、整数離散コサイン変換により、N個のウィンドウ化された整数サンプル値をスペクトル表現に変換(14)し、N個の整数スペクトル値を得るステップと、をさらに備えることを特徴とする方法。
  7. 請求項6に記載の方法において、
    上記整数離散コサイン変換は、非対称基底関数を含む離散コサイン変換であることを特徴とする方法。
  8. 請求項7に記載の方法において、
    上記離散コサイン変換は、タイプIVの離散コサイン変換であることを特徴とする方法。
  9. 請求項6乃至8のいずれかに記載の方法において、
    上記離散コサイン変換はギブンズ回転マトリクスに分解され、かつそれが再度リフティングマトリクスに分解されるような離散コサイン変換であり、さらに、リフティングマトリクスによる各乗算の後にラウンディングステップが実行されることを特徴とする方法。
  10. 請求項1乃至9のいずれかに記載の方法において、
    上記回転マトリクスは次式で表され、
    Figure 0003814611
    上記リフティングマトリクスは次式で表され、
    Figure 0003814611
    上記角度αは次式により定義され、
    Figure 0003814611
    kは時間離散サンプル値の時間指数であって、0から2N−1まで変化し、wはウィンドウ関数を示すことを特徴とする方法。
  11. 請求項1乃至10のいずれかに記載の方法において、
    次の条件式がウィンドウ関数wについて満たされることを特徴とする方法。
    Figure 0003814611
  12. 請求項11に記載の方法において、
    上記ウィンドウ関数はサインウィンドウであることを特徴とする方法。
  13. 請求項1乃至12のいずれかに記載の方法において、
    上記時間離散サンプル値は整数であることを特徴とする方法。
  14. 請求項6に記載の方法であって、
    上記整数スペクトル値をエントロピー符号化し、エントロピー符号化された上記オーディオ信号を得るステップを備えることを特徴とする方法。
  15. 請求項6に記載の方法であって、
    上記整数スペクトル値を、聴覚心理マスキングしきい値を考慮しながら量子化し、量子化ノイズが略マスキングされるように量子化された量子化スペクトル値を得るステップを備えることを特徴とする方法。
  16. 請求項1に記載の方法により生成された整数値を逆処理する方法であって、
    上記回転されたベクトルを、上記回転マトリクスとは逆の回転マトリクスに適用するステップであって、上記逆回転マトリクスは複数の逆リフティングマトリクスにより表され、1つの逆リフティングマトリクスは上記ウィンドウ(W)に依存しかつ1でも0でもない成分を1つだけ持つステップを備え、
    上記適用ステップは、
    上記回転されたベクトルに対し、上記整数値を生成した時に使用された上記リフティングマトリクスとは逆の1つの逆リフティングマトリクスを乗算し、第1逆結果ベクトルを得るサブステップと、
    上記第1逆結果ベクトルの要素を上記ラウンディング関数でラウンディングし、ラウンディングされた第1逆結果ベクトルを得るサブステップと、
    上記整数値を生成した時とは逆の順序で、上記乗算およびラウンディングのサブステップをさらなる逆リフティングマトリクスを用いて順に実行し、その結果、上記ウィンドウの1つのクォータからの整数時間離散サンプル値と上記ウィンドウの他の1つのクォータからの整数時間離散サンプル値とを含む1つの逆処理されたベクトルを得るサブステップと、を含むことを特徴とする方法。
  17. 請求項16に記載の方法において、
    上記整数値は請求項2に記載の方法により生成され、かつ整数スペクトル値を含み、
    上記回転されたベクトルを適用するステップより以前に、上記整数離散コサイン変換とは逆の整数離散コサイン変換により上記整数スペクトル値を時間表現に変換し、上記回転されたベクトルを得るステップが実行されることを特徴とする方法。
  18. 請求項16または17に記載の方法において、
    上記ラウンディング関数は点対称であり、上記逆リフティングマトリクスは上記リフティングマトリクスと等しいが回転角が負の回転角となることを特徴とする方法。
  19. 請求項17に記載の方法において、
    上記整数離散コサイン変換は、タイプIVの離散コサイン変換から派生した離散コサイン変換であることを特徴とする方法。
  20. 請求項16乃至19のいずれかに記載の方法において、
    上記逆リフティングマトリクスは、上記対応するリフティングマトリクスと比較して、負となる副対角成分を除き等しいことを特徴する方法。
  21. オーディオ信号を表す時間離散サンプル値を処理し、整数値を得る装置であって、
    N個の入力値からN個の出力値を生成する変換によって、上記時間離散サンプル値をスペクトル表現に変換するのに用いるウィンドウ化時間離散サンプル値を得るために、上記時間離散サンプル値を2N個の時間離散サンプル値に対応する長さを持つウィンドウ(W)でウィンドウ化する手段を含み、
    上記ウィンドウ化する手段は、
    1つの時間離散サンプル値を上記ウィンドウの1つのクォータから選択し、もう1つの時間離散サンプル値を上記ウィンドウの他の1つのクォータから選択して、時間離散サンプル値のベクトルを得る手段(16)と、
    上記ベクトルに対し回転マトリクスを適用する手段であって、この回転マトリクスのディメンションは上記ベクトルのディメンションと一致し、さらに上記回転マトリクスは複数のリフティングマトリクスにより表現され、リフティングマトリクスは上記ウィンドウ(W)に依存しかつ1でも0でもない成分を1つだけ持つものである手段とを含み、上記回転マトリクスを適用する手段はさらに、
    上記ベクトルに1つのリフティングマトリクスを乗算(18)し、第1結果ベクトルを得る手段と、
    上記第1結果ベクトルの要素を、実数を整数にマッピングするラウンディング関数(r)でラウンディング(20)し、ラウンディングされた第1結果ベクトルを得る手段と、
    全てのリフティングマトリクスが処理されるまで、上記ラウンディングされた第1結果ベクトルに他のリフティングマトリクスを乗算(22)し、得られた結果ベクトルの要素をラウンディング(24)する処理を順に実行し、その結果、上記ウィンドウの上記1つのクォータからの整数ウィンドウ化サンプル値と上記ウィンドウの上記他の1つのクォータからの整数ウィンドウ化サンプル値とを持つ回転されたベクトルを得る手段と、を含むことを特徴とする装置。
  22. 請求項21に記載の装置により生成された整数値を逆処理する装置であって、
    上記回転されたベクトルを、上記回転マトリクスとは逆の回転マトリクスに適用する手段であって、上記逆回転マトリクスは複数の逆リフティングマトリクスにより表され、1つの逆リフティングマトリクスは上記ウィンドウに依存しかつ1でも0でもない成分を1つだけ持つものである手段を備え、
    上記適用する手段は、
    上記回転されたベクトルに対し、上記整数値を生成した時に最後に使用された上記リフティングマトリクスとは逆の1つの逆リフティングマトリクスを乗算して、第1逆結果ベクトルを得るための手段と、
    上記第1逆結果ベクトルの要素を上記ラウンディング関数でラウンディングし、ラウンディングされた第1逆結果ベクトルを得るための手段と、
    上記整数値を生成した時とは逆の順序で、上記乗算およびラウンディングをさらなる逆リフティングマトリクスを用いて順に実行し、その結果、上記ウィンドウの1つのクォータからの整数時間離散サンプル値と上記ウィンドウの他の1つのクォータからの整数時間離散サンプル値とを含む1つの逆処理されたベクトルを得る手段と、を含むことを特徴とする装置。
JP2003505919A 2001-06-18 2002-05-28 時間離散オーディオサンプル値を処理する方法と装置 Expired - Lifetime JP3814611B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10129240A DE10129240A1 (de) 2001-06-18 2001-06-18 Verfahren und Vorrichtung zum Verarbeiten von zeitdiskreten Audio-Abtastwerten
PCT/EP2002/005865 WO2002103684A1 (de) 2001-06-18 2002-05-28 Verfahren und vorrichtung zum verarbeiten von zeitdiskreten audio-abtastwerten

Publications (3)

Publication Number Publication Date
JP2004531151A JP2004531151A (ja) 2004-10-07
JP2004531151A5 JP2004531151A5 (ja) 2005-09-02
JP3814611B2 true JP3814611B2 (ja) 2006-08-30

Family

ID=7688520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003505919A Expired - Lifetime JP3814611B2 (ja) 2001-06-18 2002-05-28 時間離散オーディオサンプル値を処理する方法と装置

Country Status (7)

Country Link
US (1) US7512539B2 (ja)
EP (1) EP1397799B1 (ja)
JP (1) JP3814611B2 (ja)
AT (1) ATE282883T1 (ja)
DE (2) DE10129240A1 (ja)
HK (1) HK1060431A1 (ja)
WO (1) WO2002103684A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10331803A1 (de) * 2003-07-14 2005-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Umsetzen in eine transformierte Darstellung oder zum inversen Umsetzen der transformierten Darstellung
US7542815B1 (en) * 2003-09-04 2009-06-02 Akita Blue, Inc. Extraction of left/center/right information from two-channel stereo sources
JP4429316B2 (ja) * 2003-09-29 2010-03-10 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ 時間ドメインから周波数ドメインへ及びそれとは逆にデジタル信号のドメイン変換を実行する装置及び媒体
DE10345996A1 (de) 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
DE10345995B4 (de) * 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
EP1564650A1 (en) * 2004-02-17 2005-08-17 Deutsche Thomson-Brandt Gmbh Method and apparatus for transforming a digital audio signal and for inversely transforming a transformed digital audio signal
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US8548815B2 (en) * 2007-09-19 2013-10-01 Qualcomm Incorporated Efficient design of MDCT / IMDCT filterbanks for speech and audio coding applications
RU2451998C2 (ru) * 2007-09-19 2012-05-27 Квэлкомм Инкорпорейтед Эффективный способ проектирования набора фильтров для mdct/imdct в приложениях для кодирования речи и аудиосигналов
US20100265800A1 (en) * 2009-04-16 2010-10-21 Graham Paul Eatwell Array shape estimation using directional sensors
KR101418227B1 (ko) * 2010-11-24 2014-07-09 엘지전자 주식회사 스피치 시그널 부호화 방법 및 복호화 방법
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
KR101424372B1 (ko) * 2011-02-14 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 랩핑 변환을 이용한 정보 신호 표현
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
US9613634B2 (en) * 2014-06-19 2017-04-04 Yang Gao Control of acoustic echo canceller adaptive filter for speech enhancement
US9703991B2 (en) 2015-09-09 2017-07-11 Raytheon Company Discrete time current multiplier circuit
US9923549B2 (en) 2015-09-09 2018-03-20 Raytheon Company Discrete time polyphase channelizer
US10200075B2 (en) 2016-03-04 2019-02-05 Raytheon Company Discrete time analog signal processing for simultaneous transmit and receive
KR102615903B1 (ko) 2017-04-28 2023-12-19 디티에스, 인코포레이티드 오디오 코더 윈도우 및 변환 구현들

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0227752A (ja) 1988-07-15 1990-01-30 Seiko Epson Corp 半導体装置の製造方法
US5748786A (en) 1994-09-21 1998-05-05 Ricoh Company, Ltd. Apparatus for compression using reversible embedded wavelets
JP2914226B2 (ja) 1995-06-16 1999-06-28 日本電気株式会社 可逆変換を可能にするディジタル信号の変換符号化方式
US6058215A (en) * 1997-04-30 2000-05-02 Ricoh Company, Ltd. Reversible DCT for lossless-lossy compression
JP3003629B2 (ja) 1997-06-18 2000-01-31 日本電気株式会社 ディジタル信号送信回路
US6073153A (en) * 1998-06-03 2000-06-06 Microsoft Corporation Fast system and method for computing modulated lapped transforms
US6119080A (en) * 1998-06-17 2000-09-12 Formosoft International Inc. Unified recursive decomposition architecture for cosine modulated filter banks
US6487574B1 (en) * 1999-02-26 2002-11-26 Microsoft Corp. System and method for producing modulated complex lapped transforms
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
JP3710342B2 (ja) 1999-09-07 2005-10-26 キヤノン株式会社 ディジタル信号処理装置および方法および記憶媒体
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
US7437394B2 (en) * 2002-06-19 2008-10-14 The Aerospace Corporation Merge and split discrete cosine block transform method
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7315822B2 (en) * 2003-10-20 2008-01-01 Microsoft Corp. System and method for a media codec employing a reversible transform obtained via matrix lifting

Also Published As

Publication number Publication date
DE10129240A1 (de) 2003-01-02
ATE282883T1 (de) 2004-12-15
US7512539B2 (en) 2009-03-31
JP2004531151A (ja) 2004-10-07
US20040220805A1 (en) 2004-11-04
HK1060431A1 (en) 2004-08-06
EP1397799A1 (de) 2004-03-17
DE50201579D1 (de) 2004-12-23
EP1397799B1 (de) 2004-11-17
WO2002103684A1 (de) 2002-12-27

Similar Documents

Publication Publication Date Title
JP3814611B2 (ja) 時間離散オーディオサンプル値を処理する方法と装置
US8195730B2 (en) Apparatus and method for conversion into a transformed representation or for inverse conversion of the transformed representation
US7275036B2 (en) Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
JP4081447B2 (ja) 時間離散オーディオ信号を符号化する装置と方法および符号化されたオーディオデータを復号化する装置と方法
JP4439522B2 (ja) 離散値のシーケンスを有する信号を処理するための装置および方法
US7343287B2 (en) Method and apparatus for scalable encoding and method and apparatus for scalable decoding
US7873227B2 (en) Device and method for processing at least two input values
KR101056253B1 (ko) 오디오 서브밴드 값을 생성하는 장치 및 방법과 시간 영역 오디오 샘플을 생성하는 장치 및 방법
EP2479750B1 (en) Method for hierarchically filtering an input audio signal and method for hierarchically reconstructing time samples of an input audio signal
JP6147337B2 (ja) サブバンド領域内での自由選択可能な周波数偏移のための装置、方法およびコンピュータプログラム
Chen et al. Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec
Herre Audio Coding Based on Integer Transforms

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060605

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3814611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110609

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120609

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130609

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term