JP2007522511A - オーディオ符号化 - Google Patents

オーディオ符号化 Download PDF

Info

Publication number
JP2007522511A
JP2007522511A JP2006552550A JP2006552550A JP2007522511A JP 2007522511 A JP2007522511 A JP 2007522511A JP 2006552550 A JP2006552550 A JP 2006552550A JP 2006552550 A JP2006552550 A JP 2006552550A JP 2007522511 A JP2007522511 A JP 2007522511A
Authority
JP
Japan
Prior art keywords
audio
value
version
values
parameterized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006552550A
Other languages
English (en)
Other versions
JP4444297B2 (ja
Inventor
ゲラルド シューラー
シュテファン ヴァブニック
イェンス ヒルシュフェルト
マンフレード ルツキ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2007522511A publication Critical patent/JP2007522511A/ja
Application granted granted Critical
Publication of JP4444297B2 publication Critical patent/JP4444297B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cereal-Derived Products (AREA)
  • Stereophonic System (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

複数のオーディオ値から成るシーケンスのオーディオ信号の符号化信号への符号化は、複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る第1のブロックのための第1のリスニング閾値と複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る第2のブロックのための第2のリスニング閾値とを決定するステップと、その伝達関数が第1のリスニング閾値の大きさの逆数に概略的に対応するようにパラメータ化可能フィルタの第1のパラメータ化値のバージョンを計算し、さらにその伝達関数が第2のリスニング閾値の大きさの逆数に概略的に対応するようにパラメータ化可能フィルタの第2のパラメータ化値のバージョンを計算するステップと、複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る所定のブロックを、所定のブロックに対応するフィルタリングされた複数のオーディオ値から成るブロックを得るために、第2のパラメータ化値のバージョンに応じて所定の方法で決定される所定のパラメータ化値を用いてパラメータ化可能フィルタによってフィルタリングするステップと、フィルタリングおよび量子化された複数のオーディオ値から成るブロックを得るために、フィルタリングされた複数のオーディオ値を量子化するステップと、第1のパラメータ化値のバージョンと第2のパラメータ化値のバージョンとの間の差を少なくとも含む、第1のパラメータ化値のバージョンと第2のパラメータ化値のバージョンとの組み合わせを形成するステップと、フィルタリングおよび量子化された複数のオーディオ値と、第1のパラメータ化値のバージョンとを導出しえる、その組み合わせを含む情報を符号化信号に統合するステップとを含む。
【選択図】図1

Description

本発明は、一般のオーディオ符号器、オーディオ復号器およびオーディオ符号化に関し、特に、短い遅延時間でオーディオ信号を符号化できるオーディオ符号化に関する。
現在最もよく知られているオーディオ圧縮方法は、MPEG−1レイヤIIIである。この圧縮方法では、オーディオ信号のサンプルまたはオーディオ値が非可逆方法で符号化信号に符号化される。言い換えると、圧縮時に元のオーディオ信号の不要成分および冗長度が削減されるかまたは理想的に取り除かれる。これを達成するために、同時および時間的マスキングが心理音響モデルによって認識され、すなわち、オーディオ信号に応じて時間的に変化するマスキング閾値が、特定の周波数の複数のトーンにおいて人間の聴力が知覚しえる音量を示して計算または決定される。この情報は、マスキング閾値に応じて、オーディオ信号のスペクトル値をより細かくまたはより粗く量子化しまたは全く量子化せずに、符号化信号に統合することによって、信号の符号化に次々に使われる。
オーディオデータを圧縮方法で、しかもできる限り小さい遅延時間で、ビットレートが制限された伝送チャンネルで転送する必要があるとき、たとえばMP3フォーマットなどのオーディオ圧縮方法はそれらの適用性に限界を感じる。いくらかのアプリケーションでは、たとえばオーディオ情報のアーカイブ時など、遅延時間は役割を果たさない。しかしながら、電話会議などでタイムクリティカルなオーディオ信号が無線スピーカまたはマイクロホンで送信される所では、時には「超低遅延符号器」と呼ばれる遅延の小さいオーディオ符号器が必要となる。これらのアプリケーションの分野については、シュラー・ジー(Schuller G.)らの論文「適応プレおよびポストフィルタと可逆圧縮とを用いた知覚オーディオ符号化(Perceptual Audio Coding using Adaptive Pre− and Post−Filters and Lossless Compression)」、スピーチおよびオーディオ処理上のIEEE論文集(IEEE Transactions on Speech and Audio Processing)、第10巻、第6号、2002年9月、p.379−390に、不要成分削減および冗長度削減が1回の変換ではなく、それぞれ別個の2回の変換に基づいて実行されるオーディオ符号化が示唆されている。
この原理について、図12および図13を参照しながら以下に説明する。符号化は、オーディオ信号902とともに開始され、オーディオ信号902は、既にサンプリングされているので、複数のオーディオ値またはサンプル値906から成るシーケンス904として既に存在し、複数のオーディオ値906の時間的順序は、矢印908で示されている。リスニング閾値は、「ブロック#」による上昇する記数法によって特徴付けられる、複数のオーディオ値906から成る連続するブロックのための心理音響モデルによって計算される。たとえば、図13に示す図面において、周波数fに関して、対数単位で、グラフaは128個のオーディオ値906から成る信号ブロックのスペクトルをプロットしたものであり、グラフbは心理音響モデルによって計算されたようなマスキング閾値をプロットしたものである。マスキング閾値は、上述のように、その強度までの周波数、すなわちマスキング閾値bより下のすべてのトーンが、人間の耳には聞こえないままである限度を示す。ブロックごとに計算されるリスニング閾値に基づいて、不要成分削減は、パラメータ化可能フィルタおよびその後の量子化器を制御することによって達成される。パラメータ化可能フィルタについては、その周波数応答がマスキング閾値の大きさの逆数に対応するように、パラメータ化値が計算される。このパラメータ化値は図12にx#(i)で示される。
複数のオーディオ値906のフィルタリング後に、たとえば次の整数への丸め動作などのような一定のステップサイズでの量子化が行われる。これによって生じる量子化ノイズは、ホワイトノイズである。復号器側では、フィルタリングされた信号が、伝達関数がマスキング閾値自体の大きさに設定されているパラメータ化可能フィルタによって再び「再変換」される。これによって、フィルタリングされた信号は再び復号化されるばかりでなく、復号器側の量子化ノイズがマスキング閾値のフォームまたはシェイプに調整される。量子化ノイズをできる限り正確にマスキング閾値に対応するために、フィルタリングされた信号に量子化前に適用される増幅値a#が、各パラメータセットまたは各パラメータ化値のための符号器側で計算される。復号器側で再変換を実行するために、増幅値aおよびパラメータ化値xは、実際のメインデータ、すなわちフィルタリングおよび量子化された複数のオーディオ値912から離れたサイド情報910として符号器に転送される。冗長度削減914のために、このデータ、すなわちサイド情報910およびメインデータ912は、符号化信号が得られる方法である、可逆圧縮すなわちエントロピー符号化を受ける。
上述の論文は、128個のサンプル値906から成るサイズをブロックサイズとして提案している。これは、32kHzのサンプリングレートで8msの比較的短い遅延を可能にする。詳細な実施に関して、この論文には、サイド情報の符号化の効率を向上するために、前に転送されるパラメータセットと比較して十分な変化がある場合にのみ、すなわち、変化が特定の閾値を超える場合にのみ、サイド情報、すなわち係数x#およびa#が転送されると記載されている。さらに、実施は、好ましくは、現在のパラメータセットがそれぞれのブロックに属するすべてのサンプル値に直接的に適用されるのではなく、フィルタ係数x#の線形補間が可聴アーティファクトを回避するために用いられるように、実行されると記載されている。フィルタ係数の線形補間を実行するために、不安定性の発生を防止するために格子構造がフィルタのために示唆されている。また、この論文には、制御されたビットレートを有する符号化信号が要望される場合について、可聴雑音が発生しても、符号化が複雑なオーディオ信号のサイトにおいてビットレートを削減できるように、フィルタリングされた、時間依存の増幅ファクタaでスケーリングされる信号を1に等しくないファクタで選択的に乗算または減衰することが示唆されている。
上述の論文に記載されているオーディオ符号化方式は、多くのアプリケーションにおいて十分な程度にまで遅延時間を既に削減しているが、上述の方式における問題は、プレフィルタと以降称する符号器側のフィルタの伝達関数またはマスキング閾値を転送する必要があるために、所定の閾値を超える場合にのみフィルタ係数が転送されるにしても、転送チャンネルが比較的高い程度にロードされる点である。
上述の符号化方式の別の欠点は、転送されるパラメータセットx#によってマスキング閾値またはその逆数を復号器側で利用できるようにする必要があるために、一方では最小可能ビットレートまたは高圧縮率と、他方では最大可能な高精度の近似またはマスキング閾値若しくはその逆数のパラメータ化値との間で、妥協をしなければならない点である。したがって、上述のオーディオ符号化方式によってマスキング閾値に調整される量子化ノイズは、一部の周波数範囲において必然的にマスキング閾値を超えるので、リスナーに可聴オーディオ雑音が発生することになる。たとえば、図13は、復号器側のパラメータ化可能フィルタのパラメータ化された周波数応答をグラフcで示す。この図からわかるように、ポストフィルタと以降称する復号器側のフィルタの伝達関数がマスキング閾値bを超える範囲が存在する。この問題は、パラメータ化値がパラメータ化値間の十分な変化で断続的に転送されて、その間で補間されるだけであるという事実によって悪化される。フィルタ係数x#の補間は、その論文に示唆されているように、増幅値a#がノードからノードまでまたは新しいパラメータ化値から新しいパラメータ化値までで一定に保たれている場合、可聴雑音を発生させる。その論文で示唆されている補間がサイド情報値a#、すなわち転送される増幅値に適用されるとしても、可聴オーディオアーティファクトが復号器側に到達するオーディオ信号に残りえる。
図12および図13によるオーディオ符号化方式の別の問題は、周波数選択フィルタリングのために、フィルタリングされた信号が予測不可能なフォームを取りえることであり、特に多くの個々の調和波がランダムに重ね合わされるために、符号化信号の1つまたはいくつかの個々のオーディオ値がまとめられて非常に大きな値になるが、その発生が稀であることから以降の冗長度削減における圧縮率が低下する。
シュラー・ジー(Schuller G.)らの論文「適応プレおよびポストフィルタと可逆圧縮とを用いた知覚オーディオ符号化(Perceptual Audio Coding using Adaptive Pre− and Post−Filters and Lossless Compression)」、スピーチおよびオーディオ処理上のIEEE論文集(IEEE Transactions on Speech and Audio Processing)、第10巻、第6号、2002年9月、p.379−390
本発明の目的は、より効果的なオーディオ符号化方式を提供することである。
この目的は、請求項8または請求項10に記載の方法、および請求項1または請求項9に記載の装置によって達成される。
複数のオーディオ値から成るシーケンスのオーディオ信号の符号化信号への本発明の符号化は、複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る第1のブロックのための第1のリスニング閾値と複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る第2のブロックのための第2のリスニング閾値とを決定するステップと、その伝達関数が第1のリスニング閾値の大きさの逆数に概略的に対応するようにパラメータ化可能フィルタの第1のパラメータ化値のバージョンを計算し、さらにその伝達関数が第2のリスニング閾値の大きさの逆数に概略的に対応するようにパラメータ化可能フィルタの第2のパラメータ化値のバージョンを計算するステップと、複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る所定のブロックを、所定のブロックに対応するフィルタリングされた複数のオーディオ値から成るブロックを得るために、第2のパラメータ化値のバージョンに応じて所定の方法で決定される所定のパラメータ化値を用いてパラメータ化可能フィルタによってフィルタリングするステップと、フィルタリングおよび量子化された複数のオーディオ値から成るブロックを得るために、フィルタリングされた複数のオーディオ値を量子化するステップと、第1のパラメータ化値のバージョンと第2のパラメータ化値のバージョンとの間の差を少なくとも含む、第1のパラメータ化値のバージョンと第2のパラメータ化値のバージョンとの組み合わせを形成するステップと、フィルタリングおよび量子化された複数のオーディオ値と、第1のパラメータ化値のバージョンとを導出しえる、その組み合わせを含む情報を符号化信号に統合するステップとを含む。
本発明の中心思想は、より高い圧縮率が連続するパラメータ化値の差を転送することによって達成されうることである。
さらに、パラメータ化値の転送がそれらの間に十分な差がある場合にのみ行われれば、本発明の結果は、特に、この場合も、パラメータ化値の差が最小差目安より下でなくても、いずれにしてもパラメータ化値ではなく、2つのパラメータ化値間の差の転送が圧縮率を上げるので、符号器側で差を計算し、復号器側で合計を計算するさらなる複雑さを補う以上の効果がある。
本発明の一実施形態によると、連続するパラメータ化値間の純粋な差が転送されるが、別の実施形態によると、新しいノードのパラメータ化値が転送される最小閾値がこれらの差から減算される。
本発明の好ましい実施形態が添付図面を参照して後に詳細に説明されるが、これらの図としては:
図1は、本発明の一実施形態によるオーディオ符号器のブロック回路図を示し、
図2は、データ入力時における図1のオーディオ符号器の機能モードを説明するためのフローチャートを示し、
図3は、入力オーディオ信号の心理音響モデルによる評価に関して図1のオーディオ符号器の機能モードを説明するためのフローチャートを示し、
図4は、心理音響モデルによって得られる複数のパラメータの入力オーディオ信号への適用に関して図1のオーディオ符号器の機能モードを説明するためのフローチャートを示し、
図5aは、入力オーディオ信号と、それを構成する複数のオーディオ値から成るシーケンスと、複数のオーディオ値に関して図4の動作ステップとを説明するための概略図を示し、
図5bは、符号化信号の構成を説明するための概略図を示し、
図6は、符号化信号までの最終処理に関して図1のオーディオ符号器の機能モードを説明するためのフローチャートを示し、
図7aは、量子化ステップ関数の一実施形態を示す図を示し、
図7bは、量子化ステップ関数の別の実施形態を示す図を示し、
図8は、本発明の一実施形態による図1のオーディオ符号器によって符号化されたオーディオ信号を復号化できるオーディオ符号器のブロック回路図を示し、
図9は、データ入力時における図8の復号器の機能モードを説明するためのフローチャートを示し、
図10は、フィルタリング、量子化およびプレデコードされたオーディオデータのバッファリングと、対応するサイド情報がない複数のオーディオブロックの処理とに関して図8の復号器の機能モードを説明するためのフローチャートを示し、
図11は、実際の逆フィルタリングに関して図8の復号器の機能モードを説明するためのフローチャートを示し、
図12は、短い遅延時間を有する従来のオーディオ符号化方式を説明するための概略図を示し、
図13は、オーディオ信号のスペクトルと、そのリスニング閾値と、復号器内のポストフィルタの伝達関数とを代表的に説明するための図を示す。
図1は、本発明の一実施形態によるオーディオ符号器を示す。このオーディオ符号器は、その全体が参照符号10で示され、図5aを参照しながら後で詳しく説明するように、複数のオーディオ値または複数のサンプル値から成るシーケンスで構成される符号化されるオーディオ信号を受け取るデータ入力部12と、符号化信号が出力されるデータ出力部とを含み、符号化信号の情報の内容については、後で図5bを参照しながら詳しく説明する。
図1のオーディオ符号器10は、不要成分削減部16と、冗長度削減部18とに分けられる。不要成分削減部16は、リスニング閾値を決定するための手段20と、増幅値を計算するための手段22と、パラメータ化値を計算するための手段24と、ノード比較手段26と、量子化器28と、パラメータ化可能プレフィルタ30と、入力FIFO(先入れ先出し)バッファ32と、バッファまたはメモリ38と、乗算器または乗算手段40とを含む。冗長度削減部18は、コンプレッサ34と、ビットレートコントローラ36とを含む。
不要成分削減部16と冗長度削減部18とは、この順で、データ入力部12とデータ出力部14との間に直列に接続される。特に、データ入力部12は、リスニング閾値を決定するための手段20のデータ入力部と、入力バッファ32のデータ入力部とに接続される。リスニング閾値を決定するための手段20のデータ出力部は、決定されたリスニング閾値を送るために、パラメータ化値を計算するための手段24の入力部と、増幅値を計算するための手段22のデータ入力部とに接続される。手段22および24は、リスニング閾値に基づいてパラメータ化値または増幅値を計算し、これらの結果を送るために、ノード比較手段26に接続される。この比較結果に応じて、ノード比較手段26は、以下に説明するように、手段22および24によって計算された結果を入力パラメータまたはパラメータ化値としてパラメータ化可能プレフィルタ30に送る。パラメータ化可能プレフィルタ30は、入力バッファ32のデータ出力部とバッファ38のデータ入力部との間に接続される。乗算器40は、バッファ38のデータ出力部と量子化器28との間に接続される。量子化器28は、乗算またはスケーリングされていないこともあるが、必ず量子化されている、フィルタリングされた複数のオーディオ値を、冗長度削減部18に、より正確にはコンプレッサ34のデータ入力部に送る。ノード比較手段26は、パラメータ化可能プレフィルタ30に送る入力パラメータを導出しえる情報を、冗長度削減部18に、より正確にはコンプレッサ34の別のデータ入力部に送る。ビットレートコントローラは、プレフィルタ30から受け取られたフィルタリングおよび量子化されたオーディオ値が、以下に詳しく説明するように、乗算器40によって適切な被乗数で乗算されるように、制御接続を介して乗算器40の制御入力部に接続される。ビットレートコントローラ36は、乗算器40のための被乗数を適切な方法で決定するために、コンプレッサ34のデータ出力部とオーディオ符号器10のデータ出力部14との間に接続される。各オーディオ値が量子化器40を初めて通過するとき、被乗数は、最初にたとえば1などの適切なスケーリングファクタに設定される。しかしながら、以下に説明するように、ビットレートコントローラ36が複数のオーディオ値から成るブロックの別の通過のための被乗数を変更できるように、バッファ38は、フィルタリングされた各オーディオ値を記憶し続ける。このような変更がビットレートコントローラ36によって指示されていない場合、バッファ38は、このブロックによって占拠されていたメモリを解放してもよい。
図1のオーディオ符号器の構成を上で説明したので、次に図2〜7bを参照しながら、このオーディオ符号器の機能モードを説明する。
図2からわかるように、オーディオ信号は、オーディオ入力部12に到達したときには、オーディオ信号サンプリング50によってアナログオーディオ信号から得られている。オーディオ信号サンプリングは、通常32および48kHzの間である所定のサンプリング周波数で実行される。この結果、データ入力部12には、複数のサンプル値またはオーディオ値から成るシーケンスのオーディオ信号が存在する。オーディオ信号の符号化はブロックベースの方法で行われないが、以下の説明から明らかなように、データ入力部12における複数のオーディオ値は、複数のオーディオブロックを形成するために、最初にステップ52において組み合わされる。複数のオーディオブロックを形成するための組み合わせは、以下の説明から明らかなように、リスニング閾値を決定することが唯一の目的であるために行われるので、リスニング閾値を決定するための手段20の入力段階で行われる。本実施形態においては、連続する128個ずつのオーディオ値が複数のオーディオブロックを形成するために組み合わされ、連続する複数のオーディオブロックが一方では重なり合わないように、また他方では直接隣接し合うように、組み合わせが行われるものと代表的に仮定する。これについて、図5aを参照しながら代表的に簡単に説明する。
図5aの54は、複数のサンプル値から成るシーケンスを示し、各サンプル値は矩形56によって示されている。各サンプル値は説明のために番号が付けられ、明確にするために、シーケンス54の一部のサンプル値だけが示されている。シーケンス54の上の中括弧で示されているように、本実施形態によると、連続する128個のサンプル値が1つのブロックを形成するために組み合わされ、直後の連続する128個のサンプル値が次のブロックを形成する。予防策としてだけ指摘するが、ブロックを形成するための組み合わせは、さまざまな方法で実行することができ、代表的に、ブロック同士を部分的に重ね合わせることも、ブロック間に間隙を設けることも、ブロックを別のブロックサイズにすることも可能であるが、128個から成るブロックサイズは、高オーディオ品質と最小可能遅延時間との間の折り合いがよいことから好適である。
手段20によってステップ52において組み合わされた複数のオーディオブロックはリスニング閾値を決定するための手段20によってブロック単位で処理される一方で、以下に説明するように、パラメータ化可能プレフィルタ30がプレフィルタリングを実行するためにノード比較手段26から複数の入力パラメータを得るまで、入力オーディオ値は入力バッファ32にバッファリング54される。
図3からわかるように、リスニング閾値を決定するための手段20は、ステップ60における検査によって、オーディオブロックの形成または次のオーディオブロックの形成に十分な複数のオーディオ値がデータ入力部12で受け取られたかどうかをモニタし、十分な複数のオーディオ値が入力されると直ちにその処理を開始する。処理可能な完全なオーディオブロックがない場合、手段20は待機する。処理すべき完全なオーディオブロックが存在する場合、リスニング閾値を決定するための手段20は、ステップ62において適切な心理音響モデルに基づいてリスニング閾値を計算する。リスニング閾値を説明するために、図12を、特に、代表的にスペクトルaの現在のオーディオブロックに関して、心理音響モデルに基づいて得られたグラフbを再び参照する。ステップ62において決定されるマスキング閾値は、周波数依存の関数であり、連続する複数のオーディオブロックのために可変であり、オーディオ信号間でも、たとえばロック音楽作品とクラシック音楽作品とでは、かなり異なる。リスニング閾値は、それより下では人間の聴力が雑音を知覚できない閾値を周波数ごとに示す。
Figure 2007522511
以下に詳述する線形補間においてパラメータ化値間に不安定性が生じないように、格子構造がフィルタ30のために使用されることが好ましく、ここで、格子構造のためのフィルタ係数が反射係数を形成するために再パラメータ化される。プレフィルタの設計、係数の計算および再パラメータ化に関するさらなる詳細について、本願明細書の導入部で言及し、参照によって本願明細書に援用したものとするシュラー(Schuller)らによる論文、具体的には第381頁、第III部を参照する。
したがって、手段24は、パラメータ化可能フィルタ30のためのパラメータ化値を、その伝達関数がマスキング閾値の逆数に等しくなるように計算する一方で、手段22は、リスニング閾値に基づいてノイズパワーリミットを計算し、すなわち、ポストフィルタリングまたは逆フィルタリング後に復号器側の量子化ノイズがリスニング閾値M(f)またはそれより下になるように、プレフィルタ30によってフィルタリングされたオーディオ信号に量子化器28が導入しえるノイズパワーを示す限度を計算する。手段22は、このノイズパワーリミットを、リスニング閾値Mの大きさの2乗より下の範囲として、すなわち、Σ|M(f)|2より下の範囲として計算する。手段22は、量子化ノイズパワーを
ノイズパワーリミットで割った端数の根を計算することによって、ノイズパワーリミットから増幅値を計算する。量子化ノイズは、量子化器28に起因するノイズである。量子化器28に起因するノイズは、以下に説明するように、ホワイトノイズであるので、周波数に依存しない。量子化ノイズパワーは、量子化ノイズのパワーである。
上記の説明から明らかなように、手段22は、増幅値aのほか、ノイズパワーリミットも計算する。ノード比較手段26は手段22から得られた増幅値aからノイズパワーリミットを再び計算することもできるが、手段22は、増幅値aに加えて、決定されたノイズパワーリミットをノード比較手段26に送信することもできる。
増幅値およびパラメータ化値の計算後、ノード比較手段26は、ステップ66において、今しがた計算されたパラメータ化値がパラメータ化可能プレフィルタに送られた最後のパラメータ化値から所定の閾値よりも大きく異なるかどうかをチェックする。ステップ66におけるチェックが、今しがた計算されたパラメータ化値が現在のパラメータ化値から所定の閾値よりも大きく異なるとの結果を有する場合、今しがた計算されたフィルタ係数と、今しがた計算された増幅値またはノイズパワーリミットとは、以下に説明する補間のためのノード比較手段26においてバッファリングされ、ノード比較手段26は、今しがた計算されたフィルタ係数をステップ68において、さらに今しがた計算された増幅値をステップ70において、プレフィルタ30に送る。しかしながら、今しがた計算されたパラメータ化値が現在のパラメータ化値から所定の閾値よりも大きく異ならない場合、ノード比較手段(26)は、ステップ72において、今しがた計算されたパラメータ化値の代わりに、現在のノードパラメータ化値、すなわちステップ66において「はい」の結果になった最後のパラメータ化値、すなわち前のノードパラメータ化値から所定の閾値よりも大きく異なった最後のパラメータ化値のみをプレフィルタ30に送る。ステップ70および72の後、図3のプロセスは、次のオーディオブロックの処理、すなわち、クエリー60に戻る。
今しがた計算されたパラメータ化値が現在のノードパラメータ化値から異ならないために、少なくとも最後のオーディオブロックのために既に得られているノードパラメータ化値をプレフィルタ30がステップ72において再び得る場合、以下に詳しく説明するように、プレフィルタ30は、このノードパラメータ化値をFIFO32内のこのオーディオブロックのすべてのサンプル値に適用し、このようにして、この現在のブロックがFIFO32から取り出され、量子化器28はプレフィルタリングされた複数のオーディオ値から成る結果のオーディオブロックを受け取る。
図4は、現在のノードパラメータ化値との差が十分に大きいために、今しがた計算されたパラメータ化値と今しがた計算された増幅値とを受け取る場合のパラメータ化可能プレフィルタ30の機能モードを詳細に示す。図3に関して説明したように、図4による処理は連続する複数のオーディオブロックのそれぞれにために行われないが、それぞれのパラメータ化値が現在のノードパラメータ化値から十分に異なる複数のオーディオブロックのためにのみ行われる。その他の複数のオーディオブロックは、上述のように、それぞれの現在のノードパラメータ化値と関連するそれぞれの現在の増幅値とをこれらのオーディオブロックのすべてのサンプル値に適用することによって、プレフィルタリングされる。
ステップ80において、パラメータ化可能プレフィルタ30は、今しがた計算されたフィルタ係数がノード比較手段26から送られたか、または以前のノードパラメータ化値が送られたかをチェックする。プレフィルタ30は、このような送りが行われるまでこのチェック80を実行する。
このような送りが行われると直ちに、パラメータ化可能プレフィルタ30は、バッファ32に入ったばかりの複数のオーディオ値から成る現在のオーディオブロック、すなわち、パラメータ化値が今しがた計算された現在のオーディオブロックの処理を開始する。図5aには、番号0のオーディオ値より前にあるすべてのオーディオ値56が既に処理され、メモリ32に既に送られていることが一例として示されている。番号0のオーディオ値より前の複数のオーディオ値から成るブロックの処理がトリガされた理由は、ブロック0より前のオーディオブロック、すなわちx0(i)のために計算されたパラメータ化値が、前にプレフィルタ30に送られたノードパラメータ化値から所定の閾値より大きく異なったからである。したがって、パラメータ化値x0(i)は、本発明で説明するように、ノードパラメータ化値である。オーディオ値0より前のオーディオブロック内の複数のオーディオ値の処理は、パラメータセットa0、x0(i)に基づいて実行された。
図5aでは、複数のオーディオ値0〜127から成るブロック0のために計算されたパラメータ化値が、その前のブロックに関連したパラメータ化値x0(i)から所定の閾値より小さく異なったと想定されている。したがって、このブロック0はプレフィルタ30によってFIFO32から取り出され、そのすべてのサンプル値0〜127が、「直接適用」という矢印81で示されているように、ステップ72において与えられたパラメータ化値x0(i)によって等しく処理されてから、量子化器28に送られる。
しかしながら、図5aの図解例によると、ブロック1のために計算され、依然としてFIFO32にあるパラメータ化値は、パラメータ化値x0(i)から所定の閾値より大きく異なるので、ステップ68において、パラメータ化値x1(i)として、増幅値a1(ステップ70)と一緒に、および該当する場合は関連するノイズパワーリミットとも一緒に、プレフィルタ30に送られ、ここで、図5のaおよびxのインデックスはノードに対するインデックスであり、以下に説明するように補間時に使用され、この補間は、ブロック1内の複数のサンプル値128〜255に関して実行され、矢印82によって表され、図4のステップ80に続くステップによって実現される。したがって、ステップ80での処理は、番号1のオーディオブロックの発生によって開始される。
パラメータセットa1、x1が送られるとき、複数のオーディオ値128〜255、すなわちプレフィルタ30によって処理された最後のオーディオブロック0の後の現在のオーディオブロックだけが、メモリ32に存在する。ステップ80においてノードパラメータx1(i)の送りを決定した後、ステップ84においてプレフィルタ30は増幅値a1に対応するノイズパワーリミットq1を決定する。これは、ステップ64に関して上で説明したように、この値をプレフィルタ32に送るノード比較手段26によってまたはこの値を計算するプレフィルタ30によって行われてもよい。
この後、ステップ86において、インデックスjは、FIFOメモリ32に残っている最も古いサンプル値または現在のオーディオブロック「ブロック1」の最初のサンプル値、すなわち図5の現在の例ではサンプル値128を指すように、サンプル値に初期化される。ステップ88において、パラメータ化可能プレフィルタは、フィルタ係数x0およびx1の間の補間を実行し、ここで、パラメータ化値x0は、前のブロック0のオーディオ値番号127を有するノード位置にあるノードとして作用し、パラメータ化値x1は、現在のブロック1のオーディオ値番号255を有するノード位置にあるノードとして作用する。以降、これらのオーディオ値位置127および255はノード0およびノード1と称され、ここで、図5aのノードに関するノードパラメータ化値が矢印90および92で示される。
ステップ88において、パラメータ化可能プレフィルタ30は、サンプル位置jにおける補間フィルタ係数、すなわち、x(tj)(i)、(i=1…N)を得るために、線形補間のフォームでこの2つのノード間のフィルタ係数x0、x1の補間を実行する。
この後、すなわちステップ90において、パラメータ化可能プレフィルタ30は、サンプル位置jにおける補間ノイズパワーリミット、すなわちq(tj)を得るために、ノイズパワーリミットq1およびq0間の補間を実行する。
その後、ステップ92において、パラメータ化可能プレフィルタ30は、補間ノイズパワーリミットと量子化ノイズパワーとに基づいて、好ましくは補間フィルタ係数にも基づいて、すなわち、たとえば量子化ノイズパワー/q(tj)の根に応じて、サンプル位置jのための増幅値を計算し、これについては、図3のステップ64の説明を参照されたい。
次に、ステップ94において、パラメータ化可能プレフィルタ30は、サンプル位置jのサンプル値に、計算された増幅値と補間フィルタ係数とを、このサンプル位置のためのフィルタリングされたサンプル値、すなわちs’(tj)を得るために適用する。
次に、ステップ96において、パラメータ化可能プレフィルタ30は、サンプル位置jが現在のノードすなわちノード1、図5aの場合はサンプル位置255に、すなわち、パラメータ化可能プレフィルタ30に増幅値と共に転送されたパラメータ化値が直接的に、すなわち補間せずに、有効であるサンプル値に、到達したかどうかをチェックする。到達していない場合、パラメータ化可能プレフィルタ30は、インデックスjを1だけ増加すなわちインクリメントし、ステップ88〜96が繰返される。しかしながら、ステップ96におけるチェックがはいの場合、パラメータ化可能プレフィルタは、ステップ100において、ノード比較手段26から転送されてきた最後の増幅値と、ノード比較手段26から転送されてきた最後のフィルタ係数とを直接的に、補間を行わずに、新しいノードのサンプル値に適用し、現在のブロック、すなわち現在の場合ではブロック1が処理されると直ちに、その処理が、ステップ80において、処理すべき次のブロック、すなわち、次のオーディオブロックであるブロック2のパラメータ化値がパラメータ化値x1(i)から十分に異なるかどうかに応じて、ブロック2またはそれより後のオーディオブロックに関して実行される。
フィルタリングされたサンプル値s’の処理時におけるさらなる手順を図5を参照しながら説明する前に、図3および図4の手順の目的および背景を次に説明する。フィルタリングの目的は、入力部12にあるオーディオ信号を適応フィルタによってフィルタリングすることであり、その伝達関数は、できる限りリスニング閾値の逆数になるように絶えず調整されるが、このリスニング閾値も時間と共に変化する。この理由は、復号器側で、対応して絶えずリスニング閾値に調整される伝達関数の逆フィルタリングが、フィルタリングされたオーディオ信号の量子化によって導入されたホワイト量子化ノイズすなわち周波数が一定の量子化ノイズを、適応フィルタによって形づくり、つまりリスニング閾値のフォームに調整するからである。
ステップ94および100においてプレフィルタ30における増幅値の適用は、オーディオ信号またはフィルタリングされたオーディオ信号、すなわち、サンプル値sまたはフィルタリングされたサンプル値s’に増幅ファクタを乗算することである。この目的は、これによって、フィルタリングされたオーディオ信号に以下に詳細に説明する量子化によって導入され、復号器側での逆フィルタリングによってリスニング閾値のフォームに調整される量子化ノイズを、リスニング閾値を超えずにできるだけ高く設定することである。これは、パーセバルの公式によって説明することができ、この公式によると、関数の大きさの2乗は、フーリエ変換の大きさの2乗に等しい。プレフィルタにおいて増幅値によるオーディオ信号の乗算結果は、復号器側で、フィルタリングされたオーディオ信号を同じ増幅値によって除算することによって再び逆にされると、量子化ノイズパワーが削減され、すなわちファクタa-2だけ削減され、ここでaは増幅値である。この結果、増幅値をプレフィルタ30で適用することによって、量子化ノイズパワーを最適に高い程度に設定することができ、それは量子化ステップサイズを大きくすることになるので、符号化すべき量子化ステップの数が削減され、次の冗長度削減部での圧縮が大きくなる。
言い換えると、プレフィルタの効果は、信号のそのマスキング閾へのノーマライゼーションとして考えることもできるので、量子化雑音または量子化ノイズのレベルを時間と周波数との両方において一定に保つことができる。オーディオ信号は時間領域にあるので、以下に説明するように、量子化は、一様な一定の量子化によって段階的に実行されてもよい。この方法において、理想的には予想されるあらゆる不要成分がオーディオ信号から取り除かれ、以下に説明するように、可逆圧縮方式が量子化およびプレフィルタリングされたオーディオ信号に残っている冗長度を取り除くためにも使用されえる。
図5aに関して再びはっきりと指摘するが、勿論使用されるフィルタ係数および増幅値a0、a1、x0、x1をサイド情報として復号器側で利用できるようにする必要があるが、このサイド情報の転送の複雑さは、単に新しいフィルタ係数および新しい増幅値を各ブロックのために使用するだけで減るものではない。むしろ、閾値のチェック66は、十分なパラメータ化値の変化を有するサイド情報としてパラメータ化値を転送するために行われるが、それ以外ではサイド情報またはパラメータ化値を転送しない。古いパラメータ化値から新しいパラメータ化値への補間は、パラメータ化値が転送されたオーディオブロックで行われる。フィルタ係数の補間は、ステップ88に関して上で説明した方法で行われる。増幅に関する補間は、迂回路によって、すなわちノイズパワーリミットq0、q1の線形補間90によって行われる。線形補間は、増幅値による直接補間に比べて、ノイズパワーリミットに関してより少ない可聴アーティファクトまたはよりよいリスニング結果を生じる。
以降、プレフィルタリングされた信号のさらなる処理を図6を参照しながら説明するが、それは、基本的に量子化と冗長度削減とを含む。最初に、パラメータ化可能プレフィルタ30から出力されたフィルタリングされた複数のサンプル値は、バッファ38に記憶され、同時にバッファ38から乗算器40に送られ、そこにおいては、これらの1回目の通過であるので、最初は変更なしに、すなわち1のスケーリングファクタで、乗算器40によって量子化器28に送られる。そこで、上限値より上のフィルタリングされたオーディオ値は、ステップ110においてカットされ、次にステップ112において量子化される。この2つのステップ110および112は、量子化器28によって実行される。特に、この2つのステップ110および112は、閾値より大きいフィルタリングされたサンプル値が同一の量子化ステップに量子化されるように、量子化器28によって1つのステップにおいてフィルタリングされたオーディオ値s’を量子化ステップ関数により量子化することによって実行されることが好ましく、この量子化ステップ関数は、浮動小数点表示に代表的に示されているフィルタリングされたサンプル値s’を複数の整数の量子化ステップ値またはインデックスにマッピングするとともに、特定の閾値からフィルタリングされた複数のサンプル値に対してフラットなコースを有する。このような量子化ステップ関数の例を図7aに示す。
図7aにおいて、フィルタリングおよび量子化されたサンプル値は、σ’で示される。量子化ステップ関数は、閾値より下のステップサイズが一定である量子化ステップ関数であることが好ましく、すなわち、次の量子化ステップへのジャンプが入力値S’に沿って一定間隔後に行われることが好ましい。この実施において、量子化ステップの数が好ましくは2の累乗に対応するように、閾値までのステップサイズが調整される。入力されたフィルタリングされたサンプル値s’の浮動小数点表示より閾値の方が小さいので、浮動小数点表示の表示可能領域の最大値は閾値を超える。
この閾値の理由は、プレフィルタ30から出力されたフィルタリングされたオーディオ信号が、場合によっては、複数のオーディオ値を含み、複数の調和波の好ましくない蓄積によって、合計すると非常に大きな値になることが観察されているからである。さらに、図7aに示す量子化ステップ関数によって達成されるように、これらの値をカットすることは、高いデータ削減になるが、オーディオ品質の低下がわずかであることが観察されている。むしろ、フィルタリングされたオーディオ信号中のこれらの偶発的位置は、パラメータ化可能フィルタ30における周波数選択フィルタリングによって人工的に形成されるので、これらをカットすることは、わずかな範囲だけにオーディオ品質を低下する。
図7aに示す量子化ステップ関数のいくらかのより具体的な例は、フィルタリングされたサンプル値s’のすべてを閾値までは次の整数に丸め、閾値より上では、これを超えるすべてのフィルタリングされたサンプル値を最高量子化ステップ、たとえば256などに量子化する。この場合を図7aに示す。
可能な量子化ステップ関数の別の例は、図7bに示す量子化ステップ関数である。図7bの量子化ステップ関数は、閾値までは図7aの量子化ステップ関数に対応する。ただし、この量子化ステップ関数は、閾値より上のサンプル値s’のための急に平坦なコースを有する代りに、閾値より下の領域においてその峻度より小さな峻度を続ける。言い換えると、量子化ステップサイズは、閾値より上ではより大きい。これによって、図7aの量子化関数の場合と同様の結果が得られ、一方では閾値の上と下で量子化ステップ関数のステップサイズが異なるためにより複雑になるが、他方ではオーディオ品質が向上し、これは、非常に高いフィルタリングされたオーディオ値s’が完全にカットされないが、より大きな量子化ステップサイズで量子化されるからである。
既に説明したように、フィルタリングおよび量子化されたオーディオ値σ’だけでなく、これらの値のフィルタリングのベースとなったプレフィルタ30のための入力パラメータ、すなわち関連の増幅値に対するヒントを含むノードパラメータ化値も復号器側で利用できるようにする必要がある。したがって、ステップ114において、コンプレッサ34は第1の圧縮試行を実行することによって、各ノード、たとえば127および255での増幅値a0およびa1と各ノードでのフィルタ係数x0およびx1とを含むサイド情報と、フィルタリングおよび量子化されたサンプル値σ’とを、時間的にフィルタリングされた信号に圧縮する。したがって、コンプレッサ34は、可逆圧縮的に動作する符号器であり、たとえばハフマンまたは算術符号器などであり、予測および/または適応を行うことも行わないこともある。
サンプリングされたオーディオ値σ’が通過するメモリ38は、後で説明するように、量子化器28から出力されたフィルタリング、量子化およびスケーリングされたオーディオ値σ’をコンプレッサ34が処理するために、適切なブロックサイズのバッファとして働く。このブロックサイズは、手段20によって使用されるような複数のオーディオブロックから成るブロックサイズと異なってもよい。
既に言及したように、ビットレートコントローラ36は第1の圧縮試行のためにマルチプレクサ40を1の被乗数で制御したので、フィルタリングされたオーディオ値は、変更なしにプレフィルタ30から量子化器28に進み、そこからフィルタリングおよび量子化されたオーディオ値としてコンプレッサ34に進む。ステップ116において、コンプレッサ34は、特定の圧縮ブロックサイズ、すなわち特定数のサンプリングおよび量子化されたオーディオ値が一時的な符号化信号に符号化されているかどうか、または、さらに多くのフィルタリングおよび量子化されたオーディオ値σ’を現在の一時的な符号化信号に符号化すべきかどうかをモニタする。圧縮ブロックサイズに到達していない場合、コンプレッサ34は、現在の圧縮114を続行する。しかしながら、圧縮ブロックサイズに到達した場合、ビットレートコントローラ36は、ステップ118において、圧縮に必要なビット量が所望のビットレートによって決められたビット量より多いかどうかをチェックする。多くない場合、ビットレートコントローラ36は、ステップ120において、必要なビット量が所望のビットレートによって決められたビット量より少ないかどうかをチェックする。少ない場合、ビットレートコントローラ36は、ステップ122において、所望のビットレートによって決められたビット量に到達するまで、符号化信号をフィラービットで充填する。次に、ステップ124において符号化信号は出力される。ステップ122の代わりに、破線で示されているステップ125によって示されているように、ビットレートコントローラ36は、所望のビットレートによって決められたビット量に到達するまで、ステップ110〜118を再び通過するために、最後の圧縮のベースとされ、メモリ38に依然として記憶されている、フィルタリングされたオーディオ値σ’の圧縮ブロックを、乗算器40によって1より大きい被乗数で乗算したフォームで量子化器28に送ることができる。
しかしながら、ステップ118におけるチェックが、必要なビット量が所望のビットレートによって決められたビット量より多い場合、ビットレートコントローラ36は、乗算器40のための被乗数を0と1との間でそれらを含まない間のファクタに変更する。これは、ステップ126において実行される。ステップ126の後、ビットレートコントローラ36は、圧縮のベースとなったフィルタリングされたオーディオ値σ’の最後の圧縮ブロックをメモリ38から再び出力し、それらは、ステップ126において設定されたファクタで乗算され、量子化器28に再び供給され、以降、ステップ110〜118が再び実行され、それまで一時的に符号化されていた信号が廃棄される。
ステップ110〜116を再び実行するとき、ステップ114において、ステップ126(またはステップ125)で使用されるファクタも勿論、符号化信号に統合されることを指摘する。
ステップ126の後の手順の目的は、量子化器28の有効なステップサイズをこのファクタだけ大きくすることである。つまり、発生した量子化ノイズが一様にマスキング閾より上になるので、可聴雑音または可聴ノイズになるが、削減されたビットレートになる。ステップ110〜116を再び通過した後に、ステップ118において、必要なビット量が、所望のビットレートによって決められたビット量より多いと再び決定された場合、ステップ126において、ファクタが再び減らされる。
ステップ124においてデータが符号化信号として最終的に出力されると、次の圧縮ブロックは、次のフィルタリングおよび量子化されたオーディオ値σ’から実行される。
1以外の他の予め初期化された値は、乗算ファクタとしてすなわちたとえば1として使用されうることを指摘する。その後、いずれの場合も、スケーリングが最初にすなわち図6の一番上で行われる。
図5bは、得られた符号化信号の全体を130で再び示す。この符号化信号は、サイド情報と、その間に挟まれたメインデータとを含む。サイド情報は、既に言及したように、特別なオーディオブロックのために、すなわち複数のオーディオブロックから成るシーケンス中でフィルタ係数の有意な変化が生じたオーディオブロックのために、増幅値の値とフィルタ係数の値とを導出できる情報を含む。必要であれば、このサイド情報は、ビットコントローラに対して使用される増幅値に関する情報をさらに含む。増幅値とノイズパワーリミットqとの相互依存のために、このサイド情報は、ノード#に対する増幅値a#とは別にノイズパワーリミットq#を含んでもよく、または、ノイズパワーリミットq#のみを含んでもよい。サイド情報は、符号化信号内に次のように配置されることが好ましい。つまり、フィルタ係数と関連の増幅値または関連のノイズパワーリミットとを導出した、フィルタリングおよび量子化された複数のオーディオ値σ’から成るオーディオブロックに対するメインデータの前に、これらのフィルタ係数と関連の増幅値または関連のノイズパワーリミットとに対するサイド情報が位置するように、すなわちブロック−1の後にサイド情報a0、x0(i)が位置し、ブロック1の後にサイド情報a1、x1(i)が位置するように配置されることが好ましい。言い換えると、メインデータ、すなわち、複数のオーディオブロックから成るシーケンスの有意な変化がフィルタ係数になったオーディオブロックの次から、同様の次のオーディオブロックまでのフィルタリングおよび量子化されたオーディオ値σ’、たとえば図5においては、オーディオ値σ’(t0)〜σ’(t255)が、これらの2つのオーディオブロックの第1のブロック(ブロック−1)に対するサイド情報ブロック132と、これらの2つのオーディオブロックの第2のブロック(ブロック1)に対するサイド情報ブロック134との間に常に配置されることが好ましい。オーディオ値σ’(t0)〜σ’(t127)は、サイド情報132のみによって復号化可能である、つまり図5aに関して前に言及したようにサイド情報132のみによって得られているが、一方、オーディオ値σ’(t128)〜σ’(t255)は、サンプル値番号127のノードの支持値としてサイド情報132およびサンプル値番号255のノードの支持値としてサイド情報134による補間によって得られているので、両サイド情報によってのみ復号化が可能である。
さらに、各サイド情報ブロック132および134内の増幅値またはノイズパワーリミットとフィルタ係数とに関するサイド情報は、必ずしもそれぞれ独立に統合されるとは限らない。むしろ、このサイド情報は、前のサイド情報ブロックに対する差として転送される。たとえば図5bにおいて、サイド情報ブロック132は、時間t-1のノードに関する増幅値a0とフィルタ係数x0とを含む。サイド情報ブロック132では、このブロック自体からこれらの値を導出しえる。しかしながら、サイド情報ブロック134からは、時間t255のノードに関するサイド情報をもはやこのブロックのみからは導出しえない。むしろ、サイド情報ブロック134は、時間t255のノードの増幅値と時間t0のノードの増幅値との間の差、およびフィルタ係数x1とフィルタ係数x0との間の差に関する情報のみを含む。したがって、サイド情報ブロック134は、a1−a0およびx1(i)−x0(i)に関する情報のみを含む。しかしながら、以下に説明するように、符号化データの流れているストリームに受信器または復号器がラッチできるように、フィルタ係数と増幅値またはノイズパワーリミットとを、完全な形で、つまり前のノードとの差としてではなく、ときどきたとえば毎秒ごとに転送する必要がある。
このようにサイド情報をサイド情報ブロック132および134に統合すると、より高い圧縮率を実現しうる利点がある。この理由は、可能であれば、当該フィルタ係数と前のノードのフィルタ係数との間の変化が十分な場合にのみサイド情報が転送されるにもかかわらず、符号器側におけるこの差の計算の複雑さ、または、復号器側での合計の計算の複雑さが相殺されるからであり、すなわち、生じる差がステップ66のクエリーにもかかわらず小さいために、エントロピー符号化における利点を可能にするからである。
ここまではオーディオ符号器の実施形態を説明してきたので、次に、図1のオーディオ符号器10によって生成された符号化信号を再生可能または処理可能な復号化オーディオ信号に復号化するために適切なオーディオ復号器の実施形態について説明する。
この復号器の構成が図8に示される。全体が210で示されている復号器は、デコンプレッサ212と、FIFOメモリ214と、乗算器216と、パラメータ化可能ポストフィルタ218とを含む。デコンプレッサ212と、FIFOメモリ214と、乗算器216と、パラメータ化可能ポストフィルタ218とは、この順で復号器210のデータ入力部220とデータ出力部222との間に接続され、符号化信号がデータ入力部220で受け取られ、オーディオ符号器10のデータ入力部12における元のオーディオ信号からオーディオ符号器10の量子化器28で生成された量子化ノイズだけ異なる復号化オーディオ信号が、データ出力部222で出力される。デコンプレッサ212は、別のデータ出力部で乗算器216の制御入力部に被乗数を送るために接続され、さらに別のデータ出力部を介してパラメータ化可能ポストフィルタ218のパラメータ化値入力部に接続される。
図9に示すように、デコンプレッサ212は、最初にステップ224において、フィルタリングおよび量子化されたオーディオデータ、すなわちサンプル値σ’と、サイド情報ブロック132、134内の関連のサイド情報とを得るために、データ入力部220の圧縮信号を復元し、このサイド情報は、既知のように、各ノードのフィルタ係数と増幅値または増幅値の代わりにノイズパワーリミットとを示す。
図10に示すように、ステップ226において、デコンプレッサ212は、フィルタ係数を有するサイド情報が、前のサイド情報ブロックとの差がなく、自己完結的なフォームでその信号に含まれているかどうかを、復元信号を発生順にチェックする。言い換えると、デコンプレッサ212は、第1のサイド情報ブロック132を探す。ステップ228では、デコンプレッサ212が何かを見つけるや否や、フィルタリングおよび量子化されたオーディオ値σ’がFIFOメモリ214にバッファリングされる。ステップ228において記憶されたフィルタリングおよび量子化された複数のオーディオ値σ’から成る完全なオーディオブロックの直後にサイド情報ブロックがなかった場合、ステップ228において、最初に、ステップ226で受け取られたパラメータ化値および増幅値に関するサイド情報に含まれている情報によってポストフィルタでポストフィルタリングされ、乗算器216で増幅され、このように復号化が行われるので、関連の復号化オーディオブロックが達成される。
ステップ230において、デコンプレッサ212は、何らかのサイド情報ブロック、すなわち絶対フィルタ係数または前のサイド情報ブロックに対するフィルタ係数の差を有するサイド情報ブロックの発生のために、復元信号をモニタする。図5bの例では、デコンプレッサ212は、たとえば、ステップ226においてサイド情報ブロック132を認識すると、ステップ230においてサイド情報ブロック134の発生を認識する。したがって、フィルタリングおよび量子化された複数のオーディオ値σ’(t0)〜σ’(t127)から成るブロックは、ステップ228において、サイド情報132を用いて復号化される。復元信号内にサイド情報ブロック134が発生しない限り、上述のように、ステップ228において、ブロックのバッファリングおよびおそらく復号化が、ステップ226のサイド情報によって継続される。
サイド情報ブロック132が発生するや否や、ステップ232において、デコンプレッサ212は、サイド情報ブロック134内の差値とサイド情報ブロック132内のパラメータ値とを合計することによって、ノード1でのパラメータ値、すなわち、a1、x1(i)を計算する。現在のサイド情報ブロックが、上述のように、代表的に毎秒発生しうる、差を含まない自己完結型のサイド情報ブロックである場合、ステップ232は勿論省かれる。復号器210の待ち時間が長くなりすぎないように、パラメータ値を絶対的にすなわち別のサイド情報ブロックとは無関係に導出しうるサイド情報ブロック132は、十分短い間隔で配置されているので、たとえば無線伝送または同報伝送の場合のオーディオ符号器210のスイッチング時のターンオン時間またはダウン時間が長くなりすぎることはない。好ましくは、その間に配置され、差値を有するサイド情報ブロック132の数は、サイド情報ブロックタイプ132が符号化信号中に再び期待される時点を復号器が知るように、サイド情報ブロック132間の一定の所定数に配置される。あるいは、異なるサイド情報ブロックタイプは、対応するフラグで示される。
図11に示すように、新しいノードのためのサイド情報ブロックに到達した後に、特にステップ226または232の後に、ステップ234において、サンプル値インデックスjが最初に0に初期化される。この値は、FIFO214に現在残っている、現在のサイド情報が関連するオーディオブロック内の最初のサンプル値のサンプル位置に対応する。ステップ234は、パラメータ化可能ポストフィルタ218によって実行される。次にステップ236において、ポストフィルタ218は新しいノードでのノイズパワーリミットを計算し、このステップは、図4のステップ84に対応し、たとえば増幅値に加えてノードのノイズパワーリミットが伝送されるときには省略されうる。以降のステップ238および240において、ポストフィルタ218は、図4の補間88および90に対応するフィルタ係数およびノイズパワーリミットに関する補間を実行する。ステップ238および240の補間ノイズパワーリミットおよび補間フィルタ係数に基づくステップ242においてサンプル位置jのための増幅値の計算は、図4のステップ92に対応する。ステップ244において、ポストフィルタ218は、ステップ242において計算された増幅値と補間フィルタ係数とをサンプル位置jでのサンプル値に適用する。このステップは、パラメータ化可能ポストフィルタの伝達関数がリスニング閾値の逆数に対応しないが、リスニング閾値自体に対応するように、補間フィルタ係数がフィルタリングおよび量子化されたサンプル値σ’に適用されることによって、図4のステップ94と異なる。さらに、ポストフィルタは、位置jでのフィルタリングおよび量子化されたサンプル値σ’またはフィルタリングおよび量子化されさらに逆フィルタリングされたサンプル値に、増幅値による乗算ではなく、増幅値による除算を実行する。
ポストフィルタ218は、ステップ246においてサンプル位置jで現在のノードに到達していないとチェックすると、ステップ248においてサンプル位置インデックスjをインクリメントし、ステップ238〜246を再び実行する。当該ノードに到達したときにだけ、すなわちステップ250において、ポストフィルタ218は、新しいノードの増幅値およびフィルタ係数を当該ノードでのサンプル値に適用する。この適用は、ステップ218と同様に、乗算の代わりに増幅値による除算と、リスニング閾値の逆数ではなくリスニング閾値に等しい伝達関数によるフィルタリングとを含む。ステップ250の後、現在のオーディオブロックが2つのノードパラメータ化値間の補間によって復号化される。
既に言及したように、ステップ110または112において符号化時に量子化によって導入されたノイズは、ステップ218および224においてフィルタリングと増幅値の適用とによってシェイプおよび大きさの両方においてリスニング閾値に調整される。
さらに指摘すべき点は、フィルタリングおよび量子化されたオーディオ値が、符号化信号に符号化される前に、ステップ126においてビットレートコントローラによる別の乗算に付されている場合、このファクタはステップ218および224においても考慮されうることである。あるいは、図11のプロセスで得られたオーディオ値は、低ビットレートによって弱められたオーディオ値を相応に再び増幅するために、別の乗算に付されることも勿論可能である。
図3、図4、図6および図9〜11に関して指摘するが、これらの図は、図1の符号器または図8の復号器の機能モードを示すフローチャートを示し、上述のようにフローチャートにブロックで示されている各ステップが、上述のように対応する手段に実施されている。個々のステップの実施は、ASIC回路部品としてハードウェアで実現されても、サブルーチンとしてソフトウェアで実現されてもよい。特に、これらの図の各ブロックに書き込まれている説明は、それぞれのブロックに対応するそれぞれのステップに関するプロセスを概略的に示し、またブロック間の矢印は、符号器および復号器をそれぞれ動作するときのステップの順序を示している。
前の説明に関して再び指摘するが、上に例示した符号化方式は多くの点で変更しうる。代表的に、特定のオーディオブロックのために決定されたようなパラメータ化値と増幅値またはノイズパワーリミットとは、特定のオーディオ値、たとえば前の実施形態における各オーディオブロックの最後のオーディオ値、すなわちこのオーディオブロック内の128番目の値のために、直接的に有効であるとみなす必要はないので、このオーディオ値のための補間は省かれもよい。むしろ、補間が各オーディオ値のために必要であるように、このオーディオブロックの複数のオーディオ値のサンプル時間tn、n=0,…,127の間に時間的に存在するノードに、これらのノードパラメータ値を関連付けることが可能である。特に、あるオーディオブロックのために決定されたパラメータ化値またはこのオーディオブロックのために決定された増幅値は、別の値に間接的に適用されてもよく、たとえば、オーディオブロックの真ん中のオーディオ値、たとえば128個のオーディオ値の上述のブロックサイズの場合は64番目のオーディオ値などに適用されてもよい。
また、上の実施形態は、ビットレートが制御された符号化信号を生成するために設計されたオーディオ符号化方式に言及したことを指摘する。しかしながら、ビットレートの制御は、あらゆるアプリケーションにおいて必要ではない。したがって、対応するステップ116〜122および126または125は、さらに省略されうる。
ステップ114を参照して言及した圧縮方式に関して、完全を期すために、本願明細書本文の導入部に記載したシュラー(Schuller)らによる文献、特に第IV部を参照し、可逆符号化による冗長度削減に関してこの文献の内容を参照によって本願明細書に援用したものとする。
さらに、前の実施形態に関して以下の点を指摘する。量子化時に閾値が常に一定であるか、または量子化ステップ関数でさえ常に一定である、すなわち、フィルタリングされたオーディオ信号内に生成されたアーティファクトは、より粗い量子化によって量子化されまたはカットされるので、可聴範囲のオーディオ品質を低下しうると前に説明したが、オーディオ信号の複雑さがこれを必要とする場合、すなわち符号化に必要なビットレートが所望のビットレートを超える場合、これらの措置を使用することも可能である。この場合、図7aおよび図7bに示す量子化ステップ関数に加え、たとえばプレフィルタの出力部で可能な値の全範囲にわたって一定な量子化ステップサイズを有するものが使用されてもよく、この場合、量子化器は、たとえば、量子化ステップサイズが常に一定の量子化ステップ関数、または、図7aまたは図7bによる量子化ステップ関数の1つを使用するために、信号に応答し、オーディオ品質をほとんど低下せずに、閾値より上の量子化ステップを減らすかまたは閾値より上をカットすることを実行するために、その信号によって量子化器に指示することもできる。あるいは、閾値を徐々に減らすこともできる。この場合、ステップ126のファクタを減らす代わりに、閾値を減らすこともできる。ステップ110を省いた最初の圧縮試行の後、ビットレートが依然として高すぎる場合は(118)、変更されたステップ126において、一時的に圧縮された信号は選択閾値量子化を受けることもできる。次に、別の通過において、フィルタリングされたオーディオ値は、オーディオ閾値より上のフラットなコースを有する量子化ステップ関数によって量子化される。変更されたステップ126において、閾値を減らすことによって、ひいては量子化ステップ関数の別の変更によって、ビットレートをさらに削減することもできる。
さらに、上述の実施形態の一部の特徴は、役に立つが、必須ではない。代表的に、上述のオーディオ符号化方式において補間が省略されてもよい。また、連続するパラメータ化値の差が上述の所定の目安より小さいときは、各オーディオブロックに関して計算された、パラメータ化値および増幅値、または、パラメータ化値およびノイズパワーリミットを1つも抜かさずに転送することも可能である。
また、差分符号化をパラメータ化値にのみ適用し、増幅値またはノイズパワーリミットには適用しないことも可能である。
また、上述の符号化方式において、差分側ブロック134のフィルタ係数を異なる方法で、すなわち、たとえば現在のフィルタ係数から前に転送されたフィルタ係数を引き、さらにステップ66の最小閾値を引いたフォームで転送することも考えられる。
したがって、上述のオーディオ符号化方式は、とりわけ、オーディオ符号器におけるサイド情報を非常に短い遅延時間で効率的に転送することに関する。オーディオ信号を適切に再構成するために復号器のために転送すべきサイド情報は、通常徐々に変化するという特徴を有する。このため、差のみが転送されるので、ビットレートが下がる。また、変化が十分な場合にのみ、差が転送される。過去の値が失われた場合のために、絶対値が時々転送される。言い換えると、オーディオ信号が再び適切に再構成されるように、復号器内のポストフィルタが逆伝達関数を有するようにプレフィルタからのサイド情報または係数が転送される。差が十分なサイズである場合にのみ差を転送することによって、上述の転送に必要なビットレートが下がる。これらの差はより小さな値であり、より頻繁に発生するので、符号化時に必要なビット量が減る。このように、差分符号化が見合う理由は、絶えず変化するオーディオ信号と共に変化するこれらの差の変化が安定しているからである。
特に指摘するが、場合によっては、本発明のオーディオ符号化方式はソフトウェアで実施されてもよい。この実施は、対応する方法が実行されるように、プログラム可能なコンピュータシステムと協働することができ、電子的に読み出すことができる制御信号を有する、デジタル記憶媒体、特に、ディスクまたはCD上で行うことができる。本発明は、一般に、コンピュータプログラム製品がコンピュータ上で実行するときに、機械で読み出し可能なキャリアに記憶された本発明の方法を実行するためのプログラムコードを有するコンピュータプログラム製品にも存在する。言い換えれば、本発明は、コンピュータプログラムがコンピュータ上で実行するときに、この方法を実行するためのプログラムコードを有するコンピュータプログラムとしても実現することができる。
特に、フローチャートの各ブロック内の上述の方法ステップは、個別に実施されても、または、いくつかまとめてサブプログラムルーチンとして実施されてもよい。あるいは、本発明の装置は集積回路のフォームで実施されることも勿論可能であり、この場合、これらのブロックは、たとえばASICの個別回路として実施される。
特に指摘するが、場合によっては、本発明の方式はソフトウェアで実施されてもよい。この実施は、対応する方法が実行されるように、プログラム可能なコンピュータシステムと協働することができ、電子的に読み出すことができる制御信号を有する、デジタル記憶媒体、特に、ディスクまたはCD上で行うことができる。したがって、本発明は、一般に、コンピュータプログラムがコンピュータ上で実行するときに、機械で読み出し可能なキャリアに記憶された本発明の方法を実行するためのプログラムコードを有するコンピュータプログラム製品にも存在する。言い換えれば、本発明は、コンピュータプログラムがコンピュータ上で実行するときに、この方法を実行するためのプログラムコードを有するコンピュータプログラムとしても実現することができる。
図1は、本発明の一実施形態によるオーディオ符号器のブロック回路図を示す。 図2は、データ入力時における図1のオーディオ符号器の機能モードを説明するためのフローチャートを示す。 図3は、入力オーディオ信号の心理音響モデルによる評価に関して図1のオーディオ符号器の機能モードを説明するためのフローチャートを示す。 図4は、心理音響モデルによって得られる複数のパラメータの入力オーディオ信号への適用に関して図1のオーディオ符号器の機能モードを説明するためのフローチャートを示す。 図5aは、入力オーディオ信号と、それを構成する複数のオーディオ値から成るシーケンスと、複数のオーディオ値に関して図4の動作ステップとを説明するための概略図を示し、図5bは、符号化信号の構成を説明するための概略図を示す。 図6は、符号化信号までの最終処理に関して図1のオーディオ符号器の機能モードを説明するためのフローチャートを示す。 図7aは、量子化ステップ関数の一実施形態を示す図を示す。 図7bは、量子化ステップ関数の別の実施形態を示す図を示す。 図8は、本発明の一実施形態による図1のオーディオ符号器によって符号化されたオーディオ信号を復号化できるオーディオ符号器のブロック回路図を示す。 図9は、データ入力時における図8の復号器の機能モードを説明するためのフローチャートを示す。 図10は、フィルタリング、量子化およびプレデコードされたオーディオデータのバッファリングと、対応するサイド情報がない複数のオーディオブロックの処理とに関して図8の復号器の機能モードを説明するためのフローチャートを示す。 図11は、実際の逆フィルタリングに関して図8の復号器の機能モードを説明するためのフローチャートを示す。 図12は、短い遅延時間を有する従来のオーディオ符号化方式を説明するための概略図を示す。 図13は、オーディオ信号のスペクトルと、そのリスニング閾値と、復号器内のポストフィルタの伝達関数とを代表的に説明するための図を示す。

Claims (11)

  1. 複数のオーディオ値から成るシーケンスのオーディオ信号を符号化信号に符号化するための装置であって、
    前記複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る第1のブロックのための第1のリスニング閾値と前記複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る第2のブロックのための第2のリスニング閾値とを決定するための手段と、
    その伝達関数が前記第1のリスニング閾値の大きさの逆数に概略的に対応するようにパラメータ化可能フィルタ(30)の第1のパラメータ化値のバージョンを計算し、さらにその伝達関数が前記第2のリスニング閾値の大きさの逆数に概略的に対応するように前記パラメータ化可能フィルタの第2のパラメータ化値のバージョンを計算するための手段(24)と、
    前記複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る所定のブロックを、前記所定のブロックに対応するフィルタリングされた複数のオーディオ値から成るブロックを得るために、前記第2のパラメータ化値の前記バージョンに応じて所定の方法で決定される所定のパラメータ化値を用いて前記パラメータ化可能フィルタによってフィルタリングするための手段と、
    フィルタリングおよび量子化された複数のオーディオ値から成るブロックを得るために、前記フィルタリングされた複数のオーディオ値を量子化するための手段と、
    前記第1のパラメータ化値の前記バージョンと前記第2のパラメータ化値の前記バージョンとの間の差を少なくとも含む、前記第1のパラメータ化値の前記バージョンと前記第2のパラメータ化値の前記バージョンとの組み合わせを形成するための手段と、
    前記フィルタリングおよび量子化された複数のオーディオ値と、前記第1のパラメータ化値のバージョンとを導出しえる、前記組み合わせを含む情報を前記符号化信号に統合するための手段とを備える、装置。
  2. フィルタリングするための前記手段は、
    前記複数のオーディオ値から成る所定のブロックの所定のオーディオ値のための補間パラメータ化値のバージョンを得るために、前記第1のパラメータ化値の前記バージョンと前記第2のパラメータ化値の前記バージョンとの間を補間するための手段と、
    前記補間パラメータ化値の前記バージョンを前記所定のオーディオ値に適用するための手段とを備える、請求項1に記載の装置。
  3. 統合するための前記手段はエントロピー符号器を含む、先行する請求項のいずれかに記載の装置。
  4. 前記第1および第2のリスニング閾値を決定するための前記手段と計算するための前記手段とは、前記伝達関数が前記それぞれのリスニング閾値の大きさの逆数に概略的に対応するように、前記複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る複数の後の連続するブロックのための前記複数のオーディオ値から成る第1のブロックからリスニング閾値を決定し、または、前記パラメータ化可能フィルタのパラメータ化値を計算するために形成され、
    前記複数のパラメータ化値を、それらが前記第1のパラメータ化値から所定の程度より大きく異なるかどうかに関して1つずつチェックし、さらに前記複数のパラメータ化値の中において前記第1のパラメータ化値から前記所定の程度より大きく異なる最初のパラメータ化値だけを前記第2のパラメータ化値として選択するための手段をさらに備える、先行する請求項のいずれかの記載の装置。
  5. 前記組み合わせは前記所定の程度を引いた差を備える、請求項4に記載の装置。
  6. 前記第1のマスキング閾値に応じて第1のノイズパワーリミットを決定し、さらに前記第2のマスキング閾値に応じて第2のノイズパワーリミットを決定するための手段(22)をさらに備え、フィルタリングするための前記手段は、前記複数のオーディオ値から成る所定のブロックの所定のオーディオ値のための補間ノイズパワーリミットを得るために、前記第1のノイズパワーリミットと前記第2のノイズパワーリミットとの間を補間するための手段(90)と、所定の量子化ルールに従って量子化に起因する前記量子化ノイズパワーと前記補間ノイズパワーリミットとに応じて中間スケーリング値を決定するための手段(92)と、フィルタリングおよびスケーリングされたオーディオ値を得るために、前記中間スケーリング値を前記所定のオーディオ値に適用するための手段(94)とを備える、先行する請求項のいずれかに記載の装置。
  7. 複数の連続する所定のブロックを処理し、さらに前記フィルタリングおよび量子化された複数のオーディオ値と、前記第1および第2のパラメータ化値のバージョンとを含む情報を前記符号化信号に間欠的に統合するために形成される、先行する請求項のいずれかに記載の装置。
  8. 複数のオーディオ値から成るシーケンスのオーディオ信号を符号化信号に符号化するための方法であって、
    前記複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る第1のブロックのための第1のリスニング閾値と前記複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る第2のブロックのための第2のリスニング閾値とを決定するステップと、
    その伝達関数が前記第1のリスニング閾値の大きさの逆数に概略的に対応するようにパラメータ化可能フィルタ(30)の第1のパラメータ化値のバージョンを計算し、さらにその伝達関数が前記第2のリスニング閾値の大きさの逆数に概略的に対応するように前記パラメータ化可能フィルタの第2のパラメータ化値のバージョンを計算するステップと、
    前記複数のオーディオ値から成るシーケンスの複数のオーディオ値から成る所定のブロックを、前記所定のブロックに対応するフィルタリングされた複数のオーディオ値から成るブロックを得るために、前記第2のパラメータ化値の前記バージョンに応じて所定の方法で決定される所定のパラメータ化値を用いて前記パラメータ化可能フィルタによってフィルタリングするステップと、
    フィルタリングおよび量子化された複数のオーディオ値から成るブロックを得るために、前記フィルタリングされた複数のオーディオ値を量子化するステップと、
    前記第1のパラメータ化値の前記バージョンと前記第2のパラメータ化値の前記バージョンとの間の差を少なくとも含む、前記第1のパラメータ化値の前記バージョンと前記第2のパラメータ化値の前記バージョンとの組み合わせを形成するステップと、
    前記フィルタリングおよび量子化された複数のオーディオ値を導出しえる、前記組み合わせを含む情報を前記符号化信号に統合するステップとを含む、方法。
  9. 符号化信号をオーディオ信号に復号化するための装置であって、前記符号化信号は、フィルタリングおよび量子化された複数のオーディオ値から成るブロックと、パラメータ化可能フィルタの伝達関数が第1のリスニング閾値の大きさの逆数に対応する第1のパラメータ化値のバージョンとを導出しえる情報を含み、前記情報は、前記パラメータ化可能フィルタの伝達関数が第2のリスニング閾値の大きさの逆数に対応する第2のパラメータ化値のバージョンと前記第1のパラメータ化値の前記バージョンとの間の組み合わせを含み、前記組み合わせは、前記第1のパラメータ化値の前記バージョンと前記第2のパラメータ化値の前記バージョンとの間の差を少なくとも含み、
    前記第1のパラメータ化値の前記バージョンを前記符号化信号から導出するための手段と、
    前記第2のパラメータ化値の前記バージョンを得るために、前記第1のパラメータ化値の前記バージョンと前記差との間の合計を計算するための手段と、
    前記オーディオ信号の複数の復号化オーディオ値から成るブロックを得るために、前記伝達関数が前記リスニング閾値の大きさに概略的に対応するように、前記フィルタリングおよび量子化された複数のオーディオ値から成るブロックを、前記第2のパラメータ化値の前記バージョンを用いてパラメータ化可能フィルタによってフィルタリングするための手段とを備える、装置。
  10. 符号化信号をオーディオ信号に復号化するための方法であって、前記符号化信号は、フィルタリングおよび量子化された複数のオーディオ値から成るブロックと、パラメータ化可能フィルタの伝達関数が第1のリスニング閾値の大きさの逆数に対応する第1のパラメータ化値のバージョンとを導出しえる情報を含み、前記情報は、前記パラメータ化可能フィルタの伝達関数が第2のリスニング閾値の大きさの逆数に対応する第2のパラメータ化値のバージョンと前記第1のパラメータ化値の前記バージョンとの間の組み合わせを含み、前記組み合わせは、前記第1のパラメータ化値の前記バージョンと前記第2のパラメータ化値の前記バージョンとの間の差を少なくとも含み、
    前記第1のパラメータ化値の前記バージョンを前記符号化信号から導出するステップと、
    前記第2のパラメータ化値の前記バージョンを得るために、前記第1のパラメータ化値の前記バージョンと前記差との間の合計を計算するステップと、
    前記オーディオ信号の複数の復号化オーディオ値から成るブロックを得るために、前記伝達関数が前記リスニング閾値の大きさに概略的に対応するように、前記フィルタリングおよび量子化された複数のオーディオ値から成るブロックを、前記第2のパラメータ化値の前記バージョンを用いてパラメータ化可能フィルタによってフィルタリングするステップとを含む、方法。
  11. コンピュータプログラムがコンピュータ上で動作するときに、請求項9または請求項11に記載された方法を実行するためのプログラムコードを有する、コンピュータプログラム。
JP2006552550A 2004-02-13 2005-02-10 オーディオ符号化 Active JP4444297B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004007191A DE102004007191B3 (de) 2004-02-13 2004-02-13 Audiocodierung
PCT/EP2005/001363 WO2005078705A1 (de) 2004-02-13 2005-02-10 Audiocodierung

Publications (2)

Publication Number Publication Date
JP2007522511A true JP2007522511A (ja) 2007-08-09
JP4444297B2 JP4444297B2 (ja) 2010-03-31

Family

ID=34813339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006552550A Active JP4444297B2 (ja) 2004-02-13 2005-02-10 オーディオ符号化

Country Status (17)

Country Link
US (1) US7716042B2 (ja)
EP (1) EP1697928B1 (ja)
JP (1) JP4444297B2 (ja)
KR (1) KR100848370B1 (ja)
CN (1) CN1918631B (ja)
AT (1) ATE441919T1 (ja)
AU (1) AU2005213770B2 (ja)
BR (1) BRPI0506628B1 (ja)
CA (1) CA2556325C (ja)
DE (2) DE102004007191B3 (ja)
DK (1) DK1697928T3 (ja)
ES (1) ES2331889T3 (ja)
HK (1) HK1094079A1 (ja)
IL (1) IL177163A (ja)
NO (1) NO338874B1 (ja)
RU (1) RU2346339C2 (ja)
WO (1) WO2005078705A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007525716A (ja) * 2004-03-01 2007-09-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 量子化器のステップサイズを求める装置および方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8160890B2 (en) 2006-12-13 2012-04-17 Panasonic Corporation Audio signal coding method and decoding method
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
RU2683175C2 (ru) 2010-04-09 2019-03-26 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
US9060223B2 (en) 2013-03-07 2015-06-16 Aphex, Llc Method and circuitry for processing audio signals
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005528647A (ja) * 2002-05-31 2005-09-22 ヴォイスエイジ・コーポレーション 合成発話の周波数選択的ピッチ強調方法およびデバイス

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3506912A1 (de) 1985-02-27 1986-08-28 Telefunken Fernseh Und Rundfunk Gmbh, 3000 Hannover Verfahren zur uebertragung eines audiosignals
DE3820038A1 (de) 1988-06-13 1989-12-14 Ant Nachrichtentech Verfahren zur aufbereitung und uebertragung einer bildsequenz
DE3820037A1 (de) * 1988-06-13 1989-12-14 Ant Nachrichtentech Bildcodierverfahren und einrichtung
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
TW295747B (ja) * 1994-06-13 1997-01-11 Sony Co Ltd
DE19537338C2 (de) 1995-10-06 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren von Audiosignalen
GB2307833B (en) 1995-12-01 2000-06-07 Geco As A data compression method and apparatus for seismic data
WO1998001848A1 (en) 1996-07-05 1998-01-15 The Victoria University Of Manchester Speech synthesis system
US6370477B1 (en) 1996-11-22 2002-04-09 Schlumberger Technology Corporation Compression method and apparatus for seismic data
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
KR100335609B1 (ko) 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
JP4843142B2 (ja) 1999-04-16 2011-12-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 音声符号化のための利得−適応性量子化及び不均一符号長の使用
US6775587B1 (en) * 1999-10-30 2004-08-10 Stmicroelectronics Asia Pacific Pte Ltd. Method of encoding frequency coefficients in an AC-3 encoder
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
ES2599637T3 (es) * 2002-03-27 2017-02-02 Panasonic Intellectual Property Corporation Of America Sistema de codificación y decodificación de longitud variable y procedimiento de codificación y decodificación de longitud variable
JP2007099007A (ja) * 2005-09-30 2007-04-19 Auto Network Gijutsu Kenkyusho:Kk ワイヤハーネスの配索構造

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005528647A (ja) * 2002-05-31 2005-09-22 ヴォイスエイジ・コーポレーション 合成発話の周波数選択的ピッチ強調方法およびデバイス

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007525716A (ja) * 2004-03-01 2007-09-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 量子化器のステップサイズを求める装置および方法
US8756056B2 (en) 2004-03-01 2014-06-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for determining a quantizer step size

Also Published As

Publication number Publication date
DK1697928T3 (da) 2009-12-07
KR20060114002A (ko) 2006-11-03
NO20064092L (no) 2006-11-10
DE102004007191B3 (de) 2005-09-01
BRPI0506628A (pt) 2007-05-02
NO338874B1 (no) 2016-10-31
IL177163A0 (en) 2006-12-10
CA2556325A1 (en) 2005-08-25
US20070016402A1 (en) 2007-01-18
US7716042B2 (en) 2010-05-11
JP4444297B2 (ja) 2010-03-31
DE502005008041D1 (de) 2009-10-15
AU2005213770A1 (en) 2005-08-25
RU2006132739A (ru) 2008-03-20
EP1697928B1 (de) 2009-09-02
AU2005213770B2 (en) 2008-05-15
IL177163A (en) 2010-11-30
CN1918631A (zh) 2007-02-21
RU2346339C2 (ru) 2009-02-10
ATE441919T1 (de) 2009-09-15
CA2556325C (en) 2010-07-13
BRPI0506628B1 (pt) 2018-10-09
WO2005078705A1 (de) 2005-08-25
HK1094079A1 (en) 2007-03-16
EP1697928A1 (de) 2006-09-06
CN1918631B (zh) 2010-07-28
ES2331889T3 (es) 2010-01-19
KR100848370B1 (ko) 2008-07-24

Similar Documents

Publication Publication Date Title
JP4444296B2 (ja) オーディオ符号化
JP4444295B2 (ja) 情報信号を量子化するための方法および装置
JP4444297B2 (ja) オーディオ符号化
KR100859881B1 (ko) 음성 신호 코딩
KR100840439B1 (ko) 음성부호화장치 및 음성복호장치
JP5491193B2 (ja) 音声コード化の方法および装置
JP4273062B2 (ja) 符号化方法、符号化装置、復号化方法及び復号化装置
JPWO2008072524A1 (ja) オーディオ信号符号化方法及び復号化方法
MXPA06009144A (en) Audio encoding
MXPA06009110A (en) Method and device for quantizing a data signal
MXPA06009146A (en) Audio coding

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090818

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091116

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100113

R150 Certificate of patent or registration of utility model

Ref document number: 4444297

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250