JP2009537033A - 情報信号符号化 - Google Patents

情報信号符号化 Download PDF

Info

Publication number
JP2009537033A
JP2009537033A JP2009510297A JP2009510297A JP2009537033A JP 2009537033 A JP2009537033 A JP 2009537033A JP 2009510297 A JP2009510297 A JP 2009510297A JP 2009510297 A JP2009510297 A JP 2009510297A JP 2009537033 A JP2009537033 A JP 2009537033A
Authority
JP
Japan
Prior art keywords
prediction
quantization
signal
threshold
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009510297A
Other languages
English (en)
Other versions
JP5297373B2 (ja
Inventor
イェンス ヒルシュフェルト
ゲラルド シューラー
マンフレード ルツキ
ウルリヒ クレマー
シュテファン ヴァブニック
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2009537033A publication Critical patent/JP2009537033A/ja
Application granted granted Critical
Publication of JP5297373B2 publication Critical patent/JP5297373B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Abstract

マスキング閾値によって決まる量を上回り、品質ロスがないか非常に少ない粗い量子化は、予めフィルタ処理された信号をすぐに量子化するのではなく、予めフィルタ処理された信号の前方適応予測により得られる予測誤差を量子化することによって可能となる。前方適応性のため、量子化誤差がデコーダ側における予測に悪い効果を及ぼさない。

Description

本発明は情報信号符号化に関し、例えば音声または映像の符号化に関する。
新しい通信網におけるデジタル音声符号化の使用は、双方向リアルタイム・コミュニケーションのための専門の音声放送におけるのと同様に、非常に短い符号化遅延とともに、非常に安価なアルゴリズム的符号化を必要とする。デジタル音声符号化の応用が遅延時間という意味において決定的に重要な意味をもつ典型的シナリオが、直接の、すなわち符号化されていない信号と、送信された、すなわち符号化され復号化された信号とが同時に使われるときに存在する。したがって、実施例は、コードレス・マイクロホンおよび同時に使用する(耳内の)インナーホンを用いた生放送またはアーティストが異なるスタジオにおいて同時にプレイする「散在している」放送である。これらのアプリケーションの許容できる全体の遅延時間は、10ms未満である。例えば、非対称参加ラインがコミュニケーションのために用いられる場合、ビットレートは付加的な限定要素である。
例えばMPEG−1 3(MP3)、MPEG−2 AACおよびMPEG−2/4などの標準音声エンコーダのアルゴリズム的遅延は、20msから数100msの低遅延範囲にあり、例えば、論文「音声コーデック遅延に対するガイドライン“A guideline to audio codec delay”」、M.Lutzky、G.Schuller、M.Gayer、U.Kraemer、S.Wabnik:第116回AES大会、ベルリン、2004年5月、に参照される。ボイス・エンコーダは、低いビットレートで、そして、より小さいアルゴリズム的遅延によって作動するが、限られた音声品質を提供するだけである。
一方における標準音声エンコーダと他方におけるボイス・エンコーダとの間の上記の概略のギャップは、例えば、論文「時間的に変化する前後線形フィルタを用いた知覚音声符号化“Perceptual Audio Coding Using a Time−Varying Linear Pre− and Postfilter”」、B.Edler、C.Faller、G.Schuller:第109回AES大会、ロサンゼルス、2000年9月、に近いものであり、それによれば、符号化された信号はエンコーダ側でマーキング閾値の逆数でフィルタ処理されて、その後不適切性低減のために量子化され、量子化された信号はエントロピー符号化に供給されて不適切性低減とは別に冗長性低減が行われ、量子化され予めフィルタ処理された信号がデコーダ側で再生されて、透過関数としてマーキング閾値を有するポスト・フィルタでフィルタ処理される。以下にULD符号化と呼ばれる、この種の符号化方式は、チャネルにつき大体80kBit/s以上のビットレートに対してMP3などの標準音声エンコーダと比較されることができる知覚的な品質となる。このタイプのエンコーダは、例えば、WO 2005/078703 A1にも記載されている。
特に、そこで記載されているULDエンコーダは、量子化ノイズを形成するために心理音響的に制御された線形フィルタを使用する。このような構成のため、信号が所定の周波数領域にないときでも、量子化ノイズは常に所定の閾値にある。それが心理音響的なマスキング閾値に対応する限り、ノイズは聞こえないままである。この閾値によって予定されるビットレートより小さいビットレートを得るためには、量子化ノイズは増加しなければならず、その場合ノイズは聞き取れるようになる。特に、ノイズは、信号部分のない領域において聞き取れるようになる。従って、その例は、非常に低いおよび非常に高い可聴周波数である。通常、これらの領域には非常に低い信号部分だけがあり、一方、マスキング閾値は高い。マスキング閾値が全周波数領域にわたって一様に増加する場合、信号がないときでも、量子化ノイズは増加した閾値にあり、その結果、量子化ノイズはスプリアスに聞こえる信号として聞き取れるようになる。サブバンド・ベースのエンコーダは、閾値より小さい信号を有するサブバンドをゼロに向かって単に量子化するだけであるため、このような問題はない。
許容ビットレートがスプリアス量子化ノイズの原因とならず、マスキング閾値によって決定される最小限のビットレートを下回るときに発生する上述の問題は唯一のものでない。さらに、特にサンプリング・ブロックにつき、非量子化ステップ幅を調整している増幅係数値を決定するために通過しなければならない反復ループが用いられるため、上記で参照されたULDエンコーダは一定のデータレートを得るために複雑な手順を必要とする。
WO 2005/078703 A1
論文「音声コーデック遅延に対するガイドライン"A guideline to audio codec delay"」、M.Lutzky、G.Schuller、M.Gayer、U.Kraemer、S.Wabnik:第116回AES大会、ベルリン、2004年5月 論文「時間的に変化する前後線形フィルタを用いた知覚音声符号化"Perceptual Audio Coding a Using Time−Varying Linear Pre− and Postfilter"」、B.Edler、C.Faller、G.Schuller:第109回AES大会、ロサンゼルス、2000年9月
本発明の目的は、高い符号化品質であるにもかかわらず低ビットレートでULDエンコーダ・タイプに特有の短い遅延時間を可能にすることができる情報符号化方式を提供することである。
この目的は、請求項1または24による装置、請求項44または45による方法、請求項47によるエンコーダおよび請求項48によるデコーダによって達成される。
本発明についての中心的な考えは、予めフィルタ処理した信号を直接量子化せず、予めフィルタ処理したものの前方適応予測によって得られた予測誤差によって、マスキング閾値によって決定される基準を超える極めて粗い量子化が、品質の損失がないかまたはごくわずかな品質の損失を可能とするという知見に基づくものである。前方適応性のため、量子化誤差は、予測係数に負の影響を及ぼさない。
更なる実施例によれば、予めフィルタ処理された信号が非線形方法で量子化されるかまたはクリップされる、すなわち予測誤差の量子化されていない値を量子化ステージの量子化インデックスにマッピングし、その軌道は閾値以上よりも閾値以下のほうが急勾配であるような量子化機能によって量子化される。このことにより、利用しにくいビットレートのためマスキング閾値に関して増加するノイズPSDは信号PSDに適応し、その結果、マスキング閾値の侵害はそれぞれ、信号部分のないスペクトル部分で起こらず、利用できるビットレートが減少しているにもかかわらず、更に聴取品質を改善するかまたは聴取品質を維持する。
本発明の他の実施例によれば、クリッピングされることによって、すなわち限定されたまたは一定の数の量子化レベルまたはステージに量子化されることによって、量子化は、まさに量子化されるかまたは限定される。前方適応予測による予めフィルタ処理された信号の予測によって、粗い量子化は、予測係数自体に、負の影響を及ぼさない。一定の数の量子化レベルに量子化することによって、一定のビットレートを得るための反復の防止は、本質的に可能にされる。
本発明の他の実施例によれば、一定の数の量子化レベルの間の量子化ステップ幅またはステージ高さは、それぞれ、量子化によって得られた以前の量子化レベルのインデックスから後方適応方法で決定され、その結果、一方では、非常に低い値の量子化レベルにもかかわらず、更なるサイド情報をデコーダ側に提供する必要なく、予測誤差または残留信号のより良好であるか少なくとも最もありうる量子化が、それぞれ得られることができる。その一方では、デコーダ側に対する量子化された残留信号の伝送の間の伝送誤差が後方適応ステップ幅調整の適当な構成を有するデコーダ側に短期の効果を有するだけであることを確実にすることは可能である。
本発明の好ましい実施例は、添付図面を参照して以下に説明する。
本発明の一実施例のエンコーダを示すブロック図である。 図2a/bは、請求項1のエンコーダの場合(グラフa)または予めフィルタ処理された信号の後方適応予測および反復およびマスキング閾値ブロック的量子化ステップ幅調整を有するエンコーダの比較の場合(グラフb)のマスキング閾値および信号パワー・スペクトル密度に関するノイズ・スペクトルの軌道を見本として示すグラフである。 図3a/3bおよび3cは、図1のエンコーダにおけるように、予めフィルタ処理された信号を前方適応予測するが、それにもかかわらず反復量子化ステップ幅調整を行なっている場合の異なるクリップ拡張または異なる数の量子化レベルのそれぞれに対して、ノイズまたはエラー・パワー・スペクトル密度に関する信号パワー・スペクトル密度を見本として示すグラフである。 本発明の一実施例にかかる図1のエンコーダにおける係数エンコーダの構造を示すブロック図である。 本発明の一実施例にかかる図1のエンコーダによって符号化される情報信号を復号化するためのデコーダのブロック図である。 本発明の一実施例にかかる図1のエンコーダの係数エンコーダまたは図5のデコーダの構造のブロック図である。 試聴テストの結果を示すグラフである。 図1、4、5および6において量子化および量子化/クリップ手段で、それぞれ、用いられることができる典型的な量子化機能を示すグラフである。 図1、4、5および6において量子化および量子化/クリップ手段で、それぞれ、用いられることができる典型的な量子化機能を示すグラフである。 図1、4、5および6において量子化および量子化/クリップ手段で、それぞれ、用いられることができる典型的な量子化機能を示すグラフである。
本発明の実施例が図面を参照して更に詳細に示される前に、最初に、これらの実施例の効果および原理のより良好な理解のために、ULDタイプ符号化スキームのありうる実現が比較例として述べられ、それに基づいて、最終的にこれらの実施例に至る次の実施例の基礎をなしている本質的効果および考慮すべき問題はより明らかに例示されることができる。
説明の導入部にすでに記載されているように、一定のビットレート、特に目的とする低いビットレートを得るためのより単純なスキームと同様に、同程度の知覚品質で、例えば64kBit/sの低いビットレートのためのULDバージョンの必要性がある。さらに、伝送誤差の後の回復時間が短く、または、最低であるときに、それは有利である。
心理音響的に前処理された信号の冗長度抑圧のために、比較ULDエンコーダは、サンプル的な後方適応閉ループ予測を使用する。これは、エンコーダおよびデコーダにおける予測係数の計算が単に過去のまたはすでに量子化され再現された信号サンプルに基づくことを意味する。信号または予めフィルタ処理された信号への適応を得るために、予測係数の新しいセットが、あらゆるサンプルのために再び計算される。エンコーダ側からデコーダ側に予測係数を送信する必要がないため、これは長い予測または予測値判定公式、すなわち、特に高い数の予測係数を有する予測が使われることができるという利点を得る結果となる。一方では、これは、符号化プロセスの基礎をなしているそれらと同一である予測係数を得るために、量子化された予測誤差が精度損失なくデコーダに送信されなければならないことを意味する。そうでなければ、エンコーダおよびデコーダにおいて予測されたか断定された値は、それぞれ互いに同一ではなく、それによって不安定な符号化プロセスが生じる。むしろ、比較ULDエンコーダにおいて、エンコーダ側およびデコーダ側の両方の予測値の周期的なリセットは、伝送誤差の伝達を止めるのと同様に、符号化されたビットストリームに選択的なアクセスを許容することを必要とする。しかしながら、定期的なリセットによってビットレート・ピークが生じ、それは、可変ビットレートを有するチャネルにとって問題はないが、ビットレート・ピークが一定のビットレート調整の下限を制限する固定ビットレートを有するチャネルには問題がある。
本発明の実施例を用いたULD比較符号化スキームのより詳細な説明に由来するように、これらの実施例はサンプル的な後方適応予測の代わりに後方適応量子化ステップ幅調整を有するブロック的な前方適応予測を用いることによる比較符号化スキームと異なる。一方では、これにはエンコーダ側に向かって必要な予測係数を送信するための必要なサイド情報の量を制限するために予測値がより短くなければならない不利な点があり、それは、エンコーダ効率を低下させる結果となるが、一方では、これは次の実施例の手順が低下したビットレートの結果であるより高い量子化誤差のために効果的にまだ機能する利点があり、デコーダ側の予測値が量子化ノイズ成形に使われることができる。
比較ULDエンコーダと比較した次の比較に由来するように、伝送の前に予測残余の値の範囲を制限することによって、ビットレートは制限される。これは、比較ULD符号化方式と比較して変形されたノイズ成形を得る結果となって、更に異なるおよびよりスプリアスの小さい聴取アーチファクトに至る。さらに、一定のビットレートは、反復ループを使用せずに発生する。さらに、「リセット」は、ブロック的な前方適合の結果として、あらゆるサンプルブロックのために本質的に含まれる。さらに、以下に述べる実施例において、符号化スキームが事前フィルタ係数および前方予測係数のために用いられ、それは係数のLSF(ラインスペクトル周波数)表現のための後方適応量子化ステップ幅の制御を有する差分符号化を使用する。スキームは、ブロック的なアクセスを係数に提供して、一定のサイド情報ビットレートを生成して、それより上に、後述するように、伝送誤差に対して強い。
以下に、比較ULDエンコーダおよびデコーダの構成は以下において更に詳細に述べるが、続いて、本発明の実施例について説明し、より高い一定のビットレートから低いビットレートへの伝送における利点について説明する。
比較ULD符号化スキームにおいて、エンコーダの入力信号は、信号の知覚的に無関係な部分に関する情報を得るために、知覚モデルまたは聴覚モデルによって、それぞれ、エンコーダ側で分析される。この情報は、時変フィルタ係数によって前置フィルタを制御するために用いられる。それにより、前置フィルタは、そのマスキング閾値に関して入力信号を正規化する。フィルタ係数は、128のサンプルの各々のブロックのそれぞれに対して1回計算され、量子化されて、サイド情報としてエンコーダ側に送信される。
予めフィルタ処理された信号に増幅係数を掛算した後、後方適応予測信号を減算することにより、予測誤差は、均一量子化器、すなわち同一のステップ幅を有する量子化器によって量子化される。すでに述べたように、予測信号はサンプル的な後方適応閉ループ予測によって得られる。したがって、デコーダに対する予測係数の伝送は必要でない。その後、量子化された予測残留信号は、エントロピー符号化される。一定のビットレートを得るために、予めフィルタ処理されたサンプルの全てのブロックに対して、数回、掛算、予測、量子化およびエントロピー符号化のステップを繰り返すループが設けられる。反復処理の後、一組の予め定められた増幅値の最も高い増幅係数が決定され、それは一定のビットレート条件を満たす。この増幅値は、デコーダに送信される。しかしながら、1より小さい増幅値が決定される場合、量子化ノイズは復号化の後、知覚可能である、すなわち、そのスペクトルはマスキング閾値と同様に成形されるが、予測モデルによって予定されるより、その全体のパワーは高い。予測エンコーダの使用により、入力信号スペクトルの部分のために、量子化ノイズは入力信号スペクトル自体より高くなることができ、それは再び音響信号のないスペクトルの部分に聞き取れるアーチファクトを生成する。量子化ノイズによって生じる効果は、低い一定のビットレートが影響力を有するとき限定要素を示す。
比較ULDスキームの説明を続けると、前置フィルタ係数は、単にフレーム内LSF差として送信されるだけであり、更にそうするとすぐに、特定の制限を超える。限定していない期間、伝送誤差伝播を回避するために、システムは、時々リセットされる。さらなる技術が、伝送誤差の場合における復号化信号の知覚の減少を最小化するために用いられることができる。伝送スキームは可変サイド情報ビットレートを生成し、それは上述の増幅係数を調整することによって上述のループで平らにされる。
比較ULDエンコーダの場合における量子化された予測残留信号のエントロピー符号化は、例えばゴロンブ、ハフマンまたは算術符号化などの方法を含む。エントロピー符号化は時々リセットされなければならず、本質的に上述のループによって再び平らにされる可変ビットレートを生じる。
比較ULD符号化スキームの場合、デコーダの量子化された予測残留信号は、エントロピー符号化から得られ、そこにおいて予測残余および予測された信号が加えられ、その合計は送信された増幅率の逆数で乗算され、そして、そこから、再現された出力信号が前置フィルタの1つと逆に周波数応答するポスト・フィルタによって発生し、そこにおいて、ポスト・フィルタは、送信された前置フィルタ係数を使用する。
前述のタイプの比較ULDエンコーダは、例えば、32kHz〜48kHzのサンプル周波数で、5.33〜8msの全般的なエンコーダ/デコーダ遅延を得る。(スプリアスループ)反復なしで、それは、80〜96kBit/sの範囲でビットレートを生成する。上述のように、低い一定のビットレートで、ノイズ・スペクトルの一様な増加により、このエンコーダにおいて聴取品質は減少する。さらに、反復処理のため、均一なビットレートを得るための努力は大きい。後述する実施例は、これらの不利な点を克服するかまたは最小化する。一定の伝送データ転送速度において、以下に述べる実施例の符号化スキームは、量子化誤差の修正ノイズ成形を引き起こし、反復処理を必要としない。より正確に言うと、上述した比較ULD符号化方式で、反復過程において一定の伝送データ転送速度の場合、乗法子が決定され、その助けを借りて、前置フィルタから来ている信号は量子化の前に乗算され、そこにおいて、量子化ノイズはスペクトル的に白色であり、それはデコーダにおいて聴取閾値のように成形されるが、選択された乗法子に応じて聴取閾値より僅かに低いかまたは僅かに高い量子化ノイズとなり、それは、上述のように、確定した聴取閾値のシフトとして解釈される。それに関連して、量子化ノイズが復号化の後に生じ、個々の周波数領域におけるパワーがそれぞれの周波数領域における入力信号のパワーを超えることさえできる。結果として得られる符号化アーチファクトは、明りょうに聞き取ることができる。後述する実施例は量子化ノイズを形成するが、そのスペクトルパワー密度がスペクトル的にもはや白色ではない。前置フィルタ信号の粗い量子化/限定またはクリッピングは、むしろ前置フィルタ信号のスペクトルパワー密度と類似の結果として生じる量子化ノイズを形成する。それにより、それが入力信号のスペクトルパワー密度以下であるように、デコーダにおける量子化ノイズは形成される。これは、決定された聴取閾値の変形と解釈されることができる。結果として生じる符号化アーチファクトは、比較ULD符号化方式における場合よりスプリアスが少ない。さらに、次の実施例は複雑さを減少させる繰り返し過程を必要としない。
上述の比較ULD符号化スキームを説明することにより、十分なベースが実施例の説明のために以下の実施例の利点および検討のために提供されるので、最初に、本発明の一実施例に関するエンコーダの構造について述べる。
図1のエンコーダは、概して10で示されるが、符号化される情報信号のための入力12と、符号化された情報信号のための出力14とを含み、これが音声信号および特にすでにサンプリングされた音声信号であると仮定されるが、入力12に続くエンコーダの中でのサンプリングも可能である。出力信号のサンプルは、図1においてx(n)で示される。
図1に示すように、エンコーダ10は、マスキング閾値決定手段16、前置フィルタ手段18、前方予測手段20、量子化/クリップ手段22およびビットストリーム生成手段24に分けることができる。マスキング閾値決定手段16は、知覚できることまたは聴取できることに関して無関係である音声信号の部分を示すか、または、スペクトル・エネルギーが心理音響被覆効果により聞こえないままであるか、または人間によって感知されない周波数に対するスペクトル閾値を示す知覚モデルを用いて入力12に入ってくる音声信号のマスキングまたは聴取閾値の表現を決定するために知覚モデルまたは聴取モデルに従って作動する。以下に述べるように、決定手段16はブロック的な方法でマスキング閾値を決定する、すなわち、音声信号のサンプルの次のブロックのブロック毎にマスキング閾値を決定する。他の手順も、同様に可能である。決定手段16に由来するものとしてマスキング閾値の表現は、次の表現に反して、特に図4に関して、スペクトルマスキング閾値のスペクトルサンプルによって表現される。
前置フィルタまたは前推定手段18は、マスキング閾値決定手段16および入力12に接続されて、予めフィルタ処理された信号f(n)を得るためのマスキング閾値に関して出力信号を正規化するために出力信号をフィルタ処理する。前置フィルタ手段18は、例えば、線形フィルタに基づいて、判定手段16のマスキング閾値によって与えられるマスキング閾値の表現にしたがってフィルタ係数を調整するために行われ、線形フィルタの透過関数は実質的にマスキング閾値の逆数に対応する。フィルタ係数の調整は、例えばマスキング閾値決定において半分重複している後述のブロックのように、ブロック的、ハーフブロック的に実行されるか、または、例えばブロック的に決定されたマスキング閾値表現によって得られるフィルタ係数を挿入することによって、またはブロック間のギャップにわたって得られるフィルタ係数によって、サンプル的に実行される。
Figure 2009537033
量子化/クリップ手段22は予測手段20に接続されて、それぞれ、一定で限られた数の量子化レベルに残留信号の値r(n)をマッピングする量子化機能によって残留信号を量子化またはクリッピングし、前述したように、そのようにして得られた量子化インデックスic(n)の形の量子化された残留信号を前方適応予測手段20に送信する。
量子化された残留信号ic(n)、手段20によって決定される予測係数の表現、および手段16によって決定されるマスキング閾値の表現は、符号化信号14によってデコーダ側に与えられる情報を形成し、そこにおいて、ビットストリーム生成手段24は、図1に示されるように、場合によっては可逆符号化を用いて、直列ビットストリームまたはパケット伝送にしたがって情報を結合するために設けられている。
Figure 2009537033
以下に、図1のエンコーダの構造が、更に詳細に示される。特に、マスキング閾値決定手段16は、知覚モデルに従って作動するマスキング閾値決定器または知覚モデル26、前置フィルタ係数計算モジュール28および係数エンコーダ30を含み、入力12と前置フィルタ手段18との間およびビットストリーム発生器24との間にその符号の順に接続される。前置フィルタ手段18は、入力が係数エンコーダ30の出力に接続されている係数デコーダ32と、例えば適応線形フィルタであって、そのデータ入力が入力12に接続され、そのデータ出力が手段20に接続され、フィルタ係数を適応させるための適応入力が係数デコーダ32の出力に接続される前置フィルタ34とを含む。予測手段20は、予測係数計算モジュール36、係数エンコーダ38、係数デコーダ40、減算器42、予測フィルタ44、遅延素子46、更なる加算器48および非量子化器50を含む。予測係数計算モジュール36および係数エンコーダ38は、それぞれ、前置フィルタ34の出力および係数デコーダ40の入力またはビットストリーム発生器24の入力の間にこの順序で直列に接続され、前方適応方法でブロック的に予測係数の表現の決定に協力する。係数デコーダ40は係数エンコーダ38と、例えば線形予測フィルタである予測フィルタ44との間に接続される。係数デコーダ40に接続される予測係数入力とは別に、フィルタ44は、データ入力とデータ出力とを含み、それに接続されるフィルタ44とは別の加算器48および遅延素子46とで閉ループを形成する。特に、遅延素子46は加算器48とフィルタ44との間に接続され、フィルタ44のデータ出力は加算器48の第1入力に接続される。それより上に、フィルタ44のデータ出力は、減算器42の逆相入力端子にも接続されている。減算器42の非反転入力は前置フィルタ34の出力に接続され、また加算器48の第2の入力は非量子化器50の出力に接続されている。非量子化器50のデータ入力は、量子化/クリッピング手段22に接続され、さらに非量子化器50のステップ幅制御入力に接続される。量子化/クリッピング手段22は、量子化モジュール52とステップ幅適応ブロック54とを含み、量子化モジュール52は均一なおよび制御可能なステップ幅を有する均一量子化器56およびリミッタ58からなり、これらは減算器42の出力とビットストリーム発生器24の入力との間にその符号の順序で直列に接続され、ステップ幅適応ブロック54は、ステップ幅適応モジュール60および遅延部材62を含み、これらは、リミッタ58の出力と量子化器56のステップ幅制御入力の間にその符号の順序で直列に接続される。さらに、リミッタ58の出力は、非量子化器50のデータ入力に接続され、非量子化器50のステップ幅制御入力は、ステップ幅適応ブロック60に接続されている。ビットストリーム発生器24の出力は、エンコーダ10の出力14も形成している。
図1のエンコーダの詳細な構造が詳述された後に、以下に、その動作モードが説明される。知覚モデル・モジュール26は、音声信号からブロック的な方法でマスキング閾値を決定または推定する。したがって、知覚モデル・モジュール26は、例えば、長さ256のDFT、すなわち、ブロック間における50%のオーバーラップを有する256サンプルx(n)のブロック長を使用し、それは音声信号の128サンプルのエンコーダ10の遅延という結果となる。知覚モデル・モジュール26によるマスキング閾値出力の推定は、例えば、Barkバンドまたは線形周波数スケールにおいてスペクトル的にサンプリングされた形で表される。知覚モデル・モジュール26によるブロックごとのマスキング閾値出力が、所定のフィルタ、すなわちフィルタ34のフィルタ係数を計算するための係数計算モジュール24で用いられる。モジュール28によって計算される係数は、例えば、マスキング閾値をモデル化するLPC係数でありえる。あらゆるブロックのための前置フィルタ係数は、係数エンコーダ30によって再び符号化され、それについては図4を参照して更に詳細に説明する。係数デコーダ34は、モジュール28の前置フィルタ係数を読み出すための符号化された前置フィルタ係数を復号化し、前置フィルタ34は、これらのパラメータまたは前置フィルタ係数を取得して使用し、それはそのマスキング閾値に関して入力信号x(n)を正規化するか、または、基本的にマスキング閾値の逆数に対応する透過関数で入力信号をフィルタ処理する。入力信号と比較して、結果として生じる予めフィルタ処理された信号f(n)は、結局のところ著しく小さい。
Figure 2009537033
減算器22によって得られた予測残余r(n)は、量子化器56における一様な量子化、すなわち一様な量子化ステップ幅を有する量子化に従い、ここで、ステップ幅Δ(n)は時間変数であり、それぞれ、量子化された残余値から以前の残余値r(m<n)まで後方適応方法でステップ幅適応モジュールによって計算されるかまたは決定される。より正確に言うと、均一量子化器56は残余値r(n)ごとに量子化された残余値q(n)を出力し、それはq(n)=i(n)・Δ(n)として表されることができ、インデックスを有する暫定的な量子化ステップとして見なされる。暫定的な量子化インデックスi(n)は、リミッタ58によって量C=[−c;c]にクリップされ、ここで、cは定数c∈{1,2,・・・}である。特に、リミッタ58は、|i(n)|>cを満たすすべての暫定的なインデックス値i(n)が、どちらがクローザであるかによって−cまたはcにセットされるように実行される。遅延部材62および本実施例の他の全ての遅延部材は1つのサンプルによって入って来る値を遅延させるため、単にクリップされ、または制限されたインデックス・シーケンスまたはシリーズic(n)は、リミッタ58によって、ビットストリーム発生器24、非量子化器50およびステップ幅適応ブロック54または遅延素子62に出力される。
ここで、リミッタ58で制限された領域、すなわち「許容」量子化インデックスまたは対応する量子化レベルによってセットされる領域が、許容量子化レベルが生成されクリップされた量子化インデックス・シーケンス・ストリームic(n)においてできるだけ一様に発生する、量子化されていない残余値r(n)が発生する統計的確率に配置されるように、常にステップ幅Δ(n)に適応させるために遅延部材62によって遅延させられたこれまでのインデックス・シーケンス値ic(n)を使用するという点で、後方適応ステップ幅制御はステップ幅適応ブロック54によって実現される。特に、ステップ幅適応モジュール60は、例えば、2つの直ちに先行してクリップされ量子化されたインデックスic(n−1)とi2(n−2)および直ちに前もって決定されたステップ幅値Δ(n−1)からΔ(n)=βΔ(n−1)+δ(n)、ここで、β∈[0.0;1.0]、|ic(n−1)+ic(n−2)|≦Iに対してδ(n)=δ0および|ic(n−1)+ic(n−2)|>Iに対してδ(n)=δ1であって、δ0、δ1およびIは適当に調整された定数およびβ、を用いることによって、現在のステップ幅Δ(n)を計算する。
Figure 2009537033
量子化インデックス・シーケンスqc(n)に導かれる量子化ノイズは、クリッピングのためもはやホワイトではない。むしろ、そのスペクトル・フォームは、予めフィルタ処理された信号の1つをコピーする。これを例示するために、図3を簡潔に参照して、グラフa,bおよびcに、予めフィルタ処理された信号のPSD(上のグラフ)、および異なる値の量子化レベルまたはステージに対する量子化誤差のPSD(それぞれ、下のグラフ)を示し、すなわちグラフaにおけるC=[−15;15]に対するPSD、およびグラフbにおける[−7;7]のリミッタ域、およびグラフcにおける[−1;1]のクリッピング域に対するPSDを示す。明確にするために、グラフA〜Cの誤差PSDのPSD軌道が、−10dBのオフセットで描かれていることにさらに注意しなければならない。以上のように、予めフィルタ処理された信号は、σ2=34のパワーを有するカラーノイズに対応する。ステップ幅Δ=1を有する量子化で、[−21;21]内に信号があり、すなわち、予めフィルタ処理された信号のサンプルは発生分布を有するか、またはこの領域内にあるヒストグラムを形成する。図3のグラフa〜cに対して、上述のように、量子化域は、(a)においては[−15;15]、(b)においては[−7;7]および(c)においては[−1;1]に限定されている。量子化誤差は、量子化されていない予めフィルタ処理された信号と復号化された予めフィルタ処理された信号との差として測定される。以上のように、量子化ノイズは、クリッピングの増加によって、または、予めフィルタ処理された信号のPSDをコピーする量子化レベルの数の限定の増加と共に、予めフィルタ処理された信号に加えられ、コピーの程度は、与えられたクリッピングの厳しさまたは拡張に依存する。したがって、ポスト・フィルタリングの後、デコーダ側の量子化ノイズ・スペクトルは、音声入力信号のPSDをさらにコピーする。これは、量子化ノイズが復号化の後、信号スペクトルの下に残ることを意味する。この効果は図2において例示され、グラフaにおいて、後方適応予測の場合、すなわち上述の比較ULDスキームに従う予測の場合を示し、グラフbにおいて、図1に従って与えられたクリッピングを有する前方適応予測の場合を示し、それぞれ正規化周波数領域における3つの軌道を示し、すなわち、上から下に向かって、信号PSD、すなわち音声信号のPSD、量子化誤差PSDまたは復号化後の量子化ノイズ(直線)およびマスキング閾値(点線)を示す。以上のように、比較ULDエンコーダに関する量子化ノイズ(図2a)はマスキング閾値のように形成されて、信号の部分に関する信号スペクトルを上回る。量子化レベル数の次のクリッピングまたは制限と組み合わされる予めフィルタ処理された信号の前方適応予測の効果は、現在、図2bに明らかに例示され、そこでは、量子化ノイズは常に信号スペクトルより低く、その形状は信号スペクトルとマスキング閾値との混合であることが示されている。試聴テストにおいて、図2bによる符号化アーチファクトはよりスプリアスが少なく、把握される聴取品質はより良好であることが見出される。
デコーダ側に伝送されるクリップされた量子化インデックスic(n)を得るために、図1のエンコーダの動作モードの上述の説明は、予めフィルタ処理された信号f(n)のポストプロセッシングに焦点を合わせた。それらが一定のおよび限られた数のインデックスを有する量から生じるので、それらは出力14で符号化されたデータストリームの中で同じビット数で表されることができる。したがって、ビットストリーム発生器24は、例えば、所定数のmビットによって表されるmビットワードに量子化インデックスの単射を使用する。
以下の説明は、係数計算モジュール28および36で計算される前置フィルタまたは予測係数のデコーダ側への伝送を取扱う、すなわち特に係数エンコーダ30および38の構成のための実施例について取り扱う。
図示するように、図4の実施例による係数エンコーダは、LSF変換モジュール102、第1の減算器104、第2の減算器106、均一なおよび調節可能な量子化ステップ幅を有する均一量子化器108、リミッタ110、非量子化器112、第3の加算器114、2つの遅延部材116および118、固定フィルタ係数または一定のフィルタ係数を有する予測フィルタ120、およびステップ幅適応モジュール122を含む。符号化されるフィルタ係数は入力124に入力され、出力126は符号化された表現を出力するために設けられている。
LSF変換モジュール102の入力は、入力124に直接続いている。非反転入力および出力を有する減算器104は、LSF変換モジュール102の出力および減算器106の第1の入力の間に接続され、一定のlcが、減算器104の入力に与えられる。減算器106は、その非反転入力および出力で第1の減算器104と量子化器108との間に接続され、その反転入力端子は、予測フィルタ120の出力に接続される。遅延部材118および加算器114とともに、予測フィルタ120は、閉ループ予測器を形成し、フィードバックを有するループ状に直列に接続され、遅延部材118は加算器114の出力および予測フィルタ120の入力の間に接続され、予測フィルタ120の出力は加算器114の第1の入力に接続される。残りの構成は、主にエンコーダ10の手段22の一方に対応する、すなわち、量子化器108は、減算器106の出力、およびその出力が出力126、遅延部材116の入力、非量子化器112の入力に接続されるリミッタ110の入力の間に接続される。遅延部材116の出力はステップ幅適応モジュール122の入力に接続され、協働してステップ幅適応ブロックを形成する。ステップ幅適応モジュール122の出力は、量子化器108のステップ幅制御入力および非量子化器112に接続される。
非量子化器112の出力は、加算器114の第2の入力に接続される。
Figure 2009537033
2つの係数エンコーダ30および38が図4に記載されている方法で実行される場合、図1のエンコーダ10はいかなるループも使用することなく一定のビットレート条件を満たす。LPC係数のブロック的な前方適応および適用された符号化スキームのため、予測器の明確なリセットは必要でない。
図1および4によるエンコーダによって得られた試聴テストの結果が議論される前に、本発明の一実施例によるデコーダの構成は後述するが、それはこのエンコーダからの符号化されたデータストリームを復号化するのに適しており、図5および図6が参照される。また、図6は、図1の係数デコーダの構成を示す。
Figure 2009537033
図5のデコーダの基本構成が上で説明されたが、デコーダ200の構成が更に詳細に説明される。特に、非量子化器206は、遅延部材216、ステップ幅適応モジュール218および均一非量子化器220からなるステップ幅適応ブロックを含む。量子化インデックスic(n)を得るために、非量子化器220は、そのデータ入力で抽出器214の出力に接続される。さらに、ステップ幅適応モジュール218は、その出力が非量子化器220のステップ幅制御入力に再び接続される遅延部材216を介して、抽出器214の出力に接続される。非量子化器220の出力は、再現手段210を形成する加算器222の第1の入力に接続される。予測手段208は、係数デコーダ224、予測フィルタ226および遅延部材228を含む。係数デコーダ224、加算器222、予測フィルタ226および遅延部材228は、それらの動作モードおよびそれらの接続性に関してエンコーダ10の素子40、44、46および48に対応する。特に、予測フィルタ226の出力は、その出力が遅延部材228を介して予測フィルタ226のデータ入力に再びフィードバックされる加算器222の更なる入力に接続され、加算器222の出力はさらにポスト・フィルタ手段212に接続されている。係数デコーダ224は、抽出器214の更なる出力および予測フィルタ226の適応入力の間に接続される。ポスト・フィルタ手段は、係数デコーダ230とポスト・フィルタ232とを含み、ポスト・フィルタ232のデータ入力は加算器222の出力に接続され、ポスト・フィルタ232のデータ出力は出力204に接続され、ポスト・フィルタ232の適応入力はポスト・フィルタ232を適応させるための係数デコーダ230の出力に接続されており、係数デコーダ230の入力が抽出器214の更なる出力に接続されている。
すでに言及されたように、抽出器214は入力202で符号化されたデータストリームから量子化された前置フィルタ残留信号を表している量子化インデックスic(n)を抽出する。均一非量子化器220において、これらの量子化インデックスは、量子化された残余価値qc(n)に非量子化される。量子化インデックスic(n)はエンコーダ側ですでにクリップされているため、本質的に、この非量子化は許容量子化レベルの中に残る。図1のエンコーダのステップ幅適応ブロック54と同様にして、ステップ幅適応は、後方適応方法で実行される。伝送誤差なしで、非量子化器220は、図1のエンコーダの非量子化器50と同じ値を生成する。したがって、符号化された予測係数に基づく素子222、226、228および224は、加算器48の出力で、図1のエンコーダ10において得られるのと同じ結果を得る、すなわち非量子化された、または、再現された前置フィルタ信号を得る。後者は、マスキング閾値に対応する透過関数で、ポスト・フィルタ232においてフィルタ処理され、ポスト・フィルタ232は、前置フィルタ係数情報に基づいて、適切にポスト・フィルタ230またはそのフィルタ係数を調整する係数デコーダ230によって、最適に、調整される。
エンコーダ10が図4で説明したように実行される係数エンコーダ30および38を備えていると仮定するならば、エンコーダ200の係数デコーダ224および230だけでなく、エンコーダ10の係数デコーダ40も、図6に示すように構成される。以上のように、係数デコーダは、2つの遅延部材302、304、遅延部材302と共にステップ幅適応ブロックを形成するステップ幅適応モジュール306、均一ステップ幅を有する均一非量子化器308、予測フィルタ310、2つの加算器312および314、LSF再変換モジュール316、一定のオフセット−lcを有するLSF残余価値le(n)を受信するための入力318、および再現された予測または前置フィルタ係数を出力するための出力320を含む。これにより、遅延部材302は、ステップ幅適応モジュール306の入力と入力318との間に接続され、非量子化器308の入力は入力318に接続され、非量子化器308のステップ幅適応入力はステップ幅適応モジュール306の出力に接続されている。素子302、306および308の動作モードおよび結合性は、図4の112、116および122の1つに対応する。加算器312の出力と予測フィルタ310の入力との間に遅延部材304を接続し、加算器312の第1の入力を非量子化器308に接続し、加算器312の第2の入力を予測フィルタ310の出力に接続することによって、共通ループに接続される遅延部材304、予測フィルタ310および加算器312の閉ループ予測器は、非量子化器308の出力に接続される。素子304、310および312は、それらの動作モードおよび結合性において、図4の素子120、118および114に対応する。さらに、加算器312の出力は、第2の入力で一定値lcが適用される加算器314の第1の入力に接続され、本実施例によれば、一定のlcは、エンコーダおよびデコーダの両方に与えられて、サイド情報の一部として伝送される必要のないものであるが、それも可能である協定値である。LSF再変換モジュール316は、加算器314の出力および出力320の間に接続される。
入力318に入ってくるLSF残留信号インデックスle(n)が非量子化器308によって非量子化され、非量子化器308は、すでに非量子化された量子化インデックス、すなわち、遅延部材302によってサンプルによって遅延させられたインデックスからステップ幅適応モジュール306によって後方適応的に決定された後方適応ステップ幅値Δ(n)を使用する。加算器312は、加算器312がすでに計算し、単に一定のオフセットlcによる一定のオフセットを備えているだけの再現されたLSF値を表す合計から遅延部材304および予測フィルタ210の組合せを計算する非量子化されたLSF残余価値に予測信号を加える。後者は、値lcを加算器312が出力するLSF値に加えることによって加算器314により修正される。このように、加算器314の出力で、再現されたLSF値が結果として得られ、それは、モジュール316によって、LSF領域から再現された予測または前置フィルタ係数に変換される。したがって、LSF再変換モジュール316はすべてのスペクトル線周波数を考慮するが、図6の他の素子に関する議論は1つのスペクトル線周波数の説明に限られていた。しかしながら、素子302〜314は、他のスペクトル線周波数で、上記の手段を実行する。
上述のエンコーダおよびデコーダの実施例を行った後、それらが図1、4、5および6による符号化スキームで得られた試聴テスト結果が図7に基づいて以下に示される。実行された試験において、MUSHRA基準に従う試聴テストにおいて、図1、4および6によるエンコーダおよび図の説明の始めに議論した比較ULD符号化スキームによるエンコーダの両方がテストされ、調節器は省略された。MUSHRA試験は、外部D/AコンバータおよびSTAX増幅器/ヘッドホンを有するラップトップコンピュータで静かなオフィス環境の下に実行された。8人の試験リスナーのグループは、専門家および非専門家のリスナーから成っている。参加者が試聴テストを開始する前に、彼らにはテスト・セットを聞く機会があった。試験は、MPEGテスト・セットの12のモノラルのオーディオ・ファイルによって実行され、全ては、32kHzのサンプル周波数を有し、すなわち、es01(スザンナ・ヴェガ)、es02(男性のスピーチ)ドイツ語)、es03(女性のスピーチ、英語)、sc01(トランペット)、sc02(オーケストラ)、sc03(ポップ・ミュージック)、si01(チェンバロ)、si02(カスタネット)、si03(調子笛)、sm01(バグパイプ)、sm02(グロッケンシュピール)、sm03(パック主導のストリング)である。
Figure 2009537033
MUSHRA試聴テストの結果は、図7に示され、12のテストピース個々のために、そしてすべてのピース全体にわたる結果のために、平均値および95%信頼区間の両方が示される。信頼区間が重複するならば、統計学的に符号化方法に大きな違いはない。
ピースes01(スザンナ・ヴェガ)は、低いビットレートにおける図1、4、5および6による符号化スキームの優位性のための良好な例である。復号化信号スペクトルの高い部分は、比較ULD符号化スキームと比較して、可聴アーチファクトが少ないことを示す。これは、図1、4、5および6によるスキームの著しく高い評価という結果になる。
ピースsm02(グロッケンシュピール)の過渡信号は、比較ULD符号化スキームのための高ビットレート要求を有する。使用される64kBit/sにおいて、比較ULD符号化スキームは、サンプルのブロック全体にわたってスプリアス符号化アーチファクトを生成する。対照的に、それぞれ、図1、4および6に従って作動しているエンコーダは、大幅に改善された音声品質または知覚品質を提供する。図7のグラフの右側に見られる図1、4および6に従って形成される符号化スキームの全体の評価は、比較ULD符号化スキームより著しく良好な評価を得た。全体として、この符号化スキームは、所定のテスト条件で「良好な音声品質」の全体的な評価を得た。
要約すると、上述の実施例から、低遅延を有する音声符号化スキームの結果が得られ、それは後方適応サンプル的予測の代わりにクリッピング/限定とともにブロック的前方適応予測を使用する。ノイズ成形は、比較ULD符号化スキームと異なる。試聴テストは、低いビットレートの場合に上記の実施例が比較ULD符号化方式による後方適応方法より優れていることを示した。それは、高品質音声エンコーダと低遅延を有する音声エンコーダとの間のビットレート・ギャップを縮める対象である。全体として、上記の実施例はビットレートを減らすために、6〜8msの非常に短い遅延を有する音声符号化スキームの可能性を提供し、それは比較ULDエンコーダと比較して以下の効果がある。それは、高い量子化誤差に対して強く、付加的なノイズ成形能力を有し、一定のビットレートを得るためのより良好な能力を有し、より良好なエラー回復挙動を示す。比較ULD符号化スキームの場合のように、信号のない位置の可聴量子化ノイズの課題は、マスキング閾値を上回って量子化ノイズを増加させる修正方法による実施例によって、すなわちある程度マスキング閾値を増加させる代わりに、一様に信号スペクトルをマスキング閾値に加えることによって対処される。その方法では、可聴量子化ノイズは、信号のない位置にはない。
換言すれば、前記実施例は、以下のように比較ULD符号化スキームと異なる。比較ULD符号化スキームにおいては、後方適応予測が用いられ、それは予測フィルタA(z)のための係数が前に復号化された信号値からサンプルごとの基準に更新されることを意味する。可変ステップ幅を有する量子化器が用いられ、ステップ幅はエントロピー・エンコーダからの情報を用いて全ての128サンプルを適応させ、それはデコーダ側に対してサイド情報として送信される。この手順によって、量子化ステップ幅は増加し、それはより多くのホワイトノイズを予めフィルタ処理された信号に加えて、一様にマスキング閾値を増加させる。比較ULD符号化スキームにおいて、後方適応予測が前方適応ブロック的予測と置き換えられる場合、それは、予測フィルタA(z)のための係数が量子化されていない予めフィルタ処理されたサンプルから128サンプルに対して一度計算され、サイド情報として伝送されることを意味し、量子化ステップ幅がエントロピー・エンコーダからの情報を用いて128サンプルに適応されて、デコーダ側に対してサイド情報として送信される場合、比較ULD符号化スキームにおける場合であるが、予測更新はいかなる量子化によっても影響されないので、量子化ステップ幅はまだ増加する。前記実施例は、前方適応ブロック的予測だけを使用し、さらに、量子化器は、単に固定ステップ幅を有する量子化ステージの所定の数2N+1だけを有していた。量子化器範囲[−NΔ;NΔ]の範囲外の振幅を有する予めフィルタ処理された信号x(n)のために、量子化された信号は[−NΔ;NΔ]に限定された。これはPSDを有する量子化ノイズという結果となり、それはもはやホワイトではなく、入力信号、すなわち予めフィルタ処理された音声信号のPSDをコピーする。
結論として、以下のことが、前記実施例において注意されるべきである。第1に、前置フィルタ34または予測フィルタ44に対して、およびデコーダに対して、および特にポスト・フィルタ232および予測フィルタ226に対して、エンコーダ内で知覚モデル・モジュール26によって得られるマスキング閾値の表現に関する情報を送信するために異なる可能性が存在する点に留意する必要がある。特に、それはエンコーダの出力14で出力されて、デコーダの出力202で受け取られるので、エンコーダ内で係数デコーダ32および40がマスキング閾値に関して正確に同じ情報を受信する必要はない点に留意する必要がある。むしろ、例えば図4による係数エンコーダ30の構成において、得られたインデックスle(n)および前置フィルタ残留信号量子化インデックスic(n)が3つの値、すなわち−1、0、1の量からのみ生じることが可能であり、対応するnビットのワードを明らかにしたとき、ビットストリーム発生器24がこれらのインデックスをマッピングすることが可能である。図1、4または5、6による実施例によれば、それぞれ、量−1、0、1から生じている前置フィルタ量子化インデックス、予測係数量子化インデックスおよび/または前置フィルタ量子化インデックスは8ビットのワードに5が1組となってマッピングされ、それは28ビットのワードに35の可能性のマッピングに対応する。マッピングが主観的でないため、いくつかの8ビットのワードが使われずに残り、例えば同期などのために、他の方法で使用することができる。
このときに、以下のことに留意しなければならない。上記において、係数デコーダ32および230の構造が同一であることは、図6に関して記載された。この場合、前置フィルタ34およびポスト・フィルタ232は、同じフィルタ係数を適用するとき、互いに逆数の透過関数を有するように実行される。しかしながら、例えば、係数エンコーダ32がフィルタ係数の更なる変換を実行することはもちろん可能であり、この場合、前置フィルタは主にマスキング閾値の逆数に対応する透過関数を有するが、ポスト・フィルタは主にマスキング閾値に対応する透過関数を有する。
上述の実施例において、マスキング閾値がモジュール26で計算されると仮定された。しかしながら、計算された閾値が必ずしも心理音響的な閾値に対応する必要はなく、全ての心理音響的効果を考慮するわけではなく、そのいくつかだけを考慮する多少正確な推定を表すことができることに留意する必要がある。特に、閾値は心理音響的に動機づけされた閾値を表すことができ、それは心理音響的なマスキング閾値の推定とは対照的に意図的に変更された。
さらに、前置フィルタ残留信号値を量子化する際にステップ幅の後方適応適合が必ずしもなければならないというわけではない点に留意する必要がある。むしろ、特定の適用ケースで、固定ステップ幅は充分でありえる。
さらに、本発明が音声符号化の分野に限られていない点に留意する必要がある。むしろ、符号化される信号は、サイバースペース手袋の指先を刺激するために使用する信号であってもよく、この場合知覚モデル26は人間の触覚がもはや把握することができない特定の触覚の特性を考慮する。符号化される情報信号のための他の実施例は、例えば、映像信号である。特に符号化される情報信号は、画素または像点の輝度情報とすることができ、知覚モデル26は異なる時間的、位置的および周波数精神映像的な被覆効果、すなわち視覚的マスキング閾値を考慮することができる。
さらに、量子化器56とリミッタ58、または、量子化器108とリミッタ110は、それぞれ、別々のコンポーネントである必要はないことに留意する必要がある。むしろ、量子化された/クリップされた値に対する量子化されていない値のマッピングは、単独のマッピングによって実行されることができる。一方では、量子化器56または量子化器108は、それぞれ、均一なおよび一定のステップ幅を有する量子化器が続く除算器の直列接続によって実現されてもよく、除算器は、除数としてそれぞれのステップ幅適応モジュールから得られるステップ幅値Δ(n)を使用し、符合化される残留信号が被除数を形成する。均一なおよび一定のステップ幅を有する量子化器は単純な丸めモジュールとして設けられることができ、それは次の整数まで除算結果のまるめ処理を行い、次のリミッタは、許容量Cの整数まで上述のように整数を制限する。それぞれの非量子化器において、均一な非量子化は、乗法子としてのΔ(n)で単に実行される。
さらに、前記実施例が一定のビットレートを有するアプリケーションに制限された点に留意する必要がある。しかしながら、本発明はそれに制限されず、これらの実施例において使用される予めフィルタ処理された信号のクリッピングによる量子化は、例えば、1つの可能な選択肢にすぎない。クリッピングの代わりに、非線形特性曲線を有する量子化機能が用いられることができる。これを例示するために、図8a〜図8cが参照される。図8aは3つの量子化ステージにクリッピングされる上記使用の量子化機能、すなわち量子化インデックス(y軸)に対して量子化されていない値(x軸)をマッピングする3つのステージ402a,b,cを有する階段関数を示し、量子化ステージ高さまたは量子化ステップ幅Δ(n)がマークされる。以上のように、Δ(n)/2より高い量子化されていない値が、それぞれの次のステージ402aまたはcにクリップされる。図8bは、一般に、2n+1量子化ステージにクリッピングする結果となる量子化機能を示す。量子化ステップ幅Δ(n)が再び示される。図8aおよび8bの量子化機能は、閾値−Δ(n)とΔ(n)との間または−NΔ(n)とNΔ(n)との間の量子化が均一な方法で、すなわち同じステージ高さによって行われる量子化機能を表し、量子化ステージ機能はクリッピングに対応する平坦な方法を続行する。図8cは、非線形量子化機能を示し、量子化機能が−NΔ(n)とNΔ(n)との間で、完全に平坦ではないが若干の傾斜をもって、すなわち第1の領域と比べて大きいステージ幅またはステージ高さをもって実行される。この非線形量子化は本質的に上記実施例の場合のような一定のビットレートという結果とならないが、信号PSDに適応できるように、量子化ノイズの上記の変形を生成する。単に予防対策としてのみ、均一量子化領域の代わりに、非均一量子化が使われることができ、例えば、ステージ高さは連続的に増加し、それらの相関関係を維持すると共に、ステージ高さがステージ高さ調整値Δ(n)によって拡大縮小可能でありえることが、図8a〜cを参照して留意されなければならない。したがって、例えば、量子化されていない値は、それぞれの量子化器における中間の値に、非線形関数によってマッピングされることができ、Δ(n)との乗算が行われる前後に、最終的に結果として生じる値が均一に量子化される。それぞれの非量子化器において、その逆が実行され、それは逆非線形マッピングが続くΔ(n)による均一な非量子化を意味するか、逆に、Δ(n)による非量子化が続く最初の非線形変換マッピングを意味する。最後に、ステージ高さが高く調整されまたは量子化が粗く調整され、この量子化が量子化される信号の信号統計に関して効果的に非線形量子化のように働き、このステージ高さ調整は、再び予測の前方適応性によって可能にされるとき、連続的に均一である、すなわち、エラーPSDの変形の上述の効果を得ることによる線形量子化が可能な点に留意する必要がある。
さらに、上述の実施例は、符号化されたビットストリームの処理に関して変化することもできる。特に、ビットストリーム発生器および抽出器214は、それぞれ、省略されることもできる。
別に個々のチャネルを介して、異なる量子化インデックス、すなわち予めフィルタ処理された信号の残余価値、前置フィルタ係数の残余価値および予測係数の残余価値は、互いに平行して送信されることもでき、格納されることもでき、または、復号化のための他の方法で利用できるようにされることもできる。一方では、一定のビットレートが必須でない場合には、これらのデータはエントロピー符号化されることもできる。
特に、図1、4、5および6のブロックの上述の機能は、サブプログラム・ルーチンによって、個々に、または、共に行うことができる。あるいは、集積回路の形の発明の装置の実施も可能であり、これらのブロックは、たとえば、ASICの個々の回路部分として実行される。
特に、状況に応じて、発明の方式がソフトウェアで行うこともできる点に留意する必要がある。実現は電子的に読み込み可能な制御信号を有するデジタル記憶媒体、特にディスクまたはCDになされることができ、それぞれの方法が実行されるように、それはプログラム可能なコンピュータシステムと協調することができる。通常、本発明は、コンピュータ・プログラム製品がコンピュータで動くときに、発明の方法を実行するための機械で読み取ることができるキャリアに格納されるプログラムコードを有するコンピュータ・プログラム製品にもある。換言すれば、本発明は、コンピュータ・プログラムがコンピュータで動くときに、方法を実行するためのプログラムコードを有するコンピュータ・プログラムとして実現されることができる。

Claims (48)

  1. 符号化された情報信号とするために情報信号を符号化する装置であって、
    知覚モデルを用いることにより知覚できることに関して無関係な情報信号の一部を示す精神知覚できることを動機付けされた閾値の表現を決定するための手段(16)、
    予めフィルタ処理された信号を得るために、精神知覚できることを動機付けされた閾値に関して情報信号を正規化するために情報信号をフィルタ処理するための手段(18)、
    予測された信号、予めフィルタ処理された信号のための予測誤差および予めフィルタ処理された信号が再現される基礎となる予測係数の表現を得るために前方適応方法で予めフィルタ処理された信号を予測するための手段(20)、および
    量子化された予測誤差を得るために予測誤差を量子化するための手段(22)を含み、
    符号化された情報信号は、精神知覚できることを動機付けされた閾値の表現に関する情報、予測係数の表現および量子化された予測誤差を含む、装置。
  2. 量子化するための手段(22)は、量子化ステージの量子化インデックスに予測誤差の量子化されていない値をマッピングし、閾値以下の軌道が閾値以上より急勾配である量子化機能によって予測誤差を量子化するために行われる、請求項1に記載の装置。
  3. 量子化するための手段(22)は、量子化された予測誤差から後方適応方法で量子化機能の量子化ステージ高さΔ(n)を得るために行われる、請求項1または請求項2に記載の装置。
  4. 予測誤差を量子化するための手段(22)は、量子化された予測誤差を得るために予測誤差の量子化されていない値を量子化ステージの一定のおよび限られた第1の数の量子化インデックスにマッピングする量子化機能によるクリッピングによって予測誤差の量子化されていない値が量子化されるように行われる、請求項1ないし請求項3のいずれかに記載の装置。
  5. 量子化するための手段(22)は、一定のパラメータδ0,δ1,Iを有し、β∈[0.0;1.0]のときΔ(n)=βΔ(n−1)+δ(n)、|ic(n−1)+ic(n−2)|≦Iに対してδ(n)=δ0および|ic(n−1)+ic(n−2)|>Iに対してδ(n)=δ1であって、Δ(n−1)は予測誤差の前の値を量子化するために得られる量子化ステージ高さを表すものであるとき、量子化された予測誤差の2つの過去の量子化インデックスic(n−1)およびic(n−2)の後方適応方法で予測誤差の値(r(n))を量子化するために量子化機能の量子化ステージ高さΔ(n)を得るために行われる、請求項4に記載の装置。
  6. 量子化するための手段は、非線形方法で予測誤差を量子化するために行われる、請求項4または請求項5に記載の装置。
  7. 一定のおよび限られた第1の数は3である、請求項4ないし請求項6のいずれかに記載の装置。
  8. 決定するための手段(16)は、情報信号からブロック的な方法で精神知覚できることを動機付けされた閾値を決定するために行われる、請求項1ないし請求項7のいずれかに記載の装置。
  9. 決定するための手段(16)は、LSF領域において精神知覚できることを動機付けされた閾値を表すために行われる、請求項1ないし請求項8のいずれかに記載の装置。
  10. 決定するための手段(16)は、ブロック的な方法で精神知覚できることを動機付けされた閾値を決定して、それをフィルタ処理された係数に表し、フィルタ係数を予測し、更なる量子化機能によって予測から生じているフィルタ係数残留信号を量子化するために行われ、更なる量子化機能は、量子化されたフィルタ係数残留信号を得るために、フィルタ係数残留信号の量子化されていない値を量子化ステージの量子化インデックスにマッピングし、更なる閾値以下の軌道が更なる閾値以上より急勾配であって、符号化された情報信号が量子化されたフィルタ係数残留信号に関する情報を含む、請求項1ないし請求項9のいずれかに記載の装置。
  11. 決定するための手段(16)は、フィルタ係数残留信号の量子化されていない値を量子化ステージの一定のおよび限られた第2の数の量子化インデックスにマッピングされる更なる量子化機能によって、クリッピングによりフィルタ係数残留信号の量子化されていない値が量子化されるように行われる、請求項10に記載の装置。
  12. 決定するための手段(16)は、予測が量子化されたフィルタ係数残留信号の量子化インデックスに基づいて後方適応方法で実行されるように行われる、請求項11に記載の装置。
  13. 決定するための手段(16)は、フィルタ係数の予測が一定の係数を有する予測フィルタを用いて実行されるように行われる、請求項10ないし請求項12のいずれかに記載の装置。
  14. 決定するための手段(16)は、精神知覚できることを動機付けされた閾値を表すためのフィルタ係数を予測する前に一定値で減算をするために更に行われる、請求項9ないし請求項13のいずれかに記載の装置。
  15. さらに、前方適応方法で予めフィルタ処理された信号を予測するための手段(20)は、
    予めフィルタ処理された信号から予測フィルタ係数を決定するための手段(36)、および
    予測フィルタ係数によって制御されるフィルタ(44)によって予めフィルタ処理された信号を予測するための手段(44、446、48)を含む、請求項1ないし請求項14のいずれかに記載の装置。
  16. 決定するための手段(36)は、予めフィルタ処理された信号からブロック的な方法で予測フィルタ係数を決定するために行われる、請求項15に記載の装置。
  17. 決定するための手段(36)は、LSF領域において予測フィルタ係数を表すために行われる、請求項15または請求項16に記載の装置。
  18. 決定するための手段(36)は、ブロック的な方法で予測フィルタ係数を決定し、予測フィルタ係数を予測し、第3の量子化機能により予測から得られる予測フィルタ係数残留信号を量子化するために行われ、第3の量子化機能は、量子化された予測フィルタ係数残留信号を得るために、予測フィルタ係数残留信号の量子化されていない値を量子化ステージの量子化インデックスにマッピングし、第3の閾値以下の軌道が第3の閾値以上よりも急勾配であって、符号化された情報信号は、量子化された予測フィルタ係数残留信号に関する情報を含む、請求項15ないし請求項17のいずれかに記載の装置。
  19. 決定するための手段(36)は、フィルタ係数残留信号の量子化されていない値が、第3の量子化機能によって量子化ステージの第3の数の量子化インデックスにクリッピングすることにより量子化されるように行われ、第3の量子化機能は、量子化ステージの一定で限定された第3の数のインデックスを量子化するために予測フィルタ係数残留信号の量子化されていない値をマッピングする、請求項18に記載の装置。
  20. 決定するための手段(36)は、予測が、予めフィルタ処理された信号の1つまたはいくつかの以前のブロックに対して量子化された予測フィルタ係数残留信号の量子化インデックスに基づいて後方適応方法で実行されるように行われる、請求項18に記載の装置。
  21. 決定するための手段(36)は、予測フィルタ係数の予測が一定の係数を有する予測フィルタを用いて実行されるように行われる、請求項18ないし請求項19のいずれかに記載の装置。
  22. 決定するための手段(36)は、予測フィルタ係数を予測する前に一定値を減算するように更に行われる、請求項18ないし請求項21のいずれかに記載の装置。
  23. 情報信号として音声信号または映像信号を符号化するために行われ、知覚モデルは、心理音響モデルおよび精神知覚できることを動機付けされた閾値、心理音響的に動機付けされた閾値であり、または、知覚モデルは精神視覚的なモデルであり、精神知覚できることを動機付けされた閾値は精神視覚的に動機付けされた閾値である、請求項1ないし請求項22のいずれかに記載の装置。
  24. 精神知覚できることを動機付けされた閾値の表現、予測係数の表現および復号化された情報信号への量子化された予測誤差に関する情報を含む符号化された情報信号を復号化するための装置であって、
    非量子化された予測誤差を得るために量子化された予測誤差を非量子化するための手段(206)、
    予測係数に基づいて予測された信号を決定するための手段(208)、
    予測された信号および非量子化された予測誤差に基づいて予めフィルタ処理された信号を再現するための手段(210)、および
    復号化された情報信号を得るために精神知覚できることを動機付けされた閾値に関して正規化を再変換させるために予めフィルタ処理された信号をフィルタ処理するための手段(212)を含む、装置。
  25. 非量子化のための手段(206)は、量子化された予測誤差を量子化ステージの限定されおよび一定の数に非量子化するために行われる、請求項24に記載の装置。
  26. 非量子化するための手段(206)は、量子化された予測誤差のすでに非量子化された量子化インデックスから後方適応方法で量子化ステージの間において量子化ステージ高さΔ(n)を得るために行われる、請求項25に記載の装置。
  27. 非量子化するための手段(260)は、一定のパラメータδ0、δ1、Iを有し、β∈[0.0;1.0]のときΔ(n)=βΔ(n―1)+δ(n)、|ic(n−1)+ic(n−2)|≦Iに対してδ(n)=δ0、および|ic(n−1)+ic(n−2)|>Iに対してδ(n)=δ1であるとき、量子化された予測誤差の2つの以前の量子化インデックスic(n―1)およびic(n―2)からの後方適応方法で量子化された予測誤差の量子化インデックスを非量子化するために量子化ステージの間で量子化ステージ高さ(Δ(n))を得るために行われ、Δ(n−1)が非量子化ic(n−1)のために得られる量子化ステージ高さを表す、請求項25または請求項26に記載の装置。
  28. 一定のおよび限定された数は32以下である、請求項25ないし請求項27のいずれかに記載の装置。
  29. 一定のおよび限定された数は3である、請求項25ないし請求項28のいずれかに記載の装置。
  30. フィルタ処理のための手段(212)は、
    予めフィルタ処理された信号のブロックのシーケンスのブロックのためにブロック的な方法で精神知覚できることを動機付けされた閾値の表現に関する情報から知覚的な閾値フィルタ係数を決定するための手段(230)、および
    知覚的な閾値フィルタ係数を用いて予めフィルタ処理された信号をフィルタ処理するためのポスト・フィルタ(232)を含む、請求項24ないし請求項29のいずれかに記載の装置。
  31. 決定するための手段(230)は、LSF領域から再変換によって知覚的な閾値フィルタ係数を得るために行われる、請求項24ないし請求項30のいずれかに記載の装置。
  32. 決定するための手段(230)は、精神知覚できることを動機付けされた閾値の表現から量子化されたフィルタ係数残留信号の量子化インデックスを取得し、非量子化されたフィルタ係数残留信号を得るために、量子化レベルの限定されたおよび一定の第2の数に量子化されたフィルタ係数残留信号を非量子化し、精神知覚できることを動機付けされた閾値を表しているフィルタ係数を予測して、それを非量子化されたフィルタ係数残留信号に加算し、加算により得られた再現されたフィルタ係数残留信号を再変換により知覚的な閾値フィルタ係数に変換するために行われる、請求項24ないし請求項31のいずれかに記載の装置。
  33. 決定するための手段(230)は、精神知覚できることを動機付けされた閾値を表しているすでに予測されたフィルタ係数に基づいて後方適応方法で予測が実行されるように行われる、請求項32に記載の装置。
  34. 決定するための手段(230)は、精神知覚できることを動機付けされた閾値を表しているフィルタ係数の予測が一定の係数を有する予測フィルタを用いて実行されるように行われる、請求項32または請求項33に起債の装置。
  35. 決定するための手段(230)は、再変換の前に、加算から得られた再現されたフィルタ係数残留信号に一定の値を加算するために更に行われる、請求項32ないし請求項34のいずれかに記載の装置。
  36. 予測された信号を決定するための手段(208)は、
    符号化された情報信号に含まれる予測係数の表現から予測フィルタ係数を決定するための手段(224)、および
    予測フィルタ係数によって制御されるフィルタ(226)によって予めフィルタ処理された信号を予測するための手段(226、228)を含む、請求項24ないし請求項37のいずれかに記載の装置。
  37. 予測フィルタ係数を決定するための手段(224)は、予めフィルタ処理された信号のブロックのシーケンスのブロックのためにブロック的な方法で予測フィルタ係数を決定するために行われる、請求項36に記載の装置。
  38. 決定するための手段(224)は、LSF領域から再変換によって予測フィルタ係数を得るために行われる、請求項36または請求項37に記載の装置。
  39. 決定するための手段(224)は、予測係数の表現から量子化された予測係数残留信号の量子化インデックスを取得し、非量子化された予測係数残留信号を得るために量子化レベルの限定されおよび一定の第3の数に量子化された予測係数残留信号を非量子化し、予測フィルタ係数を予測してそれを非量子化された予測係数残留信号に加算し、加算により得られた再現された予測係数残留信号を再変換によって予測フィルタ係数に変換するために行われる、請求項36ないし請求項38のいずれかに記載の装置。
  40. 決定するための手段(224)は、予測がすでに予測された予測係数に基づいて後方適応方法で実行されるように行われる、請求項39に記載の装置。
  41. 決定するための手段(224)は、予測係数の予測が一定の係数を有する予測フィルタを用いて実行されるように行われる、請求項39または請求項40に記載の装置。
  42. 決定するための手段(224)は、再変換の前に、加算から得られた再現された予測係数残留信号に一定の値を加算するために更に行われる、請求項39ないし請求項41のいずれかに記載の装置。
  43. 情報信号として音声信号または映像信号を復号化するために行われ、精神知覚できることを動機付けされた閾値は、音響マスキング閾値または視覚マスキング閾値である、請求項24ないし請求項42のいずれかに記載の装置。
  44. 情報信号を符号化して符号化された情報信号にする方法であって、
    知覚できることのモデルを使用して、知覚できることに関して無関係な情報信号の一部を示す精神知覚できることを動機付けされた閾値の表現を決定するステップ、
    予めフィルタ処理された信号を得るために精神知覚できることを動機付けされた閾値に関して情報信号を正規化するための情報信号をフィルタ処理するステップ、
    予めフィルタ処理された信号、予めフィルタ処理された信号に対する予測誤差、およびそれに基づいて予めフィルタ処理された信号が再現される予測係数の表現を得るために前方適応方法で予めフィルタ処理された信号を予測するステップ、および
    量子化された予測誤差を得るために予測誤差を量子化するステップを含み、
    符号化された情報信号は、精神知覚できることを動機付けされた閾値の表現、予測係数の表現および量子化された予測誤差に関する情報を含む、方法。
  45. 精神知覚できることを動機付けされた閾値の表現、予測係数の表現および復号化された情報信号に量子化された予測誤差に関する情報を含む符号化された情報信号を復号化する方法であって、
    非量子化された予測誤差を得るために量子化された予測誤差を非量子化するステップ、
    予測係数に基づいて予測された信号を決定するステップ、
    予測された信号および非量子化された予測誤差に基づいて予めフィルタ処理された信号を再現するステップ、および
    復号化された情報信号を得るために精神知覚できることを動機付けされた閾値に関して正規化を変換するために予めフィルタ処理された信号をフィルタ処理するステップを含む、方法。
  46. コンピュータ・プログラムがコンピュータで動くときに、請求項44または請求項45の方法を実行するためのプログラムコードを有する、コンピュータ・プログラム。
  47. 情報信号入力(12)、
    情報信号入力および知覚できることの閾値出力に接続される入力を有する確率モデルに従って操作する知覚できることの閾値決定器(26)、
    情報信号入力に接続されるフィルタ入力、フィルタ出力および知覚できることの閾値出力に接続される適応制御入力を含む適応前置フィルタ(34)、
    前置フィルタ出力および予測係数出力に接続される入力を含む前方予測係数決定器(36)、
    前置フィルタ出力に接続される第1の差別化入力、第2の差別化入力および差別化出力を含む第1の差別化器(42)、
    量子化レベルの限定されたおよび一定の数、差別化出力に接続される入力、量子化ステップ幅制御入力および出力を含むクリッピング/量子化ステージ(52)、
    クリッピング/量子化ステージ(52)の出力に接続される入力、およびクリッピング/量子化ステージ(52)の量子化ステップ幅制御入力に接続される量子化ステップ幅出力を含むステップ幅調整器(54)、
    クリッピング/量子化ステージの出力および非量子化器制御出力に接続される入力を含む非量子化ステージ(50)、
    非量子化器出力に接続される第1の加算器入力、第2の加算器入力および加算器出力を含む加算器(48)、
    加算器出力に接続される予測フィルタ入力、第2の差別化入力および第2の加算器入力に接続される予測フィルタ出力、および予測係数出力に接続される予測係数入力を含む予測フィルタ(44、46)、
    知覚できることの閾値出力に接続される第1の入力、予測係数出力に接続される第2の入力、クリッピング/量子化ステージの出力に接続される第3の入力およびエンコーダ出力を表す出力を含む情報信号発生器(24)を含む、エンコーダ。
  48. 精神知覚できることを動機付けされた閾値の表現、予測係数および復号化された情報信号に量子化された予測誤差に関する情報を含む符号化された情報信号を復号化するためのデコーダであって、
    デコーダ入力、
    デコーダ入力に接続される入力、知覚できることの閾値出力、予測係数出力および量子化された予測誤差出力を含む抽出器(214)、
    量子化レベルの限定されたおよび一定の数、量子化された予測誤差出力に接続される非量子化器入力、非量子化器出力および量子化閾値制御入力を含む非量子化器(206)、
    量子化された予測誤差出力に接続される入力、および量子化された閾値制御入力に接続される出力を含む後方適応閾値調整器、
    非量子化器出力に接続される第1の加算器入力、第2の加算器入力および加算器出力を含む加算器(222)、
    加算器出力に接続される予測フィルタ入力、第2の入力に接続される予測フィルタ出力、および予測係数出力に接続される予測フィルタ係数入力を含む予測フィルタ(226)、および
    加算器出力に接続される予測フィルタ入力、デコーダ出力を表す予測フィルタ出力、および知覚できることの閾値出力に接続される適応制御入力を含む適応ポスト・フィルタ(232)を含む、デコーダ。
JP2009510297A 2006-05-12 2007-02-28 情報信号符号化 Active JP5297373B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102006022346A DE102006022346B4 (de) 2006-05-12 2006-05-12 Informationssignalcodierung
DE102006022346.2 2006-05-12
PCT/EP2007/001730 WO2007131564A1 (de) 2006-05-12 2007-02-28 Informationssignalcodierung

Publications (2)

Publication Number Publication Date
JP2009537033A true JP2009537033A (ja) 2009-10-22
JP5297373B2 JP5297373B2 (ja) 2013-09-25

Family

ID=38080073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009510297A Active JP5297373B2 (ja) 2006-05-12 2007-02-28 情報信号符号化

Country Status (19)

Country Link
US (2) US9754601B2 (ja)
EP (1) EP2022043B1 (ja)
JP (1) JP5297373B2 (ja)
KR (1) KR100986924B1 (ja)
CN (1) CN101443842B (ja)
AT (1) ATE542217T1 (ja)
AU (1) AU2007250308B2 (ja)
BR (1) BRPI0709450B1 (ja)
CA (1) CA2651745C (ja)
DE (1) DE102006022346B4 (ja)
ES (1) ES2380591T3 (ja)
HK (1) HK1121569A1 (ja)
IL (1) IL193784A (ja)
MX (1) MX2008014222A (ja)
MY (1) MY143314A (ja)
NO (1) NO340674B1 (ja)
PL (1) PL2022043T3 (ja)
RU (1) RU2407145C2 (ja)
WO (1) WO2007131564A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
WO2010028299A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US9774875B2 (en) * 2009-03-10 2017-09-26 Avago Technologies General Ip (Singapore) Pte. Ltd. Lossless and near-lossless image compression
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
US8705623B2 (en) * 2009-10-02 2014-04-22 Texas Instruments Incorporated Line-based compression for digital image data
MX2012004116A (es) * 2009-10-08 2012-05-22 Fraunhofer Ges Forschung Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, metodo y programa de computacion que usan un modelado de ruido en base a linealidad-prediccion-codi ficacion.
EP2466580A1 (en) 2010-12-14 2012-06-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal
CN105792086B (zh) 2011-07-01 2019-02-15 杜比实验室特许公司 用于自适应音频信号产生、编码和呈现的系统和方法
PL397008A1 (pl) * 2011-11-17 2013-05-27 Politechnika Poznanska Sposób kodowania obrazu
WO2013087861A2 (en) * 2011-12-15 2013-06-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer programm for avoiding clipping artefacts
US9716901B2 (en) * 2012-05-23 2017-07-25 Google Inc. Quantization with distinct weighting of coherent and incoherent quantization error
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
US9711156B2 (en) 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9620134B2 (en) 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US10614816B2 (en) 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
US9384746B2 (en) 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
US10163447B2 (en) 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
DE102014101307A1 (de) * 2014-02-03 2015-08-06 Osram Opto Semiconductors Gmbh Kodierverfahren zur Datenkompression von Leistungsspektren eines optoelektronischen Bauteils und Dekodierverfahren
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US10756755B2 (en) 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
US10699725B2 (en) 2016-05-10 2020-06-30 Immersion Networks, Inc. Adaptive audio encoder system, method and article
US10770088B2 (en) 2016-05-10 2020-09-08 Immersion Networks, Inc. Adaptive audio decoder system, method and article
AU2017262757B2 (en) * 2016-05-10 2022-04-07 Immersion Services LLC Adaptive audio codec system, method, apparatus and medium
US11281312B2 (en) 2018-01-08 2022-03-22 Immersion Networks, Inc. Methods and apparatuses for producing smooth representations of input motion in time and space
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
CN112564713B (zh) * 2020-11-30 2023-09-19 福州大学 高效率低时延的动觉信号编解码器及编解码方法
US11935546B2 (en) * 2021-08-19 2024-03-19 Semiconductor Components Industries, Llc Transmission error robust ADPCM compressor with enhanced response

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0750586A (ja) * 1991-09-10 1995-02-21 At & T Corp 低遅延celp符号化方法
JPH08237136A (ja) * 1995-02-24 1996-09-13 Nec Corp 広帯域信号符号化装置
JPH09152900A (ja) * 1995-09-19 1997-06-10 Lucent Technol Inc 予測符号化における人間聴覚モデルを使用した音声信号量子化法
JPH11504733A (ja) * 1996-02-26 1999-04-27 エイ・ティ・アンド・ティ・コーポレーション 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器
JP2004506947A (ja) * 2000-08-16 2004-03-04 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 補足情報に応答するオーディオ又はビデオ知覚符号化システムのパラメータ変調
WO2005078703A1 (de) * 2004-02-13 2005-08-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und vorrichtung zum quantisieren eines informationssignals

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2481026B1 (ja) * 1980-04-21 1984-06-15 France Etat
EP0111612B1 (fr) * 1982-11-26 1987-06-24 International Business Machines Corporation Procédé et dispositif de codage d'un signal vocal
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
GB8410044D0 (en) 1984-04-18 1984-05-31 Communications Patents Ltd Data transmission system
US4751736A (en) * 1985-01-31 1988-06-14 Communications Satellite Corporation Variable bit rate speech codec with backward-type prediction and quantization
US5125030A (en) * 1987-04-13 1992-06-23 Kokusai Denshin Denwa Co., Ltd. Speech signal coding/decoding system based on the type of speech signal
JPH02272500A (ja) * 1989-04-13 1990-11-07 Fujitsu Ltd コード駆動音声符号化方式
EP0401452B1 (en) * 1989-06-07 1994-03-23 International Business Machines Corporation Low-delay low-bit-rate speech coder
US5347478A (en) * 1991-06-09 1994-09-13 Yamaha Corporation Method of and device for compressing and reproducing waveform data
EP0799531B1 (en) * 1994-12-20 2000-03-22 Dolby Laboratories Licensing Corporation Method and apparatus for applying waveform prediction to subbands of a perceptual coding system
US5699481A (en) * 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
JP3357795B2 (ja) * 1996-08-16 2002-12-16 株式会社東芝 音声符号化方法および装置
GB2318029B (en) * 1996-10-01 2000-11-08 Nokia Mobile Phones Ltd Audio coding method and apparatus
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
JP3064947B2 (ja) * 1997-03-26 2000-07-12 日本電気株式会社 音声・楽音符号化及び復号化装置
JP3199020B2 (ja) * 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
RU2144222C1 (ru) 1998-12-30 2000-01-10 Гусихин Артур Владимирович Способ сжатия звуковой информации и система для его реализации
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
WO2000063886A1 (en) * 1999-04-16 2000-10-26 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for audio coding
EP1052622B1 (en) * 1999-05-11 2007-07-11 Nippon Telegraph and Telephone Corporation Selection of a synthesis filter for CELP type wideband audio coding
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
JP2002006895A (ja) 2000-06-20 2002-01-11 Fujitsu Ltd ビット割当装置および方法
DE60143327D1 (de) * 2000-08-09 2010-12-02 Sony Corp Sprachdatenverarbeitungsvorrichtung und -verarbeitungsverfahren
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
CN1200403C (zh) * 2000-11-30 2005-05-04 松下电器产业株式会社 线性预测编码参数的矢量量化装置
US6675148B2 (en) * 2001-01-05 2004-01-06 Digital Voice Systems, Inc. Lossless audio coder
WO2002082425A1 (en) 2001-04-09 2002-10-17 Koninklijke Philips Electronics N.V. Adpcm speech coding system with specific step-size adaptation
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
US7020603B2 (en) * 2002-02-07 2006-03-28 Intel Corporation Audio coding and transcoding using perceptual distortion templates
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
AU2003230132A1 (en) * 2002-05-30 2003-12-19 Koninklijke Philips Electronics N.V. Audio coding
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
KR100480341B1 (ko) * 2003-03-13 2005-03-31 한국전자통신연구원 광대역 저전송률 음성 신호의 부호화기
EP1649453B1 (en) * 2003-07-18 2009-03-11 Koninklijke Philips Electronics N.V. Low bit-rate audio encoding
JP2007504503A (ja) * 2003-09-05 2007-03-01 コニンクリユケ フィリップス エレクトロニクス エヌ.ブイ. 低ビットレートオーディオ符号化
JP2007509363A (ja) * 2003-10-13 2007-04-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法及び装置
US7324937B2 (en) * 2003-10-24 2008-01-29 Broadcom Corporation Method for packet loss and/or frame erasure concealment in a voice communication system
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
JPWO2005106848A1 (ja) * 2004-04-30 2007-12-13 松下電器産業株式会社 スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US20080046236A1 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Constrained and Controlled Decoding After Packet Loss
US7756350B2 (en) * 2006-11-13 2010-07-13 Global Ip Solutions, Inc. Lossless encoding and decoding of digital data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0750586A (ja) * 1991-09-10 1995-02-21 At & T Corp 低遅延celp符号化方法
JPH08237136A (ja) * 1995-02-24 1996-09-13 Nec Corp 広帯域信号符号化装置
JPH09152900A (ja) * 1995-09-19 1997-06-10 Lucent Technol Inc 予測符号化における人間聴覚モデルを使用した音声信号量子化法
JPH11504733A (ja) * 1996-02-26 1999-04-27 エイ・ティ・アンド・ティ・コーポレーション 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器
JP2004506947A (ja) * 2000-08-16 2004-03-04 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 補足情報に応答するオーディオ又はビデオ知覚符号化システムのパラメータ変調
WO2005078703A1 (de) * 2004-02-13 2005-08-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und vorrichtung zum quantisieren eines informationssignals
JP2007522509A (ja) * 2004-02-13 2007-08-09 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 情報信号を量子化するための方法および装置

Also Published As

Publication number Publication date
EP2022043B1 (de) 2012-01-18
US9754601B2 (en) 2017-09-05
BRPI0709450B1 (pt) 2020-02-04
US10446162B2 (en) 2019-10-15
BRPI0709450A8 (pt) 2019-01-08
ATE542217T1 (de) 2012-02-15
DE102006022346A1 (de) 2007-11-15
AU2007250308B2 (en) 2010-05-06
CN101443842B (zh) 2012-05-23
CA2651745C (en) 2013-12-24
KR100986924B1 (ko) 2010-10-08
PL2022043T3 (pl) 2012-06-29
CN101443842A (zh) 2009-05-27
MX2008014222A (es) 2008-11-14
NO340674B1 (no) 2017-05-29
DE102006022346B4 (de) 2008-02-28
RU2407145C2 (ru) 2010-12-20
US20180012608A1 (en) 2018-01-11
BRPI0709450A2 (pt) 2011-07-12
HK1121569A1 (en) 2009-04-24
ES2380591T3 (es) 2012-05-16
WO2007131564A1 (de) 2007-11-22
MY143314A (en) 2011-04-15
IL193784A (en) 2014-01-30
EP2022043A1 (de) 2009-02-11
JP5297373B2 (ja) 2013-09-25
CA2651745A1 (en) 2007-11-22
AU2007250308A1 (en) 2007-11-22
US20090254783A1 (en) 2009-10-08
NO20084786L (no) 2008-12-11
RU2008148961A (ru) 2010-06-20
KR20090007427A (ko) 2009-01-16

Similar Documents

Publication Publication Date Title
JP5297373B2 (ja) 情報信号符号化
RU2608878C1 (ru) Регулировка уровня во временной области для декодирования или кодирования аудиосигналов
USRE45276E1 (en) Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
US8116486B2 (en) Mixing of input data streams and generation of an output data stream therefrom
JP6158352B2 (ja) 知覚的な変換オーディオ符号化におけるノイズフィリング
KR20060113998A (ko) 오디오 부호화
KR100738109B1 (ko) 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치
JP4657570B2 (ja) 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体
US20050254586A1 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
JP4721355B2 (ja) 符号化データの符号化則変換方法および装置
US20130197919A1 (en) "method and device for determining a number of bits for encoding an audio signal"
JPH0918348A (ja) 音響信号符号化装置及び音響信号復号装置
Schuler Audio Coding
Bayer Mixing perceptual coded audio streams

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111220

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130115

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130614

R150 Certificate of patent or registration of utility model

Ref document number: 5297373

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250