JP6214160B2 - マルチモードオーディオコーデックおよびそれに適応されるcelp符号化 - Google Patents

マルチモードオーディオコーデックおよびそれに適応されるcelp符号化 Download PDF

Info

Publication number
JP6214160B2
JP6214160B2 JP2012534666A JP2012534666A JP6214160B2 JP 6214160 B2 JP6214160 B2 JP 6214160B2 JP 2012534666 A JP2012534666 A JP 2012534666A JP 2012534666 A JP2012534666 A JP 2012534666A JP 6214160 B2 JP6214160 B2 JP 6214160B2
Authority
JP
Japan
Prior art keywords
frame
current
excitation
encoded
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012534666A
Other languages
English (en)
Other versions
JP2013508761A (ja
Inventor
ラルフ ガイガー
ラルフ ガイガー
ギヨーム フックス
ギヨーム フックス
マルクス マルトラス
マルクス マルトラス
ベルンハルト グリル
ベルンハルト グリル
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2013508761A publication Critical patent/JP2013508761A/ja
Application granted granted Critical
Publication of JP6214160B2 publication Critical patent/JP6214160B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、例えば統一スピーチおよびオーディオコーデックまたは例えば音楽、スピーチ、混合されたおよび他の信号などの一般的なオーディオ信号に適応されるコーデックなどのマルチモードオーディオ符号化、およびそれに適応されるCELP符号化スキームに関する。
例えばスピーチ、音楽などの異なるタイプのオーディオ信号の混合を表す一般的なオーディオ信号を符号化するために異なる符号化モードを混合することは好ましい。個々の符号化モードは、特定のオーディオタイプに適応されうり、そのため、マルチモードオーディオエンコーダは、オーディオコンテントタイプの変更に対応して時間とともに符号化モードを変更することを利用することができる。換言すれば、マルチモードオーディオエンコーダは、例えば、特にスピーチを符号化するために費やされる符号化モードを用いてスピーチコンテントを有するオーディオ信号の部分を符号化し、さらに、例えば音楽などの非スピーチコンテントを表すオーディオコンテントの異なる部分を符号化するために他の符号化モードを用いることを決めることができる。線形予測符号化モードは、スピーチコンテントを符号化することにより適している傾向があるが、周波数領域符号化モードは、音楽の符号化に関する限り、線形予測符号化モードより性能が優れている傾向がある。
しかしながら、異なる符号化モードを用いることは、符号化されたビットストリームを実際に復号化しそれから再びゲイン調整された復号化された表現を再符号化する必要なしに、符号化されたビットストリームの中でゲインをグローバルに調整することを困難にし、または、符号化されたビットストリームのオーディオコンテントの復号化された表現のゲインをより正確であることを困難にし、迂回が復号化されゲイン調整された表現を再符号化する際に実行される再量子化のためにゲイン調整されたビットストリームの品質を必然的に減少する。
例えば、AACにおいて、出力レベルの調整は、8ビットフィールド「グローバルゲイン」の値を変更することによってビットストリームレベルにおいて容易に達成することができる。このビットストリームエレメントは、完全に復号化することおよび再符号化することの必要なく、簡単に通過しさらに編集することができる。このように、このプロセスは、いかなる品質劣化も導入しなくて、ロスレスに元に戻すことができる。このオプションを実際に使用するアプリケーションがある。例えば、今述べたアプローチを正確に適用する「AACゲイン」[AACゲイン]と呼ばれているフリーソフトウェアがある。このソフトウェアは、フリーソフトウェア「MP3ゲイン」の派生物であり、それは、MPEG1/2レイヤー3のための同じ技術を適用する。
ちょうど新たなUSACコーデックにおいて、FD符号化モードは、AACから8ビットグローバルゲインを継承した。このように、USACがFDのみのモードで動作する場合、例えばより高いビットレートのために、レベル調整の機能性は、AACと比較したときに、完全に保存される。しかしながら、モード遷移が認められるとすぐに、この可能性はもはやない。TCXモードにおいて、例えば、「グローバルゲイン」と呼ばれている同じ機能性を有するビットストリームエレメントもあり、それは、単に7ビットだけの長さを有する。換言すれば、個々のモードの個々のゲインエレメントを符号化するためのビットの数は、ゲイン制御のための少ないビットの消費とゲイン調整機能の粗すぎる量子化のために品質の劣化の回避との間に最高のトレードオフを達成するために主にそれぞれの符号化モードに適応される。明らかに、このトレードオフは、TCXおよびFDモードを比較するときに、異なる数のビットをもたらした。現在の新たなUSAC規格のACELPモードにおいて、レベルは、ビットストリームエレメント「平均エネルギー」を介して制御することができ、それは、2ビットの長さを有する。また、明らかに、平均エネルギーのためのあまりに多いビットおよび平均エネルギーのためのあまりに少ないビット間のトレードオフは、その他の符号化モード、すなわちTCXおよびFDの符号化モードと比較して、異なる数のビットをもたらした。
このように、今までは、マルチモード符号化によって符号化される符号化されたビットストリームの復号化された表現のゲインをグローバルに調整することは、扱いにくくて、品質を減少させる傾向がある。後にゲイン調整および再符号化が続く復号化が実行されるか、または、ラウドネスレベルの調整がビットストリームのそれぞれの異なる符号化モード部分のゲインに影響する異なるモードのそれぞれのビットストリームエレメントを単に適応することだけによって発見的に実行されなければならない。しかしながら、後者の可能性は、アーチファクトをゲイン調整された復号化された表現に導入する可能性が非常に高い。
このように、本発明の目的は、品質および圧縮率に関して適度なペナルティで復号化および再符号化の迂回なしにグローバルゲイン調整を可能にするマルチモードオーディオコーデック、および類似した特性の達成を有するマルチモードオーディオ符号化に組み込まれることに適しているCELPコーデックを提供することである。
この目的は、ここに添付される独立した請求項の主題によって達成される。
本発明の第1の態様によれば、本願の発明者は、異なる符号化モードにわたってグローバルゲイン調整を調和しようとすることが、異なる符号化モードが異なるフレームサイズを有しさらにサブフレームに異なるように分解されるという事実から生じるときに、遭遇されるその唯一の課題を実現した。本願の第1の態様によれば、フレームのグローバルゲイン値の変更がオーディオコンテントの復号化された表現の出力レベルの調整をもたらすように、グローバルゲイン値に対して異なるようにサブフレームの符号化ビットストリームエレメントを符号化するこの問題点は、克服される。並行して、異なる符号化は、新規なシンタックスエレメントを符号化されたビットストリームに導入するときに、ビットを保存しさもなければ発生する。さらに、異なる符号化は、グローバルゲイン値に対して異なるように符号化される上述のビットストリームエレメントがそれぞれのサブフレームのゲインを調整する時間分解能より低いグローバルゲイン値を設定する際に、時間分解能を可能にすることによって符号化されたビットストリームのゲインをグローバルに調整することの負担の低下を可能にする。
したがって、本願の第1の態様によれば、符号化されたビットストリームに基づいてオーディオコンテントの復号化された表現を提供するためのマルチモードオーディオデコーダは、符号化されたビットストリームのフレームごとにグローバルゲイン値を復号化し、フレームの第1のサブセットは第1の符号化モードにおいて符号化されさらにフレームの第2のサブセットは第2の符号化モードにおいて符号化され、第2のサブセットのそれぞれのフレームごとに2つ以上のサブフレームからなり、フレームの第2のサブセットのサブフレームの少なくともサブセットのサブフレームごとに、それぞれのフレームのグローバルゲイン値に対して異なる対応するビットストリームエレメントを復号化し、さらにフレームの第2のサブセットのサブフレームの少なくともサブセットのサブフレームを復号化する際にグローバルゲイン値および対応するビットストリームエレメントとフレームの第1のサブセットを復号化する際にグローバルゲイン値とを用いてビットストリームを完全に復号化するように構成され、マルチモードオーディオデコーダは、符号化されたビットストリームの中でフレームのグローバルゲイン値の変更がオーディオコンテントの復号化された表現の出力レベルの調整をもたらすように構成される。この第1の態様によれば、マルチモードオーディオエンコーダは、第1の符号化モードにおいてフレームの第1のサブセットおよび第2の符号化モードにおいてフレームの第2のサブセットを符号化することでオーディオコンテントを符号化されたビットストリームに符号化するように構成され、フレームの第2のサブセットは、1つ以上のサブフレームからなり、マルチモードオーディオエンコーダは、フレームごとにグローバルゲイン値を決定して符号化し、さらに、第2のサブセットのサブフレームの少なくともサブセットのサブフレームごとに、それぞれのフレームのグローバルゲイン値に対して異なる対応するビットストリームエレメントを決定して符号化するように構成され、マルチモードオーディオエンコーダは、符号化されたビットストリームの中でフレームのグローバルゲイン値の変更が復号化側でオーディオコンテントの復号化された表現の出力レベルの調整をもたらすように構成される。
本願の第2の形態によれば、本願の発明者は、CELPコーデックのコードブック励起のゲインが変換符号化されたフレームの変換または逆変換のレベルとともに共同制御される場合、CELP符号化されたフレームおよび変換符号化されたフレームにわたってグローバルゲイン制御が上述の利点を維持することによって達成されうるということが分かった。もちろん、そのような共用は、異なる符号化を介して実行されうる。
したがって、符号化されたビットストリームに基づいてオーディオコンテントの復号化された表現を提供するためのマルチモードオーディオデコーダであって、フレームの第1のサブセットは、CELP符号化され、さらに、フレームの第2のサブセットは、変換符号化され、マルチモードオーディオデコーダは、第2の形態によれば、第1のサブセットの現在フレームを復号化するように構成されるCELPデコーダを含み、CELPデコーダは、符号化されたビットストリームの中で過去励起および第1のサブセットの現在フレームのコードブックインデックスに基づいてコードブック励起を構築し、さらに、符号化されたビットストリームの中でグローバルゲイン値に基づいてコードブック励起のゲインを設定することによって、第1のサブセットの現在フレームの現在励起を生成するように構成される励起ジェネレータ、および符号化されたビットストリームの中で第1のサブセットの現在フレームのための線形予測フィルタ係数に基づいて現在励起をフィルタにかけるように構成される線形予測合成フィルタを含み、マルチモードオーディオデコーダは、符号化されたビットストリームから第2のサブセットの現在フレームのためのスペクトル情報を構築し、さらに、時間領域信号のレベルがグローバルゲイン値に依存するように時間領域信号を得るためにスペクトル時間領域変換をスペクトル情報に実行することによって第2のサブセットの現在フレームを復号化するように構成される変換デコーダをさらに含む。
同様に、オーディオコンテントのフレームの第1のサブセットをCELP符号化しさらにフレームの第2のサブセットを変換符号化することによってオーディオコンテントを符号化されたビットストリームに符号化するためのマルチモードオーディオエンコーダは、第2の態様によれば、第1のサブセットの現在フレームを符号化するように構成されるCELPエンコーダを含み、CELPエンコーダは、第1のサブセットの現在フレームのための線形予測フィルタ係数を生成しさらにそれを符号化されたビットストリームに符号化するように構成される線形予測アナライザ、および第1のサブセットの現在フレームの現在励起を決定するように構成され、符号化されたビットストリームの中で線形予測フィルタ係数に基づいて線形予測合成フィルタによってフィルタにかけられるときに、過去励起および第1のサブセットの現在フレームのためのコードブックインデックスに基づいてコードブック励起を構築することによって、第1のサブセットの現在フレームをリカバーする、励起ジェネレータを含み、さらにマルチモードオーディオエンコーダは、スペクトル情報を得てさらにスペクトル情報を符号化されたビットストリームに符号化するために第2のサブセットの現在フレームのための時間領域信号に時間スペクトル領域変換を実行することによって第2のサブセットの現在フレームを符号化するように構成される変換エンコーダをさらに含み、マルチモードオーディオエンコーダは、グローバルゲイン値を符号化されたビットストリームに符号化するように構成され、グローバルゲイン値は、線形予測係数に依存する線形予測分析フィルタでフィルタにかけられる第1のサブセットの現在フレームのオーディオコンテントのバージョンのエネルギーにまたは時間領域信号のエネルギーに依存する。
本願の第3の態様によれば、本発明者は、CELP符号化においてグローバルゲイン値が直接的に単純な励起信号よりむしろ励起信号の重み付け領域において計算されさらに適用される場合、それぞれのグローバルゲイン値を変更する際にCELP符号化されたビットストリームのラウドネスの変更が変換符号化されたレベル調整の挙動によりよく適応されることを解明した。さらに、励起信号の重み付け領域においてグローバルゲイン値の計算および適用は、例えばコードゲインおよびLTPゲインなどのCELPにおいて他のゲインが重み付け領域において計算されるようにCELP符号化するモードだけを考慮するときに、利点でもある。
したがって、第3の形態によれば、CELPデコーダは、ビットストリームの中で過去励起および現在フレームのための適応コードブックインデックスに基づいて適応コードブック励起を構築し、ビットストリームの中で現在フレームのためのイノベーションコードブックインデックス(554)に基づいてイノベーションコードブック励起を構築し、ビットストリームの中で線形予測フィルタ係数から構築される重み付け線形予測合成フィルタによってスペクトル的に重み付けられるイノベーションコードブック励起のエネルギーの推定を計算し、ビットストリームの中でグローバルゲイン値および推定されたエネルギー間の比率に基づいてイノベーションコードブック励起のゲインを設定し、さらに現在励起を得るために適応コードブック励起およびイノベーションコードブック励起を結合することによってビットストリームの現在フレームのための現在励起を生成するように構成される励起ジェネレータ、および線形予測フィルタ係数に基づいて現在励起をフィルタにかけるように構成される線形予測合成フィルタを含む。
同様に、CELPエンコーダは、第3の形態によれば、オーディオコンテントの現在フレームのための線形予測フィルタ係数を生成しさらに線形予測フィルタ係数をビットストリームに符号化するように構成される線形予測アナライザ、過去励起および現在フレームのための適応コードブックインデックスによって定義される適応コードブック励起を構築し、さらに、適応コードブックインデックスをビットストリームに符号化し、さらに現在フレームのためのイノベーションコードブックインデックスによって定義されるイノベーションコードブック励起を構築し、さらに、イノベーションコードブックインデックスをビットストリームに符号化することによって、適応コードブック励起およびイノベーションコードブック励起の結合として現在フレームの現在励起を決定するように構成され、線形予測フィルタ係数に基づいて線形予測合成フィルタによってフィルタにかけられるときに、現在フレームをリカバーする、励起ジェネレータ、およびゲイン値を得るために、線形予測フィルタ係数および知覚的な重み付けフィルタに依存する線形予測合成フィルタでフィルタにかけられる現在フレームのオーディオコンテントのバージョンのエネルギーを決定するように構成されさらにゲイン値をビットストリームに符号化するエネルギー決定器を含み、重み付けフィルタは、線形予測フィルタ係数から解釈される。
本願の好適な実施形態は、ここに添付される従属する請求項の主題である。さらに、本願の好適な実施態様は、図に関して以下に記載される。
図1aは、実施形態によるマルチモードオーディオエンコーダのブロック図を示す。 図1bは、実施形態によるマルチモードオーディオエンコーダのブロック図を示す。 図2は、第1の変形例による図1のエンコーダのエネルギー計算部分のブロック図を示す。 図3は、第2の変形例による図1のエンコーダのエネルギー計算部分のブロック図を示す。 図4は、実施形態による図1のエンコーダによって符号化されるビットストリームを復号化するために適応されるマルチモードオーディオデコーダを示す。 図5aは、本発明の他の実施形態によるマルチモードオーディオエンコーダを示す。 図5bは、本発明の他の実施形態によるマルチモードオーディオデコーダを示す。 図6aは、本発明の他の実施形態によるマルチモードオーディオエンコーダを示す。 図6bは、本発明の他の実施形態によるマルチモードオーディオデコーダを示す。 図7aは、本発明の他の実施形態によるCELPエンコーダを示す。 図7bは、本発明の他の実施形態によるCELPデコーダを示す。
図1は、本願の実施形態によるマルチモードオーディオエンコーダの実施形態を示す。図1のマルチモードオーディオエンコーダは、例えばスピーチおよび音楽の混合などの混合タイプのオーディオ信号を符号化するために適している。最適な率/ひずみの妥協を得るために、マルチモードオーディオエンコーダは、符号化されるオーディオコンテントの現在のニーズに符号化特性を適応するためにいくつかの符号化モード間で切り替えるように構成される。特に、図1の実施形態によれば、マルチモードオーディオエンコーダは、一般的に3つの異なる符号化モードを用い、すなわちFD(周波数領域)符号化およびLP(線形予測)符号化を用い、次に、TCX(変換符号化された励起)およびCELP(コードブック励起線形予測)符号化に分割される。FD符号化モードにおいて、符号化されるオーディオコンテントは、ウィンドウ化され、スペクトル的に分解され、さらに、スペクトル的な分解は、マスキング閾値の下に量子化ノイズを隠すために心理音響に従って量子化されさらにスケールされる。TCXおよびCELP符号化モードにおいて、オーディオコンテントは、線形予測係数を得るために線形予測分析を受け、さらに、これらの線形予測係数は、励起信号とともにビットストリームの中に送信され、それは、ビットストリームの中で線形予測係数を用いて対応する線形予測合成フィルタでフィルタにかけられるときに、オーディオコンテントの復号化された表現を生じる。TCXの場合、励起信号は、変換符号化されるが、CELPの場合、励起信号は、コードブックの中で入力にインデックスを付けることによって、または別のやり方で、フィルタにかけられるサンプルのコードブックベクトルを合成的に構築することによって符号化される。ACELPにおいて(代数コードブック励起線形予測)において、それは、本実施形態に従って用いられ、励起は、適応コードブック励起およびイノベーションコードブック励起からなる。以下に詳細に概説されるように、TCXにおいて、線形予測係数は、スケールファクタを推定することによってノイズ量子化を成形するための周波数領域において直接的にデコーダ側で利用されうる。この場合、TCXは、元の信号を変換しさらに周波数領域においてだけLPCの結果を適用するために設定される。
異なる符号化モードにもかかわらず、図1のエンコーダは、例示では個々にまたはフレームのグループにおいてフレームに関連する、符号化されたビットストリームのすべてのフレームに関連する特定のシンタックスエレメントが、例えば、同じ量例えば同じ桁数(それは、回数を底とする対数のファクタ(または除数)での桁数のスケーリングに等しい)によってこれらのグローバルな値を増加しまたは減少することによって、すべての符号化モードにわたってグローバルゲイン適応を可能にするように、ビットストリームを生成する。
特に、図1のマルチモードオーディオエンコーダ10によって支持されるさまざまな符号化モードによれば、それは、FDエンコーダ12およびLPC(線形予測符号化)エンコーダ14を含む。次に、LPCエンコーダ14は、TCX符号化部分16、CELP符号化部分18、および符号化モードスイッチ20からなる。エンコーダ10に含まれるさらなる符号化モードスイッチは、モードアサイナとして22でむしろ一般的に示される。モードアサイナは、その連続する時間部分を異なる符号化モードに関連付けるために符号化されるオーディオコンテント24を分析するように構成される。特に、図1の場合、モードアサイナ22は、オーディオコンテント24の異なる連続する時間部分をFD符号化モードおよびLPC符号化モードのどちらかに割り当てる。図1の例示において、例えば、モードアサイナ22は、オーディオコンテント24の部分26をFD符号化モードに割り当てたが、直後の部分28は、LPC符号化モードに割り当てられる。モードアサイナ22によって割り当てられる符号化モードに応じて、オーディオコンテント24は、連続するフレームに異なるように再分割されうる。例えば、図1の実施形態において、部分26の中でのオーディオコンテント24は、等長でさらに例えば50%の互いのオーバラップを有するフレーム30に符号化される。換言すれば、FDエンコーダ12は、これらのユニット30においてオーディオコンテント24のFD部分26を符号化するように構成される。図1の実施形態によれば、LPCエンコーダ14は、これらのフレームでフレーム32を単位にしてオーディオコンテント24のその関連した部分28を符号化するように構成されるが、フレーム30として必ずしも同じサイズを有するというわけではない。図1の場合、例えば、フレーム32のサイズは、フレーム30のサイズより小さい。特に、特定の実施形態によれば、フレーム30の長さは、オーディオコンテント24の2048のサンプルであるが、フレーム32の長さは、それぞれ1024のサンプルである。最後のフレームがLPC符号化モードおよびFD符号化モード間の境界で第1フレームにオーバラップすることは可能である。しかしながら、図1の実施形態において、さらに、図1に例示的に示されるように、FD符号化モードからLPC符号化モードへのおよびその逆の遷移の場合においてフレームのオーバラップがないことが可能な場合もある。
図1に示すように、FDエンコーダ12は、フレーム30を受信し、それらを符号化されたビットストリーム36のそれぞれのフレーム34に周波数領域変換符号化によって符号化する。このために、FDエンコーダ12は、ウィンドワー(windower)38、変換器40、量子化およびスケーリングモジュール42、およびロスレスコーダ44並びに心理音響コントローラ46を含む。原則として、FDエンコーダ12は、以下の記載がFDエンコーダ12の異なる挙動を教示しない限り、AAC規格に従って実装されうる。特に、ウィンドワー38、変換器40、量子化およびスケーリングモジュール42およびロスレスコーダ44は、FDエンコーダ12の入力48および出力50間に直列に接続され、心理音響コントローラ46は、入力48に接続される入力および量子化およびスケーリングモジュール42のさらなる入力に接続される出力を有する。しかしながら、FDエンコーダ12がここで決定的でないさらなら符号化オプションのためのさらなるモジュールを含んでもよい点に留意すベきである。
ウィンドワー38は、入力48に入力する現在フレームをウィンドウ化するための異なるウィンドウを用いることができる。ウィンドウ化されたフレームは、例えばMDCTなどのように、変換器40において時間スペクトル領域変換を受ける。変換器40は、ウィンドウ化されたフレームを変換するために異なる変換長を用いることができる。
特に、ウィンドワー38は、例えば、MDCTの場合に、フレーム30のサンプルの数の半分に対応することができる多数の変換係数を生じるために同じ変換長を用いて変換器40でフレーム30の長さに一致する長さのウィンドウを支持することができる。しかしながら、ウィンドワー38は、時間において互いに関連してオフセットされる例えばフレーム30の長さの半分の8つのウィンドウのようないくつかのより短いウィンドウが、ウィンドウ化に応じる変換長を用いて現在フレームのこれらのウィンドウ化されたバージョンを変換する変換器40で現在フレームに適用されることに従って、符号化オプションを支持するように構成されてもよく、それによって、そのフレームの間、異なる時間にオーディオコンテントをサンプリングするフレームのための8つのスペクトルを生じる。ウィンドワー38によって用いられるウィンドウは、対称または非対称であることができ、さらに、ゼロの前端および/またはゼロの後端を有することができる。いくつかの短いウィンドウを現在フレームに適用する場合に、これらの短いウィンドウの非ゼロ部分は、互いに関連して移動されるが、互いにオーバラップする。もちろん、ウィンドワー38および変換器40のためのウィンドウおよび変換長のための他の符号化オプションは、別の実施形態に従って用いられうる。
変換器40によって出力される変換係数は、モジュール42において量子化されさらにスケールされる。特に、心理音響コントローラ46は、量子化およびスケーリングによって導入される量子化ノイズがマスキング閾値の下になるように形成されることに従ってマスキング閾値48を決定するために入力48で入力信号を分析する。特に、スケーリングモジュール42は、スペクトル領域が再分割される変換器40のスペクトル領域をカバーするとともにスケールファクタバンドにおいて作動することができる。したがって、連続する変換係数のグループは、異なるスケールファクタバンドに割り当てられる。モジュール42は、スケールファクタバンドごとにスケールファクタを決定し、それは、それぞれのスケールファクタバンドに割り当てられるそれぞれの変換係数値を乗じるときに、変換器40によって出力される変換係数の再構築されたバージョンを生じる。その上、モジュール42は、スペクトルをスペクトル的に一様にスケールしてゲイン値を設定する。このように、再構築された変換係数は、それぞれのフレームiのゲイン値giの関連したスケールファクタ倍の変換係数値倍に等しい。変換係数値、スケールファクタおよびゲイン値は、例えば上述のウィンドウおよび変換長の決定およびさらなら符号化オプションを可能にするさらなるシンタックスエレメントに関する他のシンタックスエレメントとともに、例えば算術またはハフマン符号化などのエントロピー符号化を経由して、ロスレスコーダ44においてロスレス符号化を受ける。この点で詳細については、さらなる符号化オプションに関してAAC規格について述べる。
Figure 0006214160
このように、スケールファクタは、対数領域において定義される。スケールファクタは、スペクトルアクセスに沿って互いに異なるようにビットストリーム36の中で符号化されうり、すなわち、単にスペクトル的に隣接したスケールファクタsf間の差だけが、ビットストリームの中で送信されうる。第1のスケールファクタsfは、上述のglobal_gain値に関連して異なるように符号化されるビットストリームの中で送信されうる。このシンタックスエレメントglobal_gainは、以下の記載において興味がある。
global_gain値は、対数領域においてビットストリームの中で送信されうる。すなわち、モジュール42は、global_gainとして、現在スペクトルの第1のスケールファクタsfを取るように構成される場合がある。そして、sf値は、ゼロおよびそれぞれの先行処理に対して異なるように以下のsf値で異なるように送信されうる。
明らかに、global_gainを変更することは、再構築された変換のエネルギーを変更し、そのため、すべてのフレーム30に一様に行われるときに、FD符号化された部分26のラウドネス変更に変換する。
特に、FDフレームのglobal_gainは、global_gainが再構築されたオーディオ時間サンプルの移動平均に対数的に依存し、または、その逆に、再構築されたオーディオ時間サンプルの移動平均がglobal_gainに指数的に依存するように、ビットストリームの中で送信される。
フレーム30と同様に、LPC符号化モードに割り当てられるすべてのフレーム、すなわちフレーム32は、LPCエンコーダ14に入力する。LPCエンコーダ14において、スイッチ20は、それぞれフレーム32を1つ以上のサブフレーム52に再分割する。これらのサブフレーム52のそれぞれは、TCX符号化モードまたはCELP符号化モードに割り当てられうる。TCX符号化モードに割り当てられるサブフレーム52は、TCXエンコーダ16の入力54に送られるが、CELP符号化モードに関連するサブフレームは、スイッチ20によってCELPエンコーダ18の入力56に送られる。
LPCエンコーダ14の入力58とTCXエンコーダ16およびCELPエンコーダ18の入力54および56との間のスイッチ20の配置が、それぞれ、単に説明の便宜上図1に示されるだけであり、さらに、実際に、TCXおよびCELPの中のそれぞれの符号化モードを個々のサブフレームに関連付けることに関するサブフレーム52にフレーム32の再分割に関する符号化決定が、特定の重み付け/歪み測度を最大にするためにTCXエンコーダ16およびCELPエンコーダ18の内部エレメント間にインタラクティブな方法で行われうる点に留意すべきである。
いずれにしても、TCXエンコーダ16は、励起ジェネレータ60、LPアナライザ62およびエネルギー決定器64を含み、LPアナライザ62およびエネルギー決定器64は、それ自体の励起ジェネレータ66をさらに含むCELPエンコーダ18によって、共用され(さらに共有され)る。励起ジェネレータ60、LPアナライザ62およびエネルギー決定器64のそれぞれの入力は、TCXエンコーダ16の入力54に接続される。同様に、LPアナライザ62、エネルギー決定器64および励起ジェネレータ66のそれぞれの入力は、CELPエンコーダ18の入力56に接続される。LPアナライザ62は、線形予測係数を決定するために、現在フレームすなわちTCXフレームまたはCELPフレームの中でオーディオコンテントを分析するように構成され、さらに、これらのエレメントに線形予測係数を送るために、励起ジェネレータ60、エネルギー決定器64および励起ジェネレータ66のそれぞれの係数入力に接続される。以下に詳細に記載されるように、LPアナライザは、元のオーディオコンテントのプリエンファシスされたバージョンにおいて作動することができ、さらに、それぞれのプリエンファシスフィルタは、LPアナライザのそれぞれの入力部分の部分でありうり、または、その入力の前に接続されうる。それは、以下に詳細に記載されるように、エネルギー決定器64に適用される。しかしながら、励起ジェネレータ60に関する限り、それは、元の信号において直接的に作動することができる。励起ジェネレータ60、LPアナライザ62、エネルギー決定器64および励起ジェネレータ66のそれぞれの出力は、出力50と同様に、出力70でビットストリーム36に受信されるシンタックスエレメントを多重化するように構成されるエンコーダ10のマルチプレクサ68のそれぞれの入力に接続される。
Figure 0006214160
Figure 0006214160
Figure 0006214160
励起ジェネレータ60および66は、それぞれ、この励起を定義し、さらに、それらのそれぞれの情報をマルチプレクサ68およびビットストリーム36を介して復号化側に送信するためにある。TCXエンコーダ16の励起ジェネレータ60に関する限り、それは、例えば、励起のスペクトルバージョンを生じるために時間スペクトル領域変換にいくらかの最適化スキームによって、見られる適切な励起を受けることによって現在励起を符号化し、スペクトル情報74のこのスペクトルバージョンは、例えば、FDエンコーダ12のモジュール42が作動するスペクトルに同様に、量子化されさらにスケールされるスペクトル情報で、ビットストリーム36に挿入のためにマルチプレクサ68に送られる。
すなわち、現在サブフレーム52のTCXエンコーダ16の励起を定義するスペクトル情報74は、それに関連する変換係数を量子化することができ、それは、次に、以下にglobal_gainとも呼ばれるLPCフレームシンタックスエレメントに関連して送信される単一のスケールファクタに従ってスケールされる。FDエンコーダ12のglobal_gainの場合のように、LPCエンコーダ14のglobal_gainは、対数領域において定義されてもよい。この値の増加は、復号化された表現がゲイン調整を保存する線形演算による情報74の中でスケールされた変換係数を処理することによって達成されるように、それぞれのTCXサブフレームのオーディオコンテントの復号化された表現のラウドネス増加に直接的に変換する。これらの線形演算は、逆時間周波数変換であり、さらに、結局、LP合成フィルタリングである。しかしながら、以下に詳細に説明されるように、励起ジェネレータ60は、スペクトル情報74の今述べたゲインをLPCフレームを単位にしてより高い時間分解能においてビットストリームに符号化するように構成される。特に、励起ジェネレータ60は、ビットストリームエレメントglobal_gainに対して異なるように、励起のスペクトルのゲインを設定するために用いられる実際のゲインを異なるように符号化するために、delta_global_gainと呼ばれているシンタックスエレメントを用いる。delta_global_gainは、対数領域において定義されてもよい。差分符号化は、delta_global_gainが線形領域においてglobal_gainゲインを多重化的に補正するように定義されうるように、実行されうる。
励起ジェネレータ60とは対照的に、CELPエンコーダ18の励起ジェネレータ66は、コードブックインデックスを用いることによって現在サブフレームの現在励起を符号化するように構成される。特に、励起ジェネレータ66は、適応コードブック励起およびイノベーションコードブック励起の結合によって現在励起を決定するように構成される。励起ジェネレータ66は、例えば、過去励起すなわち前に符号化されたCELPサブフレームのために用いられる励起および現在フレームのための適応コードブックインデックスによって定義されるように現在フレームのための適応コードブック励起を構築するように構成される。励起ジェネレータ66は、適応コードブックインデックス76をマルチプレクサ68に送ることによって適応コードブックインデックス76をビットストリームに符号化する。さらに、励起ジェネレータ66は、現在フレームのためのイノベーションコードブックインデックスによって定義されるイノベーションコードブック励起を構築し、さらに、イノベーションコードブックインデックス78をビットストリーム36に挿入のためにマルチプレクサ68に送ることによってイノベーションコードブックインデックス78をビットストリームに符号化する。実際に、両方のインデックスは、1つの共通のシンタックスエレメントに統合されうる。同時に、それは、デコーダがこのように励起ジェネレータによって決定されるコードブック励起をリカバーすることを可能にする。エンコーダおよびデコーダの内部状態の同期を保証するために、ジェネレータ66は、デコーダが現在コードブック励起をリカバーすることを可能にするためのシンタックスエレメントを決定するだけでなく、次のCELPフレームを符号化するための起点として現在コードブック励起すなわち過去励起を用いるために、それを実際に生成することによってその状態を実際に更新する。
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
このように、プリエンファシスフィルタは、ハイパスフィルタでありうる。ここで、それは1次ハイパスフィルタであるが、さらに一般的に、それはn次ハイパスフィルタでありうる。この場合、それは、αが0.68に設定されれば、例示的に1次ハイパスフィルタである。
図2のエネルギー決定器64の入力は、プレエンファシスフィルタ90の出力に接続される。エネルギー決定器64の入力および出力80間には、LP分析フィルタ82、エネルギー計算器84、および量子化および符号化ステージ86が、この記載の順に直列に接続される。符号化ステージ88は、量子化および符号化ステージ86の出力に接続されるその入力を有し、さらに、デコーダによって得られるように量子化されたゲインを出力する。
Figure 0006214160
この励起信号92に基づいて、現在フレーム32のための共通のグローバルゲインは、現在フレーム32の中でこの励起信号92の1024のサンプルごとにエネルギーを計算することによって推定される。
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
12kbpsおよび24kbpsのモノラルのために、いくらかのリスニングテストは、主にきれいなスピーチの品質に焦点を合わせて実行された。品質は、AACおよびACELP/TCX規格の通常のゲイン制御が用いられたという点で、上述の実施形態から異なる現在USACの1つに密接して見出された。しかしながら、特定のスピーチアイテムのために、品質は、わずかにより悪い傾向がある。
図2の変形例による図1の実施形態を記載した後に、第2の変形例が、図1および図3に関して記載される。LPDモードのための第2のアプローチによれば、第1の変形例のいくつかの欠点は、解決される。
・ACELPイノベーションゲインの予測は、高振幅のダイナミックフレームのいくつかのサブフレームのために失敗した。それは、主に幾何学的に平均されたエネルギー計算に起因した。平均SNRは、元のACELPより良好であったが、ゲイン調整コードブックは、よりしばしば飽和した。それは、特定のスピーチアイテムのための知覚されたわずかな劣化の主な理由であると思われた。
・さらに、ACELPイノベーションのゲインの予測も、最適でなかった。実際に、ゲインは、重み付け領域において最適化されるが、ゲイン予測は、LPC残留領域において計算される。以下の変形例の考えは、重み付け領域において予測を実行することである。
・個々のTCXグローバルゲインの予測は、送信されたエネルギーがLPC残留のために計算されたように最適でなかったが、TCXは、そのゲインを重み付け領域において計算する。
前のスキームとの主な差は、グローバルゲインが励起のエネルギーの代わりに重み付け信号のエネルギーを表すということである。
ビットストリームに関して、第1のアプローチと比較した修正は、以下である。
・グローバルゲインは、FDモードにおいて同様の量子化器で8ビットに符号化された。現在、LPDおよびFDモードは、同じビットストリームエレメントを共有する。AACにおいてグローバルゲインはそのような量子化器で8ビットに符号化される正当な理由を有することが分かった。8ビットは、LPDモードグローバルゲインにとって決定的に過剰な量であり、それは、6ビットだけに符号化することができる。しかしながら、統一化のために支払うことは、代償である。
・異なる符号化でTCXの個々のグローバルゲインを符号化するには、
○固定長符号のTCX1024のための1ビット、
○可変長符号(ハフマン)のTCX256およびTCX512のための平均で4ビット
を用いる。
ビット消費に関して、第2のアプローチは、
・ACELPのために、前と同じビット消費
・TCX1024のために、+2ビット
・TCX512のために、平均で+2ビット
・TCX256のために、前と同じ平均ビット消費
の中で第1のものから異なる。
品質に関して、第2のアプローチは、
・TCXオーディオ部分は、全体の量子化粒度が不変に保たれたのと同様に、音を出さなければならない。
・ACELPオーディオ部分は、予測がエンハンスされたように、わずかに改善されると期待することができる。収集された統計は、現在ACELPにおいてよりゲイン調整においてより少ない外れ値を示す。
の中で第1のものから異なる。
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
TCXゲインは、可変長符号で符号化されるエレメントdelta_global_gainを送信することによって符号化される。
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
以下に、図2および図3に関して記載される2つの変形例に関する図1の実施形態に対応する対応するマルチモードオーディオデコーダが、図4に関して記載される。
図4のマルチモードオーディオデコーダは、一般的に引用符号120で示され、さらに、デマルチプレクサ122、FDデコーダ124、TCXデコーダ128およびCELPデコーダ130からなるLPCデコーダ126、および、オーバラップ/遷移ハンドラ132を含む。
デマルチプレクサは、マルチモードオーディオデコーダ120の入力を並行して形成する入力134を含む。図1のビットストリーム36は、入力134に入力する。デマルチプレクサ122は、デコーダ124、128、および130に接続されるいくつかの出力を含み、ビットストリーム134に含まれるシンタックスエレメントを個々の復号化機器に配信する。実際に、マルチプレクサ132は、ビットストリーム36のフレーム34および35をそれぞれのデコーダ124、128および130にそれぞれ配信する。
デコーダ124、128および130のそれぞれは、オーバラップ遷移ハンドラ132のそれぞれの入力に接続される時間領域出力を含む。オーバラップ遷移ハンドラ132は、連続するフレーム間の遷移でそれぞれのオーバラップ/遷移ハンドリングを実行する役割を果たす。例えば、オーバラップ/遷移ハンドラ132は、FDフレームの連続するウィンドウに関して、オーバラップ/加算手順を実行することができる。それは、TCXサブフレームに適用される。例えば、図1に関して詳しく記載されていないが、励起ジェネレータ60でも、励起を表すための変換係数を得るために時間スペクトル領域変換が続くウィンウド化を用い、さらに、ウィンドウは、互いにオーバラップすることができる。CELPサブフレームにまたはそれから移行するときに、オーバラップ/遷移ハンドラ132は、エイリアシングを回避するために特別な測度を実行することができる。このために、オーバラップ/遷移ハンドラ132は、ビットストリーム36を介して送信されるそれぞれのシンタックスエレメントによって制御されうる。しかしながら、これらの送信測度が現在のアプリケーションのフォーカスを超えるので、例えば、この点に関して図示する例示的な解決策のためのACELP W+規格について述べる。
FDデコーダ124は、ロスレスデコーダ134、非量子化および再スケーリングモジュール136および再変換器138を含み、それらは、この順にデマルチプレクサ122およびオーバラップ/遷移ハンドラ132間に直列に接続される。ロスレスデコーダ134は、例えば、ビットストリームからスケールファクタをリカバーし、それらは、例えば、そこにおいて異なるように符号化される。量子化および再スケーリングモジュール136は、例えば、個々のスペクトル線のための変換係数値をこれらの変換係数値が属するスケールファクタバンドの対応するスケールファクタでスケールすることによって変換係数をリカバーする。逆MDCTのような再変換器138は、オーバラップ/遷移ハンドラ132に送られる時間領域信号を得るために、このように得られた変換係数にスペクトル時間変換を実行する。非量子化および再スケーリングモジュール136または再変換器138は、変換から生じる時間領域信号がシンタックスエレメントによってスケールされる(すなわち、そのいくらかの指数関数で線形にスケールされる)ように、FDフレームごとにビットストリームの中で送信されるglobal_gainシンタックスエレメントを用いる。実際に、スケーリングは、スペクトル時間領域変換に先立ってまたはそれの後に実行されうる。
Figure 0006214160
図4のCELPデコーダ130は、イノベーションコードブックコンストラクタ148、適応コードブックコンストラクタ150、ゲインアダプタ152、コンバイナ154、およびLP合成フィルタ156を含む。イノベーションコードブックコンストラクタ148、ゲインアダプタ152、コンバイナ154、およびLP合成フィルタ156は、デマルチプレクサ122およびオーバラップ/遷移ハンドラ132間に直列に接続される。適応コードブックコンストラクタ150は、デマルチプレクサ122に接続される入力と、コンバイナ154のさらなる入力に接続される出力を有し、それは、次に、図4に示すように加算器として実施されうる。適応コードブックコンストラクタ150のさらなる入力は、それから過去励起を得るために、加算器154の出力に接続される。ゲインアダプタ152およびLP合成フィルタ156は、マルチプレクサ122の特定の出力に接続されるLPC入力を有する。
TCXデコーダおよびCELPデコーダの構造を記載した後に、その機能性が、以下に詳細に記載される。記載は、最初にTCXデコーダ128の機能性から始めて、そして、CELPデコーダ130の機能性の記載に進む。すでに上述のように、LPCフレーム32は、1つ以上のサブフレーム52に再分割される。一般的に、CELPサブフレーム52は、256のオーディオサンプルの長さを有するように制限される。TCXサブフレーム52は、異なる長さを有することができる。TCX20またはTCX256のサブフレーム52は、例えば、256のサンプル長を有する。同様に、TCX40(TCX512)のサブフレーム52は、512のオーディオサンプルの長さを有し、さらに、TCX80(TCX1024)のサブフレームは、1024のサンプル長に関連し、すなわち、全部のLPCフレーム32に関連する。TCX40のサブフレームは、単に現在のLPCフレーム32の前の2つの4分の1ずつまたはその後の2つの4分の1ずつに配置されうるだけである。このように、要するに、LPCフレーム32が再分割されうる異なるサブフレームタイプの26の異なる結合がある。
このように、今記載されたように、TCXサブフレーム52は、異なる長さである。今述べたサンプル長、すなわち256、512および1024を考慮して、これらのTCXサブフレームが互いにオーバラップしないと思うことができる。しかしながら、これは、サンプルにおいて測定されるウィンドウ長および変換長に関する限り補正しなく、さらに、励起のスペクトル分解を実行するために用いられる。例えば、FD符号化から周知のように、エイリアシングキャンセルを考慮に入れるための現在サブフレームの前のおよび連続するサブフレームにオーバラップする非ゼロ部分を含むように、ウィンドワー38によって用いられる変換長さは、例えば、それぞれの現在TCXサブフレームの前および後の端を越えて拡張し、さらに、励起をウィンドウ化するために用いられる対応するウィンドウは、それぞれの現在TCXサブフレームの後および前の端を越えた領域に直ちに拡張するために適応される。このように、励起ジェネレータ140は、ビットストリームから量子化されたスペクトル係数を受信し、さらに、それから励起スペクトルを再構築する。このスペクトルは、現在TCXサブフレームのdelta_global_gainおよび現在のサブフレームが属する現在フレーム32のglobal_frameの結合に応じてスケールされる。特に、結合は、(対数領域において合計に対応する)線形領域において両方の値間の乗算を含むことができ、両方のゲインシンタックスエレメントは、定義される。したがって、励起スペクトルは、このようにシンタックスエレメントglobal_gainに従ってスケールされる。そして、スペクトル形成器142は、時間領域合成信号を得るために再変換器146によって実行される逆MDCT変換が続く結果として生じるスペクトル係数に、LPCベースの周波数領域ノイズシェーピングを実行する。オーバラップ/遷移ハンドラ132は、連続するTCXサブフレーム間にオーバラップ加算プロセスを実行することができる。
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
上述の第1の変形例によれば、ゲインアダプタ152は、次のステップを実行する。
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
Figure 0006214160
それによってゲインを得るために、励起ジェネレータ140は、それぞれの変換係数をスケールする。
例えば、delta_global_gainは、7ビットに、または、平均で4ビットを生じることができるハフマン符号を用いることによって、直接的に符号化されうる。このように、上述の実施形態によれば、多重モードを用いてオーディオコンテントを符号化することは可能である。上述の実施形態において、3つの符号化モードすなわちFD、TCXおよびACELPが、用いられた。3つの異なるモードを用いるにもかかわらず、ビットストリーム36に符号化されるオーディオコンテントのそれぞれの復号化された表現のラウドネスを調整することは容易である。特に、上述の両方のアプローチによれば、それぞれ、単に、フレーム30および32のそれぞれに含まれるglobal_gainシンタックスエレメントを等しく増加/減少することが必要なだけである。例えば、すべてのこれらのglobal_gainシンタックスエレメントは、異なる符号化モードにわたってラウドネスを均一に増加するために2ずつ増加されうり、または、異なる符号化モード部分にわたってラウドネスを均一に減少するために2ずつ減少されうる。
本願の実施形態を記載した後に、以下において、より一般的でさらに上述のマルチモードオーディオエンコーダおよびデコーダの個々の有利な形態に個々に集中するさらなる実施形態が記載される。換言すれば、上述の実施形態は、その後に概説された3つの実施形態のそれぞれのための可能な実施を示す。上述の実施形態は、以下に概説された実施形態が単に個々に照会するだけであるすべての有利な形態を組み込む。その後に記載された実施形態のそれぞれは、前の実施形態を用いた特定の実施を越えて有利である、すなわち前より異なるように実装できた、上に説明されたマルチモードオーディオコーデックの態様に焦点を合わせる。以下に概説される実施形態が属する形態は、個々に実現されうり、さらに、上に概説された実施形態に関して例示的に記載されるように並行して実装される必要はない。
したがって、以下の実施形態を記載するときに、それぞれのエンコーダおよびデコーダの実施形態のエレメントは、新しい参照符号を用いて示される。しかしながら、これらの参照符号の後に、図1〜図4のエレメントの参照番号は、その後に記載された図の中でそれぞれのエレメントの可能な実施を表す後者のエレメントについて、括弧内に表される。換言すれば、以下に記載される図においてエレメントは、個々にまたは以下に記載されるそれぞれの図のすべてのエレメントに関して、以下に記載される図の中でエレメントのそれぞれの参照番号の後に括弧内に示されるエレメントに関して上述のように実装されうる。
図5aおよび図5bは、第1の実施形態によるマルチモードオーディオエンコーダおよびマルチモードオーディオデコーダを示す。一般的に300で示される図5aのマルチモードオーディオエンコーダは、第1の符号化モード308においてフレーム306の第1のサブセットおよび第2の符号化モード312においてフレーム310の第2のサブセットを符合化することでオーディオコンテント302を符号化されたビットストリーム304に符号化するように構成され、フレーム310の第2のサブセットは、1つ以上のサブフレーム314からそれぞれなり、マルチモードオーディオエンコーダ300は、フレームごとにグローバルゲイン値(global_gain)を決定しさらに符号化し、さらに、第2のサブセットのサブフレームの少なくともサブセット316のサブフレームごとに、それぞれのフレームのグローバルゲイン値318に対して異なるように対応するビットストリームエレメント(delta_global_gain)を決定しさらに符号化するように構成され、マルチモードオーディオエンコーダ300は、符号化されたビットストリーム304の中でフレームのグローバルゲイン値(global_gain)の変更が復号化側でオーディオコンテントの復号化された表現の出力レベルの調整をもたらすように構成される。
対応するマルチモードオーディオデコーダ320は、図5bに示される。デコーダ320は、符号化されたビットストリーム304に基づいてオーディオコンテント302の復号化された表現322を提供するように構成される。このために、マルチモードオーディオデコーダ320は、符号化されたビットストリーム304のフレーム324および326ごとにグローバルゲイン値(global_gain)を復号化し、フレームの第1のサブセット324は第1の符号化モードにおいて符号化されさらにフレームの第2のサブセット326は第2の符号化モードにおいて符号化され、第2のサブセットのそれぞれのフレーム326ごとに2つ以上のサブフレーム328からなり、フレームの第2のサブセット326のサブフレーム328の少なくともサブセットのサブフレーム328ごとに、それぞれのフレームのグローバルゲイン値に対して異なるように対応するビットストリームエレメント(delta_global_gain)を復号化し、さらに、フレームの第2のサブセット326のサブフレームの少なくともサブセットのサブフレームを復号化する際にグローバルゲイン値(global_gain)および対応するビットストリームエレメント(delta_global_gain)とフレームの第1のサブセットを復号化する際にグローバルゲイン値(global_gain)とを用いてビットストリームを完全に復号化し、マルチモードオーディオデコーダ320は、符号化されたビットストリーム304の中でフレーム324および326のグローバルゲイン値(global_gain)において変更がオーディオコンテントの復号化された表現322の出力レベル332の調整330をもたらすように構成される。
それが図1〜図4の実施形態で事実であったように、第1の符号化モードは、周波数領域符号化モードであってもよいが、第2の符号化モードは、線形予測符号化モードである。しかしながら、図5aおよび図5bの実施形態は、この場合に制限されない。しかしながら、線形予測符号化モードは、グローバルゲイン制御が関するかぎり、より微細な時間粒度を必要とする傾向があり、それに応じて、周波数領域符号化モードがフレーム326のために用いられさらに線形予測符号化モードがフレーム324のために用いられることに従って、フレーム326のための線形予測符号化モードおよびフレーム324のための周波数領域符号化モードを用いることは、反対の場合を越えて好ましい。
さらに、図5aおよび図5bの実施形態は、TCXおよびACLEPモードがサブフレーム314を符号化するために存在する場合に制限されない。むしろ、図1〜図4の実施形態は、ACELP符号化モードが失われた場合、例えば、図5aおよび図5bの実施形態によれば実装されうる。この場合、両方のエレメントの予測符号化、すなわちglobal_gainおよびdelta_global_gainは、変更に対してTCX符号化モードのより高い感度を考慮することを可能にするが、ゲインは、復号化および再符号化の迂回なしに、さらに、必要なサイド情報の過度の増加なしに、グローバルゲイン制御によって提供される利点をあきらめることを回避して設定される。
それにもかかわらず、マルチモードモードオーディオデコーダ320は、符号化されたビットストリーム304の復号化を完全にする際に、変換された励起線形予測符号化を用いることによってフレームの第2のサブセット326のサブフレームの少なくともサブセットのサブフレーム(すなわち、図5bにおいて左側のフレーム326の4つのサブフレーム)を復号化し、さらに、CELPを用いてフレームの第2のサブセット326のサブフレームのバラバラになったサブセットを復号化するように構成されうる。この点に関して、マルチモードオーディオデコーダ220は、フレームの第2のサブセットのフレームごとに、それぞれのフレームの分解を1つ以上のサブフレームに示すさらなるビットストリームエレメントを復号化するように構成されうる。上述の実施形態において、例えば、それぞれのLPCフレームは、それに含まれるシンタックスエレメントを有することができ、それは、現在のLPCフレームをTCXおよびACELPフレームに分解する上述の26の可能性の1つを識別する。しかしながら、また、図5aおよび図5bの実施形態は、ACELP、および、シンタックスエレメントglobal_gainに従って設定される平均エネルギーに関して上に記載される特定の2つの変形例に制限されない。
図1〜図4の上述の実施形態と同様に、フレーム326は、フレーム326を有するフレーム310に対応することができ、または、1024のサンプルのサンプル長を有することができ、さらに、ビットストリームエレメントdelta_global_gainが送信されるフレームの第2のサブセットのサブフレームの少なくともサブセットは、256、512、および1024のサンプルからなるグループから選択される可変サンプル長を有することができ、さらに、サブフレームのバラバラになったサブセットは、それぞれ256のサンプルのサンプル長を有することができる。第1のサブセットのフレーム324は、互いに等しいサンプル長を有することができる。上述のように、マルチモードオーディオデコーダ320は、グローバルゲイン値を8ビットにさらにビットストリームエレメントを可変数のビットに復号化するように構成されうり、その数は、それぞれのサブフレームのサンプル長に依存する。同様に、マルチモードオーディオデコーダは、グローバルゲイン値を6ビットに復号化し、さらに、ビットストリームエレメントを5ビットに復号化するように構成されうる。エレメントdelta_global_gainを異なるように符号化するための異なる可能性がある点に留意すべきである。
それが図1〜図4の上述の実施形態で事実であるように、global_gainエレメントは、対数領域、すなわちオーディオサンプル強度で線形に定義されうる。それは、delta_global_gainに適用される。delta_global_gainを符号化するために、マルチモードオーディオエンコーダ300は、対数領域においてシンタックスエレメントdelta_global_gainを得るために、例えば上述のgain_TCX(例えば第1の異なるように符号されたスケールファクタ)のように、それぞれのサブフレーム316の線形ゲインエレメントと、対応するフレーム310の量子化されたglobal_gain、すなわちglobal_gainの線形化された(指数関数に適用される)バージョンとの比率を、例えば2を底とする対数のような対数にさらすことができる。周知のように、同じ結果が、対数領域において減算を実行することによって得られうる。したがって、マルチモードオーディオデコーダ320は、上述のように、マルチモードオーディオデコーダが例えばTCX符号化された励起およびスペクトル変換係数などの現在サブフレームをスケールしなければならないようなゲインを得るために、線形領域において結果に乗じるために、線形領域に対する指数関数によってシンタックスエレメントdelta_global_gainおよびglobal_gainを最初に再伝達するように構成されうる。周知のように、同じ結果が、線形領域に移行する前に対数領域において両方のシンタックスエレメントを加算することによって得られうる。
さらに、上述のように、図5aおよび図5bのマルチモードオーディオコーデックは、グローバルゲイン値が固定数の例えば8ビットにさらにビットストリームエレメントが可変数のビットに符号化されるように構成されうり、その数は、それぞれのサブフレームのサンプル長に依存する。あるいは、グローバルゲイン値は、固定数の例えば6ビットに、さらに、ビットストリームエレメントは、例えば、5ビットに符号化されうる。
このように、図5aおよび図5bの実施形態は、不要な品質の欠陥を回避しさらにそれにもかかわらずグローバルゲイン制御に含まれる利点を達成するために、すなわちラウドネスのスケーリングを実行するために復号化および再符号化する必要性を回避するために、ゲイン制御において時間およびビット粒度に関する限り、異なる符号化モードの異なるニーズを考慮するために、サブフレームのゲインシンタックスエレメントを異なるように符号化する利点に焦点を合わせた。
Figure 0006214160
しかしながら、図6aおよび図6bの実施形態は、TCX変換符号化に制限されない。例えばAACなどの他の変換符号化スキームがCELPエンコーダ410のCELP符号化にかかわりあうことが考えられる。
図6bは、図6aのエンコーダに対応するマルチモードオーディオデコーダを示す。それに示されるように、一般的に430で示される図6bのデコーダは、符号化されたビットストリーム434に基づいてオーディオコンテントの復号化された表現432を提供するように構成され、そのフレームの第1のサブセットは、CELP符号化され(図6bにおいて「1」で示され)、さらに、そのフレームの第2のサブセットは、変換符号化される(図6bにおいて「2」で示される)。デコーダ430は、CELPデコーダ436および変換デコーダ438を含む。CELPデコーダ436は、励起ジェネレータ440および線形予測合成フィルタ442を含む。
CELPデコーダ440は、第1のサブセットの現在フレームを復号化するように構成される。このために、励起ジェネレータ440は、符号化されたビットストリーム434の中で過去励起446および第1のサブセットの現在フレームのコードブックインデックス448に基づいてコードブック励起を構築し、さらに、符号化されたビットストリーム434の中でグローバルゲイン値450に基づいてコードブック励起のゲインを設定することによって、現在フレームの現在励起444を生成する。線形予測合成フィルタは、符号化されたビットストリーム434の中で現在フレームの線形予測フィルタ係数452に基づいて現在励起444をフィルタにかけるように構成される。合成フィルタリングの結果は、ビットストリーム434の中で現在フレームに対応するフレームで復号化された表現432を得るために、表しまたは用いられ、変換デコーダ438は、符号化されたビットストリーム434から第2のサブセットの現在フレームのためのスペクトル情報454を構築し、さらに、時間領域信号のレベルがグローバルゲイン値450に依存するように時間領域信号を得るためにスペクトル時間領域変換をスペクトル情報に実行することによって、フレームの第2のサブセットの現在フレームを復号化するように構成される。上述のように、スペクトル情報は、TCXデコーダである変換デコーダの場合に励起のスペクトル、または、FD復号化モードの場合に元のオーディオコンテントであってもよい。
励起ジェネレータ440は、第1のサブセットの現在フレームの現在励起444を生成する際に、符号化されたビットストリームの中で過去励起および第1のサブセットの現在フレームの適応コードブックインデックスに基づいて適応コードブック励起を構築し、符号化されたビットストリームの中で第1のサブセットの現在フレームのためのイノベーションコードブックインデックスに基づいてイノベーションコードブック励起を構築し、コードブック励起のゲインとして、符号化されたビットストリームの中でグローバルゲイン値に基づいてイノベーションコードブック励起のゲインを設定し、さらに、第1のサブセットの現在フレームの現在励起444を得るために適応コードブック励起およびイノベーションコードブック励起を結合するように構成される。すなわち、励起ジェネレータ444は、図4に関して上述のように具現化されうるが、必ずしもそうする必要があるというわけではない。
さらに、変換デコーダは、スペクトル情報が現在フレームの現在励起に関するように構成されうり、さらに、変換デコーダ438は、第2のサブセットの現在フレームを復号化する際に、符号化されたビットストリーム434の中で第2のサブセットの現在フレームのための線形予測フィルタ係数によって定義される線形予測合成フィルタ遷移関数に従って第2のサブセットの現在フレームの現在励起をスペクトル的に形成するように構成され、その結果、スペクトル情報の上のスペクトル時間領域変換の性能は、オーディオコンテントのデコーダ表現432をもたらす。換言すれば、変換デコーダ438は、図4に関して上述のように、TCXエンコーダとして具現化されうるが、これは、義務的でない。
変換デコーダ438は、線形予測フィルタ係数を線形予測スペクトルに変換し、さらに、現在励起のスペクトル情報を線形予測スペクトルで重み付けることによってスペクトル情報を実行するようにさらに構成されうる。これは、144に関して上に記載された。上述のように、変換デコーダ438は、スペクトル情報をグローバルゲイン値450でスケールするように構成されうる。このように、変換デコーダ438は、オーディオコンテントの復号化された表現432を得るために、グローバルゲイン値に基づいてスケールファクタをスケールするとともに、符号化されたビットストリームの中でスペクトル変換係数およびスケールファクタバンドのスペクトル粒度においてスペクトル変換係数をスケールするための符号化されたビットストリームの中でスケールファクタを用いて、第2のサブセットの現在フレームのためのスペクトル情報を構築するように構成されうる。
図6aおよび図6bの実施形態は、CELP符号化された部分のゲイン調整が変換符号化された部分のゲイン調整機能または制御機能に結合されることに従ってそれがコードブック励起のゲインであることに従って、図1〜図4の実施形態の有利な形態を強調する。
図7aおよび図7bに関して次に記載される実施形態は、他の符号化モードの存在を必要とすることなしに、上述の実施形態に記載されているCELPコーデック部分に焦点を合わせる。むしろ、図7aおよび図7bに関して記載されるCELP符号化概念は、CELP符号化されたデータのゲイン制御機能が従来のCELPにおいて達成される可能がない微細な可能な粒度で復号化された再生のゲイン調整を達成するために、ゲイン制御能力を重み付け領域に実装することによって実現される、図1〜図4に関して記載される第2の変形例に焦点を合わせる。さらに、重み付け領域において上述のゲインを計算することは、オーディオ品質を改善することができる。
また、図7aは、エンコーダを示し、さらに、図7bは、対応するデコーダを示す。図7aのCELPエンコーダは、LPアナライザ502、励起ジェネレータ504、およびエネルギー決定器506を含む。線形予測アナライザは、オーディオコンテント512の現在フレーム510のための線形予測係数508を生成し、さらに、線形予測フィルタ係数508をビットストリーム514に符号化するように構成される。励起ジェネレータ504は、適応コードブック励起520およびイノベーションコードブック励起522の結合518として現在フレーム510の現在励起516を決定するように構成され、それは、線形予測フィルタ係数508に基づいて線形予測合成フィルタによってフィルタにかけられるときに、過去励起524および現在フレーム510のための適応コードブックインデックス526によって適応コードブック励起520を構築し、さらに、適応コードブックインデックス526をビットストリーム514に符号化し、さらに、現在フレーム510のためのイノベーションコードブックインデックス528によって定義されるイノベーションコードブック励起を構築し、さらに、イノベーションコードブックインデックスをビットストリーム514に符号化することによって、現在フレーム510をリカバーする。
エネルギー決定器506は、ゲイン値530を得るために、線形予測分析から出される(から導き出される)重み付けフィルタによってフィルタにかけられる、現在フレーム510のオーディオコンテント512のバージョンのエネルギーを決定するように構成され、さらに、ゲイン値530をビットストリーム514に符号化し、重み付けフィルタは、線形予測係数508から構築される。
Figure 0006214160
Figure 0006214160
図7bは、励起ジェネレータ540およびLP合成フィルタ542を有するように、対応するCELPデコーダを示す。励起ジェネレータ540は、ビットストリームの中で、過去励起548および現在フレーム544のための適応コードブックインデックス550に基づいて適応コードブック励起546を構築し、ビットストリームの中で現在フレーム544のためのイノベーションコードブックインデックス554に基づいてイノベーションコードブック励起552を構築し、ビットストリームの中で線形予測フィルタ係数556から構築される重み付け線形予測合成フィルタH2によってスペクトル的に重み付けられるイノベーションコードブック励起のエネルギーの推定を計算し、ビットストリームの中のゲイン値560および推定されたエネルギー間の比率に基づいてイノベーションコードブック励起552のゲイン558を設定し、さらに現在励起542を得るために適応コードブック励起およびイノベーションコードブック励起を結合することによって、現在フレーム544のための現在励起542を生成するように構成されうる。線形予測合成フィルタ542は、線形予測フィルタ係数556に基づいて現在励起542をフィルタにかける。
Figure 0006214160
励起ジェネレータ540は、適応コードブック励起556およびイノベーションコードブック励起554を結合する際に、適応コードブックインデックス556に依存する重み付けファクタで重み付けられる適応コードブック励起556およびゲインで重み付けられるイノベーションコードブック励起554の重み付け合計を形成するように構成されうる。
LPDモードのためのさらなる考慮は、以下のリストにおいて概説される。
・品質改善は、新しいゲイン調整の統計をより正確に整合するためにACELPにおいてゲインVQを再トレーニングすることによって達成されることができる。
・AACにおいてグローバルゲイン符号化は、
・それがTCXにおいて行われるようにそれを8ビットの代わりに6/7ビットに符号化する。それは、現在の動作点で働くことができるが、オーディオ入力が16ビットより大きい分解能を有するときに、それは制限でありえる。
・TCX量子化を整合するために統一グローバルゲインの分解能を増加する(これは、上述の第2のアプローチに対応する)。スケールファクタがAACにおいて適用されるやり方で、それは、そのような正確な量子化を有することは必要でない。さらに、それは、AAC構造において多くの修正およびスケールファクタのためのより多くのビット消費を意味する。
によって修正されることができる。
・TCXグローバルゲインは、スペクトル係数を量子化する前に量子化されうる。それは、AACにおいてこのやり方をされ、さらに、それは、唯一の誤差の原因であるスペクトル係数の量子化を許可する。このアプローチは、行う最も簡潔なやり方に見える。それにもかかわらず、符号化されたTCXグローバルゲインは、エネルギーを現在表し、その量は、ACELPにも有用である。このエネルギーは、ゲインを符号化するための2つの符号化スキーム間のブリッジとして上述のゲイン制御統一化アプローチに用いられた。
上述の実施形態は、SBRが用いられる実施形態に遷移可能である。SBRエネルギーエンベロープ符号化は、繰り返されるスペクトルバンドのエネルギーがベースバンドエネルギーのエネルギーすなわち上述のコーデック実施形態が適用されるスペクトルバンドのエネルギーに関連して/異なるように送信され/符号化されるように実行されうる。
従来のSBRにおいて、エネルギーエンベロープは、コアバンド幅エネルギーから独立している。そして、拡張バンドのエネルギーエンベロープは、絶対的に再構築される。言い換えれば、コアバンド幅が水平に調整されるときに、それは、不変のままである拡張バンドに影響を及ぼさない。
SBRにおいて、2つの符号化スキームは、異なる周波数バンドのエネルギーを送信するために用いられうる。第1のスキームは、時間方向において異なる符号化にある。異なるバンドのエネルギーは、前のフレームの対応するバンドから異なるように符号化される。この符号化スキームの使用によって、現在フレームエネルギーは、前のフレームエネルギーがすでに処理された場合に自動的に調整される。
第2の符号化スキームは、周波数方向においてエネルギーのデルタ符号化である。現在のバンドエネルギーおよび周波数において前のバンドのエネルギー間の差は、量子化されさらに送信される。第1のバンドのエネルギーだけが、絶対的に符号化される。この第1のバンドエネルギーの符号化は、修正されうり、さらに、コアバンド幅のエネルギーに関連して作られうる。このようにして、拡張バンド幅は、コアバンド幅が修正されるときに自動的に水平に調整される。
SBRエネルギーエンベロープ符号化のための他のアプローチは、コアコーダの共通のグローバルゲインエレメントと同様な粒度を得るために周波数方向においてデルタ符号化を用いるときに、第1のバンドエネルギーの量子化ステップを変更することを用いることができる。このようにして、完全なレベル調整は、周波数方向においてデルタ符号化が用いられるときに、コアコーダの共通のグローバルゲインのインデックスおよびSBRの第1のバンドエネルギーのインデックスを修正することによって達成することができる。
このように、換言すれば、SBRデコーダは、ビットストリームのコアコーダ部分を復号化するためのコアデコーダとして上述のデコーダのいずれかを含むことができる。そして、SBRデコーダは、ビットストリームのSBR部分から、繰り返されるスペクトルバンドのためのエンベロープエネルギーを復号化し、コアバンド信号のエネルギーを決定し、さらに、コアバンド信号のエネルギーに従ってエンベロープエネルギーをスケールすることができる。そして、オーディオコンテントの再構築された表現の繰り返されたスペクトルバンドは、上述のglobal_gainシンタックスエレメントで本質的にスケールするエネルギーを有する。
このように、上述の実施形態によれば、USACのためのグローバルゲインの統一化は、以下のようにして働くことができる。現在、それぞれのTCXフレーム(長さ256、512または1024のサンプル)のための7ビットグローバルゲイン、または、対応して、それぞれのACELPフレーム(長さ256のサンプル)のための2ビット平均エネルギー値がある。AACフレームとは対照的に、1024フレームごとにグローバルな値がない。これを統一するために、8ビットを有する1024フレームごとにグローバルな値は、TCX/ACELP部品のために導入されることができ、さらに、TCX/ACELPフレームごとに対応する値は、このグローバルな値に対して異なるように符号化されることができる。この異なる符号化のため、これらの個々の差のためのビットの数は、低減することができる。
いくつかの形態が装置との関係で記載されたにもかかわらず、これらの形態も対応する方法の記載を表すことが明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの機能に対応する。同様に、方法ステップとの関係で記載される形態は、対応するブロック若しくはアイテムまたは対応する装置の記載を表す。方法ステップのいくらかまたはすべては、例えばマイクロプロセッサ、プログラミング可能なコンピュータまたは電子回路のように、ハードウェア装置(またはそれを用いること)によって実行されうる。いくつかの実施形態において、最も重要な方法ステップの1つ以上は、そのような装置によって実行されうる。
本発明の符号化されたオーディオ信号は、デジタル記憶媒体に格納することができ、または、例えばインターネットなどの例えば無線伝送媒体または有線伝送媒体などの伝送媒体に送信することができる。
特定の実施要求に応じて、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実装することができる。実施は、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)、それに格納される電子的に可読の制御信号を有するデジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ(登録商標)、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。したがって、デジタル記憶媒体は、コンピュータ可読であってもよい。
本発明によるいくつかの実施形態は、電子的に可読の制御信号を有するデータキャリアを含み、それは、ここに記載される方法の1つが実行されるように、プログム可能なコンピュータシステムと協働することができる。
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、そのプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法の1つを実行するために働く。プログラムコードは、例えば機械可読のキャリアに格納されうる。
他の実施形態は、ここに記載され機械可読のキャリアに格納される方法の1つを実行するためのそのコンピュータプログラムを含む。
したがって、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、ここに記載される方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、それに記録され、ここに記載される方法の1つを実行するためのコンピュータプログラムを含むデータキャリア(またはデジタル記憶媒体またはコンピュータ可読の媒体)である。そのデータキャリア、デジタル記憶媒体または記録された媒体は、典型的に有形でありおよび/または非過渡的である。
したがって、本発明の方法のさらなる実施形態は、ここに記載される方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。そのデータストリームまたは一連の信号は、例えば、データ通信接続を介して、例えばインターネットを介して伝送されるように構成されうる。
さらなる実施形態は、ここに記載される方法の1つを実行するように構成されまたは適応される、処理手段、例えばコンピュータ、またはプログラム可能な論理デバイスを含む。
さらなる実施形態は、その上に、ここに記載される方法の1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
本発明のさらなる実施形態は、ここに記載される方法の1つを実行するためのコンピュータプログラムをレシーバに(例えば電子的にまたは光学的に)伝送するように構成される装置またはシステムを含む。そのレシーバは、例えば、コンピュータ、モバイル機器、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムをレシーバに伝送するためのファイルサーバを含むことができる。
いくつかの実施形態において、プログラム可能な論理デバイス(例えばフィールドプログラマブルゲートアレイ)は、ここに記載される方法の機能性のいくつかまたはすべてを実行するために用いられうる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、ここに記載される方法の1つを実行するために、マイクロプロセッサと協働することができる。一般的に、その方法は、いかなるハードウェア装置によっても好ましく実行される。
上述の実施形態は、本発明の原理のために単に例示するだけである。ここに記載される構成および詳細の修正および変更が他の当業者にとって明らかであるものと理解される。したがって、本発明は、特許の請求の範囲によってだけ限定され、ここに実施形態の記述および説明として表される具体的な詳細によって限定されないと意図される。

Claims (11)

  1. 符号化されたビットストリーム(434)に基づいてオーディオコンテントの復号化された表現(432)を提供するためのマルチモードオーディオデコーダであって、前記符号化されたビットストリーム(434)は、第1のフレーム(406)および第2のフレーム(408)を含み、前記第1のフレームは、CELP符号化され、さらに、第2のフレームは、変換符号化され、前記マルチモードオーディオデコーダは、
    前記第1のフレーム(406)の現在の第1のフレームを復号化するように構成されるCELPデコーダ(436)を含み、前記CELPデコーダは、
    前記符号化されたビットストリームの中で過去励起(446)および前記現在の第1のフレームのコードブックインデックス(448)に基づいてコードブック励起を構築し、さらに、前記符号化されたビットストリーム(434)の中でグローバルゲイン値(450)に基づいて前記コードブック励起のゲインを設定することによって、前記現在の第1のフレームの現在励起(444)を生成するように構成される励起ジェネレータ(440)、および
    前記符号化されたビットストリームの中で前記現在の第1のフレームのための線形予測フィルタ係数(452)に基づいて前記現在励起(444)をフィルタにかけるように構成される線形予測合成フィルタ(442)を含み、
    前記マルチモードオーディオデコーダは、
    前記符号化されたビットストリーム(434)から前記現在の第2のフレームのためのスペクトル情報を構築し、さらに、時間領域信号のレベルが前記グローバルゲイン値(450)に依存するように時間領域信号を得るためにスペクトル時間領域変換を前記スペクトル情報に実行する
    ことによって前記第2のフレーム(408)の現在の第2のフレームを復号化するように構成される変換デコーダ(438)をさらに含む、マルチモードオーディオデコーダ。
  2. 前記励起ジェネレータ(440)は、前記現在の第1のフレームの前記現在励起(444)を生成する際に、
    前記符号化されたビットストリームの中で過去励起および前記現在の第1のフレームの適応コードブックインデックスに基づいて適応コードブック励起を構築し、
    前記符号化されたビットストリームの中で前記現在の第1のフレームのためのイノベーションコードブックインデックスに基づいてイノベーションコードブック励起を構築し、
    前記コードブック励起の前記ゲインとして、前記符号化されたビットストリームの中で前記グローバルゲイン値(450)に基づいて前記イノベーションコードブック励起のゲインを設定し、さらに
    前記現在の第1のフレームの前記現在励起(444)を得るために、前記適応コードブック励起および前記イノベーションコードブック励起を結合する
    ように構成される、請求項1に記載のマルチモードオーディオデコーダ。
  3. 前記変換デコーダ(438)は、前記スペクトル情報が前記現在の第2のフレームの現在励起に関するように構成され、さらに、前記変換デコーダ(438)は、前記現在の第2のフレームを復号化する際に、前記スペクトル時間領域変換の前記スペクトル情報への前記実行が前記オーディオコンテント(302、402)の前記復号化された表現(432)をもたらすように、前記符号化されたビットストリーム(434)の中で前記現在の第2のフレームのための線形予測フィルタ係数(454)によって定義される線形予測合成フィルタ伝達関数による前記現在の第2のフレームの前記現在励起をスペクトル的に形成するようにさらに構成される、請求項1または請求項2に記載のマルチモードオーディオデコーダ。
  4. 前記変換デコーダ(438)は、前記線形予測フィルタ係数(454)を線形予測スペクトルに変換し、さらに、前記現在励起の前記スペクトル情報を前記線形予測スペクトルで重み付けることによって、前記スペクトル形成を実行するように構成される、請求項3に記載のマルチモードオーディオデコーダ。
  5. 前記変換デコーダ(438)は、前記スペクトル情報を前記グローバルゲイン値でスケールするように構成される、請求項1ないし請求項4のいずれかに記載のマルチモードオーディオデコーダ。
  6. 前記変換デコーダ(438)は、前記オーディオコンテントの前記復号化された表現を得るために、前記グローバルゲイン値に基づいてスケールファクタをスケールすることで、前記符号化されたビットストリーム(434)の中でスペクトル変換係数およびスケールファクタバンドのスペクトル粒度において前記スペクトル変換係数をスケールするための前記符号化されたビットストリームの中でスケールファクタを用いて、前記現在の第2のフレームのための前記スペクトル情報を構築するように構成される、請求項1または請求項2に記載のマルチモードオーディオデコーダ。
  7. オーディオコンテント(402)の第1のフレーム(406)をCELP符号化しさらに第2のフレーム(408)を変換符号化することによってオーディオコンテント(402)を符号化されたビットストリーム(404)に符号化するためのマルチモードオーディオエンコーダであって、前記マルチモードオーディオエンコーダは、
    前記第1のフレーム(406)の現在の第1のフレームを符号化するように構成されるCELPエンコーダを含み、前記CELPエンコーダは、
    前記現在の第1のフレームのための線形予測フィルタ係数(418)を生成しさらにそれを前記符号化されたビットストリーム(404)に符号化するように構成される線形予測アナライザ(414)、および
    前記現在の第1のフレームの現在励起(422)を決定するように構成され、前記符号化されたビットストリーム(404)の中で前記線形予測フィルタ係数(418)に基づいて線形予測合成フィルタによってフィルタにかけられるときに、前記現在の第1のフレームをリカバーし、過去励起(420)および前記現在の第1のフレームのためのコードブックインデックス(422)によって定義され、さらに、前記コードブックインデックス(422)を前記符号化されたビットストリーム(404)に符号化する、励起ジェネレータ(416)を含み、さらに
    前記マルチモードオーディオエンコーダは、スペクトル情報(424)を得てさらに前記スペクトル情報を前記符号化されたビットストリーム(404)に符号化するために前記現在の第2のフレームのための時間領域信号に時間スペクトル領域変換を実行することによって前記第2のフレームの現在の第2のフレームを符号化するように構成される変換エンコーダ(412)をさらに含み、
    前記マルチモードオーディオエンコーダは、グローバルゲイン値(426)を前記符号化されたビットストリーム(404)に符号化するように構成され、前記グローバルゲイン値は、前記線形予測フィルタ係数(418)に依存する前記線形予測分析フィルタでフィルタにかけられる、前記現在の第1のフレームの前記オーディオコンテント(402)のバージョンのエネルギーに、および前記時間領域信号のエネルギーに依存する、マルチモードオーディオエンコーダ。
  8. 符号化されたビットストリーム(434)に基づいてオーディオコンテントの復号化された表現(432)を提供するためのマルチモードオーディオ復号化方法であって、前記符号化されたビットストリーム(434)は、第1のフレーム(406)および第2のフレーム(408)を含み、前記第1のフレームは、CELP符号化され、さらに、前記第2のフレームは、変換符号化され、前記方法は、
    前記第1のフレーム(406)の現在の第1のフレームをCELP復号化するステップを含み、前記CELP復号化するステップは、
    前記符号化されたビットストリームの中で過去励起(446)および前記現在の第1のフレームのコードブックインデックス(448)に基づいてコードブック励起を構築し、さらに、前記符号化されたビットストリーム(434)の中でグローバルゲイン値(450)に基づいて前記コードブック励起のゲインを設定することによって、前記現在の第1のフレームの現在励起(444)を生成するステップ、および
    前記符号化されたビットストリームの中で前記現在の第1のフレームのための線形予測フィルタ係数(452)に基づいて前記現在励起(444)をフィルタにかけるステップを含み、
    前記方法は、
    前記符号化されたビットストリーム(434)から前記現在の第2のフレームのためのスペクトル情報を構築し、さらに、時間領域信号のレベルが前記グローバルゲイン値(450)に依存するように時間領域信号を得るためにスペクトル時間領域変換を前記スペクトル情報に実行する
    ことによって、前記第2のフレーム(408)の現在の第2のフレームを変換復号化するステップをさらに含む、方法。
  9. オーディオコンテント(402)の第1のフレーム(406)をCELP符号化しさらに第2のフレーム(408)を変換符号化することによってオーディオコンテント(402)を符号化されたビットストリーム(404)に符号化するためのマルチモードオーディオ符号化方法であって、前記マルチモードオーディオ符号化方法は、
    前記第1のフレームの現在の第1のフレームを符号化するステップを含み、前記CELP符号化するステップは、
    前記現在の第1のフレームのための線形予測フィルタ係数(418)を生成しさらにそれを前記符号化されたビットストリーム(404)に符号化するために線形予測分析を実行するステップ、および
    前記現在の第1のフレームの現在励起(422)を決定するステップであって、前記符号化されたビットストリーム(404)の中で前記線形予測フィルタ係数(418)に基づいて線形予測合成フィルタによってフィルタにかけられるときに、前記現在の第1のフレームをリカバーし、過去励起(420)および前記現在の第1のフレームのためのコードブックインデックス(422)によって定義され、さらに、前記コードブックインデックス(422)を前記符号化されたビットストリーム(404)に符号化する、ステップを含み、さらに
    前記マルチモードオーディオ符号化方法は、スペクトル情報(424)を得てさらに前記スペクトル情報を前記符号化されたビットストリーム(404)に符号化するために前記現在の第2のフレームのための時間領域信号に時間スペクトル領域変換を実行することによって前記第2のフレームの現在の第2のフレームを符号化するステップをさらに含み、
    前記マルチモードオーディオ符号化方法は、グローバルゲイン値(426)を前記符号化されたビットストリーム(404)に符号化するステップをさらに含み、前記グローバルゲイン値は、前記線形予測フィルタ係数(418)に依存する前記線形予測分析フィルタでフィルタにかけられる、前記現在の第1のフレームの前記オーディオコンテント(402)のバージョンのエネルギーに、および前記時間領域信号のエネルギーに依存する、マルチモードオーディオ符号化方法。
  10. コンピュータ上で実行されるときに、請求項8に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
  11. コンピュータ上で実行されるときに、請求項9に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
JP2012534666A 2009-10-20 2010-10-19 マルチモードオーディオコーデックおよびそれに適応されるcelp符号化 Active JP6214160B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25344009P 2009-10-20 2009-10-20
US61/253,440 2009-10-20
PCT/EP2010/065718 WO2011048094A1 (en) 2009-10-20 2010-10-19 Multi-mode audio codec and celp coding adapted therefore

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014213751A Division JP6173288B2 (ja) 2009-10-20 2014-10-20 マルチモードオーディオコーデックおよびそれに適応されるcelp符号化

Publications (2)

Publication Number Publication Date
JP2013508761A JP2013508761A (ja) 2013-03-07
JP6214160B2 true JP6214160B2 (ja) 2017-10-18

Family

ID=43335046

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2012534666A Active JP6214160B2 (ja) 2009-10-20 2010-10-19 マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
JP2014213751A Active JP6173288B2 (ja) 2009-10-20 2014-10-20 マルチモードオーディオコーデックおよびそれに適応されるcelp符号化

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2014213751A Active JP6173288B2 (ja) 2009-10-20 2014-10-20 マルチモードオーディオコーデックおよびそれに適応されるcelp符号化

Country Status (18)

Country Link
US (3) US8744843B2 (ja)
EP (1) EP2491555B1 (ja)
JP (2) JP6214160B2 (ja)
KR (1) KR101508819B1 (ja)
CN (2) CN102859589B (ja)
AU (1) AU2010309894B2 (ja)
BR (1) BR112012009490B1 (ja)
CA (3) CA2862712C (ja)
ES (1) ES2453098T3 (ja)
HK (1) HK1175293A1 (ja)
MX (1) MX2012004593A (ja)
MY (2) MY164399A (ja)
PL (1) PL2491555T3 (ja)
RU (1) RU2586841C2 (ja)
SG (1) SG10201406778VA (ja)
TW (1) TWI455114B (ja)
WO (1) WO2011048094A1 (ja)
ZA (1) ZA201203570B (ja)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
PL3998606T3 (pl) 2009-10-21 2023-03-06 Dolby International Ab Nadrpóbkowanie w połączonym banku filtrów modułu transpozycji
TW201214415A (en) * 2010-05-28 2012-04-01 Fraunhofer Ges Forschung Low-delay unified speech and audio codec
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CA2929800C (en) 2010-12-29 2017-12-19 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high-frequency bandwidth extension
EP4243017A3 (en) 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
AR085895A1 (es) 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
US9626982B2 (en) * 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
EP2681734B1 (en) * 2011-03-04 2017-06-21 Telefonaktiebolaget LM Ericsson (publ) Post-quantization gain correction in audio coding
NO2669468T3 (ja) * 2011-05-11 2018-06-02
KR102070429B1 (ko) 2011-10-21 2020-01-28 삼성전자주식회사 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치
US9524727B2 (en) * 2012-06-14 2016-12-20 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for scalable low-complexity coding/decoding
PT2880654T (pt) * 2012-08-03 2017-12-07 Fraunhofer Ges Forschung Descodificador e método para um conceito paramétrico generalizado de codificação de objeto de áudio espacial para caixas de downmix/upmix multicanal
KR102561265B1 (ko) * 2012-11-13 2023-07-28 삼성전자주식회사 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
CN103915100B (zh) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
JP6082126B2 (ja) * 2013-01-29 2017-02-15 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 音声信号を合成するための装置及び方法、デコーダ、エンコーダ、システム及びコンピュータプログラム
ES2732560T3 (es) * 2013-01-29 2019-11-25 Fraunhofer Ges Forschung Llenado de ruido sin información secundaria para codificadores tipo celp
HRP20231248T1 (hr) * 2013-03-04 2024-02-02 Voiceage Evs Llc Uređaj i postupak za smanјenјe šuma kvantizacije u dekoderu vremenskog domena
WO2014148848A2 (ko) * 2013-03-21 2014-09-25 인텔렉추얼디스커버리 주식회사 오디오 신호 크기 제어 방법 및 장치
RU2740690C2 (ru) * 2013-04-05 2021-01-19 Долби Интернешнл Аб Звуковые кодирующее устройство и декодирующее устройство
CN104299614B (zh) * 2013-07-16 2017-12-29 华为技术有限公司 解码方法和解码装置
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
RU2643646C2 (ru) 2013-11-13 2018-02-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции
US9502045B2 (en) * 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
SG11201509526SA (en) * 2014-07-28 2017-04-27 Fraunhofer Ges Forschung Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
EP2996269A1 (en) * 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
WO2016108655A1 (ko) 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
KR20160081844A (ko) * 2014-12-31 2016-07-08 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TW202242853A (zh) * 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
KR102398124B1 (ko) * 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
US9787727B2 (en) 2015-12-17 2017-10-10 International Business Machines Corporation VoIP call quality
US10109284B2 (en) 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
CA3119913A1 (en) * 2017-11-17 2019-05-23 Skywave Networks Llc Method of encoding and decoding data transferred via a communications link
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
KR20210158108A (ko) 2020-06-23 2021-12-30 한국전자통신연구원 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
CN114650103B (zh) * 2020-12-21 2023-09-08 航天科工惯性技术有限公司 一种泥浆脉冲数据传输方法、装置、设备及存储介质

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
IT1257431B (it) * 1992-12-04 1996-01-16 Sip Procedimento e dispositivo per la quantizzazione dei guadagni dell'eccitazione in codificatori della voce basati su tecniche di analisi per sintesi
CN1111959C (zh) * 1993-11-09 2003-06-18 索尼公司 量化装置、量化方法、高效率编码装置、高效率编码方法、解码装置和高效率解码装置
JP3317470B2 (ja) * 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
US6449596B1 (en) * 1996-02-08 2002-09-10 Matsushita Electric Industrial Co., Ltd. Wideband audio signal encoding apparatus that divides wide band audio data into a number of sub-bands of numbers of bits for quantization based on noise floor information
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
EP0932141B1 (en) * 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
JP3802219B2 (ja) * 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
EP1047047B1 (en) * 1999-03-23 2005-02-02 Nippon Telegraph and Telephone Corporation Audio signal coding and decoding methods and apparatus and recording media with programs therefor
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
ATE420432T1 (de) * 2000-04-24 2009-01-15 Qualcomm Inc Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
FI110729B (fi) * 2001-04-11 2003-03-14 Nokia Corp Menetelmä pakatun audiosignaalin purkamiseksi
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US7043423B2 (en) * 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
JP2004281998A (ja) * 2003-01-23 2004-10-07 Seiko Epson Corp トランジスタとその製造方法、電気光学装置、半導体装置並びに電子機器
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
EP1618557B1 (en) * 2003-05-01 2007-07-25 Nokia Corporation Method and device for gain quantization in variable bit rate wideband speech coding
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
KR100923156B1 (ko) * 2006-05-02 2009-10-23 한국전자통신연구원 멀티채널 오디오 인코딩 및 디코딩 시스템 및 방법
US20080002771A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Video segment motion categorization
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
WO2008018464A1 (fr) * 2006-08-08 2008-02-14 Panasonic Corporation dispositif de codage audio et procédé de codage audio
EP2267699A4 (en) 2008-04-09 2012-03-07 Panasonic Corp ENCODING DEVICE AND ENCODING METHOD

Also Published As

Publication number Publication date
US20160260438A1 (en) 2016-09-08
CN104021795B (zh) 2017-06-09
AU2010309894B2 (en) 2014-03-13
CA2778240C (en) 2016-09-06
JP2013508761A (ja) 2013-03-07
US9495972B2 (en) 2016-11-15
US9715883B2 (en) 2017-07-25
HK1175293A1 (en) 2013-06-28
KR101508819B1 (ko) 2015-04-07
JP2015043096A (ja) 2015-03-05
MY164399A (en) 2017-12-15
CA2862712A1 (en) 2011-04-28
US20120253797A1 (en) 2012-10-04
US20140343953A1 (en) 2014-11-20
KR20120082435A (ko) 2012-07-23
CA2862715C (en) 2017-10-17
ZA201203570B (en) 2013-05-29
EP2491555B1 (en) 2014-03-05
MX2012004593A (es) 2012-06-08
CN104021795A (zh) 2014-09-03
BR112012009490A2 (pt) 2016-05-03
ES2453098T3 (es) 2014-04-04
CN102859589A (zh) 2013-01-02
CA2862715A1 (en) 2011-04-28
EP2491555A1 (en) 2012-08-29
RU2012118788A (ru) 2013-11-10
US8744843B2 (en) 2014-06-03
BR112012009490B1 (pt) 2020-12-01
PL2491555T3 (pl) 2014-08-29
CN102859589B (zh) 2014-07-09
CA2862712C (en) 2017-10-17
MY167980A (en) 2018-10-09
RU2586841C2 (ru) 2016-06-10
SG10201406778VA (en) 2015-01-29
WO2011048094A1 (en) 2011-04-28
CA2778240A1 (en) 2011-04-28
TWI455114B (zh) 2014-10-01
AU2010309894A1 (en) 2012-05-24
JP6173288B2 (ja) 2017-08-02
TW201131554A (en) 2011-09-16

Similar Documents

Publication Publication Date Title
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
US9812136B2 (en) Audio processing system
KR101664434B1 (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
TWI488177B (zh) 使用頻譜域雜訊整形之基於線性預測的編碼方案
JP6126006B2 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
KR20120128123A (ko) 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법
EP2133872B1 (en) Encoding device and encoding method
Fuchs et al. MDCT-based coder for highly adaptive speech and audio coding
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130613

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140717

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141020

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20151020

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20151116

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20160115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170919

R150 Certificate of patent or registration of utility model

Ref document number: 6214160

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250