JP2013507648A - 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム - Google Patents

線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム Download PDF

Info

Publication number
JP2013507648A
JP2013507648A JP2012532577A JP2012532577A JP2013507648A JP 2013507648 A JP2013507648 A JP 2013507648A JP 2012532577 A JP2012532577 A JP 2012532577A JP 2012532577 A JP2012532577 A JP 2012532577A JP 2013507648 A JP2013507648 A JP 2013507648A
Authority
JP
Japan
Prior art keywords
linear prediction
audio content
mode
encoded
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012532577A
Other languages
English (en)
Other versions
JP5678071B2 (ja
Inventor
マクス ノイエンドルフ
ギヨーム フックス
ニコラウス レッテルバッハ
トム ベクストレム
イェレミー ルコンテ
ユールゲン ヘレ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2013507648A publication Critical patent/JP2013507648A/ja
Application granted granted Critical
Publication of JP5678071B2 publication Critical patent/JP5678071B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオコンテンツの符号化表現に基づいてオーディオコンテンツの復号化表現を提供する多重モードオーディオ信号デコーダは、オーディオコンテンツの複数の部分に対する復号化されたスペクトル係数のセットを取得するスペクトル値決定器と、スペクトル係数またはその前処理されたバージョンに、線形予測モードにおいて符号化されたオーディオコンテンツの部分に対する線形予測ドメインパラメータのセットに従ってスペクトル整形を適用し、復号化されたスペクトル係数またはその前処理されたバージョンに、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対するスケールファクタパラメータのセットに従ってスペクトル整形を適用するスペクトルプロセッサと、線形予測モードにおいて符号化されたオーディオコンテンツの部分に対する復号化されたスペクトル係数のスペクトル整形されたセットに基づいてオーディオコンテンツの時間ドメイン表現を取得し、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対する復号化されたスペクトル係数のスペクトル整形されたセットに基づいてオーディオコンテンツの時間ドメイン表現を取得する周波数ドメイン−時間ドメイン変換器とを備える。オーディオ信号エンコーダも記述される。
【選択図】図11

Description

本発明にかかる実施形態は、オーディオコンテンツの符号化表現に基づいてオーディオコンテンツの復号化表現を提供する多重モードオーディオ信号デコーダに関する。
本発明にかかる更なる実施形態は、オーディオコンテンツの入力表現に基づいてオーディオコンテンツの符号化表現を提供する多重モードオーディオ信号エンコーダに関する。
本発明にかかる更なる実施形態は、オーディオコンテンツの符号化表現に基づいてオーディオコンテンツの復号化表現を提供する方法に関する。
本発明にかかる更なる実施形態は、オーディオコンテンツの入力表現に基づいてオーディオコンテンツの符号化表現を提供する方法に関する。
本発明にかかる更なる実施形態は、前記方法を実施するコンピュータプログラムに関する。
以下において、本発明とその効果の理解を容易にするために、本発明のいくつかの背景が説明される。
過去10年の間、オーディオコンテンツをデジタル的に記憶し配布する可能性の構築に関して、多大な労力が払われてきた。この方法に関する1つの重要な業績は、国際標準ISO/IEC14496−3の定義である。この標準の第3部は、オーディオコンテンツの符合化および復号化に関し、第3部の第4章は、一般的なオーディオ符号化に関する。ISO/IEC14496の第3部、第4章は、一般的なオーディオコンテンツの符号化と復号化のコンセプトを定義する。加えて、品質を改善し、および/または、必要なビットレートを低減するために、更なる改良が提案されてきた。
さらに、周波数ドメインベースのオーディオコーダのパフォーマンスが、音声を備えるオーディオコンテンツに対して最適でないことが分かってきた。最近、両方の世界、すなわち音声符号化とオーディオ符号化の技術を効率的に結合する、統合化された音声およびオーディオコーデックが提案されている(非特許文献1を参照)。
このようなオーディオコーダにおいて、いくつかのオーディオフレームが周波数ドメインにおいて符号化され、いくつかのオーディオフレームが線形予測ドメインにおいて符号化される。
しかしながら、異なるドメインにおいて符号化されたフレームの間で有意な量のビットレートを犠牲にすることなく遷移することは、困難であることが分かっている。
このような状況に鑑みて、異なるモードを用いて符号化された部分の間の遷移の効率的な実現を可能にする、音声と一般のオーディオの両方を備えるオーディオコンテンツを符号化し、復号化するコンセプトを構築することが要求されている。
Max Neuendorf 他、「低ビットレートで高品質の統合化された音声およびオーディオ符号化スキーム」、IEEE 国際会議「音響、音声および信号処理」ICASSP、2009年 アドバンストオーディオコーディング:動画および関係するオーディオの一般的な符号化、国際標準13818−7、ISO/IEC JTC1/SC29/WG11 Moving Picture Expert Group、1997年 「拡張された適応多重レート広帯域(AMR−WB+)コーデック」、3GPP TS26.290 V6.3.0、2005年6月、技術仕様書 「オーディオサンプルを符号化および復号化するオーディオエンコーダおよびデコーダ」、FH080703PUS、F49510 「折り返し歪みスイッチスキームを用いたオーディオ信号を符号化・復号化する装置および方法」、FH080715PUS、F49522 「変換ドメインの加重インターリーブベクトル量子化(ツインVQ)を用いた64kbit/s以下の高品質オーディオ符号化」、N. Iwakami 、T. Moriya および S. Miki、IEEE ICASSP、1995
本発明にかかる実施形態は、オーディオコンテンツの符号化表現に基づいてオーディオコンテンツの復号化表現を提供する多重モードオーディオ信号デコーダを構築する。オーディオ信号デコーダは、オーディオコンテンツの複数の部分に対して、復号化されたスペクトル係数のセットを取得するように構成された、スペクトル値決定器を備える。多重モードオーディオ信号デコーダは、また、復号化されたスペクトル係数のセット、またはその前処理されたバージョンに、線形予測モードにおいて符号化されたオーディオコンテンの部分に対する線形予測ドメインパラメータのセットに従ってスペクトル整形を適用し、復号化されたスペクトル係数のセット、またはその前処理されたバージョンに、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対するスケールファクタパラメータのセットに従ってスペクトル整形を適用するように構成された、スペクトルプロセッサを備える。多重モードオーディオ信号デコーダは、また、線形予測モードにおいて符号化されたオーディオコンテンツの部分に対するスペクトル整形された復号化スペクトル係数のセットに基づいてオーディオコンテンツの時間ドメイン表現を取得し、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対するスペクトル整形された復号化スペクトル係数のセットに基づいてオーディオコンテンツの時間ドメイン表現を取得するように構成された、周波数ドメイン−時間ドメイン変換器を備える。
この多重モードオーディオ信号デコーダは、周波数ドメインにおいてスペクトル整形を実行する、すなわち、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分と線形予測モードにおいて符号化されたオーディオコンテンツの部分の両方に対して、復号化されたスペクトル係数のセットのスペクトル整形を実行することによって、異なるモードにおいて符号化されたオーディオコンテンツの部分の間の効率的な遷移を得ることができるという発見に基づいている。こうすることによって、線形予測モードにおいて符号化されたオーディオコンテンツの部分に対するスペクトル整形された復号化スペクトル係数のセットに基づいて取得された時間ドメイン表現は、周波数ドメインモードにおいて符号化されたオーディオコンテンツのセットに対するスペクトル整形された復号化スペクトル係数のセットに基づいて得られた時間ドメイン表現と「同じドメイン」にある(例えば、同じ変換タイプの周波数ドメイン−時間ドメイン変換の出力値である)。このように、線形予測モードにおいて符号化されたオーディオコンテンツの部分の時間ドメイン表現と、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分の時間ドメイン表現は、効率的にそして受け入れがたいアーチファクトなしに結合することができる。例えば、同じドメインにある(例えば、両方ともオーディオコンテンツドメインにおけるオーディオコンテンツを表す)周波数ドメイン−時間ドメイン変換信号によって、通常の周波数ドメイン−時間ドメイン変換器の折り返し歪み解消特性を利用することができる。このように、異なるモードにおいて符号化されたオーディオコンテンツの部分の間で、相当な量のビットレートを必要とすることなくこのような遷移を可能とする良い品質の遷移を得ることができる。
好ましい実施形態において、多重モードオーディオ信号デコーダは、線形予測モードにおいて符号化されたオーディオコンテンツの部分の時間ドメイン表現を、周波数ドメインモードにおいて符号化されたオーディオコンテンツとオーバーラップおよび加算するように構成された、重ね合せ器を更に備える。異なるドメインにおいて符号化されたオーディオコンテンツの部分をオーバーラップすることによって、復号化されたスペクトル係数のスペクトル整形されたセットを周波数ドメイン−時間ドメイン変換器に入力することによって多重モードオーディオ信号デコーダの両方のモードにおいて得ることができる利益を実現することができる。多重モードオーディオ信号デコーダの両方のモードにおいて周波数ドメイン−時間ドメイン変換の前にスペクトル整形を実行することによって、異なるモードにおいて符号化されたオーディオコンテンツの部分の時間ドメイン表現は、付加的なサイド情報を必要とすることなく良い品質の遷移を可能とする非常に良好なオーバーラップおよび加算特性を通常は備える。
好ましい実施形態において、周波数ドメイン−時間ドメイン変換器は、線形予測モードにおいて符号化されたオーディオコンテンツの部分に対するオーディオコンテンツの時間ドメイン表現を、ラップド変換を用いて取得し、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対するオーディオコンテンツの時間ドメイン表現を、ラップド変換(lapped transform)を用いて取得するように構成される。この場合、重ね合せ器は、好ましくは、異なるモードにおいて符号化されたオーディオコンテンツの引き続く部分の時間ドメイン表現をオーバーラップするように構成される。したがって、スムースな遷移を得ることができる。周波数ドメインにおいて両方のモードに対してスペクトル整形が適用されるという事実によって、周波数ドメイン−時間ドメイン変換器によって両方のモードにおいて提供される時間ドメイン表現は、コンパチブルであり、良い品質の遷移を可能とする。ラップド変換は、量子化誤差が存在する場合でさえ、有意のビットレートオーバーヘッドを回避しながらスムースな遷移を可能とするので、ラップド変換の使用は、遷移の品質とビットレート効率の間の改善されたトレードオフをもたらす。
好ましい実施形態において、周波数ドメイン−時間ドメイン変換器は、異なるモードにおいて符号化されたオーディオコンテンツの部分のオーディオコンテンツの時間ドメイン表現の取得に対して、同じ変換タイプのラップド変換を適用するように構成される。この場合、重ね合せ器は、ラップド変換によって生じる時間ドメインの折り返し歪みがオーバーラップおよび加算によって低減または除去されるように、異なるモードにおいて符号化されたオーディオコンテンツの引き続く部分の時間ドメイン表現をオーバーラップおよび加算するように構成される。このコンセプトは、周波数ドメインにおいて、スケールファクタパラメータと線形予測ドメインパラメータの両方を適用することによって、周波数ドメイン−時間ドメイン変換の出力信号が両方のモードに対して同じドメイン(オーディオコンテンツドメイン)にあるという事実に基づいている。したがって、オーディオ信号表現の引き続くおよび部分的にオーバーラップする部分に同じ変換タイプのラップド変換を適用することによって通常得られる折り返し歪みの解消を利用することができる。
好ましい実施形態において、重ね合せ器は、関係する合成ラップド変換によって提供されるような、第1のモードにおいて符号化されたオーディオコンテンツの第1の部分の時間ドメイン表現、またはその振幅スケーリングされるがスペクトル歪みのないバージョンと、関係する合成ラップド変換によって提供されるような、第2のモードにおいて符号化されたオーディオコンテンツの第2の部分の時間ドメイン表現、またはその振幅スケーリングされるがスペクトル歪みのないバージョンとをオーバーラップおよび加算するように構成される。合成ラップド変換の出力信号において、オーディオコンテンツの引き続く(部分的にオーバーラップする)部分に対して用いられた全ての異なる符号化モードに共通しない信号処理(例えば、フィルタリング等)を適用することを回避することによって、ラップド変換の折り返し歪みの解消特性から最大限の利益を得ることができる。
好ましい実施形態において、周波数ドメイン−時間ドメイン変換器は、提供された時間ドメインの一方または両方に、信号整形フィルタリング演算を適用することなく線形に結合可能であるという点で、提供された時間ドメイン表現が同じドメインにあるように、異なるモードにおいて符号化されたオーディオコンテンツの部分の時間ドメイン表現を提供するように構成される。言い換えれば、周波数ドメイン−時間ドメイン変換の出力信号は、両方のモードに対するオーディオコンテンツ自体の時間ドメイン表現である(そして、励起ドメイン−時間ドメイン変換フィルタリング演算に対する励振信号でない)。
好ましい実施形態において、周波数ドメイン−時間ドメイン変換器は、逆修正離散コサイン変換を実行し、逆修正離散コサイン変換の結果として、線形予測モードにおいて符号化されたオーディオコンテンツの部分と周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分の両方に対して、オーディオ信号ドメインにおけるオーディオコンテンツの時間ドメイン表現を取得するように構成される。
好ましい実施形態において、多重モードオーディオ信号デコーダは、線形予測モードにおいて符号化されたオーディオコンテンツの部分に対するLPCフィルタ係数の符号化表現に基づいて、復号化されたLPCフィルタ係数を取得するように構成された、LPCフィルタ係数決定器を備える。この場合、多重モードオーディオ信号デコーダは、また、異なる周波数に関するゲイン値を取得するために、復号化されたLPCフィルタ係数をスペクトル表現に変換するように構成された、フィルタ係数変換器を備える。このように、LPCフィルタ係数は、線形予測ドメインパラメータとして役立つことができる。多重モードオーディオ信号デコーダは、また、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対するスケールファクタ値の符号化表現に基づいて、(スケールファクタパラメータとして役立つ)復号化されたスケールファクタ値を取得するように構成された、スケールファクタ決定器を備える。スペクトルプロセッサは、復号化されたスペクトル係数、またはその前処理されたバージョンの貢献度がゲイン値に従って重み付けされた、(復号化された)スペクトル係数のゲイン値で処理された(そして、その結果としてスペクトル整形された)バージョンを取得するために、線形予測モードにおいて符号化されたオーディオコンテンツの部分に関する復号化されたスペクトル係数のセット、またはその前処理されたバージョンを、線形予測モードのゲイン値と結合するように構成された、スペクトル修正器を備える。また、スペクトル修正器は、復号化されたスペクトル係数、またはその前処理されたバージョンの貢献度がスケールファクタ値に従って重み付けされた、(復号化された)スペクトル係数のスケールファクタ処理された(スペクトル整形された)バージョンを取得するために、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に関する復号化されたスペクトル係数のセット、またはその前処理されたバージョンを、復号化されたスケールファクタ値と結合するように構成される。
このアプローチを用いて、周波数ドメイン−時間ドメイン変換器が、異なるモードにおいて符号化されたオーディオ信号の部分の間の遷移において良好な遷移特性を有する出力信号を提供することを依然として確実にしながら、多重モードオーディオ信号デコーダの両方のモードにおいて独自のノイズ整形を得ることができる。
好ましい実施形態において、係数変換器は、奇数の離散フーリエ変換を用いて、線形予測符号化フィルタ(LPCフィルタ)の時間ドメインインパルス応答を表現する復号化されたLPCフィルタ係数をスペクトル表現に変換するように構成される。フィルタ係数変換器は、復号化されたLPCフィルタ係数のスペクトル表現から、線形予測モードのゲイン値を、ゲイン値がスペクトル表現の係数の大きさの関数であるように、導き出すように構成される。このように、線形予測モードにおいて実行されるスペクトル整形は、線形予測符号化フィルタのノイズ整形機能を引き継ぐ。したがって、復号化されたスペクトル表現(またはその前処理されたバージョン)の量子化ノイズは、復号化されたLPCフィルタ係数のスペクトル表現が比較的大きい「重要な」周波数に対して、量子化ノイズが比較的小さいように修正される。
好ましい実施形態において、フィルタ係数変換器および結合器は、与えられた復号化スペクトル係数、またはその前処理されたバージョンの、与えられたスペクトル係数のゲイン処理されたバージョンへの貢献度が、与えられた復号化スペクトル係数に関する線形予測モードのゲイン値の大きさによって決定されるように構成される。
好ましい実施形態において、スペクトル値決定器は、復号化され、逆量子化されたスペクトル係数を取得するために、復号化された量子化スペクトル値に逆量子化を適用するように構成される。この場合、スペクトル修正器は、与えられた復号化スペクトル係数に対して、与えられた復号化スペクトル係数に関する線形予測モードのゲイン値の大きさに従って効果的な量子化ステップを調整することによって、量子化ノイズ整形を実行するように構成される。したがって、スペクトルドメインにおいて実行されるノイズ整形は、LPCフィルタ係数によって記述された信号特性に適応される。
好ましい実施形態において、多重モードオーディオ信号デコーダは、周波数ドメインモードのフレームから、複合された線形予測モード/代数符号励振線形予測モードのフレームに遷移するために、中間の線形予測モードのスタートフレームを用いるように構成される。この場合、オーディオ信号デコーダは、線形予測モードのスタートフレームに対して、復号化されたスペクトル係数のセットを取得するように構成される。また、オーディオデコーダは、線形予測モードのスタートフレーム対する復号化されたスペクトル係数のセット、またはその前処理されたバージョンに、それに関係する線形予測ドメインパラメータのセットに従ってスペクトル整形を適用するように構成される。オーディオ信号デコーダは、また、復号化スペクトル係数のスペクトル整形されたセットに基づいて、線形予測モードのスタートフレームの時間ドメイン表現を取得するように構成される。オーディオデコーダは、また、線形予測モードのスタートフレームの時間ドメイン表現に、比較的長い左側遷移スロープと比較的短い右側遷移スロープを有するスタートウィンドウを適用するように構成される。そうすることによって、先行する周波数ドメインモードのフレームと良好なオーバーラップおよび加算特性を備え、同時に、線形予測ドメイン係数を、引き続く複合された線形予測モード/代数符号励振線形予測モードのフレームによる使用に利用可能とする、周波数ドメインモードのフレームと複合された線形予測モード/代数符号励振線形予測モードのフレームの間の遷移が構築される。
好ましい実施形態において、多重モードオーディオ信号デコーダは、線形予測モードのスタートフレームに先行する周波数ドメインモードのフレームの時間ドメイン表現の右側部分を、線形予測モードのスタートフレームの時間ドメイン表現の左側部分とオーバーラップし、時間ドメイン折り返し歪みの低減または解消を得るように構成される。この実施形態は、前の周波数ドメインモードのフレームのスペクトル整形が周波数ドメインにおいても実行されるので、周波数ドメインにおいて線形予測モードのスタートフレームのスペクトル整形を実行することによって、良好な時間ドメイン折り返し歪みの解消特性が得られるという発見に基づいている。
好ましい実施形態において、オーディオ信号デコーダは、複合された線形予測モード/代数符号励振線形予測モードのフレームの少なくとも部分を復号化する代数符号励振線形予測モードデコーダを初期化するために、線形予測モードのスタートフレームに関する線形予測ドメインパラメータを使用するように構成される。このようにして、いくつかの従来のアプローチにおいて存在する線形予測ドメインパラメータの付加的なセットを送信する必要性が排除される。むしろ、線形予測モードのスタートフレームは、比較的長いオーバーラップ期間に対してさえ、前の周波数ドメインモードのフレームからの良好な遷移を構築し、代数符号励振線形予測(ACELP)モードデコーダを初期化することを可能とする。このように、良好なオーディオ品質を有する遷移を非常に高度の効率で得ることができる。
本発明にかかる他の実施形態は、オーディオコンテンツの入力表現に基づいてオーディオコンテンツの符号化表現を提供する、多重モードオーディオ信号エンコーダを構築する。オーディオエンコーダは、オーディオコンテンツの入力表現を処理し、オーディオコンテンツの周波数ドメイン表現を取得するように構成された、時間ドメイン−時間周波数ドメイン変換器を備える。オーディオエンコーダは、更に、スペクトル係数のセット、またはその前処理されたバージョンに、線形予測ドメインにおいて符号化されるオーディオコンテンツの部分に対する線形予測ドメインパラメータのセットに従ってスペクトル整形を適用するように構成された、スペクトルプロセッサを備える。スペクトルプロセッサは、また、スペクトル係数のセット、またはその前処理されたバージョンに、周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分に対するスケールファクタパラメータのセットに従ってスペクトル整形を適用するように構成される。
上述した多重モードオーディオ信号エンコーダは、オーディオコンテンツの入力表現が、線形予測モードにおいて符号化されるオーディオコンテンツの部分と周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分の両方に対して周波数ドメイン(時間-周波数ドメインとしても表される)に変換される場合に、低歪で簡単なオーディオ復号化を可能とする効率的なオーディオ符合化を得ることができるという発見に基づく。また、線形予測モードにおいて符号化されるオーディオコンテンツの部分と周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分の両方に対して、スペクトル係数のセット(またはその前処理されたバージョン)にスペクトル整形を適用することによって量子化誤差を低減できることが分かっている。異なるモードにおけるスペクトル整形を決定するために異なるタイプのパラメータ(すなわち、線形予測モードにおける線形予測ドメインパラメータおよび周波数ドメインモードにおけるスケールファクタパラメータ)が用いられる場合、異なるモードにおいて、時間ドメイン−周波数ドメイン変換を同じオーディオ信号(の部分)に依然として適用しながら、ノイズ整形をオーディオコンテンツの現在処理されている部分の特性に適応させることができる。その結果として、多重モードオーディオ信号エンコーダは、スペクトル係数のセットに適切なタイプのスペクトル整形を選択的に適用することによって、一般的なオーディオ部分と音声オーディオ部分の両方を有するオーディオ信号に対して、良好な符号化パフォーマンスを提供することができる。言い換えれば、音声的であると認識されるオーディオフレームに対して、線形予測ドメインパラメータのセットに基づくスペクトル整形をスペクトル係数のセットに適用することができ、音声的なタイプよりむしろ一般的なオーディオタイプであると認識されるオーディオフレームに対して、スケールファクタパラメータのセットに基づくスペクトル整形をスペクトル係数のセットに適用することができる。
要約すると、多重モードオーディオ信号エンコーダは、時間的に可変の特性を有する(一部の時間部分に対して音声的で、他の部分に対して一般的オーディオである)オーディオコンテンツを符号化することを可能とし、オーディオコンテンツの時間ドメイン表現は、異なるモードにおいて符号化されるオーディオコンテンツの部分に対して同じ方法で周波数ドメインに変換される。スペクトル整形されたスペクトル係数または引き続く量子化を得るために、オーディオコンテンツの異なる部分の異なる特性は、異なるパラメータ(線形予測ドメインパラメータ対スケールファクタパラメータ)に基づいてスペクトル整形を適用することによって考慮される。
好ましい実施形態において、時間ドメイン−周波数ドメイン変換器は、線形予測モードにおいて符号化されるオーディオコンテンツの部分と周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分の両方に対して、オーディオ信号ドメインにおけるオーディオコンテンツの時間ドメイン表現を、オーディオコンテンツの周波数ドメイン表現に変換するように構成される。周波数ドメインモードと線形予測モードの両方に対して、同じ入力信号に基づいて時間ドメイン−周波数ドメイン変換(例えば、MDCT変換演算またはフィルタバンクベースの周波数分離演算のような変換演算という意味において)を実行することによって、デコーダ側のオーバーラップおよび加算演算を特に良好な効率で実行することができ、デコーダ側での信号復元を容易にし、異なるモードの間で遷移があるたびに付加的なデータを送信する必要を回避する。
好ましい実施形態において、時間ドメイン−周波数ドメイン変換器は、異なるモードにおいて符号化されるオーディオコンテンツの部分に対して周波数ドメイン表現を取得するために、同じ変換タイプの解析ラップド変換を適用するように構成される。また、同じ変換タイプのラップド変換を用いることは、ブロッキングアーチファクトを回避しながらオーディオコンテンツの簡単な復元を可能にする。特に、クリティカルなサンプリングを、有意なオーバーヘッドなしに用いることが可能である。
好ましい実施形態において、スペクトルプロセッサは、スペクトル係数のセット、またはその前処理されたバージョンに、線形予測モードにおいて符号化されるオーディオコンテンツの部分の相関ベースの解析を用いて得られる線形予測ドメインパラメータのセットに従って、または周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分の音響心理学的モデル解析を用いて得られるスケールファクタパラメータのセットに従って、スペクトル整形を選択的に適用するように構成される。そうすることによって、相関ベースの解析が意味のあるノイズ整形情報を提供するオーディオコンテンツの音声的部分と、音響心理学的モデル解析が意味のあるノイズ整形情報を提供するオーディオコンテンツの一般的なオーディオ部分の両方に対して、適当なノイズ整形を成し遂げることができる。
好ましい実施形態において、オーディオ信号エンコーダは、オーディオコンテンツの部分を線形予測モードにおいて符号化するかまたは周波数ドメインモードにおいて符号化するかを決定するために、オーディオコンテンツを解析するように構成された、モードセレクタを備える。したがって、場合によっては時間ドメイン−周波数ドメイン変換のタイプが影響を受けないようにしながら、適当なノイズ整形コンセプトを選択することができる。
好ましい実施形態において、多重モードオーディオ信号エンコーダは、周波数ドメインモードのフレームと複合された線形予測モード/代数符号励振線形予測モードのフレームの間にあるオーディオフレームを、線形予測モードのスタートフレームとして符号化するように構成される。多重モードオーディオ信号エンコーダは、比較的長い左側遷移スロープと比較的短い右側遷移スロープを有するスタートウィンドウを、線形予測モードのスタートフレームの時間ドメイン表現に適用し、ウィンドウ化された時間ドメイン表現を取得するように構成される。多重モードオーディオ信号エンコーダは、また、線形予測モードのスタートフレームのウィンドウ化された時間ドメイン表現の周波数ドメイン表現を取得するように構成される。多重モードオーディオ信号エンコーダは、また、線形予測モードのスタートフレームに対して線形予測ドメインパラメータのセットを取得し、線形予測モードのスタートフレームのウィンドウ化された時間ドメイン表現の周波数ドメイン表現、またはその前処理されたバージョンに、線形予測ドメインパラメータのセットに従ってスペクトル整形を適用するように構成される。オーディオ信号エンコーダは、また、線形予測ドメインパラメータのセットと、線形予測モードのスタートフレームのウィンドウ化された時間ドメイン表現のスペクトル整形された周波数ドメイン表現を符号化するように構成される。このように、オーディオコンテンツの復元に用いることができる遷移オーディオフレームの符号化された情報が取得され、遷移オーディオフレームに関する符号化された情報は、スムースな左側遷移を可能とし、同時に、引き続くオーディオフレームの復号化に対するACELPモードデコーダの初期化を可能とする。多重モードオーディオ信号エンコーダの異なるモード間の遷移によって生じるオーバーヘッドは、最小化される。
好ましい実施形態において、多重モードオーディオ信号エンコーダは、線形予測モードのスタートフレームに追従する複合された線形予測モード/代数符号励振線形予測モードのフレームの少なくとも部分を符合化する代数符号励振線形予測モードエンコーダを初期化するために、線形予測モードのスタートフレームに関する線形予測ドメインパラメータを用いるように構成される。したがって、線形予測モードのスタートフレームに対して取得され、オーディオコンテンツを表現するビットストリームにおいても符号化される線形予測ドメインパラメータは、ACELPモードが用いられる引き続くオーディオフレームの符合化に対して再利用される。これは、符合化の効率を増大し、また付加的なACELP初期化のサイド情報なしに効率的な復号化を可能にする。
好ましい実施形態において、多重モードオーディオ信号エンコーダは、線形予測モードにおいて符号化されるオーディオコンテンツの部分、またはその前処理されたバージョンを解析し、線形予測モードにおいて符号化されるオーディオコンテンツの部分に関するLPCフィルタ係数を決定するように構成された、LPCフィルタ係数決定器を備える。多重モードオーディオ信号エンコーダは、また、異なる周波数に関する線形予測モードのゲイン値を取得するために、復号化されたLPCフィルタ係数をスペクトル表現に変換するように構成された、フィルタ係数変換器を備える。多重モードオーディオ信号エンコーダは、また、周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分、またはその前処理されたバージョンを解析し、周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分に関するスケールファクタを決定するように構成された、スケールファクタ決定器を備える。多重モードオーディオ信号エンコーダは、また、線形予測モードにおいて符号化されるオーディオコンテンツの部分の周波数ドメイン表現、またはその処理されたバージョンを、線形予測モードのゲイン値と結合し、オーディオコンテンツの周波数ドメイン表現のスペクトル成分(またはスペクトル係数)の貢献度が線形予測モードのゲイン値に従って重み付けされた、ゲイン処理されたスペクトル成分(係数としても表される)を取得するように構成された、結合器構成を備える。結合器は、また、周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分の周波数ドメイン表現、またはその処理されたバージョンを、スケールファクタと結合し、オーディオコンテンツの周波数ドメイン表現のスペクトル成分(またはスペクトル係数)の貢献度がスケールファクタに従って重み付けされた、ゲイン処理されたスペクトル成分を取得するように構成される。
本実施形態において、ゲイン処理されたスペクトル成分は、スペクトル係数(またはスペクトル成分)のスペクトル整形されたセットを形成する。
本発明にかかる他の実施形態は、オーディオコンテンツの符号化表現に基づいてオーディオコンテンツの復号化表現を提供する方法を構築する。
本発明にかかるさらにもう一つの実施形態は、オーディオコンテンツの入力表現に基づいてオーディオコンテンツの符号化表現を提供する方法を構築する。
本発明にかかるさらにもう一つの実施形態は、前記方法の1つ以上を実行するコンピュータプログラムを構築する。
方法およびコンピュータプログラムは、上述の装置と同じ発見に基づいている。
本発明の実施形態は、以下の図面を参照して、引き続いて記載される。
本発明の一実施形態にかかるオーディオ信号エンコーダの概略ブロック図の左側部分を示す。 本発明の一実施形態にかかるオーディオ信号エンコーダの概略ブロック図の右側部分を示す。 参照用のオーディオ信号エンコーダの概略ブロック図を示す。 本発明の一実施形態にかかるオーディオ信号エンコーダの概略ブロック図を示す。 TCXウィンドウに対するLPC係数補間の説明図を示す。 復号化されたLPCフィルタ係数に基づいて線形予測ドメインのゲイン値を導き出す関数のコンピュータプログラムコードを示す。 復号化されたスペクトル係数のセットを線形予測モードのゲイン値(あるいは線形予測ドメインのゲイン値)と結合するコンピュータプログラムコードを示す。 オーバーヘッドとしていわゆるLPCを送る切換型時間ドメイン/周波数ドメイン(TD/FD)コーデックに対する異なるフレームの概略表現と関係情報を示す。 遷移に対して「LPC2MDCT」を用いた周波数ドメインコーダから線形予測ドメインコーダへの切換に対するフレームの概略表現と関係パラメータを示す。 TCXと周波数ドメインコーダに対してLPCベースのノイズ整形を備えるオーディオ信号エンコーダの概略表現を示す。 信号ドメインにおいて実行されるTCX MDCTによる統合化された音声およびオーディオ符号化(USAC)の統合図を示す。 本発明の一実施形態にかかるオーディオ信号デコーダの概略ブロック図の左側部分を示す。 本発明の一実施形態にかかるオーディオ信号デコーダの概略ブロック図の右側部分を示す。 信号ドメインにおけるTCX-MDCTによるUSACデコーダの統合図の左側部分を示す。 信号ドメインにおけるTCX-MDCTによるUSACデコーダの統合図の右側部分を示す。 図7および図12にかかるオーディオ信号デコーダにおいて実行することができる処理ステップの概略表現の上側部分を示す。 図7および図12にかかるオーディオ信号デコーダにおいて実行することができる処理ステップの概略表現の下側部分を示す。 図11および図12にかかるオーディオデコーダにおける引き続くオーディオフレームの処理の概略表現を示す。 スペクトル係数の数を変数MOD[]の関数として表すテーブルを示す。 ウィンドウシーケンスおよび変換ウィンドウを表すテーブルを示す。 本発明の実施形態におけるオーディオウィンドウ遷移の概略表現を示す。 本発明にかかる拡張実施形態におけるオーディオウィンドウ遷移を表すテーブルを示す。 符号化されたLPCフィルタ係数に従って線形予測ドメインのゲイン値g[k]を導き出す処理フローを示す。
1. 図1にかかるオーディオ信号エンコーダ
以下において、本発明の一実施形態にかかるオーディオ信号エンコーダが、このような多重モードオーディオ信号エンコーダ100の概略ブロック図を示す図1を参照して述べられる。多重モードオーディオ信号エンコーダ100は、また、時にはオーディオエンコーダとして簡単に表される。
オーディオエンコーダ100は、通常は時間ドメイン表現であるオーディオコンテンツの入力表現110を受信するように構成される。オーディオエンコーダ100は、それに基づいてオーディオコンテンツの符号化表現を提供する。例えば、オーディオエンコーダ100は、符号化されたオーディオ表現であるビットストリーム112を提供する。
オーディオエンコーダ100は、オーディオコンテンツの入力表現110、またはその前処理されたバージョン110’を受信するように構成された、時間ドメイン−周波数ドメイン変換器120を備える。時間ドメイン−周波数ドメイン変換器120は、入力表現110、110’に基づいて、オーディオコンテンツの周波数ドメイン表現122を提供する。周波数ドメイン表現122は、スペクトル係数の一連のセットの形をとることができる。例えば、時間ドメイン−周波数ドメイン変換器は、入力オーディオコンテンツの第1のフレームの時間ドメインサンプルに基づいてスペクトル係数の第1のセットを提供し、入力オーディオコンテンツの第2のフレームの時間ドメインサンプルに基づいてスペクトル係数の第2のセットを提供する、ウィンドウベースの時間ドメイン−周波数ドメイン変換器とすることができる。入力オーディオコンテンツの第1のフレームは、入力オーディオコンテンツの第2のフレームと、例えばほぼ50%オーバーラップすることができる。時間ドメインのウィンドウ化は、第1のオーディオフレームからスペクトル係数の第1のセットを導き出すために適用することができ、ウィンドウ化は、また、第2のオーディオフレームからスペクトル係数の第2のセットを導き出すために適用することができる。このように、時間ドメイン−周波数ドメイン変換器は、入力されたオーディオ情報のウィンドウ化された部分(例えば、オーバーラップする)のラップド変換を実行するように構成することができる。
オーディオエンコーダ100は、また、オーディオコンテンツの周波数ドメイン表現122(または、オプションとして、そのスペクトル後処理されたバージョン122’)を受信し、それに基づいて、スペクトル係数の一連のスペクトル整形されたセット132を提供するように構成された、スペクトルプロセッサ130を備える。スペクトルプロセッサ130は、スペクトル係数のセット122、またはその前処理されたバージョン122’に、線形予測モードにおいて符号化されるオーディオコンテンツの部分(例えば、フレーム)に対する線形予測ドメインパラメータ134のセットに従ってスペクトル整形を適用し、スペクトル係数のスペクトル整形されたセット132を取得するように構成することができる。スペクトルプロセッサ130は、また、スペクトル係数のセット122、またはその前処理されたバージョン122’に、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分(例えば、フレーム)に対するスケールファクタパラメータ136のセットに従ってスペクトル整形を適用し、周波数ドメインモードにおいて符号化されるオーディオコンテンツの前記部分に対するスペクトル係数のスペクトル整形されたセット132を取得するように構成することができる。スペクトルプロセッサ130は、例えば、線形予測ドメインパラメータ134のセットとスケールファクタパラメータ136のセットを提供するように構成された、パラメータ提供器138を備えることができる。例えば、パラメータ提供器138は、線形予測ドメイン解析器を用いて線形予測ドメインパラメータ134のセットを提供し、音響心理学的モデルプロセッサを用いてスケールファクタパラメータ136のセットを提供することができる。しかしながら、線形予測ドメインパラメータ134またはスケールファクタパラメータ136のセットを提供する他の可能性を適用することもできる。
オーディオエンコーダ100は、また、オーディオコンテンツの各部分に対する(例えば、各フレームに対する)スペクトル係数のスペクトル整形されたセット132(スペクトルプロセッサ130によって提供されるような)を受信するように構成された、量子化エンコーダ140を備える。あるいは、量子化エンコーダ140は、スペクトル係数のスペクトル整形されたセット132の後処理されたバージョン132’を受信することができる。量子化エンコーダ140は、スペクトル係数132のスペクトル整形されたセット(または、オプションとして、その前処理されたバージョン)の符号化されたバージョン142を提供するように構成される。量子化エンコーダ140は、例えば、線形予測モードにおいて符号化されるオーディオコンテンツの部分に対するスペクトル係数のスペクトル整形されたセット132の符号化されたバージョン142を提供し、また、周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分に対するスペクトル係数のスペクトル整形されたセット132の符号化されたバージョン142を提供するように構成することができる。言い換えれば、オーディオコンテンツの部分が線形予測モードにおいて符号化されるかまたは周波数ドメインモードにおいて符号化されるかにかかわらず、スペクトル係数のスペクトル整形されたセットを符号化するために、同じ量子化エンコーダ140を用いることができる。
加えて、オーディオエンコーダ100は、オプションとして、スペクトル係数のスペクトル整形されたセットの符号化されたバージョン142に基づいて、ビットストリーム112を提供するように構成された、ビットストリームペイロードフォーマッタ150を備えることができる。しかしながら、ビットストリームペイロードフォーマッタ150は、ビットストリーム112に付加的な符号化情報、ならびに、構成情報、制御情報、その他をもちろん含むことができる。例えば、オプションのエンコーダ160は、線形予測ドメインパラメータの符号化されたセット134および/またはスケールファクタパラメータのセット136を受信し、その符号化されたバージョンをビットストリームペイロードフォーマッタ150に提供することができる。したがって、線形予測ドメインパラメータのセット134の符号化されたバージョンは、線形予測モードにおいて符号化されるオーディオコンテンツの部分に対するビットストリーム112に含めることができ、スケールファクタパラメータのセット136の符号化されたバージョンは、周波数ドメインにおいて符号化されるオーディオコンテンツの部分に対するビットストリーム112に含めることができる。
オーディオエンコーダ100は、更に、オプションとして、オーディオコンテンツの部分(例えば、オーディオコンテンツのフレーム)が線形予測モードにおいて符号化されるかまたは周波数ドメインモードにおいて符号化されるかを決定するように構成された、モードコントローラ170を備える。この目的のため、モードコントローラ170は、オーディオコンテンツの入力表現110、その前処理されたバージョン110’またはその周波数ドメイン表現122を受信することができる。モードコントローラ170は、例えば、オーディオコンテンツの音声的な部分を決定するために音声検出アルゴリズムを用い、音声的な部分の検出に応じて、オーディオコンテンツの部分を線形予測モードにおいて符号化することを指示するモード制御信号172を提供することができる。対照的に、モードコントローラがオーディオコンテンツの与えられた部分が音声的でないことを見いだす場合に、モードコントローラ170は、モード制御信号172がオーディオコンテンツの前記部分を周波数ドメインモードにおいて符号化することを指示するようなモード制御信号172を提供する。
以下において、オーディオエンコーダ100の全体の機能が詳細に述べられる。多重モードオーディオ信号エンコーダ100は、音声的であるオーディオコンテンツの部分と音声的でないオーディオコンテンツの部分を効率的に符号化するように構成される。この目的のため、オーディオエンコーダ100は、少なくとも2つのモード、すなわち、線形予測モードと周波数ドメインモードを備える。しかしながら、オーディオエンコーダ110の時間ドメイン−周波数ドメイン変換器120は、線形予測モードと周波数ドメインモードの両方に対するオーディオコンテンツの同じ時間ドメイン表現(例えば、入力表現110、またはその前処理されたバージョン110’)を周波数ドメインに変換するように構成される。周波数ドメイン表現122の周波数分解能は、しかしながら、異なる演算モードに対して異なっていてもよい。周波数ドメイン表現122は、直ちに量子化および符号化されず、むしろ量子化および符合化の前にスペクトル整形される。過剰な歪を回避するため、スペクトル整形は、量子化エンコーダ140によって導入される量子化ノイズの効果が十分に小さく保たれるように実行される。線形予測モードにおいて、スペクトル整形は、オーディオコンテンツから導き出された線形予測ドメインパラメータのセット134に従って実行される。この場合、スペクトル整形は、例えば、線形予測ドメインパラメータの周波数ドメイン表現の対応するスペクトル係数が比較的大きい値を備える場合に、スペクトル係数が強調される(より高く重み付けされる)ように実行することができる。言い換えれば、周波数ドメイン表現122のスペクトル係数は、線形予測ドメインパラメータのスペクトルドメイン表現の対応するスペクトル係数によって重み付けされる。したがって、線形予測ドメインパラメータのスペクトルドメイン表現の対応するスペクトル係数が比較的大きい値をとる周波数ドメイン表現122のスペクトル係数は、スペクトル係数のスペクトル整形されたセット132において、より高く重み付けるために比較的高い解像度で量子化される。言い換えれば、量子化ノイズに関してよりセンシティブである周波数ドメイン表現132のスペクトル係数は、量子化エンコーダ140によって導入される効果的な量子化ノイズが実際に低減されるように、スペクトル整形においてより高く重み付けられるので、線形予測ドメインパラメータ134による(例えば、線形予測ドメインパラメータ134のスペクトルドメイン表現による)スペクトル整形が良好なノイズ整形をもたらすオーディオコンテンツの部分が存在する。
対照的に、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分は、異なるスペクトル整形を経験する。この場合、スケールファクタパラメータ136は、例えば、音響心理学的モデルプロセッサを用いて決定される。音響心理学的モデルプロセッサは、周波数ドメイン表現122のスペクトル成分のスペクトルマスキングおよび/または時間マスキングを評価する。このスペクトルマスキングおよび時間マスキングの評価は、周波数ドメイン表現122のどのスペクトル成分(例えば、スペクトル係数)を高い効果的な量子化精度で符号化すべきか、そして、周波数ドメイン表現122のどのスペクトル成分(例えば、スペクトル係数)を比較的低い効果的な量子化精度で符号化することができるかを決定するために用いられる。言い換えれば、音響心理学的モデルプロセッサは、例えば、異なるスペクトル成分の音響心理学的な関係を決定し、音響心理学的に重要でないスペクトル成分を低いまたはさらに非常に低い量子化精度で量子化しなければならないことを指示することができる。したがって、スペクトル整形(スペクトルプロセッサ130によって実行される)は、周波数ドメイン表現122(またはその後処理されたバージョン122)のスペクトル成分(例えば、スペクトル係数)を、音響心理学的モデルプロセッサによって提供されるスケールファクタパラメータ136によって重み付けすることができる。音響心理学的に重要なスペクトル成分は、それらが量子化エンコーダ140によって高い量子化精度で効果的に量子化されるように、スペクトル整形において高い重み付けが与えられる。このように、スケールファクタは、異なる周波数または周波数バンドの音響心理学的な関係を記述することができる。
結論として、オーディオエンコーダ100は、少なくとも2つの異なるモード、すなわち線形予測モードと周波数ドメインモードの間で切換可能である。オーディオコンテンツのオーバーラップ部分は、異なるモードにおいて符号化することができる。この目的のため、同じオーディオ信号の異なる(好ましくはオーバーラップする)部分の周波数ドメイン表現は、オーディオコンテンツの引き続く(例えば、すぐ次の)部分を異なるモードにおいて符号化するときに用いられる。周波数ドメイン表現122のスペクトルドメイン成分は、周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分に対する線形予測ドメインパラメータのセットに従って、そして周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分に対するスケールファクタパラメータに従って、スペクトル整形される。適当なスペクトル整形を決定するために用いられ、時間ドメイン−周波数ドメイン変換と量子化/符合化の間で実行される、異なるコンセプトは、異なるタイプのオーディオコンテンツ(音声的なおよび非音声的な)に対して良好な符号化効率と低歪のノイズ整形を持つことを可能とする。
2. 図3にかかるオーディオエンコーダ
以下において、本発明の他の実施形態にかかるオーディオエンコーダ300が、図3を参照して記述される。図3は、このようなオーディオエンコーダ300の概略ブロック図を示す。図2に概略ブロック図が示されるオーディオエンコーダ300は、参照オーディオエンコーダ200の改良バージョンであることに注意しなければならない。
2.1 図2にかかる参照オーディオ信号エンコーダ
言い換えれば、図3にかかるオーディオエンコーダ300の理解を容易にするために、参照用の統合化された音声およびオーディオ符号化エンコーダ(USACエンコーダ)200が、図2に示されるUSACエンコーダのブロック機能図を参照して最初に記述される。参照用のオーディオエンコーダ200は、一般に時間ドメイン表現であるオーディオコンテンツの入力表現210を受信し、それに基づいて、オーディオコンテンツの符号化された表現212を提供するように構成される。オーディオエンコーダ200は、例えば、周波数ドメインエンコーダ230および/または線形予測ドメインエンコーダ240に、オーディオコンテンツの入力表現210を提供するように構成された、切換器または分配器220を備える。周波数ドメインエンコーダ230は、オーディオコンテンツの入力表現210’を受信し、それに基づいて、符号化されたスペクトル表現232および符号化されたスケールファクタ情報234を提供するように構成される。線形予測ドメインエンコーダ240は、入力表現210を受信し、それに基づいて、符号化された励振242と符号化されたLPCフィルタ係数情報244を提供するように構成される。周波数ドメインエンコーダ230は、例えば、オーディオコンテンツのスペクトル表現230bを提供する修正離散コサイン変換の時間ドメイン−周波数ドメイン変換器230aを備える。周波数ドメインエンコーダ230は、また、オーディオコンテンツのスペクトルマスキングと時間マスキングを解析し、スケールファクタ230dと符号化されたスケールファクタ情報234を提供するように構成された、音響心理学的解析230cを備える。周波数ドメインエンコーダ230は、また、時間ドメイン−周波数ドメイン変換器230aによって提供されるスペクトル値をスケールファクタ230dによってスケーリングし、それによって、オーディオコンテンツのスケーリングされたスペクトル表現230fを取得するように構成された、スケーラ230eを備える。周波数ドメインエンコーダ230は、また、オーディオコンテンツのスケーリングされたスペクトル表現230fを量子化するように構成された、量子化器230gと、量子化器230gによって提供されたオーディオコンテンツの量子化されスケーリングされたスペクトル表現230をエントロピー符号化するように構成された、エントロピーコーダ230hを備える。エントロピーコーダ230hは、その結果として符号化されたスペクトル表現232を提供する。
線形予測ドメインエンコーダ240は、入力されたオーディオ表現210に基づいて、符号化された励振242および符号化されたLPCフィルタ係数情報244を提供するように構成される。LPDコーダ240は、オーディオコンテンツの入力表現210’’に基づいて、LPCフィルタ係数240bと符号化されたLPCフィルタ係数情報244を提供するように構成された、線形予測解析240aを備える。LPDコーダ240は、また、2つの並列の分岐、すなわちTCX分岐250とACELP分岐260を備えた、励振符合化を備える。分岐は、変換符号化励振252または代数符号化励振262のいずれかに提供するために切換可能(例えば、切換器270を用いて)である。TCX分岐250は、オーディオコンテンツの入力表現210’’と、LP解析240aによって提供されるLPCフィルタ係数240bの両方を受信するように構成された、LPCベースのフィルタ250aを備える。LPCベースのフィルタ250aは、オーディオコンテンツの入力表現210’’と十分に類似する出力信号を提供するためにLPCベースのフィルタによって必要とされる刺激信号を記述することができるフィルタ出力信号250bを提供する。TCX分岐は、また、刺激信号250bを受信し、それに基づいて、刺激信号250bの周波数ドメイン表現250dを提供するように構成された、修正離散コサイン変換(MDCT)を備える。TCX分岐は、また、周波数ドメイン表現250dを受信し、その量子化されたバージョン250fを提供するように構成された、量子化器250eを備える。TCX分岐は、また、刺激信号250bの周波数ドメイン表現250dの量子化されたバージョン250fを受信し、それに基づいて、変換符号化励振信号252を提供するように構成された、エントロピーコーダ250gを備える。
ACELP分岐260は、LP解析240aによって提供されるLPCフィルタ係数240bを受信し、また更にオーディオコンテンツの入力表現210’’を受信するように構成された、LPCベースのフィルタ260aを備える。LPCベースのフィルタ260aは、それに基づいて、オーディオコンテンツの入力表現210’’に十分に類似している復元信号を提供するために、例えば、デコーダ側のLPCベースのフィルタによって必要とされる励振を記述する励振信号260bを提供するように構成される。ACELP分岐260は、また、適当な代数符号化アルゴリズムを用いて励振信号260bを符号化するように構成された、ACELPエンコーダ260cを備える。
上記を要約すると、例えば、非特許文献1に記述されたMPEG−Dの統合化された音声およびオーディオ符号化(USAC)作業草案によるオーディオコーデックのようなスイッチングオーディオコーデックにおいては、入力信号の隣接するセグメントを、異なるコーダによって処理することができる。例えば、統合化された音声およびオーディオ符号化作業草案(USAC WD)によるオーディオコーデックは、例えば非特許文献2に記載されたいわゆる高度オーディオ符号化(AAC)に基づく周波数ドメインコーダと、例えば非特許文献3に記載されたいわゆるAMR−WB+コンセプトに基づく線形予測ドメイン(LPD)コーダ、すなわちTCXおよびACELPとの間で切換ることができる。USACエンコーダは、図2において図式化されている。
異なるコーダ間の遷移の設計は、異なるコーダ間でシームレスに切換ることを可能にするために重要なあるいはさらに基本的な問題であることが分かっている。また、切換型構成に集約された符号化技術の異なる性質のため、このような遷移を成し遂げることが通常難しいことが分かっている。しかしながら、異なるコーダによって共有される共通のツールが遷移を容易にできることが分かっている。ここで、図2にかかる参照用のオーディオエンコーダ200を参照して、USACにおいて、変換符号化励振分岐(TCX)が、LPC残差ドメインにおいて、(LPC残差250bを用いて)修正離散コサイン変換(MDCT250c)を計算しながら、周波数ドメインコーダ230が、信号ドメインにおいて、修正離散コサイン変換(MDCT)を演算していることが分かる。また、両方のコーダ(すなわち、周波数ドメインコーダ230とTCX分岐250)は、異なるドメインに適用される同じ種類のフィルタバンクを共有する。このように、参照用のオーディオエンコーダ200(USACオーディオエンコーダとすることができる)は、1つのコーダ(例えば、周波数ドメインコーダ230)から他のコーダ(例えば、TCXコーダ250)に行くとき、MDCTの大きな特性、特に時間ドメインの折り返し歪み解消(TDAC)を完全には利用することができない。
また、図2にかかる参照用のオーディオエンコーダ200を参照して、TCX分岐250およびACELP分岐260は、線形予測符号化(LPC)ツールを共有することが分る。それは、ソースモデルコーダであるACELPのキーとなる特長であり、LPCは音声の声道をモデル化するために用いられる。TCXに対して、LPCは、MDCT係数250dに導入された量子化ノイズを整形するために用いられる。それは、MDCT250cを実行する前に、時間ドメインにおいて、入力信号210’’をフィルタリング(例えば、LPCベースのフィルタ250aを用いて)することによってなされる。さらに、LPCは、ACELPへの遷移の間、ACELPの適応コードブックに供給された励振信号を獲得することによってTCXの中で用いられる。それは、付加的に、次のACELPフレームに対する係数の補間されたLPCセットを取得することができるようにする。
2.2 図3にかかるオーディオ信号エンコーダ
以下において、図3にかかるオーディオ信号エンコーダ300が記述される。この目的のため、図3にかかるオーディオ信号エンコーダ300は図2にかかるオーディオ信号エンコーダ200といくつかの類似点を有するので、図2にかかる参照用のオーディオ信号エンコーダ200が参照される。
オーディオ信号エンコーダ300は、オーディオコンテンツの入力表現310を受信し、それに基づいて、オーディオコンテンツの符号化された表現312を提供するように構成される。オーディオ信号エンコーダ300は、周波数ドメインコーダ230によってオーディオコンテンツの部分の符号化された表現が提供される周波数ドメインモードと、線形予測ドメインコーダ340によってオーディオコンテンツの部分の符号化された表現が提供される線形予測モードとの間で切換可能であるように構成される。異なるモードにおいて符号化されたオーディオコンテンツの部分は、いくつかの実施形態においてオーバーラップすることができ、他の実施形態においてオーバーラップしないことができる。
周波数ドメインコーダ330は、周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分に対するオーディオコンテンツの入力表現310’を受信し、それに基づいて、符号化されたスペクトル表現332を提供する。線形予測ドメインコーダ340は、線形予測モードにおいて符号化されるオーディオコンテンツの部分に対するオーディオコンテンツの入力表現310’’を受信し、それに基づいて、符号化された励振342を提供する。切換器320は、オプションとして、周波数ドメインコーダ330に対しておよび/または線形予測ドメインコーダ340に対して入力表現310を提供するために用いることができる。
周波数ドメインコーダは、また、符号化されたスケールファクタ情報334を提供する。線形予測ドメインコーダ340は、符号化されたLPCフィルタ係数情報344を提供する。
出力側のマルチプレクサ380は、周波数ドメインにおいて符号化されるオーディオコンテンツの部分に対する符号化されたスペクトル表現332と符号化されたスケールファクタ情報334とをオーディオコンテンツの符号化された表現312として提供し、線形予測モードにおいて符号化されたオーディオコンテンツの部分に対する符号化された励振342と符号化されたLPCフィルタ係数情報344とをオーディオコンテンツの符号化された表現312として提供するように構成される。
周波数ドメインエンコーダ330は、オーディオコンテンツの時間ドメイン表現310’を受信し、オーディオコンテンツの時間ドメイン表現310’を変換し、オーディオコンテンツのMDCT変換された周波数ドメイン表現330bを取得する、修正離散コサイン変換330aを備える。周波数ドメインコーダ330は、また、オーディオコンテンツの時間ドメイン表現310’を受信し、それに基づいて、スケールファクタ330dと符号化されたスケールファクタ情報334を提供するように構成された、音響心理学的解析330cを備える。周波数ドメインコーダ330は、また、オーディオコンテンツのMDCT変換された周波数ドメイン表現330bの異なるスペクトル係数を異なるスケールファクタ値でスケーリングするために、オーディオコンテンツのMDCT変換された周波数ドメイン表現330dに、スケールファクタ330eを適用するように構成された、結合器330eを備える。したがって、スケールファクタ330dに従ってスペクトル整形が実行され、比較的大きいスケールファクタ330eが関係するスペクトル領域が、比較的小さいスケールファクタ330eが関係するスペクトル領域を超えて強調され、オーディオコンテンツのMDCT変換された周波数ドメイン表現330dのスペクトル整形されたバージョン330fが取得される。周波数ドメインコーダ330は、また、オーディオコンテンツのMDCT変換された周波数ドメイン表現330bのスケーリングされた(スペクトル整形された)バージョン330fを受信し、その量子化されたバージョン330hを提供するように構成された、量子化器を備える。周波数ドメインコーダ330は、また、量子化されたバージョン330hを受信し、それに基づいて、符号化されたスペクトル表現332を提供するように構成された、エントロピーコーダ330iを備える。量子化器330gとエントロピーコーダ330iは、量子化エンコーダとみなすことができる。
線形予測ドメインコーダ340は、TCX分岐350とACELP分岐360を備える。加えて、LPDコーダ340は、TCX分岐350とACELP分岐360によって共通に用いられるLP解析340aを備える。LP解析340aは、LPCフィルタ係数340bと符号化されたLPCフィルタ係数情報344を提供する。
TCX分岐350は、MDCT変換入力として、時間ドメイン表現310’’を受信するように構成された、MDCT変換350aを備える。さらに重要なことに、周波数ドメインコーダのMDCT330aとTCX分岐350のMDCT350aは、変換入力信号として、オーディオコンテンツの同じ時間ドメイン表現の(異なる)部分を受信する。
したがって、オーディオコンテンツの引き続くオーバーラップ部分(例えば、フレーム)が異なるモードにおいて符号化された場合、周波数ドメインコーダ330のMDCT 330aとTCX分岐350のMDCT350aは、変換入力信号として、時間オーバーラップを有する時間ドメイン表現を受信することができる。言い換えれば、周波数ドメインコーダ330のMDCT330aとTCX分岐350のMDCT350aは、「同じドメイン」にある、すなわち、いずれもオーディオコンテンツを表す時間ドメイン信号である変換入力信号を受信する。これは、TCX分岐250のMDCT250cが、オーディオコンテンツ自体の時間ドメイン表現ではなく、信号あるいは励振信号250bの残差の時間ドメイン表現を受信しながら、周波数ドメインコーダ230のMDCT230aが、オーディオコンテンツの時間ドメイン表現を受信するオーディオエンコーダ200とは対照的である。
TCX分岐350は、更に、LPCフィルタ係数340bをスペクトルドメインに変換し、ゲイン値350cを取得するように構成された、フィルタ係数変換器350bを備える。フィルタ係数変換器350bは、時には「線形予測−MDCT変換器」としても表される。TCX分岐350は、また、オーディオコンテンツのMDCT変換された表現とゲイン値350cを受信し、それに基づいて、オーディオコンテンツのMDCT変換された表現のスペクトル整形されたバージョン350eを提供する、結合器350dを備える。この目的のため、結合器350dは、スペクトル整形されたバージョン350eを取得するために、オーディオコンテンツのMDCT変換された表現のスペクトル係数をゲイン値350cに従って重み付けする。TCX分岐350は、また、オーディオコンテンツのMDCT変換された表現のスペクトル整形されたバージョン350eを受信し、その量子化されたバージョン350gを提供するように構成された、量子化器350fを備える。TCX分岐350は、また、符号化された励振342として、量子化された表現350gのエントロピー符号化された(例えば、算術的に符号化された)バージョンを提供するように構成された、エントロピーコーダ350hを備える。
ACELP分岐は、LP解析340aによって提供されるLPCフィルタ係数340bとオーディオコンテンツの時間ドメイン表現310’’を受信する、LPCベースのフィルタ360aを備える。LPCベースのフィルタ360aは、LPCベースのフィルタ260aと同じ機能を引き継ぎ、励振信号260bに相当する励振信号360bを提供する。ACELP分岐360は、また、ACELPエンコーダ260cに相当するACELPエンコーダ360cを備える。ACELPエンコーダ360cは、ACELPモード(それは、線形予測モードのサブモードである)を用いて符号化されるオーディオコンテンツの部分に対する符号化された励振342を提供する。
オーディオエンコーダ300の全体の機能に関して、オーディオコンテンツの部分は、周波数ドメインモード、TCXモード(それは、線形予測モードの第1のサブモードである)、またはACELPモード(それは、線形予測モードの第2のサブモードである)のいずれかにおいて符号化することができるということができる。オーディオコンテンツの部分が周波数ドメインモードにおいてまたはTCXモードにおいて符号化される場合に、オーディオコンテンツの部分は、周波数ドメインコーダのMDCT330aまたはTCX分岐のMDCT350aを用いて周波数ドメインに最初に変換される。MDCT330aとMDCT350aの両方とも、オーディオコンテンツの時間ドメイン表現について作動し、周波数ドメインモードとTCXモードの間に遷移があるときは、少なくとも部分的に、オーディオコンテンツの同一の部分について作動しさえする。周波数ドメインモードにおいて、MDCT変換器330aによって提供される周波数ドメイン表現のスペクトル整形は、音響心理学的解析330cによって提供されるスケールファクタに従って実行され、TCXモードにおいて、MDCT350aによって提供される周波数ドメイン表現のスペクトル整形は、LP解析340aによって提供されるLPCフィルタ係数に従って実行される。量子化330gは、量子化350fに類似する、またはさらに同一であってもよく、エントロピー符号化330iは、エントロピー符号化350hに類似する、またはさらに同一であってもよい。また、MDCT変換330aは、MDCT変換350aに類似する、またはさらに同一であってもよい。しかしながら、周波数ドメインコーダ330とTCX分岐350において、異なる次元のMDCT変換を用いることができる。
さらに、LPCフィルタ係数340bは、TCX分岐350とACELP分岐360の両方によって用いられることが理解できる。これは、TCXモードにおいて符号化されたオーディオコンテンツの部分とACELPモードにおいて符号化されたオーディオコンテンツの部分の間の遷移を容易にする。
上記を要約すると、本発明の一実施形態は、統合化された音声およびオーディオ符号化(USAC)の局面において、時間ドメインにおいてTCXのMDCT350aを実行することと、周波数ドメインにおいてLPCベースのフィルタリング(結合器350d)を適用することとから成る。LPC解析(例えば、LP解析340a)は、前のように(例えば、オーディオ信号エンコーダ200におけるように)なされ、係数(例えば、係数340b)は、通常通り(例えば、符号化されたLPCフィルタ係数344の形で)依然として送信される。しかしながら、ノイズ整形は、時間ドメインにおいてフィルタを適用することによってはなされないが、周波数ドメインにおいて重み付けを適用する(それは、例えば、結合器350dによって実行される)ことによってなされる。周波数ドメインにおけるノイズ整形は、LPC係数(例えば、LPCフィルタ係数340b)をMDCTドメインに変換する(それは、フィルタ係数変換器350bによって実行することができる)ことによって成し遂げられる。詳細は、周波数ドメインにおいてTCXのLPCベースのノイズ整形を適用するコンセプトを示す図3が参照される。
2.3 LPC係数の演算およびアプリケーションに関する詳細
以下において、LPC係数の演算およびアプリケーションが記述される。最初に、現在のTCXウィンドウに対して、例えばLPC解析340aを用いて、LPC係数の適当なセットが算出される。TCXウィンドウは、TCXモードにおいて符号化されるオーディオコンテンツの時間ドメイン表現のウィンドウ化された部分とすることができる。LPC解析ウィンドウは、図4に示されるように、LPCコーダフレームの端境界に置かれる。
図4を参照して、TCXフレーム、すなわちTCXモードにおいて符号化されるオーディオフレームが示される。横軸410は時間を表し、縦軸420はウィンドウ関数の大きさ値を表す。
TCXウィンドウの共通重心に対応する係数340cのLPCセットを計算するために補間がなされる。補間は、LPC係数が通常量子化され、符号化されるイミタンススペクトル周波数(ISFドメイン)において実行される。補間された係数は、次にサイズ「sizeR+sizeM+sizeL」のTCXウィンドウの中央にセンタリングされる。
詳細は、TCXウィンドウに対するLPC係数の補間の説明図を示す図4が参照される。
補間されたLPC係数は、次に、音響心理学的な考慮によって適当なノイズ整形の組み込みを得るために、TCXにおいてなされるように重み付けされる(詳細は、非特許文献3を参照)。取得された補間され、重み付けされたLPC係数(簡単にlpc_coeffsによっても表される)は、図5および図6において疑似コードが示される方法を用いて、最終的にMDCTスケールファクタ(線形予測モードのゲイン値としても表される)に変換される。
図5は、入力LPC係数(「lpc_coeffs」)に基づいてMDCTスケールファクタ(「mdct_scaleFactors」)を提供する関数「LPC2MDCT」の疑似プログラムコードを示す。これから分かるように、関数「LPC2MDCT」は、入力変数として、LPC係数「lpc_coeffs」、LPCオーダー値「lpc_order」およびウィンドウサイズ値「sizeR」、「sizeM」、「sizeL」を受信する。第1ステップにおいて、参照番号510で示すように、配列「InRealData[i]」のエントリーは、LPC係数の変調されたバージョンで充填される。これから分かるように、0とlpc_order−1の間のインデックスを有する配列「InRealData」のエントリーと配列「InImagData」のエントリーは、コサイン項またはサイン項によって変調された対応するLPC係数「lpcCoeffs[i]」によって決定される値にセットされる。インデックスi≧lpc_orderを有する配列「InRealData」および「InImagData」のエントリーは、0にセットされる。
したがって、配列「InRealData[i]」と「InImagData[i]」は、複素変調項(cos(i・π/sizeN)−j・sin(i・π/sizeN))によって変調されたLPC係数によって記述される時間ドメインレスポンスの実部および虚部を記述する。
引き続いて、配列「InRealData[i]」と「InImagData[i]」が複素高速フーリエ変換の入力信号を記述する、複素高速フーリエ変換が適用される。複素高速フーリエ変換の結果は、配列「OutRealData」と「OutImagData」によって提供される。このように、配列「OutRealData」と「OutImagData」は、時間ドメインフィルタ係数によって記述されるLPCフィルタレスポンスを表現するスペクトル係数(周波数インデックスiを有する)を記述する。
引き続いて、周波数インデックスiを持ち、「mdct_scaleFactors[i]」で表される、いわゆるMDCTスケールファクタが計算される。MDCTスケールファクタ「mdct_scaleFactors[i]」は、対応するスペクトル係数(エントリー「OutRealData[i]」と「OutImagData[i]」によって記述される)の絶対値の逆数として計算される。
Figure 2013507648
上記式において、LPC係数lpc_coeffs[n]は、変換入力関数x(n)の役割をする。出力関数X(k)は、値「OutRealData[k]」(実部)と「OutImagData[k]」(虚部)によって表される。
関数「complex_fft()」は、従来の複素離散フーリエ変換(DFT)の高速処理系である。取得されたMDCTスケールファクタ(「mdct_scaleFactors」)は、次に、入力信号のMDCT係数(MDCT350aによって提供される)をスケーリングするために用いられる。スケーリングは、図6に示される擬似コードによって実行される。
2.4 ウィンドウ化およびオーバーラップに関する詳細
ウィンドウ化と、引き続くフレーム間のオーバーラップは、図7および図8において記述される。
図7は、オーバーヘッドとしてLPC0を送信する切換型時間ドメイン/周波数ドメインコーデックによって実行されるウィンドウ化を示す。図8は、周波数ドメインコーダから時間ドメインコーダに切換るときに、遷移に対して「lpc2mdct」を用いて実行されるウィンドウ化を示す。
ここで図7を参照して、第1のオーディオフレーム710は、周波数ドメインモードに符号化され、ウィンドウ712を用いてウィンドウ化される。
オーディオフレーム710にほぼ50%オーバーラップし、周波数ドメインモードにおいて符号化された、第2のオーディオフレーム716は、「スタートウィンドウ」として表されるウィンドウ718を用いてウィンドウ化される。スタートウィンドウは、長い左側遷移スロープ718aと短い右側遷移スロープ718cを有する。
線形予測モードにおいて符号化された第3のオーディオフレーム722は、右側遷移スロープ718cにマッチングする短い左側遷移スロープ724aと、短い右側遷移スロープ724cとを備える線形予測モードウィンドウ724を用いてウィンドウ化される。周波数ドメインモードにおいて符号化された第4のオーディオフレーム728は、比較的短い左側遷移スロープ730aと比較的長い右側遷移スロープ730cとを有する「ストップウィンドウ」730を用いてウィンドウ化される。
周波数ドメインモードから線形予測モードに遷移するとき、すなわち第2のオーディオフレーム716と第3のオーディオフレーム722の間の遷移として、LPC係数の余分のセット(「LPC0」としても表される)が、従来通り線形予測ドメイン符号化モードへの適当な遷移を確実にするために送信される。
しかしながら、本発明にかかる実施形態は、周波数ドメインモードと線形予測モードの間の遷移に対する新しいタイプのスタートウィンドウを有するオーディオエンコーダを構築する。ここで図8を参照して、第1のオーディオフレーム810は、いわゆる「長いウィンドウ」812を用いてウィンドウ化され、周波数ドメインモードにおいて符号化されることが分かる。長いウィンドウ812は、比較的長い右側遷移スロープ812bを備える。第2のオーディオフレーム816は、比較的長い左側遷移スロープ818aを備え、ウィンドウ812の右側遷移スロープ812bにマッチングする線形予測ドメインのスタートウィンドウ818を用いてウィンドウ化される。線形予測ドメインのスタートウィンドウ818は、また、比較的短い右側遷移スロープ818bを備える。第2のオーディオフレーム816は、線形予測モードにおいて符号化される。したがって、LPCフィルタ係数は、第2のオーディオフレーム816に対して決定され、第2のオーディオフレーム816の時間ドメインサンプルは、またMDCTを用いてスペクトル表現に変換される。第2のオーディオフレーム816に対して決定されているLPCフィルタ係数は、次に周波数ドメインにおいて適用され、MDCTによって提供されたスペクトル係数を、オーディオコンテンツの時間ドメイン表現に基づいてスペクトル整形するために用いられる。
第3のオーディオフレーム822は、前述されたウィンドウ724と同一であるウィンドウ824を用いてウィンドウ化される。第3のオーディオフレーム822は、線形予測モードにおいて符号化される。第4のオーディオフレーム828は、ウィンドウ730と実質的に同一であるウィンドウ830を用いてウィンドウ化される。
図8に関して記述されたコンセプトは、いわゆる「長いウィンドウ」を用いて周波数ドメインモードにおいて符号化されるオーディオフレーム810と、ウィンドウ824を用いて線形予測モードにおいて符号化される第3のオーディオフレーム822の間の遷移が、ウィンドウ818を用いて線形予測モードにおいて符号化される中間の(部分的にオーバーラップする)第2のオーディオフレーム816によって行われるという利益をもたらす。第2のオーディオフレームは、通常はスペクトル整形が周波数ドメインにおいて実行されるように(すなわち、フィルタ係数変換器350bを用いて)符号化されるので、比較的長い右側遷移スロープ812bを有するウィンドウを用いて周波数ドメインモードにおいて符号化されるオーディオフレーム810と、第2のオーディオフレーム816の間の良好なオーバーラップおよび加算を得ることができる。加えて、スケールファクタ値の代わりに、符号化されたLPCフィルタ係数が第2のオーディオフレーム816に対して送信される。これは、図8の遷移を、スケールファクタ値に加えて余分のLPC係数(LPC0)が送信される図7の遷移を区別する。その結果として、第2のオーディオフレーム816と第3のオーディオフレーム822の間の遷移は、例えば、図7の場合に送信されるLPC0係数のような付加的な余分のデータを送信することなく良い品質で実行することができる。このように、第3のオーディオフレーム822において用いられる線形予測ドメインコーデックを初期化するために必要とされる情報が、余分の情報を送信することなく利用可能である。
要約すると、図8に関して記述された実施形態において、線形予測ドメインのスタートウィンドウ818は、従来のスケールファクタ(例えば、オーディオフレーム716に対して送信される)の代わりに、LPCベースのノイズ整形を用いることができる。LPC解析ウィンドウ818は、図8において記述されたように、スタートウィンドウ718に相当し、付加的なセットアップLPC係数(例えば、LPC0係数のような)を送る必要はない。この場合、ACELPの適応コードブック(第3のオーディオフレーム822の少なくとも部分を符合化するために用いることができる)を、復号化された線形予測ドメインコーダのスタートウィンドウ818の演算されたLPC残差によって容易に供給することができる。
上記を要約すると、図7は、オーバーヘッドとしてLP0と呼ばれるLPC係数の余分のセットを送る必要のある切換型時間ドメイン/周波数ドメインコーデックの関数を示す。図8は、遷移に対していわゆる「LPC2MDCT」を用いた周波数ドメインコーダから線形予測ドメインコーダへの切換を示す。
3. 図9にかかるオーディオ信号エンコーダ
以下において、図8に関して記述されたようなコンセプトを実施するのに適合するオーディオ信号エンコーダ900が、図9を参照して記述される。図9にかかるオーディオ信号エンコーダ900は、図3にかかるオーディオ信号300と非常に類似しており、同一の手段および信号は同じ参照番号によって示される。このような同一の手段および信号の議論はここでは省略され、オーディオ信号エンコーダ300に関する議論が参照される。
しかしながら、オーディオ信号エンコーダ900は、周波数ドメインコーダ930の結合器330eがスペクトル整形に対してスケールファクタ340dまたは線形予測ドメインゲイン値350cを選択的に適用することができるという点でオーディオ信号エンコーダ300と比較して拡張されている。この目的のため、スペクトル係数330bのスペクトル整形に対して、スケールファクタ350dまたは線形予測ドメインのゲイン値350cのいずれかを結合器330eに供給することを可能とする、切換器930jが用いられる。このように、オーディオ信号エンコーダ900は、さらに次の3つの演算モードを承知している。
(1)周波数ドメインモード
オーディオコンテンツの時間ドメイン表現は、MDCT330aを用いて周波数ドメインに変換され、スペクトル整形がオーディオコンテンツの周波数ドメイン表現330bにスケールファクタ330dに従って適用される。スペクトル整形された周波数ドメイン表現330fの量子化され、符号化されたバージョン332と、符号化されたスケールファクタ情報334は、周波数ドメインモードを用いて符号化されたオーディオフレームに対するビットストリームに含まれる。
(2)線形予測モード
線形予測モードにおいて、LPCフィルタ係数340bがオーディオコンテンツの部分に対して決定され、前記LPCフィルタ係数340bを用いて、変換符号化された励振(第1のサブモード)またはACEL符号化された励振のいずれかが、符号化された励振のうちどちらがより効果的なビットレートであるかに依存して決定される。符号化された励振342と符号化されたLPCフィルタ係数情報344は、線形予測モードにおいて符号化されたオーディオフレームに対するビットストリームに含まれる。
(3)LPCフィルタ係数ベースのスペクトル整形による周波数ドメインモード
代替として、第3の可能なモードで、周波数ドメインコーダ930によってオーディオコンテンツを処理することができる。しかしながら、スケールファクタ330dの代わりに、結合器330eにおけるスペクトル整形に対して線形予測ドメインゲイン値350cが適用される。したがって、オーディオコンテンツのスペクトル整形された周波数ドメイン表現330fの量子化され、エントロピー符号化されたバージョン332は、ビットストリームに含まれ、スペクトル整形された周波数ドメイン表現330fは、線形予測ドメインコーダ340によって提供される線形予測ドメインゲイン値350cによってスペクトル整形される。加えて、符号化されたLPCフィルタ係数情報344が、このようなオーディオフレームに対するビットストリームに含まれる。
上述の第3のモードを用いて、第2のオーディオフレーム816に対して、図8に関して記述された遷移を成し遂げることが可能である。ここで、周波数ドメインコーダ930を用いた線形予測ドメインゲイン値に従ったスペクトル整形によるオーディオフレームの符合化は、周波数ドメインコーダ930によって用いられるMDCTの次元がTCX分岐350によって用いられるMDCTの次元に相当し、周波数ドメインコーダ930によって用いられる量子化330gがTCX分岐350によって用いられる量子化350fに相当し、周波数ドメインコーダによって用いられるエントロピー符号化330eがTCX分岐において用いられるエントロピー符号化350hに相当する場合に、線形予測ドメインコーダを用いたオーディオフレーム816の符合化と等価であることに注意しなければならない。言い換えれば、オーディオフレーム816の符合化は、MDCT350gがMDCT330aの特性を引き継ぎ、量子化350fが量子化330eの特性を引き継ぎ、エントロピー符号化350hがエントロピー符号化330iの特性を引き継ぐようにTCX分岐350を適応させること、または周波数ドメインコーダ930において、線形予測ドメインゲイン値350cを適用することのいずれかによってなすことができる。両方の解は、等価であり、図8に関して述べられたようにスタートウィンドウ816の処理に導く。
4. 図10にかかるオーディオ信号デコーダ
以下において、信号ドメインにおいて実行されるTCX MDCTによるUSAC(統合化された音声およびオーディオ符号化)の統合図が、図10を参照して記述される。
ここで、本発明にかかるいくつかの実施形態において、TCX分岐350および周波数ドメインコーダ330、930は、ほとんどすべての同じ符号化ツール(MDCT330a、350a;結合器330e、350d;量子化330g、350f;エントロピーコーダ330i、350h)を共有し、図10に表されたように、単一のコーダとみなすことができることに注意しなければならない。このように、本発明にかかる実施形態は、2種類のコーデック(周波数ドメインコーダおよび時間ドメインコーダ)のみの境界を決めることができる切換型コーダUSACのより統合化された構成を可能とする。
ここで、図10を参照して、オーディオ信号エンコーダ1000は、オーディオコンテンツの入力表現1010を受信し、それに基づいて、オーディオコンテンツの符号化された表現1012を提供するように構成されることが分かる。一般的に時間ドメイン表現であるオーディオコンテンツの入力表現1010は、オーディオコンテンツの部分が周波数ドメインモードにおいてまたは線形予測モードのTCXサブモードにおいて符号化される場合に、MDCT1030aに入力される。MDCT1030aは、時間ドメイン表現1010の周波数ドメイン表現1030bを提供する。周波数ドメイン表現1030bは、周波数ドメイン表現1030bをスペクトル整形値1040と結合する結合器1030eに入力され、周波数ドメイン表現1030bのスペクトル整形されたバージョン1030fを取得する。スペクトル整形された表現1030fは、量子化器1030gを用いて量子化され、その量子化されたバージョン1030hを取得し、量子化されたバージョン1030hは、エントロピーコーダ(例えば、算術エンコーダ)1030iに送信される。エントロピーコーダ1030iは、スペクトル整形された周波数ドメイン表現1030fの量子化されエントロピー符号化された表現1032を提供する。MDCT1030a、結合器1030e、量子化器1030gおよびエントロピーコーダ1030iは、周波数ドメインモードおよび線形予測モードのTCXサブモードに対して共通の信号処理パスを形成する。
オーディオ信号エンコーダ1000は、また、オーディオコンテンツの時間ドメイン表現1010を受信し、それに基づいて、LPCフィルタ係数情報1040bを用いて符号化された励振1062を提供する、ACELP信号処理パス1060を備える。オプションであると考えることができるACELP信号処理パス1060は、LPCベースのフィルタ1060fを備え、オーディオコンテンツの時間ドメイン表現1010を受信し、残差信号あるいは励振信号1060bをACELPエンコーダ1060cに提供する。ACELPエンコーダは、励振信号あるいは残差信号1060bに基づいて、符号化された励振1062を提供する。
オーディオ信号エンコーダ1000は、また、オーディオコンテンツの時間ドメイン表現1010を受信し、それに基づいて、スペクトル整形情報1040aおよびLPCフィルタ係数情報1040b、ならびに現在のオーディオフレームを復号化するために必要なサイド情報の符号化されたバージョンを提供するように構成された、共通の信号解析器1070を備える。このように、共通の信号解析器1070は、現在のオーディオフレームが周波数ドメインモードにおいて符号化されている場合に、音響心理学的解析1070aを用いてスペクトル整形情報1040aを提供し、現在のオーディオフレームが周波数ドメインモードにおいて符号化されている場合に、符号化されたスケールファクタ情報を提供する。スペクトル整形に用いられるスケールファクタ情報は、音響心理学的解析1070aによって提供され、スケールファクタ1070bを記述する符号化されたスケールファクタ情報は、周波数ドメインモードにおいて符号化されたオーディオフレームに対するビットストリーム1012に含まれる。
線形予測モードのTCXサブモードにおいて符号化されたオーディオフレームに対して、共通の信号解析器1070は、線形予測解析1070cを用いてスペクトル整形情報1040aを導き出す。線形予測解析1070cは、線形予測−MDCTブロック1070dによってスペクトル表現に変換されるLPCフィルタ係数のセットに結果としてなる。したがって、スペクトル整形情報1040aは、上述のようにLP解析1070cによって提供されるLPCフィルタ係数から導き出される。その結果として、線形予測モードの変換符号化励振サブモードにおいて符号化されたオーディオフレームに対して、共通の信号解析器1070は、(音響心理学的解析1070aに基づくよりもむしろ)線形予測解析1070cに基づいてスペクトル整形情報1040aを提供し、更に、ビットストリーム1012への内包物に対して、符号化されたスケールファクタ情報よりもむしろ符号化されたLPCフィルタ係数情報を提供する。
さらに、線形予測モードのACELPサブモードにおいて符号化されたオーディオフレームに対して、共通の信号解析器1070の線形予測解析1070cは、LPCフィルタ係数情報1040bをACELP信号処理分岐1060のLPCベースのフィルタ1060aに提供する。この場合、共通の信号解析器1070は、ビットストリーム1012の内包物に対して、符号化されたLPCフィルタ係数情報を提供する。
上記を要約すると、周波数ドメインモードと線形予測モードのTCXサブモードに対して、同じ信号処理パスが用いられる。しかしながら、MDCTの前またはMDCTと組合せて適用されるウィンドウ化と、MDCT1040aの次元は、符号化モードに従って変化することができる。にもかかわらず、周波数ドメインモードと線形予測モードのTCXサブモードは、符号化されたスケールファクタ情報は周波数ドメインモードのビットストリームに含まれる一方、符号化されたLPCフィルタ係数情報は線形予測モードのビットストリームに含まれるという点で、異なる。
線形予測モードのACELPサブモードにおいて、ACELP符号化された励振と符号化されたLPCフィルタ係数情報は、ビットストリームに含まれる。
5. 図11にかかるオーディオ信号デコーダ
5.1 デコーダの概要
以下において、上述されたオーディオ信号エンコーダによって提供されるオーディオコンテンツの符号化された表現を復号化することができるオーディオ信号デコーダが記述される。
図11にかかるオーディオ信号デコーダ1100は、オーディオコンテンツの符号化された表現1110を受信し、それに基づいて、オーディオコンテンツの復号化された表現1112を提供するように構成される。オーディオ信号エンコーダ1110は、オーディオコンテンツの符号化された表現1110を備えるビットストリームを受信し、前記ビットストリームからオーディオコンテンツの符号化された表現1110を抽出し、それによりオーディオコンテンツの抽出され、符号化された表現1110’を取得するように構成された、オプションのビットストリームペイロードデフォーマッタ1120を備える。オプションのビットストリームペイロードデフォーマッタ1120は、ビットストリームから、符号化されたスケールファクタ情報、符号化されたLPCフィルタ係数情報および付加的な制御情報または信号拡張サイド情報を抽出することができる。
オーディオ信号デコーダ1100は、また、オーディオコンテンツの複数の部分(例えば、オーバーラップするまたはオーバーラップしないオーディオフレーム)に対する復号化されたスペクトル係数の複数のセット1132を取得するように構成された、スペクトル値決定器1130を備える。復号化されたスペクトル係数のセットは、オプションとして、前処理器1140を用いて前処理することができ、それにより復号化されたスペクトル係数の前処理されたセット1132’を産出する。
オーディオ信号デコーダ1100は、また、復号化されたスペクトル係数のセット1132、またはその前処理されたバージョン1132’に、線形予測モードにおいて符号化されたオーディオコンテンツの部分(例えば、オーディオフレーム)に対する線形予測ドメインパラメータのセット1152に従ってスペクトル整形を適用し、復号化されたスペクトル係数のセット1132、またはその前処理されたバージョン1132’に、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分(例えば、オーディオフレーム)に対するスケールファクタパラメータのセット1154に従ってスペクトル整形を適用するように構成された、スペクトルプロセッサ1150を備える。したがって、スペクトルプロセッサ1150は、復号化されたスペクトル係数のスペクトル整形されたセット1158を取得する。
オーディオ信号デコーダ1100は、また、復号化されたスペクトル係数のスペクトル整形されたセット1158を受信し、線形予測モードにおいて符号化されたオーディオコンテンツの部分に対する復号化されたスペクトル係数のスペクトル整形されたセット1158に基づいて、オーディオコンテンツの時間ドメイン表現1162を取得するように構成された、周波数ドメイン−時間ドメイン変換器1160を備える。周波数ドメイン−時間ドメイン変換器1160は、また、周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対する復号化されたスペクトル係数のそれぞれスペクトル整形されたセット1158に基づいて、オーディオコンテンツの時間ドメイン表現1162を取得するように構成される。
オーディオ信号デコーダ1100は、また、オプションとしてオーディオコンテンツの時間ドメイン表現1162の時間ドメイン後処理を実行し、オーディオコンテンツの復号化表現1112を取得する、オプションの時間ドメインプロセッサ1170を備える。しかしながら、時間ドメインポストプロセッサ1170がない場合に、オーディオコンテンツの復号化された表現1112は、周波数ドメイン−時間ドメイン変換器1160によって提供されるオーディオコンテンツの時間ドメイン表現1162と同じとすることができる。
5.2 更なる詳細
以下において、オーディオ信号デコーダのオプションの改良と考えることができる、オーディオデコーダ1100の更なる詳細が記述される。
オーディオ信号デコーダ1100は、オーディオコンテンツの引き続く部分(例えば、オーバーラップするまたはオーバーラップしないオーディオフレーム)が、異なるモードを用いて符号化されるオーディオ信号表現を取り扱うことができる、多重モードオーディオ信号デコーダであることに注意しなければならない。以下において、オーディオフレームは、オーディオコンテンツの部分の単純な例とみなされる。オーディオコンテンツはオーディオフレームにサブ分割されるので、同じモードにおいて符号化された引き続く(部分的にオーバーラップするまたはオーバーラップしない)オーディオフレームの復号化された表現の間で、また更には、異なるモードにおいて符号化された引き続く(オーバーラップするまたはオーバーラップしない)オーディオフレームの間で、スムースな遷移を有することは特に重要である。好ましくは、オーディオ信号デコーダ1100は、いくつかのケースにおいておよび/またはいくつかの遷移に対してオーバーラップが有意に小さいかもしれない場合であっても、引き続くオーディオフレームがほぼ50%オーバーラップしているオーディオ信号表現を取り扱う。
この理由によって、オーディオ信号デコーダ1100は、異なるモードにおいて符号化された引き続くオーディオフレームの時間ドメイン表現をオーバーラップおよび加算するように構成された、重ね合せ器を備える。重ね合せ器は、例えば、周波数ドメイン−時間ドメイン変換器1160の一部とすることができ、または周波数ドメイン−時間ドメイン変換器1160の出力に配置することができる。引き続くオーディオフレームをオーバーラップするときに高い性能と良い品質を得るために、周波数ドメイン−時間ドメイン変換器は、線形予測モードにおいて(例えば、その変換符号化励振サブモードにおいて)符号化されたオーディオフレームの時間ドメイン表現をラップド変換を用いて取得し、周波数ドメインモードにおいて符号化されたオーディオフレームの時間ドメイン表現をラップド変換を用いて取得するように構成される。この場合、重ね合せ器は、異なるモードにおいて符号化された引き続くオーディオフレームの時間ドメイン表現をオーバーラップするように構成される。異なるモードにおいて符号化されたオーディオフレームに対して好ましくは同じ変換タイプとすることができる合成ラップド変換を、周波数ドメイン−時間ドメイン変換に対して用いることによって、クリティカルなサンプリングを用いることができ、オーバーラップおよび加算演算によって生じるオーバーヘッドが最小化される。同時に、引き続くオーディオフレームの時間ドメイン表現のオーバーラップ部分の間の時間ドメイン折り返し歪みの解消がある。異なるモードにおいて符号化された引き続くオーディオフレームの間の遷移において時間ドメイン折り返し歪みの解消を有するという可能性は、第1のモードおいて符号化された第1のオーディオフレームの復号化されたスペクトル係数のスペクトル整形されたセットについて実行される合成ラップド変換の出力が、第2のモードにおいて符号化された引き続くオーディオフレームの復号化されたスペクトル係数のスペクトル整形されたセットについて実行されるラップド変換の出力と直接結合される(すなわち中間のフィルタリング演算なしに結合される)ように、周波数ドメイン−時間ドメイン変換が異なるモードにおいて同じドメインで適用されるという事実によって生じることに注意しなければならない。このように、第1のモードにおいて符号化されたオーディオフレームに対して実行されるラップド変換の出力と、第2のモードにおいて符号化されたオーディオフレームに対するラップド変換の出力の線形結合が実行される。当然、適当なオーバーラップウィンドウ化は、ラップド変換プロセスの一部としてまたはラップド変換プロセスに引き続いて実行することができる。
したがって、時間ドメイン折り返し歪の解消は、異なるモードにおいて符号化された引き続くオーディオフレームの時間ドメイン表現の間の単なるオーバーラップおよび加算演算によって得られる。
言い換えれば、周波数ドメイン−時間ドメイン変換器1160が両方のモードに対して同じドメインにある時間ドメイン出力信号を提供することは重要である。周波数ドメイン−時間ドメイン変換(例えば、関係する遷移ウィンドウ化と組合せたラップド変換)の出力信号が異なるモードに対して同じドメインにあるという事実は、周波数ドメイン−時間ドメイン変換の出力信号が異なるモード間の遷移においてさえ線形に結合可能であることを意味する。例えば、周波数ドメイン−時間ドメイン変換の出力信号は、両方とも、スピーカ信号の時間的進化を記述するオーディオコンテンツの時間ドメイン表現である。言い換えれば、引き続くオーディオフレームのオーディオコンテンツの時間ドメイン表現1162は、スピーカ信号を引き出すために共通に処理することができる。
さらに、スペクトルプロセッサ1150は、ビットストリーム1110から抽出された情報、例えば、符号化されたスケールファクタ情報および符号化されたLPCフィルタパラメータ情報に基づいて、線形予測ドメインパラメータのセット1152とスケールファクタパラメータのセット1154を提供するように構成された、パラメータ提供器1156を備えることができることに注意しなければならない。パラメータ提供器1156は、例えば、線形予測モードにおいて符号化されたオーディオコンテンツの部分に対するLPCフィルタ係数の符号化された表現に基づいて復号化されたLPCフィルタ係数を取得するように構成された、LPCフィルタ係数決定器を備えることができる。また、パラメータ提供器1156は、異なる周波数に関する線形予測モードゲイン値を取得するために、復号化されたLPCフィルタ係数をスペクトル表現に変換するように構成された、フィルタ係数変換器を備えることができる。線形予測モードゲイン値(時には、g[k]によっても表される)は、線形予測ドメインパラメータのセット1152を構成することができる。
パラメータ提供器1156は、更に、周波数ドメインモードにおいて符号化されたオーディオフレームに対するスケールファクタ値の符号化された表現に基づいて復号化されたスケールファクタ値を取得するように構成された、スケールファクタ決定器を備えることができる。
復号化されたスケールファクタ値は、スケールファクタパラメータのセット1154として役立つことができる。
したがって、スペクトル修正とみなすことができるスペクトル整形は、復号化されたスペクトル係数1132、またはその前処理されたバージョン1132’の貢献度が線形予測モードゲイン値に従って重み付けされた、復号化されたスペクトル係数1132のゲイン処理された(すなわち、スペクトル整形された)バージョン1158を取得するために、線形予測モードにおいて符号化されたオーディオフレームに関する復号化されたスペクトル係数のセット1132、またはその前処理されたバージョン1132’を、線形予測モードゲイン値(それは、線形予測ドメインパラメータのセット1152を構成する)と結合するように構成される。加えて、スペクトル修正器は、復号化されたスペクトル係数1132、またはその前処理されたバージョン1132’の貢献度がスケールファクタ値(スケールファクタパラメータのセット1154の)に従って重み付けされた、復号化されたスペクトル係数1132のスケールファクタ処理された(すなわち、スペクトル整形された)バージョン1158を取得するために、周波数ドメインモードにおいて符号化されたオーディオフレームに関する復号化されたスペクトル係数のセット1132、またはその前処理されたバージョン1132’を、スケールファクタ値(それは、スケールファクタパラメータのセット1154を構成する)と結合するように構成することができる。したがって、第1のタイプのスペクトル整形、すなわち、線形予測ドメインパラメータのセット1152に従うスペクトル整形は、線形予測モードにおいて実行され、第2のタイプのスペクトル整形、すなわち、スケールファクタパラメータのセット1154に従うスペクトル整形は、周波数ドメインモードにおいて実行される。その結果として、時間ドメイン表現1162についての量子化ノイズの有害なインパクトは、音声的なオーディオフレーム(スペクトル整形が好ましくは線形予測ドメインパラメータのセット1152に従って実行される)と、一般的オーディオ、例えば、スペクトル整形が好ましくはスケールファクタパラメータのセット1154に従って実行される非音声的なオーディオフレームの両方に対して、小さく保たれる。しかしながら、スペクトル整形を用いて音声的なオーディオフレームと非音声的なオーディオフレームの両方に対して、すなわち、線形予測モードにおいて符号化されたオーディオフレームと周波数ドメインモードにおいて符号化されたオーディオフレームの両方に対してスペクトル整形を実行することによって、多重モードオーディオデコーダ1100は、低複雑度の構成を備え、同時に、異なるモードにおいて符号化されたオーディオフレームの時間ドメイン表現1162の折り返し歪みが解消されているオーバーラップおよび加算を可能とする。
その他の詳細は以下に述べられる。
6. 図12にかかるオーディオ信号デコーダ
図12は、本発明の他の実施形態にかかるオーディオ信号デコーダ1200の概略ブロック図を示す。図12は、信号ドメインにおいて変換符号化励振修正離散コサイン変換(TCX-MDCT)を有する統合化された音声およびオーディオ符号化(USAC)デコーダの統合図を示す。
図12にかかるオーディオ信号デコーダ1200は、ビットストリームペイロードデフォーマッタ1120の機能をすることができる、ビットストリームデマルチプレクサ1210を備える。ビットストリームデマルチプレクサ1210は、オーディオコンテンツを表現するビットストリームから、符号化されたスペクトル値と付加情報(例えば、符号化されたスケールファクタ情報と符号化されたLPCフィルタパラメータ情報)を備えることができるオーディオコンテンツの符号化された表現を抽出する。
オーディオ信号デコーダ1200は、また、ビットストリームデマルチプレクサによって提供されるオーディオコンテンツの符号化された表現の成分を、オーディオ信号デコーダ1200の異なる成分の処理ブロックに配布するように構成された、切換器1216、1218を備える。例えば、オーディオ信号デコーダ1200は、切換器1216から、符号化された周波数ドメイン表現1228を受信し、それに基づいて、オーディオコンテンツの時間ドメイン表現1232を提供する、複合された周波数ドメインモード/TCXサブモード分岐1230を備える。オーディオ信号デコーダ1200は、また、切換器1216から、ACELP符号化された励振情報1238を受信し、それに基づいて、オーディオコンテンツの時間ドメイン表現1242を提供するように構成された、ACELPデコーダ1240を備える。
オーディオ信号デコーダ1200は、また、切換器1218から、周波数ドメインモードにおいて符号化されたオーディオフレームに対する符号化されたスケールファクタ情報1254と、TCXサブモードとACELPサブモードを備えた線形予測モードにおいて符号化されたオーディオフレームに対する符号化されたLPCフィルタ係数情報1256を受信するように構成された、パラメータ提供器1260を備える。パラメータ提供器1260は、更に、切換器1218から制御情報1258を受信するように構成される。パラメータ提供器1260は、複合された周波数ドメインモード/TCXサブモード分岐1230に対するスペクトル整形情報1262を提供するように構成される。加えて、パラメータ提供器1260は、ACELPデコーダ1240に、LPCフィルタ係数情報1264を提供するように構成される。
複合された周波数ドメインモード/TCXサブモード分岐1230は、符号化された周波数ドメイン情報1228を受信し、それに基づいて、逆量子化器1230cに供給される復号化された周波数ドメイン情報1230bを提供する、エントロピーデコーダ1230aを備えることができる。逆量子化器1230cは、復号化された周波数ドメイン情報1230bに基づいて、復号化され、逆量子化された周波数ドメイン情報1230dを、例えば、復号化されたスペクトル係数のセットの形で提供する。結合器1230eは、復号化され、逆量子化された周波数ドメイン情報1230dをスペクトル整形情報1262と結合し、スペクトル整形された周波数ドメイン情報1230fを取得するように構成される。逆修正離散コサイン変換1230gは、スペクトル整形された周波数ドメイン情報1230fを受信し、それに基づいて、オーディオコンテンツの時間ドメイン表現1232を提供する。
エントロピーデコーダ1230a、逆量子化器1230cおよび逆修正離散コサイン変換1230gは、ビットストリームに含むことができるまたはパラメータ提供器1260によってビットストリームから導き出すことができるいくつかの制御情報を、全てオプションとして、受信することができる。
パラメータ提供器1260は、符号化されたスケールファクタ情報1254を受信し、復号化されたスケールファクタ情報1260bを提供する、スケールファクタデコーダ1260aを備える。パラメータ提供器1260は、また、符号化されたLPCフィルタ係数情報1256を受信し、それに基づいて、フィルタ係数変換器1260eに、復号化されたLPCフィルタ係数情報1260dを提供するように構成された、LPC係数デコーダ1260cを備える。また、LPC係数デコーダ1260cは、ACELPデコーダ1240に、LPCフィルタ係数情報1264を提供する。フィルタ係数変換器1260eは、LPCフィルタ係数1260dを周波数ドメイン(スペクトルドメインとしても表される)に変換し、引き続いてLPCフィルタ係数1260dから線形予測モードのゲイン値1260fを導き出すように構成される。また、パラメータ提供器1260は、例えば、切換器1260gを用いて、スペクトル整形情報1262として、復号化されたスケールファクタ1260bまたは線形予測モードのゲイン値1260fを選択的に提供するように構成される。
図12にかかるオーディオ信号エンコーダ1200は、ここで、ステージ間で巡回する多くの付加的な前処理ステップと後処理ステップによって補充することができることに注意しなければならない。前処理ステップと後処理ステップは、異なるモードに対して異なることもできる。
いくつかの詳細が、以下において記述される。
7. 図13にかかる信号フロー
以下において、起こりうる信号フローが、図13を参照して記述される。図13にかかる信号フロー1300は、図12にかかるオーディオ信号デコーダ1200において発生することができる。
図13の信号フロー1300は、簡単のため、周波数ドメインモードと線形予測モードのTCXサブモードにおける演算のみを記述していることに注意しなければならない。しかしながら、線形予測モードのACELPサブモードにおける復号化は、図12に関して述べられたようになすことができる。
共通の周波数ドメインモード/TCXサブモード分岐1230は、符号化された周波数ドメイン情報1228を受信する。符号化された周波数ドメイン情報1228は、周波数ドメインモードにおける周波数ドメインチャンネルストリーム(「fd_channel_stream」)から抽出される、いわゆる算術的に符号化されたスペクトルデータ「ac_spectral_data」を備えることができる。符号化された周波数ドメイン情報1228は、TCXサブモードにおける線形予測ドメインチャンネルストリーム(「lpd_channel_stream」)から抽出されることができる、いわゆるTCX符号化(「tcx_coding)を備えることができる。エントロピー復号化1330aは、エントロピーデコーダ1230aによって実行することができる。例えば、エントロピー復号化1330aは、算術デコーダを用いて実行することができる。したがって、量子化されたスペクトル係数「x_ac_quant」は、周波数ドメイン符号化されたオーディオフレームに対して取得され、量子化されたTCXモードスペクトル係数「x_tcx_quant」は、TCXモードにおいて符号化されたオーディオフレームに対して取得される。量子化された周波数ドメインモードのスペクトル係数と量子化されたTCXモードのスペクトル係数は、いくつかの実施形態において整数とすることができる。エントロピー復号化は、例えば、符号化されたスペクトル係数のグループを、文脈依存する方法で連帯して復号化することができる。さらに、特定のスペクトル係数を符号化するために必要とされるビット数は、比較的大きい大きさを有するスペクトル係数を符号化するためにより多くの符号語ビットが必要とされるように、スペクトル係数の大きさに従って変えることができる。
Figure 2013507648
したがって、逆量子化された周波数ドメインモードのスペクトル係数(「x_ac_invquant」)は、周波数ドメインモードにおいて符号化されたオーディオフレームに対して取得され、逆量子化されたTCXモードのスペクトル係数(「x_tcx_invquant」)は、TCXサブモードにおいて符号化されたオーディオフレームに対して取得される。
7.1 周波数ドメインにおいて符号化されたオーディオフレームに対する処理
以下において、周波数ドメインモードにおける処理が要約される。周波数ドメインモードにおいて、ノイズ充填1340が、オプションとして逆量子化された周波数ドメインモードのスペクトル係数に適用され、逆量子化された周波数ドメインモードのスペクトル係数1330d(「x_ac_invquant」)のノイズ充填されたバージョン1342を取得する。次に、逆量子化された周波数ドメインモードのスペクトル係数のノイズ充填されたバージョン1342のスケーリング1344が実行される。スケーリングにおいて、スケールファクタパラメータ(簡単に、スケールファクタまたはsf[g][sfb]としても表される)が適用され、逆量子化された周波数ドメインモードのスペクトル係数1342(「x_ac_invquant」)をスケーリングする。例えば、異なるスケールファクタは、異なる周波数バンド(周波数領域またはスケールファクタバンド)のスペクトル係数に関係することができる。したがって、逆量子化されたスペクトル係数1342は、関係するスケールファクタで乗算され、スケーリングされたスペクトル係数1346を取得することができる。スケーリング1344は、好ましくは、国際標準ISO/IEC14496−3、第4章、4.6.2 節 および4.6.3 節に記述されたように実行することができる。スケーリング1344は、例えば、結合器1230eを用いて実行することができる。したがって、周波数ドメイン表現1230fと等価であることができる、周波数ドメインモードのスペクトル係数のスケーリングされた(そして、その結果としてスペクトル整形された)バージョン1346「x_rescal」が取得される。引き続いて、オプションとして、中間/サイド処理1348と時間的ノイズ整形処理1350の組合せが、周波数ドメインモードのスペクトル係数のスケーリングされたバージョン1346に基づいて実行され、スケーリングされた周波数ドメインモードのスペクトル係数1346の後処理されたバージョン1352を取得することができる。オプションの中間/サイド処理1348は、例えば、ISO/IEC14496−3:2005、視聴覚オブジェクトの符号化−第3部:オーディオ、第4章、4.6.8.1 節において記述されたように実行することができる。オプションの時間的ノイズ整形は、ISO/IEC14496−3:2005、視聴覚オブジェクトの符号化−第3部:オーディオ、第4章、4.6.9 節において記述されたように実行することができる。
引き続いて、周波数ドメインモードのスペクトル係数のスケーリングされたバージョン1346、またはその後処理されたバージョン1352に、逆修正離散コサイン変換1354を適用することができる。その結果として、現在処理されているオーディオフレームのオーディオコンテンツの時間ドメイン表現1356が取得される。時間ドメイン表現1356は、xi,nによっても表される。単純化した仮定として、オーディオフレーム当り1つの時間ドメイン表現xi,nが存在すると仮定することができる。しかしながら、多重のウィンドウ(例えば、いわゆる「短いウィンドウ」)が単一のオーディオフレームに関係しているいくつかのケースにおいて、オーディオフレーム当り複数の時間ドメイン表現xi,nが存在することができる。
引き続いて、ウィンドウ化1358が、時間ドメイン表現1356に適用され、zi,nによっても表されるウィンドウ化された時間ドメイン表現1360を取得する。したがって、オーディオフレーム当り1つのウィンドウが存在する単純化されたケースでは、周波数ドメインモードにおいて符号化されたオーディフレーム当り1つのウィンドウ化された時間ドメイン表現1360が取得される。
7.2 TCXモードにおいて符号化されたオーディオフレームに対する処理
以下において、TCXモードにおいて完全にまたは部分的に符号化されたオーディオフレームに対する処理が記述される。この問題に関して、オーディオフレームは、線形予測モードの異なるサブモードにおいて符号化することができる複数の、例えば、4つのサブフレームに分割することができることに注意しなければならない。例えば、オーディオフレームのサブフレームは、線形予測モードのTCXサブモードにおいてまたは線形予測モードのACELPサブモードにおいて、選択的に符号化することができる。したがって、各々のサブフレームは、最適な符号化効率またはオーディオ品質とビットレートの間の最適なトレードオフが得られるように符号化することができる。例えば、「mod[]」と名づけられた配列を用いたシグナリングを、線形予測モードにおいて符号化されたオーディオフレームに対するビットストリームに含め、前記オーディオフレームのサブフレームのうちどちらがTCXサブモードにおいて符号化され、どちらがACELPサブモードにおいて符号化されたかを指示することができる。しかしながら、全フレームがTCXモードにおいて符号化されたと仮定される場合に、本コンセプトを最も容易に理解することができることに注意しなければならない。オーディオフレームが両方のTCXサブフレームを備える他のケースは、前記コンセプトのオプションの拡張とみなすべきである。
ここで、全フレームがTCXモードにおいて符号化されたと仮定すると、ノイズ充填1370は、「quant[]」としても表される逆量子化されたTCXモードのスペクトル係数133dに適用されることを理解することができる。したがって、「r[i]」としても表されるTCXモードのスペクトル係数1372のノイズ充填されたセットが取得される。加えて、いわゆるスペクトル非整形化1374は、TCXモードのスペクトル係数1372のノイズ充填されたセットに適用され、「r[i]」としても表されるTCXモードのスペクトル係数のスペクトル非整形化されたセット1376を取得する。引き続いて、スペクトル整形1378が適用され、線形予測符号化(LPC)フィルタのフィルタ応答を記述する符号化されたLPC係数から導き出された線形予測ドメインのゲイン値に従ってスペクトル整形が実行される。スペクトル整形1378は、例えば、結合器1230aを用いて実行することができる。したがって、「rr[i]」によっても表されるTCXモードのスペクトル係数の復元されたセット1380が取得される。引き続いて、逆MDCT1382が、TCXモードのスペクトル係数の復元されたセット1380に基づいて実行され、TCXモードにおいて符号化されたフレーム(または、代替として、サブフレーム)の時間ドメイン表現1384を取得する。引き続いて、再スケーリング1386が、TCXモードにおいて符号化されたフレーム(またはサブフレーム)の時間ドメイン表現1384に適用され、「x[i]」で表すことができるTCXモードにおいて符号化されたフレーム(またはサブフレーム)の再スケーリングされた時間ドメイン表現1388が取得される。再スケーリング1386は、通常はTCXモードにおいて符号化されたフレームまたはTCXモードにおいて符号化されたサブフレームの全ての時間ドメイン値の等しいスケーリングであることに注意しなければならない。したがって、再スケーリング1386は、周波数選択式でないので、通常は周波数歪をもたらさない。
再スケーリング1386に引き続いて、TCXモードにおいて符号化されたフレーム(またはサブフレーム)の再スケーリングされた時間ドメイン表現1388に、ウィンドウ化1390が適用される。したがって、TCXモードにおいて符号化されたフレーム(またはサブフレーム)のオーディオコンテンツを表現するウィンドウ化された時間ドメインサンプル1392(「zi,n」によっても表される)が取得される。
7.3 オーバーラップおよび加算処理
一連のフレームの時間ドメイン表現1360、1392は、オーバーラップおよび加算処理1394を用いて結合される。オーバーラップおよび加算処理において、第1のオーディオフレームの右側(時間的に後の)部分の時間ドメインサンプルは、引き続く第2のオーディオフレームの左側(時間的に前の)部分の時間ドメインサンプルと、オーバーラップおよび加算される。このオーバーラップおよび加算処理1394は、同じモードにおいて符号化された引き続くオーディオフレームと、異なるモードにおいて符号化された引き続くオーディオフレームの両方に対して実行される。引き続くオーディオフレームが、オーディオデコーダの特定の構成のために、異なるモードにおいて(例えば、周波数ドメインモードにおいておよびTCXモードにおいて)符号化された場合であっても、オーバーラップおよび加算処理1394によって時間ドメイン折り返し歪みの解消が実行され、逆MDCT1954の出力とオーバーラップおよび加算処理1394の間と、更に逆MDCT1382の出力とオーバーラップおよび加算処理1394の間の歪ませる処理を回避する。言い換えれば、ウィンドウ化1358、1390と再スケーリング1386(また、オプションとして、事前強調フィルタリングと非強調化演算のスペクトル的に歪ませない組合せ)を除いて、逆MDCT処理1354、1382とオーバーラップおよび加算処理1394の間の付加的な処理は存在しない。
8. MDCTベースのTCXに関する詳細
8.1 MDCTベースのTCXツールの記述
コアモードが線形予測モードであるとき(それは、ビットストリーム変数「core_mode」が1に等しいという事実によって示される)、また3つのTCXモードの(例えば、256サンプルのオーバーラップを含む512サンプルのTCX部分を提供する第1のTCXモードと、256サンプルのオーバーラップを含む768の時間ドメインサンプルを提供する第2のTCXモードと、256のオーバーラップサンプルを含む1280のTCXサンプルを提供する第3のTCXモードのうちの)1つ以上が「線形予測ドメイン」符号化として選択されるとき、すなわち、「mod[x]」の4つの配列エントリー(4つの配列エントリーmod「0」、mod[1]、mod[2]、mod[3]は、ビットストリーム変数から導き出され、現在のオーディオフレームの4つのサブフレームに対するLPCサブモードを指示する、すなわち、サブフレームが線形予測モードのACELPサブモードにおいて符号化されたかまたは線形予測モードのTCXサブモードにおいて符号化されたかと、比較的長いTCX符合化、中間の長さのTCX符合化、または短い長さのTCX符合化が用いられたかどうかを指示する)の1つがゼロより大きい場合に、MDCTベースのTCXツールが用いられる。言い換えれば、現在のオーディオフレームのサブフレームのうちの1つが、線形予測モードのTCXサブモードにおいて符号化された場合に、TCXツールが用いられる。MDCTベースのTCXは、(エントロピーデコーダ1230aまたはエントロピー復号化1330aを実施するために用いることができる)算術デコーダから、量子化されたスペクトル係数を受信する。量子化された係数(またはその逆量子化されたバージョン1230b)は、(ノイズ充填演算1370によって実行することができる)快適なノイズによって最初に仕上げられる。LPCベースの周波数ドメインノイズ整形は、次に、(例えば、結合器1230e、またはスペクトル整形演算1378を用いて)結果として生じるスペクトル係数(またはそのスペクトル非整形化されたバージョン)に適用され、時間ドメイン合成信号を取得するために、(MDCT1230gまたは逆MDCT演算1382によって実施することができる)逆MDCT変換が実行される。
8.2 MDCTベースのTCXの定義
以下において、いくつかの定義が与えられる。
「lg」は、算術デコーダ(例えば、線形予測モードにおいて符号化されたオーディオフレームに対する)によって出力される量子化されたスペクトル係数の数を表す。
ビットストリーム変数「noise_factor」は、ノイズレベルの量子化インデックスを表す。
変数「ノイズレベル」は、復元されたスペクトルにおいて注入されたノイズのレベルを表す。
変数「ノイズ[]」は、生成されたノイズのベクトルを表す。
ビットストリーム変数「global_gain」は、再スケーリングゲインの量子化インデックスを表す。
変数「g」は、再スケーリングゲインを表す。
変数「rms」は、合成された時間ドメイン信号「x[]」の実効値を表す。
変数「x[]」は、合成された時間ドメイン信号を表す。
8.3 復号化プロセス
MDCTベースのTCXは、算術デコーダ1230aから、mod[]値によって(すなわち、変数mod[]の値によって)決定される量子化されたスペクトル係数の数lgを要求する。この値(すなわち、変数mod[]の値)は、また、逆MDCT処理1230gにおいて(または逆MDCT処理1382および対応するウィンドウ化1390によって)適用されるウィンドウの長さと形状を定義する。ウィンドウは、3つの部分、Lサンプルの左側オーバーラップ(左側遷移スロープとしても表される)、Mサンプルのものの中間部分およびRサンプルの右側オーバーラップ部分(右側遷移スロープとしても表される)から成る。長さ2*lgのMDCTウィンドウを得るために、ZL0が左側に、ZR0が右側に加えられる。
「short_window」から、またはそれへの遷移の場合に、対応するオーバーラップ領域LまたはRは、「short_window」の可能なより短いウィンドウスロープに適応させるために、128(サンプル)に低減する必要があるかもしれない。その結果として、領域Mおよび対応するゼロ領域ZLまたはZRは、それぞれ64サンプルによって拡大する必要があるかもしれない。
言い換えれば、通常は256サンプル=L=Rのオーバーラップが存在する。それは、FDモードからLPDモードへの場合に、128に低減される。
図15の図表は、mod[]の関数として、スペクトル係数の数、並びに、左のゼロ領域ZLの、左のオーバーラップ領域Lの、中間部分Mの、右オーバーラップ領域Rの、および右ゼロ領域ZRの時間ドメインサンプルの数を示す。
Figure 2013507648
SIN_LEFT,Lと、WSIN_RIGHT,Rの定義は以下に与えられる。
MDCTウィンドウW(n)は、逆MDCT(例えば、逆MDCT1230g)をウィンドウ化する部分とみなすことができる、ウィンドウ化ステップ1390において適用される。
「quant[]」としても表され、算術デコーダ1230aによって(または、代替として、逆量子化1230cによって)によって配布される量子化されたスペクトル係数は、快適なノイズによって仕上げられる。注入されるノイズのレベルは、復号化されたビットストリーム変数「noise_factor」によって、次のように決定される。

noise_level=0.0625*(8−noise_factor)
「noise[]」によっても表されるノイズベクトルは、次に、ランダムに値−1または+1を配布する、「random_sign()」で表されるランダム関数を用いて演算される。次の関係が保留される。

noise[i]=random_sign()*noise_level
Figure 2013507648
Figure 2013507648
上述したノイズ充填は、エントロピーデコーダ1230aによって実行されるエントロピー復号化と、結合器1230eによって実行される結合の間の後処理として実行することができる。
スペクトル非整形化が、再現されたスペクトル(例えば、再現スペクトル1376、r[i])に、次のステップに従って適用される。
(1)スペクトルの第1四半期の各8次元ブロックに対するインデックスmでの8次元ブロックのエネルギーEを算出する
(2)比率R=sqrt(E/E)を計算する。ここで、Iは、全てのEの最高値でのブロックインデックスである。
(3)R<0.1の場合、次にR=0.1をセットする。
(4)R<Rm−1の場合、次にR=Rm−1にセットする。
スペクトルの第1四半期に帰属する各8次元ブロックは、次にファクタRによって乗算される。
スペクトル非整形化は、エントロピーデコーダ1230aと結合器1230eの間の信号パスに配置される後処理として実行される。スペクトル非整形化は、例えば、スペクトル非整形化1374によって実行することができる。
逆MDCTを適用する前に、MDCTブロック(すなわち左右の屈曲点)の両端に対応する2つの量子化されたLPCフィルタが読み出され、それらの重み付けられたバージョンが演算され、対応する多くの破壊された(いかなる変換長であっても64ポイント)スペクトルが演算される。
言い換えれば、第1の時間周期に対するLPCフィルタ係数の第1のセットと、第2の時間周期に対するLPCフィルタ係数の第2のセットが決定される。LPCフィルタ係数のセットは、好ましくは、ビットストリームに含まれる前記LPCフィルタ係数の符号化された表現から導き出される。第1の時間周期は、好ましくは、現在のTCX符号化されたフレーム(またはサブフレーム)の先頭またはその前であり、第2の時間周期は、TCX符号化されたフレームあるいはサブフレームの最後またはその後である。したがって、LPCフィルタ係数の効果的なセットは、第1のセットのLPCフィルタ係数と第2のセットのLPCフィルタ係数の加重平均を形成することによって決定される。
Figure 2013507648
Figure 2013507648
Figure 2013507648
Figure 2013507648
引き続いて、復元されたスペクトル1230f、1380、rr[i]が、算出されたゲインg[k](線形予測モードのゲイン値としても表される)に従って取得される。例えば、ゲイン値g[k]は、スペクトル係数1230d、1376、r[i]に関係することができる。あるいは、複数のゲイン値が、スペクトル係数1230d、1376、r[i]に関係することができる。重み係数a[i]は、1つ以上のゲイン値g[k]から導き出すことができ、またはいくつかの実施形態において、重み係数a[i]は、ゲイン値g[k]と同一であることさえできる。その結果として、重み係数a[i]は、関係するスペクトル値r[i]と乗算され、スペクトル係数r[i]のスペクトル整形されたスペクトル係数rr[i]への貢献度を決定することができる。
例えば、次式を保留することができる。

rr[i]=g[k]・r[i]
しかしながら、異なる関係を用いることもできる。
上記において、LPCスペクトルが多く破壊されるという事実を考慮に入れると、変数kは、i/(lg/64)に等しい。復元されたスペクトルrr[]は、逆MDCT1230g、1382に供給される。以下に詳細が記述される逆MDCTを実行するとき、復元されたスペクトル値rr[i]は、時間周波数値Xi,kとして、または時間周波数値spec[i][k]として役立つ。以下の関係を保留することができる。

Xi,k=rr[k]、または
spec[i][k]=rr[k]
ここで、TCX分岐におけるスペクトル処理の上記議論において、変数iは周波数インデックスであることを指摘しなければならない。対照的に、MDCTフィルタバンクとブロックスイッチングの議論において、変数iは、ウィンドウインデックスである。変数iが周波数インデックスであるかウィンドウインデックスであるかは、当業者であれば文脈から容易に認識される。
また、オーディオフレームが1つのウィンドウのみを備える場合、ウィンドウインデックスはフレームインデックスに等価とすることができることに注意しなければならない。フレームが多重のウィンドウを備える場合、時にはフレーム毎に多重ウィンドウのインデックス値が存在することができる。
Figure 2013507648
Figure 2013507648
Figure 2013507648
再スケーリングの後、ウィンドウ化とオーバーラップおよび加算が適用される。
ウィンドウ化は、上述のように、ウィンドウW(n)を用いて、図15に示されたウィンドウ化パラメータを考慮して実行することができる。したがって、ウィンドウ化された時間ドメインは表現zi,nは、次のように取得される。

i,n=x[n]・W(n)
以下において、TCX符号化されたオーディオフレーム(またはオーディオサブフレーム)とACELP符号化されたオーディオフレーム(またはオーディオサブフレーム)の両方が存在する場合に有用であるコンセプトが記述される。また、TCX符号化されたフレームあるいはサブフレームに対して送信されるLPCフィルタ係数が、ACELP復号化を初期化するために適用されることに注意しなければならない。
また、TCX合成の長さは、1,2または3のmod[]に対して、TCXフレーム長(オーバーラップなしの)256、512または1024サンプルがそれぞれ与えられることに注意されたい。
以後、次の表記法が採用される。
x[]は、逆修正離散コサイン変換の出力を表し、z[]は、時間ドメインにおける復号化されウィンドウ化された信号を表し、out[]は、合成された時間ドメイン信号を表す。
Figure 2013507648
前の符号化モードがFDモードまたはMDCTベースのTCXのいずれかであったとき、従来のオーバーラップおよび加算は、現在の復号化されウィンドウ化された信号zi,nと前の復号化されウィンドウ化された信号zi−1,nの間で適用される。ここで、インデックスiは、すでに復号化されたMDCTウィンドウの数を計数する。最後の時間ドメイン合成outは、次式によって取得される。
Figure 2013507648
Figure 2013507648
Figure 2013507648
Ni−1は、前のMDCTウィンドウのサイズである。i_outは、出力バッファoutをインデックスするものであり、書き込まれたサンプルの数(N+L−R)/2までインクリメントされる。
以下において、ACELPモードにおいて符号化されたフレームあるいはサブフレームからMDCTベースのTCXモードにおいて符号化されたフレームあるいはサブフレームへの遷移におけるアーチファクトを低減するいくつかの可能性が記述される。しかしながら、また、異なるアプローチを用いることができることに注意しなければならない。
以下において、第1のアプローチが簡潔に述べられる。ACELPから来るとき、次のTCXに対して、Rを0に低減し、次に2つの引き続くフレーム間のオーバーラップ領域を除去することによって、特定のウィンドウを用いることができる。
以下において、(USAC WD5およびそれ以前に記述されたような)第2のアプローチが簡潔に述べられる。ACELPから来るとき、M(中間の長さ)を128サンプルまで増やすことによって、次のTCXウィンドウが拡大される。デコーダにおいて、ウィンドウの右側部分、すなわち最初のRの非ゼロの復号化されたサンプルが単に破棄され、復号化されたACELPサンプルによって置換される。
Figure 2013507648
9. フィルタバンクおよびブロックスイッチングに関する詳細
以下において、逆修正離散コサイン変換とブロックスイッチングに関する詳細、すなわち、引き続くフレームあるいはサブフレーム間で実行されるオーバーラップおよび加算がより詳細に記述される。以下に記述される逆修正離散コサイン変換は、周波数ドメインにおいて符号化されたオーディオフレームとTCXモードにおいて符号化されたオーディオフレームあるいはオーディオサブフレームの両方に対して適用することができることに注意しなければならない。上記ではTCXモードにおいて用いるためのウィンドウ(W(n))が記述されたが、以下では周波数ドメインモードに対して用いられるウィンドウが記述される。特に、周波数モードにおいて符号化されたフレームからTCXモードおいて符号化された引き続くフレームへの遷移、またはその逆での適当なウィンドウの選択は、ビットレートオーバーヘッドなしに折り返し歪みの低いまたは無い遷移を得ることができるような時間ドメイン折り返し歪みの解消を具備することを可能とする。
9.1 フィルタバンクおよびブロックスイッチング―説明
信号の時間/周波数表現(例えば時間周波数表現1158、1230f、1352、1380)は、それをフィルタバンクモジュール(例えば、モジュール1160、1230g、1354−1358−1394、1382−1386−1390−1394)に供給することによって、時間ドメイン上にマッピングされる。このモジュールは、逆修正離散コサイン変換(IMDCT)と、ウィンドウ化およびオーバーラップ−加算関数から構成される。フィルタバンクの時間/周波数分解能を入力信号の特性に適応させるために、ブロックスイッチングツールも採用される。Nは、ウィンドウ長を表し、ここでNはビットストリーム変数「window_sequence」の関数である。各チャンネルに対して、N/2個の時間−周波数値Xi,kは、IMDCTを介してN個の時間ドメイン値xi,nに変換される。ウィンドウ関数を適用した後、各チャンネルに対して、zi,nシーケンスの前半が、前のブロックウィンドウ化されたシーケンスzi−1,nの後半に加えられ、各チャンネルouti,nに対する出力サンプルを復元する。
9.2 フィルタバンクおよびブロックスイッチング―定義
以下において、ビットストリーム変数のいくつかの定義が与えられる。
ビットストリーム変数window_sequenceは、どのウィンドウシーケンス(すなわちブロック長)が用いられるかを指示する2つのビットを備える。ビットストリーム変数「window_sequence」は、通常、周波数ドメインにおいて符号化されたオーディオフレームに対して用いられる。
ビットストリーム変数「window_shape」は、どのウィンドウ関数が選択されるかを指示する1つのビットを備える。
図16の表は、7つの変換ウィンドウに基づく11個のウィンドウシーケンス(window_sequencesとしても表される)を示す。(ONLY_LONG_SEQUENCE,LONG_START_SEQUENCE,EIGHT_SHORT_SEQUENCE、LONG_STOP_SEQUENCE、STOP_START_SEQUENCE)
以下において、LPD_SEQUENCEは、いわゆる線形予測ドメインコーデック内の全ての可能なウィンドウ/符号化モードの組合せに関する。周波数ドメイン符号化されたフレームを復号化する局面において、次のフレームが、LPD_SEQUENCEによって示されるLPドメイン符号化モードで符号化される場合にのみ知っておく必要がある。しかしながら、LPD_SEQUENCE内の正確な構成は、LPドメインで符号化されたフレームを復号化するときに処理される。
言い換えれば、線形予測モードにおいて符号化されたオーディオフレームは、単一のTCX符号化されたフレーム、複数のTCX符号化されたサブフレーム、またはTCX符号化されたサブフレームとACELP符号化されたサブフレームの組合せを備えることができる。
9.3 フィルタバンクおよびブロックスイッチング―復号化プロセス
9.3.1 フィルタバンクおよびブロックスイッチング―IMDCT
Figure 2013507648
Figure 2013507648
Figure 2013507648
第1実施形態の意味のあるブロック遷移が、図17aにリストされている。付加的な実施形態の意味のあるブロック遷移は、図17bの表にリストされている。図17bにかかる実施形態における付加的なブロック遷移は、以下に個別に述べられる。
9.3.2 フィルタバンクおよびブロックスイッチング―ウィンドウ化とブロックスイッチング
Figure 2013507648
Figure 2013507648
Figure 2013507648
ウィンドウ長Nは、KBDとサインウィンドウに対して2048(1920)または256(240)とすることができる。
可能なウィンドウシーケンスを取得する方法は、この節の(a)〜(e)において説明される。
Figure 2013507648
復号化される最初の生のデータブロック「raw_data_block()」に対して、ウィンドウの左右の半分の変数「window_shape」は同一である。
前のブロックがLPDモードを用いて符号化された場合に、「window_shape_previous_block」は0にセットされる。
(a)ONLY_LONG_SEQUENCE
window_sequence==ONLY_LONG_SEQUENCEによって表されるウィンドウシーケンスは、2048の(1920)の総ウィンドウ長を有する1つのタイプのウィンドウ「LONG_window」に等しい。
Figure 2013507648
Figure 2013507648
Figure 2013507648
(b)LONG_START_SEQUENCE
ウィンドウタイプ「LONG_START_SEQUENCE」は、ウィンドウタイプ「ONLY_LONG_SEQUENCE」から、左側(EIGHT_SHORT_SEQUENCE、LONG_STOP_SEQUENCE、STOP_START_SEQUENCEまたはLPD_SEQUENCE)のウィンドウの半分について低いオーバーラップ(短いウィンドウスロープ)を有するブロックへのブロック遷移に対して、正しいオーバーラップよび加算を得るために用いることができる。
以下のウィンドウシーケンスがウィンドウタイプ「LPD_SEQUENCE」でない場合、ウィンドウ長N_lとN_sは、それぞれ2048(1920)と256(240)にセットされる。
以下のウィンドウシーケンスがウィンドウタイプ「LPD_SEQUENCE」である場合、ウィンドウ長N_lとN_sは、それぞれ2048(1920)と512(480)にセットされる。
Figure 2013507648
Figure 2013507648
ウィンドウ化された時間ドメイン値は、(a)で説明された式によって算出することができる。
(c)EIGHT_SHORT
window_sequence==EIGHT_SHORTに対するウィンドウシーケンスは、それぞれ256(240)の長さを有する8つのオーバーラップおよび加算されたSHORT_WINDOWsを備える。先行するおよび追従するゼロをともに有するwindow_sequenceの全長は、2048(1920)である。8つの短いブロックの各々は、最初に個別にウィンドウ化される。短いブロックの数は、変数j=0,…,M−1(M=N_l/N_s)でインデックスされる。
Figure 2013507648
Figure 2013507648
Figure 2013507648
(d)LONG_STOP_SEQUENCE
このwindow_sequenceは、ウィンドウシーケンス「EIGHT_SHORT_SEQUENCE」またはウィンドウタイプ「LPD_SEQUENCE」から戻ってウィンドウタイプ「ONLY_LONG_SEQUENCE」に切換るのに必要である。
前のウィンドウシーケンスがLPD_SEQUENCEでない場合、ウィンドウ長N_lとN_sは、それぞれ2048(1920)と256(240)にセットされる。
前のウィンドウシーケンスが、LPD_SEQUENCEである場合、ウィンドウ長N_lとN_sは、それぞれ2048(1920)と512(480)にセットされる。
Figure 2013507648
Figure 2013507648
ウィンドウ化された時間ドメイン値は、(a)で説明された式によって算出することができる。
(e)STOP_START_SEQUENCE:
ウィンドウタイプ「STOP_START_SEQUENCE」は、現在のフレームに対して長い変換が要求される場合、右側のウィンドウの半分について低いオーバーラップ(短いウィンドウスロープ)を有するブロックから、左側のウィンドウの半分について低いオーバーラップ(短いウィンドウスロープ)を有するブロックへのブロック遷移に対して、正しいオーバーラップおよび加算を得るために用いることができる。
次のウィンドウシーケンスがLPD_SEQUENCEでない場合、ウィンドウ長N_lとN_sは、それぞれ2048(1920)と256(240)にセットされる。
次のウィンドウシーケンスがLPD_SEQUENCEである場合、ウィンドウ長N_lとN_sは、それぞれ2048(1920)と512(480)にセットされる。
前のウィンドウシーケンスがLPD_SEQUENCEでない場合、ウィンドウ長N_lとN_sは、それぞれ2048(1920)と256(240)にセットされる。
前のウィンドウシーケンスがLPD_SEQUENCEである場合、ウィンドウ長N_lとN_sは、それぞれ2048(1920)と512(480)にセットされる。
Figure 2013507648
Figure 2013507648
ウィンドウ化された時間ドメイン値は、(a)で説明された式によって算出することができる。
9.3.3 フィルタバンクおよびブロックスイッチング―前のウィンドウシーケンスとのオーバーラップおよび加算
EIGHT_SHORTウィンドウシーケンス内のオーバーラップおよび加算の他に、あらゆるウィンドウシーケンス(またはあらゆるフレームあるいはサブフレーム)の第1の(左側)部分は、最後の時間ドメイン値outi,nに結果としてなる前のウィンドウシーケンス(または前のフレームあるいはサブフレーム)の第2の(右側)部分とオーバーラップおよび加算される。この演算に対する数式は、次のように記述することができる。
Figure 2013507648
周波数ドメインモードにおいて符号化されたオーディオフレーム間のオーバーラップおよび加算に対する上記の式は、異なるモードにおいて符号化されたオーディオフレームの時間ドメイン表現のオーバーラップおよび加算に対しても用いることができる。
あるいは、オーバーラップおよび加算は、次のように定義することができる。
Figure 2013507648
Figure 2013507648
LPD_SEQUENCEの場合は、次の通りである。
以下において、折り返し歪みアーチファクトを低減するために用いることができる第1のアプローチが記述される。ACELPから来るとき、次のTCXに対して、Rを0に低減し、次に2つの引き続くフレーム間のオーバーラップ領域を除去することによって、特定のウィンドウを用いることができる。
以下において、(USAC WD5およびそれ以前において記述されたような)折り返し歪みアーチファクトを低減するために用いることができる第2のアプローチが記述される。ACELPから来るとき、次のTCXウィンドウは、M(中間長)を128のサンプルまで増やすことによって、またTCXウィンドウに関するMDCT係数の数を増やすことによって拡張される。デコーダにおいて、ウィンドウの右側部分、すなわち、最初のRの非ゼロの符号化されたサンプルが単に破棄され、復号化されたACELPサンプルによって置換される。言い換えれば、付加的なMDCT係数(例えば、1024の代わりに1152)を提供することによって、折り返し歪みアーチファクトが低減される。異なって言い表すと、余分のMDCT係数(MDCT係数の数がオーディオフレーム当りの時間ドメインサンプルの数の半分より大きいように)を提供することによって、時間ドメイン表現の折り返し歪のない部分を得ることができ、それはスペクトルのクリティカルでないサンプリングのコストで専用の折り返し歪み解消の必要性を排除する。
Figure 2013507648
i−1は、MDCTベースのTCXにおいて適用される前のウィンドウのサイズ2lgに対応する。i_outは、出力バッファoutをインデックスし、書き込まれたサンプルの数(N_l+N_s)/4までインクリメントされる。N_s/2は、図15の表で定義された前のMDCTベースのTCXの値Lに等しくなければならない。
Figure 2013507648
i−1は、MDCTベースのTCXにおいて適用される前のウィンドウのサイズ2lgに対応する。i_outは、バッファoutをインデックスし、書き込まれたサンプルの数(N_l+N_s)/4までインクリメントされる。N_s/2は、図15の表で定義された前のMDCTベースのTCXの値Lに等しくなければならない。
Figure 2013507648
以下において、理解を容易にするために、線形予測ドメインゲイン値g[k]の演算に関するいくつかの詳細が記述される。通常、符号化されたオーディオコンテンツ(線形予測モードにコード化された)を表現するビットストリームは、符号化されたLPCフィルタ係数を備える。符号化されたLPCフィルタ係数は、例えば対応するコードワードによって記述することができ、オーディオコンテンツを復元する線形予測フィルタを記述することができる。LPC符号化されたオーディオフレーム当りに送信されるLPCフィルタ係数のセットの数は、変えることができることに注意しなければならない。実際、線形予測モードにおいて符号化されたオーディオフレームに対するビットストリーム内で符号化されたLPCフィルタ係数のセットの実際の数は、オーディオフレームのACELP-TCXモードの組合せ(それは、時には「スーパーフレーム」としても表される)に依存する。このACELP-TCXモードの組合せは、ビットストリーム変数によって決定することができる。しかしながら、当然、利用可能な1つのTCXモードのみがある場合も存在し、利用可能なACELPモードがない場合も存在する。
ビットストリームは、通常は、ACELP TCXモードの組合せに必要なLPCフィルタ係数の各々のセットに対応する量子化インデックスを抽出するために解析される。
第1の処理ステップ1810において、LPCフィルタの逆量子化が実行される。LPCフィルタ(すなわち、LPC係数のセット、例えば、a〜a16)は、ラインスペクトル周波数(LSF)表現(それは、LPCフィルタ係数の符号化表現である)を用いて量子化されることに注意しなければならない。第1の処理ステップ1810において、逆量子化されたラインスペクトル周波数(LSF)は、符号化されたインデックスから導き出される。
この目的のため、第1ステージの近似を演算することができ、オプションの代数ベクトル量子化された(AVQ)リファインメントを算出することができる。逆量子化されたラインスペクトル周波数は、第1ステージの近似と逆重み付けされたAVQ貢献度を加えることによって復元することができる。AVQリファインメントの存在は、LPCフィルタの実際の量子化モードによって決定することができる。
LPCフィルタ係数の符号化された表現から導き出すことができる逆量子化されたラインスペクトル周波数ベクトルは、後で、ラインスペクトルペアパラメータのベクトルに変換され、次に、補間され、再びLPCパラメータに変換される。処理ステップ1810において実行される逆量子化手順は、ラインスペクトル周波数ドメインにおけるLPCパラメータのセットに結果としてなる。ラインスペクトル周波数は、次に、処理ステップ1820において、ラインスペクトルペアによって記述されるコサインドメインに変換される。よって、ラインスペクトルペアqが取得される。各フレームあるいはサブフレームに対して、ラインスペクトルペア係数q(またはその補間されたバージョン)は、フレームあるいはサブフレームにおいて復元された信号を合成するために用いられる線形予測フィルタ係数aに変換される。線形予測ドメインへの変換は、次のようになされる。係数f1(i)とf(i)は、例えば、次の再帰関係を用いて導き出すことができる。
Figure 2013507648
Figure 2013507648
Figure 2013507648
要約すると、ラインスペクトルペア係数qからのLPC係数aの導出は、上述したように、処理ステップ1830、1840、1850を用いて実行される。
Figure 2013507648
Figure 2013507648
また、処理ステップ1870において実行されるx[n]の導出は、上述されていることに注意しなければならない。同様に、X[k]の演算は、上述されている。同様に、ステップ1890において実行される線形予測ドメインのゲイン値g[k]の演算は、上述されている。
11. スペクトル整形に対する代替の解決手段
Figure 2013507648
12. 拡張遷移コンセプト
以下において、周波数ドメインにおいて符号化されたオーディオフレームと線形予測ドメインにおいて符号化されたオーディオフレームの間の遷移に対する改良されたコンセプトが記述される。この改良されたコンセプトは、以下において説明されるいわゆる線形予測モードのスタートウィンドウを用いる。
最初に図17aと図17bを参照して、線形予測モードにおいて符号化されたオーディオフレームに対する遷移がなされるとき、従来は、比較的短い右側遷移スロープを有するウィンドウが、周波数ドメインモードにおいて符号化されたオーディオフレームの時間ドメインサンプルに適用されることに注意しなければならない。図17aから分かるように、ウィンドウタイプ「LONG_START_SEQUENCE」、ウィンドウタイプ「EIGHT_SHORT_SEQUENCE」、ウィンドウタイプ「STOP_START_SEQUENCE」のウィンドウは、従来は、線形予測ドメインにおいて符号化されたオーディオフレームの前に適用される。このように、従来は、比較的長い右側スロープを有するウィンドウが適用される周波数ドメインで符号化されたオーディオフレームから、線形予測モードにおいて符号化されたオーディオフレームに直接遷移するという可能性がない。これは、従来は、比較的長い右側遷移スロープを有するウィンドウが適用される周波数ドメインで符号化されたオーディオフレームの長い時間ドメイン折り返し歪み部分によって生じる深刻な課題があるという事実による。図17aから分かるように、ウィンドウタイプ「only_long_sequence」が関係するオーディオフレームから、またはウィンドウタイプ「long_stop_sequence」が関係するオーディオフレームからの、線形予測モードにおいて符号化された引き続くオーディオフレームへの遷移は、従来は可能でない。
しかしながら、本発明にかかるいくつかの実施形態において、新しいタイプのオーディオフレーム、すなわち線形予測モードのスタートウィンドウが関係するオーディオフレームが用いられる。
新しいタイプのオーディオフレーム(簡単に、線形予測モードのスタートフレームとしても表される)が、線形予測ドメインモードのTCXサブモードにおいて符号化される。線形予測モードのスタートフレームは、単一のTCXフレームを備える(すなわち、TCXサブフレームにサブ分割されない)。その結果として、線形予測モードのスタートフレームに対して、1024ものMDCT係数が、ビットストリームにおいて符号化された形で含まれる。言い換えれば、線形予測スタートフレームに関するMDCT係数の数は、ウィンドウタイプ「only_long_sequence」のウィンドウが関係する周波数ドメインで符号化されたオーディオフレームに関するMDCT係数の数と同一である。加えて、線形予測モードのスタートフレームに関するウィンドウは、ウィンドウタイプ「LONG_START_SEQUENCE」であってもよい。このように、線形予測モードのスタートフレームは、タイプ「long_start_sequence」のウィンドウが関係する周波数ドメインで符号化されたフレームに非常に類似することができる。しかしながら、線形予測モードのスタートフレームは、スペクトル整形がスケールファクタ値よりもむしろ線形予測ドメインのゲイン値に従って実行されるという点で、周波数ドメインで符号化されたオーディオフレームと異なる。このように、符号化された線形予測符号化フィルタ係数は、線形予測モードのスタートフレームに対するビットストリームに含まれる。
逆MDCT1354、1382は、周波数ドメインモードにおいて符号化されたオーディオフレームと線形予測モードにおいて符号化されたオーディオフレームの両方に対して同じドメイン(上述したように)において適用されるので、良好な時間折り返し歪み解消特性を有する時間ドメイン折り返し歪みを解消するオーバーラップおよび加算演算は、周波数ドメインモードにおいて符号化され、比較的長い右側遷移スロープ(例えば、1024サンプルの)を持つ前のオーディオフレームと、比較的長い左側遷移スロープ(例えば、1024サンプルの)を持つ線形予測モードのスタートフレームの間で実行することができ、その遷移スロープは時間折り返し歪み解消にマッチする。このように、線形予測モードのスタートフレームは、線形予測モードにおいて(すなわち、線形予測符号化フィルタ係数を用いて)符号化され、他の線形予測モードで符号化されたオーディフレームよりも有意に長い(例えば、少なくとも2倍の、または少なくとも4倍の、または少なくとも8倍の)左側遷移スロープを備え、付加的な遷移の可能性を構築する。
結果として、線形予測モードのスタートフレームは、ウィンドウタイプ「long_sequence」を持つ周波数ドメインで符号化されたオーディオフレームを置換することができる。線形予測モードのスタートフレームは、MDCTフィルタ係数が、線形予測モードのスタートフレームに対して送信され、線形予測モードにおいて符号化された引き続くオーディオフレームに対して利用可能であるという利益を備える。その結果として、引き続く線形予測モードで符号化されたオーディオフレームの復号化に対して初期化情報を持つために、ビットストリームに余分のLPCフィルタ係数情報を含むことは必要でない。
Figure 2013507648
図14で分かるように、オーディオフレームに対する時間ドメインサンプルは、逆修正離散コサイン変換1460、1462、1464、1466によって提供される。周波数ドメインモードにおいて符号化されたオーディオフレーム1410、1416に対して、スペクトル整形が、スケールファクタとスケールファクタ値に従って実行される。線形予測モードにおいて符号化されたオーディオフレーム1412、1414に対して、スペクトル整形が、符号化された線形予測符号化フィルタ係数から導き出された線形予測ドメインのゲイン値に従って実行される。いずれにせよ、スペクトル値は、復号化(そして、オプションとして、逆量子化)によって提供される。
13. 結 論
要約すると、本発明にかかる実施形態は、切換型オーディオコーダに対して、周波数ドメインにおいて適用されるLPCベースのノイズ整形を用いる。
本発明にかかる実施形態は、切換型オーディオコーデックの局面において、異なるコーダ間の遷移を容易にするために、周波数ドメインにおいてLPCベースのフィルタを適用する。
いくつかの実施形態は、結果的に、周波数ドメイン符号化、TCX(変換符号化励振線形予測ドメイン)およびACELP(代数符号励振線形予測)の3つの符号化モードの間の効率的な遷移をデザインする課題を解決する。しかしながら、いくつかの他の実施形態において、前記モード、例えば、周波数ドメイン符号化およびTCXモードの2つのみを有すれば十分である。
本発明にかかる実施形態は、次の代替解決法より優れている。
・ 周波数ドメインコーダと線形予測ドメインコーダの間の非クリティカルにサンプリングされた遷移(例えば、非特許文献4参照)
・ 非クリティカルなサンプリングを生成し、オーバーラップサイズとオーバーヘッド情報の間をトレードオフし、MDCTの性能(時間ドメイン時間歪み解消TDAC)を完全には使用しない。
・ 周波数ドメインコーダからLPDコーダまで行くときに、余分のLPC係数のセットを送信することを必要とする。
・ 異なるドメインにおいて時間ドメイン折り返し歪み解消(TDAC)を適用する(例えば、非特許文献5参照)。
LPCフィルタリングは、フォールディングとDCTの間で、MDCT内で実行される
・ 時間ドメイン折り返し歪の生じた信号は、フィルタリングに対して適当ではないかもしれない。
・ 周波数ドメインコーダからLPDコーダに行くとき、余分のLPC係数のセットを送信する必要がある。
・ 非切換型コーダ(TwinVQ)に対して、MDCTドメインにおいてLPC係数を演算する(例えば、非特許文献6参照)。
・ スペクトルをフラット化するためのスペクトル包絡の提示として、LPCのみを用いる。それは、他のオーディオコーダへ切換るときに、量子化ノイズを整形するためにも、遷移を容易にするためにも、LPCを利用しない。
本発明にかかる実施形態は、MDCTドメインにおける量子化誤差を整形するためにLPCを依然として用いる一方で、周波数ドメインコーダとLPCコーダMDCTを同じドメインにおいて実行する。これは、次のような多くの利益をもたらす。
・ ACELPのような音声コーダへの切換に対して依然としてLPCを用いることができる。
・ TCXからの/への、周波数ドメインコーダへの/からの遷移の間、時間ドメイン折り返し歪み解消(TDAC)が可能であり、それでクリティカルなサンプリングが維持される。
・ LPCは、ACELPの周囲において、ノイズ整形器として依然として用いられ、同じ目的関数を用い、TCXとACELPの両方に対して最大化する(例えば、閉ループ決定プロセスにおけるLPCベースの重み付けセグメント式SNR)ことを可能にする。
更に結論付けると、次のことは重要な側面である。
(1)変換符号化励振(TCX)と周波数ドメイン(FD)の間の遷移は、周波数ドメインにおいて線形予測符号化を適用することによって、有意に簡略化され、統合化される。
(2)TCXの場合に、LPC係数の送信を維持することによって、(時間ドメインにおいてLPCフィルタを適用するとき)TCXとACELPの間の遷移を他の実施態様のように有利に実現することができる。
実施変形例
装置の局面においていくつかの側面が記述されたが、これらの側面は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応している対応する方法の記述をも表していることは明らかである。同様に、方法ステップの局面において記述される側面は、対応する装置の対応するブロックまたは項目または特徴の記述をも表している。いくつかのまたは全ての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(または用いて)実行することができる。いくつかの実施形態において、最も重要な方法ステップの1つ以上は、このような装置によって実行することができる。
発明の符号化されたオーディオ信号は、デジタル記憶媒体に格納することができ、無線伝送媒体または有線伝送媒体、例えばインターネットのような伝送媒体上を伝送することができる。
特定の実施要求に従い、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に記憶される電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(あるいは協働することができる)デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。従って、デジタル記憶媒体は、コンピュータ読取可能とすることができる。
本発明にかかるいくつかの実施形態は、本願明細書に記述された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協動することができる電子的に読み込み可能な制御信号を有するデータキャリアを備える。
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本発明の方法の1つを実行するために動作可能であるプログラムコードを有するコンピュータプログラム製品として実装することができる。プログラムコードは、例えば機械読取可能なキャリアに記憶することができる。
他の実施形態は、機械読取可能なキャリアに格納された、本願明細書に記述された方法の1つを実行するコンピュータプログラムを備える。
言い換えれば、発明の方法の実施形態は、それ故、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記述された方法の1つを実行するプログラムコードを有するコンピュータプログラムである。
発明の方法の更なる実施形態は、本願明細書に記述された方法の1つを実行するコンピュータプログラムを備え、その上に記録されたデータキャリア(またはデジタル記憶媒体、またはコンピュータ読取可能媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、通常は、有形でありおよび/または非過渡的なものである。
発明の方法の更なる実施形態は、それ故、本願明細書に記述された方法の1つを実行するコンピュータプログラムを表現するデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続、例えばインターネットを介して伝送されるように構成することができる。
更なる実施形態は、本願明細書に記述された方法の1つを実行するように構成されまたは適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを備える。
更なる実施形態は、本願明細書に記述された方法の1つを実行するコンピュータプログラムをその上にインストールしたコンピュータを備える。
本発明にかかる更なる実施形態は、本願明細書に記述された方法の1つを実行するコンピュータプログラムをレシーバに転送する(例えば、電子的にまたは光学的に)ように構成された装置またはシステムを備える。レシーバは、例えば、コンピュータ、モバイルデバイス、メモリデバイス、その他とすることができる。装置またはシステムは、例えば、コンピュータプログラムをレシーバに転送するファイルサーバを備えることができる。
いくつかの実施形態において、本願明細書に記述された方法の機能の一部または全てを実行するために、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を用いることができる。いくつかの実施形態では、本願明細書に記述された方法の1つを実行するために、フィールドプログラマブルゲートアレイをマイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置にもよって実行される。
上述した実施形態は、単に本発明の原理に対して説明したものである。本願明細書に記述された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。それ故、本発明は、特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述と説明の方法によって提供された特定の詳細によって制限されないことを意図する。

Claims (26)

  1. オーディオコンテンツの符号化表現(1110;1208)に基づいて、前記オーディオコンテンツの復号化表現(1112;1212)を提供する、多重モードオーディオ信号デコーダ(1100;1200)であって、
    前記オーディオコンテンツの複数の部分(1410、1412、1414、1416)に対して、復号化されたスペクトル係数(1132;1230d;r[i])のセット(1132;1230d)を取得するように構成された、スペクトル値決定器(1130;1230a、1230c)と、
    復号化されたスペクトル係数のセット(1132;1230d;r[i])またはその前処理されたバージョン(1132’)に、線形予測モードにおいて符号化された前記オーディオコンテンツの部分に対する線形予測ドメインパラメータのセットに従ってスペクトル整形を適用し、復号化されたスペクトル係数のセット(1132;1230d;r[i])またはその前処理されたバージョン(1232’)に、周波数ドメインモードにおいて符号化された前記オーディオコンテンツの部分(1410;1416)に対するスケールファクタパラメータ(1152;1260b)のセットに従ってスペクトル整形を適用するように構成された、スペクトルプロセッサ(1230e;1378)と、
    線形予測モードにおいて符号化された前記オーディオコンテンツの部分に対する復号化されたスペクトル係数のスペクトル整形されたセット(1158;1230f)に基づいて、前記オーディオコンテンツの時間ドメイン表現(1162;1232;xi,n)を取得し、周波数ドメインモードにおいて符号化された前記オーディオコンテンツの部分に対する復号化されたスペクトル係数のスペクトル整形されたセットに基づいて、前記オーディオコンテンツの時間ドメイン表現(1162;1232)を取得するように構成された、周波数ドメイン−時間ドメイン変換器(1160;1230g)と、
    を備えた、多重モードオーディオ信号デコーダ。
  2. 線形予測モードにおいて符号化された前記オーディオコンテンツの部分の時間ドメイン表現を、周波数ドメインモードにおいて符号化された前記オーディオコンテンツの部分と、オーバーラップおよび加算するように構成された、重ね合せ器(1233)を更に備えた、請求項1に記載の多重モードオーディオ信号デコーダ。
  3. 前記周波数ドメイン−時間ドメイン変換器(1160;1230g)は、線形予測モードにおいて符号化された前記オーディオコンテンツの部分(1412;1414)に対して、前記オーディオコンテンツの時間ドメイン表現を、ラップド変換を用いて取得し、周波数ドメインモードにおいて符号化された前記オーディオコンテンツの部分(1410;1416)に対して、前記オーディオコンテンツの時間ドメイン表現を、ラップド変換を用いて取得するように構成され、
    前記重ね合せ器は、異なるモードにおいて符号化された前記オーディオコンテンツの引き続く部分の時間ドメイン表現をオーバーラップするように構成された、
    請求項2に記載の多重モードオーディオ信号デコーダ。
  4. 前記周波数ドメイン−時間ドメイン変換器(1160;1230g)は、異なるモードにおいて符号化された前記オーディオコンテンツの部分に対して前記オーディオコンテンツの時間ドメイン表現を取得するために、同じ変換タイプのラップド変換を適用するように構成され、
    前記重ね合せ器は、異なるモードにおいて符号化された前記オーディオコンテンツの引き続く部分の時間ドメイン表現を、前記ラップド変換によって生じた時間ドメイン折り返し歪みが低減または除去されるように、オーバーラップおよび加算するように構成された、
    請求項3に記載の多重モードオーディオ信号デコーダ。
  5. 前記重ね合せ器は、関係するラップド変換によって提供されたような第1のモードにおいて符号化された前記オーディオコンテンツの第1の部分(1414)のウィンドウ化された時間ドメイン表現、またはその振幅スケーリングされたがスペクトル的に歪められていないバージョンと、関係するラップド変換によって提供されたような第2のモードにおいて符号化された前記オーディオコンテンツの第2の引き続く部分(1416)のウィンドウ化された時間ドメイン表現、またはその振幅スケーリングされたがスペクトル的に歪められていないバージョンを、オーバーラップおよび加算するように構成された、請求項4に記載の多重モードオーディオ信号デコーダ。
  6. 前記周波数ドメイン−時間ドメイン変換器(1160;1230g)は、前記提供された時間ドメイン表現が、前記提供された時間ドメイン表現の一方または両方にウィンドウ化遷移演算以外の信号整形フィルタリング演算を適用することなく線形に結合可能であるという点で同じドメインにあるように、異なるモードにおいて符号化された前記オーディオコンテンツの部分(1410、1412、1414、1416)の時間ドメイン表現を提供するように構成された、請求項1から請求項5のいずれかに記載の多重モードオーディオ信号デコーダ。
  7. 前記周波数ドメイン−時間ドメイン変換器(1160;1230g)は、逆修正離散コサイン変換を実行し、前記逆修正離散コサイン変換の結果として、線形予測モードにおいて符号化された前記オーディオコンテンツの部分と周波数ドメインモードにおいて符号化された前記オーディオコンテンツの部分の両方に対して、オーディオ信号ドメインにおける前記オーディオコンテンツの時間ドメイン表現を取得するように構成された、請求項1から請求項6のいずれかに記載の多重モードオーディオ信号デコーダ。
  8. 線形予測モードにおいて符号化された前記オーディオコンテンツの部分に対する前記線形予測符号化フィルタ係数の符号化された表現に基づいて、復号化された線形予測符号化フィルタ係数(a〜a16)を取得するように構成された、線形予測符号化フィルタ係数決定器と、
    異なる周波数に関する線形予測モードのゲイン値(g[k])を取得するために、前記復号化された線形予測符号化係数(1260d;a〜a16)をスペクトル表現(1260f;X[k])に変換するように構成された、フィルタ係数変換器(1260e)と、
    周波数ドメインモードにおいて符号化された前記オーディオコンテンツの部分に対する前記スケールファクタ値の符号化された表現(1254)に基づいて、復号化されたスケールファクタ値(1260f)を取得するように構成された、スケールファクタ決定器(1260a)と、を更に備え、
    前記スペクトルプロセッサ(1150;1230e)は、前記復号化されたスペクトル係数(1130;1230d;r[i])、またはその前処理されたバージョンの貢献度が、前記線形予測モードのゲイン値(g[k])に従って重み付けされた、前記復号化されたスペクトル係数のゲイン処理されたバージョン(1158;1230f;rr[i])を取得するために、線形予測モードにおいて符号化された前記オーディオコンテンツの部分に関する復号化されたスペクトル係数のセット(1132;1230d;r[i])、またはその前処理されたバージョンを、前記線形予測モードのゲイン値(g[k])と結合するように構成され、また、前記復号化されたスペクトル係数、またはその前処理されたバージョンの貢献度が、前記スケールファクタ値に従って重み付けされた、前記復号化されたスペクトル係数(x_ac_invquant)のスケールファクタ処理されたバージョン(x_rescal)を取得するために、周波数ドメインモードにおいて符号化された前記オーディオコンテンツの部分に関する復号化されたスペクトル係数のセット(1132;1230d;x_ac_invquant)、またはその前処理されたバージョンを、前記スケールファクタ値(1260b)と結合するように構成された、スペクトル修正器を備える、
    請求項1から請求項7のいずれかに記載の多重モードオーディオ信号デコーダ。
  9. Figure 2013507648
  10. 前記フィルタ係数変換器(1260e)および前記結合器(1230e)は、与えられた復号化スペクトル係数(r[i])、またはその前処理されたバージョンの、前記与えられたスペクトル係数のゲイン処理されたバージョン(rr[i])への貢献度が、前記与えられた復号化スペクトル係数(r[i])に関する線形予測モードのゲイン値(g[k])の大きさによって決定されるように構成された、請求項8または請求項9に記載の多重モードオーディオ信号デコーダ。
  11. 前記スペクトルプロセッサ(1230e)は、与えられた復号化スペクトル係数(r[i])、またはその前処理されたバージョンの、前記与えられたスペクトル係数のゲイン処理されたバージョン(rr[i])への貢献度の重み付けが、前記与えられた復号化スペクトル係数(r[i])に関する線形予測モードのゲイン値(g[k])の大きさの増加と共に増加するように、または、与えられた復号化スペクトル係数(r[i])、またはその前処理されたバージョンの、前記与えられたスペクトル係数のゲイン処理されたバージョン(rr[i])への貢献度の重み付けが、前記復号化された線形予測符号化フィルタ係数のスペクトル表現の関係するスペクトル係数(X[k])の大きさの増加と共に減少するように構成された、請求項1から請求項9のいずれかに記載の多重モードオーディオ信号デコーダ。
  12. 前記スペクトル値決定器(1130;1230e、1230c)は、復号化され、逆量子化されたスペクトル係数(1132;1230d)を取得するために、復号化され、量子化されたスペクトル係数に逆量子化を適用するように構成され、
    前記スペクトルプロセッサ(1230e)は、与えられた復号化スペクトル係数(r[i])に対して、前記与えられた復号化スペクトル係数(r[i])に関する線形予測モードのゲイン値(g[k])の大きさに従って、効果的な量子化ステップを調整することによって、量子化ノイズ整形を実行するように構成された、
    請求項1から請求項11のいずれかに記載の多重モードオーディオ信号デコーダ
  13. 周波数ドメインモードのフレーム(1410)から、複合された線形予測モード/代数符号励振線形予測モードのフレームに遷移するために、中間の線形予測モードのスタートフレーム(1212)を用いるように構成され、
    前記線形予測モードのスタートフレームに対して、復号化されたスペクトル係数のセットを取得し、
    前記線形予測モードのスタートフレーム、またはその前処理されたバージョンに対する前記復号化されたスペクトル係数のセットに、関係する線形予測ドメインパラメータのセットに従ってスペクトル整形を適用し、
    復号化されたスペクトル係数のスペクトル整形されたセットに基づいて、前記線形予測モードのスタートフレームの時間ドメイン表現を取得し、
    前記線形予測モードのスタートフレームの前記時間ドメイン表現に、比較的長い左側遷移スロープと比較的短い右側遷移スロープを有するスタートウィンドウを適用するように構成された、
    請求項1から請求項12のいずれかに記載の多重モードオーディオ信号デコーダ。
  14. 前記線形予測モードのスタートフレーム(1412)に先行する周波数ドメインモードのフレーム(1410)の時間ドメイン表現の右側部分を、前記線形予測モードのスタートフレームの時間ドメイン表現の左側部分とオーバーラップし、時間ドメイン折り返し歪みの低減または解消を得るように構成された、請求項13に記載の多重モードオーディオ信号デコーダ。
  15. 前記線形予測モードのスタートフレームに追従する前記複合された線形予測モード/代数符号励振線形予測モードのフレームの少なくとも部分を符号化する代数符号励振線形予測モードデコーダを初期化するために、前記線形予測モードのスタートフレーム(1412)に関する線形予測ドメインパラメータを用いるように構成された、請求項13または請求項14に記載の多重モードオーディオ信号デコーダ。
  16. オーディオコンテンツの入力表現(110;310;1010)に基づいて、前記オーディオコンテンツの符号化表現(112;312;1012)を提供する、多重モードオーディオ信号エンコーダ(100;300;900;1000)であって、
    前記オーディオコンテンツの入力表現(110;310;1010)を処理し、前記オーディオコンテンツの周波数ドメイン表現(122;330b;1030b)を取得するように構成された、時間ドメイン−周波数ドメイン変換器(120;330a;350a;1030a)と、
    スペクトル係数のセット、またはその前処理されたバージョンに、線形予測モードにおいて符号化される前記オーディオコンテンツの部分に対する線形予測ドメインパラメータのセット(134;340b)に従ってスペクトル整形を適用し、スペクトル係数のセット、またはその前処理されたバージョンに、周波数ドメインモードにおいて符号化される前記オーディオコンテンツの部分に対するスケールファクタパラメータ(136)に従ってスペクトル整形を適用するように構成された、スペクトルプロセッサ(130;330e;350d;1030e)と、
    線形予測モードにおいて符号化される前記オーディコンテンツの部分に対するスペクトル係数のスペクトル整形されたセット(132;350e;1030f)の符号化されたバージョン(142;322、342;1032)を提供し、周波数ドメインモードにおいて符号化される前記オーディオコンテンツの部分に対するスペクトル係数のスペクトル整形されたセット(132;330f;1030f)の符号化されたバージョン(142;322、342;1032)を提供するように構成された、量子化エンコーダ(140;330g、330i、350f、350h;1030g、1030i)と、
    を備えた、多重モードオーディオ信号エンコーダ。
  17. 前記時間ドメイン−周波数ドメイン変換器(120;330a;350a;1030a)は、オーディオ信号ドメインにおけるオーディオコンテンツの時間ドメイン表現(110;310;1010)を、線形予測モードにおいて符号化される前記オーディオコンテンツの部分と周波数ドメインモードにおいて符号化される前記オーディオコンテンツの部分の両方に対して、前記オーディオコンテンツの周波数ドメイン表現(122;330b;1030b)に変換するように構成された、請求項16に記載の多重モードオーディオ信号エンコーダ。
  18. 前記時間ドメイン−周波数ドメイン変換器(120;330a;350a;1030a)は、異なるモードにおいて符号化される前記オーディオコンテンツの部分に対する周波数ドメイン表現を取得する同じ変換タイプのラップド変換を適用するように構成された、請求項16または請求項17に記載の多重モードオーディオ信号エンコーダ。
  19. 前記スペクトルプロセッサ(130;330e;330e;350b;1030e)は、スペクトル係数の前記セット(122;330b;1030b)、またはその前処理されたバージョンに、線形予測モードにおいて符号化される前記オーディオコンテンツの部分の相関ベースの解析を用いて取得された線形予測ドメインパラメータのセット(134;340b)に従って、または周波数ドメインモードにおいて符号化される前記オーディオコンテンツの部分の音響心理学的モデル解析(330c;1070a)を用いて取得されたスケールファクタパラメータのセット(136;330d;1070b)に従って、選択的に前記スペクトル整形を適用するように構成された、請求項16から請求項18のいずれかに記載の多重モードオーディオ信号エンコーダ。
  20. 前記オーディオコンテンツの部分を線形予測モードにおいて符号化するかまたは周波数ドメインモードにおいて符号化するかを決定するために、前記オーディオコンテンツを解析するように構成された、モードセレクタを備えた、請求項19に記載の多重モードオーディオ信号エンコーダ。
  21. 周波数ドメインモードのフレームと、複合された変換符号化励振線形予測モード/代数符号励振線形予測モードのフレームの間のオーディオフレームを、線形予測モードのスタートフレームとして符号化するように構成され、
    前記線形予測モードのスタートフレームの時間ドメイン表現に、比較的長い左側遷移スロープと比較的短い右側遷移スロープを有するスタートウィンドウを適用して、ウィンドウ化された時間ドメイン表現を取得し、
    前記線形予測モードのスタートフレームのウィンドウ化された時間ドメイン表現の周波数ドメイン表現を取得し、
    前記線形予測モードのスタートフレームに対して、線形予測ドメインパラメータのセットを取得し、
    前記線形予測モードのスタートフレームのウィンドウ化された時間ドメイン表現の周波数ドメイン表現、またはその前処理されたバージョンに、前記線形予測ドメインパラメータのセットに従ってスペクトル整形を適用し、
    前記線形予測ドメインパラメータのセットと、前記線形予測モードのスタートフレームのウィンドウ化された時間ドメイン表現のスペクトル整形された周波数ドメイン表現を符号化するように構成された、
    請求項16から請求項20のいずれかに記載の多重モードオーディオ信号エンコーダ。
  22. 前記線形予測モードのスタートフレームに追従する複合された変換符号化励振線形予測モード/代数符号励振線形予測モードのフレームの少なくとも部分を符合化する代数符号励振線形予測モードエンコーダを初期化するために、前記線形予測モードのスタートフレームに関する前記ドメインパラメータを用いるように構成された、請求項21に記載の多重モードオーディオ信号エンコーダ。
  23. 線形予測モードにおいて符号化される前記オーディオコンテンツの部分、またはその前処理されたバージョンを解析し、前記線形予測モードにおいて符号化されるオーディオコンテンツの部分に関する線形予測符号化フィルタ係数を決定するように構成された、線形予測符号化フィルタ係数決定器(340a;1070c)と、
    異なる周波数に関する線形予測モードのゲイン値(g[k]、350c)を取得するために、前記線形予測符号化フィルタ係数をスペクトル表現(X[k])に変換するように構成された、フィルタ係数変換器(350b;1070d)と、
    前記周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分、またはその前処理されたバージョンを解析し、前記周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分に関するスケールファクタを決定するように構成された、スケールファクタ決定器(330c;1070a)と、
    前記線形予測モードおいて符号化されるオーディオコンテンツの部分の周波数ドメイン表現、またはその前処理されたバージョンを、前記線形予測モードのゲイン値(g[k])と結合し、前記オーディオコンテンツの周波数ドメイン表現のスペクトル成分の貢献度が前記線形予測モードのゲイン値に従って重み付けされる、ゲイン処理されたスペクトル成分を取得し、前記周波数ドメインモードにおいて符号化されるオーディオコンテンツの部分の周波数ドメイン表現、またはその前処理されたバージョンを、前記スケールファクタと結合し、前記オーディオコンテンツの周波数ドメイン表現のスペクトル成分の貢献度が前記スケールファクタに従って重み付けされる、ゲイン処理されたスペクトル成分を取得するように構成された、結合器構成(330e;350d;1030e)と、を備え、
    前記ゲイン処理されたスペクトル成分は、スペクトル係数のスペクトル整形されたセットを形成する、
    請求項16から請求項22のいずれかに記載の多重モードオーディオ信号エンコーダ。
  24. オーディオコンテンツの符号化表現に基づいて前記オーディオコンテンツの復号化表現を提供する方法であって、
    前記オーディオコンテンツの複数の部分に対して、復号化されたスペクトル係数のセットを取得するステップと、
    前記復号化されたスペクトル係数のセット、またはその前処理されたバージョンに、前記線形予測モードにおいて符号化されたオーディオコンテンツの部分に対する線形予測ドメインパラメータのセットに従ってスペクトル整形を適用し、前記復号化されたスペクトル係数のセット、またはその前処理されたバージョンに、前記周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対するスケールファクタパラメータのセットに従ってスペクトル整形を適用するステップと、
    前記線形予測モードにおいて符号化されたオーディオコンテンツの部分に対する復号化されたスペクトル係数のスペクトル整形されたセットに基づいて前記オーディオコンテンツの時間ドメイン表現を取得するステップと、前記周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対する復号化されたスペクトル係数のスペクトル整形されたセットに基づいて前記オーディオコンテンツの時間ドメイン表現を取得するステップと、
    を備えた、オーディオコンテンツの復号化された表現を提供する方法。
  25. オーディオコンテンツの入力表現に基づいて前記オーディオコンテンツの符号化表現を提供する方法であって、
    オーディオコンテンツの入力表現を処理し、前記オーディオコンテンツの周波数ドメイン表現を取得するステップと、
    スペクトル係数のセット、またはその前処理されたバージョンに、前記線形予測モードにおいて符号化されたオーディオコンテンツの部分に対する線形予測ドメインパラメータのセットに従ってスペクトル整形を適用するステップと、
    スペクトル係数のセット、またはその前処理されたバージョンに、前記周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対するスケールファクタパラメータのセットに従ってスペクトル整形を適用するステップと、
    前記線形予測モードにおいて符号化されたオーディオコンテンツの部分に対するスペクトル係数のスペクトル整形されたセットの符号化された表現を、量子化符合化を用いて提供するステップと、
    前記周波数ドメインモードにおいて符号化されたオーディオコンテンツの部分に対するスペクトル係数のスペクトル整形されたセットの符号化されたバージョンを、量子化符合化を用いて提供するステップと、
    を備えた、オーディオコンテンツの符号化された表現を提供する方法。
  26. コンピュータプログラムがコンピュータ上で動作するときに、請求項24または請求項25に記載された方法を実行するコンピュータプログラム。
JP2012532577A 2009-10-08 2010-10-06 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム Active JP5678071B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US24977409P 2009-10-08 2009-10-08
US61/249,774 2009-10-08
PCT/EP2010/064917 WO2011042464A1 (en) 2009-10-08 2010-10-06 Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping

Publications (2)

Publication Number Publication Date
JP2013507648A true JP2013507648A (ja) 2013-03-04
JP5678071B2 JP5678071B2 (ja) 2015-02-25

Family

ID=43384656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012532577A Active JP5678071B2 (ja) 2009-10-08 2010-10-06 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム

Country Status (18)

Country Link
US (1) US8744863B2 (ja)
EP (1) EP2471061B1 (ja)
JP (1) JP5678071B2 (ja)
KR (1) KR101425290B1 (ja)
CN (1) CN102648494B (ja)
AR (1) AR078573A1 (ja)
AU (1) AU2010305383B2 (ja)
BR (2) BR112012007803B1 (ja)
CA (1) CA2777073C (ja)
ES (1) ES2441069T3 (ja)
HK (1) HK1172727A1 (ja)
MX (1) MX2012004116A (ja)
MY (1) MY163358A (ja)
PL (1) PL2471061T3 (ja)
RU (1) RU2591661C2 (ja)
TW (1) TWI423252B (ja)
WO (1) WO2011042464A1 (ja)
ZA (1) ZA201203231B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016528562A (ja) * 2013-08-23 2016-09-15 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーバーラップ範囲における組み合わせを用いて音声信号を処理するための装置及び方法

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MY159110A (en) * 2008-07-11 2016-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
WO2011048099A1 (en) 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a region-dependent arithmetic coding mapping rule
BR122021008583B1 (pt) 2010-01-12 2022-03-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, e método de decodificação de uma informação de áudio que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo
MX2012011532A (es) * 2010-04-09 2012-11-16 Dolby Int Ab Codificacion a estereo para prediccion de complejos basados en mdct.
JP2012032648A (ja) * 2010-07-30 2012-02-16 Sony Corp 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置
GB2487399B (en) * 2011-01-20 2014-06-11 Canon Kk Acoustical synthesis
CA2833874C (en) 2011-04-21 2019-11-05 Ho-Sang Sung Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
CN103620675B (zh) 2011-04-21 2015-12-23 三星电子株式会社 对线性预测编码系数进行量化的设备、声音编码设备、对线性预测编码系数进行反量化的设备、声音解码设备及其电子装置
IN2014DN03022A (ja) * 2011-11-03 2015-05-08 Voiceage Corp
US11140439B2 (en) 2012-02-21 2021-10-05 Roku, Inc. Media content identification on mobile devices
JP6065452B2 (ja) * 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
JP6335190B2 (ja) * 2012-12-21 2018-05-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
CN103915100B (zh) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
KR101757347B1 (ko) * 2013-01-29 2017-07-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 지각적 변환 오디오 코딩에서의 노이즈 채움
AU2014211520B2 (en) 2013-01-29 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-frequency emphasis for LPC-based coding in frequency domain
CA2900437C (en) 2013-02-20 2020-07-21 Christian Helmrich Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
JP6146069B2 (ja) 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
MX343673B (es) 2013-04-05 2016-11-16 Dolby Int Ab Codificador y decodificador de audio.
SG11201510513WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
PL3011557T3 (pl) 2013-06-21 2017-10-31 Fraunhofer Ges Forschung Urządzenie i sposób do udoskonalonego stopniowego zmniejszania sygnału w przełączanych układach kodowania sygnału audio podczas ukrywania błędów
EP2830060A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
CA2925734C (en) * 2013-10-18 2018-07-10 Guillaume Fuchs Coding of spectral coefficients of a spectrum of an audio signal
AU2014350366B2 (en) 2013-11-13 2017-02-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
EP4095854B1 (en) * 2014-01-15 2024-08-07 Samsung Electronics Co., Ltd. Weight function determination device and method for quantizing linear prediction coding coefficient
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
KR101826237B1 (ko) * 2014-03-24 2018-02-13 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
US9685164B2 (en) * 2014-03-31 2017-06-20 Qualcomm Incorporated Systems and methods of switching coding technologies at a device
US9666210B2 (en) * 2014-05-15 2017-05-30 Telefonaktiebolaget Lm Ericsson (Publ) Audio signal classification and coding
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
CN106448688B (zh) * 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
FR3024581A1 (fr) 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
US11176954B2 (en) * 2017-04-10 2021-11-16 Nokia Technologies Oy Encoding and decoding of multichannel or stereo audio signals
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
BR112020012648A2 (pt) 2017-12-19 2020-12-01 Dolby International Ab métodos e sistemas de aparelhos para aprimoramentos de decodificação de fala e áudio unificados
KR102250835B1 (ko) * 2019-08-05 2021-05-11 국방과학연구소 수동 소나의 협대역 신호를 탐지하기 위한 lofar 또는 demon 그램의 압축 장치
CN113571073A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 一种线性预测编码参数的编码方法和编码装置
KR20220066749A (ko) * 2020-11-16 2022-05-24 한국전자통신연구원 잔차 신호의 생성 방법과 그 방법을 수행하는 부호화기 및 복호화기
CN118193470B (zh) * 2024-03-26 2024-10-18 广州亿达信息科技有限公司 核酸质谱数据的解压方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001500640A (ja) * 1997-07-14 2001-01-16 フラオホッフェル−ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. オーディオ信号の符号化方法
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
WO2006049204A1 (ja) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、符号化方法及び復号化方法
JP2007525707A (ja) * 2004-02-18 2007-09-06 ヴォイスエイジ・コーポレーション Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
WO2008089705A1 (fr) * 2007-01-23 2008-07-31 Huawei Technologies Co., Ltd. Procédé et appareil de codage et de décodage
WO2008151755A1 (en) * 2007-06-11 2008-12-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding an audio signal having an impulse- like portion and stationary portion, encoding methods, decoder, decoding method; and encoded audio signal

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7167828B2 (en) 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
KR100923156B1 (ko) * 2006-05-02 2009-10-23 한국전자통신연구원 멀티채널 오디오 인코딩 및 디코딩 시스템 및 방법
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8041578B2 (en) * 2006-10-18 2011-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
BRPI0721079A2 (pt) * 2006-12-13 2014-07-01 Panasonic Corp Dispositivo de codificação, dispositivo de decodificação e método dos mesmos
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
EP2063417A1 (en) * 2007-11-23 2009-05-27 Deutsche Thomson OHG Rounding noise shaping for integer transform based encoding and decoding
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY159110A (en) 2008-07-11 2016-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
MY152252A (en) 2008-07-11 2014-09-15 Fraunhofer Ges Forschung Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
CA2763793C (en) * 2009-06-23 2017-05-09 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
EP4362014A1 (en) * 2009-10-20 2024-05-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
ES2534972T3 (es) * 2011-02-14 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001500640A (ja) * 1997-07-14 2001-01-16 フラオホッフェル−ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. オーディオ信号の符号化方法
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
JP2007525707A (ja) * 2004-02-18 2007-09-06 ヴォイスエイジ・コーポレーション Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
WO2006049204A1 (ja) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、符号化方法及び復号化方法
WO2008089705A1 (fr) * 2007-01-23 2008-07-31 Huawei Technologies Co., Ltd. Procédé et appareil de codage et de décodage
JP2010517083A (ja) * 2007-01-23 2010-05-20 華為技術有限公司 符号化及び復号化の方法及び装置
WO2008151755A1 (en) * 2007-06-11 2008-12-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding an audio signal having an impulse- like portion and stationary portion, encoding methods, decoder, decoding method; and encoded audio signal
JP2010530079A (ja) * 2007-06-11 2010-09-02 フラウンホッファー−ゲゼルシャフト ツァー フェーデルング デア アンゲバンテン フォルシュング エー ファー インパルス状の部分と定常部分とを有するオーディオ信号を符号化するオーディオ符号器、符号化方法、復号器、復号化方法、および符号化されたオーディオ信号

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN5013002616; Jeremie Lecomte, et al.: '"Efficient Cross-Fade Windows for Transitions between LPC-Based and Non-LPC Based Audio Coding"' Convention Paper of the 126th Convention No.7712, 200905, pp.1-9, Audio Engineering Society *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016528562A (ja) * 2013-08-23 2016-09-15 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーバーラップ範囲における組み合わせを用いて音声信号を処理するための装置及び方法
US10157624B2 (en) 2013-08-23 2018-12-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal using a combination in an overlap range
US10210879B2 (en) 2013-08-23 2019-02-19 Fraunhofer-Gesellschaft Zur Foerderung Der Andewandten Forschung E.V. Apparatus and method for processing an audio signal using an aliasing error signal

Also Published As

Publication number Publication date
BR122021023896B1 (pt) 2023-01-10
RU2591661C2 (ru) 2016-07-20
MX2012004116A (es) 2012-05-22
CN102648494B (zh) 2014-07-02
CA2777073A1 (en) 2011-04-14
JP5678071B2 (ja) 2015-02-25
KR101425290B1 (ko) 2014-08-01
AR078573A1 (es) 2011-11-16
HK1172727A1 (en) 2013-04-26
AU2010305383A1 (en) 2012-05-10
ZA201203231B (en) 2013-01-30
TWI423252B (zh) 2014-01-11
WO2011042464A1 (en) 2011-04-14
RU2012119291A (ru) 2013-11-10
TW201137860A (en) 2011-11-01
CA2777073C (en) 2015-11-24
PL2471061T3 (pl) 2014-03-31
CN102648494A (zh) 2012-08-22
KR20120063543A (ko) 2012-06-15
US20120245947A1 (en) 2012-09-27
EP2471061A1 (en) 2012-07-04
ES2441069T3 (es) 2014-01-31
EP2471061B1 (en) 2013-10-02
BR112012007803B1 (pt) 2022-03-15
US8744863B2 (en) 2014-06-03
BR112012007803A2 (pt) 2020-08-11
AU2010305383B2 (en) 2013-10-03
MY163358A (en) 2017-09-15

Similar Documents

Publication Publication Date Title
JP5678071B2 (ja) 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム
KR101411759B1 (ko) 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법
KR101565634B1 (ko) 음성/음악 통합 신호의 부호화/복호화 장치
KR101250309B1 (ko) 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법
TWI479478B (zh) 用以使用對齊的預看部分將音訊信號解碼的裝置與方法
CN101878504A (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
WO2013061584A1 (ja) 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
Fuchs et al. MDCT-based coder for highly adaptive speech and audio coding
CN103137135B (zh) Lpc系数量化方法和装置及多编码核音频编码方法和设备
KR101455648B1 (ko) 상호 운용성을 지원하는 오디오/스피치 신호의부호화/복호화 방법 및 시스템
BR122021023890B1 (pt) Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130902

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130909

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140804

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150105

R150 Certificate of patent or registration of utility model

Ref document number: 5678071

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250