JP5247937B2 - オーディオ信号符号器、オーディオ信号復号器、エイリアシング消去を用いたオーディオ信号の符号化又は復号化方法 - Google Patents

オーディオ信号符号器、オーディオ信号復号器、エイリアシング消去を用いたオーディオ信号の符号化又は復号化方法 Download PDF

Info

Publication number
JP5247937B2
JP5247937B2 JP2012534673A JP2012534673A JP5247937B2 JP 5247937 B2 JP5247937 B2 JP 5247937B2 JP 2012534673 A JP2012534673 A JP 2012534673A JP 2012534673 A JP2012534673 A JP 2012534673A JP 5247937 B2 JP5247937 B2 JP 5247937B2
Authority
JP
Japan
Prior art keywords
domain
encoded
audio
linear prediction
audio content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012534673A
Other languages
English (en)
Other versions
JP2013508765A (ja
Inventor
ブルーノ ベセッテ
マックス ノイエンドルフ
ラルフ ガイガー
フィリッペ グールネイ
ロッホ レフェーブレ
ベルンハルト グリル
ジェレミー レコンテ
ステファン バイエル
ニコラス レッテルバッハ
ラルス ヴィレモース
レドワン サラミ
ブリンカー アルベルツス ツェー デン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of JP2013508765A publication Critical patent/JP2013508765A/ja
Application granted granted Critical
Publication of JP5247937B2 publication Critical patent/JP5247937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明の実施形態は、オーディオコンテンツの符号化された表現に基づいて、オーディオコンテンツの復号化された表現を生成するオーディオ信号復号器を提供する。
本発明の実施形態は、オーディオコンテンツの入力表現に基づいて、スペクトル係数の第1セットとエイリアシング消去刺激信号(aliasing-cancellation stimulus signal)の表現と複数の線形予測ドメインパラメータとを含む、オーディオコンテンツの符号化された表現を生成するためのオーディオ信号符号器を提供する。
本発明の実施形態は、オーディオコンテンツの符号化された表現に基づいて、オーディオコンテンツの復号化された表現を生成する方法を提供する。
本発明の実施形態は、オーディオコンテンツの入力表現に基づいて、オーディオコンテンツの符号化された表現を生成する方法を提供する。
本発明の実施形態は、上述した方法の一つを実行させるコンピュータプログラムを提供する。
本発明の実施形態は、統一されたスピーチ及びオーディオ符号化(unified-speech-and-audio-coding)(省略形はUSACとして示される)窓処理(windowing)とフレーム遷移(frame transitions)との統合のための概念を提供する。
以下に、本発明及びその利点についての理解を促すため、本発明のある背景について説明する。
過去10年において、オーディオコンテンツをデジタルで記憶して配給する可能性を創造することに対し、大きな努力が注がれてきた。この道筋における1つの重要な成果は、国際標準ISO/IEC 14496−3.である。この標準のPart 3はオーディオコンテンツの符号化及び復号化に関するものであり、Part 3のsub−part 4は一般的なオーディオ符号化に関している。ISO/IEC 14496−3, part 3,sub−part 4は一般的なオーディオ符号化の符号化及び復号化の概念を定義する。加えて、品質を向上させ及び/又は必要なビットレートを低減させるために、更なる改良が提案されて来た。さらに、周波数ドメインベースのオーディオ符号器のパーフォーマンスは、スピーチを含むオーディオコンテンツにとっては最適ではないことが分かってきた。近年、言葉即ちスピーチの符号化とオーディオ符号化との両方からの技術を効果的に結合した、統一されたスピーチ及びオーディオコーデックが提案されてきた。詳細については、非特許文献1を参照されたい。
"A Novel Scheme for Low Bitrate Unified Speech and Audio Coding _ MPEG-RM0"of M.Neuendorf et al.(presented at the 126th Convention of the Audio Engineering Society, May 7-10, 2009, Munich, Germany) M. Xie and J.-P. Adoul,"Embedded algebraic vector quantization (EAVQ) with application to wideband audio coding,"IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Atlanta, GA, USA, vol. 1, pp. 240-243, 1996. ISO/IEC JTC1/SC29/WG11, MPEG2009/M16688, June-July 2009, London, United Kingdom, "Alternatives for windowing in USAC"
前述のようなオーディオ符号器においては、いくつかのオーディオフレームは周波数ドメインで符号化され、いくつかのオーディオフレームは線形予測ドメインで符号化される。
しかし、有意な量のビットレートを犠牲にせずに、異なるドメインで符号化されたフレーム間の遷移を達成することは難しいことが分かってきた。
そこで、スピーチと一般的なオーディオとの両方を含むオーディオコンテンツを符号化及び復号化するための概念であって、異なるモードを使用して符号化された部分の間の遷移を効果的に実現させる概念を創造することが求められている。
本発明の実施形態は、オーディオコンテンツの符号化された表現に基づいて、オーディオコンテンツの復号化された表現を生成するオーディオ信号復号器を提供するものである。このオーディオ復号器は、変換ドメイン経路(例えば変換符号化励起線形予測ドメイン経路(transform-coded excitation liner-prediction-domain-path))を含み、その変換ドメイン経路は、スペクトル係数の第1セットとエイリアシング消去刺激信号の表現と複数の線形予測ドメインパラメータ(例えば線形予測符号化フィルタ係数(linear-prediction-coding filter coefficients))とに基づいて、ある変換ドメインモードで符号化されたオーディオコンテンツの時間ドメイン表現を得るよう構成されている。前記変換ドメイン経路は、線形予測ドメインパラメータの少なくとも1つのサブセットに依存して、スペクトル係数の(第1の)セットに対するスペクトル成形を適用し、そのスペクトル係数の第1セットのスペクトル的に成形されたバージョンを得る、スペクトル処理器を含む。前記変換ドメイン経路はまた、そのスペクトル係数の第1セットのスペクトル的に成形されたバージョンに基づいて、オーディオコンテンツの時間ドメイン表現を得る、(第1の)周波数ドメイン/時間ドメイン変換器を含む。変換ドメイン経路は、前記線形予測ドメインパラメータの少なくとも1つのサブセットに依存してエイリアシング消去刺激信号をフィルタ処理し、そのエイリアシング消去刺激信号からエイリアシング消去合成信号を導出する、エイリアシング消去刺激フィルタをさらに含む。前記変換ドメイン経路は、オーディオコンテンツの時間ドメイン表現とエイリアシング消去合成信号又はその後処理済のバージョンとを結合し、エイリアシングが低減された時間ドメイン信号を得る結合器をさらに含む。
本発明の実施形態は、次のような知見に基づく。即ち、スペクトル係数の第1セットについてスペクトル係数のスペクトル成形を周波数ドメインで実行し、かつエイリアシング消去刺激信号の時間ドメインでのフィルタ処理によってエイリアシング消去合成信号を計算するオーディオ復号器であって、前記スペクトル係数のスペクトル成形と前記エイリアシング消去刺激信号の時間ドメインフィルタ処理との両方を線形予測ドメインパラメータに依存して実行するオーディオ復号器は、異なるノイズ成形を用いて符号化されたオーディオ信号の部分(例えばフレーム)からの遷移又はその部分への遷移に対して良好に適合するという知見である。そのため、マルチモード・オーディオ信号符号化の異なるモードで符号化されたオーディオ信号の(例えばオーバーラップしているか又はオーバーラップしていないフレーム間の)遷移は、上述のようなオーディオ信号復号器により、良好な聴覚的品質と適度なオーバーヘッドでレンダリング可能となる。
例えば、係数の第1セットのスペクトル成形を周波数ドメインにおいて実行すれば、変換ドメインにおいて異なるノイズ成形概念を用いて符号化されたオーディオコンテンツの部分(例えばフレーム)の間の遷移が可能になり、このとき、異なるノイズ成形方法(例えばスケールファクタベースのノイズ成形や線形予測ドメインパラメータベースのノイズ成形など)を用いて符号化されたオーディオコンテンツの異なる部分の間で、エイリアシング消去を良好な効率で達成できる。さらに、上述した概念は、(例えば1つは変換ドメインで、他の1つは代数符号励起線形予測ドメイン(algebraic-code-excited-linear-prediction-domain)であるような)異なるドメインで符号化されたオーディオコンテンツの部分(例えばフレーム)の間で、エイリアシング・アーチファクトを効率的に低減させることができる。(例えば変換符号化励起線形予測ドメインモードで符号化されていても良い)オーディオコンテンツの現時点の部分のノイズ成形が、たとえ時間ドメインフィルタ処理ではなく周波数ドメインで実行された場合でも、エイリアシング消去刺激信号の時間ドメインフィルタ処理を使用することで、代数符号励起線形予測モードで符号化されたオーディオコンテンツのある部分からの又はその部分への遷移におけるエイリアシング消去が可能になる。
要約すれば、本発明の実施形態は、必要とされるサイド情報と、3つの異なるモード(例えば周波数ドメインモード、変換符号化励起線形予測ドメインモード、及び代数符号励起線形予測モード)で符号化されたオーディオコンテンツの部分間の遷移における知覚的品質と、の間における良好な妥協点をもたらす。
本発明の好適な実施形態においては、オーディオ信号復号器は、複数の符号化モードの間の切替を実行するよう構成されたマルチモードのオーディオ信号復号器である。この場合、変換ドメインの分枝は、オーディオコンテンツのある部分のためのエイリアシング消去合成信号を選択的に取得するよう構成されており、その部分とは、エイリアシング消去・オーバーラップ加算操作を許可しないようなオーディオコンテンツの先行部分に続いているか、又は、エイリアシング消去・オーバーラップ加算操作を許可しないようなオーディオコンテンツの部分を後続部分として持つ部分である。スペクトル係数の第1セットをスペクトル成形することで実行されるノイズ成形の適用により、変換ドメインで(例えばスケールファクタベースのノイズ成形概念及び線形予測ドメインパラメータベースのノイズ成形概念などの)異なるノイズ成形概念を使用して符号化されたオーディオコンテンツ部分間における、エイリアシング消去信号を使用しない遷移が可能になる。なぜなら、スペクトル成形の後で第1の周波数ドメイン/時間ドメイン変換器を使用することで、たとえ連続するオーディオフレーム間で異なるノイズ成形の手法が使用されても、変換ドメインで符号化された連続するフレーム間の効率的なエイリアシング消去が可能となるからである。そのため、非変換ドメイン(例えば代数符号励起線形予測モード)で符号化されたオーディオコンテンツの一部分からの又は一部分への変換だけのためにエイリアシング消去合成信号を選択的に取得することで、ビットレート効率化を達成できる。
本発明の好適な実施形態においては、オーディオ信号復号器は、変換符号化励起情報及び線形予測ドメインパラメータ情報を使用する変換符号化励起線形予測ドメインモードと、スペクトル係数情報及びスケールファクタ情報を使用する周波数ドメインモードとの間での切替を実行する。この場合、前記変換ドメイン経路は、変換符号化励起情報に基づいてスペクトル係数の第1セットを取得し、線形予測ドメインパラメータ情報に基づいて線形予測ドメインパラメータを取得する。オーディオ信号復号器は、スペクトル係数情報によって記述されたスペクトル係数の周波数ドメインモードの1セットに基づき、さらにスケールファクタ情報によって記述されたスケールファクタの1セットに依存して、周波数ドメインモードで符号化されたオーディオコンテンツの時間ドメイン表現を取得する、周波数ドメイン経路を含む。周波数ドメイン経路は、スペクトル係数の周波数ドメインモードの前記1セット又はそのセットの前処理済のバージョンに対し、スケールファクタに依存するスペクトル成形を適用し、スペクトル係数のスペクトル的に成形された周波数ドメインモードの1セットを取得する、スペクトル処理器を含む。周波数ドメイン経路は、そのスペクトル係数のスペクトル的に成形された周波数ドメインモードの前記1セットに基づいて、オーディオコンテンツの時間ドメイン表現を取得する、周波数ドメイン/時間ドメイン変換器をさらに含む。オーディオ信号復号器は、オーディオコンテンツの2つの連続する部分の時間ドメイン表現であって、その連続する部分のうちの1つが変換符号化励起線形予測ドメインモードで符号化されており、他の1つが周波数ドメインモードで符号化されているような2つの連続する部分の時間ドメイン表現が、周波数ドメインから時間ドメインへの変換に起因する時間ドメインエイリアシングを消去するための時間的オーバーラップを含むよう構成されている。
上述したように、本発明の概念は、オーディオコンテンツの変換符号化励起線形予測ドメインモードで符号化された部分と周波数ドメインで符号化された部分との間の遷移に良好に適している。変換符号化励起線形予測ドメインモードにおいては、周波数ドメインでスペクトル成形が実行されるという事実から、非常に高品質のエイリアシング消去が達成される。
本発明の好適な実施形態においては、オーディオ信号復号器は、変換符号化励起情報及び線形予測ドメインパラメータ情報を使用する変換符号化励起線形予測ドメインモードと、代数符号励起情報及び線形予測ドメインパラメータ情報を使用する代数符号励起線形予測モードとの間の切替を実行する。この場合、前記変換ドメイン経路は、変換符号化励起情報に基づいてスペクトル係数の第1セットを取得し、線形予測ドメインパラメータ情報に基づいて線形予測ドメインパラメータを取得する。オーディオ信号復号器は、代数符号励起情報及び線形予測ドメインパラメータ情報に基づいて、代数符号励起線形予測(以後は省略形のACELPでも示す)モードで符号化されたオーディオコンテンツの時間ドメイン表現を取得する、代数符号励起線形予測経路を含む。この場合、ACELP経路は、代数符号励起情報に基づいて時間ドメイン励起信号を提供するACELP励起処理器と、時間ドメインフィルタ処理を実行する合成フィルタとを含み、この合成フィルタは、時間ドメイン励起信号に基づいて、さらに線形予測ドメインパラメータ情報に基づき取得された線形予測ドメインフィルタ係数に依存して、再構築された信号を提供する。変換ドメイン経路は、ACELPモードで符号化されたオーディオコンテンツの一部分に続く、変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分と、ACELPモードで符号化されたオーディオコンテンツの一部分に先行する、変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分と、のために、エイリアシング消去合成信号を選択的に提供する。エイリアシング消去合成信号は、変換符号化励起線形予測ドメイン(以後は省略形のTCX−LPDでも示す)モードで符号化された部分(例えばフレーム)と、ACELPモードで符号化された部分との間の遷移に非常に適していることが分かってきた。
本発明の好適な実施形態においては、エイリアシング消去刺激フィルタは、ACELPモードで符号化されたオーディオコンテンツの一部分に続く、TCX−LPDモードで符号化されたオーディオコンテンツの一部分については、第1の周波数ドメイン/時間ドメイン変換器の左側エイリアシング折り返し点(folding point)に対応する線形予測ドメインフィルタパラメータに依存して、エイリアシング消去刺激信号をフィルタ処理するよう構成されている。エイリアシング消去刺激フィルタは、ACELPモードで符号化されたオーディオコンテンツの一部分に先行する、変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分については、第1の周波数ドメイン/時間ドメイン変換器の右側エイリアシング折り返し点に対応する線形予測ドメインフィルタパラメータに依存して、エイリアシング消去刺激信号をフィルタ処理する。エイリアシング折り返し点に対応する線形予測ドメインフィルタパラメータを適用することで、非常に効率的なエイリアシング消去が得られる。また、エイリアシング折り返し点に対応する線形予測ドメインフィルタパラメータは一般的に簡単に取得できる。なぜなら、エイリアシング折り返し点は大抵1つのフレームから次のフレームへの遷移にあり、そのような線形予測ドメインフィルタパラメータを伝送することがいずれにしても必要となるからである。従って、オーバーヘッドは最小に維持される。
本発明の他の実施形態においては、オーディオ信号復号器は、エイリアシング消去合成信号を提供するためにエイリアシング消去刺激フィルタのメモリ値をゼロに初期化し、さらに、エイリアシング消去刺激信号のM個のサンプルをエイリアシング消去刺激フィルタへと送ることで、エイリアシング消去合成信号の対応する非ゼロの入力応答サンプルを取得し、更にはエイリアシング消去合成信号の複数のゼロ入力応答サンプルを取得する。結合器は、好適にはオーディオコンテンツの時間ドメイン表現を非ゼロ入力応答サンプル及び後続のゼロ入力応答サンプルと結合し、ACELPモードで符号化されたオーディオコンテンツの部分からそのACELPモードで符号化されたオーディオコンテンツの部分に続くTCX−LPDモードで符号化されたオーディオコンテンツの部分への遷移において、エイリアシング低減済み時間ドメイン信号を取得するよう構成されている。非ゼロの入力応答サンプルとゼロ入力応答サンプルとの両方を役立てることで、エイリアシング消去刺激フィルタを十分に利用することができる。さらに、エイリアシング消去刺激信号の必要なサンプル数を最低限に維持しながら、非常に滑らかなエイリアシング消去合成信号を得ることができる。さらに、上述の概念を使用することで、典型的なエイリアシング・アーチファクトに対してエイリアシング消去合成信号のある形が良好に適合することが分かって来た。そのため、符号化の効率とエイリアシング消去との間での良好な妥協点を得ることができる。
本発明の好適な実施形態においては、オーディオ信号復号器は、ACELPモードを使用して得られた時間ドメイン表現の少なくとも一部分の窓処理されかつ折り返されたバージョンと、TCX−LPDモードを使用して得られたオーディオコンテンツの後続の部分の時間ドメイン表現とを結合し、少なくとも部分的にエイリアシングを消去する。エイリアシング消去合成信号の生成に加えてそのようなエイリアシング消去メカニズムを使用することで、ビットレート効率が非常に良い方法でエイリアシング消去を達成できる可能性があることが分かって来た。特に、エイリアシング消去において、もしエイリアシング消去合成信号がACELPモードを使用して得られた時間ドメイン表現の少なくとも一部分の窓処理されかつ折り返されたバージョンに基づいている場合には、必要とされるエイリアシング消去刺激信号を高い効率で符号化することができる。
本発明の好適な実施形態においては、オーディオ信号復号器は、ACELP分枝の合成フィルタのゼロ・インパルス応答の窓処理済みバージョンと、TCX−LPDモードを使用して得られたオーディオコンテンツの後続の部分の時間ドメイン表現とを結合し、少なくとも部分的にエイリアシングを消去する。そのようなゼロ・インパルス応答の使用は、エイリアシング消去刺激信号の符号化効率を向上させることに役立つ可能性もあることが分かって来た。なぜなら、ACELP分枝の合成フィルタのゼロ・インパルス応答は、典型的に、オーディオコンテンツのTCX−LPD符号化された部分におけるエイリアシングの少なくとも一部を消去するからである。従って、エイリアシング消去合成信号のエネルギーは低減され、その結果、エイリアシング消去刺激信号のエネルギーが低減される。しかし、より小さなエネルギーで信号を符号化することは、一般的にはより低いビットレート条件でも可能となる。
本発明の好適な実施形態においては、オーディオ信号復号器は、ラップされた周波数ドメイン/時間ドメイン変換が使用されるTCX−LPDモードと、ラップされた周波数ドメイン/時間ドメイン変換が使用される周波数ドメインモードと、代数符号励起線形予測モードとの間の切替を実行する。この場合、オーディオ信号復号器は、TCX−LPDモードで符号化されたオーディオコンテンツの一部分と周波数ドメインモードで符号化されたオーディオコンテンツの一部分との間の遷移において、オーディオコンテンツの連続するオーバーラップ部分の時間ドメインサンプルの間でオーバーラップ加算操作を実行することにより、少なくとも部分的にエイリアシングを消去する。さらに、オーディオ信号復号器は、TCX−LPDモードで符号化されたオーディオコンテンツの一部分とACELPモードで符号化されたオーディオコンテンツの一部分との間の遷移において、エイリアシング消去合成信号を使用して、少なくとも部分的にエイリアシングを消去する。そのオーディオ信号復号器は、異なる操作モードの間の切換に良好に適合し、エイリアシングが非常に効率的に解消することが分かって来た。
本発明の好適な実施形態では、オーディオ信号復号器は、変換ドメイン経路(例えばTCX−LPD経路)の第1の周波数ドメイン/時間ドメイン変換器により提供される時間ドメイン表現のゲインスケーリングと、エイリアシング消去刺激信号又はエイリアシング消去合成信号のゲインスケーリングとに対し、共通のゲイン値を適用するよう構成されている。このように、第1の周波数ドメイン/時間ドメイン変換器により提供される時間ドメイン表現のスケーリングと、エイリアシング消去刺激信号又はエイリアシング消去合成信号のスケーリングとの両方に対し、この共通のゲイン値を再利用することで、異なるモードで符号化されたオーディオコンテンツの部分の間の遷移において必要とされるビットレートの削減が可能になる事実が分かって来た。異なるモードで符号化されたオーディオコンテンツの部分の間の遷移の環境において、エイリアシング消去刺激信号の符号化によってビットレートの必要条件が増大してしまう点を考えると、この事実は非常に重要である。
本発明の好適な実施形態では、オーディオ信号復号器は、線形予測ドメインパラメータの少なくとも1つのサブセットに依存してスペクトル成形を実行することに加え、スペクトル係数の第1セットの少なくとも1つのサブセットに対してスペクトル逆成形(de-shaping)を適用する。この場合、オーディオ信号復号器は、エイリアシング消去刺激信号が導出されたエイリアシング消去スペクトル係数のセットの少なくとも1つのサブセットに対し、スペクトル逆成形を適用するよう構成されている。スペクトル係数の第1セットと、エイリアシング消去刺激信号が導出されたエイリアシング消去スペクトル係数と、の両方に対してスペクトル逆成形を適用することで、エイリアシング消去合成信号は、第1の周波数ドメイン/時間ドメイン変換器により提供される「主たる」オーディオコンテンツ信号に対して良好に適合することが保証される。これによりまた、エイリアシング消去刺激信号の符号化効率が向上する。
本発明の好適な実施形態では、オーディオ信号復号器は、エイリアシング消去刺激信号を表現するスペクトル係数のセットに依存してエイリアシング消去刺激信号の時間ドメイン表現を得る、第2の周波数ドメイン/時間ドメイン変換器を含む。この場合、第1の周波数ドメイン/時間ドメイン変換器は、時間ドメインエイリアシングを含むラップされた変換を実行するよう構成され、第2の周波数ドメイン/時間ドメイン変換器は、ラップされていない変換を実行するよう構成されている。従って、「主たる」信号合成にとっては、ラップされた変換を使用することで、高い符号化効率を維持できる。しかし、エイリアシング消去は、周波数から時間ドメインへのラップされていない追加的な変換を使用して達成される。しかし、周波数ドメインから時間ドメインへのラップされた変換と、周波数ドメインから時間ドメインへのラップされていない変換との組み合わせは、周波数ドメインから時間ドメインへのラップされていない単一の遷移よりも効果的な遷移の符号化を可能にする。
本発明の好適な実施形態は、オーディオコンテンツの入力表現に基づいて、スペクトル係数の第1セットとエイリアシング消去刺激信号の表現と複数の線形予測ドメインパラメータとを含むオーディオコンテンツの符号化された表現を生成する、オーディオ信号符号器を提供する。前記オーディオ信号符号器は、オーディオコンテンツの入力表現を処理してオーディオコンテンツの周波数ドメイン表現を取得する、時間ドメイン/周波数ドメイン変換器を含む。前記オーディオ信号符号器は、線形予測ドメインで符号化されるべきオーディオコンテンツの一部のための線形予測ドメインパラメータの1セットに依存して、スペクトル係数の1セット又はその前処理済バージョンに対してスペクトル成形を適用し、オーディオコンテンツのスペクトル的に成形された周波数ドメインの表現を取得する、スペクトル処理器をさらに含む。前記オーディオ信号復号器は、線形予測ドメインパラメータの少なくとも1つのサブセットに依存するエイリアシング消去刺激信号のフィルタ処理が、オーディオ信号復号器内でエイリアシング・アーチファクトを消去するためのエイリアシング消去合成信号をもたらすように、エイリアシング消去刺激信号の表現を提供する、エイリアシング消去情報提供器をさらに含む。
ここで述べるオーディオ信号符号器は、上述したオーディオ信号符号器との協働に良好に適合している。特に、このオーディオ信号符号器は、異なるモードで符号化されたオーディオコンテンツの一部分(例えばフレームやサブフレーム)の間の遷移におけるエイリアシングを消去するために必要とされるビットレートオーバーヘッドが適度に小さく維持された、オーディオコンテンツの表現を提供するよう構成されている。
本発明に従う他の実施形態は、オーディオコンテンツの復号化された表現を生成する方法と、オーディオコンテンツの符号化された表現を生成する方法とを提供する。それらの方法は、上述した装置と同じ考えに基づくものである。
本発明に従う他の実施形態は、上述の方法の1つを実行するコンピュータプログラムを提供する。そのコンピュータプログラムも同じ考えに基づくものである。
本発明の実施例を、添付の図面を参照しながら以下に説明する。
本発明の一実施形態に従うオーディオ信号符号器のブロック図である。 本発明の一実施形態に従うオーディオ信号復号器の前半部分のブロック図である。 本発明の一実施形態に従うオーディオ信号復号器の後半部分のブロック図である。 統一されたスピーチ及びオーディオ符号化(USAC)草案標準の作業中の草案4に従う参照オーディオ信号復号器のブロック図である。 本発明の他の実施形態に従うオーディオ信号復号器のブロック図である。 (USAC)草案標準の作業中の草案4に従う参照用の窓遷移のグラフィック表現を示す。 本発明の一実施形態に従うオーディオ信号符号化で使用可能な窓遷移の概略図である。 本発明の一実施形態に従うオーディオ信号符号器又は本発明の一実施形態に従うオーディオ信号復号器で使用される、全ての窓のタイプについての大要を示す概略図である。 本発明の一実施形態に従うオーディオ信号符号器又は本発明の一実施形態に従うオーディオ信号復号器で使用可能な、許可された窓シーケンスを示す表である。 本発明の一実施形態に従うオーディオ信号符号器の第1部分の詳細なブロック図である。 本発明の一実施形態に従うオーディオ信号符号器の第2部分の詳細なブロック図である。 本発明の一実施形態に従うオーディオ信号符号器の第3部分の詳細なブロック図である。 本発明の一実施形態に従うオーディオ信号符号器の第4部分の詳細なブロック図である。 本発明の一実施形態に従うオーディオ信号復号器の第1部分の詳細なブロック図である。 本発明の一実施形態に従うオーディオ信号復号器の第2部分の詳細なブロック図である。 本発明の一実施形態に従うオーディオ信号復号器の第3部分の詳細なブロック図である。 本発明の一実施形態に従うオーディオ信号復号器の第4部分の詳細なブロック図である。 ACELPからの又はACELPへの遷移のための、前方エイリアシング消去(FAC:forward-aliasing-cancellation)復号化操作を示す概略図である。 符号器におけるFAC目標の計算を示す概略図である。 周波数ドメインノイズ成形(FDNS)におけるFAC目標の量子化を示す概略図である。 重み付き代数LPC逆量子化器の原理を示す概略図である。 周波数ドメイン・チャネルストリーム“fd_channel_stream()”のシンタックスを示す図である。 線形予測ドメイン・チャネルストリーム“lpc_channel_stream()”のシンタックスの前半を示す図である。 線形予測ドメイン・チャネルストリーム“lpc_channel_stream()”のシンタックスの後半を示す図である。 前方エイリアシング消去データ“fac_data()”のシンタックスを示す図である。
1.図1に従うオーディオ信号符号器
図1は本発明の一実施形態に従うオーディオ信号符号器100のブロック図である。オーディオ信号符号器100はオーディオコンテンツ110の入力表現を受信し、それを基に、オーディオコンテンツの符号化された表現112を提供するよう構成されている。オーディオコンテンツの符号化された表現112は、スペクトル係数の第1セット112aと、複数の線形予測ドメインパラメータ112bと、エイリアシング消去刺激信号の表現112cとを含む。
オーディオ信号符号器100は、オーディオコンテンツの入力表現110(又は同等的にその前処理済バージョン110’)を処理し、(スペクトル係数の1セットの形式でも良い)オーディオコンテンツの周波数ドメイン表現122を取得するよう構成されている。
オーディオ信号符号器100は、線形予測ドメインで符号化されるべきオーディオコンテンツの一部分のための線形予測ドメインパラメータの1セット140に依存して、オーディオコンテンツの周波数ドメイン表現122又はその前処理済バージョン122’に対してスペクトル成形を適用し、オーディオコンテンツのスペクトル的に成形された周波数ドメイン表現132を取得する、スペクトル処理手段130をさらに含む。スペクトル係数の第1セット112aは、オーディオコンテンツのスペクトル的に成形された周波数ドメイン表現132と同じでも良く、又は、オーディオコンテンツのスペクトル的に成形された周波数ドメイン表現132から導出されたものでも良い。
オーディオ信号符号器100はエイリアシング消去情報提供手段150をさらに含み、この情報提供手段150は、線形予測ドメインパラメータ140の少なくとも1つのサブセットに依存するエイリアシング消去刺激信号の処理が、オーディオ信号復号器内でエイリアシング・アーチファクトを消去するためのエイリアシング消去合成信号をもたらすような、エイリアシング消去刺激信号の表現112cを提供するよう構成されている。
線形予測ドメインパラメータ112bは、例えば線形予測ドメインパラメータ140と同じでも良いことに留意すべきである。
オーディオ信号符号器100は、たとえオーディオコンテンツの異なる部分(例えばフレームやサブフレーム)が異なるモードで符号化されている場合でも、オーディオコンテンツの再構築に良好に適合するような情報を提供する。線形予測ドメイン、例えば変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの部分については、時間ドメインから周波数ドメインへの変換後に、ノイズ成形を伴いかつ比較的小さなビットレートを用いたオーディオコンテンツの量子化を可能にするような、スペクトル成形が実行される。そのため、前記線形予測ドメインで符号化されたオーディオコンテンツの一部分であって、その前又は後に周波数ドメインモードで符号化されたオーディオコンテンツの一部分を有するような部分の、エイリアシングを消去するオーバーラップ加算が可能になる。線形予測ドメインパラメータ140をスペクトル成形に使用することで、スピーチ状のオーディオコンテンツに対してスペクトル成形が良好に適合し、その結果、スピーチ状のオーディオコンテンツについて特に良好な符号化効率が得られる。さらに、エイリアシング消去刺激信号の表現は、代数符号励起線形予測モードで符号化されたオーディオコンテンツの一部分(例えばフレームやサブフレーム)からの又はそのような一部分への遷移において、効率的なエイリアシング消去を可能にする。線形予測ドメインパラメータに依存してエイリアシング消去刺激信号の表現を提供することで、エイリアシング消去刺激信号の特に効率的な表現が得られ、その表現は、復号器側において、復号器ではいずれにしても既知である線形予測ドメインパラメータを考慮に入れて復号化されることができる。
要約すれば、オーディオ信号符号器100は、異なるモードで符号化されたオーディオコンテンツの部分の間の遷移を可能とすることに良好に適合し、しかも、特にコンパクトな形式でエイリアシング消去情報を提供することが可能である。
2.図2に従うオーディオ信号復号器
図2は本発明の一実施形態に従うオーディオ信号復号器200のブロック概略図である。オーディオ信号復号器200はオーディオコンテンツの符号化された表現210を受信して、それを基に、例えばエイリアシング低減済み時間ドメイン信号の形式でオーディオコンテンツの復号化された表現212を提供する。
オーディオ信号復号器200は、スペクトル係数の(第1の)セット220とエイリアシング消去刺激信号の表現224と複数の線形予測ドメインパラメータ222とに基づいて、変換ドメインモードで符号化されたオーディオコンテンツの時間ドメイン表現212を取得する、変換ドメイン経路(例えば変換符号化励起線形予測ドメイン経路)を含む。前記変換ドメイン経路は、線形予測ドメインパラメータ222の少なくとも1つのサブセットに依存して、スペクトル係数の(第1の)セット220に対してスペクトル成形を適用し、スペクトル係数の第1セット220のスペクトル的に成形されたバージョン232を取得する、スペクトル処理手段230を含む。前記変換ドメイン経路は、スペクトル係数の(第1の)セット220のスペクトル的に成形されたバージョン232に基づいて、オーディオコンテンツの時間ドメイン表現242を得る、(第1の)周波数ドメイン/時間ドメイン変換手段240をさらに含む。前記変換ドメイン経路は、線形予測ドメインパラメータ222の少なくとも1つのサブセットに依存して、(符号224で示す)エイリアシング消去刺激信号をフィルタ処理し、エイリアシング消去刺激信号からエイリアシング消去合成信号252を得る、エイリアシング消去刺激フィルタ250をさらに含む。変換ドメイン経路は、オーディオコンテンツの時間ドメイン表現242(又は同等的に、その後処理済バージョン242’)とエイリアシング消去合成信号252(又は同等的に、その後処理済バージョン252’)とを結合して、エイリアシング低減済み時間ドメイン信号212を得る、結合手段260をさらに含む。
オーディオ信号復号器200は、例えばスケーリング及び/又は周波数ドメイン・ノイズ成形を実行するスペクトル処理手段230の設定を、線形予測ドメインパラメータ222の少なくとも1つのサブセットから導出するための任意の処理270を含む。
オーディオ信号復号器200は、エイリアシング消去刺激フィルタ250の設定を導出するよう構成された任意の処理280をさらに含み、そのエイリアシング消去刺激信号250は、例えば線形予測ドメインパラメータ222の少なくとも1つのサブセットから、エイリアシング消去合成信号252を合成するための合成フィルタ処理を実行しても良い。
オーディオ信号復号器200は、オーディオコンテンツを表現しかつ周波数ドメインの操作モードで得られた時間ドメイン信号と、オーディオコンテンツを表現しかつACELPの操作モードで得られた時間ドメイン信号と、の両方に対する結合に良好に適合するような、エイリアシング低減済み時間ドメイン信号212を提供するよう構成されている。(図2では示されない周波数ドメイン経路を用いた)周波数ドメインの操作モードを使用して復号化されたオーディオコンテンツの部分(例えばフレーム)と、図2の変換ドメイン経路を使用して復号化されたオーディオコンテンツの部分(例えばフレーム又はサブフレーム)と、の間においては、特に良好なオーバーラップ加算特性が存在する。なぜなら、スペクトル処理手段230により、周波数ドメインで、即ち周波数ドメイン/時間ドメイン変換240の前に、ノイズ成形が実行されるからである。さらに、図2の変換ドメイン経路を使用して復号化されたオーディオコンテンツの部分(例えばフレーム又はサブフレーム)と、ACELP復号化経路を使用して復号化されたオーディオコンテンツの部分(例えばフレーム又はサブフレーム)との間においても、特に良好なエイリアシング消去が得られる。なぜなら、線形予測ドメインパラメータに依存するエイリアシング消去刺激信号のフィルタ処理に基づいて、エイリアシング消去合成信号252が提供されたからである。このようにして得られたエイリアシング消去合成信号252は、TCX−LPDモードで符号化されたオーディオコンテンツの一部分と、ACELPモードで符号化されたオーディオコンテンツの一部分との間の遷移において発生するエイリアシング・アーチファクトに対して一般的に良好に適合する。オーディオ信号復号化の操作に関する更なる任意の詳細について、以下に説明する。
3.図3aと図3bに従う切替型オーディオ復号器
以下に、図3aと図3bを参照しながらマルチモード・オーディオ信号復号器の概念を簡単に説明する。
3.1 図3aに従うオーディオ信号復号器300
図3aは参照マルチモード・オーディオ信号復号器のブロック概略図であり、図3bは本発明の一実施形態に従うマルチモード・オーディオ信号復号器のブロック概略図である。換言すれば、図3aは(例えばUSAC草案標準の作業中の草案4に従う)参照システムの基本的な復号器信号フローを示し、図3bは本発明の一実施形態に従う提案システムの基本的な復号器信号フローを示す。
オーディオ信号復号器300を、まず図3aを参照しながら説明する。オーディオ信号復号器300は、入力ビットストリームを受信してそのビットストリーム内に含まれた情報を処理分枝の適切な処理ユニットへと提供するよう構成された、ビットマルチプレクサ310を含む。
オーディオ信号復号器300は周波数ドメインモード経路320を備え、その経路320は、スケールファクタ情報322と符号化されたスペクトル係数情報324とを受け取り、それらを基にして、周波数ドメインモードで符号化されたオーディオフレームの時間ドメイン表現326を生成する。オーディオ信号復号器300は変換符号化励起線形予測ドメイン経路330をさらに備え、その経路330は、符号化された変換符号化励起情報332と、線形予測係数情報334(線形予測符号化情報、線形予測ドメイン情報又は線形予測符号化フィルタ情報とも称される)とを受け取り、それらを基にして、変換符号化励起線形予測ドメイン(TCX−LPD)モードで符号化されたオーディオフレーム又はオーディオサブフレームの時間ドメイン表現336を生成する。オーディオ信号復号器300は代数符号励起線形予測(ACELP)経路340をさらに備え、この経路340は、符号化された励起情報342と、線形予測符号化情報344(線形予測係数情報、線形予測ドメイン情報又は線形予測符号化フィルタ情報とも称される)とを受け取り、それらを基にして、ACELPモードで符号化されたオーディオフレーム又はサブフレームの表現として、時間ドメインの線形予測符号化情報346を生成する。オーディオ信号復号器300は遷移窓処理手段(transition windowing)350をさらに備え、この処理手段350は、オーディオコンテンツの異なるモードで符号化されたフレーム又はサブフレームの時間ドメイン表現326、336、346を受け取り、それら時間ドメイン表現をある遷移窓処理を用いて結合するよう構成されている。
周波数ドメイン経路320は、符号化されたスペクトル表現324を復号化して復号化済みスペクトル表現320bを取得する算術復号手段320aと、その復号化済みスペクトル表現320bを基にして逆量子化されたスペクトル表現320dを得る逆量子化手段320cと、その逆量子化されたスペクトル表現320dをスケールファクタに依存してスケールし、スケールされたスペクトル表現320fを得るスケール手段320eと、そのスケールされたスペクトル表現320fを基にして時間ドメイン表現326を得る(逆)変形離散コサイン変換手段320gと、を含む。
TCX−LPD分枝330は、符号化されたスペクトル表現332を基にして復号化済みスペクトル表現330bを得る算術復号手段330aと、その復号化済みスペクトル表現330bを基にして逆量子化されたスペクトル表現330dを提供する逆量子化手段330cと、その逆量子化されたスペクトル表現330dを基にして励起信号330fを提供する(逆)変形離散コサイン変換手段330eと、その励起信号330fと(時には線形予測ドメインフィルタ係数とも称される)線形予測符号化フィルタ係数334とを基にして時間ドメイン表現336を提供する線形予測符号化合成フィルタ330gと、を含む。
ACELP分枝340は、符号化された励起信号342に基づいてACELP励起信号340bを提供するACELP励起処理手段340aと、そのACELP励起信号340b及び線形予測符号化フィルタ係数344に基づいて時間ドメイン表現346を提供する線形予測符号化合成フィルタ340cと、を含む。
3.2 図4に従う遷移窓処理
図4を参照しながら、遷移窓処理350についてさらに詳細に説明する。まず、オーディオ信号復号器300の一般的なフレーミング構造を説明する。しかし、微小な差異しかない非常に良く似たフレーミング構造、又は同一の一般的フレーミング構造が、本明細書で説明する他のオーディオ信号符号器又は復号器において使用されることに留意すべきである。また、オーディオフレームは典型的にはN個のサンプルの長さを持ち、そのNは2048と同一であっても良いことにも留意すべきである。オーディオコンテンツの連続するフレームは、およそ50%の割合で、例えばN/2個のオーディオサンプル分だけオーバーラップしていても良い。オーディオフレームは、1つのオーディオフレームのN個の時間ドメインサンプルが、例えばN/2個のスペクトル係数からなる1セットによって表現されるように、周波数ドメインで符号化されても良い。代替的に、1つのオーディオフレームのN個の時間ドメインサンプルが、複数のセット、例えば各128個のスペクトル係数からなる例えば8つのセットによって表現されても良い。それにより、一層高い時間的分解能を得ることができる。
もし1つのオーディオフレームのN個の時間ドメインサンプルがスペクトル係数の単一のセットを用いて周波数ドメインモードで符号化された場合には、逆変形離散コサイン変換320gによって提供される時間ドメインサンプル326に対し、例えば所謂“STOP_START”窓、“AAC Long”窓、“AAC Start”窓、又は“AAC Stop”窓のような単一の窓が適用されても良い。反対に、もし1つのオーディオフレームのN個の時間ドメインサンプルがスペクトル係数の複数のセットを用いて符号化された場合には、スペクトル係数の異なるセットを使用して取得された時間ドメイン表現を窓処理するために、複数の短い窓、例えばタイプ“AAC Short”などが適用されても良い。例えば、単一のオーディオフレームに関連したスペクトル係数の個別のセットに基づいて取得された各時間ドメイン表現に対し、別個の短い窓が適用されても良い。
線形予測ドメインモードで符号化されたオーディオフレームは、、時には「フレーム」とも称される複数のサブフレームへとサブ分割されても良い。サブフレームの各々は、TCX−LPDモード又はACELPモードで符号化されても良い。但し、TCX−LPDモードにおいては、2個のサブフレーム又は4個のサブフレームでさえも、変換符号化励起を記述するスペクトル係数の単一のセットを用いて一緒に符号化されても良い。
TCX−LPDモードで符号化された1つのサブフレーム(又は2個若しくは4個のサブフレームからなる一群)は、スペクトル係数の1セットと、線形予測符号化フィルタ係数の1つ又は複数のセットとにより表現されても良い。ACELPドメインで符号化されたオーディオコンテンツの1つのサブフレームは、符号化されたACELP励起信号と、線形予測符号化フィルタ係数の1つ又は複数のセットとにより表現されても良い。
図4を参照しながら、フレーム又はサブフレーム間の遷移の構成を説明する。図4に示す概略図では、横軸402a−402iはオーディオサンプルに関する時間を示し、縦軸404a−404iは窓関数及び/又は時間ドメインサンプルが供給される時間領域(temporal regions)を示す。
参照番号410では、周波数ドメイン(FD)で符号化された2つのオーバーラップしているフレーム間の遷移を示す。参照番号420では、ACELPモードで符号化されたサブフレームから周波数ドメインモードで符号化されたフレームへの遷移を示す。参照番号430では、(“wLPT”モードとしても称される)TCX−LPDモードで符号化されたフレーム(又はサブフレーム)から周波数ドメインモードで符号化されたフレームへの遷移を示す。参照番号440では、周波数ドメインモードで符号化されたフレームからACELPモードで符号化されたサブフレームへの遷移を示す。参照番号450では、ACELPモードで符号化されたサブフレーム同士間の遷移を示す。参照番号460では、TCX−LPDモードで符号化されたサブフレームからACELPモードで符号化されたサブフレームへの遷移を示す。参照番号470では、周波数ドメインモードで符号化されたフレームからTCX−LPDモードで符号化されたサブフレームへの遷移を示す。参照番号480では、ACELPモードで符号化されたサブフレームからTCX−LPDモードで符号化されたサブフレームへの遷移を示す。参照番号490では、TCX−LPDモードで符号化されたサブフレーム同士間の遷移を示す。
興味深いことに、参照番号430で示されたTCX−LPDモードから周波数ドメインモードへの遷移は、復号器に伝送された情報の一部が捨てられたという事実から、幾分かは非効率的、又はTCX−LPDに関して非常に非効率的とも言える。同様に、参照番号460と480で示されたACELPモードとTCX−LPDモードとの間の遷移も、復号器に伝送された情報の一部が捨てられたという事実から、非効率的に構成されている。
3.3 図3bに従うオーディオ信号復号器360
以下に、本発明の実施形態に従うオーディオ信号復号器360について説明する。
オーディオ信号復号器360は、オーディオコンテンツのビットストリーム表現361を受信し、それに基づいてオーディオ信号復号器360の異なる分枝へと情報要素を提供するよう構成された、ビットストリームマルチプレクサ又はビットストリームパーサ362を備えている。
オーディオ信号復号器360は周波数ドメイン分枝370を含み、その分枝370は、符号化済みスケールファクタ情報372と符号化されたスペクトル情報374とをビットストリームマルチプレクサ362から受け取り、それらを基にして、周波数ドメインモードで符号化されたフレームの時間ドメイン表現376を提供する。オーディオ信号復号器360はTCX−LPD経路380をさらに備え、その経路380は、符号化済みスペクトル係数382と符号化済み線形予測符号化フィルタ係数384とを受け取り、それらを基にして、TCX−LPDモードで符号化されたオーディオフレーム又はオーディオサブフレームの時間ドメイン表現386を提供する。
オーディオ信号復号器360はACELP経路390をさらに備え、この経路390は、符号化されたACELP励起信号392と符号化済み線形予測符号化フィルタ係数394とを受け取り、それらを基にして、ACELPモードで符号化されたオーディオサブフレームの時間ドメイン表現396を提供する。
オーディオ信号復号器360は遷移窓処理手段398をさらに備え、その処理手段398は、異なるモードで符号化されたフレーム及びサブフレームの時間ドメイン表現376、386、396に対して適切な遷移窓処理を適用し、連続的なオーディオ信号を導出するよう構成されている。
ここで、周波数ドメイン分枝370は、その全般的な構造と機能において周波数ドメイン分枝320と同じであっても良い。但し、周波数ドメイン分枝370が別の又は追加的なエイリアシング消去のメカニズムを有しても良い。さらに、ACELP分枝390は、その全般的な構造と機能においてACELP分枝340と同じであっても良く、上述の説明がここでも適用される。
一方、TCX−LPD分枝380は、逆変形離散コサイン変換の前にノイズ成形が実行されるという点で、TCX−LPD分枝330と異なる。さらに、TCX−LPD分枝380は追加的なエイリアシング消去機能を含む。
TCX−LPD分枝380は、符号化されたスペクトル表現382を受け取り、それに基づいて復号化済みスペクトル表現380bを提供する算術復号手段380aを含む。TCX−LPD分枝380は、その復号化済みスペクトル表現380bを受け取り、それに基づいて逆量子化されたスペクトル表現380dを提供する逆量子化手段380cをさらに含む。TCX−LPD分枝380はスケーリング及び/又は周波数ドメイン・ノイズ成形手段380eをさらに含み、そのノイズ成形手段380eは、逆量子化されたスペクトル表現380dとスペクトル成形情報380fとを受け取り、それらを基にして、スペクトル的に成形されたスペクトル表現380gを生成し、逆変形離散コサイン変換手段380hへと提供する。この逆変形離散コサイン変換手段380hは、スペクトル的に成形されたスペクトル表現380gを基にして、時間ドメイン表現386を提供する。TCX−LPD分枝380は、線形予測係数から周波数ドメインへの変換手段380iをさらに含み、この変換手段380iは、線形予測符号化フィルタ係数384を基にしてスペクトルスケーリング情報380fを提供するものである。
オーディオ復号器360の機能に関し、周波数ドメイン分枝370とTCX−LPD分枝380とは、算術復号化と逆量子化とスペクトルスケーリングと逆変形離散コサイン変換とを同じ処理順序で含む処理系列をそれぞれ有しているという点において、類似度が高いと言える。従って、周波数ドメイン分枝370の出力信号376とTCX−LPD分枝380の出力信号386とは、逆変形離散コサイン変換の(遷移窓処理を除く)フィルタ処理されていない出力信号であっても良いという点で、類似度が高いと言える。そのため、時間ドメイン信号376と386は、オーバーラップ加算操作に対して良好に適合しており、オーバーラップ加算操作によって時間ドメインエイリアシング消去が達成される。このように、周波数ドメインで符号化されたオーディオフレームとTCX−LPDモードで符号化されたオーディオフレーム又はオーディオサブフレームとの間の遷移は、追加的なエイリアシング消去情報を必要とせず、またどの情報を捨てることもなく、単純なオーバーラップ加算操作によって効率的に実行することができる。従って、最小量のサイド情報で十分となる。
周波数ドメイン経路370においてスケールファクタ情報に依存して実行される、逆量子化済スペクトル表現のスケーリングは、符号器側の量子化と復号器側の逆量子化320cとに起因する量子化ノイズのノイズ成形を効果的にもたらす。このノイズ成形は、例えば音楽信号のような一般的なオーディオ信号に良好に適合する。対照的に、線形予測符号化フィルタ係数に依存して実行される、スケーリング及び/又は周波数ドメインノイズ成形380eは、符号器側の量子化と復号器側の逆量子化380cとに起因する量子化ノイズのノイズ成形を効果的にもたらす。このノイズ成形は、スピーチ状のオーディオ信号に良好に適合する。従って、周波数ドメイン分枝370とTCX−LPD分枝380との違いは、周波数ドメインで異なるノイズ成形が適用されるという点だけであり、その結果、周波数ドメイン分枝370を使用する場合には一般的なオーディオ信号にとって符号化効率(又はオーディオ品質)が特に良好となり、TCX−LPD分枝380を使用する場合にはスピーチ状のオーディオ信号にとって符号化効率又はオーディオ品質が特に高くなる。
TCX−LPD分枝380は、TCX−LPDモードとACELPモードで符号化されたオーディオフレーム又はオーディオサブフレームの間における遷移のために、好適には追加のエイリアシング消去メカニズムを含む。以下に詳細を説明する。
3.4 図5に従う遷移窓処理
図5は、想定される窓処理スキームの例を図式的に表現したものであり、本発明に従うオーディオ信号復号器360又は他の任意のオーディオ信号符号器及び復号器に対して適用可能である。図5は、異なるモードで符号化されたフレーム又はサブフレーム間で起こり得る遷移における窓処理を表す。横軸502a−502iはオーディオサンプルに関する時間を示し、縦軸504a−504iは窓関数又はオーディオコンテンツの時間ドメイン表現を提供するサブフレームを示す。
参照番号510は、周波数ドメインモードで符号化された連続するフレーム間の遷移を示す。図から分かるように、1番目のフレームの右半分のために(例えば逆変形離散コサイン変換(MDCT)320gによって)供給された時間ドメインサンプルは、例えば窓タイプ“AAC Long”又は窓タイプ“AAC Stop”の窓関数であっても良い、ある窓関数の右半分512によって窓処理される。同様に、後続の2番目のフレームの左半分のために(例えばMDCT320gによって)供給された時間ドメインサンプルは、例えば窓タイプ“AAC Long”又は窓タイプ“AAC Start”の窓関数であっても良い、ある窓関数の左半分514を使用して窓処理されても良い。前記右半分512は、例えば比較的長い右側の遷移傾斜を持っても良く、後続の窓の左半分514は、比較的長い左側の遷移傾斜を持っても良い。1番目のオーディオフレームの時間ドメイン表現の(前記窓の右半分512を用いて窓処理された)窓処理済バージョンと、2番目のオーディオフレームの時間ドメイン表現の(前記窓の左半分514を用いて窓処理された)窓処理済バージョンとは、オーバーラップされて加算される。従って、MDCTから発生するエイリアシングは、効果的に消去される可能性がある。
参照番号520は、ACELPモードで符号化されたサブフレームから周波数ドメインモードで符号化されたフレームへの遷移を示す。このような遷移では、エイリアシング・アーチファクトを低減させるため、前方エイリアシング消去(FAC)が適用されても良い。
参照番号530は、TCX−LPDモードで符号化されたサブフレームから周波数ドメインモードで符号化されたフレームへの遷移を示す。図から分かるように、TCX−LPD経路の逆MDCT380hにより提供された時間ドメインサンプルに対し、窓関数532が適用され、この窓関数532は、例えば窓タイプ“TCX256”,“TCX512”又は“TCX1024”の窓関数であっても良い。窓関数532は、128個の時間ドメインサンプルの長さを持つ右側遷移傾斜533を持っていても良い。窓関数534は、周波数ドメインモードで符号化された後続のオーディオフレームのために周波数ドメイン経路370のMDCTにより提供された時間ドメインサンプルに対して適用される。この窓関数534は、例えば窓タイプ“Stop Start”又は“AAC Stop”の窓関数であっても良く、例えば128個の時間ドメインサンプルの長さを持つ左側遷移傾斜535を持っていても良い。TCX−LPDモードサブフレームの右側遷移傾斜533により窓処理された時間ドメインサンプルと、後続の周波数ドメインモードで符号化されたオーディオフレームの左側遷移傾斜535により窓処理された時間ドメインサンプルとが、オーバーラップ加算される。遷移傾斜533と535とは、TCX−LPDモードで符号化されたサブフレームから後続の周波数ドメインモードで符号化されたサブフレームへの遷移においてエイリアシング消去が得られるように、マッチされる。エイリアシング消去は、逆MDCT380hを実施する前にスケーリング/周波数ドメイン・ノイズ成形380eを実施することで可能となる。換言すれば、周波数ドメイン経路370の逆MDCT320gとTCX−LPD経路380の逆MDCT380hとの両方に対し、(例えばスケールファクタに依存するスケーリングやLPCフィルタ係数に依存するスケーリングの形式で)既にノイズ成形がされたスペクトル係数が与えられたという事実によって、エイリアシング消去がもたらされるのである。
参照番号540は、周波数ドメインモードで符号化されたオーディオフレームからACELPモードで符号化されたサブフレームへの遷移を示す。図から分かるように、この遷移におけるエイリアシング・アーチファクトを低減又は除去するために、前方エイリアシング消去(FAC)が適用される。
参照番号550は、ACELPモードで符号化された1つのオーディオサブフレームからACELPモードで符号化された他のオーディオサブフレームへの遷移を示す。いくつかの実施形態のこのような場合では、特別なエイリアシング消去処理は不要となる。
参照番号560は、(wLPTモードとも示される)TCX−LPDモードで符号化されたサブフレームからACELPモードで符号化されたサブフレームへの遷移を示す。図から分かるように、TCX−LPD分枝380のMDCT380hにより提供された時間ドメインサンプルは、例えば窓タイプ“TCX256”,“TCX512”又は“TCX1024”の窓関数であっても良い、窓関数562を使用して窓処理される。窓関数562は、比較的短い右側遷移傾斜563を含む。ACELPモードで符号化された後続のオーディオサブフレームについて提供された時間ドメインサンプルは、TCX−LPDモードで符号化された先行するオーディオサブフレームについて提供されたオーディオサンプルであって窓関数562の右側遷移傾斜563によって窓処理されたオーディオサンプルと、部分的な時間的オーバーラップを含む。ACELPモードで符号化されたオーディオサブフレームについて提供された時間ドメインオーディオサンプルは、参照番号564で示すブロックによって示す。
図から分かるように、TCX−LPDモードで符号化されたオーディオフレームからACELPモードで符号化されたオーディオフレームへの遷移においては、エイリアシング・アーチファクトを低減又は除去するために前方エイリアシング消去信号566が追加される。このエイリアシング消去信号566の生成に関する詳細は、後述する。
参照番号570は、周波数ドメインモードで符号化されたフレームから後続のTCX−LPDモードで符号化されたフレームへの遷移を示す。周波数ドメイン経路370の逆MDCT320gによって提供される時間ドメインサンプルは、比較的短い右側遷移傾斜573を含む窓関数572、例えばタイプ“Stop Start”の窓関数又はタイプ “AAC Stop”の窓関数によって窓処理されても良い。TCX−LPDモードで符号化された後続のオーディオサブフレームについてTCX−LPD分枝380の逆MDCT380hにより提供された時間ドメイン表現は、比較的短い左側遷移傾斜575を含む窓関数574により窓処理されても良く、その窓関数574は、例えば窓タイプ“TCX256”,“TCX512”又は“TCX1024”の窓関数であっても良い。右側遷移傾斜573により窓処理された時間ドメインサンプルと左側遷移傾斜575により窓処理された時間ドメインサンプルとは、遷移窓処理手段398により、エイリアシング・アーチファクトが低減又は除去されるようにオーバーラップ加算される。そのため、周波数ドメインモードで符号化されたオーディオフレームからTCX−LPDモードで符号化されたオーディオサブフレームへの遷移を実行するために、追加的なサイド情報は必要でない。
参照番号580は、ACELPモードで符号化されたオーディオフレームから(wLPTモードとも示される)TCX−LPDモードで符号化されたオーディオフレームへの遷移を示す。時間ドメインサンプルがACELP分枝390によって提供される時間領域は、参照番号582で示される。ある窓関数584が、TCX−LPD分枝380の逆MDCT380hにより提供された時間ドメインサンプルに対して適用される。窓関数584は、例えば窓タイプ“TCX256”,“TCX512”又は“TCX1024”の窓関数であっても良く、比較的短い左側遷移傾斜585を含んでいても良い。窓関数584のその左側遷移傾斜585は、ブロック582で表されACELP分枝から提供された時間ドメインサンプルと部分的にオーバーラップしている。さらに、ACELPモードで符号化されたサブフレームからTCX−LPDモードで符号化されたサブフレームへの遷移において発生するエイリアシング・アーチファクトを低減又は除去するために、エイリアシング消去信号586が提供される。このエイリアシング消去信号586の生成に関する詳細は後述する。
参照番号590は、TCX−LPDモードで符号化されたオーディオサブフレームからTCX−LPDモードで符号化された他のオーディオサブフレームへの遷移を示す。TCX−LPDモードで符号化された1番目のオーディオサブフレームの時間ドメインサンプルは、窓関数592を使用して窓処理され、その窓関数592は、例えばタイプ“TCX256”,“TCX512”又は“TCX1024”の窓関数であっても良く、比較的短い右側遷移傾斜593を含んでいても良い。TCX−LPD分枝380の逆MDCT380hにより提供され、TCX−LPDモードで符号化された2番目のオーディオサブフレームの時間ドメインオーディオサンプルは、例えば窓関数594を使用して窓処理され、その窓関数594は、例えば窓タイプ“TCX256”,“TCX512”又は“TCX1024”の窓関数であっても良く、比較的短い左側遷移傾斜595を含んでいても良い。右側遷移傾斜593を使用して窓処理された時間ドメインサンプルと左側遷移傾斜595を使用して窓処理された時間ドメインサンプルとは、遷移窓処理手段398によりオーバーラップ加算される。そのため、(逆)MDCT380hに起因するエイリアシングが低減又は除去される。
4.全ての窓関数タイプの概略
以下に、全ての窓関数タイプの概略を示す。その目的で、様々な窓関数タイプとその特性を図式化して表す図6を参照されたい。図6の表では、縦列610は左側遷移傾斜の長さに等しくても良い左側オーバーラップ長を示す。縦列612は、変換長すなわち各窓関数によって窓処理された時間ドメイン表現を生成するために使用されるスペクトル係数の個数を示す。縦列614は右側遷移傾斜の長さに等しくても良い右側オーバーラップ長を示す。縦列616は窓関数の名前を示す。縦列618は各窓関数を図式化したものである。
1番目の横列630は、タイプ“AAC Short”の窓関数の特性を示す。2番目の横列632は、タイプ“TCX256”の窓関数の特性を示す。3番目の横列634は、タイプ“TCX512”の窓関数の特性を示す。4番目の横列636は、タイプ“TCX1024”及び“Stop Start”の窓関数の特性を示す。5番目の横列638は、タイプ“AAC Long”の窓関数の特性を示す。6番目の横列640は、タイプ“AAC Start”の窓関数の特性を示し、7番目の横列642は、タイプ“AAC Stop”の窓関数の特性を示す。
特に、タイプ“TCX256”,“TCX512”及び“TCX1024”の窓関数の遷移傾斜は、タイプ“AAC Start”の窓関数の右側遷移傾斜、及びタイプ“AAC Stop”の窓関数の左側遷移傾斜に適合しており、異なるタイプの窓関数を使用して窓処理された時間ドメイン表現をオーバーラップ加算することによって時間ドメイン・エイリアシング消去を可能にする。好適な実施形態においては、同一の左側オーバーラップ長を有する全ての窓関数タイプの左側窓関数傾斜(遷移傾斜)は同一でも良く、同一の右側オーバーラップ長を有する全ての窓関数タイプの右側遷移傾斜は同一でも良い。さらに、同一のオーバーラップ長を有する左側遷移傾斜と右側遷移傾斜とは、MDCTエイリアシング消去のための条件を満たし、エイリアシング消去を可能にするよう適合していても良い。
5.許可された窓関数シーケンス
以下に、図7を参照しながら許可された窓関数シーケンスについて説明する。図7は許可された窓関数シーケンスを表で示したものである。図7の表から分かるように、周波数ドメインモードで符号化されたオーディオフレームであってその時間ドメインサンプルがタイプ“AAC Stop”の窓関数を用いて窓処理されたフレームの次には、周波数ドメインモードで符号化されたオーディオフレームであってその時間ドメインサンプルがタイプ“AAC Long”の窓関数か又はタイプ“AAC Start”の窓関数を用いて窓処理されたフレームが続いても良い。
周波数ドメインモードで符号化されたオーディオフレームであって、その時間ドメインサンプルがタイプ“AAC Long”の窓関数を用いて窓処理されたフレームの次には、周波数ドメインモードで符号化されたオーディオフレームであって、その時間ドメインサンプルがタイプ“AAC Long”又はタイプ“AAC Start”の窓関数を用いて窓処理されたフレームが続いても良い。
線形予測モードで符号化されたオーディオフレームであって、その時間ドメインサンプルがタイプ“AAC Start”の1個の窓関数、タイプ“AAC Short”の8個の窓関数又はタイプ“AAC StopStart”の1個の窓関数を用いて窓処理されたフレームの次には、周波数ドメインモードで符号化されたオーディオフレームであって、その時間ドメインサンプルがタイプ“AAC Short”の8個の窓関数、タイプ“AAC Stop”の1個の窓関数又はタイプ“AAC StopStart”の1個の窓関数を用いて窓処理されたフレームが続いても良い。代替的に、周波数ドメインモードで符号化されたオーディオフレームであって、その時間ドメインサンプルがタイプ“AAC Start”の1個の窓関数、タイプ“AAC Short”の8個の窓関数又はタイプ“AAC StopStart”の1個の窓関数を用いて窓処理されたフレームの次には、TCX−LPD(LPD−TCXとも示す)モードで符号化されたオーディオフレーム若しくはサブフレーム、又はACELP(LPD ACELPとも示す)モードで符号化されたオーディオフレーム若しくはサブフレームが続いても良い。
TCX−LPDモードで符号化されたオーディオフレーム又はサブフレームの次には、周波数ドメインモードで符号化されたオーディオフレームであって、その時間ドメインサンプルが8個の“AAC Short”窓関数、1個の“AAC Stop”窓関数、1個の“AAC StopStart”窓関数を用いて窓処理されたフレーム、TCX−LPDモードで符号化されたオーディオフレーム若しくはサブフレーム、又はACELPモードで符号化されたオーディオフレーム若しくはサブフレームが続いても良い。
ACELPモードで符号化されたオーディオフレームの次には、周波数ドメインモードで符号化されたオーディオフレームであってその時間ドメインサンプルが8個の“AAC Short”窓関数、1個の“AAC Stop”窓関数、1個の“AAC StopStart”窓関数を用いて窓処理されたフレーム、TCX−LPDモードで符号化されたオーディオフレーム、又はACELPモードで符号化されたオーディオフレームが続いても良い。
ACELPモードで符号化されたオーディオフレームから周波数ドメインモードで符号化されたオーディオフレーム又はTCX−LPDモードで符号化されたオーディオフレームへの遷移においては、いわゆる前方エイリアシング消去(FAC)が実行される。そのようなフレーム遷移においては、時間ドメイン表現に対してエイリアシング消去合成信号が追加され、その結果、エイリアシング・アーチファクトが低減又は除去される。同様に、周波数ドメインモードで符号化されたフレーム若しくはサブフレームから、又はTCX−LPDモードで符号化されたフレーム若しくはサブフレームから、ACELPモードで符号化されたフレーム若しくはサブフレームへと切り替える時にも、FACが実行される。
FACに関する詳細については後述する。
6.図8に従うオーディオ信号符号器
以下に、図8を参照しながらマルチモード・オーディオ信号符号器800について説明する。
オーディオ信号符号器800は、オーディオコンテンツの入力表現810を受け取り、それに基づいてオーディオコンテンツを表現するビットストリーム812を提供するよう構成されている。オーディオ信号符号器800は、異なる操作モード、即ち周波数ドメインモードと変換符号化励起線形予測ドメインモードと代数符号励起線形予測ドメインモードとで操作するよう構成されている。オーディオ信号符号器800は符号化制御手段814を備え、その符号化制御手段814は、オーディオコンテンツの一部分を符号化するために、オーディオコンテンツの入力表現810の特性及び/又は達成可能な符号化効率若しくは品質に依存して、前記モード内の1つを選択するよう構成されている。
オーディオ信号符号器800は周波数ドメイン分枝820を備え、その周波数ドメイン分枝820は、オーディオコンテンツの入力表現810を基にして、符号化済みスペクトル係数822と、符号化済みスケールファクタ824と、任意ではあるが符号化されたエイリアシング消去係数826とを提供する。オーディオ信号符号器800はTCX−LPD分枝850をさらに備え、そのTCX−LPD分枝850は、オーディオコンテンツの入力表現810を基にして、符号化済みスペクトル係数852と、符号化済み線形予測ドメインパラメータ854と、符号化されたエイリアシング消去係数856とを提供する。オーディオ信号符号器800はACELP分枝880をさらに備え、そのACELP分枝880は、オーディオコンテンツの入力表現810を基にして、符号化されたACELP励起信号882と符号化済み線形予測ドメインパラメータ884とを提供する。
周波数ドメイン分枝820は、オーディオコンテンツの入力表現810又はその前処理済バージョンを受け取り、かつそれに基づいてオーディオコンテンツの周波数ドメイン表現832を提供する、時間ドメイン/周波数ドメイン変換手段830を含む。周波数ドメイン分枝820は、オーディオコンテンツの周波数マスキング効果及び/又は時間マスキング効果を評価し、かつそれに基づいてスケールファクタを記述するスケールファクタ情報836を提供する、聴覚心理分析手段834をさらに含む。周波数ドメイン分枝820はスペクトル処理手段838をさらに含み、このスペクトル処理手段838は、オーディオコンテンツの周波数ドメイン表現832とスケールファクタ情報836とを受け取り、そのスケールファクタ情報836に依存して、周波数ドメイン表現832のスペクトル係数に対して周波数依存及び時間依存のスケーリングを適用することで、オーディオコンテンツのスケールされた周波数ドメイン表現840を取得する。周波数ドメイン分枝は量子化/符号化手段842をさらに含み、この量子化/符号化手段842は、スケールされた周波数ドメイン表現840を受け取り、そのスケールされた周波数ドメイン表現840を基にして量子化及び符号化を実行することで、符号化済みスペクトル係数822を取得する。周波数ドメイン分枝820は量子化/符号化手段844をさらに含み、この量子化/符号化手段844は、スケールファクタ情報836を受け取り、そのスケールファクタ情報836を基にして符号化済みスケールファクタ情報824を提供する。任意ではあるが、周波数ドメイン分枝820は、エイリアシング消去係数826を提供できるエイリアシング消去係数計算手段846をさらに含んでも良い。
TCX−LPD分枝850は時間ドメイン/周波数ドメイン変換手段860を含み、この変換手段860は、オーディオコンテンツの入力表現810を受け取り、それに基づいて、オーディオコンテンツの周波数ドメイン表現861を提供する。TCX−LPD分枝850は線形予測ドメインパラメータ計算手段862をさらに含み、この計算手段862は、オーディオコンテンツの入力表現810又はその前処理済バージョンを受け取り、そのオーディオコンテンツの入力表現810から、1つ又は複数の線形予測ドメインパラメータ(例えば線形予測符号化フィルタ係数)863を導出する。TCX−LPD分枝850は線形予測ドメインからスペクトルドメインへの変換手段864をさらに含み、この変換手段864は、線形予測ドメインパラメータ(例えば線形予測符号化フィルタ係数)863を受け取り、それに基づいてスペクトルドメイン表現又は周波数ドメイン表現865を提供する。線形予測ドメインパラメータのスペクトルドメイン表現又は周波数ドメイン表現は、例えば周波数ドメイン又はスペクトルドメインで線形予測ドメインパラメータによって定義されたフィルタのフィルタ応答を表現しても良い。TCX−LPD分枝850はスペクトル処理手段866をさらに含み、この処理手段866は、周波数ドメイン表現861又はその前処理済バージョン861’と、線形予測ドメインパラメータ863の周波数ドメイン表現又はスペクトルドメイン表現とを受け取り、周波数ドメイン表現861又はその前処理済バージョン861’のスペクトル成形を実行する。ここで、線形予測ドメインパラメータ863の周波数ドメイン表現又はスペクトルドメイン表現865は、周波数ドメイン表現861又はその前処理済バージョン861’の様々なスペクトル係数のスケーリングを調整する役割を果たす。このような方法で、スペクトル処理手段866は、線形予測ドメインパラメータ863に依存して、周波数ドメイン表現861又はその前処理済バージョン861’のスペクトル的に成形されたバージョン867を提供する。TCX−LPD分枝850は、スペクトル的に成形された周波数ドメイン表現867を受け取り、それに基づいて符号化済みスペクトル係数852を提供する、量子化/符号化手段868をさらに含む。TCX−LPD分枝850は、線形予測ドメインパラメータ863を受け取り、それに基づいて符号化済み線形予測ドメインパラメータ854を提供する、別の量子化/符号化手段869をさらに含む。
TCX−LPD分枝850は、符号化済みエイリアシング消去係数856を提供するエイリアシング消去係数生成手段をさらに含む。このエイリアシング消去係数生成手段は、符号化済みスペクトル係数852に依存し、さらにオーディオコンテンツの入力表現810に依存して、エイリアシングエラー情報871を計算するエラー計算手段870を含む。エラー計算手段870は、任意ではあるが、他のメカニズムから提供される追加的なエイリアシング消去要素に関する情報872を考慮に入れても良い。エイリアシング消去係数生成手段は、線形予測ドメインパラメータ863に依存してエラーフィルタ処理を記述する情報873aを提供する、分析フィルタ計算手段873をさらに含む。エイリアシング消去係数生成手段は、エラー分析フィルタ処理手段874をさらに含み、このフィルタ処理手段874は、エイリアシングエラー情報871と分析フィルタ処理情報873aとを受け取り、その分析フィルタ処理情報873aに依存して調整されたエラー分析フィルタ処理をエイリアシングエラー情報871に対して適用し、フィルタ処理済のエイリアシングエラー情報874aを取得する。エイリアシング消去係数生成手段は時間ドメイン/周波数ドメイン変換手段875をさらに含み、その変換手段875は、タイプIVの離散コサイン変換の機能を持ち、フィルタ処理済のエイリアシングエラー情報874aを受け取り、それに基づいて、フィルタ処理済のエイリアシングエラー情報874aの周波数ドメイン表現875aを提供する。エイリアシング消去係数生成手段は量子化/符号化手段876をさらに含み、その量子化/符号化手段876は、周波数ドメイン表現875aを受け取り、その周波数ドメイン表現875aを符号化して符号化済みエイリアシング消去係数856を提供する。
エイリアシング消去係数生成手段は、任意ではあるが、エイリアシング消去に対するACELP寄与の計算手段877をさらに含む。この計算手段877は、TCX−LPDモードで符号化されたオーディオフレームに先行するACELPモードで符号化されたオーディオサブフレームから導出可能なエイリアシング消去への寄与を計算又は推定するよう構成されていても良い。エイリアシング消去に対するACELP寄与の計算は、ポストACELP合成の計算と、そのポストACELP合成の窓処理と、窓処理されたポストACELP合成の折り返しとを含み、追加的なエイリアシング消去要素に関する情報872であってACELPモードで符号化された先行するオーディオサブフレームから導出されても良い情報872を取得する。加えて又は代替的に、計算手段877は、ACELPモードで符号化された先行するオーディオサブフレームの復号化によって初期化されたフィルタのゼロ入力応答の計算と、そのゼロ入力応答の窓処理とを含み、追加的なエイリアシング消去要素に関する情報872を取得しても良い。
以下に、ACELP分枝880について簡単に説明する。ACELP分枝880は、オーディオコンテンツの入力表現810に基づいて線形予測ドメインパラメータ890aを計算する線形予測ドメインパラメータ計算手段890を含む。ACELP分枝880は、オーディオコンテンツの入力表現810と線形予測ドメインパラメータ890aとに依存して、ACELP励起情報892aを計算するACELP励起計算手段892をさらに含む。ACELP分枝880は、ACELP励起情報892aを符号化し、符号化済みACELP励起信号882を取得する符号化手段894をさらに含む。ACELP分枝880は、線形予測ドメインパラメータ890aを受け取り、それに基づいて符号化済み線形予測ドメインパラメータ884を提供する量子化/符号化手段896をさらに含む。
オーディオ信号符号器800は、符号化済みスペクトル係数822と、符号化済みスケールファクタ情報824と、エイリアシング消去係数826と、符号化済みスペクトル係数852と、符号化済み線形予測ドメインパラメータ854と、符号化済みエイリアシング消去係数856と、符号化済みACELP励起882と、符号化済み線形予測ドメインパラメータ884とに基づいて、ビットストリーム812を提供するビットストリーム・フォーマッタ898をさらに備える。
符号化済みエイリアシング消去係数856の生成に関する詳細については、後述する。
7.図9に従うオーディオ信号復号器
以下に、図9に従うオーディオ信号復号器900について説明する。
図9に従うオーディオ信号復号器900は、図2に従うオーディオ信号復号器200及び図3bに従うオーディオ信号復号器360に類似しており、上述した説明は、このオーディオ信号復号器900にも当てはまる。
オーディオ信号復号器900は、ビットストリーム901を受け取り、そのビットストリームから抽出される情報を対応する処理経路へと提供するビットマルチプレクサ902を備える。
オーディオ信号復号器900は、符号化済みスペクトル係数912と符号化済みスケールファクタ情報914とを受け取るよう構成された、周波数ドメイン経路910を備える。周波数ドメイン経路910は、任意ではあるが、例えば周波数ドメインで符号化されたオーディオフレームとACELPモードで符号化されたオーディオフレームとの間の遷移においていわゆる前方エイリアシング消去を可能にするような、符号化済みエイリアシング消去係数916を受け取るよう構成されている。周波数ドメイン経路910は、周波数ドメインモードで符号化されたオーディオフレームのオーディオコンテンツの時間ドメイン表現918を提供する。
オーディオ信号復号器900は、TCX−LPD分枝930を備え、このTCX−LPD分枝930は、符号化済みスペクトル係数932と、符号化済み線形予測ドメインパラメータ934と、符号化済みエイリアシング消去係数936とを受け取り、それらを基にして、TCX−LPDモードで符号化されたオーディオフレーム又はサブフレームの時間ドメイン表現を提供するよう構成されている。オーディオ信号復号器900は、ACELP分枝980をさらに備え、このACELP分枝980は、符号化済みACELP励起982と符号化済み線形予測ドメインパラメータ984とを受け取り、それらを基にして、ACELPモードで符号化されたオーディオフレーム又はオーディオサブフレームの時間ドメイン表現986を提供するよう構成されている。
7.1 周波数ドメイン経路
以下に、周波数ドメイン経路910に関して詳細に説明する。この周波数ドメイン経路がオーディオ復号器300の周波数ドメイン経路に類似していることに注目すべきであり、ゆえに、上述した説明を参照されたい。周波数ドメイン分枝910は、符号化済みスペクトル係数912を受け取り、それに基づいて復号化済みスペクトル係数920aを提供する算術復号化手段920と、その復号化済みスペクトル係数920aを受け取り、それに基づいて逆量子化されたスペクトル係数921aを提供する逆量子化手段921と、を含む。周波数ドメイン分枝910は、符号化済みスケールファクタ情報914を受け取り、それに基づいて復号化されたスケールファクタ情報922aを提供する、スケールファクタ復号化手段922をさらに含む。周波数ドメイン分枝はスケール手段923を含み、このスケール手段923は、逆量子化されたスペクトル係数921aを受け取り、その逆量子化されたスペクトル係数をスケールファクタ922aに従ってスケールし、スケールされたスペクトル係数923aを取得する。例えば、スケールファクタ922aは複数の周波数帯域のために提供されても良く、スペクトル係数921aの複数の周波数binが各周波数帯域に関連付けられても良い。このようにして、スペクトル係数921aの周波数帯域毎のスケーリングが実行されても良い。従って、1つのオーディオフレームに関連付けられたスケールファクタの個数は、典型的にはそのオーディオフレームに関連付けられたスペクトル係数921aの個数よりも少ない。周波数ドメイン分枝910は、逆MDCT924をさらに含み、この逆MDCT924は、スケールされたスペクトル係数923aを受け取り、それに基づいて、現時点のオーディオフレームのオーディオコンテンツの時間ドメイン表現924aを提供する。周波数ドメイン分枝910は、任意ではあるが結合手段925をさらに含み、その結合手段925は、時間ドメイン表現924aとエイリアシング消去合成信号929aとを結合し、時間ドメイン表現918を取得する。しかし、他の幾つかの実施形態においては、結合手段925は省略されても良く、その場合は、時間ドメイン表現924aがオーディオコンテンツの時間ドメイン表現918として提供される。
エイリアシング消去合成信号929aを提供するために、周波数ドメイン経路910は、符号化済みエイリアシング消去係数916に基づいて復号化済みのエイリアシング消去係数926bを提供する復号化手段926aを含み、さらに、その復号化済みエイリアシング消去係数926bに基づいてスケールされたエイリアシング消去係数926dを提供するスケール手段926cを含む。周波数ドメイン経路はタイプIVの逆離散コサイン変換手段927をさらに含み、この変換手段927は、スケールされたエイリアシング消去係数926dを受け取り、それに基づいてエイリアシング消去刺激信号927aを提供し、そのエイリアシング消去刺激信号927aは合成フィルタ処理手段927bへと入力される。合成フィルタ処理手段927bは、エイリアシング消去刺激信号927aに基づいて、さらに合成フィルタ計算手段927dから提供される合成フィルタ処理係数927cに依存して、合成フィルタ処理操作を実行し、その合成フィルタ処理の結果としてエイリアシング消去信号929aを取得する。合成フィルタ計算手段927dは、例えばTCX−LPDモードで符号化されたフレーム又はACELPモードで符号化されたフレームのためのビットストリームの中に提供された線形予測ドメインパラメータから導出されても良い(又はそのような線形予測ドメインパラメータと同一でも良い)線形予測ドメインパラメータに依存して、合成フィルタ係数927cを提供する。
上述のように、合成フィルタ処理手段927bはエイリアシング消去合成信号929aを提供することができるが、このエイリアシング消去合成信号929aは、図5内のエイリアシング消去合成信号522と同一でも良く、又は図5内のエイリアシング消去合成信号542と同一でも良い。
7.2 TCX−LPD経路
以下に、オーディオ信号復号器900のTCX−LPD経路について簡単に説明し、その後、更なる詳細について説明する。
TCX−LPD経路930は、主信号合成部940を備え、この主信号合成部940は、符号化済みスペクトル係数932と符号化済み線形予測ドメインパラメータ934とに基づいて、オーディオフレーム又はオーディオサブフレームのオーディオコンテンツの時間ドメイン表現940aを提供するよう構成されている。TCX−LPD分枝930は後述するようなエイリアシング消去処理手段をさらに備える。
主信号合成部940はスペクトル係数の算術復号化手段941を含み、この手段941では、符号化済みスペクトル係数932に基づいて復号化されたスペクトル係数941aを取得する。主信号合成部940は逆量子化手段942をさらに含み、復号化されたスペクトル係数941aを基にして、逆量子化されたスペクトル係数942aを提供する。任意ではあるが、逆量子化されたスペクトル係数942aに対し、ノイズ充填手段943が適用され、ノイズ充填されたスペクトル係数を取得しても良い。逆量子化されノイズ充填されたスペクトル係数943aは、r[i]として示されても良い。逆量子化されノイズ充填されたスペクトル係数943a,r[i]は、スペクトル逆成形(de-shaping)部944によって処理され、スペクトル的に逆成形されたスペクトル係数944aであって時にはr[i]としても示される係数を取得しても良い。スケーリング部945は周波数ドメイン・ノイズ成形部945として構成されても良い。この周波数ドメインノイズ成形部945において、スペクトル係数のスペクトル的に成形された1セット945aであって、rr[i]として示されても良いセットが得られる。周波数ドメイン・ノイズ成形部945においては、スペクトル的に成形されたスペクトル係数945aに対するスペクトル的に逆成形されたスペクトル係数944aの寄与は、周波数ドメイン・ノイズ成形パラメータ945bによって決定されるが、そのパラメータ945bは、後述する周波数ドメイン・ノイズ成形パラメータ準備手段により提供される。もし、線形予測ドメインパラメータ934によって記述される線形予測フィルタの周波数ドメイン応答が、考慮の対象となっている(スペクトル係数のセット944aからの)各スペクトル係数に関連付けられた周波数にとって比較的小さな値を取る場合には、周波数ドメイン・ノイズ成形部945によって、スペクトル的に逆成形されたスペクトル係数のセット944aに対し、比較的大きな重みが与えられる。反対に、もし、線形予測ドメインパラメータ934によって記述される線形予測フィルタの周波数ドメイン応答が、考慮の対象となっている(セット944aからの)各スペクトル係数に関連付けられた周波数にとって比較的小さな値を取る場合には、周波数ドメイン・ノイズ成形部945によって、スペクトル的に逆成形されたスペクトル係数のセット944aに対し、比較的大きな重みが与えられる。そのため、スペクトル的に逆成形されたスペクトル係数944aからスペクトル的に成形されたスペクトル係数945aが導出されるとき、線形予測ドメインパラメータ934により定義されたスペクトル成形が周波数ドメインで適用される。
主信号合成部940は、スペクトル的に成形されたスペクトル係数945aを受け取り、それに基づいて時間ドメイン表現946aを提供する逆MDCT946をさらに含む。この時間ドメイン表現946aに対してゲインスケーリング947が適用され、時間ドメイン表現946aからオーディオコンテンツの時間ドメイン表現940aが導出される。このゲインスケーリング947ではゲインファクタgが適用されるが、これは、好適には周波数から独立した(周波数選択的でない)操作である。
主信号合成部940は、次のような周波数ドメイン・ノイズ成形パラメータ945bの処理をさらに含む。周波数ドメイン・ノイズ成形パラメータ945bを提供する目的で、主信号合成940は、符号化済み線形予測ドメインパラメータ934に基づいて復号化された線形予測ドメインパラメータ950aを提供する、復号化手段950を含む。復号化された線形予測ドメインパラメータ950aは、例えば復号化された線形予測ドメインパラメータの第1セットLPC1と、線形予測ドメインパラメータの第2セットLPC2という形式を取っても良い。線形予測ドメインパラメータの第1セットLPC1は、例えばTCX−LPDモードで符号化されたフレーム又はサブフレームの左側遷移と関連付けられても良く、線形予測ドメインパラメータの第2セットLPC2は、例えばTCX−LPDモードで符号化されたフレーム又はサブフレームの右側遷移と関連付けられても良い。復号化された線形予測ドメインパラメータはスペクトル計算手段951へと送られ、そのスペクトル計算手段951は、線形予測ドメインパラメータ950aによって定義されるインパルス応答の周波数ドメイン表現を提供する。例えば、復号化された線形予測ドメインパラメータ950aの第1セットLPC1及び第2セットLPC2に対し、周波数ドメイン係数X0[k]の別個のセットが提供されても良い。
ゲイン計算手段952は、スペクトル値X0[k]をゲイン値へとマップし、ここで、ゲイン値の第1セットg1[k]は線形予測ドメインパラメータの第1セットLPC1と関連付けられ、ゲイン値の第2セットg2[k]は線形予測ドメインパラメータの第2セットLPC2と関連付けられる。例えば、ゲイン値は対応する線形予測ドメインパラメータの大きさに対して逆比例の関係であっても良い。フィルタパラメータ計算手段953は、ゲイン値952aを受け取り、それに基づいて周波数ドメイン成形945のためのフィルタパラメータ945bを提供しても良い。例えば、フィルタパラメータa[i]及びb[i]が提供されても良い。フィルタパラメータ945bは、スペクトル的にスケールされたスペクトル係数945aに対するスペクトル的に逆成形されたスペクトル係数944aの寄与を決定する。フィルタパラメータの可能性のある計算に関する詳細は、以下に説明する。
TCX−LPD分枝930は、前方エイリアシング消去合成信号の計算を含み、この計算は2つの分枝を含む。(前方)エイリアシング消去合成信号の生成における第1の分枝は、符号化済みエイリアシング消去係数936を受け取り、それに基づいて復号化されたエイリアシング消去係数960aを提供する、復号化手段960を含む。復号化されたエイリアシング消去係数960aはゲイン値gに依存するスケーリング961によりスケールされ、スケールされたエイリアシング消去係数961aが取得される。いくつかの実施形態においては、同じゲイン値gが、エイリアシング消去係数960aのスケーリング961と逆MDCT946によって提供される時間ドメイン信号946aのゲインスケーリング947との両方のために使用されても良い。エイリアシング消去合成信号の生成は、スケールされたエイリアシング消去係数961aに対してスペクトル逆成形を適用するスペクトル逆成形部962をさらに含み、その結果、ゲインスケールされスペクトル逆成形されたエイリアシング消去係数962aを取得しても良い。スペクトル逆成形部962は詳細を後述するスペクトル逆成形部944と類似する方法で実行されても良い。ゲインスケールされスペクトル逆成形されたエイリアシング消去係数962aは、参照番号963で示すタイプIVの逆離散コサイン変換へと入力され、この逆離散コサイン変換963は、ゲインスケールされスペクトル的に逆成形されたエイリアシング消去係数962aに基づいて実行される逆離散コサイン変換の結果として、エイリアシング消去刺激信号963aを提供する。合成フィルタ処理手段964は、エイリアシング消去刺激信号963aを受け取り、線形予測ドメインパラメータLPC1及びLPC2に基づいて合成フィルタ計算部965から提供される合成フィルタ係数965aに依存する合成フィルタを使用して、そのエイリアシング消去刺激信号963aを合成フィルタ処理することで、第1の前方エイリアシング消去合成信号964aを提供する。合成フィルタ処理964及び合成フィルタ係数965aに関する詳細は、以下に説明する。
第1の前方エイリアシング消去合成信号964aは、結果的にエイリアシング消去係数936と線形予測ドメインパラメータとに基づいている。このエイリアシング消去合成信号964aとオーディオコンテンツの時間ドメイン表現940aとの間の良好な整合性は、オーディオコンテンツの時間ドメイン表現940aの準備とエイリアシング消去合成信号964の準備との両方において同一のスケーリングファクタgを適用することと、オーディオコンテンツの時間ドメイン表現940aの準備とエイリアシング消去合成信号964の準備との両方において類似の又は同一のスペクトル逆成形944、962を適用することにより、達成できる。
TCX−LPD分枝930は、先行するACELPフレーム又はサブフレームに依存する追加的なエイリアシング消去合成信号973a,976aの準備手段をさらに含む。エイリアシング消去に対するACELPの寄与の計算手段970は、例えばACELP分枝980及び/又はACELP合成フィルタのコンテンツによって提供される時間ドメイン表現986のような、ACELP情報を受け取るよう構成されている。エイリアシング消去に対するACELPの寄与の計算手段970は、ポストACELP合成信号971aの計算部971と、ポストACELP合成信号971aの窓処理部972と、窓処理されたポストACELP合成信号972aの折り返し部973とを含む。このように、窓処理されたポストACELP合成信号972aを折り返すことで、窓処理され折り返されたポストACELP合成信号973aが得られる。加えて、エイリアシング消去に対するACELPの寄与の計算手段970は、ゼロ入力応答の計算部975をさらに含み、そのゼロ入力応答は、先行するACELPサブフレームの時間ドメイン表現を合成する合成フィルタのために計算されても良く、その合成フィルタの初期状態は、先行するACELPサブフレームの末尾におけるACELP合成フィルタの状態と同じでも良い。このように得られたゼロ入力応答975aに対して窓処理976が適用され、窓処理されたゼロ入力応答976aが得られる。この窓処理されたゼロ入力応答976aに関するさらなる詳細は、後述する。
最後に、オーディオコンテンツの時間ドメイン表現940aと、第1の前方エイリアシング消去合成信号964aと、第2の前方エイリアシング消去合成信号973aと、第3の前方エイリアシング消去合成信号976aと、を結合するための結合978が実行される。このようにして、TCX−LPDモードで符号化されたオーディオフレーム又はオーディオサブフレームについての時間ドメイン表現938が、結合978の結果として提供される。これについての詳細は後述する。
7.3 ACELP経路
以下に、オーディオ信号復号器900のACELP分枝980について簡単に説明する。ACELP経路980は、符号化済みACELP励起信号982の復号化988を含み、復号化されたACELP励起信号988aを得る。次に、励起信号の計算と励起の後処理989が実行され、後処理された励起信号989aが得られる。ACELP分枝980は、線形予測ドメインパラメータ984の復号化990を含み、復号化された線形予測ドメインパラメータ990aを得る。その線形予測ドメインパラメータ990aに依存して、後処理された励起信号989aに対して合成フィルタ処理991が実行され、その結果、合成されたACELP信号991aが得られる。合成されたACELP信号991aは、次に後処理992を用いて処理され、ACELPモードで符号化されたオーディオサブフレームについての時間ドメイン表現986が得られる。
7.4 結合
最後に、周波数ドメインモードで符号化されたオーディオフレームについての時間ドメイン表現918と、TCX−LPDモードで符号化されたオーディオフレームについての時間ドメイン表現938と、ACELPモードで符号化されたオーディオフレームについての時間ドメイン表現986とを結合するための結合996が実行され、その結果、オーディオコンテンツの時間ドメイン表現998が得られる。
以下に更なる詳細について説明する。
8.符号器と復号器の詳細
8.1 LPCフィルタ
8.1.1 ツールの説明
以下に、線形予測符号化フィルタ係数を使用する符号化と復号化に関する詳細を述べる。
ACELPモードでは、伝送されたパラメータは、LPCフィルタ984と適応型及び固定型コードブック・インデックス982と適応型及び固定型コードブック・ゲイン982とを含む。
TCXモードでは、伝送されたパラメータは、LPCフィルタ934とエネルギーパラメータとMDCT係数の量子化インデックス932とを含む。この章では、LPCフィルタの例えばLPCフィルタ係数a1〜a16,950a,990aの復号化について説明する。
8.1.2 定義
いくつかの定義について、以下に説明する。
パラメータ“nb_lpc”は、ビットストリーム内での符号化されたLPCパラメータセットの全体数を記述する。
ビットストリーム・パラメータ“mode_lpc”は、後続のLPCパラメータセットの符号化モードを記述する。
ビットストリーム・パラメータ“lpc[k][x]”は、セットkの番号xのLPCパラメータを記述する。
ビットストリーム・パラメータ“qn k”は、対応するコードブック番号nkに関連付けられたバイナリコードを記述する。
8.1.3 LPCフィルタの数
ビットストリーム内での符号化されたLPCフィルタの実際の数“nb_lpc”は、スーパーフレームのACELP/TCXモードの組合せに依存し、ここで1つのスーパーフレームは複数のサブフレームを含む1つのフレームと同じでも良い。ACELP/TCXモードの組合せはフィールド“lpc_mode”から抽出され、このフィールド“lpc_mode”は次に、スーパーフレームを構成している4つの(サブフレームとも称される)フレームの各々に対して符号化モード“mod[k]”(ここでk=0〜3)を決定する。モード値0はACELPを、1は短いTCX(256サンプル)を、2は中間サイズのTCX(512サンプル)を、3は長いTCX(1024サンプル)を、それぞれ示す。ここで注目すべきは、ビットフィールド“mode”として考えられても良いビットストリームパラメータ“lpc_mode”は、線形予測ドメイン・チャネルストリームの1つのスーパーフレーム内の4つのフレームの各々(例えば高圧縮率オーディオ符号化フレーム又はAACフレームのような、1つの周波数ドメインモード・オーディオフレームに対応する)に対して符号化モードを定義することである。符号化モードはアレイ“mod[]”内に記憶され、0〜3の値を取る。ビットストリームパラメータ“LPC_mode”からアレイ“mod[]”へのマッピングは、表7から決定可能である。
Figure 0005247937
アレイ“mod[0...3]”に関し、アレイ“mod[]”が各フレーム内のそれぞれの符号化モードを示しているということができる。詳細については、アレイ“mod[]”によって示される符号化モードを記述した表8を参照されたい。
Figure 0005247937
スーパーフレームの1〜4のLPCフィルタに加え、LPDコアコーデックを用いて符号化された各セグメントの1番目のスーパーフレームのために、任意のLPCフィルタであるLPC0が伝送される。これは、LPC復号化手順に対し、1にセットされたフラグ“first_lpd_first”によって示される。
ビットストリーム内でLPCフィルタが通常見つけられる順序は、LPC4,任意のLPC0,LPC2,LPC1,LPC3である。ビットストリーム内の所与のLPCフィルタの存在に関する条件は、表1にまとめられている。
Figure 0005247937
ビットストリームは、ACELP/TCXモードの組合せによって求められるLPCフィルタの各々に対応する量子化インデックスを抽出するために解析される。以下に、LPCフィルタの1つを復号化するために必要な操作について説明する。
8.1.4 逆量子化器の一般原理
復号器950又は復号器990内で実行されても良いLPCフィルタの逆量子化は、図13に示すように実行される。LPCフィルタは線スペクトル周波数(LSF)表現を用いて量子化される。8.1.6.章で後述するように、第1ステージの近似がまず計算される。次に、8.1.7章で後述するように、任意の代数ベクトル量子化(AVQ)精製(refinement)1330が計算される。量子化されたLSFべクトルは、第1ステージの近似と逆重み付きAVQ寄与1342との加算1350により再構築される。AVQ精製の存在は、8.1.5章で説明するように、LPCフィルタの実際の量子化モードに依存する。逆量子化されたLSFベクトルは、後にLSP(線スペクトルペア)パラメータのベクトルへと変換され、さらにその後に補間されて再度LPCパラメータへと変換される。
8.1.5.LPC量子化モードの復号化
復号化950又は復号化990の一部であっても良い、LPC量子化モードの復号化について以下に説明する。
LPC4は、常に絶対量子化手法を使用して量子化される。他のPLCフィルタは、ある絶対的な手法か、又は複数の相対量子化手法のうちの1つかを使用して、量子化されることが可能である。これらLPCフィルタのためにビットストリームから抽出された第1情報は量子化モードである。この情報は“mode_lpc”と表示され、表2の最終の縦列に示すように可変長バイナリコードを使用してビットストリーム内で信号化される。
Figure 0005247937
8.1.6 第1ステージの近似
各LPCフィルタのために、図13の第1ステージの近似をどのように計算するかについては、その量子化モードが決定する。
絶対量子化モード(mode_lpc=0)のために、確率論的にVQ量子化された第1ステージの近似に対応する8ビットのインデックスがビットストリームから抽出される。次に単純なテーブルルックアップにより、第1ステージの近似1320が計算される。
相対量子化モードのために、表2の2番目の縦列に示すように、既に逆量子化されたLPCフィルタを使用して、第1ステージの近似が計算される。例えば、LPC0のためには、相対量子化モードは1つだけであり、逆量子化されたLPC4フィルタがその第1ステージの近似を構成する。LPC1のためには、2つの相対量子化モードが可能である。1つ目は逆量子化されたLPC2がその第1ステージの近似を構成するものであり、2つ目は逆量子化されたLPC0及びLPC2フィルタの間の平均がその第1ステージの近似を構成するものである。LPC量子化に関連する他の全ての操作のように、第1ステージの近似の計算は線スペクトル周波数(LSF)ドメインで行われる。
8.1.7 AVQ精製
8.1.7.1.概略
ビットストリームから抽出される次の情報は、逆量子化されたLSFベクトルを構築するために必要とされるAVQ精製に関連している。しかし、LPC1は唯一の例外である。つまり、このフィルタが(LPC0+LPC2)/2に対して相対的に符号化されたとき、ビットストリームはAVQ精製を含まない。
AVQは、TCXモードのAMR−WB+でスペクトルを量子化するために使用される8次元のRE8格子べクトル量子化器に基づいている。LPCフィルタの復号化は、重み付きの残余(residual)LSFべクトルの2つの8次元サブべクトル
Figure 0005247937
の復号化を含む。
これら2つのサブべクトルについてのAVQ情報は、ビットストリームから抽出される。その情報は、2つの符号化されたコードブック番号“qn1”及び“qn2”と、対応するAVQインデックスとを含む。これらのパラメータは、以下のように復号化される。
8.1.7.2 コードブック番号の復号化
AVQ精製を復号化するためにビットストリームから抽出される1番目のパラメータは、上述した2つのサブべクトルの各々のための2つのコードブック番号nk,k=1,2である。コードブック番号を符号化する方法は、LPCフィルタ(LPC0〜LPC4)と、その量子化モード(絶対又は相対)に依存する。次の表3に示すように、nkを符号化するために4つの異なる方法がある。nkのために使用されるコードについての詳細は、以下に述べる。
Figure 0005247937
kモード0及び3:
コードブック番号nkは可変長コードqnkとして以下のように符号化される:
2→nkのためのコードは00
3→nkのためのコードは01
4→nkのためのコードは10
その他の場合:nkのためのコードは 11の後に以下の番号が続く:
5→0
6→10
0→110
7→1110
8→11110
など。
kモード1:
コードブック番号nkはユーナリーコードqnkとして以下のように符号化される:
0→nk のためのユーナリーコードは0
2→nk のためのユーナリーコードは10
3→nk のためのユーナリーコードは110
4→nk のためのユーナリーコードは1110
など。
kモード2:
コードブック番号nkは可変長コードqnkとして以下のように符号化される:
2→nkのためのコードは00
3→nkのためのコードは01
4→nkのためのコードは10
その他の場合:nk のためのコードは、11の後に以下の番号が続く:
0→0
5→10
6→110
など。
8.1.7.3 AVQインデックスの復号化
LPCフィルタの復号化には、重み付きの残余LSFべクトルの各量子化されたサブべクトル
Figure 0005247937
を記述する代数VQパラメータの復号化が含まれる。各ブロックBkは、上述のように次元8を持つ。各ブロック
Figure 0005247937
のために、3セットのバイナリインデックスが復号器により受け取られる。
a)上述したようにエントロピーコード“qnk”を使用して伝送されるコードブック番号k
b)格子点zを得るために特定のリーダー(leader)に対して何の順列を適用すべきかを示す、いわゆるベースコードブックの中の選択された格子点zのランク(rank)k
c)量子化されたブロック
Figure 0005247937
(格子点)がベースコードブックの中になかった場合には、ボロノイ拡張(Voronoi extension)インデックスべクトルkの8個のインデックス;このボロノイ拡張インデックスから、拡張べクトルvが計算できる。インデックスべクトルkの各要素内のビット数は、インデックスnkのコード値から得られる拡張オーダーrによって与えられる。ボロノイ拡張のスケーリングファクタMは、M=2rにより与えられる。
次に、前記スケーリングファクタMと、ボロノイ拡張べクトルv(RE8内の格子点)と、ベースコードブック内の格子点z(これもまたRE8内の格子点)とから、各量子化されスケールされたブロック
Figure 0005247937
が次式により計算される。
Figure 0005247937
ボロノイ拡張が無い場合(即ちnk<5,M=1,及びz=0)、ベースコードブックは非特許文献2に示されたQ0,Q2,Q3又はQ4のいずれかとなる。そのとき、べクトルkを伝送するために必要なビットは無い。その他の場合として、
Figure 0005247937
が十分な大きさを持つためにボロノイ拡張が使用された場合には、非特許文献2に示されたQ3又はQ4だけがベースコードブックとして使用される。Q3又はQ4の選択は、コードブック番号nkの中に内在している。
8.1.7.4.LSF重みの計算
符号器においては、AVQ量子化の前に残余LSFべクトルの要素に対して次式のような重みが適用される。
Figure 0005247937
ここで、
Figure 0005247937
であり、LSF1stは第1ステージの近似を示し、Wは量子化モード(表4)に依存するスケールファクタである。対応する逆重み付け1340が復号器において適用され、量子化された残余LSFベクトルが回復される。
Figure 0005247937
8.1.7.5 逆量子化されたLSFべクトルの再構築
最初に、8.1.7.2章及び8.1.7.3章で説明したように復号化された2つのAVQ精製サブべクトル
Figure 0005247937
とを連結して単一の重み付き残余LSFべクトルを形成し、次に、この重み付き残余LSFべクトルに対して8.1.7.4章で説明したように計算された重みの逆を適用して残余LSFべクトルを形成し、次に、再度この残余LSFべクトルを8.1.6章に示すように計算された第1ステージの近似に対して加算することで、逆量子化されたLSFべクトルが取得される。
8.1.8 量子化されたLSFのリオーダー
逆量子化されたLSFはリオーダーされ、それらが使用される前に50Hzの隣接するLSF間の最小距離が導入される。
8.1.9 LSPパラメータへの変換
これまで説明してきた逆量子化の手順の結果、LSFドメインのLPCパラメータのセットがもたらされる。次に、LSFは、次式を用いてコサインドメイン(LSP)へと変換される。
i=cos(ωi),i=1,...,16
ここで、ωiは線スペクトル周波数(LSF)である。
8.1.10 LSPパラメータの補間
各ACELPフレーム(又はサブフレーム)のために、そのフレームの末尾に対応するただ一つのLPCフィルタが伝送されるが、各サブフレーム(又は1つのサブフレームの一部)内で異なるフィルタ(ACELPフレーム又はサブフレーム毎に4つのフィルタ)を取得するために線形補間が使用される。この補間は、先行するフレーム(又はサブフレーム)の末尾に対応するLPCフィルタと、(現時点の)ACELPフレームの末尾に対応するLPCフィルタとの間で実行される。LSP(new)が新たな有効LSPべクトルを示し、LSP(old)が以前の有効LSPべクトルを示すとすると、Nsfr=4のサブフレームのための補間されたLSPべクトルは、次式で求められる。
Figure 0005247937
補間されたLSPべクトルは、次章で説明するLSPからLPへの変換方法を用いて、各サブフレームにおいて異なるLPフィルタを計算するために使用される。
8.1.11 LSPからLPへの変換
各サブフレームのために、補間されたLSP係数はLPフィルタ係数ak,950a,990aへと変換され、それらの係数はサブフレーム内で再構築される信号を合成するために使用される。定義により、16次のLPフィルタのLSPは次の2つの多項式の根である。
Figure 0005247937
これらは次式として表すことができ、
Figure 0005247937
ここで、
Figure 0005247937
であり、このとき、qi,i=1,...,16はコサインドメインのLSFであって、LSPとも称される。LPドメインへの変換は次のように行われる。量子化され補間されたLSPが分かり、上述した式を拡張することで、F1(z)及びF2(z)の係数が見つけられる。以下の再帰的な関係式がF1(z)を計算するために使用される。
Figure 0005247937
ここで、初期値f1(0)=1であり、f1(−1)=0である。F2(z)の係数は、q2i-1をq2iで置き換えることで、同様に計算される。
1(z)とF2(z)との係数が見つけられた後は、F1(z)とF2(z)とは、1+z-1と1−z-1とによりそれぞれ乗算され、F'1(z)とF'2(z)とが得られる。即ち、
Figure 0005247937
最後に、LP係数がF'1(i)とF'2(i)とから次式により計算される。
Figure 0005247937
これは、式A(z)=(F'1(z)+F'2(z))/2と、F'1(z)及びF'2(z)がそれぞれ対称的及び非対称的な多項式であるという事実を考慮することとから、直接的に導かれる。
8.2. ACELP
以下に、エイリアシング消去メカニズムの理解を促すため、オーディオ信号復号器900のACELP分枝980によって実行される処理の詳細を説明する。
8.2.1 定義
以下に、いくつかの定義を設ける。
ビットストリーム要素“mean_energy”は、フレーム毎の量子化された平均励起エネルギーを記述する。ビットストリーム要素“acb_index[sfr]”は、各サブフレームのための適応型コードブック・インデックスを示す。
ビットストリーム要素“ltp_filtering_flag[sfr]”は、適応型コードブック励起フィルタ処理フラグである。ビットストリーム要素“lcb_index[sfr]”は、各サブフレームのためのイノベーション・コードブック・インデックスを示す。ビットストリーム要素“gains[sfr]”は、励起に対する適応型コードブックとイノベーション・コードブックとの寄与の量子化されたゲインを記述する。
更に、ビットストリーム要素“mean_energy”の符号化に関する詳細は、表5を参照されたい。
Figure 0005247937
8.2.2 過去のFD合成及びLPC0を使用したACELP励起バッファの設定
以下に、ブロック990bで実行されても良い、ACELP励起バッファの任意の初期化について説明する。
FDからACELPへの遷移の場合には、ACELP励起の復号化の前に、過去の励起バッファu(n)と、過去の前置強調された合成(pre-emphasized synthesis)
Figure 0005247937
とが、過去の(FACを含む)FD合成とLPC0(即ち、フィルタ係数セットLPC0のLPCフィルタ係数)とを使用して更新される。そのため、前置強調フィルタ(1−0.68z-1)を適用することでFD合成が前置強調され、その結果は
Figure 0005247937
に対してコピーされる。結果として得られた前置強調済み合成は、次に分析フィルタ
Figure 0005247937
によりLPC0を用いて分析され、励起信号u(n)が得られる。
8.2.3 CELP励起の復号化
もしフレーム内のモードがCELPモードであれば、励起は、スケールされた適応型コードブックと固定コードブックのべクトルの加算で構成される。各サブフレーム内で、以下のステップを反復することで励起が構築される。
CELP情報を復号化するために必要な情報は、符号化済みACELP励起982として考えられても良い。さらに、CELP励起の復号化は、ACELP分枝980のブロック988と989とによって実行されても良いことに留意すべきである。
8.2.3.1 ビットストリーム要素“acb_index[]”に依存する適応型コードブック励起の復号化
受け取られたピッチインデックス(適応型コードブックインデックス)は、ピッチ・ラグの整数部及び少数部を見つけるために使用される。
最初の適応型コードブック励起べクトルv'(n)は、FIR補間フィルタを使用してピッチ遅延及び位相(少数部)における過去の励起v(n)を補間することで見つけられる。
適応型コードブック励起は、64個のサンプルからなるサブフレームサイズのために計算される。受け取られた適応型フィルタインデックス(ltp_filtering_flag[])は、次に、フィルタ処理された適応型コードブックが
v(n)=V'(n)
であるか、又は
v(n)=0.18v'(n)+0.64v'(n−1)+0.18v'(n−2)
であるかを決定するために使用される。
8.2.3.2 ビットストリーム要素“icb_index[]”を使用するイノベーション・コードブック励起の復号化
受け取られた代数コードブックインデックスは、励起パルスの位置及び振幅(符号)を抽出し、次式で代数コードベクトルを見つけるために使用される。
Figure 0005247937
ここで、mi及びsiは、パルス位置及び符号を示し、Mはパルスの数を示す。代数コードべクトルc(n)が復号化されれば、ピッチ先鋭化(pitch sharpening)の手順が実行される。まず、そのc(n)が次のように定義される前置強調フィルタによってフィルタ処理される。
Figure 0005247937
この前置強調フィルタは、低周波において励起エネルギーを低減させる役割を果たす。次に、以下に定義される伝達関数を持つ適応型前置フィルタによって、周期性強調(periodicity enhancement)が実行される。
Figure 0005247937
ここで、nはサブフレームインデックス(n=0,...,63)であり、Tはピッチラグの整数部分T0と少数部分T0,fracの丸められたバージョンを示し、次式で与えられる。
Figure 0005247937
適応型前置フィルタFp(z)は、発声された信号の場合には人間の聴覚にとって煩わしい次数間高調波(inter-harmonic frequencies)を減衰させることで、スペクトルを色づけ(colors)する。
8.2.3.3 ビットストリーム要素“gains[]”で記述される適応型及びイノベーティブ・コードブックゲインの復号化
サブフレーム毎に受け取られた7ビットインデックスは、適応型コードブックゲイン
Figure 0005247937
と、固定コードブックゲイン修正ファクタ
Figure 0005247937
とを、直接的に提供する。次にそのゲイン修正ファクタに対して推定された固定コードブックゲインを乗算することで、その固定コードブックゲインが計算される。推定された固定コードブックゲインg'cは、以下のようにして得られる。まず、平均イノベーションエネルギーが次式により見つけられる。
Figure 0005247937
次に、推定されたゲインG’cのdB値は、次式で見つけられる。
Figure 0005247937
ここで、
Figure 0005247937
は、フレーム毎の復号化された平均励起エネルギーを示す。1フレーム内の平均イノベーティブ励起エネルギー
Figure 0005247937
は、“mean_energy”として各フレーム(18,30,42又は54dB)毎に2ビットで符号化される。
線形ドメインの予測ゲインは次式により与えられる。
Figure 0005247937
量子化された固定コードブックゲインは次式により与えられる。
Figure 0005247937
8.2.3.4 再構築された励起の計算
以下にn=0,...,63のためのステップを示す。全体の励起は、次式により構築される。
Figure 0005247937
ここで、c(n)は、適応型前置フィルタF(z)を通じてフィルタ処理した後の固定コードブックからのコードベクトルである。励起信号u'(n)は、適応型コードブックのコンテンツを更新するために使用される。次に励起信号u'(n)は、次章で説明するような後処理を受け、合成フィルタ
Figure 0005247937
の入力で使用される、後処理された励起信号u(n)が得られる。
8.3 励起後処理
8.3.1 概略
以下に、ブロック989で実行されても良い励起信号後処理について説明する。換言すれば、信号合成のために、励起要素の後処理が次のように実行されても良い。
8.3.2 ノイズ強調のためのゲイン平滑化
ノイズ内の励起を強調するために、非線形ゲイン平滑化の技術が固定コードブックゲイン
Figure 0005247937
に対して適用される。スピーチセグメントの安定性及び発声(voicing)に基づいて、固定コードブックべクトルのゲインが平滑化され、静的な信号の場合における励起エネルギーの変動が低減される。これにより、静的な背景ノイズの場合における性能が向上する。発声ファクタ(voicing factor)は次式で与えられる。
λ=0.5(1−rv
ただし、
v=(Ev−Ec)/(Ev+Ec)
である。ここで、Ev及びEcは、スケールされたピッチコードべクトル及びスケールされたイノベーション・コードべクトルのエネルギーをそれぞれ示す(rvは信号周期性の値である)。rvの値は−1から1の間であることから、λの値は0から1の間となることに注意されたい。また、ファクタλは非発声の量に関係し、純粋な発声 (voiced) セグメントは値0に、純粋な非発声 (unvoiced) セグメントは値1になることに注意されたい。
安定性ファクタθは隣接するLPフィルタ同士の距離の値に基づいて計算される。つまり、ファクタθはISF距離値に関係する。ISF距離値は、次式で求められる。
Figure 0005247937
ここで、fiは現在のフレームのISFであり、fi (p)は過去のフレームのISFを示す。安定性ファクタθは次式で求められる。
Figure 0005247937
ISF距離値は安定的な信号の場合に小さくなる。θの値はISF距離値に対して逆の相関関係があるので、θの値が大きい程、より安定的な信号に対応している。ゲイン平滑化ファクタSmは次式で与えられる。
m=λθ
mの値は、非発声で安定的な信号、即ち静的な背景ノイズ信号の場合に対して1に近づく。純粋な発声信号又は非安定的な信号に対しては、Smの値は0に近づく。固定コードブックゲイン
Figure 0005247937
と、先行するサブフレームからの最初の修正済みゲインg-1によって与えられる閾値と、を比較することで、最初の修正済みゲインg0が計算される。もし
Figure 0005247937
がg-1以上である場合には、g0は、
Figure 0005247937
を1.5dB分だけ減少させることで計算される。但し、g0≧g-1である。もし
Figure 0005247937
がg_1よりも小さい場合には、g0は、
Figure 0005247937
を1.5dB分だけ増分させることで計算される。但し、g0≦g-1である。
最後に、ゲインは平滑化されたゲインの値によって次式のように更新される。
Figure 0005247937
8.3.3 ピッチ強調器(Pitch Enhancer)
ピッチ強調器のスキームは、イノベーション・フィルタを通じて固定コードブック励起をフィルタ処理することで全体の励起u'(n)を修正する。イノベーション・フィルタは、その周波数応答が高周波を強調し、イノベーティブ・コードべクトルの低周波部分のエネルギーを減少させる。また、そのフィルタの係数は、信号内の周期性に関係している。次式の形式を持つフィルタが使用され、
Figure 0005247937
ここで、cpe=0.125(1+rv)であり、rvは上述のように
v=(Ev−Ec)/(Ev+Ec)
で与えられる周期性ファクタである。フィルタ処理された固定コードブック・コードべクトルは、次式で与えられ、
Figure 0005247937
更新された後処理済の励起は次式で与えられる。
Figure 0005247937
上述した手順は、励起989a,u(n)を次式のように更新することで、1つのステップにより実行することができる。
Figure 0005247937
8.4 合成と後処理
以下に、合成フィルタ処理991と後処理992とについて説明する。
8.4.1 概略
LP合成は、後処理された励起信号989a,u(n)をLP合成フィルタ
Figure 0005247937
を通じてフィルタ処理することで実行される。サブフレーム毎の補間されたLPフィルタがLP合成フィルタ処理に使用され、サブフレーム内で再構築された信号は次式で与えられる。
Figure 0005247937
合成された信号は、次にフィルタ1/(1−0.68z-1)(符号器入力において適用された前置強調フィルタの逆)を通じてフィルタ処理することで、逆強調(de-emphasized)される。
8.4.2 合成信号の後処理
LP合成の後で、再構築された信号は低周波ピッチ強調を用いて後処理される。2帯域分割が使用され、適応型フィルタ処理が低帯域に対してのみ適用される。その結果、合成されたスピーチ信号の第1ハーモニックに近い周波数にほぼ目標付けられた全体後処理が行われる。信号は2つの分枝において処理される。高域側分枝では、復号化済み信号は高域通過フィルタによってフィルタ処理され、高帯域信号SHが生成される。低域側分枝では、復号化済み信号はまず適応型ピッチ強調器により処理され、次に低域通過フィルタによりフィルタ処理され、低帯域の後処理された信号SLEFが得られる。その低帯域の後処理された信号と高帯域信号とを加算することで、後処理された復号化済み信号が得られる。ピッチ強調器の目的は、復号化された信号においてハーモニック間のノイズを低減することであり、その目的は、次式で示す伝達関数
Figure 0005247937
を備え、以下の式
Figure 0005247937
に示されたような、時間的に変化する線形フィルタによって達成される。ここで、αはハーモニック間の減衰を制御する係数であり、Tは入力信号
Figure 0005247937
のピッチ周期であり、SLE(n)はピッチ強調器の出力信号である。パラメータT及びαは時間とともに変化し、ピッチトラッキングモジュールによって与えられる。α=0.5の値の場合、1/(2T),3/(2T),5/(2T)等の周波数において、即ち、1/T,3/T,5/T等のハーモニック周波数間の中央点において、フィルタのゲインは正確に0となる。αが0に近づくにつれて、フィルタによって生成されるハーモニック間の減衰が小さくなる。
後処理を低周波領域に限定する目的で、強調された信号SLEは低域通過フィルタ処理されて信号SLEFが生成され、この信号SLEFと高域通過フィルタ処理されたSHとが加算されて、後処理された合成信号SEが得られる。
上述した手順に等しい代替的な手順として、高域通過フィルタ処理を不要とする手順も使用される。この手順は、後処理済信号SE(n)をZドメインで次式のように表すことで達成される。
Figure 0005247937
ここで、PLT(z)は次式によって与えられる長期間予測フィルタ(long-term predictor filter)の伝達関数
Figure 0005247937
であり、HLP(z)は低域通過フィルタの伝達関数である。
従って、この後処理は、合成信号
Figure 0005247937
から、スケールされ低域通過フィルタ処理された長期エラー信号を減算することに等しい。
各サブフレームにおいて受け取られた閉ループピッチラグ(最も近い整数へと丸められた少数ピッチラグ)により、値Tが与えられる。ピッチダブリングをチェックする単純なトラッキングが実行される。遅延T/2で正規化されたピッチ相関が0.95を超える場合には、値T/2が後処理の新たなピッチラグとして使用される。
ファクタαは次式で与えられる。
Figure 0005247937
ここで、
Figure 0005247937
は復号化されたピッチゲインである。
TCXモードにおいて及び周波数ドメイン符号化の間において、αの値はゼロにセットされる。25個の係数を持つ線形位相FIR低域通過フィルタが使用され、そのカットオフ周波数は5Fs/256kHz(フィルタ遅延は12サンプル)である。
8.5 MDCTベースのTCX
以下に、TCX−LPD分枝930の主信号合成940によって実行される、MDCTベースのTCXについて詳細に説明する。
8.5.1 ツールの説明
ビットストリームの変数“core_mode”が1に等しいとき、即ち符号化が線形予測ドメインパラメータを使用して行われたことを示し、かつ3つのTCXモードのうちの1つ以上が「線形予測ドメイン」符号化として選択されたとき、即ち、mod[]の4つのアレイエントリーのうちの1つが0よりも大きい場合には、MDCTベースのTCXが使用される。そのMDCTベースのTCXは、算術復号器941から量子化されたスペクトル係数941aを受け取る。その量子化されたスペクトル係数941a(又はその逆量子化されたバージョン942a)は、まずコンフォートノイズによって充填される(ノイズ充填943)。次に、その結果として得られたスペクトル係数943a(又はそのスペクトル的に逆成形されたバージョン944a)に対し、LPCベースの周波数ドメインノイズ成形945が適用され、その後、逆MDCT変換946が実行されて、時間ドメイン合成信号946aが取得される。
8.5.2 定義
いくつかの定義を以下に記載する。変数“lg”は算術復号器から出力される量子化されたスペクトル係数の数を示し、ビットストリーム要素“noise_factor”はノイズレベル量子化インデックスを示す。変数“noise level”は再構築されたスペクトル内に注入されたノイズのレベルを示す。変数“noise[]”は生成されたノイズのべクトルを示す。ビットストリーム要素“global_gain”は、再スケーリングゲイン量子化インデックスを示し、変数“g”は再スケーリングゲインを示す。変数“rms”は合成された時間ドメイン信号x[]の二乗平均平方根(root mean square)を示し、変数“x[]”は合成された時間ドメイン信号を示す。
8.5.3 復号化処理
MDCTベースのTCXは、mod[]の値により決定される量子化されたスペクトル係数の数であるlgを、算術復号器941から求める。この値(lg)は、逆MDCTに対して適用される窓関数の長さ及び形状をも定義する。逆MDCT946の間又はその後で適用されても良い窓関数は、3つの部分、即ち、L個のサンプルからなる左側オーバーラップと、M個のサンプルの1からなる中間部分と、R個のサンプルからなる右オーバーラップ部分とで構成されている。長さ2*lgのMDCT窓関数を得るために、ZL個のゼロが左側に追加され、ZR個のゼロが右側に追加される。SHORT_WINDOWから又はSHORT_WINDOWへの遷移の場合には、そのSHORT_WINDOWの短い窓傾斜に適応させるために、対応するオーバーラップ領域L又はRは128へと減少させる必要があるかもしれない。その結果、領域Mとそれに対応するゼロ領域ZL又はZRは、それぞれ64個のサンプル分だけ拡張させる必要があるかもしれない。
逆MDCT946の間か又は逆MDCT946に続いて適用されても良いMDCT窓関数は、次式により与えられる。
Figure 0005247937
表6は、mod[]の関数としてのスペクトル係数の数を示す。
Figure 0005247937
算術復号器941から出力される量子化されたスペクトル係数quant[]941a、又は逆量子化されたスペクトル係数942aは、任意ではあるが、コンフォートノイズ(ノイズ充填943)によって充填される。注入されたノイズのレベルは、復号化された変数noise_factorによって次式のように決定される。
noise_level = 0.0625*(8-noise_factor)
次に、−1又は+1の値をランダムに送るランダム関数random_sign()を使用して、ノイズべクトルnoise[]が計算される。
noise[i] = random_sign()*noise_level
quant[]及びnoise[]のべクトルは、quant[]内の8個の連続するゼロのランがnoise[]の要素で置き換えられるような方法で結合され、再構築されたスペクトル係数べクトルであるr[]942aを形成する。8個の連続する非ゼロのランは次式で検出される。
Figure 0005247937
再構築されたスペクトル943aは、次式で得られる。
Figure 0005247937
スペクトル逆成形944は、任意ではあるが、再構築されたスペクトル943aに対し、以下に示すステップに従って適用される。
1.スペクトルの初めの1/4の各8次元ブロックについて、インデックスmの8次元ブロックのエネルギーEmを計算する。
2.比率Rm=sqrt(Em/EI)を計算する。ここで、Iは全てのEmの最大値を持つブロックインデックスである。
3.もしRm<0.1ならば、Rm=0.1にセットする
4.もしRm<Rm-1ならば、Rm=Rm-1にセットする
スペクトルの初めの1/4に属する各8次元ブロックは、次にファクタRmによって乗算される。その結果、スペクトル的に逆成形されたスペクトル係数944aが取得される。
逆MDCT946を適用する前に、MDCTブロックの両方の端部(即ち左と右の折り返し点)に対応する、2つの量子化されたLPCフィルタであるLPC1及びLPC2(それぞれがフィルタ係数a1〜a10によって記述されても良い)が回復され(ブロック950)、それらの重み付きバージョンが計算され、それらに対応するデシメートされた(変換長に関わらず64ポイントの)スペクトル951aが計算される(ブロック951)。これらの重み付きLPCスペクトル951aは、LPCフィルタ係数950aに対してODFT(odd discrete Fourier transform;奇数離散フーリエ変換)を適用することで計算される。ODFTを計算する前に、(スペクトル計算951で使用された)ODFT周波数binsが(逆MDCT946の)MDCT周波数binsと完璧に整列するように、LPC係数に対して複素変調が適用される。例えば、(例えば時間ドメインフィルタ係数a1〜a16によって定義される)所与のLPCフィルタ
Figure 0005247937
の重み付きLPC合成スペクトル951aは、以下の式で計算される。
Figure 0005247937
ここで、
Figure 0005247937
ここで、
Figure 0005247937
は、重み付きLPCフィルタの(時間ドメイン)係数であって、次式により与えられる。
Figure 0005247937
ゲインg[k]952aは、LPC係数のスペクトル表現X0[k],951aから次式により計算できる。
Figure 0005247937
ここで、M=64は計算されたゲインが適用された帯域の個数を示す。
仮に、g1[k]とg2[k],k=0,...,63がデシメートされたLPCスペクトルであって、上述のように計算された左と右の折り返し点にそれぞれ対応するものであるとすれば、逆FDNS操作945は、再構築されたスペクトルr[i],944aを次式のような再帰的なフィルタを使用してフィルタ処理することで構成される。
rr[i]=a[i]・r[i]+b[i]・rr[i-1], i=0...lg,
ここで、a[i]とb[i],945bとは、次式を使用して、左と右のゲインg1[k],g2[k],952aから導出される。
a[i]=2・g1[k]・g2[k]/(g1[k]+g2[k]),
b[i]=(g2[k]−g1[k])/(g1[k]+g2[k]).
上述の説明では、LPCスペクトルがデシメートされているという事実を考慮して、変数kはi/(lg/64)に等しい。
再構築されたスペクトルrr[],945aは、逆MDCT946へと送られる。窓処理されていない出力信号であるx[],946aは、ゲインgによって再スケールされ、そのgは、次のように復号化された“global_gain”インデックスの逆量子化によって得られたものである。
Figure 0005247937
ここで、rmsは次式で計算される。
Figure 0005247937
再スケールされた合成時間ドメイン信号940aは、次式と同じになる:
Figure 0005247937
再スケーリング後では、窓処理とオーバーラップ加算とが、例えばブロック978において適用される。
再構築されたTCX合成x(n)938は、次に任意ではあるが、前置強調フィルタ(1−0.68z-1)を通じてフィルタ処理される。結果として得られた前置強調された合成は、次に分析フィルタ
Figure 0005247937
によってフィルタ処理され、励起信号が取得される。計算された励起はACELP適応型コードブックを更新し、後続のフレームにおいてTCXからACELPへの切替を可能にする。その信号は、フィルタ1/(1−0.68z-1)を適用し、前置強調された合成を逆強調させることで、最終的に再構築される。分析フィルタ係数はサブフレームベースで補間されていることに注意されたい。
さらに、TCX合成の長さは、(オーバーラップを除く)TCXフレーム長により与えられることにも注意されたい。即ち、1,2又は3のmod[]に対し、それぞれ256,512又は1024個のサンプルとなる。
8.6 前方エイリアシング消去(FAC)のツール
8.6.1 前方エイリアシング消去(FAC)ツールの説明
以下に、最終的な合成信号を取得するために、ACELPと(例えば周波数ドメインモード又はTCX−LPDモードのような)変換符号化(TC)との間における遷移の期間中に実行される、前方エイリアシング消去(FAC)操作について説明する。FACの目的は、TCによって導入されかつ先行の又は後続のACELPフレームによって消去できないような、時間ドメインエイリアシングを消去することである。ここでのTCの概念は、長いブロックと短いブロック(周波数ドメインモード)に亘るMCDTと、MDCTベースのTCX(TCX−LPDモード)とを含む。
図10は、TCフレームのための最終的な合成信号を取得するために計算された異なる中間信号を表す。ここに示す例の中では、(例えば周波数ドメインモード又はTCX−LPDモードで符号化されたフレーム1020である)TCフレームが、その前後の両方を、ACELPフレーム(フレーム1010及び1030)に挟まれている。その他の場合(1つのACELPフレームがありその後に2つ以上のTCフレームが続く場合や、2つ以上のTCフレームの後に1つのACELPフレームが続く場合)では、必要な信号だけが計算される。
図10を参照すれば、前方エイリアシング消去の概略が示されるが、その前方エイリアシング消去はブロック960,961,962,963,964,965,970によって実行されることにも留意すべきである。
図10に示す前方エイリアシング消去復号化操作の図式においては、横軸1040a,1040b,1040c,1040dは、オーディオサンプルについて時間軸を示す。縦軸1042aは、前方エイリアシング消去合成信号の例えば振幅について示す。縦軸1042bは、例えばACELP合成信号及び変換符号化フレーム出力信号のような、符号化されたオーディオコンテンツを表現する信号を記述する。縦軸1042cは、例えば窓処理されたACELPゼロインパルス応答及び窓処理され折り返されたACELP合成のような、エイリアシング消去に対するACELP寄与を示す。縦軸1042dは、オリジナルドメインにおける合成信号を記述する。
図から分かるように、前方エイリアシング消去合成信号1050は、ACELPモードで符号化されたオーディオフレーム1010からTCX−LPDモードで符号化されたオーディオフレーム1020への遷移において提供される。前方エイリアシング消去合成信号1050は、タイプIVの逆DCT963によって提供されるエイリアシング消去刺激信号963aに対して合成フィルタ処理964を適用することで得られる。合成フィルタ処理964は、線形予測ドメインパラメータ又はLPCフィルタ係数のセットLPC1から導出される合成フィルタ係数965aに基づいている。図10から分かるように、(第1)前方エイリアシング消去合成信号の第1部分1050aは、非ゼロエイリアシング消去刺激信号963aに対して合成フィルタ処理964によって提供される非ゼロ入力応答であっても良い。しかし、前方エイリアシング消去合成信号1050は、エイリアシング消去刺激信号963aのゼロ部分のために合成フィルタ処理964によって提供されても良い、ゼロ入力応答部分1050bをも含む。このように、前方エイリアシング消去合成信号1050は、非ゼロ入力応答部分1050aとゼロ入力応答部分1050bとを含んでも良い。前方エイリアシング消去合成信号1050は、好適には、フレーム/サブフレーム1010とフレーム/サブフレーム1020との間の遷移に関係する、線形予測ドメインパラメータのセットLPC1に基づいて提供されても良いことに留意すべきである。さらに、別の前方エイリアシング消去合成信号1054が、フレーム/サブフレーム1020からフレーム/サブフレーム1030への遷移において提供される。前方エイリアシング消去合成信号1054は、エイリアシング消去刺激信号963aの合成フィルタ処理964によって提供されても良く、そのエイリアシング消去刺激信号963aはタイプIVの逆DCT963によってエイリアシング消去係数に基づいて提供される。前方エイリアシング消去合成信号1054の準備は、フレーム/サブフレーム1020と後続のフレーム/サブフレーム1030との間の遷移に関係する、線形予測ドメインパラメータのセットLPC2に基づいても良いことに留意すべきである。
加えて、追加的なエイリアシング消去合成信号1060及び1062が、ACELPフレーム又はサブフレーム1010からTCX−LPDフレーム又はサブフレーム1020への遷移において提供される。例えば、ブロック971,972,973により、ACELP合成信号986,1056の窓処理され折り返されたバージョン973a,1060が提供されても良い。更に、窓処理されたACELPゼロ入力応答976a,1062が、例えばブロック975,976によって提供されても良い。例えば、詳細は後述するが、窓処理され折り返されたACELP合成信号973a,1060が、ACELP合成信号986,1056を窓処理し、その窓処理の結果の時間的折り返し973を適用することで取得されても良い。窓処理されたACELPゼロ入力応答976a,1062は、ACELP合成信号986,1056を提供するために使用される合成フィルタ991に等しい合成フィルタ975に対してゼロ入力を提供することで得られても良く、このとき、合成フィルタ975の初期状態は、フレーム又はサブフレーム1010のACELP合成信号986,1056の準備の最終点における合成フィルタ991の状態に等しい。従って、窓処理され折り返されたACELP合成信号1060は前方エイリアシング消去合成信号973aと等しくても良く、窓処理されたACELPゼロ入力応答1062は前方エイリアシング消去合成信号976aと等しくても良い。
最後に、時間ドメイン表現940aの窓処理済バージョンに等しくても良い変換符号化フレーム出力信号1058は、エイリアシング消去を達成するために、前方エイリアシング消去合成信号1050,1054、及び追加的なACELP寄与1060,1062と結合される。
8.6.2 定義
次に、幾つかの定義を示す。ビットストリーム要素“fac_gain”は、7ビットのゲインインデックスを記述する。ビットストリーム要素“nq[i]”は、コードブック番号を記述する。シンタックス要素“FAC[i]”は、前方エイリアシング消去データを記述する。変数“fac_length”は、前方エイリアシング消去変換の長さを記述し、タイプ“EIGHT_SHORT_SEQUENCES”の窓関数から及びその窓関数への変換については64であっても良く、その他の場合には128であっても良い。変数“use_gain”は明白なゲイン情報の使用を示す。
8.6.3 復号化処理
以下に、復号化処理について説明する。その目的で、異なるステップについて簡単に説明する。
1. AVQパラメータの復号化(ブロック960)
−LPCフィルタ(8.1章を参照)の符号化のためのツールと同じ代数べクトル量子化(AVQ)ツールを使用して、FAC情報が符号化される。
−i=0...FAC変換長のために、
・コードブック番号nq[i]が修正されたユーナリコードを用いて符号化される。
・対応するFACデータFAC[i]が4*nq[i]ビットで符号化される。
−i=0,...,fac_lengthのためのべクトルFAC[i]が、ビットストリームから抽出される。
2. FACデータに対するゲインファクタgの適用(ブロック961)
−MDCTベースのTCX(wLPC)を用いた遷移のために、対応する“tcx_coding”要素のゲインが使用される。
−その他の遷移のために、ゲイン情報“fac_gain”が(7ビットのスカラー量子化器を用いて符号化された)ビットストリームから回復されている。そのゲイン情報を使用して、ゲインgはg=10fac_gain/28として計算される。
3. MDCTベースのTCXとACELPとの間の遷移の場合には、FACスペクトルデータ961aの最初の1/4に対してスペクトル逆成形962が適用される。その逆成形ゲインは、8.5.3章で説明したように、対応するMDCTベースのTCXのために(スペクトル逆成形944が使用するように)計算されたものであり、FACとMDCTベースのTCXとの量子化ノイズが同じ形状を持つようになる。
4. ゲインスケールされたFACデータの逆DCT−IVの計算(ブロック963)
−FAC変換の長さfac_lengthは、デフォルトにより128と等しい。
−短いブロックを用いた遷移については、この長さは64へと低減される。
5. FAC合成信号964aを得るために、(例えば合成フィルタ係数965aにより記述される)重み付き合成フィルタ
Figure 0005247937
を適用する(ブロック964)。結果として得られた信号は図10のライン(a)に示す。
−重み付き合成フィルタは、折り返し点に対応するLPCフィルタに基づいている。(図10ではACELPからTCX−LPDへの遷移のためのLPC1、及びwLPD TC(TCX−LPD)からACELPへの遷移のためのLPC2、又はFD TC(周波数コード変換符号化)からACELPへの遷移のためのLPC0として認識されている)。
−同じLPC重み付けファクタが次のACELP操作について使用される。
Figure 0005247937
−FAC合成信号964aを計算するために、重み付き合成フィルタ964の初期メモリが0に設定される。
−ACELPからの遷移については、FAC合成信号1050は、重み付き合成フィルタ(128個のサンプル)のゼロ入力応答(ZIR)1050bを追加することでさらに拡張される。
6.ACELPからの遷移の場合には、窓処理されたポストACELP合成972aを計算し、(例えば信号973a又は信号1060を得るために)それを折り返し、それに対して窓処理されたZIR信号(例えば信号976a又は信号1062)を加算する。ZIR応答はLPC1を使用して計算される。fac_lengthのポストACELP合成サンプルに対して適用された窓関数は、
sine[n+fac_length]*sine[fac_length-1-n], n=-fac_length ... -1,
であり、ZIRに対して適用された窓関数は、
1-sine[n+fac_length]2, n=0... fac_length-1,
であり、ここで、sine[n]はサイン周期の1/4である。
sine[n]=sin(n*π/(2*fac_length)), n=0... 2*fac_length-1.
結果として得られた信号は、図10のライン(c)により表現され、ACELP寄与(信号寄与1060,1062)として示される.
7.(図10内のライン(b)で示す)TCフレームに対し(又は時間ドメイン表現940aの窓処理済バージョンに対し)、FAC合成964a,1050を(ACELPからの遷移の場合にはACELP寄与973a,976a,1060,1062とともに)追加することで、合成信号998(図10のライン(d)で示す)を取得できる。
8.7 前方エイリアシング消去(FAC)符号化処理
以下に、前方エイリアシング消去に必要な情報の符号化に関する詳細を説明する。特に、エイリアシング消去係数936の計算及び符号化について説明する。
図11は、変換符号化(TC)で符号化されたフレーム1120が、その前後をACELPで符号化されたフレーム1110,1130で挟まれているときの、符号器における処理ステップを示す。ここで、TCの概念は、AACやMDCTベースのTCX(TCX−LPD)の場合のように、長いブロック及び短いブロックに亘るMDCTを含む。図11は、時間ドメインマーカー1140とフレーム境界1142,1144とを示す。縦に伸びる点線は、TCで符号化されたフレーム1120の始点1142及び終点1144を示す。LPC1とLPC2とは、2つのLPCフィルタを算出するための分析窓関数の中央を示し、LPC1はTCで符号化されたフレーム1120の始点1142において算出されたものであり、LPC2は同じフレーム1120の終点1144において算出されたものである。“LPC1”マーカーの左にあるフレーム1110は、ACELPで符号化されたと仮定する。“LPC2”マーカーの右にあるフレーム1130もまた、ACELPで符号化されたと仮定する。
図11には4つのライン1150,1160,1170及び1180があり、各ラインは符号器におけるFAC目標の算出ステップを表している。ここで、各ラインは上側のラインと時間的に整列されていることを理解されたい。
図11のライン1(1150)はオリジナルオーディオ信号を表現し、上述したようにフレーム1110、1120、1130というセグメントを含んでいる。中央のフレーム1120は、MDCTドメインでFDNSを用いて符号化されたと仮定し、TCフレームと呼ぶことにする。先行するフレーム1110内の信号は、ACELPモードで符号化されたと仮定する。FACは両方の遷移(ACELPからTCへ、及びTCからACELPへの遷移)に関係していることから、FACにおける全ての処理を説明するために、このような(ACELP、次にTC、次にACELPという)符号化モードの順序が選択されている。
図11のライン2(1160)は、(復号化アルゴリズムの知識を用いて符号器によって決定されても良い)各フレーム内の復号化された(合成)信号に対応している。TCフレームの始点から終点まで延びる上方の曲線1162は、(中央では平坦であって始点及び終点では平坦でないような)窓処理の効果を示す。折り返しの効果は、下方に示すセグメントの始点における曲線1164と終点における曲線1166によって示す(セグメントの始点には“−”の符号を、セグメントの終点には“+”の符号を付した)。FACは、次にこれらの効果を修正するために使用される。
図11のライン3(1170)は、FACの符号化負荷を低減するためにTCフレームの始点で使用される、ACELP寄与を表す。このACELP寄与は2つの部分から構成されている。即ち、(1)先行するフレームの終点からの窓処理され折り返されたACELP合成877f,1170と、(2)LPC1フィルタの窓処理されたゼロ入力応答877j,1172とである。
ここで、窓処理され折り返されたACELP合成1170は、窓処理され折り返されたACELP合成1060と等しくても良く、窓処理されたゼロ入力応答1172は、窓処理されたACELPゼロ入力応答1062と等しくても良いことに注目すべきである。換言すれば、オーディオ信号符号器は、オーディオ信号復号器(ブロック869a及び877)側において得られるであろう合成の結果1162,1164,1166,1170,1172を、推定(又は算出)しても良い。
次に、ライン1(1150)からライン2(1160)とライン3(1170)とを単純に引き算することで、ライン4(1180)に示すACELPエラーが得られる(ブロック870)。時間ドメインにおけるエラー信号871,1182の想定される包絡の概略図を、図11のライン4(1180)に示す。ACELPフレーム(1110)のエラーは、時間ドメインにおける振幅ではおよそ平坦だと想定される。次に、(マーカーLPC1とLPC2との間の)TCフレーム内のエラーは、図11内のライン4(1180)のセグメント1182に示すように、一般的な形状(時間ドメイン包絡)を表すと想定される。
図11のライン4のTCフレームの始点及び終点における窓処理及び時間ドメインエイリアシングの影響を効率的に補償する目的で、さらにTCフレームがFDNSを使用すると仮定して、図12に従うFACが適用される。図12は、この処理をTCフレームの左部分(ACELPからTCへの遷移)及び右部分(TCからACELPへの遷移)の両方に関連して表記していることに注意されたい。
要約すれば、符号化済みエイリアシング消去係数856,936によって表現される変換符号化フレームエラー871,1182は、オリジナルドメイン(即ち時間ドメイン)の信号1150から、(例えば信号869bにより示される)変換符号化フレーム出力1162,1164,1166と(例えば信号872により示される)ACELP寄与1170,1172との両方を減算することで、取得できる。このようにして、変換符号化フレームエラー信号1182が得られる。
以下に、変換符号化フレームエラー871,1182の符号化について説明する。
まず、重み付けフィルタ874,1210,W1(z)がLPC1フィルタから算出される。(図11と図12ではFAC目標とも呼ばれる)図11のライン4(1180)上のTCフレーム1120の始点におけるエラー信号871,1182は、次にW1(z)を通じてフィルタ処理され、このW1(z)は、図11のライン4上のACELPフレーム1120の中に、初期状態又はフィルタメモリとしてACELPエラー871,1182を有している。図12の上方に描いたフィルタ874,1210;W1(z)の出力は、次にDCT−IV変換875,1220の入力を形成する。DCT−IV変換875,1220から出力された変換係数875a,1222は、次に(Q、1230によって示す)AVQツール876を用いて量子化され、符号化される。このAVQツールは、LPC係数を量子化するために使用されたものと同じである。これらの符号化された係数は復号器へと送られる。AVQ1230の出力は、次に逆DCT−IV963,1240へと入力され、時間ドメイン信号963a,1242を形成する。この時間ドメイン信号は、次にゼロ・メモリ(ゼロ初期状態)を持つ逆フィルタ964,1250,1/W1(z)を通じてフィルタ処理される。1/W1(z)を通じたフィルタ処理は、FAC目標の後ろに延びるサンプルに対して、ゼロ入力を使用して、FAC目標の長さを超えて拡張させる。フィルタ1250,1/W1(z)の出力964a,1252はFAC合成であり、このFAC合成は、窓処理や時間ドメインエイリアシングの影響を補償するためにTCフレームの始点において適用されても良い(例えば信号946a等の)修正信号である。
TCフレームの終点における窓処理及び時間ドメインエイリアシング修正のための処理について考察すれば、図12の下方に示す図となる。図11(FAC目標)のライン4上のTCフレーム1120の終点におけるエラー信号871,1182bは、フィルタ874,1210’;W2(z)を通じてフィルタ処理され、そのフィルタは、初期状態又はフィルタメモリとして、図11のライン4上のTCフレーム1120内のエラーを含んでいる。次に、図12の上方に示し、TCフレームの始点におけるFAC目標の処理に関係した全ての処理ステップと同様なステップが実行されるが、FAC合成におけるZIR拡張は除外される。
(ローカルFAC合成を得るために)符号器で適用されたとき、図12に示す処理が(左から右へと)完全に実行される一方で、復号器側では、図12に示す処理は受信された復号化済みDCT−IV係数から開始するよう適用されるだけであることに注意すべきである。
9. ビットストリーム
以下に、本発明の理解を促すために、ビットストリームについての詳細を説明する。ここで、ビットストリーム内には、有意な量の構成情報(configuration information)が含まれても良いことに留意すべきである。
周波数ドメインモードで符号化されたフレームのオーディオコンテンツは、主に“fd_channel_stream()”と命名されたビットストリーム要素によって表現される。このビットストリーム要素“fd_channel_stream()”は、グローバルゲイン情報“global_gain”と、符号化されたスケールファクタデータ“scale_factor_data()”と、算術的に符号化されたスペクトルデータ“ac_spectral_data”とを含む。加えて、もし先行する(幾つかの実施形態では「スーパーフレーム」とも呼ばれる)フレームが線形予測ドメインモードで符号化されており、その先行するフレームの最後のサブフレームがACELPモードで符号化されていた場合には、(その場合だけは)、ビットストリーム要素“fd_channel_stream()”は、(“fac_data(1)”とも呼ばれる)ゲイン情報を持つ前方エイリアシング消去データを選択的に含む。換言すれば、もし先行するフレーム又はサブフレームがACELPモードで符号化されていた場合には、周波数ドメインモードのオーディオフレームに対し、ゲイン情報を含む前方エイリアシング消去データが選択的に提供される。この点は有利である。なぜなら、上述したように、TCX−LPDモードで符号化された先行するオーディオフレーム又はオーディオサブフレームと、周波数ドメインモードで符号化された現時点のオーディオフレームとの間で、単なるオーバーラップ加算機能によってエイリアシング消去が達成できるからである。
詳細については、図14を参照されたい。図14は、グローバルゲイン情報“global_gain”とスケールファクタデータ“scale_factor_data()”と算術的に符号化されたスペクトルデータ“ac_spectral_data”とを含む、ビットストリーム要素“fd_channel_stream()”のシンタックス表現を示す。変数“core_mode_last”は最後のコアモードを記述し、スケールファクタに基づく周波数ドメイン符号化については値0をとり、線形予測ドメインパラメータに基づく符号化(TCX−LPD又はACELP)については値1をとる。変数“last_lpd_mode”は最後のフレーム又はサブフレームのLPDモードを記述し、ACELPモードで符号化されたフレーム又はサブフレームについて値0をとる。
図15を参照しながら、線形予測ドメインモードで符号化された(「スーパーフレーム」とも呼ばれる)オーディオフレームの情報を符号化する、ビットストリーム要素“lpd_channel_stream()”のためのシンタックスを説明する。線形予測ドメインモードで符号化されたオーディオフレーム(「スーパーフレーム」)は、複数のサブフレーム(例えば「スーパーフレーム」との組み合わせにおいては「フレーム」とも呼ばれる)を含んでも良い。そのサブフレーム(又は「フレーム」)は、それらサブフレームの幾つかがTCX−LPDモードで符号化され、他のサブフレームがACELPモードで符号化されるように、異なるタイプのものであっても良い。
ビットストリーム変数“acelp_core_mode”は、ACELPが使用された場合のビット割り当てスキームを記述する。ビットストリーム要素“lpd_mode”は、上述した通りである。変数“first_tcx_flag”は、LPDモードで符号化された各フレームの始点において“true”にセットされる。変数“first_lpd_flag”は、現時点のフレーム又はサブフレームが線形予測符号化ドメインで符号化されたフレーム又はサブフレームのシーケンスの1番目か否かを示すフラグである。変数“last_lpd”は、最後のサブフレーム(又はフレーム)が符号化されたモード(ACELP;TCX256;TCX512;TCX1024)を記述するために更新される。参照番号1510で分かるように、最後のサブフレームがACELPモード(last_lpd_mode==0)で符号化された場合にはTCX−LPDモード(mod[k]>0)で符号化されたサブフレームのために、さらに、先行するサブフレームがTCX−LPDモード(last_lpd_mode>0)で符号化された場合にはACELPモード(mod[k]==0)で符号化されたサブフレームのために、ゲイン情報(“fac_data_(0)”)を含まない前方エイリアシング消去データが含まれる。
もし逆に、先行するフレームが周波数ドメインモード(core_mode_last=0)で符号化され、現時点のフレームの1番目のサブフレームがACELPモード(mod[0]==0)で符号化される場合には、ゲイン情報(“fac_data_(1)”)を含む前方エイリアシング消去データが、ビットストリーム要素“lpd_channel_stream”内に含まれる。
要約すると、周波数ドメインで符号化されたフレームとACELPモードで符号化されたフレーム又はサブフレームとの間の直接的な遷移がある場合には、所与の前方エイリアシング消去ゲイン値を持つ前方エイリアシング消去データがビットストリームの中に含まれる。反対に、TCX−LPDモードで符号化されたフレーム又はサブフレームとACELPモードで符号化されたフレーム又はサブフレームとの間の遷移がある場合には、所与の前方エイリアシング消去ゲイン値を持たない前方エイリアシング消去データがビットストリームの中に含まれる。
図16では、ビットストリーム要素“fac_data()”によって記述される前方エイリアシング消去データのシンタックスを説明する。パラメータ“useGain”は、参照番号1610から分かるように、所与の前方エイリアシング消去ゲイン値ビットストリーム要素“fac_gain”が有るか否かを示す。加えて、そのビットストリーム要素“fac_gain”は、複数のコードブック番号ビットストリーム要素“nq[i]”と、幾つかの“fac_data”ビットストリーム要素“fac[i]”とを含む。
前記コードブック番号と前記前方エイリアシング消去データとの復号化については、上述した通りである。
10.代替的な構成
これまで装置を説明する文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロック又は項目若しくは特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路等のハードウエアにより(を使用して)実行されても良い。幾つかの実施形態においては、最も重要な方法ステップの内の1つ又は複数のステップは、そのような装置によって実行されても良い。
本発明の符号化されたオーディオ信号は、デジタル記憶媒体に記憶されても良く、インターネットのような無線伝送媒体や有線伝送媒体などによって伝送されても良い。
所定の構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどを使用して実行することができる。従って、そのデジタル記憶媒体はコンピュータ読み取り可能であっても良い。
本発明に従う実施形態の幾つかは、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含んでも良い。
一般的に、本発明の実施例は、コンピュータプログラム製品として構成することができ、このプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法を実行するよう作動する。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されても良い。
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを含む。
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有する、コンピュータプログラムである。
本発明の他の実施形態は、上述した方法の1つを実行するために記憶されたプログラムコードを含む、データキャリア(又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体)である。そのデータキャリア、デジタル記憶媒体又は記憶された媒体は、典型的には有形及び/又は非遷移的である。
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号シーケンスである。そのデータストリーム又は信号シーケンスは、例えばインターネットを介するデータ通信接続を介して伝送されるように構成されても良い。
他の実施形態は、上述した方法の1つを実行するように構成又は適用された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムをインストールされたコンピュータを含む。
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを受信器に対して(例えば電子的に又は光学的に)伝送するよう構成された、装置又はシステムを含む。その受信器は、例えばコンピュータ、モバイル装置、メモリ装置又はその類似物であっても良い。その装置又はシステムは、コンピュータプログラムを受信器に対して伝送するためのファイルサーバーを含んでも良い。
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスは、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には、任意のハードウエア装置によって実行される。
上述した実施の形態は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について、修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
11.結論
以下に、統一されたスピーチ及びオーディオ符号化(USAC)窓処理とフレーム遷移との統合のための本発明の提案をまとめる。
まず、紹介と背景説明を行う。USAC参照モデルの(参照デザインとも称される)現時点のデザインは、3つの異なる符号化モジュールから成る(又は含む)。与えられた各オーディオ信号セクション(例えばフレーム又はサブフレーム)のために、そのセクションを符号化/復号化するための1つの符号化モジュール(又は符号化モード)が選択され、その結果、様々な符号化モードがもたらされる。それらのモジュールは作動に違いがあるため、1つのモードから別のモードへの遷移に対しては特別な注意を払う必要がある。過去において、様々な研究によって、符号化モード間のそのような遷移についての修正が提案されて来た。
本発明に従う実施形態は、想定される全体的な窓処理及び遷移スキームを提案する。品質及び体系的な構造の改善にとって非常に有望な証拠を提示しながら、このスキームを完成させる過程において達成された進歩を以下に説明する。
本明細書は、(作業中の草案4に従うデザインとも称される)参照デザインに対して提案された修正をまとめたものであり、その目的は、USACのためのより柔軟な符号化構造を創造することで、オーバーコーディング(overcoding)を減らし、コーデックの変換符号化されたセクションの複雑性を低減させることである。
多大な費用を要する非臨界サンプリング(オーバーコーディング)を回避するような窓処理スキームを達成するために、次の2つの要素が導入され、これらは本発明の実施形態のいくつかにおいては必須の要素と考えられる。
(1)前方エイリアシング消去(FAC)窓処理;及び
(2)(TCX、TCX−LPD又はwLPTとしても知られる)LPDコアコーデックにおける変換符号化分枝のための周波数ドメインノイズ成形(FDNS)
両方の技術を組み合わせることで、最小限の必要ビットにおいて高い柔軟性を持って変換長の切替を可能にするような窓処理スキームを使用することができる。
以下に、本発明の実施形態が提供する利点の理解を促す目的で、参照システムの課題について説明する。USAC草案標準の作業中の草案4に従う参照概念は、MPEGサラウンド及び強化されたSBRモジュールから成る(を含む)前/後処理ステージと協働する、切替コアコーデックによって構成されている。その切替コアは、周波数ドメイン(FD)コーデックと線形予測ドメイン(LPD)コーデックとを特徴としている。後者は、ACELPモジュールと、(「重み付き線形予測変換」(wLPT)又は変換符号化励起(TCX)とも称される)重み付きドメインで働く変換符号器とを使用する。これまでに、基本的に異なる符号化原理に起因して、それらのモード間の遷移は特に取り扱いが難しいことが分かってきた。モード同士が効率的に混ざり合うためには、特に注意が必要であることが分かって来た。
以下に、時間ドメインから周波数ドメインへ(ACELP←→wLPT,ACELP←→FD)の遷移において起こる課題について説明する。時間ドメイン符号化から変換ドメイン符号化への遷移は、特に油断ならないことが分かって来た。なぜなら、変換符号化は、MDCTにおいて近隣のブロックの変換ドメインエイリアシング消去(TDAC)特性に基づくからである。周波数ドメイン符号化されたブロックを、その隣接したオーバーラップしているブロックからの追加的な情報無しに、その全体を復号化することができないことが分かって来た。
次に、信号ドメインから線形予測ドメインへ(FD←→ACELP,FD←→wLPT)の遷移において起こる課題について説明する。線形予測ドメインからの遷移及び線形予測ドメインへの遷移には、異なる量子化ノイズ成形パラダイム間の遷移という意味もある。それらのパラダイムは、聴覚心理的に動機付けられたノイズ成形情報を伝達し適用する方法が異なっており、そのため符号化モードが変化する場所において非連続性を発生させていることが分かって来た。
以下に、USAC草案標準の作業中の草案4に従う参照概念のフレーム遷移マトリクスに関する詳細を説明する。USAC参照モデルの混成的な性格から、想定可能な窓処理の遷移は多数存在する。図4に示す縦横3×3列の表は、USAC草案標準の作業中の草案4の概念に従って現時点で構成されている遷移の概略図を示している。
上述した寄与の各々は、図4の表に示された遷移の1つ又は複数について説明したものである。非均質的な遷移(主対角線上ではない遷移)は、それぞれが異なる特定の処理ステップを適用することに注意すべきであり、その処理ステップとは、臨界サンプリングを達成しようという試みと、ブロッキングアーチファクトの防止と、共通の窓処理スキームの発見と、符号器閉ループモード決定との間における妥協点である。いくつかの場合では、この妥協点は、符号化され伝送されたサンプルを捨てるという損失も生じさせる。
以下に、提案された幾つかのシステム変更について説明する。換言すれば、USACの作業中の草案4に従う参照概念の改良点について説明する。窓の遷移において指摘された課題に対処するために、本発明に従う実施形態は、USAC草案標準の作業中の草案4に従う参照システムに沿う概念と比較した場合、現存のシステムに対して2つの修正を導入する。第1の修正は、補足的な前方エイリアシング消去窓を採用することで、時間ドメインから周波数ドメインへの遷移を全般的に改善させることを目的としている。第2の修正は、LPC係数に対して変成(transmutation)ステップを導入することで、信号ドメイン及び線形予測ドメインの処理を融合させるものであり、そのステップによってLPC係数が周波数ドメインに適用可能となる修正である。
以下に、周波数ドメインにおけるLPCの適用を可能にする、周波数ドメインノイズ成形(FDNS)の概念を説明する。このツール(FDNS)の目標は、異なるドメインで働くMDCT符号器のTDAC(変換ドメイン・エイリアシング消去)処理を可能にするということである。USACの周波数ドメイン部分のMDCTが信号ドメインで作動する一方で、参照概念のwLPT(又はTCX)は重み付きのフィルタ処理されたドメインで作動する。参照概念で使用された重み付きのLPC合成フィルタを、周波数ドメインにおける同等の処理ステップで置き換えることにより、両方の変換符号器のMDCTが同一のドメインで作動し、量子化ノイズ成形において非連続性を発生させることなくTDACが達成できる。
換言すれば、重み付きのLPC合成フィルタ330gは、LPCから周波数ドメインへの変換380iと組み合わされたスケーリング/周波数ドメインノイズ成形380eによって置き換えられる。そのため、周波数ドメイン経路370のMDCT320gとTCX−LPD分枝380のMDCT380hは、同一のドメインで作動し、変換ドメイン・エイリアシング消去(TDAC)が達成される。
以下に、前方エイリアシング消去窓関数(FAC窓関数)に関する詳細について説明する。前方エイリアシング消去(FAC)窓関数は、既に上述し説明した通りである。この補足的な窓関数は、連続的に作動している変換コードの中で、通常は後続又は先行の窓関数に起因するTDAC情報の欠損を補償するものである。ACELP時間ドメイン符号器は隣接するフレームに対してオーバーラップを示さないため、FACがこの欠損オーバーラップの不足を補償することができる。
LPCフィルタを周波数ドメインで適用することで、LPC符号化経路は、ACELP符号化されたセグメントとwLPT(TCX−LPD)符号化されたセグメントとの間における補間されたLPCフィルタ処理の平滑化の影響のうちの一部を失うことが分かって来た。しかし、FACは丁度この地点において好適な遷移を可能にするよう設計されていたので、FACがそのような影響を補償できることも分かって来た。
FAC窓関数とFDNSとを導入した結果、想定可能な全ての遷移が生来的なオーバーコーディング無しで達成可能となる。
以下に、窓処理スキームに関する幾つかの詳細を説明する。
FAC窓関数がACELPとwLPTとの間の遷移をどのように融合できるかについては、上述した通りである。更なる詳細については、非特許文献3を参照されたい。
FDNSはwLPTを信号ドメインへとシフトするので、FACは、ACELPからwLPTへの遷移及びwLPTからACELPへの遷移と、ACELPからFDモードへの遷移及びFDモードからACELPへの遷移との両方に対し、全く同一の方法(又は少なくとも類似の方法で)適用可能になる。
同様に、以前にはFD窓関数同士の間又はwLPT窓関数同士の間(即ちFDからFDへの遷移、又はwLPTからwLPTへの遷移)だけに限って可能であったようなTDACベースの変換符号化遷移が、周波数ドメインからwLPTへ又はその逆の越境時に適用可能になる。このように、両方の技術の組合せによって、ACELPフレーミンググリッドの64個のサンプルが右(時間軸においては「後ろ」)へとシフトできるようになる。その結果、一端部における64サンプルのオーバーラップ加算と、他端部における特別長い周波数ドメイン変換窓とは、最早不要となる。参照概念と比較したとき、本発明に従う実施形態では、両方の場合において、64サンプルのオーバーコーディングが防止できる。最も重要なことは、他の全ての遷移がそのままの状態で残り、更なる修正が不要となる点である。
以下に、新たなフレーム遷移マトリクスについて簡単に説明する。図5に、新たなフレーム遷移マトリクスの例を示す。主対角線上の遷移はUSAC草案標準の作業中の草案4から変化は無い。他の全ての遷移は、FAC窓関数又は周波数ドメインでの単純なTDACによって対処できる。幾つかの実施形態においては、上述したスキームのために、隣接する変換ドメイン窓関数の間に2つのオーバーラップ長、即ち1024サンプル及び128サンプルだけが必要となる。但し、他のオーバーラップ長も想定可能である。
12.主観的評価
現状の構成において、本発明が提案する新たな技術は品質の点において譲歩するものではないことを示すため、2つのリスニングテストが行われたことに留意されたい。やがて、本発明に従う実施形態が、以前はサンプルが捨てられた場所におけるビット削減によって品質の向上をもたらすことが期待されている。他の副次効果として、モード遷移が非臨界サンプリングによる悪影響から逃れられるため、符号器における分類器制御の柔軟性を大きく高めることができる。
13.所見
要約すれば、本明細書では、USACの草案標準の作業中の草案4で使用される現存のスキームと比較して複数の利点を持つ、想定される窓処理と遷移スキームについて説明した。ここで提案された窓処理と遷移スキームは、全ての変換符号化されたフレームにおいて臨界サンプリングを維持し、2の冪でない変換を不要とし、全ての変換符号化されたフレームを適切に整列させる。その提案は2つの新たなツールに基づいている。第1のツールはエイリアシング消去(FAC)であり、非特許文献3に説明されている。第2のツールは周波数ドメインノイズ成形(FDNS)であり、量子化ノイズ成形において不連続を発生させずに同一のドメインにおける周波数ドメインフレーム及びwLPTフレームの処理を可能にする。そのため、USAC内における全てのモード遷移がこれら2つの基本的ツールを用いて処理可能となり、全ての変換符号化されたモードについて調和のとれた窓処理が可能となる。本発明が提案するツールは、USACの草案標準の作業中の草案4に従う参照概念と比較して、同等又はそれ以上の品質を提供するという、主観的なテスト結果も本明細書の中で示された。

Claims (17)

  1. オーディオコンテンツの符号化済み表現(210;361;901)に基づいて、そのオーディオコンテンツの復号化済み表現(212;399;998)を提供するオーディオ信号復号器(200;360;900)であって、
    スペクトル係数の第1セット(220;382;944a)とエイリアシング消去刺激信号の表現(224;936)と複数の線形予測ドメインパラメータ(222;384;950a)とに基づいて、変換ドメインモードで符号化された前記オーディオコンテンツの一部の時間ドメイン表現(212;386;938)を得るための変換ドメイン経路(230;240;250;260;270;280;380;930)を備え、
    前記変換ドメイン経路は、
    前記線形予測ドメインパラメータの少なくとも1つのサブセットに依存して前記スペクトル係数の第1セット(944a)に対してスペクトル成形を適用し、前記スペクトル係数の第1セットのスペクトル成形済みバージョン(232;380g;945a)を得るスペクトル処理器(230;380e;945)と、
    前記スペクトル係数の第1セットのスペクトル成形済みバージョンに基づいて前記オーディオコンテンツの時間ドメイン表現を得るための第1の周波数ドメイン/時間ドメイン変換器(240;380h;946)と、
    前記線形予測ドメインパラメータ(222;384;934)の少なくとも1つのサブセットに基づいてエイリアシング消去刺激信号(224;963a)をフィルタ処理し、前記エイリアシング消去刺激信号からエイリアシング消去合成信号(252;964a)を導出するエイリアシング消去刺激フィルタ(250;964)と、
    前記オーディオコンテンツの時間ドメイン表現(242;940a)と前記エイリアシング消去合成信号(252;964)又はその後処理済みバージョンとを結合し、エイリアシング低減済み時間ドメイン信号を得るための結合器(260;978)と、を含むことを特徴とするオーディオ信号復号器。
  2. 請求項1に記載のオーディオ信号復号器において、
    前記オーディオ信号復号器は、複数の符号化モードの間で切替可能なマルチモードオーディオ信号復号器であり、
    前記変換ドメイン経路(230;240;250;260;270;280;380;930)は、エイリアシング消去・オーバラップ加算操作を許可しないようなオーディオコンテンツの部分を先行部分(1010)として持つオーディオコンテンツの部分(1020)、又はエイリアシング消去・オーバラップ加算操作を許可しないようなオーディオコンテンツの部分を後続部分(1030)として持つオーディオコンテンツの部分(1020)について、前記エイリアシング消去合成信号(252;964a)を選択的に得ることを特徴とする、オーディオ信号復号器。
  3. 請求項1又は2に記載のオーディオ信号復号器において、
    前記オーディオ信号復号器は、変換符号化励起情報(932)及び線形予測ドメインパラメータ情報(934)を使用する変換符号化励起線形予測ドメインモードと、スペクト係数情報(912)及びスケールファクタ情報(914)を使用する周波数ドメインモードとの間で切替を行うものであり、
    前記変換ドメイン経路(930)は、前記変換符号化励起情報(932)に基づいてスペクトル係数の第1セット(944a)を得ると共に、前記線形予測ドメインパラメータ情報(934)に基づいて線形予測ドメインパラメータ(950a)を得るものであり、
    前記オーディオ信号復号器は、前記スペクトル係数情報(912)によって記述されたスペクトル係数の周波数ドメインモードの1セット(921a)に基づいて、かつ前記スケールファクタ情報(914)によって記述されたスケールファクタ(922)の1セット(922a)に依存して、前記周波数ドメインモードで符号化されたオーディオコンテンツの時間ドメイン表現(918)を得る周波数ドメイン経路(910)を備え、
    前記周波数ドメイン経路(910)は、スペクトル係数の周波数ドメインモードの前記セット(921a)又はそのセットの前処理済みバージョンに対してスケールファクタの前記セット(922a)に依存してスペクトル成形を適用し、スペクトル係数のスペクトル的に成形された周波数ドメインモードのセット(923a)を得るスペクトル処理器(923)を含み、
    前記周波数ドメイン経路(910)は、前記スペクトル係数のスペクトル的に成形された周波数ドメインモードの前記セット(923a)に基づいて、前記オーディオコンテンツの時間ドメイン表現(924)を得る周波数ドメイン/時間ドメイン変換器(924a)を備え、
    前記オーディオコンテンツの2つの連続する部分の時間ドメイン表現であって、その連続する部分のうちの1つが前記変換符号化励起線形予測ドメインモードで符号化されており、他の1つが前記周波数ドメインモードで符号化されているような2つの連続する部分の時間ドメイン表現が、周波数ドメインから時間ドメインへの変換に起因する時間ドメインエイリアシングを消去するための時間的オーバーラップを含むよう構成されていることを特徴とする、オーディオ信号復号器。
  4. 請求項1乃至3のいずれかに記載のオーディオ信号復号器において、
    前記オーディオ信号復号器は、変換符号化励起情報(932)及び線形予測ドメインパラメータ情報(934)を使用する変換符号化励起線形予測ドメインモードと、代数符号励起情報(982)及び線形予測ドメインパラメータ情報(984)を使用する代数符号励起線形予測(ACELP)モードとの間で切替を行うものであり、
    前記変換ドメイン経路(930)は、前記変換符号化励起情報(932)に基づいてスペクトル係数の第1セット(944a)を取得し、かつ前記線形予測ドメインパラメータ情報(934)に基づいて線形予測ドメインパラメータ(950a)を取得するよう構成され、
    前記オーディオ信号復号器は、前記代数符号励起情報(982)及び前記線形予測ドメインパラメータ情報(984)に基づいて、前記ACELPモードで符号化されたオーディオコンテンツの時間ドメイン表現(986)を取得する、代数符号励起線形予測経路(980)を備え、
    前記代数符号励起線形予測経路(980)は、前記代数符号励起情報(982)に基づいて時間ドメイン励起信号(989a)を提供するACELP励起処理器(988,989)と、前記時間ドメイン励起信号(989a)に基づいて、かつ前記線形予測ドメインパラメータ情報(984)に基づいて得られた線形予測ドメインフィルタ係数(990a)に依存して、再構築された信号(991a)を提供するよう前記時間ドメイン励起信号の時間ドメインフィルタ処理を実行する合成フィルタ(991)とを含み、
    前記変換ドメイン経路(930)は、前記ACELPモードで符号化されたオーディオコンテンツの一部分に続く、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分と、前記ACELPモードで符号化されたオーディオコンテンツの一部分に先行する、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分とのために、前記エイリアシング消去合成信号(964)を選択的に提供するよう構成されていることを特徴とする、オーディオ信号復号器。
  5. 請求項4に記載のオーディオ信号復号器において、
    前記エイリアシング消去刺激フィルタ(964)は、前記ACELPモードで符号化されたオーディオコンテンツの一部分に続く、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分については、前記第1の周波数ドメイン/時間ドメイン変換器(946)の左側エイリアシング折り返し点に対応する線形予測ドメインフィルタパラメータ(950a;LPC1)に依存して、前記エイリアシング消去刺激信号(963a)をフィルタ処理し、
    前記エイリアシング消去刺激フィルタ(964)は、前記ACELPモードで符号化されたオーディオコンテンツの一部分に先行する、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分については、前記第1の周波数ドメイン/時間ドメイン変換器(946)の右側エイリアシング折り返し点に対応する線形予測ドメインフィルタパラメータ(950a;LPC2)に依存して、前記エイリアシング消去刺激信号(963a)をフィルタ処理することを特徴とする、オーディオ信号復号器。
  6. 請求項4又は5に記載のオーディオ信号復号器において、
    前記オーディオ信号復号器は、前記エイリアシング消去合成信号を生成するために前記エイリアシング消去刺激フィルタ(964)のメモリ値をゼロに初期化し、さらに前記エイリアシング消去刺激信号のM個のサンプルを前記エイリアシング消去刺激フィルタ(964)へと供給することで、前記エイリアシング消去合成信号(964a)の対応する非ゼロ入力応答サンプルを取得し、更に前記エイリアシング消去合成信号の複数のゼロ入力応答サンプルを取得するよう構成され、
    前記結合器は、前記オーディオコンテンツの時間ドメイン表現(940a)を前記非ゼロ入力応答サンプル及び後続のゼロ入力応答サンプルと結合し、前記ACELPモードで符号化されたオーディオコンテンツの一部分から前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの後続部分への遷移において、前記エイリアシング低減済み時間ドメイン信号を取得するよう構成されていることを特徴とする、オーディオ信号復号器。
  7. 請求項4乃至6のいずれかに記載のオーディオ信号復号器において、
    前記オーディオ信号復号器は、少なくとも部分的にエイリアシングを消去するため、前記ACELPモードを使用して得られた時間ドメイン表現の少なくとも一部分の窓処理されかつ折り返されたバージョン(973a;1060)と、前記変換符号化励起線形予測ドメインモードを使用して得られたオーディオコンテンツの後続部分の時間ドメイン表現(940;1050a)とを結合する、ことを特徴とするオーディオ信号復号器。
  8. 請求項4乃至7のいずれかに記載のオーディオ信号復号器において、
    前記オーディオ信号復号器は、少なくとも部分的にエイリアシングを消去するため、前記ACELP経路の前記合成フィルタのゼロ入力応答の窓処理済みバージョン(976a;1062)と、前記変換符号化励起線形予測ドメインモードを使用して得られたオーディオコンテンツの後続部分の時間ドメイン表現(940a;1058)とを結合する、ことを特徴とするオーディオ信号復号器。
  9. 請求項4乃至8のいずれかに記載のオーディオ信号復号器において、
    前記オーディオ信号復号器は、ラップされた周波数ドメイン/時間ドメイン変換が使用される変換符号化励起線形予測ドメインモードと、ラップされた周波数ドメイン/時間ドメイン変換が使用される周波数ドメインモードと、代数符号励起線形予測モードとの間で切替を行うよう構成され、
    前記オーディオ信号復号器は、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分と前記周波数ドメインモードで符号化されたオーディオコンテンツの一部分との間の遷移において、オーディオコンテンツの連続するオーバーラップ部分の時間ドメインサンプルの間でオーバーラップ加算操作を実行することにより、少なくとも部分的にエイリアシングを消去するよう構成され、
    さらに前記オーディオ信号復号器は、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分と前記代数符号励起線形予測モードで符号化されたオーディオコンテンツの一部分との間の遷移において、前記エイリアシング消去合成信号(964a)を使用して、少なくとも部分的にエイリアシングを消去するよう構成されている、ことを特徴とするオーディオ信号復号器。
  10. 請求項1乃至9のいずれかに記載のオーディオ信号復号器において、
    前記オーディオ信号復号器は、前記変換ドメイン経路(930)の第1の周波数ドメイン/時間ドメイン変換器(946)により提供された時間ドメイン表現(946a)のゲインスケーリング(947)と、前記エイリアシング消去刺激信号(963a)又は前記エイリアシング消去合成信号(964a)のゲインスケーリング(961)とについて、共通のゲイン値(g)を適用する、ことを特徴とするオーディオ信号復号器。
  11. 請求項1乃至10のいずれかに記載のオーディオ信号復号器において、
    前記オーディオ信号復号器は、線形予測ドメインパラメータの少なくとも前記サブセットに依存して実行されるスペクトル成形に加え、スペクトル係数の第1セットの少なくとも1つのサブセットに対してスペクトル逆成形(944)を適用し、
    前記オーディオ信号復号器は、前記エイリアシング消去刺激信号(963a)が導出されたエイリアシング消去スペクトル係数のセットの少なくとも1つのサブセットに対しスペクトル逆成形(962)を適用する、ことを特徴とするオーディオ信号復号器。
  12. 請求項1乃至11のいずれかに記載のオーディオ信号復号器において、
    前記オーディオ信号復号器は、前記エイリアシング消去刺激信号を表現するスペクトル係数(960a)のセットに依存して前記エイリアシング消去刺激信号(963a)の時間ドメイン表現を得る、第2の周波数ドメイン/時間ドメイン変換器(963)を備え、
    前記第1の周波数ドメイン/時間ドメイン変換器は、時間ドメインエイリアシングを含むラップされた変換を実行するよう構成され、
    前記第2の周波数ドメイン/時間ドメイン変換器は、ラップされていない変換を実行するよう構成されている、ことを特徴とするオーディオ信号復号器。
  13. 請求項1乃至12のいずれかに記載のオーディオ信号復号器において、
    前記エイリアシング消去刺激信号のフィルタリングを調整するために使用された同じ線形予測ドメインパラメータに依存して、スペクトル係数の第1セットに対してスペクトル成形を適用するよう構成されている、ことを特徴とするオーディオ信号復号器。
  14. オーディオコンテンツ110の入力表現(110;810)に基づいて、スペクトル係数の第1セット(112a;852)とエイリアシング消去刺激信号(112c;856)の表現と複数の線形予測ドメインパラメータ(112b;854)とを含むオーディオコンテンツの符号化済み表現(112;812)を提供するオーディオ信号符号器(100;800)であって、
    前記オーディオコンテンツの入力表現を処理して前記オーディオコンテンツの周波数ドメイン表現(112;861)を得る時間ドメイン/周波数ドメイン変換器(120;860)と、
    線形予測ドメインで符号化されるべきオーディオコンテンツの一部分のための線形予測ドメインパラメータのセット(140;863)に依存して、前記オーディオコンテンツの周波数ドメイン表現又はその前処理済みバージョンに対してスペクトル成形を適用し、前記オーディオコンテンツのスペクトル的に成形された周波数ドメイン表現(132;867)を得るスペクトル処理器(130;866)と、
    エイリアシング消去刺激信号の表現(112c;856)を提供するエイリアシング消去情報提供器(150;870;874;875;876)であって、オーディオ信号復号器において前記線形予測ドメインパラメータの少なくとも1つのサブセットに依存して前記エイリアシング消去刺激信号をフィルタ処理することで、エイリアシング・アーチファクトを消去するエイリアシング消去合成信号をもたらすような、エイリアシング消去情報提供器と、
    を備えるオーディオ信号符号器。
  15. オーディオコンテンツの符号化済み表現に基づいて、そのオーディオコンテンツの復号化済み表現を提供する方法であって、
    スペクトル係数の第1セットとエイリアシング消去刺激信号の表現と複数の線形予測ドメインパラメータとに基づいて、変換ドメインモードで符号化された前記オーディオコンテンツの一部の時間ドメイン表現を得るステップを含み、
    前記線形予測ドメインパラメータの少なくとも1つのサブセットに依存して前記スペクトル係数の第1セットに対するスペクトル成形を適用し、前記スペクトル係数の第1セットのスペクトル成形済みバージョンを取得し、
    前記スペクトル係数の第1セットのスペクトル成形済みバージョンに基づいて、周波数ドメインから時間ドメインへの変換を適用し、前記オーディオコンテンツの時間ドメイン表現を取得し、
    前記線形予測ドメインパラメータの少なくとも1つのサブセットに基づいて前記エイリアシング消去刺激信号をフィルタ処理し、前記エイリアシング消去刺激信号からエイリアシング消去合成信号を導出し、
    前記オーディオコンテンツの時間ドメイン表現と前記エイリアシング消去合成信号又はその後処理済みバージョンとを結合し、エイリアシング低減済み時間ドメイン信号を得る、
    ことを特徴とする方法。
  16. オーディオコンテンツの入力表現に基づいて、スペクトル係数の第1セットとエイリアシング消去刺激信号の表現と複数の線形予測ドメインパラメータとを含むオーディオコンテンツの符号化済み表現を提供する方法であって、
    前記オーディオコンテンツの入力表現を処理して前記オーディオコンテンツの周波数ドメイン表現を得る時間ドメイン/周波数ドメイン変換を実行するステップと、
    線形予測ドメインで符号化されるべきオーディオコンテンツの一部分のための線形予測ドメインパラメータのセットに依存して、前記オーディオコンテンツの周波数ドメイン表現又はその前処理済みバージョンに対してスペクトル成形を適用し、前記オーディオコンテンツのスペクトル的に成形された周波数ドメイン表現を得るステップと、
    オーディオ信号復号器において前記線形予測ドメインパラメータの少なくとも1つのサブセットに依存して前記エイリアシング消去刺激信号をフィルタ処理することで、エイリアシング・アーチファクトを消去するエイリアシング消去合成信号をもたらすような、エイリアシング消去刺激信号の表現を提供するステップと、
    を備える方法。
  17. コンピュータに請求項15又は16に記載の方法を実行させる、コンピュータプログラム。
JP2012534673A 2009-10-20 2010-10-19 オーディオ信号符号器、オーディオ信号復号器、エイリアシング消去を用いたオーディオ信号の符号化又は復号化方法 Active JP5247937B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25346809P 2009-10-20 2009-10-20
US61/253,468 2009-10-20
PCT/EP2010/065752 WO2011048117A1 (en) 2009-10-20 2010-10-19 Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation

Publications (2)

Publication Number Publication Date
JP2013508765A JP2013508765A (ja) 2013-03-07
JP5247937B2 true JP5247937B2 (ja) 2013-07-24

Family

ID=43447730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012534673A Active JP5247937B2 (ja) 2009-10-20 2010-10-19 オーディオ信号符号器、オーディオ信号復号器、エイリアシング消去を用いたオーディオ信号の符号化又は復号化方法

Country Status (15)

Country Link
US (1) US8484038B2 (ja)
EP (3) EP2491556B1 (ja)
JP (1) JP5247937B2 (ja)
KR (1) KR101411759B1 (ja)
CN (1) CN102884574B (ja)
AR (1) AR078704A1 (ja)
AU (1) AU2010309838B2 (ja)
BR (1) BR112012009447B1 (ja)
CA (1) CA2778382C (ja)
MX (1) MX2012004648A (ja)
MY (1) MY166169A (ja)
RU (1) RU2591011C2 (ja)
TW (1) TWI430263B (ja)
WO (1) WO2011048117A1 (ja)
ZA (1) ZA201203608B (ja)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2515704C2 (ru) * 2008-07-11 2014-05-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала
MX2011000369A (es) * 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
RU2557455C2 (ru) * 2009-06-23 2015-07-20 Войсэйдж Корпорейшн Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала
MX2012004116A (es) * 2009-10-08 2012-05-22 Fraunhofer Ges Forschung Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, metodo y programa de computacion que usan un modelado de ruido en base a linealidad-prediccion-codi ficacion.
EP3998606B8 (en) * 2009-10-21 2022-12-07 Dolby International AB Oversampling in a combined transposer filter bank
EP2524374B1 (en) * 2010-01-13 2018-10-31 Voiceage Corporation Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering
CN105355209B (zh) * 2010-07-02 2020-02-14 杜比国际公司 音高增强后置滤波器
MY155997A (en) * 2010-10-06 2015-12-31 Fraunhofer Ges Forschung Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac)
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
ES2529025T3 (es) * 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
MX2013011131A (es) 2011-03-28 2013-10-30 Dolby Lab Licensing Corp Transformada con complejidad reducida para canal de efectos de baja frecuencia.
AR088059A1 (es) * 2012-03-19 2014-05-07 Dolby Lab Licensing Corp Metodo de transformada con complejidad reducida para canal de efectos de baja frecuencia
JP6126006B2 (ja) * 2012-05-11 2017-05-10 パナソニック株式会社 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
CN111145767B (zh) * 2012-12-21 2023-07-25 弗劳恩霍夫应用研究促进协会 解码器及用于产生和处理编码频比特流的系统
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
CN117392990A (zh) * 2013-01-29 2024-01-12 弗劳恩霍夫应用研究促进协会 用于码激励线性预测类编码器的无边信息的噪声填充
PT3451334T (pt) 2013-01-29 2020-06-29 Fraunhofer Ges Forschung Conceito de preenchimento de ruído
MX346927B (es) 2013-01-29 2017-04-05 Fraunhofer Ges Forschung Énfasis de bajas frecuencias para codificación basada en lpc (codificación de predicción lineal) en el dominio de frecuencia.
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
EP2965315B1 (en) * 2013-03-04 2019-04-24 Voiceage Evs Llc Device and method for reducing quantization noise in a time-domain decoder
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
MY169132A (en) * 2013-06-21 2019-02-18 Fraunhofer Ges Forschung Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN105556601B (zh) * 2013-08-23 2019-10-11 弗劳恩霍夫应用研究促进协会 用于使用交叠范围中的组合来处理音频信号的装置及方法
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
WO2015071173A1 (en) 2013-11-13 2015-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
EP2887350B1 (en) 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
FR3024581A1 (fr) 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
AU2015326856B2 (en) * 2014-10-02 2021-04-08 Dolby International Ab Decoding method and decoder for dialog enhancement
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TW202242853A (zh) * 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
WO2017049397A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels
WO2020094263A1 (en) 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
CN111210831B (zh) * 2018-11-22 2024-06-04 广州广晟数码技术有限公司 基于频谱拉伸的带宽扩展音频编解码方法及装置
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
WO2020164753A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
CN117499644A (zh) * 2019-03-14 2024-02-02 北京字节跳动网络技术有限公司 环路整形信息的信令和语法
CN110297357B (zh) 2019-06-27 2021-04-09 厦门天马微电子有限公司 一种曲面背光模组的制备方法、曲面背光模组及显示装置
US11488613B2 (en) * 2019-11-13 2022-11-01 Electronics And Telecommunications Research Institute Residual coding method of linear prediction coding coefficient based on collaborative quantization, and computing device for performing the method
KR20210158108A (ko) 2020-06-23 2021-12-30 한국전자통신연구원 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
KR20220117019A (ko) 2021-02-16 2022-08-23 한국전자통신연구원 학습 모델을 이용한 오디오 신호의 부호화 및 복호화 방법과 그 학습 모델의 트레이닝 방법 및 이를 수행하는 부호화기 및 복호화기
CN115050377A (zh) * 2021-02-26 2022-09-13 腾讯科技(深圳)有限公司 音频转码方法、装置、音频转码器、设备以及存储介质
CN117977635B (zh) * 2024-03-27 2024-06-11 西安热工研究院有限公司 熔盐耦合火电机组的调频方法、装置、电子设备及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
RU2316059C2 (ru) * 2003-05-01 2008-01-27 Нокиа Корпорейшн Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
WO2005096273A1 (fr) * 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Ameliorations apportees a un procede et un dispositif de codage/decodage audio
JP4977471B2 (ja) * 2004-11-05 2012-07-18 パナソニック株式会社 符号化装置及び符号化方法
ES2327566T3 (es) * 2005-04-28 2009-10-30 Siemens Aktiengesellschaft Procedimiento y dispositivo para la supresion de ruidos.
RU2351024C2 (ru) * 2005-04-28 2009-03-27 Сименс Акциенгезелльшафт Способ и устройство для подавления шумов
BRPI0718738B1 (pt) * 2006-12-12 2023-05-16 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
PL2165328T3 (pl) * 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
AU2009267518B2 (en) * 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
RU2557455C2 (ru) * 2009-06-23 2015-07-20 Войсэйдж Корпорейшн Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала

Also Published As

Publication number Publication date
US8484038B2 (en) 2013-07-09
EP4362014A1 (en) 2024-05-01
US20120271644A1 (en) 2012-10-25
CA2778382C (en) 2016-01-05
BR112012009447B1 (pt) 2021-10-13
JP2013508765A (ja) 2013-03-07
ZA201203608B (en) 2013-01-30
EP2491556B1 (en) 2024-04-10
RU2591011C2 (ru) 2016-07-10
CN102884574B (zh) 2015-10-14
EP2491556A1 (en) 2012-08-29
CA2778382A1 (en) 2011-04-28
AR078704A1 (es) 2011-11-30
KR20120128123A (ko) 2012-11-26
CN102884574A (zh) 2013-01-16
AU2010309838A1 (en) 2012-05-31
WO2011048117A1 (en) 2011-04-28
MX2012004648A (es) 2012-05-29
EP4358082A1 (en) 2024-04-24
TW201129970A (en) 2011-09-01
KR101411759B1 (ko) 2014-06-25
AU2010309838B2 (en) 2014-05-08
EP2491556C0 (en) 2024-04-10
MY166169A (en) 2018-06-07
BR112012009447A2 (pt) 2020-12-01
TWI430263B (zh) 2014-03-11
RU2012119260A (ru) 2013-11-20

Similar Documents

Publication Publication Date Title
JP5247937B2 (ja) オーディオ信号符号器、オーディオ信号復号器、エイリアシング消去を用いたオーディオ信号の符号化又は復号化方法
JP5555707B2 (ja) マルチ分解能切替型のオーディオ符号化及び復号化スキーム
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
KR101250309B1 (ko) 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법
US8447620B2 (en) Multi-resolution switched audio encoding/decoding scheme
US9047859B2 (en) Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
JPWO2013061584A1 (ja) 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
US9984696B2 (en) Transition from a transform coding/decoding to a predictive coding/decoding
AU2009301358B2 (en) Multi-resolution switched audio encoding/decoding scheme

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130409

R150 Certificate of patent or registration of utility model

Ref document number: 5247937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250