JP6654236B2 - オーディオ変換コーディングにおけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法 - Google Patents

オーディオ変換コーディングにおけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法 Download PDF

Info

Publication number
JP6654236B2
JP6654236B2 JP2018515442A JP2018515442A JP6654236B2 JP 6654236 B2 JP6654236 B2 JP 6654236B2 JP 2018515442 A JP2018515442 A JP 2018515442A JP 2018515442 A JP2018515442 A JP 2018515442A JP 6654236 B2 JP6654236 B2 JP 6654236B2
Authority
JP
Japan
Prior art keywords
group
audio samples
time
domain
domain audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018515442A
Other languages
English (en)
Other versions
JP2018532153A (ja
Inventor
クリスティアン・ヘルムリッヒ
ベルンド・エドラー
トビアス・シュヴェグラー
フロリアン・シュウ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2018532153A publication Critical patent/JP2018532153A/ja
Application granted granted Critical
Publication of JP6654236B2 publication Critical patent/JP6654236B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ信号の符号化、処理および復号に関し、特に、オーディオ変換符号化におけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法に関する。
過去20年の間、特にMPEG−1レイヤ3(MP3)およびAC−2(Dolby Digital)コーダの開発以来、知覚オーディオコーディングは、波形保持スペクトル量子化のために、Princenらによって導入され、Malvarによって、変調重複変換(MLT)の名前でさらに研究されている([3]参照)、修正離散コサイン変換(MDCT)に専ら依存している([1]、[2]参照)。この変換の逆は、フレームインデックスiの長さMスペクトルX’を所与として、以下のように書くことができる。
Figure 0006654236
式中、0≦n≦Nであり、Nは窓の長さである。M=N/2であるため、オーバーラップ率は50%である。MPEG−2アドバンストオーディオコーディング(AAC)仕様([4]、[5]参照)に基づく最近の規格では、この概念はまた、MDCT領域のノイズ充填などのパラメトリックツールも可能になるように拡張されている。例えば、MPEG−H3Dオーディオフレームワーク(例えば[6]、[7]参照)は、例えば、セミパラメトリック変換領域コーディングのために、ある周波数より上のゼロ化スペクトル線のノイズ充填、セミパラメトリックジョイントステレオコーディングのためのステレオ充填([8]、[9]参照)、および、帯域幅拡張のためのインテリジェントギャップフィリング(IGF)([10]を参照)の機能を提供する。
[9]において、非自明なチャネル間位相差を伴う入力について変換カーネルスイッチングによって支援される、[8]においてスペクトル帯域置換(SBS)と名づけられたIGFとステレオ充填との組み合わせは、ほとんどの信号について良好なオーディオ品質を提供することが示されている。しかし、準定常高調波セグメントでは、擬似QMF領域におけるスペクトル帯域複製(SBR)および「統合ステレオ」MPEGサラウンドを使用した代替の高遅延/複雑度3Dオーディオ構成よりも主観的性能が低かった。この挙動は、後者の構成で使用されるMDCTのより高い周波数分解能によって説明される。すなわち、48kHzの所与の出力サンプルレートにおいて、Mサイズのコア変換が、24kHzのダウンサンプリングされたダウンミックスおよび残留信号に対して動作し、フレーム長が倍増する。
SBSベースの3Dオーディオコーディングは、その遅延、複雑さ、および時間分解能の利点のために[8]、少なくともモノラルおよびステレオ信号に対し可変の選択肢を表しており、単一の楽器および他の音調録音であってもQMFベースの構成のものと性能が一致し得るように、フレーム長を維持しながらその設計を改善することが望ましい。準定常セグメントでのスペクトル効率を高めるために実行可能なソリューションは、Malvar([11]、[12]参照)によって提案された拡張重複変換(ELT)であり、その逆(合成)バージョンは、0≦n<L(L≧4M)であることを除いて、(1)と同一である。
したがって、式(1)は、逆ELTおよび逆MLTを示す。唯一の相違点は、逆MLTの場合、nが、0≦n<N(例えば、N=2M)について定義され、逆ELTの場合、nが、0≦n<L(例えば、L≧4M)について定義されることである。
残念ながら、以下に示すように、ELTのオーバーラップ率は、MDCTの50%ではなく少なくとも75%であり、これはドラム打ちまたは音の出だしなどの過渡波形部分の可聴アーチファクトをもたらすことが多い。さらに、異なる長さのELT間、またはELTとMLTとの間、のブロック長切り替えの実際的な解決策は、そのような過渡フレームに対してMDCTコーデックで適用される技法と同様に、提示されておらず、理論的な研究のみが公開されている(例えば、[13]、[14]、[15]、[16]、[17]参照)。
本発明の目的は、オーディオ信号の符号化、処理および復号のための改善された概念を提供することである。
本発明の目的は、請求項1に記載の復号器、請求項26に記載の符号化器、請求項52に記載のシステム、請求項55に記載の方法、請求項56に記載の方法、および請求項57に記載のコンピュータプログラムによって解決される。
複数のスペクトル領域オーディオサンプルを復号するための復号器が提供される。復号器は、スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第1のグループおよび第2のグループを生成するための第1の復号モジュールを備える。さらに、復号器は、時間領域中間オーディオサンプルの第1のグループを、時間領域中間オーディオサンプルの第2のグループと、5%を超え最大50%のオーバーラップを伴ってオーバーラップ加算するオーバーラップ加算器を備える。さらに、復号器は、スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第3のグループおよび第4のグループを生成するための第2の復号モジュールを備える。さらに、復号器は出力インターフェースを備える。オーバーラップ加算器は、少なくとも時間領域中間オーディオサンプルの第3のグループを、時間領域中間オーディオサンプルの第4のグループと、60%を超え100%未満のオーバーラップを伴ってオーバーラップ加算するように構成されている。さらに、オーバーラップ加算器は、少なくとも時間領域中間オーディオサンプルの第2のグループおよび第3のグループをオーバーラップ加算するか、または少なくとも時間領域中間オーディオサンプルの第4のグループおよび第1のグループをオーバーラップ加算するように構成されている。
特に、複数のスペクトル領域オーディオサンプルを復号するための復号器が提供される。復号器は、スペクトル領域オーディオサンプルの第1のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第1のグループを生成することによって、スペクトル領域オーディオサンプルの第1のグループを復号し、スペクトル領域オーディオサンプルの第2のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第2のグループを生成することによって、スペクトル領域オーディオサンプルの第2のグループを復号するための第1の復号モジュールを備える。
さらに、復号器は、オーバーラップ加算器を備え、オーバーラップ加算器は、時間領域中間オーディオサンプルの正確に2つのグループをオーバーラップ加算するように構成され、上記正確に2つのグループは時間領域中間オーディオサンプルの第1のグループおよび第2のグループであり、オーバーラップ加算器は、上記正確に2つのグループを、5%を超え最大50%のオーバーラップを伴ってオーバーラップ加算するように構成され、上記正確に2つのグループの上記オーバーラップ加算の結果として、オーディオ信号の第1の複数の時間領域オーディオ出力サンプルが生成される。
さらに、復号器は、スペクトル領域オーディオサンプルの第3のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第3のグループを生成することによって、スペクトル領域オーディオサンプルの第3のグループを復号し、スペクトル領域オーディオサンプルの第4のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第4のグループを生成することによって、スペクトル領域オーディオサンプルの第4のグループを復号するための第2の復号モジュールを備える。
さらに、復号器は、オーディオ信号の第1の複数の時間領域オーディオ出力サンプル、オーディオ信号の第2の複数の時間領域オーディオ出力サンプル、およびオーディオ信号の第3の複数の時間領域オーディオ出力サンプルを出力するための出力インターフェースを備える。
オーバーラップ加算器は、少なくとも時間領域中間オーディオサンプルの第3のグループの、時間領域中間オーディオサンプルの第4のグループとの、60%を超え100%未満のオーバーラップを伴ったオーバーラップ加算を使用して、第2の複数の時間領域オーディオ出力サンプルを得るように構成されている。
さらに、オーバーラップ加算器は、少なくとも時間領域中間オーディオサンプルの第2のグループの、時間領域中間オーディオサンプルの第3のグループとのオーバーラップ加算を用いて第3の複数の時間領域オーディオ出力サンプルを得るように構成されており、または、オーバーラップ加算器は、少なくとも時間領域中間オーディオサンプルの第4のグループの、時間領域中間オーディオサンプルの第1のグループとのオーバーラップ加算を用いて第3の複数の時間領域オーディオ出力サンプルを得るように構成されている。
さらに、時間領域オーディオサンプルの複数のグループからスペクトル領域オーディオサンプルの複数のグループを生成することによってオーディオ信号の複数の時間領域オーディオサンプルを符号化するための符号化器が提供される。
符号化器は、時間領域オーディオサンプルのグループのうちの第1のグループからスペクトル領域オーディオサンプルのグループのうちの第1のグループを生成し、時間領域オーディオサンプルのグループのうちの第2のグループからスペクトル領域オーディオサンプルのグループのうちの第2のグループを生成するための第1の符号化モジュールを備え、時間領域オーディオサンプルの第1のグループおよび時間領域オーディオサンプルの第2のグループは、時間領域オーディオサンプルのグループ内で時間的に隣接しており、時間領域オーディオサンプルの第1のグループは、時間領域オーディオサンプルの第2のグループの5%を超え最大50%のオーディオサンプルを含み、時間領域オーディオサンプルの第2のグループは、時間領域オーディオサンプルの第1のグループの5%を超え最大50%のオーディオサンプルを含む。
さらに、符号化器は、時間領域オーディオサンプルのグループのうちの第3のグループからスペクトル領域オーディオサンプルのグループのうちの第3のグループを生成し、時間領域オーディオサンプルのグループのうちの第4のグループからスペクトル領域オーディオサンプルのグループのうちの第4のグループを生成するための第2の符号化モジュールを備え、時間領域オーディオサンプルの第3のグループは、時間領域オーディオサンプルの第4のグループの60%を超え100%未満のオーディオサンプルを含み、時間領域オーディオサンプルの第4のグループは、時間領域オーディオサンプルの第3のグループの60%を超え100%未満のオーディオサンプルを含む。
さらに、符号化器は、スペクトル領域オーディオサンプルの第1のグループ、スペクトル領域オーディオサンプルの第2のグループ、スペクトル領域オーディオサンプルの第3のグループおよびスペクトル領域オーディオサンプルの第4のグループを出力する出力モジュールを備える。
時間領域オーディオサンプルの第3のグループは、時間領域オーディオサンプルの第2のグループのオーディオサンプルを含み、または、時間領域オーディオサンプルの第4のグループは、時間領域オーディオの第1のグループのオーディオサンプルを含む。
さらに、システムが提供される。本システムは、上述の実施形態のうちの1つによる符号化器と、上述の実施形態のうちの1つによる復号器とを備える。符号化器は、複数のスペクトル領域オーディオサンプルを生成することによって、オーディオ信号の複数の時間領域オーディオサンプルを符号化するように構成される。さらに、復号器は、符号化器から複数のスペクトル領域オーディオサンプルを受信するように構成される。さらに、復号器は、複数のスペクトル領域オーディオサンプルを復号するように構成される。
さらに、複数のスペクトル領域オーディオサンプルを復号するための方法が提供される。この方法は、以下のステップを含む。
− スペクトル領域オーディオサンプルの第1のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第1のグループを生成することによって、スペクトル領域オーディオサンプルの第1のグループを復号し、スペクトル領域オーディオサンプルの第2のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第2のグループを生成することによって、スペクトル領域オーディオサンプルの第2のグループを復号するステップ。
− 時間領域中間オーディオサンプルの正確に2つのグループをオーバーラップ加算するステップ。上記正確に2つのグループは時間領域中間オーディオサンプルの第1のグループおよび第2のグループであり、上記正確に2つのグループは、5%を超え最大50%のオーバーラップを伴ってオーバーラップ加算され、上記正確に2つのグループの上記オーバーラップ加算の結果として、オーディオ信号の第1の複数の時間領域オーディオ出力サンプルが生成される。
− スペクトル領域オーディオサンプルの第3のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第3のグループを生成することによって、スペクトル領域オーディオサンプルの第3のグループを復号し、スペクトル領域オーディオサンプルの第4のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第4のグループを生成することによって、スペクトル領域オーディオサンプルの第4のグループを復号するステップ。
− オーディオ信号の第1の複数の時間領域オーディオ出力サンプル、オーディオ信号の第2の複数の時間領域オーディオ出力サンプル、およびオーディオ信号の第3の複数の時間領域オーディオ出力サンプルを出力するステップ。
− 少なくとも時間領域中間オーディオサンプルの第3のグループの、時間領域中間オーディオサンプルの第4のグループとの、60%を超え100%未満のオーバーラップを伴ったオーバーラップ加算を使用して、第2の複数の時間領域オーディオ出力サンプルを得るステップ。および:
− 少なくとも時間領域中間オーディオサンプルの第2のグループの、時間領域中間オーディオサンプルの第3のグループとのオーバーラップ加算を用いて第3の複数の時間領域オーディオ出力サンプルを得、または、少なくとも時間領域中間オーディオサンプルの第4のグループの、時間領域中間オーディオサンプルの第1のグループとのオーバーラップ加算を用いて第3の複数の時間領域オーディオ出力サンプルを得るステップ。
さらに、時間領域オーディオサンプルの複数のグループからスペクトル領域オーディオサンプルの複数のグループを生成することによってオーディオ信号の複数の時間領域オーディオサンプルを符号化するための方法が提供される。符号化器は、
− 時間領域オーディオサンプルのグループのうちの第1のグループからスペクトル領域オーディオサンプルのグループのうちの第1のグループを生成し、時間領域オーディオサンプルのグループのうちの第2のグループからスペクトル領域オーディオサンプルのグループのうちの第2のグループを生成するステップ。時間領域オーディオサンプルの第1のグループおよび時間領域オーディオサンプルの第2のグループは、時間領域オーディオサンプルのグループ内で時間的に隣接しており、時間領域オーディオサンプルの第1のグループは、時間領域オーディオサンプルの第2のグループの5%を超え最大50%のオーディオサンプルを含み、時間領域オーディオサンプルの第2のグループは、時間領域オーディオサンプルの第1のグループの5%を超え最大50%のオーディオサンプルを含む。
− 時間領域オーディオサンプルのグループのうちの第3のグループからスペクトル領域オーディオサンプルのグループのうちの第3のグループを生成し、時間領域オーディオサンプルのグループのうちの第4のグループからスペクトル領域オーディオサンプルのグループのうちの第4のグループを生成するステップ。時間領域オーディオサンプルの第3のグループは、時間領域オーディオサンプルの第4のグループの60%を超え100%未満のオーディオサンプルを含み、時間領域オーディオサンプルの第4のグループは、時間領域オーディオサンプルの第3のグループの60%を超え100%未満のオーディオサンプルを含む。
− スペクトル領域オーディオサンプルの第1のグループ、スペクトル領域オーディオサンプルの第2のグループ、スペクトル領域オーディオサンプルの第3のグループおよびスペクトル領域オーディオサンプルの第4のグループを出力するステップ。
時間領域オーディオサンプルの第3のグループは、時間領域オーディオサンプルの第2のグループのオーディオサンプルを含み、または、時間領域オーディオサンプルの第4のグループは、時間領域オーディオの第1のグループのオーディオサンプルを含む。
さらに、コンピュータプログラムが提供される。コンピュータプログラムの各々は、上記の方法の各々がコンピュータプログラムのうちの1つによって実施されるように、コンピュータまたは信号プロセッサ上で実行されると上記の方法のうちの1つを実施するように構成されている。
それらのすべてが、周波数領域量子化のために、修正離散コサイン変換(MDCT)を50%のオーバーラップ率で適用する現代の知覚オーディオコーダは、低ビットレートでも良好なコーディング品質を提供する。
しかし、実施形態は、準定常高調波入力についても許容可能な低レート性能には比較的長いフレームが必要であり、アルゴリズム待ち時間が増加し、時間的コーディング分解能が低下するという知見に基づいている。
いくつかの実施形態は、重複変換コーディングにおけるオーバーラップ率を現代のオーディオコーデックで用いられる従来の50%超に拡張する。
いくつかの実施形態によれば、そのような入力に対して、75%のオーバーラップ率を有する拡張重複変換(ELT)が利用される。トランジェントセグメントの符号化のための高い時間分解能を維持するために、ELT定義は、完全な時間領域エイリアシング除去(TDAC)が行われ、フレーム長が増大しない、ELT(準定常用)とMDCT符号化(非定常または非調性領域用)とのフレーム単位の切り替えが可能になるように修正される。
いくつかの実施形態は、50%および75%のオーバーラップ率による変換間の遷移を完全に再構築することを可能にする、ELT概念の本発明の修正およびELT式の本発明の修正を提供する。実施形態では、50のオーバーラップ比によるMDCTコーディングと75%の比によるELTコーディングとの間の適切なTDACが達成される。
いくつかの実施形態では、本発明の新規のELT窓が提供される。例えば、いくつかの実施形態では、フレーミングアーチファクトを回避するために、サイドローブ除去が改善された/サイドローブレベルが低い、本発明の新規のELT窓関数が提供される。
いくつかの実施形態によれば、ELT概念の本発明の修正およびELT式の本発明の修正は、例えば、本発明の新規のELT窓と組み合わせて使用することができる。
いくつかの実施形態は、率切り替え原理を適用する信号適応コーディング方式を提供する。MPEG−H3Dオーディオ仕様に基づく完全なコーディング方式が提供される(MPEG−H3Dオーディオ仕様の詳細については、[7]を参照されたい)。
実施形態は、MDCT、MDST、およびコサインまたはサイン変調ELTコーディングの間で信号適応的に切り替えるための符号化器、復号器、システムおよび方法を提供する。実施形態は、高時間分解能での過渡入力のコード化を実現する。
好ましい実施形態は、従属請求項に記載されている。
以下では、本発明の実施形態を、図面を参照してより詳細に説明する。
一実施形態による復号器を示す図である。 一実施形態による符号化器を示す図である。 一実施形態によるシステムを示す図である。 短いグループから長いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの4つのグループのオーバーラップを示す図である。 短いグループから長いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの6つのグループのオーバーラップを示す図である。 長いグループから短いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの4つのグループのオーバーラップを示す図である。 長いグループから短いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの6つのグループのオーバーラップを示す図である。 図4(a)ではMLT、図4(b)ではELT、図4(c)ではELTを介したMLTの場合の、重複変換におけるオーバーラップ加算(OLA)中のTDACを示す図である。 図5(a)は不正確な非完全再構成を示し、図5(b)は所望の完全再構成を示し、図5(c)は所望の(修正)ELTを介したMLTを示す、実施形態による遷移変換を伴うMLTからELTへの切り替えを示す図である。 実施形態による遷移変換を伴うELTからMLTへの切り替えを示す図である。 実施形態による、図7(a)ではMLT、図7(b)ではELT、図7(c)では遷移の場合の完全な再構成窓設計を示す図である。 実施形態による4つの入力信号に対する結果のフレーム単位のELTおよびMDCT選択を示す図である。 実施形態による95%信頼区間による聴取試験結果の拡大図である。 一実施形態による複数の分析窓を示す図である。 一実施形態による複数の合成窓を示す図である。 図12(a)はMDCT/MDSTを示し、図12(b)はELTを示す、いくつかの特定の実施形態による、重複変換による基本フィルタバンクを示す図である。 図13(a)はPrincen−Bradleyを示し、図13(b)はMELT−IIを示す、いくつかの特定の実施形態による、偶数積み重ねフィルタバンクにおけるTDACを示す図である。 図14(a)はコサイン変調からサイン変調への遷移を示し、図14(b)はサイン変調からコサイン変調への遷移を示す、特定の実施形態によるMELT−IVフィルタバンクの特定のTDAC準拠カーネル切り替えを示す図である。 図15(a)は75%から50%のオーバーラップ率への一時的な遷移を示し、図15(b)は、50%から75%へのオーバーラップ率の一時的な遷移を示す、一時的な遷移の間の、破線で示される特別な「stop−start」形状を有する特定の実施形態による改善された正確な窓処理を示す図である。
特定の実施形態を詳細に説明する前に、重複変換コーディングの原理について説明する。
上述のように、ELT、MLTおよびMDCTは、逆を決定するための式(1)ならびに0≦k<M)および順方向(分析)の場合の
Figure 0006654236
を用いた、一般的な重複変換式の具体的実現として考えられる。
式(2)において、cos()関数は、CLT(変調複素重複変換)([18]参照)および[8]、[9]に適用されている修正離散サイン変換(MDST)のようなサイン変調形式を得るために(1、2)におけるsin()関数を使用することもできることを強調するために、プレースホルダcs()に置き換えられている。
したがって、cs()はsin()またはcos()を使用できることを示すプレースホルダである。
逆MLT(MLTの合成を実施する)の式(1)または(順方向)ELT(ELTの分析を実施する)の式(2)の代わりに、複数の他の式が、MLT(例えば、MDCTまたはMDST)またはELTが実施されるときの重複変換式として利用される。そのような式の例が、ここで式(2a)〜(2j)として示される。
以下のすべての式(2a)〜(2j)および式(4a)〜(4h)において、0≦k<Mおよび0≦nが適用され、X(k)はkにおける周波数サンプルであり、x(n)はnにおける時間サンプルである。
一般化された重複変換式は、例えば、式(2a)および(2b)のように定式化することができる。
順方向(分析)一般化重複変換定義:
Figure 0006654236
逆(合成)一般化重複変換定義:
Figure 0006654236
50%のオーバーラップ率を有する重複変換は、例えば、式(2c)〜(2j)のように定式化することができる。
MDCT−IVと呼ばれる順方向(分析)MDCT、タイプ4、N=L/2:
Figure 0006654236
IMDCT−IVと呼ばれる逆(合成)MDCT、タイプ4、n<L/2:
Figure 0006654236
MDCT−IIと呼ばれる順方向(分析)MDCT、タイプ2、N=L/2:
Figure 0006654236
IMDCT−IIと呼ばれる逆(合成)MDCT、タイプ2、n<L/2:
Figure 0006654236
MDST−IVと呼ばれる順方向(分析)MDST、タイプ4、N=L/2:
Figure 0006654236
IMDST−IVと呼ばれる逆(合成)MDST、タイプ4、n<L/2:
Figure 0006654236
MDST−IIと呼ばれる順方向(分析)MDST、タイプ2、N=L/2:
Figure 0006654236
IMDST−IIと呼ばれる逆(合成)MDST、タイプ2、n<L/2:
Figure 0006654236
例えば、Malvarの順方向または逆方向拡張重複変換(ELT)などの、75%のオーバーラップ率を有する重複変換は、式(2c)および(2d)と同じ方法で定式化することができるが、N=Lかつn<Lである。
量子化(式(1)においてa’で示されている)によって、少なくともスペクトル歪みが存在しない場合に、それぞれ式(1)および(2)の分析および合成変換を受けた後の入力信号s(n)の完全な再構成(PR)を達成するために、窓w(n)が使用されて、Lサイズの分析入力
Figure 0006654236
および合成出力
Figure 0006654236
が重み付けされる。
Figure 0006654236
は、重複変換のクリティカルサンプリング特性に起因する時間領域エイリアシング(TDA)を示しているため、w(n)は特定の設計制約を満たさなければならない([1]、[2]、[12]参照)。L/Mが偶数であるELTについて、分析および合成についてw(n)が等しく、対称であると仮定すると、これらは、以下によって与えられる。
Figure 0006654236
MLT、MDCT、またはMDST(L/M=N/M=2、以下、これら3つの用語は交換可能に適用される)について、TDAは、オーバーラップ加算(OLA)手順によって、先行するフレーム
Figure 0006654236

Figure 0006654236
の第1の時間的半部と第2の半部とを組み合わせることによって相殺される。結果として得られる変換間オーバーラップ率は(2−1)/2=50%である。L=4MであるELTの場合、OLAステップは、
Figure 0006654236
の第1の四半部と、
Figure 0006654236
の第2の四半部、
Figure 0006654236
の第3の四半部、および
Figure 0006654236
の第4の四半部を組み合わせなければならず、そのため、率は(4−1)/4=75%まで増大する。
図4は、この差および最悪の場合のプリエコー(コーディングエラーの時間的拡大)を示している。TDAおよび完全な再構成のより詳細な議論は、[15]、[16]、[17]、[18]、[19]および[20]に見出すことができる。
特に、図4は、重複変換におけるOLA中のTDACを示し、図4(a)はMLT、図4(b)はELT、図4(c)はELTを介したMLTのものである。窓の下の線の長さは、最大プリエコーを示す。ELTの場合の最大プリエコーはMLTの場合よりも長いことが分かる。
また、DCT−IIに基づく偶数積み重ね線形位相ELT、または、例えば、L=3Mの奇数長ELTも可能であり([21]、22]参照)、以下に説明する実施形態はこのようなELTにも適用されることにも留意されたい。
長さ4MのELT(L/M=4)に着目すると、図5(a)に示すように、TDA対称性は互換性がないため、MLTコーディングへの切り替えおよびMLTコーディングからの切り替えの間に完全な再構成は達成されないことが分かる。言い換えれば、フレームi−4とフレームi−3との間では、隣接する偶奇の組み合わせ([9]、[19]参照)の必要性が失われる。
ここで、実施形態を詳細に説明する。
図1bは、一実施形態による、時間領域オーディオサンプルの複数のグループからスペクトル領域オーディオサンプルの複数のグループを生成することによってオーディオ信号の複数の時間領域オーディオサンプルを符号化するための符号化器を示す。
符号化器は、時間領域オーディオサンプルのグループのうちの第1のグループからスペクトル領域オーディオサンプルのグループのうちの第1のグループを生成し、時間領域オーディオサンプルのグループのうちの第2のグループからスペクトル領域オーディオサンプルのグループのうちの第2のグループを生成するための第1の符号化モジュール210を備え、時間領域オーディオサンプルの第1のグループおよび時間領域オーディオサンプルの第2のグループは、時間領域オーディオサンプルのグループ内で時間的に隣接しており、時間領域オーディオサンプルの第1のグループは、時間領域オーディオサンプルの第2のグループの5%を超え最大50%のオーディオサンプルを含み、時間領域オーディオサンプルの第2のグループは、時間領域オーディオサンプルの第1のグループの5%を超え最大50%のオーディオサンプルを含む。
さらに、符号化器は、時間領域オーディオサンプルのグループのうちの第3のグループからスペクトル領域オーディオサンプルのグループのうちの第3のグループを生成し、時間領域オーディオサンプルのグループのうちの第4のグループからスペクトル領域オーディオサンプルのグループのうちの第4のグループを生成するための第2の符号化モジュール220を備え、時間領域オーディオサンプルの第3のグループは、時間領域オーディオサンプルの第4のグループの60%を超え100%未満のオーディオサンプルを含み、時間領域オーディオサンプルの第4のグループは、時間領域オーディオサンプルの第3のグループの60%を超え100%未満のオーディオサンプルを含む。
さらに、符号化器は、スペクトル領域オーディオサンプルの第1のグループ、スペクトル領域オーディオサンプルの第2のグループ、スペクトル領域オーディオサンプルの第3のグループおよびスペクトル領域オーディオサンプルの第4のグループを出力する出力モジュール230を備える。
時間領域オーディオサンプルの第3のグループは、時間領域オーディオサンプルの第2のグループのオーディオサンプルを含み、または、時間領域オーディオサンプルの第4のグループは、時間領域オーディオの第1のグループのオーディオサンプルを含む。
実施形態はとりわけ、時間領域オーディオ信号のある部分については、より高いオーバーラップを有するより長い変換窓がより適切であり、一方で、時間領域オーディオ信号の部分の他の信号グループについては、よりオーバーラップが低いより短い変換窓がより適切であるという知見に基づく。したがって、異なる変換窓間の切り替えは、実行時に実現される。可聴アーチファクトのないオーディオ符号化を実現するために、窓の長さが変化する場合であっても、隣接する変換窓はオーバーラップする。
図1bにおいて、第1の符号化モジュール210は、時間領域オーディオサンプルの他のグループとのより小さいオーバーラップを有する時間領域オーディオサンプルのより小さいグループを符号化するためのものである。しかし、第1の符号化モジュール210の場合であっても、少なくともいくらかのオーバーラップが存在するはずであるため、5%を超えるオーバーラップが必要とされる。
第2の符号化モジュール220は、第1の符号化モジュール210によって処理されるグループと比較してより大きなオーバーラップを有する時間領域オーディオサンプルのより大きなグループを符号化するためのものである。60%を超える最小オーバーラップが必要とされる。
図2aは、短いグループから長いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの4つのグループのオーバーラップを示す。
具体的には、時間領域オーディオサンプルの第1のグループ410、時間領域オーディオサンプルの第2のグループ420、時間領域オーディオサンプルの第3のグループ430、および時間領域オーディオサンプルの第4のグループ440の各々が、対応するブロックによって概略的に示されている。破線は、重複領域を識別する役割を果たす。
図から分かるように、時間領域オーディオサンプルの第1のグループ410および時間領域オーディオサンプルの第2のグループ420は、50%のオーバーラップを有する。したがって、時間領域オーディオサンプルの第1のグループ410は、時間領域オーディオサンプルの第2のグループ420の正確に50%の時間領域オーディオサンプルを含み、逆もまた同様である。
さらに、図から分かるように、時間領域オーディオサンプルの第3のグループ430および時間領域オーディオサンプルの第4のグループ440は、75%のオーバーラップを有する。したがって、時間領域オーディオサンプルの第3のグループ430は、時間領域オーディオサンプルの第4のグループ440の正確に75%の時間領域オーディオサンプルを含み、逆もまた同様である。
さらに、図から分かるように、時間領域オーディオサンプルの第3のグループ430は、時間領域オーディオサンプルの第2のグループ420のオーディオサンプルを含む。これは、両方のグループがオーバーラップする範囲を有するためである。
図2aの実施形態を要約すると、時間領域オーディオサンプルの第1のグループ410は、時間領域オーディオサンプルの第2のグループ420に時間的に先行し、時間領域オーディオサンプルの第2のグループ420は、時間領域オーディオサンプルの第3のグループ430に時間的に先行し、時間領域オーディオサンプルの第3のグループ430は、時間領域オーディオサンプルの第4のグループ440に時間的に先行し、時間領域オーディオサンプルの第3のグループ430は、時間領域オーディオサンプルの第2のグループ420のオーディオサンプルを含む。図2bの実施形態についても同様である。
長いグループから短いグループへの切り替えの例が、図3aによって提供される。
図3aは、長いグループから短いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの4つのグループのオーバーラップを示す。
具体的には、ここでも、時間領域オーディオサンプルの第1のグループ411、時間領域オーディオサンプルの第2のグループ421、時間領域オーディオサンプルの第3のグループ431、および時間領域オーディオサンプルの第4のグループ441の各々が、対応するブロックによって概略的に示されている。ここでも、破線は、重複領域を識別する役割を果たす。
図から分かるように、時間領域オーディオサンプルの第1のグループ411および時間領域オーディオサンプルの第2のグループ421は、50%のオーバーラップを有する。したがって、時間領域オーディオサンプルの第1のグループ411は、時間領域オーディオサンプルの第2のグループ421の正確に50%の時間領域オーディオサンプルを含み、逆もまた同様である。
さらに、図から分かるように、時間領域オーディオサンプルの第3のグループ431および時間領域オーディオサンプルの第4のグループ441は、75%のオーバーラップを有する。したがって、時間領域オーディオサンプルの第3のグループ431は、時間領域オーディオサンプルの第4のグループ441の正確に75%の時間領域オーディオサンプルを含み、逆もまた同様である。
さらに、図から分かるように、時間領域オーディオサンプルの第4のグループ441は、時間領域オーディオサンプルの第1のグループ411のオーディオサンプルを含む。これは、両方のグループがオーバーラップする範囲を有するためである。
図3aの実施形態を要約すると、時間領域オーディオサンプルの第3のグループ431は、時間領域オーディオサンプルの第4のグループ441に時間的に先行し、時間領域オーディオサンプルの第4のグループ441は、時間領域オーディオサンプルの第1のグループ411に時間的に先行し、時間領域オーディオサンプルの第1のグループ411は、時間領域オーディオサンプルの第2のグループ421に時間的に先行し、時間領域オーディオサンプルの第4のグループ441は、時間領域オーディオサンプルの第1のグループ411のオーディオサンプルを含む。図3bの実施形態についても同様である。
一実施形態によれば、時間領域オーディオサンプルの第1のグループ410、411は、例えば、時間領域オーディオサンプルの第2のグループ420、421の正確に50%のオーディオサンプルを含むことができ、時間領域オーディオサンプルの第2のグループは、例えば、時間領域オーディオの第1のグループの正確に50%のオーディオサンプルを含むことができる。図2a、図3a、図2bおよび図3bはそのような実施形態を実現する。
時間領域オーディオサンプルの第3のグループ430、431は、例えば、時間領域オーディオサンプルの第4のグループ440、441の少なくとも75%で100%未満のオーディオサンプルを含むことができ、時間領域オーディオサンプルの第4のグループ440、441は、例えば、時間領域オーディオサンプルの第3のグループ430、431の少なくとも75%で100%未満のオーディオサンプルを含むことができる。図2a、図3a、図2bおよび図3bはそのような実施形態をも実現する。
一実施形態では、第1の符号化モジュール210は、例えば、修正離散コサイン変換または修正離散サイン変換を実行するように構成されてもよく、第2の符号化モジュール220は、例えば、拡張重複変換または修正拡張重複変換を実行するように構成されてもよい。
一実施形態によれば、時間領域オーディオサンプルの第3のグループ430、431は、例えば、時間領域オーディオサンプルの第4のグループ440、441の正確に75%のオーディオサンプルを含むことができ、時間領域オーディオサンプルの第4のグループ440、441は、例えば、時間領域オーディオサンプルの第3のグループ430、431の正確に75%のオーディオサンプルを含むことができる。
一実施形態では、時間領域オーディオサンプルの第1のグループのうちの時間領域オーディオサンプルの第1の数は、例えば、時間領域オーディオサンプルの第2のグループのうちの時間領域オーディオサンプルの第2の数と等しくてもよい。一実施形態では、時間領域オーディオサンプルの第3のグループのうちの時間領域オーディオサンプルの第3の数は、例えば、時間領域オーディオサンプルの第4のグループのうちの時間領域オーディオサンプルの第4の数と等しくてもよい。第2の数は、例えば、第3の数を2で除算した数に等しくてもよく、第1の数は、例えば、第4の数を2で除算した数に等しくてもよい。
例えば、そのような実施形態の特定の例は、第2の符号化モジュール220によって符号化されるすべてのグループが、第1の符号化モジュール210によって符号化されるすべてのグループの正確に2倍のサンプルを有することである。
図1bの符号化器の一実施形態によれば、第2の符号化モジュール220は、時間領域オーディオサンプルの第5のグループからスペクトル領域オーディオサンプルの第5のグループを生成するように構成され、第2の符号化モジュール220は、時間領域オーディオサンプルの第6のグループからスペクトル領域オーディオサンプルの第6のグループを生成するように構成される。時間領域オーディオサンプルの第3のグループまたは第4のグループは、時間領域オーディオサンプルの第5のグループの少なくとも75%で100%未満のオーディオサンプルを含み、時間領域オーディオサンプルの第5のグループは、時間領域オーディオサンプルの第3のグループまたは第4のグループの少なくとも75%で100%未満のオーディオサンプルを含み、時間領域オーディオサンプルの第5のグループは、時間領域オーディオサンプルの第6のグループの少なくとも75%で100%未満のオーディオサンプルを含み、時間領域オーディオサンプルの第6のグループは、時間領域オーディオサンプルの第5のグループの少なくとも75%で100%未満のオーディオサンプルを含む。出力モジュール230は、スペクトル領域のオーディオサンプルの第5のグループおよびスペクトル領域オーディオサンプルの第6のグループをさらに出力するように構成される。
図2bは、短いグループから長いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの6つのグループのオーバーラップを示す。
図から分かるように、時間領域オーディオサンプルの第4のグループ440および時間領域オーディオサンプルの第5のグループ450は、75%のオーバーラップを有する。したがって、時間領域オーディオサンプルの第5のグループ450は、時間領域オーディオサンプルの第4のグループ440の正確に75%の時間領域オーディオサンプルを含み、逆もまた同様である。
さらに、図から分かるように、時間領域オーディオサンプルの第5のグループ450および時間領域オーディオサンプルの第5のグループ460は、75%のオーバーラップを有する。したがって、時間領域オーディオサンプルの第6のグループ460は、時間領域オーディオサンプルの第5のグループ450の正確に75%の時間領域オーディオサンプルを含み、逆もまた同様である。
実施形態によれば、時間領域オーディオサンプルの第1のグループ410、411、および時間領域オーディオサンプルの第2のグループ420、421は、時間的に隣接している。例えば、図2bでは、時間領域オーディオサンプルの6つのグループ、すなわち410、420、430、440、450、460が示されている。これら6つのグループについて、時系列を定義することができる。
例えば、時間領域オーディオサンプルの第1のグループ410の最初のサンプルは、時間領域オーディオサンプルの第2のグループ420の最初のサンプルよりも早い時点(より過去にある)に関連する。
時間領域オーディオサンプルの第2のグループ420の最初のサンプルは、時間領域オーディオサンプルの第3のグループ430の最初のサンプルと同じ時点に関連する。しかしながら、時間領域オーディオサンプルの第2のグループ420の最後のサンプルは、時間領域オーディオサンプルの第3のグループ430の最後のサンプルよりも早い時点に関連する。
時間領域オーディオサンプルの第3のグループ430の最初のサンプルは、時間領域オーディオサンプルの第4のグループ440の最初のサンプルよりも早い時点に関連する。
時間領域オーディオサンプルの第4のグループ440の最初のサンプルは、時間領域オーディオサンプルの第5のグループ450の最初のサンプルよりも早い時点に関連する。
時間領域オーディオサンプルの第5のグループ450の最初のサンプルは、時間領域オーディオサンプルの第6のグループ460の最初のサンプルよりも早い時点に関連する。
図2bの結果として得られる時系列は、410、420、430、440、450、460である。
図3bについて同じ論法を適用することに関連して、図3bの時系列461、451、431、441、411、421が得られる。
時系列を決定する論法は次のとおりである。
時間領域オーディオサンプルのグループAの最初のサンプルが、時間領域オーディオサンプルのグループBの最初のサンプルよりも早い時点に関係する場合、グループAはグループBよりも早い時系列に現れる。
時間領域オーディオサンプルのグループAの最初のサンプルが、グループBの最初のサンプルと同じ時点に関係する場合で、時間領域オーディオサンプルのグループAの最後のサンプルが、グループBの最後のサンプルよりも早い時点に関係する場合、グループAはグループBよりも早い時系列に現れる。
時間領域オーディオサンプルの2つのグループが、時間領域オーディオサンプルのグループの時系列において(直に)隣接する場合、それらのグループは時間的に隣接する。
例えば、図2bの時系列410、420、430、440、450、460を考える。ここで、グループ410および420は時間的に隣接し、グループ420および430は時間的に隣接し、グループ430および440は時間的に隣接し、グループ440および450は時間的に隣接し、グループ450およびグループ460は時間的に隣接しているが、2つのグループのいずれの他の対も、時間的に隣接していない。
例えば、図3bの時系列461、451、431、441、411、421を考える。ここで、グループ461および451は時間的に隣接し、グループ451および431は時間的に隣接し、グループ431および441は時間的に隣接し、グループ441および411は時間的に隣接し、グループ411およびグループ421は時間的に隣接しているが、2つのグループのいずれの他の対も、時間的に隣接していない。
図3bに関して、図3bは、長いグループから短いグループへの切り替えが行われる場合の、一実施形態による時間領域オーディオサンプルの6つのグループのオーバーラップを示す。
図から分かるように、時間領域オーディオサンプルの第3のグループ431および時間領域オーディオサンプルの第5のグループ451は、75%のオーバーラップを有する。したがって、時間領域オーディオサンプルの第5のグループ451は、時間領域オーディオサンプルの第3のグループ431の正確に75%の時間領域オーディオサンプルを含み、逆もまた同様である。
さらに、図から分かるように、時間領域オーディオサンプルの第5のグループ451および時間領域オーディオサンプルの第5のグループ461は、75%のオーバーラップを有する。したがって、時間領域オーディオサンプルの第6のグループ461は、時間領域オーディオサンプルの第5のグループ451の正確に75%の時間領域オーディオサンプルを含み、逆もまた同様である。
実施形態では、第1の符号化モジュール210または第2の符号化モジュール220によって時間領域オーディオサンプルに窓関数を適用して、重み付けされた時間領域サンプルを取得し、その後、第1の符号化モジュール210または第2の符号化モジュール220は、重み付けされた時間領域サンプルからスペクトル領域オーディオサンプルを生成することができる。
一実施形態では、符号化器は、時間領域オーディオ信号の一部の信号特性に応じて、スペクトル領域オーディオサンプルの現在のグループを生成するために、第1の符号化モジュール210または第2の符号化モジュール220のいずれかを利用するように構成される。
一実施形態によれば、符号化器は、複数の時間領域オーディオサンプルからなる現在のグループが非定常領域および非調性領域の少なくとも1つを含むか否かを信号特性として決定するように構成される。符号化器は、複数の時間領域オーディオサンプルからなる現在のグループが非定常領域および非調性領域の上記少なくとも1つを含む場合、複数の時間領域オーディオサンプルからなる現在のグループに応じて、第1の符号化モジュール210を利用して、スペクトル領域オーディオサンプルの現在のグループを生成するように構成される。さらに、符号化器は、複数の時間領域オーディオサンプルからなる現在のグループが非定常領域および非調性領域の上記少なくとも1つを含まない場合、複数の時間領域オーディオサンプルからなる現在のグループに応じて、第2の符号化モジュール220を利用して、スペクトル領域オーディオサンプルの現在のグループを生成するように構成される。
一実施形態では、出力モジュール230は、信号特性に応じて第1のビット値または第2のビット値のいずれかを有するビットを出力するように構成される。したがって、符号化器が符号化のために第1の符号化モジュール210を使用したか、または、第2の符号化モジュール220を使用したかを決定するために、復号器側でビットを利用することができる。
図1aは、一実施形態による複数のスペクトル領域オーディオサンプルを復号するための復号器を示す。
復号器は、スペクトル領域オーディオサンプルの第1のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第1のグループを生成することによって、スペクトル領域オーディオサンプルの第1のグループを復号し、スペクトル領域オーディオサンプルの第2のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第2のグループを生成することによって、スペクトル領域オーディオサンプルの第2のグループを復号するための第1の復号モジュール110を備える。
さらに、復号器は、オーバーラップ加算器130を備え、オーバーラップ加算器130は、時間領域中間オーディオサンプルの正確に2つのグループをオーバーラップ加算するように構成され、上記正確に2つのグループは時間領域中間オーディオサンプルの第1のグループおよび第2のグループであり、オーバーラップ加算器130は、上記正確に2つのグループを、5%を超え最大50%のオーバーラップを伴ってオーバーラップ加算するように構成され、上記正確に2つのグループの上記オーバーラップ加算の結果として、オーディオ信号の第1の複数の時間領域オーディオ出力サンプルが生成される。
さらに、復号器は、スペクトル領域オーディオサンプルの第3のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第3のグループを生成することによって、スペクトル領域オーディオサンプルの第3のグループを復号し、スペクトル領域オーディオサンプルの第4のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第4のグループを生成することによって、スペクトル領域オーディオサンプルの第4のグループを復号するための第2の復号モジュール120を備える。
さらに、復号器は、オーディオ信号の第1の複数の時間領域オーディオ出力サンプル、オーディオ信号の第2の複数の時間領域オーディオ出力サンプル、およびオーディオ信号の第3の複数の時間領域オーディオ出力サンプルを出力するための出力インターフェース140を備える。
オーバーラップ加算器130は、少なくとも時間領域中間オーディオサンプルの第3のグループの、時間領域中間オーディオサンプルの第4のグループとの、60%を超え100%未満のオーバーラップを伴ったオーバーラップ加算を使用して、第2の複数の時間領域オーディオ出力サンプルを得るように構成されている。
さらに、オーバーラップ加算器130は、少なくとも時間領域中間オーディオサンプルの第2のグループの、時間領域中間オーディオサンプルの第3のグループとのオーバーラップ加算を用いて第3の複数の時間領域オーディオ出力サンプルを得るように構成されており、または、オーバーラップ加算器130は、少なくとも時間領域中間オーディオサンプルの第4のグループの、時間領域中間オーディオサンプルの第1のグループとのオーバーラップ加算を用いて第3の複数の時間領域オーディオ出力サンプルを得るように構成されている。
時間領域オーディオサンプルのグループ410、411、420、421、430、431、440、441、450、451、460および461のオーバーラップについて図2a、図2b、図2cおよび図2dを参照して提供された説明が、時間領域中間オーディオサンプルのグループに等しく適用される。
実施形態では、第1のオーディオ出力サンプルは、第1の時間領域オーディオ出力サンプルおよび第2の時間領域オーディオ出力サンプルのオーバーラップ加算に基づいて生成され、第2のオーディオ出力サンプルは、第3の時間領域オーディオ出力サンプルおよび第4の時間領域オーディオ出力サンプルのオーバーラップ加算に基づいて生成される、
図2aおよび図2bの状況に対応する復号器の実施形態では、オーディオ信号の第1の複数の時間領域オーディオ出力サンプルは、オーディオ信号の第3の複数の時間領域オーディオ出力サンプルに時間的に先行し、オーディオ信号の第3の複数の時間領域オーディオ出力サンプルは、オーディオ信号の第2の複数の時間領域オーディオ出力サンプルに時間的に先行し、オーバーラップ加算器130は、少なくとも時間領域中間オーディオサンプルの第2のグループと、時間領域中間オーディオサンプルの第3のグループとのオーバーラップ加算を使用して、第3の複数の時間領域オーディオ出力サンプルを取得するように構成される、または
図3aおよび図3bの状況に対応する復号器の実施形態では、オーディオ信号の第2の複数の時間領域オーディオ出力サンプルは、オーディオ信号の第3の複数の時間領域オーディオ出力サンプルに時間的に先行し、オーディオ信号の第3の複数の時間領域オーディオ出力サンプルは、オーディオ信号の第1の複数の時間領域オーディオ出力サンプルに時間的に先行し、オーバーラップ加算器130は、少なくとも時間領域中間オーディオサンプルの第2のグループと、時間領域中間オーディオサンプルの第3のグループとのオーバーラップ加算を使用して、第3の複数の時間領域オーディオ出力サンプルを取得するように構成される。
さらに、時間領域中間オーディオサンプルの第1のグループおよび第2のグループは、5%を超え最大50%がオーバーラップすると概説されている。ほとんどの実施形態では、第1の復号モジュール110は、同じ数のサンプルを有する時間領域中間オーディオサンプルのグループを生成する。換言すれば、第1の復号モジュール110によって使用される窓は、一般に常に同じサイズを有する。次に、時間領域中間オーディオサンプルの第1のグループおよび第2のグループのオーバーラップを決定するために、オーバーラップ加算において時間領域中間オーディオサンプルの第2のグループのサンプルとオーバーラップする第1のグループの中間時間領域オーディオサンプルの数(1024サンプル)が、時間領域中間オーディオサンプルの第1のグループのサンプルの総数(例えば、2048サンプル)で除算されて、オーバーラップ加算のオーバーラップが決定される(1024/2048=50%)。しかしながら、第1の復号モジュール110が、異なる数のサンプルを有する時間領域中間オーディオサンプルのグループを生成するという異常な実施形態では、時間領域中間オーディオサンプルのより大きなグループが考慮され、オーバーラップは、小さい方のグループのサンプルとオーバーラップする大きい方のグループの時間領域中間オーディオサンプルの数(例えば、768サンプル)を、大きい方のグループのサンプルの総数(例えば、2048サンプル)で除算した数として定義される(重複:768/2048=37.5%)。
さらに、時間領域中間オーディオサンプルの第3のグループおよび第4のグループは、60%を超え100%未満がオーバーラップすると概説されている。ほとんどの実施形態では、第2の復号モジュール120は、同じ数のサンプルを有する時間領域中間オーディオサンプルのグループを生成する。換言すれば、第2の復号モジュール120によって使用される窓は、一般に常に同じサイズを有する(ただし、グループ/窓のサイズは、第1の復号モジュール110によって生成/使用されるグループ/窓のサイズとは異なることが多い)。次に、時間領域中間オーディオサンプルの第3のグループおよび第4のグループのオーバーラップを決定するために、オーバーラップ加算において時間領域中間オーディオサンプルの第4のグループのサンプルとオーバーラップする第3のグループの中間時間領域オーディオサンプルの数(3584サンプル)が、時間領域中間オーディオサンプルの第1のグループのサンプルの総数(例えば、4096サンプル)で除算されて、オーバーラップ加算のオーバーラップが決定される(3584/4096=87.5%)。しかしながら、第2の復号モジュール120が、異なる数のサンプルを有する時間領域中間オーディオサンプルのグループを生成するという異常な実施形態では、時間領域中間オーディオサンプルのより大きなグループが考慮され、オーバーラップは、小さい方のグループのサンプルとオーバーラップする大きい方のグループの時間領域中間オーディオサンプルの数(例えば、3072サンプル)を、大きい方のグループのサンプルの総数(例えば、4096サンプル)で除算した数として定義される(3072/4096=75%)。
オーバーラップ加算は、当業者には周知である。時間領域オーディオサンプルの2つのグループのオーバーラップ加算は特に、当業者には周知である。
3つ以上のグループのオーバーラップ加算を実施する1つの方法は、例えば、3つ以上のグループのうちの2つをオーバーラップ加算して中間オーバーラップ加算結果を得、次に3つ以上のグループの第3のグループを中間オーバーラップ加算結果にオーバーラップ加算し、すべてのグループが(更新された)中間結果とオーバーラップ加算されるまで、同様に処理を続けることであり得る。
別の手法は、最初に3つ以上のグループのすべてを適切にオーバーラップさせ、その後、オーバーラップ内のグループの対応するサンプルを加算して、オーバーラップ加算の結果を得ることである。
一実施形態によれば、オーバーラップ加算器130は、例えば、時間領域中間オーディオサンプルの第1のグループを、時間領域中間オーディオサンプルの第2のグループと、正確に50%のオーバーラップを伴ってオーバーラップ加算するように構成することができる。オーバーラップ加算器130は、例えば、少なくとも時間領域中間オーディオサンプルの第3のグループを、時間領域中間オーディオサンプルの第4のグループと、少なくとも75%で100%未満のオーバーラップを伴ってオーバーラップ加算するように構成することができる。
一実施形態では、第1の復号モジュール110は、例えば、逆修正離散コサイン変換または逆修正離散サイン変換を行うように構成されてもよい。第2の復号モジュール120は、逆拡張重複変換または逆修正拡張重複変換を実行するように構成される。
一実施形態によれば、オーバーラップ加算器130は、例えば、少なくとも時間領域中間オーディオサンプルの第3のグループを、時間領域中間オーディオサンプルの第4のグループと、正確に75%のオーバーラップを伴ってオーバーラップ加算するように構成することができる。
一実施形態では、時間領域中間オーディオサンプルの第1のグループのうちの時間領域中間オーディオサンプルの第1の数は、例えば、時間領域中間オーディオサンプルの第2のグループのうちの時間領域中間オーディオサンプルの第2の数と等しくてもよい。時間領域中間オーディオサンプルの第3のグループのうちの時間領域中間オーディオサンプルの第3の数は、例えば、時間領域中間オーディオサンプルの第4のグループのうちの時間領域中間オーディオサンプルの第4の数と等しくてもよい。第2の数は、例えば、第3の数を2で除算した数に等しくてもよく、第1の数は、例えば、第4の数を2で除算した数に等しい。
図1aの復号器の一実施形態によれば、第2の復号モジュール120は、例えば、スペクトル領域オーディオサンプルの第5のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第5のグループを生成することによって、スペクトル領域オーディオサンプルの第5のグループを復号し、スペクトル領域オーディオサンプルの第6のグループのスペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第6のグループを生成することによって、スペクトル領域オーディオサンプルの第6のグループを復号するためように構成することができる。オーバーラップ加算器130は、時間領域中間オーディオサンプルの第3のグループまたは第4のグループが時間領域中間オーディオサンプルの第5のグループの少なくとも75%で100%未満とオーバーラップするように、かつ、時間領域中間オーディオサンプルの第5のグループが、時間領域中間オーディオサンプルの第6のグループの少なくとも75%で100%未満とオーバーラップするように、時間領域中間オーディオサンプルの第3のグループおよび時間領域中間オーディオサンプルの第4のグループおよび時間領域中間オーディオサンプルの第5のグループおよび時間領域中間オーディオサンプルの第6のグループをオーバーラップ加算することによって、第2の複数の時間領域オーディオ出力サンプルを取得するように構成される。
図2bおよび図3bの時間領域オーディオサンプルのグループ410,411,420,421,430,431,440,441,450,451,460および461に関して上述した説明を参照する。この説明は、時間領域中間オーディオサンプルのグループにも等しく適用される。
一実施形態において、オーバーラップ加算器130は、時間領域中間オーディオサンプルの第2のグループのすべての時間領域中間オーディオサンプルが、時間領域中間オーディオサンプルの第3のグループの時間領域中間オーディオサンプルとオーバーラップするように、少なくとも時間領域中間オーディオサンプルの第2のグループと、時間領域中間オーディオサンプルの第3のグループとをオーバーラップ加算するように構成されている。または、オーバーラップ加算器130は、時間領域中間オーディオサンプルの第1のグループのすべての時間領域中間オーディオサンプルが、時間領域中間オーディオサンプルの第4のグループとオーバーラップするように、少なくとも時間領域中間オーディオサンプルの第4のグループと、時間領域中間オーディオサンプルの第1のグループとをオーバーラップ加算するように構成されている。
図1cは、一実施形態によるシステムを示す。本システムは、上述の実施形態のうちの1つによる符号化器310と、上述の実施形態のうちの1つによる復号器320とを備える。符号化器310は、複数のスペクトル領域オーディオサンプルを生成することによって、オーディオ信号の複数の時間領域オーディオサンプルを符号化するように構成される。さらに、復号器320は、符号化器から複数のスペクトル領域オーディオサンプルを受信するように構成される。さらに、復号器は、複数のスペクトル領域オーディオサンプルを復号するように構成される。
図1bの符号化器の実施形態に関して、時間領域エイリアシングを低減または回避するために、第2の符号化モジュール220は、以下に応じてスペクトル領域オーディオサンプルの第3のグループおよび第4のグループのうちの少なくとも1つを生成するように構成されており、
cs(a(n+b)(k+c))
ここで、cs()はcos()またはsin()であり、
nは、時間領域オーディオサンプルの第3のグループまたは第4のグループの時間領域オーディオサンプルのうちの1つの時間インデックスを示し、
kは、スペクトル領域オーディオサンプルの第1のグループもしくは第2のグループまたは第3のグループもしくは第4のグループのスペクトル領域オーディオサンプルのうちの1つのスペクトルインデックスを示し、−0.1≦c≦0.1または0.4≦c≦0.6または0.9≦c≦1.1であり、
a=q/Mであり、
0.9・π≦q≦1.1・πである。
Mは、スペクトル領域オーディオサンプルの第1のグループまたは第2のグループまたは第3のグループまたは第4のグループのスペクトル領域オーディオサンプルの数を示し、
b=(s・M+1)/2であり、
1.5≦s≦4.5である。
一実施形態では、第1の符号化モジュール210は、以下に応じて、スペクトル領域オーディオサンプルの第1のグループおよび第2のグループのうちの少なくとも1つを生成するように構成されており、
cs(a(n+b)(k+c))
ここで、cs()はcos()またはsin()であり、
は、時間領域オーディオサンプルの第1のグループまたは第2のグループの時間領域オーディオサンプルのうちの1つの時間インデックスを示し、−0.1≦c≦0.1または0.4≦c≦0.6または0.9≦c≦1.1であり、
=(M+1)/2である。
一実施形態によれば、c=0、またはc=0.5、またはc=1であり、q=π、s=3である。
s=3に設定することによって、時間領域エイリアシングの最適な低減を達成することができ、一方で、1.5≦s≦4.5(s≠3)に設定することによって、ある程度の時間領域エイリアシングの低減が達成されるが、一般的にはs=3ほどには低減しない。
特定の実施形態は特に良好に機能する。表1および表2を参照されたい。

表1:
ss.MLT -> tr.MLT -> tr.MELT -> ss.MELT -> ...
_______________________________________________
MDCT-IV MDCT-IV MECT-IV MECT-IV OK
MDCT-IV MDCT-IV MEST-II MECT-II OK
MDCT-IV MDST-II MEST-IV MEST-IV OK
MDCT-IV MDST-II MECT-II MEST-II OK

MDCT-II MDCT-IV MECT-IV MECT-IV OK
MDCT-II MDCT-IV MEST-II MECT-II OK
MDCT-II MDST-II MEST-IV MEST-IV OK
MDCT-II MDST-II MECT-II MEST-II OK

MDST-IV MDST-IV MEST-IV MEST-IV OK
MDST-IV MDST-IV MECT-II MEST-II OK
MDST-IV MDCT-II MECT-IV MECT-IV OK
MDST-IV MDCT-II MEST-II MECT-II OK
表1は、MLTからELTへの切り替えを示す。各行には、4つの後続の窓/時間領域オーディオサンプルの対応するグループの機能が示されている。最初の2つの列は最後の2つのMLT窓(最後から2つ目のMLT窓および最後のMLT窓)に関連し、列3および4はそれぞれ第1のELT窓および第2のELT窓に関連する。各行は、後続の窓のための関数の特に良好な組み合わせを表す。MDCT−II、MDST−II、MDCT−IVおよびMDST−IVならびにMECT−II、MEST−II、MECT−IVおよびMEST−IVの式および対応する逆式は、式(2a)〜(2j)および(4a)〜(4h)に関連して提示されている。示された組み合わせは、逆関数を用いた逆変換についても等しく良好に機能する。
したがって、例えば、一実施形態では、q=πであり、s=3であり、cs()はcos()であり、cs()はcos()であり、c=0.5であり、c=0.5である。
別の実施形態では、q=πであり、s=3であり、cs()はsin()であり、cs()はcos()であり、c=1であり、c=0である。
別の実施形態では、q=πであり、s=3であり、cs()はsin()であり、cs()はsin()であり、c=0.5であり、c=1である。
別の実施形態では、q=πであり、s=3であり、cs()はcos()であり、cs()はsin()であり、c=0であり、c=1である。
別の実施形態では、q=πであり、s=3であり、cs()はsin()であり、cs()はsin()であり、c=0.5であり、c=0.5である。
別の実施形態では、q=πであり、s=3であり、cs()はcos()であり、cs()はsin()であり、c=0であり、c=0.5である。
別の実施形態では、q=πであり、s=3であり、cs()はcos()であり、cs()はcos()であり、c=0.5であり、c=0である。
別の実施形態では、q=πであり、s=3であり、cs()はsin()であり、cs()はcos()であり、c=1であり、c=0である。
表2:
ss.MELT -> tr.MELT -> tr.MLT -> ss.MLT -> ...
__________________________________________________
MECT-IV MECT-IV MDCT-IV MDCT-IV
MECT-IV MECT-IV MDCT-IV MDST-II
MECT-IV MECT-IV MDST-II MDST-IV
MECT-IV MECT-IV MDST-II MDCT-II

MECT-II MEST-II MDST-IV MDST-IV
MECT-II MEST-II MDST-IV MDCT-II
MECT-II MEST-II MDCT-II MDCT-IV
MECT-II MEST-II MDCT-II MDST-II

MEST-IV MEST-IV MDST-IV MDST-IV
MEST-IV MEST-IV MDST-IV MDCT-II
MEST-IV MEST-IV MDCT-II MDCT-IV
MEST-IV MEST-IV MDCT-II MDST-II
表2は、ELTからMLTへの切り替えを示す。各行には、4つの後続の窓(時間領域オーディオサンプルの対応するグループ)の機能が示されている。最初の2つの列は最後の2つのELT窓(最後から2つ目のELT窓および最後のELT窓)に関連し、列3および4はそれぞれ第1のMLT窓および第2のMLT窓に関連する。各行は、後続の窓のための関数の特に良好な組み合わせを表す。MDCT−II、MDST−II、MDCT−IVおよびMDST−IVならびにMECT−II、MEST−II、MECT−IVおよびMEST−IVの式および対応する逆式は、式(2a)〜(2j)および(4a)〜(4h)に関連して提示されている。示された組み合わせは、逆関数を用いた逆変換についても等しく良好に機能する。
一実施形態では、第2の符号化モジュール220は、以下に応じて、スペクトル領域オーディオサンプルの第3のグループおよび第4のグループのうちの少なくとも1つを生成するように構成されており、
Figure 0006654236
、または
Figure 0006654236
、または
Figure 0006654236
、または
Figure 0006654236
ここで、
Figure 0006654236
は、スペクトル領域オーディオサンプルの第3のグループまたは第4のグループのスペクトル領域オーディオサンプルの1つを示し、
Figure 0006654236
は時間領域値を示す。
一実施形態によれば、第2の符号化モジュール220は、
Figure 0006654236
にしたがって、時間領域オーディオサンプルの第3のグループまたは第4のグループの時間領域オーディオサンプルs(n)に、重みw(n)を適用して、時間領域値
Figure 0006654236
を生成するように構成されている。
一実施形態において、時間領域オーディオサンプルの第2のグループのすべての時間領域オーディオサンプルは、時間領域オーディオサンプルの第3のグループの時間領域オーディオサンプルとオーバーラップし、または、時間領域オーディオサンプルの第1のグループのすべての時間領域オーディオサンプルは、時間領域オーディオの第4のグループとオーバーラップする。
同様に、図1aの復号器に関して、一実施形態において、第2の復号モジュール120は、以下に応じて時間領域中間オーディオサンプルの第3のグループおよび時間領域中間オーディオサンプルの第4のグループのうちの少なくとも1つを生成するように構成されており、
cs(a(n+b)(k+c))
ここで、cs()はcos()またはsin()であり、
nは、時間領域オーディオサンプルの第3のグループまたは第4のグループの時間領域オーディオサンプルのうちの1つの時間インデックスを示し、
kは、スペクトル領域オーディオサンプルの第3のグループまたは第4のグループのスペクトル領域オーディオサンプルのうちの1つのスペクトルインデックスを示し、
−0.1≦c≦0.1または0.4≦c≦0.6または0.9≦c≦1.1であり、
a=q/Mであり、
0.9・π≦q≦1.1・πであり、
Mはスペクトル領域オーディオサンプルの第3のグループまたは第4のグループのスペクトル領域オーディオサンプルの数を示し、
b=(s・M+1)/2であり、
1.5≦s≦4.5である。
一実施形態において、第1の復号モジュール110は、以下に応じて時間領域中間オーディオサンプルの第1のグループおよび時間領域中間オーディオサンプルの第2のグループのうちの少なくとも1つを生成するように構成されており、
cs(a(n+b)(k+c))
ここで、cs()はcos()またはsin()であり、
nは、時間領域オーディオサンプルの第3のグループまたは第4のグループの時間領域オーディオサンプルの時間領域中間オーディオサンプルのうちの1つの時間インデックスを示し、
kは、スペクトル領域オーディオサンプルの第1のグループもしくは第2のグループまたは第3のグループもしくは第4のグループのスペクトル領域オーディオサンプルのうちの1つのスペクトルインデックスを示し、
−0.1≦c≦0.1または0.4≦c≦0.6または0.9≦c≦1.1であり、
a=q/Mであり、
0.9・π≦q≦1.1・πであり、
Mはスペクトル領域オーディオサンプルの第1のグループもしくは第2のグループまたは第3のグループもしくは第4のグループのスペクトル領域オーディオサンプルの数を示し、
b=(s・M+1)/2であり、
1.5≦s≦4.5である。
一実施形態では、第1の復号モジュール110は、以下に応じて、時間領域中間オーディオサンプルの第1のグループおよび時間領域中間オーディオサンプルの第2のグループのうちの少なくとも1つを生成するように構成されており、
cs(a(n+b)(k+c))
ここで、cs()はcos()またはsin()であり、
は、時間領域中間オーディオサンプルの第1のグループまたは第2のグループの時間領域中間オーディオサンプルのうちの1つの時間インデックスを示し、−0.1≦c≦0.1または0.4≦c≦0.6または0.9≦c≦1.1であり、
=(M+1)/2である。
一実施形態によれば、c=0、またはc=0.5、またはc=1、q=πであり、s=3である。
s=3に設定することによって、時間領域エイリアシングの最適な低減を達成することができ、一方で、1.5≦s≦4.5(s≠3)に設定することによって、ある程度の時間領域エイリアシングの低減が達成されるが、一般的にはs=3ほどには低減しない。
一実施形態では、第2の復号モジュール120は、以下に応じて、時間領域中間オーディオサンプルの第3のグループおよび時間領域中間オーディオサンプルの第4のグループのうちの少なくとも1つを生成するように構成されており、
Figure 0006654236
、または
Figure 0006654236
、または
Figure 0006654236
、または
Figure 0006654236
ここで、
Figure 0006654236
は、スペクトル領域オーディオサンプルの第3のグループまたは第4のグループのスペクトル領域オーディオサンプルの1つを示し、
Figure 0006654236
は時間領域値を示す。
一実施形態によれば、第2の復号モジュール120は、
Figure 0006654236
にしたがって、時間領域値
Figure 0006654236
に、重みw(n)を適用して、時間領域中間オーディオサンプルの第3のグループまたは第4のグループの時間領域中間オーディオサンプル
Figure 0006654236
を生成するように構成されている。
図1bの符号化器に関して、一実施形態によれば、weltは第1の窓関数であり、ここで、wtrは第2の窓関数であり、第2の窓関数wtrの一部は以下に従って定義され、
Figure 0006654236
Mは、スペクトル領域オーディオサンプルの第1のグループもしくは第2のグループまたは第3のグループもしくは第4のグループのスペクトル領域オーディオサンプルの数を示し、
kは0≦k<Mの数であり、
dは実数であり、
t=(L/2)+kまたはt=(L/2)−1−kである。
Lは、時間領域オーディオサンプルの第3のグループまたは第4のグループのサンプル数を示す。
時間領域オーディオサンプルの第3のグループは、時間領域オーディオサンプルの第2のグループのオーディオサンプルを含み、第2の符号化モジュール220は、時間領域オーディオサンプルの第4のグループに第1の窓関数Weltを適用するように構成され、第2の符号化モジュール220は、時間領域オーディオサンプルの第3のグループに第2の窓関数Wtrを適用するように構成される。または、時間領域オーディオサンプルの第4のグループは、時間領域オーディオサンプルの第1のグループのオーディオサンプルを含み、第2の符号化モジュール220は、時間領域オーディオサンプルの第3のグループに第1の窓関数Weltを適用するように構成され、第2の符号化モジュール220は、時間領域オーディオサンプルの第4のグループに第2の窓関数Wtrを適用するように構成される。
一実施形態によれば、wtr1は第3の窓関数であり、第3の窓関数の一部は以下に従って定義され、
Figure 0006654236
ここで、t=(N/2)+kまたはt=(N/2)−1−kであり、
Nは、時間領域オーディオサンプルの第1のグループまたは第2のグループの時間領域オーディオサンプルの数を示す。
時間領域オーディオサンプルの第3のグループは、時間領域オーディオサンプルの第2のグループのオーディオサンプルを含み、第2の符号化モジュール(220)は、時間領域オーディオサンプルの第2のグループに第3の窓関数Wtr1を適用するように構成される。または、時間領域オーディオサンプルの第4のグループは、時間領域オーディオサンプルの第1のグループのオーディオサンプルを含み、第2の符号化モジュール(220)は、時間領域オーディオサンプルの第1のグループに第3の窓関数Wtr1を適用するように構成される。
一実施形態では、第1の窓関数Weltは以下に従って定義され、
Figure 0006654236
ここで、
Figure 0006654236
であり、
、b、およびbは実数である。
0≦t<Lであり、Kは正の整数であり、cは実数を示す。
一実施形態によれば、K=3であり、
0.3≦b0≦0.4、−0.6≦b1≦−0.4、0.01≦b2≦0.2であり、
0.001≦c1≦0.03であり、0.000001≦c2≦0.0005であり、0.000001≦c3≦0.00002である。
一実施形態によれば、0.8≦d≦1.25である。
特定の実施形態では、d=4096/4061である。
代替的な実施形態によれば、d=1である。
同様に、図1aの復号器に関して、一実施形態によれば、weltは第1の窓関数であり、ここで、wtrは第2の窓関数であり、第2の窓関数の一部は以下に従って定義され、
Figure 0006654236
Mは、スペクトル領域オーディオサンプルの第1のグループもしくは第2のグループまたは第3のグループもしくは第4のグループのスペクトル領域オーディオサンプルの数を示し、
kは0≦k<Mの数であり、
dは実数であり、
t=(L/2)+kまたはt=(L/2)−1−kである。
Lは、時間領域中間オーディオサンプルの第3のグループまたは第4のグループのサンプル数を示す。
オーバーラップ加算器130は、少なくとも時間領域中間オーディオサンプルの第2のグループと、時間領域中間オーディオサンプルの第3のグループとをオーバーラップ加算するように構成され、第2の復号モジュール120は、第1の窓関数Weltに応じて時間領域中間オーディオサンプルの第4のグループを生成するように構成され、第2の復号モジュール120は、第2の窓関数Wtrに応じて時間領域中間オーディオサンプルの第3のグループを生成するように構成されている。または、オーバーラップ加算器130は、少なくとも時間領域中間オーディオサンプルの第4のグループと、時間領域中間オーディオサンプルの第1のグループとをオーバーラップ加算するように構成され、第2の復号モジュール120は、第1の窓関数Weltに応じて時間領域中間オーディオサンプルの第3のグループを生成するように構成され、第2の復号モジュール120は、第2の窓関数Wtrに応じて時間領域中間オーディオサンプルの第4のグループを生成するように構成されている。
一実施形態によれば、wtr1は第3の窓関数であり、第3の窓関数の一部は以下に従って定義され、
ここで、
Figure 0006654236
ここで、t=(N/2)+kまたはt=(N/2)−1−kであり、
Nは、時間領域中間オーディオサンプルの第1のグループまたは第2のグループの時間領域中間オーディオサンプルの数を示す。
オーバーラップ加算器(130)は、少なくとも時間領域中間オーディオサンプルの第2のグループと、時間領域中間オーディオサンプルの第3のグループとをオーバーラップ加算するように構成され、第1の復号モジュール(110)は、第3の窓関数Wtr1に応じて時間領域中間オーディオサンプルの第2のグループを生成するように構成されている。オーバーラップ加算器(130)は、少なくとも時間領域中間オーディオサンプルの第4のグループと、時間領域中間オーディオサンプルの第1のグループとをオーバーラップ加算するように構成され、第1の復号モジュール(110)は、第3の窓関数Wtr1に応じて時間領域中間オーディオサンプルの第1のグループを生成するように構成されている。
一実施形態では、第1の窓関数weltは以下に従って定義され、
Figure 0006654236
ここで、
Figure 0006654236
であり、
、b、およびbは実数であり、0≦t<Lであり、Kは正の整数であり、cは実数を示す。
一実施形態によれば、K=3であり、
0.3≦b0≦0.4、−0.6≦b1≦−0.4、0.01≦b2≦0.2であり、
0.001≦c1≦0.03であり、0.000001≦c2≦0.0005であり、0.000001≦c3≦0.00002である。
一実施形態では、0.8≦d≦1.25である。
一実施形態によれば、d=4061/4096である。
代替的な実施形態によれば、d=1である。
図1cのシステムに関して、一実施形態によれば、システムの復号器320は、遷移窓関数
Figure 0006654236
((4061/4097)≦d≦(4061/4095))を使用し、システムの符号化器310は、遷移窓関数
Figure 0006654236
((4095/4061)≦d≦(4097/4061))を使用する。
特定の実施形態によれば、システムの復号器320は、遷移窓関数
Figure 0006654236
(d=4061/4096)を使用し、システムの符号化器310は、遷移窓関数
Figure 0006654236
(d=4096/4061)を使用する。
一実施形態によれば、図1aの復号器は、複数のスペクトル領域オーディオサンプルの一部が第1の復号モジュール110によって復号されるか、または、第2の復号モジュール120によって復号されるかを示す復号情報を受信するように構成される。復号器は、時間領域中間オーディオサンプルの第1のグループまたは第2のグループまたは第3のグループまたは第4のグループを得るために、復号情報に応じて第1の復号モジュール110または第2の復号モジュール120のいずれかを利用することによって、複数のスペクトル領域オーディオサンプルの上記部分を復号するように構成される。
一実施形態では、復号器は、第1のビットおよび第2のビットを受信するように構成され、第1のビットおよび第2のビットはともに第1のビット値組み合わせ、または、第1のビット値組み合わせとは異なる第2のビット値組み合わせ、第1のビット値組み合わせおよび第2のビット値組み合わせとは異なる第3のビット値組み合わせ、または第1のビット値組み合わせおよび第2のビット値組み合わせおよび第3のビット値組み合わせとは異なる第4のビット値組み合わせを有する。さらに、復号器は、第1のビットおよび第2のビットがともに第1のビット値組み合わせを有する場合に、時間領域中間オーディオサンプルのうちの第1のグループまたは第2のグループを得るために、第1の復号モジュール110を利用することによって、カイザー−ベッセル関数に応じて複数のスペクトル領域オーディオサンプルの一部を復号するように構成されている。さらに、復号器は、第1のビットおよび第2のビットがともに第2のビット値組み合わせを有する場合に、時間領域中間オーディオサンプルのうちの第1のグループまたは第2のグループを得るために、第1の復号モジュール110を利用することによって、サイン関数またはコサイン関数に応じて複数のスペクトル領域オーディオサンプルの一部を復号するように構成されている。復号器は、第1のビットおよび第2のビットがともに第3のビット値組み合わせを有する場合に、時間領域中間オーディオサンプルのうちの第1のグループまたは第2のグループを得るために、第1の復号モジュール110を利用することによって、複数のスペクトル領域オーディオサンプルの一部を復号するように構成されている。さらに、復号器は、第1のビットおよび第2のビットがともに第4のビット値組み合わせを有する場合に、時間領域中間オーディオサンプルのうちの第3のグループまたは第4のグループを得るために、第2の復号モジュール120を利用することによって、複数のスペクトル領域オーディオサンプルの上記一部を復号するように構成されている。
ここで、特定実施形態をより詳細に説明する。
実施形態は、以下に説明される修正拡張重複変換を提供する。
一時的3パートOLA領域においても完全なTDA除去(TDAC)を達成することによって図5(a)の完全な再構成問題を修正するには、例えば、図5(b)、図5(c)のように、TDA対称性が他方のものを補完するように1つの変換クラスを再定義すべきである。
特に、図5は、遷移変換を伴うMLTからELTへの切り替えを示し、図5(a)は不正確な非完全再構成を示し、図5(b)は所望の完全再構成を示し、図5(c)はMLTを示している所望のELTを介したMLTを示す。
さらに、同様に、図6は、実施形態による遷移変換を伴うELTからMLTへの切り替えを示す図である。
既存のMDCTおよびMDST実装の変更を避けることが望ましいため、ELTに重点が置かれる。さらに、すべての変換に対して完全な再構成遷移および定常状態窓を容易に得るためには、対応する分析式が望ましい。
最初に、実施形態によるオーバーラップ率の適合のための修正が説明される。
ELTにMLTとの所望のTDA適合性を与えるために、時間的位相シフトがその基本関数において変更される。
Figure 0006654236
k、csは、
Figure 0006654236
を使用して式(2)および逆ELT(1)のように定義され、それに応じて適応される。(上記のようにcs()はcos()またはsin()であってもよい)。
上記で説明したように、N=L(例えば、分析式(2c)、(2e)、(2g)および(2i)に対して)に設定し、0≦n<L(例えば、合成式(2d)、(2f)、(2h)および(2j)に対して)に設定することによって式(2c)〜(2j)を修正することによって、ELT式および逆ELT式が得られる。
これらのELT式および逆ELT式に式(4)の概念を適用すると、本発明の新規の修正拡張重複変換(MELT)の実施形態を表す式(4a)〜(4h)が得られる。式(4a)〜(4h)の特定の実施形態は、75%のオーバーラップ率を有する重複変換を実現する。
ここではMECT−IVと呼ばれる順方向コサイン変調MELT、タイプ4:
Figure 0006654236
ここではIMECT−IVと呼ばれる逆コサイン変調MELT、タイプ4(n<L):
Figure 0006654236
ここではMECT−IIと呼ばれる順方向コサイン変調MELT、タイプ2:
Figure 0006654236
ここではIMECT−IIと呼ばれる逆コサイン変調MELT、タイプ2(n<L):
Figure 0006654236
ここではMEST−IVと呼ばれる順方向サイン変調MELT、タイプ4:
Figure 0006654236
ここではIMEST−IVと呼ばれる逆サイン変調MELT、タイプ4(n<L):
Figure 0006654236
ここではMEST−IIと呼ばれる順方向サイン変調MELT、タイプ2:
Figure 0006654236
ここではIMEST−IIと呼ばれる逆サイン変調MELT、タイプ2:
Figure 0006654236
いくつかの実施形態は、以下に説明するMLTからELTへ、および、ELTからMLTへの遷移のための特定の適切な窓設計を提供する。
図5が示すように、一時的MLTおよびELT窓の4つの四半部には、それぞれの定常状態の重み付けに基づいており、第1の四半部および/または第4の四半部はゼロに設定され、重要な四半部は以下によって記述される。
Figure 0006654236
図5のような切り替えについてt=(L/2)+kであり、または、逆ELT−MLT変換についてはt=(L/2)−1−kである。ELTおよびMLT遷移重み付けの両方について、式(5)を使用して重要な四半部511,512,521,522(図5に示す)および重要な四半部631,632(図6に示す)を取得することによって、定常状態関数の選択のみを残して、一時的な窓の定義が完了する。
式(5)の拡張重複変換のための遷移窓の完全な定義は、例えば、50%〜75%のオーバーラップ率の遷移についての式(5a)における(M)ELT窓として定義される。
Figure 0006654236
75%〜50%のオーバーラップ率の遷移のための(M)ELT窓について、定義は式(5a)の定義であるが、wtrは時間的に逆である。
式(5a)において、dは、例えば、定数、例えば実数であってもよい。
式(5)および(5a)において、Welt(n)は、例えば、拡張重複変換の窓、例えば、現行の技術水準の拡張重複変換窓を示してもよい(文献[11]:S.Malvar「Modulated QMF Filter Banks with Perfect Reconstruction」(Electronics Letters,vol.26,no.13,pp.906−907,June1990)の式(16)〜(19)によって定義される窓のファミリを参照されたい)。
または、式(5)および(5a)において、Welt(n)は、例えば以下の式(8)で定義されるような、本発明の新規の拡張重複変換窓であってもよい。
式(5)および(5a)において、Lは、例えば、ELT窓のサイズを示す数である。Nは、MLT窓のサイズを示す数である。Mは、例えば、M=N/2である数である。
式(5a)において、nは、例えば範囲0≦n<L内の数である。kは数である。
式(5)および(5a)において、kは範囲0≦k<M内で定義される。
以下では、実施形態による定常状態完全再構成重複変換窓を、図7を参照して説明する。
図7は、実施形態による、図7(a)ではMLT、図7(b)ではELT、図7(c)では遷移の場合の完全な再構成窓設計を示す。
完全再構成のためのいわゆるPrincen−Bradley条件を強制するいくつかの電力相補性(PC)MLT窓が文書化されている([2]参照)。図7(a)は、MPEGオーディオコーデック([5]、[7]参照)、MLTサイン([3]、[11]参照)およびカイザー−ベッセル導出(KBD)窓([23]を参照)に使用される窓の形状および対応するオーバーサンプリング伝達関数を示す。また、[24]には電力相補関数も示されており、その形状はKBD窓の形状に類似しているが、注目され得るように、より低い第1の(近接場)サイドローブレベルを示す。最後に、デュアルレートSBRの場合に採用されるように、フレーム長が2倍になるサイン窓が参照として機能し、より長い窓が通過帯域幅と阻止帯域レベルの両方を著しく低減できることが示されている。
理想的には、式(3)の完全再構成制約を受けるELT窓は、2倍長サイン窓の周波数応答に匹敵する周波数応答を示すはずであるが、完全再構成制約に起因して、メインローブ幅は、サイドローブの減衰を少なくすることによってのみ最小化することができる。例えば、図7(b)に示すように、p=1でのMalvarの窓[11]は、すべてのELT設計のメインローブ幅が可能な限り小さいが、阻止帯域レベルが不必要に高いことが分かった。その時間的境界は明らかに不連続であり(窓範囲を超えるサンプルはゼロに等しいと仮定されるため)、本発明の実験ではサイドローブ減衰はわずか−6dB/オクターブ([24]参照)になり、フレーミングアーチファクトが生じている。TemerinacおよびEdler([16]参照)は、彼らが図7にも示すELT窓を得るために使用した再帰的設計手法を提示している(その表1の列「L=4N」に値−0.038411がないことに注意する必要がある)。p=0.14でのMalvarの式で密接に近似することができるこの窓は、より多くの、しかしなお非常に弱い阻止帯域減衰を提供する。
p=1の場合、Malvarの定式化をHann窓の定式化と同様の表記に変更することができる。
Figure 0006654236
0≦tLLは、窓の時間的サンプルを示し、
Figure 0006654236
は、完全再構成制約を強制するように選択されている([11]、[12]、[13]、[14]参照)。直感的に、Blackmanの窓([24]参照)を導出するために使用することができる以下のようなより多くのサイドローブ減衰を有する関数が、同様に適用可能と思われる。
Figure 0006654236
ここで、b>0、残念なことに、bの値にかかわらず、このような窓クラスで完全な再構成を達成することはできないことが示され得る。
しかしながら、実施形態によれば、より多くの項が追加される。
実施形態によれば、Welt(t)が提供される。
Figure 0006654236
は上記の通りであり、b≦3/8の任意の選択についての得られる形状は、完全な再構成が任意に接近するように修正することができる。特に、阻止帯域レベルを低くすること、および、完全再構成条件に加えて、アイソトーン左半部窓傾斜、および、したがってアンチトーン右半部窓傾斜の制限を目標とすると、K=3、b2=0.176758、ならびに、これらの値に依存するb0=0.3303および、
c1=0.023663、c2=0.0004243、c3=0.00001526 (9)
を使用することによって、4・10−6を下回る誤差で完全な再構成を近似することができる。
図7(b)に示すこのELT窓関数は、[11]および[16]の提案よりもその境界で不連続性が少なく、その結果、図7(a)の2倍長サイン窓と同じレベルのサイドローブ除去が可能になる。同時に、そのメインローブはMLTサイン窓のメインローブよりも狭いままである。興味深いことに、これは、形状が後者の窓にも類似する。
図7(c)は、[24]の電力相補設計、ならびに、式(8)および式(9)を用いたWeltに基づくMDCT/MDSTおよびELT遷移窓、および、比較のための、AACの2倍長開始窓のスペクトル形状および時間的形状を示している。
実施形態は、一般化された双直交ELT遷移窓処理を利用する。
式(5)は、MLTコーディングからELTコーディングまたはELTコーディングからMLTコーディングへのいずれかの遷移の長さ4Mの拡張重複変換(ELT)窓の重要な四半部をどのように決定することができるかを指定している。
実施形態では、式(5)は、以下のように定数d(一例として式(5a)を参照)との乗算によって調整される。
Figure 0006654236
k=0,1、...、M−1であり、tは、KとLの両方を使用して以前に定義した通りである。これにより、率切り替え遷移窓処理に関して、いわゆる双直交手法が可能となり、異なる重要な窓四半部が、分析および合成変換のために使用され得る。より具体的には、TDACを達成し、したがって完全な再構成を達成するために、wtr(t)は分析(符号化器)側でd=d’を使用し、合成(復号器)側では、wtr(t)は、逆、すなわち、d=1/d’を適用することができる。特定の定常状態ELT窓welt、好ましくは本明細書の式(8)および(9)によって導出される窓を所与として、d’は以下の2つの考慮事項の両方に基づいて決定されることが好ましい。
好ましくは、d’を決定するために、すべての率切り替え遷移の間に、分析窓の最適なスペクトル属性と復号時の最大出力減衰の両方を生成するために、式(10)が選択される。
分析窓処理の最適なスペクトル特性を達成するために、いくつかの実施形態は、特に定常高調波オーディオ信号のスペクトル圧縮を最大にするために、分析窓における可能な最小量のメインローブ幅および可能な最大量のサイドローブ減衰を達成する。定常状態welt窓が既にこの目的のために最適化されていると仮定すると、これは4つの窓四半部間の境界での不連続性を回避することによって、wtrにおいて達成できることが示され得る。より正確には、式(10)のwtr(t)の最大値が、n=0,1、...、L−1でのwelt(n)の最大値に等しくなるようにd’を選択することにより、遷移窓形状における飛躍が完全に回避される。
したがって、一実施形態では、d’は、上記2つの最大値の間の比率を反映し、これは、式(8)および(9)の場合には、
d’=4096/4061→1/d’=4061/4096によって近似することができる。
一実施形態によれば、合成窓処理時の最大出力減衰が達成される。変換ビンの量子化によって導入される、オーディオコーディングにおけるスペクトル領域の歪みを可能な限り抑えるために、OLA処理の前に合成窓処理プロセス中の出力波形を可能な限り減衰させることが有用であり得る。しかしながら、完全再構成/TDAC要件に起因して、窓による強い減衰は実現可能ではない。なぜなら、この手法は、相補的な分析窓を効率に関して有害にするからである。良好な窓特性と受け入れ可能な復号器側出力減衰との間の良好なトレードオフは、ここでも、1/d’=4061/4096→d’=4096/4061を選択することによって得ることができることが示され得る。
言い換えれば、wtrの両方の最適化手法は、好ましくは同じd’の値をもたらす。
例えば、式(2a)〜(2j)の現行の技術水準の変換または式(4a)〜(4h)の本発明の新規の変換などの変換の例は、既に与えられている。
一実施形態による式(10)の遷移窓の一例は、例えば上で式(5a)によって与えられている。
図10は、上述の実施形態による対応する分析窓を示す。
同様に、図11は、上述の実施形態による対応する合成窓を示す。
以下では、入力適応的オーバーラップ率選択について説明する。
例えば、上記で与えられた窓を使用して上記で与えられた切り替えコーディング手法は、変換コーデックに統合することができる。これはとりわけ、調性入力に対する予想される主観的利点を検証する。簡潔にするために、高レベルの態様のみを記述する。
復号器の仕様および合成変換が考慮される。
ELTの適用をシグナリングする余分なビットが、長い変換(ブロック切り替えなし)が符号化器によって利用されたチャネルおよび/またはフレームごとに受信される。MPEGコーディングの場合、この目的のために窓形状ビットを再使用することができる(例えば、「0」は、引用文献[23]または引用文献[24]の窓を使用するMLTが利用されることを意味し、例えば「1」は、実施形態のELT概念が利用されることを意味する)。
復号器は、現在のフレームと最後のフレームの両方のこのビットおよび窓シーケンス(変換長さおよびタイプ)に基づいて、上述のように正確なオーバーラップ率および窓を使用して逆重複変換を推定し適用することができる。
例えば、余分のビットは、符号化器がMLTとELTとの間で切り替えることができるか否かを示すことができる。余分なビットが、符号化器がMLTとELTとの間で切り替えることができることを示す場合、例えば現在のフレームに対してMLTが使用されているかまたはELTが使用されているかを示すために窓形状ビットが再使用される。
ここで、ELT検出器および符号化器の分析変換が考慮される。
符号化器および復号器が同期されるようにチャネル/フレームごとのMLT/ELT選択を適用して送信する符号化器は、音声コーダで行われる([25]を参照)ように、入力の線形予測符号化(例えば16次のLPC)残差を計算することによって静止ハーモニックフレームを検出することができる。
符号化器は、例えば、次のフレームと現在のフレームとの間の残差エネルギーとの比として時間的な平坦性fをそこから導出し、定常性はf<15/2として指定される。さらに、符号化器は、例えば、f<1/8によって示される高い階調性を有する、現在および次のフレームの連結された残差のDFTパワースペクトルから得られる、ウィナーエントロピーとしても知られているスペクトル平坦性fをそこから導出する。
以下では、いくつかの実施形態による修正拡張重複変換(MELT)のさらなる態様が提供される。
特に、切り替え可能なMELTをMPEG−H3Dオーディオコアコーディングシステムに統合する好ましい実施形態の実施態様の詳細な説明が提供される。
最初に、いくつかの実施形態による復号器、その仕様および合成変換について説明する。
例えば、use_melt_extensionと呼ばれるグローバルな1ビット構文要素が、単一チャネル要素(SCE)、チャネル対要素(CPE)、および、任意選択的に、低周波強調要素(LFE)の構文仕様のストリーム構成に導入される。これは、標準テキストのmpegh3DACoreConfig()テーブルにuse_melt_extensionを配置することで実現できる。所与のビットストリームがuse_melt_extension=0を特徴とするとき、コア復号器は従来技術で規定された従来のMPEG−H方式で動作する。これは、50%の変換オーバーラップ率を有するMDCT(または、フレーム/チャネル内でカーネル切り替えが起動される場合はMDST、[28]、特に、[28]のセクション4の終わり、離散マルチチャネルコーディングツール参照)のみが許容されること、ならびに、window_sequence(only long、long start、eight short、long stop、stop−start)およびwindow_shape(sineまたはKBD)に関する新しい制限はないことを意味する。([28]において、適応的スペクトル−時間変換器は、カーネルの側で異なる対称性を有する1つまたは複数の変換カーネルを有する変換カーネルの第1のグループの変換カーネルと、カーネルの側で同じ対称性を有する1つまたは複数の変換カーネルを含む変換カーネルの第2のグループの変換カーネルとの間で切り替わる)。
しかしながら、ビットストリームにおいてuse_melt_extension=1である場合、「only long」window_sequenceを有するフレーム/チャネルのためのフレーム毎の1ビットのwindow_shape要素の意味は、前述通り、変更されるのが好ましい(0はα=4の既存のKBD窓関数を使用するMDCT/MDSTを意味し([23]参照)、1は、本明細書で提案されるwelt窓関数を有するMELTを意味する)。
符号化オーディオ信号4を復号するための復号器2の概略ブロック図が示されている。復号器は、適応的スペクトル−時間変換器6と、オーバーラップ加算プロセッサ8とを備える。適応的スペクトル−時間変換器は、例えば、周波数−時間変換を介して、スペクトル値の連続するブロック4’を時間値の連続するブロック10に変換する。さらに、適応的スペクトル−時間変換器6は、制御情報12を受信し、制御情報12に応答して、カーネルの側で異なる対称性を有する1つまたは複数の変換カーネルを含む変換カーネルの第1のグループの変換カーネルと、カーネルの側で同じ対称性を有する1つまたは複数の変換カーネルを含む変換カーネルの第2のグループの変換カーネルとの間で切り替わる。さらに、オーバーラップ加算プロセッサ8は、時間値の連続するブロック10をオーバーラップさせて加算して、復号オーディオ信号であってもよい復号オーディオ値14を得る。
この設計には3つの理由がある。第1に、定常状態のMELTに対して所望の窓関数は1つしか存在せず、従来技術におけるカイザー・ベッセル関数から導出されるELT窓が存在しないため、「only long」フレーム/チャネルおよびアクティブにされたMELTのwindow_shapeビットは、(従来技術で定義されているように解釈される場合)その値が無視される必要があるため、陳腐化していると考えられ、したがって不要であると考えられ得る。
第2に、「only long」ではないフレーム/チャネルにおけるMELTコーディングの使用はサポートされておらず、例えば、MDCT/MDSTの代わりに8つの短いMELTのシーケンスが実現可能であるが、ブロック切り替え技法を非常に複雑にし、「eight short」シーケンスの目的は、時間的コーディングの分解能を最大にするためであるため、知覚の観点から非生産的である)。
第3に、与えられた入力信号部分において、サイン窓がKBD窓よりも優れた符号化品質をもたらす「only long」フレーム/チャネルが、同じ信号部分に対してアクティブにされたときに、提案されているELT設計からさらに利益を得ることが、本発明者によって見出された。言い換えれば、「sine」window_shapeを有するMDCT/MDSTは主観的に、波形セグメントに対するELT提案に一致するか、または、さらにELT提案の方が優れ、ELT提案は、「KBD」window_shapeを有するMDCT/MDSTコーディングよりも顕著に優れている。このように、window_sequenceが「only long」でuse_melt_extension=1の場合、既存のwindow_shapeビットを再使用および再指定することにより、冗長性は完全に回避され、MELTへのまたはMELTからの提案される切り替えが所与のフレーム/チャネルで使用されるかをシグナリングするためにさらなるフレームごとのビットは必要とされない。
use_melt_extension=1のビットストリームの場合、以下のように行われる、逆変換およびオーバーラップ加算(OLA)処理を除く、通常どおりの周波数領域(FD)MPEG−Hコア復号が行われる。
window_sequence=「only long」かつwindow_shape=0(KBD)、またはwindow_sequence≠「only long」かつwindow_shapeが任意のフレーム/チャネルについて、フレームごとの逆変換、合成窓処理、およびOLAは、MPEG−H3Dオーディオ規格、すなわち、ISO/IEC23008−3:2015、subclause5.5.3.5.1およびISO/IEC23003−3:2012、subclause7.9において指定されているように実行される。
しかしながら、切り替え可能なMELTの窓処理遅延の増加を計上するために、OLAステップから生じるフレーム毎の波形セグメントの出力は、1フレームだけ遅延される。これは、例えば、与えられたフレームがストリーム内の最初のフレームであるとき、ゼロ波形が出力されることを意味する。
window_sequence=「only long」かつwindow_shape=1(以前はsine)のフレーム/チャネルの場合、0≦n<2Nかつn=(3N/2+1)/2であることを除いて、ISO/IEC23003−3:2012、subclause7.9.3.1で与えられた式と等価な、本明細書において提案されているMELTの式を使用して逆変換が実行される。カーネル切り替えの変更、すなわち、MELT(TDA互換シーケンシングを想定)によってcos()関数およびk=0(タイプIIコサイン変調の場合)またはk=1(タイプIIサイン変調の場合)の代わりにsin()を使用することも可能であることに留意されたい。次に、所与のチャネルについて、現在および以前の両方のフレームについてwindow_shapeおよびwindow_sequence値を使用して、表3に示すように検出される遷移窓を用いて、前述のセクション2およびセクション3で説明したように合成窓処理が適用される。表3はまた、許容されるすべてのシーケンス/形状遷移のセットを示す。
逆MELT(または、さらに言えば元のELT)は、高速フーリエ変換(FFT)に基づく高速DCT/DST実施態様を適用する既存のMDCTおよびMDST実現を使用して実施できることに留意されたい。より具体的には、サイン変調逆MELTは、すべての奇数インデックスのスペクトルサンプル(インデックスがゼロで始まる)をネゲートし、続いて逆MDCT−IVを適用することによって実現することができ、結果として生じる2N出力サンプルを、符号をネゲートして時間的に繰り返すことによって完了することができる。
同様に、コサイン変調逆MELTは、すべての偶数インデックスのスペクトルサンプルをネゲートし、続いて逆MDST−IVを実行することによって得ることができ、最後にこれは、符号をネゲートして時間的に繰り返される。カーネル切り替えの場合に利用されるタイプIIコサインまたはサイン変調逆MELT、ならびに上記のMELT構成のすべてについての順方向(分析)変換について同様の実現が達成され得る。したがって、従来のMDCT/MDSTアルゴリズムと比較した、MELT処理によって引き起こされる唯一の複雑さの増加は、ネゲートされた時間的反復(逆の場合の拡張または順方向の場合の圧縮)の必要性に起因し、これは、2N個の入力または出力サンプルの−1)によるスケーリング、MDCT/MDSTの場合の2倍数のサンプル(2Nではなく4N)の分析または合成窓処理、および復号器内のOLA中のさらなる加算による単純なコピー/乗加算を表す。言い換えれば、変換のO(n(logn+c))アルゴリズムの複雑さを所与として、MELT(またはELT)の場合は定数cのみが増加し、本実施形態ではn=1024または768であるため、cを約2〜3倍にすることは無視できると考えることができる(すなわち、これは、総変換、窓処理、およびOLA/フレーミングの複雑度の4分の1未満にしかならず、3Dオーディオ復号器全体の複雑度の一部に過ぎない)。
表3は、MELT切り替え方式の場合のサポートされる窓シーケンスを示す。LONGシーケンスとはMDCT/MDSTを意味し、ELT−LONGシーケンスをシグナリングするために「sine」窓構成のLONGが再使用されるため、「KBD」窓形状のみが許容される。
Figure 0006654236
tr<−tr=ELTからの遷移;tr→tr=ELTへの遷移;
KBD=カイザー−ベッセル導出
以下では、実施されたコーデック統合の評価について説明する。切り替え率提案のブラインド主観評価は、信号適応設計の利点を確認した。図8および図9が参照される。
図8は、ELTのスペクトルおよび時間的平坦性に基づく選択を示す。特に、図8は、4つの入力信号(この資料ではMDSTが使用されていない)に対する結果としてのフレームごとのELTおよびMDCT選択を示す。定常トーナルパッセージは確実に検出される。下の(ピンクの)「sel」行は、MELTの値が「0」で、MLTの値が「−1」である。
図9は、95%信頼区間による聴取試験結果の拡大図を示す。明確にするために、3.5kHzのアンカースコアは省略されている。
3Dオーディオコーデックに統合された、この方式の主観的試験の設計および結果は、次のとおりである。
MDCT(またはMDST、カーネル切り替え提案の場合など、[9]を参照)のみを用いた従来の方式と比較して、切り替えMDCT−ELTコーディング方式の主観的性能を評価するために、MUSHRA(隠された基準およびアンカーによる複数刺激)原理([26]参照)による2回のブラインド聴取実験が実行された。この目的のために、切り替え率アーキテクチャは、[8]、[9]に記載されているように、帯域幅拡張にはIGFを使用し、48kbit/sステレオにおけるセミパラメトリックチャネル対コーディングにはステレオ充填(SF)を使用する、MPEG−H3Dオーディオコーデックの符号化器および復号器実施態様に統合されている。試験は、ファンレスコンピュータおよび最新のSTAXヘッドフォンを使用して静かな部屋で12人の経験豊富な聴取者(39歳以下、女性1名を含む)によって行われた。
最初に実施された実験である、調性楽器信号を使用した48kbit/sの試験は、最後のセクションにおいて論じられているように、調性高調波オーディオ資料に対する従来のMDCTコーディングにまさるELTの利点、ならびに、過渡および音の出だしにおいてELTからMDCTコーディングへと切り替える利点を定量化するように意図されている。過去のMPEGコーデック評価[25]、[27]−アコーディオン、バグ/ピッチパイプ、およびハープシコードで既に使用された4つの調性試験信号のそれぞれについて、切り替え可能なELTを用いた3Dオーディオコード化刺激および用いない3Dオーディオコード化刺激が、統一ステレオSBRおよびMPEGサラウンド2−1−2(したがって、2倍のフレーム長)を利用する3Dオーディオ基準条件とともに提示されている。
このテストの結果は、刺激ごとの95%信頼区間とともに、図9(a)の全体平均スコア、および、図9(b)のELT条件に対する差分平均スコアとして示されている。それらは、4つの項目のうち3つについて、定常信号の通過中にELTに切り替えることによって、SBSベースの3Dオーディオコーデックの品質を大幅に改善できることを示している。さらに、非定常的な音の出だしおよび過渡の間にMDCTコーディングを用いることによって、より強いプリエコーアーチファクトに起因する知覚劣化が回避される。最後に、IGFとSFを用いた3Dオーディオ構成の主観的性能を、そのような項目のより長いフレームサイズの統一ステレオ基準のものに近づけることができます。sm01(バグパイプ)を除くすべての刺激は、ここで、良好な品質を示している。
[9]の主観評価の結果がphi7項目の現在のデータ(ピッチパイプ、ELTが数フレームを超えて適用されている[9]ないの唯一の信号)と組み合わされている、さまざまな信号タイプを使用した48kbit/sの仮想試験である第2の「仮想」聴取試験が構築された。
この設定では、切り替え可能なELT方式によって強化されたSBSベースの3Dオーディオコーディングが、多様な試験セットにおいてQMFベースの3Dオーディオ構成よりも優れているか否かが明らかになるはずである。
図9(c)は、この試験のために、刺激ごとおよび全体的な絶対平均スコアを再び信頼区間とともに示す。実際、phi7のような信号のELTによってもたらされる品質利得のおかげで、SBS+ELT構成の平均知覚性能は統一ステレオ基準の平均知覚性能よりも著しく良好にされる。後者は、追加の擬似QMFバンクが必要とされることに起因してより高いアルゴリズム待ち時間および複雑度を示すため、この結果は非常に満足できるものである。
切り替えELT手法の知覚上の利点は、正式な主観評価によって確認されている。これは、3Dオーディオフレームワークに対する品質の低下がないこと、さらに、48kbit/sステレオにおけるあらゆるタイプの入力信号に対する良好なコーディング品質の発明者の長期目標が、実際にはもう少し符号化器の調整を行うだけで実現することができることを示している。
いくつかの実施形態は、修正拡張重複変換(MELT)の適応的適用による準定常高調波信号パッセージの改善を提供する。
これに関連して図12は、いくつかの特定の実施形態による、重複変換による基本フィルタバンクを示し、図12(a)はMDCT/MDSTを示し、図12(b)はELTを示す。
ELTに基づいて、いくつかの実施形態では、MELTは、図12(b)に示すように75%の相互変換オーバーラップを有する奇数積み重ねフィルタバンクを構築し、これは、図12(a)に示すように、同じフレーム長Mにおいて50%のオーバーラップを有するMDCTまたはMDSTフィルタバンクよりも大幅に大きい波長選択性をもたらす。
しかし、ELTとは異なり、MELTは、例えば、いくつかの実施形態において特別な遷移窓のみを使用した、MDCTへのおよびMDCTからの直接的な遷移を可能にする。特に、いくつかの実施形態は、例えば、それぞれのフレーム単位の信号適応的オーバーラップ率切り替え方式を提供することができる。
コサインおよびサイン変調MELTコーディングを実現する特定の実施例をここで説明する。
既に上で説明したように、時間信号xが与えられ、スペクトルXを返す、インデックスiにおけるフレームの順方向(分析)MDCTは、例えば、以下のように書くことができる。
Figure 0006654236
窓の長さN=2Mであり、0≦k<Mである。同様に、順方向MDSTは、余弦項の代わりに正弦を使用して定義される。
Figure 0006654236
実施形態では、時間的長さおよび位相オフセットを変更することによって、これはMELTをもたらす。
Figure 0006654236
これは、増大した窓長さL=4Mおよびコサイン変調を伴う。当然ながら、サイン変調された対応物も指定することができる。
Figure 0006654236
逆(合成)MELT変種は、例えば、式(11c)を適用するコサインバンクについては以下のとおりであり、
Figure 0006654236
サインバンクについては以下のとおりである。
Figure 0006654236
ここで、’はスペクトル処理を表し、0≦n<Lである。
利用される窓の長さは、例えば、式(11a)、(11b)ならびに式(11c)、(11d)、(11e)および(11f)の間で変化し得るが、変換長さM、および、それによって、図12に示す変換間刻み幅は同一のままであり、これによって、オーバーラップ率の差が説明される。いくつかの実施形態では、式(11c)、(11d)、(11e)および(11f)のコサインおよびサイン変調MELT定義は、たとえ75%の相互変換オーバーラップの場合でも、カーネル切り替え、および、それゆえ、±90度のIPDを有する信号の効率的なコード化を実現するためにさらに改善することができる。偶数積み重ねPrincen−Bradleyフィルタバンクから採用されるタイプII遷移変換は、例えば、タイプIVのMDCTとMDSTとの間の切り替え時に、時間領域エイリアシング除去(TDAC)のために採用され得る。式(11a)および(11b)を参照されたい。具体的には、チャネル内のMDCT−IVコーディングからMDST−IVコーディングへの変更中にMDST−IIが必要であり、MDCT−IVコーディングに復帰するときにMDCT−IIが必要である。
上記のタイプIV定義(式(11c)、(11d)、(11e)および(11f)を参照)に加えて、DCT−IIを使用する高速実装を可能にするELTベースのフィルタバンクも構築することができ、これは、50%を超える相互変換オーバーラップを有するタイプIIフィルタバンクが実際に実現可能であることを証明している。TDACフィルタバンク設計に従う代替的であるが等価な手法は、タイプIIコサイン変調MELTバージョンであって、
Figure 0006654236
クロネッカーデルタδ(0)=1である、タイプIIコサイン変調MELTバージョンと、タイプIIサインベースMELTであって、
Figure 0006654236
ナイキスト係数のスケーリングのためのk’=M−1−kである、タイプIIサインベースMELTとの交互使用を介した偶数積み重ねシステムを考案することである。
それぞれ分析側の式(11g)および(11h)
Figure 0006654236
および合成側の
Figure 0006654236
が、図13に示すように、TDACをもたらす。
特に、図13は、いくつかの特定の実施形態による、偶数積み重ねフィルタバンクにおけるTDACを示し、図13(a)はPrincen−Bradleyを示し、図13(b)はMELT−IIを示す。TDACは、隣接する変換間の偶数−奇数または奇数−偶数時間領域エイリアシング結合の場合に可能である。
MELTコーディングおよびカーネル切り替えの組み合わせに関して、タイプIVコサインおよびサイン変調MELT間で切り替えるときに、50%オーバーラップのプロセスと同様に、式(11g)および(11i)または式(11h)および(11j)の遷移タイプIIインスタンスが利用されるとき、TDACは不可能であることが分かる。式(11c)、(11d)、(11e)および(11f)を参照されたい。瞬間的なオーバーラップ率に関係なくカーネルの切り替えを可能にする場合、コーデックのアーキテクチャ複雑度を低く保つことが望ましいため、以下の回避策が提案される。コサイン変調MELT−IV(式(11c)および(11e)を参照)からサイン変調MELT−IV(式(11d)および(11f)を参照)に切り替えるには、例えば、分析および合成の両側において、オーバーラップ率を50%に一時的に減少させることと組み合わせた、遷移MDST−IIフレームを利用することができる。同様に、サインベースのMELTコーディングからコサインベースのMELTコーディングに戻すときには、中間MDCT−IIを利用することができる。図14は、特定の実施形態によるMELT−IVフィルタバンクの特定のTDAC準拠カーネル切り替えを示し、図14(a)はコサイン変調からサイン変調への遷移を示し、図14(b)はサイン変調からコサイン変調への遷移を示す。
図14に可視化されているように、各タイプII遷移とそのタイプIV−MELT近傍との間のオーバーラップ長さはM=N/2に制限されるため、完全なTDACが両方の場合で得られる。したがって、TDACを必要とする、コサイン変調MELT−IVとサイン変調MELT−IVとの間の時間的エイリアシング境界オーバーラップは存在しない。適切な窓処理を実現するために、実施形態では、図15(a)に示すように、特殊な「stop−start」窓をタイプII変換に適用する必要がある。いくつかの実施形態によれば、非対称遷移重み付けに基づく、このような、例えば対称の窓が、以下でより詳細に説明される。
特に、図15は、一時的な遷移の間の、破線で示される特別な「stop−start」形状を有する特定の実施形態による改善された窓処理を示し、図15(a)は75%から50%のオーバーラップ率への一時的な遷移を示し、図15(b)は、50%から75%へのオーバーラップ率の一時的な遷移を示す。
以下では、いくつかの実施形態によるMELTフレームからの遷移およびMELTフレームへの遷移について説明する。
いくつかの実施形態によれば、フレーム間切り替えは、例えば、50%のオーバーラップ率を有するMDCTの様な変換から、75%のオーバーラップ率を有するMELTへと、および、その逆に実現することができる。切り替えの間に完全なTDACを維持するために、準定常信号パッセージの間に加えられる定常状態重み付けから得られる専用の非対称遷移窓を使用することができる。これらの窓は、例えば、オーバーラップが50%から75%に増加するときの最初のMELT窓(フレームiについて図15(a)に示されている太線形状)について、以下のように定義することができ、
Figure 0006654236
オーバーラップを50%に縮小するときの最初のMDCT/MDST窓(同じフレームについての図15(b)内の太線形状)について、以下のように定義することができる。
Figure 0006654236
w’eltおよびw’mltの補完、すなわち、50%オーバーラップに切り替えるときの最後のMELT窓、および75%オーバーラップに戻って切り替わる(図15のフレームi−2)間の最後のMDCT/MDST窓はそれぞれ、式(12)および(13)の時間的逆転である。重要な窓部分(図14も参照)で使用されるkは、上記のように指定され、一方で、weltおよびwmltはそれぞれ、定常状態MELTおよびMDCT/MDSTの基礎となる窓関数を示す。ELTにも適用可能である([12]参照)前者について、ブロッキングアーチファクトを防止する改善された設計が上記で提供されている。
tr(t)は(tは、数Mの時間領域サンプルにまたがる)、例えば、重要な窓四半部、例えば、分析(符号化器)側または合成(復号器)側のいずれかに適用されるときのw’eltまたはw’mltのいずれかの、実数dでスケーリングされた平方根項によって特徴付けられる長さMセグメントを表すものとする、dを用いることによって、異なる重要な窓部分が分析および合成変換に使用され得る、率切り替え遷移窓処理に関する、いわゆる双直交手法が可能になる。より具体的には、TDACを達成し、したがってPRを達成するために、wtr(t)は分析(符号化器)側でd=d’を使用し、合成(復号器)側では、wtr(t)は、逆、例えばd=(1/d’)’を適用することができる。特定の定常状態ELT窓weltが与えられると、d’は、すべての率切り替え遷移中に、符号化中の分析窓の最適なスペクトル属性と、復号中の合成窓による最大出力減衰の両方をもたらすように、決定されることが好ましい。
復号器の実施形態によれば、weltは第1の窓関数であり、wmltは第2の窓関数であり、w’mltは第3の窓関数であり、第3の窓関数は以下に従って定義され、
Figure 0006654236
ここで、Mは、スペクトル領域オーディオサンプルの第1のグループまたは第2のグループまたは第3のグループまたは第4のグループのスペクトル領域オーディオサンプルの数を示し、kは0≦k<Mである数であり、dは実数であり、nは整数であり、オーバーラップ加算器130は、第3の窓関数w’mltに応じて、時間領域中間オーディオサンプルの第1のグループおよび第2のグループおよび第3のグループおよび第4のグループのうちの少なくとも1つを生成するように構成される。
同様に、符号化器の実施形態によれば、weltは第1の窓関数であり、wmltは第2の窓関数であり、w’mltは第3の窓関数であり、第3の窓関数は以下に従って定義され、
Figure 0006654236
ここで、Mは、スペクトル領域オーディオサンプルの第1のグループまたは第2のグループまたは第3のグループまたは第4のグループのスペクトル領域オーディオサンプルの数を示し、kは0≦k<Mである数であり、dは実数であり、nは整数であり、第1の符号化モジュール210および第2の符号化モジュール220のうちの少なくとも1つは、時間領域オーディオサンプルの第1のグループおよび第2のグループおよび第3のグループおよび第4のグループのうちの少なくとも1つに、第3の窓関数w’mltを適用するように構成される。
以下では、いくつかの実施形態による分析窓処理の改善された、好ましくは最適なスペクトル特性について説明する。いくつかの実施形態は、特に定常高調波オーディオ信号のスペクトル圧縮を増大するために、分析窓における小さい、好ましくは可能な最小量のメインローブ幅、および、強力な、好ましくは可能な最大量のサイドローブ減衰を達成しようとする。
それらの実施形態のいくつかについて、定常状態welt窓が既にこの目的のために最適化されているとき、これは窓部分間の境界での不連続性を回避することによって、w’eltおよびw’mlt(ならびに、無論、それらの時間的な逆)において達成できることが示され得る。より正確には、wtrの最大値が、weltの最大値(または、例えば、その最大値に近い値)に等しくなるようにd’を選択することにより、遷移窓形状における飛躍が完全に回避される。したがって、d’は、上記2つの最大値の間の比率を反映し、これは、本事例においては、d’=(4096/4061)によって近似することができる。
以下では、合成窓処理時の出力減衰の増加、好ましくは最大化について説明する。変換ビンの量子化によって引き起こされる、オーディオコーディングにおけるスペクトル領域の歪みをより良好に(好ましくは可能な限り)抑えるために、OLA処理の前に合成窓処理プロセス中の出力波形を、好ましくは可能な限り減衰させることが有用であり得る。しかしながら、PR/TDAC要件に起因して、窓による強い減衰は困難である。なぜなら、この手法は、相補的な分析窓を効率に関して有害にするからである。いくつかの実施形態によれば、良好な窓特性と受け入れ可能な復号器側出力減衰との間の良好なトレードオフは、1/d’=4061/4096を選択することによって得ることができる。
言い換えれば、wtrの両方の最適化手法は、好ましくは同じd’の値をもたらす。weltを利用する場合、w’eltおよびw’mltにおける不連続性は非常に小さく(図9参照)、少なくとも合成側でそれらの回避することが、可聴改善をもたらすとは予測されない。特定の実施形態について図15(a)に破線で示されており、以下にwssによって示される、上述したMELTベースのカーネル切り替えのための特別な遷移「stop−start」窓は、式(12)または(13)の重要な窓部分から導き出すことができる。
Figure 0006654236
言い換えれば、wssは両方の半部に重要な部分を持つ対称窓であり、したがって、両側でオーバーラップ率の遷移が可能である。wssは、MDCTおよびMDSTならびに異なるMELT変形(長さLの重み付けの外側四半部がゼロに設定されると仮定して)に適用できることに留意すべきである。実際、分析側窓処理のためのそれを使用することによって、MDCTおよびコサイン変調MELT−IV係数を、図5c)によって示されるように符号の差異とは別に同一にする。カーネルの切り替えを容易にすることとは別に、wssをも利用して、オーバーラップ率切り替え方式をより柔軟にすることができる。例えば、これによって、図15b)に示す一時的切り替え構成(50から75%のオーバーラップ)を達成することができる。
復号器の実施形態によれば、weltは第1の窓関数であり、wssは第2の窓関数であり、第2の窓関数は以下に従って定義され、
Figure 0006654236
ここで、Mは、スペクトル領域オーディオサンプルの第1のグループまたは第2のグループまたは第3のグループまたは第4のグループのスペクトル領域オーディオサンプルの数を示し、kは0≦k<Mである数であり、dは実数であり、nは整数であり、オーバーラップ加算器130は、第2の窓関数wssに応じて、時間領域中間オーディオサンプルの第1のグループおよび第2のグループおよび第3のグループおよび第4のグループのうちの少なくとも1つを生成するように構成される。
同様に、符号化器の実施形態によれば、weltは第1の窓関数であり、wssは第2の窓関数であり、第2の窓関数は以下に従って定義され、
Figure 0006654236
ここで、Mは、スペクトル領域オーディオサンプルの第1のグループまたは第2のグループまたは第3のグループまたは第4のグループのスペクトル領域オーディオサンプルの数を示し、kは0≦k<Mである数であり、dは実数であり、nは整数であり、第1の符号化モジュール210および第2の符号化モジュール220のうちの少なくとも1つは、時間領域オーディオサンプルの第1のグループおよび第2のグループおよび第3のグループおよび第4のグループのうちの少なくとも1つに、第2の窓関数wssを適用するように構成される。
いくつかの態様を装置の文脈で説明してきたが、これらの態様は、対応する方法の説明も表していることは明らかであり、そこで、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明をも表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(またはそれを使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの1つまたは複数は、そのような装置によって実行されてもよい。
特定の実施要件に応じて、本発明の実施形態は、ハードウェアもしくはソフトウェアにおいて、または少なくとも部分的にハードウェアにおいて、もしくは少なくとも部分的にソフトウェアにおいて実施することができる。実施態様は、電子的に読み取り可能な制御信号が記憶された、例えばフロッピーディスク、DVD、Blu−Ray、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、これはそれぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子可読制御信号を有するデータキャリアを備える。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに、方法の1つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納することができる。
他の実施形態は、機械可読キャリアに格納される、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
換言すれば、それゆえ、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを記録されているデータキャリア(またはデジタル記憶媒体もしくはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録媒体は、典型的には有形かつ/または非一時的である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えば、データ通信接続を介して、例えば、インターネットを介して転送されるように構成することができる。
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成または適合される処理手段、例えばコンピュータまたはプログラマブル論理装置を含む。
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールされているコンピュータを含む。
本発明によるさらなる実施形態は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的にまたは光学的に)転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。この装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。
いくつかの実施形態では、プログラマブル論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明する方法の1つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実装することができる。
本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実施することができる。
上述の実施形態は、本発明の原理の例示にすぎない。当業者には、本明細書に記載された構成および詳細の変更および変形が明らかになることは理解されたい。したがって、本発明は添付の特許請求の範囲によってのみ限定され、本明細書の実施形態の記述および説明によって示される特定の詳細によっては限定されないことが意図される。

Claims (57)

  1. 複数のスペクトル領域オーディオサンプルを復号するための復号器であって、
    前記スペクトル領域オーディオサンプルの第1のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第1のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第1のグループを復号し、前記スペクトル領域オーディオサンプルの第2のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第2のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第2のグループを復号するための第1の復号モジュール(110)と、
    オーバーラップ加算器(130)であって、前記オーバーラップ加算器(130)は、時間領域中間オーディオサンプルの正確に2つのグループのオーバーラップ加算を行うように構成されており、前記正確に2つのグループは、時間領域中間オーディオサンプルの前記第1のグループおよび前記第2のグループであり、前記オーバーラップ加算器(130)は、前記正確に2つのグループを、5%を超え最大50%のオーバーラップを伴ってオーバーラップ加算するように構成されており、前記正確に2つのグループの前記オーバーラップ加算の結果として、オーディオ信号の第1の複数の時間領域オーディオ出力サンプルがもたらされる、オーバーラップ加算器(130)と、
    前記スペクトル領域オーディオサンプルの第3のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第3のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第3のグループを復号し、前記スペクトル領域オーディオサンプルの第4のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第4のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第4のグループを復号するための第2の復号モジュール(120)と、
    前記オーディオ信号の前記第1の複数の時間領域オーディオ出力サンプル、前記オーディオ信号の第2の複数の時間領域オーディオ出力サンプル、および、前記オーディオ信号の第3の複数の時間領域オーディオ出力サンプルを出力するための出力インターフェース(140)と
    を備え、
    前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第3のグループと、前記時間領域中間オーディオサンプルの第4のグループとの、60%を超え100%未満のオーバーラップを伴ったオーバーラップ加算を使用して、前記第2の複数の時間領域オーディオ出力サンプルを得るように構成されており、
    前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第2のグループと、前記時間領域中間オーディオサンプルの第3のグループとのオーバーラップ加算を使用して前記第3の複数の時間領域オーディオ出力サンプルを得るように構成されており、または、前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第4のグループと、前記時間領域中間オーディオサンプルの第1のグループとのオーバーラップ加算を使用して前記第3の複数の時間領域オーディオ出力サンプルを得るように構成されている、復号器。
  2. 前記オーディオ信号の前記第1の複数の時間領域オーディオ出力サンプルは、時間的に前記オーディオ信号の前記第3の複数の時間領域オーディオ出力サンプルに先行し、前記オーディオ信号の前記第3の複数の時間領域オーディオ出力サンプルは、時間的に前記オーディオ信号の前記第2の複数の時間領域オーディオ出力サンプルに先行し、前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第2のグループと、前記時間領域中間オーディオサンプルの第3のグループとのオーバーラップ加算を使用して前記第3の複数の時間領域オーディオ出力サンプルを取得するように構成されており、または
    前記オーディオ信号の前記第2の複数の時間領域オーディオ出力サンプルは、時間的に前記オーディオ信号の前記第3の複数の時間領域オーディオ出力サンプルに先行し、前記オーディオ信号の前記第3の複数の時間領域オーディオ出力サンプルは、時間的に前記オーディオ信号の前記第1の複数の時間領域オーディオ出力サンプルに先行し、前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第2のグループと、前記時間領域中間オーディオサンプルの第3のグループとのオーバーラップ加算を使用して前記第3の複数の時間領域オーディオ出力サンプルを取得するように構成されている、請求項1に記載の復号器。
  3. 前記オーバーラップ加算器(130)は、前記時間領域中間オーディオサンプルの第1のグループを、前記時間領域中間オーディオサンプルの第2のグループと、正確に50%のオーバーラップを伴ってオーバーラップ加算するように構成されており、前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第3のグループを、前記時間領域中間オーディオサンプルの第4のグループと、少なくとも75%で100%未満のオーバーラップを伴ってオーバーラップ加算するように構成されている、請求項1または2に記載の復号器。
  4. 前記第1の復号モジュール(110)は、逆修正離散コサイン変換または逆修正離散サイン変換を実行するように構成されており、
    前記第2の復号モジュール(120)は、逆拡張重複変換または逆修正拡張重複変換を実行するように構成されている、請求項3に記載の復号器。
  5. 前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第3のグループを、前記時間領域中間オーディオサンプルの第4のグループと、正確に75%のオーバーラップを伴ってオーバーラップ加算するように構成されている、請求項3または4に記載の復号器。
  6. 前記時間領域中間オーディオサンプルの第1のグループの時間領域中間オーディオサンプルの第1の数が、前記時間領域中間オーディオサンプルの第2のグループの時間領域中間オーディオサンプルの第2の数と等しく、
    前記時間領域中間オーディオサンプルの第3のグループの時間領域中間オーディオサンプルの第3の数が、前記時間領域中間オーディオサンプルの第4のグループの時間領域中間オーディオサンプルの第4数と等しく、
    前記第2の数は、前記第3の数を2で除算した数に等しく、前記第1の数は、前記第4の数を2で除算した数に等しい、請求項1〜5のいずれか一項に記載の復号器。
  7. 前記第2の復号モジュール(120)は、さらに、前記スペクトル領域オーディオサンプルの第5のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第5のグループを生成することによって、前記スペクトル領域オーディオサンプルの第5のグループを復号し、前記スペクトル領域オーディオサンプルの第6のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第6のグループを生成することによって、前記スペクトル領域オーディオサンプルの第6のグループを復号するように構成されており、
    前記オーバーラップ加算器(130)は、前記第2の複数の時間領域オーディオ出力サンプルを取得するために、前記時間領域中間オーディオサンプルの前記第3のグループまたは前記第4のグループが、前記時間領域中間オーディオサンプルの第5グループの少なくとも75%かつ100%未満とオーバーラップし、前記時間領域中間オーディオサンプルの第5のグループが、前記時間領域中間オーディオサンプルの第6グループの少なくとも75%かつ100%未満とオーバーラップするように、前記時間領域中間オーディオサンプルの第3のグループおよび前記時間領域中間オーディオサンプルの第4のグループおよび前記時間領域中間オーディオサンプルの第5のグループおよび前記時間領域中間オーディオサンプルの第6のグループをオーバーラップ加算するように構成されている、請求項1〜6のいずれか一項に記載の復号器。
  8. 前記第2の復号モジュール(120)は、以下に応じて前記時間領域中間オーディオサンプルの第3のグループおよび前記時間領域中間オーディオサンプルの第のグループのうちの少なくとも1つを生成するように構成されており、
    cs(a(n+b)(k+c))
    ここで、cs()はcos()またはsin()であり、
    nは、前記時間領域中間オーディオサンプルの前記第3のグループまたは前記第4のグループに属する前記時間領域中間オーディオサンプルのうちの1つの時間インデックスを示し、
    kは、前記スペクトル領域オーディオサンプルの前記第1のグループ前記第2のグループ前記第3のグループまたは前記第4のグループに属する前記スペクトル領域オーディオサンプルのうちの1つのスペクトルインデックスを示し、
    −0.1≦c≦0.1または0.4≦c≦0.6または0.9≦c≦1.1であり、
    a=q/Mであり、
    0.9・π≦q≦1.1・πであり、
    Mは前記スペクトル領域オーディオサンプルの前記第1のグループ前記第2のグループ前記第3のグループまたは前記第4のグループに属するスペクトル領域オーディオサンプルの数を示し、
    b=(s・M+1)/2であり、
    1.5≦s≦4.5であcは第1のエイリアシング低減係数、qは第2のエイリアシング低減係数、sは第3のエイリアシング低減係数である、請求項1〜7のいずれか一項に記載の復号器。
  9. 前記第1の復号モジュール(110)は、以下に応じて、前記時間領域中間オーディオサンプルの第1のグループおよび前記時間領域中間オーディオサンプルの第2のグループのうちの少なくとも1つを生成するように構成されており、
    cs(a(n+b)(k+c))
    ここで、cs()はcos()またはsin()であり、
    kは、前記スペクトル領域オーディオサンプルの前記第1のグループまたは前記第2のグループに属する前記スペクトル領域オーディオサンプルのうちの1つのスペクトルインデックスを示し、
    は、前記時間領域中間オーディオサンプルの前記第1のグループまたは前記第2のグループに属する前記時間領域中間オーディオサンプルのうちの1つの時間インデックスを示し、−0.1≦c≦0.1または0.4≦c≦0.6または0.9≦c≦1.1であり、
    =(M+1)/2であ
    Mは前記スペクトル領域オーディオサンプルの前記第1のグループまたは前記第2のグループに属するスペクトル領域オーディオサンプルの数を示す、請求項に記載の復号器。
  10. c=0、またはc=0.5、またはc=1であり、
    q=πであり、
    s=3である、請求項8または9に記載の復号器。
  11. q=πであり、s=3であり、cs()はcos()であり、cs()はcos()であり、c=0.5であり、c=0.5であり、または
    q=πであり、s=3であり、cs()はsin()であり、cs()はcos()であり、c=1であり、c=0であり、または
    q=πであり、s=3であり、cs()はsin()であり、cs()はsin()であり、c=0.5であり、c=1であり、または
    q=πであり、s=3であり、cs()はcos()であり、cs()はsin()であり、c=0であり、c=1であり、または
    q=πであり、s=3であり、cs()はsin()であり、cs()はsin()であり、c=0.5であり、c=0.5であり、または
    q=πであり、s=3であり、cs()はcos()であり、cs()はsin()であり、c=0であり、c=0.5であり、または
    q=πであり、s=3であり、cs()はcos()であり、cs()はcos()であり、c=0.5であり、c=0であり、または
    q=πであり、s=3であり、cs()はsin()であり、cs()はcos()であり、c=1であり、c=0である、請求項9に記載の復号器。
  12. 前記第2の復号モジュール120は、以下に応じて、前記時間領域中間オーディオサンプルの第3のグループおよび前記時間領域中間オーディオサンプルの第4のグループのうちの少なくとも1つを生成するように構成されており、
    Figure 0006654236
    、または
    Figure 0006654236
    、または
    Figure 0006654236
    、または
    Figure 0006654236
    ここで、
    Figure 0006654236
    は、前記スペクトル領域オーディオサンプルの前記第3のグループまたは前記第4のグループに属する前記スペクトル領域オーディオサンプルの1つを示し、
    Figure 0006654236
    は時間領域値を示
    Mは前記スペクトル領域オーディオサンプルの前記第1のグループ、前記第2のグループ、前記第3のグループまたは前記第4のグループに属するスペクトル領域オーディオサンプルの数を示す、請求項10に記載の復号器。
  13. 2の復号モジュール(120)は、
    Figure 0006654236
    にしたがって、前記時間領域値
    Figure 0006654236

    に、重みw(n)を適用して、前記時間領域中間オーディオサンプルの前記第3のグループまたは前記第4のグループに属する時間領域中間オーディオサンプル
    Figure 0006654236
    を生成するように構成されている、請求項12に記載の復号器。
  14. 前記オーバーラップ加算器(130)は、前記時間領域中間オーディオサンプルの第2のグループのすべての時間領域中間オーディオサンプルが、前記時間領域中間オーディオサンプルの第3のグループの時間領域中間オーディオサンプルとオーバーラップするように、少なくとも前記時間領域中間オーディオサンプルの第2のグループを、前記時間領域中間オーディオサンプルの第3のグループとオーバーラップ加算するように構成されており、または、
    前記オーバーラップ加算器(130)は、前記時間領域中間オーディオサンプルの第1のグループのすべての時間領域中間オーディオサンプルが、前記時間領域中間オーディオサンプルの第4のグループの時間領域中間オーディオサンプルとオーバーラップするように、少なくとも前記時間領域中間オーディオサンプルの第4のグループを、前記時間領域中間オーディオサンプルの第1のグループとオーバーラップ加算するように構成されている、請求項1〜13のいずれか一項に記載の復号器。
  15. eltは第1の窓関数であり、
    trは第2の窓関数であり、
    前記第2の窓関数の一部は以下に従って定義され、
    Figure 0006654236
    Mは、前記スペクトル領域オーディオサンプルの前記第1のグループ前記第2のグループ前記第3のグループまたは前記第4のグループに属するスペクトル領域オーディオサンプルの数を示し、
    kは0≦k<Mの数であり、
    dは実数であり、
    t=(L/2)+kまたはt=(L/2)−1−kであり、
    Lは、前記時間領域中間オーディオサンプルの前記第3のグループまたは前記第4のグループに属する時間領域中間オーディオサンプルの数を示し、
    前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第2のグループを前記時間領域中間オーディオサンプルの第3のグループとオーバーラップ加算するように構成され、前記第2の復号モジュール(120)は、前記第1の窓関数weltに応じて前記時間領域中間オーディオサンプルの第4のグループを生成するように構成されており、前記第2の復号モジュール(120)は、前記第2の窓関数wtrに応じて前記時間領域中間オーディオサンプルの第3のグループを生成するように構成されており、または
    前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第4のグループを前記時間領域中間オーディオサンプルの第1のグループとオーバーラップ加算するように構成され、前記第2の復号モジュール(120)は、前記第1の窓関数weltに応じて前記時間領域中間オーディオサンプルの第3のグループを生成するように構成されており、前記第2の復号モジュール(120)は、前記第2の窓関数wtrに応じて前記時間領域中間オーディオサンプルの第4のグループを生成するように構成されている、請求項1〜14のいずれか一項に記載の復号器。
  16. tr1は第3の窓関数であり、前記第3の窓関数の一部は以下に従って定義され、
    Figure 0006654236

    ここで、t=(N/2)+kまたはt=(N/2)−1−kであり、
    Nは、前記時間領域中間オーディオサンプルの前記第1のグループまたは前記第2のグループの時間領域中間オーディオサンプルの数を示し、
    前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第2のグループを前記時間領域中間オーディオサンプルの第3のグループとオーバーラップ加算するように構成され、前記第1の復号モジュール(110)は、前記第3の窓関数wtr1に応じて前記時間領域中間オーディオサンプルの第2のグループを生成するように構成されており、または
    前記オーバーラップ加算器(130)は、少なくとも前記時間領域中間オーディオサンプルの第4のグループを前記時間領域中間オーディオサンプルの第1のグループとオーバーラップ加算するように構成され、前記第1の復号モジュール(110)は、前記第3の窓関数wtr1に応じて前記時間領域中間オーディオサンプルの第1のグループを生成するように構成されている、請求項15に記載の復号器。
  17. 前記第1の窓関数weltは以下に従って定義され、
    Figure 0006654236

    ここで、
    Figure 0006654236
    であり、
    、b、およびbは実数であり、
    0≦t<Lであり、
    Kは正の整数であり、
    は実数を示す、請求項15または16に記載の復号器。
  18. K=3であり、
    0.3≦b≦0.4であり、
    −0.6≦b≦−0.4であり、
    0.01≦b≦0.2であり、
    0.001≦c≦0.03であり、
    0.000001≦c≦0.0005であり、
    0.000001≦c≦0.00002である、請求項17に記載の復号器。
  19. eltは第1の窓関数であり、
    mltは第2の窓関数であり、
    w’mltは第3の窓関数であり、前記第3の窓関数は以下に従って定義され、
    Figure 0006654236

    ここで、Mは、前記スペクトル領域オーディオサンプルの前記第1のグループまたは前記第2のグループまたは前記第3のグループまたは前記第4のグループのスペクトル領域オーディオサンプルの数を示し、
    kは0≦k<Mである数であり、
    dは実数であり、
    nは整数であり、
    前記オーバーラップ加算器(130)は、前記第3の窓関数w’mltに応じて、前記時間領域中間オーディオサンプルの前記第1のグループおよび前記第2のグループおよび前記第3のグループおよび前記第4のグループのうちの少なくとも1つを生成するように構成されている、請求項1〜14のいずれか一項に記載の復号器。
  20. eltは第1の窓関数であり、
    ssは第2の窓関数であり、
    前記第2の窓関数は以下に従って定義され、
    Figure 0006654236

    ここで、Mは、前記スペクトル領域オーディオサンプルの前記第1のグループまたは前記第2のグループまたは前記第3のグループまたは前記第4のグループのスペクトル領域オーディオサンプルの数を示し、
    kは0≦k<Mである数であり、
    dは実数であり、
    nは整数であり、
    前記オーバーラップ加算器(130)は、前記第2の窓関数wssに応じて、前記時間領域中間オーディオサンプルの前記第1のグループおよび前記第2のグループおよび前記第3のグループおよび前記第4のグループのうちの少なくとも1つを生成するように構成されている、請求項1〜14のいずれか一項に記載の復号器。
  21. 0.8≦d≦1.25
    である、請求項15〜20のいずれか一項に記載の復号器。
  22. d=4061/4096
    である、請求項21に記載の復号器。
  23. d=1である、請求項15〜20のいずれか一項に記載の復号器。
  24. 前記復号器は、前記複数のスペクトル領域オーディオサンプルの一部分が前記第1の復号モジュール(110)によって復号されるべきかまたは前記第2の復号モジュール(120)によって復号されるべきかを示す復号情報を受信するように構成され、
    前記復号器は、前記復号情報に応じて前記第1の復号モジュール(110)または前記第2の復号モジュール(120)のいずれかを利用して前記時間領域中間オーディオサンプルの前記第1のグループまたは前記第2のグループまたは前記第3のグループまたは前記第4のグループを得ることによって、前記複数のスペクトル領域オーディオサンプルの前記一部分を復号するように構成されている、請求項1〜23のいずれか一項に記載の復号器。
  25. 前記復号器は、第1のビットおよび第2のビットを受信するように構成されており、前記第1のビットおよび前記第2のビットはともに、第1のビット値組み合わせ、または、前記第1のビット値組み合わせとは異なる第2のビット値組み合わせ、または、前記第1のビット値組み合わせおよび前記第2のビット値組み合わせとは異なる第3のビット値組み合わせ、または前記第1のビット値組み合わせおよび前記第2のビット値組み合わせおよび前記第3のビット値組み合わせとは異なる第4のビット値組み合わせを有し、
    前記復号器は、前記第1のビットおよび前記第2のビットがともに前記第1のビット値組み合わせを有する場合に、前記時間領域中間オーディオサンプルのうちの前記第1のグループまたは前記第2のグループを得るために、前記第1の復号モジュール(110)を利用することによって、カイザー−ベッセル関数に応じて前記複数のスペクトル領域オーディオサンプルの一部を復号するように構成されており、
    前記復号器は、前記第1のビットおよび前記第2のビットがともに前記第2のビット値組み合わせを有する場合に、前記時間領域中間オーディオサンプルのうちの前記第1のグループまたは前記第2のグループを得るために、前記第1の復号モジュール(110)を利用することによって、サイン関数またはコサイン関数に応じて前記複数のスペクトル領域オーディオサンプルの一部を復号するように構成されており、
    前記復号器は、前記第1のビットおよび前記第2のビットがともに前記第3のビット値組み合わせを有する場合に、前記時間領域中間オーディオサンプルの前記第1のグループまたは前記第2のグループを得るために、前記第1の復号モジュール(110)を利用することによって、前記複数のスペクトル領域オーディオサンプルの一部を復号するように構成されており、
    前記復号器は、前記第1のビットおよび前記第2のビットがともに第4のビット値組み合わせを有する場合に、前記時間領域中間オーディオサンプルのうちの前記第3のグループまたは前記第4のグループを得るために、前記第2の復号モジュール(120)を利用することによって、前記複数のスペクトル領域オーディオサンプルの前記一部を復号するように構成されている、請求項1〜23のいずれか一項に記載の復号器。
  26. 時間領域オーディオサンプルの複数のグループからスペクトル領域オーディオサンプルの複数のグループを生成することによって、オーディオ信号の複数の時間領域オーディオサンプルを符号化するための符号化器であって、
    前記時間領域オーディオサンプルのグループのうちの第1のグループから前記スペクトル領域オーディオサンプルのグループのうちの第1のグループを生成し、前記時間領域オーディオサンプルのグループのうちの第2のグループから前記スペクトル領域オーディオサンプルのグループのうちの第2のグループを生成するための第1の符号化モジュール(210)であり、前記時間領域オーディオサンプルの第1のグループおよび前記時間領域オーディオサンプルの第2のグループは、前記時間領域オーディオサンプルのグループ内で時間的に隣接しており、前記時間領域オーディオサンプルの前記第1のグループは、前記時間領域オーディオサンプルの前記第2のグループの前記オーディオサンプルの5%を超え50%以下を含み、前記時間領域オーディオサンプルの前記第2のグループは、前記時間領域オーディオサンプルの前記第1のグループのオーディオサンプルの5%を超え50%以下を含む、第1の符号化モジュール(210)と、
    前記時間領域オーディオサンプルの前記グループのうちの第3のグループから前記スペクトル領域オーディオサンプルの前記グループのうちの第3のグループを生成し、前記時間領域オーディオサンプルの前記グループのうちの第4のグループから前記スペクトル領域オーディオサンプルの前記グループのうちの第4のグループを生成するための第2の符号化モジュール(220)であり、前記時間領域オーディオサンプルの前記第3のグループは、前記時間領域オーディオサンプルの前記第4のグループの前記オーディオサンプルの60%を超え100%未満を含み、前記時間領域オーディオサンプルの前記第4のグループは、前記時間領域オーディオサンプルの前記第3のグループの前記オーディオサンプルの60%を超え100%未満を含む、第2の符号化モジュール(220)と、
    前記スペクトル領域オーディオサンプルの第1のグループ、前記スペクトル領域オーディオサンプルの第2のグループ、前記スペクトル領域オーディオサンプルの第3のグループおよび前記スペクトル領域オーディオサンプルの第4のグループを出力するための出力モジュール(230)と
    を備え、
    前記時間領域オーディオサンプルの前記第3のグループは、前記時間領域オーディオサンプルの前記第2のグループのオーディオサンプルを含み、または、前記時間領域オーディオサンプルの前記第4のグループは、前記時間領域オーディオサンプルの前記第1のグループのオーディオサンプルを含む、符号化器。
  27. 前記時間領域オーディオサンプルの前記第1のグループは、時間的に前記時間領域オーディオサンプルの前記第2のグループに先行し、前記時間領域オーディオサンプルの前記第2のグループは、時間的に前記時間領域オーディオサンプルの前記第3のグループに先行し、前記時間領域オーディオサンプルの前記第3のグループは、時間的に前記時間領域オーディオサンプルの前記第4のグループに先行し、前記時間領域オーディオサンプルの前記第3のグループは、前記時間領域オーディオサンプルの前記第2のグループのオーディオサンプルを含み、または
    前記時間領域オーディオサンプルの前記第3のグループは、時間的に前記時間領域オーディオサンプルの前記第4のグループに先行し、前記時間領域オーディオサンプルの前記第4のグループは、時間的に前記時間領域オーディオサンプルの前記第1のグループに先行し、前記時間領域オーディオサンプルの前記第1のグループは、時間的に前記時間領域オーディオサンプルの前記第2のグループに先行し、前記時間領域オーディオサンプルの前記第4のグループは、前記時間領域オーディオサンプルの前記第1のグループのオーディオサンプルを含む、請求項26に記載の符号化器。
  28. 前記時間領域オーディオサンプルの前記第1のグループは、前記時間領域オーディオサンプルの第2のグループの正確に50%の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの第2のグループは、前記時間領域オーディオサンプルの第1のグループの正確に50%の前記オーディオサンプルを含み、
    前記時間領域オーディオサンプルの前記第3のグループは、前記時間領域オーディオサンプルの前記第4のグループの少なくとも75%で100%未満の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの前記第4のグループは、前記時間領域オーディオサンプルの前記第3のグループの少なくとも75%で100%未満の前記オーディオサンプルを含む、請求項26または27に記載の符号化器。
  29. 前記第1の符号化モジュール(210)は、修正離散コサイン変換または修正離散サイン変換を実行するように構成されており、
    前記第2の符号化モジュール(220)は、拡張重複変換または修正拡張重複変換を実行するように構成されている、請求項28に記載の符号化器。
  30. 前記時間領域オーディオサンプルの前記第3のグループは、前記時間領域オーディオサンプルの前記第4のグループの正確に75%の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの前記第4のグループは、前記時間領域オーディオサンプルの前記第3のグループの正確に75%の前記オーディオサンプルを含む、請求項28または29に記載の符号化器。
  31. 前記時間領域オーディオサンプルの前記第1のグループの時間領域オーディオサンプルの第1の数が、前記時間領域オーディオサンプルの前記第2のグループの時間領域オーディオサンプルの第2の数と等しく、
    前記時間領域オーディオサンプルの前記第3のグループの時間領域オーディオサンプルの第3の数が、前記時間領域オーディオサンプルの前記第4のグループの時間領域オーディオサンプルの第4数と等しく、
    前記第2の数は、前記第3の数を2で除算した数に等しく、前記第1の数は、前記第4の数を2で除算した数に等しい、請求項26〜30のいずれか一項に記載の符号化器。
  32. 前記第2の符号化モジュール(220)は、前記時間領域オーディオサンプルの前記グループのうちの第5のグループから前記スペクトル領域オーディオサンプルのグループのうちの第5のグループを生成するように構成されており、前記第2の符号化モジュール(220)は、前記時間領域オーディオサンプルの前記グループのうちの第6のグループから前記スペクトル領域オーディオサンプルのグループのうちの第6のグループを生成するように構成されており、
    前記時間領域オーディオサンプルの前記第3のグループまたは前記第4のグループは、前記時間領域オーディオサンプルの前記第5のグループの少なくとも75%かつ100%未満の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの前記第5のグループは、前記時間領域オーディオサンプルの前記第3のグループまたは前記第4のグループの少なくとも75%かつ100%未満の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの前記第5のグループは、前記時間領域オーディオサンプルの前記第6のグループの少なくとも75%かつ100%未満の前記オーディオサンプルを含み、前記時間領域オーディオサンプルの前記第6のグループは、前記時間領域オーディオサンプルの前記第5のグループの少なくとも75%かつ100%未満の前記オーディオサンプルを含み、
    前記出力モジュール(230)は、前記スペクトル領域オーディオサンプルの第5のグループ、および、前記スペクトル領域オーディオサンプルの第6のグループをさらに出力するように構成されている、請求項26〜31のいずれか一項に記載の符号化器。
  33. 前記符号化器は、前記時間領域オーディオ信号の一部の信号特性に応じて、スペクトル領域オーディオサンプルの現在のグループを生成するために、前記第1の符号化モジュール(210)または前記第2の符号化モジュール(220)のいずれかを利用するように構成されている、請求項26〜32のいずれか一項に記載の符号化器。
  34. 前記符号化器は、前記複数の時間領域オーディオサンプルからなる現在のグループが非定常領域および非調性領域の少なくとも1つを含むか、または前記少なくとも1つを含まないかを信号特性として決定するように構成されており、前記符号化器は、前記複数の時間領域オーディオサンプルからなる前記現在のグループが前記非定常領域および前記非調性領域の前記少なくとも1つを含む場合、前記複数の時間領域オーディオサンプルからなる前記現在のグループに応じて、前記第1の符号化モジュール(210)を利用して、前記スペクトル領域オーディオサンプルの現在のグループを生成するように構成されており、
    前記符号化器は、前記複数の時間領域オーディオサンプルからなる前記現在のグループが前記非定常領域および前記非調性領域の前記少なくとも1つを含まない場合、前記複数の時間領域オーディオサンプルからなる前記現在のグループに応じて、前記第2の符号化モジュール(220)を利用して、前記スペクトル領域オーディオサンプルの現在のグループを生成するように構成されている、請求項33に記載の符号化器。
  35. 前記出力モジュール(230)は、前記信号特性に応じて第1のビット値または第2のビット値のいずれかを有するビットを出力するように構成されている、請求項33または34に記載の符号化器。
  36. 前記第2の符号化モジュール(220)は、以下に応じて前記スペクトル領域オーディオサンプルの前記第3のグループおよび前記第4のグループのうちの少なくとも1つを生成するように構成されており、
    cs(a(n+b)(k+c))
    ここで、cs()はcos()またはsin()であり、
    nは、前記時間領域オーディオサンプルの前記第3のグループまたは前記第4のグループに属する時間領域オーディオサンプルのうちの1つの時間インデックスを示し、
    kは、前記スペクトル領域オーディオサンプルの前記第1のグループ前記第2のグループ前記第3のグループまたは前記第4のグループに属するスペクトル領域オーディオサンプルのうちの1つのスペクトルインデックスを示し、
    −0.1≦c≦0.1または0.4≦c≦0.6または0.9≦c≦1.1であり、
    a=q/Mであり、
    0.9・π≦q≦1.1・πであり、
    Mは前記スペクトル領域オーディオサンプルの前記第1のグループもしくは前記第2のグループまたは前記第3のグループもしくは前記第4のグループのスペクトル領域オーディオサンプルの数を示し、
    b=(s・M+1)/2であり、
    1.5≦s≦4.5であcは第1のエイリアシング低減係数、qは第2のエイリアシング低減係数、sは第3のエイリアシング低減係数である、請求項26〜35のいずれか一項に記載の符号化器。
  37. 前記第1の符号化モジュール(210)は、以下に応じて、前記スペクトル領域オーディオサンプルの前記第1のグループおよび前記第2のグループのうちの少なくとも1つを生成するように構成されており、
    cs(a(n+b)(k+c))
    ここで、cs()はcos()またはsin()であり、
    は、前記時間領域オーディオサンプルの前記第1のグループまたは前記第2のグループの前記時間領域オーディオサンプルのうちの1つの時間インデックスを示し、−0.1≦c≦0.1または0.4≦c≦0.6または0.9≦c≦1.1であり、
    =(M+1)/2であり、
    kは、前記スペクトル領域オーディオサンプルの前記第1のグループまたは前記第2のグループに属するスペクトル領域オーディオサンプルのうちの1つのスペクトルインデックスを示し、
    Mは前記スペクトル領域オーディオサンプルの前記第1のグループまたは前記第2のグループに属するスペクトル領域オーディオサンプルの数を示し、
    a=q/Mであり、
    0.9・π≦q≦1.1・πであり、qは実数であり、
    aは第4のエイリアシング低減係数、n は第5のエイリアシング低減係数、b は第6のエイリアシング低減係数、c は第7のエイリアシング低減係数である、請求項36に記載の符号化器。
  38. c=0、またはc=0.5、またはc=1であり、
    q=πであり、
    s=3である、請求項36または37に記載の符号化器。
  39. q=πであり、s=3であり、cs()はcos()であり、cs()はcos()であり、c=0.5であり、c=0.5であり、または
    q=πであり、s=3であり、cs()はsin()であり、cs()はcos()であり、c=1であり、c=0であり、または
    q=πであり、s=3であり、cs()はsin()であり、cs()はsin()であり、c=0.5であり、c=1であり、または
    q=πであり、s=3であり、cs()はcos()であり、cs()はsin()であり、c=0であり、c=1であり、または
    q=πであり、s=3であり、cs()はsin()であり、cs()はsin()であり、c=0.5であり、c=0.5であり、または
    q=πであり、s=3であり、cs()はcos()であり、cs()はsin()であり、c=0であり、c=0.5であり、または
    q=πであり、s=3であり、cs()はcos()であり、cs()はcos()であり、c=0.5であり、c=0であり、または
    q=πであり、s=3であり、cs()はsin()であり、cs()はcos()であり、c=1であり、c=0である、請求項37に記載の符号化器。
  40. 前記第2の符号化モジュール(220)は、以下に応じて、前記スペクトル領域オーディオサンプルの前記第3のグループおよび前記第4のグループのうちの少なくとも1つを生成するように構成されており、
    Figure 0006654236

    、または
    Figure 0006654236

    、または
    Figure 0006654236

    、または
    Figure 0006654236

    ここで、
    Figure 0006654236

    は、前記スペクトル領域オーディオサンプルの前記第3のグループまたは前記第4のグループに属するスペクトル領域オーディオサンプルの1つを示し、
    Figure 0006654236

    は時間領域値を示す、請求項38に記載の符号化器。
  41. 前記第2の符号化モジュール(220)は、
    Figure 0006654236

    にしたがって、前記時間領域オーディオサンプルの前記第3のグループまたは前記第4のグループに属する時間領域オーディオサンプルs(n)に、重みw(n)を適用して、前記時間領域値
    Figure 0006654236

    を生成するように構成されている、請求項40に記載の符号化器。
  42. 前記時間領域オーディオサンプルの前記第2のグループのすべての時間領域オーディオサンプルが、前記時間領域オーディオサンプルの前記第3のグループの時間領域オーディオサンプルと重複するか、または
    前記時間領域オーディオサンプルの前記第1のグループのすべての時間領域オーディオサンプルが、前記時間領域オーディオサンプルの前記第4のグループと重複する、請求項26〜41のいずれか一項に記載の符号化器。
  43. eltは第1の窓関数であり、
    trは第2の窓関数であり、
    前記第2の窓関数の一部は以下に従って定義され、
    Figure 0006654236

    Mは、前記スペクトル領域オーディオサンプルの前記第1のグループもしくは前記第2のグループまたは前記第3のグループもしくは前記第4のグループのスペクトル領域オーディオサンプルの数を示し、
    kは0≦k<Mの数であり、
    dは実数であり、
    t=(L/2)+kまたはt=(L/2)−1−kであり、
    Lは、前記時間領域オーディオサンプルの前記第3のグループまたは前記第4のグループの時間領域オーディオサンプルの数を示し、
    前記時間領域オーディオサンプルの前記第3のグループは、前記前記時間領域オーディオサンプルの前記第2のグループのオーディオサンプルを含み、前記第2の符号化モジュール(220)は、前記時間領域オーディオサンプルの前記第4のグループに前記第1の窓関数weltを適用するように構成されており、前記第2の符号化モジュール(220)は、前記時間領域オーディオサンプルの前記第3のグループに前記第2の窓関数wtrを適用するように構成されており、または
    前記時間領域オーディオサンプルの前記第4のグループは、前記前記時間領域オーディオサンプルの前記第1のグループのオーディオサンプルを含み、前記第2の符号化モジュール(220)は、前記時間領域オーディオサンプルの第3のグループに前記第1の窓関数weltを適用するように構成されており、前記第2の符号化モジュール(220)は、前記時間領域オーディオサンプルの第4のグループに前記第2の窓関数wtrを適用するように構成されている、請求項26〜42のいずれか一項に記載の符号化器。
  44. tr1は第3の窓関数であり、
    前記第3の窓関数の一部は以下に従って定義され、
    Figure 0006654236

    ここで、t=(N/2)+kまたはt=(N/2)−1−kであり、
    Nは、前記時間領域オーディオサンプルの前記第1のグループまたは前記第2のグループの時間領域オーディオサンプルの数を示し、
    前記時間領域オーディオサンプルの前記第3のグループは、前記前記時間領域オーディオサンプルの前記第2のグループのオーディオサンプルを含み、前記第2の符号化モジュール(220)は、前記時間領域オーディオサンプルの第2のグループに前記第3の窓関数wtr1を適用するように構成されており、または
    前記時間領域オーディオサンプルの前記第4のグループは、前記前記時間領域オーディオサンプルの前記第1のグループのオーディオサンプルを含み、前記第2の符号化モジュール(220)は、前記時間領域オーディオサンプルの第1のグループに前記第3の窓関数wtr1を適用するように構成されている、請求項43に記載の符号化器。
  45. 前記第1の窓関数weltは以下に従って定義され、
    Figure 0006654236

    ここで、
    Figure 0006654236

    であり、
    、b、およびbは実数であり、
    0≦t<Lであり、
    Kは正の整数であり、
    ckは実数を示す、請求項43または44に記載の符号化器。
  46. K=3であり、
    0.3≦b0≦0.4であり、
    −0.6≦b1≦−0.4であり、
    0.01≦b2≦0.2であり、
    0.001≦c1≦0.03であり、
    0.000001≦c2≦0.0005であり、
    0.000001≦c3≦0.00002である、請求項45に記載の符号化器。
  47. eltは第1の窓関数であり、
    mltは第2の窓関数であり、
    w’mltは第3の窓関数であり、前記第3の窓関数は以下に従って定義され、
    Figure 0006654236

    ここで、Mは、前記スペクトル領域オーディオサンプルの前記第1のグループまたは前記第2のグループまたは前記第3のグループまたは前記第4のグループのスペクトル領域オーディオサンプルの数を示し、
    kは0≦k<Mである数であり、
    dは実数であり、
    nは整数であり、
    前記第1の符号化モジュール(210)および前記第2の符号化モジュール(220)のうちの少なくとも1つは、前記時間領域オーディオサンプルの前記第1のグループおよび前記第2のグループおよび前記第3のグループおよび前記第4のグループのうちの少なくとも1つに、前記第3の窓関数w’mltを適用するように構成されている、請求項26〜42のいずれか一項に記載の符号化器。
  48. eltは第1の窓関数であり、
    ssは第2の窓関数であり、
    前記第2の窓関数は以下に従って定義され、
    Figure 0006654236

    ここで、Mは、前記スペクトル領域オーディオサンプルの前記第1のグループまたは前記第2のグループまたは前記第3のグループまたは前記第4のグループのスペクトル領域オーディオサンプルの数を示し、
    kは0≦k<Mである数であり、
    dは実数であり、
    nは整数であり、
    前記第1の符号化モジュール(210)および前記第2の符号化モジュール(220)のうちの少なくとも1つは、前記時間領域オーディオサンプルの前記第1のグループおよび前記第2のグループおよび前記第3のグループおよび前記第4のグループのうちの少なくとも1つに、前記第2の窓関数wssを適用するように構成されている、請求項26〜42のいずれか一項に記載の符号化器。
  49. 0.8≦d≦1.25である、請求項43〜48のいずれか一項に記載の符号化器。
  50. d=4096/4061である、請求項49に記載の符号化器。
  51. d=1である、請求項43〜48のいずれか一項に記載の符号化器。
  52. システムであって、
    請求項26〜51のいずれか一項に記載の符号化器(310)と、
    請求項1〜25のいずれか一項に記載の復号器(320)と
    を備え、
    前記請求項26〜51のいずれか一項に記載の符号化器(310)は、複数のスペクトル領域オーディオサンプルを生成することによってオーディオ信号の複数の時間領域オーディオサンプルを符号化するように構成されており、
    前記請求項1〜25のいずれか一項に記載の復号器(320)は、前記符号化器から複数のスペクトル領域オーディオサンプルを受信するように構成されており、
    前記請求項1〜25のいずれか一項に記載の復号器(320)は、前記複数のスペクトル領域オーディオサンプルを復号するように構成されている、システム。
  53. 前記符号化器(310)が、請求項49に記載の符号化器であり、
    前記復号器(320)が、請求項21に記載の復号器である、請求項52に記載のシステム。
  54. 前記符号化器(310)が、請求項50に記載の符号化器であり、
    前記復号器(320)が、請求項22に記載の復号器である、請求項53に記載のシステム。
  55. 複数のスペクトル領域オーディオサンプルを復号するための方法であって、
    前記スペクトル領域オーディオサンプルの第1のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第1のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第1のグループを復号し、前記スペクトル領域オーディオサンプルの第2のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第2のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第2のグループを復号することと、
    時間領域中間オーディオサンプルの正確に2つのグループをオーバーラップ加算することであり、前記正確に2つのグループは、時間領域中間オーディオサンプルの前記第1のグループおよび前記第2のグループであり、前記正確に2つのグループは、5%を超え最大50%のオーバーラップを伴ってオーバーラップ加算され、前記正確に2つのグループの前記オーバーラップ加算の結果として、オーディオ信号の第1の複数の時間領域オーディオ出力サンプルがもたらされる、オーバーラップ加算することと、
    前記スペクトル領域オーディオサンプルの第3のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第3のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第3のグループを復号し、前記スペクトル領域オーディオサンプルの第4のグループの前記スペクトル領域オーディオサンプルから時間領域中間オーディオサンプルの第4のグループを生成することによって、前記スペクトル領域オーディオサンプルの前記第4のグループを復号することと、
    前記オーディオ信号の前記第1の複数の時間領域オーディオ出力サンプル、前記オーディオ信号の第2の複数の時間領域オーディオ出力サンプル、および、前記オーディオ信号の第3の複数の時間領域オーディオ出力サンプルを出力することと、
    少なくとも前記時間領域中間オーディオサンプルの第3のグループと、前記時間領域中間オーディオサンプルの第4のグループとの、60%を超え100%未満のオーバーラップを伴ったオーバーラップ加算を使用して、前記第2の複数の時間領域オーディオ出力サンプルを得ることと、
    少なくとも前記時間領域中間オーディオサンプルの第2のグループと、前記時間領域中間オーディオサンプルの第3のグループとのオーバーラップ加算を使用して前記第3の複数の時間領域オーディオ出力サンプルを得ること、または、少なくとも前記時間領域中間オーディオサンプルの第4のグループと、前記時間領域中間オーディオサンプルの第1のグループとのオーバーラップ加算を使用して前記第3の複数の時間領域オーディオ出力サンプルを得ること
    を含む、方法。
  56. 時間領域オーディオサンプルの複数のグループからスペクトル領域オーディオサンプルの複数のグループを生成することによって、オーディオ信号の複数の時間領域オーディオサンプルを符号化するための方法であって、前記方法は、
    前記時間領域オーディオサンプルのグループのうちの第1のグループから前記スペクトル領域オーディオサンプルのグループのうちの第1のグループを生成し、前記時間領域オーディオサンプルのグループのうちの第2のグループから前記スペクトル領域オーディオサンプルのグループのうちの第2のグループを生成することであり、前記時間領域オーディオサンプルの第1のグループおよび前記時間領域オーディオサンプルの第2のグループは、前記時間領域オーディオサンプルのグループ内で時間的に隣接しており、前記時間領域オーディオサンプルの前記第1のグループは、前記時間領域オーディオサンプルの前記第2のグループの前記オーディオサンプルの5%を超え50%以下を含み、前記時間領域オーディオサンプルの前記第2のグループは、前記時間領域オーディオサンプルの前記第1のグループのオーディオサンプルの5%を超え50%以下を含む、生成することと、
    前記時間領域オーディオサンプルの前記グループのうちの第3のグループから前記スペクトル領域オーディオサンプルの前記グループのうちの第3のグループを生成し、前記時間領域オーディオサンプルの前記グループのうちの第4のグループから前記スペクトル領域オーディオサンプルの前記グループのうちの第4のグループを生成することであり、前記時間領域オーディオサンプルの前記第3のグループは、前記時間領域オーディオサンプルの前記第4のグループの前記オーディオサンプルの60%を超え100%未満を含み、前記時間領域オーディオサンプルの前記第4のグループは、前記時間領域オーディオサンプルの前記第3のグループの前記オーディオサンプルの60%を超え100%未満を含む、生成することと、
    前記スペクトル領域オーディオサンプルの第1のグループ、前記スペクトル領域オーディオサンプルの第2のグループ、前記スペクトル領域オーディオサンプルの第3のグループおよび前記スペクトル領域オーディオサンプルの第4のグループを出力することと
    を含み、
    前記時間領域オーディオサンプルの前記第3のグループは、前記時間領域オーディオサンプルの前記第2のグループのオーディオサンプルを含み、または、前記時間領域オーディオサンプルの前記第4のグループは、前記時間領域オーディオサンプルの前記第1のグループのオーディオサンプルを含む、方法。
  57. コンピュータまたは信号プロセッサ上で実行されるとき、請求項55または56に記載の方法を実施するためのコンピュータプログラム。
JP2018515442A 2015-09-25 2016-09-23 オーディオ変換コーディングにおけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法 Active JP6654236B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EPPCT/EP2015/072186 2015-09-25
EPPCT/EP2015/072186 2015-09-25
PCT/EP2015/080334 WO2017050398A1 (en) 2015-09-25 2015-12-17 Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
EPPCT/EP2015/080334 2015-12-17
PCT/EP2016/072739 WO2017050993A1 (en) 2015-09-25 2016-09-23 Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding

Publications (2)

Publication Number Publication Date
JP2018532153A JP2018532153A (ja) 2018-11-01
JP6654236B2 true JP6654236B2 (ja) 2020-02-26

Family

ID=54850315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018515442A Active JP6654236B2 (ja) 2015-09-25 2016-09-23 オーディオ変換コーディングにおけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法

Country Status (10)

Country Link
US (1) US10770084B2 (ja)
EP (1) EP3353782B1 (ja)
JP (1) JP6654236B2 (ja)
KR (1) KR102205824B1 (ja)
CN (1) CN108463850B (ja)
BR (1) BR112018005901B1 (ja)
CA (1) CA2998776C (ja)
ES (1) ES2922975T3 (ja)
RU (1) RU2710929C2 (ja)
WO (2) WO2017050398A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
TWI718625B (zh) * 2019-08-16 2021-02-11 瑞昱半導體股份有限公司 應用於離散及逆離散正弦餘弦變換的運算電路

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
KR101366124B1 (ko) 2006-02-14 2014-02-21 오렌지 오디오 인코딩/디코딩에서의 인지 가중 장치
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
PT2109098T (pt) 2006-10-25 2020-12-18 Fraunhofer Ges Forschung Aparelho e método para gerar amostras de áudio de domínio de tempo
KR101016224B1 (ko) * 2006-12-12 2011-02-25 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법
FR2911228A1 (fr) 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
PL2311034T3 (pl) * 2008-07-11 2016-04-29 Fraunhofer Ges Forschung Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
WO2011034376A2 (en) * 2009-09-17 2011-03-24 Lg Electronics Inc. A method and an apparatus for processing an audio signal
AU2010305383B2 (en) * 2009-10-08 2013-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
US20110087494A1 (en) * 2009-10-09 2011-04-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
CN102667921B (zh) * 2009-10-20 2014-09-10 弗兰霍菲尔运输应用研究公司 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法
CN102884574B (zh) * 2009-10-20 2015-10-14 弗兰霍菲尔运输应用研究公司 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法
JP5882895B2 (ja) * 2010-06-14 2016-03-09 パナソニック株式会社 復号装置
CN103477388A (zh) * 2011-10-28 2013-12-25 松下电器产业株式会社 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法
CN103366751B (zh) * 2012-03-28 2015-10-14 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
US9305559B2 (en) * 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
KR101701081B1 (ko) * 2013-01-29 2017-01-31 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 제 1 오디오 인코딩 알고리즘 및 제 2 오디오 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법
EP2959481B1 (en) * 2013-02-20 2017-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded audio or image signal or for decoding an encoded audio or image signal in the presence of transients using a multi overlap portion
GB2515089A (en) * 2013-06-14 2014-12-17 Nokia Corp Audio Processing
WO2015122752A1 (ko) * 2014-02-17 2015-08-20 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
CA2985019C (en) * 2016-02-17 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing

Also Published As

Publication number Publication date
BR112018005901A2 (pt) 2018-10-16
RU2018115190A (ru) 2019-10-25
CN108463850B (zh) 2023-04-04
CN108463850A (zh) 2018-08-28
RU2710929C2 (ru) 2020-01-14
KR20180067552A (ko) 2018-06-20
BR112018005901B1 (pt) 2023-10-03
WO2017050398A1 (en) 2017-03-30
RU2018115190A3 (ja) 2019-10-25
US20190103120A1 (en) 2019-04-04
CA2998776C (en) 2021-07-20
EP3353782A1 (en) 2018-08-01
KR102205824B1 (ko) 2021-01-21
US10770084B2 (en) 2020-09-08
JP2018532153A (ja) 2018-11-01
WO2017050993A1 (en) 2017-03-30
EP3353782B1 (en) 2022-05-11
ES2922975T3 (es) 2022-09-22
CA2998776A1 (en) 2017-03-30

Similar Documents

Publication Publication Date Title
US11854559B2 (en) Decoder for decoding an encoded audio signal and encoder for encoding an audio signal
RU2693648C2 (ru) Устройство и способ для кодирования или декодирования многоканального сигнала с использованием повторной дискретизации спектральной области
TWI541797B (zh) 使用時間雜訊修補成形以編碼及解碼已被編碼音訊的裝置及方法
US7876966B2 (en) Switching between coding schemes
RU2625444C2 (ru) Система обработки аудио
JP6126006B2 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
US20110087494A1 (en) Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
JP6654236B2 (ja) オーディオ変換コーディングにおけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法
BR112021007516A2 (pt) codificador de áudio, processador de áudio e método para processar um sinal de áudio

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200129

R150 Certificate of patent or registration of utility model

Ref document number: 6654236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250