JP5559304B2 - フィルタバンクを実装する方法及びフィルタバンクデバイス - Google Patents

フィルタバンクを実装する方法及びフィルタバンクデバイス Download PDF

Info

Publication number
JP5559304B2
JP5559304B2 JP2012506178A JP2012506178A JP5559304B2 JP 5559304 B2 JP5559304 B2 JP 5559304B2 JP 2012506178 A JP2012506178 A JP 2012506178A JP 2012506178 A JP2012506178 A JP 2012506178A JP 5559304 B2 JP5559304 B2 JP 5559304B2
Authority
JP
Japan
Prior art keywords
group
filter bank
samples
coefficients
transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012506178A
Other languages
English (en)
Other versions
JP2012524301A (ja
Inventor
チブクラ、ラビ・キラン
レズニク、ユリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2012524301A publication Critical patent/JP2012524301A/ja
Application granted granted Critical
Publication of JP5559304B2 publication Critical patent/JP5559304B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0223Computation saving measures; Accelerating measures
    • H03H17/0227Measures concerning the coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0211Frequency selective networks using specific transformation algorithms, e.g. WALSH functions, Fermat transforms, Mersenne transforms, polynomial transforms, Hilbert transforms
    • H03H17/0213Frequency domain filters using Fourier transforms
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/0264Filter sets with mutual related characteristics
    • H03H17/0266Filter banks
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/0264Filter sets with mutual related characteristics
    • H03H17/0272Quadrature mirror filters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H2218/00Indexing scheme relating to details of digital filters
    • H03H2218/04In-phase and quadrature [I/Q] signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

下記の説明は、一般的にはエンコーダとデコーダに関し、具体的には、HE-AAC(High-Efficiency Advance Audio Coding)、ELD(Enhanced Low-Delay)、SAOC(Spatial Audio Codec)、およびUSAC(Unified Speech and Audio Codec)のような音声コーデックのMPEGファミリの計算的に効率の良いフィルタバンク構造に関する。
[米国特許法の下の優先権主張]
本願は、2009年4月17日に出願され、ここでの譲受人に譲渡され、ここにおける参照によりここで組み込まれる「Fast SBR filterbanks for AAC-ELD, HE-AAC, and USAC」と題された米国仮出願番号第61/169,132号の優先権を主張する。
音声コーディングの1つの目標は、可能な限り多くオリジナルサウンド品質を維持しながら、オーディオ信号を望ましい限定情報へと圧縮することである。エンコーディング処理過程では、時間領域における入力オーディオ信号は、周波数領域オーディオ信号へと変換され、対応するデコーディング処理過程は、その周波数領域オーディオ信号を時間領域における出力オーディオ信号へと変換することによってこのような動作を逆にする。
音声コーデックは、人間の聴覚系の心理音響的特徴(psychoacoustic characteristics of the human auditory system)をモデル化することに基づくことができる。例えば、オーディオ信号は、いくつかの周波数帯域へと分割されることができ、人間の耳のマスキング性質は、心理音響的冗長度を取り除くために使用されることができる。したがって、音声コーデックは、一般的に、圧縮用の変換コーディング技術に依存する。音声コーデックは、一般的に低ビットレートでいずれの一般的なオーディオ材料(audio material)をコード化するのに適切である。複数の音声コーデックは良好な周波数選択性に関してより長いフレーム長さで動作するので、また、それらは直交フィルタバンクを一般的に使用するので、それらの往復のアルゴリズム的な遅延は大きい、そしてそのことは、それらを全2重通信に関して不適切にする。しかしながら、高品質で、低ビットレートの、全2重オーディオ通信アプリケーション(例えば、電話会議とテレビ会議)の必要性が増大している。
MPEGは、全2重通信にとって十分に低いコーデック遅延を維持しながらコーディング効率を改善することを試みるMPEG-4 AAC(Advance Audio Coding)-ELD(Enhanced Low Delay)と呼ばれる低遅延音声コーデックを規格化した。AACは、2つのプライマリコーディング戦術を活用して、高品質デジタルオーディオを表すのに必要なデータの量を劇的に減らす、広帯域音声コーディング・アルゴリズムである。第1に、知覚的に無関係である信号成分が廃棄され、第2に、コード化されたオーディオ信号において冗長度が削除される。
コーディング効率は、スペクトル帯域複製(Spectral Band Replication)(SBR)を使用することによって増大される。導入された遅延を最小化するために、解析および合成SBRフィルタバンクの低遅延バージョンが使用される。しばしば、これらの音声コーデックは、処理電力およびバッテリー寿命が制限されるモバイルプラットフォーム上で、動作することができる。したがって、音声コーデックの計算的に負荷の高い演算(computationally intensive operations)のための高速アルゴリズムの必要性がある。一般的に、フィルタバンクおよび変換は、計算の複雑さのかなりの部分(significant part)に寄与している。AAC−ELDで使用される低遅延SBR(LD−SBR)の場合、対応する行列乗算の演算は、最も計算的に大きいインテンシブ部分のうちの1つであることができる。
したがって、計算効率の良いフィルタバンクは、音声コーデックにおける遅延および/または計算の複雑さを減らすために必要とされる。
以下は、いくつかの実施形態の基本的な理解を提供するために、1つまたは複数の実施形態の簡略な概要(summary)を示す。この概要は、すべての熟考された実施形態の広範囲な全体像ではなく、すべての実施形態の重要なあるいは決定的なエレメントを識別することも、あるいは、いずれあるいはすべての実施形態の範囲を詳細に描写することも、意図されていない。その唯一の目的は、後で示される、より詳細な説明の前置きとして、簡略化された形で1つまたは複数の実施形態のいくつかの概念を示すことである。
変換値を計算するためのエンコーディング方法および/またはデバイスが提供される。オーディオ信号を表している時間領域入力値が受信される。時間領域入力値は、例えば離散コサイン変換(DCT)を使用して、周波数領域(例えば、実数成分と虚数成分)出力値へと変換されることができる。
変換値を計算するためのデコーディング方法および/またはデバイスが提供される。オーディオ信号を表しているスペクトル係数(Spectral coefficient)が受信される。スペクトル係数は、例えば逆離散コサイン変換(IDCT)を使用して、時間領域出力値へと変換されることができる。
離散コサイン変換は、部分的に、実用的に重要である、なぜならば、離散コサイン変換は、それらの変換行列の因子分解の手段によって非常に効率の良い計算を可能にするからである。したがって、一般的なN×N行列によるN点ベクトルの乗算がO(N)乗算および加算を要する場合には、適切に因子分解されたDCT行列によるベクトルの積の計算は、通常、O(NlogN)乗算および/または加算のみを要する。
実際、タイプIIの離散コサイン変換とタイプIVのDCTが最も一般的に使用されるまたはインプリメントされる。タイプIVのDCTは、強制(involuntary)であるというさらなる利点を有する、すなわち、順方向変換と逆変換の双方に対して同じ変換行列を有す。DCT−IIおよび/またはDCT−IVは便利であるが、実際には、基底関数(basis functions)がDCT−IIまたはDCT−IVのものと厳密に整合しないフィルタバンクを実装する必要性がしばしば生じる。このことは、例えばAAC−ELDコーデック、または、HE−AACコーデック、またはSAOCコーデックのSBRフィルタバンクにおけるもの、のような低遅延フィルタバンクの設計において生じる。結果、DCT−IIまたはDCT−IV変換を使用することにより、さまざまなコーデックについてのSBRフィルタバンクのクラスを計算することを可能にする技術がここにおいて開示されている。このような計算は、SBRフィルタバンクの複雑さの大幅縮小をもたらす。
複素解析フィルタバンク(complex analysis filterbank)のようなフィルタバンクを実装するための方法および/装置が提供される。入力オーディオ信号は、複数のN個の時間領域入力サンプルとして得られる。時間領域入力サンプルのペア毎の加算および減算は、第1グループおよび第2グループの中間サンプルを得るために実行される、なお、各グループは、N/2個の中間サンプルを有する。第1グループの出力係数は、実数の係数から成ることができ、第2グループの出力係数は、虚数の係数から成ることができる。第2グループにおける奇数インデクス付けされた中間サンプルの符号は、反転される。第1の変換は、周波数領域において第1グループの出力係数を得るために、第1グループの中間サンプルに対して適用される。第2の変換は、周波数領域において中間第2グループの出力係数を得るために、第2グループの中間サンプルに対して適用される。第1の変換および第2の変換は、第1グループおよび第2グループの中間サンプルを変換するために同時に動作しうる。第1の変換と第2の変換は、双方とも、離散コサイン変換(DCT)タイプIV変換でありうる。解析フィルタバンクは、分子に(2n±x)の因数を有する式で表されることができる、ここにおいて、xは奇数である。中間第2グループの出力係数における係数の順序(order of coefficients in the intermediate second group of output coefficients)は、第2グループの出力係数を得るために、逆にされる。使用される時間領域入力サンプルは実数領域内のサンプルであってもよく、周波数領域は複素領域であってもよい。様々な実装では、フィルタバンクは、例えば解析直交ミラーフィルタバンク、音声エンコーダーおよび/またはデコーダの一部分、および/または、スペクトル帯域複製(SBR)エンコーダおよび/またはデコーダの一部分、であってもよい。音声エンコーダーおよび/またはデコーダは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびM
PEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する。
複素合成フィルタバンク(complex synthesis filterbank)のようなフィルタバンクを実装するための方法および/または装置が提供される。複数のN個の入力係数は、周波数領域においてオーディオ信号について得られることができる、なお、第1グループのN/2個の入力係数は実数成分であり、第2グループのN/2個の入力係数は虚数成分であり、第2グループにおける奇数インデクス付けされたサンプルの符号は、第2グループにおいて偶数インデクス付けされた係数に関連して反転される。第1グループの入力係数は、実数の係数から成ることができ、第2グループの入力係数は、虚数の係数から成ることができる。第1の逆変換は、時間領域において中間第1グループの出力サンプルを得るために、第1グループの入力係数に対して適用されることができる。第2の逆変換は、時間領域において中間第2グループの出力サンプルを得るために、第2グループの入力係数に対して適用されることができる。第1の逆変換と第2の逆変換は、第1グループおよび第2グループの入力係数を変換するために同時に動作しうる。第1の逆変換と第2の逆変換は、双方とも、逆離散コサイン変換(IDCT)タイプIV変換であってもよい。フィルタバンクは、分子に(2n±x)の因数を有する式で表されることができる、ここにおいて、xは奇数である。中間第1グループの入力係数からの中間第2グループの入力係数のペア毎の減算は、複数のN個の時間領域出力サンプルを得るために、実行されることができる。周波数領域は複素領域であってもよく、時間領域サンプルは実数領域内のサンプルである。様々な実装では、フィルタバンクは、例えば、合成直交ミラーフィルタバンク、音声デコーダーの一部分、および/または、スペクトル帯域複製(SBR)デコーダの一部分、であってもよい。音声デコーダーは、MPEG-4 AAC(Advance Audio Coding)-ELD(Low Delay)標準規格、MPEG-4 AAC−ELD(Enhanced Low Delay)標準規格、およびMPEG-4 MPEG-4 HE(High Efficiency)-AAC標準規格、のうちの少なくとも1つを実装することができる。
実解析フィルタバンク(real analysis filterbank)のようなフィルタバンクを実装するための方法および/装置が提供される。入力オーディオ信号は、複数のN個の時間領域入力サンプルとして得られる。時間領域入力サンプルのペア毎の加算および減算は、1グループのN/2個の中間サンプルを得るために実行されることができる。変換は、周波数領域においてN/2個の出力係数を得るために、1グループのN/2個の中間サンプルに対して適用されることができる。時間領域入力サンプルと周波数領域係数の双方は、実数であってもよい。変換は、離散コサイン変換(DCT)タイプIV変換であってもよい。フィルタバンクは、分子に(2n±x)の因数を有する式で表されることができる、ここにおいて、xは奇数である。フィルタバンクは、例えば、解析直交ミラーフィルタバンク、音声エンコーダーおよび/またはデコーダの一部分、および/または、スペクトル帯域複製(SBR)エンコーダおよび/またはデコーダでの一部分であってもよい。音声エンコーダーおよび/またはデコーダは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装することができる。
実合成フィルタバンク(real synthesis filterbank)のようなフィルタバンクを実装するための方法および/装置が提供される。複数のN/2個の入力係数は、周波数領域においてオーディオ信号について得られる。逆変換は、時間領域において中間グループのN出力サンプルを得るために、1グループのN/2個の入力係数に対して適用される。係数の複製操作(replication)、符号反転(sign inversion)、および並び替え(reordering)は、複数のN個の時間領域出力サンプルを得るために、中間グループのN個の入力係数に関して実行されることができる。入力係数および時間領域出力サンプルの双方は、実数(すなわち実数領域)であることができる。逆変換は、離散コサイン変換(DCT)タイプIV変換である。フィルタバンクは、分子に(2n±x)の因子を有する式で表される、ここにおいて、xは奇数である。様々な実装では、フィルタバンクは、例えば、合成直交ミラーフィルタバンク、音声デコーダーの一部分、および/または、スペクトル帯域複製(SBR)デコーダの一部分、であってもよい。音声デコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する。
様々な特徴、性質、及び利益は、同様な参照数字が全体にわたって対応して識別する図面と併せるとき、下記に記載される詳細な説明からより明らかとなるであろう。
図1は無線ネットワーク上の通信に適合されたモバイルデバイスの例を図示するブロック図である。 図2は、効率的な解析フィルタバンクを含むことができるAAC−ELDエンコーダの例を図示するブロック図である。 図3は、効率的な解析フィルタバンクおよび/または効率的な合成フィルタバンクを含むことができるAAC−ELDデコーダの例を図示するブロック図である。 図4は、効率的な複素解析フィルタバンクの例を図示する。 図5は、一例による解析フィルタバンクを実装するための方法を図示する。 図6は、一例による解析フィルタバンクを実装するための関数コンポーネントを図示するブロック図である。 図7は、効率的な複素合成フィルタバンクの例を図示する。 図8は、一例による合成フィルタバンクを実装する方法を図示する。 図9は、一例による合成フィルタバンクを実装するための関数コンポーネントを図示するブロック図である。 図10は、効率的な実領域解析フィルタバンクの例を図示する。 図11は、一例による解析フィルタバンクを実装するための方法を図示する。 図12は、一例による解析フィルタバンクを実装するための関数コンポーネントを図示するブロック図である。 図13は、効率的な実領域合成フィルタバンクの例を図示する。 図14は、一例による合成フィルタバンクを実装するための方法を図示する。 図15は、一例による合成フィルタバンクを実装するための関数コンポーネントを図示するブロック図である。
様々な実施形態は、図面を参照して説明され、同様な参照数字は、全体の同様な構成要素を参照するために使用される。下記の説明では、説明するために、多くの具体的な詳細が、1つまたは複数の実施形態の完全な理解を提供するために記載されている。しかしながら、そのような実施形態(単数または複数)がこれらの具体的な詳細なしで実行されるということは明らかでありうる。他の例では、よく知られた構造及びデバイスは、1つまたは複数の実施形態を説明することを容易にするためにブロック図で示されている。
音声コーデックを備えた例示的なモバイルデバイス(Exemplary Mobile Device with Audio Codec)
図1は、無線ネットワーク上の通信に適合されたモバイルデバイスの例を図示するブロック図である。モバイルデバイス102は、音声コーデック106と無線通信トランシーバ108に結合された処理回路104を含むことができる。無線通信トランシーバ108は、モバイルデバイスがアンテナ110を通じて無線で通信を送信および/または受信することを可能にする。音声コーデック106は、入力オーディオ信号114を受信するオーディオ入力デバイス112(例、マイクロフォン)と、オーディオ信号118を出力するオーディオ出力デバイス116(例、1つまたは複数のスピーカー)、に結合されることができる。
様々な例では、音声コーデック106は、時間領域入力オーディオ信号を受信し、そして、時間領域入力オーディオ信号を周波数領域出力信号へと変換することにより、それを効率的にエンコードするように適合されたエンコーダ120を含むことができる。周波数領域出力信号は、モバイルデバイスによって保存され、オーディオ出力デバイスを介してモバイルデバイスによってプレイバックされ、および/または、無線通信トランシーバ108上で送信されることができる。さらに、音声コーデック106はまた、それを再構築された時間領域オーディオ信号へと変換することによって周波数領域オーディオ信号をデコードするように適合されたデコーダ122を含むことができる。そのあとで、再構築された時間領域オーディオ信号は、オーディオ出力デバイス116を介してモバイルデバイスによってプレイバックされることができる。様々な例では、音声コーデック106は、特にMPEG AAC-ELD(Enhanced Low Delay)標準規格および/またはMPEG HE(High Efficiency)-AAC標準規格にしたがって動作するように構成されることができる。
1つの特徴によれば、音声コーデック106は、エンコーダおよび/またはデコーダの効率的な実装を含むことができる。
例示的なエンコーダ構造(Exemplary Encoder Structure)
図2は、効率的な解析フィルタバンクを含むことができるAAC−ELDエンコーダの例を図示するブロック図である。AAC−ELDエンコーダ202は、入力オーディオ信号204を受信することができる。ダウンサンプラ206は、その入力オーディオ信号204をダウンサンプリングして、そのサンプリングレートを減らすことができる。ダウンサンプリングされた入力オーディオ信号204は、AAC−ELDコアエンコーダ208へと受け渡し、AAC−ELDコアエンコーダ208は、オーディオ信号を圧縮し、オーディオ信号はそのあとで、ビットストリームフォーマッタ210によってビットストリームへとフォーマット化されて、エンコードされたオーディオビットストリーム212を生成する。
AACエンコーダ208に加え、エンコーダ202はまた、低遅延(LD)スペクトル帯域複製(SBR)エンコーダ214を含むことができる。スペクトル帯域複製は、特に低ビットレートで、音声コーデックまたはスピーチコーデックを強化するために使用されることができ、周波数領域内のハーモニック冗長度(harmonic redundancy)に基づいている。SBRは、いずれの音声圧縮コーデックとも組み合わせられることができる:コーデック自体は、スペクトラムのより低いまたは中間の周波数を送信し、SBRは、デコーダにおいてより低いまたは中間の周波数から高調波(up harmonics)を転置することによってより高い周波数のコンテンツを複製する。高周波数スペクトルエンベロープの再構造のためのいくつかのガイダンス情報がエンコーダ202によってサイド情報として送信される。SBRはエイリアシング・エフェクトを回避するために複素数値領域で動作する、したがって、かなりの時間遅延を結果としてもたらす場合がある。
SBRエンコーダ214は、解析直交ミラーフィルタバンク(QMF)216とエンベロープ計算機218を含むことができる。代わりに、解析QMFバンク216は、ウィンドウィング関数220と解析QMF(AQMF)関数222を実装することができる。アプリケーションと、その許容された電力使用量に依存して、AAC−ELDエンコーダは、複素領域または実数領域で動作するように、SBRエンコーダ214に命令することができる。双方のケースにおいて、対応する実数領域または複素領域解析フィルタバンクは、AQMF関数222によってインプリメントされることができる。
例示的なデコーダ構造(Exemplary Decoder Structure)
図3は、効率的な解析フィルタバンクおよび/または効率的な合成フィルタバンクを含むことができるAAC−ELDデコーダの例を図示するブロック図である。AAC−ELDデコーダ302は、エンコードされたオーディオビットストリーム304を受信することができる。エントロピーデコーダ306、逆量子化器308、エンハンスド低遅延コアデコーダ(enhanced low delay core decoder)310は、そのあとで、エンコードされたオーディオビットストリーム304を処理して、出力オーディオ信号314を再構築することができる。出力オーディオ信号314を再構築する部分として、低遅延SBRデコーダ312は、エンハンスド低遅延コアデコーダ(enhanced low delay core decoder)310から結果として生じる信号を処理することができる。
SBRデコーダ312は、解析直交ミラーフィルタバンク(QMF)316、高周波数生成器318、高周波数調整器320、および合成QMFバンク322を含むことができる。代わりに、解析QMFバンク316は、ウィンドウィング関数324と解析QMF(AQMF)関数326を実装することができる。複素数値領域または実数値領域で動作するSBRデコーダ312と関連づけられた時間遅延に取り組むために、効率的な解析フィルタバンクは、AQMF関数326によってインプリメントされることができる。代わりに、合成QMFバンク322は、合成QMF(SQMF)関数328とウィンドウィング関数330を実装することができる。デコーダの複雑さに依存して、SBRデコーダ312は、複素数値領域または実数値領域で動作することができる。対応する実数領域または複素領域の合成フィルタバンクは、SQMF関数328によってインプリメントされることができる。さらに、複雑度またはアプリケーション要件に起因して、名目周波数帯域の半分のみを合成することが合理的である場合には、デコーダは、SQMF関数328によって、ダウンサンプリングされた合成フィルタバンクを実装することができる。
低遅延SBRフィルタバンク
AAC−ELDで定義される、2つのタイプの低遅延のSBRフィルタバンクがある。
・複素低遅延フィルタバンク(complex low-delay filterbank)(CLDFB)
・実(または低複雑)低遅延フィルタバンク
なお、複素低遅延フィルタバンクは、任意の所与ビットレートにおいて最良に可能なオーディオ品質を要するアプリケーションにおいて使用することが意図されており、低複雑低遅延フィルタバンクは、より低い複雑のバージョンであるように意図され、そしてそれは、それでも受諾可能な結果を生成する(すなわち、品質/レートの点から)。
SBR複素低遅延フィルタバンク(CLDFB)の演算は、下記のように定義される(正規化係数(normalization factor)は無視する)。
複素解析QMF:
複素合成QMF:
複素ダウンサンプリングされた合成QMF:
なお、
AAC−ELDにおける実解析フィルタバンクおよび実合成フィルタバンクはまた、下記のように定義される。
実解析QMF:
実合成QMF:
実ダウンサンプリングされた合成QMF:
サイズNのDCT−IV変換は、下記のように定義される。
一態様によれば、式1-6のフィルタバンクは因子分解されるので、それらの本質的な行列ベクトル積の演算は式7に変わる。
複素解析QMFのためのマッピング(Mapping for Complex Analysis QMF)
式1の複素解析QMFを式7のDCT−IV変換にマッピングすることにおいて、式1は下記のように表されることができる。
p=n−48とする。X(k)は、下記のように分けられることができる。
加算においてn=p+64とする。その場合には、
となる。なお、x’(n)は、2つの成分として定義されることができる。
X(k)は、下記のように表されることができる。
次に、X(k)は、さらに下記のように分けられることができる。
次にnは、第2の加算で、63−nで置き換えられることができ、下記を生成する。
さらに、x(n)とx(n)は、下記のように定義されることができる。
式11によれば、下記のことを意味する:
結果として生じる式14に、x(n)とx(n)を挿入することによって、X(k)は下記のように定義されることができる。
式17の第1の加算は、32点離散コサイン変換タイプIV(DCT−IV)であり、式17の第2の加算は、32点離散サイン変換タイプIV(DST IV)である、ということに留意されたい。
さらに、DST−IVは、入力符号変更(input sign changes)と出力の並べ替え (output permutation)によって、DCT−IVにマッピングされることができる。言い換えれば、式17の2つの成分は、下記のようにX(k)とX(k)と表されることができる。
なお、X(k)は、変換されたDST−IV成分である。
X(k)は、下記のように表されることができる。
双方の部分の計算は、式7の形におけるただのDCT−IV変換である。
複素合成QMFのためのマッピング(Mapping for Complex Synthesis QMF)
式2の複素合成QMFを式7のDCT−IV変換へとマッピングすることにおいて、式2は、下記のように表されることができる。

を下記のように表すとする。
そうすると、下記のようになる。

の実数成分と虚数成分は、

と表されることができる:
すなわち、
は、下記のように表されることができる。
次に、
は分けられ、下記のように表されることができる。
n=0,・・・,95の場合:
n=96,・・,127の場合:
n=0,・・・,31の場合、

を考える。
および
式28および29の上記の2つの結果より、
であることに留意されたい。またn=32,…63,の場合には、下記を有する:
式30と式31の2つの結果より、
は計算されることができるということが明瞭である。残りの値は、関係から得られることができる。
および
また、
は、64点DCT−IV変換であるということに留意されたい。
これらの観察(observations)をすべて組み合わせることにより、
を計算するための下記のアルゴリズムが得られる。
同様な因子分解が
に対して実行されることができる。このことは、前回に行われたように、式7のDCT−IV変換へとマッピングされることができる64点DST−IV変換を結果としてもたらすであろう。結果として生じるアルゴリズムは下記の通りである。
式24(
)を呼び起こし、上記の式を使用して、
は、複素合成QMFについて計算されることができる。
複素ダウンサンプリングされた合成QMFのためのマッピング(Mapping for Complex Downsampled Synthesis QMF)
式3から式7の形までの複素ダウンサンプリングされた合成QMFについての導出は、解析QMFおよび合成QMFについて示された導出と類似する。
とする。また、
とする。そのときには、
および
である。
実解析QMFのためのマッピング(Mapping for Real Analysis QMF)
式4から式7の形までの実解析QMFについての導出は、上述された複素解析QMFについて示された導出と類似している。実解析QMFについての結果として生じるフィルタバンク式は、下記のように与えられる:
なお、
である。
実合成QMFのためのマッピング(Mapping for Real Synthesis QMF)
式5から式7の形までの実合成QMFについての導出は、上述された複素合成QMFについて示された導出と類似する。実合成QMFについての結果として生じるフィルタバンク式は、下記のように与えられる。
実ダウンサンプリングされた合成QMFのためのマッピング(Mapping for Real Downsampled Synthesis QMF)
式6から式7の形までの実ダウンサンプリングされた合成QMFの導出は、上記で説明された複素ダウンサンプリングされた合成QMFについて示された導出と類似している。実ダウンサンプリングされた合成QMFについての結果として生じるフィルタバンクの式は下記のように与えられる。
上述されるすべての例では、フィルタバンク計算は、サイズN=32、またはN=64のDCT−IV変換の計算に効率的に減らされる。
複素解析フィルタバンクの例示的な因子分解(Exemplary Factorization of Complex Analysis Filterbank)
式1、2、3、4、5、および6のフィルタバンクは、奇数相またはインデクス付けされている(odd phased or indexed)ということに留意されたい、そしてそれは、SBR式の分子は、因子(2n±x)を含むということを意味する、ここにおいて、xは奇数である。上記の例では、式1と式4は、(2n−95)を含み、式2と式5は、(2n−63)を含み、式3と式6は、(2n−31)を含む。実際、エンコーダ/デコーダにおいてこれらのフィルタバンクを実装することは、より多くの遅延を引き起こし、より多くの処理リソースを要求するようなそれらの複雑さのために、困難である。
したがって、ある特徴は、これらのSBRアルゴリズム(例えば、式1、2、3、4、5、および/または6)を変換するので、それらは、コアDCT−IV変換(例、式7)に基づいて表されることができる。すなわち、効率的なDCT−IV変換に基づいてSBRアルゴリズムを実装することによって、SBRアルゴリズムは、より効率的に実行されることができる(例えば、より少ない処理リソースを要する、または、より迅速に実行されることができる)。
図4は、効率的な複素解析フィルタバンクの例を図示する。入力オーディオ信号は、複数の時間領域入力サンプル(すなわち、N点サンプル)へとサンプリングされる406。時間領域入力サンプル(例えば値)のペア毎の加算および減算407は、第1グループ409および第2グループ411の中間サンプルを生成するために選ばれる、なお、各グループは、N/2中間サンプルを有する。第2グループにおける中間サンプル411の場合、奇数インデクス付けされたサンプルの符号は反転される(例えば、(−1)で乗じられる、ここでは、nは、例えば0と
の間であってもよい)。第1のDCT−IV変換402は、周波数領域において第1グループの出力係数を得るために、第1グループ409の中間サンプルに対して適用される。第2のDCT−IV変換404は、周波数領域において中間第2グループ415の出力係数を得るために、第2グループ411の中間値に対して適用される。中間第2グループ415の出力係数における係数の順序は、第2グループ410の出力係数を得るために、逆にされる。したがって、時間領域信号入力サンプル406は、周波数領域(すなわち、複素領域スペクトラム)へと変換される。ここでは、結果として生じる第1グループ408の出力係数は実数部分を表し、第2グループ410の出力係数は虚数部分を表す。
図5は、一例による、解析フィルタバンクを実装するための方法を図示する。入力オーディオ信号は、複数のN個の時間領域入力サンプルとして得られることができる502。時間領域入力サンプルのペア毎の加算および減算は、第1グループおよび第2グループの中間サンプルを得るために実行されることができる、なお、各グループは、N/2個の中間サンプルを有する504。第1グループの出力係数は、実数の係数から成ることができ、第2グループの出力係数は、虚数の係数から成る。第2グループにおける奇数インデクス付けされた中間サンプルの符号は、反転されうる506。第1の変換は、周波数領域において第1グループの出力係数を得るために、第1グループの中間サンプルに対して適用されることができる508。第2の変換は、周波数領域において中間第2グループの出力係数を得るために、第2グループの中間サンプルに対して適用されることができる510。第1の変換と第2の変換は、離散コサイン変換(DCT)タイプIV変換であってもよい。第1の変換および第2の変換は、第1グループおよび第2グループの中間サンプルを変換するために同時に動作しうる。中間第2グループの出力係数における係数の順序は、第2グループの出力係数を得るために、逆にされうる512。使用される時間領域入力サンプルは、実数領域内のサンプルであってもよく、周波数領域は複素領域である。
様々な実装では、フィルタバンクは、解析直交フィルタバンク、音声エンコーダーの一部分、スペクトル帯域複製(SBR)エンコーダ/デコーダ、および/または、音声デコーダーの一部分、であってもよい。音声エンコーダー/デコーダは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格のうちの少なくとも1つを実装することができる。
図6は、一例による解析フィルタバンクを実装するための関数コンポーネントを図示するブロック図である。フィルタバンクデバイスは、複数のN個の時間領域入力サンプルとして入力オーディオ信号601を得るように適合されたインタフェース604を含むことができる。そのときには、プレ変換回路606は、下記のことを行うことができる。(a)第1グループおよび第2グループの中間サンプルを得るために、時間領域入力サンプルのペア毎の加算および減算を実行すること、なお、各グループは、N/2個の中間サンプルを有する。(b)第2グループにおける奇数インデクス付けされた中間サンプルの符号を反転すること。第1の変換回路608は、周波数領域において第1グループ614の出力係数を得るために、第1グループの中間サンプルに対して第1の変換を適用するように適合される。第2の変換回路610は、周波数領域において中間第2グループの出力係数を得るために、第2グループの中間サンプルに対して第2の変換を適用することができる。ポスト変換回路612は、第2グループ616の出力係数を得るために、中間第2グループの出力係数における係数の順序を逆にすることができる。
複素合成フィルタバンクの例示的な因子分解(Exemplary Factorization of Complex Synthesis Filterbank)
図7は、効率的な複素合成フィルタバンクの例を図示する。周波数領域(例えば、複素領域)において入力係数が得られる、なお、第1グループ706のN/2個の入力係数は実数成分であり、第2グループ708のN/2個の入力係数は虚数成分である。第2グループ708の入力係数の場合、奇数インデクス付けされたサンプルの符号は、偶数インデクス付けされた係数に関連して反転される(例えば、(−1)nで乗じられる、なお、nは、例えば0と
との間であってもよい)。第1の逆変換DCT−IV変換702は、時間領域において出力サンプルの中間第1グループ707を得るために、第1グループ706の入力係数に対して適用される。第2の逆DCT−IV変換704は、時間領域において中間第2グループ709の出力サンプルを得るために、第2グループ708の入力係数に対して適用されることができる。中間第1グループ707からの中間第2グループ709のペア毎の減算は、時間領域出力サンプル(例えば、値)を得るために、実行される。
図8は、一例による合成フィルタバンクを実装する方法を図示する。複数のN個の入力係数は、周波数領域においてオーディオ信号について得られることができる、なお、第1グループのN/2個の入力係数は実数成分であり、第2グループのN/2個の入力係数は虚数成分であり、第2グループにおける奇数インデクス付けされたサンプルの符号は、第2グループにおいて偶数インデクス付けされた係数に関連して反転される802。第1グループの入力係数は、実数の係数から成ることができ、第2グループの入力係数は、虚数の係数から成ることができる。周波数領域は複素領域であってもよく、時間領域サンプルは実数領域内のサンプルである。第1の逆変換は、時間領域において中間第1グループの出力サンプルを得るために、第1グループの入力係数に対して適用されることができる804。第2の逆変換はまた、時間領域において中間第2グループの出力サンプルを得るために、第2グループの入力係数に対して適用されることができる806。第1の逆変換と第2の逆変換は、第1グループおよび第2グループの入力係数を変換するために同時に動作しうる。第1の逆変換と第2の逆変換は、逆離散コサイン変換(IDCT)タイプIV変換であってもよい。中間第1グループの入力係数からの中間第2グループの入力係数のペア毎の減算は、複数のN個の時間領域出力サンプルを得るために、実行されることができる808。
様々な実装では、フィルタバンクは、合成直交ミラーフィルタバンク、音声デコーダーの一部分、および/または、スペクトル帯域複製(SBR)デコーダの一部分、であってもよい。音声デコーダーは、MPEG-4 AAC(Advance Audio Coding)-ELD(Enhanced Low Delay)標準規格、MPEG-4 AAC−ELD(Enhanced Low Delay)標準規格、およびMPEG-4 MPEG-4 HE(High Efficiency)-AAC標準規格のうちの少なくとも1つを実装することができる。
図9は、一例による合成フィルタバンクを実装するための関数コンポーネントを図示するブロック図である。合成フィルタバンク902は、周波数領域においてオーディオ信号について複数のN個の入力係数を得るように適合されたインタフェースを含むことができ、なお、第1グループ914のN/2個の入力係数は実数成分であり、第2グループ916のN/2個の入力係数は虚数成分である。プレ処理回路912は、第2グループ内の偶数インデクス付けされた係数に関連して、第2グループにおける奇数インデクス付けされたサンプルの符号を反転するように適合される。第1の変換回路908は、時間領域において中間第1グループのN出力サンプルを得るために、第1グループの入力係数に対して第1の逆変換を適用するように適合されることができる。第2の変換回路910は、時間領域において中間第2グループの出力サンプルを得るために、第2グループの入力係数の第2の逆変換を適用するように適合されることができる。ポスト変換回路906は、複数のN個の時間領域出力サンプルを得るために、中間第1グループの入力係数からの中間第2グループの入力係数のペア毎の減算を実行するように適合されることができる。
実解析フィルタバンクの例示的な因子分解(Exemplary Factorization of Real Analysis Filterbank)
式48の実解析フィルタバンクは、奇数相またはインデクス付けされるということに留意されたい、そしれそれは、SBR式の分子は因数(2n±x)を含むということを意味しており、ここでは、xは奇数である。上記の例では、式48は、(2n+1)を含む。実際、エンコーダ/デコーダにおいてこれらのフィルタバンクを実装することは、より多くの遅延を引き起こし、より多くの処理リソースを要求するような、それらの複雑さのために困難である。
したがって、ある特性は、これらのSBRアルゴリズム(例えば、式48)を変換するので、それらは、コアDCT−IV変換(例えば、式7)に基づいて表されることができる。すなわち、効率的なDCT−IV変換に基づいてSBRアルゴリズムを実装することによって、SBRアルゴリズムは、より効率的に実行されることができる(例えば、より少ない処理リソースを要する、または、より迅速に実行されることができる)。
図10は、効率的な実数領域解析フィルタバンクの例を図示する。入力オーディオ信号は、複数の時間領域入力サンプル(すなわち、N点サンプル)へとサンプリングされる1006。時間領域入力サンプルのペア毎の加算および減算1007は、N/2個の中間サンプル上でグループ1007を得るために選択される。第1のDCT−IV変換1002は、周波数領域において1グループ1008の出力係数を得るために、1グループ1007のN/2中間サンプルに対して適用される。ここで、出力係数の結果として生じるグループ1008は、実数成分を表わす。
図11は、一例による解析フィルタバンクを実装するための方法を図示する。入力オーディオ信号は、複数のN個の時間領域入力サンプルとして得られることができる1102。時間領域入力サンプルのペア毎の加算および減算は、1グループのN/2個の中間サンプルを得るために実行されることができる1104。変換は、周波数領域においてN/2個の出力係数を得るために、1グループのN/2個の中間サンプルに対して適用されることができる1106。時間領域入力サンプルと周波数領域係数は、実数であってもよい。変換は、離散コサイン変換(DCT)タイプIV変換であってもよい。
様々な実装では、フィルタバンクは、解析直交フィルタバンク、音声エンコーダーの一部分、スペクトル帯域複製(SBR)エンコーダ/デコーダ、および/または、音声デコーダーの一部分、であってもよい。音声エンコーダー/デコーダは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格のうちの少なくとも1つを実装することができる。
図12は、一例による解析フィルタバンクを実装するための関数コンポーネントを図示するブロック図である。フィルタバンクデバイス1202は、複数のN個の時間領域入力サンプルとして入力オーディオ信号1214を得るように適合されたインタフェースを含むことができる。プレ変換回路1212は、1グループのN/2個の中間サンプルを得るために、時間領域入力サンプル1214のペア毎の加算および減算を実行するように適合されることができる。変換回路1208は、周波数領域において1グループのN/2個の出力係数1201を得るために、1グループのN/2個の中間サンプルに対して変換を適用するように適合されることができる。
実合成フィルタバンクの例示的な因子分解(Exemplary Factorization of Real Synthesis Filterbank)
式50の実合成フィルタバンクが奇数相またはインデクス付けされるということに留意されたい、そしてそれは、SBR式の分子は因数(2n±x)を含むということを意味しており、ここにおいて、xは奇数である。上記の例では、式50は、(2n+1)を含む。実際、デコーダにおいて、これらのフィルタバンクを実装することは、より多くの遅延を引起こす、および/または、より多くの処理リソースを要求するような複雑さのために困難である。
したがって、ある特徴は、これらのSBRアルゴリズム(例えば式50)を変換するので、それらは、コアDCT−IV変換(例えば、式7)に基づいて表されることができる。すなわち、効率的なDCT−IV変換に基づいてSBRアルゴリズムを実装することにより、SBRアルゴリズムはより効率的に実行されることができる(例えば、より少ない処理リソースを要する、または、より迅速に実行されることができる)。
図13は、効率的な実数領域の合成フィルタバンクの例を図示する。複数のN/2個の入力係数1306は、周波数領域においてオーディオ信号について得られる。逆変換1302は、時間領域において中間グループ1307のN個の出力サンプルを得るために、1グループのN/2個の入力係数に対して適用される。係数の複製操作、符号反転、および並び替えは、複数1310のN個の時間領域出力サンプルを得るために、中間グループ1307のN個の入力係数から実行されることができる。
図14は、一例による合成フィルタバンクを実装するための方法を図示する。周波数領域においてオーディオ信号についての複数のN/2個の入力係数が得られることができる1402。逆変換は、時間領域において中間グループのN個の出力サンプルを得るために、1グループのN/2個の入力係数に対して適用されることができる1404。中間グループのN個の入力係数からの係数の複製操作、符号反転、および並び替えは、複数のN個の時間領域出力サンプルを得るために、実行されることができる1406。
様々な実装では、フィルタバンクは、合成直交ミラーフィルタバンク、音声デコーダーの一部分、スペクトル帯域複製(SBR)デコーダの一部分、であってもよい。音声デコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格のうちの少なくとも1つを実装することができる。
図15は、一例による合成フィルタバンクを実装するための関数コンポーネントを図示するブロック図である。フィルタバンクデバイス1502は、周波数領域においてオーディオ信号についての複数のN/2個の入力係数1514を得るように適合されたインタフェースを含むことができる。変換回路1512は、時間領域において中間グループのN出力サンプルを得るために、1グループのN/2個の入力係数に対して逆変換を適用するように適合されることができる。ポスト変換回路1508は、複数のN個の時間領域出力サンプルを得るために、中間グループのN個の入力係数からの係数の複製操作、符号反転、および並び替えを実行するように適合されることができる。
HE−AACおよびUSACにおけるSBRフィルタバンクのためのファストアルゴリズム(Fast Algorithms for SBR Filterbanks in HE-AAC and USAC)
HE−AAC、HE−AAC v2およびUSACは、ここで上述されたものと同様なSBRフィルタバンク構造を使用する。おそらく最も重要な違いは、それらの位相シフトは、(AAC−ELDの場合は奇数であるのに対して)偶数によって表されることである。例えば、HE−AACにおける実解析フィルタバンクは、下記のように定義される。
それは、ELD−AACでは、nが95である代わりに、48までであるシフトを使用する。
情報および信号は、様々な異なる技術および技法のいずれかを使用して表されることができる。例えば、上記の説明の全体にわたって参照されることができる、データ、命令、コマンド、情報、信号、及び同様なものは、電圧、電流、電磁波、磁場あるいは磁粒子、光場あるいは光学粒子、あるいはそれらのいずれの組み合わせ、によって表わされることができる。
ここにおいて説明された、様々な説明のための論理ブロック、モジュールおよび回路、およびアルゴリズムステップは、電子ハードウェア、ソフトウェアあるいは双方の組合せとしてインプリメントされることができる。このハードウェアとソフトウェアの互換性を明瞭に説明するために、様々な説明のためのコンポーネント、ブロック、モジュール、回路およびステップが、一般に、それらの機能性という観点から、上記で説明されてきた。そのような機能性が、ハードウェアあるいはソフトウェアとしてインプリメントされるかどうかは、特定のアプリケーションと全体のシステムに課された設計制約によって決まる。本構成は、フローチャート、フロー図、構造図、またはブロック図として表されるプロセスとして説明されることができる、ということに留意されたい。フローチャートは、シーケンシャルプロセスとして動作を説明することができ、動作の多くは、並行または同時に実行されることができる。さらに、動作の順序は並び替えられうる。プロセスは、その動作が完了するとき、終了する。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラム、などに対応することができる。プロセスが関数に対応するとき、その終了は、関数の呼出またはメイン関数に対する関数の戻りに対応する。
ハードウェアでインプリメントされるとき、様々な例は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)、あるいは他のプログラマブル論理デバイス、ディスクリートゲートあるいはトランジスタロジック、ディスクリートハードウェアコンポーネント、あるいは、ここに説明された機能を実行するように設計されたそれらのいずれの組み合わせ、を利用することができる。汎用プロセッサは、マイクロプロセッサであってもよいが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、あるいはステートマシン(state machine)であってもよい。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、DSPおよびマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと関連している1つまたは複数のマイクロプロセッサ、または、任意の何らかのこのような構成、としてインプリメントされてもよい。
ソフトウェアでインプリメントされるとき、様々な例はファームウェア、ミドルウェアあるいはマイクロコードを使用することができる。必要なタスクを実行するプログラムコードまたはコードセグメントは、記憶媒体または他のストレージ(単数または複数)のようなコンピュータ可読媒体において保存されることができる。プロセッサは必要なタスクを実行することができる。コードセグメントは、プロシージャ(procedure)、関数(function)、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、あるいは、命令、データ構造、あるいはプログラムステートメントのいずれの組み合わせ、を表すことができる。コードセグメントは、情報、データ、アーギュメント(arguments)、パラメータあるいはメモリコンテンツを受け渡すること、および/または受信することによって、別のコードセグメントあるいはハードウェア回路に結合されることが出来る。情報、アーギュメント、パラメータ、データなどは、メモリの共有、メッセージパッシング(message passing)、トークンパッシング(token passing)、ネットワーク送信などを含んでいる、いずれの適切な手段を使用して、受け渡され、転送され、あるいは送信されることが出来る。
本願で使用されるように、用語「コンポーネント(component)」、「モジュール(module)」、「システム(system)」、および同様なものは、コンピュータ関連のエンティティ、ハードウェア、ファームウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、あるいは実行中のソフトウェア、のいずれを指すように意図されている。例えば、コンポーネントは、限定されてはいないが、プロセッサ上で実行しているプロセス、プロセッサ、オブジェクト(object)、実行ファイル(executable)、実行スレッド(thread of execution)、プログラム、及び/またはコンピュータ、であってもよい。例えば、コンピューティングデバイス上で実行しているアプリケーションとコンピューティングデバイスの双方はコンポーネントであることができる。1つまたは複数のコンポーネントは、プロセスおよび/または実行スレッド内に常駐することができ、また、コンポーネントは、1つのコンピュータ上に局在化されてもよいし、かつ/または2以上のコンピュータの間で分散していてもよい。さらに、これらのコンポーネントは、記憶された様々なデータ構造を有している様々なコンピュータ可読媒体から実行することが出来る。コンポーネントは、1つまたは複数のデータパケット(例、ローカルシステムにおいて、分散システムにおいて、及び/または、信号を通って他のシステムを備えたインターネットのようなネットワークにわたって、別のコンポーネントとインタラクトしているあるコンポーネントからのデータ)を有している信号にしたがって、ローカル及び/または遠隔のプロセスで通信することができる。
ここにおける1つまたは複数の例では、記載された機能は、ハードウェア、ソフトウェア、ファームウェアあるいはそれらのいずれかの組み合わせにおいてインプリメントされることができる。ソフトウェアでインプリメントされる場合には、機能は、コンピュータ可読媒体上で、1つまたは複数の命令あるいはコードとして、記憶されてもよく、あるいは、送信されることができる。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送(transfer)を容易にするいずれの媒体も含んでいる、コンピュータ記憶媒体(computer storage media)と通信媒体(communication media)の双方を含む。記憶媒体は、コンピュータによってアクセスされることができる、いずれの利用可能な媒体であることができる。限定されないが例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMあるいは他の光学ディスクストレージ、磁気ディスクストレージあるいは他の磁気ストレージデバイス、あるいは、命令あるいはデータ構造の形態で望まれるプログラムコードを保存あるいは搬送するために使用されることができる、また、コンピュータによってアクセスされることができる、任意の他の媒体も備えることができる。また、いずれの接続もコンピュータ可読媒体(computer-readable medium)と適切に名付けられる。例えば、ソフトウェアがウェブサイト、サーバ、あるいは、同軸ケーブル、光ファイバーケーブル、ツイストペア(twisted pair)、デジタル加入者ライン(digital subscriber line)(DSL)、あるいは赤外線、無線、およびマイクロ波のような無線技術を使用している他の遠隔ソース、から送信される場合には、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、あるいは赤外線、無線、およびマイクロ波のような無線技術は、媒体(medium)の定義に含まれている。ここに使用されているように、ディスク(disk)とディスク(disc)は、コンパクトディスク(compact disc)(CD)、レーザーディスク(登録商標)(laser disc)、光学ディスク(optical disc)、デジタル汎用ディスク(digital versatile disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびブルーレイディスク(blu-ray disc)を含んでおり、「ディスク(disks)」は、大抵、データを磁気で再生し、「ディスク(discs)」は、レーザーで光学的に再生する。上記の組み合わせはまた、コンピュータ可読媒体の範囲内に含まれるべきである。ソフトウェアモジュールは、単一の命令または多くの命令を備えることができ、いくつかの異なるコードセグメント上で、異なるプログラムの中で、そして、複数の記憶媒体にわたって、分散していてもよい。例示的な記憶媒体は、プロセッサに結合されうるので、プロセッサが記憶媒体から情報を読み取ることができ、また記憶媒体に情報を書き込むことができる。あるいは、記憶媒体は、プロセッサに一体化されてもよい。
ここに開示される方法は、説明される方法を達成するための1つまたは複数のステップまたは動作を備える。方法のステップ及び/または動作は、特許請求の範囲から逸脱することなく互いに置き換えられることができる(may be interchanged)。言いかえれば、ステップまたは動作の具体的な順序が記載されている方法の適切な動作に必要とされない限り、具体的なステップ及び/または動作の順序及び/または使用は、特許請求の範囲から逸脱することなく修正されることができる。
図面で説明されるコンポーネント、ステップ、および/または機能のうちの1つまたは複数は、並び替えられうるおよび/または単一のコンポーネント、ステップ、または機能へと組み合わせられうる、または、いくつかのコンポーネント、ステップ、または機能に具現化されうる。さらなるエレメント、コンポーネント、ステップ、および/または、機能がまた追加されることができる。図面で図示される装置、デバイス、および/または、コンポーネントは、他の図面で説明される方法、特徴、またはステップのうちの1つまたは複数を実行するように、構成または適合されうる。ここに説明されるアルゴリズムは、例えば、ソフトウェアおよび/または埋め込み型ハードウェアで効率的にインプリメントされうる。
前述の構成は単なる例にすぎず、本願請求項を限定するものとして解釈されないということは留意されるべきである。本構成の説明は、説明することを意図しており、本願請求項の範囲を限定することは意図していない。そのため、本教示は、他のタイプの装置に対して容易に適用されることができ、多くの代替、修正および変更は当業者にとって容易となるであろう。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1]フィルタバンクを実装する方法、該方法は下記を備える:
複数のN個の時間領域入力サンプルとして入力オーディオ信号を得ること;
第1グループおよび第2グループの中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行すること、なお、各グループは、N/2中間サンプルを有する;
前記第2グループにおける奇数インデクス付けされた中間サンプルの符号を反転すること;
周波数領域において第1グループの出力係数を得るために、前記第1グループの中間サンプルに対して第1の変換を適用すること;
前記周波数領域において中間第2グループの出力係数を得るために、前記第2グループの中間サンプルに対して第2の変換を適用すること;および、
第2グループの出力係数を得るために、前記中間第2グループの出力係数における係数の次数を逆にすること。
[C2]使用される前記時間領域入力サンプルは実数領域内のサンプルであり、前記周波数領域は複素領域である、C1に記載の方法。
[C3]前記第1グループの出力係数は、実数の係数から成り、前記第2グループの出力係数は、虚数の係数から成る、C1に記載の方法。
[C4]前記第1の変換および第2の変換は、双方とも、離散コサイン変換(DCT)タイプIV変換であり、前記フィルタバンクは、分子に(2n±x)の因数を有する式によって表される、ここにおいて、xは奇数である、C1に記載の方法。
[C5]前記第1の変換および第2の変換は、前記第1グループおよび第2グループの中間サンプルを変換するために同時に動作する、C1に記載の方法。
[C6]前記フィルタバンクは、解析直交ミラーフィルタバンクである、C1に記載の方法。
[C7]前記フィルタバンクは、音声エンコーダーの一部分である、C1に記載の方法。
[C8]前記音声エンコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C7に記載の方法。
[C9]前記フィルタバンクは、スペクトル帯域複製(SBR)エンコーダの一部分である、C1に記載の方法。
[C10]前記フィルタバンクは、音声デコーダーの一部分である、C1に記載の方法。
[C11]前記音声デコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEGSAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C10に記載の方法。
[C12]前記フィルタバンクは、スペクトル帯域複製(SBR)デコーダの一部分である、C1に記載の方法。
[C13]下記を備えるフィルタバンクデバイス:
複数のN個の時間領域入力サンプルとして入力オーディオ信号を得るように適合されたインタフェース;
下記を実行するように適合されたプレ変換回路:
第1グループおよび第2グループの中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行すること、なお、各グループは、N/2中間サンプルを有する;
前記第2グループにおける奇数インデクス付けされた中間サンプルの符号を反転すること;
周波数領域において第1グループの出力係数を得るために、前記第1グループの中間サンプルに対して第1の変換を適用するように適合された第1の変換回路と;
前記周波数領域において中間第2グループの出力係数を得るために、前記第2グループの中間サンプルに対して第2の変換を適用するように適合された第2の変換回路と;
第2グループの出力係数を得るために、前記中間第2グループの出力係数における係数の次数を逆にするように適合されたポスト変換回路。
[C14]使用される前記時間領域入力サンプルは実数領域内のサンプルであり、前記周波数領域は複素領域である、C13に記載のフィルタバンクデバイス。
[C15]前記第1グループの出力係数は、実数の係数から成り、前記第2グループの出力係数は、虚数の係数から成る、C13に記載のフィルタバンクデバイス。
[C16]前記第1の変換および第2の変換は、双方とも、離散コサイン変換(DCT)タイプIV変換であり、前記フィルタバンクは、分子に(2n±x)という因子を有する式によって表される、ここにおいて、xは奇数である、C13に記載のフィルタバンクデバイス。
[C17]前記第1の変換および第2の変換は、前記第1グループおよび第2グループの中間サンプルを変換するために同時に動作する、C13に記載のフィルタバンクデバイス。
[C18]前記フィルタバンクデバイスは、解析直交ミラーフィルタバンクである、C13に記載のフィルタバンクデバイス。
[C19]前記フィルタバンクは、音声エンコーダーの一部分である、C13に記載のフィルタバンクデバイス。
[C20]前記音声エンコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE-AAC(High Efficiency AAC)標準規格、MPEGSAOC(Spatial Audio Coding)、および MPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C19に記載のフィルタバンクデバイス。
[C21]前記フィルタバンクは、スペクトル帯域複製(SBR)エンコーダの一部分である、C13に記載のフィルタバンクデバイス。
[C22]前記フィルタバンクは、音声デコーダーの一部分である、C13に記載のフィルタバンクデバイス。
[C23]前記音声デコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE-AAC(High Efficiency AAC)標準規格、MPEGSAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C22に記載のフィルタバンクデバイス。
[C24]前記フィルタバンクデバイスは、スペクトル帯域複製(SBR)デコーダの一部分である、C13に記載のフィルタバンクデバイス。
[C25]下記を備えるフィルタバンクデバイス:
複数のN個の時間領域入力サンプルとして入力オーディオ信号を得るための手段;
第1グループおよび第2グループの中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行するための手段、なお、各グループは、N/2中間サンプルを有する;
前記第2グループにおける奇数インデクス付けされた中間サンプルの符号を反転するための手段;
周波数領域において第1グループの出力係数を得るために、前記第1グループの中間サンプルに対して第1の変換を適用するための手段;
前記周波数領域において中間第2グループの出力係数を得るために、前記第2グループの中間サンプルに対して第2の変換を適用するための手段;および、
第2グループの出力係数を得るために、前記中間第2グループの出力係数における係数の次数を逆にするための手段。
[C26]前記フィルタバンクは、音声エンコーダーの一部分である、C25に記載のフィルタバンクデバイス。
[C27]前記音声エンコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C26に記載のフィルタバンクデバイス。
[C28]前記フィルタバンクは、スペクトル帯域複製(SBR)エンコーダの一部分である、C25に記載のフィルタバンクデバイス。
[C29]前記フィルタバンクは、音声デコーダーの一部分である、C25に記載のフィルタバンクデバイス。
[C30]フィルタバンクを実装するような動作が可能なCPU命令を記録したコンピュータ可読記録媒体であって、1つまたは複数のプロセッサによって実施されるとき、前記CPU命令が前記プロセッサに、下記動作を実行させるコンピュータ可読記録媒体:
複数のN個の時間領域入力サンプルとして入力オーディオ信号を得ること;
第1グループおよび第2グループの中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行すること、なお、各グループは、N/2中間サンプルを有する;
前記第2グループにおける奇数インデクス付けされた中間サンプルの符号を反転すること;
周波数領域において第1グループの出力係数を得るために、前記第1グループの中間サンプルに対して第1の変換を適用すること;
前記周波数領域において中間第2グループの出力係数を得るために、前記第2グループの中間サンプルに対して第2の変換を適用すること;および、
第2グループの出力係数を得るために、前記中間第2グループの出力係数における係数の次数を反転すること。
[C31]使用される前記時間領域入力サンプルは実数領域内のサンプルである一方で、前記周波数領域は複素領域である、C30に記載の機械可読媒体。
[C32]前記第1グループの出力係数は、実数の係数から成り、前記第2グループの出力係数は、虚数の係数から成る、C30に記載の機械可読媒体。
[C33]フィルタバンクを実装する方法、該方法は下記を備える:
周波数領域においてオーディオ信号について複数のN個の入力係数を得ること、なお、第1グループのN/2個の入力係数は実数成分であり、第2グループのN/2個の入力係数は虚数成分であり、前記第2グループにおける奇数インデクス付けされたサンプルの符号は、前記第2グループにおいて偶数インデクス付けされた係数に関連して反転される; 前記時間領域において中間第1グループの出力サンプルを得るために、前記第1グループの入力係数に対して第1の逆変換を適用すること;
前記時間領域において中間第2グループの出力サンプルを得るために、前記第2グループの入力係数に対して第2の逆変換を適用すること;および、
複数のN個の時間領域出力サンプルを得るために、前記中間第1グループの入力係数からの前記中間第2グループの入力係数のペア毎の減算を実行すること。
[C34]前記第1グループの入力係数は、実数の係数から成り、前記第2グループの入力係数は、虚数の係数から成る、C33に記載の方法。
[C35]前記周波数領域は複素領域であり、前記時間領域サンプルは実数領域内のサンプルである、C33に記載の方法。
[C36]前記第1の逆変換と第2の逆変換は、双方とも逆離散コサイン変換(IDCT)タイプIV変換であり、フィルタバンクは、分子に(2n±x)の因子を有する式で表される、ここにおいて、xは、奇数である、C33に記載の方法。
[C37]前記第1の逆変換と第2の逆変換は、前記第1グループおよび第2グループの入力係数を変換するように同時に動作する、C33に記載の方法。
[C38]前記フィルタバンクは、合成直交ミラーフィルタバンクである、C33に記載の方法。
[C39]前記フィルタバンクは、音声デコーダーの一部分である、C33に記載の方法。
[C40]前記音声デコーダーは、MPEG-4 AAC(Advance Audio Coding)-ELD(Low Delay)標準規格、MPEG-4 AAC−ELD(Enhanced Low Delay)標準規格、およびMPEG-4 MPEG-4 HE(High Efficiency)-AAC標準規格のうちの少なくとも1つを実装する、C39に記載の方法。
[C41]前記フィルタバンクは、スペクトル帯域複製(SBR)デコーダの一部分である、C33に記載の方法。
[C42]下記を備えるフィルタバンクデバイス:
周波数領域においてオーディオ信号について複数のN個の入力係数を得るように適合されたインタフェース、なお、第1グループのN/2個の入力係数は実数成分であり、第2グループのN/2個の入力係数は虚数成分である;
前記第2グループにおける偶数でインデクス付けされた係数に関連して、前記第2グループにおける奇数でインデクス付けされたサンプルの符号を反転するように適合された前処理回路と;
時間領域において中間第1グループのN個の出力サンプルを得るために、前記第1グループの入力係数に対して第1の逆変換を適用するように適合された第1の変換回路と; 前記時間領域において中間第2グループのN個の出力サンプルを得るために、前記第2グループの入力係数に対して第2の逆変換を適用するように適合された第2の変換回路と;および、
複数のN個の時間領域出力サンプルを得るために、前記中間第1グループの入力係数からの前記中間第2グループの入力係数のペア毎の減算を実行するように適合された後処理変換回路。
[C43]前記第1グループの入力係数は、実数の係数から成り、前記第2グループの入力係数は、虚数の係数から成る、C42に記載のフィルタバンクデバイス。
[C44]前記周波数領域は複素領域であるが、前記時間領域サンプルは実数領域内のサンプルである、C42に記載のフィルタバンクデバイス。
[C45]前記第1の逆変換と第2の逆変換は、双方とも逆離散コサイン変換(IDCT)タイプIV変換であり、フィルタバンクは、分子に(2n±x)の因数を有する式で表される、ここにおいて、xは、奇数である、C42に記載のフィルタバンクデバイス。
[C46]前記第1の逆変換と第2の逆変換は、前記第1グループおよび第2グループの入力係数を変換するように同時に動作する、C42に記載のフィルタバンクデバイス。
[C47]前記フィルタバンクデバイスは、合成直交ミラーフィルタバンクである、C42に記載のフィルタバンクデバイス。
[C48]前記フィルタバンクは、音声デコーダーの一部分である、C42に記載のフィルタバンクデバイス。
[C49]前記音声デコーダーは、MPEG-4 AAC(Advance Audio Coding)-ELD(Low Delay)標準規格、MPEG-4 AAC−ELD(Enhanced Low Delay)標準規格、およびMPEG-4 MPEG-4 HE(High Efficiency)-AAC標準規格のうちの少なくとも1つを実装する、C48に記載のフィルタバンクデバイス。
[C50]前記フィルタバンクデバイスは、スペクトル帯域複製(SBR)デコーダの一部分である、C42に記載のフィルタバンクデバイス。
[C51]下記を備えるフィルタバンクデバイス:
周波数領域においてオーディオ信号について複数のN個の入力係数を得るための手段、なお、第1グループのN/2個の入力係数は実数成分であり、第2グループのN/2個の入力係数は虚数成分であり、第2グループにおける奇数でインデクス付けされたサンプルの符号は、前記第2グループにおいて偶数でインデクス付けされた係数に関連して反転される;
前記時間領域において第1グループの中間の出力サンプルを得るために、前記第1グループの入力係数に対して第1の逆変換を適用するための手段;
前記時間領域において第2グループの中間の出力サンプルを得るために、前記第2グループの入力係数に対して第2の逆変換を適用するための手段;および、
複数のN個の時間領域出力サンプルを得るために、前記第1グループの中間の入力係数からの前記第2グループの中間の入力係数のペア毎の減算を実行するための手段。
[C52]前記フィルタバンクデバイスは、合成直交ミラーフィルタバンクである、C51に記載のフィルタバンクデバイス。
[C53]前記フィルタバンクは、音声デコーダーの一部分である、C51に記載のフィルタバンクデバイス。
[C54]前記音声デコーダーは、MPEG-4 AAC(Advance Audio Coding)-ELD(Enhanced Low Delay)標準規格、MPEG-4 AAC−ELD(Low Delay)標準規格、およびMPEG-4 MPEG-4 HE(High Efficiency)-AAC標準規格のうちの少なくとも1つを実装する、C53に記載のフィルタバンクデバイス。
[C55]前記フィルタバンクデバイスは、スペクトル帯域複製(SBR)デコーダの一部分である、C51に記載のフィルタバンクデバイス。
[C56]フィルタバンクを実装するように動作が可能な一連のCPU命令を記録したコンピュータ可読記録媒体であって、1つまたは複数のプロセッサによって実施されるとき、前記プロセッサに下記動作を実行させる前記CPU命令を備えるコンピュータ可読記録媒体: 複数のN個の時間領域入力サンプルとして入力オーディオ信号を得ること;
第1グループおよび第2グループの中間サンプルを得るために、時間領域入力サンプルのペア毎の加算および減算を実行すること、なお、各グループは、N/2個の中間サンプルを有する;
前記第2グループにおける奇数でインデクス付けされた中間サンプルの符号を反転することと;
前記周波数領域において第1グループの出力係数を得るために、前記第1グループの中間サンプルに対して第1の変換を適用すること;
前記周波数領域において第2グループの中間の出力係数を得るために、前記第2グループの中間サンプルに対して第2の変換を適用すること;
第2グループの出力係数を得るために、前記第2グループの中間の出力係数における係数の次数を逆にすること。
[C57]前記第1グループの入力係数は、実数の係数から成り、前記第2グループの入力係数は、虚数の係数から成る、C56に記載の機械可読媒体。
[C58]前記周波数領域は複素領域であり、前記時間領域サンプルは実数領域内のサンプルである、C56に記載の機械可読媒体。
[C59]フィルタバンクを実装する方法であって、
複数のN個の時間領域入力サンプルとして入力オーディオ信号を得ることと、
1グループのN/2個の中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行することと、
前記周波数領域においてN/2個の出力係数を得るために、前記1グループのN/2個の中間サンプルに対して変換を適用することと、
を備える方法。
[C60]時間領域入力サンプルと周波数領域係数の双方は、実数である、C59に記載の方法。
[C61]前記変換は、離散コサイン変換(DCT)タイプIV変換であり、前記フィルタバンクは、分子に(2n±x)という因子を有する式によって表され、ここにおいて、xは奇数である、C59に記載の方法。
[C62]前記フィルタバンクは、解析直交ミラーフィルタバンクである、C59に記載の方法。
[C63]前記フィルタバンクは、音声エンコーダーの一部分である、C59に記載の方法。
[C64]前記音声エンコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C63に記載の方法。
[C65]前記フィルタバンクは、スペクトル帯域複製(SBR)エンコーダの一部分である、C59に記載の方法。
[C66]前記フィルタバンクは、音声デコーダーの一部分である、C59に記載の方法。
[C67]前記音声デコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEGSAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C65に記載の方法。
[C68]前記フィルタバンクは、スペクトル帯域複製(SBR)デコーダの一部分である、C59に記載の方法。
[C69]下記を備えるフィルタバンクデバイス:
複数のN個の時間領域入力サンプルとして入力オーディオ信号を得るように適合されたインタフェース;
1グループのN/2個の中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行するように適合されたプレ変換回路;および、
前記周波数領域においてN/2個の出力係数を得るために、前記1グループのN/2個の中間サンプルに対して変換を適用するように適合された変換回路。
[C70]時間領域入力サンプルと周波数領域係数の双方は、実数である、C69に記載のフィルタバンクデバイス。
[C71]前記変換は、離散コサイン変換(DCT)タイプIV変換である、C69に記載のフィルタバンクデバイス。
[C72]前記フィルタバンクデバイスは、解析直交ミラーフィルタバンクである、C69に記載のフィルタバンクデバイス。
[C73]前記フィルタバンクは、音声エンコーダーの一部分である、C69に記載のフィルタバンクデバイス。
[C74]前記音声エンコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C73に記載のフィルタバンクデバイス。
[C75]前記フィルタバンクは、スペクトル帯域複製(SBR)エンコーダの一部分である、C69に記載のフィルタバンクデバイス。
[C76]前記フィルタバンクは、音声デコーダーの一部分である、C69に記載のフィルタバンクデバイス。
[C77]前記音声デコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEGSAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C76に記載のフィルタバンクデバイス。
[C78]前記フィルタバンクデバイスは、スペクトル帯域複製(SBR)デコーダの一部分である、C69に記載のフィルタバンクデバイス。
[C79]下記を備えるフィルタバンクデバイス:
複数のN個の時間領域入力サンプルとして入力オーディオ信号を得るための手段;
1グループのN/2個の中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行するための手段;および、
前記周波数領域においてN/2個の出力係数を得るために、前記1グループのN/2個の中間サンプルに対して変換を適用するための手段。
[C80]前記フィルタバンクデバイスは、解析直交ミラーフィルタバンクである、C79に記載のフィルタバンクデバイス。
[C81]
前記フィルタバンクは、音声エンコーダーの一部分である、C79に記載のフィルタバンクデバイス。
[C82]前記フィルタバンクは、スペクトル帯域複製(SBR)エンコーダの一部分である、C79に記載のフィルタバンクデバイス。
[C83]前記フィルタバンクは、音声デコーダーの一部分である、C79に記載のフィルタバンクデバイス。
[C84]フィルタバンクを実装するように動作が可能なCPU命令を記録したコンピュータ可読記録媒体であって、1つまたは複数のプロセッサによって実施されるとき、前記CPU命令が前記プロセッサに、下記動作を実行させるコンピュータ可読記録媒体:
複数のN個の時間領域入力サンプルとして入力オーディオ信号を得ること;
1グループのN/2個の中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行すること;および、
前記周波数領域においてN/2個の出力係数を得るために、前記1グループのN/2個の中間サンプルに対して変換を適用する。
[C85]時間領域入力サンプルと周波数領域係数の双方は、実数である、C84に記載の機械可読媒体。
[C86]前記変換は、離散コサイン変換(DCT)タイプIV変換である、C84に記載の機械可読媒体。
[C87]フィルタバンクを実装する方法、該方法は下記を備える:
周波数領域においてオーディオ信号について複数のN/2個の入力係数を得ること; 時間領域において中間グループのN個の出力サンプルを得るために、1グループのN/2個の入力係数に対して逆変換を適用すること;および、
複数のN個の時間領域出力サンプルを得るために、中間グループのN個の入力係数からの、係数の複製操作、符号反転、および並び替えを実行すること。
[C88]入力係数および時間領域出力サンプルの双方は、実数である、C87に記載の方法。
[C89]前記変換は、離散コサイン変換(DCT)タイプIV変換であり、前記フィルタバンクは、分子に(2n±x)という因数を有する式によって表され、ここにおいて、xは奇数である、C87に記載の方法。
[C90]前記フィルタバンクは、合成直交ミラーフィルタバンクである、C87に記載の方法。
[C91]前記フィルタバンクは、音声デコーダーの一部分である、C87に記載の方法。
[C92]前記音声デコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEGSAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C91に記載の方法。
[C93]前記フィルタバンクは、スペクトル帯域複製(SBR)デコーダの一部分である、C87に記載の方法。
[C94]下記を備えるフィルタバンクデバイス:
周波数領域においてオーディオ信号についての複数のN/2個の入力係数を得るように適合されたインタフェース;
時間領域において中間グループのN個の出力サンプルを得るために、前記1グループのN/2個の入力係数に対して逆変換を適用するように適合された変換回路;および、
複数のN個の時間領域出力サンプルを得るために、前記中間グループのN個の入力係数からの、係数の複製操作、符号反転、および並び替えを実行するように適合されたポスト変換回路。
[C95]入力係数および時間領域出力サンプルの双方は、実数である、C94に記載の方法。
[C96]前記逆変換は、離散コサイン変換(DCT)タイプIV変換であり、前記フィルタバンクは、分子に(2n±x)という因子を有する式によって表され、ここにおいて、xは奇数である、C94に記載のフィルタバンクデバイス。
[C97]前記フィルタバンクデバイスは、合成直交ミラーフィルタバンクである、C94に記載のフィルタバンクデバイス。
[C98]前記フィルタバンクデバイスは、音声デコーダーの一部分である、C94に記載のフィルタバンクデバイス。
[C99]前記音声デコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEGSAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、C98に記載のフィルタバンクデバイス。
[C100]前記フィルタバンクデバイスは、スペクトル帯域複製(SBR)デコーダの一部分である、C94に記載のフィルタバンクデバイス。
[C101]下記を備えるフィルタバンクデバイス:
周波数領域においてオーディオ信号について複数のN/2個の入力係数を得るための手段;
時間領域において中間グループのN個の出力サンプルを得るために、1グループのN/2個の入力係数に対して逆変換を適用するための手段;および、
複数のN個の時間領域出力サンプルを得るために、中間グループのN個の入力係数からの、係数の複製操作、符号反転、および並び替えを実行するための手段。
[C102]入力係数および時間領域出力サンプルの双方は、実数である、C101に記載のフィルタバンクデバイス。
[C103]フィルタバンクを実装するように動作が可能なCPU命令を記録したコンピュータ可読記録媒体であって、1つまたは複数のプロセッサによって実施されるとき、前記CPU命令が前記プロセッサに、下記動作を実行させるコンピュータ可読記録媒体:
周波数領域においてオーディオ信号について複数のN/2個の入力係数を得ること; 時間領域において中間グループのN個の出力サンプルを得るために、1グループのN/2個の入力係数に対して逆変換を適用すること;および、
複数のN個の時間領域出力サンプルを得るために、中間グループのN個の入力係数からの、係数の複製操作、符号反転、および並び替えを実行すること。
[C104]入力係数および時間領域出力サンプルの双方は、実数である、C103に記載の機械可読媒体。

Claims (35)

  1. フィルタバンクを実装する方法、該方法は下記を備える:
    複数のN個の時間領域入力サンプルとして入力オーディオ信号を得ること;
    第1グループおよび第2グループの中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行すること、なお、各グループは、N/2個の中間サンプルを有する;
    前記第2グループにおける奇数インデクス付けされた中間サンプルの符号を反転すること;
    周波数領域において第1グループの出力係数を得るために、前記第1グループの中間サンプルに対して第1の変換を適用すること;
    前記周波数領域において中間第2グループの出力係数を得るために、前記第2グループの中間サンプルに対して第2の変換を適用すること;および、
    第2グループの出力係数を得るために、前記中間第2グループの出力係数における係数の順序を逆にすること。
  2. 使用される前記時間領域入力サンプルは実数領域内のサンプルであり、前記周波数領域は複素領域である、請求項1に記載の方法。
  3. 前記第1グループの出力係数は、実数の係数から成り、前記第2グループの出力係数は、虚数の係数から成る、請求項1に記載の方法。
  4. 前記第1の変換および第2の変換は、双方とも、離散コサイン変換(DCT)タイプIV変換であり、前記フィルタバンクは、分子に(2n±x)の因数を有する式によって表される、ここにおいて、xは奇数である、請求項1に記載の方法。
  5. 前記第1の変換および第2の変換は、前記第1グループおよび第2グループの中間サンプルを変換するために同時に動作する、請求項1に記載の方法。
  6. 前記フィルタバンクは、解析直交ミラーフィルタバンクである、請求項1に記載の方法。
  7. 前記フィルタバンクは、音声エンコーダーの一部分である、請求項1に記載の方法。
  8. 前記音声エンコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、請求項7に記載の方法。
  9. 前記フィルタバンクは、スペクトル帯域複製(SBR)エンコーダの一部分である、請求項1に記載の方法。
  10. 前記フィルタバンクは、音声デコーダーの一部分である、請求項1に記載の方法。
  11. 前記音声デコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEGSAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、請求項10に記載の方法。
  12. 前記フィルタバンクは、スペクトル帯域複製(SBR)デコーダの一部分である、請求項1に記載の方法。
  13. 下記を備えるフィルタバンクデバイス:
    複数のN個の時間領域入力サンプルとして入力オーディオ信号を得るように適合されたインタフェース;
    下記を実行するように適合されたプレ変換回路:
    第1グループおよび第2グループの中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行すること、なお、各グループは、N/2個の中間サンプルを有する;
    前記第2グループにおける奇数インデクス付けされた中間サンプルの符号を反転すること;
    周波数領域において第1グループの出力係数を得るために、前記第1グループの中間サンプルに対して第1の変換を適用するように適合された第1の変換回路と;
    前記周波数領域において中間第2グループの出力係数を得るために、前記第2グループの中間サンプルに対して第2の変換を適用するように適合された第2の変換回路と;
    第2グループの出力係数を得るために、前記中間第2グループの出力係数における係数の順序を逆にするように適合されたポスト変換回路。
  14. 使用される前記時間領域入力サンプルは実数領域内のサンプルであり、前記周波数領域は複素領域である、請求項13に記載のフィルタバンクデバイス。
  15. 前記第1グループの出力係数は、実数の係数から成り、前記第2グループの出力係数は、虚数の係数から成る、請求項13に記載のフィルタバンクデバイス。
  16. 前記第1の変換および第2の変換は、双方とも、離散コサイン変換(DCT)タイプIV変換であり、前記フィルタバンクデバイスは、分子に(2n±x)という因子を有する式によって表される、ここにおいて、xは奇数である、請求項13に記載のフィルタバンクデバイス。
  17. 前記第1の変換および第2の変換は、前記第1グループおよび第2グループの中間サンプルを変換するために同時に動作する、請求項13に記載のフィルタバンクデバイス。
  18. 前記フィルタバンクデバイスは、解析直交ミラーフィルタバンクである、請求項13に記載のフィルタバンクデバイス。
  19. 前記フィルタバンクデバイスは、音声エンコーダーの一部分である、請求項13に記載のフィルタバンクデバイス。
  20. 前記音声エンコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE-AAC(High Efficiency AAC)標準規格、MPEGSAOC(Spatial Audio Coding)、および MPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、請求項19に記載のフィルタバンクデバイス。
  21. 前記フィルタバンクデバイスは、スペクトル帯域複製(SBR)エンコーダの一部分である、請求項13に記載のフィルタバンクデバイス。
  22. 前記フィルタバンクデバイスは、音声デコーダーの一部分である、請求項13に記載のフィルタバンクデバイス。
  23. 前記音声デコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE-AAC(High Efficiency AAC)標準規格、MPEGSAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、請求項22に記載のフィルタバンクデバイス。
  24. 前記フィルタバンクデバイスは、スペクトル帯域複製(SBR)デコーダの一部分である、請求項13に記載のフィルタバンクデバイス。
  25. 下記を備えるフィルタバンクデバイス:
    複数のN個の時間領域入力サンプルとして入力オーディオ信号を得るための手段;
    第1グループおよび第2グループの中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行するための手段、なお、各グループは、N/2個の中間サンプルを有する;
    前記第2グループにおける奇数インデクス付けされた中間サンプルの符号を反転するための手段;
    周波数領域において第1グループの出力係数を得るために、前記第1グループの中間サンプルに対して第1の変換を適用するための手段;
    前記周波数領域において中間第2グループの出力係数を得るために、前記第2グループの中間サンプルに対して第2の変換を適用するための手段;および、
    第2グループの出力係数を得るために、前記中間第2グループの出力係数における係数の順序を逆にするための手段。
  26. 前記フィルタバンクデバイスは、音声エンコーダーの一部分である、請求項25に記載のフィルタバンクデバイス。
  27. 前記音声エンコーダーは、MPEG AAC−ELD(Advance Audio Coding Enhanced Low Delay)標準規格、MPEG HE−AAC(High Efficiency AAC)標準規格、MPEG SAOC(Spatial Audio Coding)、およびMPEG USAC(Unified Speech and Audio Coding)標準規格、のうちの少なくとも1つを実装する、請求項26に記載のフィルタバンクデバイス。
  28. 前記フィルタバンクデバイスは、スペクトル帯域複製(SBR)エンコーダの一部分である、請求項25に記載のフィルタバンクデバイス。
  29. 前記フィルタバンクデバイスは、音声デコーダーの一部分である、請求項25に記載のフィルタバンクデバイス。
  30. フィルタバンクを実装するような動作が可能な複数の命令を記録した機械可読記憶媒体であって、1つまたは複数のプロセッサによって実施されるとき、前記命令が前記プロセッサに、下記動作を実行させる機械可読記憶媒体
    複数のN個の時間領域入力サンプルとして入力オーディオ信号を得ること;
    第1グループおよび第2グループの中間サンプルを得るために、前記時間領域入力サンプルのペア毎の加算および減算を実行すること、なお、各グループは、N/2個の中間サンプルを有する;
    前記第2グループにおける奇数インデクス付けされた中間サンプルの符号を反転すること;
    周波数領域において第1グループの出力係数を得るために、前記第1グループの中間サンプルに対して第1の変換を適用すること;
    前記周波数領域において中間第2グループの出力係数を得るために、前記第2グループの中間サンプルに対して第2の変換を適用すること;および、
    第2グループの出力係数を得るために、前記中間第2グループの出力係数における係数の順序を反転すること。
  31. 使用される前記時間領域入力サンプルは実数領域内のサンプルである一方で、前記周波数領域は複素領域である、請求項30に記載の機械可読記憶媒体。
  32. 前記第1グループの出力係数は、実数の係数から成り、前記第2グループの出力係数は、虚数の係数から成る、請求項30に記載の機械可読記憶媒体。
  33. フィルタバンクを実装するように動作が可能な複数の命令を記録した機械可読記憶媒体であって、1つまたは複数のプロセッサによって実施されるとき、前記プロセッサに下記動作を実行させる前記命令を備える機械可読記憶媒体
    複数のN個の時間領域入力サンプルとして入力オーディオ信号を得ること;
    第1グループおよび第2グループの中間サンプルを得るために、時間領域入力サンプルのペア毎の加算および減算を実行すること、なお、各グループは、N/2個の中間サンプルを有する;
    前記第2グループにおける奇数でインデクス付けされた中間サンプルの符号を反転することと;
    波数領域において第1グループの出力係数を得るために、前記第1グループの中間サンプルに対して第1の変換を適用すること;
    前記周波数領域において第2グループの中間の出力係数を得るために、前記第2グループの中間サンプルに対して第2の変換を適用すること;
    第2グループの出力係数を得るために、前記第2グループの中間の出力係数における係数の順序を逆にすること。
  34. 前記第1グループの入力係数は、実数の係数から成り、前記第2グループの入力係数は、虚数の係数から成る、請求項33に記載の機械可読記憶媒体。
  35. 前記周波数領域は複素領域であり、前記時間領域サンプルは実数領域内のサンプルである、請求項33に記載の機械可読記憶媒体。
JP2012506178A 2009-04-14 2010-04-14 フィルタバンクを実装する方法及びフィルタバンクデバイス Expired - Fee Related JP5559304B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16913209P 2009-04-14 2009-04-14
US61/169,132 2009-04-14
US12/759,248 2010-04-13
US12/759,248 US8392200B2 (en) 2009-04-14 2010-04-13 Low complexity spectral band replication (SBR) filterbanks
PCT/US2010/031089 WO2010120924A1 (en) 2009-04-14 2010-04-14 Low complexity spectral band replication (sbr) filterbanks

Publications (2)

Publication Number Publication Date
JP2012524301A JP2012524301A (ja) 2012-10-11
JP5559304B2 true JP5559304B2 (ja) 2014-07-23

Family

ID=42935075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012506178A Expired - Fee Related JP5559304B2 (ja) 2009-04-14 2010-04-14 フィルタバンクを実装する方法及びフィルタバンクデバイス

Country Status (7)

Country Link
US (1) US8392200B2 (ja)
EP (1) EP2419901A1 (ja)
JP (1) JP5559304B2 (ja)
KR (1) KR101286329B1 (ja)
CN (1) CN102388418B (ja)
TW (1) TW201118861A (ja)
WO (1) WO2010120924A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
TWI484473B (zh) * 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
AU2011237882B2 (en) 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding
JP5850216B2 (ja) * 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
MY156027A (en) * 2010-08-12 2015-12-31 Fraunhofer Ges Forschung Resampling output signals of qmf based audio codecs
CN102568481B (zh) * 2010-12-21 2014-11-26 富士通株式会社 用于实现aqmf处理的方法、和用于实现sqmf处理的方法
JP6155274B2 (ja) * 2011-11-11 2017-06-28 ドルビー・インターナショナル・アーベー 過剰サンプリングされたsbrを使ったアップサンプリング
EP2951825B1 (en) 2013-01-29 2021-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
JP6094322B2 (ja) * 2013-03-28 2017-03-15 富士通株式会社 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
CN105849801B (zh) 2013-12-27 2020-02-14 索尼公司 解码设备和方法以及程序
TW202242853A (zh) * 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN104732979A (zh) * 2015-03-24 2015-06-24 无锡天脉聚源传媒科技有限公司 一种音频数据的处理方法及装置
CN104735512A (zh) * 2015-03-24 2015-06-24 无锡天脉聚源传媒科技有限公司 一种同步音频数据的方法、设备及系统
RU2685024C1 (ru) * 2016-02-17 2019-04-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Постпроцессор, препроцессор, аудиокодер, аудиодекодер и соответствующие способы для улучшения обработки транзиентов
GB2561594A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Spatially extending in the elevation domain by spectral extension
CN113870884B (zh) * 2021-12-01 2022-03-08 全时云商务服务股份有限公司 单麦克风噪声抑制方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0101175D0 (sv) * 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
CN1914669A (zh) * 2004-01-28 2007-02-14 皇家飞利浦电子股份有限公司 使用复数值数据的音频信号解码
EP1810281B1 (en) * 2004-11-02 2020-02-26 Koninklijke Philips N.V. Encoding and decoding of audio signals using complex-valued filter banks
ES2631906T3 (es) 2006-10-25 2017-09-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la generación de valores de subbanda de audio, aparato y procedimiento para la generación de muestras de audio en el dominio temporal
US8015368B2 (en) * 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
WO2008146263A2 (en) 2007-05-19 2008-12-04 Roy Rosser Bistable electrowetting light valve
US20090099844A1 (en) * 2007-10-16 2009-04-16 Qualcomm Incorporated Efficient implementation of analysis and synthesis filterbanks for mpeg aac and mpeg aac eld encoders/decoders

Also Published As

Publication number Publication date
JP2012524301A (ja) 2012-10-11
WO2010120924A1 (en) 2010-10-21
TW201118861A (en) 2011-06-01
CN102388418B (zh) 2013-09-25
KR101286329B1 (ko) 2013-07-15
US8392200B2 (en) 2013-03-05
US20100262427A1 (en) 2010-10-14
KR20120018324A (ko) 2012-03-02
CN102388418A (zh) 2012-03-21
EP2419901A1 (en) 2012-02-22

Similar Documents

Publication Publication Date Title
JP5559304B2 (ja) フィルタバンクを実装する方法及びフィルタバンクデバイス
JP5269908B2 (ja) 5点dct−ii、dct−iv、およびdst−ivの計算のための高速アルゴリズム、ならびにアーキテクチャ
TWI398854B (zh) 用於計算轉換值及執行定窗運算之方法、裝置、電路及電腦可讀媒體,及用於提供一解碼器之方法
US8185381B2 (en) Unified filter bank for performing signal conversions
TW201237848A (en) Apparatus and method for processing a decoded audio signal in a spectral domain
CA2792454C (en) Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
Britanak et al. Cosine-/Sine-Modulated Filter Banks
US9257129B2 (en) Orthogonal transform apparatus, orthogonal transform method, orthogonal transform computer program, and audio decoding apparatus
JP5215404B2 (ja) Mpeg・aac及びmpeg・aac・eld符号器/復号器のための分析及び合成フィルタバンクの有効な実施
JP6094322B2 (ja) 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
RU2451998C2 (ru) Эффективный способ проектирования набора фильтров для mdct/imdct в приложениях для кодирования речи и аудиосигналов
TWI470622B (zh) 用於低頻效應頻道降低複雜度之轉換
KR101411297B1 (ko) 저주파 효과 채널에 대한 복잡성 감소 변환
Britanak et al. Spectral Band Replication Compression Technology: Efficient Implementations of Complex Exponential-and Cosine-Modulated QMF Banks
Goodwin et al. Parametric coding and frequency-domain processing in multichannel audio applications
Kim et al. Implementation of a 16-Bit Fixed-Point MPEG-2/4 AAC Decoder for Mobile Audio Applications
Sinha et al. Wavelet based speech enhancement technique using median function thresholding

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140605

R150 Certificate of patent or registration of utility model

Ref document number: 5559304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees