JP4936569B2 - オーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法 - Google Patents

オーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法 Download PDF

Info

Publication number
JP4936569B2
JP4936569B2 JP2009533722A JP2009533722A JP4936569B2 JP 4936569 B2 JP4936569 B2 JP 4936569B2 JP 2009533722 A JP2009533722 A JP 2009533722A JP 2009533722 A JP2009533722 A JP 2009533722A JP 4936569 B2 JP4936569 B2 JP 4936569B2
Authority
JP
Japan
Prior art keywords
window
time domain
sample
audio
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009533722A
Other languages
English (en)
Other versions
JP2010507820A (ja
Inventor
シュネール、マルクス
ルツキー、マンフレート
ローヴァーサー、マルクス
シュミット、マルクス
ゲイヤー、マルク
メラー、ミカエル
エードラー、バーント
ムルトラス、マルクス
シューラー、ゲラルド
ゲイガー、ラルフ
グリル、バーンハート
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2010507820A publication Critical patent/JP2010507820A/ja
Application granted granted Critical
Publication of JP4936569B2 publication Critical patent/JP4936569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/0264Filter sets with mutual related characteristics
    • H03H17/0266Filter banks
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Liquid Crystal Substances (AREA)
  • Tires In General (AREA)
  • External Artificial Organs (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Developing Agents For Electrophotography (AREA)
  • Materials For Photolithography (AREA)
  • Peptides Or Proteins (AREA)

Description

本発明の実施形態はオーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法及び前記いずれかの装置を含むシステムに関し、本発明の実施形態は、例えば最近のオーディオ符号化、オーディオ復号化又は他のオーディオ転送に関する応用分野で実施可能である。
最近のデジタルオーディオ処理は、概して、オーディオデータの直接転送又は直接保存と比較して、ビットレート、転送帯域幅及び保存スペースに関してかなりの節約を可能にする符号化体系に基づいているものである。これは、オーディオデータを送信側で符号化し、符号化されたデータを例えばリスナー又は更なる信号処理部に提供する前に、受信側で復号化することによって達成される。
このようなデジタルオーディオ処理システムは、概して、一方では転送されたあるいは処理されたオーディオデータの質に影響を及ぼす広範囲のパラメータと、他方ではコンピュータ処理能力、帯域幅及び他の性能に関するパラメータに関して実施可能である。高品質であるためには、高いビットレート、複雑なコンピュータ処理及び対応する復号化されたオーディオデータのためのより大きい記憶容量が必要となることが非常によくある。従って、計画している応用により、許容ビットレート、容認可能なコンピュータ処理の複雑さ、容認可能なデータ量というような要因は、望ましい達成可能な質とバランスを取る必要がある。
双方向又は一方向通信のような同時アプリケーションにとって特に重要であるさらに別のパラメータや、異なる符号化体系によって生じる遅延もまた、重要な役割を果たす。従って、応用分野が計画中のものに特定されている異なる符号化体系の必要性とコストのバランスを取る際に、オーディオ符号化・復号化によって生じる遅延が、前述したパラメータの点から、さらに別の制限を与える。このようなデジタルオーディオシステムは超低質転送から最高転送までの多様な分野に応用可能であるので、異なるパラメータと異なる制限がそれぞれのオーディオシステムに課せられることが非常によくある。いくつかの応用において、より小さい遅延のために、より高いビットレートが必要とされ、従って、高い遅延を有するオーディオシステムと比較して、同等の質レベルとしては、より広い転送帯域が必要となる場合がある。
しかし、多くの場合、ビットレート、コンピュータ処理の複雑さ、メモリー条件、質及び遅延などの多様なパラメータに関して、妥協が必要とされる。
オーディオ副帯チャンネルのオーディオ副帯値を生成する装置の一実施形態は、ウィンドウ処理後サンプルを得るために、初期のサンプルから後期のサンプルに及ぶ時間列内にある時間領域オーディオ入力サンプルのフレームを、ウィンドウ係数列を含む解析ウィンドウ関数を使用してウィンドウ処理するための解析ウィンドウ処理部を有する。解析ウィンドウ関数は、ウィンドウ係数の第1部分を含むウィンドウ係数第1グループ、及びウィンドウ係数の第2部分を含むウィンドウ係数第2グループを含み、第1部分は第2部分よりも少ない個数のウィンドウ係数を含み、第1部分のウィンドウ係数のエネルギー値は第2部分のウィンドウ係数のエネルギー値よりも高い。ウィンドウ係数第1グループは後期の時間領域サンプルをウィンドウ処理するために使用され、ウィンドウ係数第2グループは初期の時間領域サンプルをウィンドウ処理するために使用される。さらに、この実施形態は、ウィンドウ処理後サンプルを使用してオーディオ副帯値を算出する計算機を有する。
時間領域オーディオサンプルを生成する装置の一実施形態は、オーディオ副帯チャンネルのオーディオ副帯値から中間時間領域サンプル列を算出するための計算機を有し、この中間時間領域サンプル列は初期の中間時間領域サンプル及び後期の中間時間領域サンプルを含む。この実施形態は、さらに、ウィンドウ処理後中間時間領域サンプルを得るために、ウィンドウ係数列を含む合成ウィンドウ関数を使用して、中間時間領域サンプル列をウィンドウ処理するための合成ウィンドウ処理部を有する。この合成ウィンドウ処理部は、ウィンドウ係数の第1部分を含むウィンドウ係数第1グループ、及びウィンドウ係数の第2部分を含むウィンドウ係数第2グループを含む。第1部分は第2部分よりも少ない個数のウィンドウ係数を含み、第1部分のウィンドウ係数のエネルギー値は第2部分のウィンドウ係数のエネルギー値よりも高い。ウィンドウ係数第1グループは後期の中間時間領域サンプルをウィンドウ処理するために使用され、ウィンドウ係数第2グループは初期の中間時間領域サンプルをウィンドウ処理するために使用される。さらに、この時間領域オーディオサンプルを生成する装置の一実施形態は、時間領域サンプルを得るために、ウィンドウ処理後中間時間領域サンプルを処理するための重複/加算出力部を有する。
オーディオ副帯値生成装置の一実施形態のブロック図である。 時間領域オーディオサンプル生成装置の一実施形態のブロック図である。 時間領域サンプル生成装置という形での本発明の実施形態に係る機能原理を示す。 本発明の一実施形態に係るウィンドウ係数の補間の概念を示す。 正弦ウィンドウ関数の場合のウィンドウ係数の補間を示す。 SBRデコーダ及びSBRエンコーダを有する本発明の一実施形態のブロック図である。 SBRシステムの遅延源を示す。 オーディオ副帯値生成方法の一実施形態のフローチャートである。 図7Aの方法の実施形態の一ステップを示す。 オーディオ副帯値生成方法の一実施形態のフローチャートである。 時間領域サンプル生成方法の一実施形態のフローチャートである。 時間領域サンプル生成方法の一実施形態のフローチャートである。 時間領域サンプル生成方法の別の実施形態のフローチャートである。 時間領域サンプル生成方法のさらに別の実施形態のフローチャートである。 オーディオ副帯値生成方法の実施形態の可能な実行を示す。 オーディオ副帯値生成方法の実施形態の可能な実行を示す。 時間領域サンプル生成方法の一実施形態の可能な実行を示す。 時間領域サンプル生成方法の一実施形態の別の可能な実行を示す。 本発明の一実施形態に係る合成ウィンドウ関数と正弦ウィンドウ関数との比較を示す。 本発明の一実施形態に係る合成ウィンドウ関数とSBR QMFプロトタイプフィルター関数との比較を示す。 図12のウィンドウ関数とプロトタイプフィルター関数それぞれによって生じる多様な遅延を示す。 従来のAAC−LD+SBRコーデックと本発明の一実施形態を含むAAC−ELDコーデックそれぞれの遅延に対する影響を示す表である。 多様なコーデックの多様な部品の遅延に関する詳細を示す表である。 本発明の一実施形態に係るウィンドウ関数を使用した装置と正弦ウィンドウ関数を使用した装置との周波数応答に関する比較を示す。 図15Aに示す周波数応答の一部拡大図である。 四つの異なるウィンドウ関数の周波数応答に関する比較を示す。 図16Aに示す周波数応答の一部拡大図である。 二つの異なるウィンドウ関数の周波数応答に関する比較を示し、一つは本発明に係るウィンドウ関数であり、もう一つは対称ウィンドウ関数である。 人間の耳の一般的な一時的マスキング特性を示す概略図である。 元々のオーディオ時間信号、HEAACコーデックに基づき生成された時間信号及び本発明の一実施形態を含むコーデックに基づく時間信号の比較を示す。 元々のオーディオ時間信号、HEAACコーデックに基づき生成された時間信号及び本発明の一実施形態を含むコーデックに基づく時間信号の比較を示す。 元々のオーディオ時間信号、HEAACコーデックに基づき生成された時間信号及び本発明の一実施形態を含むコーデックに基づく時間信号の比較を示す。
以下に、添付図面を参照して本発明の実施形態を説明する。
図1〜図19は、オーディオ副帯値を生成する装置及び方法、時間領域サンプルを生成する装置及び方法、並びに前記装置及び方法のうちの少なくとも一つを含むシステムの多様な実施形態の機能的特性及び特徴を説明するブロック図及び他の図表を示す。本発明の第1実施形態を詳細に説明する前に、本発明の実施形態はハードウェア及びソフトウェアで実現可能であることを明記しておく。従って、それぞれの実施形態のハードウェア実施のブロック図に関する説明は、それに相当する方法の適当な実施形態に関するフローチャートとしても考えられ得る。また、本発明の一実施形態を説明するフローチャートは、それに相当するハードウェア実施のブロック図としても考えられ得る。
以下に、フィルターバンクの実施形態を説明するが、それらは解析フィルターバンク又は合成フィルターバンクとして実施可能である。解析フィルターバンクは、初期のサンプルから後期のサンプルに至る時間系列に存在する時間領域オーディオ(入力)サンプルに基づき、オーディオ副帯チャンネルのオーディオ副帯値を生成する装置である。換言すれば、解析フィルターバンクという言葉は、オーディオ副帯値生成装置という形での本発明の一実施形態と同義に使用できる。同様に、合成フルターバンクは、オーディオ副帯チャンネルのオーディオ副帯値から時間領域オーディオサンプルを生成するためのフィルターバンクである。つまり、合成フィルターバンクという言葉は、時間領域オーディオサンプル生成装置という形での本発明の一実施形態と同義に使用できる。
解析フィルターバンク及び合成フィルターバンクはどちらも概してフィルターバンクと称されるが、例えば変調フィルターバンクとして実施できる。変調フィルターバンクの例や実施形態は後に詳述するが、それらは周波数領域の対応する副帯の中心周波数に基づく周波数を有する振動に基づくものである。「変調」という言葉は、ここでは、前記振動が、このような変調フィルターバンクの詳細な実施状況に応じて、ウィンドウ関数又はプロトタイプフィルター関数に関して使用されるという事実を示している。変調フィルターバンクは、原則的に、調和振動(正弦振動又は余弦振動)などの実数値振動、又は複合値振動(複素励振)に基づき可能である。従って、変調フィルターバンクは、実数変調フィルターバンク又は複合フィルター変調フィルターバンクと称される。
以下に、複合変調低遅延フィルターバンク及び実数変調低遅延フィルターバンクという形での本発明の実施形態、及びこれらに相当する方法とソフトウェア実施を詳細に説明する。このような変調低遅延フィルターバンクの主な応用の一つは低遅延スペクトル帯域再生システム(SBR)への統合であり、SBRは、現在、対称プロトタイプフィルターと共に複合QMFフィルターバンク(QMF=直角ミラーフィルター)の使用に基づくものである。
本明細書の以下の説明から明らかになるであろうが、本発明の実施形態に係る低遅延フィルターバンクは、遅延、周波数応答、一時的なノイズ分散及び再生の質の間のトレードオフを向上させるという利点を有する。
特に、遅延と再生の質との間の前記トレードオフの向上は、更なる遅延を生み出すことなく、それぞれのフィルターバンクのフィルターインパルス応答を向上させるためのいわゆる0遅延技術を使用する方法に基づくものである。本発明の一実施形態に係る解析フィルターバンク又は合成フィルターバンクを採用することにより、既定の質のレベルでのより低い遅延、既定の遅延レベルでのより高い質、又は遅延と質両方同時の向上が達成できる。
本発明の実施形態は、これらの向上は、前述の二つのフィルターバンクのいずれかに新たなウィンドウ関数を使用することで達成できる。換言すれば、質及び/又は遅延は、以下のような一つのウィンドウ係数列を含む解析ウィンドウ関数を解析フィルターバンクに使用することで向上できる。このウィンドウ関数は、前記ウィンドウ係数列の第1連続部分を含む第1グループ、及び前記ウィンドウ係数列の第2連続部分を含む第2グループを含む。第1部分及び第2部分はウィンドウ関数の全てのウィンドウ係数を含む。さらに、第1部分は第2部分よりも少ない個数のウィンドウ係数を含むが、第1部分内のウィンドウ係数のエネルギー値は第2部分内のウィンドウ係数のエネルギー値よりも高い。第1グループのウィンドウ係数は後期の時間領域サンプルをウィンドウ処理するのに使用され、第2部分のウィンドウ係数は初期の時間領域サンプルをウィンドウ処理するのに使用される。ウィンドウ関数のこの形が、時間領域サンプルを、初期に、高いエネルギー値を有するウィンドウ係数で処理する機会を与えることになる。これは、前述したようなウィンドウ係数の二つの部分への配置と、これらのウィンドウ係数の時間領域オーディオサンプル列への応用の結果である。つまり、このようなウィンドウ関数の使用により、ある一定の質レベルでフィルターバンクにより導入される遅延の低下、あるいは、ある一定の遅延レベルにおける質の向上が可能となる。
従って、時間領域オーディオサンプルを生成する装置及び方法という形での本発明の実施形態において、合成ウィンドウ処理部は、第1(連続)部分と第2(連続)部分に対応して整列された一列の合成ウィンドウ係数を含む合成ウィンドウ関数を使用する。また、合成ウィンドウ関数において、第1部分のウィンドウ係数のエネルギー値つまり第1部分全体のエネルギー値は第2部分のウィンドウ係数のエネルギー値つまり第2部分全体のエネルギー値よりも高く、第1部分のウィンドウ係数の個数は第2部分のウィンドウ係数の個数よりも少ない。このウィンドウ係数の二つの部分への配置のために、また、合成ウィンドウ処理部は後期の時間領域サンプルをウィンドウ処理するために第1部分のウィンドウ係数を使用し、初期の時間領域サンプルをウィンドウ処理するために第2部分のウィンドウ係数を使用するという事実のために、前述の効果及び利点が合成フィルターバンク又はこれに相当する方法の実施形態にもあてはまる。
本発明の構成に採用される合成ウィンドウ関数及び解析ウィンドウ関数について、以下に詳細に説明する。本発明の多くの実施形態において、合成ウィンドウ関数及び/又は解析ウィンドウ関数のウィンドウ係数列は、正に第1グループのウィンドウ係数と第2グループのウィンドウ係数から成る。さらに言えば、ウィンドウ係数列の各ウィンドウ係数は、第1グループ又は第2グループのどちらかに正に属する。
第1グループ、第2グループのそれぞれは、ウィンドウ係数列の正に一部分を連続的に含む。本明細書では、一部分は、ウィンドウ係数列に応じた一組の連続したウィンドウ係数を含む。本発明の実施形態において、第1グループ、第2グループのそれぞれは、まさに前述のようなウィンドウ係数列の一部分を含む。それぞれのウィンドウ係数グループは、それぞれのグループの一部分に属さないいかなるウィンドウ係数も含まない。換言すれば、本発明の多くの実施形態において、ウィンドウ係数第1グループ、第2グループのそれぞれは、ウィンドウ係数第1部分とウィンドウ係数第2部分のみを含み、それ以外のウィンドウ係数は含まない。
本明細書において、ウィンドウ係数列の連続部分は、数学的な意味でウィンドウ係数の連続集合として理解されるべきものであり、この集合には、それぞれの部分のウィンドウ係数の一範囲(例えば指数範囲)に存在する一連のウィンドウ係数と比較して、欠けたウィンドウ係数が全くない。つまり、本発明の多くの実施形態において、ウィンドウ係数列は正に二つのウィンドウ係数連続部分に分けられ、これらはそれぞれウィンドウ係数の第1グループ、第2グループを形成する。これらの場合、ウィンドウ係数第1グループに含まれる各ウィンドウ係数は、ウィンドウ係数列全体に関して、ウィンドウ係数第2グループの各ウィンドウ係数の前又は後に配置されている。
さらに換言すると、本発明の多くの実施形態において、ウィンドウ係数列は、いかなるウィンドウ係数をも省略することなく、正に二つのグループに分けられる。ウィンドウ係数列、また、これらの順序に応じて、二つのグループのそれぞれは、ボーダーウィンドウ係数まで(ボーダーウィンドウ係数を除く)、あるいはボーダーウィンドウ係数から(ボーダーウィンドウ係数を含む)全てのウィンドウ係数を含む。一例として、640個のウィンドウ係数(指数0〜639)を含むウィンドウ関数の場合、第1部分つまり第1グループは指数0〜95のウィンドウ係数を含み、第2部分つまり第2グループは指数96〜639のウィンドウ係数を含んでいてもよい。ここで、ボーダーのウィンドウ係数は指数96のウィンドウ係数である。当然、他の例も可能である(例えば、0〜543と544〜639)。
以下に説明する解析フィルターバンクの実施形態は、10ブロックの入力サンプルをカバーするフィルター長を有するが、たった2ブロックのシステム遅延しか生じさせないものである。この遅延は、MDCT(修正離散余弦変換)又はMDST(修正離散正弦変換)によって引き起こされる遅延と同程度のものである。MDCT又はMDSTを使用する場合との違いは、フィルター長が10ブロックの入力サンプルをカバーする長いものであるので、重複がMDCT又はMDSTの場合の1ブロックから9ブロックに増加することである。しかし、別の個数の入力サンプル(オーディオ入力サンプルと称してもよい)ブロックをカバーするような別の実施が行われてもよい。さらに、他のトレードオフも考慮でき、実行することも可能である。
図1は、オーディオ副帯チャンネルのオーディオ副帯値を生成するための装置の一実施形態として、解析フィルターバンク100を示すブロック図である。解析フィルターバンク100は、時間領域オーディオ入力サンプルフレーム120をウィンドウ処理するための解析ウィンドウ処理部110を有する。フレーム120は、T個の時間領域オーディオ(入力)サンプルブロック130−1,…,130−Tを含み、Tは整数であり、図1の実施形態の場合、Tは10である。しかし、フレーム120は別の個数のブロック130を含んでいてもよい。
フレーム120も各ブロック130も、図1中矢印140で示されている時間軸に沿って初期のサンプルから後期のサンプルに至る時間列内の時間領域オーディオ入力サンプルを含む。換言すれば、図1において、時間領域オーディオサンプル(この場合、時間領域オーディオ入力サンプルでもある)が右寄りであればあるほど、その時間領域オーディオサンプルは、時間領域オーディオサンプル列に関して後方にある。
解析ウィンドウ処理部110は、時間領域オーディオサンプル列に基づき、時間領域のウィンドウ処理後サンプルを生成し、それらはウィンドウ処理後サンプルのフレーム150に配列される。時間領域オーディオ入力サンプルのフレーム120に応じて、ウィンドウ処理後サンプルのフレーム150も、T個のウィンドウ処理後サンプルブロック160−1,…,160−Tを含む。本発明の好ましい実施形態において、ウィンドウ処理後サンプルの各ブロック160は、時間領域オーディオ入力サンプルの各ブロック130内のオーディオ入力サンプルと同じ個数のウィンドウ処理後サンプルを含む。従って、各ブロック130がN個の時間領域入力オーディオサンプルを含む場合、フレーム120及びフレーム150のそれぞれはT・N個のサンプルを含む。この場合、Nは正の整数で、例えば32又は64という値を取る。この場合、T=10であれば、フレーム120,150のそれぞれは320又は640個のサンプルを含む。
解析ウィンドウ処理部110は、解析ウィンドウ処理部110によって与えられるウィンドウ処理後サンプルに基づきオーディオ副帯値を算出する計算機170に接続されている。オーディオ副帯値は計算機170によってオーディオ副帯値ブロック180として与えられ、各オーディオ副帯値は一つのオーディオ副帯チャンネルに相当する。本実施形態において、オーディオ副帯値ブロック180もまたN個の副帯値を含む。
各オーディオ副帯値チャンネルは特有の中心周波数に対応する。多様なオーディオ副帯チャンネルの中心周波数は、例えば、解析フィルターバンク100に与えられる時間領域オーディオ入力サンプルによって説明されるようなオーディオ信号の周波数帯域幅に関して、等しく分配又は等間隔で配置されている。
解析ウィンドウ処理部110は、フレーム150のウィンドウ処理後サンプルを得るために、フレーム120の時間領域オーディオ入力サンプルを、ウィンドウ係数列を含む解析ウィンドウ関数に基づきウィンドウ処理する。解析ウィンドウ処理部110は、時間領域オーディオサンプルフレーム120のウィンドウ処理を、時間領域オーディオサンプルを解析ウィンドウ関数のウィンドウ係数で掛け算することにより行うものである。換言すれば、ウィンドウ処理は、時間領域オーディオサンプルと対応するウィンドウ係数との素子ごとの掛け算を含む。時間領域オーディオサンプル及びウィンドウ係数はどちらも対応する列であるので、ウィンドウ係数と時間領域オーディオサンプルとの素子ごとの掛け算は、例えばサンプルとウィンドウ係数指数によって示されるようなそれぞれの順序に基づき行われる。
図1に示すような解析フィルターバンク100という形での本発明の実施形態における解析ウィンドウ関数及び合成フィルターバンクの場合の合成ウィンドウ関数は、実数値のウィンドウ係数のみを含む。つまり、ウィンドウ係数指数に帰する各ウィンドウ係数は実数値である。
ウィンドウ係数全体でそれぞれのウィンドウ関数を形成し、この一例が図1に解析ウィンドウ関数190として示されている。前述したように、解析ウィンドウ関数190を形成するウィンドウ係数列はウィンドウ係数の第1グループ200及び第2グループ210を含む。第1グループ200は、ウィンドウ係数列のうちのウィンドウ係数第1連続部分を含み、第2グループ210はウィンドウ係数第2連続部分を含む。第1グループ200の第1部分と第2グループ210の第2部分は、解析ウィンドウ関数190のウィンドウ係数列全体を形成する。さらに、ウィンドウ係数列の各ウィンドウ係数は、ウィンドウ係数の第1部分又は第2部分のどちらかに属し、従って、解析ウィンドウ関数190全体が第1部分及び第2部分のウィンドウ係数によって形成される。図1中矢印200,210で示されているように、ここでは、ウィンドウ係数第1部分はウィンドウ係数第1グループ200と同じであり、ウィンドウ係数第2部分はウィンドウ係数第2グループ200と同じである。
ウィンドウ係数第1グループ200のウィンドウ係数の個数は、ウィンドウ係数第2グループ210のウィンドウ係数の個数よりも少ない。しかし、第1グループ200のエネルギー値つまりその全体のエネルギー値は、第2グループ210のエネルギー値つまりその全体のエネルギー値よりも高い。以下に説明するように、ウィンドウ係数の集合のエネルギー値は、そのウィンドウ係数の絶対値の2乗の合計に基づく。
本発明の実施形態において、解析ウィンドウ関数190及びそれに対応する合成ウィンドウ関数は、ウィンドウ係数列又はウィンドウ係数の指数に関して、非対称である。解析ウィンドウ190を定義するウィンドウ係数指数の定義集合において、全ての実数nに対して、別の実数n0が、ウィンドウ係数指数(n0−n)に対応するウィンドウ係数の絶対値がウィンドウ係数指数(n0+n)に対応するウィンドウ係数の絶対値とは等しくならない((n0−n)及び(n0+n)は定義集合に属する)ように存在する場合、解析ウィンドウ関数190は非対称である。
また、図1に概略的に示されているように、解析ウィンドウ関数190は、二つの連続するウィンドウ係数の積が負となる符号変換を含む。本発明の実施形態に係る可能なウィンドウ関数の特徴に関しては、図11〜19を参照して後に詳述する。
前述したように、ウィンドウ処理後サンプルフレーム150は、時間領域入力サンプルフレーム120と同様に、個々のブロック160−1,…,160−Tから成るブロック構造を有する。解析ウィンドウ処理部110は、時間領域オーディオ入力サンプルの値を解析ウィンドウ関数190のウィンドウ係数で掛け算することにより、時間領域オーディオ入力サンプルをウィンドウ処理するものであるので、ウィンドウ処理後サンプルフレーム150もまた時間領域である。計算機170は、ウィンドウ処理後サンプルフレーム150を使用してオーディオ副帯値、あるいはより詳細には、オーディオ副帯値ブロック180を算出し、時間領域から周波数領域への変換を行う。従って計算機170は時間/周波数コンバータと見なすことができ、オーディオ副帯値ブロック180をウィンドウ処理後サンプルフレーム150のスペクトル表示として与えることができる。
ブロック180の各オーディオ副帯値は特有の周波数を有する一つの副帯に相当する。ブロック180に含まれるオーディオ副帯値の個数は帯域数と称される場合もある。
本発明の多くの実施形態において、ブロック180のオーディオ副帯値の個数は、フレーム120の各ブロック130内の時間領域オーディオ入力サンプルの個数と同じである。ウィンドウ処理後サンプルフレーム150がフレーム120と同じブロック構造を有し、ウィンドウ処理後サンプルの各ブロック160が時間領域オーディオ入力サンプルの各ブロック130内と同じ個数のウィンドウ処理後サンプルを含む場合、オーディオ副帯値のブロック180も当然、ブロック160内と同じ個数の値を含む。
フレーム120は、新たな時間領域オーディオ入力サンプルのブロックに基づき、ブロック130−1,…,130−(T−1)を、時間方向を示す矢印140とは逆の方向に一ブロック移動させることにより、任意に生成できる。これにより、処理されるべき時間領域オーディオ入力サンプルフレーム120は、直前の時間領域オーディオサンプルフレーム120の(T−1)個の後期のブロックを初期の時間領域オーディオサンプルの方向に一ブロック分だけ移動させ、新たな時間領域オーディオ入力サンプルの新しいブロック220を、現在のフレーム120の最新の時間領域オーディオ入力サンプルを含む新しいブロック130−1として追加することにより、生成される。図1中、これは、ブロック130−1,…,130−(T−1)の矢印140とは反対方向への移動を示す一連の点線矢印230によって示されている。
ブロック130の矢印140で示される時間方向とは反対方向への移動により、処理されるべき現在のフレーム120は、直前のフレーム120のブロック130−(T−1)を新たな130−Tのブロックとして含む。同様に、処理されるべき現在のフレーム120のブロック130−(T−1),…,130−2は、直前のフレーム120のブロック130−(T−2),…,130−1と同じである。直前のフレーム120のブロック130−Tは廃棄される。
従って、新しいブロック220内の各時間領域オーディオサンプルは、時間領域オーディオ入力サンプルのT個の連続するフレーム120をT回連続して処理する間に、それぞれT回処理される。従って、新しいブロック220内の各時間領域オーディオ入力サンプルはT個の異なるフレーム120の一部となるだけでなく、T個の異なるウィンドウ処理後サンプルフレーム150及びT個のオーディオ副帯値ブロック180の一要因となる。前述したように、本発明の好ましい実施形態においては、フレーム120のブロックの個数Tは10であり、解析フィルターバンク100に与えられる各時間領域オーディオサンプルは、10個の異なるオーディオ副帯値ブロック180に影響する。
最初に、一つのフレーム120が解析フィルターバンク100によって処理される前に、そのフレーム120は小さな絶対値(既定の閾値未満)、例えば0に初期化され得る。以下に詳述するが、解析ウィンドウ関数190の形は、中心点または「質量の中心」を有し、それは典型的には第1グループ200の二つのウィンドウ係数指数の間に位置する。
従って、フレーム120が、少なくとも部分的に、そのエネルギー値に関して重要な要因となるウィンドウ係数に相当する消失しない値(つまり0ではない値)で占められるような点まで埋められる前に、フレーム120に挿入される新しいブロック220の数は少ない。典型的には、「意味のある」処理が開始可能となる前にフレーム120に挿入されるべきブロックの数は、解析ウィンドウ関数190の形により、2〜4ブロックである。従って、解析フィルターバンク100は、例えば対称ウィンドウ関数を使用している対応するフィルターバンクよりも速くブロック180を提供することができる。典型的には新しいブロック220はひとまとめで解析フィルターバンク100に与えられるので、各新しいブロックは、基本的にブロック220の長さ(つまり、ブロック220に含まれる時間領域オーディオ入力サンプルの数)によって決まる記録又はサンプリング時間及びサンプリング速度又はサンプリング周波数に対応する。故に、本発明の実施形態に用いられるような解析ウィンドウ関数190は、オーディオ副帯値の第1及びそれに引き続くブロック180がフィルターバンク100によって提供又は出力される前の遅延を小さくする。
更なる選択として、装置100は、フレーム180を生成する際に使用される解析ウィンドウ関数190に関する情報または合成フィルターバンクの構造に使用されるべき合成ウィンドウ関数に関する情報を含む信号を生成してもよい。従って、解析フィルター関数190は、例えば、合成フィルターバンクによって使用されるべき合成ウィンドウ関数の時間逆転又は指数逆転のものであってもよい。
図2Aは、オーディオ副帯値ブロックに基づき時間領域オーディオサンプルを生成する装置300の一実施形態を示すブロック図である。前述したように、時間領域オーディオサンプルを生成する装置300としての本発明の一実施形態は、しばしば合成フィルターバンクとも称される。この装置は時間領域オーディオサンプルを生成することができ、時間領域オーディオサンプルは原則的に、オーディオ信号に関するスペクトル情報を含むオーディオ副帯値に基づき再生可能である。従って、合成フィルターバンク300は、オーディオ副帯値に基づき時間領域オーディオサンプルを合成することができるが、これらのオーディオ副帯値は例えば対応する解析フィルターバンク100によって生成できる。
図2Aのブロック図に示す合成フィルターバンク300は計算機310を含み、そこに(周波数領域の)オーディオ副帯値ブロック320が与えられる。計算機310は、ブロック320のオーディオ副帯値から、中間時間領域サンプル列を含むフレーム330を算出することができる。本発明の多くの実施形態において、中間時間領域サンプルフレーム330もまた、例えば図1の解析フィルターバンク100のウィンドウ処理後サンプルフレーム150と同様のブロック構造を有している。このような場合、フレーム330は中間時間領域サンプルのブロック340−1,…,340−Tを含む。
フレーム330の中間時間領域サンプル列及び中間時間領域サンプルの各ブロック340は、図2Aの矢印350によって示されるような時間に基づく順序を有する。従って、フレーム330は、ブロック340−T内に初期の中間時間領域サンプル、そしてブロック340−1内に最新の中間時間領域サンプルを含み、それぞれのブロック340−T,340−1内のサンプルは、つまりフレーム330における最初と最後の中間時間領域サンプルである。また、各ブロック340も同様の順序を有している。つまり、合成フィルターバンクの実施形態において、「フレーム」という言葉と「列」という言葉はしばしば同意語として使用される。
計算機310は、中間時間領域サンプルフレーム330がそこに与えられる合成ウィンドウ処理部360と組み合わされている。合成ウィンドウ処理部360は、図2Aに概略的に示すように、合成ウィンドウ関数370を使用して中間時間領域サンプル列をウィンドウ処理するように構成されている。合成ウィンドウ処理部360は、一つの出力として、ウィンドウ処理後中間時間領域サンプルフレーム380を提供し、このフレーム380もまたブロック390−1,…,390−Tというブロック構造を有している。
フレーム330と380は、それぞれT個(Tは正の整数)のブロック340,390を含んでいてもよい。合成フィルターバンク300としての本発明の好ましい実施形態において、ブロックの個数Tは10である。しかし、異なる実施形態において、それぞれのフレームのブロックの個数はこれと異なっていてもよい。より正確には、どちらもブロック構造である解析フィルターバンク100と合成フィルターバンク300を含む本発明の実施形態における実施環境や前述したトレードオフに応じて、ブロックの個数Tは原則的には3以上又は4以上である。
合成ウィンドウ処理部360は重複加算出力部400と組み合わされ、そこにはウィンドウ処理後中間時間領域サンプルが与えられる。重複加算出力部400は、時間領域サンプルブロック410を得るために、ウィンドウ処理後中間時間領域サンプルを処理することができる。時間領域(出力)サンプルは、その後、例えば更なる処理、保存または視聴可能なオーディオ信号への変換のための別の部材に与えられ得る。
フレーム330に含まれる時間領域サンプル列を算出するための計算機310は、データを周波数領域から時間領域に変換可能である。故に、計算機310は、オーディオ副帯値ブロック320に含まれるスペクトル表示の時間領域信号を生成可能な周波数/時間コンバータを含んでいてもよい。図1に示した解析フィルターバンク100の計算機170で説明したように、ブロック320の各オーディオ副帯値は、特徴的な中心周波数を有するオーディオ副帯チャンネルに相当する。
これとは対照的に、フレーム330に含まれる中間時間領域サンプルは、原則的に時間領域の情報である。合成ウィンドウ処理部360は、図2Aに概略的に示すように、合成ウィンドウ関数370を使用してフレーム330に含まれている中間時間領域サンプル列をウィンドウ処理できる。合成ウィンドウ関数370はウィンドウ係数列を含み、これもまた、前述のウィンドウ係数の第1グループ200及び第2グループ210を有するウィンドウ関数190と同様に、ウィンドウ係数の第1グループ420と第2グループ430を含むものである。
合成ウィンドウ関数370の第1グループ420のウィンドウ係数はウィンドウ係数列の第1連続部分を含む。同様に、第2グループ430のウィンドウ係数もウィンドウ係数列の第2連続部分を含む。第1部分は第2部分よりも少ない個数のウィンドウ係数を含み、第1部分のウィンドウ係数のエネルギー値つまり第1部分の全体エネルギー値は第2部分のウィンドウ係数の同様のエネルギー値よりも高い。合成ウィンドウ関数370の更なる特徴や特性は、図1に概略的に示されているような解析ウィンドウ関数190の特徴や特性と同様のものであってもよい。従って、ここでは解析ウィンドウ関数190の構造について説明し、さらに図11〜図19を参照したウィンドウ関数の説明においては、第1グループ200は第1グループ420に相当し、第2グループ210は第2グループ430に相当する。
例えば、ウィンドウ係数の二つのグループ420,430の部分は、典型的には、それぞれウィンドウ係数の連続集合を形成し、これら両方のウィンドウ係数の集合内にウィンドウ関数370のウィンドウ係数列の全てのウィンドウ係数を含む。本発明の多くの実施形態において、図1に示すような解析ウィンドウ関数190と図2Aに示すような合成ウィンドウ関数370は互いを基礎とするものである。例えば、解析ウィンドウ関数190は合成ウィンドウ関数370の時間逆転版又は指数逆転版であってもよい。しかし、これら二つのウィンドウ関数190,370の関係は他のものであってもよい。合成ウィンドウ処理部360で使用される合成ウィンドウ関数370は、合成フィルターバンク300に与えられたオーディオ副帯値ブロック320を生成する(その後任意に更なる変更が行われてもよい)際に使用された解析ウィンドウ関数190に関連するものであることが望ましい。
図1に関して述べたように、図2Aの合成フィルターバンク300は、入力されてくるブロック320がウィンドウ関数に関する信号又は情報を更に含むように構成されてもよい。一例として、ブロック320は、ブロック320を生成するのに使用された解析ウィンドウ関数190に関する情報、又は合成ウィンドウ処理部360によって使用されるべき合成ウィンドウ関数370に関する情報を含んでいてもよい。従って、フィルターバンク300はそれぞれの情報を分離し、合成ウィンドウ処理部360にこれらを与えるものであってもよい。
重複加算出力部400は、フレーム380に含まれるウィンドウ処理後中間時間領域サンプルを処理することで、時間領域サンプルブロック410を生成することができる。本発明の多様な実施形態において、重複加算出力部400は以前に受信したウィンドウ処理後中間時間領域サンプルブロック380を一時的に記憶するためのメモリーを有していてもよい。実施の詳細な状況により、重複加算出力部400は、例えば、合計T個のウィンドウ処理後中間時間領域サンプルフレームを記憶するためのT個の記憶部をメモリー内に有していてもよい。しかし、必要に応じて他の個数の記憶部が重複加算出力部400に含まれていてもよい。さらに、本発明の多様な実施形態において、重複加算出力部400は、1個の中間時間領域サンプルブロック380に基づき、時間領域サンプルブロック410を生成するものであってもよい。多様な合成フィルターバンク300の実施形態を以下に詳述する。
図2Bは、合成フィルターバンク300という形での本発明の実施形態の機能原理を説明するものである。オーディオ副帯値ブロック320は、最初に計算機310によって周波数領域から時間領域に変換されるが、これは図2B中矢印440で示される。中間時間領域サンプルブロック340−1,…,340−Tを含む中間時間領域サンプルフレーム320は、その後、合成ウィンドウ処理部360(図2Bでは図示せず)によってウィンドウ処理される。つまり、フレーム320の中間時間領域サンプル列を合成ウィンドウ関数370のウィンドウ係数列で掛け算し、ウィンドウ処理後中間時間領域サンプルフレーム380を得る。フレーム380は、ここでもウィンドウ処理後中間時間領域サンプルブロック390−1,…,390−Tを含み、これらのブロックは全体としてウィンドウ処理後中間時間領域サンプルフレーム380を形成している。
本発明に係る合成フィルターバンク300の図2Bに示す実施形態において、その後、重複加算出力部400が時間領域出力サンプルブロック410を生成することができる。つまり、ブロック410の時間領域オーディオサンプルの各指数値のために、異なるフレーム380の一つのブロック390のウィンドウ処理後中間時間領域サンプルを合算する。図2Bに示すように、各オーディオサンプル指数のために、合成ウィンドウ処理部360により現在処理されており前述したようなフレーム380のブロック390−1の一つのウィンドウ処理後中間時間領域サンプルと、このフレーム380の直前に処理されて重複加算出力部400の記憶部に保存されたフレーム380−1の第2ブロック390−2内の前記ウィンドウ処理後中間時間領域サンプルに相当するウィンドウ処理後中間時間領域サンプルとを合算することで、ブロック410の時間領域オーディオサンプルが得られる。図2Bに示すように、合成フィルターバンク300によりさらに以前に処理されたフレームのブロック(例えば、フレーム380−2のブロック390−3、フレーム380−3のブロック390−4、フレーム380−4のブロック390−5)の相当するウィンドウ処理後中間時間領域サンプルが、さらに使用されてもよい。これらのフレーム380−2,380−3,380−4及びさらに別のフレーム380は、以前に合成フィルターバンク300で処理されたものである。フレーム380−2はフレーム380−1の直前に処理され、フレーム380−3はフレーム380−2の直前に生成されたものであり、以下同様である。
本実施形態に採用されている重複加算出力部400は、時間領域(出力)サンプルブロック410の各指数のために、T個の異なるフレーム380,380−1,…,380−(T−1)からのT個の異なるブロック390−1,…,390−Tを合算することができる。従って、最初に処理されたT個のブロックは別として、ブロック410の各時間領域(出力)サンプルはT個の異なるオーディオ副帯値ブロック320に基づくものである。
本発明の実施形態における図1に示す解析フィルターバンク100と同様に、合成フィルターバンク300は時間領域(出力)サンプルブロック410を迅速に与えることができる。これは、合成ウィンドウ関数370の形によるものである。ウィンドウ係数第1グループ420は第2グループ430よりも高いエネルギー値を有し、少ない個数のウィンドウ係数を含むので、合成ウィンドウ処理部360は、中間時間領域サンプルのフレーム330が少なくとも第1グループ420のウィンドウ係数がフレーム380に影響を及ぼすように埋められる場合に、「意味のある」ウィンドウ処理後サンプルフレームを提供することができる。第2グループ430のウィンドウ係数は、そのエネルギー値が小さいために、影響力は小さい。
故に、最初に合成フィルターバンク300が0で初期化された場合、原則的に、合成フィルターバンク300はわずか2〜3個のオーディオ副帯値ブロックを受け取っただけで、ブロック410を供給し始めることができる。従って、合成フィルターバンク300もまた、例えば対称合成ウィンドウ関数を使用する合成フィルターバンクと比較して、かなりの遅延低下を可能とする。
前述したように、図1、図2Aに示す実施形態の計算機170,310は、それぞれブロック180,320の実数のオーディオ副帯値を生成可能又は処理可能である実数値計算機であってもよい。これらの場合、計算機は例えば正弦関数や余弦関数のような調和振動関数に基づく実数値計算機として実施してもよい。しかし、計算機170,310として、複合値計算機も使用できる。これらの場合、計算機は例えば複合指数関数又は他の調和複合値関数に基づき実施されてもよい。実数値振動又は複合値振動の周波数は、通常、オーディオ副帯値の指数による。オーディオ副帯値の指数は、特定の副帯の帯域指数又は副帯指数と称される場合もある。さらに、その周波数は対応する副帯の中心周波数と同じもの、あるいはそれに応じたものであってもよい。例えば、振動周波数は、一定の率で掛け算されて対応する副帯の中心周波数に関してずらされてもよいし、あるいは両方の変更の組み合わせによるものであってもよい。
複合値計算機170,310は実数値計算機に基づき構成又は実施されてもよい。例えば、複合値計算機に関して、複合値成分の実数部分と虚数部分を示すフィルターバンクの余弦変調部分と正弦変調部分両方のために、原則的に効率的な実施が行われ得る。これは、例えば修正DCT−IV構造及びDST−IV構造に基づく余弦変調部分及び正弦変調部分の両方の実施が可能であることを意味している。また、別の実施において、FFT(FFT=高速フーリエ変換)を随意に使用してもよい。複合変調計算機の実数部分と虚数部分の両方のために一つのFFT(高速フーリエ変換)が共通して使用されるか、または各変換のために別々のFFTが使用される。
数学的説明
前述したような更なる遅延を生じさせない過去への8ブロックの重複部分と、MDCT(修正離散余弦変換)/MDST(修正離散正弦変換)構造と同じ遅延を引き起こす未来への1ブロックの重複部分を有する解析フィルターバンク及び合成フィルターバンクの実施形態の一例について、以下に説明する。以下の例では、パラメータTは10である。
まず、複合変調低遅延解析フィルターバンクを説明する。図1に示すように、解析フィルターバンク100は、解析ウィンドウ処理部110によって行われる解析ウィンドウ処理、及び計算機170によって行われる解析変換という変換ステップを実行する。解析ウィンドウ処理は以下の式に基づき行われる。
Figure 0004936569
i,nは、図1に示すフレーム150のブロック指数i及びサンプル指数nに対応する(実数値の)ウィンドウ処理後のサンプルである。xi,nは、同じブロック指数i及びサンプル指数nに対応する(実数値の)時間入力サンプルである。解析ウィンドウ関数190は、式(1)中、その実数値のウィンドウ係数w(n)で表わされ、nは式(1)で示される範囲におけるウィンドウ係数指数である。前述したように、パラメータNは一つのブロック220,130,160,180内のサンプルの個数である。
解析ウィンドウ関数w(10N−1−n)の偏角から、この解析ウィンドウ関数は合成ウィンドウ関数の逆転版つまり時間逆転版であることがわかり、合成ウィンドウ関数は実際ウィンドウ係数w(n)で表わされるものである。
図1の実施形態において計算機170で実行される解析変調は、以下の二つの式に基づいている。
Figure 0004936569
Figure 0004936569
kはスペクトル係数指数又は帯域指数であり、以下の範囲の整数である。
Figure 0004936569
値XReal,i,k及びXImag,i,kは、ブロック180のブロック指数iとスペクトル係数指数kに対応する複合値オーディオ副帯値の実数部分と虚数部分を示している。パラメータn0は指数オプションを示し、以下の式で表されるものである。
Figure 0004936569
このフィルターバンクに相当する複合変調低遅延合成フィルターバンクは、以下に説明するように、合成変調、合成ウィンドウ処理及び重複加算という変換ステップを実行する。
合成変調は以下の式に基づき行われる。
Figure 0004936569
x’i,nは、サンプル指数n及びブロック指数iに相当するフレーム330の中間時間領域サンプルである。パラメータNは、ブロック320,340,390,410の長さを示す整数であり、変換ブロック長、あるいはフレーム330,380のブロック構造のために前のブロックに対するオフセットとも称される。また、スペクトル係数指数kやオフセットn0等の他の変数やパラメータも導入されている。
図2Aの実施形態において合成ウィンドウ処理部360によって実行される合成ウィンドウ処理は以下の式に基づいている。
Figure 0004936569
z’i,nは、フレーム380のサンプル指数n及びブロック指数iに対応するウィンドウ処理後中間時間領域サンプルの値である。
重複加算の変換ステップは以下の式に基づいて行われる。
Figure 0004936569
outi,nは、サンプル指数n及びブロック指数iに対応する時間領域(出力)サンプルを示す。従って、式(8)は、図2Bの下部に示す重複加算出力装置400で実行されるような重複加算処理を説明している。
しかし、本発明に係る実施形態はオーディオ信号処理を可能にする複合変調低遅延フィルターバンクに限るものではない。超低遅延オーディオ符号化のための実数値用の低遅延フィルターバンクもまた実施可能である。例えば、式(2),(6)はその余弦部分によって、解析変調及び合成変調への余弦の影響は、MDCTのそれと同等のものであることを示している。原則として、設計方法により、MDCTの時間に関する両方向への延長が可能であるが、T個のブロックのそれぞれがN個のサンプルを有している場合、ここでは過去へのE(=T−2)個のブロックの延長のみが可能である。Nチャンネル又はN帯域の解析フィルターバンク内の帯域kとブロックiの周波数係数Xi,kは、以下のように集約される。
Figure 0004936569
kは式(4)によって定義されるスペクトル係数指数である。ここでもまた、nはサンプル指数であり、waは解析ウィンドウ関数である。
完全を期するため、複合変調低遅延解析フィルターバンクの上記数学的説明は、余弦関数を複合値指数関数に交換することで、式(9)のような集約形態として提示され得る。より正確には、上記の定義及び変数により、式(1),(2),(3),(5)は以下のように集約され、延長される。
Figure 0004936569
式(2),(3)と比較して、過去への8ブロックの延長が変数E(=8)に置き換えられた。
合成変調及び合成ウィンドウ処理のステップは、式(6),(7)のような複雑な場合に関して説明したように、実数値の合成フィルターバンクの場合に集約可能である。ウィンドウ処理後中間時間領域サンプルフレーム380は復調ベクトルとも称されるものであるが、これは以下の式(11)によって与えられる。
Figure 0004936569
z’i,nは、帯域指数i及びサンプル指数nに対応するウィンドウ処理後中間時間領域サンプルである。サンプル指数nは以下の範囲の整数である。
Figure 0004936569
s(n)は合成ウィンドウであり、式(9)の解析ウィンドウwa(n)と合致している。
重複加算の変換ステップは、以下の式で与えられる。
Figure 0004936569
x’i,nは、再生された信号、正確に言えば、図2Aに示す重複加算出力装置400によって与えられるブロック410の時間領域サンプルである。
複合値合成フィルターバンク300のために、式(6),(7)は以下の式により、E(=8)個のブロックの過去への延長に関して集約され、一般化される。
Figure 0004936569
j=√(−1)は虚数部分単位である。式(13)は式(8)の一般化された形態を示し、また、複合値の場合にも有効なものである。
式(14)と式(7)を直接比較すると、式(7)のウィンドウ関数w(n)は式(14)の合成ウィンドウ関数ws(n)と同じである。前述したように、解析ウィンドウ関数係数wa(n)を有する式(10)と式(1)を比較すると、解析ウィンドウ関数は式(1)の合成ウィンドウ関数の時間逆転版であることがわかる。
図1の解析フィルターバンク100及び図2Aの合成フィルターバンクのどちらにおいても、一方では遅延、他方ではオーディオ処理の質との間のトレードオフに関してかなりの向上が見られるので、これらのフィルターバンク100,300はしばしば低遅延フィルターバンクと称される。これらの複合値用のものは複合値低遅延フィルターバンクと称されることもあり、CLDFBと省略される。CLDFBという言葉は、状況によっては、複合値フィルターバンクに限らず実数値フィルターバンクにも使用される場合がある。
以上検討したような数学的背景が示すように、ここで提案する低遅延フィルターバンクを実施するための構造は、MPEG−4標準から知られており、延長重複を使用するMDCT又はIMDCT(逆転MDCT)構造を利用するものである。追加の重複部分は、MDCTのようなコアの右側だけでなく左側にも、ブロックごとに付け加えることができる。ここでは、(合成フィルターバンクの場合)右側への延長のみが行われ、この延長は過去のサンプルからのみであり、故に更なる遅延を引き起こすことはない。
式(1),(2),(14)を見ると、この処理はMDCTまたはIMDCTの処理と非常に似ていることがわかる。修正解析ウィンドウ関数と修正合成ウィンドウ関数を含むわずかな修正により、MDCTまたはIMDCTは、多層重複部を扱うことができ、その遅延に関して非常に融通性のある変調フィルターバンクにまで拡大される。例えば、複合版を示す式(2),(3)は、原則的に、単に余弦変調に正弦変調を付加することで得られる。
補間
図1、図2Aに関して説明したように、解析ウィンドウ処理部110と合成ウィンドウ処理部360、またはフィルターバンク100,300は、各時間領域オーディオサンプルに個々のウィンドウ係数を掛けることで、それぞれの時間領域サンプルフレームをウィンドウ処理するように構成されている。つまり、式(1)、(7),(9),(10),(11),(14)が示しているように、各時間領域サンプルは、(個々の)ウィンドウ係数で掛けられる。従って、それぞれのウィンドウ関数のウィンドウ係数の個数は、概して時間領域オーディオサンプルの個数と等しい。
しかし、ある実施状況においては、より少ない第1の個数の係数を有し、それぞれの時間領域オーディオサンプルフレームまたは列をウィンドウ処理するのに使用される実際のウィンドウ関数に比べて、より多い第2の個数のウィンドウ係数を有するウィンドウ関数を使用することの方が良い場合もある。これは、例えば特定の実施のために必要なメモリー容量がコンピュータ処理の能率よりも重要である場合に薦められる。ウィンドウ係数のダウンサンプリングが有効である別の場合は、例えばSBR(スペクトル帯域再生)システムの構造に用いられる、いわゆる二種速度方法の場合である。SBRの概念は、図5、図6を参照して後述する。
このような場合、解析ウィンドウ処理部110または合成ウィンドウ処理部360は、また、それぞれのウィンドウ処理部110,360に与えられた時間領域オーディオサンプルをウィンドウ処理するのに使用される各ウィンドウ関数が、より多くの第2の個数のウィンドウ係数を有する大きなウィンドウ関数のウィンドウ係数の補間により導き出されるように、構成されている。
この補間は、例えば直線的、多項式的又はスプラインに基づく補間である。例えば、直線的補間の場合だけでなく多項式的又はスプラインに基づく補間の場合にも、それぞれのウィンドウ処理部100,360は、ウィンドウ関数の一つのウィンドウ係数を得るために、大きいウィンドウ関数の、そのウィンドウ係数列において連続する二つのウィンドウ係数に基づき、ウィンドウ処理に使用されるウィンドウ関数のウィンドウ係数を補間可能であってもよい。
特に時間領域オーディオサンプルとウィンドウ係数の個数が偶数である場合、前述したような補間の実行はオーディオの質の点でかなりの向上をもたらす。例えば、フレーム120,330のいずれか一つの時間領域オーディオサンプルが偶数N・Tである場合、直線的補間等の補間を実行しなければ、それぞれの時間領域オーディオサンプルの更なる処理の間に深刻なエイリアシング効果が起こることになる。
図3は、N・T/2個の時間領域オーディオサンプルを含むフレームの場合に使用されるべきウィンドウ関数(解析ウィンドウ関数又は合成ウィンドウ関数)に基づく直線的補間の例を示す。メモリーの制限や他の詳細な実施状況により、ウィンドウ関数自身のウィンドウ係数はメモリーに保存されず、N・T個のウィンドウ係数を含む大きいウィンドウ関数が適当なメモリーに保存されているか、あるいは何らかの方法で入手可能である。図3の上部グラフは、0〜N・T−1の間のウィンドウ係数指数nの関数として、それに相当するウィンドウ係数c(n)を示す。
より多くの個数のウィンドウ係数を有するウィンドウ関数の二つの連続したウィンドウ係数の直線的補間に基づき、図3の上部グラフに示すように、補間されたウィンドウ関数は以下の式により算出される。
Figure 0004936569
N・T/2個の時間領域オーディオサンプルを有するフレームに応用されるウィンドウ関数の補間されたウィンドウ係数ci(n)の個数は、ウィンドウ係数の数の半分である。
これをさらに説明するために、図3の上部に、ウィンドウ係数450−0,…,450−7が示され、これらはウィンドウ係数c(0),…,c(7)に相当するものである。これらのウィンドウ係数及びウィンドウ関数のさらなるウィンドウ係数に基づき、式(15)を使用して、図3の下部に示すような補間後のウィンドウ関数のウィンドウ係数ci(n)を導き出す。例えば、ウィンドウ係数450−2,450−3に基づき、図3の矢印470で示されているように、ウィンドウ係数460−1が式(15)より生成される。同様に、補間後のウィンドウ関数のウィンドウ係数460−2は、図3の上部に示すウィンドウ関数のウィンドウ係数450−4,450−5に基づき算出される。図3はさらなるウィンドウ係数ci(n)の生成を示している。
ウィンドウ関数の補間ダウンサンプリングにより達成できるエイリアシング解消を説明するために、図4に、例えばMDCTに使用され得る正弦ウィンドウ関数の場合のウィンドウ係数の補間を示す。簡略化のために、このウィンドウ関数の左半分と右半分を重ねて示している。図4に示されているものは、8個のサンプル長を有するMDCTのためのたった2・4の個のウィンドウ係数又はポイントしか含まない簡単な正弦ウィンドウである。
図4は、正弦ウィンドウの前半の4個のウィンドウ係数480−1,480−2,480−3,480−4及び正弦ウィンドウの後半の4個のウィンドウ係数490−1,490−2,490−3,490−4を示す。ウィンドウ係数490−1,…,490−4はウィンドウ係数指数5,…,8に対応する。ウィンドウ係数490−1,…,490−4はウィンドウ関数長さの後半に相当し、実指数を得るために、指数にN’=4が与えられる。
前述したようにエイリアシング効果の低下または解消を達成するために、ウィンドウ係数は可能な限り以下の条件を満たす。
Figure 0004936569
条件(16)に近づけば近づくほど、エイリアシングはより良く低下又は解消される。
半分の数のウィンドウ係数を有する新しいウィンドウ関数がウィンドウ関数の左半分のために決定されるとすると、以下の問題が生じる。ウィンドウ関数は偶数個のウィンドウ係数(偶数個のダウンサンプリング)を含むという事実のために、図3に示すような補間体系を使用しなくても、ウィンドウ係数480−1と480−3又は480−2と480−4が元のウィンドウ関数又は元のフィルターのただ一つのエイリアシング値に相当する。
このことは、スペクトルエネルギーの不均衡な割合と対応するウィンドウ関数の中心周波数(質量の中心)の非対称な再分配をもたらす。図4のウィンドウ係数w(n)のための補間式(15)に基づき補間された値I1,I2はエイリアシングの条件(16)をよりよく満たし、従って処理されたオーディオデータの質のかなりの向上をもたらす。
しかし、より精巧な補間体系、例えばスプラインに基づく補間体系又はそれと同様の別の補間体系を使用することにより、条件(16)をさらによりよく満たすウィンドウ係数が得られる。多くの場合、直線的な補間が十分な成果をもたらし、速く能率的な実施を可能にする。
SBR−QMFフィルターバンク(QMF=直角ミラーフィルター)を使用した典型的なSBRシステムの場合には、このSBR−QMFプロトタイプフィルターは奇数個のプロトタイプフィルター係数を含むので、直線的補間もまた他の補間体系も実行される必要がない。このことは、SBR−QMFプロトタイプフィルターが、SBR−QMFプロトタイプフィルターの対称性が全く損なわれないようにダウンサンプリングが実施され得る最大値を有していることを意味する。
図5、図6では、解析フィルターバンク及び合成フィルターバンク両方の形での本発明に係る実施形態の可能な応用を説明する。一つの重要な応用分野はSBRシステム又はSBR装置(SBR=スペクトル帯域再生)である。しかし、本発明はさらに他の分野でも応用できる。他の分野とは、空間的オーディオ対象符号化、低遅延パラメータのステレオ符号化、低遅延空間的/サラウンド符号化、フレーム損失隠蔽、エコー消去または他の同様の応用等の、スペクトル修正(ゲイン修正又は均一化)の必要性がある分野のことである。
SBRの背後にある基本的な考えは、通常、同じ信号の、高周波域(いわゆる高帯域信号と称される)の特徴と低周波域(低帯域または低帯域信号と称される)の特徴との間に関連性があるというものである。従って、元の入力信号の高帯域の再生は、低帯域から高帯域への置換によって、より近似的に行われ得る。
置換に加えて、高帯域の再生は、ゲイン調整を含むスペクトルエンヴィロープの整形を含む。この工程は、概して元の入力信号の高帯域スペクトルエンヴィロープの送信によって制御される。置換だけでは十分ではないと思われる場合、エンコーダから送られる更なるガイダンス情報が、オーディオ材料を扱うための逆転フィルターやノイズ・正弦加算機等の更なる合成モジュールを制御する。対応するパラメータは、ノイズの合計のためのパラメータ「ノイズ高帯域」と正弦加算のためのパラメータ「調性高帯域」を含む。これらのガイダンス情報は通常SBRデータと称される。
SBR処理は、エンコーダでの前処理及びデコーダでの後処理による従来の波形又はコーデックと組み合わされてもよい。SBRはオーディオ信号の高周波部分を非常に低コストで符号化し、オーディオコーデックは信号の低周波部分を符号化するのに使用される。
エンコーダ側において、元の入力信号が解析され、高帯域スペクトルエンヴィロープ及び低帯域に対するそれの特徴が符号化され、その結果得られるSBRデータに低帯域のためのコーデックからのビットストリームで多重化される。デコーダ側において、SBRデータはまず単一化される。復号化工程は一般的にいくつかのステップから成り立っている。まず、コアデコーダが低帯域を生成し、次に、SBRデコーダが、スペクトル帯域再生をガイドするために、復号化されたSBRデータを使用して後処理装置として動作する。そして、全帯域出力信号が得られる。
できる限り高い符号化効率を得るために、そしてコンピュータ処理の複雑性を低く抑えるために、SBR機能の高いコーデックがいわゆる二種速度システムとして実行されることがよくある。二種速度とは、帯域限定のコアコーデックが、外部オーディオサンプリング速度の半分の速度で動作することを意味する。対照的に、SBR部分はサンプリング周波数全体において処理される。
図5はSBRシステム500の概略ブロック図を示す。SBRシステム500は、例えばAAC−LDエンコーダ(AAC−LD=高度オーディオ低遅延コーデック)510及びSBRエンコーダ520を含み、処理されるべきオーディオデータはそれらに並列的に与えられる。SBRエンコーダ520は解析フィルターバンク530を含み、それは、図5中、QMF解析フィルターバンクとして示されている。解析フィルターバンク530は、SBRシステム500に与えられるオーディオ信号に基づき、副帯に相当する副帯オーディオ値を提供することができる。これらの副帯オーディオ値はSBRパラメータ抜粋モジュール540に送られ、このモジュール540は、例えば高帯域のためのスペクトルエンヴィロープ、高帯域ノイズパラメータ及び高帯域調性パラメータを含む前述したようなSBRデータを生成する。これらのSBRデータはAAC−LDエンコーダ510に送られる。
AAC−LDエンコーダ510は、図5中、二種速度エンコーダとして示されている。換言すれば、エンコーダ510は、そこに入力されるオーディオデータのサンプリング周波数と比較すると、その半分の周波数で動作する。これを容易にするために、AAC−LDエンコーダ510は、ダウンサンプリング部550を有し、それは、例えばナイキスト−シャノン理論を破ったために生じる歪曲を避けるために、随意にローパスフィルターを有していてもよい。ダウンサンプリング部550の出力としてのダウンサンプルされたオーディオデータは、それからMDCTフィルターバンクという形態のエンコーダ560(解析フィルターバンク)に送られる。エンコーダ560によって出力される信号は、その後、量子化・符号化部570において量子化、符号化される。さらに、SBRパラメータ抜粋モジュール540によって生成されるSBRデータもまたビットストリームを得るために符号化され、このビットストリームはその後ACC−LDエンコーダ510から出力される。量子化・符号化部570は、例えば人の耳の聴覚特性に応じてデータを量子化する。
ビットストリームは、その後、このビットストリームが送られるデコーダ側の一部であるAAC−LDデコーダ580に与えられる。AAC−LDデコーダは復号化・非量子化部590を含み、これは、ビットストリームからSBRデータを抜粋し、量子化されたオーディオ信号を低帯域の周波数領域に戻す。その後、低帯域データは合成フィルターバンク600(逆転MDCTフィルターバンク)に送られる。逆転MDCT部(MDCT-1)600は、時間信号を得るために、与えられた信号を周波数領域から時間領域に変換する。この時間領域信号はその後SBRデコーダ610に与えられる。SBRデコーダ610は、解析フィルターバンク620を含み、これは、図5中、QMF解析フィルターバンクとして示されている。
解析フィルターバンク620は、そこに与えられた低帯域を表す時間信号のスペクトル解析を行う。これらのデータはその後、HF生成部とも称される高周波生成部630に送られる。AAC−LDデコーダ580及びその復号化・非量子化部590によって与えられたSBR信号に基づき、HF生成部630は解析フィルターバンク620により与えられた低帯域信号から高帯域信号を生成する。低帯域信号、高帯域信号のどちらも、その後合成フィルターバンク640に送られ、それらの信号は周波数領域から時間領域に変換される。そして、SBRシステム500からの時間領域オーディオ出力信号が得られる。
完全を期するために、多くの場合、SBRシステム500は図5に示すようには実施されてはいないことを明記しておく。より正確には、AAC−LDエンコーダ510及びSBRエンコーダ520は、通常、エンコーダ側に配置され、エンコーダ側は、通常、AAC−LDデコーダ580及びSBRデコーダ610を含むデコーダ側とは分かれて設置されている。換言すれば、図5に示すシステム500は、本来的に二つのシステム、つまり前記エンコーダ510,520を含むエンコーダと前記デコーダ580,610を含むデコーダとの連結を示すものである。
解析フィルターバンク100及び合成フィルターバンク300という形での本発明に係る実施形態は、例えば、図5に示すシステム500において、解析フィルターバンク530,620及び合成フィルターバンク640の代わりに用いてもよい。つまり、システム500のSBR部品である合成フィルターバンクと解析フィルターバンクは、例えば本発明のそれぞれ相当する実施形態に置き換えられる。また、MDCT560と逆転MDCT600も、それぞれ低遅延解析フィルターバンクと合成フィルターバンクとに置き換えられる。このような置換がすべて行われた場合、いわゆる超低遅延AACコーデック(AACコーダ・デコーダ)が実現できる。
この超低遅延AAC(AAC−ELD)は、SBRをAAC−LDと共に用いることにより、AAC−LD(低遅延高度オーディオコーデック)の低遅延特徴とHE−AAC(高能率高度オーディオコーデック)の高い符号化能率を組み合わせようとするものである。SBRデコーダ610は、この場合、完全な解析フィルターバンクと合成フィルターバンク640を含むコアデコーダ580の後に設置される後処理装置として機能する。故に、SBRデコーダ610の部品はさらなる復号遅延を生じさせ、これは、図5中、部分620,630,640への斜線で示されている。
SBRシステム500の実施の多くの場合、0kHzから概して5〜15kHZの低周波域または低帯域は、コアコーデックと称される波形コーダを使用して符号化される。コアコーデックは、例えばMPEGオーディオコーデックのうちの一つである。さらに、高周波域又は高帯域の再生は低帯域の転移によって行われる。SBRとコアコーダとの組み合わせは、多くの場合、二種速度システムとして実施され、このシステムでは、基本的なAACエンコーダ/デコーダは、SBRエンコーダ/デコーダのサンプリング速度の半分の速度で動作する。
制御データの大部分はスペクトルエンヴィロープ表示のために使用され、スペクトルエンヴィロープ表示は、できる限り小さいビットレートで最大限にSBR処理を制御できるように、変動時間周波数分解を有する。他の制御データは、主に、高帯域の調性−ノイズ率を制御するのに使用される。
図5に示すように、基本的なAACデコーダ580からの出力は一般的に32チャンネルQMFフィルターバンク620で解析される。そして、HF生成モジュール630は、存在する低帯域から高帯域までのQMF副帯を修正することによって高帯域を再生する。さらに、ビットストリームから得られる制御データ(SBRデータ)に基づき、副帯ごとに逆フィルタリングが行われる。エンヴィロープアジャスターは、再生された高帯域のスペクトルエンヴィロープを修正し、ノイズのような更なる部分を付加する。これにより、ビットストリームの制御データに応じたしなやかさが付け加えられる。全ての動作が周波数領域(QMFまたは副帯領域としても知られている)で行われ、デコーダ610の最後の段階は、時間領域信号を保持するためのQMF合成640である。例えば、1024個の時間領域サンプルのために、エンコーダ側のQMF解析が32のQMF副帯システムで行われる場合、高周波再生は64QMF副帯を生じさせ、それに基づく合成は2048個の時間領域サンプルを生み出すことになり、比率が2のアップサンプリングが行われることになる。
また、コアコーダ510の遅延は、二種速度モードで元のサンプリング速度の半分の速度で動作することにより、倍加され、このことは、SBRと組み合わせたAAC−LDの符号化及び復号化処理両方において遅延源が増すことになる。以下に、このような遅延源と、それらに関する遅延の最小化を検討する。
図6は、図5に示したシステムの簡易化されたブロック図である。図6は、SBRと低遅延フィルターバンクを使用する符号化/復号化処理における遅延源に焦点を当てたものである。図6を図5と比較すると、MDCT560と逆転MDCT600が、遅延最適化モジュール、いわゆる低遅延MDCT560’(LD MDCT)と低遅延逆転MDCT600’(LD IMDCT)に置き換えられている。さらに、HF生成器630もまた遅延最適化モジュール630’に置き換えられている。
図6のシステムには、低遅延MDCT560’や低遅延逆転MDCT610’とは別に、修正SBRフレーム・修正HF生成器630’が用いられている。コアエンコーダ/デコーダ560,600のフレームとそれぞれのSBRモジュールを異ならせることで遅延を避けるために、SBRフレーム生成器は480のフレーム長又はAAC−LDの512個のサンプルに適合している。さらに、HF生成器630の可変時間グリッドは384個のサンプルの遅延を含み、互いに隣接するAC−LDフレームへのSBRデータの拡散に関して制限されている。これにより、SBRモジュールにおいて未だ遅延源であるのはフィルターバンク530,620,640である。
図6はAAC−ELDコーデックの一部実施を示しているが、この場合、AAC−LDコアの低遅延フィルターバンクの使用と前述したSBR重複の除去を含む、いくらかの遅延最適化が行われたものである。さらなる遅延向上のために、残りのモジュールに関しても検討する必要がある。図6は、SBRとLD−MDCTとLD−IMDCTと呼ばれる低遅延フィルターバンクを使用する符号化/復号化処理における遅延源を示している。図5とは対照的に、図6に示す全ての部分が遅延源であり、そのうち遅延最適化モジュールは斜線で示されている。その他のモジュールは、現時点では、低遅延のための最適化が行われていない。
図7Aは、解析フィルターバンク、またはそれに対応するオーディオ副帯チャンネルのオーディオ副帯値を生成する方法という形での本発明の一実施形態を説明するためのC−又はC++−偽コードを含むフローチャートである。より正確には、図7Aは、32帯域のための複合値解析フィルターバンクのフローチャートである。
前述したように、解析フィルターバンクは時間領域信号、例えば、コアコーダからの出力をN=32の副帯信号に分けるものである。複合値解析フィルターバンクの場合、そのフィルターバンクの出力、つまり副帯サンプル又はオーディオ副帯値は、実数値フィルターバンクの場合と比較すると、複合値、つまり2の比率でオーバーサンプルされたものである。フィルタリングは以下に説明するステップを含み、一つのアレイx(n)が正確に320個の時間領域サンプルを含むものである。アレイのサンプル指数nが高ければ高いほど、サンプルは古いものである。
本実施形態の方法がステップS100で開始され、その後、最初にステップS110でアレイx(n)のサンプルが32個の位置分移動させられる。最も古い32個のサンプルが廃棄され、ステップS120で、32個の新しいサンプルが位置31〜0に保存される。図7Aに示すように、入力される時間領域オーディオサンプルは、31から0まで減少していく指数nで示される位置に保存される。これは、相当するフレーム又はベクトルに保存されたサンプルを時間逆転することになり、(同じ長さの)合成ウィンドウ関数に基づき解析ウィンドウ関数を得るためのウィンドウ関数の逆転がすでに行われたことになる。
ステップS130では、式(15)に基づき係数c(j)の直線的補間を行うことにより、ウィンドウ係数ci(j)が得られる。この補間は、N=64というブロックサイズ値(ブロック長又は副帯値の数)及びT=10という1フレーム中のブロック数に基づいている。従って、補間後のウィンドウ関数のウィンドウ係数の指数は、式(15)より、0〜319の範囲にある。ウィンドウ係数c(n)は、本明細書の付録1の表に示す。しかし、実施の詳細により、付録1,3の表に示す値に基づくウィンドウ係数を得るために、指数128〜255と指数384〜511に対応するウィンドウ係数に関して、符号変換(比率−1の掛け算)がさらに必要となる場合がある。
これらの場合、使用されるべきウィンドウ係数w(n)又はc(n)は以下の式に基づき得られる。
Figure 0004936569
符号変換関数s(n)は以下に基づいている。
Figure 0004936569
n=0〜639であり、Wtable(n)は、付録の表に示す値である。
しかし、ウィンドウ係数は、例えば前述したような遅延低下のために付録1の表に基づき実施される必要はない。処理後のオーディオデータの質を保ちながらこの遅延低下を達成するために、あるいは別のトレードオフを達成するために、0〜639の範囲のウィンドウ係数指数nのためのウィンドウ係数c(n)は付録2〜4のうちのいずれか一つに示されている関係を満たしていてもよい。付録1〜4の表は640個のウィンドウ係数を有するウィンドウ関数に応用されるものであるが、当然、320又は640以外の別の個数のウィンドウ係数を有する他のウィンドウ関数も使用可能である。
ステップS130の直線的補間は、偶数個のウィンドウ係数を有するウィンドウ関数の場合、かなりの質の向上及びエイリアシング効果の低下又は解消につながる。複合単位は、式(1),(2),(16)のようなjではなく、i=√(−1)によって示されている。
ステップS140では、アレイx(n)のサンプルは補間後のウィンドウ係数ci(n)で素子ごとに掛け算される。
ステップS150では、64個の素子を有するアレイu(n)を生成するために、ウィンドウ処理後のサンプルが図7aのフローチャートに示されている式に基づき合計される。ステップS160では、32個の新しい副帯サンプルつまりオーディオ副帯値W(k,1)がマトリックス処理Muにより算出され、マトリックスMの素子は以下の式で与えられる。
Figure 0004936569
exp()は複合指数関数を示し、前述したように、iは虚数単位である。フローチャートの循環がステップS170で終わる前に、各副帯値W(k,1)(=W[k][l])が出力され、それは指数kを有する副帯の副帯サンプルlに相当する。換言すれば、図7aのフローチャートの一巡の間に、それぞれが一つのフィルターバンク副帯からの出力を表す32個の複合副帯値が生成される。
図7Bは、10ブロック160−1,…,160−10のウィンドウ処理後の時間領域オーディオサンプルz(n)を含むウィンドウ処理後時間領域オーディオサンプルフレーム150を、フレーム150のブロックを二つずつ、5回合算することでベクトルu(n)に分解するステップS150を示している。この分解または再構成は素子ごとに行われ、160−1,160−3,160−5,160−7,160−9の各ブロック内の同じサンプル指数に対応するウィンドウ処理後時間領域オーディオサンプルが合計され、ベクトルu(n)の第1ブロック650−1内に対応する値が得られる。ステップS150では、同様に、160−2,160−4,160−6,160−8,160−10のブロックに基づき、ベクトルu(n)のブロック650−2内に対応する素子が得られる。
解析フィルターバンクという形での本発明に係る別の実施形態は、64帯域複合低遅延フィルターバンクとして実施できるものである。この複合低遅延フィルターバンクの解析フィルターバンクとしての処理は、基本的に図7Aを参照して説明した解析フィルターバンクと同様のものである。図7Aに関して説明した処理と類似であり基本的に同じであるので、ここでは、64副帯のための複合解析フィルターバンクの、図7Aに関して説明した32帯域のための複合解析フィルターバンクとの違いについて概略的に説明する。
図7Aに示すような解析フィルターバンクを含む32副帯のものと比較して、64副帯解析フィルターバンク640の場合、フレームx(n)のベクトルは0〜639の指数を有する素子を含む。従って、ステップS110は、アレイx(n)のサンプルが64個の位置分移動させられ、最も古い64個のサンプルが廃棄されるように、変更される。ステップS120において、32個ではなく64個の新しいサンプルが位置63〜0に保存される。図7cに示すように、入力されてくる時間領域オーディオサンプルは63〜0まで減少する指数nに対応する位置に保存される。これは、相当するフレーム又はベクトルに保存されたサンプルを時間逆転することになり、(同じ長さの)合成ウィンドウ関数に基づき解析ウィンドウ関数を得るためのウィンドウ関数の逆転がすでに行われたことになる。
フレームx(n)のベクトルの素子のウィンドウ処理に使用されるウィンドウc(n)は概して640個の素子を含んでいるので、補間後のウィンドウci(n)を得るためのウィンドウ関数の直線的補間のステップS130は省略できる。
そして、ステップS140においては、ウィンドウ係数列c(n)を使用してアレイx(n)のサンプルの掛け算つまりウィンドウ処理が行われる。ウィンドウ係数列c(n)は付録1の表中の値に基づくものである。ウィンドウ係数c(n)が合成ウィンドウ関数のものである場合、アレイx(n)のウィンドウc(n)によるウィンドウ処理つまり掛け算は以下の式に応じて行われる。
Figure 0004936569
n=0,…,639である。ここでもまた、ウィンドウ関数の低遅延特性を達成するために、必ずしも正確に付録1の表に示す値に基づくウィンドウ係数に応じたウィンドウ関数を採用する必要はない。多くの応用において、質と遅延の低下との間の許容できるトレードオフを達成するためには、ウィンドウ係数が付録2〜4の表のうちのいずれかに示されている関係を満たすものであれば十分である。しかし、実施の詳細によっては、付録1〜3の表に示されている値に基づくウィンドウ係数を得るために、指数128〜255,384〜511に対応するウィンドウ係数に関し、式(16a),(16b)に基づく符号変換(比率−1の掛け算)がさらに必要となる場合がある。
図7Aに示すフローチャートのステップS150は、128個の素子を有するアレイu(n)を生成するために、以下の式(19)に基づくフレームz(n)のベクトルのサンプルの合計に置き換えられる。
Figure 0004936569
そして、図7AのステップS160は、64個の新しい副帯サンプルがマトリクス処理Muに基づき計算されるステップに置き換えられる。このマトリクス処理において、マトリクスMのマトリクス素子は以下の式によって与えられる。
Figure 0004936569
exp()は複合指数関数を示し、iは前述したように虚数単位である。
図7Cは、32副帯チャンネルのための実数値解析フィルターバンクという形での本発明に係る実施形態のフローチャートを示している。図7Cに示す実施形態は、図7Aに示す実施形態とは重要な違いはない。これら二つの実施形態の間の主な違いは、新しい32個の複合値副帯オーディオ値を計算するステップS160が、図7Cにおいては、32個の実数値副帯オーディオサンプルがマトリクス処理Mruに基づき計算されるステップS162に置き換えられていることである。マトリクスMrの素子は以下の式によって与えられる。
Figure 0004936569
従って、フローチャートの一巡は32個の実数値副帯サンプルを生成し、W(k、l)は、副帯kの副帯オーディオサンプルlに相当する。
実数値解析フィルターバンクは、図5に示すように、例えばSBRシステムの低電源モード構造に使用され得る。SBR装置の低電源モードは、主に実数値フィルターバンクが使用されているという点で、高性能SBR装置とは異なっている。これは、虚数部分の計算を必要としないので、2の比率でコンピュータ処理の複雑さ及びコンピュータ処理の手間を低減させ、単位時間あたりの処理数は基本的に2の比率で減じられる。
本発明によって提案される新たなフィルターバンクはSBRシステムの低電源モードにも十分適合するものである。従って、本発明のフィルターバンクを使用すれば、SBRシステムは、通常モードつまり複合フィルターバンクを使用する高性能モード及び実数値フィルターバンクを使用する低電源モードのどちらにおいても動作可能である。実数値フィルターバンクは、例えば実数値(余弦変調によるもの)のみを使用し、虚数値(正弦変調によるもの)を省略することにより、複合フィルターバンクから導き出されるものであってもよい。
図8Aは、64個の副帯チャンネルのための複合値合成フィルターバンクという形での本発明の別の例に基づくフローチャートを示している。前述したように、SBR処理された副帯信号の合成フィルタリングは、本発明の一実施形態に係る64個の副帯のための合成フィルターバンクを使用して行われる。このフィルターバンクからの出力は、図1に関して説明したように、1ブロックの実数値時間領域サンプルである。この処理は図8Aのフローチャートによって説明され、図8Aはまた、時間領域オーディオサンプルを生成する方法という形の例を示すものである。
合成フィルタリングは、開始(ステップS200)後、以下のようなステップを含み、一つのアレイvは1280個のサンプルを含む。ステップS210において、アレイvのサンプルは128個の位置分移動させられ、最も古い128個のサンプルが廃棄される。ステップS120では、64個の新しい複合値オーディオ副帯サンプルがマトリクスNによって掛け算され、マトリクス素子N(k、n)は以下の式によって与えられる。
Figure 0004936569
exp()は複合指数関数を示し、iは虚数単位を示す。図8Aに示すように、この処理の出力の実数部分は、アレイvの位置0〜127に保存される。
ステップS230において、今や時間領域であるサンプルが図8Aに示されている式に基づきアレイvから抜粋され、640個の素子を有するアレイg(n)が生成される。ステップS240では、アレイwを生成するために、アレイgの時間領域の実数値サンプルをウィンドウ係数c(n)で掛ける。これらのウィンドウ係数c(n)は、付録1の表に示されている値に基づくものである。
しかし、前述したように、ウィンドウ係数は必ずしも正確に付録1の表によって与えられる値である必要はない。本発明の多様な実施形態においては、付録2〜4の表のいずれかに示されている関係を満足するウィンドウ係数であれば、合成フィルターバンクの望ましい低遅延特性を達成するのに十分である。さらに、解析フィルターバンクに関して説明したように、合成フィルターバンクの構造に他のウィンドウ係数が使用されてもよい。しかし、実施の詳細により、付録1〜3の表によって与えられる値に基づくウィンドウ係数を得るために、指数128〜255,384〜511に対応するウィンドウ係数に関する符号変換(比率−1の掛け算)がさらに必要となる場合がある。
図8Aのフローチャートの一巡がステップS260で終了する前に、ステップS250で、このフローチャートの最後のステップとして示されている式に基づくアレイw(n)からのサンプルの合計によって、64個の新しい出力サンプルが算出される。図8Aに示すフローチャートにおいて、X[k][l](=X(k,l))は指数kを有する副帯のオーディオ副帯値lに相当する。図8Aに示すような新たな一巡は、その出力として、64個の時間領域実数値オーディオサンプルを生成する。
64個の帯域のための複合値解析フィルターバンクの図8Aに示すような実施は、図2Bに示す実施形態に関して説明したようないくつかの記憶領域を含む重複加算バッファを必要としない。ここでは、重複加算バッファはベクトルv,gに「かくれて」いる。ベクトルgはベクトルvに保存された値に基づき計算される。重複・加算バッファは、指数が128よりも大きいこれらのベクトルの構造内で実現され、その結果、値は以前のブロックからのものと同じである。
図8Bは、64個の実数値オーディオ副帯チャンネルのための実数値合成フィルターバンクのフローチャートを示している。図8Bに係る実数値合成フィルターバンクは、低電源SBR装置の場合、SBRフィルターバンクとして実施され得る。
図8Bのフローチャートは、主にステップS222が図8AのステップS220に取って代わっているという点で、図8Aのフローチャートとは異なっている。ステップS222では、64個の新しい実数値オーディオ副帯値がマトリクスNrで掛け算され、このマトリクスの素子Nr(k,n)は以下の式によって与えられる。
Figure 0004936569
この処理の出力は、ここでもまた、アレイvの位置0〜127に保存される。
これらの変更以外に、低電源SBRモードのための実数値合成フィルターバンクの場合の図8Bに示すフローチャートは、高性能SBRモードのための複合値合成フィルターバンクの場合の図8Aに示すフローチャートとはほとんど違いがない。
図8Cは、ダウンサンプルされた複合値合成フィルターバンク、及び例えば高性能SBR装置に採用される適当な方法という形での本発明の一実施形態に係るフローチャートを示している。より正確には、図8Cに示す合成フィルターバンクは、32個の副帯チャンネルのための複合値オーディオ副帯値を処理可能な複合値合成フィルターバンクに関連するものである。
SBR処理副帯信号のダウンサンプル合成フィルタリングは、図8Cに示す32チャンネルの合成フィルターバンクを使用して行われる。このフィルターバンクからの出力は、一ブロックの実数値時間領域サンプルである。この処理は図8Cのフローチャートに示されている。合成フィルタリングは、開始(ステップS300)後、以下のステップを含み、一つのアレイvは640個の実数値時間領域サンプルを含む。
ステップS310において、アレイvのサンプルは64個の位置分移動させられ、最も古い64個のサンプルが廃棄される。そして、ステップS320では、64個の新しい複合値副帯サンプルつまり複合値オーディオ副帯値がマトリクスNで掛け算され、このマトリクスの素子は以下の式によって与えられる。
Figure 0004936569
exp()は複合値指数関数を示し、iは虚数単位である。この処理の出力の実数部分はアレイvの位置0〜63に保存される。
ステップS330では、サンプルが図8Cのフローチャートに示されている式に基づきベクトルvから抜粋され、320個の素子を有するアレイgが生成される。ステップS340では、式(15)に基づく係数c(n)の直線的補間により、補間されたウィンドウ関数のウィンドウ係数ci(n)が得られる。ここでもまた、指数nは0〜319(式(15)に対してN=64,T=10)の範囲にある。前述したように、ウィンドウ関数c(n)の係数は付録1の表に示されている値に基づくものである。また、前述したような低遅延特性を得るためには、ウィンドウ係数が必ずしも正確に付録1の表に示されている数値である必要はない。ウィンドウ係数c(n)が付録2〜4に示されている少なくともいずれかの関係を満たすものであれば十分である。しかし、実施の詳細により、付録1〜3の表に示されている値に基づくウィンドウ係数を得るために、指数128〜255,384〜511に相当するウィンドウ係数に関して、式(16a),(16b)に基づく符号変換(比率−1の掛け算)がさらに必要となる場合がある。当然、本発明の実施形態に、他のウィンドウ係数c(n)を含む他のウィンドウ関数を用いてもよい。
ステップS350において、アレイgのサンプルが補間後のウィンドウ関数の補間後ウィンドウ係数ci(n)で掛け算され、補間後の時間領域サンプルw(n)が得られる。
そして、図8Cのフローチャートの最後のステップS370の前に、ステップS360において、アレイw(n)からのサンプルの合計によって32個の新しいサンプルを算出する。
前述したように、図8Cのフローチャートでは、X([k],[l])(=x(k,l)はオーディオ副帯チャンネルkのオーディオ副帯値lに相当する。また、図8Cに示すフローチャートの新たな一巡は、その出力として、新しい32個の実数値時間領域サンプルを生成する。
図8Dは、例えば低電源SBR装置に採用可能なダウンサンプル実数値合成フィルターバンクという形での本発明の一実施形態に係るフローチャートを示している。図8Dに示す実施形態及びフローチャートと図8Cに示したダウンサンプル複合値合成フィルターバンクのフローチャートとの違いは、ステップS320が図8DではステップS322に置き換えられている点だけである。
ステップS322において、32個の新しい実数値オーディオ副帯値つまり副帯サンプルがマトリクスNrで掛け算され、マトリクスNrの素子は以下の式で与えられる。
Figure 0004936569
この処理の出力はアレイvの0〜64の位置に保存される。
図9Aは、64個の副帯のための複合値解析フィルターバンクに対応する方法という形での本発明ん係る別の実施形態を示す。図9Aは、出力としてベクトルyとベクトル“state”を提供するMATLAB実施を示す。図9Aに示す手順で定義される関数はLDFB80と呼ばれ、新しいオーディオサンプルを含むベクトルxとベクトル“state”がこのLDFB80に入力として与えられる。関数LDFB80という名前は、過去に8ブロック及び未来に0ブロック延長するための低遅延フィルターバンクの省略である。
MATLABプログラム言語において、パーセントの印(%)は注記を示し、それは実行されないが、注解をしたりソースコードを説明する目的でのみ記されている。以下では、ソースコードの異なる部分をその機能に関して説明する。
ステップS400では、指数577〜640を有するベクトル“state”の内容が新しい時間領域オーディオ入力サンプルを含むベクトルxの内容に置き換えられるように、ベクトル“state”によって表わされるバッファが更新される。ステップS410では、可変LDFB80_winに保存されているような解析ウィンドウ関数のウィンドウ係数がベクトルwin_anaに転送される。
ステップS420では、最新のサンプルがバッファの右側に並べられると仮定して、実際のウィンドウ処理を行う。ステップS420では、ベクトル“state”の内容が素子ごとに、解析ウィンドウ関数を含むベクトルwin_anaで掛け算される(.)。この掛け算の出力は、ベクトルx_win_origに保存される。
ステップS430において、x_stackと呼ばれる128・5の素子を有するサイズのマトリクスを形成するために、ベクトルx_win_origの内容が整形される。ステップS440では、マトリクスx_stackの第2〜第4列に関して、x_stackの符号変換が実行される。
ステップS450では、第2の指数に関するx_stackの素子を合計し、同時に素子の順序を逆転し、結果を置き換えることによってx_stackを破壊又は取り消し、その結果は再びx_stackに保存される。
ステップS460においては、x_stackの素子ごとに複合指数関数で掛けられた内容が複合高速フーリエ変換(FFT)で時間領域から周波数領域へ転換され、0〜−127の指数及び虚数単位iに関して偏角(−i・π・n/128)が提供される。
ステップS470では後処理が行われ、変数m=(64+1)/2を定義し、以下の式によりオーディオ副帯値を含むブロックをベクトルyとして算出する。
Figure 0004936569
図9Aに示す実施において、指数kは1〜64の整数をカバーする。ベクトルyは図1のオーディオ副帯値180を含むベクトル又はブロックとして出力される。第2の要因となる式(26)の上の線及び図9Aに示すステップS470のconj()の符号化部分は、それぞれの複素数の偏角の複合共役を示す。
最後の符号化ステップS480において、ステートベクトルが64個の素子分移動させられる。移動後のステートベクトルは、関数LDFB80に、次の一巡の入力として与えられる。
図9Bは32個の副帯のための複合値解析フィルターバンクに相当する方法という形での本発明の一実施形態に係るMTBLAB実施を示す。従って、定義される関数はLDFB80_32と称され、これは、過去に8ブロック未来に0ブロックの追加重複に基づく32個の副帯のための低遅延フィルターバンクを示す。
図9Bの実施と図9Aの実施との違いは、いくつかの符号化ステップに関するものだけであり、これについて以下に説明する。主に副帯の数つまり関数LDFB80_32によって出力される副帯値の数が2の比率で少なくなるという事実を考慮して、ステップS400,S430,S460,S470はステップS430’,S460’,S470’に置き換えられている。従って、ステップS400’は、図1に示すような新しいブロック220の32個の時間領域オーディオ入力サンプルを有する指数289〜320に対応する最後の32個の入力に関して更新されたステートベクトルに関するものである。
しかし、図9Aの実施と図9Bの実施との主な違いは、図9AのステップS410が、図9Bの実施においてはステップS412に置き換えられていることである。図9BのステップS412は、まず、ベクトルLDFB80_winに保存されているウィンドウを含む640個のウィンドウ係数をローカルベクトルwin_anaにコピーする。そして、式(15)に基づき補間を実行し、ベクトルwin_anaのベクトル素子によって示される二つの連続するウィンドウ係数が加算され、2で割られ、そしてベクトルwin_anaに再び保存される。
次のステップS420は図9Aに示されているステップS420と同じであり、ステートベクトルの値つまり素子の、補間後のウィンドウ関数の補間ウィンドウ係数を含むベクトルwin_anaの素子での掛け算(.)というウィンドウ処理が実行される。この処理の出力はベクトルx_win_origに保存される。しかし、図9BのステップS420と図9AのステップS420との違いは、図9Bの場合には、ウィンドウ処理として640個ではなく320個の掛け算が行われることである。
ステップS430に取って代わるステップS430’において、ベクトルx_win_origを整形することによってx_stackが準備される。しかし、ベクトルx_win_origはたった320個の素子を含むだけなので、図9Aの対応するベクトルに比べて、そのマトリクスx_stackはたった64・5個の素子を含むだけである。
符号変換のステップS440及びスタックを崩壊させるステップS450は、素子の数が少なくなった(640に対して320)という点以外は、図9A,9Bどちらの実施においても同じである。
ステップS460に取って代わるステップS460’においては、ウィンドウデータの奇数複合高速フーリエ変換(FFT)が行われ、これは図9AのステップS460で実行される変換と酷似している。高速フーリエ変換の出力、つまりx_stackと偏角(−i・π・n/64)の複合指数関数の素子ごとの掛け算の出力がベクトルtempに与えられるが、ここでも、出力オーディオ副帯値の数が少なくなったために、指数nは0〜63の範囲である。
その後、修正ステップS470’において、変数m=(32+1)/2を定義し、式(26)に基づきベクトルyを生成することで、後処理が行われる。ここでは、指数kは1〜32の範囲しかカバーせず、複合指数関数の偏角に現れる128という数字は64に置き換えられている。
最後に、図9Aの場合はステップS480でバッファが64個の素子分移動させられたが、図9Bの場合、最後のステップS480’でバッファが32個の素子分移動させられる。
図10Aは、64副帯のための複合値合成フィルターバンクに相当する方法という形での本発明に係る一実施形態を示すMATLAB原稿である。図10Aの原稿は関数ILDFB80を示し、この関数ILDFB80には、図2Aのオーディオ副帯値のブロック320及びステートベクトル“state”が入力パラメータとして与えられる。関数LDFB80という名前は、定義される関数が、過去の8ブロックのオーディオデータ及び未来の0ブロックのオーディオデータに相当する逆転低遅延フィルターバンクであることを示している。この関数は、出力として、ベクトルy及び新しいつまり再定義されたステートベクトル“state”を与え、ベクトルyは図2Aの時間領域オーディオサンプルブロック410に相当する。
ステップS500では、前処理が行われ、変数m=(64+1)/2及びベクトルtempが定義される。ベクトルtempの素子temp(n)は以下の式に基づき定義される。
Figure 0004936569
ベクトルの素子x(n)の上の線及び関数conj()は複合共役を示し、exp()は複合指数関数を示し、iは虚数単位を示し、nは1〜64の範囲の指数を示す。
ステップS510においては、ベクトルtempが、第1列にベクトルtempの素子及び第2列にベクトルの指数に定義された素子の順序に関して逆転されたベクトルtempの複合共役を有するマトリクスに変換される。このように、ステップS510では、ベクトルtempに基づきマトリクスtempの奇数対称が確立される。
ステップS520では、奇数高速フーリエ変換(FFT)がマトリクスtempに基づき実行される。このステップでは、マトリクスtempの逆フーリエ変換の出力と(i・π/128)の偏角を有する指数関数との素子ごとの実数部分での掛け算が実行され、ベクトルy_knlに出力される。ここでは、指数nは0〜127の範囲にある。
ステップS530において、データの拡張及び交互の符号変換が行われる。これを達成するために、ベクトルy_knlの素子の順序が逆転され、必要な場合には符号変換が同時に行われる。そして、第1,第3,第5列にベクトルy_knlを含み、第2,第4列に符号変換されたベクトルy_knlを含むマトリクスtempが定義される。
ステップS540では、ベクトルLDFB80_winに保存されているウィンドウ係数がまずベクトルwin_anaにコピーされる。そして、合成ウィンドウ係数がベクトルwin_anaに保存された解析ウィンドウ係数に基づき決定されるが、これは、以下の式に基づき解析ウィンドウ関数の時間逆転版を生成することにより行われる。
Figure 0004936569
N・Tはウィンドウ係数の合計数であり、nはウィンドウ係数の指数である。
ステップS550において、ベクトルと合成ウィンドウ関数の素子ごとの掛け算により、合成ウィンドウがベクトルtempに適応される。ステップS560では、577〜640の指数を有するベクトルstateの素子を0にセットし、ステートベクトルstateにウィンドウ処理されたベクトルtempを付加することにより、バッファが更新される。
ステップS570では、指数1〜64を有するベクトルstateの素子を抜粋することにより、時間領域オーディオサンプルを含む出力ベクトルyがベクトルstateから抜粋される。
ステップS580は図10Aに示す関数の最後のステップであり、ステートベクトルstateが64個の素子分だけ移動させられ、65〜640の指数を有する素子がベクトルstateの最初の576個の素子にコピーされる。
図10Bは32個の副帯値のための複合値合成フィルターバンクという形での本発明の実施形態のMATLAB原稿を示す。図10Bに示す原稿により定義される関数はILDFB80_32と呼ばれるものであるが、この名前は、この関数が過去からの8ブロックの重複と未来からの0ブロックの重複を有する32帯域のための逆転低遅延フィルターバンクであることを示している。
図9A、図9Bに示した実施形態に関して説明したように、図10Bの実施形態もまた、図10Aに係る64副帯合成バンクフィルターと密接に関わるものである。つまり、同様のベクトルが関数に与えられ、また関数によって出力される。しかし、それらのベクトルは、図10Aの場合と比較して、半分の数の素子しか含まない。32帯域合成フィルターバンクは、図10Aに示す64副帯の合成フィルターバンクとは、主に二つの面で異なっている。ステップS500,S510,S520,S530,S560,S570,S580は、処理される素子の数及び素子に関係するパラメータの数が半分であるステップに置き換えられている。さらに、合成ウィンドウ関数を生成するステップS540は、ステップS542に置き換えられ、合成ウィンドウ関数は、式(15)に基づき直線的補間された合成ウィンドウ関数として生成される。
ステップS500に取って代わるステップS500’において、変数mはm=(32+1)/2として定義され、ベクトルtempは式(27)に基づき定義される。そこでは、指数nは単に1〜32の範囲をカバーするだけのものであり、指数関数の偏角において、1/128の比率が1/64の比率に置き換えられる。
従って、ステップS510に取って代わるステップS510’においても、指数の範囲はベクトルtempを含む単に32個の素子の指数である。換言すれば、指数は1〜32の値をカバーしているだけである。従って、ステップS520に取って代わるステップS520’においても、指数関数の偏角は(i・π・n・64)に置き換えられ、指数nは0〜63の範囲である。ステップS530’においても、指数範囲は、ステップS530と比べて2の比率で減じられている。
図10AのステップS540に取って代わるステップS542でもまた、ベクトルLDFB80_winに保存されているウィンドウ関数がベクトルwin_anaにコピーされ、式(28)に基づき時間逆転版win_synが生成される。しかし、図10Bに示す実施形態のステップS542は、さらに式(15)に基づく補間ステップを含み、合成ウィンドウ関数のウィンドウ係数を含む再定義されたベクトルwin_synの各素子のために、元の合成ウィンドウ関数の二つの連続するウィンドウ係数の直線的補間が行われる。
ウィンドウをベクトルtmpに応用し、素子tmpをそのウィンドウ処理後のものに置き換えるステップS550は、図10A、図10Bのそれぞれのステップを直接比較すると、同じである。しかし、図10Bの場合にはベクトルtmpのサイズが小さいので、半分の掛け算が実行されるだけである。
ステップS560,S570,S580に取って代わるステップS560’,S570’,S580’においても、指数640及び64がそれぞれ320及び32に置換される。故に、これらの最後の三つのステップは、図10Aに示した実施形態のこれらのステップと比べて、ベクトルstateのサイズの点でのみ異なっている。
これまでに説明した実施形態で述べたように、解析ウィンドウ処理装置及び合成ウィンドウ処理装置は、それぞれのフレームに含まれる時間領域のそれぞれのサンプルをウィンドウ関数のウィンドウ係数と素子ごとに掛け算することによってウィンドウ処理するように構成されている。
例えば合成ウィンドウ関数及びその時間逆転版の解析ウィンドウ関数として使用され得るウィンドウ関数をより詳細に説明する前に、本発明に係る実施形態の利点を、特に図5、図6に示すSBR装置またはシステムの構造の実施に関して詳細に説明する。
本発明に係る実施形態及び本発明の実施形態を一つ以上含むシステムが提供する利点は、他のフィルターバンクによる遅延をかなり低下させることである。この低遅延特性は図13、図14に関して後により詳細に述べる。これに関する一つの重要な側面は、ウィンドウ関数の長さ、つまり時間領域サンプルのフレームまたはブロックに適応されるウィンドウ係数の数は、遅延とは無関係であるということである。
また、図17、図18に関して後に詳細に述べるが、心理音響の点に関して、本発明の実施形態は、しばしば、他の多くのフィルターバンクよりも有効に人間の耳の一時的なマスキング特性を利用している。さらに、図15、図16、図19を参照して後により詳細に述べるが、本発明の実施形態は非常に良好な周波数応答を提供する。
また、本発明の一実施形態に係る多くのフィルターバンクにおいては、解析フィルターバンクと合成フィルターバンクが相互接続されているならば、完全な再生が可能である。換言すれば、本発明の実施形態は、このような相互接続された一組の解析フィルターバンクと合成フィルターバンクへの入力と比較して聴覚的に区別不可能な出力を提供するだけでなく、量子化の誤差及びコンピュータ処理の循環効果と必要な個別分離化によって生じる他の効果は別として、入力と同じ出力を提供する。
本発明に係るフィルターバンクのSBRモジュールへの統合は、簡単にできる。概してSBRモジュールは二種速度モードで動作するが、本発明にかかる複合値低遅延フィルターバンクは一種速度モードで完全な再生を行うことが可能である。しかし、元来のSBR QMFフィルターバンクは完全ではなく、それに近い再生が可能であるだけである。二種速度モードでは、インパルス応答の32帯域版が直線的補間によって得られる。この直線的補間は、図3に関して説明したように、64帯域インパルス応答またはウィンドウ関数の二つの隣接したタップ又はウィンドウ係数のダウンサンプリングのことを意味している。
複合値フィルターバンクの場合、批判的に取り上げたフィルターバンクに比べて、解析(または合成)遅延をかなり低下させることができ、サンプリング周波数又は処理周波数は、ナイキスト−シャノン理論によるボーダー周波数に相当するものである。実数値フィルターバンクの場合、例えば図9、図10でMATLAB実施に関して示したように、最適化されたアルゴリズムを使用することで有効な実施ができる。これらの実施形態は、図5、図6に関して説明したように、例えばSBR装置の低電源モードに使用できる。
図5、図6を参照して述べたように、SBRシステムにおいて、本発明の一実施形態に係る複合値低遅延フィルターバンクを使用することで、遅延をより低下させることができる。前述したように、図5に示すようなSBRデコーダ610において、QMF解析フィルターバンク620は本発明の一実施形態に係る複合値低遅延フィルターバンク(CLDFB)に置き換えられる。帯域の数(64)とインパルス応答の長さ(640)を保ちながら、複合調整を用いることによって、この置き換えはコンピュータ処理として実行される。この装置による遅延は、達成可能な質のレベルを犠牲にせずに、全体としての遅延が双方向通信にとって十分低いものとなる程度に抑えられる。
例えば、複合値のMDCTに類似のシステムを形成するためにMDCT及びMDSTを有するシステムと比較して、本発明に係る一実施形態は非常に良い周波数応答を有する。例えば、今日、MPEG−4 SBRに使用されるQMFフィルターバンクと比べて、本発明の実施形態に係る一つ又はそれ以上のフィルターバンクを含むシステムは、かなり低い遅延を有する。
低遅延QMFフィルターバンクと比較しても、本発明に係る実施形態は、低遅延と共に完全な再生という利点を有する。QMFフィルターバンクの完全に近い再生とは対照的に、完全な再生特性から得られる利点は以下のようなものである。完全に近い再生のためには、エイリアシングを十分に低いレベルに抑えるために、高いストップバンド減衰が必要である。このことは、フィルター設計において非常に低遅延なものを達成する可能性に制限を与える。しかし、本発明に係る実施形態を採用すれば、エイリアシングを十分に低いレベルに抑えるために高いストップバンド減衰を必要としないので、フィルターを独立的に設計する可能性を与えることになる。ストップバンド減衰は、必要とされる信号処理の応用にとってエイリアシングの十分な低下を可能とするのに十分な低さである。従って、フィルター設計において、低遅延に対するより良いトレードオフが可能である。
図11は、例えば正弦ウィンドウ関数710と本発明に係る実施形態に使用可能なウィンドウ関数700との比較を示す。このウィンドウ関数700は「合成」CMLDFBウィンドウ(CMLDFB=複合変調低遅延フィルターバンク)とも称されるが、付録1の表に示す値に基づく640個のウィンドウ係数を有している。ウィンドウ関数の大きさに関して、以下に示すように、ウィンドウ信号の振幅調整のための一般的な増幅率又は抑制率は考慮されないことを明記しておく。このウィンドウ関数は、図13に示されているように、例えば遅延の中心に相当する値に関して、又はn=N,n=N−1,n=N+1(N=ブロック長,n=ウィンドウ係数の指数)に関して標準化される。これに対して、正弦ウィンドウ関数710は128個のサンプルによって定義されるものであり、例えば、MDCT又はMDSTモジュールに使用される。
しかし、実施の詳細により、付録1〜3の表に示されている値に基づくウィンドウ係数を得るために、指数128〜255,384〜511に相当するウィンドウ係数に関して、式(16a),(16b)に基づく符号変換(比率−1の掛け算)がさらに必要となる場合がある。
二つのウィンドウ関数700,710を論ずる前に、どちらのウィンドウ関数も実数値のウィンドウ係数のみを含むものであることを明記する。さらに、どちらの場合も、指数n=0に相当するウィンドウ係数の絶対値は0.1よりも小さい。CMLDFBウィンドウ700の場合、それぞれの値はさらに0.02よりも小さい。
二つのウィンドウ関数700,710をそれらの定義集合に関して考慮すると、いくつかの重要な違いが明らかとなる。正弦ウィンドウ関数710は対称であるのに対し、ウィンドウ関数700は非対称である。これをより明確に定義するために、全ての実数nに関してある一つの実数値n0が存在し、(n0+n)及び(n0−n)にとって正弦ウィンドウ関数710が望ましい誤差(ε≧0;式(29)の両辺の項の差の絶対値はε以下である)で、以下の関係を満たすように定義されるので、正弦ウィンドウ関数は対称である。
Figure 0004936569
w(n)は指数nに相当するウィンドウ係数を示す。正弦ウィンドウの場合、それぞれの指数n0が二つの最大のウィンドウ係数の正確に真ん中にある。換言すれば、正弦ウィンドウ関数710にとって、その指数はn0=63.5である。この正弦ウィンドウ関数は指数n=0,…,127で定義される。
これとは対照的に、ウィンドウ関数700は指数n=0,…,639によって定義される。このウィンドウ関数700は、全ての実数n0のために少なくとも一つの実数が常に存在し、(n0+n)及び(n0−n)は、以下の不等式が(ほぼ計画的に)定義可能な誤差(ε≧0;式(29)の両辺の項の差の絶対値はε以上である)で成り立つウィンドウ関数の定義集合に属している点から、明らかに非対称である。
Figure 0004936569
ここでも、w(n)は指数nに相当するウィンドウ係数である。
これら二つのウィンドウ関数はどちらも64個のサンプルというブロックサイズに関するものであるが、これらの間の更なる違いは、ウィンドウ関数700の最大値は1よりも大きく、合成ウィンドウに関して以下の範囲の指数のために得られたものであるということである。
Figure 0004936569
図11に示すウィンドウ関数700の場合、得られた最大値は、指数n=77のサンプルで得られた1.04よりも大きい。これに対して、正弦ウィンドウ710の最大値は1以下であり、n=63及びn=64で得られる。
しかし、ウィンドウ関数700では、n=N近辺のサンプル指数で約1の値が得られる。より正確には、指数n=N−1に相当するウィンドウ係数w(N−1)の絶対値又はそれ自身の値は1よりも小さく、n=Nに相当するウィンドウ係数w(N)の絶対値又はそれ自身の値は1よりも大きい。本発明に係るいくつかの実施形態において、これら二つのウィンドウ係数は以下の関係を満たす。
Figure 0004936569
これは本発明の実施形態に係るフィルターバンクのオーディオの質を最適化した結果である。多くの場合において、できる限り小さい絶対値のウィンドウ係数w(0)を有することが望ましい。この場合、可能なパラメータに関して最適化されたオーディオの質を達成するためには、以下の式で示されるように、ウィンドウ係数の決定要素はできる限り1に近づけるべきである。
Figure 0004936569
式(33)によって与えられる決定要素の符号は、しかし自由に選択できる。ウィンドウ係数w(0)は0よりも小さい又は約0であるので、w(N−1)・w(N)の積又はその絶対値は+/−1に限りなく近い。この場合、ウィンドウ係数w(2N−1)はほとんど自由に選択できる。式(33)は、G.D.T.シュラー及びM.J.T.スミスによる「変調完全再生フィルターバンクの新しい構造」(信号処理に関するIEEE変換,Vol.44,No.8,1996年8月)に説明されているような0遅延マトリクス技術を用いた結果である。
さらに、図13を参照しながら後述するが、指数N−1及びNに相当するウィンドウ係数は変調コアの中心に含まれ、従って、約1.0の値を含み、プロトタイプフィルター関数又はウィンドウ関数によって定義されるフィルターバンクの遅延と同時に生じるサンプルに相当する。
図11に示すような合成ウィンドウ関数700は、さらに、最新の時間領域オーディオサンプルをウィンドウ処理するのに使用される指数(n=0)に相当するウィンドウ係数列のウィンドウ係数から、合成ウィンドウ関数700のウィンドウ係数全てのうちで最も高い絶対値を有するウィンドウ係数まで、完全に単調に増加する振動を示す。当然、時間逆転解析ウィンドウ関数の場合には、対応する(時間逆転)解析ウィンドウ関数で最も高い絶対値を有するウィンドウ係数から、最新の時間領域オーディオサンプルをウィンドウ処理するのに使用される指数(n=639)に相当するウィンドウ係数列のウィンドウ係数まで、完全に単調に低下する振動を示す。
このような振動の結果、合成ウィンドウ関数700の展開は0.02よりも小さい絶対値を有する指数n=0に相当するウィンドウ係数から開始され、指数n=1に相当するウィンドウ係数の絶対値は0.03よりも小さく、指数n=Nで約1の値が得られ、式(31)に示す範囲内の指数で1.04より大きい最大値が得られ、n=90及びn=91で再び約1の値が得られ、n=162及びn=163の指数で最初の符号変換が見られ、約n=3Nの指数で−0.1又は−0.12755よりも小さい最小値が得られ、n=284及びn=285の指数でさらなる符号変換が見られる。しかし、この合成ウィンドウ関数700は、さらに別の指数nでさらなる符号変換をしてもよい。これらのウィンドウ係数を付録1及び3の表に示されている値と比較すると、指数128〜255,384〜511に相当するウィンドウ係数に関して、式(16a),(16b)に基づくさらなる符号変換(比率−1の掛け算)が考えられるべきである。
合成ウィンドウ関数700のこの振動は、かなり低減された振動と同様のものであり、最大値が約1.04、最小値が−0.12として描かれている。この結果、全てのウィンドウ係数のうちの50%以上が0.1以下の絶対値を有している。図1、図2Aの実施形態に関して説明したように、ウィンドウ関数の展開は第1グループ420(又は200)及び第2グループ430(又は210)を含み、第1グループ420はウィンドウ係数第1連続部分を含み、第2グループ430はウィンドウ係数第2連続部分を含む。前述したように、ウィンドウのウィンドウ係数列は第1グループ420のウィンドウ係数と第2グループ430のウィンドウ係数だけを含み、第1グループ420のウィンドウ係数は正にウィンドウ係数第1連続部分であり、第2グループ430のウィンドウ係数は正にウィンドウ係数第2連続部分である。従って、第1グループ420とウィンドウ係数第1連続部分、第2グループとウィンドウ係数第2連続部分とは類義語として使用される。
全てのウィンドウ係数のうちの50%以上のものは0.1以下の値を有しており、第2グループつまりウィンドウ係数第2部分430に、ウィンドウ関数700の非常に低減された振動の結果として含まれている。また、第2グループつまり第2部分430に含まれている全てのウィンドウ係数のうちの50%以上のものは0.01以下の絶対値を有する。
ウィンドウ係数第1部分420は、ウィンドウ係数列の全てのウィンドウ係数のうちの3分の1未満のものを含んでいる。従って、ウィンドウ係数第2部分430はウィンドウ係数の2/3以上を含んでいることになる。フレーム120,150,330,380のいずれかで処理されるべきブロックの合計数がT(4ブロックよりも多い)である場合、第1部分は概して3/2・N個のウィンドウ係数を含み、Nは一つのブロック中の時間領域サンプルの数である。従って、第2部分は残りのウィンドウ係数、より正確には、(T−3/2)N個のウィンドウ係数を含む。図11に示すように、フレームごとのブロック数が10(T=10)の場合、第1部分は3/2・N個のウィンドウ係数を含み、第2部分は8.5・N個のウィンドウ係数を含む。ブロックごとの時間領域オーディオサンプルの数が64(ブロックサイズがN=64)の場合、第1部分は96個のウィンドウ係数を含み、第2部分は544個のウィンドウ係数を含む。図11に示すような合成ウィンドウ関数700では、第1部分と第2部分のボーダー、つまり指数nが95又は96の部分において、約0.96の値が得られる。
第1部分420及び第2部分430に含まれているウィンドウ係数の数がこのようなものであるにもかかわらず、それぞれの部分でのウィンドウ係数のエネルギー値または合計エネルギー値は互いに大きく異なっている。エネルギー値は以下の式によって定義される。
Figure 0004936569
w(n)はウィンドウ係数であり、式(34)で合計される指数nはそれぞれの部分420,430の指数であり、それぞれのエネルギー値Eは、一組のウィンドウ係数全体のものである。ウィンドウ係数が数の点で上記のような重大な違いがあるにもかかわらず、第1部分420のエネルギー値は全てのウィンドウ係数の合計エネルギー値の2/3以上である。従って、第2部分430のエネルギー値は全てのウィンドウ係数の合計エネルギー値の1/3以下である。
より詳細には、ウィンドウ関数700のウィンドウ係数第1部分420のエネルギー値は約55.85であり、ウィンドウ係数第2部分430のエネルギー値は22.81である。ウィンドウ関数700の全てのウィンドウ係数の合計エネルギー値は約78.03であるので、第1部分420のエネルギー値はウィンドウ係数全体のエネルギー値の約71.6%であり、第2部分430のエネルギー値は全体のエネルギー値の約28.4%である。
当然、式(34)は、エネルギー値Eを標準化係数E0で割ることにより、標準化版として示すことも可能である。E0は原則的にどんなエネルギー値であってもよい。標準化係数E0は、例えば式(34)に基づき計算されるウィンドウ係数列の全てのウィンドウ係数の合計エネルギー値であってもよい。
ウィンドウ係数の絶対値又はそれぞれのウィンドウ係数のエネルギー値に基づき、ウィンドウ係数列の中心点つまり「質量の中心」が決定され得る。ウィンドウ係数列の質量の中心つまり中心点は実数であり、概してウィンドウ係数第1部分420の指数範囲に存在している。それぞれのフレームが4よりも多いブロック数の時間領域オーディオサンプル(T>4)を含む場合、ウィンドウ係数の絶対値に基づく質量の中心nca又はウィンドウ係数のエネルギー値に基づく質量の中心nceは、3/2・Nよりも小さい。換言すれば、フレームごとのブロック数T=10の場合、質量の中心は第1部分420の指数の領域にある。
ウィンドウ係数w(n)の絶対値に基づく質量の中心ncaは、以下の式(35)によって定義され、ウィンドウ係数w(n)のエネルギー値に基づく質量の中心nceは、以下の式(36)によって定義される。
Figure 0004936569
Figure 0004936569
NとTは、それぞれ、ブロックごとの時間領域オーディオサンプルの数及びフレームごとのブロックの数を示す正の整数である。当然、式(35),(36)による中心点はまた、上記の合計の限界を置き換えることによって、ウィンドウ係数の限定集合に関して求めることも可能である。
図1に示すようなウィンドウ関数700に関して、ウィンドウ係数w(n)の絶対値に基づく質量の中心ncaは、nca≒87.75の値に等しく、ウィンドウ係数w(n)のエネルギー値に関する中心点つまり質量の中心nceは、nce≒80.04である。ウィンドウ関数700のウィンドウ係数第1部分200は96個(=3/2・N;N=64)のウィンドウ係数を含み、前述したように、中心点は両方ともウィンドウ係数第1部分200内にある。
ウィンドウ係数700のウィンドウ係数w(n)は付録1の表に示されている値に基づいている。しかし、例えば前述したようなフィルターバンクの低遅延特性を達成するためには、付録1の表に示されている値を正確にウィンドウ係数に適用する必要はない。多くの場合、640個のウィンドウ係数を含むウィンドウ関数のウィンドウ係数のためには、付録2〜4のいずれかの表に示されている関係又は式を満たすだけで十分である。付録1の表に示されているウィンドウ係数又はフィルター係数は好ましい値を示し、いくつかの実施においては式(16a),(16b)により適応されてもよい。しかし、例えば、別の付録の別の表により、これらの好ましい値は小数点第2位、第3位、第4位、第5位以降が変更されてもよく、結果としてのフィルター又はウィンドウ関数は本発明に係る実施形態の利点をなおも有している。しかし、実施の詳細により、付録1〜3の表に示されている値に基づくウィンドウ係数を得るために、指数128〜255,384〜511に対応するウィンドウ係数に関して、式(16a),(16b)に応じたさらなる符号変換(比率−1の掛け算)を考慮すべきである。
当然、別の個数のウィンドウ係数を含む別のウィンドウ関数が同様に定義され、本発明に係る実施形態の構造に使用され得る。これに関して、過去のサンプルと未来のサンンプルに関するブロックの配列だけでなく、ブロックごとの時間領域オーディオサンプルの数とフレームごとのブロックの数のどちらもまた、多様な範囲のパラメータにより変更可能である。
図12は、図11に示すような複合変調低遅延フィルターバンクウィンドウ(CMLDFB−ウィンドウ)700と、例えばMPEG標準のSBR装置に使用される元来のSBR QMFプロトタイプフィルター720との比較である。図11に示すように、CMLDFBウィンドウ700は本発明の一実施形態に係る合成ウィンドウである。
本発明の一実施形態に係るウィンドウ関数700は式(30)で定義されるように明らかに非対称である。ウィンドウ関数700及びSBR QMFプロトタイプフィルター720はそれぞれ640個の指数に関して定義されるので、元来のSBR QMFプロトタイプフィルター720は、指数n=319及び320に関して対称である。換言すれば、式(29)に関して、対称の中心を表す「指数値」n0は、SBR QMFプロトタイプフィルター720の場合、n0=319.5である。
さらに、SBR QMFプロトタイプフィルター720が対称であるために、式(35),(36)による中心点nca,nceもまた、それぞれ対称の中心n0に等しい。SBR QMFプロトタイプフィルター720は直交フィルターであるので、このプロトタイプフィルターのエネルギー値は64.00である。これとは対照的に、明らかに非対称のウィンドウ関数700は、前述したように、78.0327のエネルギー値を有している。
以下に、図5、図6に関して説明したSBRシステムについて検討する。このシステムにおいて、SBRデコーダ610は、解析フィルターバンクという形の本発明の実施形態をフィルターバンク620として、及び合成フィルターバンクの形の本発明の実施形態を合成フィルターバンク640として含む。後述するように、図11、図12に示すようなウィンドウ関数700を使用する本発明に係る解析フィルターバンクの総合遅延は、127個のサンプルの合計遅延であるが、元来のSBR QMFプロトタイプのフィルターに基づくSBR装置では640個のサンプルの合計遅延となる。
例えばSBRデコーダ610におけるSBRモジュールのQMFフィルターバンクを、複合値低遅延フィルターバンク(CLDFB)に置き換えることで、オーディオの質を低下させることもコンピュータ処理を複雑化させることもなく、遅延を42msから31.3msに低下させることができる。図7〜図10に関する本発明に係る実施形態で説明したように、この新しいフィルターバンクで、標準SBRモード(高性能モード)と実数値フィルターバンクのみを使用する低電源モードの両方が支えられる。
特に遠距離通信と双方向通信の分野において、低遅延は非常に重要である。超低遅延AACはすでに42msの通信応用にとって十分低い遅延を達成できたが、そのアルゴリズムの遅延はなおも、AAC低遅延コアコーデック(20msという低遅延を達成した)や他の遠距離通信コーデックのそれよりも高い。その遅延を低下させるための有望な方法は、本発明の一実施形態に係る低遅延フィルターバンク技術を利用することと、現在のQMFフィルターバンクを本発明の実施形態に係る低遅延のものに置き換えることである。換言すれば、さらなる遅延低下は、単にSBRモジュール610で使用されている通常のフィルターバンクを本発明の実施形態に係る複合低遅延フィルターバンクに置き換えることによって達成される。
CLDFBとも称される本発明の実施形態に係る新しいフィルターバンクは、SBRモジュール610での使用のために、できる限り元々使用されてきたQMFフィルターバンクと類似するように設計される。これは、例えば、SBRシステムで使用されているような64副帯又は64帯域の使用、同じ長さのインパルス応答、二種速度モードとの適合性を含む。
図13は、本発明の一実施形態に係るCLDFBウィンドウ700と元のSBR QMFプロトタイプフィルター720との比較を示す。さらに、図13は変調フィルターバンクの遅延を示し、これは、DCT−IVシステムの場合、N個のサンプルという長さを有する変調コアのフレーム遅延及びプロトタイプフィルター又はウィンドウ関数によって引き起こされる重複遅延を解析することによって決定できる。図13もまた、合成フィルターバンクの場合を示している。ウィンドウ関数700もプロトタイプフィルター関数720も、これら二つのフィルターバンクの合成プロトタイプフィルターのインパルス応答を示している。
SBR QMFフィルターバンク及び本発明の一実施形態によって提案されているCLDFBの両方の遅延解析に関して、解析及び合成において変調コアの右側と左側の重複部のみがそれぞれ遅延となる。
両方のフィルターバンクにおいて、変調コアは、図13では遅延750として記されている64個のサンプルの遅延を引き起こすDCT−IVに基づいている。SBR QMFプロトタイプフィルター720の場合、その対称性のために、図13に示すように、変調コア遅延750は、プロトタイプフィルター関数720の質量の中心つまり中心点に関して対称的に配置される。これは、SBR QMFフィルターバンクのバッファは、プロトタイプフィルター値のそれぞれのエネルギー値の点で最も大きな影響を及ぼすプロトタイプフィルター関数720が処理の際に考慮されるであろうポイントまで埋められる必要があるからである。プロトタイプフィルター関数720のこの形のために、バッファが、それぞれのプロトタイプフィルター関数の少なくとも中心点つまり質量の中心まで埋められなければならない。
このことをさらに説明すると、最初にSBR QMFフィルターバンクのバッファを全て初期化し、そのバッファは、データ処理が意義のあるデータの処理となるようなポイントまで埋められる必要があり、このためには、それぞれのウィンドウ関数又はプロトタイプフィルター関数が大きな要因となる。SBR QMFプロトライプフィルター関数の場合、プロトタイプフィルター関数の質量の中心つまり中心点に関してプロトタイプフィルター720が対称形であることが、遅延を生じさせる。
しかし、サンプル数N=64のDCT−IVを基礎とするシステムの変調コアによって生じる遅延は常に存在し、このシステムはまた1ブロックの遅延を含むので、SBR QMFのための合成プロトタイプは288個のサンプルの重複遅延を生じさせることになる。
前述したように、図13に関する合成フィルターバンクの場合、この付加的な左側の重複760が遅延を生じさせ、右側の重複770は過去のサンプルに関しているのでさらなる遅延を生じさせない。
これとは対照的に、本発明の一実施形態に係るCLDFBのバッファは最初に全て初期化され、合成フィルターバンク及び解析フィルターバンクは、そのウィンドウ関数の形のために、SBR QMFフィルターバンクと比べて即座に「意味のある」データを提供することができる。換言すれば、解析又は合成ウィンドウ関数700の形のために、ウィンドウ関数で処理され、重要な影響力を有するサンプルがより即座に得られる。従って、CLDFBのプロトタイプ又は合成ウィンドウ関数は、変調コアによってすでに生じた遅延750を考慮に入れて、32個のサンプルの重複遅延が生じるだけである。本発明の一実施形態に係るウィンドウ関数700のウィンドウ係数第1部分つまり第1グループ420は、好ましくは、変調コア遅延750と左側の重複760により生じる遅延に相当する96個のウィンドウ係数を含む。
解析フィルターバンクも合成フィルターバンクもどちらも同じ遅延を引き起こす。それは、解析フィルターバンクは、合成ウィンドウ関数又はプロトタイプ関数の時間領域逆転版に基づくものであるからである。従って、重複遅延は、合成フィルターバンクと同じ重複サイズを有する右側に生じる。このように、本発明の一実施形態に係る解析フィルターバンクの場合には、32サンプルの遅延が生じるのに対して、一方、元のQMFプロトタイプフィルターバンクの場合には、288サンプルの遅延が生じる。
図14Aに示す表は、フレーム長が480サンプル、サンプリング速度が48kHzの場合を想定し、多様な修正段階での遅延を示す。標準SBR装置と共にAAC−LDコーデックを有する標準的な構造において、二種速度モードのMDCT,IMDCTフィルターバンクは40msの遅延を引き起こす。そして、QMF装置自身が12msの遅延を引き起こす。また、SBR重複のために、さらに8msの遅延が生じ、このコーデックの総合的な遅延は大体60msとなる。
MDCT,IMDCTの低遅延版を有するAAC−ELDは、二種速度において、30msの遅延を生じさせる。また、SBR装置の元来のQMFフィルターバンクによる遅延が12msであるのに対して、本発明の一実施形態に係る複合値低遅延フィルターバンクを使用することで、たった1msの遅延となる。SBR重複を避けることにより、AAC−LD装置とSBR装置の単純な組み合わせにより8msの遅延が生じることを完全に防止することができる。従って、上記のような単純な組み合わせで60msの遅延が生じるのに対して、超低遅延AACコーデックは、アルゴリズム全体の遅延として30msとすることができる。故に、前述したような遅延低下方法の組み合わせは、実際、遅延全体として29msの節約になる。
図14Bの表は、図5、図6に示したシステムの元来のフィルターバンク及びここで提案するフィルターバンクによって生じる全体的なコーデック遅延を示す。図14Bに示すデータ及び値は、サンプリング速度が48kHz、コアコーダのフレームサイズが480サンプルの場合に基づく。図5、図6で説明したSBRシステムの二種速度方法により、コアコーダは24kHzのサンプリング速度で効果的に動作する。変調コアでの64サンプルのフレーム遅延がコアコーダによってすでに引き起こされているので、図13に関して説明しように、二つのフィルターバンクの個別の遅延値からそれを差し引くことができる。
図14Bの表が、MDCT,IMDCTの低遅延版(LD MDCT,LD IMDCT)を有する超低遅延AACコーデックの全体的な遅延を低下させることが可能であるということの基礎になる。MDCT,IMDCTの低遅延版および元来のQMFフィルターバンクを使用するだけで、全体的なアルゴリズム遅延が42msとなり、さらに従来のQMFフィルターバンクを本発明の一実施形態に係る複合値低遅延フィルターバンクに置き換えるだけで、全体的なアルゴリズム遅延を31.3msにまで低下させることができる。
一つ又はそれ以上のフィルターバンクを含む本発明の実施形態に係るフィルターバンクの質を評価するために、リスニングテストが行われ、そのテストから、本発明の実施形態に係るフィルターバンクはAAC−ELDと同じレベルのオーディオの質を保持し、複合SBRモード、実数値低電源SBRモードのどちらにおいても質の低下がないという結論が得られた。従って、本発明の実施形態に係る遅延最適化フィルターバンクは、遅延を10ms以上低下させるにもかかわらず、オーディオの質にも負担をかけることがない。一時的な特徴として、統計上重要でないが、わずかな向上さえ見られた。この向上は、カスタネットと鉄琴のテストにおいて観察された。
本発明の一実施形態に係る32帯域のフィルターバンクの場合のダウンサンプリングは、本発明に係るフィルターバンクのために、QMFフィルターバンクと同様によく動作することをさらに証明するために、以下のような評価が行われた。まず、対数正弦曲線がダウンサンプルされた32帯域フィルターバンクで解析され、0に初期化された32個の高帯域が付加された。その後、その出力は64帯域フィルターバンクにより合成され、再びダウンサンプルされ、元の信号と比較された。従来のSBR QMFプロトタイプフィルターバンクの使用は、信号・ノイズ率(SNR)が59.5dBという結果になる。しかし、本発明に係るフィルターバンクは78.5dBのSNRを達成する。このことは、本発明の実施形態に係るフィルターバンクは、ダウンサンプルされたものにおいても、少なくとも元のQMFフィルターバンクと同様に機能することを示している。
本発明の実施形態に採用されたこの遅延最適化非対称フィルターバンク方法は、対称プロトタイプの従来のフィルターバンクと比較して、まさに付加価値を提供するということを示すために、以下、同じ遅延を有する非対称プロトタイプと対称プロトタイプとを比較する。
図15Aは、広範囲における、低遅延ウィンドウ(グラフ800)を使用する本発明に係るフィルターバンクの周波数応答と128タップの長さを有する正弦ウィンドウ(グラフ810)を使用するフィルターバンクの周波数応答との比較を示す。図15Bは、これらのウィンドウ関数を使用する同じフィルターバンクの狭い範囲での周波数応答を示す拡大図である。
二つのグラフ800,810の直接的な比較から、本発明の一実施形態に係る低遅延フィルターバンクを使用するフィルターバンクの周波数応答は、同じ遅延を有する128タップの正弦ウィンドウを使用するフィルターバンクの周波数応答よりもかなり良いことがわかる。
また、図16Aは、全体的な遅延が127サンプルである異なるウィンドウ関数の比較を示す。64帯域のフィルターバンク(CLDFB)は、フレーム遅延と重複遅延を含む127サンプルの全体的な遅延を有する。対称プロトタイプと同じ遅延を有する変調フィルターバンクは、従って、図15A、図15Bに関して説明したように、128の長さのプロトタイプを有することになる。50%の重複を有するこれらのフィルターバンクのために、例えばMDCT、正弦ウィンドウ又はカイザー・ベッセルから導き出されるウィンドウは、概してプロトタイプとして良い選択である。従って、図16Aにおいて、本発明の一実施形態に係るプロトタイプとしての低遅延ウィンドウを使用するフィルターバンクの周波数応答が、同じ遅延を有する対称プロトタイプの周波数応答と比較されている。図16Aでは、図15A、図15Bで説明したような、本発明の実施形態に係るフィルターバンクの周波数応答(グラフ800)と正弦ウィンドウを使用するフィルターバンクの周波数応答(グラフ810)以外に、さらに二つのKBDウィンドウ、つまりパラメータα=4に基づくもの(グラフ820)とα=6に基づくもの(グラフ830)が示されている。図16A、及び図16Aの拡大図である図16Bのどちらも、非対称ウィンドウ関数または同じ遅延のプロトタイプフィルター関数を有する本発明の一実施形態に係るフィルターバンクを使用することで、かなり良い周波数応答が達成できることを示している。
この利点をより一般的な点から説明するために、図17において、前記フィルターバンクとは異なる遅延値を有する二つのフィルターバンクプロトタイプが比較されている。図15、図16で検討した本発明に係るフィルターバンクは127サンプルの全体的な遅延を有し、この遅延は過去に8ブロック及び未来に0ブロックの重複(CLDFB80)に相当するものである。図17は、同じ遅延(383サンプルの遅延)を有する二つの異なるフィルターバンクプロトタイプの周波数応答の比較を示す。より正確には、図17は、本発明の一実施形態に係る非対称プロトタイプフィルターバンクの周波数応答(グラフ840)を示し、これは、過去に6ブロックの時間領域サンプル、未来に2ブロックの時間領域サンプルの重複に基づくものである(CLDEFB62)。さらに図17は、383サンプルの遅延を有する対称プロトタイプフィルター関数の周波数応答(グラフ850)を示す。非対称プロトタイプ又はウィンドウ関数が、同じ遅延値の対称ウィンドウ関数又はプロトタイプフィルターを有するフィルターバンクよりも良い周波数応答を達成することがわかる。このことは、前述したように、遅延と質との間のより良いトレードオフが可能であることを示している。
図18は人間の耳の一時的なマスキング効果を示す。図18中、線860で示す瞬間に音が発生する場合、その音の周波数とその近辺の周波数に関するマスキング効果が、実際の音が開始される約20ms前に発生する。この効果はプレマスキングと呼ばれ、人間の耳の心理音響特性の一つの側面である。
図18に示す状況において、音は、線870で示される瞬間までの約200msの間聞こえるものとして残る。この間、人間の耳のマスキングが働き、これは同時マスキングとも称される。図18に示すように、音が止まった後(線870で示される)、その音の周波数及び近辺の周波数のマスキングは約150msの間、徐々に消えていく。この心理音響効果はポストマスキングとも称される。
図19は、本発明の一実施形態に係る低遅延フィルターバンク(CMLDFB)を使用するフィルターバンクに基づく従来のHE−AAC符号化信号とHE−AAC符号化信号のプレエコーを示す。図19Aは、カスタネットの元の時間信号を示し、HE−AACコーデック(高能率高度オーディオコーデック)を含むシステムで処理されたものである。従来のHE−AACに基づくシステムの出力は図19Bに示されている。二つの信号、つまり元の時間信号とHE−AACコーデックの出力信号とを直接比較すると、HE−AACコーデックの出力信号において、カスタネットの音が始まる前の矢印880で示されている部分に、プレエコーが見られることがわかる。
図19Cは、本発明の一実施形態に係るCMLDFBウィンドウを含むフィルターバンクに基づくHE−AACを有するシステムの出力信号を示す。図19Aに示されている元の時間信号と、本発明の一実施形態に係るフィルターバンクを使用した処理後の信号から、図19Cの矢印890で示されているように、カスタネットの音の開始直前のプレエコー効果がかなり低下していることがわかる。図18に関して説明したプレマスキング効果のために、図19Cの矢印890で示されるプレエコー効果は、従来のHE−AACコーデックの場合の矢印880で示されるプレエコー効果よりも、ずっとよく隠されている。本発明に係るフィルターバンクのプレエコーのこの状態は、従来のフィルターバンクに比べてかなり遅延が低下されたという結果でもあるが、これは人間の耳の一時的なマスキング特性と心理音響特性にずっとよく適合した出力を提供するものである。結果的に、リスニングテストを説明する際に述べたように、本発明の一実施形態に係るフィルターバンクを使用することは、遅延低下によりもたらされる質の向上さえにもつながる。
本発明に係る実施形態は、従来のフィルターバンクに比べて、コンピュータ処理の複雑さを増すことはない。低遅延フィルターバンクは、コンピュータ処理が複雑化されないように、SBRシステムの場合には、例えばQMFフィルターバンクと同じフィルター長及び同じ変調モードを使用する。プロトタイプフィルターの非対称な本質のために必要とされるメモリーに関して、合成フィルターバンクのために必要なROM(読み出し専用メモリ)は、ブロックごとのサンプル数N=64であり、フレームごとのブロック数T=10であるフィルターバンクの場合、約320ワード増加する。さらに、SBR関連のシステムの場合、解析フィルターが別に保存されるならば、必要なメモリーは、さらにもう320ワード増加する。
しかし、AAC−ELDコアのために現在必要なROMは約2.5キロワードであり、SBR装置のためには、さらに2.5キロワード必要であるが、必要なROMは約10%増加するだけである。メモリーと複雑性との間のできる限りのトレードオフとして、低いメモリー消費の方が重要である場合、図3及び式(15)に関して述べたように、合成フィルターから解析フィルターを生成するために直線的補間が使用できる。この補間処理は、必要な指示の数を約3.6%増加させるだけである。従って、SBRモジュール構造内の従来のQMFフィルターバンクを本発明の実施形態に係る低遅延フィルターバンクに置き換えることで、いくつかの実施形態においては、オーディオの質の低下や目立った複雑化を引き起こすことなく、10ms以上の遅延の低下を達成することができる。
このように、本発明に係る実施形態は、解析又は合成ウィンドウ、あるいはウィンドウ処理のための装置又は方法に関する。さらに、解析又は合成フィルターバンク、あるいはウィンドウを用いて信号を解析又は合成する方法を説明する。当然、上記の方法のうちの一つを実行するためのコンピュータプログラムもまた開示される。
本発明の実施形態は、ハードウェアでの実施、ソフトウェアでの実施又は両方の組み合わせとして実行され得る。生成され、受信され、または処理のために保存されるデータ、ベクトル及び変数は、ランダムアクセスメモリー、バッファ、リードオンリーメモリー、持久記憶装置(例えばEEPROM、フラッシュメモリー)、あるいは磁器メモリー、光メモリーなどの多様な種類のメモリーに保存可能である。保存場所は、例えば、変数、パラメータ、ベクトル、マトリクス、ウィンドウ係数や他の情報及びデータのそれぞれのデータ量を保存するのに必要な一つ又はそれ以上のメモリーユニットであってもよい。
ソフトウェアの実施は、多様なコンピュータ、コンピュータと同様のシステム、プロセッサ、ASIC(応用特定集積回路)また他の集積回路(IC)で実行され得る。
本発明の方法を実施するための必要条件によって、本発明の方法の実施形態はハードウェア、ソフトウェア又はその両方の組み合わせで実行可能である。プログラム可能なコンピュータシステム、プロセッサや集積回路と協働するデジタル記憶媒体、特にCD、DVDや電気的に読み出し可能な制御信号を記憶する他のディスクを使用して、本発明の実施形態が実行される。一般的に、本発明の一実施形態は、プログラムコードが機械読み取り可能な媒体に保存されたコンピュータプログラム製品であり、そのプログラムコードは、コンピュータプログラムがコンピュータ、プロセッサや集積回路上で起動された際、本発明の方法の実施形態を実行するものである。換言すれば、本発明の方法の実施形態は、従って、コンピュータ、プロセッサや集積回路上で起動された際に本発明の方法の少なくとも一つの実施形態を実行するプログラムコードを有するコンピュータプログラムである。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、解析ウィンドウ関数の第1部分は1よりも大きい最大絶対値を有するウィンドウ係数を含む。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、解析ウィンドウ関数は振動を示すものである。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、ウィンドウ係数列の全てのウィンドウ係数が実数値ウィンドウ係数である。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、時間領域オーディオ入力サンプルフレーム(120)は最初の時間領域オーディオ入力サンプルから最新の時間領域オーディオ入力サンプルまでT個の時間領域オーディオ入力サンプルブロック(130)を含み、各ブロックはN個の時間領域オーディオ入力サンプルを含む。ここで、T及びNは正の整数であり、Tは4よりも大きい。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置において、解析ウィンドウ処理部(110)のウィンドウ処理は、フレーム(120)の時間領域オーディオ入力サンプルを素子ごとにウィンドウ係数列のウィンドウ係数と掛け算することを含む。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、各時間領域オーディオ入力サンプルは、時間領域オーディオ入力サンプル列とウィンドウ係数列に従い、素子ごとに解析ウィンドウ関数のウィンドウ係数と掛け算される。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、時間領域オーディオ入力サンプルフレーム(120)の各時間領域オーディオ入力サンプルに対して、正に一つのウィンドウ処理後サンプルが生成される。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、ウィンドウ係数指数n=(T−3)・Nに対応するウィンドウ係数は−0.1よりも小さい値を含む。ここで、ウィンドウ係数列の指数は0〜N・T−1の範囲内の整数であり、最新の時間領域オーディオ入力サンプルをウィンドウ処理するためのウィンドウ係数は指数N・T−1に対応するウィンドウ係数である。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、ウィンドウ係数列のうち、ウィンドウ係数第1部分が3/2・N個のウィンドウ係数を含み、ウィンドウ係数第2部分が(T−3/2)・N個のウィンドウ係数を含む。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、ウィンドウ係数c(n)は付録3の表に示されている関係を満たす。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、ウィンドウ係数c(n)は付録2の表に示されている関係を満たす。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の解析ウィンドウ処理部(110)において、ウィンドウ係数c(n)は付録1の表に示されている値を含む。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置(100)又はその解析ウィンドウ処理部(110)において、解析ウィンドウ関数(190)は第1の個数のウィンドウ係数を含み、これらのウィンドウ係数は第1よりも大きい第2の個数のウィンドウ係数列を含む大きなウィンドウ関数から導き出されるものである。ウィンドウ関数(190)のウィンドウ係数は、大きなウィンドウ関数のウィンドウ係数の補間により導き出され、第2の個数は偶数である。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置(100)又はその解析ウィンドウ処理部(110)において、ウィンドウ関数のウィンドウ係数は直線的に補間される。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置(100)又はその解析ウィンドウ処理部(110)において、ウィンドウ関数のウィンドウ係数を得るために、解析ウィンドウ関数のウィンドウ係数は、大きなウィンドウ関数の、そのウィンドウ係数列において二つの連続したウィンドウ係数に基づき補間される。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置(100)又はその解析ウィンドウ処理部(110)は、以下の式に基づき解析ウィンドウ関数のウィンドウ係数c(n)を得るように構成されている。
Figure 0004936569
nはウィンドウ係数c(n)の指数を示す整数、c2(n)は大きなウィンドウ関数のウィンドウ係数である。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置(100)において、現在の処理されるべき時間領域オーディオ入力サンプルフレーム(120)は、直前の時間領域オーディオ入力サンプルフレーム(120)の(T−1)個の最近のブロックを初期の時間領域オーディオ入力サンプルの方向へ一ブロック分ずつ移動させ、現在のフレーム(120)の最新の時間領域オーディオ入力サンプルを含むブロックとして新しい一ブロック(220)の時間領域オーディオ入力サンプルを追加することで、生成される。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置(100)において、現在の処理されるべき時間領域オーディオ入力サンプルx(n)のフレーム(120)は、直前の時間領域オーディオ入力サンプルフレーム120の時間領域オーディオ入力サンプルxprev(n)を、時間又はサンプル指数n=32,…,319に対して以下の式に基づき移動させることにより、生成される。
Figure 0004936569
この装置(100)はさらに、時間又はサンプル指数n=31から始まる時間領域オーディオ入力サンプルx(n)の現在のフレーム(120)のために、時間又はサンプル指数nが小さくなっていく時間領域オーディオ入力サンプルの順番に基づき、次に来る32個の時間領域オーディオ入力サンプルを含ませることにより、時間領域オーディオ入力サンプルの現在のフレーム(120)の時間領域オーディオ入力サンプルx(n)を生成するように構成されている。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置において、計算機(170)は、一つのウィンドウ処理後サンプルフレーム(150)に基づくすべての副帯値がそのウィンドウ処理後サンプルフレーム(150)のウィンドウ処理後サンプルのスペクトル表示であるようにオーディオ副帯値を生成する時間/周波数コンバータを含む。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置において、時間/周波数コンバータは複合値又は実数値オーディオ副帯値を生成するものである。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置において、計算機(170)は、時間領域オーディオ入力サンプルの一ブロック(130)内の各時間領域オーディオ入力サンプルに対して一つのオーディオ副帯値を算出し、各オーディオ副帯値の算出つまり一つの時間領域オーディオ入力サンプルブロック(130)内の各時間領域オーディオ入力サンプルの計算は、ウィンドウ処理後フレーム(150)のウィンドウ処理後のサンプルに基づいている。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置において、計算機(170)は、ウィンドウ処理後のサンプル(150)を各副帯値のための調和振動関数で掛け算し、掛け算されたウィンドウ処理後のサンプルを合計することでオーディオ副帯値を算出し、調和振動関数の周波数は副帯値のうちの対応する副帯の中心周波数に基づいている。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置の計算機(170)において、調和振動関数は複合指数関数、正弦関数又は余弦関数である。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置において、計算機(170)は、n=0,…,63、k=0,…,31の場合、以下の式に基づきオーディオ副帯値wklを算出する。
Figure 0004936569
Figure 0004936569
z(n)は指数nに対応するウィンドウ処理後のサンプルであり、kは副帯指数であり、lはオーディオ副帯値ブロック(180)の指数であり、fosc(x)は実数値変数xに応じた振動関数である。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置において、計算機(170)は、振動関数fosc(x)は以下の式のうちのいずれかである。
Figure 0004936569
Figure 0004936569
Figure 0004936569
iは虚数単位である。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置(100)は、実数値時間領域オーディオ入力サンプルフレーム(120)を処理するものである。
本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置(100)は、このオーディオ副帯値と共に使用されるべき合成ウィンドウ関数(370)を示すか又はオーディオ副帯値を生成するのに使用された解析ウィンドウ関数(190)を示す信号を与えるものである。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置(300)は、時間領域オーディオ入力サンプルブロック(410)を生成するものであるが、この時間領域オーディオ入力サンプルブロック(410)はN個の時間領域オーディオ入力サンプルを含み、Nは正の整数である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置(300)は、時間領域オーディオサンプルブロック(410)をN個のオーディオ副帯値を含む一つのオーディオ副帯値ブロック(320)に基づき生成する。この装置(300)において、計算機(310)はT・N個の中間時間領域オーディオサンプルを含む中間時間領域オーディオサンプル列(330)を算出し、Tは正の整数である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の合成ウィンドウ処理部(360)において、合成ウィンドウ関数はウィンドウ係数列に関して非対称である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の合成ウィンドウ処理部(360)において、第1部分が、合成ウィンドウ関数の全てのウィンドウ係数のうちの1よりも大きい絶対値を有する最大値を含む。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の合成ウィンドウ処理部(360)において、合成ウィンドウ関数(370)は振動を示すものである。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の合成ウィンドウ処理部(360)において、第1部分が3/2・N個のウィンドウ係数を含み、第2部分が(T−3/2)・N個のウィンドウ係数を含む。ここで、Tは中間時間領域サンプルフレーム(330)に含まれるブロック340の個数を示す4以上の指数である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の合成ウィンドウ処理部(360)において、中間時間領域サンプル列のウィンドウ処理は、中間時間領域サンプルとウィンドウ係数の素子ごとの掛け算を含む。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の合成ウィンドウ処理部(360)において、各中間時間領域サンプルは、中間時間領域サンプル列とウィンドウ係数列に従って、合成ウィンドウ関数(370)のウィンドウ係数で素子ごとに掛け算される。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の合成ウィンドウ処理部(360)において、ウィンドウ関数(370)のウィンドウ係数は実数値である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の合成ウィンドウ処理部(360)において、ウィンドウ係数c(n)は付録3の表に示されている関係を満たす。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の合成ウィンドウ処理部(360)において、ウィンドウ係数c(n)は付録2の表に示されている関係を満たす。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の合成ウィンドウ処理部(360)において、ウィンドウ係数c(n)は付録1の表に示されている値を含む。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置(300)又はその合成ウィンドウ処理部(360)において、合成ウィンドウ関数は第1の個数のウィンドウ係数を含み、これらのウィンドウ係数は第1よりも大きい第2の個数の一連のウィンドウ係数を含む大きなウィンドウ関数から導き出されたものである。ここで、ウィンドウ関数のウィンドウ係数は、大きなウィンドウ関数のウィンドウ係数の補間によって導き出されたものであり、第2の個数は偶数である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置(300)又はその合成ウィンドウ処理部(360)において、合成ウィンドウ関数(370)は直線的に補間されたものである。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置(300)又はその合成ウィンドウ処理部(360)において、ウィンドウ関数(370)のウィンドウ係数は、ウィンドウ関数のウィンドウ係数を得るために、大きなウィンドウ関数の、そのウィンドウ係数列において二つの連続するウィンドウ係数に基づき補間される。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置(300)又はその合成ウィンドウ処理部(360)は、以下の式に基づき合成ウィンドウ関数のウィンドウ係数c(n)を得る。
Figure 0004936569
nはウィンドウ係数c(n)の指数を示す整数であり、c2(n)は大きなウィンドウ関数のウィンドウ係数である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、計算機(310)は、オーディオ副帯値を調和振動関数で掛け算し、掛け算されたオーディオ副帯値を合計することで中間時間領域サンプル列の中間時間領域サンプルを算出するものであり、調和振動関数の周波数はそれに対応する副帯の中心周波数に基づくものである。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置の計算機(310)において、調和振動関数は複合指数関数、正弦関数又は余弦関数である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、計算機(310)は、複合値又は実数値オーディオ副帯値に基づき、実数値中間時間領域サンプルを算出するものである。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、計算機(310)は、以下の式に基づき、実数値中間時間領域サンプルz(i,n)の列を算出する。
Figure 0004936569
nは0〜N・T−1の範囲の整数、Re(x)は複合値xの実数部分、π=3.14...は円周率である。fosc(x)は、計算機に与えられたオーディオ副帯値が複合値である場合、以下のようになり、iは虚数単位である。
Figure 0004936569
計算機に与えられたオーディオ副帯値が実数値である場合、以下のようになる。
Figure 0004936569
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、計算機(310)は、計算機(310)に与えられるオーディオ副帯値が中間時間領域サンプル列のスペクトル表示であるように、中間時間領域サンプル列を生成するための周波数/時間コンバータを含む。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、周波数/時間コンバータは、複合値又は実数値オーディオ副帯値に基づき中間時間領域サンプル列を生成する。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、計算機(310)は、以下の式に基づきオーディオ副帯値X(k)から中間時間領域サンプルg(n)の列を算出する。
nが20N−1〜2Nの範囲内の整数である場合、以下のようになる。
Figure 0004936569
nが0〜2N−1の範囲内の整数である場合、以下のようになる。
Figure 0004936569
jが0〜4の範囲内の整数であり、kが0〜N−1の範囲内の整数である場合、以下のようになる。
Figure 0004936569
Nは副帯値の個数及び時間領域オーディオサンプルの個数を示す整数、vは実数値ベクトル、vprevは直前に生成された時間領域オーディオサンプルの実数値ベクトルv、iは虚数単位、πは円周率である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、計算機(310)は、整数nが20N−1〜2Nの範囲である場合、以下の式に基づき、オーディオ副帯値X(k)から中間時間領域サンプル列g(n)を算出するように構成されている。
Figure 0004936569
整数nが0〜2N−1の範囲の場合、以下の式に基づき算出される。
Figure 0004936569
整数jが0〜4の範囲であり、整数kが0〜N−1の場合、以下の式に基づき算出される。
Figure 0004936569
Nはオーディオ副帯値の個数つまり時間領域オーディオサンプルの個数を示す整数、vは実数値ベクトルであり、Vprevは直前に生成された時間領域オーディオサンプルの実数値ベクトルvであり、πは円周率である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、重複加算出力部(400)は、ウィンドウ処理後の中間時間領域サンプルを、T個の連続するオーディオ副帯値ブロック(320)に基づき、重複方法で処理するように構成されている。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、重複加算出力部(400)は、時間領域サンプルout1(n)を以下の式に基づき出力するように構成されている。
Figure 0004936569
nはサンプル指数を示す整数であり、zl,nはサンプル指数nと0〜T−1の範囲のフレーム指数又は列指数lに対応するウィンドウ処理後の中間時間領域サンプルであり、l=0は最新のフレーム又は列に相当し、小さいlの値は以前に生成されたフレーム又は列に相当する。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、重複加算出力部(400)は、時間領域サンプルout(k)を以下の式に基づき出力するように構成されている。
Figure 0004936569
wはウィンドウ処理後の中間時間領域サンプルを含むベクトルであり、kは0〜N−1の範囲の指数を示す整数である。
本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置において、この装置(300)は、オーディオ副帯値を生成するために使用された解析ウィンドウ関数(190)を示す信号又は時間領域オーディオサンプルを生成するのに使用されるべき合成ウィンドウ関数(370)を示す信号を受信するように構成されている。
本発明の一実施形態によると、エンコーダ(510)は、本発明の一実施形態に係るオーディオ副帯チャンネルのオーディオ副帯値を生成する装置(560)を含む。
本発明の一実施形態によると、エンコーダ(510)はさらに、オーディオ副帯チャンネルのオーディオ副帯値を生成する装置(560)に接続され、装置(560)によって出力されたオーディオ副帯値を量子化・符号化し、量子化及び符号化されたオーディオ副帯値を出力するように構成されている量子化・符号化部(570)を含む。
本発明の一実施形態によると、デコーダ(580)は、本発明の一実施形態に係る時間領域オーディオサンプルを生成する装置(600)を含む。
本発明の一実施形態によると、デコーダ(580)はさらに、オーディオ副帯値を生成する装置(560)に接続され、符号化・量子化されたオーディオ副帯値を受信し、時間領域オーディオサンプルを生成する装置に接続され、復号化・非量子化されたオーディオ副帯値をオーディオ副帯値として装置(600)に提供するように構成された非量子化・復号化部(590)を含む。
本発明の一実施形態によると、SBRエンコーダ(520)は、SBRエンコーダ(520)に与えられた時間領域オーディオ入力サンプルフレームに基づき、オーディオ副帯チャンネルのオーディオ副帯値を生成する装置(530)、及びオーディオ副帯値を生成する装置(530)に接続され、オーディオ副帯値に基づきSBRパラメータを抜粋、出力するSBRパラメータ抜粋モジュール(540)を含む。
本発明の一実施形態によると、システム(610)は、システム(610)に与えられた時間領域オーディオ入力サンプルフレームに基づき、オーディオ副帯値を生成する装置(620)、及びオーディオ副帯値生成装置(620)によって生成されたオーディオ副帯値に基づき、時間領域オーディオサンプルを生成する装置(640)を含む。
本発明の一実施形態によると、システム(610)はSBRデコーダを含む。
本発明の一実施形態によると、システムはさらに、オーディオ副帯値を生成する装置(620)と時間領域オーディオサンプルを生成する装置(640)との間に相互接続され、SBRデータを受信し、SBRデータとオーディオ副帯値生成装置(620)からのオーディオ副帯値に基づきオーディオ副帯値を修正又は加算するように構成されたHF生成部(630)を含む。
本発明の実施形態に係る全ての装置及び方法に関して、実施の詳細により、付録1,3の表に示されている値に基づくウィンドウ係数を得るために、指数128〜255,384〜511に対応するウィンドウ係数に関する符号変換(比率−1の掛け算)が、式(16a),(16b)に基づきさらに実行されてもよい。つまり、ウィンドウ関数のウィンドウ係数は付録1の表に示されているウィンドウ係数に基づくものである。表に示されているウィンドウ関数のウィンドウ係数を得るためには、指数0〜127,256〜383,512〜639に対応する表中のウィンドウ係数が(+1)で掛けられ(つまり符号変換は行われない)、指数128〜255,384〜511に対応するウィンドウ係数は(−1)で掛けられる(つまり符号変換が行われる)必要がある。付録3の表に示されている関係をこのように扱う必要がある。さらに換言すると、付録1〜4の表に示されているウィンドウ係数は、式(16a),(16b)に従い変更されてもよい。
さらなる遅延、要因、付加的な係数の導入及び別の簡単な関数の導入も、式に基づく本応用の構造に含まれると理解されるべきである。さらに、簡単な定数、定加数などは削除してもよい。また、代数変換、同値変換及び近似式(例えばテイラー近似式)は式の結果を全くあるいは意義深く変えることはない。換言すれば、わずかな変更や変換が結果において本質的に同じものとなるならば、それらは、式に基づいていると考えられる。
以上、本発明を特に実施形態に関して説明してきたが、当業者にとっては、本発明の要旨の範囲内での形や詳細における多様な変更が可能である。これらの変更は、ここで開示し、以下のクレームにより理解される広い概念から離れない限り、本発明の別の実施形態として理解すべきである。
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569
Figure 0004936569

Claims (25)

  1. オーディオ副帯チャンネルの複合値のオーディオ副帯値を生成する装置であり、以下のものを含む、
    ウィンドウ処理後のサンプルを得るために、初期のサンプルから後期のサンプルに至る時間列にある時間領域入力サンプルのフレーム(120)を、ウィンドウ係数列を含む解析ウィンドウ関数(190)を使用してウィンドウ処理するための解析ウィンドウ処理部(110)であり、該解析ウィンドウ関数(190)は、該ウィンドウ係数列の第1部分を含むウィンドウ係数第1グループ(200)と該ウィンドウ係数列の第2部分を含むウィンドウ係数第2グループ(210)とを含み、前記第1部分は前記第2部分よりも少ない個数のウィンドウ係数を含み、前記第1部分のウィンドウ係数の合計エネルギー値は前記第2部分のウィンドウ係数の合計エネルギー値よりも高く、前記ウィンドウ係数第1グループは後期の時間領域サンプルをウィンドウ処理するのに使用され、前記ウィンドウ係数第2グループは初期の時間領域サンプルをウィンドウ処理するのに使用される、
    ウィンドウ処理後サンプルを使用してオーディオ副帯値を算出するための計算機(170)であり、該計算機(170)はウィンドウ処理後サンプルの一つのフレーム(150)に基づく全ての副帯値が該フレーム(150)のウィンドウ処理後サンプルのスペクトル表示となるようにオーディオ副帯値を生成する時間/周波数コンバータを含み、該時間/周波数コンバータは複合値のオーディオ副帯値を生成する。
  2. 請求項1に記載の装置(100)であり、前記解析ウィンドウ処理部(110)において、前記解析ウィンドウ関数(190)はウィンドウ係数列に関して非対称である。
  3. 請求項1又は請求項2に記載の装置(100)であり、前記解析ウィンドウ処理部(110)において、前記ウィンドウ係数列第1部分のウィンドウ係数の合計エネルギー値はウィンドウ係数列の全てのウィンドウ係数の合計エネルギー値の2/3以上であり、前記ウィンドウ係数列第2部分のウィンドウ係数の合計エネルギー値はウィンドウ係数列の全てのウィンドウ係数の合計エネルギー値の1/3以下である。
  4. 請求項1ないし請求項3のいずれかに記載の装置(100)であり、前記解析ウィンドウ処理部(110)において、前記ウィンドウ係数列第1部分はウィンドウ係数列のウィンドウ係数の合計数の1/3以下の個数のウィンドウ係数を含み、前記ウィンドウ係数列第2部分はウィンドウ係数列のウィンドウ係数の合計数の2/3以上の個数のウィンドウ係数を含む。
  5. 請求項1ないし請求項4のいずれかに記載の装置(100)であり、前記解析ウィンドウ処理部(110)において、前記解析ウィンドウ関数(190)のウィンドウ係数の中心点はウィンドウ係数列第1部分の指数範囲内の実数値に相当する。
  6. 請求項1ないし請求項5のいずれかに記載の装置(100)であり、前記解析ウィンドウ処理部(110)において、前記解析ウィンドウ関数(190)は、解析ウィンドウ関数(190)の全てのウィンドウ係数のうちの最大絶対値を有するウィンドウ係数から、最新の時間領域オーディオサンプルをウィンドウ処理するために使用されるウィンドウ係数まで、厳密に単調な減少を示す。
  7. 請求項1ないし請求項6のいずれかに記載の装置(100)であり、前記解析ウィンドウ処理部(110)において、指数n=(T−1)・Nに対応するウィンドウ係数は0.9〜1.1の範囲内の絶対値を有し、ウィンドウ係数列の指数は0〜N・T−1の範囲内の整数であり、フレーム(120)の最新の時間領域オーディオ入力サンプルをウィンドウ処理するのに使用されるウィンドウ係数は、指数N・T−1に対応するウィンドウ係数であり、また、前記時間領域オーディオ入力サンプルフレーム(120)は、フレーム(120)の初期の時間領域オーディオ入力サンプルから後期の時間領域オーディオ入力サンプルに至るT個の時間領域オーディオ入力サンプルブロック(130)を含み、各ブロックはN個の時間領域オーディオ入力サンプルを含み、T及びNは正の整数であり、Tは4よりも大きい。
  8. 請求項7に記載の装置(100)であり、前記解析ウィンドウ処理部(110)において、ウィンドウ係数指数n=N・T−1に対応するウィンドウ係数は0.02よりも小さい絶対値を有する。
  9. 請求項1ないし請求項8のいずれかに記載の装置(100)であり、前記解析ウィンドウ処理部(110)において、ウィンドウ処理後フレームのウィンドウ処理後サンプルz(n)を得るために、ウィンドウ処理は、以下の式に基づきフレーム(120)の時間領域オーディオ入力サンプルx(n)の掛け算をすることを含む、
    Figure 0004936569
    nは0〜T・N−1の範囲内のウィンドウ係数列の指数を示す整数であり、c(n)は指数nに対応する解析ウィンドウ関数のウィンドウ係数であり、x(N・T−1)は時間領域オーディオ入力サンプルフレーム(120)の最新の時間領域オーディオ入力サンプルであり、時間領域オーディオ入力サンプルフレーム(120)は、フレーム(120)の初期の時間領域オーディオ入力サンプルから後期の時間領域オーディオ入力サンプルに至るT個の時間領域オーディオ入力サンプルブロック(130)を含み、各ブロックはN個の時間領域オーディオ入力サンプルを含み、T及びNは正の整数であり、Tは4よりも大きい。
  10. 請求項9に記載の装置(100)であり、解析ウィンドウ処理部(110)において、ウィンドウ係数c(n)は付録4の表に示されている関係に従うものである。
  11. 請求項1ないし請求項10のいずれかに記載の装置であり、該装置(100)は、オーディオ副帯値のために使用されるべき合成ウィンドウ関数(370)の時間逆転版又は指数逆転版である解析ウィンドウ関数(190)を使用する。
  12. 実数値の時間領域オーディオサンプルを生成する装置(300)であり、以下のものを含む、
    オーディオ副帯チャンネルのオーディオ副帯値から中間時間領域サンプル列(330)を生成するための計算機(310)であり、該中間時間領域サンプル列は初期の中間時間領域サンプル及び後期の中間時間領域サンプルを含み、該計算機(310)は該中間時間領域サンプル列を生成するための周波数/時間コンバータを含み、該計算機(310)に与えられるオーディオ副帯値は中間時間領域サンプル列のスペクトル表示であり、前記周波数/時間コンバータは複合値のオーディオ副帯値に基づき中間時間領域サンプル列を生成する、
    ウィンドウ処理後の中間時間領域サンプルを得るために、ウィンドウ係数列を含む合成ウィンドウ関数(370)を使用して前記中間時間領域サンプル列(330)をウィンドウ処理する合成ウィンドウ処理部(360)であり、該合成ウィンドウ関数(370)はウィンドウ係数列の第1部分を含むウィンドウ係数第1グループ(420)及びウィンドウ係数列の第2部分を含むウィンドウ係数第2グループ(430)を含み、前記第1部分は前記第2部分よりも少ない個数のウィンドウ係数を含み、前記第1部分のウィンドウ係数の合計エネルギー値は前記第2部分のウィンドウ係数の合計エネルギー値よりも高く、前記ウィンドウ係数第1グループは後期の中間時間領域サンプルをウィンドウ処理するのに使用され、前記ウィンドウ係数第2グループは初期の中間時間領域サンプルをウィンドウ処理するのに使用される、
    時間領域サンプルを得るために、ウィンドウ処理後中間時間領域サンプルを処理するための重複加算出力部(400)。
  13. 請求項12に記載の装置(300)であり、前記合成ウィンドウ処理部(360)において、前記ウィンドウ係数列第1部分のウィンドウ係数の合計エネルギー値は合成ウィンドウ関数(370)の全てのウィンドウ係数の合計エネルギー値の2/3以上であり、前記ウィンドウ係数列第2部分のウィンドウ係数の合計エネルギー値は合成ウィンドウ関数(370)の全てのウィンドウ係数の合計エネルギー値の1/3以下である。
  14. 請求項12又は請求項13に記載の装置(300)であり、前記合成ウィンドウ処理部(360)において、前記ウィンドウ係数列第1部分はウィンドウ係数列のウィンドウ係数の合計数の1/3以下の個数のウィンドウ係数を含み、前記ウィンドウ係数列第2部分はウィンドウ係数列のウィンドウ係数の合計数の2/3以上の個数のウィンドウ係数を含む。
  15. 請求項12ないし請求項14のいずれかに記載の装置(300)であり、前記合成ウィンドウ処理部(360)において、前記合成ウィンドウ関数(370)のウィンドウ係数の中心点はウィンドウ係数列第1部分の指数範囲内の実数値に相当する。
  16. 請求項12ないし請求項15のいずれかに記載の装置(300)であり、前記合成ウィンドウ処理部(360)において、前記合成ウィンドウ関数(370)は、最新の時間領域オーディオサンプルをウィンドウ処理するために使用されるウィンドウ係数から、合成ウィンドウ関数(370)の全てのウィンドウ係数のうちの最大絶対値を有するウィンドウ係数まで、厳密に単調な増加を示す。
  17. 請求項12ないし請求項16のいずれかに記載の装置(300)であり、指数n=Nに対応するウィンドウ係数は0.9〜1.1の範囲内の絶対値を有し、ウィンドウ係数列の指数は0〜N・T−1の範囲内の整数であり、最新の中間時間領域サンプルをウィンドウ処理するのに使用されるウィンドウ係数は、指数n=0に対応するウィンドウ係数であり、Tは中間時間領域サンプルフレーム(330)に含まれるブロックの個数を示す4よりも大きい整数であり、また、該装置(300)はN個の時間領域オーディオサンプルを含む時間領域オーディオサンプルブロック(410)を生成し、Nは正の整数である。
  18. 請求項17に記載の装置(300)であり、前記合成ウィンドウ処理部(360)において、指数n=0に対応するウィンドウ係数は0.02以下の絶対値を有する。
  19. 請求項12ないし請求項18のいずれかに記載の装置(300)であり、前記合成ウィンドウ処理部(360)において、指数n=3Nに対応するウィンドウ係数は−0.1よりも小さく、該装置(300)はN個の時間領域オーディオサンプルを含む時間領域オーディオサンプルブロック(410)を生成し、Nは正の整数である。
  20. 請求項12ないし請求項19のいずれかに記載の装置(300)であり、前記合成ウィンドウ処理部(360)において、ウィンドウ処理後フレーム(380)のウィンドウ処理後サンプルz(n)を得るために、ウィンドウ処理は、以下の式に基づき中間時間領域サンプル列の中間時間領域サンプルg(n)の掛け算をすることを含む、
    Figure 0004936569
    n=0,…,T・N−1である。
  21. 請求項20に記載の装置(300)であり、合成ウィンドウ処理部(360)において、ウィンドウ係数c(n)は付録4の表に示されている関係を満たす。
  22. 請求項12ないし請求項21のいずれかに記載の装置(300)であり、該装置(300)は、オーディオ副帯値を生成するために使用される解析ウィンドウ関数(190)の時間逆転版又は指数逆転版である合成ウィンドウ関数(370)を使用する。
  23. オーディオ副帯値チャンネルの複合値のオーディオ副帯値を生成する方法であり、以下のステップを含む、
    初期のサンプルから後期のサンプルに至る時間列にある時間領域入力サンプルのフレームを、ウィンドウ係数列を含む解析ウィンドウ関数を使用してウィンドウ処理するステップであり、該解析ウィンドウ関数は、該ウィンドウ係数列の第1部分を含むウィンドウ係数第1グループ(200)と該ウィンドウ係数列の第2部分を含むウィンドウ係数第2グループ(210)とを含み、前記第1部分は前記第2部分よりも少ない個数のウィンドウ係数を含み、前記第1部分のウィンドウ係数の合計エネルギー値は前記第2部分のウィンドウ係数の合計エネルギー値よりも高く、前記ウィンドウ係数第1グループ(200)は後期の時間領域サンプルをウィンドウ処理するのに使用され、前記ウィンドウ係数第2グループ(210)は初期の時間領域サンプルをウィンドウ処理するのに使用される、
    ウィンドウ処理後サンプルを使用してオーディオ副帯値を算出するステップであり、該算出するステップは、ウィンドウ処理後サンプルの一つのフレーム(150)に基づく全ての副帯値が該フレーム(150)のウィンドウ処理後サンプルのスペクトル表示となるようなオーディオ副帯値の時間/周波数変換を含み、該時間/周波数変換は複合値のオーディオ副帯値に基づく中間時間領域サンプルの生成を含む。
  24. 実数値の時間領域オーディオサンプルを生成する方法であり、以下のステップを含む、
    オーディオ副帯チャンネルのオーディオ副帯値から中間時間領域サンプル列を算出するステップであり、該中間時間領域サンプル列は初期の中間時間領域サンプル及び後期の中間時間領域サンプルを含み、該算出するステップは、中間時間領域サンプル列のスペクトル表示であるオーディオ副帯値の周波数/時間変換を含み、該周波数/時間変換は複合値のオーディオ副帯値に基づく中間時間領域サンプル列の生成を含む、
    ウィンドウ処理後の中間時間領域サンプルを得るために、ウィンドウ係数列を含む合成ウィンドウ関数を使用して前記中間時間領域サンプル列をウィンドウ処理するステップであり、該合成ウィンドウ関数はウィンドウ係数列の第1部分を含むウィンドウ係数第1グループ(420)及びウィンドウ係数列の第2部分を含むウィンドウ係数第2グループ(430)を含み、前記第1部分は前記第2部分よりも少ない個数のウィンドウ係数を含み、前記第1部分のウィンドウ係数の合計エネルギー値は前記第2部分のウィンドウ係数の合計エネルギー値よりも高く、該ウィンドウ係数第1グループ(420)は後期の中間時間領域サンプルをウィンドウ処理するのに使用され、前記ウィンドウ係数第2グループ(430)は初期の中間時間領域サンプルをウィンドウ処理するのに使用される、
    時間領域サンプルを得るために、ウィンドウ処理後時間領域サンプルを重複加算処理するステップ。
  25. コンピュータに請求項23又は請求項24に記載の方法を実行させるためのプログラム。
JP2009533722A 2006-10-25 2007-10-23 オーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法 Active JP4936569B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US86295406P 2006-10-25 2006-10-25
US60/862,954 2006-10-25
PCT/EP2007/009199 WO2008049589A1 (en) 2006-10-25 2007-10-23 Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples

Publications (2)

Publication Number Publication Date
JP2010507820A JP2010507820A (ja) 2010-03-11
JP4936569B2 true JP4936569B2 (ja) 2012-05-23

Family

ID=39048961

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009500788A Active JP5083779B2 (ja) 2006-10-25 2007-10-23 オーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法
JP2009533722A Active JP4936569B2 (ja) 2006-10-25 2007-10-23 オーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2009500788A Active JP5083779B2 (ja) 2006-10-25 2007-10-23 オーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法

Country Status (26)

Country Link
US (11) USRE50157E1 (ja)
EP (10) EP3288027B1 (ja)
JP (2) JP5083779B2 (ja)
KR (2) KR100957711B1 (ja)
CN (2) CN101405791B (ja)
AR (2) AR063394A1 (ja)
AT (1) ATE435480T1 (ja)
AU (2) AU2007308415B2 (ja)
BR (2) BRPI0716315A2 (ja)
CA (2) CA2667505C (ja)
DE (1) DE602007001460D1 (ja)
DK (2) DK1994530T3 (ja)
ES (6) ES2834024T3 (ja)
FI (1) FI3848928T3 (ja)
HK (2) HK1119824A1 (ja)
HU (1) HUE064482T2 (ja)
IL (2) IL193786A (ja)
MX (2) MX2008011898A (ja)
MY (2) MY142520A (ja)
NO (3) NO341567B1 (ja)
PL (6) PL3848928T3 (ja)
PT (5) PT3288027T (ja)
RU (2) RU2411645C2 (ja)
TW (2) TWI357065B (ja)
WO (2) WO2008049590A1 (ja)
ZA (2) ZA200810308B (ja)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE50158E1 (en) 2006-10-25 2024-10-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
EP3288027B1 (en) 2006-10-25 2021-04-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating complex-valued audio subband values
US8160890B2 (en) * 2006-12-13 2012-04-17 Panasonic Corporation Audio signal coding method and decoding method
US8214200B2 (en) * 2007-03-14 2012-07-03 Xfrm, Inc. Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
WO2010013752A1 (ja) * 2008-07-29 2010-02-04 ヤマハ株式会社 演奏関連情報出力装置、演奏関連情報出力装置を備えるシステム、及び電子楽器
EP2268057B1 (en) * 2008-07-30 2017-09-06 Yamaha Corporation Audio signal processing device, audio signal processing system, and audio signal processing method
US9384748B2 (en) * 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
PL4231290T3 (pl) * 2008-12-15 2024-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy
RU2493618C2 (ru) * 2009-01-28 2013-09-20 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование
BRPI1007528B1 (pt) 2009-01-28 2020-10-13 Dolby International Ab Sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento
TWI662788B (zh) 2009-02-18 2019-06-11 瑞典商杜比國際公司 用於高頻重建或參數立體聲之複指數調變濾波器組
US8392200B2 (en) 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks
CN102422531B (zh) * 2009-06-29 2014-09-03 三菱电机株式会社 音频信号处理装置
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
FR2949582B1 (fr) * 2009-09-02 2011-08-26 Alcatel Lucent Procede pour rendre un signal musical compatible avec un codec a transmission discontinue ; et dispositif pour la mise en ?uvre de ce procede
JP5433022B2 (ja) * 2009-09-18 2014-03-05 ドルビー インターナショナル アーベー 高調波転換
ES2805349T3 (es) 2009-10-21 2021-02-11 Dolby Int Ab Sobremuestreo en un banco de filtros de reemisor combinado
CA2782338C (en) * 2009-11-30 2014-12-30 Akinori Fujimura Demultiplexing device, multiplexing device, and relay device
KR102020334B1 (ko) 2010-01-19 2019-09-10 돌비 인터네셔널 에이비 고조파 전위에 기초하여 개선된 서브밴드 블록
JP5782677B2 (ja) 2010-03-31 2015-09-24 ヤマハ株式会社 コンテンツ再生装置および音声処理システム
EP4398249A3 (en) * 2010-04-13 2024-07-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoding sample-accurate representation of an audio signal
US9443534B2 (en) * 2010-04-14 2016-09-13 Huawei Technologies Co., Ltd. Bandwidth extension system and approach
CN103155033B (zh) 2010-07-19 2014-10-22 杜比国际公司 高频重建期间的音频信号处理
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
CN101908342B (zh) * 2010-07-23 2012-09-26 北京理工大学 利用频域滤波后处理进行音频暂态信号预回声抑制的方法
US8755460B2 (en) * 2010-07-30 2014-06-17 National Instruments Corporation Phase aligned sampling of multiple data channels using a successive approximation register converter
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
FR2969804A1 (fr) * 2010-12-23 2012-06-29 France Telecom Filtrage perfectionne dans le domaine transforme.
MY166394A (en) 2011-02-14 2018-06-25 Fraunhofer Ges Forschung Information signal representation using lapped transform
CN103477387B (zh) 2011-02-14 2015-11-25 弗兰霍菲尔运输应用研究公司 使用频谱域噪声整形的基于线性预测的编码方案
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
KR101551046B1 (ko) 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
BR112013020482B1 (pt) 2011-02-14 2021-02-23 Fraunhofer Ges Forschung aparelho e método para processar um sinal de áudio decodificado em um domínio espectral
FR2977439A1 (fr) * 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
FR2977969A1 (fr) * 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
EP2573761B1 (en) 2011-09-25 2018-02-14 Yamaha Corporation Displaying content in relation to music reproduction by means of information processing apparatus independent of music reproduction apparatus
EP3544006A1 (en) 2011-11-11 2019-09-25 Dolby International AB Upsampling using oversampled sbr
JP5494677B2 (ja) 2012-01-06 2014-05-21 ヤマハ株式会社 演奏装置及び演奏プログラム
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
MX2021000353A (es) * 2013-02-05 2023-02-24 Ericsson Telefon Ab L M Método y aparato para controlar ocultación de pérdida de trama de audio.
TWI557727B (zh) 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
CN105247614B (zh) 2013-04-05 2019-04-05 杜比国际公司 音频编码器和解码器
EP3742440B1 (en) 2013-04-05 2024-07-31 Dolby International AB Audio decoder for interleaved waveform coding
US10893488B2 (en) 2013-06-14 2021-01-12 Microsoft Technology Licensing, Llc Radio frequency (RF) power back-off optimization for specific absorption rate (SAR) compliance
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
RU2665281C2 (ru) * 2013-09-12 2018-08-28 Долби Интернэшнл Аб Временное согласование данных обработки на основе квадратурного зеркального фильтра
KR101782916B1 (ko) 2013-09-17 2017-09-28 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
WO2015060654A1 (ko) 2013-10-22 2015-04-30 한국전자통신연구원 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
KR102244613B1 (ko) * 2013-10-28 2021-04-26 삼성전자주식회사 Qmf 필터링 방법 및 이를 수행하는 장치
WO2015099429A1 (ko) 2013-12-23 2015-07-02 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법, 이를 위한 파라메터화 장치 및 오디오 신호 처리 장치
CN108600935B (zh) 2014-03-19 2020-11-03 韦勒斯标准与技术协会公司 音频信号处理方法和设备
KR101856127B1 (ko) 2014-04-02 2018-05-09 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
KR102318581B1 (ko) * 2014-06-10 2021-10-27 엠큐에이 리미티드 오디오 신호의 디지털 캡슐화
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI693594B (zh) 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3107096A1 (en) * 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
WO2017050398A1 (en) 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
WO2017153300A1 (en) * 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame
JP6976277B2 (ja) * 2016-06-22 2021-12-08 ドルビー・インターナショナル・アーベー 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法
EP3276620A1 (en) 2016-07-29 2018-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
US10224974B2 (en) 2017-03-31 2019-03-05 Microsoft Technology Licensing, Llc Proximity-independent SAR mitigation
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
EP3935630B1 (en) * 2019-03-06 2024-09-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio downmixing
CN112447166B (zh) * 2019-08-16 2024-09-10 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置
EP3786948A1 (en) * 2019-08-28 2021-03-03 Fraunhofer Gesellschaft zur Förderung der Angewand Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar
CN111402917B (zh) * 2020-03-13 2023-08-04 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
US11632147B2 (en) * 2020-08-13 2023-04-18 Marvell Asia Pte, Ltd. Simplified frequency-domain filter adaptation window
CN114007176B (zh) * 2020-10-09 2023-12-19 上海又为智能科技有限公司 用于降低信号延时的音频信号处理方法、装置及存储介质

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US351882A (en) 1886-11-02 Thill-coupling
US3666543A (en) * 1969-11-24 1972-05-30 Ludwig Maier Tris-(2-hydroxyalkyl)-phosphine oxide flame retardant articles
AU5811390A (en) 1989-05-17 1990-12-18 Telefunken Fernseh Und Rundfunk Gmbh Process for transmitting a signal
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3277682B2 (ja) 1994-04-22 2002-04-22 ソニー株式会社 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報伝送方法
KR100346734B1 (ko) 1995-09-22 2002-11-23 삼성전자 주식회사 고속분석필터및합성필터를구비한오디오부호화기및복호화기
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
US6377917B1 (en) 1997-01-27 2002-04-23 Microsoft Corporation System and methodology for prosody modification
JP3065067B2 (ja) * 1998-03-04 2000-07-12 韓國電氣通信公社 Mpegオ―ディオ多チャンネル処理用等間隔サブバンド分析フィルタ及び合成フィルタ
FI114833B (fi) 1999-01-08 2004-12-31 Nokia Corp Menetelmä, puhekooderi ja matkaviestin puheenkoodauskehysten muodostamiseksi
US6226608B1 (en) 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US6510407B1 (en) 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
US6718300B1 (en) 2000-06-02 2004-04-06 Agere Systems Inc. Method and apparatus for reducing aliasing in cascaded filter banks
JP2002091499A (ja) 2000-06-14 2002-03-27 Texas Instruments Inc ウインドウ圧縮/伸張方法
US6748363B1 (en) * 2000-06-28 2004-06-08 Texas Instruments Incorporated TI window compression/expansion method
EP1199711A1 (en) 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
US6996198B2 (en) * 2000-10-27 2006-02-07 At&T Corp. Nonuniform oversampled filter banks for audio signal processing
US6707869B1 (en) * 2000-12-28 2004-03-16 Nortel Networks Limited Signal-processing apparatus with a filter of flexible window design
SE0101175D0 (sv) * 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
US7400651B2 (en) 2001-06-29 2008-07-15 Kabushiki Kaisha Kenwood Device and method for interpolating frequency components of signal
JP4012506B2 (ja) 2001-08-24 2007-11-21 株式会社ケンウッド 信号の周波数成分を適応的に補間するための装置および方法
DE10228103A1 (de) 2002-06-24 2004-01-15 Bayer Cropscience Ag Fungizide Wirkstoffkombinationen
EP1543307B1 (en) * 2002-09-19 2006-02-22 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
JP3876850B2 (ja) * 2003-06-02 2007-02-07 ヤマハ株式会社 アレースピーカーシステム
US7563748B2 (en) 2003-06-23 2009-07-21 Cognis Ip Management Gmbh Alcohol alkoxylate carriers for pesticide active ingredients
EP1513137A1 (en) 2003-08-22 2005-03-09 MicronasNIT LCC, Novi Sad Institute of Information Technologies Speech processing system and method with multi-pulse excitation
TWI227866B (en) 2003-11-07 2005-02-11 Mediatek Inc Subband analysis/synthesis filtering method
CN1270290C (zh) * 2003-11-26 2006-08-16 联发科技股份有限公司 子带分析/合成滤波方法
CN100573666C (zh) * 2003-11-26 2009-12-23 联发科技股份有限公司 子带分析/合成滤波方法
WO2005073959A1 (en) 2004-01-28 2005-08-11 Koninklijke Philips Electronics N.V. Audio signal decoding using complex-valued data
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
EP1769092A4 (en) 2004-06-29 2008-08-06 Europ Nickel Plc IMPROVED LIXIVIATION OF BASE METALS
JP5129117B2 (ja) 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 音声信号の高帯域部分を符号化及び復号する方法及び装置
US7774396B2 (en) 2005-11-18 2010-08-10 Dynamic Hearing Pty Ltd Method and device for low delay processing
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
EP3288027B1 (en) 2006-10-25 2021-04-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating complex-valued audio subband values
TW200922334A (en) 2007-11-02 2009-05-16 Univ Nat Chunghsing Low complexity frequency field motion estimation method adapted to wavelet video coding

Also Published As

Publication number Publication date
EP4300825B1 (en) 2024-08-28
MY142520A (en) 2010-12-15
FI3848928T3 (fi) 2023-06-02
KR101056253B1 (ko) 2011-08-11
ES2947516T3 (es) 2023-08-10
CA2667505C (en) 2015-07-07
JP2010507820A (ja) 2010-03-11
EP4300824A2 (en) 2024-01-03
ES2834024T3 (es) 2021-06-16
EP2109098B1 (en) 2020-09-09
NO20084012L (no) 2009-07-22
ES2966657T3 (es) 2024-04-23
EP2076901B1 (en) 2017-05-10
USRE50009E1 (en) 2024-06-11
KR20090058029A (ko) 2009-06-08
US8775193B2 (en) 2014-07-08
ATE435480T1 (de) 2009-07-15
US20100023322A1 (en) 2010-01-28
EP3288027A1 (en) 2018-02-28
EP4300824B1 (en) 2024-08-28
ES2631906T3 (es) 2017-09-06
USRE50159E1 (en) 2024-10-01
USRE50054E1 (en) 2024-07-23
US8438015B2 (en) 2013-05-07
RU2009119456A (ru) 2010-11-27
BRPI0716315A2 (pt) 2017-05-30
PT2109098T (pt) 2020-12-18
EP1994530B1 (en) 2009-07-01
KR100957711B1 (ko) 2010-05-12
IL197976A (en) 2014-03-31
PT1994530E (pt) 2009-10-09
HUE064482T2 (hu) 2024-03-28
PT3848928T (pt) 2023-06-07
DK1994530T3 (da) 2009-08-31
RU2008137468A (ru) 2010-03-27
US20090319283A1 (en) 2009-12-24
EP4325724A2 (en) 2024-02-21
DK3848928T3 (da) 2023-06-19
NO20170452A1 (no) 2009-07-22
BRPI0709310A2 (pt) 2011-07-05
AU2007308416B2 (en) 2010-07-08
NO341610B1 (no) 2017-12-11
CN101405791B (zh) 2012-01-11
TW200836166A (en) 2008-09-01
EP2076901B8 (en) 2017-08-16
AU2007308415B2 (en) 2010-08-26
ES2328187T3 (es) 2009-11-10
HK1251073A1 (zh) 2019-01-18
AU2007308415A1 (en) 2008-05-02
IL193786A (en) 2011-11-30
EP4325724B1 (en) 2024-08-28
USRE49999E1 (en) 2024-06-04
JP5083779B2 (ja) 2012-11-28
US8452605B2 (en) 2013-05-28
EP2076901A1 (en) 2009-07-08
EP4207189B1 (en) 2023-11-22
EP4325723A2 (en) 2024-02-21
TWI355649B (en) 2012-01-01
RU2411645C2 (ru) 2011-02-10
NO341567B1 (no) 2017-12-04
NO20091951L (no) 2009-07-22
USRE50157E1 (en) 2024-10-01
CA2645618C (en) 2013-01-22
TWI357065B (en) 2012-01-21
EP2109098A3 (en) 2017-06-21
PL2076901T3 (pl) 2017-09-29
EP4325724A3 (en) 2024-04-17
CA2667505A1 (en) 2008-05-02
EP4325723A3 (en) 2024-04-17
EP4325723B1 (en) 2024-08-28
EP3288027B1 (en) 2021-04-07
EP4300824A3 (en) 2024-03-20
ZA200810308B (en) 2009-12-30
DE602007001460D1 (de) 2009-08-13
USRE50144E1 (en) 2024-09-24
AU2007308416A1 (en) 2008-05-02
AR063400A1 (es) 2009-01-28
PL3848928T3 (pl) 2023-07-17
EP3848928A1 (en) 2021-07-14
PT3288027T (pt) 2021-07-07
HK1119824A1 (en) 2009-03-13
CA2645618A1 (en) 2008-05-02
IL197976A0 (en) 2009-12-24
ES2873254T3 (es) 2021-11-03
EP4325724C0 (en) 2024-08-28
EP4300824C0 (en) 2024-08-28
EP4300825A3 (en) 2024-03-20
WO2008049589A1 (en) 2008-05-02
MX2008011898A (es) 2008-11-06
EP4207189C0 (en) 2023-11-22
EP4300825C0 (en) 2024-08-28
CN101405791A (zh) 2009-04-08
EP4207189A1 (en) 2023-07-05
RU2420815C2 (ru) 2011-06-10
PL1994530T3 (pl) 2009-12-31
TW200837719A (en) 2008-09-16
MY148715A (en) 2013-05-31
EP3848928B1 (en) 2023-03-15
PL2109098T3 (pl) 2021-03-08
KR20080102222A (ko) 2008-11-24
JP2009530675A (ja) 2009-08-27
USRE50132E1 (en) 2024-09-17
ZA200902199B (en) 2010-04-28
NO342691B1 (no) 2018-07-09
MX2009004477A (es) 2009-05-13
EP4300825A2 (en) 2024-01-03
EP1994530A1 (en) 2008-11-26
EP2109098A2 (en) 2009-10-14
USRE50015E1 (en) 2024-06-18
PL4207189T3 (pl) 2024-04-08
CN101606194B (zh) 2012-06-27
AR063394A1 (es) 2009-01-28
PL3288027T3 (pl) 2021-10-18
US20130238343A1 (en) 2013-09-12
EP4325723C0 (en) 2024-08-28
WO2008049590A1 (en) 2008-05-02
BRPI0709310B1 (pt) 2019-11-05
CN101606194A (zh) 2009-12-16
PT2076901T (pt) 2017-08-23

Similar Documents

Publication Publication Date Title
JP4936569B2 (ja) オーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4936569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250