JP2010539625A - スピーチおよびオーディオコーディングアプリケーションのためのmdct/imdctフィルタバンクの効率的な設計 - Google Patents

スピーチおよびオーディオコーディングアプリケーションのためのmdct/imdctフィルタバンクの効率的な設計 Download PDF

Info

Publication number
JP2010539625A
JP2010539625A JP2010526031A JP2010526031A JP2010539625A JP 2010539625 A JP2010539625 A JP 2010539625A JP 2010526031 A JP2010526031 A JP 2010526031A JP 2010526031 A JP2010526031 A JP 2010526031A JP 2010539625 A JP2010539625 A JP 2010539625A
Authority
JP
Japan
Prior art keywords
windowing
dct
factors
idct
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010526031A
Other languages
English (en)
Inventor
チブクラ、ラビ・キラン
レズニク、ユリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2010539625A publication Critical patent/JP2010539625A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

より効率的なエンコーダ/デコーダを提供する。NポイントMDCT変換が、事前または後続のウィンドウイングステージに移動できる、分離された事前乗算を有する、より小さいサイズのN/2ポイントDCT−IVおよび/またはDCT−II変換にマッピングされる。すなわち、ウィンドウイング演算が、それぞれ、コアMDCT/IMDCT機能における最初/最後のステージの演算とマージされてもよく、その結果、乗算の総数が低減される。さらに、オーディオコーデックにおける多くの既存のMDCT設計中で使用されるDCT−IVまたはFFTコアに対して、一様にスケーリングされた5ポイントDCT−IIコア機能を利用することによって、MDCTを体系的に2分の1にデシメートしてもよい。

Description

合衆国法典第35部第119条に基づく優先権の主張
特許に対する本出願は、2007年9月19日に出願され、“G.VBRコーデックのための高速MDCT/IMDCTの設計”と題する米国仮出願第60/973,709号と、2007年11月20日に出願され、“G.VBRコーデックのための固定点MDCT/IMDCTモジュールの設計”と題する米国仮出願第60/989,400号とに対する優先権を主張する。両出願は、この出願の譲受人に譲渡され、参照により明白にここに組み込まれている。
分野
以下の記述は一般に、エンコーダおよびデコーダに関連し、特に、音声およびオーディオコーデックのための効率的なMDCT/IMDCT構成に関連する。
背景
オーディオコーディングの1つの目標は、できるだけオリジナルのサウンド品質を保持しながら、オーディオ信号を所望の制限された情報量に圧縮することである。エンコーディングプロセスにおいて、時間領域におけるオーディオ信号は、周波数領域に変換され、対応するデコーディングプロセスは、そのような演算を逆にする。
そのようなエンコーディングプロセスの一部として、修正離散コサイン変換(MDCT)によって信号を処理してもよい。修正離散コサイン変換(MDCT)は、タイプIVの離散コサイン変換(DCT−IV)に基づく、フーリエに関連した変換であり、1つのブロックの終了が次のブロックの開始と同時に起こるようにブロックがオーバーラップされる追加のプロパティを有する。このオーバーラッピングは、エイリアシングアーティファクトを回避することを支援し、DCTのエネルギー圧縮品質に加えて、信号圧縮アプリケーションに対してMDCTを特に魅力あるものにする。
MDCTはまた、スピーチ圧縮における適用を見出している。ITU−T G.722.1およびG.722.1Cボコーダは、MDCTを入力スピーチ信号に適用し、一方、最も最近のITU−T G.729.1およびG.718アルゴリズムは、それを使用して、符号励振線形予測(CELP)エンコーダの使用後にとどまる残留信号を処理する。上述のボコーダは、8kHzまたは16kHzのいずれかの入力サンプリングレート、および、10または20ミリ秒フレームで動作する。したがって、それらのMDCTフィルタバンクは、160または320ポイント変換のいずれかである。
しかしながら、将来のスピーチコーダがブロック切り替え機能をサポートする場合、デシメートされるサイズ(160、80、40ポイント)に対するサポートを必要とする可能性がある。
概要
いくつかの実施形態の基本的な理解を提供するために、以下の記述は、1つ以上の実施形態の単純化した概要を与える。この概要は、考えられるすべての実施形態の広範な概観ではなく、すべての実施形態の主なまたは重要な要素を識別するようにも、いくつかのまたはすべての実施形態の範囲を詳細に描写するようにも向けられていない。その唯一の目的は、後に与えられるより詳細な説明に対するプレリュードとして、単純化した形態で1つ以上の実施形態のいくつかの概念を与えることである。
変換値を計算するためのエンコーディング方法および/またはデバイスを提供する。オーディオ信号を表す時間領域の入力値が受け取られる。変換演算およびウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させ、または取得してもよい。そこから区分的に対称なウィンドウイングファクタの完全集合を再構築できる、区分的に対称なウィンドウイングファクタの部分集合が記憶される。記憶されている、区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウイングファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含んでいてもよい。入力値の変換に先立って、再構築された区分的に対称なウィンドウイングファクタの完全集合を、入力値に適用してもよい。入力値は、離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、スペクトル係数に変換されてもよく、そのような各変換は、MDCTよりも低い次元であり、MDCTの少なくともいくつかの乗算演算は、入力値に適用される事前のウィンドウイング演算とマージされる。DCT−IIは、異なるサイズのMDCTを実現できる5ポイント変換であってもよい。MDCTは、同じDCT−IIを使用して、320、160、80、40ポイント変換のうちの少なくとも2つを実現してもよい。固定ポイントの構成に対して、ダイナミックレンジ推定およびくりこみを、ウィンドウイング関数からの出力に実行してもよい。
変換値を計算するためのデコーディング方法および/またはデバイスを提供する。オーディオ信号を表すスペクトル係数が受け取られる。逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、スペクトル係数を時間領域の出力値に変換してもよく、そのような各逆変換は、IMDCTよりも低い次元であり、IMDCTの少なくともいくつかの乗算演算は、出力値に適用される後続のウィンドウイング演算とマージされる。例えば、IDCT−IIは、異なるサイズのIMDCTを実現する5ポイント逆変換である。IMDCTは、同じコアIDCT−IIを使用して、320、160、80、40ポイント逆変換のうちの少なくとも2つを実現してもよい。さらに、変換演算およびウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させてもよい。そこから区分的に対称なウィンドウイングファクタの完全集合を再構築できる、区分的に対称なウィンドウイングファクタの部分集合を記憶させてもよい。記憶されている、区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含む。スペクトル係数の変換後に、再構築された区分的に対称なウィンドウイングファクタの完全集合を出力値に適用してもよい。固定ポイントの構成に対して、ダイナミックレンジ推定およびくりこみを、ウィンドウイング関数からの出力に対して実行してもよい。
さらに別の例は、ウィンドウイング演算を実行する方法および/またはデバイスを提供する。変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させてもよい。区分的に対称なウィンドウイングファクタを分割して、区分的に対称なウィンドウイングファクタの部分集合を取得し、固有のファクタの全体の数を低減させてもよい。そこから区分的に対称なウィンドウイングファクタの完全集合を再構築できる、区分的に対称なウィンドウイングファクタの部分集合を記憶させてもよい。記憶されている、区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含む。その後、オーディオ信号を表す入力値が、受け取られてもよい。再構築された区分的に対称なウィンドウイングファクタの完全集合を入力値に適用して、ウィンドウがかけられた出力値を提供してもよい。
1つの例において、ウィンドウイングステージは、変換ステージの前に起こってもよい。変換ステージは、離散コサイン変換タイプIV(DCT IV)、離散コサイン変換タイプIV(DCT IV)、または、DCT IVおよびDCT IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を実現してもよく、そのような各変換は、MDCTよりも低い次元である。変換ステージファクタは、コサインファクタであってもよい。
別の例において、ウィンドウイングステージは、変換ステージ後に起こってもよい。変換ステージは、逆離散コサイン変換タイプIV(IDCT IV)、逆離散コサイン変換タイプIV(IDCT IV)、または、IDCT IVおよびIDCT IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を実現してもよく、そのような各変換は、IMDCTよりも低い次元である。
同一の参照文字が全体を通して対応したものを識別している図面を参照すると、以下で示される詳細な説明から様々な特徴、特質、および利点が明白となろう。
図1は、MDCT分析フィルタバンクを含んでもよいエンコーダの例を図示するブロック図である。 図2は、IMDCT合成フィルタバンクを含んでもよいデコーダの例を図示するブロック図である。 図3は、N/2ポイントDCT−IVのコア機能に基づいて、MDCT変換をどのように実現するかを図示する。 図4は、N/2ポイントIDCT−IVのコア機能に基づいて、IMDCT変換をどのように実現するかを図示する。 図5は、エンコーダのMDCT変換の一部として実現してもよい5ポイントDCT−II変換を図示する図である。 図6は、デコーダのIMDCT変換の一部として実現してもよい5ポイントIDCT−II変換を図示する図である。 図7は、2つのDCT−II変換を使用して、長さN=10ポイントのDCT−IV変換をどのように実現できるかに関する例を図示するブロック図である。 図8は、2つのIDCT−II変換を使用して、長さN=10ポイントのIDCT−IV変換をどのように実現できるかに関する例を図示するブロック図である。 図9は、ウィンドウ関数の区分的に対称な特性を図示するグラフである。 図10は、変換値を計算するデバイスを図示するブロック図である。 図11は、コアDCT−II変換に基づくMDCT変換を使用して信号をエンコードする方法の例を図示する。 図12は、変換値を計算するデバイスを図示するブロック図である。 図13は、コアIDCT−II変換に基づくIMDCT変換を使用して信号をデコードする方法の例を図示する。 図14は、ウィンドウイング演算を実行するデバイスを図示するブロック図である。 図15は、ウィンドウイング演算を実行する方法の例を図示する。
詳細な説明
図面に関連して、さまざまな実施形態をこれから記述し、全体を通して同じ要素に言及するために、同じ参照番号を使用する。以下の記述において、説明のため、1つ以上の実施形態の完全な理解を提供するために、多数の特定の詳細な説明を述べる。しかしながら、これらの特定の詳細な説明なしに、そのような実施形態を実施できることは明白であるかもしれない。他の例において、1つ以上の実施形態を記述することを容易にするために、よく知られている構造およびデバイスをブロック図の形態で示す。
概観
1つの特徴は、後続のウィンドウイングステージに移動できる、分離された事前乗算を有する、より小さいサイズのN/2ポイントDCT−IV変換およびDCT−II変換に、NポイントMDCT変換をマッピングすることによって、NポイントMDCT変換を実現することを提供する。すなわち、ウィンドウイング演算は、それぞれ、コアMDCT/IMDCT機能における、最初/最後のステージの乗算とマージされてもよく、その結果、乗算の総数が低減される。さらに、オーディオコーデックにおける多くの既存のMDCT設計中で使用されるDCT−IVまたはFFTコアに対して、(せいぜい5回の非自明な乗算を使用して)一様にスケーリングされた5ポイントDCT−IIコア機能を利用することによって、MDCTを体系的に2分の1にデシメートしてもよい。
修正されたウィンドウイングステージは、半分のファクタを使用して記憶できる、区分的に対称なファクタを提供する。そのような特徴は、複雑さの測定可能な低減と、従来技術よりも少ないメモリの使用量を提供する。
コーデック構造
図1は、MDCT分析フィルタバンクを含んでいてもよいエンコーダの例を図示するブロック図である。エンコーダ102は、入力オーディオ信号104を受け取ってもよい。
MDCT分析フィルタバンク106(すなわち、タイプIV離散コサイン変換に基づいた修正離散コサイン変換)は、時間領域の入力オーディオ信号104を複数の副帯域信号に分解して、信号を周波数領域に変換するように動作する。ここで、各副帯域信号は、ブロックごとに副帯域ごとに変換係数に変換される。結果として生ずる信号は次に、量子化器108によって量子化され、エントロピーエンコーダ110によってエンコードされて、デジタル化されたオーディオ信号のビットストリーム112が生成される。1つの例にしたがうと、MDCT分析フィルタバンク106は、ウィンドウイング関数114、変換116(例えば、時間領域から周波数領域)、および/またはスケーリング関数118によって実現してもよい。ウィンドウイング関数114、変換116、および/またはスケーリング関数118を含んでいるMDCT分析フィルタバンク106は、ハードウェア(例えば、プロセッサ、回路、プログラマブル論理デバイスなどとして)、ソフトウェア(例えば、プロセッサによって実行可能な命令)、および/またはこれらの組み合わせにおいて実現してもよい。
図2は、IMDCT合成フィルタバンクを含んでいてもよいデコーダの例を図示するブロック図である。デコーダ202は、ビットストリーム204を受け取ってもよい。エントロピーデコーダ206は、ビットストリーム204をデコードし、ビットストリーム204は次に、逆量子化器208によって逆量子化されて、周波数領域の信号が生成される。IMDCT合成フィルタバンク210(すなわち、タイプIV離散コサイン変換に基づいた逆修正離散コサイン変換)は、周波数領域の信号104を時間領域のオーディオ信号212に戻すように変換するように動作する。IMDCT合成フィルタバンク210は、MDCT分析フィルタバンク106の演算を逆にしてもよい。1つの例にしたがうと、IMDCT合成フィルタバンク210は、スケーリング関数214、逆変換216(例えば、周波数領域から時間領域)、ならびに、ウィンドウイングプラスオーバーラップおよび加算関数218によって実現してもよい。スケーリング関数214、逆変換216、および/またはウィンドウイング関数218を含んでいるIMDCT合成フィルタバンク210は、ハードウェア(例えば、プロセッサ、回路、プログラマブル論理デバイスなどとして)、ソフトウェア(例えば、プロセッサによって実行可能な命令)、および/またはこれらの組み合わせにおいて実現してもよい。
DCT−IVおよびDCT−IIを使用してMDCTを実現
1つの特徴にしたがって、変換116(図1)および逆変換216(図2)は、それぞれ、1つ以上のDCT−II(およびIDCT−II)変換として実現できる、1つ以上のDCT−IV(およびIDCT−IV)変換によって、デシメートしてもよく、実現してもよい。
修正離散コサイン変換(MDCT)は、次のように定義できる:
Figure 2010539625
同様に、逆MDCT(IMDCT)は、次のように定義できる:
Figure 2010539625
ここで、n=0、1、...N−1に対してx(n)は、サンプルの入力シーケンスを表し、Nはフレーム長を意味し、X(k)は、結果として生ずるMDCT係数であり、x^(n)は、再構築された出力を表す。
行列表記法を使用して、MDCT変換は行列Mによって表すことができる:
Figure 2010539625
その結果、X=Mxおよびx^=MTXであり、ここで、xは、入力サンプルの行列[x(0)、...、x(N−1)]Tを表し、Xは、結果として生ずるMDCT係数[X(0)、...、X(N/2−1)]Tを表し、x^は、再構築された出力の行列[x^(0)、...、x^(N−1)]Tを表す。
MDCT変換を実現するために、MDCT変換は、N/2ポイントDCT−IVコア機能にマッピングしてもよい。例えば、図1の変換116は、1つ以上のN/2ポイントDCT−IV変換として実現してもよい。
DCT−IV変換は、次のように定義できる:
Figure 2010539625
一方、IDCT−IV変換は、次のように定義できる:
Figure 2010539625
MDCT変換は、次のようにN/2ポイントDCT−IVにマッピングできる。
Figure 2010539625
また、IMDCT変換は、次のようにN/2ポイントIDCT−IVにマッピングできる。
Figure 2010539625
ここで、Pは次の通りである。
Figure 2010539625
ここで、IN/4は、N/4×N/4恒等行列であり、JN/4は、N/4×N/4次のリバーサル(reversal)行列であり、行列Sは、次のように定義される。
Figure 2010539625
また、CN/.2 IVは、次のように定義できるN/2×N/2のDCT−IV行列である。
Figure 2010539625
DCT−IV行列の対称性およびインボルトリ(involutory)特性を使用することによって、DCT−IV行列を、DCT−II変換にマッピングできる。DCT−II変換は、次のように定義してもよい:
Figure 2010539625
同様に、IDCT−II変換は、次のように定義してもよい:
Figure 2010539625
ここで、λ(k)は次の通りである。
Figure 2010539625
図3は、N/2ポイントDCT−IVコア機能に基づいて、MDCT変換をどのように実現するかを図示する。MDCT変換は、時間領域の入力サンプルを、周波数領域の出力サンプルに変換するエンコーダの一部として実現してもよい。入力シーケンスX(3N/4)ないしX(N/4)304に対して、MDCT変換は、DCT−IV変換302が後に続くコサインファクタ306によって表され、出力308を生成できる。以下で論じるように、コサインファクタ306は、エンコーダ内の事前のウィンドウイングステージ/関数に吸収できる。
同様に、図4は、N/2ポイントIDCT−IVコア機能に基づいて、IMDCTをどのように実現するかを図示する。IMDCT変換は、周波数領域の入力サンプルを時間領域の出力サンプルに変換するデコーダの一部として実現してもよい。入力シーケンスX(0)ないしX(N/2−1)404に対して、IMDCT変換は、コサインファクタ406が後に続くIDCT−IV変換402によって表され、出力408を生成できる。以下で論じるように、コサインファクタ406は、デコーダ内の後続のウィンドウイングステージ/関数に吸収できる。同じウィンドウイング関数がエンコーダおよびデコーダの両方において使用されることを前提にして、図4中で図示されているIMDCTマッピングおよびコサインファクタは、MDCTマッピング(図3)の演算を逆にするように機能することに注目すべきである。
これらのマッピング(図3および図4)の両方におけるコサインファクタ306および406の使用は、ゼロまたはゼロに近い値において数値安定度を提供し、それは、他のタイプのファクタ(例えば、逆コサインファクタ)により達成できるものではない。
MDCTおよびIMDCT変換への入力は、複数のデータポイントを有するフレームまたはブロックとして処理されてもよいことに注目すべきである。それゆえに、ボコーダ(例えば、G.VBRコーデック)が320より小さいフレーム長を有するデータブロックをサポートするために、デシメートされたサイズの変換が必要とされる。160、80、40などのフレーム長を有するブロックに対して、これらのサイズはすべて5の倍数であることが観察される。それゆえに、(デシメーション技術によって)縮小可能でない最後のブロックサイズは、サイズ5の変換を使用できる。デシメーション技術の点から、DCT−IV変換またはFFF変換のいずれかよりも、5ポイントDCT−II変換を設計する方がはるかに効率的であることが観察される。
DCT−IV変換は、次のようにDCT−II変換にマッピングしてもよい。
Figure 2010539625
ここで、Dは次のような成分を有する対角行列である。
Figure 2010539625
また、Lは次の通りである。
Figure 2010539625
また、CN/.2 IIは、次のように定義されるN/2×N/2のDCT−II行列であってもよい。
Figure 2010539625
図5は、エンコーダのMDCT変換の一部として実現してもよい5ポイントDCT−II変換の因子分解を図示する図である。この変換におけるファクタαは2進分数であり、そのため、それによる乗算は単なるバイナリシフト演算である。この5ポイント変換は、平面回転および5回の乗算を使用して、または、平面回転を因子分解することによって4回の乗算を使用することにより、または、リフティングステップを使用して実現できる。入力xの5ポイントシーケンス502に対して、5ポイントDCT−II変換に対する出力CII 504は、4回の非自明な乗算および13回の加算、または、5回の乗算および13回の加算を使用して発生させることができる。DCT−II変換出力CIIは、次のように発生される。
Figure 2010539625
図6は、デコーダのIMDCT変換の一部として実現してもよい5ポイントIDCT−II変換を図示する図である。すなわち、このIDCT−II変換を使用して、デコーダのIMDCT変換に対してIDCT−IV変換(図4)を実現してもよい。それは、平面回転および5回の乗算を使用して、または、平面回転を因子分解することによって4回の乗算を使用することにより、または、リフティングステップを使用して実現できる。入力CIIの5ポイントシーケンス602に対して、5ポイントIDCT−II変換に対する出力x^604は、4回の非自明な乗算および13回の加算、または、図示するように、5回の非自明な乗算および12回の加算を使用して発生させることができる。IDCT−II変換出力x^は、次のように発生される。
Figure 2010539625
図7は、2つのDCT−II変換(N=5ポイント)を使用して、長さN=10ポイントのDCT−IV変換をどのように実現できるかに関する例を図示するブロック図である。10の入力ポイントx(0)、...、x(9)のシーケンス702に対して、10ポイントDCT−IV変換は、2つの5ポイントDCT−II変換704および706と、ファクタ708とによって実現して、出力係数CII(0)、...、CII(9)710を生成させることができる。この方法において、コア5ポイントDCT−II変換を使用して、160、80、40などのフレーム長を処理することが可能な変換を実現してもよい。
図8は、2つのIDCT−II変換(N=5ポイント)を使用して、長さN=10ポイントのIDCT−IV変換をどのように実現できるかに関する例を図示するブロック図である。10の入力ポイントCII(0)、...、CII(9)のシーケンス802に対して、10ポイントIDCT−IV変換は、2つの5ポイントIDCT−II変換804および806と、ファクタ808とによって実現して、出力係数x^(0)、...、x^(9)810を生成させることができる。この方法において、コア5ポイントIDCT−II変換を使用して、160、80、40などのフレーム長を処理することが可能な変換を実現してもよい。
乗算ファクタをウィンドウイングステージにマージ
MDCT変換は、(G.VBRコーデックのような)音声およびオーディオコーディングアルゴリズムにおいて使用されることが多く、本質的に、ウィンドウイング関数h(n)と組み合わされた、スケーリングされたMDCTである:
Figure 2010539625
ここでf(n)は入力データサンプルを表し、h(n)は、ウィンドウイング関数であり、F(k)は、出力MDCTスペクトル係数を表す。例えば、ウィンドウ関数h(n)は、シヌソイド関数であってもよい:
Figure 2010539625
以前に論じたように、DCT−IV変換をMDCT変換にマッピングすることに関わる事前乗算ファクタ(例えば、図3中の306)だけでなく、IDCT−IV変換をIMDCT変換にマッピングすることに関わる事後乗算ファクタ(例えば、図4中の406)を、それらのそれぞれのウィンドウイングステージにマージできる。例えば、ウィンドウイング関数は、次のように定義されるシヌソイド関数であってもよい:
Figure 2010539625
このウィンドウイング関数h(n)および変換ファクタの組み合わせは、修正されたウィンドウイング関数を生成させる:
Figure 2010539625
これらのマージされる、または組み合わされるウィンドウイングファクタは、事前に計算してもよく、および/または記憶してもよい。図3中のコサインファクタ306および図4中のコサインファクタ406のケースにおいて、これらは、いったんマージされると区分的なファクタを提供する。その結果、修正されたウィンドウ関数に対して、単に、ファクタの部分集合(例えば、半分)を記憶させる必要がある。値に対するウィンドウイング演算の間に、記憶されているファクタの部分集合を取得して、それらの区分的に対称な特性にしたがって使用できる。
図9は、(等式20の)ウィンドウ関数の区分的に対称な性質を図示するグラフである。対称なサインウィンドウと比較して、ウィンドウイングファクタ902および904の半分だけが記憶されることから、同じ量のメモリを使用してウィンドウイングファクタを記憶できる。この例において、N=640のサンプル/ファクタおよび図示した区分的に対称なウィンドウに対して、160のサンプルの第1の集合(すなわち、0ないしN/4−1)は、これが対称な部分であることから、単に最初の80のサンプルまたはファクタ902によって表されてもよい。同様に、480のサンプルまたはファクタの第2の集合(すなわち、N/4ないしN)は、単に最初の240のサンプルまたはファクタ904によって表されてもよい。その結果、ファクタの半分だけが記憶され、それによりメモリ空間が節約される。さらに、サンプルポイントのこの低減は、ウィンドウイングファクタを取得するために使用されるメモリアクセスの数を低減させることから、より高速な処理を結果として生じさせ得る。
MDCT変換を使用するエンコーディングの例
図10は、変換値を計算するデバイスを図示するブロック図である。デバイス1002は、入力モジュール1006、ウィンドウモジュール1010、および/または変換モジュール1014を含んでいてもよい。入力モジュール1006は、オーディオ信号1004を受け取って、オーディオ信号を表す時間領域の入力値1008を提供するように適合されていてもよい。ウィンドウモジュール1010は、変換演算およびウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させてもよい。例えば、ウィンドウモジュール1010は、マージモジュール1018、ファクタ分割モジュール1019、記憶モジュール1020および/またはウィンドウイング関数1022を含んでいてもよい。マージモジュール1018は、変換演算およびウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する機能を実行してもよい。例えば、コサインファクタ306(図3)を、他のウィンドウイング関数のファクタとマージしてもよい。ファクタ分割モジュール1019が次に、(図9において図示したような)区分的に対称なウィンドウイングファクタの部分集合を取得してもよい。記憶モジュール1020が次に、そこから区分的に対称なウィンドウイングファクタの完全集合を再構築できる、区分的に対称なウィンドウイングファクタの部分集合を記憶してもよい。例えば、区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウイングファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含んでいてもよい。(ウィンドウイング関数1022を通して)ウィンドウイングモジュール1010は、入力値を変換するのに先立って、再構築された区分的に対称なウィンドウイングファクタの完全集合を入力値1008に適用するようにさらに構成されていてもよい(その結果、ウィンドウがかけられた入力値1012が取得される)。
変換モジュール1014は、例えば、修正離散コサイン変換(MDCT)を使用して、ウィンドウがかけられた入力値1012をスペクトル係数1016に変換してもよい。MDCTは、離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割されてもよく、そのような各変換は、MDCTよりも低い次元であり、MDCTの少なくともいくつかの乗算演算は、入力値に適用される事前のウィンドウイング演算とマージされる。1つの例において、DCT−IIは、図5中で図示したDCT−IIのような、異なるサイズのMDCTを実現する5ポイント変換であってもよい。MDCTは、同じコアDCT−IIを使用して、320、160、80、40ポイント変換のうちの少なくとも2つを実現してもよい。デバイス1002のコンポーネントは、ハードウェア、ソフトウェア、および/または、これらの組み合わせとして実現してもよい。例えば、デバイス1002は、そのコンポーネントまたはモジュールの機能を実現するプロセッサおよび/または回路であってもよい。
図11は、コアDCT−II変換に基づくMDCT変換を使用して信号をエンコードする方法の例を説明する。オーディオ信号を表す時間領域の入力値が受け取られてもよい(1102)。例えば、アナログオーディオ信号(例えば、音声信号、音楽、ビデオなど)をサンプリングして、入力値を取得してもよい。
1つの例において、変換演算およびウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させてもよい(1104)。区分的に対称なウィンドウイングファクタの部分集合が記憶され、その部分集合から、区分的に対称なウィンドウイングファクタの完全集合を再構築できる(1106)。入力値の変換に先立って、再構築された区分的に対称なウィンドウイングファクタの完全集合を、入力値に適用してもよい(1108)。例えば、事前のウィンドウイング演算において、MDCT変換に対して図3中で図示したコサインファクタ(参照306)を適用してもよい。区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウイングファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含んでいてもよい。
(ウィンドウイング演算から)結果として生ずる(ウィンドウがかけられた)入力値は、離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(CDT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、スペクトル係数に変換されてもよく、そのような各変換は、MDCTよりも低い次元であり、MDCTの少なくともいくつかの乗算演算は、入力値に適用される事前のウィンドウイング演算とマージされる(1110)。例えば、MDCTは、コアDCT−II(例えば、図5中の変換)に基づいて実現される、離散コサイン変換タイプIV(DCT−IV)に基づいて実現されてもよい。DCT−IIは、異なるサイズのMDCTを実現する5ポイント変換であってもよい。例えば、MDCTは、同じコアDCT−IIを使用して、320、160、80、40ポイント変換のうちの少なくとも2つを実現してもよい。コアDCT−IIは、5回の乗算演算および12回の加算、または、4回の乗算演算および13回の加算を含んでいてもよい。
さらに、固定ポイントの構成に対して、ダイナミックレンジ推定および/またはくりこみを、ウィンドウイング関数からの出力に実行してもよい(1112)。1つの例において、ヘッドルームとして少なくとも1つのビットを保有する(バッファ中の)すべての中間値を左シフトすることによって、くりこみを実施して、変換における後続のステージにおいてオーバーフローを防いでもよい。
IMDCT変換を使用するデコーディングの例
図12は、変換値を計算するデバイスを図示するブロック図である。デバイス1202は、入力モジュール1206、逆変換モジュール1208、および/またはウィンドウモジュール1212を含んでいてもよい。逆変換モジュール1208は、スペクトル係数1204を出力値1210に変換するように適合されていてもよい。例えば、逆変換モジュールは、逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、スペクトル係数を時間領域の出力値1210に変換してもよく、そのような各逆変換は、IMDCTよりも低い次元であり、IMDCTの少なくともいくつかの乗算演算が、出力値1210に適用される後続のウィンドウイング演算1212とマージされる。
ウィンドウモジュール1212は、変換演算およびウィンドウイング関数からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させてもよい。例えば、ウィンドウモジュール1212は、マージモジュール1218、ファクタ分割モジュール1219、記憶モジュール1220、および/またはウィンドウイング関数1222を含んでいてもよい。マージモジュール1218は、逆変換演算およびウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する機能を実行してもよい。例えば、コサインファクタ406(図4)を、他のウィンドウイング関数のファクタとマージしてもよい。ファクタ分割モジュール1219が次に、(図9中で図示したような)区分的に対称なウィンドウイングファクタの部分集合を取得してもよい。記憶モジュール1220が次に、そこから区分的に対称なウィンドウイングファクタの完全集合を再構築できる、区分的に対称なウィンドウイングファクタの部分集合を記憶してもよい。例えば、区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウイングファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含んでいてもよい。(ウィンドウイング関数1222を通して)ウィンドウモジュール1212は、スペクトル係数1204の変換後に、再構築された区分的に対称なウィンドウイングファクタの完全集合を出力値1210に適用するようにさらに構成されていてもよい(その結果、ウィンドウがかけられた出力値1214が取得される)。デバイス1202のコンポーネントは、ハードウェア、ソフトウェア、および/またはそれらの組み合わせとして実現してもよい。例えば、デバイス1202は、そのコンポーネントまたはモジュールの機能を実現するプロセッサおよび/または回路であってもよい。
図13は、コアIDCT−II変換に基づくIMDCT変換を使用して信号をデコードする方法の例を説明する。オーディオ信号を表すスペクトル係数が受け取られ、または取得される(1302)。スペクトル係数は、逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、時間領域の出力値に変換されてもよく、そのような各逆変換は、IMDCTよりも低い次元であり、IMDCTの少なくともいくつかの乗算演算は、出力値に適用される後続のウィンドウイング演算とマージされる(1304)。コアIDCT−IIは、異なるサイズのIMDCTを実現する5ポイント逆変換であってもよい。IMDCTは、同じコアIDCT−IIを使用して、320、160、80、40ポイント逆変換のうちの少なくとも2つを実現する。さまざまな構成において、IDCT−IIは、せいぜい、5回の乗算演算および12回の加算、または、4回の乗算演算および13回の加算を含んでいてもよい。
さらに、変換演算およびウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させてもよい(1306)。そこから区分的に対称なウィンドウイングファクタの完全集合を再構築できる、区分的に対称なウィンドウイングファクタの部分集合を記憶してもよい(1308)。記憶されている、区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウイングファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含んでいてもよい。スペクトル係数の変換後に、再構築された区分的に対称なウィンドウイングファクタの完全集合を出力値に適用してもよい(1310)。
オプションとして、固定ポイントの構成に対して、ダイナミックレンジ推定およびくりこみを、ウィンドウイング関数への入力に実行してもよい(1305)。DCT−IVへのMDCTのマッピングにおける、すべての再帰的に処理される係数間の減算後に、ダイナミックレンジ推定およびくりこみを実行してもよい。ヘッドルームとして少なくとも2つのビットを保有するすべての中間値を左シフト(ビットシフト)することによって、くりこみを実施して、後続の変換ステージにおけるオーバーフローを防いでもよい。ダイナミックレンジの拡張を補償するために、IMDCT変換におけるすべての中間ステージは、1ビットだけ、それらの結果として生ずる量の右シフトを実行してもよい。
区分的に対称なウィンドウイングファクタの記憶
図14は、ウィンドウイング演算を実行するデバイスを図示するブロック図である。デバイス1402は、マージモジュール1404、ファクタ分割モジュール1405、記憶モジュール1406、受信機モジュール1408、および/またはウィンドウイングモジュール1410を含んでいてもよい。マージモジュール1404は、変換ステージからのファクタ1412と、ウィンドウイングステージからのファクタ1414とをマージして、区分的に対称なウィンドウイングファクタ1420を取得する、修正されたウィンドウイング関数を生成させるように構成されていてもよい。ファクタ分割モジュール1405は、取得された区分的に対称なウィンドウイングファクタの完全集合1420を、区分的に対称なウィンドウイングファクタの部分集合1423に分割してもよい。そのようなファクタの分割は、例えば、図9中で図示されている。記憶モジュール1406は、そこから区分的に対称なウィンドウイングファクタの完全集合1420を再構築できる、区分的に対称なウィンドウイングファクタの部分集合1423を記憶してもよい。受信機モジュール1408は、オーディオ信号を表す入力値1416を受け取ってもよい。ウィンドウイングモジュール1410は、再構築された区分的に対称なウィンドウイングファクタの(再構築された)完全集合を入力値1416に適用して、ウィンドウがかけられた出力値1418を提供してもよい。その結果、ウィンドウイングファクタの部分集合だけが記憶されていることから、これは、記憶空間を節約し、ウィンドウイングデバイスをより効率的にさせる。デバイス1402のコンポーネントは、ハードウェア、ソフトウェア、および/または、それらの組み合わせとして実現してもよい。例えば、デバイス1402は、コンポーネントまたはモジュールの機能を実現するプロセッサおよび/または回路であってもよい。
図15は、ウィンドウイング演算を実行する方法の例を説明する。変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させてもよい(1502)。区分的に対称なウィンドウイングファクタの集合を分割して、区分的に対称なウィンドウイングファクタの部分集合を取得し、固有のファクタの全体の数を低減させてもよい(1504)。そこから区分的に対称なウィンドウイングファクタの完全集合を再構築できる、区分的に対称なウィンドウイングファクタの部分集合が記憶される(1506)。オーディオ信号を表す入力値が受け取られてもよい(1508)。再構築された区分的に対称なウィンドウイングファクタの完全集合が、入力値に適用されて、ウィンドウがかけられた出力値を提供してもよい(1510)。区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウイングファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含んでいてもよい。
1つの例において、ウィンドウイングステージは、変換ステージの前に起こってもよい。そのようなケースにおいて、変換ステージは、離散コサイン変換タイプIV(DCT IV)、離散コサイン変換タイプIV(DCT IV)、または、DCT IVおよびDCT IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を実現してもよく、そのような各変換は、MDCTよりも低い次元である。変換ステージのファクタは、例えば、図3のコサインファクタであってもよい。
別の例において、ウィンドウイングステージは、変換ステージの後に起こってもよい。変換ステージは、逆離散コサイン変換タイプIV(IDCT IV)、逆離散コサイン変換タイプIV(IDCT IV)、または、IDCT IVおよびIDCT IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を実現してもよく、そのような各変換は、IMDCTよりも低い次元である。変換ステージのファクタは、例えば、図4のコサインファクタであってもよい。
ここで提供する例に加えて、デシメートされる変換を実現する、ここで記述するアルゴリズムを使用して、2の倍数である他の何らかの変換を実現してもよい。さらに、ここで記述する技術は、オーディオ、音声、ビデオ、データなどを含む、さまざまなタイプの信号に適用してもよい。
さまざまな異なる技術および技法のいずれかを使用して情報および信号を表わしてもよい。例えば、電圧、電流、電磁波、磁界または磁気粒子、光領域または光粒子、あるいはそれらの任意の組み合わせにより、上の記述を通して参照されているデータ、命令、コマンド、情報、信号およびこれらに類似するものを表わしてもよい。
電子ハードウェア、ソフトウェアまたは両方の組み合わせとして、ここで記述したさまざまな実例となる論理ブロック、モジュール、回路およびアルゴリズムステップを実現または実行してもよい。ハードウェアおよびソフトウェアのこの互換性を明瞭に説明するために、さまざまな実例となるコンポーネント、ブロック、モジュール、回路、およびステップをそれらの機能の点から一般的に上述した。このような機能がハードウェアまたはソフトウェアとして実現されるかどうかは、特定の用途およびシステム全体に課される設計制約に依存する。フローチャートとして描写されるプロセス、フロー図、構造図、またはブロック図として、構成を記述してもよいことが注目される。フローチャートは、一連のプロセスとして動作を記述してもよいが、動作の多くは、並行または同時に実行できる。加えて、動作の順序は、並べ変えてもよい。プロセスは、その動作が完了するとき終了する。プロセスは、方法、関数、手続き、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、その終了は、呼出し関数または主関数への関数の戻りに対応する。
ハードウェアにおいて実現されるとき、さまざまな例は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラム可能ゲートアレイ信号(FPGA)または他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいはここで記述した機能を実行するために設計された、これらの任意の組み合わせを用いてもよい。汎用プロセッサはマイクロプロセッサでもよいが、代わりに、プロセッサは任意の従来のプロセッサ、制御装置、マイクロ制御装置、または状態遷移機械であってもよい。計算デバイスの組み合わせとして、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアに関連した1つ以上のマイクロプロセッサ、または他の任意のこのような構成として、プロセッサを実現してもよい。
ソフトウェアにおいて実現されるとき、さまざまな例は、ファームウェア、ミドルウェアまたはマイクロコードを用いてもよい。必要なタスクを実行するためのプログラムコードまたはコードセグメントが、記憶媒体または他の記憶装置のようなコンピュータ読み取り可能媒体中に記憶されていてもよい。プロセッサが必要なタスクを実行してもよい。コードセグメントは、手続き、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令の任意の組み合わせ、データ構造、またはプログラムのステートメントを表してもよい。情報、データ、引き数、パラメータ、またはメモリのコンテンツを渡し、および/または受け取ることにより、コードセグメントを、別のコードセグメントまたはハードウェア回路に結合してもよい。メモリの共有、メッセージ受渡し、トークンパッシング方式、ネットワーク送信などを含む任意の適切な手段を使用して、情報、引き数、パラメータ、データなどを渡し、転送し、または送信してもよい。
本出願中で使用されるような、用語“コンポーネント”、“モジュール”、“システム”、およびこれらに類似するものは、コンピュータ関連エンティティ、ハードウェア、ファームウェア、ハードウェアとソフトウェアとの組み合わせ、ソフトウェアまたは実行中のソフトウェアのいずれかを指すように意図されている。例えば、コンポーネントはプロセッサ上で実行するプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および/またはコンピュータであってもよいが、それだけに限られない。実例として、計算デバイス上で実行するアプリケーションと計算デバイスとの両方をコンポーネントとすることができる。1つ以上のコンポーネントが1つのプロセスおよび/または実行のスレッド内に存在してもよく、コンポーネントが1つのコンピュータ上にローカライズされてもよく、および/または2つ以上のコンピュータ間に分散されてもよい。また、これらのコンポーネントは、記憶されているさまざまなデータ構造を有するさまざまなコンピュータ読み取り可能媒体から実行できる。コンポーネントは、(例えば、ローカルシステム中の、分散システム中の別のコンポーネントと対話する1つのコンポーネントからのデータ、および/または、インターネットのようなネットワークを通して信号により他のシステムと対話する1つのコンポーネントからのデータのような)1つ以上のデータパケットを有する信号にしたがうような、ローカルおよび/またはリモートプロセスによって通信してもよい。
ここでの1つ以上の例において、記述した機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせ中で実現してもよい。ソフトウェアにおいて実現する場合、コンピュータ読み取り可能媒体上に、1つ以上の命令またはコードとして、機能を記憶させてもよく、または機能を送信してもよい。コンピュータ読み取り可能媒体は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を容易にする何らかの媒体を含む通信媒体との両方を含む。記憶媒体は、コンピュータによりアクセスできる任意の利用可能な媒体であってもよい。一例として、限定ではないが、そのようなコンピュータ読み取り可能媒体は,RAM、ROM、EEPROM、CD−ROMまたは他の光学ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、命令またはデータ構造の形態で所望のプログラムコード手段を搬送または記憶するために使用でき、そして、コンピュータによりアクセスできる他の任意の媒体を備えることができる。さらに、いくつかの接続は、適切にコンピュータ読み取り可能媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア線、デジタル加入者線(DSL)、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバまたは他のリモート情報源から送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア線、DSL、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用されるディスク(Diskおよびdisc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタルバーサタイルディスク(DVD)、フロッピー(登録商標)ディスク、およびブルーレイディスクを含み、ディスク(disk)は通常、磁気的にデータを再生し、一方、ディスク(disc)は、レーザにより光学的にデータを再生する。上述の組み合わせもまた、コンピュータ読み取り可能媒体の範囲内に含まれるべきである。ソフトウェアは、単一の命令、または、多くの命令を含んでいてもよく、いくつかの異なるコードセグメントに対して、異なるプログラム間に、および複数の記憶媒体にわたって分散されていてもよい。例示的な記憶媒体は、プロセッサに結合されていてもよく、それにより、プロセッサは、記憶媒体から情報を読み出すことができ、記憶媒体に情報を書き込むことができる。代替として、記憶媒体は、プロセッサと一体化していてもよい。
ここで開示した方法は、記述した方法を達成するために、1つ以上のステップまたは動作を含んでいる。方法のステップおよび/または動作は、特許請求の範囲から逸脱することなく、互いに置き換えられてもよい。すなわち、ステップまたは動作の特定の順序が、記述されている実施形態の適切な動作に対して必要とされない限り、特定のステップおよび/または動作の順序および/または使用は、特許請求の範囲から逸脱することなく修正してもよい。
図1、2、3、4、5、6、7、8、9、10、11、12、13、14、および/または15中で図示したコンポーネント、ステップ、および/または機能のうちの1つ以上は、単一のコンポーネント、ステップまたは機能に再編成され、および/または組み合わされてもよく、あるいは、いくつかのコンポーネント、ステップまたは機能において具現されてもよい。追加のエレメント、コンポーネント、ステップおよび/または機能を追加してもよい。図1、2、10、12および14中で図示した装置、デバイスおよび/またはコンポーネントは、図3ないし9、11、13および15中で記述した方法、特徴またはステップのうちの1つ以上を実行するように構成または適合されていてもよい。ここで記述したアルゴリズムは、例えば、ソフトウェアにおいて効率的に実現されてもよく、および/またはハードウェアに埋め込まれていてもよい。
上述の構成は例に過ぎず、特許請求の範囲を限定するものとして解釈すべきでないことに注目すべきである。構成の記述は、実例であるように向けられており、特許請求の範囲を限定するように向けられていない。そのため、本教示は、他のタイプの装置に容易に適用でき、多くの代替、修正およびバリエーションが当業者に明らかになるであろう。
上述の構成は例に過ぎず、特許請求の範囲を限定するものとして解釈すべきでないことに注目すべきである。構成の記述は、実例であるように向けられており、特許請求の範囲を限定するように向けられていない。そのため、本教示は、他のタイプの装置に容易に適用でき、多くの代替、修正およびバリエーションが当業者に明らかになるであろう。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]変換値を計算する方法において、
オーディオ信号を表す時間領域の入力値を受け取ることと、
離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、前記入力値をスペクトル係数に変換することとを含み、
そのような各変換は、前記MDCTよりも低い次元であり、前記MDCTの少なくともいくつかの乗算演算は、前記入力値に適用される事前のウィンドウイング演算とマージされる方法。
[2]前記DCT−IIは、異なるサイズのMDCTを実現できる5ポイント変換である上記[1]記載の方法。
[3]前記DCT−IIは、図5における前記変換を含む上記[1]記載の方法。
[4]前記MDCTは、同じDCT−IIを使用して、320、160、80、40ポイント変換のうちの少なくとも2つを実現する上記[1]記載の方法。
[5]前記DCT−IIは、せいぜい5回の乗算演算を含む上記[1]記載の方法。
[6]前記変換演算および前記ウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させることと、
そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶させることとをさらに含む上記[1]記載の方法。
[7]前記入力値の変換に先立って、前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記入力値に適用することをさらに含む上記[6]記載の方法。
[8]前記区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含む上記[6]記載の方法。
[9]ダイナミックレンジ推定およびくりこみを、ウィンドウイング関数からの出力に実行することをさらに含む上記[1]記載の方法。
[10]変換値を計算するデバイスにおいて、
オーディオ信号を受け取って、前記オーディオ信号を表す時間領域の入力値を提供する入力モジュールと、
離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、前記入力値をスペクトル係数に変換する変換モジュールとを具備し、
そのような各変換は、前記MDCTよりも低い次元であり、前記MDCTの少なくともいくつかの乗算演算は、前記入力値に適用される事前のウィンドウイング演算とマージされるデバイス。
[11]前記DCT−IIは、異なるサイズのMDCTを実現する5ポイント変換である上記[10]記載のデバイス。
[12]前記DCT−IIは、図5における前記変換を含む上記[10]記載のデバイス。
[13]前記MDCTは、同じコアDCT−IIを使用して、320、160、80、40ポイント変換のうちの少なくとも2つを実現する上記[10]記載のデバイス。
[14]前記変換演算および前記ウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させるウィンドウイングモジュールと、
そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶する記憶モジュールとをさらに具備する上記[10]記載のデバイス。
[15]前記ウィンドウイングモジュールは、前記入力値の変換に先立って、前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記入力値に適用するようにさらに構成されている上記[14]記載のデバイス。
[16]前記区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含む上記[14]記載の方法。
[17]変換値を計算するデバイスにおいて、
オーディオ信号を表す時間領域の入力値を受け取る手段と、
離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、前記入力値をスペクトル係数に変換する手段とを具備し、
そのような各変換は、前記MDCTよりも低い次元であり、前記MDCTの少なくともいくつかの乗算演算は、前記入力値に適用される事前のウィンドウイング演算とマージされるデバイス。
[18]前記DCT−IIは、異なるサイズのMDCTを実現できる5ポイント変換である上記[17]記載のデバイス。
[19]前記変換演算および前記ウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させる手段と、
そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶する手段と、
前記入力値の変換に先立って、前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記入力値に適用する手段とをさらに具備する上記[17]記載のデバイス。
[20]変換値を計算する回路において、
前記回路は、
オーディオ信号を表す時間領域の入力値を受け取り、
離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、前記入力値をスペクトル係数に変換するように適合されており、
そのような各変換は、前記MDCTよりも低い次元であり、前記MDCTの少なくともいくつかの乗算演算は、前記入力値に適用される事前のウィンドウイング演算とマージされる回路。
[21]変換値を計算するための命令を含むコンピュータ読み取り可能媒体において、
プロセッサによって実行されるとき、前記命令は、
オーディオ信号を表す時間領域の入力値を受け取ることと、
離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、前記入力値をスペクトル係数に変換することとを前記プロセッサに生じさせ、
そのような各変換は、前記MDCTよりも低い次元であり、前記MDCTの少なくともいくつかの乗算演算は、前記入力値に適用される事前のウィンドウイング演算とマージされるコンピュータ読み取り可能媒体。
[22]デコーダを提供する方法において、
オーディオ信号を表すスペクトル係数を受け取ることと、
逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、前記スペクトル係数を時間領域の出力値に変換することとを含み、
そのような各逆変換は、前記IMDCTよりも低い次元であり、前記IMDCTの少なくともいくつかの乗算演算は、前記出力値に適用される後続のウィンドウイング演算とマージされる方法。
[23]前記IDCT−IIは、異なるサイズのIMDCTを実現する5ポイント逆変換である上記[22]記載の方法。
[24]前記IDCT−IIは、図6における前記逆変換を含む上記[22]記載の方法。
[25]前記IMDCTは、同じコアIDCT−IIを使用して、320、160、80、40ポイント逆変換のうちの少なくとも2つを実現する上記[22]記載の方法。
26]前記変換演算および前記ウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させることと、
そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶させることとをさらに含む上記[22]記載の方法。
[27]前記スペクトル係数の変換後に、前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記出力値に適用することをさらに含む上記[26]記載の方法。
[28]前記区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含む上記[26]記載の方法。
[29]イナミックレンジ推定およびくりこみを、前記ウィンドウイング関数からの出力に実行することをさらに含む上記[26]記載の方法。
[30]変換値を計算するデバイスにおいて、
オーディオ信号を表すスペクトル係数を受け取る入力モジュールと、
逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、前記スペクトル係数を時間領域の出力値に変換する逆変換モジュールとを具備し、
そのような各逆変換は、前記IMDCTよりも低い次元であり、前記IMDCTの少なくともいくつかの乗算演算は、前記出力値に適用される後続のウィンドウイング演算とマージされるデバイス。
[31]前記IDCT−IIは、異なるサイズのIMDCTを実現する5ポイント逆変換である上記[30]記載のデバイス。
[32]前記変換演算および前記ウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させるマージモジュールと、
そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶する記憶モジュールと、
前記スペクトル係数の変換後に、前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記出力値に適用するウィンドウイングモジュールとをさらに具備する上記[30]記載のデバイス。
[33]変換値を計算するデバイスにおいて、
オーディオ信号を表すスペクトル係数を受け取る手段と、
逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、前記スペクトル係数を時間領域の出力値に変換する手段とを具備し、
そのような各逆変換は、前記IMDCTよりも低い次元であり、前記IMDCTの少なくともいくつかの乗算演算は、前記出力値に適用される後続のウィンドウイング演算とマージされるデバイス。
[34]変換値を計算する回路において、
前記回路は、
オーディオ信号を表すスペクトル係数を受け取り、
逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、前記スペクトル係数を時間領域の出力値に変換するように適合されており、
そのような各逆変換は、前記IMDCTよりも低い次元であり、前記IMDCTの少なくともいくつかの乗算演算は、前記出力値に適用される後続のウィンドウイング演算とマージされる回路。
[35]変換値を計算するための命令を含むコンピュータ読み取り可能媒体において、
プロセッサによって実行されるとき、前記命令は、
オーディオ信号を表すスペクトル係数を受け取ることと、
逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、前記スペクトル係数を時間領域の出力値に変換することとを前記プロセッサに生じさせ、
そのような各逆変換は、前記IMDCTよりも低い次元であり、前記IMDCTの少なくともいくつかの乗算演算は、前記出力値に適用される後続のウィンドウイング演算とマージされるコンピュータ読み取り可能媒体。
[36]ウィンドウイング演算を実行する方法において、
変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させることと、
そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶させることとを含む方法。
[37]オーディオ信号を表す入力値を受け取ることと、
前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記入力値に適用して、ウィンドウがかけられた出力値を提供することとをさらに含む上記[36]記載の方法。
[38]前記区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含む上記[36]記載の方法。
[39]前記区分的に対称なウィンドウイングファクタを分割して、前記区分的に対称なウィンドウイングファクタの部分集合を取得し、前記固有のファクタの全体の数を低減させることをさらに含む上記[36]記載の方法。
[40]前記ウィンドウイングステージは、前記変換ステージの前に起こる上記[36]記載の方法。
[41]前記変換ステージは、離散コサイン変換タイプIV(DCT IV)、離散コサイン変換タイプIV(DCT IV)、または、DCT IVおよびDCT IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を実現し、そのような各変換は、前記MDCTよりも低い次元である上記[40]記載の方法。
[42]前記変換ステージのファクタは、図3のコサインファクタである上記[40]記載の方法。
[43]前記ウィンドウイングステージは、前記変換ステージの後に起こる上記[36]記載の方法。
[44]前記変換ステージは、逆離散コサイン変換タイプIV(IDCT IV)、逆離散コサイン変換タイプIV(IDCT IV)、または、IDCT IVおよびIDCT IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を実現し、そのような各変換は、前記IMDCTよりも低い次元である上記[43]記載の方法。
[45]前記変換ステージファクタは、図4のコサインファクタである上記[43]記載の方法。
[46]ウィンドウイング演算を実行するデバイスにおいて、
変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させるマージモジュールと、
そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶する記憶モジュールとを具備するデバイス。
[47]オーディオ信号を表す入力値を受け取る受信機モジュールと、
前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記入力値に適用して、ウィンドウがかけられた出力値を提供するウィンドウイングモジュールとをさらに具備する上記[46]記載のデバイス。
[48]ウィンドウイング演算を実行するデバイスにおいて、
変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させる手段と、
そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶する手段とを具備するデバイス。
[49]ウィンドウイング演算を実行する回路において、
前記回路は、
変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させ、
そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶させるように適合されている回路。
[50]ウィンドウイング演算を実行するための命令を含むコンピュータ読み取り可能媒体において、
プロセッサによって実行されるとき、前記命令は、
変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させることと、
そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶させることとを前記プロセッサに生じさせるコンピュータ読み取り可能媒体。

Claims (50)

  1. 変換値を計算する方法において、
    オーディオ信号を表す時間領域の入力値を受け取ることと、
    離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、前記入力値をスペクトル係数に変換することとを含み、
    そのような各変換は、前記MDCTよりも低い次元であり、前記MDCTの少なくともいくつかの乗算演算は、前記入力値に適用される事前のウィンドウイング演算とマージされる方法。
  2. 前記DCT−IIは、異なるサイズのMDCTを実現できる5ポイント変換である請求項1記載の方法。
  3. 前記DCT−IIは、図5における前記変換を含む請求項1記載の方法。
  4. 前記MDCTは、同じDCT−IIを使用して、320、160、80、40ポイント変換のうちの少なくとも2つを実現する請求項1記載の方法。
  5. 前記DCT−IIは、せいぜい5回の乗算演算を含む請求項1記載の方法。
  6. 前記変換演算および前記ウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させることと、
    そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶させることとをさらに含む請求項1記載の方法。
  7. 前記入力値の変換に先立って、前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記入力値に適用することをさらに含む請求項6記載の方法。
  8. 前記区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含む請求項6記載の方法。
  9. ダイナミックレンジ推定およびくりこみを、ウィンドウイング関数からの出力に実行することをさらに含む請求項1記載の方法。
  10. 変換値を計算するデバイスにおいて、
    オーディオ信号を受け取って、前記オーディオ信号を表す時間領域の入力値を提供する入力モジュールと、
    離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、前記入力値をスペクトル係数に変換する変換モジュールとを具備し、
    そのような各変換は、前記MDCTよりも低い次元であり、前記MDCTの少なくともいくつかの乗算演算は、前記入力値に適用される事前のウィンドウイング演算とマージされるデバイス。
  11. 前記DCT−IIは、異なるサイズのMDCTを実現する5ポイント変換である請求項10記載のデバイス。
  12. 前記DCT−IIは、図5における前記変換を含む請求項10記載のデバイス。
  13. 前記MDCTは、同じコアDCT−IIを使用して、320、160、80、40ポイント変換のうちの少なくとも2つを実現する請求項10記載のデバイス。
  14. 前記変換演算および前記ウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させるウィンドウイングモジュールと、
    そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶する記憶モジュールとをさらに具備する請求項10記載のデバイス。
  15. 前記ウィンドウイングモジュールは、前記入力値の変換に先立って、前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記入力値に適用するようにさらに構成されている請求項14記載のデバイス。
  16. 前記区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含む請求項14記載のデバイス。
  17. 変換値を計算するデバイスにおいて、
    オーディオ信号を表す時間領域の入力値を受け取る手段と、
    離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、前記入力値をスペクトル係数に変換する手段とを具備し、
    そのような各変換は、前記MDCTよりも低い次元であり、前記MDCTの少なくともいくつかの乗算演算は、前記入力値に適用される事前のウィンドウイング演算とマージされるデバイス。
  18. 前記DCT−IIは、異なるサイズのMDCTを実現できる5ポイント変換である請求項17記載のデバイス。
  19. 前記変換演算および前記ウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させる手段と、
    そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶する手段と、
    前記入力値の変換に先立って、前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記入力値に適用する手段とをさらに具備する請求項17記載のデバイス。
  20. 変換値を計算する回路において、
    前記回路は、
    オーディオ信号を表す時間領域の入力値を受け取り、
    離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、前記入力値をスペクトル係数に変換するように適合されており、
    そのような各変換は、前記MDCTよりも低い次元であり、前記MDCTの少なくともいくつかの乗算演算は、前記入力値に適用される事前のウィンドウイング演算とマージされる回路。
  21. 変換値を計算するための命令を含むコンピュータ読み取り可能媒体において、
    プロセッサによって実行されるとき、前記命令は、
    オーディオ信号を表す時間領域の入力値を受け取ることと、
    離散コサイン変換タイプIV(DCT−IV)、離散コサイン変換タイプII(DCT−II)、または、DCT−IVおよびDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を使用して、前記入力値をスペクトル係数に変換することとを前記プロセッサに生じさせ、
    そのような各変換は、前記MDCTよりも低い次元であり、前記MDCTの少なくともいくつかの乗算演算は、前記入力値に適用される事前のウィンドウイング演算とマージされるコンピュータ読み取り可能媒体。
  22. デコーダを提供する方法において、
    オーディオ信号を表すスペクトル係数を受け取ることと、
    逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、前記スペクトル係数を時間領域の出力値に変換することとを含み、
    そのような各逆変換は、前記IMDCTよりも低い次元であり、前記IMDCTの少なくともいくつかの乗算演算は、前記出力値に適用される後続のウィンドウイング演算とマージされる方法。
  23. 前記IDCT−IIは、異なるサイズのIMDCTを実現する5ポイント逆変換である請求項22記載の方法。
  24. 前記IDCT−IIは、図6における前記逆変換を含む請求項22記載の方法。
  25. 前記IMDCTは、同じコアIDCT−IIを使用して、320、160、80、40ポイント逆変換のうちの少なくとも2つを実現する請求項22記載の方法。
  26. 前記変換演算および前記ウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させることと、
    そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶させることとをさらに含む請求項22記載の方法。
  27. 前記スペクトル係数の変換後に、前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記出力値に適用することをさらに含む請求項26記載の方法。
  28. 前記区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含む請求項26記載の方法。
  29. ダイナミックレンジ推定およびくりこみを、前記ウィンドウイング関数からの出力に実行することをさらに含む請求項26記載の方法。
  30. 変換値を計算するデバイスにおいて、
    オーディオ信号を表すスペクトル係数を受け取る入力モジュールと、
    逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、前記スペクトル係数を時間領域の出力値に変換する逆変換モジュールとを具備し、
    そのような各逆変換は、前記IMDCTよりも低い次元であり、前記IMDCTの少なくともいくつかの乗算演算は、前記出力値に適用される後続のウィンドウイング演算とマージされるデバイス。
  31. 前記IDCT−IIは、異なるサイズのIMDCTを実現する5ポイント逆変換である請求項30記載のデバイス。
  32. 前記変換演算および前記ウィンドウイング演算からのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させるマージモジュールと、
    そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶する記憶モジュールと、
    前記スペクトル係数の変換後に、前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記出力値に適用するウィンドウイングモジュールとをさらに具備する請求項30記載のデバイス。
  33. 変換値を計算するデバイスにおいて、
    オーディオ信号を表すスペクトル係数を受け取る手段と、
    逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、前記スペクトル係数を時間領域の出力値に変換する手段とを具備し、
    そのような各逆変換は、前記IMDCTよりも低い次元であり、前記IMDCTの少なくともいくつかの乗算演算は、前記出力値に適用される後続のウィンドウイング演算とマージされるデバイス。
  34. 変換値を計算する回路において、
    前記回路は、
    オーディオ信号を表すスペクトル係数を受け取り、
    逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、前記スペクトル係数を時間領域の出力値に変換するように適合されており、
    そのような各逆変換は、前記IMDCTよりも低い次元であり、前記IMDCTの少なくともいくつかの乗算演算は、前記出力値に適用される後続のウィンドウイング演算とマージされる回路。
  35. 変換値を計算するための命令を含むコンピュータ読み取り可能媒体において、
    プロセッサによって実行されるとき、前記命令は、
    オーディオ信号を表すスペクトル係数を受け取ることと、
    逆離散コサイン変換タイプIV(IDCT−IV)、逆離散コサイン変換タイプII(IDCT−II)、または、IDCT−IVおよびIDCT−IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を使用して、前記スペクトル係数を時間領域の出力値に変換することとを前記プロセッサに生じさせ、
    そのような各逆変換は、前記IMDCTよりも低い次元であり、前記IMDCTの少なくともいくつかの乗算演算は、前記出力値に適用される後続のウィンドウイング演算とマージされるコンピュータ読み取り可能媒体。
  36. ウィンドウイング演算を実行する方法において、
    変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させることと、
    そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶させることとを含む方法。
  37. オーディオ信号を表す入力値を受け取ることと、
    前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記入力値に適用して、ウィンドウがかけられた出力値を提供することとをさらに含む請求項36記載の方法。
  38. 前記区分的に対称なウィンドウイングファクタの部分集合は、ウィンドウファクタの区分的に対称な各集合に対する固有のファクタの少なくとも半分を含む請求項36記載の方法。
  39. 前記区分的に対称なウィンドウイングファクタを分割して、前記区分的に対称なウィンドウイングファクタの部分集合を取得し、前記固有のファクタの全体の数を低減させることをさらに含む請求項36記載の方法。
  40. 前記ウィンドウイングステージは、前記変換ステージの前に起こる請求項36記載の方法。
  41. 前記変換ステージは、離散コサイン変換タイプIV(DCT IV)、離散コサイン変換タイプIV(DCT IV)、または、DCT IVおよびDCT IIの両方、のうちの少なくとも1つに再帰的に分割される修正離散コサイン変換(MDCT)を実現し、そのような各変換は、前記MDCTよりも低い次元である請求項40記載の方法。
  42. 前記変換ステージのファクタは、図3のコサインファクタである請求項40記載の方法。
  43. 前記ウィンドウイングステージは、前記変換ステージの後に起こる請求項36記載の方法。
  44. 前記変換ステージは、逆離散コサイン変換タイプIV(IDCT IV)、逆離散コサイン変換タイプIV(IDCT IV)、または、IDCT IVおよびIDCT IIの両方、のうちの少なくとも1つに再帰的に分割される逆修正離散コサイン変換(IMDCT)を実現し、そのような各変換は、前記IMDCTよりも低い次元である請求項43記載の方法。
  45. 前記変換ステージファクタは、図4のコサインファクタである請求項43記載の方法。
  46. ウィンドウイング演算を実行するデバイスにおいて、
    変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させるマージモジュールと、
    そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶する記憶モジュールとを具備するデバイス。
  47. オーディオ信号を表す入力値を受け取る受信機モジュールと、
    前記再構築された区分的に対称なウィンドウイングファクタの完全集合を前記入力値に適用して、ウィンドウがかけられた出力値を提供するウィンドウイングモジュールとをさらに具備する請求項46記載のデバイス。
  48. ウィンドウイング演算を実行するデバイスにおいて、
    変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させる手段と、
    そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶する手段とを具備するデバイス。
  49. ウィンドウイング演算を実行する回路において、
    前記回路は、
    変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させ、
    そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶させるように適合されている回路。
  50. ウィンドウイング演算を実行するための命令を含むコンピュータ読み取り可能媒体において、
    プロセッサによって実行されるとき、前記命令は、
    変換ステージおよびウィンドウイングステージからのファクタをマージして、区分的に対称なウィンドウイングファクタを取得する、修正されたウィンドウイング関数を生成させることと、
    そこから前記区分的に対称なウィンドウイングファクタの完全集合を再構築できる、前記区分的に対称なウィンドウイングファクタの部分集合を記憶させることとを前記プロセッサに生じさせるコンピュータ読み取り可能媒体。
JP2010526031A 2007-09-19 2008-09-19 スピーチおよびオーディオコーディングアプリケーションのためのmdct/imdctフィルタバンクの効率的な設計 Pending JP2010539625A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US97370907P 2007-09-19 2007-09-19
US60/973,709 2007-09-19
US98940007P 2007-11-20 2007-11-20
US60/989,400 2007-11-20
US12/212,920 2008-09-18
US12/212,920 US8548815B2 (en) 2007-09-19 2008-09-18 Efficient design of MDCT / IMDCT filterbanks for speech and audio coding applications
PCT/US2008/077129 WO2009039451A2 (en) 2007-09-19 2008-09-19 Efficient design of mdct / imdct filterbanks for speech and audio coding applications

Publications (1)

Publication Number Publication Date
JP2010539625A true JP2010539625A (ja) 2010-12-16

Family

ID=40039658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010526031A Pending JP2010539625A (ja) 2007-09-19 2008-09-19 スピーチおよびオーディオコーディングアプリケーションのためのmdct/imdctフィルタバンクの効率的な設計

Country Status (12)

Country Link
US (1) US8548815B2 (ja)
EP (1) EP2206111A2 (ja)
JP (1) JP2010539625A (ja)
KR (1) KR101329514B1 (ja)
CN (1) CN101796578B (ja)
AU (1) AU2008302070B2 (ja)
BR (1) BRPI0817003A2 (ja)
CA (1) CA2695741A1 (ja)
HK (1) HK1143240A1 (ja)
MX (1) MX2010002848A (ja)
TW (1) TWI398854B (ja)
WO (1) WO2009039451A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014194633A (ja) * 2013-03-28 2014-10-09 Fujitsu Ltd 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110849B2 (en) 2009-04-15 2015-08-18 Qualcomm Incorporated Computing even-sized discrete cosine transforms
US9069713B2 (en) 2009-06-05 2015-06-30 Qualcomm Incorporated 4X4 transform for media coding
US9118898B2 (en) 2009-06-24 2015-08-25 Qualcomm Incorporated 8-point transform for media data coding
US9075757B2 (en) 2009-06-24 2015-07-07 Qualcomm Incorporated 16-point transform for media data coding
US9081733B2 (en) 2009-06-24 2015-07-14 Qualcomm Incorporated 16-point transform for media data coding
CN101930426B (zh) * 2009-06-24 2015-08-05 华为技术有限公司 信号处理方法、数据处理方法及装置
EP2309497A3 (en) * 2009-07-07 2011-04-20 Telefonaktiebolaget LM Ericsson (publ) Digital audio signal processing system
CN102104776A (zh) * 2009-12-21 2011-06-22 康佳集团股份有限公司 一种网络电视平台mpeg音频多相合成滤波方法
US8000968B1 (en) 2011-04-26 2011-08-16 Huawei Technologies Co., Ltd. Method and apparatus for switching speech or audio signals
MY156027A (en) * 2010-08-12 2015-12-31 Fraunhofer Ges Forschung Resampling output signals of qmf based audio codecs
KR101418227B1 (ko) 2010-11-24 2014-07-09 엘지전자 주식회사 스피치 시그널 부호화 방법 및 복호화 방법
US9824066B2 (en) 2011-01-10 2017-11-21 Qualcomm Incorporated 32-point transform for media data coding
HUE030185T2 (en) 2011-03-28 2017-04-28 Dolby Laboratories Licensing Corp Reduced Transformation for Low Frequency Effect Channel
CN102568485B (zh) * 2011-12-30 2013-12-11 展讯通信(上海)有限公司 音频信号的频时转换方法及装置
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
CN107452391B (zh) 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
EP3616196A4 (en) * 2017-04-28 2021-01-20 DTS, Inc. AUDIO ENCODER WINDOW AND TRANSFORMATION IMPLEMENTATIONS

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196198A (ja) * 2003-12-30 2005-07-21 Samsung Electronics Co Ltd Mpegオーディオデコーダの合成フィルタ及びそのデコード方法
WO2006049204A1 (ja) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、符号化方法及び復号化方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2675969B1 (fr) 1991-04-24 1994-02-11 France Telecom Procede et dispositif de codage-decodage d'un signal numerique.
JP3721582B2 (ja) 1993-06-30 2005-11-30 ソニー株式会社 信号符号化装置及び方法並びに信号復号化装置及び方法
US5719998A (en) 1995-06-12 1998-02-17 S3, Incorporated Partitioned decompression of audio data using audio decoder engine for computationally intensive processing
US6154762A (en) * 1998-06-03 2000-11-28 Microsoft Corporation Fast system and method for computing modulated lapped transforms
AU2001234971A1 (en) 2000-02-09 2001-08-20 T. C. Cheng Fast method for the forward and inverse mdct in audio coding
JP2002135122A (ja) 2000-10-19 2002-05-10 Nec Corp オーディオ信号符号化装置
DE10129240A1 (de) * 2001-06-18 2003-01-02 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten von zeitdiskreten Audio-Abtastwerten
KR100519260B1 (ko) * 2002-02-21 2005-10-06 주식회사 애드일렉코 고속 최적화된 무선마이크 장치 및 그 제어방법
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
WO2004080125A1 (en) 2003-03-04 2004-09-16 Nokia Corporation Support of a multichannel audio extension
TW594674B (en) 2003-03-14 2004-06-21 Mediatek Inc Encoder and a encoding method capable of detecting audio signal transient
WO2005031595A1 (en) 2003-09-29 2005-04-07 Agency For Science, Technology And Research Method for performing a domain transformation of a digital signal from the time domain into the frequency domain and vice versa
TWI227866B (en) 2003-11-07 2005-02-11 Mediatek Inc Subband analysis/synthesis filtering method
CN1914669A (zh) * 2004-01-28 2007-02-14 皇家飞利浦电子股份有限公司 使用复数值数据的音频信号解码
CN100546197C (zh) 2006-08-17 2009-09-30 上海交通大学 适用于多音频标准通用滤波器单元的vlsi实现方法
ES2823560T3 (es) * 2007-08-27 2021-05-07 Ericsson Telefon Ab L M Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196198A (ja) * 2003-12-30 2005-07-21 Samsung Electronics Co Ltd Mpegオーディオデコーダの合成フィルタ及びそのデコード方法
WO2006049204A1 (ja) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、符号化方法及び復号化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6012050645; Mu-Huo CHENG et al.: 'Fast IMDCT and MDCT Algorithms - A Matrix Approach' IEEE Transactions on Signal Processing Vol. 51, No. 1, 200301, pages 221-229, IEEE *
JPN6012050646; Michael T. HEIDEMAN: 'Computation of an Odd-Length DCT from a Real-Valued DFT of the Same Length' IEEE Transactions on Signal Processing Vol. 40, No. 1, 199201, pages54-61, IEEE *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014194633A (ja) * 2013-03-28 2014-10-09 Fujitsu Ltd 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置

Also Published As

Publication number Publication date
CA2695741A1 (en) 2009-03-26
WO2009039451A2 (en) 2009-03-26
EP2206111A2 (en) 2010-07-14
AU2008302070A1 (en) 2009-03-26
US8548815B2 (en) 2013-10-01
US20090094038A1 (en) 2009-04-09
TWI398854B (zh) 2013-06-11
KR101329514B1 (ko) 2013-11-13
CN101796578A (zh) 2010-08-04
KR20100063122A (ko) 2010-06-10
BRPI0817003A2 (pt) 2015-03-31
CN101796578B (zh) 2013-04-10
TW200926146A (en) 2009-06-16
HK1143240A1 (en) 2010-12-24
MX2010002848A (es) 2010-04-01
AU2008302070B2 (en) 2011-06-16
WO2009039451A3 (en) 2009-05-22

Similar Documents

Publication Publication Date Title
JP2010539625A (ja) スピーチおよびオーディオコーディングアプリケーションのためのmdct/imdctフィルタバンクの効率的な設計
US8631060B2 (en) Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures
KR101286329B1 (ko) 저 복잡도의 스펙트럼 대역 복제 (sbr) 필터뱅크
RU2557455C2 (ru) Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала
JP4398979B2 (ja) 変換表現に転換するか、または変換表現を逆変換するための装置および方法
JP2004531151A (ja) 時間離散オーディオサンプル値を処理する方法と装置
JP2017523448A (ja) オーディオ信号の時間包絡線を処理するための方法および装置、ならびにエンコーダ
JP5215404B2 (ja) Mpeg・aac及びmpeg・aac・eld符号器/復号器のための分析及び合成フィルタバンクの有効な実施
RU2451998C2 (ru) Эффективный способ проектирования набора фильтров для mdct/imdct в приложениях для кодирования речи и аудиосигналов
Bang et al. Design optimization of MPEG-2 AAC decoder
RU2464540C2 (ru) Быстрые алгоритмы для вычисления 5-точечного dct-ii, dct-iv и dst-iv, и архитектуры
JP7275217B2 (ja) 処理されたオーディオ信号表現を提供するための装置およびオーディオ信号プロセッサ、オーディオデコーダ、オーディオエンコーダ、方法、ならびにコンピュータプログラム
JP2023526627A (ja) 音声音響統合復号の向上のための方法及び機器
JPH1078797A (ja) 音響信号処理方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121227

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130304

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130328

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131004

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131015

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20131122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140228

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150529