JP2011522291A

JP2011522291A - オーバーラッピング変換の２つのブロック変換への因数分解

Info

Publication number: JP2011522291A
Application number: JP2011511737A
Authority: JP
Inventors: メーロトラ，サンジーヴ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2008-05-30
Filing date: 2009-05-22
Publication date: 2011-07-28
Anticipated expiration: 2029-05-22
Also published as: KR101679083B1; WO2009148858A2; EP2279562B1; WO2009148858A3; JP5400143B2; US8447591B2; US20090299754A1; CN102047564B; EP2279562A2; CN102047564A; KR20110021803A; EP2279562A4

Abstract

音声符号化器／復号器は、可逆的な実施態様を有するオーバーラップウィンドウ化変換とブロック変換との組み合わせを使用して、重複変換の可逆整数−整数形態を提供する。可逆重複変換によって、可変サブフレームサイズを有する音声信号の有損失変換領域符号化及び無損失変換領域符号化の双方が可能になる。

Description

本発明は、オーバーラッピング変換の２つのブロック変換への因数分解に関する。

[001]ポータブルデジタルメディアプレイヤー、音楽記憶用のコンパクトディスク、及びインターネットによる音声配信の導入に伴って、今や、音楽及びそれ以外の音声コンテンツをデジタル音声フォーマットで記憶、購入、及び分配することがありふれたものとなっている。デジタル音声フォーマットによって、人々は、数百又は数千もの楽曲を自身のパーソナルコンピューター（ＰＣ）又はポータブルメディアプレイヤーで利用することができるという楽しみを得ることができる。

[002]知覚変換符号化
音声の符号化は、人間の聴覚のさまざまな知覚モデルを活用する符号化技法を利用する。例えば、強い音程の近くの多くの弱い音程は、符号化する必要がないようにマスクされる。従来の知覚音声符号化では、これは、異なる周波数データの適応量子化として活用されている。知覚的に重要な周波数データには、より多くのビットが割り当てられ、したがって、よりきめの細かな量子化が割り当てられ、逆に知覚的に重要でない周波数データには、より少ないビットが割り当てられ、したがって、より粗い量子化が割り当てられる。

[003]例えば、変換符号化は、従来、音声信号の圧縮の効率的な方式として知られていた。入力音声は、デジタルで時間サンプリングされる。変換符号化では、入力音声サンプルのブロックが（例えば、最も広く使用されている修正離散コサイン変換、すなわちＭＤＣＴを介して）変換され、処理され、そして量子化される。変換された係数の量子化は、知覚的重要度に基づいてスカラー量子化器等を介して（例えば、人間の聴覚の影響及び周波数感度をマスクして）実行される。

[004]スカラー量子化器が使用されるとき、重要度は、相対的な重み付けにマッピングされ、各係数の量子化器の分解能（ステップサイズ）は、その重み及び全体的な分解能から導出される。全体的な分解能は、対象の品質、ビットレート等から求めることができる。所与のステップサイズについて、各係数は、ゼロ又は非ゼロの整数値であるレベルに量子化される。

[005]より低いビットレートでは、通常、非ゼロレベルの係数よりもはるかに多くのゼロレベルの係数が存在する。これらの係数は、ランレングス符号化を使用して非常に効率的に符号化することができる。ランレングス符号化は、ハフマン符号化等のエントロピー符号化方式と組み合わせることができる。

[006]オーバーラッピング変換及び変数及び可変ウィンドウフレームサイズ
多くの音声圧縮システムは、変調重複変換（ＭＬＴ、修正離散コサイン変換、すなわちＭＤＣＴとしても知られている）を利用して、音声変換符号化において時間周波数解析を実行する。ＭＬＴは、再構成された音声信号に量子化により導入されたブロッキングアーティファクトを低減する。より詳細には、オーバーラップしないブロックが独立に変換符号化されたとき、量子化誤差により、復号器における音声信号の再構成の際にブロック境界に信号の不連続性が生じる。音声の場合、周期的なクリック効果が聞こえる。

[007]ＭＬＴは、ブロックをオーバーラップさせることによってブロッキング効果を低減する。ＭＬＴでは、２つの連続したブロックからの２Ｍ個のサンプルの「ウィンドウ」が、変調コサイン変換を受ける。Ｍ個の変換係数が返される。このウィンドウは、次に、Ｍ個のサンプル分シフトされ、次のＭ個の変換係数のセットが計算される。したがって、各ウィンドウは、前のウィンドウの最後のＭ個のサンプルとオーバーラップする。このオーバーラップによって、量子化に起因した変換係数の改変にもかかわらず、再構成されたサンプルの連続性が高めされる。

[008]いくつかの音声圧縮システムは、時間と共にウィンドウのサイズを変化させて、音声の変化する性質に対応する。音声コーダーは、通常、入力音声信号を固定サイズの「フレーム」に区画する。これらのフレームのそれぞれが符号化の単位となる（例えば、符号化テーブル及び／又は符号化パラメーターは、各フレームのヘッダー部で送信することができる）。時変ＭＬＴを使用する音声圧縮システムでは、各フレームは、可変サイズの１つ又は複数の「ウィンドウ」を含むことができる。ここで、各ウィンドウがＭＬＴの単位となる。一般に、大きなウィンドウほど、符号化効率に有利であるのに対して、サイズの小さなウィンドウほど、より良好な時間分解能を提供する。したがって、どのようなウィンドウサイズをどこで用いるのかを決定することは、圧縮性能及び符号化された信号の聴覚品質に極めて重要である。

[009]音声符号化における１つの問題は、一般に「プリエコー」と呼ばれる。プリエコーは、音声が突然の変化（「過渡現象」と呼ばれる）を受けたときに発生する。変換符号化では、特定の周波数係数は、一般に量子化される（すなわち解像度が低減される）。変換係数が後に逆変換されて、音声信号が再現されたとき、この量子化によって、時間領域のブロック全体にわたり拡散された量子化雑音が導入される。これによって、符号化フレーム内には、雑音のかなり一様なスミアが本質的に引き起こされる。この雑音は、一般にフレームの或る部分には許容可能であるが、マスクレベルが低いフレームの部分の期間中は聞こえる可能性があり、聴覚品質に大きな損害を与える可能性がある。実際に、この効果は、信号が低エネルギーの領域の直後に鋭いアタックを有するときに最も顕著に現れ、したがって「プリエコー」と呼ばれる。信号が高エネルギーから低エネルギーへ遷移するときに発生する「ポストエコー」は、人間の聴覚系の特性に起因した知覚可能な聴覚品質にとってそれほど問題ではない。

[010]オーバーラップト変換及び無損失符号化
オーバーラッピング変換は無損失符号化にも使用することができる。多くの無損失符号化技法は、時間領域の音声信号データに処理を行う。しかしながら、無損失符号化は、量子化することなく重複変換を適用した後、結果として得られた変換係数のエントロピー符号化又は他の無損失符号化を単に実行するだけで周波数領域でも実行することができる。このような周波数領域の無損失符号化によって、音声信号の有損失圧縮バージョン及び無損失圧縮バージョンを同時により容易に導出することが可能になる。しかし、周波数領域の無損失圧縮は、変換が可逆的であることを必要とする。さらに、変換を可逆的にするのに必要とされるような一貫性のある計算について、変換は整数の実施態様を有するべきである。

[011]可逆的整数−整数変換は、該変換が１の行列式を有する正方変換行列を使用する実施態様を必要とするという点で難点を提起しており、このことは、その実施態様が変換行列において矩形サブブロックを使用するオーバーラッピング変換の設計に対して両立することができない。また、これまでに知られている可逆的オーバーラッピング変換は、通常、音声信号のすべてのサブフレームについて同じサブフレーム構成を必要としており、このことは、前述したようなプリエコーを低減等するために、可変サブフレームサイズを用いる音声符号と両立することはできない。

[012]これまでの可逆的変換の実施態様では、ＭＤＣＴ及びＭＬＴ等の変換は２Ｎ×Ｎ変換として取り扱われている。ここで、この２Ｎ×Ｎ変換は可逆的であるとされる。この手順は、すべてのサブフレームが同じサイズであるときは良好であるが、サブフレームサイズが変化するとき、変換は特に良好に機能しない。加えて、オーバーラップト直交変換（overlapped orthogonal transform）は、理解及び修正が難しい実施態様を有する。

[013]以下の詳細な説明は、可変サブフレームサイズを有するオーバーラップト変換を使用する、変換領域における無損失音声圧縮のためのさまざまな音声符号化／復号技法及びツールに関係したものである。これらの技法は、可変フレームサイズの可逆的整数−整数オーバーラップト変換の実施態様を使用する。これらの変換は、変調重複変換等の変換を、２つのシフトされたブロック変換の組み合わせに分解することによって形成される。これら２つのブロック変換の一方はオーバーラッピング変換であり、他方はブロック変換（標準的な任意のタイプのＤＣＴ等）である。

[014]この概要は、詳細な説明でさらに後述する概念のうちの選択したものを簡略化した形態で紹介するために設けられている。この概要は、請求項に記載の主題の重要な特徴も本質的な特徴も特定することを意図するものではなく、また、請求項に記載の主題の範囲を決定することを助けるものとして使用されることを意図するものでもない。本発明の追加の特徴及び利点は、添付図面を参照して進行する実施形態の以下の詳細な説明から明らかになるであろう。

[015]説明されるさまざまな実施形態を共に実施することができる一般化された動作環境のブロック図である。 [016]説明されるさまざまな実施形態を共に実施することができる一般化された符号化器のブロック図である。 [016]説明されるさまざまな実施形態を共に実施することができる一般化された復号器のブロック図である。 [016]説明されるさまざまな実施形態を共に実施することができる一般化された符号化器のブロック図である。説明されるさまざまな実施形態を共に実施することができる一般化された復号器のブロック図である。 [017]音声ビットストリームの一例のサブフレーム構成を示す図である。 [018]重複変換のオーバーラップ演算子部分が適用される図６の一例のサブフレーム構成のオーバーラップする領域を示す図である。 [019]図６の一例のサブフレーム構成において重複変換のブロック変換部分が適用されるブロックを示す図である。

[020]音声情報を表現、符号化、及び復号するためのさまざまな技法及びツールが説明される。これらの技法及びツールは、非常に低いビットレートであっても、高品質の音声コンテンツの作成、分配、及び再生を容易にする。

[021]本明細書で説明されるさまざまな技法及びツールは、独立に使用することができる。これらの技法及びツールのいくつかは、（例えば、符号化プロセス及び／又は復号プロセスを組み合わせたものの異なるフェーズにおいて）組み合わせて使用することができる。

[022]さまざまな技法は、以下で処理動作のフローチャートを参照して説明される。フローチャートに示されるさまざまな処理動作は、より少ない動作に統合することもできるし、或いはより多くの動作に分割することもできる。簡単にするために、特定のフローチャートに示される動作とそれ以外の箇所で説明される動作との関係は、多くの場合、図示されない。多くの場合、フローチャートの動作は並べ替えることができる。

[023]詳細な説明の多くは、音声情報の表現、符号化、及び復号を扱っている。音声情報を表現、符号化、及び復号するための本明細書で説明される技法及びツールの多くは、単一のチャネル又は複数のチャネルで送信されるビデオ情報、静止画情報、又は他のメディア情報にも適用することができる。

[024]Ｉ．コンピューティング環境
図１は、説明される実施形態を実施することができる適切なコンピューティング環境１００の一般化された例を示す。説明される実施形態は、種々の汎用コンピューティング環境又は専用コンピューティング環境で実施することができるので、コンピューティング環境１００は、使用又は機能性の範囲についていかなる限定を示唆することも意図していない。

[025]図１を参照して、コンピューティング環境１００は、少なくとも１つの処理ユニット１１０及びメモリー１２０を含む。図１において、この最も基本的な構成１３０は破線内に含まれている。処理ユニット１１０は、コンピューター実行可能命令を実行し、実プロセッサー又は仮想プロセッサーとすることができる。マルチプロセッシングシステムでは、複数の処理ユニットが、コンピューター実行可能命令を実行して、処理能力を増加させる。処理ユニットには、中央処理装置及びコプロセッサー並びに／又は特定目的用処理ユニット若しくは専用処理ユニット（例えば、音声プロセッサー）も含めることができる。メモリー１２０は、揮発性メモリー（例えば、レジスター、キャッシュ、ＲＡＭ）、不揮発性メモリー（例えば、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリー）、又はこれらの２つの或る組み合わせとすることができる。メモリー１２０は、説明される実施形態の１つ又は複数による１つ又は複数の音声処理技法及び／又は音声処理システムを実施するソフトウェア１８０を記憶する。

[026]コンピューティング環境は、追加の特徴を有することができる。例えば、コンピューティング環境１００は、ストレージ１４０、１つ又は複数の入力デバイス１５０、１つ又は複数の出力デバイス１６０、及び１つ又は複数の通信接続１７０を含む。バス、コントローラー、又はネットワーク等の相互接続メカニズム（図示せず）が、コンピューティング環境１００のコンポーネントを相互接続する。通常、オペレーティングシステムソフトウェア（図示せず）が、コンピューティング環境１００で実行されるソフトウェアの動作環境を提供し、コンピューティング環境１００のコンポーネントのアクティビティを調整する。

[027]ストレージ１４０は、着脱可能又は着脱不能とすることができ、ストレージ１４０には、磁気ディスク、磁気テープ若しくはカセット、ＣＤ、ＤＶＤ、又は情報を記憶するのに使用することができかつコンピューティング環境１００内でアクセスすることができる他の任意の媒体が含まれる。ストレージ１４０は、ソフトウェア１８０の命令を記憶する。

[028]入力デバイス（複数可）１５０は、キーボード、マウス、ペン、タッチスクリーン、若しくはトラックボール等のタッチ入力デバイス、音声入力デバイス、走査デバイス、又はコンピューティング環境１００に入力を提供する別のデバイスとすることができる。音声又はビデオの場合、入力デバイス（複数可）１５０は、マイクロフォン、サウンドカード、ビデオカード、ＴＶチューナーカード、若しくはアナログ形態若しくはデジタル形態で音声入力若しくはビデオ入力を受け取る類似のデバイス、又は音声サンプル若しくはビデオサンプルをコンピューティング環境内に読み込むＣＤ若しくはＤＶＤとすることができる。出力デバイス（複数可）１６０は、ディスプレイ、プリンター、スピーカ、ＣＤ／ＤＶＤライター、ネットワークアダプター、又はコンピューティング環境１００からの出力を提供する別のデバイスとすることができる。

[029]通信接続（複数可）１７０は、１つ又は複数の他のコンピューティングエンティティへの通信媒体による通信を可能にする。通信媒体は、コンピューター実行可能命令、音声情報若しくはビデオ情報、又は他のデータ等の情報をデータ信号で運ぶ。変調されたデータ信号は、その特徴の１つ又は複数が該信号の情報を符号化するように設定又は変更された信号である。限定ではなく例として、通信媒体には、電気搬送波、光搬送波、ＲＦ搬送波、赤外線搬送波、音響搬送波、又は他の搬送波で実施される有線技法又は無線技法が含まれる。

[030]実施形態は、コンピューター可読媒体の一般的なコンテキストで説明することができる。コンピューター可読媒体は、コンピューティング環境内でアクセスすることができる任意の利用可能な媒体である。限定ではなく例として、コンピューティング環境１００では、コンピューター可読媒体には、メモリー１２０、ストレージ１４０、及び前述のいずれかのものの組み合わせが含まれる。

[031]実施形態は、コンピューティング環境において対象の実プロセッサー又は仮想プロセッサーで実行されているプログラムモジュールに含まれる命令等、コンピューター実行可能命令の一般的なコンテキストで説明することができる。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定のデータタイプを実施するルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造等が含まれる。プログラムモジュールの機能性は、組み合わせることもできるし、或いはさまざまな実施形態で所望に応じてプログラムモジュール間で分割することもできる。プログラムモジュールのコンピューター実行可能命令は、ローカルコンピューティング環境又は分散コンピューティング環境内で実行することができる。

[032]提示のために、詳細な説明では、「求める／決定する」、「受け取る」、及び「実行する」のような用語を使用して、コンピューティング環境におけるコンピューターオペレーションが説明される。これらの用語は、コンピューターによって実行されるオペレーションを高度に抽象化したものであり、人間によって実行される動作と混同されるべきではない。これらの用語に対応する実際のコンピューターオペレーションは、実施態様に応じて変化する。

[033]ＩＩ．例示的な符号化器及び復号器
図２は、説明される１つ又は複数の実施形態を実施することができる第１の音声符号化器２００を示す。符号化器２００は、変換ベースの知覚音声符号化器２００である。図３は、対応する音声復号器３００を示す。

[034]図４は、説明される１つ又は複数の実施形態を実施することができる第２の音声符号化器４００を示す。符号化器４００は、同様に、変換ベースの知覚音声符号化器であるが、符号化器４００は、マルチチャネル音声を処理するためのモジュール等、追加のモジュールを含む。図５は、対応する音声復号器５００を示す。

[035]図２〜図５に示すシステムは一般化されているが、各システムは、実世界のシステムに見られる特徴を有する。いずれにしても、符号化器内のモジュール間に示す関係は符号化器における情報のフローを示し、復号器内のモジュール間に示す関係は復号器における情報のフローを示し、それ以外の関係は、簡単にするために示されていない。実施態様及び所望の圧縮のタイプに応じて、符号化器のモジュール又は復号器のモジュールを追加し、省略し、複数のモジュールに分割し、他のモジュールと結合し、かつ／又は同様のモジュールと取り替えることができる。代替的な実施形態では、異なるモジュール及び／又は他の構成を有する符号化器又は復号器は、説明される１つ又は複数の実施形態に従って音声データ又は他の或るタイプのデータを処理する。

[036]Ａ．第１の音声符号化器
符号化器２００は、時系列の入力音声サンプル２０５を或るサンプリング深度及びサンプリングレートで受け取る。入力音声サンプル２０５は、マルチチャネル音声（例えばステレオ）用又はモノラル音声用である。符号化器２００は、音声サンプル２０５を圧縮し、符号化器２００のさまざまなモジュールによって作成された情報を多重化して、ＷＭＡフォーマット等の圧縮フォーマット、アドバンストストリーミングフォーマット（「ＡＳＦ」）等のコンテナフォーマット、又は他の圧縮フォーマット若しくはコンテナフォーマットでビットストリーム２９５を出力する。

[037]周波数変換器２１０は、音声サンプル２０５を受け取り、それらの音声サンプルを周波数（又はスペクトル）領域のデータに変換する。例えば、周波数変換器２１０は、フレームの音声サンプル２０５をサブフレームブロックに分割する。サブフレームブロックは、可変の時間分解能を可能にするために可変サイズを有することができる。ブロックは、後の量子化によって別の方法で導入される可能性のあるブロック間の知覚できる不連続性を削減するためにオーバーラップすることができる。周波数変換器２１０は、時変変調重複変換（「ＭＬＴ」）、変調ＤＣＴ（「ＭＤＣＴ」）、ＭＬＴ若しくはＤＣＴの他の或る変形、又は他の或るタイプの変調若しくは非変調のオーバーラップト若しくは非オーバーラップト周波数変換をブロックに適用し、或いはサブバンド又はウェーブレット符号化を使用する。周波数変換器２１０は、スペクトル係数データのブロックを多重化器（「ＭＵＸ」）２８０に出力し、ブロックサイズ等のサイド情報を多重化器（「ＭＵＸ」）２８０に出力する。

[038]マルチチャネル音声データの場合、マルチチャネル変換器２２０は、独立に符号化された複数のオリジナルのチャネルを、連係して符号化されたチャネルに変換することができる。或いは、マルチチャネル変換器２２０は、左チャネル及び右チャネルを、独立に符号化されたチャネルとして通過させることができる。マルチチャネル変換器２２０は、使用されているチャネルモードを示すサイド情報をＭＵＸ２８０に対して生成する。符号化器２００は、マルチチャネル変換の後、音声データのブロックにマルチチャネル再行列化を適用することができる。

[039]知覚モデラー２３０は、人間の聴覚系の特性をモデル化して、所与のビットレートの再構成された音声信号の知覚される品質を改善する。知覚モデラー２３０は、さまざまな聴覚モデルのいずれかを使用し、励起パターン情報又は他の情報を重み付け器（weighter）２４０に渡す。例えば、聴覚モデルでは、通常、人間の聴覚帯域及び臨界帯域（例えば、バーク帯域）の範囲が考慮される。範囲及び臨界帯域のほかに、音声信号間の相互作用が、知覚に劇的に影響を与える可能性がある。加えて、聴覚モデルでは、人間の音の知覚の物理的態様又は神経的態様に関するさまざまな他の要因を考慮することができる。

[040]知覚モデラー２３０は、音声データの雑音を整形して雑音の可聴性を低減するために重み付け器２４０が使用する情報を出力する。例えば、さまざまな技法のいずれかを使用して、重み付け器２４０は、受け取った情報に基づき量子化行列（マスクと呼ばれることがある）の重み付け係数を生成する。量子化行列の重み付け係数は、その行列における複数の量子化帯域のそれぞれについての重みを含む。ここで、量子化帯域は、周波数係数の周波数範囲である。したがって、重み付け係数は、雑音／量子化誤差が量子化帯域にわたって拡散される割合を示し、その結果、より多くの雑音を聴き取られる可能性の低い帯域に置き、より少ない雑音を聴き取られる可能性の高い帯域に置くことにより雑音の可聴性を最小にすることを目標にして、雑音／量子化誤差のスペクトル／時間分布を制御する。

[041]重み付け器２４０は、次に、マルチチャネル変換器２２０から受け取ったデータに重み付け係数を適用する。

[042]量子化器２５０は、重み付け器２４０の出力を量子化し、エントロピー符号化器２６０への量子化された係数データと、ＭＵＸ２８０への量子化ステップサイズを含むサイド情報とを作成する。図２において、量子化器２５０は、適応一様スカラー量子化器である。量子化器２５０は、各スペクトル係数に同じ量子化ステップサイズを適用するが、量子化ステップサイズ自体は、量子化ループの或る反復から次の反復までに変化して、エントロピー符号化器２６０の出力のビットレートに影響を与える可能性がある。他の種類の量子化は、非一様ベクトル量子化及び／又は非適応量子化である。

[043]エントロピー符号化器２６０は、例えば、ランレベル符号化（run-level coding）及びベクトル可変長符号化を実行して、量子化器２５０から受け取った量子化された係数データを無損失で圧縮する。エントロピー符号化器２６０は、音声情報の符号化に費やされるビット数を計算することができ、この情報をレート／品質コントローラー２７０に渡すことができる。

[044]コントローラー２７０は、量子化器２５０と共に動作して、符号化器２００の出力のビットレート及び／又は品質を調節する。コントローラー２７０は、ビットレート制約及び品質制約を充足することを目標にして、量子化ステップサイズを量子化器２５０に出力する。

[045]加えて、符号化器２００は、音声データのブロックに雑音置換及び／又は帯域トランケーションを適用することができる。

[046]ＭＵＸ２８０は、音声符号化器２００の他のモジュールから受け取ったサイド情報を、エントロピー符号化器２６０から受け取ったエントロピー符号化されたデータと共に多重化する。ＭＵＸ２８０は、符号化器２００によって出力されるビットストリーム２９５を記憶する仮想バッファーを含むことができる。

[047]Ｂ．第１の音声復号器
復号器３００は、エントロピー符号化されたデータと共にサイド情報も含む圧縮された音声情報のビットストリーム３０５を受け取り、このビットストリームから、復号器３００は、音声サンプル３９５を再構成する。

[048]多重分離器（「ＤＥＭＵＸ」）３１０は、ビットストリーム３０５の情報をパースし、情報を復号器３００のモジュールへ送る。ＤＥＭＵＸ３１０は、音声の複雑度の変動、ネットワークジッター、及び／又は他の要因に起因するビットレートの短期変動を補償するために１つ又は複数のバッファーを含む。

[049]エントロピー復号器３２０は、ＤＥＭＵＸ３１０から受け取ったエントロピー符号を無損失に伸張し、量子化されたスペクトル係数データを作成する。エントロピー復号器３２０は、通常、符号化器で使用されるエントロピー符号化技法を逆にしたものを適用する。

[050]逆量子化器３３０は、ＤＥＭＵＸ３１０から量子化ステップサイズを受け取り、エントロピー復号器３２０から量子化されたスペクトル係数データを受け取る。逆量子化器３３０は、量子化された周波数係数データに量子化ステップサイズを適用して、周波数係数データを部分的に再構成するか、又は別の方法で逆量子化を実行する。

[051]雑音ジェネレーター３４０は、ＤＥＭＵＸ３１０から、データのブロックのどの帯域が雑音置換されたのかを示す情報と共に、雑音の形態の任意のパラメーターも受け取る。雑音ジェネレーター３４０は、示された帯域のパターンを生成し、その情報を逆重み付け器３５０に渡す。

[052]逆重み付け器３５０は、ＤＥＭＵＸ３１０から重み付け係数を受け取り、雑音ジェネレーター３４０から雑音置換されたあらゆる帯域のパターンを受け取り、逆量子化器３３０から部分的に再構成された周波数係数データを受け取る。必要に応じて、逆重み付け器３５０は、重み付け係数を伸張する。逆重み付け器３５０は、雑音置換されなかった帯域の部分的に再構成された周波数係数データに重み付け係数を適用する。逆重み付け器３５０は、その後、雑音置換された帯域について、雑音ジェネレーター３４０から受け取った雑音パターンを加える。

[053]逆マルチチャネル変換器３６０は、逆重み付け器３５０から再構成されたスペクトル係数データを受け取り、ＤＥＭＵＸ３１０からチャネルモード情報を受け取る。マルチチャネル音声が、独立に符号化されたチャネルにある場合、逆マルチチャネル変換器３６０は、それらのチャネルを通過させる。マルチチャネルデータが、連係して符号化されたチャネルにある場合、逆マルチチャネル変換器３６０は、そのデータを独立に符号化されたチャネルに変換する。

[054]逆周波数変換器３７０は、マルチチャネル変換器３６０によって出力されたスペクトル係数データと共に、ＤＥＭＵＸ３１０からのブロックサイズ等のサイド情報も受け取る。逆周波数変換器３７０は、符号化器で使用された周波数変換を逆にしたものを適用し、再構成された音声サンプル３９５のブロックを出力する。

[055]Ｃ．第２の音声符号化器
図４を参照して、符号化器４００は、時系列の入力音声サンプル４０５を或るサンプリング深度及びサンプリングレートで受け取る。入力音声サンプル４０５は、マルチチャネル音声（例えばステレオ、サラウンド）用又はモノラル音声用である。符号化器４００は、音声サンプル４０５を圧縮し、符号化器４００のさまざまなモジュールによって作成された情報を多重化して、ＷＭＡＰｒｏフォーマット等の圧縮フォーマット、ＡＳＦ等のコンテナフォーマット、又は他の圧縮フォーマット若しくはコンテナフォーマットでビットストリーム４９５を出力する。

[056]符号化器４００は、音声サンプル４０５の複数の符号化モード間で選択を行う。図４において、符号化器４００は、混合／純粋型（mixed/pure）無損失符号化モードと有損失符号化モードとの間の切り替えを行う。無損失符号化モードは、混合／純粋型無損失符号化器４７２を含み、通常、高品質（及び高ビットレート）の圧縮に使用される。有損失符号化モードは、重み付け器４４２及び量子化器４６０等のコンポーネントを含み、通常、調整可能な品質（及び制御されたビットレート）の圧縮に使用される。選択決定は、ユーザ入力又は他の判定基準に依存する。

[057]マルチチャネル音声データの有損失符号化の場合、マルチチャネルプリプロセッサー４１０は、オプションとして、時間領域の音声サンプル４０５を再行列化する。例えば、マルチチャネルプリプロセッサー４１０は、音声サンプル４０５を選択的に再行列化して、１つ又は複数の符号化されたチャネルを廃棄するか、又は符号化器４００内のチャネル間相関を増加させるが、それでも復号器５００における（或る形態での）再構成を可能にする。マルチチャネルプリプロセッサー４１０は、マルチチャネル後処理の命令等のサイド情報をＭＵＸ４９０へ送ることができる。

[058]ウィンドウ化（windowing）モジュール４２０は、音声入力サンプル４０５のフレームをサブフレームブロック（ウィンドウ）に区画する。これらのウィンドウは、時変のサイズ及びウィンドウ成形関数を有することができる。符号化器４００が有損失符号化を使用するとき、可変サイズウィンドウによって、可変時間分解能が可能になる。ウィンドウ化モジュール４２０は、区画されたデータのブロックをＭＵＸ４９０に出力し、ブロックサイズ等のサイド情報をＭＵＸ４９０に出力する。

[059]図４において、タイル構成器（tile configurer）４２２は、マルチチャネル音声のフレームをチャネル単位で区画する。タイル構成器４２２は、品質／ビットレートが許す限り、フレームの各チャネルを独立に区画する。これによって、例えば、タイル構成器４２２は、特定のチャネルに現れる過渡現象をより小さなウィンドウで分離することが可能になり、他のチャネルで周波数分解能又は圧縮効率を得るためにはより大きいウィンドウを使用することが可能になる。これによって、チャネル単位で過渡現象を分離することにより圧縮効率を改善することができるが、多くの場合には、個々のチャネルにおける区画を指定する追加の情報が必要になる。時間的に同じ位置に配置される同じサイズのウィンドウは、マルチチャネル変換を通じてさらに冗長性を低減する適格を有することができる。したがって、タイル構成器４２２は、時間的に同じ位置にある同じサイズのウィンドウをタイルとしてグルーピングする。

[060]周波数変換器４３０は、音声サンプルを受け取り、図２の周波数変換器２１０について上述したような変換を適用して、それらの音声サンプルを周波数領域のデータに変換する。周周波数変換器４３０は、スペクトル係数データのブロックを重み付け器４４２に出力し、ブロックサイズ等のサイド情報をＭＵＸ４９０に出力する。周波数変換器４３０は、周波数係数及びサイド情報の双方を知覚モデラー４４０に出力する。

[061]知覚モデラー４４０は、図２の知覚モデラー２３０を参照して概ね上述したように、人間の聴覚系の特性をモデル化し、聴覚モデルに従って音声データを処理する。

[062]重み付け器４４２は、図２の重み付け器２４０を参照して概ね上述したように、知覚モデラー４４０から受け取った情報に基づいて量子化行列の重み付け係数を生成する。重み付け器４４２は、重み付け係数を、周波数変換器４３０から受け取ったデータに適用する。重み付け器４４２は、量子化行列及びチャネル重み係数等のサイド情報をＭＵＸ４９０に出力する。量子化行列は圧縮することができる。

[063]マルチチャネル音声データの場合、マルチチャネル変換器４５０は、マルチチャネル変換を適用して、チャネル間相関を利用することができる。例えば、マルチチャネル変換器４５０は、タイルのチャネル及び／又は量子化帯域のすべてではなく一部にマルチチャネル変換を選択的かつ柔軟に適用する。マルチチャネル変換器４５０は、事前に定義された行列又はカスタム行列を選択的に使用し、効率的な圧縮をカスタム行列に適用する。マルチチャネル変換器４５０は、例えば使用されたマルチチャネル変換及びタイルのマルチチャネル変換された部分を示す、ＭＵＸ４９０へのサイド情報を作成する。

[064]量子化器４６０は、マルチチャネル変換器４５０の出力を量子化し、エントロピー符号化器４７０への量子化された係数データ、及びＭＵＸ４９０への量子化ステップサイズを含むサイド情報を作成する。図４において、量子化器４６０は、タイルごとに量子化係数を計算する適応一様スカラー量子化器であるが、量子化器４６０は、他の或る種類の量子化を代わりに実行することもできる。

[065]エントロピー符号化器４７０は、図２のエントロピー符号化器２６０を参照して概ね上述したように、量子化器４６０から受け取った量子化された係数データを無損失に圧縮する。

[066]コントローラー４８０は、量子化器４６０と共に動作して、符号化器４００の出力のビットレート及び／又は品質を調節する。コントローラー４８０は、品質制約及び／又はビットレート制約を充足することを目標にして、量子化係数を量子化器４６０に出力する。

[067]混合／純粋型無損失符号化器４７２及び関連したエントロピー符号化器４７４は、混合／純粋型無損失符号化モードの音声データを圧縮する。符号化器４００は、シーケンス全体に混合／純粋型無損失符号化モードを使用するか、又はフレームごと、ブロックごと、タイルごと、若しくは他の単位で符号化モード間の切り替えを行う。

[068]ＭＵＸ４９０は、音声符号化器４００の他のモジュールから受け取ったサイド情報を、エントロピー符号化器４７０、４７４から受け取ったエントロピー符号化されたデータと共に多重化する。ＭＵＸ４９０は、レート制御用又は他の目的用の１つ又は複数のバッファーを含む。

[069]Ｄ．第２の音声復号器
図５を参照して、第２の音声復号器５００は、圧縮された音声情報のビットストリーム５０５を受け取る。このビットストリーム５０５は、エントロピー符号化されたデータと共にサイド情報も含む。これらのデータ及びサイド情報から、復号器５００は音声サンプル５９５を再構成する。

[070]ＤＥＭＵＸ５１０は、ビットストリーム５０５の情報をパースし、情報を復号器５００のモジュールへ送る。ＤＥＭＵＸ５１０は、音声の複雑度の変動、ネットワークジッター、及び／又は他の要因に起因するビットレートの短期変動を補償するために１つ又は複数のバッファーを含む。

[071]エントロピー復号器５２０は、通常、符号化器４００で使用されたエントロピー符号化技法を逆にしたものを適用して、ＤＥＭＵＸ５１０から受け取ったエントロピー符号を無損失に伸張する。エントロピー復号器５２０は、有損失符号化モードで圧縮されたデータを復号するとき、量子化されたスペクトル係数データを作成する。

[072]混合／純粋型無損失復号器５２２及び関連したエントロピー復号器（複数可）５２０は、混合／純粋型無損失符号化モードの無損失に符号化された音声データを伸張する。

[073]タイル構成復号器５３０は、フレームのタイルのパターンを示す情報をＤＥＭＵＸ５１０から受け取り、必要な場合に復号する。タイルパターン情報は、エントロピー符号化される場合もあるし、或いは他の方法でパラメーター化される場合もある。タイル構成復号器５３０は、その後、復号器５００の他のさまざまなモジュールにタイルパターン情報を渡す。

[074]逆マルチチャネル変換器５４０は、エントロピー復号器５２０からの量子化されたスペクトル係数データと共に、タイル構成復号器５３０からのタイルパターン情報並びに例えば使用されたマルチチャネル変換及びタイルの変換された部分を示すＤＥＭＵＸ５１０からのサイド情報も受け取る。この情報を使用して、逆マルチチャネル変換器５４０は、必要に応じて変換行列を伸張し、１つ又は複数の逆マルチチャネル変換を音声データに選択的かつ柔軟に適用する。

[075]逆量子化器／重み付け器５５０は、タイル及びチャネル量子化係数と共に、量子化行列等の情報もＤＥＭＵＸ５１０から受け取り、量子化されたスペクトル係数データを逆マルチチャネル変換器５４０から受け取る。逆量子化器／重み付け器５５０は、受け取った重み付け係数情報を必要に応じて伸張する。量子化器／重み付け器５５０は、その後、逆量子化及び重み付けを実行する。

[076]逆周波数変換器５６０は、逆量子化器／重み付け器５５０によって出力されるスペクトル係数データと共に、ＤＥＭＵＸ５１０からのサイド情報及びタイル構成復号器５３０からのタイルパターン情報も受け取る。逆周波数変換器５７０は、符号化器で使用された周波数変換を逆にしたものを適用し、ブロックをオーバーラッパー／加算器５７０に出力する。

[077]オーバーラッパー／加算器５７０は、タイル構成復号器５３０からタイルパターン情報を受け取ることに加えて、逆周波数変換器５６０及び／又は混合／純粋型無損失復号器５２２から復号された情報も受け取る。オーバーラッパー／加算器５７０は、必要に応じて音声データをオーバーラップさせ、加算し、異なるモードで符号化された音声データのフレーム又は他のシーケンスをインターリーブする。

[078]マルチチャネルポストプロセッサー５８０は、オプションとして、オーバーラッパー／加算器５７０によって出力された時間領域の音声サンプルを再行列化する。ビットストリーム制御された後処理の場合、後処理変換行列は、時間と共に変化し、シグナリングされるか又はビットストリーム５０５に含まれる。

[079]ＩＩＩ．可変サブフレームサイズに対する可逆的変調重複変換
上述したように、代表的符号化器（例えば、タイル構成器４２２）は、プリエコー効果を回避するために音声の過渡現象により小さなサブフレームサイズを使用することと、符号化効率のためにより大きなサブフレームサイズを使用することとの間をバランスさせる等のために、変化するサブフレームサイズを使用して音声信号を符号化する。符号化器は、Chen他による米国特許出願公開第ＵＳ−２００３−０１１５０５２号の“ADAPTIVE WINDOW-SIZE SELECTION IN TRANSFORM CODING”に説明された技法等、さまざまな技法を用いてサブフレームサイズを適応的に選ぶことができる。

[080]図６は、代表的符号化器によって作成された一例のサブフレーム構成を示す。この符号化器では、音声サンプルの或るセクションが、２５６サンプル、５１２サンプル、５１２サンプル、１０２４サンプル、及び５１２サンプルのサイズを有するサブフレーム６１１〜６１５に区画される。図６に示すサブフレームサイズは、一例示の符号化器の実施態様において利用可能なサブフレームサイズの選択の範囲を単に表しているに過ぎず、例示の目的で選ばれたものにすぎない。さまざまな代替的な符号化器の実施態様では、符号化器は、他のサブフレームサイズを使用することができ、かつ／又はサブフレームサイズのより多くの選択の範囲又はより少ない選択の範囲を使用することができる。

[081]これも上述したように、代表的符号化器は、（例えば、周波数変換器４３０によって）周波数変換を音声サンプルに適用する。代表的符号化器で使用される周波数変換は、修正離散コサイン変換（ＭＤＣＴ）等の変調重複変換（ＭＬＴ）のタイプである。各サブフレームのこのＭＬＴは、前サブフレームのサンプル及び後続サブフレームのサンプルとオーバーラップする。換言すれば、この変換は、現サブフレームのサンプルに加えて、前サブフレームのサンプル及び後続サブフレームのサンプルのオーバーラップ部分から自身の入力を取り込む。この例では、小さい方のサブフレームのサイズ（すなわち、隣接するサブフレームサイズ及び現サブフレームサイズのうちの小さい方）の半分に等しいオーバーラップが使用される。例えば、サブフレーム６１２（５１２サンプルのサイズを有する）のオーバーラップは、先行サブフレーム６１１（２５６サンプルのより小さなサイズを有する）の１２８サンプルである。他方、サブフレーム６１５（５１２サンプルを有する）は、その先行サブフレーム６１４（１０２４サンプルを有する）よりも小さく、したがって、先行サブフレーム６１４の２５６サンプルのオーバーラップを使用する。代替的な実施態様では、符号化器は、前サブフレーム及び後続サブフレームから異なるオーバーラップ量（例えば、小さい方のサブフレームサイズの４分の１等）を有するＭＬＴを使用することができる。この例から分かるように、３つのサブフレームサイズの選択の結果、前サブフレームサイズ、現サブフレームサイズ、及び後続サブフレームサイズの組み合わせの個数はより多くなり、これによって、サブフレームの重複変換サイズの並べ替えがより多く作成される。

[082]符号化器による無損失圧縮の場合、ＭＬＴは、望ましくは、可逆的整数−整数変換の実施態様を有する。次の説明では、このような可逆的整数−整数変換の実施態様がサブフレームサイズのさまざまな組み合わせについてどのように導出されるのかを扱う。各サブフレームサイズの組み合わせの変調重複変換は、サブフレームにまたがるオーバーラップウィンドウ化変換７１１〜７１４（図７に図示）とそれらのサブフレームに適用されたブロック変換８１１〜８１４（図８に図示）との組み合わせに因数分解することによって作成される。

[083]ＩＶ．変調重複変換の因数分解
次のセクションでは、ＭＬＴ等の一定の重複直交変換を理解及び実施するための単純な方法を提示する。ＭＬＴ（ＭＣＬＴの実部）は、次の直交変換として記述することができるが（負の符号は任意であるが、音声符号で共通に使用される（スケールファクタを除く）変換の定義と整合するように追加される）。

[084]上記式において、入力音声サンプルは、

項によって表される。ｓｉｎ項はウィンドウ関数であるのに対して、ｃｏｓ項は変換の基底関数である。変数ｋはスペクトルインデックスであり、Ｍはサブフレームサイズであり、ｌはサブフレームのインデックスである。

[085]
ｃｏｓ（−θ＋π）＝−ｃｏｓθであるので、その結果として、

となる。

[086]同様に、ｃｏｓ（−θ＋２π）＝ｃｏｓθであるので、

であることも分かる。

[087]ＭＬＴ式のこれらの上記２つの関係を適用すると、

が得られる。

[088]項ｚ［ｎ］は、ｎ＝０，…，Ｍ／２−１については、

と定義され、ｎ＝Ｍ／２，…，Ｍ−１については、

と定義されるものと仮定する。

[089]この場合、ＭＬＴ式は、

と記述することができる。これは、フリップされたｚ［ｎ＋Ｍｌ］のタイプＩＶＤＣＴである。

[090]この書き直された式によって実証されるように、ＭＬＴは、２つのブロックベースの変換であると考えることができる。第１のブロック変換は、ｘからｚまでのオーバーラッピング１段バタフライであり、第２のブロック変換は、単純に、フリップされたｚ項のブロックベースのＤＣＴ−ＩＶである。

[091]ＭＬＴの２つの隣接したブロック間のオーバーラップする領域は、ブロックｌの前半とブロック（ｌ−１）の後半とから成る。ｓｉｎ（−θ＋π／２）＝ｃｏｓθであるので、このオーバーラップする領域の項ｚ［ｎ＋Ｍｌ］は、ｎ＝０，…，Ｍ／２−１については、

と記述することができ、ｎ＝Ｍ／２，…，Ｍ−１については、

と記述することができる。

[092]代入ｎ’＝Ｍ−１−ｎを行った後、ｓｉｎ（θ＋π／２）＝ｃｏｓθであり、ｓｉｎ（−θ＋π）＝ｓｉｎθであるので、ｎ＝０，…，Ｍ／２−１について、

が得られる。

[093]これは、

を有する単純な２×２変換ブロックと同じである。ここで、

である。次に、さらなる代入ｎ’＝Ｍ／２−１−ｎを行うことによって、

が与えられる。ここで、ｎ＝０，…，Ｍ／２−１であり、

であり、ｓｉｎ（−θ＋π／２）＝ｃｏｓθ及びｃｏｓ（−θ＋π／２）＝ｓｉｎθが使用されている。この２×２変換は、音声コーデックのオーバーラップトウィンドウ化ブロック変換７１１〜７１４（図７）として使用することができる。この変換は、各オーバーラップする領域を単一段バタフライとして取り扱うことによって、変化するサブフレームサイズに適用することができる。この変換における２×２回転は可逆的なものにすることができるので、このオーバーラップウィンドウ化変換は、可逆的変換として容易に実施される。

[094]サブフレームサイズが（図６に示す例の場合のように）変化するとき、ＭＬＴのウィンドウ形状のみが変化する。しかしながら、ウィンドウは、それでも、オリジナルのウィンドウのすべての対称性には従う。したがって、変化するサイズのサブフレームに適合するときの唯一の変化は、オーバーラップするウィンドウサイズＭである。

[095]さらに、この方法論は、単純に任意の直交変換をデータ内の所与のブロックに適用し、次いでブロッキンググリッドをシフトさせて図６〜図８に示すような別の直交変換を適用することによって、より一般的には、オーバーラップト直交変換を作成することに適用可能である。

[096]ＩＩＩ．一般のオーバーラッピング変換の因数分解
一定の条件下では、隣接したブロック間で５０％以下のオーバーラップを有するいずれの変換も、２つのブロック変換に因数分解することができる。正確な必要条件は、以下の導出で説明される。５０％以下のオーバーラップを有するブロックに処理を行う重複変換を考えることにする。このような線形変換は、行列として記述することができる。この行列における各ブロックは、Ｎ／２×Ｎ／２行列である。ここで、Ｎは（可変ブロックサイズが可能である場合には）変換の最小ブロックサイズである。例えば、重複変換は、５１２、１０２４、及び２０４８のサイズのブロックの使用が可能にされていると仮定する。この場合、ブロックサイズが５１２、１０２４、５１２、及び５１２である場合、重複変換の変換行列は、次のように記述することができる。

ここで、各部分行列は、２５６×２５６行列である。

[097]この演算を、オーバーラッピング演算子（Ｃ）を適用する第１のステップ及び実際のブロックサイズに対してブロック変換を適用するもう１つの演算子（Ｂ）の２つのステップに分割することを考える。この場合、これらの２つの行列は、

及び

と記述することができる。

[098]目標は、Ａ＝ＢＣとなるようなＢ及びＣを見つけることである。Ａの第ｎ行は、Ｂの第ｎ行にのみ依存するので、変換の単一のブロックを個々に考察することで十分である。例えば、変換の３番目のブロックは、

と記述することができる。

[140]変換の３番目のブロックの前半について解くことは、次の方程式を解くことに簡単化される。

[099]

[0100]これは、行列が

という特性を有する場合、又は所与のｊについてのすべてのｉについてＡ_ｉｊ＝０である場合にのみ解くことができる。これには多くの解法がある。Ｂ_６６を或る任意のフルランクのＮ／２×Ｎ／２行列であるとする。この場合、

が得られる。行列Ａのこの変換ブロック及び他の変換ブロックの後半も、同様に解くことができる。

[0101]これは、一定の条件（すなわち、特性

下では、重複変換を、１つはオーバーラッピングに対処し、もう１つは単純なブロック変換である２つのブロック変換の積として記述することができることを示している。

[0102]したがって、変化するサイズのサブフレームを有する音声信号のサブフレームについての重複変換の可逆的整数−整数実施態様は、重複変換の表現を、サイズＮのサブフレームの矩形線形変換行列

として形成することによって導出される。この矩形線形変換行列はＮ／２×Ｎ／２行列ブロック要素から構成され、ｉ、ｊは行列ブロックのインデックスである。さらに、この行列は、

又は所与のｎについてのすべてのｍについてＡ_ｍｎ＝０という特性を有する。矩形線形変換行列Ａは、

の形態のオーバーラップウィンドウ化変換行列Ｃと、

の形態のブロック変換行列Ｂとに因数分解される。これらの行列の成分には、関係

を解くことによって到達する。

[0103]本発明者らの発明の原理を適用することができる多くの可能な実施形態に鑑み、本発明者らは、添付の特許請求の範囲及びこれと均等なものの範囲及び精神内に入り得るようなすべての実施形態を本発明者の発明として特許請求する。

Claims

音声信号を符号化する方法であって、
時間領域の音声サンプルのシーケンスを含む音声信号（４０５）の入力を受け取るステップと、
前記音声信号を、少なくとも２つの異なるサブフレームサイズを有するサブフレーム（６１１〜６１５）に区画するステップと、
前記異なるサイズのサブフレームの可逆的整数入力対整数出力を有する重複変換（４３０）を実行するステップであって、該重複変換は、前記それぞれのサブフレームサイズである前記サブフレームに適用される可逆的ブロック変換とそれぞれの隣接したサブフレームをオーバーラップさせる可逆的ブロック回転変換との組み合わせとして実現され、各可逆的ブロック回転変換は、前記オーバーラップされた隣接したサブフレームの小さい方の最大半分までをオーバーラップさせ、サブフレームの前記可逆的ブロック変換及び隣接したサブフレームとオーバーラップさせる前記可逆的ブロック回転変換は、前記重複変換の因数分解である、重複変換（４３０）を実行するステップと、
その結果として得られた変換係数を圧縮されたビットストリーム（４９５）として符号化するステップと
を含む方法。
前記重複変換は変調重複変換である、請求項１に記載の方法。
前記重複変換は修正離散コサイン変換である、請求項２に記載の方法。
前記ブロック変換は、ブロックベースのＤＣＴ−ＩＶタイプの変換であり、前記可逆的ブロック回転変換は単一段バッファーフライターイプの変換である、請求項３に記載の方法。
サブフレームの前記重複変換は、オーバーラップする先行の隣接したサブフレーム及び後続の隣接したサブフレームが異なるサイズである場合には、該先行の隣接したサブフレーム及び該後続の隣接したサブフレームについての異なるサイズの可逆的ブロック回転変換に因数分解される、請求項１に記載の方法。
音声信号を復号する方法であって、
異なるサイズのサブフレーム（６１１〜６１５）に区画された音声信号（５０５）の変換係数を復号するステップと、
前記異なるサイズのサブフレームの可逆的整数入力対整数出力を有する重複変換（５６０）を実行するステップであって、該重複変換は、前記それぞれのサブフレームサイズである前記サブフレームに適用される可逆的ブロック変換とそれぞれの隣接したサブフレームをオーバーラップさせる可逆的ブロック回転変換との組み合わせとして実現され、各可逆的ブロック回転変換は、前記オーバーラップされた隣接したサブフレームの小さい方の最大半分までをオーバーラップさせ、サブフレームの前記可逆的ブロック変換及び隣接したサブフレームとオーバーラップさせる前記可逆的ブロック回転変換は、前記重複変換の因数分解である、重複変換（５６０）を実行するステップと、
前記逆変換された変換係数から時間領域の音声信号の音声サンプルを作成するステップと、
前記音声信号（５９５）を出力するステップと、
を含む方法。
前記重複変換は変調重複変換である、請求項６に記載の方法。
前記重複変換は修正離散コサイン変換である、請求項７に記載の方法。
前記ブロック変換は、ブロックベースのＤＣＴ−ＩＶタイプの変換であり、前記可逆的ブロック回転変換は単一段バッファーフライターイプの変換である、請求項８に記載の方法。
サブフレームの前記重複変換は、オーバーラップする先行の隣接したサブフレーム及び後続の隣接したサブフレームが異なるサイズである場合には、該先行の隣接したサブフレーム及び該後続の隣接したサブフレームについての異なるサイズの可逆的ブロック回転変換に因数分解される、請求項９に記載の方法。
複数の異なるサイズのサブフレームに区画された入力音声信号を処理するための重複変換の可逆的整数入力／整数出力の実施態様を導出する方法であって、
隣接したサブフレーム（６１１〜６１５）をオーバーラップさせるオーバーラップ領域（７１１〜７１４）のオーバーラップウィンドウ化変換と前記サブフレームのブロック変換（８１１〜８１５）との組み合わせに前記重複変換（４３０）を因数分解するステップであって、該因数分解するステップは、
所与のサブフレームの前記重複変換の表現を、

の形態を有する矩形線形変換行列Ａとして形成するステップであって、ここで、該行列の各サブブロックは前記サブフレームのサイズＮについてＮ／２×Ｎ／２行列であり、ｉ、ｊは該行列のサブブロックのインデックスであり、さらに、該行列は、

であるという特性を有する、形成するステップと、
前記矩形線形変換行列Ａを、

の形態のオーバーラップウィンドウ化変換行列Ｃと、

の形態のブロック変換行列Ｂとに因数分解するステップであって、該因数分解するステップは、関係

を解くステップを含む、因数分解するステップと、
を含む、前記重複変換（４３０）を因数分解するステップと、
前記サブフレームを有する音声信号（４０５）の入力を受け取るステップと、
前記オーバーラップウィンドウ化変換行列Ｃを、前記サブフレーム及びその先行の隣接したサブフレームに適用するステップと、
前記ブロック変換行列Ｂを前記サブフレームに適用するステップと
を含む方法。