JP2011203732A

JP2011203732A - オーディオ信号の符号化及び復号化のマスキング・レベルが求められる励起パターンを符号化し、復号化する方法及び装置

Info

Publication number: JP2011203732A
Application number: JP2011063490A
Authority: JP
Inventors: Florian Keiler; ケイラーフロリアン; Oliver Wuebbolt; ウーボルトオリヴァー; Johannes Boehm; ベームヨーハネス
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2010-03-24
Filing date: 2011-03-23
Publication date: 2011-10-13
Anticipated expiration: 2031-03-23
Also published as: US8515770B2; KR20110107295A; EP2372706A1; US20110238424A1; CN102201238A; EP2372706B1; EP2372705A1; JP5802412B2; CN102201238B

Abstract

【課題】オーディオ変換符号化器におけるスペクトル・データの量子化のために、心理音響学的情報（すなわち、真のマスキング閾値の近似）が必要である。
【解決手段】本発明によれば、オーディオ信号符号化において量子化する対象のスペクトル毎に、長いウィンドウ／変換長及び短いウィンドウ／変換長について、励起パターンが計算され、符号化される。励起パターンは可変サイズのマトリクスにおいて互いにグループ化される。固定数の値のみの所定のソート順序が励起パターン・データ・マトリクス値に施され、その再配列により、二次マトリクスが形成され、上記二次マトリクスのビット平面に対してＳＰＥＣＫ符号化が施される。
【選択図】図１

Description

本発明は、オーディオ信号変換コデックのマスキング・レベルが求められる励起パターンを符号化し、復号化する方法及び装置に関する。

オーディオ変換符号化器におけるスペクトル・データの量子化のために、心理音響学的情報（すなわち、真のマスキング閾値の近似）が必要である。対応するオーディオ変換復号化器では、量子化データを再構成するために、同じ近似が使用される。符号化器側では、ソース信号の重なる部分がウィンドウ関数を使用してウィンドウイングされる。復号化器側では、重なり＋加算（ｏｖｅｒｌａｐ＋ａｄｄ）が、復号化された信号ウィンドウについて行われる。

送信する対象のサイド情報データの量を制限するために、ｍｐ３及びＡＡＣのような既知の変換コデックは、（「スケール係数帯」としても表す）クリティカルな帯のマスキング情報スケール係数として使用されている。これは、近傍周波数ビン又は係数の群について、量子化処理に先行して、同じスケール係数が使用される（Ｋ．Ｂｒａｎｄｅｎｂｕｒｇ、Ｍ．Ｂｏｓｉによる「ＩＳＯ／ＩＥＣＭＰＥＧ−２ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ：ＯｖｅｒｖｉｅｗａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，１０３^ｒｄＡＥＳＣｏｎｖｅｎｔｉｏｎ，２６−２９Ｓｅｐｔｅｍｂｅｒ１９９７，ＮｅｗＹｏｒｋ，ｐｒｅｐｒｉｎｔＮｏ．４６４１」を参照されたい）。

しかし、スケール係数は、マスキング閾値の粗い（ステップ単位の）近似のみを表す。（わずかに）異なる振幅周波数ビンの群は同じスケール係数を取得するため、マスキング閾値の前述の表現の精度は非常に制限され、よって、適用されたマスキング閾値は、相当数の周波数ビンについて最適でない、
符号化／復号化品質を向上させるために、マスキング・レベルを、
Ｓ．ｖａｎｄｅＰａｒ、Ａ．Ｋｏｈｌｒａｕｓｃｈ、Ｇ．Ｃｈａｒｅｓｔａｎ、Ｒ．Ｈｅｕｓｄｅｎｓによる「Ａｎｅｗｐｓｙｃｈｏａｃｏｕｓｔｉｃａｌｍａｓｋｉｎｇｍｏｄｅｌｆｏｒａｕｄｉｏｃｏｄｉｎｇａｐｐｌｉｃａｔｉｏｎｓ，ＰｒｏｃｅｅｄｉｎｇｓＩＣＡＳＳＰ ’０２，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２００２，Ｏｒｌａｎｄｏ，ｖｏｌ．２，ｐｐ．１８０５−１８０８」、
Ｓ．ｖａｎｄｅＰａｒ，Ａ．Ｋｏｈｌｒａｕｓｃｈ，Ｇ．Ｃｈａｒｅｓｔａｎ，Ｒ．Ｈｅｕｓｄｅｎｓ，Ｊ．Ｊｅｎｓｅｎ，Ｓ．Ｈ．Ｊｅｎ−ｓｅｎによる「ＡＰｅｒｃｅｐｔｕａｌＭｏｄｅｌｆｏｒＳｉｎｕｓｏｉｄａｌＡｕｄｉｏＣｏｄｉｎｇＢａｓｅｄｏｎＳｐｅｃｔｒａｌＩｎｔｅｇｒａｔｉｏｎ」
に示すように計算することが可能であり、
ここで、マスキング閾値は、符号化する対象のオーディオ信号の電力スペクトルから導き出される「励起パターン」から導き出される。

マスキングの目的で前述の励起パターンを施すオーディオ・コデックは、Ｏ．Ｎｉｅｍｅｙｅｒ、Ｂ．Ｅｄｌｅｒによる「ＥｆｆｉｃｉｅｎｔＣｏｄｉｎｇｏｆＥｘｃｉｔａｔｉｏｎＰａｔｔｅｒｎｓＣｏｍｂｉｎｅｄｗｉｔｈａＴｒａｎｓｆｏｒｍＡｕｄｉｏＣｏｄｅｒ、１１８ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ、２８−３１Ｍａｙ２００５、Ｂａｒｃｅｌｏｎａ、Ｐａｐｅｒ６４６６」に開示されている。符号化する対象のスペクトル・オーディオ・データ・ブロック毎に励起パターンが計算され、ここで、励起パターンは、人間の耳の周波数依存性心理音響学特性を表す。

スケール係数ベースのマスキングと比較して、結果として生じるデータ・レートのかなりの増加を避けるために、それぞれの場合、連続する１６個の励起パターンが、前述の励起パターンを効率的に符号化するために合成される。励起パターン・マトリクス値は、Ｗ．Ａ．Ｐｅａｒｌｍａｎ、Ａ．Ｉｓｌａｍ、Ｎ．Ｎａｇａｒａｊ、Ａ．Ｓａｉｄによる「Ｅｆｆｉｃｉｅｎｔ，Ｌｏｗ−ＣｏｍｐｌｅｘｉｔｙＩｍａｇｅＣｏｄｉｎｇＷｉｔｈａＳｅｔ−ＰａｒｔｉｔｉｏｎｉｎｇＥｍｂｅｄｄｅｄＢｌｏｃｋＣｏｄｅｒ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、Ｎｏｖ．２００４，ｖｏｌ．１４，ｎｏ．１１，ｐｐ．１２１９−１２３５」において、画像符号化アプリケーションについて記載されたように符号化されたＳＰＥＣＫ（集合分割埋め込みブロック）である。

対数スケール・マトリクス値の２次元ＤＣＴ変換、並びに、周波数及び時間にわたる２次元行列の、励起パターン値による構築に続いて、実際の励起パターン符号化が行われる。最上位ビットから始めて、ビット平面において、結果として生じる変換係数が量子化され、エントロピ符号化され、これにより、ＳＰＥＣＫ符号化された位置及び係数の符号がビット・ストリーム・サイド情報としてオーディオ復号化器に転送される。

符号化器及び復号化器側では、符号化された励起パターンは相応に、オーディオ信号符号化及び復号化において施される対象のマスキング閾値を算出するために復号化されるので、算出されたマスキング閾値は符号化器及び復号化器において同一である。オーディオ信号量子化は、結果として生じる改良されたマスキング閾値によって制御される。

別々のウィンドウ／変換の長さがオーディオ信号符号化のために使用され、固定長が励起パターンのために使用される。

前述の励起パターン・オーディオ符号化処理の欠点は、符号化器におけるいくつかのブロックの励起パターンを併せて符号化することによってもたらされる処理遅延であるが、スペクトル・データの符号化のマスキング閾値の更に正確な表現を実現することが可能であり、それにより、向上した符号化／復号化品質を実現することが可能である一方、複数ブロックの合成した励起パターン符号化は、サイド情報データのわずかな増加のみをもたらす。

上述のＮｉｅｍｅｙｅｒ／Ｅｄｌｅｒ処理では、励起パターンから導き出されるマスキング閾値は、オーディオ信号符号化において選択されるウィンドウ及び変換長と無関係である。その代わりに、励起パターンはオーディオ信号の固定長部分から導き出される。しかし、短いウィンドウ及び変換長は、より高い時間分解能を表し、最適な符号化／復号化品質のために、関連したマスキング閾値のレベルは相応に適合させるべきである。

本発明によって解決される課題は、サイド情報データ・レートの増加をもたらすことなく、マスキング閾値の算出を向上させることにより、オーディオ信号の符号化／復号化の品質を更に増加させることである。前述の課題は、請求項１及び５に記載の方法によって解決される。前述の方法を利用する装置は請求項２及び６に記載されている。

本発明によれば、オーディオ信号の符号化において量子化される対象のスペクトル毎に、励起パターンが計算され、符号化され、すなわち、より短いウィンドウ／変換毎に、それ自身の励起パターンが算出され、それにより、励起パターンの時間分解能は可変である。長いウィンドウ／変換、及びより短いウィンドウ／変換の励起パターンは、対応するマトリクス又はブロックにおいてグループ化される。励起パターン・データの量は、長いウィンドウ／より短い変換長について（すなわち、非過渡ソース信号部分について、かつ、過渡ソース信号部分について）同じである。励起パターン・マトリクスはしたがって、各フレームにおける別の数の行を有し得る。

励起パターン符号化に関し、マトリクス値の任意の対数微積分に続いて、所定の走査又はソート順序が２次元の変換励起パターン・データ・マトリクス値に施され、その再配列により、そのマトリクス・ビット平面にＳＰＥＣＫ符号化が直接施される二次マトリクスを形成することが可能である。走査経路のみの固定数の値が符号化される。

基本的には、対応する励起パターン復号化に続いてオーディオ信号符号化のマスキング・レベルが求められる励起パターンの符号化に適しており、オーディオ信号符号化のために、オーディオ信号が、別々のウィンドウ及びスペクトル変換長を使用して連続して処理され、最長変換長の特定の倍数を表すオーディオ信号の部分がフレームと表され、励起パターンが、オーディオ信号の連続する部分のスペクトル表現に関係付けられ、方法は、以下の工程を含む。

ａ）オーディオ信号の現在のフレームについて、連続する励起パターンの対応する群のケースそれぞれにおいて、励起パターン・マトリクスＰを形成し、異なるスペクトル変換長毎に、対応する励起パターンがマトリクスＰに含められ、各マトリクスＰのエントリの対数をとる工程であって、結果として生じるマトリクス・サイズが以下の工程の変換に適していない場合、マトリクスのサイズは、マトリクス境界にある励起パターンの値を、必要な回数だけ複製することによって増加させられる工程と、
ｂ）対数化されたマトリクスＰの値に対して２次元変換を施し、それにより、マトリクスＰ^Ｔがもたらされる工程と、
ｃ）マトリクスＰ^Ｔにおいて係数に、所定のソート順序を施し、所定のソート順序がマトリクス・サイズに依存し、そのマトリクス・サイズが、現在のフレームにおける最長でない変換長の数に依存し、対応するソート・インデクスによって表され、最初の値から始めて、対応するソート経路の固定数の値のみを取得し、前述の値により、マトリクスＰ^Ｔの二次バージョンＰ^Ｔｑを形成する工程と、
ｄ）マトリクスＰ^ＴｑのＳＰＥＣＫビット平面が処理されるマトリクスＰ^ＴｑのＳＰＥＣＫ符号化を行い、ビット平面における対応する係数ビットの位置を位置特定し、符号化するために、連続する分割が使用される工程とを含む。

基本的には、本発明の符号化装置は、励起パターンが符号化されるオーディオ信号符号化器であり、それから、対応する励起パターン復号化に続いてオーディオ信号の符号化のマスキング・レベルが求められ、オーディオ信号を符号化するために、異なるウィンドウ及びスペクトル変換長を使用して連続して処理され、最長の変換長の特定の倍数を表すオーディオ信号の部分がフレームと表され、励起パターンはオーディオ信号の連続する部分のスペクトル表現に関係付けられ、上記装置は、
オーディオ信号の現在のフレームについて、連続する励起パターンの対応する群のケースそれぞれにおいて、励起パターン・マトリクスＰを形成し、異なるスペクトル変換長毎に、対応する励起パターンがマトリクスＰに含められ、
各マトリクスＰのエントリの対数をとるよう適合された手段であって、
結果として生じるマトリクス・サイズが以下の工程の変換に適していない場合、マトリクスのサイズは、マトリクス境界にある励起パターンの値を、必要な回数だけ複製することによって増加させられ、
対数化されたマトリクスＰの値に対して２次元変換を施し、それにより、マトリクスＰ^Ｔがもたらされ、
マトリクスＰ^Ｔにおいて係数に、所定のソート順序を施し、所定のソート順序がマトリクス・サイズに依存し、そのマトリクス・サイズが、現在のフレームにおける最長でない変換長の数に依存し、対応するソート・インデクスによって表され、
最初の値から始めて、対応するソート経路の固定数の値のみを取得し、前述の値により、マトリクスＰ^Ｔの二次バージョンＰ^Ｔｑが形成される手段と、
マトリクスＰ^ＴｑのＳＰＥＣＫ符号化を行うよう適合された手段であって、そのＳＰＥＣＫ符号化において、マトリクスＰ^Ｔｑのビット平面が処理され、ビット平面における対応する係数ビットの位置を位置特定し、符号化するために、連続する分割が使用される手段と
を含む。

基本的には、本発明の復号化方法は、上記符号化方法によって符号化された励起パターンを復号化するのに適しており、その励起パターンから、符号化オーディオ信号復号化のマスキング・レベルが求められ、オーディオ信号復号化のために、異なるウィンドウ及びスペクトル逆変換長を使用してオーディオ信号が連続して処理され、最長の変換長の特定の倍数を表すオーディオ信号の部分がフレームと表され、励起パターンが、オーディオ信号の連続する部分のスペクトル表現に関係付けられ、方法は、
ａ）ビット・ストリームから受け取られた対応するデータに対して、二次マトリクスＰ^Ｔｑの対応するＳＰＥＣＫ復号化を行う工程と、
ｂ）符号化において使用されるようにソート経路におけるデータの元の数を再獲得するために再構成マトリクスＰ^Ｔｑデータにゼロを加える工程と、
（現在のマトリクスのソート・インデクスに応じて、符号化において使用されるような逆ソート順序を施すことにより、前述のデータを再構成マトリクスＰ^Ｔに戻し、そのソート・インデクスは適切なマトリクス・サイズを確立するためにも使用される工程と、
ｃ）再構成された励起パターン・マトリクスＰを再獲得するために、対応する２次元逆変換及び逆対数をマトリクスＰ^Ｔに施す工程
とを含む。

基本的には、本発明の復号化装置は、上記符号化方法によって符号化された励起パターンは、復号化され、符号化オーディオ信号の復号化のマスキング・レベルを求めるために使用され、オーディオ信号を復号化するために、異なるウィンドウ及びスペクトル変換長を使用して連続して処理され、最長の変換長の特定の倍数を表すオーディオ信号の部分がフレームと表され、励起パターンはオーディオ信号の連続する部分のスペクトル表現に関係付けられ、装置は、
ビット・ストリームから受け取られた対応するデータに対して、二次マトリクスＰ^Ｔｑの対応するＳＰＥＣＫ復号化を行い、
符号化において使用されるソート経路におけるデータの元の数を再獲得するために再構成マトリクスＰ^Ｔｑデータにゼロを加え、
現在のマトリクスのソート・インデクスに応じて、符号化において使用されるような逆ソート順序を施すことにより、前述のデータを再構成マトリクスＰ^Ｔに戻し、そのソート・インデクスは適切なマトリクス・サイズを確立するためにも使用され、
再構成された励起パターン・マトリクスＰを再獲得するために、対応する２次元逆変換及び逆対数をマトリクスＰ^Ｔに対して施すよう適合された手段と、
マスキング閾値をマトリクスＰの励起パターンから算出するよう適合される手段と、
マスキング閾値を使用して符号化オーディオ信号を復号化し、再量子化し、結果として生じる信号を逆変換し、重なり＋加算処理を施すよう適合された手段と
を備える。

本発明の符号化器を示すブロック図である。本発明の復号化器を示すブロック図である。励起パターン符号化を示すフロー図である。励起パターン復号化を示すフロー図である。

本発明の効果的な更なる実施例は、それぞれの従属請求項に記載している。

本発明の例示的な実施例は、添付図面を参照して説明する。

図１の本発明のオーディオ変換符号化器のブロック図では、オーディオ入力信号１０は、周波数変換工程又は段１２において入力信号１０に対して施される対象の現在のウィンドウ・タイプＷＴを選択する過渡検出器工程又は段１１にルックアヘッド遅延部１２１を通って進む。工程／段１２では、現在のウィンドウ・タイプに対応するブロック長を有する変調されたラップ変換（ＭＬＴ）（例えば、ＭＤＣＴ（修正された離散コサイン変換））が使用される。Ｋ個の入力信号サンプルの連続する部分が、工程／段１２に入力され、Ｋは、例えば「１２８」又は「１０２４」の値を有する。５０％のウィンドウの重なりにより、変換長はＮ＝２^＊Ｋになる。変換されたオーディオ信号は、対応する段／工程１５において量子化され、エントロピ符号化される。工程／段１４における励起パターン・ブロック処理のように、変換係数が、段／工程１５においてブロック単位で処理されることを要しない。符号化された周波数ビンＣＦＢ、ウィンドウ・タイプのコードＷＴ、励起データ・マトリクス符号ＥＰＭ、及び、場合によっては、他のサイド情報データが、符号化されたビット・ストリーム１７を出力するビット・ストリーム多重化器工程／段１６において多重化される。

上述の通り、部分１４における励起パターンの計算のために電力スペクトルが必要である。電力スペクトルを得るために、現在ウィンドウイングされた信号ブロックは更に、ＭＤＳＴ（修正された離散サイン変換）を使用して工程／段１２において変換される。ＭＬＴ及びＭＤＳＴタイプの周波数表現は何れも、最大Ｌ個のブロックを記憶するバッファ１３に供給され、ここで、Ｌは例えば、「８」や「１６」である。現在のウィンドウ・タイプのコードは更に、一ブロック変換期間に対応する遅延部１１１を介してバッファ１３に供給される。各変換の出力は、一信号ブロックのＫ個の周波数ビンを含む。過渡が工程／段１１で検出される場合、長さＮ＝２Ｋの単一の長いウィンドウの代わりに、整数数Ｌ_ｓ個の短いウィンドウ（すなわち、ブロック）によってウィンドウイングされ、Ｌ_ｓは例えば、「３」又は「８」であり、１つの長い信号ブロックの短いウィンドウ全ての合計周波数ビン数はＫである。

Ｌ個の信号ブロックのいくつか、「フレーム」と表すデータ群を形成する。励起パターン符号化が、工程／段１４１において、フレームの励起パターンに施される。後に量子化される対象のスペクトル毎に、一励起パターンが計算される。この特徴は、上記刊行物（Ｂｒａｎｄｅｎｂｕｒｇ及びＮｉｅｍｅｙｅｒ／Ｅｄｌｅｒ）に記載されたオーディオ符号化、及び
ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ１１１７２−３：「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ − Ｃｏｄｉｎｇｏｆｍｏｖｉｎｇｐｉｃｔｕｒｅｓａｎｄａｓｓｏｃｉａｔｅｄａｕｄｉｏｆｏｒｄｉｇｉｔａｌｓｔｏｒａｇｅｍｅｄｉａａｔｕｐｔｏａｂｏｕｔ１．５Ｍｂｉｔ／ｓ − Ｐａｒｔ３：Ａｕｄｉｏ」、
ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ１１８１８−３：：「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ − Ｇｅｎｅｒｉｃｃｏｄｉｎｇｏｆｍｏｖｉｎｇｐｉｃｔｕｒｅｓａｎｄａｓｓｏｃｉａｔｅｄａｕｄｉｏｉｎｆｏｒｍａｔｉｏｎ − Ｐａｒｔ３：Ａｕｄｉｏ」
の標準における対応する特徴と異なり、励起パターンの固定時間分解能が使用される。

励起パターン・データの量は、長い変換長の場合も短い変換長の場合も同じである。その結果、短いウィンドウを含む信号ブロックの場合、長いウィンドウを含む信号ブロックよりも、多くの励起パターン・データを符号化しなければならない。

符号化する対象の励起パターンは好ましくは、非二次形状を有するマトリクスＰ内に構成される。マトリクスの各行は、量子化する対象の一スペクトルに対応する一励起パターンを含む。よって、行及び列のインデクスは、時間軸及び周波数軸それぞれに対応する。マトリクスＰにおける行の数は少なくともＬであるが、Ｎｉｅｍｅｙｅｒ／Ｅｄｌｅｒ刊行物に記載された処理と対照的に、マトリクスＰは、各フレームにおいて、異なる数の行を有し得る。その数は、対応するフレームにおける短いウィンドウの数に依存するからである。

あるいは、マトリクスＰの行及び列を入れ替えることが可能である。

（例えば、縦続接続された２つの１次元ＤＣＴを使用することにより、）２次元変換を施すために、変換が扱うことが可能な行の数（例えば、偶数）を得るためにマトリクスの最終行（又は更に多くの行）を複製することが可能である。

表１は、１１行をもたらす、短いウィンドウを使用した一ブロックを有するフレームの例を示す。２次元変換は「４」の倍数である入力サイズを処理することが可能であるため、最後の行は複製される。

上述のＮｉｅｍｅｙｅｒ／Ｅｄｌｅｒ刊行物におけるセクション３．２と同様に、励起パターン・マトリクスＰの実際の符号化が以下のように行われる（図３も参照されたい）が、重要な差がいくつか存在している。

ａ）マトリクスＰのエントリそれぞれの対数をとる
ｂ）結果として生じるマトリクス値に対して、２次元変換を施す（すなわち、マトリクスＰ^Ｔとして表すスペクトル励起パターン表現）が再び変換される
ｃ）（例えば、通常、非常に小さい振幅を有する高周波コンテンツを表すマトリクスＰ^Ｔ列を除去することによって）符号化される対象の変換マトリクスＰ^Ｔ列の数を削減する
ｄ）所定の走査順序（すなわち、所定のソート）を、変換されたマトリクスＰ^Ｔの係数に施す。前置処理では、（すなわち、マトリクスＰ毎の短いウィンドウの励起パターンの数に応じて）マトリクス・サイズ毎の走査又はソート順序が、代表的な入力信号での訓練を行うことによって求められる。

コメント：理想的なケースでは、変換されたマトリクスＰ^Ｔの係数の絶対値が次いで、走査経路に沿って降順に配置される。

ｅ）更に、走査又はソート経路の固定数の値のみを使用することにより、符号化する対象のデータの数を更に削減する。すなわち、走査経路の最後における対応する値を除去し、走査経路からの値で、行単位又は列単位で二次マトリクスＰ^Ｔｑを埋めることにより、マトリクス列の二次バージョンＰ^Ｔｑを形成する。上記固定数は、先行する訓練処理においても求められている。

二次マトリクスＰ^Ｔｑは、対応するベクトルにより、処理において表すことも可能である。

ｆ）マトリクスＰ^Ｔｑ毎に、上記Ｐｅａｒｌｍａｎらの刊行物においてｓｅｃｔｉｏｎＩＩ及びＩＩＩ，ＩＩＩ．Ａ−Ｄに記載されたＳＰＥＣＫ処理を行い、二次マトリクスＰ^Ｔｑのビット平面が処理され、継続した分割を使用して、ビット平面における対応する係数ビットの位置を位置特定し、符号化する。

二次マトリクスＰ^Ｔｑの係数の符号を表すビットは、ＥＰＭコード・データに加えることが可能であるか、又は、多重化器１６においてビット・ストリームに、直接（すなわち、特定の符号化なしで）、加えることが可能である。

Ｎｉｅｍｅｙｅｒ／Ｅｄｌｅｒ刊行物と比較すれば、励起パターン符号化処理は上記工程ｃ）、ｄ）及びｅ）において異なる。工程ｃ）は、本発明の処理において更に行われる。工程ｄ）に関し、マトリクスＰ^Ｔ係数の再配列が行われ、この再配列は、異なるマトリクス・サイズについて異なる。

工程ｅ）に関し、再配列又は走査は、Ｎｉｅｍｅｙｅｒ／Ｅｄｌｅｒ処理に対して
結果として生じるマトリクスＰ^Ｔｑは二次であり、よって、ビット平面に対するＳＰＥＣＫ処理は直接施すことが可能である一方、Ｎｉｅｍｅｙｅｒ／Ｅｄｌｅｒでは、元のＳＰＥＣＫ処理を行うことが可能である前に、矩形マトリクスをいくつかの二次マトリクスに分割しなければならず、さもなければ、元のＳＰＥＣＫ処理は、変更しなければならないということ、及び
施された走査経路内に、最後のマトリクス係数が、最小の振幅を有する可能性が高いので、固定数の係数のみが、わずかな振幅係数のみを省略する一方、Ｎｉｅｍｅｙｅｒ／Ｅｄｌｅｒでは、「最も低い１つ又は複数のビット平面をスキップすること」により、「特定のビット・レート制約が満たされる」か、又は、「変換係数マトリクスの十分な近似が実現される」場合、符号化ループが停止する。すなわち、Ｎｉｅｍｅｙｅｒ／Ｅｄｌｅｒでは、省略された係数は、一部の上位係数を含み得、かつ／又は、マトリクスの係数は全て、より粗い量子化を得ることが可能である。

工程ｄ）では、考えられるマトリクスＰサイズ毎のマトリクスＰ^Ｔのソート又は走査順序を（例えば、対応する走査経路をオーディオ符号化器のメモリ及びオーディオ復号化器のメモリに記憶するソート・インデクスを求めることによって）与えなければならない。

オーディオ信号のタイプ全てについて一度行われる訓練段階では、マトリクス要素全ての統計が集められる。その目的で（例えば、各種オーディオ信号の複数のテスト・マトリクスについて）、マトリクス・エントリ毎の二乗値が、算出され、マトリクス内の値位置毎のテスト・マトリクスにわたって平均化される。次いで、振幅の順序がソートの順序を表す。この種の処理は、考えられるマトリクス・サイズ全てについて行われ、対応するソート・インデクスが、マトリクス・サイズ毎のソート配列に割り当てられる。前述のソート・インデクスは、励起パターンのマトリクス符号化及び復号化処理において走査又はソート順序を（自動的に）選択するために使用される。

上記工程ｅ）に記載したように、符号化する対象の値の数は更に削減される。（訓練段階において求められた）統計から、符号化する対象の固定数の値が評価される。ソートに続いて、和が合計エネルギの特定の閾値（例えば、０．９９９）になる値の数のみが使用される。

オーディオ信号符号化器では、励起データ・マトリクス符号ＥＰＭはソート・インデクス情報を含み得る。データ・レート全体をセーブする代替策として、復号化器側で、フレーム毎の（ウィンドウ・タイプ・コードＷＴによってシグナナリングされるように）短いウィンドウの数によって自動的に求められる。工程／段１４１において符号化された励起パターンは、励起パターン復号化器工程又は段１４２において以下に説明するように復号化される。Ｌブロックの復号化された励起パターンから、対応するマスキング閾値がマスキング閾値／算出器工程／段１４３において算出され、その出力は、工程／段１２及びバッファ１３から受け取られる変換係数毎に現在のマスキング閾値を量子化及びエントロピ符号化段／工程１５に供給するバッファ１４４に中間的に記憶される。量子化及びエントロピ符号化段／工程１５は、符号化周波数ビンＣＦＢをビット・ストリーム多重化器１６に供給する。

図２に示す本発明の復号化器では、受け取られた符号化ビット・ストリーム２７は、ビット・ストリーム逆多重化器工程／段２６において、ウィンドウ・タイプ符号ＷＴ、符号化周波数ビンＣＦＢ、励起パターン・データ・マトリクス符号ＥＰＭ、及び場合によっては他のサイド情報データに分割される。エントロピ符号化されたＣＦＢデータは、ウィンドウ・タイプ符号ＷＴを使用して、対応する段／工程２５においてエントロピ復号化され、逆量子化され、マスキング閾値情報が、励起パターン・ブロック処理工程／段２４において算出される。再構成された周波数ビンは、逆ＭＬＴ変換され、重なり＋加算処理される。これには、再構成されたオーディオ信号２０を出力する逆変換／重なり＋加算工程／段２３における現在のウィンドウ・タイプ符号ＷＴに対応するブロック長が用いられる。励起パターン・データ・マトリクス符号ＥＰＭは励起パターン復号化器２４２において復号化され、それにより、対応する逆ＳＰＥＣＫ処理はマトリクスＰ^Ｔｑの複製を提供し、対応する逆走査は変換マトリクスＰ^Ｔの複製を提供し、対応する逆変換は、現在のブロックの再構成マトリクスＰを提供する。再構成されたマトリクスＰの励起パターンは、バッファ２４４に中間的に記憶され、段／工程２５に供給される、現在のブロックのマスキング閾値を再構成するためにマスキング閾値算出工程／段２４３において使用される。

Ａ）対応するＳＰＥＣＫ復号化処理を施す工程、
Ｂ）符号化器において使用されるように走査経路又はソート経路におけるデータの同じ（すなわち、元の）数を得るために再構成マトリクスＰ^Ｔｑデータにゼロを加える工程、
Ｃ）符号化器に使用される逆ソート順序を施すことにより、前述のデータを、削減されたサイズの変換されたマトリクスに戻す工程であって、関連付けられたソート・インデクスが、適切なサイズのマトリクスに、復号化されたデータを戻すために使用される工程、
Ｄ）再構成されたマトリクスＰ^Ｔを得るためにゼロで、前述の再構成されたマトリクスにおける欠落している列を埋める工程、
Ｅ）再構成されたマトリクスを得るよう２次元逆変換を施す工程、及び
Ｆ）再構成された励起パターン・マトリクスＰを得るようマトリクス・エントリ全ての逆対数を得る工程
が、励起パターンを再構成するためにパターン復号化器２４２において行われる（図４も参照されたい）。

ステレオ／マルチチャネル信号の励起パターン符号化
ステレオ入力信号、又は、より一般には、マルチチャネル信号を処理する場合、チャネル間の相関を励起パターン符号化において使用することが可能である。例えば、同期化された過渡検出を使用することが可能であり、ここで、チャネル信号は同じウィンドウ・タイプによって処理される。すなわち、チャネルｎ_ｃｈ毎に、同じサイズの励起パターン・マトリクスＰ（ｎ_ｃｈ）が得られる。個々のマトリクスを別々のマルチチャネル符号化モードｋ：
チャネル毎にインタリーブされた励起パターン：ＬＲＬＲ_…ＬＲ、
チャネル・データを有する合成マトリクス：ＬＬ_…ＬＲＲ_…Ｒ、及び
チャネル毎の個別の１つのマトリクス
において符号化することが可能である（ここで、ステレオ・ケースでは、Ｌ及びＲは左チャネル及び右チャネルに対応するデータを表す）。

符号化器では、３つの符号化モードｋは全て、行うことが可能であり、励起パターンは、マトリクスＰ’（ｎ_ｃｈ，ｋ）をもたらす、候補の、又は一時的なビット・ストリームから復号化される。マルチチャネル符号化モードｋ毎に、施された符号化の歪みｄ（ｋ）が計算される。

前述の一時的なビット・ストリームから、所要データ量ｓ（ｋ）が符号化器において評価される。好ましくは、実際に使用される符号化モードは、積ｄ（ｋ）^＊ｓ（ｋ）の最小値が実現される符号化モードである。この符号化モードの対応するビット・ストリーム・データは復号化器に送信される。更なるサイド情報として、マルチチャネル符号化モード・インデクスｋも復号化器に送信される。

Claims

対応する励起パターン復号化（１４２）に続いてオーディオ信号（１０）の符号化（１１、１２、１５）のマスキング・レベルが求められる励起パターンを符号化する方法（１４１）であって、前記オーディオ信号の符号化のために、前記オーディオ信号が、異なるウィンドウ及びスペクトル変換長を使用して連続して処理され（１２、１５）、最長変換長の特定の倍数（Ｌ）を表すオーディオ信号の部分がフレームと表され、前記励起パターンが、前記オーディオ信号の連続する部分のスペクトル表現（１２）に関係付けられ、前記方法は、
ａ）前記オーディオ信号（１０）の現在のフレームについて、連続する励起パターンの対応する群のケースそれぞれにおいて、励起パターン・マトリクスＰを形成し、異なるスペクトル変換長毎に、対応する励起パターンが前記マトリクスＰにおいて得られ、各マトリクスＰのエントリの対数（３２）をとる工程であって、
前記結果として生じるマトリクス・サイズが次の変換に適していない場合、マトリクスのサイズは、マトリクス境界にある励起パターンの値を、必要な回数だけ複製することによって増加させられる工程と、
ｂ）対数化されたマトリクスＰの値に対して２次元変換を施し（３３）、それにより、マトリクスＰ^Ｔがもたらされる工程と、
ｃ）前記マトリクスＰ^Ｔにおいて係数に、所定のソート順序を施し（３５）、前記所定のソート順序が前記マトリクス・サイズに依存し、そのマトリクス・サイズが、現在のフレームにおける最長でない変換長の数に依存し、対応するソート・インデクスによって表され、最初の値から始めて、対応するソート経路の固定数の値のみを取得し、前記値で、マトリクスＰ^Ｔの二次バージョンＰ^Ｔｑを形成する工程（３５）と、
ｄ）マトリクスＰ^ＴｑのＳＰＥＣＫ符号化を行う工程（３６）であって、マトリクスＰ^ＴｑのＳＰＥＣＫ符号化ビット平面が処理され、ビット平面における対応する係数ビットの位置を位置特定し、符号化するために使用される工程と
を含む方法。
請求項１記載の方法によって符号化された励起パターンを復号化する方法（２４２）であって、前記励起パターンから、符号化されたオーディオ信号（２７）の復号化（２５、２３）が求められ（２４３）、前記オーディオ信号復号化のために、前記オーディオ信号が異なるウィンドウ及びスペクトル逆変換長を使用して連続して処理され、最長の変換長の特定の倍数（Ｌ）を表す前記オーディオ信号の部分がフレームと表され、前記励起パターンは前記オーディオ信号の連続する部分のスペクトル表現（１２）に関係し、前記方法は、
ａ）ビット・ストリームから受け取られる（２６）対応するデータ（ＥＰＭ）に対して、二次マトリクスＰ^Ｔｑの対応するＳＰＥＣＫ復号化を行う工程（４１）と、
ｂ）前記符号化において使用されるようにソート経路におけるデータの元の数を再獲得するために再構成マトリクスＰＴｑデータにゼロを加える工程（４２）と、現在のマトリクスのソート・インデクスに応じて、符号化において使用される逆ソート順序を施すことにより、前記データを前記再構成マトリクスＰ^Ｔに戻し（４３）、前記ソート・インデクスは適切なマトリクス・サイズを確立するためにも使用される工程と、
ｃ）前記再構成励起パターン・マトリクスＰを再獲得するために、対応する２次元逆変換及びをマトリクスＰＴに対して施す工程（４５、４６）と
を含む方法。
請求項１記載の方法であって、工程ｂ）と工程ｃ）との間で、マトリクスＰ^Ｔのサイズは、最小の振幅を統計的に有する周波数を表す少なくとも１つのマトリクス境界の列又は行を除去することによって削減される方法。
請求項１又は３に記載の方法であって、現在のウィンドウ及びスペクトル変換長をシグナリングするためのウィンドウ・タイプ符号（ＷＴ）、及び、任意的に、現在のマトリクス・サイズをシグナリングするソート・インデクスは、前記符号化されたオーディオ信号ビット・ストリームに含まれる方法。
請求項２記載の方法であって、工程ｂ）と工程ｃ）との間で、最小の振幅を統計的に有する周波数を表しているマトリクス境界の列又は行の欠落している値には、前記再構成マトリクスＰ^Ｔを再獲得するためにゼロで埋められる（４４）方法。
請求項２又は５に記載の方法であって、前記マトリクス・サイズ、及びそれによるソート・インデクスは、フレーム毎の短いウィンドウの数から自動的に求められる方法。
請求項１乃至６のうちの１つに記載の方法であって、前記ウィンドウ及びスペクトル変換長は、長いタイプ及び短いタイプという２つのタイプを有し、前記短いウィンドウには、開始ウィンドウが先行し、停止ウィンドウが後に続く方法。
請求項１乃至７のうちの一項に記載の方法であって、前記マトリクスＰ^Ｔｑの値の符号を表すビットは、前記符号化されたオーディオ信号ビット・ストリームにおける特殊な符号化なしで含まれる方法。
請求項１、及び３乃至８に記載の方法であって、オ―ディオ信号（１０）がマルチチェネル・オーディオ信号の場合、チャネル全てにおける現在のフレームについて、同じマトリクス・サイズが前記励起パターン符号化（１４１）において使用され、前記個々のマトリクスが、
チャネル毎にインタリーブされた励起パターン、
チャネル・データを有する合成マトリクス、
チャネル毎の個別の１つのマトリクス、
のマルチチャネル符号化モードｋのうちの少なくとも１つにおいて符号化され、前記符号化モードｋを表す符号がビット・ストリームに含まれ、前記励起パターン復号化処理（１４２、２４２）において相応に使用される方法。
対応する励起パターン復号化（１４２）に続いてオーディオ信号（１０）の符号化（１１、１２、１５）のマスキング・レベルが求められる励起パターンが符号化される（１４１）オーディオ信号符号化器であって、前記オーディオ信号の符号化のために、前記オーディオ信号が、異なるウィンドウ及びスペクトル変換長を使用して連続して処理され（１２、１５）、最長変換長の特定の倍数（Ｌ）を表すオーディオ信号の部分がフレームと表され、前記励起パターンが、前記オーディオ信号の連続する部分のスペクトル表現（１２）に関係付けられ、装置は、
前記オーディオ信号の現在のフレームについて、連続する励起パターンの対応する群のケースそれぞれにおいて、励起パターン・マトリクスＰを形成し、前記異なるスペクトル変換長毎に、対応する励起パターンが前記マトリクスＰに含められ、各マトリクスＰのエントリの対数をとるよう適合された手段（１２、１３、１４１）であって、
結果として生じるマトリクス・サイズが次の変換に適していない場合、マトリクスのサイズは、マトリクス境界にある励起パターンの値を、必要な回数だけ複製することによって増加させられ、
対数化されたマトリクスＰの値に対して２次元変換が施され、それにより、マトリクスＰ^Ｔがもたらされ、
前記マトリクスＰ^Ｔにおいて係数に、所定のソート順序が施され、前記所定のソート順序がマトリクス・サイズに依存し、そのマトリクス・サイズが、現在のフレームにおける最長でない変換長の数に依存し、対応するソート・インデクスによって表され、
最初の値から始めて、対応するソート経路の固定数の値のみが取得され、前記値で、マトリクスＰ^Ｔの二次バージョンＰ^Ｔｑが形成される手段と、
マトリクスＰ^ＴｑのＳＰＥＣＫ符号化を行うよう適合された手段とを備え、前記ＳＰＥＣＫ符号化において、前記マトリクスＰ^Ｔｑのビット平面が処理され、前記ビット平面における対応する係数ビットの位置を位置特定し、符号化するために、連続する分割が使用されるオーディオ信号符号化器。
請求項１記載の方法によって符号化された励起パターンが、符号化オーディオ信号（２７）の復号化のためのマスキング・レベルを求めるために復号化され、使用され、前記オ―ディオ信号を復号化するために、別のウィンドウを使用して連続して処理され、最長の変換長の特定の倍数（Ｌ）を表すオーディオ信号の部分がフレームと表され、前記励起パターンはオーディオ信号の連続する部分のスペクトル表現に関係付けられるオーディオ信号復号化器であって、
ビット・ストリームから受け取られた対応するデータ（ＥＰＭ）に対して、二次マトリクスＰ^Ｔｑの対応するＳＰＥＣＫ復号化を行う（４１）よう適合された手段（２４２）であって、
符号化において使用されるようにソート経路におけるデータの元の数を再獲得するために再構成マトリクスＰ^Ｔｑデータにゼロを加え（４２）、
現在のマトリクスのソート・インデクスに応じて、符号化において使用される逆ソート順序を施すことにより、前記データを再構成マトリクスＰ^Ｔに戻し（４３）、前記ソート・インデクスは適切なマトリクス・サイズを確立するためにも使用される工程と、
再構成励起パターン・マトリクスＰを再獲得するために、対応する２次元逆変換及び逆対数をマトリクスＰ^Ｔに対して施す（４５、４６）手段と、
マスキング閾値をマトリクスＰの前記励起パターンから算出するよう適合される手段（２４３）と、
前記マスキング閾値を使用して前記符号化オーディオ信号を復号化し、再量子化し、結果として生じる信号を逆変換し、重なり＋加算処理を施すよう適合された手段（２５、２３）とを備えるオーディオ信号復号化器。
請求項１０記載の装置であって、前記２次元変換と、所定のソート順序の適用との間で、マトリクスＰ^Ｔのサイズは、最低の振幅を統計的に有する周波数を表す少なくとも１つのマトリクス境界列又は行を削除することによって削減される装置。
請求項１０又は１２に記載の装置であって、現在のウィンドウ及びスペクトル変換長をシグナリングするためのウィンドウ・タイプ符号（ＷＴ）、及び、任意的に、前記現在のマトリクス・サイズをシグナリングするソート・インデクスは、前記符号化されたオーディオ信号ビット・ストリームに含まれる装置。
請求項１１記載の装置であって、最小の振幅を統計的に有する周波数を表しているマトリクス境界の列又は行の欠落している値の逆ソートに続き、再構成マトリクスＰＴを再獲得するためにゼロで埋められる（４４）装置。
請求項１１又は１４に記載の装置であって、前記マトリクス・サイズ、及びそれによるソート・インデクスは、フレーム毎の短いウィンドウの数から自動的に求められる装置。
請求項１０乃至１５のうちの１つに記載の装置であって、前記ウィンドウ及びスペクトル変換長は、長いタイプ及び短いタイプという２つのタイプを有し、前記短いウィンドウには、開始ウィンドウが先行し、停止ウィンドウが後続する装置。
請求項１０乃至１６のうちの何れか一項に記載の装置であって、前記マトリクスＰ^Ｔｑの値の符号を表すビットは、前記符号化されたオーディオ信号ビット・ストリームにおける特殊な符号化なしで含まれる装置。
請求項１、３、４、及び７乃至９のうちの何れか一項に記載の方法によって符号化されたディジタル・ディジタル・オーディオ信号。
請求項１８記載のディジタル・オーディオ信号を含むか、格納するか、又は記録された記憶媒体。