JP2016530557A

JP2016530557A - 多チャネルオーディオ符号化におけるノイズ充填

Info

Publication number: JP2016530557A
Application number: JP2016528471A
Authority: JP
Inventors: ルイスヴァレーロ，マリア; ヘルムリッヒ，クリスチャン; ヒルペルト，ヨハネス
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-07-22
Filing date: 2014-07-18
Publication date: 2016-09-29
Anticipated expiration: 2034-07-18
Also published as: PL3618068T3; CN105706165A; BR122022016310B1; US20200051577A1; US11887611B2; PT3025341T; HK1246963A1; RU2661776C2; EP3025341B1; US10468042B2; EP3618068B1; PL3025341T3; MX2016000912A; US10978084B2; ES2980506T3; EP3618068A1; US20240127837A1; MX359186B; CN105706165B; WO2015011061A1

Abstract

多チャネルオーディオ符号化において、以下の手段によって符号化効率の改善が達成される。即ち、人工的に生成されるノイズ又はスペクトル複製の代わりに、ノイズ充填ソースを使用して、ゼロ量子化されたスケールファクタ帯域のノイズ充填が実施される。特に、多チャネルオーディオ信号の前フレーム、又は現フレームの異なるチャネルからのスペクトル線を使用して生成されたノイズに基づくノイズ充填を実施することにより、多チャネルオーディオ符号化における符号化効率をより効率的にすることができる。【選択図】図１

Description

本出願は、多チャネルオーディオ符号化におけるノイズ充填に関する。

ＩＥＴＦ[非特許文献１]、ＭＰＥＧ−４（ＨＥ−）ＡＡＣ[非特許文献２]又は特にＭＰＥＧ−ＤｘＨＥ−ＡＡＣ（ＵＳＡＣ）[非特許文献３]のＯｐｕｓ／Ｃｅｌｔコーデックのような現代の周波数ドメイン・スピーチ／オーディオ符号化システムは、信号の時間的定常性に依存して、１つの長い変換−ロングブロック−、又は８個の連続する短い変換−ショートブロック−のいずれか一方を使用して、オーディオフレームを符号化するための手段を提供する。加えて、低ビットレート符号化のために、これらの符号化方式は、擬似ランダムノイズ又は同じチャネルのより低周波数の係数を使用して、周波数係数を再生するツールを提供する。ｘＨＥ−ＡＡＣにおいて、これらのツールは、それぞれノイズ充填及びスペクトル帯域複製として知られている。

しかしながら、非常に調性の高い又は過渡的なステレオ入力にとって、ノイズ充填及び／又はスペクトル帯域複製だけでは、非常に低いビットレートにおける達成可能な符号化品質が制限される。その主たる理由は、両方のチャネルのあまりに多くのスペクトル係数が明示的に伝送される必要があるからである。

[1] Internet Engineering Task Force (IETF), RFC 6716, "Definition of the Opus Audio Codec," Int. Standard, Sep. 2012. Available online at http://tools.ietf.org/html/rfc6716. [2] International Organization for Standardization, ISO/IEC 14496-3:2009, "Information Technology - Coding of audio-visual objects - Part 3: Audio," Geneva, Switzerland, Aug. 2009. [3] M. Neuendorf et al., "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types," in Proc. 132nd AES Convention, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013. [4] International Organization for Standardization, ISO/IEC 23003-3:2012, "Information Technology - MPEG audio - Part 3: Unified speech and audio coding," Geneva, Jan. 2012.

従って、本発明の目的は、特に非常に低いビットレートにおいてより効率的な符号化を可能にする、多チャネルオーディオ符号化におけるノイズ充填を実施するための概念を提供することである。

この目的は、添付の独立請求項の主題によって達成される。

本出願は、多チャネルオーディオ符号化において、チャネルのゼロ量子化されたスケールファクタ帯域のノイズ充填が、人工的に生成されるノイズ又は同じチャネルのスペクトル複製ではなく、ノイズ充填ソースを使用して実施される場合に、符号化効率の改善を達成できるという知見に基づく。特に、多チャネルオーディオ信号の前フレーム又は現フレームの異なるチャネルからの、スペクトル線を使用して生成されるノイズに基づいてノイズ充填を実施することによって、多チャネルオーディオ符号化における効率をより効率的に達成することができる。

多チャネルオーディオ信号の、前フレームのスペクトル的に同じ位置にあるスペクトル線、又は他のチャネルのスペクトル時間的に同じ位置にあるスペクトル線を使用することによって、再生多チャネルオーディオ信号のより快適な品質を達成することが可能であり、これは特に、スペクトル線をゼロ量子化するための符号器の要件がスケールファクタ帯域を全体としてゼロ量子化するような状況に近い非常に低いビットレートにおいて、顕著である。ノイズ充填が改善されることによって、符号器は、より少ない品質損失でより多くのスケールファクタ帯域をゼロ量子化することを選択することができ、その結果として符号化効率が改善する。

本出願の一実施形態によれば、ノイズ充填を実施するためのソースは、複素値ステレオ予測を実施するのに使用されるソースと部分的にオーバーラップしている。特に、前フレームのダウンミックスを、ノイズ充填のためのソースとして使用されてもよく、また、複素チャネル間予測を実施するための虚数部推定を実施するため又は少なくとも促進するためのソースとして、共同使用されてもよい。

実施形態によれば、既存の多チャネルオーディオコーデックは、チャネル間ノイズ充填の使用をフレーム毎の基準で信号伝達するように、後方互換(backward-compatible)的に拡張されている。以下に概説する特異な実施形態は、例えば、条件付きで符号化されるノイズ充填パラメータの不使用状態を活用して、チャネル間ノイズ充填をオン及びオフに切り替える信号伝達を用いることで、ｘＨＥ−ＡＡＣを信号伝達によって後方互換的に拡張する。

本出願の有利な実施形態は、従属請求項の主題である。本出願の好ましい実施形態を、図面を参照して以下に説明する。

本出願の一実施形態に係るパラメトリック周波数ドメイン復号器のブロック図である。図１の復号器の説明の理解を容易にするための、多チャネルオーディオ信号のチャネルのスペクトログラムを形成するスペクトルシーケンスを示す概略図である。図１の説明の理解を促進するための、図２に示すスペクトログラムからの現スペクトルを示す概略図である。前フレームのダウンミックスがチャネル間ノイズ充填の基礎として使用される、代替的な実施形態に係るパラメトリック周波数ドメイン・オーディオ復号器のブロック図の上半分を示す。前フレームのダウンミックスがチャネル間ノイズ充填の基礎として使用される、代替的な実施形態に係るパラメトリック周波数ドメイン・オーディオ復号器のブロック図の下半分を示す。一実施形態に係るパラメトリック周波数ドメイン・オーディオ符号器のブロック図である。

図１は、本出願の一実施形態に係る周波数ドメイン・オーディオ復号器を示す。復号器は、全体的に参照符号１０を使用して示されており、スケールファクタ帯域識別部１２と逆量子化部１４とノイズ充填部１６と逆変換部１８とに加え、スペクトル線抽出部２０とスケールファクタ抽出部２２とを備える。復号器１０によって含まれ得る任意選択の更なる構成要素として、複素ステレオ予測部(complex stereo predictor)２４とＭＳ（中間−側方）復号部２６と逆ＴＮＳ（時間領域ノイズ整形）フィルタツールとが含まれ、そのフィルタツールの２つの例２８ａ及び２８ｂが図１に示されている。加えて、ダウンミックス提供部が示されており、参照符号３０を使用して以下に詳細に概説する。

図１の周波数ドメイン・オーディオ復号器１０は、ノイズ充填をサポートするパラメトリック復号器であり、そのノイズ充填に従って、あるゼロ量子化されたスケールファクタ帯域がノイズで充填されるが、その際に、そのスケールファクタ帯域のスケールファクタが、そのスケールファクタ帯域に充填されるノイズのレベルを制御するための手段として使用される。さらに、図１の復号器１０は、入来するデータストリーム３０から多チャネルオーディオ信号を再生するよう構成されている多チャネルオーディオ復号器を表す。しかしながら、図１は、データストリーム３０内へと符号化されている多チャネルオーディオ信号のうちの１つを再生することに関与する復号器１０の構成要素に焦点を当てたものであり、この（出力）チャネルを出力３２において出力する。参照符号３４は、復号器１０が、更なる構成要素を備えてもよく、又は、多チャネルオーディオ信号の他のチャネルを再生する役割を担う幾つかのパイプライン動作制御を備えてもよいことを示し、以下に提示する説明は、復号器１０による出力３２における考慮対象のチャネルの再生が、他のチャネルの復号化とどのように相互作用するかを示している。

データストリーム３０によって表されている多チャネルオーディオ信号は、２つ以上のチャネルを含んでもよい。以下において、本出願の実施形態の説明は、多チャネルオーディオ信号が２つのチャネルのみを含むステレオ事例に焦点を当てるが、原則として、以下において提示する実施形態は、３つ以上のチャネルを含む多チャネルオーディオ信号及びそれらの信号の符号化に関する代替的な実施形態に容易に置き換えることができる。

以下の図１の説明から更に明らかになるように、図１の復号器１０は、変換復号器である。即ち、復号器１０の根底にある符号化技法によれば、チャネルは、チャネルの重複変換(lapped transform)を使用するなどにより、変換ドメインにおいて符号化される。更に、オーディオ信号の作成者に依存するが、オーディオ信号の複数のチャネルが大部分は同じオーディオコンテンツを表す時間相(time phases)が存在し、それらチャネルは、異なる振幅及び／又は位相のような僅かな又は決定論的な変化だけチャネル間で互いにずれており、それによってあるオーディオシーンが表現され、そのシーンの中では、チャネル間の差異により、多チャネルオーディオ信号の出力チャネルと関連付けられる仮想のスピーカ位置に対するオーディオシーンのオーディオソースの仮想的な位置付けが可能になる。しかしながら、他の時間相では、オーディオ信号の複数の異なるチャネルは、互いに対して多かれ少なかれ無相関であってもよく、更には、例えば完全に異なるオーディオソースを表現してもよい。

オーディオ信号のチャネル間の可能な時間変化する関係を考慮にいれるために、図１の復号器１０の根底にあるオーディオコーデックは、チャネル間冗長性を活用するために、時間的に変化する複数の異なる尺度の使用を可能にしている。例えば、ＭＳ符号化は、ステレオオーディオ信号の左チャネル及び右チャネルをそのまま表す表現と、左チャネルと右チャネルのダウンミックス及びその半減した差をそれぞれ表すＭ（中間）チャネルとＳ（側方）チャネルのペアとしての表現と、の間の切り替えを可能にしている。即ち、データストリーム３０によって伝送される２つのチャネルのスペクトログラムが−スペクトル時間的な意味で−連続して存在するが、これらの（伝送された）チャネルの意味は、時間的に、及び、出力チャネルに対して、それぞれ変化し得る。

もう１つのチャネル間冗長性活用ツールである複素ステレオ予測は、スペクトルドメインにおいて、別のチャネルのスペクトル的に同じ位置にある線を使用して、１つのチャネルの周波数ドメイン係数又はスペクトル線を予測することを可能にする。この予測に関する更なる詳細は以下に説明される。

図１及び図１に示すその構成要素の以下の説明の理解を容易にするために、図２は、データストリーム３０によって表されるステレオオーディオ信号の例示的な事例について、２つのチャネルのスペクトル線のサンプル値が、どのようにデータストリーム３０内へと符号化されて、図１の復号器１０によって処理されるようになるかという、可能性のある方法を示す。特に、図２の上半分において、ステレオオーディオ信号の第１チャネルのスペクトログラム４０が示されている一方で、図２の下半分は、ステレオオーディオ信号の他方のチャネルのスペクトログラム４２を示す。再度注意喚起するが、スペクトログラム４０及び４２の「意味」は、例えばＭＳ符号化されたドメインと非ＭＳ符号化されたドメインとの間の時間変化する切り替えに起因して、時間的に変化し得る。第１の事例において、スペクトログラム４０と４２とはそれぞれＭチャネルとＳチャネルとに関係するが、他方、後者の事例においては、スペクトログラム４０と４２とは、左チャネルと右チャネルとに関係する。ＭＳ符号化されたドメインと非ＭＳ符号化されたドメインとの間の切り替えは、データストリーム３０内で信号伝達されてもよい。

図２は、スペクトログラム４０及び４２が、時間変化するスペクトル時間分解能でデータストリーム３０内へと符号化されてもよいことを示す。例えば、両方の（伝送された）チャネルは、時間的に整列された状態で、フレームのシーケンスへとサブ分割されてもよく、これらフレームは、長さが等しくオーバーラップせずに隣接するような波括弧４４を使用して示されている。上述したように、スペクトログラム４０及び４２がデータストリーム３０内で表現されるスペクトル分解能は、時間的に変化してもよい。前提として、スペクトル時間分解能はスペクトログラム４０及び４２について等しく時間的に変化すると想定されるが、以下の説明から明らかになるように、この単純化を拡張することも実現可能である。スペクトル時間分解能の変化は、例えば、データストリーム３０内でフレーム４４の単位で信号伝達される。即ち、スペクトル時間分解能はフレーム４４を単位として変化する。スペクトログラム４０及び４２のスペクトル時間分解能の変化は、各フレーム４４内でスペクトログラム４０及び４２を記述するのに使用される変換長及び変換の数を切り替えることによって達成される。図２の例において、フレーム４４ａ及び４４ｂは、内部のオーディオ信号のチャネルをサンプリングするために１つの長い変換が使用されていたフレームを例示しており、その結果として、１チャネルあたりのそのようなフレームの各々について、１スペクトル線あたり１つのスペクトル線サンプル値を有する最高のスペクトル分解能がもたらされる。図２において、スペクトル線のサンプル値はボックス内の小さいｘ印を使用して示されており、それらボックスは、行及び列に配列されており、かつ各スペクトル時間格子を表しており、ここで、各行は１つのスペクトル線に対応し、各列は、スペクトログラム４０及び４２の形成に関与する最短の変換に対応するフレーム４４の部分間隔に対応している。特に、図２は、例えばフレーム４４ｄについて、フレームが代替的に、より短い長さの連続的な変換を施され得ることを示しており、その結果として、フレーム４４ｄのようなフレームについては、スペクトル分解能が低減された幾つかの時間的に連続するスペクトルがもたらされる。フレーム４４ｄについて、例示的に８つの短い変換が使用されており、その結果、８番目毎のスペクトル線だけが取り込まれるように、互いに離間したスペクトル線で、そのフレーム４２ｄ内のスペクトログラム４０及び４２のスペクトル時間サンプリングが行われるが、フレーム４４ｄを変換するのに使用された８つの変換窓又はより短い長さの変換の各々について、１つのサンプル値がもたらされる。例示を目的として、図２には、他の個数の変換も実現可能であることが示されている。例えば、フレーム４４ａ及び４４ｂの長い変換の変換長の例えば半分の変換長を持つ、２つの変換を使用することも可能であり、その結果、スペクトル時間格子又はスペクトログラム４０及び４２のサンプリングをもたらし、２番目毎のスペクトル線について、２つのスペクトル線サンプル値が得られ、その内の一方が前端の変換に関連し、他方が後端の変換に関連する。

図２の各スペクトログラムの下方には、フレームが分割されるような変換のための変換窓が、オーバーラップする窓状の線を使用して示されている。時間的なオーバーラップは、例えば、ＴＤＡＣ（時間ドメインエイリアシング消去）の目的を果たす。

以下に更に説明する実施形態は別の様式でも実施され得るが、図２が示す場合では、個々のフレーム４４について異なるスペクトル時間分解能の間での切り替えは以下の通り実行される。即ち、各フレーム４４について、図２内の小さいｘ印によって示されている同じ個数のスペクトル線値がスペクトログラム４０及び４２についてもたらされ、それらのスペクトル線が個別のフレーム４４に対応している個別のスペクトル時間タイルをスペクトル時間的にサンプリングする点においてだけ異なり、そのスペクトル時間タイルは、それぞれのフレーム４４の時間にわたって時間的に広がり、しかもゼロ周波数から最大周波数ｆ_maxまでスペクトル的に広がっている。

図２の矢印を使用して、図２がフレーム４４ｄに関連して示すことは、１つのチャネルの１つのフレーム内の同じスペクトル線に属する複数の短い変換窓のスペクトル線サンプル値を、その同じフレームの次の満たされたスペクトル線まで、そのフレーム内の満たされていない（空の）スペクトル線上へと適切に配分することによって、フレーム４４のすべてについて同様なスペクトルが取得され得るということである。その結果としてもたらされるスペクトルは、以下において「インターリーブされたスペクトル」と呼ばれる。例えば、１つのチャネルの１つのフレームの例えばｎ個の変換をインターリーブする場合、それらｎ個の短い変換のスペクトル的に同じ位置にあるスペクトル線値が互いに連続するように配列され、その後、スペクトル的に後続するスペクトル線のｎ個の短い変換のｎ個のスペクトル的に同じ位置にあるスペクトル線値のセットが連続する。インターリーブの中間形態も実現可能である。即ち、１つのフレームの全てのスペクトル線係数をインターリーブする代わりに、フレーム４４ｄの短い変換の適切なサブセットのスペクトル線係数のみをインターリーブすることも実現可能である。いずれにせよ、スペクトログラム４０及び４２に対応する２つのチャネルのフレームのスペクトルについて述べるときは常に、これらスペクトルは、インターリーブされたもの又はインターリーブされていないものを指していてもよい。

データストリーム３０を介して復号器１０に渡されるスペクトログラム４０及び４２を表すスペクトル線係数を効率的に符号化するために、スペクトル線係数は量子化される。量子化ノイズをスペクトル時間的に制御するために、あるスペクトル時間格子内で設定されるスケールファクタを介して量子化刻み幅(quantization step size)が制御される。特に、各スペクトログラムのスペクトルシーケンスの各々の中で、スペクトル線は、スペクトル的に連続しかつオーバーラップしないスケールファクタグループへとグループ化される。図３は、その上半分にスペクトログラム４０のスペクトル４６を示し、スペクトログラム４２からの時間的に同位置のスペクトル４８を示す。その中に示されているように、スペクトル４６及び４８は、スペクトル線を非オーバーラップのグループにグループ化するように、スペクトル軸ｆに沿ったスケールファクタ帯域へと分割されている。図３において、スケールファクタ帯域は、波括弧５０を使用して示されている。単純化するために、スケールファクタ帯域間の境界はスペクトル４６と４８との間で一致すると仮定されているが、これは必ずしもそうである必要はない。

即ち、データストリーム３０における符号化によって、スペクトログラム４０及び４２はそれぞれスペクトルの時間的なシーケンスへと分割され、これらスペクトルの各々はスケールファクタ帯域へとスペクトル的に分割され、各スケールファクタ帯域について、データストリーム３０は、それぞれのスケールファクタ帯域に対応するスケールファクタに関する情報を符号化又は搬送する。それぞれのスケールファクタ帯域５０内に含まれるスペクトル線係数はそれぞれのスケールファクタを使用して量子化され、又は、復号器１０が関係する限り、対応するスケールファクタ帯域のスケールファクタを使用して逆量子化されてもよい。

再び図１及びその説明に戻る前に、以下において、特異的に取り扱われるチャネル、即ち、その符号化に図１の復号器の３４を除く特異な構成要素が関与しているチャネルは、既に上述したように、データストリーム３０内に符号化されている多チャネルオーディオ信号がステレオオーディオ信号であると仮定した場合、左チャネル及び右チャネルの一方、Ｍチャネル又はＳチャネルを表し得る、スペクトログラム４０の伝送チャネルであると想定されるものとする。

スペクトル線抽出部２０が、データストリーム３０から、フレーム４４についてのスペクトル線データ、即ちスペクトル線係数を抽出するよう構成されている一方で、スケールファクタ抽出部２２は、各フレーム４４について、対応するスケールファクタを抽出するよう構成されている。この目的のために、抽出部２０及び２２は、エントロピー復号化を使用してもよい。一実施形態によれば、スケールファクタ抽出部２２は、コンテキスト適応型エントロピー復号化を使用して、データストリーム３０から、例えば図３のスペクトル４６のスケールファクタ、即ちスケールファクタ帯域５０のスケールファクタを、順序的に抽出するよう構成されている。順序的復号化の順序は、例えば、低周波数から高周波数へと連なる、スケールファクタ帯域の間で規定されるスペクトル順に従ってもよい。スケールファクタ抽出部２２は、コンテキスト適応型エントロピー復号化を使用することができ、直前のスケールファクタ帯域のスケールファクタに依存するなど、現在抽出されているスケールファクタのスペクトル的に近隣にある既に抽出されたスケールファクタに依存して、各スケールファクタのコンテキストを決定してもよい。代替的に、スケールファクタ抽出部２２は、例えば、直前のスケールファクタのような以前に復号化されたスケールファクタのいずれかに基づいて、現在復号化されつつあるスケールファクタを予測しながら差分復号化を使用するなどして、データストリーム３０からスケールファクタを予測的に復号化してもよい。特に、このスケールファクタ抽出処理は、スケールファクタに関して、ゼロ量子化されたスペクトル線によって排他的に取り込まれたスケールファクタ帯域に属するか、又は、その中の少なくとも１つが非ゼロ値に量子化されているスペクトル線によって取り込まれたスケールファクタ帯域に属するかを関知していない。ゼロ量子化されたスペクトル線のみによって取り込まれたスケールファクタ帯域に属するスケールファクタは、その中の１つが非ゼロであるスペクトル線によって取り込まれたスケールファクタ帯域に属する可能性がある後続の復号化されるスケールファクタの予測の根拠としての役割を果たしてもよく、その中の１つが非ゼロであるスペクトル線によって取り込まれたスケールファクタ帯域に属する可能性がある以前に復号化されたスケールファクタに基づいて予測されてもよい。

完全性を求める意味だけあるが、スペクトル線抽出部２０は、例えばエントロピー符号化及び／又は予測符号化を使用して、スケールファクタ帯域５０が同様に取り込まれている、スペクトル線係数を抽出することに留意すべきである。エントロピー符号化は、現在復号化されているスペクトル線係数のスペクトル時間的に近隣のスペクトル線係数に基づくコンテキスト適応性を使用してもよく、同様に、その予測は、スペクトル時間的に近隣の以前に復号化されたスペクトル線係数に基づいて、現在復号化されているスペクトル線係数を予測するような、スペクトル的予測、時間的予測又はスペクトル時間的予測であってもよい。符号化効率を増大させるために、スペクトル線抽出部２０は、周波数軸に沿ってスペクトル線を集合し又はグループ化するタプルにおいて、スペクトル線又は線係数の復号化を実施するよう構成されてもよい。

従って、スペクトル線抽出部２０の出力において、スペクトル線係数が、例えば対応するフレームのスペクトル線係数のすべてを集合する、又は代替的に、対応するフレームのある短い変換のスペクトル線係数のすべてを集合するスペクトル４６のような、スペクトルの単位等で提供される。次いで、スケールファクタ抽出部２２の出力において、それぞれのスペクトルの対応するスケールファクタが出力される。

スケールファクタ帯域識別部１２及び逆量子化部１４は、スペクトル線抽出部２０の出力に連結されているスペクトル線入力を有し、逆量子化部１４及びノイズ充填部１６は、スケールファクタ抽出部２２の出力に連結されているスケールファクタ入力を有する。スケールファクタ帯域識別部１２は、現スペクトル４６内のいわゆるゼロ量子化されたスケールファクタ帯域、即ち図３のスケールファクタ帯域５０ｃのようにその中の全てのスペクトル線がゼロに量子化されているスケールファクタ帯域と、スペクトルの中の少なくとも１つのスペクトル線が非ゼロに量子化されている残りのスケールファクタ帯域と、を識別するよう構成されている。特に図３において、スペクトル線係数は、図３内でハッチングされた領域を使用して示されている。その領域から、スペクトル４６において、スケールファクタ帯域５０ｂを除く全てのスケールファクタ帯域が、そのスペクトル線係数が非ゼロ値に量子化されている少なくとも１つのスペクトル線を有することが見てとれる。後段で、５０ｄのようなゼロ量子化されたスケールファクタ帯域が、チャネル間ノイズ充填の対象を形成することが明らかになり、それについては後段で更に説明する。説明を進める前に、スケールファクタ帯域識別部１２がその識別を、ある開始周波数５２を上回るスケールファクタ帯域に制限するなど、スケールファクタ帯域５０の適切なサブセットのみに制限してもよいことに留意すべきである。図３では、スケールファクタ帯域識別部１２は、識別手順をスケールファクタ帯域５０ｄ、５０ｅ及び５０ｆに制限している。

スケールファクタ帯域識別部１２は、ゼロ量子化されたスケールファクタ帯域であるスケールファクタ帯域について、ノイズ充填部１６に通知する。逆量子化部１４は、入来するスペクトル４６と関連するスケールファクタを使用し、関連するスケールファクタ、即ちスケールファクタ帯域５０と関連するスケールファクタに従って、スペクトル４６のスペクトル線のスペクトル線係数を逆量子化又はスケーリングする。特に、逆量子化部１４は、それぞれのスケールファクタ帯域と関連するスケールファクタを用いて、それぞれのスケールファクタ帯域内に含まれるスペクトル線係数を逆量子化及びスケーリングする。図３は、スペクトル線の逆量子化の結果を示しているものとして解釈されるべきである。

ノイズ充填部１６は、後続するノイズ充填の対象を形成するゼロ量子化されたスケールファクタ帯域と、逆量子化済みスペクトルと、ゼロ量子化されたスケールファクタ帯域として識別される少なくともそれらスケールファクタ帯域のスケールファクタと、に関する情報、及びチャネル間ノイズ充填が現フレームについて実施されるべきであるか否かを明らかにする、現フレームについてのデータストリーム３０から得られる信号伝達を得る。

以下の実例において説明するチャネル間ノイズ充填処理は、実際には２つのタイプのノイズ充填、即ち、任意のゼロ量子化されたスケールファクタ帯域に対するそれらの潜在的な帰属性とは無関係にゼロに量子化されてきた全てのスペクトル線に関係するノイズフロア５４の挿入、及び、実際のチャネル間ノイズ充填手順を含む。この組み合わせについては以下に説明するが、代替的な一実施形態によれば、ノイズフロア挿入は省略されてもよいことは強調されるべきである。更に、現フレームに関係しかつデータストリーム３０から得られる、ノイズ充填スイッチオン及びスイッチオフに関する信号伝達は、チャネル間ノイズ充填のみに関連し得るか、又は、両種類のノイズ充填の組み合わせを共に制御し得る。

ノイズフロア挿入が関連する限り、ノイズ充填部１６は以下のように動作し得る。特に、ノイズ充填部１６は、スペクトル線係数がゼロであったスペクトル線を充填するために、擬似乱数生成器又は他の何らかのランダム性のソースのような人工ノイズ生成を利用することができる。こうしてゼロ量子化されたスペクトル線に挿入されるノイズフロア５４のレベルは、現フレーム又は現スペクトル４６についてのデータストリーム３０内の明示的な信号伝達に従って設定され得る。ノイズフロア５４の「レベル」は、例えば、二乗平均平方根（ＲＭＳ）又はエネルギー尺度を使用して決定され得る。

従って、ノイズフロア挿入は、図３のスケールファクタ帯域５０ｄのようなゼロ量子化されたスケールファクタ帯域として識別されているスケールファクタ帯域に対する、ある種の予備充填（pre-filling）を表す。ノイズフロア挿入はまた、ゼロ量子化されたスケールファクタ帯域を超えて他のスケールファクタ帯域にも影響を与えるが、ゼロ量子化されたスケールファクタ帯域はさらに、以下のチャネル間ノイズ充填を受ける。以下に説明するように、チャネル間ノイズ充填処理は、ゼロ量子化されたスケールファクタ帯域を、それぞれのゼロ量子化されたスケールファクタ帯域のスケールファクタを介して制御されるレベルにまで充填することである。そのスケールファクタは、それぞれのゼロ量子化されたスケールファクタ帯域の全てのスペクトル線がゼロに量子化されていることに起因して、この充填の目的のために直接的に使用され得る。しかしながら、データストリーム３０は、各フレーム又は各スペクトル４６のために、あるパラメータの追加的な信号伝達を含んでいてもよく、そのパラメータは、対応するフレーム又はスペクトル４６の全てのゼロ量子化されたスケールファクタ帯域のスケールファクタに共通して適用され、その結果、ゼロ量子化されたスケールファクタ帯域のスケールファクタに対してノイズ充填部１６によって適用されたときに、ゼロ量子化されたスケールファクタ帯域について個別である個々の充填レベルをもたらす。即ち、ノイズ充填部１６は、同じ修正機能を使用して、スペクトル４６の各ゼロ量子化されたスケールファクタ帯域について、個々のスケールファクタ帯域のスケールファクタを修正してもよく、その際、データストリーム３０に含まれた、現フレームのそのスペクトル４６のための上述のパラメータを使用してもよい。それにより、それぞれのゼロ量子化されたスケールファクタ帯域についての充填目標レベルが取得され、そのレベルは、エネルギー又はＲＭＳに関し、例えば、チャネル間ノイズ充填処理が個々のゼロ量子化されたスケールファクタ帯域を（ノイズフロア５４に加えて）（任意選択的な）追加のノイズを用いてどの程度まで充填すべきか、というレベルを示す尺度となる。

特に、チャネル間ノイズ充填５６を実施するために、ノイズ充填部１６は、既に殆ど又は完全に復号化された状態にある、他のチャネルのスペクトル４８のスペクトル的に同じ位置にある部分を取得し、スペクトル４８のその取得さられた部分を、この部分とスペクトル的に同じ位置にあるゼロ量子化されたスケールファクタ帯域へとコピーする。コピーに際して−それぞれのスケールファクタ帯域のスペクトル線にわたる積分によって導出される−そのゼロ量子化されたスケールファクタ帯域内の結果的な全体ノイズレベルが、ゼロ量子化されたスケールファクタ帯域のスケールファクタから得られた上述の充填目標レベルと等しくなるようにスケーリングされる。このような手段によって、個々のゼロ量子化されたスケールファクタ帯域内に充填されるノイズの調性は、ノイズフロア５４の基礎を形成するノイズのような人工的に生成されたノイズと比較して改善され、また、同じスペクトル４６内の非常に低い周波数ラインからの未制御のスペクトル・コピー／複製よりも良好である。

更に正確には、ノイズ充填部１６は、５０ｄのような現帯域のために、他のチャネルのスペクトル４８内のスペクトル的に同じ位置にある部分を配置し、ゼロ量子化されたスケールファクタ帯域５０ｄのスケールファクタに依存して、そのスペクトル線を次のような手法でスケールする。その手法は、任意ではあるが、現フレーム又はスペクトル４６についてデータストリーム３０内に含まれる何らかの追加的なオフセット又はノイズファクタパラメータを含んでもよく、その結果、ゼロ量子化されたスケールファクタ帯域５０ｄのスケールファクタによって規定されるような所望のレベルまで、それぞれのゼロ量子化されたスケールファクタ帯域５０ｄが充填されるようになる。本発明の実施形態において、これは、充填がノイズフロア５４に対して付加的に行われることを意味する。

簡略化された一実施形態によれば、結果として得られるノイズ充填済みスペクトル４６は、逆変換部１８の入力に直接的に入力されてもよく、それにより、スペクトル４６のスペクトル線係数が属する各変換窓について、それぞれのチャネルオーディオ時間信号の時間ドメイン部分を取得し、その後、これらの時間ドメイン部分を（図１には図示していないが）オーバーラップ加算処理により結合してもよい。即ち、スペクトル４６がインターリーブされていないスペクトルであり、そのスペクトル線係数が１つの変換にのみ属する場合には、逆変換部１８は、その変換に対し１つの時間ドメイン部分をもたらすような逆変換を施し、時間ドメイン部分の前端及び後端は、例えば時間ドメインエイリアシング消去が実現できるように、先行及び後続の変換を逆変換することによって得られた先行する時間ドメイン部分及び後続する時間ドメイン部分とのオーバーラップ加算処理を受けるであろう。しかし、スペクトル４６がその中に２つ以上の連続する変換のスペクトル線係数をインターリーブしていた場合には、逆変換部１８は、それらに別々の逆変換を施し、各逆変換あたり１つの時間ドメイン部分を取得するであろう。そして、これらの時間ドメイン部分は、それらの間で定義された時間的順序に従って、それらの間で、他のスペクトル又はフレームの先行する時間ドメイン部分及び後続する時間ドメイン部分に対して、オーバーラップ加算処理を受けるであろう。

しかしながら、完全性を求めるために、ノイズ充填済みスペクトルに対して更なる処理が実施されてもよいことに注意すべきである。図１に示すように、逆ＴＮＳフィルタは、ノイズ充填済みスペクトルに対して逆ＴＮＳフィルタリングを実施してもよい。即ち、現フレーム又はスペクトル４６についてＴＮＳフィルタ係数を介して制御されて、それまでに取得されたスペクトルは、スペクトル方向に沿った線形フィルタリングを受ける。

逆ＴＮＳフィルタリングの有無にかかわらず、次に、複素ステレオ予測部２４は、そのスペクトルを、チャネル間予測の予測残余として処理し得る。より具体的には、チャネル間予測部２４は、他のチャネルのスペクトル的に同じ位置にある部分を使用して、スペクトル４６又は少なくともそのスケールファクタ帯域５０のサブセットを予測し得る。複素予測処理は、図３において、スケールファクタ帯域５０ｂに関連して破線のボックス５８によって示されている。即ち、データストリーム３０は、例えば、スケールファクタ帯域５０のどの帯域がチャネル間予測されるべきか、及び、どの帯域がそのように予測されるべきでないかを制御する、チャネル間予測パラメータを含んでもよい。更に、データストリーム３０中のチャネル間予測パラメータは、チャネル間予測結果を得るために、チャネル間予測部２４により適用された複素チャネル間予測ファクタを更に含んでもよい。これらのファクタは、チャネル間予測が活性化されるか、又は活性化されるべくデータストリーム３０内で信号伝達される、各スケールファクタ帯域について個別に、又は代替的に１つ以上のスケールファクタ帯域の各グループについて個別に、データストリーム３０内に含まれてもよい。

チャネル間予測のソースは、図３に示すように、他のチャネルのスペクトル４８であってもよい。より正確には、チャネル間予測のソースは、スペクトル４８のスペクトル的に同じ位置にある部分であって、チャネル間予測されるべきスケールファクタ帯域５０ｂと同じ位置にあり、その虚数部の推定によって拡張されたものであってもよい。虚数部の推定は、スペクトル４８自体のスペクトル的に同じ位置にある部分６０に基づいて実施されてもよく、及び／又は、前フレーム、即ち、スペクトル４６が属する現在復号化されつつあるフレームの直前のフレームの既に復号化されたチャネルのダウンミックスを使用してもよい。要するに、チャネル間予測部２４は、図３におけるスケールファクタ帯域５０ｂのようなチャネル間予測されるべきスケールファクタ帯域に対し、上述したようにして得られた予測信号を加える。

これまでの説明において既に述べたように、スペクトル４６が属するチャネルは、ＭＳ符号化されたチャネルであってもよく、又は、ステレオオーディオ信号の左又は右チャネルのようなスピーカ関連チャネルであってもよい。従って、任意ではあるが、ＭＳ復号部２６は、任意選択的にチャネル間予測されたスペクトル４６に対してＭＳ復号化を施し、そのＭＳ復号化が、スペクトル線又はスペクトル４６ごとに、スペクトル４８に対応する他のチャネルのスペクトル的に対応するスペクトル線との加算又は減算を実行してもよい。例えば、図１には示されていないが、図３に示すスペクトル４８は、復号器１０の部分３４によって、スペクトル４６が属するチャネルに関して上述した方法と同様にして取得されたものであり、ＭＳ復号化モジュール２６は、ＭＳ復号化を実行する中で、スペクトル４６及び４８に対してスペクトル線ごとの加算又はスペクトル線ごとの減算を施し、ここで、両方のスペクトル４６及び４８は処理ラインの同じ段階にあり、これは、両方のスペクトルが例えばチャネル間予測によって正に取得されたものであるか、又は、両方のスペクトルがノイズ充填又は逆ＴＮＳフィルタリングによって正に取得されたものであることを意味する。

任意ではあるが、ＭＳ復号化は、スペクトル４６全体に関係するようにグローバルに、又は、例えばスケールファクタ帯域５０の単位でデータストリーム３０によって個別に活性化され得るように、実施されてもよいことに注意すべきである。換言すれば、ＭＳ復号化は、例えばフレームの単位で、又は、例えばスペクトログラム４０及び／又は４２のスペクトル４６及び／又は４８のスケールファクタ帯域毎に個別となるような何らかのより細かいスペクトル時間分解能の単位で、データストリーム３０中のそれぞれの信号伝達を使用してオン又はオフに切り替えられてもよい。ここで、両方のチャネルのスケールファクタ帯域の同一の境界が規定されると想定されている。

図１に示すように、逆ＴＮＳフィルタ２８による逆ＴＮＳフィルタリングはまた、チャネル間予測５８のような任意のチャネル間処理又はＭＳ復号部２６によるＭＳ復号化の後に実施され得る。チャネル間処理の前又は後における実施は、固定であるか、又は、データストリーム３０中の各フレームについて若しくは何らかの他のレベルの粒度において、それぞれの信号伝達を介して制御され得る。逆ＴＮＳフィルタリングが実施される場合は常に、現スペクトル４６のためのデータストリーム中に存在する個々のＴＮＳフィルタ係数が、ＴＮＳフィルタ、即ちスペクトル方向に沿って作動する線形予測フィルタを、それぞれの逆ＴＮＳフィルタモジュール２８ａ及び／又は２８ｂ内へと入来するスペクトルを線形フィルタリングするように制御する。

従って、逆変換部１８の入力に到来するスペクトル４６には、上述したような更なる処理が施されている場合がある。ここでも、上記の説明は、これらの任意選択のツールのすべてが同時に又は同時でなく存在すべきであると理解されるよう意図していない。これらのツールは、部分的に又は集合的に復号器１０内に存在していてもよい。

いずれにせよ、逆変換部の入力に結果としてもたらされるスペクトルは、チャネルの出力信号の最終的な再生を表し、現フレームの前述したダウンミックスの基礎を形成するものであり、その現フレームは、複素予測５８に関連して説明したように、復号化されるべき次のフレームの潜在的な虚数部推定の基礎としての役割を果たす。このスペクトルは更に、図１に示す３４を除く構成要素が関係するチャネルではなく、別のチャネルをチャネル間予測するための最終的な再生としての役割を果たすこともできる。

それぞれのダウンミックスは、ダウンミックス提供部３１によって、この最終的なスペクトル４６を、スペクトル４８のそれぞれの最終バージョンと結合することによって形成される。後者のエンティティ、即ちスペクトル４８のそれぞれの最終バージョンは、予測部２４の中で、複素チャネル間予測の基礎を形成したものである。

図４は、チャネル間ノイズ充填の基礎が前フレームのスペクトル的に同じ位置にあるスペクトル線のダウンミックスによって表現される、という点で図１に対する代替例を示すが、複素チャネル間予測を使用する任意選択の事例において、この複素チャネル間予測のソースは、チャネル間ノイズ充填のソースとして、及び、複素チャネル間予測における虚数部推定のソースとして、２回使用される。図４は、スペクトル４６が属する第１チャネルの復号化に関係する部分７０と、スペクトル４８を含む他のチャネルの復号化に関与する前述した他の部分３４の内部構造と、を含む復号器１０を示す。一方の部分７０及び他方の３４の内部の構成要素には、同じ参照符号が使用されている。図から分かるように、構造は同じである。出力３２において、ステレオオーディオ信号の一方のチャネルが出力され、第２復号器部分３４の逆変換部１８の出力において、ステレオオーディオ信号の他方の（出力）チャネルがもたらされ、この出力は、参照符号７４よって示されている。ここでも、上述した実施形態は、３つ以上のチャネルを使用する事例に容易に置き換えることができる。

ダウンミックス提供部３１は、両方の部分７０及び３４によって共同使用され、スペクトログラム４０及び４２の時間的に同じ位置にあるスペクトル４８及び４６を受信して、スペクトル線ごとにこれらのスペクトルを合計することによってそれらに基づくダウンミックスを形成し、さらに、場合によっては、各スペクトル線における合計を、ダウンミックスされるチャネルの数、即ち、図４の事例においては２で除算することによって、合計から平均を形成することを伴う。ダウンミックス提供部３１の出力において、この手段によって前フレームのダウンミックスがもたらされる。これに関連して、前フレームがスペクトログラム４０及び４２のいずれか一方に２つ以上のスペクトルを含む場合、ダウンミックス提供部３１がその事例においてどのように動作するかについて複数の異なる可能性が存在することに留意すべきである。例えば、その事例において、ダウンミックス提供部３１は、現フレームの後端部変換のスペクトルを使用してもよいし、スペクトログラム４０及び４２の現フレームの全てのスペクトル線係数をインターリーブしたインターリーブ結果を使用してもよい。ダウンミックス提供部３１の出力に接続されているものとして図４に示された遅延要素７４は、ダウンミックス提供部３１の出力において提供されたダウンミックスが、前フレーム７６のダウンミックスを形成することを示している（チャネル間ノイズ充填５６及び複素予測５８に関しては、それぞれ図３を参照されたい）。従って、遅延要素７４の出力は、一方では復号器部分３４及び７０のチャネル間予測部２４の入力に接続されており、他方では復号器部分７０及び３４のノイズ充填部１６の入力に接続されている。

即ち、図１においては、ノイズ充填部１６が、チャネル間ノイズ充填の基礎として、同じ現フレームの他のチャネルの最終的に再生された時間的に同じ位置にあるスペクトル４８を受信する一方、図４においては、代わりに、ダウンミックス提供部３１によって提供される前フレームのダウンミックスに基づいて、チャネル間ノイズ充填が実施される。チャネル間ノイズ充填が実施される方法は同じである。即ち、チャネル間ノイズ充填部１６は、図１においては、現フレームの他のチャネルのそれぞれのスペクトルからスペクトル的に同じ位置にある部分を取り込み、図４の事例においては、前フレームのダウンミックスを表現している、前フレームから取得された殆ど又は完全に復号化された最終的なスペクトルを取り込むものであり、更に、図３の５０ｄのようなノイズ充填されるべきスケールファクタ帯域内のスペクトル線に対し、それぞれのスケールファクタ帯域のスケールファクタによって決定された目標ノイズレベルに従ってスケーリングされた、同じ「ソース」部分を加える。

オーディ復号器におけるチャネル間ノイズ充填を説明する実施形態の上述した論説の結論として、「ソース」スペクトルの取り込まれたスペクトル的又は時間的に同じ位置にある部分を「目標」スケールファクタ帯域のスペクトル線へと加える前に、チャネル間充填の一般概念から逸脱することなく、「ソース」スペクトル線に対してある前処理が適用されもよいことは、当該技術分野における読者には自明のはずである。特に、チャネル間ノイズ充填処理のオーディオ品質を改善するために、例えばスペクトル平坦化又は傾き除去のようなフィルタリング操作を、図３の５０ｄのような「目標」スケールファクタ帯域に加えられるべき「ソース」領域のスペクトル線に適用することが有益であるかもしれない。同様に、ほとんど（完全にではなく）復号化されたスペクトルの一例として、前述した「ソース」部分は、利用可能な逆（即ち、合成）ＴＮＳフィルタによってまだフィルタリングされていないスペクトルから取得されてもよい。

上記の実施形態は、チャネル間ノイズ充填の概念に関係していた。以下においては、チャネル間ノイズ充填の上記概念を、既存のコーデック、即ちｘＨＥ−ＡＡＣに準後方互換(semi-backward compatible)的に如何にして組み込めるかの可能性を説明する。特に、以下において、上記の実施形態の好ましい一構成を説明するが、この構成に従えば、ステレオ充填ツールが、ｘＨＥ−ＡＡＣベースのオーディオコーデックに準後方互換的な信号伝達様式で組み込まれる。以下に更に説明される構成を使用することによって、ＭＰＥＧ−ＤｘＨＥ−ＡＡＣ（ＵＳＡＣ）に基づくオーディオコーデックにおいて、あるステレオ信号について、２つのチャネルのいずれか一方への変換係数のステレオ充填が実現可能であり、それによって、特に低ビットレートにおけるオーディオ信号の符号化品質を改善できる。レガシーｘＨＥ−ＡＡＣ復号器が明らかなオーディオエラー又は脱落なしにビットストリームを解析及び復号化できるように、ステレオ充填ツールは準後方互換的に信号伝達される。既に上述したように、オーディオ符号器が、現在復号化されつつあるチャネルのいずれか１つのゼロ量子化された（伝送されない）係数を再生するために、２つのステレオチャネルの以前に復号化／量子化された係数の結合を使用できる場合に、より良好な全体的品質を得ることができる。それゆえ、オーディオ符号器、特にｘＨＥ−ＡＡＣ又はそれに基づく符号器において、（低周波数チャネル係数から高周波数チャネル係数への）スペクトル帯域複製と、（無相関擬似ランダムソースからの）ノイズ充填とに加えて、（以前のチャネル係数から現在のチャネル係数への）そのようなステレオ充填を可能にすることが望ましい。

ステレオ充填を用いた符号化済みビットストリームがレガシーｘＨＥ−ＡＡＣ復号器によって読み出され解析されることを可能にするために、所望のステレオ充填ツールは、準後方互換的に使用されるべきである。即ち、その存在が、レガシー復号器による復号化の停止を−又は開始さえ−引き起こしはならない。ｘＨＥ−ＡＡＣ設備によるビットストリームの可読性によって、市場における採用を促進させることもできる。

ｘＨＥ−ＡＡＣ又はその潜在的な派生物の文脈において前述した、ステレオ充填ツールに関する準後方互換性についての要望を達成するために、以下の構成は、ステレオ充填の機能と、ノイズ充填に実際に関連するデータストリーム内のシンタックスを介してそのステレオ充填の機能を信号伝達する能力とを含む。ステレオ充填ツールは、上記の説明と整合して機能する。共通の窓構成を有するチャネルペアにおいて、ステレオ充填ツールがノイズ充填に対する代替形態として（又は、上述したようにノイズ充填に加えて）活性化された場合、ゼロ量子化されたスケールファクタ帯域の係数は、２つのチャネルのうちのいずれか一方、好ましくは右チャネル中の、前フレームの係数の和又は差によって再生される。ステレオ充填はノイズ充填と同様に実施される。信号伝達は、ｘＨＥ−ＡＡＣのノイズ充填信号伝達を介して行われるであろう。ステレオ充填は、８ビットのノイズ充填サイド情報によって搬送される。ＭＰＥＧ−ＤＵＳＡＣ規格（非特許文献４）に記載のように、適用されるべきノイズレベルがたとえゼロであったとしても、８ビットすべてが伝送されるので、この搬送は実現可能である。そのような状況において、ノイズ充填ビットの幾つかは、ステレオ充填ツールのために再使用することができる。

レガシーｘＨＥ−ＡＡＣ復号器によるビットストリーム解析及び再生に関する準後方互換性は、以下のように保証される。ステレオ充填は、ゼロのノイズレベル（即ち、すべてゼロの値を有する最初の３つのノイズ充填ビット）と、それに続く、ステレオ充填ツールのサイド情報及び損失ノイズレベルを含む５つの非ゼロのビット（伝統的にノイズオフセットを表す）と、を介して信号伝達される。３ビットのノイズレベルがゼロであれば、レガシーｘＨＥ−ＡＡＣ復号器は５ビットのノイズオフセットの値を無視するため、ステレオ充填ツールの信号伝達の存在は、レガシー復号器におけるノイズ充填に対して影響を及ぼすのみである。即ち、最初の３ビットがゼロであるためノイズ充填はオフにされ、残りの復号化操作は意図された通りに作動する。特に、ステレオ充填は、不活性化されているノイズ充填処理と同様に操作されるという事実に起因して、実施されない。従って、レガシー復号器は依然として、強化されたビットストリーム３０の「上品な」復号化を行う。なぜなら、ステレオ充填がオンになっているフレームに到達したとき、レガシー復号器は出力信号をミュートする必要がなく、又は更には復号化を中断する必要もないからである。しかしながら、当然のこととして、ステレオ充填された線係数を意図通りに正確に再生することは不可能であり、その結果、新規のステレオ充填ツールに対して適切に対処できる適切な復号器による復号化と比較すると、影響を受けたフレームにおける品質の劣化を招く。しかしながら、ステレオ充填ツールが意図通りに使用される、即ち、低ビットレートでのステレオ入力に対してのみ使用されると仮定すると、ｘＨＥ−ＡＡＣ復号器による品質は、影響を受けたフレームが、ミューティングに起因して脱落するか、又は他の明白な再生エラーをもたらす場合と比較して、良好となるはずである。

以下においては、拡張として、ステレオ充填ツールをｘＨＥ−ＡＡＣコーデックにどのように組み込むことができるかについて、詳細に説明する。

標準に組み込まれる場合、ステレオ充填ツールは、以下のように説明することができる。特に、そのようなステレオ充填（ＳＦ）ツールは、ＭＰＥＧ−Ｈ３Ｄオーディオの周波数ドメイン（ＦＤ）部分における新たなツールを表すことになるであろう。上記の説明に倣って、そのようなステレオ充填ツールの目的は、[非特許文献４]に記載されている標準のセクション７．２に従うノイズ充填によって既に達成できるものと同様に、低ビットレートでのＭＤＣＴスペクトル係数のパラメトリック再生であろう。しかしながら、任意のＦＤチャネルのＭＤＣＴスペクトル値の生成に擬似ランダムノイズソースを利用するノイズ充填とは異なり、ＳＦは、前フレームの左及び右のＭＤＣＴスペクトルのダウンミックスを使用して、チャネルのジョイント符号化されたステレオペアの右チャネルのＭＤＣＴ値を再生するためにも利用可能であろう。ＳＦは、以下に記載する構成によれば、レガシーＭＰＥＧ−ＤＵＳＡＣ復号器によって正確に解析することができるノイズ充填サイド情報によって、準後方互換的に信号伝達される。

このツールの説明は、以下の通りであり得る。ＳＦがジョイントステレオＦＤフレームにおいて活性化しているとき、５０ｄのような、右（第２）チャネルの空の（即ち完全にゼロ量子化された）スケールファクタ帯域のＭＤＣＴ係数が、前フレーム（ＦＤの場合）の対応する復号化済み左及び右チャネルのＭＤＣＴ係数の和又は差に置き換えられる。レガシーノイズ充填が第２チャネルに対して活性化している場合、擬似ランダム値も各係数に加えられる。結果として得られる各スケールファクタ帯域の係数は、その後、各帯域のＲＭＳ（係数の二乗平均平方根）がその帯域のスケールファクタによって伝送された値と一致するように、スケーリングされる。[非特許文献４]における標準のセクション７．３を参照されたい。

ＭＰＥＧ−ＤＵＳＡＣ標準において新たなＳＦツールを使用するには、幾つかの操作上の制約がもたらされ得る。例えば、ＳＦツールは、共通のＦＤチャネルペア、即ち、common_window == 1を用いてStereoCoreToolInfo( )を伝送するチャネルペア要素の、右ＦＤチャネルにおける使用のためだけに利用可能であってもよい。加えて、準後方互換的な信号伝達に起因して、ＳＦツールは、シンタックスコンテナUsacCoreConfig( )内でnoiseFilling == 1である場合だけの使用のために利用可能であってもよい。そのペアにおけるチャネルのいずれかがLPD core_modeにある場合には、たとえ右チャネルがＦＤモードにある場合であっても、ＳＦツールは使用されなくてもよい。

[非特許文献４]に記載されている標準の拡張をより明瞭に説明するために、以下の用語及び定義が使用される。

特に、データ要素に関する限り、以下のデータ要素が新たに導入される。
stereo_filling 現フレーム及びチャネルにおいてＳＦが利用されるか否かを示す２値フラグ

更に、新たな補助要素が導入される。
noise_offset ゼロ量子化された帯域のスケールファクタを修正するためのノイズ充填オフセット（セクション７．２）
noise_level 追加されるスペクトルノイズの振幅を表すノイズ充填レベル（セクション７．２）
downmix_prev[ ] 前フレームの左及び右チャネルのダウンミックス（即ち、和又は差）
sf_index[g][sfb] 窓グループｇ及び帯域ｓｆｂのためのスケールファクタインデックス（即ち、伝送される整数）

この標準の復号化処理は以下のように拡張され得る。特に、ＳＦツールが活性化されている状態でのジョイントステレオ符号化済みＦＤチャネルの復号化は、以下の様な３つの順序的ステップにおいて実行される。

まず、stereo_fillingフラグの復号化が行われ得る。

stereo_fillingは独立したビットストリーム要素を表すのではなく、UsacChannelPairElement()内のノイズ充填要素、noise_offset及びnoise_levelと、StereoCoreToolInfo()中のcommon_windowフラグとから導出される。noiseFilling == 0、common_window == 0、又は現チャネルがその要素中の左（第１）チャネルである場合、stereo_fillingは０であり、ステレオ充填処理は終了する。

言い換えれば、noise_level == 0である場合、noise_offsetは、stereo_fillingフラグ、及び、それに続く４ビットのノイズ充填データを含み、これらのデータはその後、再配列される。この動作はnoise_level及びnoise_offsetの値を変更するため、セクション７．２のノイズ充填処理の前に実施される必要がある。更に、上記の疑似コードは、UsacChannelPairElement( )又は任意の他の要素の左（第１）チャネルでは実行されない。

次に、downmix_prevの計算が行われるであろう。

ステレオ充填に使用されるべきスペクトルダウンミックスであるdownmix_prev[ ]は、複素ステレオ予測におけるＭＤＳＴスペクトル推定（セクション７．７．２．３）に使用されるdmx_re_prev[ ]と同一である。これは、以下のことを意味する。
・ダウンミックスが実施されるフレーム及び要素、即ち、現在復号化されているフレームの前のフレームのチャネルのいずれかがcore_mode == 1 (LPD)を使用する場合、又は、当該チャネルが不均一な変換長（split_transform == 1若しくは唯一のチャネルにおけるwindow_sequence == EIGHT_SHORT_SEQUENCEへのブロック切り替え）若しくはusacIndependencyFlag == 1を使用する場合、downmix_prev[ ]の全ての係数はゼロでなければならない。
・現在の要素においてチャネルの変換長が最後のフレームから現フレームまでに変化していた場合（即ち、split_transform == 0の前にsplit_transform == 1があるか、又はwindow_sequence != EIGHT_SHORT_SEQUENCEの前にwindow_sequence == EIGHT_SHORT_SEQUENCEがあるか、又はそれぞれその逆）、downmix_prev[ ]の全ての係数は、ステレオ充填処理の間中、ゼロでなければならない。
・前フレーム又は現フレームのチャネルにおいて変換分割（transform splitting）が適用される場合、downmix_prev[ ]は線ごとにインターリーブされたスペクトルダウンミックスを表す。詳細については変換分割ツールを参照されたい。
・複素ステレオ予測が現フレーム及び要素において利用されない場合、pred_dirは０に等しい。

結果として、前ダウンミックスは、両方のツールについて一度だけ計算されればよく、演算量が節約される。セクション７．７．２におけるdownmix_prev[ ]とdmx_re_prev[ ]との唯一の差は、複素ステレオ予測が現在使用されていないとき、又は、複素ステレオ予測が活性化しているがuse_prev_frame == 0であるときの挙動である。その場合、たとえdmx_re_prev[ ]が複素ステレオ予測復号化に必要とされておらず、それゆえ、未定義／ゼロであったとしても、セクション７．７．２．３に従ってステレオ充填復号化のためにdownmix_prev[ ]が計算される。

その後、空のスケールファクタ帯域のステレオ充填が実施されるであろう。

stereo_filling == 1である場合、max_sfb_steを下回る、初期的には空であった全てのスケールファクタ帯域sfb[ ]、即ち、全てのＭＤＣＴ線がゼロに量子化されていた全ての帯域におけるノイズ充填処理の後、以下の手順が実行される。最初に、この所与のsfb[ ]及びdownmix_prev[ ]内の対応する線のエネルギーが、線の二乗の和によって計算される。その後、sfb[ ]あたり上記の数の線を含む所与のsfbWidthは、各グループ窓のスペクトルについて、次の通りである。

if (energy[sfb] < sfbWidth[sfb]) { /* ノイズレベルが最大でない、又は、帯域がノイズ充填領域の下で始まる */
facDmx = sqrt((sfbWidth[sfb] - energy[sfb]) / energy_dmx[sfb]);
factor = 0.0;
/* 前ダウンミックスが空でない場合、帯域が単位エネルギーに達するように、スケーリング済みダウンミックス線を加える */
for (index = swb_offset[sfb]; index < swb_offset[sfb+1]; index++) {
spectrum[window][index] += downmix_prev[window][index] * facDmx;
factor += spectrum[window][index] * spectrum[window][index];
}
if ((factor != sfbWidth[sfb]) && (factor > 0)) { /*単位エネルギーに達していないため、帯域を修正する */
factor = sqrt(sfbWidth[sfb] / (factor + 1e-8));
for (index = swb_offset[sfb]; index < swb_offset[sfb+1]; index++) {
spectrum[window][index] *= factor;
}
}
}

その後、セクション７．３におけるように、結果的に得られるスペクトルに対してスケールファクタが適用され、空の帯域のスケールファクタは、通常のスケールファクタのように処理される。

ｘＨＥ−ＡＡＣ標準の上記の拡張に対する代替形態は、暗黙の準後方互換的な信号伝達方法を使用するであろう。

ｘＨＥ−ＡＡＣコードの枠組みにおける上記の構成は、図１に係る復号器に対し、新たなステレオ充填ツールの使用状況を、stereo_fillingに含まれているビットストリーム中の１ビットを利用して信号伝達する手法を記述している。より正確には、そのような信号伝達（明示的な準後方互換的信号伝達と呼ぶ）は、後続するレガシービットストリームデータ−ここではノイズ充填サイド情報−がＳＦ信号伝達とは独立して使用されることを可能にする。即ち、本発明の実施形態では、ノイズ充填データはステレオ充填情報に依存せず、その逆も成り立つ。例えば、すべてゼロからなるノイズ充填データ（noise_level = noise_offset = 0）が伝送されてもよい一方で、stereo_fillingが任意の可能な値（０又は１のいずれかの２値フラグである）を信号伝達してもよい。

レガシービットストリームデータと本発明のビットストリームデータとの間の厳密な独立性が必要とされず、本発明の信号が２値決定である場合、信号伝達ビットの明示的な伝送を回避することができ、上記２値決定は、暗黙の準後方互換的信号伝達と呼ばれ得る信号の存否によって、信号伝達されることもできる。上記の実施形態を再び一例として取り上げると、ステレオ充填の使用状況は、新たな信号伝達を単に利用することによって伝送されることができる。即ち、noise_levelがゼロであり、同時にnoise_offsetがゼロでない場合、stereo_fillingフラグは１に等しく設定される。noise_levelとnoise_offsetとが共にゼロでない場合、stereo_fillingは０に等しい。レガシーノイズ充填信号に対するこの暗黙の信号の依存は、noise_levelとnoise_offsetとが共にゼロであるときに発生する。この場合、レガシー又は新たなＳＦ暗黙信号伝達のいずれが使用されているかは明確でない。そのような曖昧さを回避するために、stereo_fillingの値は事前に定義されなければならない。この例において、ノイズ充填データがすべてゼロからなる場合、stereo_filling = 0を定義することが適切である。なぜなら、これは、ノイズ充填がフレームに適用されるべきでないときに、ステレオ充填機能を有しないレガシー符号器が信号伝達するものだからである。

暗黙の準後方互換的信号伝達の場合に未解決である問題は、stereo_filling == 1であり同時にノイズ充填がないことをどのように信号伝達するかである。上述したように、ノイズ充填データは「すべてゼロ」であってはならず、ゼロのノイズの大きさが要求される場合、noise_level（上述したように(noise_offset & 14)/2）は０に等しくなければならない。これによって、０よりも大きいnoise_offset（上述したように(noise_offset & 1)*16）だけが解として残る。しかしながら、たとえnoise_levelがゼロであったとしても、ステレオ充填の場合にスケールファクタを適用するとき、noise_offsetが考慮される。好都合なことに、符号器は、ゼロのnoise_offsetが伝送されない可能性がある、という事実を補償できる。つまり、ビットストリームを書き込む際に、影響を受けたスケールファクタがnoise_offsetを介して復号器において実行されないオフセットを含むように、符号器は、その影響を受けたスケールファクタを変更する。これによって、スケールファクタのデータレートにおける潜在的な増加の代償として、上記の実施形態における前記暗黙の信号伝達が可能になる。従って、上記の説明の疑似コードにおけるステレオ充填の信号伝達は、節約されたＳＦ信号伝達ビットを、１ビットに代えて２ビット（４つの値）でnoise_offsetを伝送するために使用することで、以下のように変更され得る。

完全性を求める意味で、図５は、本出願の一実施形態に係るパラメトリックオーディオ符号器を示す。まず最初に、全体的に参照符号１００を使用して示されている図５の符号器は、図１の出力３２において再生されたオーディオ信号の歪みのないオリジナルバージョンの変換を実行するための変換部１０２を備える。図２に関連して説明したように、対応する変換窓を有する複数の異なる変換長をフレーム４４の単位で切り替えながら、重複変換が使用されてもよい。異なる変換長及び対応する変換窓は、図２において参照符号１０４を使用して示されている。図１と同様に、図５は、多チャネルオーディオ信号の１つのチャネルを符号化する役割を担う復号器１００の一部分に着目しており、その一方で、復号器１００の別のチャネルドメイン部分は図５において全体的に参照符号１０６を使用して示されている。

変換部１０２の出力において、スペクトル線及びスケールファクタは量子化されておらず、実質的に符号化損失はまだ発生していない。変換部１０２によって出力されたスペクトログラムが量子化部１０８に入り、量子化部は、スケールファクタ帯域の予備スケールファクタを設定及び使用して、変換部１０２によって出力されたスペクトログラムのスペクトル線を、スペクトルごとに量子化するよう構成されている。即ち、量子化部１０８の出力において、予備スケールファクタ及び対応するスペクトル線係数がもたらされ、ノイズ充填部１６'、任意選択の逆ＴＮＳフィルタ２８ａ'、チャネル間予測部２４'、ＭＳ復号部２６'及び逆ＴＮＳフィルタ２８ｂ'から成る系列が、順次接続されており、その結果、図５の符号器１００に対し、復号器側のダウンミックス提供部の入力（図１参照）において取得可能であるような、現スペクトルの再生された最終バージョンを取得する能力を付与している。チャネル間予測部２４'を使用する場合、及び／又は、前フレームのダウンミックスを使用してチャネル間ノイズを形成するバージョンにおけるチャネル間ノイズ充填を使用する場合には、符号器１００はまた、多チャネルオーディオ信号のチャネルのスペクトルの再生された最終バージョンのダウンミックスを形成するダウンミックス提供部３１'をも備える。無論、計算量を節約するために、最終バージョンの代わりに、チャネルの前記スペクトルの量子化されていないオリジナルバージョンが、ダウンミックスの形成に当たってダウンミックス提供部３１'によって使用されてもよい。

符号器１００は、スペクトルの利用可能な再生された最終バージョンに関する情報を使用して、虚数部推定を使用したチャネル間予測を実行する前述した可能なバージョンのような、フレーム間スペクトル予測を実行してもよく、及び／又は、レート制御を実行してもよく、即ち、レート制御ループ内で、符号器１００によって最終的にデータストリーム３０内へと符号化される可能なパラメータが、レート／歪みにおいて最適に設定されるよう決定してもよい。

例えば、符号器１００のそのような予測ループ及び／又はレート制御ループ内で設定される１つのパラメータは、識別部１２'によって識別された各ゼロ量子化されたスケールファクタ帯域について、量子化部１０８によって単に事前に設定された、それぞれのスケールファクタ帯域のスケールファクタである。符号器１００の予測及び／又はレート制御ループの中で、ゼロ量子化されたスケールファクタ帯域のスケールファクタは、聴覚心理的に又はレート／歪みが最適になるように設定され、それにより、上述した目標ノイズレベルと共に、対応するフレームについてデータストリームによって復号器側へと搬送される上述した任意選択の修正パラメータとが決定される。注意すべきは、このスケールファクタは、スペクトルのスペクトル線及びそのスペクトルが属するチャネル（即ち、前述の「目標」スペクトル）のみを使用して計算されもよいし、代替的に、「目標」チャネルスペクトルのスペクトル線と、追加的に、他のチャネルスペクトルのスペクトル線、又はダウンミックス提供部３１'から得られた前フレームからのダウンミックススペクトル（即ち、上述した「ソース」スペクトル）と、の両方を使用して決定されてもよい。特に、目標ノイズレベルを安定させ、また、チャネル間ノイズ充填が適用されている復号化済みオーディオチャネルにおける時間的なレベル変動を低減するために、目標スケールファクタは、「目標」スケールファクタ帯域中のスペクトル線のエネルギー尺度と、対応する「ソース」領域中の同じ位置にあるスペクトル線のエネルギー尺度と、の間の関係を使用して計算されてもよい。最後に、上述したように、この「ソース」領域は、別のチャネルの再生された最終バージョン若しくは前フレームのダウンミックスに由来してもよいし、符号器の演算量が低減されるべきである場合は、前記他のチャネルの量子化されていないオリジナルバージョン又は前フレームのスペクトルの量子化されていないオリジナルバージョンのダウンミックスに由来してもよい。

所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働可能な）、デジタル記憶媒体、例えばフレキシブルディスク，ＤＶＤ，ブルーレイ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。

本発明に従う幾つかの実施形態は、上述した方法の１つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。

一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。

本発明の他の実施形態は、上述した方法の１つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。

換言すれば、本発明の方法の一実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の他の実施形態は、上述した方法の１つを実行するために記録されたコンピュータプログラムを含む、データキャリア（又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体）である。そのデータキャリア、デジタル記憶媒体、記録された媒体は、典型的には有形であり、非一時的である。

本発明の他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。

他の実施形態は、上述した方法の１つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明に従う他の実施形態は、ここで説明した方法の１つを実行するためのコンピュータプログラムを、受信器へ（例えば電子的に又は光学的に）伝送するよう構成された装置又はシステムを含む。受信器は、例えばコンピュータ、携帯機器、メモリーデバイス又はそれらの類似物であってもよい。装置又はシステムは、例えばコンピュータプログラムを受信器へと転送するファイルサーバを含んでもよい。

幾つかの実施形態においては、（例えば書換え可能ゲートアレイのような）プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の１つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。

図１は、本出願の一実施形態に係る周波数ドメイン・オーディオ復号器を示す。復号器は、全体的に参照符号１０を使用して示されており、スケールファクタ帯域識別部１２と逆量子化部１４とノイズ充填部１６と逆変換部１８とに加え、スペクトル線抽出部２０とスケールファクタ抽出部２２とを備える。復号器１０によって含まれ得る任意選択の更なる構成要素として、複素ステレオ予測部(complex stereo predictor)２４とＭＳ（中間−側方）復号部２６と逆ＴＮＳ（時間領域ノイズ整形）フィルタツールとが含まれ、そのフィルタツールの２つの例２８ａ及び２８ｂが図１に示されている。加えて、ダウンミックス提供部が示されており、参照符号３１を使用して以下に詳細に概説する。

図２は、スペクトログラム４０及び４２が、時間変化するスペクトル時間分解能でデータストリーム３０内へと符号化されてもよいことを示す。例えば、両方の（伝送された）チャネルは、時間的に整列された状態で、フレームのシーケンスへとサブ分割されてもよく、これらフレームは、長さが等しくオーバーラップせずに隣接するような波括弧４４を使用して示されている。上述したように、スペクトログラム４０及び４２がデータストリーム３０内で表現されるスペクトル分解能は、時間的に変化してもよい。前提として、スペクトル時間分解能はスペクトログラム４０及び４２について等しく時間的に変化すると想定されるが、以下の説明から明らかになるように、この単純化を拡張することも実現可能である。スペクトル時間分解能の変化は、例えば、データストリーム３０内でフレーム４４の単位で信号伝達される。即ち、スペクトル時間分解能はフレーム４４を単位として変化する。スペクトログラム４０及び４２のスペクトル時間分解能の変化は、各フレーム４４内でスペクトログラム４０及び４２を記述するのに使用される変換長及び変換の数を切り替えることによって達成される。図２の例において、フレーム４４ａ及び４４ｂは、内部のオーディオ信号のチャネルをサンプリングするために１つの長い変換が使用されていたフレームを例示しており、その結果として、１チャネルあたりのそのようなフレームの各々について、１スペクトル線あたり１つのスペクトル線サンプル値を有する最高のスペクトル分解能がもたらされる。図２において、スペクトル線のサンプル値はボックス内の小さいｘ印を使用して示されており、それらボックスは、行及び列に配列されており、かつ各スペクトル時間格子を表しており、ここで、各行は１つのスペクトル線に対応し、各列は、スペクトログラム４０及び４２の形成に関与する最短の変換に対応するフレーム４４の部分間隔に対応している。特に、図２は、例えばフレーム４４ｄについて、フレームが代替的に、より短い長さの連続的な変換を施され得ることを示しており、その結果として、フレーム４４ｄのようなフレームについては、スペクトル分解能が低減された幾つかの時間的に連続するスペクトルがもたらされる。フレーム４４ｄについて、例示的に８つの短い変換が使用されており、その結果、８番目毎のスペクトル線だけが取り込まれるように、互いに離間したスペクトル線で、そのフレーム４４ｄ内のスペクトログラム４０及び４２のスペクトル時間サンプリングが行われるが、フレーム４４ｄを変換するのに使用された８つの変換窓又はより短い長さの変換の各々について、１つのサンプル値がもたらされる。例示を目的として、図２には、他の個数の変換も実現可能であることが示されている。例えば、フレーム４４ａ及び４４ｂの長い変換の変換長の例えば半分の変換長を持つ、２つの変換を使用することも可能であり、その結果、スペクトル時間格子又はスペクトログラム４０及び４２のサンプリングをもたらし、２番目毎のスペクトル線について、２つのスペクトル線サンプル値が得られ、その内の一方が前端の変換に関連し、他方が後端の変換に関連する。

スケールファクタ帯域識別部１２及び逆量子化部１４は、スペクトル線抽出部２０の出力に連結されているスペクトル線入力を有し、逆量子化部１４及びノイズ充填部１６は、スケールファクタ抽出部２２の出力に連結されているスケールファクタ入力を有する。スケールファクタ帯域識別部１２は、現スペクトル４６内のいわゆるゼロ量子化されたスケールファクタ帯域、即ち図３のスケールファクタ帯域５０ｄのようにその中の全てのスペクトル線がゼロに量子化されているスケールファクタ帯域と、スペクトルの中の少なくとも１つのスペクトル線が非ゼロに量子化されている残りのスケールファクタ帯域と、を識別するよう構成されている。特に図３において、スペクトル線係数は、図３内でハッチングされた領域を使用して示されている。その領域から、スペクトル４６において、スケールファクタ帯域５０ｄを除く全てのスケールファクタ帯域が、そのスペクトル線係数が非ゼロ値に量子化されている少なくとも１つのスペクトル線を有することが見てとれる。後段で、５０ｄのようなゼロ量子化されたスケールファクタ帯域が、チャネル間ノイズ充填の対象を形成することが明らかになり、それについては後段で更に説明する。説明を進める前に、スケールファクタ帯域識別部１２がその識別を、ある開始周波数５２を上回るスケールファクタ帯域に制限するなど、スケールファクタ帯域５０の適切なサブセットのみに制限してもよいことに留意すべきである。図３では、スケールファクタ帯域識別部１２は、識別手順をスケールファクタ帯域５０ｄ、５０ｅ及び５０ｆに制限している。

図４は、チャネル間ノイズ充填のソースが前フレームのスペクトル的に同じ位置にあるスペクトル線のダウンミックスによって表現される、という点で図１に対する代替例を示すが、複素チャネル間予測を使用する任意選択の事例において、この複素チャネル間予測のソースは、チャネル間ノイズ充填のソースとして、及び、複素チャネル間予測における虚数部推定のソースとして、２回使用される。図４は、スペクトル４６が属する第１チャネルの復号化に関係する部分７０と、スペクトル４８を含む他のチャネルの復号化に関与する前述した他の部分３４の内部構造と、を含む復号器１０を示す。一方の部分７０及び他方の３４の内部の構成要素には、同じ参照符号が使用されている。図から分かるように、構造は同じである。出力３２において、ステレオオーディオ信号の一方のチャネルが出力され、第２復号器部分３４の逆変換部１８の出力において、ステレオオーディオ信号の他方の（出力）チャネルがもたらされ、この出力は、参照符号７２によって示されている。ここでも、上述した実施形態は、３つ以上のチャネルを使用する事例に容易に置き換えることができる。

完全性を求める意味で、図５は、本出願の一実施形態に係るパラメトリックオーディオ符号器を示す。まず最初に、全体的に参照符号１００を使用して示されている図５の符号器は、図１の出力３２において再生されたオーディオ信号の歪みのないオリジナルバージョンの変換を実行するための変換部１０２を備える。図２に関連して説明したように、対応する変換窓を有する複数の異なる変換長をフレーム４４の単位で切り替えながら、重複変換が使用されてもよい。異なる変換長及び対応する変換窓は、図２において参照符号１０４を使用して示されている。図１と同様に、図５は、多チャネルオーディオ信号の１つのチャネルを符号化する役割を担う符号器１００の一部分に着目しており、その一方で、符号器１００の別のチャネルドメイン部分は図５において全体的に参照符号１０６を使用して示されている。

Claims

パラメトリック周波数ドメイン・オーディオ復号器であって、
多チャネルオーディオ信号の現フレームの第１チャネルのスペクトルの第１スケールファクタ帯域と、前記スペクトルの第２スケールファクタ帯域とを識別する手段（１２）であって、前記第１スケールファクタ帯域内では全てのスペクトル線がゼロに量子化され、前記第２スケールファクタ帯域内では少なくとも１つのスペクトル線が非ゼロに量子化されている、手段と、
前記第１スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのスペクトル線又は現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の１つのスケールファクタを使用して調整しながら充填する手段（１６）と、
前記第２スケールファクタ帯域内のスペクトル線を、前記第２スケールファクタ帯域のスケールファクタを使用して逆量子化する手段（１４）と、
前記ノイズで充填され、かつそのレベルが前記第１スケールファクタ帯域のスケールファクタを使用して調整されている前記第１スケールファクタ帯域と、前記第２スケールファクタ帯域のスケールファクタを使用して逆量子化された前記第２スケールファクタ帯域と、から得られた前記スペクトルを逆変換する手段（１８）であって、前記逆変換により前記多チャネルオーディオ信号の前記第１チャネルの時間ドメイン部分を取得する、手段と、
を備える復号器。
請求項１に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記充填にあたって、前記所定のスケールファクタ帯域に対してスペクトル的に同一位置にある、前記前フレームのダウンミックスのスペクトルの同一位置部分のレベルを、前記所定のスケールファクタ帯域の前記スケールファクタを使用して調整し、その調整されたレベルを持つ前記同一位置部分を前記所定のスケールファクタ帯域に加算するよう更に構成されている、復号器。
請求項２に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームの異なるチャネル又はダウンミックスから前記スケールファクタ帯域のサブセットを予測してチャネル間予測を取得し、前記ノイズで充填された前記所定のスケールファクタ帯域と、前記第２スケールファクタ帯域の前記スケールファクタを前記チャネル間予測の予測残余として使用して逆量子化された前記第２スケールファクタ帯域と、を使用して前記スペクトルを取得するよう構成された、復号器。
請求項３に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記スケールファクタ帯域のサブセットを予測する際に、前記前フレームのダウンミックスのスペクトルを使用して、前記現フレームの前記異なるチャネル又はダウンミックスの虚数部推定を実行するよう更に構成された、復号器。
請求項１〜４のいずれか１項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
現チャネル及び他のチャネルは、データストリーム内でＭＳ符号化されており、
前記パラメトリック周波数ドメイン・オーディオ復号器は、前記スペクトルをＭＳ復号化するよう構成されている、復号器。
請求項１〜５のいずれか１項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
データストリームから、前記第１と第２のスケールファクタ帯域の前記スケールファクタを、コンテキスト適応型エントロピー復号化及び／又は予測復号化を使用して順序的に抽出するよう更に構成され、
前記コンテキスト適応型エントロピー復号化のコンテキスト決定及び／又は前記予測復号化のスペクトル予測は、現時点で抽出されつつあるスケールファクタのスペクトル的に近隣の部分において既に抽出されたスケールファクタに依存しており、前記スケールファクタは、前記第１と第２のスケールファクタ帯域の中でスペクトル順序に従ってスペクトル的に配置される、復号器。
請求項１〜６のいずれか１項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
擬似ランダムノイズ又はランダムノイズを使用して前記ノイズが追加的に生成されるよう更に構成された、復号器。
請求項７に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームについてデータストリーム内で信号伝達されたノイズパラメータに従って、前記擬似ランダムノイズ又はランダムノイズのレベルを、前記第１スケールファクタ帯域について均等に調整するよう更に構成された、復号器。
請求項１〜８のいずれか１項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームについてデータストリーム内で信号伝達された修正パラメータを使用して、前記第１スケールファクタ帯域のスケールファクタを、前記第２スケールファクタ帯域のスケールファクタに比べて同等に修正するよう更に構成された、復号器。
パラメトリック周波数ドメイン・オーディオ符号器であって、
多チャネルオーディオ信号の現フレームの第１チャネルのスペクトルのスペクトル線を、前記スペクトル内のスケールファクタ帯域の予備的スケールファクタを使用して量子化する手段と、
全てのスペクトル線がゼロに量子化されている前記スペクトル内の第１スケールファクタ帯域と、少なくとも１つのスペクトル線が非ゼロに量子化されている前記スペクトルの第２スケールファクタ帯域とを識別する手段と、
予測及び／又はレート制御ループ内で、
前記第１スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのスペクトル線又は前記現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の実際のスケールファクタを使用して調整しながら充填する手段と、
前記予備的スケールファクタに代えて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを信号伝達する手段と、
を備える、符号器。
請求項１０に記載のパラメトリック周波数ドメイン・オーディオ符号器であって、
前記所定のスケールファクタ帯域内の前記第１チャネルのスペクトルの前記スペクトル線の非量子化バージョンのレベルに基づいて、かつ前記多チャネルオーディオ信号の前フレームのスペクトル線又は前記現フレームの異なるチャネルのスペクトル線に追加的に基づいて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを計算するよう更に構成された、符号器。
パラメトリック周波数ドメイン・オーディオ復号化の方法であって、
多チャネルオーディオ信号の現フレームの第１チャネルのスペクトルの第１スケールファクタ帯域と、前記スペクトルの第２スケールファクタ帯域とを識別するステップであって、前記第１スケールファクタ帯域内では全てのスペクトル線がゼロに量子化され、前記第２スケールファクタ帯域内では少なくとも１つのスペクトル線が非ゼロに量子化されている、ステップと、
前記第１スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのスペクトル線又は現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の１つのスケールファクタを使用して調整しながら充填するステップと、
前記第２スケールファクタ帯域内のスペクトル線を、前記第２スケールファクタ帯域のスケールファクタを使用して逆量子化するステップと、
前記ノイズで充填され、かつそのレベルが前記第１スケールファクタ帯域のスケールファクタを使用して調整されている前記第１スケールファクタ帯域と、前記第２スケールファクタ帯域のスケールファクタを使用して逆量子化された前記第２スケールファクタ帯域と、から得られた前記スペクトルを逆変換するステップであって、前記逆変換により前記多チャネルオーディオ信号の前記第１チャネルの時間ドメイン部分を取得する、ステップと、
を備える方法。
パラメトリック周波数ドメイン・オーディオ符号化の方法であって、
多チャネルオーディオ信号の現フレームの第１チャネルのスペクトルのスペクトル線を、前記スペクトル内のスケールファクタ帯域の予備的スケールファクタを使用して量子化するステップと、
全てのスペクトル線がゼロに量子化されている前記スペクトル内の第１スケールファクタ帯域と、少なくとも１つのスペクトル線が非ゼロに量子化されている前記スペクトルの第２スケールファクタ帯域とを識別するステップと、
予測及び／又はレート制御ループ内で、
前記第１スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのスペクトル線又は前記現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで充填するステップであって、前記ノイズのレベルを前記所定のスケールファクタ帯域の実際のスケールファクタを使用して調整する、ステップと、
前記予備的スケールファクタに代えて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを信号伝達するステップと、
を備える方法。
コンピュータ上で作動されたとき、請求項１２又は１３に記載の方法を実行するための、プログラムコードを有するコンピュータプログラム。