JP3592473B2

JP3592473B2 - 周波数領域内のｌｐｃ予測による時間領域内での知覚ノイズ整形

Info

Publication number: JP3592473B2
Application number: JP00524897A
Authority: JP
Inventors: ハインリッヒヘーレユルゲン
Original assignee: ルーセントテクノロジーズインコーポレーテッド
Priority date: 1996-01-16
Filing date: 1997-01-16
Publication date: 2004-11-24
Anticipated expiration: 2017-01-16
Also published as: EP0785631B1; DE69737489D1; CA2194419C; EP0785631A2; JPH09204197A; DE69737489T2; US5781888A; EP0785631A3; CA2194419A1

Description

【０００１】
【発明の属する技術分野】
本発明は、オーディオ信号のコード化に関し、特に知覚モデルに基づくオーディオ信号のコード化のための改良型方法および装置に関する。
【０００２】
【従来の技術、及び、発明が解決しようとする課題】
ここ数年間の間に、いわゆる「知覚オーディオ・コーダ」が開発され、従来のコンパクト・ディスク媒体（ＣＤ）上で通常使用されるビット速度の、約１／１２またはそれ以下のビット速度で、高品質のオーディオ信号を送信したり記憶したりすることができるようになった。上記コーダは、知覚によっては識別できない再構成（すなわち、デコード）信号を作り出すのに必要な程度の正確さのレベルでコード化することによって、人間の聴覚器官が聴覚の限界を持っているためにオーディオ信号に含まれている聴覚に感じられない部分を利用する。国際基準化機構の動画専門部会（ＩＳＯ／ＭＰＥＧ）、ＭＰＥＧ１およびＭＰＥＧ２オーディオ規格のような、いろいろな規格が制定されてきた。知覚オーディオ・コーダについては、例えば、１９９４年２月８日付けのジェームズＤ．ジョンソンの米国特許第５，２８５，４９８号、および１９９４年８月２３日付けのジョセフＬ．ホール・ジュニアおよびジェームズＤ．ジョンソンの米国特許第５，３４１，４５７号に詳細に開示されている。これら米国特許は、本発明の譲受人に譲渡されている。上記両米国特許の全文は参考として本明細書に組み込まれている。
【０００３】
一般的にいって、モノラル・オーディオ信号用の知覚オーディオ・コーダの構造は下記のようなものである。
・入力サンプルが、種々のタイプのフィルタ・バンク、および、例えば、周知の修正個別コサイン変換装置（ＭＤＣＴ）、多相フィルタ・バンクまたはハイブリッド構造体のような変換装置により、二段標本化スペクトル表現に変換される。
・知覚モデルを使用して、上記信号に対する一つまたはそれ以上の時間依存マスキング域値が推定される。上記域値は、信号の品質の劣化は知覚されないが、オーディオ信号に導入される恐れがある最大コード化エラーを示す。
・スペクトル値は、マスキング域値の推定値に対応する精度に従って、量子化されコード化される。このようにして、量子化されたノイズは、送信された各信号により隠され（マスクされ）、デコード後知覚することができなくなる。
・最後に、すべての関連情報（例えば、コード化されたスペクトル値および追加副次情報）はビット・ストリームにパックされ、デコーダに送られる。
従って、対応するデコーダ回路で使用された処理が逆の順序で行われる。
・ビット・ストリームはデコードされ、コード化されたスペクトル・データおよび副次情報に分析される。
・量子化されたスペクトル値の逆方向の量子化が行われる。
・合成フィルタ・バンクを使用して、スペクトル値が、時間領域内にもう一度マップされる。
【０００４】
上記の一般コーダ構造を使用することによって、人間の聴覚器官の知覚制限があるために、各信号に含まれる聴覚に感じない部分を効率的に活用することができる。特に、量子化ノイズのスペクトルを、信号ノイズのマスキング域値の形に従って整形することができる。このようにして、コード化プロセスによるノイズをコード化された信号の下に隠し、それにより知覚的に透明な品質を高い圧縮率で達成することができる。
【０００５】
しかし、例えば、カスタネット雑音、すなわち、グロケンシュピール雑音のような遷移信号をコード化する場合には、さらに注意を払わなければ、知覚コーダは、透明な品質の信号を送ることはできない。この問題は、当業者がよく知っている通常「プリエコー」と呼ばれている周知のノイズから生じる。特に、コード化される信号が、コーダの分析フィルタ・バンクにより一定の瞬間に、処理されたタイム・ウィンドウのほんの一部分に強い信号構成部分を含んでいる恐れがある場合は、その結果生じるコード化エラーは、通常タイム・ウィンドウの全長にわたって広がる。それ故、量子化ノイズは、例えば、２０ミリ秒またはもっと長い時間の間に渡って分散し、それによりある信号領域内の元の信号部分の振幅より大きくなる場合がある。例えば、分析ウィンドウの中央部分に「スタート部分」を持つカスタネット信号の場合には、コード化信号のノイズ成分は、「スタート部分」の直前のウィンドウの部分の元の信号成分より大きくなる場合がある。
【０００６】
人の聴覚器官の特性のために、信号がスタートする前の約２秒間より長い時間、有意のレベルのコード化ノイズが存在しない場合には、上記の「プリエコー」はマスクされる。そうでない場合には、コード化ノイズが、例えば、信号がスタートする前の短いノイズのような「プリエコー」ノイズとして知覚される。
【０００７】
知覚オーディオ・コード化システムにより生じるコード化／デコード信号の「プリエコー」を防止するために、多くの技術が提案されてきた。
１）従来使用されてきた一つの技術は、最初に、遷移信号部分をカバーするフィルタ・バンク・ウィンドウのスペクトル係数のコード化精度を高めるという方法である。この技術は「プリエコー制御」と呼ばれるもので、例えば、ＭＰＥＧ１オーディオ規格に含まれている。この方法は、これらのフレームをコード化するのに、かなりのビットを必要とするので、定ビット速度コーダに簡単に使用することはできない。ビット速度デマンドの局部的変化は、同様に、例えば、ＭＰＥＧ１オーディオ規格に含まれている、「ビット・タンク」と呼ばれる従来の技術を使用して、ある程度まで解決することができる。この技術を使用すれば、始めのほうのフレームのコード化中に使用しなかったビットを使用して、ビット速度のピーク・デマンドを処理することができる。それ故、平均ビット速度は依然として一定である。しかし、実際には、非常に遷移の大きい入力信号をコード化する場合には、ノイズを避けるために必要なビット・タンクの容量は、実現することができないほど大きなものになる。
【０００８】
２）多くの知覚オーディオ・コーダで使用される他の方法は、適応ウィンドウ切り替えと呼ばれるものである。上記の方法と同様に、ＭＰＥＧ１オーディオ規格に含まれるこの技術は、フィルタ・バンクのサイズを入力信号の特性に適応させる。比較的変化の少ない信号の各部には、（通常）縦が長いウィンドウを使用するが、信号の遷移部分をコード化するには短いウィンドウを使用する。こうすることにより、ビット需要のピークをかなり低減することができる。何故なら、高いコード化精度が要求される領域は時間による制限を受けるからである。
【０００９】
適応ウィンドウ切り替え技術の一つの重要な欠点は、コーダがさらにかなり複雑なものになり、構造もまた複雑になることである。異なるサイズのウィンドウは異なるパラメータおよび異なるコード化方法を必要とするので、実際にウィンドウ切り替えを使用するコーダは、本質的に二つのコーダ、すなわち、サイズの長いウィンドウ用のコーダおよびサイズの短いウィンドウ用のコーダからなる。さらに、この技術は、例えば、実質的にコード化の効率に悪影響を与えない人間の音声にような、インパルスに似た信号の疑似固定シリーズからなる「ピッチド」信号の場合には、効率的に使用することはできない。音声発声の機構に対して、より短いウィンドウを永久的に選択した場合だけ、この技術を使用することにより、一次的な量子化ノイズの広がりを適度に防止することができる。そのため、今度は、コード化の利得の低下および副次情報オーバヘッドの増大により、コーダの効率が有意に低下することになる。
【００１０】
３）量子化ノイズの一次的な広がりを避けるために使用されてきた第三の技術は、スペクトルの分解を行う前に、信号に対する利得を変化させたり／修正したりする方法である。この方法の原理は、コード化を行う前に、利得の修正を行うことにより、入力信号のダイナミックスを下げることである。利得修正のパラメータは、その後、ビット・ストリームに送られ、この情報を使用してデコーダ側でプロセスが逆の順序で行われる。
【００１１】
しかし、大部分の信号に対して良い性能を発揮するには、この処理を周波数スペクトルのいろいろな部分に個々に行わなければならない。何故なら、遷移事象は多くの場合、スペクトルのある部分にだけ存在するからである。この方法は、異なるスペクトル成分の個々の利得の処理を考慮する、もっと複雑なハイブリッド・フィルタ・バンクを使用して行うことができる。しかし、一般的にいって、利得修正とコーダの知覚モデルとの間を相互に分離することは、多くの場合困難である。
【００１２】
【課題を解決するための手段】
本発明の例示としての実施例は、従来技術の欠点を解決する方法および装置を提供する。特に、知覚ノイズ整形を、周波数領域内で（線形）予測（すなわち、ろ過作業）を行うことにより、時間領域内で行う。その結果、量子化ノイズの一時的な広がりが減少する。特に、本発明の例示としての一実施例の場合には、下記の処理ステップがモノラル信号と一緒に、エンコーダで適用される。
・コード化されるオーディオ信号は、（適応ウィンドウ切り替えを使用している従来の知覚コーダで、「より長いブロック」用に使用されるような）高解像度のフィルタ・バンク／変換装置により、スペクトル係数に分解される。
・知覚モデルを使用して、信号に対する一つまたはそれ以上の時間依存マスキング域値が推定される。これらの域値は、信号の品質の劣化を感じさせないが、オーディオ信号に導入される恐れがある最大のコード化エラーを示す。
・その後、周波数のフィルタ・バンク出力上で作動する差動パルス・コード変調（ＤＰＣＭ）に基づく量子化／コード化スキームを使用して、スペクトル値のコード化が行われる。従来の知覚コーダの場合のように、必要なコード化の精度の目標値は、知覚モデルにより与えられる。
・最後に、すべての関連情報（例えば、コード化スペクトル値および生成した副次情報）は、ビット・ストリームにパックされデコーダに送られる。特に、生成した二次情報は、使用している場合には、ＤＰＣＭコード化が使用されていることを示すフラグ、および目標周波数レンジおよびコード化に使用されたフィルタに関する情報を含む。
【００１３】
同様に、本発明の例示としての実施例の対応する例示としてのデコーダは、下記の処理ステップを行う。
・ビット・ストリームをデコードし、コード化スペクトル・データおよび副次情報を分析する。
・量子化したスペクトル値を逆方向に量子化する。特に、この量子化は、ＤＰＣＭの使用が副次情報にフラグにより表示されている場合には、スペクトル値のＤＰＣＭデコードを含む場合がある。
・スペクトル値は、合成フィルタ・バンクを使用して、時間領域内に再びマップされる。
【００１４】
ＤＰＣＭ量子化／コード化スキーム（予測装置／量子化装置の組合わせ）の選択により、システム全体の行動に対する利点が異なってくる。特に、本発明の第一の例示としての実施例の場合には、閉ループＤＰＣＭシステムが使用されている。この第一の実施例の場合には、遷移信号に対するコード化の利得が上がり、本発明の第二の実施例による好適な方法の場合には、開ループＤＰＣＭシステムが使用されている。この第二の実施例は、デコーダの出力の時間整形した量子化エラーの点で有利である。特に、ＤＰＣＭ処理は、スペクトル係数に適用されるので、（逆方向のフィルタ・バンクがデコーダで適用された後の）デコードされた信号の量子化ノイズは、丁度時間的に間に合うように整形され、それにより量子化ノイズが実際の信号レベル以下に抑えられる。このようにして、遷移信号またはピッチイ信号のマスクされていない信号に関する一時的な問題は、実質的に過度のコード化を行わずに、またそれに比例したビットを使用しなくても、有利に避けることができる。
【００１５】
【発明の実施の形態】
本発明の方法および装置を使用すれば、従来の知覚オーディオ・コーダで通常使用される、従来のパルス・コード変調（ＰＣＭ）を、差動パルス・コード変調（ＤＰＣＭ）に基づく、量子化／コード化スキームにより効果的に置き換えることにより、従来技術の欠点を解決することができる。この場合、ＤＰＣＭスキームは、周波数領域内のフィルタ・バンク出力上で作動する。（一般的に、ＰＣＭコード化技術もＤＰＣＭコード化技術も当業者には周知である。）
【００１６】
図１は、モノラル・オーディオ信号をコード化するのに使用する従来の知覚エンコーダである。
・入力信号はｘ（ｋ）は、分析フィルタ・バンク／変換装置１２により、スペクトル係数に分解され、その結果、各分析ブロック「ｂ」に対して「ｎ」個のスペクトル成分、ｙ（ｂ，０）．．．ｙ（ｂ，ｎ−１）ができる。この場合、「ｎ」は各分析ブロック毎のスペクトル係数の数（すなわち、ブロック・サイズ）である。各スペクトル成分ｙ（ｂ，ｊ）は、使用したフィルタ・バンクによる分析周波数または周波数レンジに関連する。
・知覚モデル１４は、コード化信号／デコード信号の知覚的に透明な品質に対する必要なコード化精度を推定し、一つまたはそれ以上のマスキング域値を生成する。例えば、この情報は、各周波数帯で必要とされる最小信号／雑音比（ＳＮＲ）からなり、ＰＣＭエンコーダ１６に供給される。
・各スペクトル成分ｙ（ｂ，ｊ）は、（それぞれ、量子化Ｑ_０．．．Ｑ_ｎ−１を行うための）量子化装置１６−０．．．１６−（ｎ−１）によって量子化され、送信インデックスｉ（ｂ，０）．．．ｉ（ｂ，ｎ−１）にマップされる。上記量子化装置は、知覚モデル１４が生成した知覚マスキング域値に従って、スペクトル係数のＰＣＭ量子化／コード化を行う。
・インデックス値ｉ（ｂ，０）．．．ｉ（ｂ，ｎ−１）は、（オプションとしての）副次情報と一緒にビット・ストリーム・エンコーダ１８に送られ、コード化されたビット・ストリームにより（例えば、デコーダに）送られる。別な方法としては、コード化したビット・ストリームを、後で検索するために、コンパクト・ディスク（ＣＤ）またはデジタル・オーディオ・テープ（ＤＡＴ）のようなオーディオ信号記憶媒体上に記憶することができる。
【００１７】
本発明の例示としての一実施例の場合には、図１のコード化装置は、ＰＣＭエンコーダ１６をＤＰＣＭタイプのエンコーダにより置き換えることによって、有利に修正することができる。この場合、ＤＰＣＭコード化は、周波数領域内で行われる。図３および図４は、本発明の上記の二つの例示としての実施例である。特に、本発明の例示としての実施例は、図１の従来のコード化装置のＰＣＭエンコーダ１６の代わりに、図３のモジュール３２を使用することによって、実行することができる。こうすることにより、本発明の第一の例示としての実施例のコード化装置を作ることができる。同様に、本発明の他の実施例は、図１の従来のコード化装置のＰＣＭエンコーダ１６の代わりに、図４のモジュール４２を使用することによって実行することができる。こうすることにより、本発明の第二の例示としての実施例のコード化装置を作ることができる。上記のそれぞれの場合、量子化／コード化カーネルへの入力は、一連のスペクトル係数ｙ（ｂ，０）．．．ｙ（ｂ，ｎ−１）によって与えられる。すなわち、ＤＰＣＭコード化は、例えば、当業者にとっては周知の従来の副バンド−ＡＤＰＣＭコーダにより時間領域を横切って行われる予測コード化とは反対に、周波数領域を横切って行われる。
【００１８】
特に、図３の例示としてのエンコーダのロータリ・スイッチ３３および図４の例示としてのエンコーダのロータリ・スイッチ４３は、それぞれＤＰＣＭエンコーダ３４および４４によって量子化／コード化が行われる前に、それぞれスペクトル値ｙ（ｂ，０）．．．ｙ（ｂ，ｎ−１）をシリアルな順序に配列するのに使用され、図３の例示としてのエンコーダのロータリ・スイッチ３５、および図４の例示としてのエンコーダのロータリ・スイッチ４６は、結果として得られた各インデックス値ｉ（ｂ，０）．．．ｉ（ｂ，ｎ−１）をその後で並列に並べるのに使用される。図示の例示としての各エンコーダでは、周波数の昇順に、スペクトル値ｙ（ｂ，０）．．．ｙ（ｂ，ｎ−１）の処理が行われるが、他の例示としての実施例の場合には、周波数の降順にまたは他の（例えば、非単調な）順序で処理を行うことができる。さらに、（本明細書に記載する全部のｎではない）スペクトル値のサブセットだけを、差動コード化を行うためにＤＰＣＭエンコーダ３４および４４に供給することができる。
【００１９】
より詳細に説明すると、図３は閉ループ予測スキームを使用する、本発明のエンコーダの第一の例示としての実施例である。閉ループ予測は、通常の当業者なら周知の従来の技術である。しかし、図３の例示としての知覚オーディオ・エンコーダの場合には、スペクトル値（すなわち、周波数領域）に閉ループ予測が適用される。特に、（この図では、予測装置３６および加算器３９からなる）予測フィルタは、量子化装置３７が生成した量子化出力値により駆動され、減算器３８により予測値が入力信号から引かれ、その結果、予測エラー信号だけが有利に量子化／コード化される。量子化装置３７が、（減算器３８を通して）ロータリ・スイッチ３３により供給される各スペクトル成分の数値ｙ（ｂ，０）．．．ｙ（ｂ，ｎ−１）に対して、それぞれ量子化Ｑ_０．．．Ｑ_ｎ−１を行うことに留意されたい。図３の例示としてのエンコーダを使用すれば、エンコーダの入力信号ｘ（ｋ）が遷移特性を持っている場合には、コード化の利得が上がる。
【００２０】
図４は、開ループ予測スキームを使用する、本発明のエンコーダの第二の例示としての実施例である。開ループ予測は、通常の当業者には周知の従来技術である。しかし、図４の例示としての知覚オーディオ・エンコーダの場合には、開ループ予測はスペクトル値（すなわち、周波数領域）に適用される。特に、予測装置４７は、減算器４８によって駆動され、その結果、（量子化装置４５により）予測エラー信号だけが有利に量子化／コード化される。量子化装置４５が、（減算器４８を通して）ロータリ・スイッチ４３により対応する予測エラー信号が供給される、各スペクトルの成分の数値ｙ（ｂ，０）．．．ｙ（ｂ，ｎ−１）に対して、それぞれ量子化Ｑ_０．．．Ｑ_ｎ−１を行うことに留意されたい。
【００２１】
図３の例示としてのエンコーダのように、図４の例示としてのエンコーダを使用すると、エンコーダの入力信号ｘ（ｋ）が遷移特性を持っている場合には、コード化の利得が上がる。しかし、その上、図４の開ループ方法を使用する知覚オーディオ・エンコーダを使用すると、対応するデコーダの最終的に再構成された出力信号ｘ’（ｋ）で、時間整形された量子化エラーを有利に作ることができる。これは、開ループ予測がスペクトル係数にすでに適用され、その結果、量子化ノイズが時間により整形された形で現れ、それによりノイズ・レベルが信号レベル以下になっているからである。このようにして、遷移信号またはピッチ信号のマスクされていない信号に関する一時的な問題は、実質的に過度のコード化を行わず、またそれに比例したビットを使用しなくても、有利に避けることができる。
【００２２】
上記の本発明の例示としての実施例に場合には、スペクトル領域データに予測コード化が適用されるので、スワップした時間領域および周波数領域に対して、古典的な予測について周知のある種の関係が有効である。例えば、予測利得は、（「スペクトル平坦測定」とは反対の）信号の「包絡平坦測定」に従って達成される。さらに、図４に示す開ループの場合には、予測エラーは（周波数ではなく）時間で整形される。それ故、実際には、上記開ループ技術は、例えば、時間領域ノイズ整形を裏づけるために、周波数領域内でいくつかの要素によりコンボリューションを有効に使用して、周波数領域内での予測により適応時間領域ウィンドウを適用するのと同じであると見なすことができる。
【００２３】
上記実施例の場合には、予測プロセスは全周波数スペクトル（すなわち、すべてのスペクトル係数）にわたって行われるが、他の例示としての実施例の場合には、予測は、スペクトルの一部に対してだけ（すなわち、スペクトル係数のサブセットに対して）行うことができる。さらに、異なる予測装置フィルタを、信号スペクトルのいくつかの部分で有利に使用することができる。このようにして、時間領域ノイズを抑制するための本発明の方法は、任意の周波数依存方法で適用することができる。
【００２４】
コード化された信号を正しくデコードするために、図３および図４の例示としてのエンコーダが生成したビット・ストリームは、有利に、例えば、図１のビット・ストリーム・エンコーダ１８への追加入力として示した、ある種の追加副次情報を含む。本発明の種々の例示としての実施例の場合には、例えば、副次情報の一つのフィールドは、ＤＰＣＭが使用されていること、および使用した数個の予測フィルタの数を示すことができる。その後、ビット・ストリームの追加フィールドを、各フィルタおよびそのフィルタ係数の目標周波数レンジを知らせる各予測フィルタに送ることができる。
【００２５】
図６は、本発明の例示としての実施例による、モノラル・オーディオ信号をコード化する方法のフローチャートである。このフローチャートに示す例示としての実施例は、開ループ予測および一つの予測フィルタを使用する知覚オーディオ・エンコーダのいくつかの関連部分を実行する。特に、ステップ６１においては、（例えば、図１の従来のエンコーダの分析フィルタ・バンク／変換装置１２により行われるように）分析フィルタ・バンクにより、スペクトル値の従来の計算が行われる。その後、ステップ６２で、予測フィルタの順序が設定され、目標周波数レンジが指定される。パラメータは、例えば、例示のように１５のフィルタの順序に設定され、目標周波数レンジを４ー２０ｋＨｚに設定することができる。これら例示としてのパラメータ数値を使用して、ピッチ信号をコード化すれば、プリエコーおよびポストエコーを有利に除去することができる。
【００２６】
ステップ６３においては、予測フィルタが、目標周波数レンジに対応するスペクトル係数の範囲を使用し、またＤＰＣＭコーダにとっては周知の予測コード化用の従来の方法を適用することにより決定される。例えば、係数の自動較正機能は、当業者にとっては周知の従来のレビンソン−ダービン帰納アルゴリズムで計算し使用することができる。その結果、予測装置フィルタ係数、対応する反射係数（「ＰＡＲＣＯＲ」係数）および期待予測利得を得ることができる。
【００２７】
期待予測利得が、決定ステップ６４で決定されたある域値（例えば、２ｄＢ）を越えた場合には、ステップ６５−６７のＤＰＣＭコード化手順が使用される。この場合、予測フィルタ係数は、副次情報の一部としてデコーダに送ることができるように、量子化される（ステップ６５）。その後、（ステップ６６において）、予測フィルタが、量子化されたフィルタ係数が使用される、目標周波数レンジに対応するスペクトル係数の範囲に適用される。その後のすべての処理に対しては、指定の範囲のスペクトル係数の代わりに、ろ過処理の出力が使用される。最後に（ステップ６７）、ＤＰＣＭコード化（「予測フラグ」オン」）が使用されていることを知らせる、ビット・ストリームの一つのフィールドが送信されるが、目標周波数レンジ、予測フィルタの順序、およびそのフィルタ係数を示す情報もビット・ストリームに含まれる。一方、期待予測利得が決定域値を越えない場合には、ステップ６８において、ＤＰＣＭコード化を使用したこと（「予測フラグ」オン）を知らせるための、ビット・ストリームの一つのフィールドが送られる。最後に、どちらの場合でも、量子化プロセスがスペクトル係数に適用される（ステップ６９）。この場合、量子化はエンコーダの知覚モデルが生成する知覚マスキング域値に基づいて行われる。
【００２８】
（例えば、図３の例示としての装置、および図６の例示としての方法に示すように）、本発明の開ループエンコーダの実施例を使用することにより、離散フーリエ変換（ＤＦＴ）または離散コサイン変換（ＤＣＴ）含むある種の従来のブロック変換装置に対して、直接の一時的ノイズ整形効果を行うことができる。例えば、本発明の知覚コーダが、例えば、従来の修正離散コサイン変換（ＭＤＣＴ）、または時間領域偽信号打消し（ＴＤＡＣ）に基づく他の従来のフィルタ・バンクのような、重畳しているウィンドウにより非常に正確に二次標本化されたフィルタ・バンクが使用されている場合には、結果として得られる一時的なノイズ整形に対して、フィルタ・バンクの固有な時間領域偽信号効果が適用される。例えば、ＭＤＣＴの場合には、窓の半分毎に一つのミラー（すなわち、偽信号）動作が行われ、それぞれのデコード後に、ウィンドウの左および右半分に、ミラー効果による（すなわち、偽信号による）量子化ノイズが現れる。最後のフィルタ・バンクの出力は、各逆方向変換の出力に合成ウィンドウを適用し、これらのデータ・セグメントの重畳追加を行うことによって得られるので、不必要な偽信号による成分は、使用する合成ウィンドウに応じて減衰する。それ故、一時的な偽信号による影響を最小限度に抑えるために、後続のブロック間の重畳部分が小さいフィルタ・バンク・ウィンドウを選択するほうが有利である。エンコーダで適当な方法を使用することにより、それに従って、よりよい周波数選択性を提供する静止信号に対して、より広いウィンドウ・タイプを使用する一方、非常に遷移特性の強い臨界信号に対して、重畳部分の少ないウィンドウを選択することができる。当業者にとっては、上記の方法の実行の詳細は明かであろう。
【００２９】
図２は、図１の従来の知覚エンコーダに対応する、モノラルオーディオ信号をデコードする際に使用する従来の知覚デコーダである。図２のデコーダは下記のステップを実行する。
・入力ビット・ストリームの分析と、インデックス値ｉ（ｂ，０）．．．ｉ（ｂ，ｎ−１）のデコーダ／デマルチプレクサ２２による抽出。
・（それぞれによる、逆方向量子化ＩＱ_０．．．ＩＱ_ｎ−１の実行）逆方向量子化装置２４−０から２４−（ｎ−１）の使用、およびＰＣＭデコーダ２４による、量子化したスペクトル値ｙｑ（ｂ，０）．．．ｙｑ（ｂ，ｎ−１）の再構成。
・量子化したスペクトル値ｙｑ（ｂ，０）．．．ｙｑ（ｂ，ｎ−１）の、合成フィルタ・バンク２６による時間領域表現への再マップ化と、その結果としての、再構成出力信号ｘ’（ｋ）の取得。
【００３０】
本発明の例示としての実施例の場合には、図２の従来のデコード装置はＰＣＭデコーダ２４に代わりに、ＤＰＣＭタイプのデコーダを使用することによって、有利に修正することができる。この場合、ＤＰＣＭデコードは周波数領域で行われる。図５は、本発明の上記の例示として一実施例である。特に、本発明の例示としての実施例は、図２の従来のデコード装置のＰＣＭデコーダ２４の代わりに、図５のモジュール５２を使用することにより実行することができ、それにより、本発明の例示としての実施例のデコード装置が得られる。特に、ＤＰＣＭデコーダ５５への入力は、ロータリ・スイッチ５３によるデコードが行われる前に、シリアルな順番に配列される一連のインデックス値ｉ（ｂ，０）．．．ｉ（ｂ，ｎ−１）によって与えられる。結果として得られるスペクトル値、ｙｑ（ｂ，０）．．．ｙｑ（ｂ，ｎ−１）は、ロータリ・スイッチ５６によるＤＰＣＭデコードの後で並列に配列される。
【００３１】
ＤＰＣＭデコーダ５５は、逆方向量子化装置５４、予測装置５７、および加算器５８からなる。逆量子化装置５４は、ロータリ・スイッチ５３により供給される各インデックス値ｉ（ｂ，０）．．．ｉ（ｂ，ｎ−１）に対して、逆方向量子化ＩＱ_０．．．ＩＱ_ｎ−１を実行する。図４の例示としての開ループ・エンコーダを、オーディオ信号をコード化するために使用した場合には、図５の例示としてのデコーダの予測装置５７および加算器５８の組み合わせは、量子化ノイズの一時的な形を有利に制御するノイズ整形フィルタを形成する。また、図５の例示としてのデコーダは、周波数を高くするために、インデックス値ｉ（ｂ，０）．．．ｉ（ｂ，ｎ−１）を有利に実行するが、他の例示としての実施例は、周波数を低くするため、または他の別の（例えば、非単調な）順序に配列するために、処理を実行することができる。さらに、（本明細書に記載するとおり、その全部のｎではなく）インデックス値のサブセットだけをＤＰＣＭデコーダ５５に供給することもできるし、および／またはいくつかの異なる予測装置フィルタを、好適には、対応するエンコーダが使用する特定の技術と同じ方法で、信号スペクトルのいくつかの部分に対して使用することができる。また、後者の場合、例えば、入力ビット・ストリームを正しくデコードするために、本発明のデコーダは、対応するエンコーダによって送られた追加副次情報を有利に評価することができる。このようにして、デコーダは、必要な対応するデコーダ予測フィルタ・バンクにより、指定の各目標周波数レンジ内でＤＰＣＭデコードを適用することができる。
【００３２】
図７は、本発明の例示としての実施例のモノラル・オーディオ信号をデコードする方法のフローチャートである。このフローチャートの例示としての実施例は、一つの予測フィルタにより、知覚オーディオ・デコーダのある種の関連部分を実行する。より詳細に説明すると、ステップ７１においては、逆方向量子化によりスペクトル係数値の従来の再構成が行われる。その後、判断ステップ７２で、ＤＰＣＭコード化の使用（「予測フラグ」オン）が表示されているかどうかを判断するために、ビット・ストリーム情報がチェックされる。イエスの場合には、ステップ７３および７４に示す拡張デコードプロセスが適用される。より詳細に説明すると、ＤＰＣＭコード化の目標周波数レンジ、予測フィルタの順序、およびそのフィルタ係数を含む情報を決定するために、ビット・ストリームにより送られた副次情報がデコードされる（ステップ７３）。その後、逆方向のフィルタが、指定の目標周波数レンジに対応するスペクトル係数のレンジに適用される（ステップ７４）。その後の他の処理のために、一定のレンジのスペクトル係数の代わりに、ろ過プロセスの出力が使用される。最後に、（そして上記の判断７２によって行われた決定とは無関係に）ステップ７５において、スペクトル係数から従来の合成フィルタ・バンクが実行される。
【００３３】
本発明の多数の特定の実施例を説明してきたが、これら実施例は単に例示としてのものに過ぎず、本発明の原理を適用して考案することができる多くの特定の装置を作ることができることを理解されたい。例えば、図示し、説明してきた例示としての実施例は、モノラル・オーディオ信号のコード化およびデコードに限定されれているが、当業者なら本明細書の開示に基づいて、マルチチャネル（例えば、ステレオ）オーディオ信号のコード化およびデコードに使用することができる他の実施例を容易に思いつくことができるだろう。さらに、通常の当業者なら本発明の精神および範囲から逸脱しないで、本発明の原理により多くの種々の他の装置を考案することがことができるだろう。
【図面の簡単な説明】
【図１】モノラル・オーディオ信号をコード化するのに使用する、ＰＣＭ量子化／コード化スキームを使用する知覚オーディオ・コード化を実行するための従来の装置を示す図である。
【図２】図１の知覚オーディオ・コード化装置に対応する、知覚オーディオデコードを実行するための従来の装置を示す図である。
【図３】本発明の第一の例示としての実施例の閉ループ予測スキームを使用する、知覚オーディオ・エンコーダを示す図である。
【図４】本発明の第二の例示としての実施例の開ループ予測スキームを使用する、知覚オーディオ・エンコーダを示す図である。
【図５】本発明の例示としての実施例の知覚オーディオ・デコーダを示す図である。
【図６】本発明の例示としての実施例のオーディオ信号のコード化方法のフローチャートを示す図である。
【図７】本発明の例示としての実施例のコード化オーディオ信号デコード方法のフローチャートを示す図である。
【符号の説明】
３２モジュール
３３ロータリ・スイッチ
３４ＤＰＣＭエンコーダ
３６予測装置
３７量子化装置
３８減算器
３９加算器

Claims

オーディオ信号を知覚モデルに基づいてコード化して、所与の時間期間についてコード化された信号を生成する方法であって、
（ａ）該オーディオ信号を、該所与の時間期間についての複数のスペクトル成分信号にスペクトル分解するステップと、
（ｂ）該所与の時間期間についての該スペクトル成分信号のうちの一つの信号の、該所与の時間期間についての該スペクトル成分信号の一つまたはそれより多くの他の信号に基づく予測を表わす予測信号を生成するステップと、
（ｃ）該予測信号を、該所与の時間期間についての該スペクトル成分信号のうちの該一つの信号と比較して予測エラー信号を生成するステップと、
（ｄ）該所与の時間期間についての該スペクトル成分信号のうちの該一つの信号を、該予測エラー信号に基づき、さらに該知覚モデルに基づいてコード化して、該所与の時間期間についてのコード化されたスペクトル成分信号を生成するステップと、
（ｅ）該所与の時間期間についての該コード化されたスペクトル成分信号に基づいて、該所与の時間期間についての該コード化された信号を生成するステップと、を含み、
該コード化された信号をデコードすることにより生成される再構成されたオーディオ信号が、該所与の時間期間内に一時的に整形されたコーディング・ノイズを含むようにすることを特徴とする方法。
該オーディオ信号が、音声からなる請求項１に記載の方法。
該オーディオ信号が、音楽からなる請求項１に記載の方法。
該スペクトル成分信号のうちの該一つの信号をコード化するステップが、該予測エラー信号を量子化することからなる請求項１に記載の方法。
該予測信号の生成、および該スペクトル成分信号のうちの該一つの信号のコード化が、閉ループ様式で実行される請求項１に記載の方法。
該予測信号の生成、および上記のスペクトル成分信号のうちの該一つの信号のコード化が、開ループ様式で実行される請求項１に記載の方法。
知覚モデルに基づいて所与の時間期間についてコード化された複数のコード化スペクトル成分信号からなるコード化された信号をデコードして、該所与の時間期間についての再構成されたオーディオ信号を生成する方法であって、
（ａ）該所与の時間期間についての該コード化されたスペクトル成分信号のうちの最初の信号をデコードするステップと、
（ｂ）該所与の時間期間についての該スペクトル成分信号のうちの第二の信号の、該所与の時間期間についての該スペクトル成分信号のうちの第一の信号のデコードに基づく予測を表す予測信号を生成するステップと、
（ｃ）該予測信号に基づいて、該所与の時間期間についての該スペクトル成分信号のうちの第二の信号をデコードするステップと、
（ｄ）該所与の時間期間についての該コード化されたスペクトル成分信号のうちの第一の信号のデコードと、該所与の時間期間についての該コード化されたスペクトル成分信号のうちの第二の信号のデコードに基づいて、該再構成されたオーディオ信号を生成するステップと、を含み、
該再構成されたオーディオ信号が、該所与の時間期間内に一時的に整形されたコーディング・ノイズを含むようにすることを特徴とする方法。
該再構成されたオーディオ信号が、音声からなる請求項７に記載の方法。
該再構成されたオーディオ信号が、音楽からなる請求項７に記載の方法。
該上記スペクトル成分信号のうちの第一の信号をデコードするステップが、逆方向量子化を実行することからなる請求項７に記載の方法。
オーディオ信号から、知覚モデルに基づいて、所与の時間期間についてコード化された信号を生成するためのエンコーダであって、
（ａ）該オーディオ信号を、該所与の時間期間についての複数のスペクトル成分信号に分解する手段と、
（ｂ）該所与の時間期間についての該スペクトル成分信号のうちの一つの信号の、該所与の時間期間についての該スペクトル成分信号の一つまたはそれより多くの他の信号に基づく予測を表す予測信号を生成する手段と、
（ｃ）該予測信号を、該所与の時間期間についての該スペクトル成分信号のうちの該一つの信号と比較して予測エラー信号を生成する手段と、
（ｄ）該所与の時間期間についての該スペクトル成分信号のうちの該一つの信号を表わす該所与の時間期間についてのコード化スペクトル成分信号であって、予測信号およびさらに該知覚モデルに基づいて生成された該所与の時間期間についてのコード化スペクトル成分信号を生成するためのコーダと、
（ｅ）該所与の時間期間についての該コード化されたスペクトル成分信号に基づいて、該所与の時間期間についての該コード化された信号を生成するための手段と、を含み、
該コード化された信号に適用されるデコーダにより生成される再構成されたオーディオ信号が、該所与の時間期間内に一時的に整形されたコーディング・ノイズを含むようにすることを特徴とするエンコーダ。
該コーダが、予測エラー信号に適用された量子化器を含む請求項１１に記載のエンコーダ。
該予測信号を生成するための手段および該コーダが、開ループ様式で配置されている請求項１１に記載のエンコーダ。
該予測信号を生成するための手段および該コーダが、開ループ様式で配置されている請求項１１に記載のエンコーダ。
知覚モデルに基づいて所与の時間期間についてコード化された複数のスペクトル成分信号からなる該所与の時間期間についてのコード化されたオーディオ信号から再構成されたオーディオ信号を生成するためのデコーダであって、
（ａ）該所与の時間期間についての該コード化されたスペクトル成分信号のうちの第一の信号をデコードする手段と、
（ｂ）該所与の時間期間についての該スペクトル成分信号のうちの第二の信号の、該所与の時間期間についての該コード化されたスペクトル成分信号のうちの第一の信号のデコードに基づく予測を表す予測信号を生成する手段と、
（ｃ）該予測信号に基づいて、該所与の時間期間についての該スペクトル成分信号のうちの第二の信号をデコードする手段と、
（ｄ）該所与の時間期間についての該コード化されたスペクトル成分信号のうちの第一の信号のデコードと、該所与の時間期間についての該コード化されたスペクトル成分信号のうちの第二の信号のデコードに基づいて、該所与の時間期間についての再構成されたオーディオ信号を生成するための手段と、を含み、
該再構成されたオーディオ信号が、該所与の時間期間内に一時的に整形されたコーディング・ノイズを含むようにすることを特徴とするデコーダ。
該スペクトル成分信号のうちの第一の信号をデコードするための手段が、それに適用された逆方向量子化器を含む請求項１５に記載のデコーダ。