JP2016527557A

JP2016527557A - 符号化オーディオ信号の復号装置、方法およびコンピュータプログラム

Info

Publication number: JP2016527557A
Application number: JP2016528417A
Authority: JP
Inventors: ディッシュ，ザッシャ; ガイガー，ラルフ; ヘルムリッヒ，クリスティアン; ナゲル，フレデリク; ノイカム，クリスティアン; シュミット，コンスタンティン; フィッシャー，ミヒャエル
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-07-22
Filing date: 2014-07-15
Publication date: 2016-09-08
Anticipated expiration: 2034-07-15
Also published as: EP2830061A1; PL3025337T3; SG11201600422SA; US11257505B2; US20200082841A1; JP2020060792A; US20220157325A1; MY180759A; AU2014295298A1; WO2015010953A1; CA2918524C; CA2973841A1; EP3506260B1; PL3407350T3; RU2016105618A; JP6705787B2; BR122022010960B1; ES2959641T3; BR112016000947B1; TW201517023A

Abstract

【課題】【解決手段】符号化コア信号とパラメトリックデータとを含む符号化オーディオ信号を復号する復号装置であり、符号化コア信号を復号して復号化コア信号を得るコアデコーダ（６００）と、周波数再生動作の前または後に復号化コア信号を解析して解析結果（６０３）を得るアナライザ（６０２）と、復号化コア信号のスペクトル部、パラメトリックデータ（６０５）および解析結果（６０３）を使用して、復号化コア信号に含まれないスペクトル部を再生成する周波数再生成器とを備える復号装置。【選択図】図６Ａ

Description

本発明は、オーディオ符号化および復号化に関し、特に、ＩＧＦ（Ｉｎｔｅｌｌｉｇｅｎｔｇａｐｆｉｌｌｉｎｇ）を用いるオーディオ符号化に関する。

オーディオ符号化は信号圧縮の一分野であり、音響心理学の知識を用いて、オーディオ信号における冗長性および非関連性を利用する処理を行う。今日において、オーディオコーデックは、典型的には、ほぼ全ての種のオーディオ信号の知覚的に透明な符号化のために、チャネルあたり６０ｋｂｐｓ程度を要する。さらに新しいコーデックは、帯域幅拡張（ＢＷＥ）などの技術を用いて、信号におけるスペクトルの類似性を活用して、符号化ビットレートの削減を試みている。あるＢＷＥスキームにおいては、オーディオ信号の高周波数（ＨＦ）成分を示すよう設定された低ビットレートパラメータが用いられる。ＨＦスペクトルは、低周波数（ＬＦ）域からのスペクトルコンテンツによって充足され、スペクトルの形状、傾きおよび時間的連続性が、オリジナル信号の音質および色彩を保つよう調整される。そのようなＢＷＥ手法によって、オーディオコーデックは、チャネルあたり２４ｋｂｐｓ程度の低ビットレートであっても、良好な品質を保つことができる。

独創的なオーディオ符号化システムは、広範囲のビットレートにより、任意のオーディオ信号を効率的に符号化する。ここで、高ビットレートにおいては、独創的なシステムは、透明性に集中する一方、低ビットレートにおいては、知覚的な不快感が最小限化される。したがって、利用可能なビットレートの主要な部分は、エンコーダにおいて、知覚的にもっとも適切な信号構造に波形符号化することに用いられる。そして、その結果としてのスペクトルギャップは、デコーダにおいて、元来のスペクトルに大まかに近接した信号コンテンツによって充填される。エンコーダからデコーダに対して送信される専用のサイド情報によって、相当に限られたビット配分のみが、パラメータ駆動されるいわゆるスペクトルインテリジェントギャップ充填（ＩＧＦ）を制御するのに消費される。

オーディオ信号の蓄積または送信については、厳格なビットレート制限が適用されることがよくある。過去においては、極めて低ビットレートしか利用可能でない場合には、符号化する側において、強制的に、送信オーディオ帯域幅を大幅に低減させられていた。

今日における近代オーディオコーデックは、帯域幅拡張（ＢＷＥ）法を用いて、広帯域信号を符号化できる（非特許文献１）。これらのアルゴリズムは、高周波数コンテンツ（ＨＦ）のパラメータ表現に依拠している。このパラメータ表現は、復号信号の波形符号化された低周波数部（ＬＦ）から、ＨＦスペクトル領域に移転（「パッチング」）させて、パラメータ駆動の後処理を行うことにより、生成される。ＢＷＥスキームにおいては、所与のいわゆるクロスオーバー周波数の上へのＨＦスペクトル領域の再構築が、しばしば、スペクトルパッチングに基づいて行われる。一般的に、ＨＦ領域は、複数の近接パッチから構成され、これらのパッチのそれぞれは、所与のクロスオーバー周波数より下のＬＦスペクトルのバンドパス（ＢＰ）領域から供給される。最新のシステムは、例えば、近接するサブバンド係数一式をソースから対象領域にコピーすることによって、直交ミラーフィルタバンク（ＱＭＦ）などのフィルタバンク表現内において、パッチングを効率的に実施する。

今日のオーディオコーデックに見られる、圧縮効率を向上させかつ低ビットレートでオーディオ帯域幅を拡張する別の技術としては、オーディオスペクトルの適宜な部分を、パラメータ駆動により合成置換する技術が挙げられる。例えば、オリジナルのオーディオ信号におけるノイズ様の信号部分は、デコーダ内で生成され副情報パラメータによりスケーリングされた人工ノイズによって、主観的品質を実質的に損なうことなく置換される。一例としては、ＭＰＥＧ−４アドバンストオーディオコーディング（ＡＡＣ）に含まれる、知覚的ノイズ置換（ＰＮＳ）ツールが挙げられる（非特許文献５）。

低ビットレートでオーディオ帯域幅を拡張する他の規定としては、ＭＰＥＧ−Ｄの音声音響統合符号化方式（ＵＳＡＣ）に含まれる、ノイズ充填技術が挙げられる（非特許文献７）。粗すぎる量子化による量子化装置のデッドゾーンから推測されるスペクトルギャップ（ゼロ）は、デコーダにおける人工ノイズにより事後に充填され、パラメータによって決定される事後処理によってスケーリングされる。

別の最新システムは、精密スペクトル置換（ＡＳＲ）と称される（非特許文献２−４）。波形コーデックに加えて、ＡＳＲは、専用の信号合成段階を採用し、この信号合成段階によって、信号内の知覚的に重要な正弦部分が、デコーダにより復元される。また、非特許文献５に記載のシステムは、波形符号器のＨＦ領域における正弦モデリングに依拠して、低ビットレートでも相当の知覚品質を有する拡張オーディオ帯域幅を実現している。これらの方法は全て、変形離散コサイン変換（ＭＤＣＴ）とは別の第２領域へのデータ変換を含み、また、ＨＦ正弦成分の保存のためのかなり複雑な解析／合成段階を含む。

図１３Ａは、例えば、高効率アドバンストオーディオコーディング（ＨＥ−ＡＡＣ）において使用されている帯域幅拡張技術用の、オーディオエンコーダの概略図である。ライン１３００上のオーディオ信号は、ローパス１３０２およびハイパス１３０４からなるフィルタシステムに入力される。ハイパスフィルタ１３０４から出力された信号は、パラメータ抽出器／符号器１３０６に入力される。パラメータ抽出器／符号器１３０６は、例えば、スペクトル包絡線パラメータやノイズ付加パラメータ、欠落高調波パラメータ、逆フィルタリングパラメータなどのパラメータを計算し、符号化するよう構成される。これらの抽出パラメータは、ビットストリーム多重変換器１３０８に入力される。ローパス出力信号は、ダウンサンプラ１３１０およびコア符号器１３１２の機能を一般的に有する処理器に入力される。ローパス１３０２は、帯域幅を制限して、ライン１３００上のオリジナル入力オーディオ信号よりも、相当に狭い帯域幅に符号化されるようにする。コア符号器において生じる全ての機能が、削減された帯域の信号上で機能すれば良いといという事実により、かなりの符号化利得が得られる。例えば、ライン１３００上のオーディオ信号の帯域幅が２０キロヘルツであり、かつローパスフィルタ１３０２が仮に４キロヘルツの帯域幅を有しているとすると、サンプリング定理を満たすためには、ダウンサンプラの後段の信号が８キロヘルツのサンプリング周波数を有することで理論上は十分であり、これは、オーディオ信号１３００において必要となる少なくとも４０キロヘルツのサンプリングレートの、実質的削減である。

図１３Ｂは、対応する帯域幅拡張デコーダの概略図である。デコーダは、ビットストリーム多重変換器１３２０を有する。ビットストリーム多重分離器１３２０は、コアデコーダ１３２２用の入力信号、およびパラメトリックデコーダ１３２４用の入力信号を抽出する。コアデコーダ出力信号は、上述の例においては、８キロヘルツのサンプリングレートを有し、したがって、４キロヘルツの帯域幅を有する。一方、完全な帯域幅再構築のためには、高周波数再構築器１３３０の出力信号は、少なくとも４０キロヘルツのサンプリングレートを要する２０キロヘルツでなければならない。これを可能にするためには、デコーダ処理器が、アップサンプラ１３２５およびフィルタバンク１３２６の機能を有することが必要となる。そして高周波数再構築器１３３０は、フィルタバンク１３２６より出力され周波数解析された低周波数信号を受信して、図１３Ａのハイパスフィルタ１３０４によって定義された周波数範囲を、周波数帯域のパラメータ表現を用いて再構築する。高周波数再構築器１３３０は、低周波数範囲におけるソース範囲を利用して上位の周波数範囲を再生成したり、スペクトル包絡線を調整したり、ノイズを付与するなど、様々な機能を有している。また、高周波数再構築器１３３０には、欠落高調波を上位の周波数範囲に導入する機能や、図１３Ａの符号器において適用され算出された場合には逆フィルタを行い、高周波数範囲が一般的には低周波数範囲ほど音調がないという事実に対処する機能がある。ＨＥ−ＡＡＣにおいては、デコーダ側において欠落高調波が再合成され、再構築帯域のちょうど真ん中に配置される。したがって、所定の再構築帯域において決定された全ての欠落高調波線は、オリジナル信号で配置されていた周波数値には配置されない。その代わりに、これらの欠落高調波線は、所定帯域の中心周波数に配置される。よって、オリジナル信号中の欠落高調波線が、オリジナル信号中の再構築帯域の境界に非常に近接して配置されると、この欠落高調波線を再構築信号において帯域の中心に配置することにより生じる周波数エラーは、個別の再構築帯域の５０％近くになり、これについてパラメータが生成され送られる。

さらに、一般的なオーディオコア符号器は、スペクトル領域で機能するにも関わらず、コアデコーダはなお時間領域信号を生成し、この時間領域信号が、再びフィルタバンク１３２６機能によりスペクトル領域に変換される。これによって追加的な処理遅延が発生し、またまずスペクトル領域から周波数領域に変形し、そして一般的には再び異なる周波数領域へと変形する直列処理によって、アーティファクトが発生する恐れがある。もちろん、これによって、計算が相当程度複雑になり、相当量の電力が必要となる。この電力の問題は、帯域幅拡張技術が携帯電話やタブレット、ノートパソコンなどの携帯機器に適用された場合、特に問題となる。

現在のオーディオコーデックは、符号化スキームの不可分の一部として、ＢＷＥを用いて低ビットレートオーディオ符号化を実施する。しかしながら、ＢＷＥ技術は、高周波数（ＨＦ）コンテンツのみを置換することに限定されている。さらに、ＢＷＥ技術は、所定のクロスオーバー周波数より上の、知覚的に重要なコンテンツを、波形符号化することはできない。したがって、現代のオーディオコーデックは、信号の音の高調波の正確な配列がほとんどのシステムにおいて考慮されないため、ＢＷＥが実行されると、ＨＦの詳細または音質のいずれかが喪失される。

ＢＷＥシステムの現代技術に関する別の課題としては、オーディオ信号を、ＢＷＥを実行するための新たな領域に変換する必要があることである（例：ＭＤＣＴからＱＭＦ領域への変換）。これによって、同期性の煩雑化、追加的計算の煩雑性およびメモリ要件の増加などにつながる。

オーディオ信号の蓄積または送信については、厳格なビットレート制限が適用されることが多い。過去において、符号器は、相当な低ビットレートしか利用可能でない場合には、送信オーディオ帯域を徹底的に削減することを強制されていた。今日において、近代的なオーディオコーデックは、帯域幅拡張（ＢＷＥ）方法を使って、広帯域信号を符号化することができる（非特許文献１，２）。これらのアルゴリズムは、ＨＦスペクトル領域への転換（「パッチング」）およびパラメータ駆動の後処理によって復号信号の波形符号化された低周波数部分（ＬＦ）から生成される、高周波数コンテンツ（ＨＦ）のパラメータ表現に依存している。

ＢＷＥスキームにおいて、いわゆる所定のクロスオーバー周波数より上のＨＦスペクトル領域は、スペクトルパッチングに基づき再構築されることが多い。スペクトルギャップを充填する他のスキーム、例えばインテリジェントギャップ充填（ＩＧＦ）は、隣接するいわゆるスペクトルタイルを使用して、オーディオ信号ＨＦスペクトル部分を再生する。典型的に、ＨＦ領域は、複数の近接パッチから構成され、これらの各パッチは、所定のクロスオーバー周波数よりも下のＬＦスペクトルのバンドパス（ＢＰ）から供給される。従来のシステムは、近接するサブバンド係数のセットをソースから対象領域にコピーすることにより、フィルタバンク表現内において、効率的にパッチング、すなわちタイル張り、を実施する。ただし、信号コンテンツによっては、ＬＦ帯域と隣接するＨＦ帯域内のパッチから再構成された信号の組合せが、ビーティング、不協和音と、および聴覚的粗さを引き起こすことがある。

そこで、特許文献１には、不協和音ガード帯域フィルタリングのコンセプトが、フィルタバンクを基礎とするＢＷＥシステムの文脈で提示されている。ＬＦとＢＷＥ再生されたＨＦとの間のクロスオーバー周波数で約１バーク帯域のノッチフィルタを有効に適用して、不協和音の可能性を除去し、スペクトルコンテンツをゼロまたは雑音に置き換えることが示唆されている。

しかし、特許文献１に提案された解法は、いくつかの欠点を有している。第一に、ゼロまたは雑音でスペクトルコンテンツの厳格な置き換えは、信号の知覚品質も損なう可能性がある。さらに、提案された処理は、信号適応的ではなく、そのため、ある場合には知覚品質を害する可能性がある。例えば、信号コンテンツが遷移する場合、これが、前または後エコーを引き起こす可能性がある。

第二に、不協和音はまた、連続的なＨＦパッチの間の遷移でも生じる可能性がある。特許文献１で提案された解決策は、単に機能的に、ＬＦとＢＷＥ再生されたＨＦとの間のクロスオーバー周波数で発生する不協和音を是正するだけである。

最後に、特許文献１に提案されたようなフィルタバンクを基本とするシステムとは反対に、ＢＷＥシステムは、修正離散コサイン変換（ＭＤＣＴ）のような変換に基づく実装でも実現される。ＭＤＣＴのような変換は、「さえずりｗａｒｂｌｉｎｇ」（非特許文献１９）あるいはリンギングといったアーティファクト（人工的な音）を生じる傾向がある。このようなアーティファクトは、スペクトル係数の帯域通過領域がコピーされる場合、またはスペクトル係数が特許文献１のようにゼロに設定される場合に生じるものである。

特に、特許文献１は、フィルタバンクを基本とする変換または畳み込みにおいて、ゼロに設定された１または幾つかのサブバンドチャネルで構成されて挿入される「ガード帯域」の使用を開示している。ある数のフィルタバンクチャネルがガード帯域として使用され、ひとつのガード帯域の帯域幅は０．５バークである。これらの不協和音ガード帯域は、ランダム白雑音信号を用いて、すなわちサブバンドにゼロの代わりに白雑音を供給して、部分的に再構成される。ガード帯域は、処理される現在の信号に関わりなく挿入される。

本発明は、符号化オーディオ信号を復号する改善された概念を提供することを目的とする。

この目的は、請求項１に記載の符号化オーディオ信号を復号する復号装置、請求項１６に記載の符号化オーディオ信号を復号する復号方法または請求項１９に記載のコンピュータプログラムによって達成される。

本発明によると、アナライザを用いるデコーダ側の信号解析が、周波数再生の実行の前または後に、復号化コア信号を解析するために行われ、解析結果が提供される。このとき、この解析結果は、周波数再生器により、復号化コア信号に含まれないスペクトル部を再生するために用いられる。

したがって、パッチングまたは周波数タイリングが固定されて実行される場合、すなわち、ある特定のソースレンジがコア信号からとり出され、ある特定の固定された周波数境界が、ソースレンジと再構築レンジとの間の周波数の設定、または再構築レンジ内の２つの隣接する周波数パッチまたはタイルの間の周波数境界の設定のいずれかに適用される固定されたデコーダ設定とは異なり、信号依存パッチングまたはタイリングが実行され、このとき、コアレンジは、コアレンジの周波数境界がコア信号スペクトルの局所極小に一致するように選択される。

これとは別に、あるいは追加的に、信号解析が、予備再生信号または予備周波数パッチまたはタイルされた信号で実行されることもできる。ここで、予備周波数再生手続きの後で、コアレンジと再構築レンジの境界が解析され、互いに非常に近接していて再構築されたときにうなりアーティファクトを生じる問題のあるトーン部のような、あらゆるアーティファクトが作り出した信号部を検出する。これとは別に、あるいは追加的に、境界を解析して、トーン部の途中でのクリッピングを検出することもできる。このようなトーン部のクリッピングは、そのまま再構築されたときに、アーティファクトを作り出すかもしれない。これらの手続きを避けるため、再構築レンジおよび／またはソースレンジおよび／または再構築レンジ内の２つの個別の周波数タイルまたはパッチの間の周波数境界を信号マニピュレータにより修正し、再度、新しく設定された境界で再構築を実行することもできる。

追加的に、または代替として、周波数再生が解析結果に基づく再生成であり、周波数境界がそのまま残り、ソースレンジと再構築レンジとの間、または再構築レンジ内の２つの個別の周波数タイルまたはパッチの間の周波数境界に近接する問題のあるトーン部の除去または少なくとも減衰が行われる。このようなトーン部は近接したトーン部であり、アーティファクトを生じるか、あるいは途中でクリップされたトーン部である。

特に、ＭＤＣＴのような非エネルギ保存変換を用いる場合、単一トーンは、直接には単一スペクトル線にマッピンクされない。その代わり、単一トーンは、トーンの位相に依存するある特定強度の一群のスペクトル線にマッピングされる。パッチング動作がこのトーン部をクリップすると、そのとき、ＭＤＣＴ再構築器内のような完全な再構築が適用されたても、再構築後にアーティファクトが生じる。これは、ＭＤＣＴ再構築器が、最終的に正しいトーンを再構築するためには、そのトーンに対する完全なトーンパターンを必要とするからである。クリッピングが前に行われていることから、完全なトーンパターンをもはや可能ではなく、したがって、時間変化するさえずりアーティファクトが作り出される。本発明による解析に基づいて、周波数再生器は、アーティファクトを作り出す完全なトーン部を減衰させることにより、あるいは、上述したように、対応する境界周波数を変更することにより、またはそれらの双方を適用することにより、またはそのようなトーンパターンについてのある特定の予見に基づいてクリップされた部分を再構築することによって、上述のような状況を取り除く。

付加的に、または代替として、クロスオーバーフィルタリングを、符号化コア信号と、ギャップ充填周波数から最初のタイル停止周波数に延びる周波数を有する最初の周波数タイルとを、スペクトル上でクロスオーバーフィルタリングするため、あるいは最初の周波数タイルと第２の周波数タイルとをスペクトル上でクロスオーバーフィルタリングするため用いることができる。

このクロスオーバーフィルタリングは、いわゆるフィルタリンギングの削減に有用である。

本発明のアプローチは、主に、ＭＤＣＴのような変換に基づくＢＷＥで適用される。

本発明のアプローチは、聴覚的な粗さ、うねりおよび不調和は、遷移点（クロスオーバー周波数またはパッチ境界のような）に近接しているスペクトル領域の信号内容がまさしくトーンである場合にのみ生じる、という観測に基づいている。したがって、従来見出されていた問題点に対して、ここで提案された解決手段は、遷移領域のトーン成分の信号適応的検出と、それに続くそれらの成分の減衰または除去とからなる。それらの成分の減衰または除去は、望ましくは、そのような成分の足から足へのスペクトル内挿により、または代替的にはゼロまたは雑音の内挿により、完遂される。これとは別に、遷移アーティファクトが最小化されるように、遷移のスペクトル位置を信号適応的に選択することもできる。

さらに、この技術は、フィルタリンギングの減少または除去に使用できる。特に過渡的な信号に対して、リンギングは可聴の耳に障るアーティファクトである。フィルタリンギングアーティファクトは、遷移帯域のいわゆるレンガ壁特性（カットオフ周波数における通過帯域から阻止帯域への急峻な遷移）により生じる。このようなフィルタは、時間周波数変換の周波数領域で１つの係数または係数のグループをゼロに設定することにより、効果的に実現される。そのため、ＢＷＥの場合、出願人は、リンギング効果を削減するため、クロスオーバーフィルタを、パッチ間、またはコア帯域と最初のパッチとの間の各遷移周波数に適用することを提案する。クロスオーバーフィルタは、適切な利得関数を採用して、変換領域にスペクトル重み付けを行うことにより実現される。

本発明のさらなる見地によると、符号化オーディオ信号を復号する復号装置は、コアデコーダと、符号化コア信号のスペクトル部を用いて、符号化コア信号に含まれない周波数をもつ１以上のスペクトルタイルを生成するタイル生成器と、符号化コア信号と、ギャップ充填周波数から最初のタイル停止周波数に延びる周波数を有する最初の周波数タイルとを、スペクトル上でクロスオーバーフィルタリングするため、あるいは、ひとつの周波数タイルと、その周波数タイルの上側境界周波数に周波数上で隣接する下側境界周波数を有するさらなる周波数タイルとを、スペクトル上でクロスオーバーフィルタリングするクロスオーバーフィルタと備える。

望ましくは、この手続きは、ＭＤＣＴのような変換に基づく帯域幅拡張で適用することが意図されている。しかしながら、本発明は、一般に適用でき、特に、交ミラーフィルタバンク（ＱＭＦ）に頼る帯域幅拡張シナリオ、特に、システムが決定的に標本化される場合、例えば時間周波数変換または周波数時間変換として実値ＱＭＦ表現がある場合に、適用できる。

本発明の実施は、過渡的な信号に対して特に有用である。その理由は、そのような過渡的な信号に対しては、リングングが可聴で耳障りなアーティファクトだからである。フィルタリンギングアーティファクトは、遷移帯域におけるフィルタのいわゆるレンガ壁特性、すなわちカットオフ周波数での通過帯域から阻止帯域への急峻な遷移により生じる。このようなフィルタは、時間周波数変換の周波数領域で１つの係数または係数のグループをゼロに設定することにより、効果的に実現される。したがって、本発明は、このリングングアーティファクトを削減するため、パッチ／タイル間、またはコア帯域と最初のパッチ／タイルとの間の各遷移周波数のクロスオーバーフィルタに依存する。クロスオーバーフィルタは、変換領域での適当な利得関数を採用するスペクトル重み付けにより実現されることが望ましい。

望ましくは、クロスオーバーフィルタは、信号適応的であり、２つのフィルタ、すなわち、低スペクトル領域に適用されるフェードアウトフィルタと、高スペクトル領域に適用されるフェードインフィルタとを含む。

さらなる態様として、周波数タイルまたは周波数パッチは、クロスオーバーフルタリングを目的とするものだけでなく、タイル生成器は、望ましくは、クロスオーバーフィルタリングを実行する前に、周波数境界のスペクトル極小への設定を含むパッチ適応、および遷移周波数の周囲の遷移領域に残るトーン部の除去または減衰を実行する。

本発明の好適な実施形態を、以下、添付図面を参照して説明する。

図１Ａは、オーディオ信号を符号化する装置を示す図である。図１Ｂは、図１Ａのエンコーダと整合する符号化されたオーディオ信号を復号するデコーダを示す図である。図２Ａは、デコーダの好適な実施形態を示す図である。図２Ｂは、エンコーダの好適な実施形態を示す図である。図３Ａは、図１Ｂのスペクトル領域デコーダによって生成されたスペクトル表現を示す概略図である。図３Ｂは、換算係数帯域用の換算係数と、再構築帯域用のエネルギと、ノイズ充填帯域用のノイズ充填情報との関係を示す表である。図４Ａは、スペクトル部の選択を第１および第２セットのスペクトル部に対して適用するスペクトル領域エンコーダの機能を示す図である。図４Ｂは、図４Ａの機能の実施形態を示す図である。図５Ａは、ＭＤＣＴエンコーダの機能を示す図である。図５Ｂは、ＭＤＣＴ技術とデコーダの機能を示す図である。図５Ｃは、周波数再生器の実施形態を示す図である。図６Ａは、本発明の一実施形態により符号化オーディオ信号復号装置を示す図である。図６Ｂは、符号化オーディオ信号復号装置のさらなる実施形態を示す図である。図７Ａは、図６Ａまたは図６Ｂの周波数再生器の望ましい実施形態を示す図である。図７Ｂは、アナライザと周波数再生器の協働のさらなる実施形態を示す図である。図８Ａは、周波数再生器のさらなる実施形態を示す図である。図８Ｂは、本発明のさらなる実施形態を示す図である。図９Ａは、エネルギ値を再生周波数範囲に使用する周波数生成技術を有するデコーダを示す図である。図９Ｂは、図９Ａの周波数再生器のさらに詳細なる実施形態を示す図である。図９Ｃは、図９Ｂの機能を概略的に示す図である。図９Ｄは、図９Ａのデコーダのさらなる実施形態を示す図である。図１０Ａは、図９Ａのデコーダと整合するエンコーダのブロック図である。図１０Ｂは、図１０Ａのパラメータ計算器のさらなる機能の実施形態を示すブロック図である。図１０Ｃは、図１０Ａのパラメータ計算器のさらなる機能の実施形態を示すブロック図である。図１０Ｄは、図１０Ａのパラメータ計算器のさらなる機能の実施形態を示すブロック図である。図１１Ａは、遷移の周囲のフィルタリンギングのスペクトル示す図である。図１１Ｂは、帯域幅拡張を適用した後の遷移のスペクトル図を示す。図１１Ｃは、フィルタリンギング削減を伴う帯域幅拡張を適用した後の遷移のスペクトル図を示す。図１２Ａは、符号化オーディオ信号復号装置のブロック図である。図１２Ｂは、トーン信号、パッチ／タイル適用なしのコピー、変化した周波数境界のコピー、およびアーティファクトが作り出したトーン部の付加的除去の強度スペクトル（様式化された）を示す図である。図１２Ｃは、クロスフェード関数の一例を示す図である。図１３Ａは、帯域幅拡張を有する従来の符号器を示す図である。図１３Ｂは、帯域幅拡張を有する従来のデコーダを示す図である。図１４Ａは、クロスオーバーフィルタを用いるさらなる符号化オーディオ信号復号装置を示す図である。図１４Ｂは、典型的クロスオーバーフィルタのより詳細を説明する図である。

図６Ａは、符号化コア信号とパラメトリックデータとを含む符号化オーディオ信号を復号する装置を示す。この装置は、符号化コア信号を復号して復号化コア信号を得るコアデコーダ６００と、周波数再生動作を実行する前または後に復号化コア信号を解析するアナライザ６０２とを備える。アナライザ６０２は、解析結果６０３を出力するように構成される。周波数再生成器６０４は、復号化コア信号のスペクトル部分、消失したスペクトル部に対する包絡線データ６０５および解析結果６０３を使用して、復号化コア信号に含まれないスペクトル部分を再生成する。したがって、従来のものと比較すると、周波数再生成が、デコーダ側の信号に依存せずに実行されるのではなく、信号依存で実行される。これは、何も問題無い場合には、周波数再生成がそのまま実行されるが、問題となる信号部分が存在するときには、これが解析結果６０３により検出され、そのとき周波数再生成器６０４が適応的な方法で周波数再生成を実行することができるという利点がある。周波数再生成は、例えば、コア領域と再構築帯域との間の初期周波数境界の変化でもよく、再構築帯域内の２つの別々のタイル／パッチの間の周波数境界の変化でもよい。ガード帯域の導入とは逆に、これは、必要なときもそうでない時も、常に、どのような信号依存も無しに、特定の手続きが実行されるだけであるという利点がある。

望ましくは、コアデコーダ６００は、図６Ｂに示すように、エントロピー（例えばハフマンまたは算術デコーダ）復号化・逆量子化段６１２として実現される。コアデコーダ６００はコア信号スペクトルを出力し、このスペクトルは、スペクトルアナライザ６１４により解析される。図６Ａのアナライザ６０２は、時間領域の信号も解析できるアナライザであるが、そのような任意のアナライザではなくスペクトルアナライザであってもよく、その場合は、スペクトルアナライザ６１４は図６Ａのアナライザ６０２と全く同じになる。図６Ｂの実施形態では、スペクトルアナライザがスペクトル信号を解析するように構成され、これにより、ソース帯域および／またはターゲット帯域内の、すなわち周波数パッチまたは周波数タイル内の、局所極小が判定される。周波数再生成器６０４は、参照番号６１６として示すように周波数再生成を実行し、パッチ境界が、ソース帯域および／またはターゲット帯域の極小に置かれる。

続いて、図７Ａを参照して、図６Ａの周波数再生成器６０４の望ましい実施例を説明する。予備信号再生成器７０２は、入力として、ソース帯域からのソースデータと、追加的に、予備境界周波数のような予備パッチ情報とを受け取る。その結果、予備再生成信号７０３が生成され、これが、予備再生成信号７０３内のトーン成分を検出すための検出器７０４により検出される。これとは別に、あるいは付加的に、ソースデータ７０５は、図６Ａのアナライザ６０２に相当する検出器により解析されてもよい。このとき、予備信号再生成ステップは必要ないかもしれない。ソースデータから再構築データへの明確に定義されたマッピングがある場合には、ソースデータのみを考慮するだけで、極小またはトーンが、コアレンジの上側境界の近くにあるか、または図１２Ｂを参照して後述する２つの個別に生成された周波数タイル領域の間の周波数境界にあるか、を検出できる。

問題のあるトーン成分が周波数境界の近くで発見された場合には、遷移周波数調整器７０６が、コア帯域と再構築帯域との間、または再構築帯域の全く同一のソースデータにより生成された別個の周波数部の間の遷移周波数またはクロスオーバー周波数またはギャップ充填開始周波数のような、遷移周波数の調整を実行する。ブロック７０６の出力信号は、境界のトーン成分を除去する除去器７０８に送られる。除去器は、ブロック７０６による遷移周波数調整の後にもそこに残っている残留トーン成分を除去するように構成されている。除去器７０８の結果は、続いて、フィルタリンギング問題に対処するためのクロスオーバーフィルタ７０１に送られ、クロスオーバーフィルタ７０１の結果が、再構築帯域内でスペクトル包絡線整形を行う包絡線整形ブロック７１２に入力される。

図７Ａを参照して説明したように、ブロック７０４内でのトーン成分の検出は、ソースデータ７０５と予備再構築信号７０３のどちらでも実行される。この実施形態は図７Ｂに示したもので、予備再構築信号が、ブロック７１８で示されるように作り出される。図７Ａの信号成分が続いて検出器７２０に送られ、検出器７２０は、アーティファクトが作り出した成分を検出する。検出器７２０は図７Ａに示すように、周波数境界でトーン成分を検出するための検出器として構成されるが、検出器が他のアーティファクトが作り出した成分を検出するような構成とすることもできる。そのようなスペクトル成分は、トーン成分以外の成分でも良く、アーティファクトが作り出されているかの検出が、異なる再構築を試み、この異なる再構築結果を比較して、どちらがアーティファクトが作り出した成分かを見出すことにより実行されてもよい。

検出器７２０はここで、信号すなわち予備再生成信号を操作するためのマニピュレータ７２２を制御する。この制御は、線７２３により予備再生成信号を実際に処理することにより行われてもよく、例えば線７２４により示される修正された遷移周波数を用いた新たな再生成を実行することにより行われてもよい。

操作手続きのひとつの実施形態では、遷移周波数が、図７Ａに７０６で示すように調整される。さらなる実施形態が、図８Ａに示される。この実施形態は、図７Ａのブロック７０６あるいはブロック７０６を含む構成の代わりに実行される。検出器８０２が、問題のあるトーン部の開始および終了周波数を検出するために設けられる。内挿器８０４が、スペクトルレンジ内のトーン部の開始および終了の間に、内挿、望ましくは複素内挿するように構成される。このとき、図８Ａにブロック８０６で示すように、トーン部は、内挿結果により置き替えられる。

別の実施形態を、図８Ａに、ブロック８０８，８１０で示す。内挿を行う代わりに、トーン部の開始と終了との間で、スペクトル線８０８のランダム生成が実行される。続いて、ランダム生成されたスペクトル線のエネルギ調整が、８１０で示されるように行われ、ランダム生成されたスペクトル線のエネルギが、隣接する非トーンスペクトル部と同じになるように設定される。続いて、トーン部が、包絡線調整されたランダムに生成されたスペクトル線により置き替えられる。スペクトル線は、可能な限りアーティファクトの無い置き替え信号を提供するために、ランダムに、あるいは擬似ランダムに生成される。

さらなる実施形態を、図８Ｂに示す。図６Ａの周波数再生成器６０４内に配置される周波数タイル生成器を、ブロック８２０で示す。このとき、アナライザは、周波数タイル生成器により生成された信号を解析する。周波数タイル生成器８２０は、望ましくは、多タイリング（タイル貼り）を実行して、多数の周波数タイルを生成する構成である。続いて、図８Ｂのマニピュレータ８２４は、周波数タイル生成器の結果を、アナライザ８２２による解析結果出力にしたがって操作する。この操作は、周波数境界の変更、または個々の部分の減衰である。続いて、スペクトル包絡線調整器８２６が、図６Ａを参照して説明したように、パラメトリック情報６０５を用いて、スペクトル包絡線調整を実行する。

続いて、ブロック８２６によるスペクトル調整された信号出力は、周波数時間変換器８２８に入力される。周波数時間変換器８２８は、加えて、第１周波数部、すなわちコアデコーダ６００の出力信号のスペクトル表現を受け取る。周波数時間変換器８２８の出力は、蓄積のために使用されるか、あるいは、オーディオレンダリングのためラウドスピーカに送られる。

本発明は、図１３Ａ，１３Ｂに示すような既知の周波数再生手続きにも適用でき、望ましくは、図１Ａから５Ｂ，９Ａから１０Ｄを参照して後述するインテリジェントギャップ充填のいずれにも適用できる。

図１Ａは、オーディオ信号９９を符号化する装置を示す。オーディオ信号９９は、あるサンプリングレートを有するオーディオ信号をスペクトル表現１０１へと変換する時間スペクトル変換器１００に入力され、変換されたスペクトル表現１０１が、時間スペクトル変換器により出力される。スペクトル１０１は、スペクトル表現１０１を解析するスペクトル解析器１０２に入力される。スペクトル解析器１０１は、第１スペクトル解像度により符号化されるべき第１セットの第１スペクトル部１０３（第１スペクトル部の集合）と、第２スペクトル解像度により符号化されるべき別の第２セットの第２スペクトル部１０５（第２スペクトル部の集合）とを決定するよう構成される。第２スペクトル解像度は、第１スペクトル解像度よりも小さい。第２セットの第２スペクトル部１０５は、第２スペクトル解像度を有するスペクトル包絡線情報を計算するパラメータ計算器すなわちパラメトリック符号器１０４に入力される。さらに、第１スペクトル解像度を有する第１セットの第１スペクトル部の第１符号化表現１０７を生成するために、スペクトル領域オーディオコーダ１０６が設けられる。また、パラメータ計算器すなわちパラメトリック符号器１０４は、第２セットの第２スペクトル部の第２符号化表現１０９を生成するよう構成される。第１符号化表現１０７と第２符号化表現１０９とは、ビットストリーム多重変換装置またはビットストリーム形成器１０８に入力され、ビットストリーム形成器１０８は、最終的に、送信または蓄積装置における蓄積のために、符号化されたオーディオ信号を出力する。

一般的に、図３Ａの３０６などの第１スペクトル部は、３０７ａや３０７ｂのような２つの第２スペクトル部によって取り囲まれている。コア符号化周波数範囲が帯域的に制限されているＨＥＡＡＣの場合には、この限りではない。

図１Ｂは、図１Ａのエンコーダと整合するデコーダを示す。第１符号化表現１０７は、第１セットの第１スペクトル部の第１復号化表現を生成するスペクトル領域オーディオデコーダ１１２に入力される。さらに、第２符号化表現１０９は、第１スペクトル解像度よりも低い第２スペクトル解像度を有する第２セットの第２スペクトル部の第２復号化表現を生成するパラメトリックデコーダ１１４に入力される。

デコーダは、第１解像度を有する再構築第２スペクトル部を、第１スペクトル部を使って再生する周波数再生器１１６をさらに有する。周波数再生器１１６は、タイル充填手順を実行する。つまり、第１セットの第１スペクトル部のタイルまたは部分を使って、第１セットの第１スペクトル部を、第２スペクトル部を有する再構築レンジまたは再構築帯域にコピーする。そして、一般的には、パラメトリックデコーダ１１４により出力された復号された第２表現により示されるように、すなわち、第２セットの第２スペクトル部に関する情報を使って、スペクトル包絡線整形処理、またはその他の手順を実行する。復号化された第１セットの第１スペクトル部と、線１１７上の周波数再生器１１６の出力に示される再構築された第２セットのスペクトル部とは、スペクトル時間変換器１１８に入力される。このスペクトル時間変換器１１８は、第１復号表現と再構築された第２スペクトル部とを、所定の高サンプリングレートを有する時間表現１１９に変換するよう構成される。

図２Ｂは、図１Ａのエンコーダの実施形態を示す。オーディオ入力信号９９は、図１Ａの時間スペクトル変換器１００に対応する解析フィルタバンク２２０に入力される。そして、ＴＮＳブロック２２２において、時間ノイズ整形処理が実行される。したがって、図２Ｂのブロック音調マスク２２６に対応する図１Ａのスペクトル解析器１０２は、時間ノイズ整形／時間タイル整形処理が適用されないときには、全スペクトル値となり、図２Ｂのブロック２２２に示すＴＮＳ処理が適用されるときには、スペクトル残差値となる。２チャンネル信号または多チャンネル信号の場合、ジョイントチャンネル符号化２２８が追加的に実施されてもよく、図１Ａのスペクトル領域エンコーダ１０６には、ジョイントチャンネル符号化ブロック２２８が含まれてもよい。さらに、可逆データ圧縮を実施するエントロピー符号器２３２が設けられ、これは、図１Ａのスペクトル領域エンコーダ１０６の一部となる。

スペクトル解析器／音調マスク２２６は、ＴＮＳブロック２２２の出力を、コア帯域と、第１セットの第１スペクトル部１０３に対応する音調成分と、図１Ａの第２セットの第２スペクトル部１０５に対応する残留成分とに分別する。ＩＧＦパラメータ抽出符号化手順として表示されるブロック２２４は、図１Ａのパラメトリック符号器１０４に対応し、ビットストリーム多重変換装置２３０は、図１Ａのビットストリーム多重変換装置１０８に対応する。

解析フィルタバンク２２２がＭＤＣＴ（変更離散コサイン変換フィルタバンク）として実施され、ＭＤＣＴを使って、変更離散コサイン変換を周波数解析ツールとして機能させて、信号９９を時間−周波数領域に変換することが好ましい。

スペクトル解析器２２６は、音調マスクを適用することが好ましい。この音調マスク推定段階は、信号中のノイズ様成分から音調成分を分別するのに用いられる。これによって、コア符号器２２８が全ての音調成分を心理音響モジュールによって符号化することができる。音調マスク推定段は、いくつもの異なる方法によって実施されてもよく、音声／オーディオ符号化（非特許文献８，９）用の正弦およびノイズモデリング、または非特許文献１０に記載されるＨＩＬＮモデル系オーディオコーダにおいて用いられる正弦トラック推定段と機能的に同様に実施されるのが好ましい。実施形態としては、生死軌跡を維持する必要なく簡単に実施できることが好ましいが、その他の音調またはノイズ検知器を用いてもよい。

ＩＧＦモジュールは、ソース領域と対象領域との間に存在する類似性を計算する。対象領域は、ソース領域からのスペクトルにより表現される。ソース領域と対象領域との類似点を測ることは、クロス相関性アプローチを用いて行われる。対象領域は、非オーバーラップ周波数タイルｎＴａｒに分解される。対象領域における全てのタイルについて、固定開始周波数からソースタイルｎＳｒｃが整形される。これらのソースタイルは、０および１の間の要素によってオーバーラップし、ここで０とは０％のオーバーラップを、１とは１００％のオーバーラップを意味する。これらのソースタイルのそれぞれは、対象タイルに最もマッチするソースタイルを見つけるための様々な遅延において、対象タイルと相関性を有する。最もマッチするタイルの数は、ｔｉｌｅＮｕｍ［ｉｄｘ_ｔａｒ］に記憶され、対象と最も相関性を有する遅延は、ｘｃｏｒｒ_ｌａｇ［ｉｄｘ_ｔａｒ］［ｉｄｘ_ｓｒｃ］に記憶され、相関性のサインは、ｘｃｏｒｒ_ｓｉｇｎ［ｉｄｘ_ｔａｒ］［ｉｄｘ_ｓｒｃ］に記憶される。相関性が極めて否定的な場合には、ソースタイルは、デコーダにおけるタイル充填処理の前に、−１を乗じる必要がある。ＩＧＦモジュールはまた、音調成分が音調マスクを使って保存されていないため、スペクトルにおける音調成分を上書きしないよう注意する必要がある。帯域側のエネルギパラメータは、対象領域のエネルギを蓄積するのに用いられ、これによってスペクトルを正確に再構築することができる。

この方法は、正弦曲線間のギャップがソース領域からの最も整合する「整形ノイズ」により充填される一方、マルチ音調信号の倍音グリットがコア符号器によって保存されるという点で、伝統的なＳＢＲ（非特許文献１）に対して利点がある。ＡＳＲ（精密スペクトル置換）（非特許文献２−４）と比べて、このシステムの別の利点としては、デコーダにおいて信号の重要部分を作り出する信号合成段がないということが挙げられる。その代わり、この作業はコア符号器によって実行される。よって、スペクトルの重要性分を保存できる。提案システムの別の利点としては、その機能が提案する継続的なスケーラビリティが挙げられる。全てのタイルについて単にｔｉｌｅＮｕｍ［ｉｄｘ_ｔａｒ］とｘｃｏｒｒ_ｌａｇ＝０とを使用することは、総粒度マッチングと称され、低ビットレートに使用することができる。一方、可変的なｘｃｏｒｒ_ｌａｇを全てのタイルに使用すると、対象スペクトルとソーススペクトルの整合性がより良くなる。

さらに、トリリングやミュージカルノイズなどの周波数領域アーティファクトを除去するタイル選択安定化技術が提案されている。

ステレオチャンネルのペアの場合には、追加的ジョイントステレオ処理が適用される。この処理は必要であり、というのも、ある目標レンジにおいては、信号が高い相関性を有する定位音源である場合があるためである。この特定の領域について選択された音源領域があまり相関を有しない場合には、目標領域についてエネルギが整合していても、相関しない音源領域によって空間像が悪化する場合がある。エンコーダは、一般的にはスペクトル値のクロス相関処理をして、各目標領域のエネルギ帯域を解析して、もし所定の閾値を超過している場合には、このエネルギ帯域にジョイントフラグを設定する。デコーダにおいて、左右チャンネルのエネルギ帯域は、このジョイントステレオフラグが設定されていない場合、個別に処理される。ジョイントステレオフラグが設定されている場合、両方のエネルギおよびパッチングがジョイントステレオ領域において実行される。ＩＧＦ領域におけるジョイントステレオ情報は、コア符号処理におけるジョイントステレオ情報と同様に信号化され、予測の場合には、予測の方向性がダウンミックスからの残差なのか、それともその逆なのか、を示すフラグが含まれる。

エネルギは、Ｌ／Ｒ領域の送信済エネルギから計算することができる。
ｍｉｄＮｒｇ［ｋ］＝ｌｅｆｔＮｒｇ［ｋ］＋ｒｉｇｈｔＮｒｇ［ｋ］；
ｓｉｄｅＮｒｇ［ｋ］＝ｅｆｔＮｒｇ［ｋ］−ｒｉｇｈｔＮｒｇ［ｋ］；
ここで、ｋは変形領域における周波数指数である。

その他の解決としては、ジョイントステレオが積極的な帯域については、ジョイントステレオ領域において直接エネルギを計算および送信し、デコーダ側にける追加的エネルギ変形を不要とすることが挙げられる。

ソースタイルは、常に、ミッド／サイドマトリック：
ｍｉｄＴｉｌｅ［ｋ］＝０．５・（ｌｅｆｔＴｉｌｅ［ｋ］＋ｒｉｇｈｔＴｉｌｅ［ｋ］
ｓｉｄｅＴｉｌｅ［ｋ］＝０．５・（ｌｅｆｔＴｉｌｅ［ｋ］−ｒｉｇｈｔＴｉｌｅ［ｋ］
エネルギ調整：
ｍｉｄＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］＊ｍｉｄＮｒｇ［ｋ］；
ｓｉｄｅＴｉｌｅ［ｋ］＝ｓｉｄｅＴｉｌｅ［ｋ］＊ｓｉｄｅＮｒｇ［ｋ］；
ジョイントステレオ→ＬＲ変換：
何ら追加的予測パラメータが符号化されていない場合：
ｌｅｆｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］＋ｓｉｄｅＴｉｌｅ［ｋ］
ｒｉｇｈｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］−ｓｉｄｅＴｉｌｅ［ｋ］
追加的な予測パラメータが必要な場合で、信号化された方向性がミッドからサイドの場合：
ｓｉｄｅＴｉｌｅ［ｋ］＝ｓｉｄｅＴｉｌｅ［ｋ］−ｐｒｅｄｉｃｔｉｏｎＣｏｅｆｆ・ｍｉｄＴｉｌｅ［ｋ］
ｌｅｆｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］＋ｓｉｄｅＴｉｌｅ［ｋ］
ｒｉｇｈｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］−ｓｉｄｅＴｉｌｅ［ｋ］
信号化された方向性がサイドからミッドの場合：
ｍｉｄＴｉｌｅ１［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］−ｐｒｅｄｉｃｔｉｏｎＣｏｅｆｆ・ｓｉｄｅＴｉｌｅ［ｋ］
ｌｅｆｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ１［ｋ］−ｓｉｄｅＴｉｌｅ［ｋ］
ｒｉｇｈｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ１［ｋ］＋ｓｉｄｅＴｉｌｅ［ｋ］
に従って生成される。

この処理によって、相関性の高い目標領域と定位目標領域とを再生するのに用いられたタイルから生じた左右チャンネルが、たとえ音源領域が相関を有しないとしても、当該領域のステレオイメージを保存し、相関性を有する定位音源を示すよう確保できる。

つまり、ビットストリームにおいては、例えばＬ／ＲまたはＭ／Ｓのいずれを総合ジョイントステレオ符号化処理に用いるべきかを示すジョイントステレオフラグが送信される。デコーダにおいては、まずコア帯域についてジョイントステレオフラグの示す通り、コア信号が復号される。第二に、コア信号は、Ｌ／ＲおよびＭ／Ｓ表現の両方に蓄積される。ＩＧＦタイル充填について、ソースタイル表現が選択され、ＩＧＦ帯域に関するジョイントステレオ情報の示す対象タイル表現に合うようされる。

時間ノイズ整形（ＴＮＳ）は、標準技術であり、ＡＡＣ（非特許文献１１−１３）の一部である。ＴＮＳは、知覚符号化の基本スキームを延長したものと考えられ、フィルタバンクと量子化段の間に、オプションとしての処理工程を挿入する。ＴＮＳモジュールのメイン作業は、過渡的な信号の時間的マスキング領域において、生成された量子化ノイズを隠すことであり、これによって、効率的な符号化スキームとなる。まず、ＴＮＳは、例えばＭＤＣＴのような変形領域において、「前方予測」を用いて予測係数セットを算出する。そして、これらの係数は、信号の時間的包絡線をフラット化するのに用いられる。量子化によってＴＮＳフィルタスペクトルが影響を受けるため、量子化ノイズも一時的にフラットである。デコーダ側において、逆ＴＮＳフィルタリングを適用することで、量子化ノイズがＴＮＳフィルタの時間的包絡線に従って整形され、よって量子化ノイズがその過渡性によりマスクされる。

ＩＧＦは、ＭＤＣＴ表現に基づく。効率的符号化のためには、好ましくは、約２０ｍｓの長ブロックを用いなければならない。このような長ブロック内における信号が過渡を含む場合、ＩＧＦスペクトル帯域において、タイル充填により、可聴のプリ・ポストエコーが発生する。図７Ｃは、過渡開始前の、ＩＧＦによる一般的なプリエコー効果を示す。左側において、オリジナル信号のスペクトル写真が示され、右側において、ＴＮＳフィルタリングなしで拡張された帯域幅のスペクトル写真が示される。

このプリエコー効果は、ＩＧＦ環境においてＴＮＳを用いることにより低減される。ここでＴＮＳは、デコーダにおけるスペクトル再生がＴＮＳ残差信号に対して実行されるため、時間タイル整形ツール（ＴＴＳ）として用いられている。必要となるＴＴＳ予測係数は、通常通り、エンコーダ側における全スペクトルを用いて計算され、適用される。ＴＮＳ／ＴＴＳ開始および停止周波数は、ＩＧＦツールのＩＧＦ開始周波数ｆ_{ＩＧＦｓｒａｒｔ}によって影響されない。伝統的なＴＮＳと比較して、ＴＴＳ停止周波数は、ｆ_{ＩＧＦｓｒａｒｔ}よりも高いＩＧＦツールの停止周波数まで増加される。デコーダ側において、ＴＮＳ／ＴＴＳ係数が再び全スペクトルにて適用される。つまり、コアスペクトル＋再生スペクトル＋音調マップからの音調成分である（図７ｅを参照）。ＴＴＳの適用は、再生スペクトルの時間包絡線がオリジナル信号の包絡線と整合するよう形成するのに必要である。したがって、示されたプリエコーは低減される。さらに、ＴＮＳには通常のことではあるが、それによってｆ_{ＩＧＦｓｒａｒｔ}より下の信号における量子化ノイズが依然として形成される。

伝統的なデコーダにおいては、オーディオ信号に対するスペクトルパッチングは、パッチ境界におけるスペクトル相関を害する。それによって、分散が生じ、オーディオ信号の時間包絡線が害される。よって、残差信号に対してＩＧＦタイル充填を実施する別のメリットとしては、整形フィルタを適用した後、タイル境界がシームレスに相関し、信号をより忠実に時間的に再生することができることが挙げられる。

発明に係るエンコーダにおいては、ＴＮＳ／ＴＴＳフィルタリング処理、音調マスク処理およびＩＧＦパラメータ予測処理を経たスペクトルは、音調成分を除き、ＩＧＦ開始周波数より上の信号は存在しない。まばらなスペクトルが今、算術符号化および予測符号化の原則によって、コア符号器により符号化される。これらの符号化成分は、信号のビットとともに、オーディオのビットストリームを形成する。

図２Ａは、対応するデコーダの実施形態を示す。符号化オーディオ信号に相当する図２Ａのビットストロームは、図１Ｂであればブロック１１２および１１４に接続される多重分離装置／デコーダに入力される。ビットストリーム多重分離装置は、入力オーディオ信号を、図１Ｂの第１符号化表現１０７と図１Ｂの第２符号化表現１０９とに分離する。第１セットの第１スペクトル部を有する第１符号化表現は、図１Ｂのスペクトル領域デコーダ１１２に対応するジョイントチャンネル復号ブロック２０４に入力される。第２符号化表現は、図２Ａに図示されないパラメトリックデコーダ１１４に入力され、そして図１Ｂの周波数再生器１１６に対応するＩＧＦブロック２０２に入力される。周波数再生に必要な第１セットの第１スペクトル部は、線２０３を経てＩＧＦブロック２０２に入力される。さらに、ジョイントチャンネル復号処理２０４の後、音調マスクブロック２０６において、音調マスク２０６の出力がスペクトル領域符号器１１２の出力と対応するよう、特定のコア復号処理が適用される、そして、合成器２０８による合成が実行され、合成器２０８の出力がフルレンジのスペクトルを有するが、それでいて、ＴＮＳ／ＴＴＳフィルタ領域内にあるというフレーム構成が作成される。そして、ブロック２１０において、逆ＴＮＳ／ＴＴＳ処理が、線１０９を介して供給されるＴＮＳ／ＴＴＳフィルタ情報を用いて実行される。つまり、好ましくは、ＴＴＳサイド情報が、スペクトル領域エンコーダ１０６によって生成される第１符号化表現に含まれる。スペクトル領域エンコーダ１０６は、例えば、直接的なＡＡＣまたはＵＳＡＣコアエンコーダであってもよく、あるいは第２符号化表現に含まれてもよい。ブロック２１０の出力において、最大周波数までの全スペクトルを得ることができ、これはオリジナル入力信号のサンプリングレートによって定められるフルレンジの周波数である。そして、スペクトル／時間変換が合成フィルタバンク２１２において実行され、オーディオ出力信号が最終的に得られる。

図３Ａは、スペクトル表現を表す概略図である。スペクトルは、スケールファクタ帯域ＳＣＢに分割され、図３Ａにおける図示例においては、７つのスケールファクタ帯域ＳＣＢ１〜ＳＣＢ７がある。スケールファクタ帯域は、ＡＡＣ規格に定められるＡＡＣスケールファクタ帯域であってもよく、図３Ａにその概略が図示される通り、上側の周波数まで増加する帯域を有してもよい。スペクトルの当初から（つまり低周波数から）インテリジェントギャップ充填を実行するのではなく、ＩＧＦ手順を３０９にて図示するＩＧＦ開始周波数で開始することが好ましい。したがって、コア周波数帯域は、最低周波数からＩＧＦ開始周波数まで存在する。ＩＧＦ開始周波数より上においては、スペクトル解析を適用して、高解像度のスペクトル成分３０４、３０５、３０６、３０７（第１セットの第１スペクトル部）を、第２セットの第２スペクトル部の示す低解像度成分から分離する。図３Ａは、スペクトル領域エンコーダ１０６またはジョイントチャンネル符号器２２８に例示的に入力されるスペクトルを示し、つまりコアエンコーダがフルレンジで機能しているが、相当量のスペクトル値０を符号化している。これらのスペクトル値０は、ゼロに量子化されるか、または量子化の前または後にゼロに設定される。いずれにせよ、エンコーダは、フルレンジで動作し、スペクトルがその通り表現されているかのように、すなわち、いずれのインテリジェントギャップ充填についても、第２セットの第２スペクトル部の符号化が低スぺクトル解像度で符号化されていることも、知る必要なしに動作する。

好適には、高解像度は、ＭＤＣＴ線のようなスペクトル線の線単位の符号化によって定義づけられ、一方、第２解像度または低解像度は、例えばいくつもの周波数線を対象とするスケールファクタ帯域について、そのスケールファクタ帯域あたりの単一スペクトル値のみを計算することにより定義づけられる。したがって、第２低解像度は、スペクトル解像度については、一般にＡＡＣやＵＳＡＣコアエンコーダなどのコアエンコーダによって適用される線単位符号化によって定義される第１または高解像度よりも、ずっと低い。

スケールファクタまたはエネルギ計算について、その状況が図３Ｂに図示される。エンコーダがコアエンコーダであるという事実、および各帯域において第１セットのスペクトル部の成分が含まれ得る（ただし、必ずしも含まれる必要はない）という事実に伴い、コアエンコーダは、ＩＧＦ開始周波数３０９より下のコア範囲のみならず、ＩＧＦ開始周波数より上の最大周波数ｆ_{ＩＧＦｓｔｏｐ}（これはサンプリング周波数、つまりｆｓ／２の半分以下である）に達するまでの帯域について、ＩＧＦ開始周波数各帯域についてスケールファクタを計算する。よって、本実施形態において、図３Ａにおける符号化音調部３０２、３０４、３０５、３０６、３０７は、スケールファクタＳＣＢ１〜ＳＣＢ７とともに、高解像度スペクトルデータに対応する。低解像度スペクトルデータは、ＩＧＦ開始周波数から開始して計算され、スケールファクタＳＦ４〜ＳＦ７とともに送信される、エネルギ情報値Ｅ_１、Ｅ_２、Ｅ_３、Ｅ_４に対応する。

特に、コアエンコーダが低ビットレート状況下にある場合、コア帯域、つまりＩＧＦ開始周波数よりも低い周波数（スケールファクタ帯域ＳＣＢ１〜ＳＣＢ３）において、追加的ノイズ充填手順が適用されてもよい。ノイズ充填においては、ゼロに量子化されたいくつもの近接するスペクトル線が存在する。デコーダ側においては、これらのゼロに量子化されたスペクトル値は再度合成され、この合成されたスペクトル値について、図３Ｂに３０８として示されるＮＦ_２などのノイズ充填エネルギを用いて、その大きさが調整される。特に、ＵＳＡＣのように、スケールファクタについて絶対ベースまたは相対ベースで設定され得るノイズ充填エネルギは、ゼロに量子化されたスペクトル値のセットのエネルギに対応する。これらのノイズ充填スペクトル線はまた、第３セットの第３スペクトル部と考えられ、直接的なノイズ充填合成により、ソースレンジおよびエネルギ情報値Ｅ_１、Ｅ_２、Ｅ_３、Ｅ_４からのスペクトル値を用いた周波数タイルを再構築するためのその他の周波数からの周波数タイルを用いた周波数再生に依拠する周波数タイルＩＧＦ手順を適用せずに、再生される。

エネルギ情報が計算される帯域は、スケールファクタ帯域と一致することが好ましい。別の実施形態においては、例えばスケールファクタ帯域４および５について単一のエネルギ情報値のみが送信されるよう、エネルギ情報値のグループ分けが適用されるが、この実施形態においても、グループ分けされた再構築帯域は、スケールファクタ帯域の境界と一致する。もし異なる帯域分別が適用された場合には、所定の再計算または同期化計算を適用してもよく、所定の実施形態によってはこれが合理的である。

図１Ａのスペクトル領域エンコーダ１０６は、図４Ａに図示されるような心理音響的に駆動されるエンコーダであることが好ましい。一般的には、例えばＭＰＥＧ２／４のＡＡＣ規格またはＭＰＥＧ１／２レイヤ３規格に示される通り、スペクトル範囲（図４Ａの４０１）に変換された後の符号化対象のオーディオ信号は、スケールファクタ算出器４００に転送される。スケールファクタ算出器は、心理音響モデルによる制御により、量子化対象のオーディオ信号をさらに受信するか、またはＭＰＥＧ１／２レイヤ３規格またはＭＰＥＧＡＡＣ規格の通り、オーディオ信号の復号スペクトル表現を受信する。心理音響モデルは、各スケールファクタ帯域について、心理音響閾値を表現するスケールファクタを算出する。さらに、スケールファクタは、公知の内側および外側反復ループの連携により、またはその他適切なエンコーディング手順により、所定のビットレート条件が満たされるよう調整される。そして、量子化対象スペクトル値と算出スケールファクタとが量子化処理器４０４に入力される。直接的なオーディオ符号化動作においては、量子化対象スペクトル値は、スケールファクタによって重み付けされ、この重み付けされたスペクトル値が、一般的に上位の振幅範囲まで圧縮する機能を有する固定量子化装置に入力される。そして、量子化処理器の出力においては、エントロピーエンコーダに転送される量子化インデックスが確かに存在する。一般的に、このエントロピーエンコーダは、近接する周波数値のためのゼロ量子化インデックスまたは当該分野におけるいわゆるゼロ値「ラン」のために、特定のかつ相当に効率のよい符号機能を有する。

しかしながら、図１Ａのオーディオエンコーダにおいては、量子化処理器は、一般的に、スペクトル解析器から第２スペクトル部に関する情報を受信する。したがって、量子化処理器４０４は、その出力において、スペクトル解析器１０２によって識別された第２スペクトル部がゼロであるか、またはエンコーダもしくはデコーダによってゼロ表現であると認められた表現（特にスペクトルにゼロ値の「ラン」が存在する場合に、相当に効率的に符号化できる表現）を有するよう確保する。

図４Ｂは、量子化処理器の実施形態を図示する。ＭＤＣＴスペクトル値は、ゼロ設定ブロック４１０に入力することができる。そして、ブロック４１２におけるスケールファクタによる重み付けが実施される前に、第２スペクトル部が既にゼロに設定される。追加的実施形態においては、ブロック４１０が設けられず、重み付けブロック４１２の後に、ブロック４１８においてゼロ設定の連携が実施される。さらに別の実施形態においては、量子化ブロック４２０における量子化の後に、ゼロ設定ブロック４２２においてゼロ設定手順が実施されてもよい。この実施形態においては、ブロック４１０および４１８は存在しない。概して、ブロック４１０、４１８および４２２のうち少なくとも１つが、具体的な実施形態に応じて設けられる。

そして、ブロック４２２の出力において、図３Ａに図示されるものに対応する量子化スペクトルが得られる。そして、この量子化スペクトルは、図２Ｂにおける２３２のようなエントロピー符号器に入力される。このエントロピー符号器は、例えばＵＳＡＣ規格に定義されるハフマン符号器または演算符号器であってもよい。

ゼロ設定ブロック４１０、４１８および４２２は、互いに交互に、または並列に設けられるが、スペクトル解析器４２４によって制御される。スペクトル解析器は、公知の音調検知器を有することが好ましく、またはスペクトルを高解像度で符号化される成分と低解像度で符号化される成分とに分別することができる異なる種の検知器を有することが好ましい。その他スペクトル解析器において実行されるアルゴリズムは、異なるスペクトル部に関する解像度要件を、スペクトル情報または関連メタデータに応じて決定する音声活動検出器、ノイズ検出器、音声検出器、その他検出器であってもよい。

図５Ａは、例えばＡＡＣやＵＳＡＣにおいて実施される、図１Ａの時間スペクトル変換器１００の好ましい実施形態を図示する。時間スペクトル変換器１００は、過渡検知器５０４によって制御される窓回路５０２を有する。過渡検知器５０４が過渡を検知すると、長い窓から短い窓への切り替えが窓回路５０２に対して指示される。そして、窓回路５０２は、オーバーラップしているブロックについて、各窓フレームが一般的に２０４８値のような２つのＮ値を有する場合には、窓フレームを計算する。その後、ブロック変換器５０６内での変換が実施され、このブロック変換器が追加的デシメーションを提供する。そして、デシメーション／変換の結合が実行され、ＭＤＣＴスペクトル値などのＮ値を有するスペクトルフレームが得られる。そのため、長窓動作については、ブロック５０６の入力におけるフレームが、例えば２０４８値のような２つのＮ値を有し、そしてスペクトルフレームが１０２４値を有する。しかしながら、その後、長窓と比較して各短ブロックが１／８の窓時間領域値しか有さず、かつ各スペクトルブロックが長ブロックと比較して１／８のスペクトル値しか有さない場合に８つの短ブロックが実行されたときには、短ブロックに対する切替が実行される。そのため、このデシメーションが窓回路の５０％オーバーラップ動作と結合したとき、スペクトルは、時間領域オーディオ信号９９のクリティカルサンプルバージョンである。

続いて、図１Ｂの周波数再生器１１６およびスペクトル時間変換器１１８の特定の実施形態、または図２Ａのブロック２０８および２１２の結合動作の具体的実施形態を示す図５Ｂを参照する。図５Ｂにおいて、特定の再構築帯域が、図３Ａのスケールファクタ帯域６のように考慮される。この再構築帯域における第１スペクトル部（つまり図３Ａの第１スペクトル部３０６）は、フレーム構築／調整ブロック５１０に入力される。その上、スケールファクタ帯域６のための再構築第２スペクトル部も、フレーム構築器／調整器５１０に入力される。また、図３ＢにおけるＥ_３のような、スケールファクタ帯域６のためのエネルギ情報もまた、ブロック５１０に入力される。再構築帯域における再構築第２スペクトル部は、ソースレンジを使って周波数タイル充填により既に生成されており、この再構築帯域が対象レンジに対応する。ここで、フレームのエネルギ調整を実行し、例えば、図２Ａの結合器２０８の出力において得られる、Ｎ値を有する完全な再構築フレームを最終的に得る。そして、ブロック５１２において、逆ブロック変換／補間処理を実行して、例えば、ブロック５１２の入力における１２４スペクトル値について、２４８時間領域値を得る。その後、ブロック５１４において合成窓処理が実行され、これもまた、符号化されたオーディオ信号においてサイド情報として送信される長窓／短窓指示により制御される。そして、ブロック５１６において、前回時間フレームとのオーバーラップ／加算処理が実行される。各新規の時間フレームが２Ｎ値の場合、Ｎの時間領域値が最終的に出力されるよう、ＭＤＣＴは、５０％オーバーラップ処理を適用することが好ましい。５０％オーバーラップ処理によってクリティカルサンプルが提供され、あるフレームから次のフレームへの継続的クロスオーバーが、ブロック５１６におけるオーバーラップ／加算処理により提供されるという事実からすると、５０％オーバーラップ処理が特に好ましい。

図３Ａの３０１に示す通り、ノイズ充填処理は、ＩＧＦ開始周波数より下で追加的に適用されるのみならず、図３Ａのスケールファクタ帯域６と合致する対象再構築帯域などのような、ＩＧＦ開始周波数より上においても追加的に適用されてもよい。そして、ノイズ充填スペクトル値も、フレーム構築器／調整器５１０に入力されてもよく、ノイズ充填スペクトル値がこのブロック内にて調整されてもよい。あるいは、ノイズ充填スペクトル値は、フレーム構築器／調整器５１０に入力されるよりも前に、ノイズ充填エネルギを用いて既に調整されていてもよい。

好ましくは、ＩＧＦ処理（つまりその他の部分からのスペクトル値を使った周波数タイル充填処理）は、全スペクトルに対して適用されてもよい。したがって、スペクトルタイル充填処理は、ＩＧＦ開始周波数より上の高帯域のみならず、低帯域においても適用されてもよい。また、周波数タイル充填によらないノイズ充填もまた、ＩＧＦ開始周波数より下のみならず、ＩＧＦ開始周波数より上でも適用されてもよい。但し、ノイズ充填処理がＩＧＦ開始周波数よりも下に限定され、かつ図３Ａに示される通り、周波数タイル充填処理がＩＧＦ開始周波数よりも上に限定されているときに、高品質および高効率のオーディオエンコーディングが得られることが判明している。

対象タイル（ＴＴ）（ＩＧＦ開始周波数より大きい周波数を有する）は、フルレート符号器のスケールファクタ帯域境界に結合させることが好ましい。ソースタイル（ＳＴ）は、ここから情報を得られるが、ＩＧＦ開始周波数よりも低周波数であり、スケールファクタ帯域境界と結合していない。ＳＴの大きさは、関連するＴＴの大きさに対応すべきである。これを以下の例を使って示す。ＴＴ［０］は、１０ＭＤＣＴビンの長さを有する。これはまさに、２つの後続のＳＣＢの長さ（例えば４＋６）に相当する。そして、ＴＴ［０］と相関性を有する可能性のある全てのＳＴもまた、１０ビンの長さを有する。ＴＴ［０］に近接する第２対象タイルＴＴ［１］は、１５ビンの長さを有する（７＋８の長さを有するＳＣＢ）。そして、そのＳＴは、ＴＴ［０］用の１０ビンではなく、１５ビンの長さを有する。

対象タイルの長さを有するＳＴについて、ＴＴを見つけられない場合が生じたとき（例えば、ＴＴの長さが利用可能なソースレンジよりも大きいとき）には、相関性は計算されず、対象タイルＴＴが完全に充填されるまで、ソースレンジが何度もこのＴＴにコピーされる（このコピーは、第２コピーの最も低い周波数を有する周波数線が、第１コピーの最も高い周波数を有する周波数線の直後に周波数的に来るよう、次から次になされる。）。

そして、図１Ｂの周波数生成器１１６または図２ＡのＩＧＦブロック２０２のさらなる好適実施形態を示す図５Ｃを参照する。ブロック５２２は、対象帯域ＩＤのみならず、さらにソース帯域ＩＤをも受信する周波数タイル生成器である。例示的に、エンコーダ側において、図３Ａのスケールファクタ帯域３がスケールファクタ帯域７の再構築にかなり適していると決定されている。したがって、ソース帯域ＩＤは２であり、対象帯域ＩＤは７である。この情報に基づき、周波数タイル生成器５２２は、スペクトル成分５２３の生の第２部を生成するために、コピー処理や倍音タイル充填処理、その他タイル充填処理を適用する。スペクトル成分の生の第２部は、第１セットの第１スペクトル部に含まれる周波数解像度と同じ周波数解像度を有している。

そして、図３Ａの３０７などのような再構築帯域の第１スペクトル部は、フレーム構築器５２４に入力され、生の第２部５２３もフレーム構築器５２４に入力される。その後、再構築されたフレームは、ゲイン係数算出器５２８によって算出された再構築帯域のゲイン係数を利用して、調整器５２６により調整される。ただし、重要な点としては、フレームにおける第１スペクトル部は、調整器５２６による影響を受けず、再構築フレームのための生の第２部のみが調整器５２６の影響を受けることである。このため、ゲイン係数算出器５２８は、ソース帯域または生の第２部５２３を解析し、さらに、スケールファクタ帯域７が想定される場合には、調整器５２６によって出力される調整後フレームのエネルギがエネルギＥ_４を有するよう、再構築帯域における第１スペクトル部を追加的に解析して、正しいゲイン係数５２７を最終的に見出す。

この意味では、ＨＥ−ＡＡＣと比べて、本発明による周波数再構築の正確性が高いことを評価することが非常に重要である。これは、図３Ａにおけるスケールファクタ帯域７について説明される。図１３Ａに図示される従来のエンコーダは、高解像度で符号化されるべきスペクトル部３０７を「欠落倍音」として検知する。そして、このスペクトル成分のエネルギが、スケールファクタ帯域７などの再構築帯域に関するスペクトル包線絡情報とともに、デコーダに送信される。その後、デコーダが欠落倍音を再生する。しかしながら、欠落倍音３０７が図１３Ａに示す従来のデコーダによって再構築されるスペクトル値が、再構築周波数３９０によって示される周波数における帯域７の中央に存在する。よって、本発明は、図１３Ｄの従来のデコーダによって生じる周波数エラー３９１を避けることができる。

一実施形態において、スペクトル解析器を実行して、第１スペクトル部と第２スペクトル部の類似性を算出し、算出された類似性に基づき、再構築範囲の第２スペクトル部について、この第２スペクトル部とできる限りマッチする第１スペクトル部を決定する。そして、可変的ソース範囲／対象範囲の実行において、パラメトリックコーダは、第２符号化表現において、各対象範囲について整合する対象範囲を表現する整合情報を追加的に導入する。デコーダ側において、この情報は、図５Ｃの周波数タイル生成器５２２によって用いられる。図５Ｃは、ソース帯域ＩＤおよび対象帯域ＩＤに基づく生の第２部５２３の生成を図示する。

さらに、図３Ａに示す通り、スペクトル解析器は、最大限の解析周波数まで、スペクトル表現を解析するよう構成される。この最大限の解析周波数は、サンプリング周波数の半分を少しだけ下回り、少なくともサンプリング周波数の１／４かまたは一般的にはこれより高い方が好ましい。

図示される通り、エンコーダは、低解像度処理をすることなく動作し、またデコーダは、高解像度処理をすることなく動作する。つまり、スペクトル領域オーディオコーダは、オリジナルの入力オーディオ信号のサンプリングレートにより定義されるナイキスト周波数を有するスペクトル表現を生成するよう構成される。

さらに、図３Ａに図示される通り、スペクトル解析器は、ギャップ充填開始周波数から開始し、スペクトル表現に含まれる最大周波数に示される最大周波数で終了するスペクトル表現を解析するよう構成される。そして、最大周波数からギャップ充填開始周波数までのスペクトル部が第１セットのスペクトル部に属し、例えば３０４、３０５、３０６、３０７などのギャップ充填周波数より上の周波数値を有するさらなるスペクトル部が、第１セットの第１スペクトル部に追加的に含まれている。

上述の通り、スペクトル領域オーディオデコーダ１１２は、第１復号表現のスペクトル値によって示される最大周波数が、サンプリングレートを有する時間表現に含まれる最大周波数と等しくなるよう構成され、第１セットの第１スペクトル部における最大周波数のスペクトル値が、ゼロまたはゼロとは異なる値である。いずれにせよ、スペクトル成分の第１セットにおけるこの最大周波数については、スケールファクタ帯域のスケールファクタが存在する。このスケールファクタは、図３Ａおよび３Ｂの関係で議論された通り、このスケールファクタ帯域における全てのスペクトル値がゼロに設定されたか否かを問わず、生成され送信される。

したがって、本発明は、ノイズ置換やノイズ充填（これらの技術は、ローカル信号コンテンツのようなノイズの効率的表現に特化している）などのような圧縮効率を向上させるその他のパラメータ技術について、本発明によると音調成分の正確な周波数再生が可能であるという利点を有する。今日まで、いずれの従来技術も、低帯域（ＬＦ）と高帯域（ＨＦ）における固定された演繹分割の制限のない、スペクトルギャップ充填による任意の信号コンテンツの効率的パラメトリック表現について、提案していない。

本発明のシステムの実施形態は、従来技術のアプローチを改善し、高圧縮効率を実現し、知覚的な不快感をほとんどなくし、低ビットレートであっても全オーディオ帯域を提供する。

一般的なシステムは、下記から構成される。
・全帯域コア符号化
・インテリジェントギャップ充填（タイル充填またはノイズ充填）
・音調マスクにより選択されたコア内におけるまばらな音調部分
・充填を含む、全帯域のためのジョイントステレオペア符号化
・タイル上のＴＮＳ
・ＩＧＦレンジにおけるスペクトル白色化

より効率的なシステムに向かっての第１ステップとしては、スペクトルデータを、コア符号器の１つとは異なる第２変形領域に変換する必要性を除去することである。例えばＡＡＣなどの多くのオーディオコーデックは、ＭＤＣＴを基本的な変換として用いているので、ＭＤＣＴ領域においてＢＷＥも実行できると便利である。ＢＷＥシステムの第２要件としては、音調グリッドを保存する必要性がある。これによって、ＨＦ音調成分が保存され、符号化オーディオの質が既存のシステムよりも優れたものになる。ＢＷＥスキームについて、上記の要件の両方に対処するために、インテリジェントギャップ充填（ＩＧＦ）と称される新システムが提案されている。図２Ｂは、エンコーダ側における提案システムのブロック図を示し、図２Ａは、デコーダ側におけるシステムを示す。

図９Ａは、符号化オーディオ信号を復号する装置を示す。このオーディオ信号は、第１セットの第１スペクトル部の符号化表現、および第２セットの第２スペクトル部についてのスペクトルエネルギを示すパラメトリックデータの符号化表現を含んでいる。第１セットの第１スペクトル部は、図９Ａにおいて９０１ａで示され、パラメトリックデータの符号化表現は、図９Ａの９０１ｂで示される。オーディオデコーダ９００は、第１セットの第１スペクトル部の符号化表現９０１ａを復号して、復号化された第１セットの第１スペクトル部９０４を得るよう設けられる。また、オーディオデコーダ９００は、パラメトリックデータの符号化表現を復号して、個別の再構築帯域について個別のエネルギを示す第２セットの第２スペクトル部についての復号パラメトリックデータ９０２を得る。ここで、第２スペクトル部は、再構築帯域内に存在している。さらに、周波数再生器９０６は、第２スペクトル部を有する再構築帯域のスペクトル値を再構築するために設けられる。さらに、周波数再生器９０６は、第１セットの第１スペクトル部に含まれる第１スペクトル部と、再構築帯域に係る個別のエネルギ情報を用いる。ここで、再構築帯域には、第１スペクトル部と第２スペクトル部が含まれる。周波数再生器９０６は、残存エネルギ情報を決定する算出器９１２を有する。この残存エネルギ情報には、再構築帯域内に周波数を有する第１スペクトル部の累積エネルギが含まれる。さらに、周波数再生器９０６は、再構築帯域のさらなるスペクトル部のタイルエネルギ情報を決定し、第１スペクトル部とは異なる周波数値のための計算器９１８を有する。これらの周波数値は、再構築帯域に周波数を有するものであり、さらなるスペクトル部は、再構築帯域の第１スペクトル部とは異なる第１スペクトル部を用いて、周波数再構築により生成されるものである。

周波数再生器９０６は、再構築帯域における欠落エネルギのための計算器９１４をさらに有する。この計算器９１４は、再構築帯域についての個別エネルギおよびブロック９１２により生成された残存エネルギを用いて動作する。さらに、周波数再生器９０６は、欠落エネルギ情報、およびブロック９１８により生成されたタイルエネルギ情報に基づき、再構築帯域におけるさらなるスペクトル部を調整するスペクトル包絡線調整器９１６を有する。

再構築帯域９２０の一例を示す図９Ｃを参照する。再構築帯域は、図３Ａにおける第１スペクトル部３０６などの再構築帯域における第１スペクトル部を有し、これは９２１としてその概略が示される。さらに、再構築帯域９２０における残りのスペクトル値は、例えば、図３Ａのインテリジェントギャップ充填開始周波数３０９より下のスケールファクタ帯域１、２、３からのソース領域を用いて生成されることとなる。周波数生成器９０６は、第２スペクトル部９２２および９２３のための生スペクトル値を生成するよう構成される。そして、図９Ｃに示される通り、周波数帯域９２２および９２３におけるスペクトル値を最終的に調整するために、そして再構築帯域９２０における再構築および調整第２スペクトル部を得るために、ゲインファクタｇが計算される。これらの第２スペクトル部は、第１スペクトル部９２１と同じスペクトル解像度、つまり同じ線距離を有している。図９Ｃにおいて９２１で示される再構築帯域における第１スペクトル部は、オーディオデコーダ９００によって復号され、図９Ｂのブロック９１６の実施する包絡線調整によっては影響を受けないことを理解することが重要である。その代わり、９２１で示される再構築帯域における第１スペクトル部は、線９０４を介して、全帯域または全レートのオーディオデコーダ９００により出力されるため、そのままに放置される。

以下において、実数を用いた一例について説明する。ブロック９１２により算出された残りの残存エネルギは、例えば５エネルギ単位だとする。このエネルギは、第１フペクトル部９２１において例示的に示された４つのスペクトル線のエネルギである。

さらに、図３Ｂまたは図３Ａのスケールファクタ帯域６に対応する再構築帯域に係るエネルギ数Ｅ３は、１０単位に等しい。重要なこととしては、エネルギ値には、スペクトル部９２２および９２３のエネルギのみならず、エンコーダ側で算出された再構築帯域９２０の全エネルギ（つまり、例えば、音調マスクを用いてスペクトル解析を実行する前のもの）も含まれる。したがって、１０エネルギ単位は、再構築帯域における第１および第２スペクトル部を対象とする。そして、ブロック９２２、９２３のソースレンジデータのエネルギまたはブロック９２２、９２３用の生の対象レンジデータのエネルギは、８エネルギ単位であるという前提とする。よって、５単位の欠落エネルギが計算される。

タイルエネルギｔＥｋにより分割された欠落エネルギに基づき、０．７９のゲインファクタが計算される。そして、第２フペクトル部９２２、９２３の生のスペクトルラインに対して、算出されたゲインファクタを乗じる。よって、第２スペクトル部９２２、９２３のスペクトル値のみが調整され、第１スペクトル部９２１のスペクトル線は、この包絡線調整によって影響を受けない。第２スペクトル部９２２、９２３について生のスペクトル値を乗じた後、完全なる再構築帯域が計算される。これは、再構築帯域における第１スペクトル部から構成され、再構築帯域９２０における第２スペクトル部９２２、９２３のスペクトル線から構成される。

帯域９２２、９２３の生のスペクトルデータを生成するためのソースレンジは、周波数について、ＩＧＦ開始周波数３０９より下であり、再構築帯域９２０はＩＧＦ開始周波数３０９よりも上であることが好ましい。

さらに、再構築帯域境界がスケールファクタ帯域境界と一致することが好ましい。よって、一実施形態において、再構築帯域は、コアオーディオデコーダの対応スケールファクタ帯域の大きさを有するか、またはエネルギペアリングが適用されたとき、再構築帯域のエネルギ値が整数２以上のスケールファクタ帯域のエネルギを提供する大きさを有する。したがって、スケールファクタ帯域４、スケールファクタ帯域５およびスケールファクタ帯域６についてエネルギ蓄積が実施されるとの前提の場合には、再構築帯域９２０の低周波数境界は、スケールファクタ帯域４の下限境界と等しくなり、再構築帯域９２０の高周波数境界は、スケールファクタ帯域６の上限境界と一致する。

以下において、図９Ａのデコーダのさらなる機能を示すために、図９Ｄについて説明する。オーディオデコーダ９００は、第１セットのスペクトル部の第１スペクトル部に対応する逆量子化スペクトル値を受信する。そして、図３Ｂに示すようなスケールファクタ帯域のためのスケールファクタが、追加的に逆スケールブロック９４０に提供される。逆スケールブロック９４０は、図３ＡのＩＧＦ開始周波数３０９より下の全ての第１セットの第１スペクトル部を提供し、さらにＩＧＦ開始周波数より上の第１スペクトル部（つまり、図３Ａの第１スペクトル部３０４、３０５、３０６、３０７であり、これらは全て図９Ｄの９４１に示す通り、再構築帯域内に位置している）を提供する。さらに、再構築帯域における周波数タイル充填に用いられるソース帯域の第１スペクトル部は、包絡線調整器／計算器９４２に提供され、このブロックは、図９Ｄにおいて９４３で示す通り、符号化されたオーディオ信号に対してパラメータサイド情報として提供された再構築帯域のエネルギ情報を追加的に受信する。そして、包絡線調整器／計算器９４２は、図９Ｂおよび９Ｃの機能を提供し、再構築帯域における第２スペクトル部のために、調整されたスペクトル値を最終的に出力する。再構築帯域における第２スペクトル部に係るこれらの調整スペクトル値９２２、９２３、並びに図９Ｄにおいて線９４１により示される再構築帯域の第１スペクトル部９２１は、統合すると、再構築帯域の全スペクトル表現をなしている。

以下において、符号化されたオーディオ信号を提供または生成するために、オーディオ信号を符号化するオーディオエンコーダの好適実施形態を説明する図１０Ａおよび１０Ｂを参照する。このエンコーダは、スペクトル解析器１００４に供給する時間／スペクトル変換器１００２を有し、このスペクトル解析器１００４は、パラメータ計算器１００６に接続する一方、オーディオエンコーダ１００８にも他方で接続する。オーディオエンコーダ１００８は、第１セットの第１スペクトル部の符号化表現を提供し、第２セットの第２スペクトル部を対象としない。一方で、パラメータ計算器１００６は、第１および第２スペクトル部を対象とする再構築帯域のエネルギ情報を提供する。さらに、オーディオエンコーダ１００８は、第１スペクトル解像度を有する第１スペクトル部の第１セットの第１符号化表現を生成するよう構成される。ここで、オーディオエンコーダ１００８は、ブロック１００２によって生成されるスペクトル表現の全ての帯域に係るスケールファクタを提供する。これに加えて、図３Ｂに示す通り、エンコーダは、図３Ａに示すＩＧＦ開始周波数３０９よりも上の周波数に位置する再構築帯域については少なくとも、エネルギ情報を提供する。したがって、再構築帯域がスケールファクタ帯域またはスケールファクタ帯域群と好適に一致しているので、オーディオエンコーダ１００８からの対応スケールファクタと、パラメータ計算器１００６によって出力されるエネルギ情報という２つの値が与えられる。

オーディオエンコーダは、異なる周波数帯域幅を有する（つまり異なる数のスペクトル値を有する）スケールファクタ帯域を有することが好ましい。したがって、パラメータ計算器は、特定の再構築帯域の帯域幅について、異なる帯域幅のためのエネルギを正規化する正規化器１０１２を有する。このため、正規化器１０１２は、入力として、帯域におけるエネルギと、帯域におけるいくつものスペクトル値を受信し、再構築／スケールファクタ帯域毎に正規化されたエネルギを出力する。

さらに、図１０Ａのパラメータ計算器１００６ａは、図１０Ａにおける線１００７により示されるコアまたはオーディオエンコーダ１００８から制御情報を受信するエネルギ値計算器を有する。この制御信号には、オーディオエンコーダによって使用される長／短ブロックに関する情報、および／またはグループ化情報が含まれる場合がある。したがって、長／短ブロックに関する情報および短窓に関するグループ化情報が「時間」グループ分けに関するものである一方、グループ化情報はまた、スペクトルグループ分け（つまり、２つのスケールファクタ帯域を単一の再構築帯域にグルース分けすること）に言及してもよい。よって、エネルギ値計算器１０１４は、フペクトル部のみがグループ分けされているとき、第１予備第２スペクトル部を対象とするグループ分けされた各帯域について、単一のエネルギ値を出力する。

図１０Ｄは、スペクトルグループ分けを実施するためのさらなる実施形態を示す。このため、ブロック１０１６は、２つの近接帯域のエネルギ値を計算するよう構成される。そして、ブロック１０１８において、近接する帯域のエネルギ値を比較し、エネルギ値がそれほど異ならない場合、または例えば、閾値で規定したほど異ならない場合には、ブロック１０２０に示すように、両方の帯域について、単一の（正規化された）値が生成される。線１０１９に示す通り、ブロック１０１８を迂回してもよい。さらに、ブロック１０２０により実行される２つ以上の帯域に係る単一値の生成は、エンコーダビットレート制御１０２４により制御されてもよい。このため、ビットレートを低減する必要がある場合には、ブロック１０１８における比較において、エネルギ情報値のグループ分けが許されない場合であったとしても、符号化されたビットレート制御処理１０２４により、ブロック１０２０を制御して、２つ以上の帯域について単一の正規化値を生成させる。

オーディオエンコーダが２つ以上の短窓のグループ分けを行っているときには、このグループ分けがエネルギ情報についても適用される。コアエンコーダが２つ以上の短ブロックのグループ分けを行うときには、これら２つ以上のブロックについて、スケールファクトの単一セットのみを計算し送出する。デコーダ側においては、オーディオデコーダは、スケールファクタの同じセットを両方のグループ分けされた窓に適用する。

エネルギ情報計算に関して、再構築帯域におけるスペクトル値が２つ以上の短窓に対して蓄積される。つまり、短ブロックおよび後続の短ブロックについての所定の再構築帯域におけるスペクトル値は一緒に蓄積され、２つの短ブロックを対象とするこの再構築帯域については、単一のエネルギ情報値しか送信されないことを意味する。そして、デコーダ側においては、図９Ａないし９Ｄに関して説明された包絡線調整は、各短ブロックについて個別には実施されず、グループ分けされた短窓のセットについて一緒に実施される。

周波数におけるグループ分けまたは時間におけるグループ分けが実施された場合であっても、正規化によって、デコーダ側のエネルギ値情報計算について、一方のエネルギ情報値と再構築帯域またはグループ分けされた再構築帯域のセットにおけるスペクトルライン量のみが簡単に知られるよう、対応する正規化が再び実施される。

さらに、スペクトルエネルギの情報、個別エネルギの情報または個別のエネルギ情報、残存エネルギの情報または残存エネルギ情報、タイルエネルギの情報またはタイルエネルギ情報、あるいは欠落エネルギの情報または欠落エネルギ情報は、エネルギ値だけでなく、振幅値（例えば絶対値）、レベル値、あるいは他の値であって、そこから最終的なエネルギ値を導き出すことのできるどのような値も含むことができる。したがって、エネルギの情報は、例えば、エネルギ値それ自身、および／または、レベルおよび／または振幅および／または絶対振幅の値を含むことができる。

図１２Ａは、復号装置のさらなる実施形態を示す。ビットストリームを、例えばＡＡＣデコーダのようなコアデコーダ１２００により受け取る。結果は、例えば周波数再生成器６０４に相当する帯域幅拡張パッチングまたはタイリング１２０２の実行段に送られる。そして、パッチ／タイル適応および後処理が実行され、パッチ適応が実行されると、周波数再生成器１２０２が、さらなる周波数再生成を実行するように制御されるが、今回は、例えば調整された周波数境界を用いる。さらに、パッチ処理がトーン線の除去または減衰などにより実行されるとき、その結果が、続いてブロック１２０６に送られ、例えばブロック７１２または８２６を参照して説明したように、パラメータ駆動帯域包絡線整形が実行される。その結果は、続いて、例えば図１２Ａに示すＰＣＭ出力ドメインのような最終出力ドメインへの変換行う合成変換ブロック１２０８に送られる。

本発明の実施形態の主な特徴は、以下の通りである。

望ましい実施形態はＭＤＣＴに基づくものであり、ＭＤＣＴは、トーンスペクトル領域がクロスオーバー周波数および／またはせパッチマージンの不運な選択により切り取られた場合、またはトーン成分がパッチ境界近傍に近接しすぎて配置された場合に、上述したさえずりアーティファクトを生じる。

図１２Ｂは、新たに提案される技術が、最新のＢＷＥ法で生じるアーティファクトをいかに削減するかを示す。図１２Ｂのパネル２において、従来のＢＷＥ法の出力の定型化されたマグニチュードスペクトルを示す。この例では、信号は、２つの隣接トーンによるうなり（ｂｅａｔｉｎｇ）により、また、トーンの分離により、知覚的に劣化している。双方の問題のあるスペクトル領域は、それぞれ円により印付けられている。

これらの問題を解決するため、この新しい技術は、最初に、信号に含まれるトーン成分のスペクトル位置を検出する。次に、本発明のひとつの見地によると、ＬＦとすべてのパッチとの間の遷移周波数を、トーン成分の分離またはうなりが最小化されるように、個別のシフト（所定の限度内で）により調整しようとする。この目的のため、遷移周波数が、局所スペクトルの極小に一致することが望ましい。このステップは、図１２Ｂのパネル２およびパネル３に示し、ここで、遷移周波数ｆ_ｘ２がより高いい周波数に向かってシフトさせられ、ｆ’_ｘ２となっている。

本発明の他の見地によると、遷移領域に問題のあるスペクトルコンテンツが残っている場合には、少なくともひとつの間違って置かれたトーン成分を除去して、遷移周波数のうなりアーティファクトまたはさえずりのいずれかを削減する。これは、図２パネル３に示すように、スペクトル外挿または内挿／フィルタリングを介して行われる。トーン成分は、これにより、足点から足点、すなわちその左局所極小から右局所極小に取り除かれる。本発明の技術を適用した後の結果スペクトルを図１２Ｂパネル４に示す。

言い換えると、図１２Ｂは、左上欄、すなわちパネル１に、オリジナルの信号を示す。右上欄、すなわちパネル２に、長円１２２０，１２２１で示された問題のある領域をもつ対照帯域幅拡張信号が示される。左下欄、すなわちパネル３に、２つの望ましいパッチまたは周波数タイル処理が示される。トーン部の分離が周波数境界ｆ′_ｘ２を増加させることにより対処され、対応するトーン部のクリッピングが、もはやそこには存在しなくなる。さらに、トーン部１０３１を除去するための利得関数１０３０，１０３２が適用され、あるいは、代替的に、１０３３で示される内挿が示される。最後に、図１２Ｂの右下欄、すなわちパネル４は、一方でのタイル／パッチ周波数調整と問題のあるトーン部の除去または少なくとも減衰との組み合わせから得られる改善された信号を示す。

図１２Ｂのパネル１は、前述したように、オリジナルのスペクトルを示す。このオリジナルのスペクトルは、クロスオーバーまたはギャップ充填の開始周波数ｆｘ１までのコア周波数を有する。

したがって、周波数ｆｘ１は、ソースレンジ１２５２と、境界周波数１２５０とナイキスト周波数ｆ_{Ｎｙｑｕｉｓｔ}以下最大周波数との間に延びる再構築レンジ１２５４との間の境界周波数１２５０を示す。エンコーダ側では、信号はｆ_ｘ１で帯域制限されていると仮定される、あるいは、インテリジェントギャップ充填についての技術が適用される場合には、ｆ_ｘ１が図３Ａのギャップ充填開始周波数３０９に相当していると仮定される。この技術に依存して、ｆ_ｘ１を超える再構築レンジは、空となるか（図１３Ａ，１３Ｂの実施形態の場合）、あるいは、図３Ａを参照して説明するような高解像度で符号化されるべきある第１周波数部からなる。

図１２Ｂ、パネル２は、予備再生成された信号を示す。この信号は、例えば図７Ａのブロック７０２により生成された信号であり、２つの問題のある部分を含む。問題のある部分のひとつを、１２２０で示す。１２２０ａで示すコア領域内のトーン部と１２２０ｂで示す周波数タイルの開始のトーン部との周波数距離は小さすぎ、このため、うなりアーティファクトが作り出される。さらなる問題は、１２２５で示す最初のパッチ操作または周波数タイル操作により生成された第１周波数タイルの上側境界が、途中でクリップされた、分離したトーン部１２２６であることである。このトーン部１２２６を図１２Ｂの他のトーン部と比較するとき、幅が典型的なトーン部の幅より小さいことが明らかであり、これが、このトーン部が、第１周波数タイル１２２５と第２周波数タイル１２２７との間の周波数境界が、ソースレンジ１２５２内の間違った場所に設定されることにより、このトーン部が分離されていることを意味する。この発生に対処するため、図１２Ｂのパネル３に示すように、境界周波数ｆ_ｘ２を修正して少し大きくする。これにより、トーン部のクリッピングは生じない。

一方、ｆ’_ｘ２が変化させられるこの手続きは、うなりの問題には有効には対処していない。この問題は、したがって、図７Ａのブロック７０８を参照して説明したフィルタリングによるトーン成分の除去または内挿または他のいずれかの手続きにより対処される。図１２Ｂは、遷移周波数調整７０６と、７０８で示す境界でのトーン成分の除去との順次適用示す。

他の選択肢として、遷移周波数ｆ_ｘ１を少し低く設定して、トーン部１２２０ａがもはやコアレンジには無いようにすることもできる。このとき、トーン部１２２０ａは、遷移周波数ｆ_ｘ１を少し低く設定することにより、除去される。

この手続きはまた、問題のあるトーン成分１０３２の発生への対処にも作用する。ｆ’_ｘ２をさらに高く設定することで、トーン部１０３２が置かれているスペクトル部が、第１パッチング動作１２２５内で再生成され、したがって、２つの隣接するトーン部が発生することはない。

基本的にうなりの問題は、隣接するトーン部の周波数の強度と距離に依存する。検出器７０４，７２０、あるいはより一般的にはアナライザ６０２が、どのトーン成分も配置されるため、ｆ_ｘ１，ｆ_ｘ２，ｆ′_ｘ２のような遷移周波数より救い周波数に配置される低周波数部を解析するように構成されることが望ましい。さらに、遷移周波数より上のスペクトルレンジも、トーン成分を検出するために解析される。２つのトーン成分、ひとつは周波数に対して遷移周波数の左、もうひとつは右（高くなる周波数）が検出されたとき、図７Ａに７０８で示す境界のトーン成分の除去器が動作する。トーン成分の検出が、ある検出範囲、対応する帯域の帯域幅に対して遷移周波数から両方向に少なくとも２０％延びる範囲、望ましくは、対応する帯域の帯域幅に対して遷移周波数の左の低域、および遷移周波数の右に高域に１０％だけ延びる範囲、すなわち、一方ではソースレンジの帯域幅で、他方では再構築レンジ、または、遷移周波数が２つの周波数タイル１２２５，１２２７の間の遷移周波数の場合には、対応する周波数タイルの１０％の範囲で行われる。さらなる実施形態では、あらかじめ定められた検出帯域幅が１バークである。パッチ境界の周囲の１バークの範囲内でトーン部を除去することができ、これにより、完全な検出範囲が２バーク、すなわち、低帯域に１バーク、高帯域に１バークとなる。ここで、低帯域の１バークは、高帯域の１バークに直に隣接する。

本発明の他の見地によると、フィルタリンギングアーティファクトの削減のため、周波数領域のクロスオーバーフィルタが、２つの連続するスペクトル領域、すなわちコア帯域と第１パッチとの間、または２つのパッチの間に適用される。クロスオーバーフィルタは、信号適応的であることが望ましい。

クロスオーバーフィルタは、２つのフィルタ、低スペクトル領域周に適用されるフェードアウトフィルタｈ_ｏｕｔと、高スペクトル領域に適用されるフェードインフィルタｈ_ｉｎとからなる。

各フィルタは、長さＮを有する。

加えて、双方のフィルタの傾斜は、クロスオーバーフィルタのノッチ特性を決定する信号適応値Ｘ_ｂｉａｓ
により特徴付けられる。ここで、０≦Ｘ_ｂｉａｓ≦Ｎであり、
Ｘ_ｂｉａｓ＝０のとき、双方のフィルタの合計が１に等しく、そのフィルタにはノッチフィルタ特性はない。
Ｘ_ｂｉａｓ＝Ｎのとき、双方のフィルタは完全に零である。

ここで、ｋ＝０，１，．．．，Ｎ-１は周波数インデックスである。図１２Ｃは、そのようなクロスオーバーフィルタの一例を示す。

この例において、フィルタｈ_ｏｕｔを生成するために、以下の式を使用する。

以下の式が、フィルタｈ_ｉｎ，ｈ_ｏｕｔがどのように適用されるかを説明する。
ここで、Ｙは、組み立てられたスペクトル，ｋ_ｔは遷移周波数、ＬＦは低周波数コンテンツ、ＨＦは高周波数コンテンツである。

次に、この技術が役に立つことの説明を提示する。以下の例のオリジナル信号は過渡信号であり、特に、カットオフ周波数２２ｋＨｚで低域通過濾波されたものである。最初に、この過渡信号が、変換領域で６ｋＨｚに帯域制限される。続いて、低域通過濾波されたオリジナル信号の帯域が、２４ｋＨｚに拡張される。帯域の拡張は、ＬＦ帯域を３回コピーすることにより達成され、変換により６ｋＨｚを超えて得られる周波数レンジを完全に充填する。

図１１Ａは、この信号のスペクトル示す。このスペクトルは、上述した変換のレンガ壁特性（音声ピーク１１００）による、過渡信号をスペクトル的に取り囲むフィルタリンギングアーティファクトの典型的なスペクトルと考えられる。本発明のアプローチを適用することにより、フィルタリンギングが、各過渡周波数毎に、ほぼ２０ｄＢ削減される（音声ピークが削減される）。

同じ効果が、異なる図面の図１１Ｂ，１１Ｃにも示される。図１１Ｂは、過渡信号のスペクトル図を示す。この過渡信号は、どのようなフィルタリンギング削減もしない、上述のＢＷＥを適用した後の、過渡に一時的に前後する上述したフィルタリンギングアーティファクトを有する。水平線はそれぞれ、連続するパッチの間の遷移周波数におけるフルタリンギングを示す。図６は、ＢＷＥに本発明のアプローチを適用した後の、同じ信号を示す。フィルタリンギングは、前の図に示した信号に比較し、ほぼ２０ｄＢ削減されている。

次に、図１４Ａ，１４Ｂを参照して、クアナライザ特性について既に説明した、クロスオーバーフィルタの発明の見地についてさらに説明する。しかしながら、クロスオーバーフィルタ７１０は、図６Ａから図７Ｂを参照して説明した本発明とは独立に実施することもできる。

図１４Ａは、符号化されたコア信号とパラメトリックデータの情報とを含む符号化オーディオ信号を復号する復号装置を示す。この復号装置は、符号化されたコア信号を復号して復号コア信号を得るコアデコーダ１４００を備える。復号コア信号が、帯域幅が図１３Ａ、図１３Ｂを参照した説明したように帯域制限されていてもよく、また、コアデコーダが、図１から図５Ｃまたは図９Ａから図１０Ｄを参照して説明した全周波数範囲すなわちフルレートの符号器であってもよい。

さらに、タイル生成器１４０４が、復号コア信号のスペクトル部を用いて、復号コア信号に含まれない周波数を有する１以上のスペクトルタイルを再生する。タイルは、例えば図３Ａを参照して説明したような、再構築帯域に再構築された第２スペクトル部でもよく、または、高解像度で再構築される第１スペクトル部を含むこともできるが、代替的に、エンコーダが図１３Ａに示すような強い帯域制限を実行するときには、スペクトルタイルは完全に空の周波数帯域でもよい。

さらに、クロスオーバーフィルタ１４０６は、復号コア信号と、ギャップ充填周波数３０９から第１タイル停止周波数に延びる周波数を有する第１周波数タイルと、を周波数上でクロスオーバーフィルタリングするために、あるいは、第１周波数タイル１２２５と、第１周波数タイル１２２５の上側境界周波数に周波数隣接する下側境界周波数を有する第２周波数タイルと、を周波数上でクロスオーバーフィルタリングするために、設けられる。

さらなる実施形態では、クロスオーバーフィルタ１４０６の出力信号が、包絡線調整器１４０８に入力される。包絡線調整器１４０８は、復号オーディオ信号に含まれるパラメトリックスペクトル包絡線情報をパラメトリック付帯情報として適用し、最終的に包絡線調整された再生信号を得る。要素１４０４，１４０６，１４０８は、例えば図１３Ｂ、図１Ｂまたは図６Ａに示した周波数再生器として実現される。

図１４Ｂは、クロスオーバーフィルタ１４０６のさらなる実現形態を示す。クロスオーバーフィルタ１４０６は、第１入力信号ＩＮ１を受け取るフェードアウトサブフィルタ１４２０と、第２入力信号ＩＮ２を受け取るフェードインサブフィルタ１４２２と、を備える。双方のフィルタ１４２０，１４２２の結果、すなわち出力は、結合器１４２４に供給される。結合器１４２４は、例えば加算器である。結合器１４２４は、周波数ビンのための周波数値を出力する。図１２Ｃは、フェードアウトサブフィルタ特性１４２０ａと、フェードインサブフィルタ特性１４２２ａと、を含むクロスフェード関数の一例を示す。２つのフィルタは、ある周波数オーバーラップを有する。図１２Ｃの例では、この周波数オーバーラップは、１２に等しい、すなわちＮ＝１２である。したがって、例えばソースレンジ１２５２などの他の周波数値は、影響を受けない。ソースレンジ１２５２の最も高い周波数ビン２１だけが、フェードアウト関数１４２０ａの影響を受ける。

一方、周波数タイル１２２５の最も低い２１周波数線だけは、フェードイン関数１４２２の影響を受ける。

さらに、クロスフェード関数から、９と１３の間の周波数線が影響を受けるが、フェードイン関数は実際には１と９の間の周波数には影響せず、フェードアウト関数１４２０ａは１３と２１の間の周波数線に影響しないことが明らかである。これは、オーバーラップが周波数線９および１３の間に必要なだけで、ｆ_ｘ１のようなクロスオーバー周波数は、周波数標本すなわち周波数ビン１１に配置されることになる。したがって、ソースレンジと最初の周波数タイルとの間の２つの周波数ビンまたは周波数値のオーバーラップは、クロスオーバーまたはクロスフェード関数を実現するために必要なだけである。

特定の実施形態に依存して、より高いまたはより低いオーバーラップが適用でき、付加的に、コサイン関数ではない他のフェージング関数を用いることもできる。さらに、図１２Ｃに示すように、ある特定のノッチをクロスオーバーレンジ内に適用することが望ましい。別の言い方をすれば、境界領域のエネルギは、ノッチの無いクロスフェード関数の場合と同様に、双方のフィルタ関数が１に加算されることがないという事実により削減される。この周波数タイルすなわち最初の周波数タイルの境界に対するエネルギ損失は、低側境界および高側境界で減衰する。しかしながら、クロスオーバーフィルタによる処理に続いてスペクトル包絡線調整を行うことで、全体の周波数には触れられず、図３Ａを参照して説明した対応するスケールファクタのような、スペクトル包絡線データにより定義される。言い換えると、図９Ｂの計算器９１８がこのとき、「既に生成された生ターゲットレンジ」を計算し、これがクロスオーバーフィルタの出力となる。さらに、内挿によるトーン部の除去によるエネルギ損失は、この除去が次に低側タイルエネルギを引き起こし、完全再構築帯域に対する利得ファクタが高くなるという事実により相殺される。その一方で、しかしながら、クロスオーバー周波数はさらなるエネルギ集中を主端数タイルの中間に引き起こし、これが最終的に、特に図１１Ａから図１１Ｃを参照して説明した過渡により生じるアーティファクトを有効に削減する。

図１４Ｂは、異なる入力組み合わせを示す。ソース周波数レンジと周波数タイルとの間の境界のフィルタリングのため、入力１はコアレンジの上側スペクトル部であり、入力２は、最初の周波数タイル、または単一周波数タイルだけが存在する場合にはそのタイルの、下側スペクトル部である。さらに、入力は最初の周波数タイルでもよく、遷移周波数は最初のタイルの上側周波数境界でもよく、サブフィルタ１４２２への入力は、２番目の周波数タイルの低側部とする。付加的な３番目の周波数タイルが存在する場合には、さらなる遷移周波数が、２番目の周波数タイルと３番目の周波数タイルとの間の周波数境界となり、フェードアウトサブフィルタ１４２０への入力は、図１２Ｃの特性を使用する場合、フィルタパラメータにより定義されるように、２番目の周波数タイルの上側周波数レンジであり、フェードインサブフィルタ１４２２への入力は、３番目の周波数タイルの低側部で、図１２Ｃの例では、最も下側の２１スペクトル線となる。

図１２Ａに示すように、フェードアウトサブフィルタおよびフェードインサブフィルタに対して、等しいパラメータＮを有することが望ましい。しかしながら、これは必須ではない。Ｎの値は変化させることができ、そのとき、結果として、フィルタ「ノッチ」が下側と上側のレンジ間で非対称となる。さらに、フェードイン／フェードアウト関数は、必ずしも図１２Ａのように同じ特性である必要はない。代わりに、非対称特性を使用することもできる。

さらに、クロスオーバーフィルタ特性を、信号適応的とすることが望ましい。したがって、信号解析に基づいて、フィルタ特性が適応化される。クロスオーバーフィルタは特に過渡信号に有効であることから、過渡信号が発生しているかが検出される。過渡信号が発生しているときには、図１２Ｃに示すようなフィルタ特性を用いることができる。しかし、非過渡信号が検出されたときには、フィルタ特性を変更して、クロスオーバーフィルタの影響を削減することが望ましい。これは、例えば、Ｎをゼロに設定するか、あるいはＸ_ｂｉａｓをゼロに設定し、これにより、双方のフィルタの合計を１にする、すなわち、結果として得られるフィルタを無ノッチフィルタ特性とする。しかしながら、望ましくは、急激なフィルタ特性の変化によるアーティファクトを防止するために、パラメータＮ、Ｘ_ｂｉａｓを変更して比較的遅い変化特性とすることがよい。さらに、信号がある特定の過渡／トーン性検出器により検出されるようなより急速に変化する場合でも、比較的小さなフィルタ特性変化を許容するために、低域通過フィルタが望ましい。検出器は、図１４Ａに１４０５で示される。検出器１４０５は、タイル生成器１４０４への入力信号またはタイル生成器１４０４の出力信号を受け取ることもでき、また、ＡＡＣ復号化からのショートブロックインディケーションのような過渡／非過渡情報を受け取るため、コアデコーダ１４００に接続されることもできる。当然、図１２Ｃに示す物以外のどのようなクロスオーバーフィルタでも、同様に使用することができる。

このように、過渡検出に基づいて、またはトーン性検出あるいは他のいずれかの信号特性検出に基づいて、クロスオーバーフィルタ１４０６の特性が、上述のように変更される。

一部の側面については、エンコーディングまたは復号化の装置の文脈において説明されたが、これらの側面は、対応する方法の記載も示すことは明らかであり、ブロックや装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法の観点から説明された側面もまた、対応するブロックもしくは物品または対応する装置の特徴の説明としても機能するものである。一部のまたは全ての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって（またはこれを用いて）実行されてもよい。一部の実施形態において、最も重要な方法ステップの１つ以上がこのような装置によって実行されてもよい。

所定の実施に係る要件次第では、発明の実施形態は、ハードウェアで実行されてもよいし、ソフトウェアで実行されてもよい。実施は、例えばフレキシブルディスク、ハードディスクドライブ（ＨＤＤ）、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ（登録商標）、またはフラッシュメモリなどのような、電子的に読み取り可能な制御信号が蓄積されたデジタル蓄積媒体を用いてすることができ、当該方法が実行されるようこれらのデジタル蓄積媒体がプログラム可能なコンピュータシステムと連携する（または連携することできる）。したがって、デジタル蓄積媒体は、コンピュータに読み取り可能である。

本発明による一部の実施形態では、電子的に読み取り可能な制御信号を有するデータキャリアを含み、当該キャリアは、開示される方法のいずれかが実施されるよう、プログラム可能なコンピュータシステムと連携することができる。

概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実行されてもよく、このようなプログラムコードは、コンピュータプログラム製品がコンピュータにおいて実行されるとき、上記方法のいずれかを実施するよう動作する。このプログラムコードは、例えば機械で読み取り可能なキャリアに蓄積されてもよい。

その他の実施形態においては、開示されるいずれかの方法を実行する、機械で読み取り可能なキャリアに蓄積されたコンピュータプログラムを有する。

つまり、本発明に係る方法は、その一実施形態においては、コンピュータプログラムがコンピュータで実行されたとき、開示されるいずれかの方法を実行するプログラムコードを有するコンピュータプログラムとして構成される。

本発明に係る方法のさらなる実施形態は、したがって、開示される方法のいずれかを実施するコンピュータプログラムが蓄積されたデータキャリア（またはデジタル蓄積媒体またはコンピュータに読み取り可能な媒体）として構成される。データキャリア、デジタル蓄積媒体、または蓄積媒体は、一般的には有形でおよび／または固定的である。

本発明に係る方法のさらなる実施形態は、したがって、開示される方法のいずれかを実施するコンピュータプログラムを示すデータストリームまたは信号シーケンスとして構成される。このデータストリームまたは信号シーケンスは、例えば、データコミュニケーション接続（例えばインターネットなど）を介して送られるよう構成されてもよい。

その他の実施形態においては、開示されるいずれかの方法を実行するよう構成または適応された処理手段、例えばコンピュータ、プログラム可能な論理機構を有する。

その他の実施形態においては、開示されるいずれかの方法を実行するコンピュータプログラムをインストールしたコンピュータを有する。

本発明によるその他の実施形態においては、開示されるいずれかの方法を実行するコンピュータプログラムを、受信器に対して移動（例えば電子的にまたは選択的に）させるよう構成された装置またはシステムを有する。受信器は、例えばコンピュータや携帯機器、メモリ機器などであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信器側に移動させるファイルサーバを有してもよい。

一部の実施形態においては、開示される方法の機能の一部または全部を実行するために、プログラム可能な論理機構（例えば、フィールドプログラマブルゲートアレイ）を用いてもよい。一部の実施形態においては、開示される方法のいずれかを実行するために、フィールドプログラマブルゲートアレイとマイクロプロセッサとを連携させてもよい。一般に、これらの方法はハードウェア装置によって実行されることが好ましい。

上述の実施形態は、本発明の原理を単に示すに過ぎない。この明細書に開示する構成や詳細に対して変更または変形を施すことができることは、当業者にとって明らかであると理解される。したがって、次に続く特許請求の範囲によってのみ制限される趣旨であり、実施形態の記載または説明によってなされた特定の詳細によっては、何ら限定されない。

ＵＳ８，４１２，３６５Ｂ：Ｌｉｌｊｅｒｙｄ，Ｌａｒｓ；Ｅｋｓｔｒａｎｄ，Ｐｅｒ；Ｈｅｎｎ，Ｆｒｅｄｒｉｋ；Ｋｊｏｒｌｉｎｇ，Ｋｒｉｓｔｏｆｅｒ：Ｓｐｅｃｔｒａｌｔｒａｎｓｌａｔｉｏｎ／ｆｏｌｄｉｎｇｉｎｔｈｅｓｕｂｂａｎｄｄｏｍａｉｎ，Ａｐｒｉｌ２，２０１３．

Ｄｉｅｔｚ，Ｌ．Ｌｉｌｊｅｒｙｄ，Ｋ．ＫｊｏｅｒｌｉｎｇａｎｄＯ．Ｋｕｎｚ， "ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ，ａｎｏｖｅｌａｐｐｒｏａｃｈｉｎａｕｄｉｏｃｏｄｉｎｇ，" ｉｎ１１２ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｍｕｎｉｃｈ，Ｍａｙ２００２．Ｆｅｒｒｅｉｒａ，Ｄ．Ｓｉｎｈａ， "ＡｃｃｕｒａｔｅＳｐｅｃｔｒａｌＲｅｐｌａｃｅｍｅｎｔ"，ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，Ｂａｒｃｅｌｏｎａ，Ｓｐａｉｎ２００５．Ｄ．Ｓｉｎｈａ，Ａ．Ｆｅｒｒｅｉｒａ１ａｎｄＥ．Ｈａｒｉｎａｒａｙａｎａｎ， "ＡＮｏｖｅｌＩｎｔｅｇｒａｔｅｄＡｕｄｉｏＢａｎｄｗｉｄｔｈＥｘｔｅｎｓｉｏｎＴｏｏｌｋｉｔ（ＡＢＥＴ）"，ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，Ｐａｒｉｓ，Ｆｒａｎｃｅ２００６．Ｒ．Ａｎｎａｄａｎａ，Ｅ．Ｈａｒｉｎａｒａｙａｎａｎ，Ａ．ＦｅｒｒｅｉｒａａｎｄＤ．Ｓｉｎｈａ， "ＮｅｗＲｅｓｕｌｔｓｉｎＬｏｗＢｉｔＲａｔｅＳｐｅｅｃｈＣｏｄｉｎｇａｎｄＢａｎｄｗｉｄｔｈＥｘｔｅｎｓｉｏｎ"，ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，ＳａｎＦｒａｎｃｉｓｃｏ，ＵＳＡ２００６．Ｔ．Ｚｅｒｎｉｃｋｉ，Ｍ．Ｂａｒｔｋｏｗｉａｋ， "Ａｕｄｉｏｂａｎｄｗｉｄｔｈｅｘｔｅｎｓｉｏｎｂｙｆｒｅｑｕｅｎｃｙｓｃａｌｉｎｇｏｆｓｉｎｕｓｏｉｄａｌｐａｒｔｉａｌｓ"，ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，ＳａｎＦｒａｎｃｉｓｃｏ，ＵＳＡ２００８．Ｊ．Ｈｅｒｒｅ，Ｄ．Ｓｃｈｕｌｚ，ＥｘｔｅｎｄｉｎｇｔｈｅＭＰＥＧ−４ＡＡＣＣｏｄｅｃｂｙＰｅｒｃｅｐｔｕａｌＮｏｉｓｅＳｕｂｓｔｉｔｕｔｉｏｎ，１０４ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ａｍｓｔｅｒｄａｍ，１９９８，Ｐｒｅｐｒｉｎｔ４７２０．Ｍ．Ｎｅｕｅｎｄｏｒｆ，Ｍ．Ｍｕｌｔｒｕｓ，Ｎ．Ｒｅｔｔｅｌｂａｃｈ，ｅｔａｌ．，ＭＰＥＧＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ−ＴｈｅＩＳＯ／ＭＰＥＧＳｔａｎｄａｒｄｆｏｒＨｉｇｈ−ＥｆｆｉｃｉｅｎｃｙＡｕｄｉｏＣｏｄｉｎｇｏｆａｌｌＣｏｎｔｅｎｔＴｙｐｅｓ，１３２ｎｄＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｂｕｄａｐｅｓｔ，Ｈｕｎｇａｒｙ，Ａｐｒｉｌ，２０１２．ＭｃＡｕｌａｙ，ＲｏｂｅｒｔＪ．，Ｑｕａｔｉｅｒｉ，ＴｈｏｍａｓＦ． "ＳｐｅｅｃｈＡｎａｌｙｓｉｓ／ＳｙｎｔｈｅｓｉｓＢａｓｅｄｏｎａＳｉｎｕｓｏｉｄａｌＲｅｐｒｅｓｅｎｔａｔｉｏｎ"．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ＡｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ３４（４），Ａｕｇｕｓｔ１９８６．Ｓｍｉｔｈ，Ｊ．Ｏ．，Ｓｅｒｒａ，Ｘ． "ＰＡＲＳＨＬ：Ａｎａｎａｌｙｓｉｓ／ｓｙｎｔｈｅｓｉｓｐｒｏｇｒａｍｆｏｒｎｏｎ−ｈａｒｍｏｎｉｃｓｏｕｎｄｓｂａｓｅｄｏｎａｓｉｎｕｓｏｉｄａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎ"，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｍｐｕｔｅｒＭｕｓｉｃＣｏｎｆｅｒｅｎｃｅ，１９８７．Ｐｕｒｎｈａｇｅｎ，Ｈ．；Ｍｅｉｎｅ，Ｎｉｋｏｌａｕｓ， "ＨＩＬＮ−ｔｈｅＭＰＥＧ−４ｐａｒａｍｅｔｒｉｃａｕｄｉｏｃｏｄｉｎｇｔｏｏｌｓ"，ＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ，２０００．Ｐｒｏｃｅｅｄｉｎｇｓ．ＩＳＣＡＳ２０００Ｇｅｎｅｖａ．Ｔｈｅ２０００ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎ，ｖｏｌ．３，ｎｏ．，ｐｐ．２０１，２０４ｖｏｌ．３，２０００ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ１３８１８−３， "ＧｅｎｅｒｉｃＣｏｄｉｎｇｏｆＭｏｖｉｎｇＰｉｃｔｕｒｅｓａｎｄＡｓｓｏｃｉａｔｅｄＡｕｄｉｏ：Ａｕｄｉｏ"，Ｇｅｎｅｖａ，１９９８．Ｍ．Ｂｏｓｉ，Ｋ．Ｂｒａｎｄｅｎｂｕｒｇ，Ｓ．Ｑｕａｃｋｅｎｂｕｓｈ，Ｌ．Ｆｉｅｌｄｅｒ，Ｋ．Ａｋａｇｉｒｉ，Ｈ．Ｆｕｃｈｓ，Ｍ．Ｄｉｅｔｚ，Ｊ．Ｈｅｒｒｅ，Ｇ．Ｄａｖｉｄｓｏｎ，Ｏｉｋａｗａ： "ＭＰＥＧ−２ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ"，１０１ｓｔＡＥＳＣｏｎｖｅｎｔｉｏｎ，ＬｏｓＡｎｇｅｌｅｓ１９９６Ｊ．Ｈｅｒｒｅ， "ＴｅｍｐｏｒａｌＮｏｉｓｅＳｈａｐｉｎｇ，ＱｕａｎｔｉｚａｔｉｏｎａｎｄＣｏｄｉｎｇｍｅｔｈｏｄｓｉｎＰｅｒｃｅｐｔｕａｌＡｕｄｉｏＣｏｄｉｎｇ：ＡＴｕｔｏｒｉａｌｉｎｔｒｏｄｕｃｔｉｏｎ"，１７ｔｈＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｉｇｈＱｕａｌｉｔｙＡｕｄｉｏＣｏｄｉｎｇ，Ａｕｇｕｓｔ１９９９Ｊ．Ｈｅｒｒｅ， "ＴｅｍｐｏｒａｌＮｏｉｓｅＳｈａｐｉｎｇ，ＱｕａｎｔｉｚａｔｉｏｎａｎｄＣｏｄｉｎｇｍｅｔｈｏｄｓｉｎＰｅｒｃｅｐｔｕａｌＡｕｄｉｏＣｏｄｉｎｇ：ＡＴｕｔｏｒｉａｌｉｎｔｒｏｄｕｃｔｉｏｎ"，１７ｔｈＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｉｇｈＱｕａｌｉｔｙＡｕｄｉｏＣｏｄｉｎｇ，Ａｕｇｕｓｔ１９９９ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ２３００１−３：２０１０，ＵｎｉｆｉｅｄｓｐｅｅｃｈａｎｄａｕｄｉｏｃｏｄｉｎｇＡｕｄｉｏ，Ｇｅｎｅｖａ，２０１０．ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ１４４９６−３：２００５，Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ − Ｃｏｄｉｎｇｏｆａｕｄｉｏ−ｖｉｓｕａｌｏｂｊｅｃｔｓ − Ｐａｒｔ３：Ａｕｄｉｏ，Ｇｅｎｅｖａ，２００５．Ｐ．Ｅｋｓｔｒａｎｄ， "ＢａｎｄｗｉｄｔｈＥｘｔｅｎｓｉｏｎｏｆＡｕｄｉｏＳｉｇｎａｌｓｂｙＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ"，ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆ１ｓｔＩＥＥＥＢｅｎｅｌｕｘＷｏｒｋｓｈｏｐｏｎＭＰＣＡ，Ｌｅｕｖｅｎ，Ｎｏｖｅｍｂｅｒ２００２Ｆ．Ｎａｇｅｌ，Ｓ．Ｄｉｓｃｈ，Ｓ．Ｗｉｌｄｅ，Ａｃｏｎｔｉｎｕｏｕｓｍｏｄｕｌａｔｅｄｓｉｎｇｌｅｓｉｄｅｂａｎｄｂａｎｄｗｉｄｔｈｅｘｔｅｎｓｉｏｎ，ＩＣＡＳＳＰＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｄａｌｌａｓ，Ｔｅｘａｓ（ＵＳＡ），Ａｐｒｉｌ２０１０Ｄａｕｄｅｔ，Ｌ．；Ｓａｎｄｌｅｒ，Ｍ．； "ＭＤＣＴａｎａｌｙｓｉｓｏｆｓｉｎｕｓｏｉｄｓ：ｅｘａｃｔｒｅｓｕｌｔｓａｎｄａｐｐｌｉｃａｔｉｏｎｓｔｏｃｏｄｉｎｇａｒｔｉｆａｃｔｓｒｅｄｕｃｔｉｏｎ，" ＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．１２，ｎｏ．３，ｐｐ．３０２− ３１２，Ｍａｙ２００４．

Claims

符号化コア信号とパラメトリックデータとを含む符号化オーディオ信号を復号する復号装置において、
前記符号化コア信号を復号して復号化コア信号を得るコアデコーダ（６００）と、
周波数再生動作の前または後に前記復号化コア信号を解析して解析結果（６０３）を得るアナライザ（６０２）と、
前記復号化コア信号のスペクトル部、前記パラメトリックデータ（６０５）および前記解析結果（６０３）を使用して、前記復号化コア信号に含まれないスペクトル部を再生成する周波数再生成器と
を備える復号装置。
請求項１に記載の復号装置において、
前記アナライザ（６１４）は、周波数再生動作の前または後の前記復号化コア信号を解析して、前記復号化コア信号内に１以上の局所スペクトル極小を見つけ、その局所スペクトル極小を識別する解析結果（６０３）を提供する構成であり、
前記周波数再生成器（５０４，６１６）は、スペクトル部を再生する構成であり、
復号化信号のスペクトル部内または再生スペクトル部内の周波数タイルの境界が、前記１以上の局所スペクトル極小に設定される
ことを特徴とする復号装置。
請求項１に記載の復号装置において、
前記周波数再生成器（６０４）は、予備再生信号（７０３）を生成する構成であり、
前記アナライザ（６０２）は、前記予備再生信号を解析して、アーティファクトが作り出した信号部を検出する構成であり、
前記周波数再生成器（６０４）はさらに、前記予備再生信号に含まれる前記アーティファクトが作り出した信号部を削減または除去するため、前記予備再生信号を操作、または前記予備再生信号のパラメータとは異なるパラメータを用いてさらに再生を実行するマニピュレータ（７２２）を有する
ことを特徴とする復号装置。
請求項１から３のいずれか１項に記載の復号装置において、
前記周波数再生成器（６０４）は、前記復号化コア信号のスペクトル部を用いて前記復号化コア信号内に含まれないスペクトル部を有する予備再生信号（７０３）を再生して、再生スペクトル部を得る構成であり、
前記周波数再生成器（６０４）は、前記復号化コア信号と前記再生スペクトル部との間の周波数境界の近くの、または前記周波数再生成器（６０４）を用いて生成された２つの再生スペクトル部または前記復号化コア信号の異なるスペクトル部の間の周波数境界の近くの、アーティファクトが作り出した信号部を検出する構成であり、
前記周波数再生成器（６０４）はさらに、前記予備再生信号生成するために使用する制御データとは異なる操作された制御データを使用して再生信号を新たに生成するため、前記予備再生信号または制御データを操作するマニピュレータ（７２２）を有する
ことを特徴とする復号装置。
請求項４に記載の復号装置において、
前記周波数再生成器（６０４）は、前記復号化コア信号の１以上のスペクトル部を用いて前記スペクトル部を引き出し、生のスペクトル部を得るタイル生成器（８２０）を有し、
前記マニピュレータ（８２４）は、前記生のスペクトル部または前記周波数タイル生成器（８２０）を操作して、操作されたスペクトル部を得るように構成され、
前記周波数再生成器（６０４）はさらに、前記パラメトリックデータ（６０５）を用いて前記操作されたスペクトル部の包絡線調整を行うように構成されたスペクトル包絡線調整器（８２６）を有する
ことを特徴とする復号装置。
請求項１から５のいずれか１項に記載の復号装置において、
前記アナライザ（６０２）は、周波数検出範囲内にあるトーン信号部を検出する構成であり、その周波数検出範囲は、再構築範囲の周波数境界から所定の帯域幅だけ延びる、または再構築範囲内の隣接周波数タイルの間の、所定の帯域幅の範囲であり、この所定の帯域幅は、ソース周波数レンジまたは再構築周波数レンジの帯域幅の２０％未満、または１バークである
ことを特徴とする復号装置。
請求項６に記載の復号装置において、前記マニピュレータ（８２４）は、前記所定の帯域幅内で、前記再生信号内のトーン部を含むスペクトル部を減衰させる、または取り除く（７０８）ように構成されていることを特徴とする復号装置。
請求項７に記載の復号装置において、前記マニピュレータ（７２２，８２４）は、前記トーン信号（８０２）の開始周波数にある開始スペクトル部と、前記トーン信号（８０２）の終了周波数にある終了スペクトル部と、を判定し、前記開始周波数と前記終了周波数との間に内挿（８０４）して内挿信号部を取得し、前記開始周波数と前記終了周波数との間のトーン部を前記内挿信号部（８０６）で置き替えることを特徴とする復号装置。
請求項７に記載の復号装置において、前記マニピューレータ（８２２）は、ランダムに、または非ランダムに、前記復号化コア信号の非トーン信号部または前記再生スペクトル部（８１０）の非トーン信号部により決定されるエネルギを有するスペクトル線（８０８）を生成することを特徴とする復号装置。
請求項４から９のいずれか１項に記載の復号装置において、
前記アナライザは、ある特定の周波数のアーティファクトが作り出した信号部を検出する構成であり、
前記マニピュレータ（７２２，８２４）は、タイル生成器が前記復号化コア信号のスペクトル部の周波数境界または再生スペクトル部の周波数境界を変化させるように前記タイル生成器を制御して、アーティファクトが作り出した信号部がアーティファクトをほとんど、または全く、引き起こさないようにする
ことを特徴とする復号装置。
請求項１から１０のいずれか１項に記載の復号装置において、
前記アナライザ（６０２）は、前記復号化コア信号のスペクトル部内または再生信号内のピーク部の中間スプリットを、前記復号化コア信号の周波数境界、またはそれを用いて生成された２つの再生スペクトル部または前記復号化コア信号の異なるスペクトル部または前記再生され前記再生信号の異なるスペクトル部の間の周波数境界で検出する構成であり、
前記周波数再生成器は、前記復号化コア信号と前記再生信号との間の周波数境界、またはそれを用いて生成された２つの再生スペクトル部または前記復号化コア信号の異なるスペクトル部の間の周波数境界を変更するか、または、最大周波数を変更し、スプリッティングを削減または除去する構成である
ことを特徴とする復号装置。
請求項１から１１のいずれか１項に記載の復号装置において、
前記周波数再生器（６０４）は、前記復号化コア信号の同じまたは異なるスペクトル部を用いて、前記復号化コア信号の第１スペクトル部に対する第１周波数タイルおよび第２スペクトル部に対する第２周波数タイルを生成するタイル生成器（８２０）を有し、
前記アナライザ（６０２）は、ピークスペクトル部が前記第２周波数タイルの下側周波数境界によりクリップされているか、あるいは前記第１周波数タイルの上側周波数境界によりクリップされているか、あるいは前記第１周波数タイルと前記復号化コア信号の所定のギャップ充填開始周波数（３０９）との下側周波数境界によりクリップされているかを検出する構成であり、
前記マニピュレータ（８２４）は、クリッピングが削減または除去されるように修正された開始または停止周波数境界を有する修正周波数タイルを生成するように、前記タイル生成器（８２０）を制御する構成である
ことを特徴とする復号装置。
請求項１から１２のいずれか１項に記載の復号装置において、
前記コアデコーダは、ゼロ表現とは異なるスペクトル値により表現される第１セットの第１スペクトル部を含む周波数領域復号化スペクトル部を得る構成であり、
第２セットの第２スペクトル部はスペクトル値に対してゼロ表現により表現され、
パラメトリック情報が前記第２セットの前記第２スペクトル部に対して提供され、
前記周波数再生器（６０４）は、前記第１セットのスペクトル部から復号化されたスペクトル部を用いて、前記第１セットのスペクトル部に含まれない再構築帯域内のスペクトル部を再生するように構成され、
前記復号装置はさらに、再生されたスペクトル部と前記復号化コア信号のスペクトル部とを時間表現に変換する周波数時間変換器（８２８）を備える
ことを特徴とする復号装置。
請求項１から１３のいずれか１項に記載の復号装置において、
前記コアデコーダ（６００）は、修正離散コサイン変換（ＭＤＣＴ）スペクトル値を出力する構成であり、
前記周波数時間変換器（８２８）は、オーバーラップ加算処理をその後に得られるＭＤＣＴフレームに加える逆ＭＤＣＴ変換（（５１２，５１４，５１６）を実行するためのプロセッサを備える
ことを特徴とする復号装置。
請求項１から１４のいずれか１項に記載の復号装置において、
前記周波数再生器（６０４）は、予備再生された信号を生成（７０２）する構成であり、
前記周波数再生器（６０４）は、前記予備再生された信号内のトーン成分を検出（７０４）する構成であり、
前記周波数再生器は、ソースレンジと再構成レンジとの間、または再構成されたレンジ内の隣接周波数タイル間の遷移周波数を、前記検出（７０４）の結果に基づいて調整し、再生信号を生成する構成であり、
前記再生器はさらに、前記遷移周波数の周りの検出レンジ内にあるトーン成分を除去する（７０８）構成であり、
前記周波数再生器はさらに、前記パラメトリックデータ（６０５）を用いるクロスフィルタの結果をスペクトル包絡線整形するスペクトル波形整形器（７１２）を有する
ことを特徴とする復号装置。
符号化コア信号とパラメトリックデータとを含む符号化オーディオ信号を復号する方法において、
周波数再生操作を実行する前または後に前記符号化コア信号を解析（６０４）して解析結果（６０３）を提供し、
前記復号化コア信号のスペクトル部、前記パラメトリックデータ（６０５）、および前記解析結果（６０３）を用いて、前記復号化コア信号に含まれないスペクトル部を再生（６０４）する
復号方法。
コンピュータまたはプロセッサで動作するとき、請求項１６に記載の方法を実行するコンピュータプログラム。