JP2011528129A

JP2011528129A - 切り換え可能なバイパスを有するオーディオ符号化／復号化方式

Info

Publication number: JP2011528129A
Application number: JP2011517779A
Authority: JP
Inventors: ベルンハルトグリル; シュテファンバイエル; ギヨームフックス; シュテファンガヤーズベアガー; ラルフガイガー; ジョーハンヒルペアト; ウルリヒクレマー; イェレミールコンテ; マルクスマルトラス; マクスノイエンドルフ; ハラルドポップ; ニコラウスレッテルバッハ; ロッシェレフェブル; ブリュノベセトゥ; ジミーラピエール; フィリップグルネー; レドワンサラミ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ; ヴォイスエイジ・コーポレーション
Priority date: 2008-07-17
Filing date: 2009-07-06
Publication date: 2011-11-10
Anticipated expiration: 2029-07-06
Also published as: CA2727883A1; EP2301024B1; CA2727883C; AR072551A1; MX2011000534A; TWI441167B; JP5613157B2; CN102099856A; KR101224884B1; PL2301024T3; EP2301024A1; US20110202355A1; EP2146344A1; HK1156143A1; US8321210B2; KR20110055515A; BRPI0910999A2; AU2009270524B2; TW201009814A; PL2146344T3

Abstract

符号化のための装置は、異なる領域の符号化データによって示される異なる信号部分を有する符号化オーディオ信号を得るために、第１の領域変換器（５１０）、切り換え可能なバイパス（５０）、第２の領域変換器（４１０）、第１の処理装置（４２０）および第２の処理装置（５２０）を含む。ここで、その符号化オーディオ信号は異なる符号化アルゴリズムによって符号化されたものである。領域変換器をバイパスするためのバイパスを伴った前記復号器において対応する復号化ステージは、高品位および低ビットレートを有する復号化オーディオ信号の生成を可能にする。
【選択図】図１ａ

Description

本発明は、オーディオ符号化に、そして、特に、低ビットレートオーディオ符号化方式に関する。

従来技術において、ＭＰ３またはＡＡＣのような周波数領域符号化方式が知られている。これらの周波数領域符号器は、時間領域／周波数領域変換、音響心理学的なモジュールからの情報を使用して制御されるその後の量子化ステージ、および、量子化されたスペクトル係数および対応する補助情報が符号表を使用してエントロピー符号化される、符号化ステージに基づく。

その一方で、例えば３ＧＰＰＴＳ２６．２９０にて説明されているようなＡＭＲ―ＷＢ＋などの音声処理に非常によく適している符号器がある。この種の音声符号化方式は、時間領域信号の線形予測（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ）フィルタリングを実行する。この種のＬＰフィルタリングは、その入力時間領域信号の線形予測（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）分析から生じる。結果として生じるＬＰフィルタ係数は、補助情報として符号化され送信される。その処理は、線形予測符号化（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ：ＬＰＣ）として知られている。そのフィルタの出力で、励振信号としても知られている予測残差信号または予測誤差信号は、ＡＣＥＬＰ符号器の合成による分析ステージを使用して符号化されるかまたは、代わりに、オーバーラップを有するフーリエ変換を使用する変換符号器を使用して符号化される。ＡＣＥＬＰ符号化とＴＣＸ符号化とも呼ばれているＴｒａｎｓｆｏｒｍＣｏｄｅｄｅＸｃｉｔａｔｉｏｎ符号化との間の決定は、閉ループまたは開ループアルゴリズムを使用してなされる。

ＨＥ―ＡＡＣ（ｈｉｇｈｅｆｆｉｃｉｅｎｃｙＡＡＣ）符号化方式のような周波数領域オーディオ符号化方式は、ＡＡＣ符号方式およびスペクトル帯域複製（ＳＢＲ：ｓｐｅｃｔｒａｌｂａｎｄｗｉｄｔｈｒｅｐｌｉｃａｔｉｏｎ）技術を組み合わせたものであるが、それはまた、「ＭＰＥＧサラウンド」という専門用語の下で知られるジョイントステレオまたはマルチチャンネル符号化ツールにも組み合わすことができる。

その一方で、ＡＭＲ―ＷＢ＋のような音声符号器も、高周波強調ステージおよびステレオ機能性を有する。

周波数領域符号化方式は、それらが音楽信号には低ビットレートで高品質を示すという点で、有利である。しかし、低ビットレートでの音声信号の品質には、問題がある。

音声符号化方式は、音声信号には低ビットレートでさえ高品質を示すが、音楽信号には低ビットレートで低品質を示す。

３ＧＰＰＴＳ２６．１９０３ＧＰＰＴＳ２６．２９０「音声符号化：指導書概説」アンドレアススパニアス、ＩＥＥＥ議事録、第８２巻、Ｎｏ．１０、１９９４年１０月、ページ１５４１―１５８２（"ＳｐｅｅｃｈＣｏｄｉｎｇ：ＡＴｕｔｏｒｉａｌＲｅｖｉｅｗ"，ＡｎｄｒｅａｓＳｐａｎｉａｓ，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，Ｖｏｌ．８２，Ｎｏ．１０，Ｏｃｔｏｂｅｒ１９９４，ｐａｇｅｓ１５４１−１５８２）

本発明の目的は、改良された符号化／復号化構想を提供することにある。

この目的は、請求項１に記載のオーディオ信号を符号化するための装置、請求項１２に記載のオーディオ信号を符号化するための方法、請求項１３に記載の符号化オーディオ信号を復号化する装置、請求項２１に記載の符号化オーディオ信号を復号化する方法、または、請求項２２に記載のコンピュータ・プログラムによって達成される。

本発明に記載の符号器において、２つの領域変換器が使用されており、第１の領域変換器は、例えば時間領域などの第１の領域から、例えばＬＰＣ領域などの第２の領域に、オーディオ信号を変換する。第２の領域変換器は、入力領域から出力領域に変換する働きをしている、そして、第２の領域変換器は、入力として、第１の領域変換器の出力信号または切り換え可能なバイパスの出力信号を受けとる。そして、そのバイパスは第１の領域変換器をバイパスするために接続される。換言すれば、これは、第２の領域変換器が、入力として、時間領域のような第１の領域のオーディオ信号、または、代わりに、第１の領域変換器の出力信号、すなわち、すでにある領域から違う領域に変換されたオーディオ信号を受けとることを意味する。第２の領域変換器の出力は第１の処理された信号を生成するために第１の処理装置によって処理され、そして、第１の領域変換器の出力は第２の処理された信号を生成するために第２の処理装置によって処理される。好ましくは、第２の処理装置への入力が第１の領域変換器の出力よりむしろ時間領域のオーディオ信号であるように、切り換え可能なバイパスは、さらに、同様に第２の処理装置と接続できる。

この極めて柔軟な符号化構想は、高品質および高ビット効率のオーディオ符号化に特に役立つ。これは、その構想がオーディオ信号を少なくとも３つの異なる領域において符号化することを可能にし、そして、その切り換え可能なバイパスが、さらに、第２の処理装置に同様に接続される時は、４つの領域においてさえ可能にするためである。このことは、時間領域オーディオ信号のある部分のための第１の領域変換器をバイパスまたは橋渡しするために、あるいは、そうしないために、その切り換え可能なバイパスに対し制御可能な切り換えを行なうことによって達成できる。第１の領域変換器がバイパスされる場合であっても、時間領域オーディオ信号を符号化するための２つの異なる可能性はまだ残っている。すなわち、第２の領域変換器に接続された第１の処理装置を経由するか、または、第２の処理装置を経由するかである。

好ましくは、第１の処理装置および第２の領域変換器は共に、ＭＰＥＧ１Ｌａｙｅｒ３またはＭＰＥＧ４（ＡＡＣ）から知られる心理音響学的に駆動されるオーディオ符号器のような情報受信側モデル（ｉｎｆｏｒｍａｔｉｏｎ−ｓｉｎｋｍｏｄｅｌ）の符号器を形作る。

好ましくは、他方の符号器、すなわち、第２の処理装置は、時間領域符号器であり、それは例えばＡＣＥＬＰ符号器から知られるような残差符号器である。そこでは、ＬＰＣ残差信号が、例えばＬＰＣ残差信号または時間領域信号のためのベクトル量子化符号器のような残差符号器を使用して符号化される。実施形態において、バイパスが開いているとき、この時間領域符号器は、入力として、ＬＰＣ領域信号を受ける。この種の符号器は情報源モデル（ｉｎｆｏｒｍａｔｉｏｎｓｏｕｒｃｅｍｏｄｅｌ）の符号器である。これは、情報源モデルの符号器が、情報受信側モデル（ｉｎｆｏｒｍａｔｉｏｎｓｉｎｋｍｏｄｅｌ）の符号器とは対照的に、特に音声生成モデルの規定を利用するように設計されているためである。しかし、バイパスが閉じているときは、第２の処理装置への入力信号はＬＰＣ領域信号よりむしろ時間領域信号であるだろう。

しかし、切り換え可能なバイパスの動作が停止される場合、それは第１の領域からのオーディオ信号が更に処理される前に第２の領域に変換されることを意味するが、その場合、再び２つの異なる可能性が残る。すなわち、例えばＬＰＣ領域でありうる第２の領域にある第１の領域変換器の出力を符号化するか、あるいは、代わりに、例えばスペクトル領域でありうる第３の領域に、第２の領域信号を変換するかである。

都合のよいことに、スペクトル領域変換器、すなわち、第２の領域変換器は、第２の領域変換器への入力信号が例えば時間領域のような第１の領域にあるか、または、例えばＬＰＣ領域のような第２の領域にあるかどうかに関しては関係なく同じアルゴリズムを実行するように適合される。

復号器側では、２つの異なる復号化分岐があり、ひとつの復号化分岐は、領域変換器、すなわち第２の領域変換器を含み、一方で、その他を復号化分岐は、逆処理装置を含むだけで、領域変換器を含まない。符号器側での実際のバイパス設定、すなわち、そのバイパスが作動中だったかどうかに応じて、復号器の第１の変換器は、バイパスされるか否かとなる。特に、第２の変換器の出力がすでに、第１または時間領域のようなターゲット領域にあるとき、復号器の第１の変換器はバイパスされる。しかしながら、その復号器の第２の変換器の出力が第１の領域とは異なる領域にある場合、そのとき復号器のバイパスは動作を停止され、そして、その信号はその異なる領域からターゲット領域、すなわち、その好ましい実施形態において第１の領域に変換される。一実施形態において、第２の処理された信号は、同じ領域、すなわち、第２の領域にあるが、符号器側での切り換え可能なバイパスが第２の処理装置にも接続可能である他の実施形態において、復号器側の第２の逆処理装置の出力は同様に第１の領域にすでにあることが可能である。この場合、復号器の出力合成器が、オーディオ信号の異なる部分を示し、そして、同じ領域にある入力信号を受けとるように、第１の変換器は復号器側の切り換え可能なバイパスを使用してバイパスされる。これらの信号は、その合成器により時間多重化される、または、その復号器の出力合成器によってクロスフェードされることが可能である。

好ましい実施形態において、符号化のためのその装置は、入力信号を圧縮するための共通の前処理ステージを含む。すべての異なる符号化モードのための共通の前処理ステージの出力が共通の前処理ステージへの入力に関する圧縮バージョンであるように、この共通の前処理ステージはマルチチャンネル処理装置および／またはスペクトル帯域複製（ｓｐｅｃｔｒａｌｂａｎｄｗｉｄｔｈｒｅｐｌｉｃａｔｉｏｎ）処理装置を含みうる。対応して、復号器側の合成器の出力信号は、例えば、スペクトル帯域複製合成、および／または、符号器側から復号器側へ送られるパラメータのマルチチャンネル情報を使用して好ましく導かれるマルチチャンネルのアップミックス（ｕｐｍｉｘ）操作のようなマルチチャンネル拡張操作を実行する働きをしている共通の後処理ステージによって、後処理される。

好ましい実施形態において、符号器へ入力されるオーディオ信号と復号器により出力されるオーディオ信号のある第１の領域は、時間領域である。好ましい実施形態において、第１の領域変換器がＬＰＣ分析ステージであるように、第１の領域変換器の出力が置かれる第２の領域はＬＰＣ領域である。別の実施形態において、第３の領域、すなわち、第２の領域変換器の出力が置かれる領域は、スペクトル領域であるか、または、第１の領域変換器によって生成されるＬＰＣ領域信号のスペクトル領域である。第２の領域変換器と接続される第１の処理装置は、入力信号がスペクトル領域にあるかＬＰＣスペクトル領域にあるかに関して関係なく同じ機能性を実行する、ハフマン符号器または算術符号器と接続される、心理音響的に駆動される量子化器などの、エントロピーを低減している符号を共にする量子化器／スケーラのような、情報受信側の符号器として好ましくは実行される。

別の好ましい実施形態において、第１の領域変換器の出力を処理するための、または、十分な機能の装置にある切り換え可能なバイパスの出力を処理するための第２の処理装置は、例えばＡＣＥＬＰ符号器において、または、他のいかなるＣＥＬＰ符号器において使用される残差信号符号器のような時間領域符号器である。

本発明の好ましい実施形態は、添付の図面に関して後に説明される。

図１ａは、本発明の第１の態様に従う符号化方式のブロック図である。図１ｂは、本発明の第１の態様に従う復号化方式のブロック図である。図１ｃは、本発明の別の態様に従う符号化方式のブロック図である。図１ｄは、本発明の別の態様に従う復号化方式のブロック図である。図２ａは、本発明の第２の態様に従う符号化方式のブロック図である。図２ｂは、本発明の第２の態様に従う復号化方式の略図である。図２ｃは、図２ａの好ましい共通の前処理のブロック図である。図２ｄは、図２ｂの好ましい共通の後処理のブロック図である。図３ａは、本発明の別の態様に従う符号化方式のブロック図を示す。図３ｂは、本発明の別の態様に従う復号化方式のブロック図を示す。図３ｃは、直列のスイッチを有した符号化装置／方法の略図を示す。図３ｄは、直列の合成器が使用された復号化するための装置または方法の略図を示す。図３ｅは、時間領域信号の図および両方の符号化信号に含まれる短いクロスフェード領域を示している符号化信号の対応する表現を示す。図４ａは、符号化の分岐の前に位置付けられたスイッチを有するブロック図を示す。図４ｂは、その分岐を符号化した後に位置づけられたスイッチを有した符号化方式のブロック図を示す。図４ｃは、好ましい合成器の実施形態のためのブロック図を示す。図５ａは、準周期的またはインパルス状の信号セグメントとしての時間領域音声セグメントの波形を示し、図５ｂは、図５ａのセグメントのスペクトルを示す。図５ｃは、ノイズ状の、または、定常のセグメントのための例として、無声音声の時間領域音声セグメントを示し、図５ｄは、図５ｃの時間領域波形のスペクトルを示す。図６は、合成による分析ＣＥＬＰ符号器のブロック図を示す。図７ａは、インパルス状のおよび定常の信号のための例として、有声／無声の励振信号を示す。図７ｂは、インパルス状のおよび定常の信号のための例として、有声／無声の励振信号を示す。図７ｃは、インパルス状のおよび定常の信号のための例として、有声／無声の励振信号を示す。図７ｄは、インパルス状のおよび定常の信号のための例として、有声／無声の励振信号を示す。図７ｅは、短期予測情報および予測誤差信号を供給する符号器側のＬＰＣステージを示す。図７ｆは、重み付けされた信号を生成するためのＬＰＣ装置の別の実施形態を示す。図７ｇは、図２ｂの変換器５３７に必要とされる重み付けされた信号を逆重み付け操作とその後の励振解析を適用することによって励振信号に変換するための実施例を示す。図８は、本発明の実施形態に従うジョイント・マルチチャンネル・アルゴリズムのブロック図を示す。図９は、帯域拡張アルゴリズムの好ましい実施形態を示す。図１０ａは、開ループ決定を実行するときのスイッチの詳細な説明を示す。図１０ｂは、閉ループ決定モードで作動するときのスイッチの図を示す。

図１ａは、２つの領域変換器５１０、４１０および切り換え可能なバイパス５０がある本発明の実施形態を示す。切り換え可能なバイパス５０は、切り換え可能なバイパス５０の切り換え制御入力への入力である制御信号５１に応答として、アクティブまたは非アクティブに適合する。切り換え可能なバイパスがアクティブである場合、オーディオ信号入力９９、１９５でのオーディオ信号は、第１の領域変換器５１０に送られず、第２の領域変換器４１０が入力９９、１９５のオーディオ信号を直接受けとるように、切り換え可能なバイパス５０に送られる。図１ｃおよび１ｄと関連して述べられることになる一実施形態において、切り換え可能なバイパス５０の出力信号が第２の処理装置５２０のみを介して処理されるように、切り換え可能なバイパス５０は、第２の領域変換器４１０に接続されずに、代わりに、第２の処理装置５２０に接続可能である。

しかし、切り換え可能なバイパス５０が制御信号５１によって非アクティブ状態に設定されている場合、オーディオ信号入力９９または１９５のオーディオ信号は、第１の領域変換器５１０に入力されて、第１の領域変換器５１０の出力のオーディオ信号は、第２の領域変換器４１０または第２の処理装置５２０へ入力される。第１の領域変換器の出力信号が第２の領域変換器４１０か第２の処理装置５２０に入力されるかどうかに関する決定は、好ましくは、同様にスイッチ制御信号に基づいてなされるが、代わりに、メタデータのような他の手段を介して、または、信号解析に基づいてなされうる。あるいは、第１の領域変換器信号５１０は、装置４１０、５２０の両方に入力されることさえ可能であり、そして、その選択は、処理信号が特定の時間部分のオーディオ信号を示すために出力インターフェースに入力されるのだが、図４ｂと関連して述べられるように、処理装置および出力インターフェースとの間に接続されたスイッチを介してなされる。一方で、どちらの信号が出力データストリームに入力されるかに関する決定は、出力インターフェース８００そのものの中でされることも可能である。

図１ａに示されるように、入力９９／１９５のオーディオ信号が第１の領域にある、その符号化オーディオ信号を得るために、オーディオ信号を符号化するための本発明の装置は、そのオーディオ信号を第１の領域から第２の領域に変換するための第１の領域変換器を含む。さらに、第１の領域変換器５１０をバイパスする、または、バイパス切り換え制御信号５１に応答して第１の領域変換器によってオーディオ信号の変換を引き起こすための、切り換え可能なバイパス５４は、供給される。このように、アクティブ状態では、切り換え可能なバイパスは、第１の領域変換器をバイパスする。そして、非アクティブ状態では、オーディオ信号は第１の領域変換器に入力される。

さらに、切り換え可能なバイパス５０または第１の領域変換器から受けとられるオーディオ信号を第３の領域に変換するための第２の領域変換器４１０は、供給される。第３の領域は、第２の領域とは異なる。加えて、第１の処理された信号を得るために第１の符号化アルゴリズムに従う第３の領域のオーディオ信号を符号化するための第１の処理装置４２０は、供給される。さらに、第２の符号化アルゴリズムに従う第１の領域変換器から受けとられるオーディオ信号を符号化するための第２の処理装置５２０は、供給される。ここで、第２の符号化アルゴリズムは第１の符号化アルゴリズムとは異なる。第２の処理装置は、第２の処理された信号を供給する。特に、その装置は、そのオーディオ信号の一部のために、その出力の符号化オーディオ信号を有するように適合される。ここで、この符号化信号は第１の処理された信号または第２の処理された信号を含む。当然、クロスオーバー領域はありうるが、しかし、拡張符号化効率からみて、目標は、最大ビットレート圧縮が得られるように、そのクロスオーバー領域をできるだけ小さく保ち、可能ならばそれらを除去することである。

図１ｂは、好ましい実施形態の図１ａの符号器に対応する復号器を示す。図１ｂの符号化オーディオ信号を復号化するためのその装置は、入力として、第３の領域にある第１の処理された信号と第２の領域にある第２の処理された信号を含む符号化オーディオ信号を受け取る。ここで、第２の領域と第３の領域は互いに異なる。特に、入力インターフェース９００へ入力される信号は、図１ａのインターフェース８００からの出力に類似している。復号化するためのその装置は、第１の処理された信号を逆処理するための第１の逆処理装置４３０と第２の処理された信号を逆処理するための第２の逆処理装置５３０とを含む。加えて、第１の逆処理された信号を第３の領域から異なる領域に領域変換するための第２の変換器４４０は、供給される。加えて、第２の逆処理された信号を第１の領域に変換するための、あるいは、その異なる領域が第１の領域ではないときに第１の逆処理された信号を第１の領域に変換するための第１の変換器５４０は、供給される。これは、第１の処理された信号がすでに第１の領域にない、すなわち、前処理／後処理が一巡なされた場合に復号化オーディオ信号または中間のオーディオ信号があるはずのターゲット領域にないときに、第１の逆処理された信号が第１の変換器によって変換されるだけであることを意味する。さらに、その異なる領域が第１の領域であるときにその復号器は第１の変換器５４０をバイパスするためのバイパス５２を含む。図１ｂの回路はさらに、第１の変換器５４０の出力とバイパス出力、すなわち、合成された復号化オーディオ信号６９９を得るためにバイパス５２によって出力された信号を合成するための合成器６００を含み、その信号はその通りに使用されうるし、あるいは、共通の後処理ステージを使用して解凍されさえしうる。そして、そのことは後ほど述べられる。

図１ｃは、心理音響モデルの信号分類器３００がＭＰＥＧサラウンド（Ｓｕｒｒｏｕｎｄ）符号器１０１および拡張スペクトル帯域複製（ｅｎｈａｎｃｅｄｓｐｅｃｔｒａｌｂａｎｄｒｅｐｌｉｃａｔｉｏｎ）処理装置１０２によって形成された共通の前処理ステージに入力されたオーディオ信号を分類するために供給された本発明のオーディオ符号器の好ましい実施形態を示す。さらに、第１の領域変換器５１０は、ＬＰＣ分析ステージであり、そして、切り換え可能なバイパスは、第１の領域変換器であるＬＰＣ分析ステージ５１０の入力と出力の間に接続される。

ＬＰＣ装置は一般にＬＰＣ領域信号を出力する。そして、その信号は図７ｅの励振信号または図７ｆの重み付けされた信号または他の信号のようなＬＰＣ領域のいかなる信号でもありうる。そして、それはＬＰＣフィルタ係数をオーディオ信号に適用することによって生成されたものである。さらにまた、ＬＰＣ装置は、これらの係数を決定も可能であり、そしてまた、これらの係数を量子化／符号化も可能である。

加えて、バイパス５０およびＬＰＣステージ５１０の共通の出力の信号が第１の符号化分岐４００または第２の符号化分岐５００に送られるように、スイッチ２００は第１の領域変換器の出力に供給される。第１の符号化分岐４００は、図１ａの第２の領域変換器４１０および第１の処理装置４２０を含み、第２の符号化分岐５００は、図１ａの第２の処理装置５２０を含む。図１ｃの符号器の実施形態において、第１の領域変換器５１０の入力は切り換え可能なバイパス５０の入力と接続され、そして、切り換え可能なバイパス５０の出力は共通出力を形成するために第１の領域変換器５１０の出力と接続され、そして、この共通出力は、スイッチが２つの出力を含むスイッチ２００への入力であるが、そのスイッチは追加の符号化処理装置のための追加の出力を含むことさえありうる。

好ましくは、第１の符号化分岐４００の第２の領域変換器４１０は修正離散コサイン変換（ＭＤＣＴ）を含む。そして、それは、加えて、切り換え可能なタイムワープ（ＴＷ：ｔｉｍｅｗａｒｐ）機能と結びつく。ＭＤＣＴスペクトルはスカラー／量子化器を使用して符号化される。そして、それは信号分類器ブロック３００の中で位置付けされる心理音響的なモデルから供給される情報に基づいて入力値の量子化を実行する。一方で、第２の処理装置は、入力信号を時間領域符号化するための時間領域符号器を含む。一実施形態において、アクティブな／閉じたバイパス５０の場合に、スイッチ２００は自動的に上の方の符号化分岐に設定されるように、スイッチ２００は制御される。しかし、別の実施形態において、時間領域符号器５２０が時間領域オーディオ入力信号を直接受けることができるようにバイパスがアクティブな／閉じたときでも、スイッチ２００は切り換え可能なバイパス５０と独立して制御されもする。

図１ｄは、ＬＰＣ合成ブロック５４０が図１ｂの第１の変換器に対応し、バイパス５２を介してバイパスされることが可能である対応する復号器を示す。そして、そのバイパスは好ましくは、ビットストリーム・デマルチプレクサ９００によって生成されるバイパス信号により制御される切り換え可能なバイパスである。ビットストリーム・デマルチプレクサ９００は、この信号、および、入力ビットストリーム８９９からの符号化分岐４３０、５３０またはＳＢＲ（スペクトル帯域複製：ｓｐｅｃｔｒａｌｂａｎｄｒｅｐｌｉｃａｔｉｏｎ）合成ブロック７０１またはＭＰＥＧサラウンド復号器ブロック７０２のための他の全ての制御信号を生成しうるか、または、信号解析または他の分離した情報源からのこれらの制御線のためのデータを受けとりうる。

続いて、符号器のための図１ｃおよび復号器のための図１ｄの実施形態のより詳細な説明が与えられる。

その好ましい実施形態は、成功した音声符号器技術を有するＡＡＣ、ＳＢＲおよびＭＰＥＧサラウンドのような成功したＭＰＥＧ技術の強みを組み合わせたハイブリッドオーディオ符号器から成る。結果として生じる符復号化は、すべての信号カテゴリのための共通の前処理を含み、そして、それは、ＭＰＥＧサラウンドとｅＳＢＲ（拡張スペクトル帯域複製：ｅｎｈａｎｃｅｄＳＢＲ）から成る。心理音響モデルによって、そして、信号カテゴリに基づいて制御されて、情報受信側または情報源側から派生した符号器アーキテクチャは、フレームごとベースで選択される。

提案された符復号化は、ＭＰＥＧサラウンド、ＳＢＲのような符号化ツールやＡＡＣベース符号器を有利に使用する。これらは、音声のための、そして、極めて低いビットレートでの機能を改善するために、変更および拡張を受けた。より高いビットレートで、新規な符復号化がＡＡＣに非常に近いモードに後退することができるように、そのＡＡＣの機能は少なくとも整合される。平均してわずかにより良いノイズレス符号化機能を供給する拡張ノイズレス符号化モードは実行される。さらに約３２ｋｂｐｓ以下のビットレートのために、追加のツールは、音声および他の信号のためのそのベース符号器の機能を改善するために作動する。これらのツールの主要構成要素は、ＬＰＣベースの周波数成形と、ＭＤＣＴベースの符号器および時間領域符号器のためのより多くの他のウィンドウ長さオプションである。新しい帯域拡張技術は、低いクロスオーバー周波数に、そして、音声のためにより適しているＳＢＲツールに対する拡張として使用される。ＭＰＥＧサラウンドツールは、ダウンミックスおよびパラメータ化されたステレオイメージを供給することによって、ステレオまたはマルチチャンネル信号のパラメータ表示を供給する。与えられた試験項目のために、それは、ステレオ信号だけを符号化するために使用されるが、ＭＰＥＧ―Ｄから現存のＭＰＥＧサラウンド機能を利用することによって、マルチチャンネル入力信号にも適している。

ＭＤＣＴ符号器を除く符復号化チェーンにおけるすべてのツールは、低ビットレートでのみ好ましくは使用される。

ＭＰＥＧサラウンド技術は、Ｍ個のオーディオ伝送路を介してＮ個のオーディオ入力チャンネルを送信するために使用される。このように、そのシステムは、本来的にマルチチャンネルが利用可能である。そのＭＰＥＧサラウンド技術は、低ビットレートで、そして、音声のような信号のために、その機能を増加させるために、拡張を受けた。

基本的な運転モードは、ステレオ入力信号からの高品質のモノラルダウンミックスの作成である。加えて、一組の空間パラメータは、抽出される。復号器側では、ステレオ出力信号は、抽出され送信された空間パラメータと結合して、復号化されたモノラルのダウンミックスを使用して発生する。低ビットレート２―１―２モードは、ＭＰＥＧサラウンドの現存の５―ｘ―５または７―ｘ―７の動作点（ｏｐｅｒａｔｉｎｇｐｏｉｎｔ）に追加され、ＭＰＥＧサラウンドのアップミックスにおける単一のＯＴＴ（ｏｎｅ−ｔｏ−ｔｗｏ）ボックスからなる単純なツリー構造を使用している。構成部品のいくつかは、音声再生により良く適合するために修正を受けた。例えば６４ｋｂｐｓ以上のようなより高いデータ転送速度のために、コア符号は別々のステレオ符号化（中央／サイドまたはＬ／Ｒ）を使用しており、ＭＰＥＧサラウンドは、この動作点に関して使用されない。

この技術提案において提案される帯域拡張は、ＭＰＥＧＳＢＲ（スペクトル帯域複製：ｓｐｅｃｔｒａｌｂａｎｄｒｅｐｌｉｃａｔｉｏｎ）技術に基づく。使用されるフィルタバンクは、ＭＰＥＧサラウンドおよびＳＢＲのＱＭＦフィルタバンクと同一である。そして、そのフィルタバンクは、追加の合成／分析なしで、ＱＭＦ領域サンプルをＭＰＥＧサラウンドとＳＢＲの間で共有するという可能性を提供する。標準化されたＳＢＲツールと比較して、ｅＳＢＲは、音声およびオーディオコンテンツに最適である拡張処理アルゴリズムを導入する。ＳＢＲに対する拡張は含まれ、そして、それは極めて低いビットレートおよび低いクロスオーバー周波数により適している。

ＳＢＲとＡＡＣの組み合わせから知られるように、この機能は全体的に停止させることが可能であり、コア符号器に全周波数範囲の符号化を任せることができる。

提案されたシステムのコア符号器部分は、任意のＬＰＣフィルタと切り換え可能な周波数領域／時間領域コア符号器の組み合わせとして見ることができる。

音声符号器のアーキテクチャから知られるように、ＬＰＣフィルタは人の話し言葉のソースモデルの基礎を供給する。ＬＰＣ処理は、全体的に、または、フレームごとベースで、動作可能にも操作不可（バイパスされること）にもできる。

ＬＰＣフィルタの後に続いて、ＬＰＣ領域信号は、時間領域または周波数領域符号化アーキテクチャを基にした変換を使用して符号化される。これらの２つの分岐の間の切り換えは、拡張された心理音響モデルによって制御される。

時間領域符号器のアーキテクチャは、ＡＣＥＬＰ技術に基づいており、低ビットレートで特に音声信号のための最適な符号化機能を供給する。

周波数領域ベースの符復号化分岐は、スカラー量子化器およびエントロピー符号化を有するＭＤＣＴアーキテクチャに基づく。

任意選択で、タイムワーピング（ｔｉｍｅ−ｗａｒｐｉｎｇ）ツールは、より簡潔な信号表現によってより高いビットレート（例えば６４ｋｂｐｓ以上）で音声信号のための符号化効率を高めるのに利用できる。

ＭＤＣＴベースのアーキテクチャは、現存のＭＰＥＧ技術から知られるようにトランスペアレントに良品質を低いビットレートおよびスケールで届ける。それは、より高いビットレートでＡＡＣモードに収束することができる。

バッファの必要条件はＡＡＣと同一である。すなわち、入力バッファにおける最大ビット数は、コア符号器のチャンネルにつき６１４４であり、つまり、モノラルチャンネル要素につき６１４４ビットであり、ステレオチャンネル要素につき１２２８８ビットである。

ビットリザーバー（ｂｉｔｒｅｓｅｒｖｏｉｒ）は、符号器で制御され、それは現在のビット需要に符号化処理を適合することを可能にする。ビットリザーバーの特性は、ＡＡＣと同一である。

符号器および復号器は、１２ｋｂｐｓのモノラルと６４ｋｐｂｓステレオとの間で異なるビットレートで動作する制御が可能である。

復号器の煩雑性は、ＰＣＵの観点で特定される。ベース復号器のために、約１１．７ＰＣＵという煩雑性が必要である。タイムワーピング（ｔｉｍｅ−ｗａｒｐｉｎｇ）ツールが使用される場合、６４ｋｂｐｓのテストモードに関しては、復号器の煩雑性は２２．２ＰＣＵに増加される。

好ましいステレオ復号器のＲＡＭとＲＯＭの要件は、以下の通りである。
ＲＡＭ：〜２４ｋＷｏｒｄｓ
ＲＯＭ：〜１５０ｋＷｏｒｄｓ

エントロピー符号器に通知することによって、全体でたった９８ｋＷｏｒｄｓまでのＲＯＭサイズを得ることができる。

タイムワーピング（ｔｉｍｅ−ｗａｒｐｉｎｇ）ツールが使用される場合、ＲＡＭの要求は、３ｋＷｏｒｄｓ以内で増加して、ＲＯＭの要求は、４０ｋＷｏｒｄｓ以内で増加する。

理論上のアルゴリズム遅延は、符復号化チェーン（例、ＭＰＥＧサラウンドなど）において使用されるツールに依存している。提案された技術のアルゴリズム遅延は、その符復号化サンプリングレートで動作点ごとに示される。以下の値は、フレーミングディレイ（ｆｒａｍｉｇｄｅｌａｙ）、すなわち、符号器の入力バッファを第１のフレームを処理するために必要なサンプル数で満たすために必要とされる遅延を含まない。このフレーミングディレイ（ｆｒａｍｉｇｄｅｌａｙ）は、すべての指定された動作モードのための２０４８のサンプルである。

次のテーブルは、最小のアルゴリズム遅延と使用された実施例のための遅延の両方を含む。符復号化のサンプリングレートに４８ｋＨｚの入力ＰＣＭファイルを再標本化する付加的な遅延は、『（）』に記入される。

この符復号化の主な特性は、以下のようにまとめることができる。

提案された技術は、音声または音楽コンテンツを符号化ための機能を犠牲にせずに、都合よく最新技術の音声およびオーディオ符号化技術を使用する。このことは、結果として、超低速（１２ｋｂｐｓ）で始まり、１２８ｋｂｐｓ以上のような、その符復号化がトランスパレントな品質に達する高データ速度まで上がっていくビットレート範囲のための、音声や音楽、そして混合されたコンテンツのための最新技術の品質を提供することを可能とする符復号化が生じさせる。

モノラル信号、ステレオ信号またはマルチチャンネル信号は、図２ａの共通の前処理ステージ１００に入力される。その共通の前処理方式は、ジョイントステレオ機能、サラウンド機能および／または帯域拡張機能を有しうる。ブロック１００の出力には、１組のバイパス５０および変換器５１０またはこの種のマルチプルセットへ入力される、モノラルチャンネル、ステレオチャンネルまたはマルチプルチャンネルがある。

ステージ１００が２個以上の出力を有するとき、すなわち、ステージ１００がステレオ信号またはマルチチャンネル信号を出力するとき、バイパス５０および変換器５１０のセットは、ステージ１００のそれぞれの出力のために存在することができる。模範として、ステレオ信号の第１のチャンネルは音声チャンネルでありうる。そして、ステレオ信号の第２のチャンネルは音楽チャンネルでありうる。この状況では、決定ステージでのその決定は、同じ瞬間の２つのチャンネルの間で異なることがありうる。

バイパス５０は、決定ステージ３００によって制御される。決定ステージは、入力として、ブロック１００に入力される信号またはブロック１００によって出力される信号を受けとる。あるいは、決定ステージ３００はモノラル信号、ステレオ信号またはマルチチャンネル信号に含まれるか、または、この種の信号に少なくとも関連する補助情報を受けうる。ここで、情報が存在しており、それは、例えば、モノラル信号、ステレオ信号またはマルチチャンネル信号を生み出すときに最初に生成されたものである。

一実施形態において、決定ステージは前処理ステージ１００を制御せず、そして、ブロック３００および１００の間の矢印は存在しない。別の実施形態において、ブロック１００での処理は、決定ステージ３００によって、その決定に基づいてブロック１００の一つ以上のパラメータをセットするために、ある程度制御される。しかし、このことは、ブロック１００の主機能がステージ３００の決定に関係なくアクティブであるように、ブロック１００における一般のアルゴリズムに影響を与えないだろう。

決定ステージ３００は、図１ａの上の方の分岐で示される周波数符号化部分４００に、または、図２ａの下のほうの分岐で示され、要素５１０、５２０を有する第２の符号化部分５００の部分でありうるＬＰＣ領域変換器５１０に、共通の前処理ステージの出力を送るために、バイパス５０を作動させる。

一実施形態において、そのバイパスは、単一の領域変換器をバイパスする。別の実施形態において、例えば第３の符号化分岐またはさらに第４の符号化分岐、さらに多くの符号化分岐のような異なる符号化分岐のための追加の領域変換器がありうる。３つの符号化分岐を有する実施形態において、第３の符号化分岐は、第２の符号化分岐に類似している可能性があるが、第２の分岐５００の励振符号器５２０とは異なる励振符号器を含みうる。この実施形態において、第２の分岐はＬＰＣステージ５１０および例えばＡＣＥＬＰにあるようなコードブックベースの励振符号器を含み、そして、第３の分岐はＬＰＣステージおよびＬＰＣステージの出力信号のスペクトル表現で作動している励振符号器を含む。

周波数領域の符号化分岐の主要な要素は、共通の前処理ステージの出力信号をスペクトル領域に変換する働きをしているスペクトル変換ブロック４１０である。そのスペクトル変換ブロックは、ＭＤＣＴアルゴリズム、または、ＱＭＦ、ＦＦＴアルゴリズム、ウェーブレット（Ｗａｖｅｌｅｔ）解析、一定数のフィルタバンクチャンネルを有する臨界サンプリング（ｃｒｉｔｉｃａｌｌｙｓａｍｐｌｅｄ）フィルタバンクのようなフィルタバンクを含みうる。ここで、このフィルタバンクのサブバンド信号は実数値信号または複素信号でもありうる。スペクトル変換ブロック４１０の出力は、スペクトルオーディオ符号器４２０を使用して符号化される。そして、それはＡＡＣ符号化体系から知られるような処理ブロックを含みうる。

下方の符号化分岐５００において、主要な要素は、この実施形態においては領域変換機５１０であり、そして、２種類の信号を出力する、ＬＰＣ５１０のようなソースモデル分析器である。１つの信号は、ＬＰＣ合成フィルタのフィルタ特性を制御するために使用されるＬＰＣ情報信号である。このＬＰＣ情報は、復号器に送られる。その他のＬＰＣステージ５１０の出力信号は、励振信号またはＬＰＣ領域信号である。そして、それは励振符号器５２０に入力される。励振符号器５２０は、ＣＥＬＰ符号器、ＡＣＥＬＰ符号器またはＬＰＣ領域信号を処理するその他の符号器のようなソースフィルタ型符号器からくることがありうる。

他の好ましい励振符号器の実施例は、励振信号またはＬＰＣ領域信号の変換符号化である。この実施形態において、励振信号はＡＣＥＬＰコードブック機構を使用しての符号化はされず、励振信号はスペクトル表現に変換され、そして、フィルタバンクの場合におけるサブバンド信号またはＦＦＴのような変換の場合における周波数係数のようなスペクトル表現の値は、データ圧縮を得るために符号化される。この種の励振符号器の実施例は、ＡＭＲ―ＷＢ＋から知られるＴＣＸ符号化モードである。このモードは、ＬＰＣステージ５１０の出力をスペクトル変換器４１０に接続することによって得られる。３ＧＰＰＴＳ２６．２９０から知られるようなＴＣＸモードは、変換領域において知覚的に重み付けされた信号の処理を生じさせる。フーリエ変換され重み付けされた信号は、ノイズ・ファクター量子化を有するスプリットマルチレート（ｓｐｌｉｔｍｕｌｔｉ−ｒａｔｅ）格子量子化（代数ＶＱ（ベクトル量子化））を使用して量子化される。変換は、１０２４、５１２または、２５６のサンプルの窓において算出される。励振信号は、逆重み付けフィルタを介して、量子化され重み付けされた信号を逆フィルタリングすることで回復される。

図１ａまたは図１ｃにおいて、ＬＰＣブロック５１０の後にＡＣＥＬＰブロックでありうる時間領域符号器、または、ＴＣＸブロック５２７でありうる変換領域符号器が続く。ＡＣＥＬＰは３ＧＰＰＴＳ２６．１９０において説明され、そして、ＴＣＸは３ＧＰＰＴＳ２６．２９０において説明される。通常、ＡＣＥＬＰブロックは、図７ｅにて説明されるような手順によって算出されたようなＬＰＣ励振信号を受ける。ＴＣＸブロック５２７は、図７ｆによって生成されるような重み付けされた信号を受ける。

項目５１０は単一のブロックを示すが、ブロック５１０は、異なる信号を、これらの信号がＬＰＣ領域にある限り、出力することができる。励振信号モードまたは重み付けされた信号モードのようなブロック５１０の作動モードは、作動スイッチ状態によることが可能である。あるいは、ブロック５１０は２つの並列処理装置を有することが可能であり、ここで、一方の装置は図７ｅと類似して実施され、もう一方の装置は図７ｆとして実施される。それ故、５１０の出力のＬＰＣ領域は、ＬＰＣ励振信号またはＬＰＣの重み付けされた信号またはその他のＬＰＣ領域信号を表示することが可能である。

決定ステージでの決定は、決定ステージが音楽／音声の区別をし、バイパス５０を、および、もしあるなら、図１ｃのスイッチ２００を音楽信号が上方の分岐４００に入力され、音声信号が下方の分岐５００に入力されるような方法で制御するように、信号を適合しうる。一実施形態において、その決定ステージは、復号器が正しい復号演算を実行するためにこの決定情報を使用することができるように、出力ビットストリームへその決定情報を送っている。

この種の復号器は、図２ｂにおいて示される。スペクトルオーディオ符号器４２０により出力された信号は、送信後、スペクトルオーディオ復号器４３０に入力される。スペクトルオーディオ復号器４３０の出力は、時間領域変換器４４０に入力される。類似して、図２ａの励振符号器５２０の出力は、ＬＰＣ領域信号を出力する励振復号器５３０に入力される。ＬＰＣ領域信号は、ＬＰＣ合成ステージ５４０に入力される。そして、それは、別の入力として、対応するＬＰＣ分析ステージ５１０によって生成されるＬＰＣ情報を受けとる。時間領域変換器４４０の出力および／またはＬＰＣ合成ステージ５４０の出力は、切り換え可能なバイパス５２に入力される。そのバイパス５２は、例えば、決定ステージ３００によって生成された、または、例えば最初のモノラル信号、ステレオ信号またはマルチチャンネル信号をつくったものによって外部から供給された、バイパス制御信号を介して制御される。

バイパス５４０またはステージ５４０の出力は、合成器６００に入力されるものであり、後に共通の後処理ステージ７００に入力される完全なモノラル信号である。そして、その後処理ステージは、ジョイントステレオ処理または帯域拡張処理などを実行しうる。共通の後処理ステージの特定の機能によって、モノラル信号、ステレオ信号またはマルチチャンネル信号は、出力される。そして、その出力は共通の後処理ステージ７００が帯域拡張処理を実行するとき、ブロック７００へ入力される信号より大きな帯域幅を有する。

一実施形態において、バイパス５２は、一つの変換器５４０をバイパスするのに適合される。別の実施形態において、例えば第３の復号化分岐、または、さらに第４の復号化分岐またはさらに多くの復号化分岐のような追加の復号化分岐を定めている追加の変換器がありうる。３つの復号化分岐を有する実施形態において、第３の復号化分岐は、第２の復号化分岐と類似しうるが、第２の分岐５３０、５４０における励振復号器５３０とは異なる励振復号器を含みうる。この実施形態において、第２の分岐はＬＰＣステージ５４０とＡＣＥＬＰにあるようなコードブックベースの励振復号器を含み、そして、第３の分岐はＬＰＣステージおよびＬＰＣステージ５４０出力のスペクトル表現で作動している励振復号器を含む。

前に述べたように、図２ｃは本発明の第二態様に従う好ましい符号化方式を示す。図１ａの１００における共通の前処理方式は、ここで、出力として、ジョイントステレオパラメータおよび二つ以上のチャンネルを有する信号である入力信号をダウンミックスすることによって生成されるモノラル出力信号を生成するサラウンド／ジョイントステレオのブロック１０１を含む。通常、ブロック１０１の出力の信号は、より多くのチャンネルを有する信号でもありうる。しかし、ブロック１０１のダウンミックス機能のため、ブロック１０１の出力のチャンネル数はブロック１０１に入力されるチャンネル数より小さくなるだろう。

ブロック１０１の出力は、図２ｃの符号器において、例えばその出力の低帯域信号またはローパス信号のような帯域制限された信号を出力する帯域拡張ブロック１０２に入力される。さらにまた、ブロックに１０２に入力される信号の高帯域のために、ＭＰＥＧ―４のＨＥ―ＡＡＣプロファイルから知られるようなスペクトル包絡パラメータ、逆フィルタリングパラメータ、暗騒音パラメータなどの、帯域拡張パラメータが生成され、ビットストリーム・マルチプレクサ８００に送られる。

好ましくは、決定ステージ３００は、例えば音楽モードかまたは音声モードかを決定するために、ブロック１０１に入力される、または、ブロック１０２に入力される信号を受け取る。音楽モードにおいては、上方の符号化分岐４００は選択され、一方、音声モードにおいては、下方の符号化分岐５００は選択される。好ましくは、決定ステージは、加えて、ジョイントステレオブロック１０１および／または帯域拡張ブロック１０２を、これらのブロックの機能を特定の信号に適合するように制御する。このように、決定ステージが、入力信号のある時間部分が音楽モードのような第１モードにあることを決定するとき、ブロック１０１および／またはブロック１０２の特定の機能を決定ステージ３００によって制御することができる。あるいは、決定ステージ３００が、その信号が音声モードにあること、または、通常、ＬＰＣ領域符号化モードにあることを決定するとき、そのときブロック１０１および１０２の特定の機能を決定ステージの出力に従って制御することができる。

スイッチ２００の入力信号から、または、ステージ２００に入力される信号の基礎をなしている元のオーディオ信号を生成するもののようないかなる外部ソースから得られうる、スイッチの決定に応じて、そのスイッチは、周波数符号化分岐４００およびＬＰＣ符号化分岐５００との間で切り換わる。周波数符号化分岐４００は、スペクトル変換ステージとその後接続される量子化／符号化ステージを含む。量子化／符号化ステージは、ＡＡＣ符号器のような現代の周波数領域符号器から知られるようなあらゆる機能を含むことができる。さらに、周波数における心理音響的なマスキング閾値のような心理音響的な情報を生成する心理音響的なモジュールを介して量子化／符号化ステージにおける量子化演算を制御することができ、ここで、この情報はそのステージに入力される。

好ましくは、スペクトル変換は、ＭＤＣＴ演算、さらにより好ましくは、タイムワープ処理ＭＤＣＴ（ＴＷ−ＭＤＣＴ：ｔｉｍｅ−ｗａｒｐｅｄＭＤＣＴ）演算であるＭＤＣＴ演算を使用してなされる。ここで、強度、または、一般には、ワープ強度は、ゼロおよび高いワープ強度との間で制御が可能である。ワープ強度がゼロのとき、図１ｃのブロック４００のＭＤＣＴ演算は、従来技術において周知の正攻法のＭＤＣＴ演算である。タイムワープの補助情報を伴ったタイムワープ強度は、補助情報としてビットストリーム・マルチプレクサ８００に、送信／入力が可能である。従って、タイムワープ処理ＭＤＣＴ（ＴＷ―ＭＤＣＴ）が使用される場合、タイムワープ補助情報は、図１ｃの４２４で示されるようにビットストリームに送信されるはずであり、そして、復号器側では、タイムワープ補助情報は、図１ｄの項目４３４で示されるように、ビットストリームから受けとられるはずである。

ＬＰＣ符号化分岐において、ＬＰＣ領域符号器は、ピッチゲイン、ピッチラグおよび／または例えばコードブック・インデックスやコードゲインのようなコードブック情報を算出しているＡＣＥＬＰコアを含みうる。

第１の符号化分岐４００において、スペクトル変換器は、好ましくは、ベクトル量子化ステージでありうる量子化／エントロピー符号化ステージが後に続く特定の窓関数を有する特別に構成されたＭＤＣＴ演算を含むが、好ましくは周波数領域符号化分岐の量子化器／符号器に類似した量子化器／符号器である。

図２ｄは、図２ｃの符号化方式に対応する復号化方式を示す。ビットストリーム・マルチプレクサによって生成されるビットストリームは、ビットストリーム・デマルチプレクサに入力される。例えばモード検出ブロックを介してビットストリームから引き出される情報に応じて、復号器側のスイッチは、帯域拡張ブロック７０１に、上方の分岐から信号を送るか、または、下方の分岐から信号を送るかするために制御される。帯域拡張ブロック７０１は、ビットストリーム・デマルチプレクサから、補助情報を受けとり、そして、この補助情報およびモード決定の出力に基づいて、例えば図１ｄの合成器６００によって出力された低帯域に基づいた高帯域を再構築する。

ブロック７０１によって生成される全帯域信号は、ジョイントステレオ／サラウンド処理ステージ７０２に入力される。そして、そのステージは２本のステレオチャンネルまたはいくつかのマルチチャンネルを再構築する。通常、ブロック７０２は、このブロックへ入力されたものより多くのチャンネルを出力する。用途に応じて、ブロック７０２への入力は、例えばステレオモードのような２本のチャンネルを含みさえするし、このブロックによる出力がこのブロックへの入力より多くのチャンネルを有しさえすれば、より多くのチャンネルを含みさえする。

図１ｃのスイッチ２００は、図４ａにおいて一般に示すように、１つの分岐だけが処理すべき信号を受けとり、そして、その他の分岐は処理すべき信号を受けとらないように、両分岐との間で切り換わるように示されている。しかし、図４ｂにおいて示される他の実施形態において、そのスイッチは、例えばオーディオ符号器４２０や励振符号器５２０の後に配置されることもある。そして、それは両分岐４００、５００が平行に同じ信号を処理することを意味する。しかし、ビットレートを倍にしないように、それら符号化分岐４００または５００のうちの１つによって出力される信号のみ、出力ビットストリームに含められるように選択される。その決定ステージは、そのビットストリームに含められる信号が特定のコスト関数を最小化するように作動するだろう。ここで、そのコスト関数は生成されたビットレートまたは生成された知覚歪みまたは合成されたレート／歪みのコスト関数でありえる。従って、このモードか、または、図に示されるモードにおいて、決定ステージは、最終的に符号化分岐出力だけが、一定の知覚歪みのために最低ビットレートを有する、または一定のビットレートのために最低の知覚歪みを有することを確認するために、閉ループモードで作動することも可能である。

通常、分岐４００における処理は、知覚ベースモデルのまたは情報受信側モデルの処理である。このように、この分岐は、音を受けとるヒトの聴覚系のモデルを作る。それとは反対に、分岐５００の処理は励振、残差またはＬＰＣ領域における信号を生成することである。通常、分岐５００の処理は、音声モデルまたは情報生成モデルの処理である。音声信号のために、このモデルは、音を生成している人の話し言葉／音の生成システムのモデルである。しかし、異なる音生成モデルを必要としている異なるソースからの音が符号化されることになっている場合、分岐５００における処理は異なることもありうる。

図１ａから４ｃまでは、装置のブロック図として示されているが、これらの図は同時に方法の図であり、ここで、そのブロックの機能は、その方法のステップに対応する。

図３ｃは、オーディオ入力信号１９５を符号化するためのオーディオ符号器を示す。オーディオ入力信号１９５は、例えば時間領域でありうるし、しかし、例えば周波数領域、ＬＣＰ領域、ＬＰＣスペクトル領域またはその他の領域のような他のいかなる領域でもありうる第１の領域に存在する。通常、１つの領域からその他の領域への変換は、よく知られた時間／周波数変換アルゴリズムまたは周波数／時間変換アルゴリズムのいずれかのような変換アルゴリズムの一種によって実行される。

時間領域から例えばＬＰＣの領域への他の変換は、結果としてＬＰＣ残差信号または励振信号、または他のＬＰＣ領域信号を生じさせる時間領域信号に対しＬＰＣベースのフィルタリングを行なった結果である。その変換前に相当な数の信号サンプルに影響を及ぼすフィルタ処理信号を生じさせている他のいかなるフィルタリング操作も、場合によっては変換アルゴリズムとして使用することができる。従って、ＬＰＣベースの重み付けフィルタを使用したオーディオ信号の重み付けは、ＬＰＣ領域の信号を生成する別の変換である。時間／周波数変換において、単一のスペクトル値の修正は、その変換前、すべての時間領域値に影響を及ぼす。類似して、いかなる時間領域サンプルの修正も、各周波数領域サンプルに影響を及ぼすだろう。同様に、ＬＰＣ領域状況における励振信号のサンプルの修正は、ＬＰＣフィルタの長さのため、ＬＰＣフィルタリングの前に相当な数のサンプルに、影響を及ぼす。同様に、ＬＰＣ変換の前のサンプルの修正は、ＬＰＣフィルタの固有のメモリー効果により、このＬＰＣ変換によって得られた多くのサンプルに、影響を及ぼす。

図３ｃのオーディオ符号器は、第１の符号化信号を生成する第１の符号化分岐５２２を含む。この第１の符号化信号は、好ましい実施形態において、時間スペクトル領域、すなわち、時間領域信号が時間／周波数変換を介して処理されるときに得られる領域である第４の領域にありうる。

従って、オーディオ信号を符号化するための第１の符号化分岐５２２は、第１の符号化信号を得るために第１の符号化アルゴリズムを使用する。ここで、この第１の符号化アルゴリズムは時間／周波数変換アルゴリズムを含むときも。

さらに、オーディオ符号器は、オーディオ信号を符号化するための第２の符号化分岐５２３を含む。第２の符号化分岐５２３は第２の符号化信号を得るために、第１の符号化アルゴリズムとは異なる第２の符号化アルゴリズムを使用する。

そのオーディオ符号器は、さらに、一部のオーディオ入力信号のために、ブロック５２２の出力の第１の符号化信号か第２の符号化分岐の出力の第２の符号化信号が符号器の出力信号に含まれるように、第１の符号化分岐５２２と第２の符号化分岐５２３、５２４との間で切り換えるための第１のスイッチ５２１を含む。このように、オーディオ入力信号１９５のある部分のために、第４の領域の第１の符号化信号がその符号器の出力信号に含まれるとき、第２の領域の第１の処理された信号かまたは第３の領域の第２の処理された信号である第２の符号化信号は、その符号器の出力信号に含まれない。このことは、確実にこの符号器がビットレート効率がよいようにする。実施形態において、図３ｅと関連して述べられることになるが、２つの異なる符号化信号に含まれるオーディオ信号のいかなる時間部分もワンフレームのフレーム長と比較して小さい。これらの小部分は、クロスフェードせずに起こりうるアーチファクトを低減させるために、スイッチ事象の場合、１つの符号化信号からその他の符号化信号へのクロスフェードに役立つ。従って、クロスフェード領域は別にして、各時間領域ブロックは、単一の領域のみの符号化信号によって示される。

図３ｃに示されるように、第２の符号化分岐５２３は、第１の領域のオーディオ信号、すなわち、信号１９５を第２の領域に変換するための変換器５２１、および、バイパス５０の後に続く。さらにまた、第１の処理分岐５２２は、好ましくは第１の処理分岐５２２が領域変更を実行しないように第２の領域にある、または、第１の領域にある、第１の処理された信号を得る。

第２の符号化分岐５２３、５２４は、オーディオ信号を、第２の処理分岐５２３、５２４の出力で第２の処理された信号を得るために、第１の領域とは異なり、また、第２の領域とも異なる第３の領域または第４の領域に変換する。

さらにまた、その符号器は、第１の処理分岐５２２と第２の処理分岐５２３、５２４との間で切り換えるためのスイッチ５２１を含む。ここで、このスイッチは図１ｃのスイッチ２００に対応する。

図３ｄは、図３ｃの符号器によって生成される符号化オーディオ信号を復号化するための対応する復号器を示す。通常、第１の領域オーディオ信号の各ブロックは、第２または第１の領域信号か、または、好ましくはできる限り臨界サンプリング（ｃｒｉｔｉｃａｌｓａｍｐｌｉｎｇ）の境界にあるシステムを得るために１フレームの長さと比較して短い、任意のクロスフェード領域とは別の第３または第４の領域の符号化信号によって示される。符号化オーディオ信号は、第１の符号化信号、第２の符号化信号を含む。ここにおいて、第１の符号化信号、第２の符号化信号は復号化オーディオ信号とは異なる時間部分に関わり、そして、復号化オーディオ信号のための第２の領域、第３の領域および第１の領域は互いに異なる。

その復号器は、第１の符号化アルゴリズムに基づく復号化するための第１の復号化分岐を含む。第１の復号化分岐は、図３ｄの５３１で示される。

図３ｄの復号器は、さらに、いくつかの要素を含む第２の復号化分岐５３３、５３４を含む。

さらに、その復号器は、第１または第２の領域の信号を得るために第１の逆処理された信号および第２の逆処理された信号を合成するための第１の合成器５３２を含む。ここで、この合成信号は、最初の時間で、第１の逆処理された信号によって影響を受けるのみであり、あとの時間で、第２の逆処理された信号によって影響を受けるのみである。

さらに、その復号器は、その合成信号を第１の領域に変換するための変換器５４０と切り換え可能なバイパス５２とを含む。

最後に、図３ｄにおいて示される復号器は、第１の領域の復号化された信号を得るために、バイパス５２からの復号化された第１の信号と変換器５４０の出力信号を合成するための第２の合成器６００を含む。また、第１の領域の復号化出力信号は、第１の時間で、変換器５４０により出力された信号によって影響を受けるのみであり、あとの時間では、バイパスされた信号により影響を受けるのみである。

この状況は、符号器の視点から、図３ｅにおいて示される。図３ｅの上部分は、略図で、時間領域のオーディオ信号のような第１の領域のオーディオ信号を示す。ここで、時間インデックスは左から右に増加し、そして、項目３は図３ｃの信号１９５を示しているオーディオサンプルのストリームとみなされうる。図３ｅは、図３ｅの項目４で示すように、第１の符号化信号と第２の符号化信号との間で切り換わることによって生成されうるフレーム３ａ、３ｂ、３ｃ、３ｄを示す。第１の符号化信号および第２の符号化信号は、完全に異なる領域にある。異なる領域間の切り換えが結果として復号器側でアーチファクトを生じさせないことを確実にするために、時間領域信号のフレーム３ａ、３ｂ、３ｃ、…は、クロスフェード領域として示されるオーバーラップ範囲を有する。しかし、この種のクロスフェード領域は、フレーム３ｄ、３ｃ間には存在していない。それは、フレーム３ｄもまた、先の信号３ｃと同じ領域にある信号によって示されることもあり、そうすればフレーム３ｃおよび３ｄの間での領域変化はないことを意味する。

従って、通常、好まれるのは、領域変化がないクロスフェード領域を供給しないことであり、そして、クロスフェード領域、すなわち、領域変化すなわち２つの切り換えのどちらかの切り換え動作があるとき、２つのその後の符号化／処理された信号によって符号化される一部のオーディオ信号を供給することである。

第１の符号化信号または第２の処理された信号が例えば５０パーセントのオーバーラップを有しているＭＤＣＴ処理により生成された、その実施形態において、各時間領域サンプルは、２つのその後のフレームに含まれる。しかし、ＭＤＣＴの特性のため、このことは、結果としてオーバーヘッドをもたらさない。これは、ＭＤＣＴが臨界サンプリング（ｃｒｉｔｉｃａｌｌｙｓａｍｐｌｅｄ）システムであるからである。この文脈において、臨界サンプリング（ｃｒｉｔｉｃａｌｌｙｓａｍｐｌｅｄ）とは、スペクトル値の数が時間領域値の数と同じであることを意味する。ＭＤＣＴは、ＭＤＣＴブロックから次のＭＤＣＴブロックへのクロスオーバーが臨界サンプリング（ｃｒｉｔｉｃａｌｌｙｓａｍｐｌｅｄ）の要件に違反するであろうオーバーヘッドなしで供給されるように、クロスオーバー効果が特定のクロスオーバーの領域なしで供給されるという点で、有利である。

好ましくは、第１の符号化分岐の第１の符号化アルゴリズムは情報受信側モデルに基づき、そして、第２の符号化分岐の第２の符号化アルゴリズムは情報源またはＳＮＲモデルに基づく。ＳＮＲモデルは、特定の音生成メカニズムに特に関連はないが、例えば閉ループ決定に基づく複数の符号化モードの中で選択されることができる１つの符号化モードであるモデルである。このように、ＳＮＲモデルは利用可能な符号化モデルであるが、音生成の物理的な構成に関わる必要はなく、情報受信側モデルとは異なるパラメータ化された符号化モデルであり、そして、それは閉ループ決定によって選択されることが可能で、具体的には、異なるモデルからの異なるＳＮＲの結果を比較することによって選択されることが可能である。

図３ｃに示されるように、制御装置３００、５２５は供給される。この制御装置は、図１ｃの決定ステージ３００の機能を含みうる。通常、その制御装置は、信号に適合できる方法で図１ｃのバイパスおよびスイッチ２００を制御するためにある。その制御装置は、目的関数に関して、バイパスに入力される、または、第１あるいは第２の符号化分岐により出力される信号を分析する、あるいは、第１および第２の符号化分岐からの符号化および復号化により得られる信号を分析する働きをしている。代わりに、または、加えて、その制御装置は、ここでも目的関数に関して、スイッチに入力される、あるいは、第１の処理分岐または第２の処理分岐によって出力される信号、または、第１の処理分岐および第２の処理分岐から処理または逆処理により得られる信号を分析する働きをしている。

一実施形態において、第１の符号化分岐または第２の符号化分岐は、例えばＭＤＣＴまたはＭＤＳＴアルゴリズムのようなエイリアシングを生じさせる時間／周波数変換アルゴリズムを含む。そして、それはエイリアシング効果を生じさせない直接のＦＦＴ変換とは異なる。さらにまた、一方または両方の分岐は、量子化器／エントロピー符号器ブロックを含む。具体的には、第２の符号化分岐の第２の処理分岐のみ、エイリアシング作用を生じさせている時間／周波数変換器を含む。そして、第２の符号化分岐の第１の処理分岐は量子化器および／またはエントロピー符号器を含み、いかなるエイリアシング効果も生じさせない。エイリアシングを生じさせる時間／周波数変換器は、分析窓を適用するためのウィンドワ（ｗｉｎｄｏｗｅｒ）とＭＤＣＴ変換アルゴリズムとを含むのが好ましい。具体的には、ウィンドワ（ｗｉｎｄｏｗｅｒ）は、ウィンドウ化された信号のサンプルが少なくとも２つのその後のウィンドウ化されたフレームで起こるように、オーバーラップの方法で窓関数をその後のフレームに適用する働きをする。

一実施形態において、第１の処理分岐はＡＣＥＬＰ符号器を含み、第２の処理分岐はＭＤＣＴスペクトル変換器および量子化されたスペクトル成分を得るためにスペクトル成分を量子化するための量子化器を含む。ここで、各量子化されたスペクトル成分はゼロであるかまたは複数の異なることもある量子化器インデックスのうちの１つの量子化器インデックスによって定義される。

前に述べたように、両方の符号化分岐は、オーディオ信号をブロック単位の方法（ｂｌｏｃｋ−ｗｉｓｅｍａｎｎｅｒ）で符号化する働きをしている。その方法では、信号の所定のサンプル数（対応する切り換えのためにワンフレーム長を形成している所定の数）のブロックの後に、最低限、切り換えまたはバイパスの動作が起こるように、バイパスまたは切り換えが、ブロック単位の方法（ｂｌｏｃｋ−ｗｉｓｅｍａｎｎｅｒ）で作動する。このように、そのバイパスによりバイパスするための粒は、例えば、２０４８または１０２８のサンプルのブロックでありうる。そして、そのフレーム長は、バイパスの切り換えに基づいて変化可能でありうるが、好ましくは、そのような相当長い周期に固定される。

それとは反対に、すなわち、スイッチ２００が１つのモードからその他へ切り換わるとき、スイッチ２００のためのブロック長は、第１の切り換えのためのブロック長より相当小さい。好ましくは、より長いブロック長がより短いブロック長の整数倍であるように、切り換えのための両方のブロック長は選択される。好ましい実施形態において、第１の切り換えのブロック長は２０４８であり、そして、第２の切り換えのブロック長は、１０２４、またはより好ましくは５１２、そしてさらにより好ましくは、２５６である、そして、さらにより好ましくは、バイパスが単一の時間だけを変えるときに、最大で、そのスイッチが１６回切り換わることができるように、１２８サンプルでさえある。

別の実施形態において、制御装置３００は、音声への決定が音楽への決定に対して好まれるような方法で、第１のスイッチのための音声音楽の識別を実行する働きをしている。この実施形態において、第１のスイッチのための１フレームの５０％未満の部分が音声であり、そのフレームの５０％以上の部分が音楽である時でさえ、音声への決定がされる。

さらに、第１フレームの極めて小さい部分が音声であるとき、特に、第１フレームの一部が音声であり、それはより小さい第２のフレームの長さの５０％であるとき、その制御装置はすでに音声モードへ切り換わる働きをしている。このように、例えば、第１のスイッチのフレーム長に対応するブロックのわずか６％または１２％が音声であるときでさえも、好ましい音声／好ましい切り換え決定は、すでに音声に切り換える。

この処理は、好ましくは、一実施形態において有声音声コアを有する第１の処理分岐のビットレートをセーブする能力を十分に引き出すためであり、そして、第２の処理分岐が変換器を含むという事実のため非音声である大きな第１のフレームの残りのための品質も緩めないためである。従って同様に音声信号でない信号を有するオーディオ信号に有効である。好ましくは、この第２の処理分岐は、臨界サンプリングされ（ｃｒｉｔｉｃａｌｌｙｓａｍｐｌｅｄ）、そして復号器側でのオーバーラップ加算（ｏｖｅｒｌａｐａｎｄａｄｄ）などの時間領域エイリアシングキャンセレーション（ＴＤＡＣ）処理のため、小ウィンドウサイズでさえ高効率でエイリアシングのない演算を供給するオーバーラップするＭＤＣＴを含む。さらに、好ましくはＡＡＣのようなＭＤＣＴ符号化分岐である第１の符号化分岐のために大きなブロック長は有用である。これは、非音声信号は通常極めて定常であり、そして、長い変換窓は高い周波数分解能を供給し、従って高品質を供給し、加えて、心理音響的に制御された量子化モジュールのためビットレート効率を供給するためである。そして、それは第２の符号化分岐の第２の処理分岐の変換ベースの符号化モードに適合されることもできる。

図３ｄ復号器図に関して、伝送信号が図３ｅで示されたように、補助情報４ａとして明示の指標を含むことは好ましい。この補助情報４ａは、図３ｄにおける第１の逆処理分岐または第２の逆処理分岐のような補正処理装置に、対応する第１の処理された信号および第２の処理された信号を送るために、図３ｄにおいて図示されないビットストリーム・パーサによって抽出される。従って、符号化信号は、符号化／処理された信号を有するだけでなく、これらの信号に関する補助情報も含む。しかし、他の実施形態において、復号器側のビットストリーム・パーサが特定の信号間で識別することを可能にする潜在的な信号がありうる。図３ｅに関して、第１の処理された信号または第２の処理された信号が、第２の符号化分岐の出力であり、従って第２の符号化された信号であることが略図に描かれる。

好ましくは、第１の復号化分岐および／または第２の逆処理された分岐は、スペクトル領域から時間領域への変換のためのＭＤＣＴ変換を含む。この目的で、オーバーラップアダー（ｏｖｅｒｌａｐ−ａｄｄｅｒ）は、同時に、ブロッキングアーチファクトを回避するためにクロスフェード効果を供給する時間領域エイリアシングキャンセル機能を実行するために供給される。通常、第１の復号化分岐は、第４の領域で符号化された信号を第１の領域に変換し、その一方で、第２の逆処理された分岐は、第３の領域から第２の領域への変換を実行する。そして、合成器６００の入力で、その後に第１の合成器と接続される変換器は、第１の領域信号だけがそこにあるように、第２の領域から第１の領域への変換を供給する。そして、それは、図３ｄの実施形態において、復号化出力信号を示す。

図４ｃは、好ましい復号器の実施例の別の態様を示す。特に、第１の復号器が時間エイリアシングを生じさせる復号器であり、あるいは、一般に周波数領域復号器と言われるものであり、そして、第２の復号器が時間領域装置である状況で、聞き取れるアーチファクトを避けるために、特に切り換え状況で、第１の復号器４５０および第２の復号器５５０によって出力されるブロックまたはフレーム間の境界は、完全には連続的であってはならない。このように、第１の復号器４５０の第１のブロックが出力されるとき、そして、その後の時間部のために第２の復号器のブロックが出力されるとき、好ましいのは、クロスフェードブロック６０７で示すようにクロスフェード操作を実行することである。この目的で、クロスフェード・ブロック６０７は、図４ｃにおいて６０７ａ、６０７ｂおよび６０７ｃで図示したように、実行されうる。各分岐は、正規化スケール上で、０と１との間の重み係数ｍ１を有する重み付け器（ｗｅｉｇｈｔｅｒ）を有しうる。ここで、重み係数はプロット６０９に示すように変動することができる。そのようなクロスフェージングルールは、連続的で滑らかなクロスフェージングが必ず起こるようにし、加えて、ユーザが声の大きさの変化を知覚しないであろうことを確実にする。ｓｉｎ²クロスフェージングルールのような非線形のクロスフェージングルールは、線形のクロスフェージングルールの代わりに適用することができる。

ある瞬間において、第１の復号器の最後のブロックは、窓を使用して生成され、その窓は実際にこのブロックのフェードアウトを実行した。この場合、ブロック６０７ａの重み係数ｍ１は１に等しく、そして、実際、重み付けはこの分岐のために全く必要でない。

第２の復号器から第１の復号器への切り換えが起こるとき、そして、第２の復号器がそのブロックの終わりまで実際にその出力をフェードアウトさせる窓を含むときに、そのとき「ｍ２」で示される重み付け器（ｗｅｉｇｈｔｅｒ）は必要でないだろう。あるいは、重み付けパラメータはクロスフェージング領域全体にわたって１に設定されることが可能である。

切り換え後の第１のブロックが窓関数を掛ける（ｗｉｎｄｏｗｉｎｇ）操作を使用して生成されるとき、そして、この窓が実際にフェードイン操作を実行するとき、そのとき、重み付け器（ｗｅｉｇｈｔｅｒ）が本当に必要でないように、対応する重み係数は１にセットされることも可能である。従って、最後のブロックが復号器によってフェードアウトするために窓関数を掛けられるとき、そして、切り換え後の第１のブロックがフェードインを供給するために復号器を使用して窓関数を掛けられるとき、そのとき、重み付け器（ｗｅｉｇｈｔｅｒ）６０７ａ、６０７ｂは、全く必要でなく、そして、アダー６０７ｃによる加算演算で十分である。

この場合、最後のフレームのフェードアウト部分および次のフレームのフェードイン部分は、ブロック６０９に示されるクロスフェージング領域を定める。さらに、この種の状況において好ましいのは、１つの復号器の最後のブロックが他の復号器の第１のブロックを有するある時間のオーバーラップを有することである。

クロスフェージング操作が必要でない、または、可能でない、または、所望でない場合、そして、１つの復号器から他の復号器への困難な切り換えしかない場合、オーディオ信号の無声のパッセージにおいて、または、少なくとも、低エネルギーのある、すなわち、無声またはほぼ無声であると知覚されるオーディオ信号のパッセージにおいて、この種の切り換えを実行することが好まれる。好ましくは、決定ステージ３００は、この種の実施形態において、スイッチ事象の後に続く対応する時間部分が、例えば、オーディオ信号の平均のエネルギーより低くて、好ましくは、そのオーディオ信号の２またはそれ以上の時間部分／フレームに関したオーディオ信号の平均のエネルギーの５０％より低いエネルギーを有するとき、スイッチ２００が動作するだけであることを確実にする。

好ましくは、第２の符号化規則／復号化規則は、ＬＰＣベースの符号化アルゴリズムである。ＬＰＣベースの音声符号化において、準周期的なインパルス状の励振信号セグメントまたは信号部分とノイズ状の励振信号セグメントまたは信号部分との間の差が作られる。これは、図７ｂのような超低ビットレートのＬＰＣボコーダ（２．４ｋｂｐｓ）のために実行される。しかし、中間レートのＣＥＬＰ符号器において、その励振は、適応型コードブックおよび固定型コードブックから基準化されたベクトルの加算のために得られる。

準周期的インパルス状の励振信号セグメント、すなわち、特定のピッチを有する信号セグメントは、ノイズ状の励振信号より、異なるメカニズムで符号化される。準周期的インパルス状の励振信号が有声音声と結ぶつく一方で、ノイズ状の励振信号は無声音声に関連がある。

見本として、図５ａから５ｄまでを参照する。ここでは、準周期的インパルス状の信号セグメントまたは信号部分とノイズ状の信号セグメントまたは信号部分が、見本として述べられる。特に、時間領域の図５ａと周波数領域の図５ｂにて示されるような有声音声は、準周期的インパルス状の信号部分のための例として述べられており、そして、ノイズ状の信号部分のための例としての無声音声セグメントは図５ｃおよび５ｄと関連して述べられる。音声は、通常、有声のもの、無声のもの、または混合のものとして分類することができる。抽出された有声および無声セグメントのための時間および周波数領域プロットが、図５ａから５ｄまでに示される。有声音声は、時間領域において準周期的であり、周波数領域において調和して構築される。その一方で、無声速度はランダム状であり広帯域である。有声音声の短時間スペクトルは、その微細でホルマントな構造によって特徴づけられる。微細な調和構造は、音声の準周期性の結果であって、震動している声帯に起因しうる。ホルマント構造（スペクトル包絡）は、ソースと声道の相互関係に起因する。声道は、咽頭および口腔から成る。有声音声の短時間スペクトルと「合う」スペクトル包絡の形状は、声門のパルスにより声道およびスペクトル傾斜（６ｄＢ／Ｏｃｔａｖｅ）の変換特性と関係している。スペクトル包絡は、ホルマントと呼ばれている一組のピークによって特徴づけられる。ホルマントは、声道の共振モードである。平均声道のために、３〜５つのホルマントが５ｋＨｚ以下にある。音声合成および知覚の両方において、３ｋＨｚ以下でたいてい起こっている最初の３つのホルマントの振幅および位置が、相当重要である。より高いホルマントもまた、広帯域および無声音声表現に重要である。音声の特性は、以下の通り、物理的な音声生成システムに関連がある。有声音声は、震動している声帯によって生成される準周期的な声門の空気パルスを有する声道を励振することによって生成される。周期的なパルスの周波数は、基本周波数またはピッチと呼ばれる。無声音声は、声道の収縮により空気を送ることによって生成される。鼻音は声道に対する鼻道の音響カップリングに起因する。そして、破裂音は、道の後ろで立ち上がった空気圧を突然に放出することによって生成される。

このように、オーディオ信号のノイズ状の部分は、図５ｃと図５ｄに示したように、インパルス状の時間領域構造も調和周波数領域構造も示さない。そして、例えば図５ａと図５ｂに示されるように、それは準周期的インパルス状の部分とは異なる。しかし、後ほど概説されるように、ノイズ状の部分と準周期的インパルス状の部分との間の差は、励振信号のためのＬＰＣの後にも、観測されることが可能である。ＬＰＣは、声道をモデル化して、その信号から声道の励振を引き出す方法である。

さらに、準周期的でインパルス状の部分およびノイズ状の部分は、適時な方法で起こりうる。すなわち、時間におけるオーディオ信号の一部はノイズが多く、そして、時間におけるオーディオ信号の他の部分は準周期的、すなわち、調性があることを意味する。代わりに、または、加えて、信号の特性は、異なる周波数帯域において異なることがありうる。このように、そのオーディオ信号がノイズが多いか調性であるかどうかに関わらず、その決定も、ある周波数帯域またはいくつかのある周波数帯域がノイズが多いとみなされ、他の周波数帯域は調性であるとみなされるように、周波数選択的に実行されうる。この場合、オーディオ信号のある時間部分は、調性の成分とノイズが多い成分を含みうる。

図７ａは、音声生成システムの線形モデルを示す。このシステムは、二ステージの励振、すなわち、図７ｃに示すような有声音声のためのインパルス列と図７ｄに示すような無声音声のためのランダムノイズと仮定する。声道は、声門のモデル７２によって生成された図７ｃまたは図７ｄのパルスを処理する全極型フィルタ７０としてモデル化される。それ故、図７ａのシステムは、利得ステージ７７、フォワード経路７８、フィードバック経路７９および加算ステージ８０を有する図７ｂの全極フィルタモデルに縮小することができる。フィードバック経路７９には、予測フィルタ８１があり、そして、図７ｂにおいて示される全ソースモデル合成システムは、以下のようにｚ領域関数を使用して表すことができる。

Ｓ（ｚ）＝ｇ／（１―Ａ（ｚ））・Ｘ（ｚ）

ここで、ｇは利得を表しており、Ａ（ｚ）はＬＰ分析によって定まる予測フィルタであり、Ｘ（ｚ）は励振信号であり、そして、Ｓ（ｚ）は合成音声出力である。

図７ｃおよび７ｄは、線形ソースシステムモデルを使用して有声および無声音声合成のグラフィック時間領域の説明を与える。このシステムおよび上記の方程式の励振パラメータは知られておらず、音声サンプルの有限集合から決定されなければならない。Ａ（ｚ）の係数は、入力信号の線形予測およびフィルタ係数の量子化を使用して得られる。ｐ位のフォワード型の線形予測器において、音声シーケンスの現在のサンプルは、ｐ個の通過したサンプルの線形結合から予測される。予測器の係数は、レビンソン―ダービン（Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ）アルゴリズムまたは通常、自己相関法または反射法のような周知のアルゴリズムにより決定することができる。

図７ｅは、ＬＰＣ分析ブロック５１０のより詳細な実施例を示す。オーディオ信号は、フィルタ情報Ａ（ｚ）を決定するフィルタ決定ブロックに入力される。この情報は、復号器のために必要な短期予測情報としての出力である。この情報は、例えばＡＭＲ―ＷＢ＋の仕様から知られるように、量子化器８１によって量子化される。短期予測情報は、実際の予測フィルタ８５によって必要とされる。減算器８６において、オーディオ信号の現在のサンプルが入力され、そして、現在のサンプルのための予測値は、このサンプルのために予測誤差信号がライン８４で生成されるように、減算される。この種の予測誤差信号サンプルのシーケンスは、図７ｃまたは７ｄにおいて非常に概略的に示される。従って、図７ｃ、７ｄは、一種の修正されたインパルス状の信号とみなされうる。

図７ｅが励振信号を算出するのに好ましい方法を示す一方、図７ｆは重み付けされた信号を算出するのに好ましい方法を示す。図７ｅとは対照的に、γが１とは異なるとき、フィルタ８５は異なる。１より小さい値がγには好まれる。さらに、ブロック８７が存在し、μは１より小さい数が好ましい。通常、図７ｅおよび７ｆの要素は、３ＧＰＰＴＳ２６．１９０または３ＧＰＰＴＳ２６．２９０にあるように実施することができる。

図７ｇは、逆処理を示しており、それは図２ｂの要素５３７の復号器側に適用することができる。特に、ブロック８８は重み付けされた信号から重み付けなしの信号を生成し、そして、ブロック８９は重み付けなしの信号から励振を算出する。通常、図７ｇの重み付けなしの信号を除いたすべての信号はＬＰＣ領域にあるが、励振信号および重み付けされた信号は同じ領域にある異なる信号である。ブロック８９は、それからブロック５３６の出力と共に使用されることができる励振信号を出力する。それから、共通の逆ＬＰＣ変換は、図２ｂのブロック５４０において実行することができる。

ＣＥＬＰアルゴリズムは、例えばガウス形シーケンスのコードブックを使用して短期および長期予測の後に得られた残差信号を符号化する。ＡＣＥＬＰアルゴリズムは、その「Ａ」は「Ａｌｇｅｂｒａｉｃ（代数の）」を表しており、特定の代数学的にデザインされたコードブックを有する。

コードブックは、各ベクトルがいくつかのサンプル量のより多いまたはより少ないベクトルを含みうる。利得係数ｇは符号ベクトルを基準化し、そして、得られた符号は、長期予測合成フィルタおよび短期予測合成フィルタによってフィルタにかけられる。減算器６９の出力の知覚的に重み付けされた平均二乗誤差が最小化されるように、「最適」符号ベクトルは選択される。ＣＥＬＰのサーチ処理は、図６にて示されるような合成による分析最適化によってなされる。

特定の場合のために、フレームが無声および有声の音声の混成であるとき、または、音楽上の音声が起こるときに、ＴＣＸ符号化はＬＰＣ領域の励振を符号化するためにより適当でありえる。ＴＣＸ符号化は、励振生成のいかなる仮定もすることなしで周波数領域において重み付けされた信号を処理する。ＴＣＸは、それから、ＣＥＬＰ符号化より包括的であり、励振の有声または無声のソースモデルに制限されない。ＴＣＸは、まだ、音声状の信号のホルマントをモデル化するための線形予測フィルタを使用しているソースフィルタ型符号化である。

ＡＭＲ―ＷＢ＋のような符号化において、ＡＭＲ―ＷＢ＋の説明から知られるように、異なるＴＣＸモードとＡＣＥＬＰの間の選択は起こる。ブロック単位の離散フーリエ変換の長さが異なるモードのために異なるという点で、ＴＣＸモードは異なっており、そして、その最適なモードは合成による分析アプローチによって、または、直接の「フィードフォワード」モードによって選択されることができる。

図２ｃと２ｄと関連して述べられるように、共通の前処理ステージ１００は、好ましくは、ジョイントマルチチャンネル（サラウンド／ジョイントステレオ装置）１０１を含んでおり、加えて、帯域拡張ステージ１０２を含む。対応して、復号器は、帯域拡張ステージ７０１およびその後接続されるジョイントマルチチャンネルステージ７０２を含む。好ましくは、符号器に関して、そのジョイントマルチチャンネルステージ１０１は、帯域拡張ステージ１０２の前に接続され、そして、復号器側では信号処理方向に関して、帯域拡張ステージ７０１は信号処理方向に関してジョイントマルチチャンネルステージ７０２の前に接続される。しかし、代わりに、共通の前処理ステージは、その後に接続された帯域拡張ステージなしのジョイントマルチチャンネルを含むことができ、または、接続されたジョイントマルチチャンネルステージなしの帯域拡張ステージを含むことができる。

符号器側１０１ａ、１０１ｂ、そして、復号器側７０２ａおよび７０２ｂにおけるジョイントマルチチャンネルステージのための好ましい例は、図８の状況において示される。ダウンミキサー（ｄｏｗｎｍｉｘｅｒ）が多くのＫ個の送信チャンネルを生成するように、多くのＥ個の元の入力チャンネルはダウンミキサー１０１ａに入力される。ここで、Ｋは１以上であり、Ｅよりは小さいか等しい。

好ましくは、Ｅ個の入力チャネルは、パラメータ情報を生成するジョイントマルチチャンネルパラメータ分析器１０１ｂに入力される。このパラメータ情報は、好ましくは、例えば異なる符号化やその後のハフマン符号化、あるいは、その後の算術符号化によってエントロピー符号化される。ブロック１０１ｄによって出力される符号化されたパラメータ情報は、図２ｂの項目７０２の一部でありうるパラメータ復号器７０２ｂに送られる。パラメータ復号器７０２ｂは、送られたパラメータ情報を復号化して、アップミキサー（ｕｐｍｉｘｅｒ）７０２ａに復号化されたパラメータ情報を送る。アップミキサー（ｕｐｍｉｘｅｒ）７０２ａはＫ個の送信されたチャンネルを受けて、多くのＬ個の出力チャネルを生成する。ここで、Ｌの数は、Ｋより大きいか等しく、Ｅより低いか等しい。

パラメータ情報は、ＢＣＣ技術から知られるような、または、ＭＰＥＧサラウンド規格で知られ、詳述されるような、内部チャンネルレベル差、内部チャンネル時間差、内部チャンネル位相差および／または内部チャンネルコヒーレンス測定を含みうる。送信チャンネルの数は、超低ビットレートアプリケーション用の単一のモノラルチャンネルでありうるし、または、互換性を持つステレオアプリケーションを含みうるし、または、互換性を持つステレオ信号、すなわち、２本のチャンネルを含みうる。一般的に、入力チャンネルの数Ｅは、５でありうるし、さらにより多いこともありうる。あるいは、入力チャンネルの数Ｅは、また、空間音声オブジェクト符号化（ＳＡＯＣ：ｓｐａｔｉａｌａｕｄｉｏｏｂｊｅｃｔｃｏｄｉｎｇ）の状況において知られるように、Ｅ個のオーディオオブジェクトでもありうる。

一実施例では、ダウンミキサーは、元のＥ個の入力チャンネルの重み付けされた、または、重み付けなしの加算、または、Ｅ個の入力オーディオオブジェクトの加算を実行する。入力チャンネルとしてのオーディオオブジェクトの場合、ジョイントマルチチャンネルパラメータ分析器１０１ｂは、好ましくは、時間部分ごとの、そして、さらにより好ましくは、周波数帯域ごとのオーディオオブジェクト間の相関行列のようなオーディオオブジェクトパラメータを算出する。この目的で、全周波数範囲は、少なくとも１０、そして、好ましい３２または６４の周波数帯域に分割されうる。

図９は、図２ａの帯域拡張ステージ１０２および図２ｂの対応する帯域拡張ステージ７０１の実施のための好ましい実施形態を示す。符号器側で、帯域拡張ブロック１０２は、好ましくはローパスフィルタをかけるブロック１０２ｂ、ローパスに続くかまたはＱＭＦ帯域の半分のみで動作する、逆ＱＭＦの一部であるダウンサンプラ（ｄｏｗｎｓａｍｐｌｅｒ）ブロックおよび高帯域分析器１０２ａを含む。帯域拡張ブロック１０２に入力された元のオーディオ信号は、それから符号化分岐および／またはスイッチに入力される低帯域信号を生成するためにローパスフィルタにかけられる。そのローパスフィルタは、３ｋＨｚ〜１０ｋＨｚの範囲にありうるカットオフ周波数を有する。また、帯域拡張ブロック１０２は、スペクトル包絡パラメータ情報や暗騒音パラメータ情報、逆フィルタパラメータ情報、さらに高帯域の特定の調和ラインに関するパラメータ情報およびスペクトル帯域複製に関連した章におけるＭＰＥＧ―４規格で詳述されたような追加パラメータなどの帯域拡張パラメータを算出するための高帯域分析器をさらに含む。

復号器側で、帯域拡張ブロック７０１は、パッチャ（ｐａｔｃｈｅｒ）７０１ａ、アジャスタ７０１ｂおよび合成器７０１ｃを含む。合成器７０１ｃは、復号化された低帯域信号とアジャスタ７０１ｂにより出力された再構築され調整された高帯域信号を合成する。アジャスタ７０１ｂへの入力は、例えばスペクトル帯域複製によって、または、通常、帯域拡張などによって、低帯域信号から高帯域信号を抽出する働きをするパッチャによって供給される。パッチャ７０１ａによって実行されるパッチングは、調和方法、または、非調和的な方法で実行されるパッチングでもよい。パッチャ７０１ａによって生成される信号は、その後、送信されたパラメータ帯域拡張情報を使用してアジャスタ７０１ｂによって調整される。

図８および図９に示すように、説明されたブロックは、好ましい実施形態のモード制御入力を有しうる。このモード制御入力は、決定ステージ３００の出力信号から生じる。この種の好ましい実施形態において、対応するブロックの特性は決定ステージの出力、すなわち、好ましい実施形態において、そのオーディオ信号のある時間部分のために音声への決定がなされるべきか音楽への決定がなされるべきかに適合されうる。好ましくは、そのモード制御は、これらのブロックの一つ以上の機能に関連するだけであり、ブロックの機能全てには関連するわけではない。例えば、その決定は、パッチャ７０１ａのみに影響を与えうるが、図９の他のブロックには影響しないこともあり、あるいは、例えば、図８のジョイントマルチチャンネルパラメータ分析器のみに影響を与えうるが、図８の他のブロックには与えないこともありうる。この実施例は、好ましくは、より高い柔軟性およびより高品質およびより低ビットレートの出力信号が共通の前処理ステージにおいて柔軟性を供給することによって得られるというものである。しかし、一方で、両方の種類の信号のための共通の前処理ステージのアルゴリズムの使用は、効率的な符号化／復号化方式を実行することを可能にする。

図１０ａおよび図１０ｂは、決定ステージ３００の２つの異なる実施例を示す。図１０ａに、開ループ決定が示される。ここで、決定ステージの信号分析器３００ａは、入力信号のある時間部分またはある周波数部分が、この信号部分が第１の符号化分岐４００によって、または、第２の符号化分岐５００によって符号化されることを必要とする特性を有するかを決定するために、特定の規則を有する。この目的で、信号分析器３００ａがオーディオ入力信号を共通の前処理ステージへのオーディオ入力信号を分析する場合もあり、または、共通の前処理ステージにより出力されるオーディオ信号、すなわち、オーディオ中間信号を分析する場合もあり、またはモノラル信号もありうるし、あるいは、図８に示されるｋチャンネルを有する信号もありうる、ダウンミックス信号の出力などの共通の前処理ステージ内の中間信号を分析する場合もある。出力側では、信号分析器３００ａは、符号器側のスイッチ２００と復号器側の対応するスイッチ６００または合成器６００を制御するための切り換え決定を生成する。

代わりに、決定ステージ３００は閉ループ決定を実行しうる。そして、それは、両方の符号化分岐がオーディオ信号の同じ部分上でそれらのタスクを実行し、そして、両方の符号化信号が、対応する復号化分岐３００ｃ、３００ｄによって復号化されることを意味する。装置３００ｃおよび３００ｄの出力は、例えばオーディオ中間信号の対応する部分を置くために復号化装置の出力を比較するコンパレータ３００ｂに入力される。そして、分岐ごとのＳＮ比のようなコスト関数に応じて、切り換え決定はなされる。この閉ループ決定は、開ループ決定と比較して増加した煩雑性を有するが、この煩雑性は符号器側に存在しているだけであり、復号器にはこの処理によるいかなる不利な点もない。これは、復号器がこの符号化決定の出力を都合よく使用することができるからである。従って、閉ループモードは、例えば符号器は少数であるが、復号器は多数であり、加えて、スマートかつ安価でなければならない放送アプリケーションのように復号器の煩雑性が問題ではないアプリケーションにおける煩雑性および品質考慮のため好まれる。

コンパレータ３００ｄによって適用されるコスト関数は、品質面によって駆動されるコスト関数であることもあり、または、ノイズ面によって駆動されるコスト関数であることもあり、または、ビットレート面によって駆動されるコスト関数であることもあり、または、ビットレート、品質、（符号化アーチファクト、具体的には量子化によって生じる）ノイズなどのいかなる組み合わせによっても駆動される合成コスト関数でもありうる。

好ましくは、第１の符号化分岐または第２の符号化分岐は、符号器側および対応して復号器側にタイムワープ機能を含む。一実施形態において、第１の符号化分岐は、一部のオーディオ信号に依存する可変のワーピング特性を算出するためのタイムワープモジュール、決定されたワーピング特性に従う再サンプリング化のためのリサンプラ、時間領域／周波数領域変換器および時間領域／周波数領域変換の結果を符号化された表現に変換するためのエントロピー符号器を含む。可変のワープ特性は、その符号化オーディオ信号に含まれる。この情報は、タイムワープ拡張の復号化分岐により読み込まれ、ワープなしの時間スケールにおける出力信号を最終的に有するために処理される。例えば、復号化分岐は、エントロピー復号化、非量子化および周波数領域を時間領域に戻す変換を実行する。時間領域において、デワーピング（ｄｅｗａｒｐｉｎｇ）は、適用することができて、最終的にワープなしの時間スケールを有する離散的なオーディオ信号を得るための対応する再サンプリング演算が続きうる。

本発明の方法の特定の実施要件に応じて、本発明の方法は、ハードウェアにおいて、または、ソフトウェアにおいて実施することができる。その実施例は、本発明の方法が実行されるようにプログラミング可能な計算機システムと連携するデジタル記録媒体、特に、そこに格納された電子的に読み込み可能な制御信号を有するディスク、ＤＶＤまたはＣＤを使用して実施することができる。従って、通常、本発明は、機械で読み取り可能なキャリアに格納されたプログラムコードを有するコンピュータ・プログラム製品である。そして、そのプログラムコードは、そのコンピュータ・プログラム製品がコンピュータ上で動作するときに、発明の方法を実施するために作動される。従って、換言すれば、本発明の方法は、コンピュータ・プログラムがコンピュータ上で動作するときに、本発明の方法のうちの少なくとも１つを実行するためのプログラムコードを有するコンピュータ・プログラムである。

本発明の符号化オーディオ信号は、デジタル記憶媒体に格納できるか、または、ワイヤレス送信媒体のような伝送媒体、または、インターネットのような有線の伝送媒体で送信できる。

上記実施形態は、本発明の原理のために、単に示しているだけである。ここに述べられた装置および詳細の修正や変形は、他の当業者にとって明白であるものと理解される。従って、その意図は、差し迫った特許クレームの範囲によってのみ制限され、ここにおける実施形態の叙述や説明として示される具体的な詳細によっては制限されないということである。

Claims

符号化オーディオ信号を得るためにオーディオ信号を符号化するための装置であって、前記オーディオ信号は第１の領域にあり、
前記オーディオ信号を前記第１の領域から第２の領域に変換するための第１の領域変換器（５１０）と、
バイパス切り換え制御信号（５１）に応答して、前記第１の領域変換器（５１０）をバイパスするための、または、前記第１の領域変換器（５１０）によって前記オーディオ信号の変換を引き起こすための、切り換え可能なバイパス（５０）と、
前記切り換え可能なバイパス（５０）または前記第１の領域変換器（５１０）から受け取られたオーディオ信号を第３の領域に変換するための第２の領域変換器（４１０）であり、前記第３の領域は前記第２の領域とは異なっている第２の領域変換器（４１０）と、
第１の符号化アルゴリズムに従って前記第３の領域のオーディオ信号を符号化するための第１の処理装置（４２０）と、
第２の処理された信号を得るために前記第１の符号化アルゴリズムとは異なる第２の符号化アルゴリズムに従って、前記第１の領域変換器（５１０）から受け取られる前記オーディオ信号を符号化するための第２の処理装置（５２０）と、を含み、
前記オーディオ信号の一部ための前記符号化信号は、前記第１の処理された信号、または、前記第２の処理された信号を含むこと、を特徴とする、装置。
前記第１の領域変換器（５１０）がＬＰＣ残差信号およびＬＰＣパラメータデータを得るために前記オーディオ信号をＬＰＣフィルタにかけるためのＬＰＣ分析フィルタを含むこと、を特徴とする、請求項１に記載の装置。
前記第２の領域変換器（４１０）が入力信号をそのスペクトル表現に変換するための時間‐周波数変換器を含むこと、を特徴とする、請求項１または請求項２に記載の装置。
符号化出力信号が前記第２の処理装置（５２０）への入力信号と同じ領域にあるように、前記第２の処理装置（５２０）が前記符号化出力信号を生成する働きをすること、を特徴とする、請求項１〜請求項３のいずれかに記載の装置。
前記第１の処理装置（４２０）が量子化器およびエントロピー符号器を含み、そして、前記第２の処理装置（５２０）がコードブックベースのソース符号器を含むこと、を特徴とする、請求項１〜請求項４のいずれかに記載の装置。
前記第１の処理装置（４２０）が情報受信側モデルに基づき、前記第２の処理装置（５２０）は情報源モデルに基づくこと、を特徴とする、請求項１〜請求項５のいずれかに記載の装置。
前記第１の領域変換器（５１０）の出力および前記第２の領域変換器（４１０）の入力および前記第２の処理装置（５２０）の入力との間に接続される切り換えステージ（２００）を更に含み、
前記切り換えステージ（２００）は、切り換えステージの制御信号に応答して、前記第２の領域変換器（４１０）の前記入力および前記第２の処理装置（５２０）の前記入力との間で切り換わるのに適合されていること、を特徴とする、請求項１〜請求項６のいずれかに記載の装置。
前記切り換え可能なバイパス（５０）の出力が前記第１の領域変換器（５１０）の出力に接続され、前記切り換え可能なバイパス（５０）の入力が前記第１の領域変換器（５１０）への入力に接続されること、を特徴とする、請求項１〜請求項７のいずれかに記載の装置。
前記オーディオ信号の一部の解析結果に応じて、前記オーディオ信号の前記一部のための前記切り換え可能なバイパス（５０）を制御するための信号分類器を更に含むこと、を特徴とする、請求項１〜請求項８のいずれかに記載の装置。
前記第２の領域変換器（４１０）がブロックベースの方法で入力信号を変換する働きをし、そして、前記オーディオ信号の内容に応じて異なる長さのブロックが変換されるという点において前記第２の領域変換器（４１０）が制御されるように、前記第２の領域変換器がオーディオ信号解析に応答してブロックベースの切り換えを実行する働きをすること、を特徴とする、請求項１〜請求項９のうちの１項に記載の装置。
符号化オーディオ信号を得るためにオーディオ信号を符号化するための方法であって、前記オーディオ信号は第１の領域にあり、
前記オーディオ信号を前記第１の領域から第２の領域に変換するステップ（５１０）と、
バイパス切り換え制御信号（５１）に応答して、前記オーディオ信号を前記第１の領域から第２の領域に変換するステップ（５１０）をバイパスするステップ（５０）、あるいは、前記第１の領域から第２の領域への前記オーディオ信号の変換を引き起こすステップと、
バイパスされたオーディオ信号（５０）または前記第２の領域のオーディオ信号を第３の領域に変換するステップであり、前記第３の領域は前記第２の領域とは異なっている、前記変換するステップと、
第１の符号化アルゴリズムに従って、前記バイパスされたオーディオ信号（５０）または前記第２の領域にある前記オーディオ信号を変換するステップ（４１０）によって生成される前記第３の領域のオーディオ信号を符号化するステップ（４２０）と、
第２の処理された信号を得るために前記第１の符号化アルゴリズムとは異なる第２の符号化アルゴリズムに従って、前記第２の領域にある前記オーディオ信号を符号化するステップ（５２０）と、を含み、
前記オーディオ信号の一部ための前記符号化信号は、前記第１の処理された信号、または、前記第２の処理された信号を含むこと、を特徴とする、方法。
符号化オーディオ信号を復号化するための装置であって、前記符号化オーディオ信号は第３の領域にある第１の処理された信号と第２の領域にある第２の処理された信号を含み、前記第２の領域および前記第３の領域は互いに異なっており、
前記第１の処理された信号を逆処理するための第１の逆処理装置（４３０）と、
前記第２の処理された信号を逆処理するための第２の逆処理装置（５３０）と、
前記第１の逆処理された信号を前記第３の領域から異なる領域に領域変換するための第２の変換器（４４０）と、
前記異なる領域が前記第１の領域ではないときに、前記第２の逆処理された信号を第１の領域に変換するための、または、異なる領域に変換された前記第１の逆処理された信号を前記第１の領域に変換するための、第１の変換器（５４０）と、
前記異なる領域が前記第１の領域であるときに、前記第１の変換器（５４０）をバイパスするためのバイパス（５２）と、を含むこと、を特徴とする、装置。
合成された復号化オーディオ信号（６９９）を得るために前記第１の変換器（５４０）の出力と前記バイパス（５２）の出力とを合成するための合成器（６００）を更に含むこと、を特徴とする、請求項１２に記載の装置。
前記第１の処理された信号、前記第２の処理された信号、および、ある第１の逆処理された信号のために前記第１の変換器（５４０）が前記バイパスによってバイパスされるかそうでないかを示している前記制御信号を、符号化オーディオ信号から抽出するための入力インタフェース（９００）を更に含むこと、を特徴とする、請求項１２または請求項１３に記載の復号化するための装置。
前記第１の変換器（５４０）は線形予測符号化（ＬＰＣ）合成ステージを含み、前記第２の変換器（４４０）はオーディオ信号のスペクトル表現を前記オーディオ信号の時間表現に変換するためのスペクトル―時間変換器を含むこと、を特徴とする、請求項１２〜請求項１４のいずれかに記載の復号化するための装置。
前記第１の逆処理装置（４３０）はエントロピー復号器および逆量子化器を含み、前記第２の逆処理装置（５３０）は前記コードブックベースのソース復号器を含むこと、を特徴とする、請求項１２〜請求項１５のいずれかに記載の復号化するための装置。
前記第２の変換器（４４０）が、前記符号化オーディオ信号に含まれる付加情報（４３４）によって制御可能な、逆タイムワープ処理修正離散コサイン変換（ｉｎｖｅｒｓｅｔｉｍｅｗａｒｐｅｄｍｏｄｉｆｉｅｄｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ）フィルタリング操作のような合成フィルタリング操作を実行する働きをすること、を特徴とする、請求項１２〜請求項１６のいずれかに記載の復号化するための装置。
符号化オーディオ信号を復号化するための方法であって、前記符号化オーディオ信号は第３の領域にある第１の処理された信号と第２の領域にある第２の処理された信号を含み、前記第２の領域および前記第３の領域は互いに異なっており、
前記第１の処理された信号を逆処理するステップ（４３０）と、
前記第２の処理された信号を逆処理するステップ（５３０）と、
前記第１の逆処理された信号を前記第３の領域から異なる領域に第２の領域変換をするステップ（４４０）と、
前記異なる領域が前記第１の領域ではないときに、前記第２の逆処理された信号を第１の領域に第１の領域変換をするステップ（５４０）、あるいは、前記第１の逆処理された信号を前記第１の領域に変換するステップと、
前記異なる領域が前記第１の領域であるときに、第１の領域変換をする前記ステップ（５４０）をバイパスするステップ（５２）と、を含むこと、を特徴とする、方法。
コンピュータ・プログラムがコンピュータ上で動作するときに、請求項１１に記載のオーディオ信号を符号化するための方法、または、請求項１８に記載の符号化オーディオ信号を復号化するための方法を実行するためのコンピュータ・プログラム。