JP5325294B2

JP5325294B2 - 共通の前処理を有する低ビットレート・オーディオ符号化／復号化方式

Info

Publication number: JP5325294B2
Application number: JP2011517014A
Authority: JP
Inventors: ベルンハルトグリル; シュテファンバイエル; ギヨームフックス; シュテファンガヤーズベアガー; ラルフガイガー; ジョーハンヒルペアト; ウルリヒクレマー; イェレミールコンテ; マルクスマルトラス; マクスノイエンドルフ; ハラルドポップ; ニコラウスレッテルバッハ; フレドリックナーゲル; サッシャディスヒ; ユールゲンヘレ; 嘉一横谷; シュテファンヴァブニック; ゲラルドシューラー; イェンスヒルシュフェルト
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2008-07-11
Filing date: 2009-07-06
Publication date: 2013-10-23
Anticipated expiration: 2029-07-06
Also published as: JP2011527457A; MX2011000383A; US20110200198A1; HK1156723A1; BR122020025776B1; ZA201009209B; CA2730237C; AU2009267432B2; KR20130014642A; EP2311035A1; EP2311035B1; CO6341673A2; WO2010003617A1; KR20110040899A; AU2009267432A1; PL2311035T3; CN102124517A; US8804970B2; RU2483365C2; BR122020025711B1

Description

本発明は、オーディオ符号化に関し、特に、低ビットレートオーディオ符号化方式に関する。

技術的に、ＭＰ３またはＡＡＣのような周波数領域符号化方式は公知である。これらの周波数領域エンコーダは、時間領域／周波数領域変換、量子化誤差が音響心理学的要素からの情報を用いて制御される次の量子化ステージ、および量子化スペクトル係数および対応する副情報がコード表を用いてエントロピー符号化される符号化ステージに基づいている。

一方において、例えば３ＧＰＰＴＳ２６．２９０に示されるようなＡＭＲ−ＷＢ＋などの音声処理に非常によく適しているエンコーダがある。このようなオーディオ符号化方式は、時間領域信号の線形予測フィルタリングを実行する。このような線形予測フィルタリングは、入力時間領域信号の線形予測分析から得られる。結果として得られる線形予測フィルタ係数は、符号化され、副情報として送信される。そのプロセスは、線形予測符号化（ＬＰＣ）として公知である。フィルタの出力で、励振信号としても知られる予測残差信号または予測誤差信号は、ＡＣＥＬＰエンコーダの合成による分析ステージを使用して符号化されるか、あるいは、重なりのあるフーリエ変換を用いた変換エンコーダを用いて符号化される。ＡＣＥＬＰ符号化およびＴＣＸ符号化とも呼ばれている変換符号励振符号化の間の決定は、閉ループまたは開ループ・アルゴリズムを用いて行われる。

ＡＡＣ符号化方式およびスペクトルバンド複製技術を組み合わせる高効率−ＡＡＣ符号化方式のような周波数領域オーディオ符号化方式は、さらに、ジョイントステレオまたは「ＭＰＥＧサラウンド」という名のもとに知られているマルチチャネル・コーディング・ツールに組み合わされることができる。

一方では、ＡＭＲ−ＷＢ＋のような音声エンコーダも、高周波強化ステージおよびステレオ機能性を有する。

周波数領域符号化方式は、音楽信号に対して低ビットレートで高品位を示すという点で有利である。しかしながら、低ビットレートの音声信号の品質は、問題を含む。

音声符号化方式は、低ビットレートでも音声信号に対して高品質を示すが、低ビットレートでの音楽信号に対して低品質を示す。

本発明の目的は、改良された符号化コンセプトを提供することである。

この目的は、請求項１のオーディオエンコーダ、請求項１３のオーディオ符号化方法、請求項１４のオーディオデコーダ、請求項２４のオーディオ復号化方法、請求項２５のコンピュータ・プログラムまたは請求項２６の符号化オーディオ信号によって達成される。

本発明の態様において、スイッチを制御する決定ステージは、２つの分岐のうちの１つに共通の前処理ステージの出力を送るために用いられる。一方では、主にソースモデルおよび／またはＳＮＲのような客観的計測値によって動機付けられ、他方では、シンクモデルおよび／または音響心理学的モデル、すなわち聴覚マスキングによって動機付けられる。典型的には、１つのブランチは周波数領域エンコーダを有し、他のブランチは音声コーダのようなＬＰＣ領域エンコーダを有する。ソースモデルは通常音声処理であり、したがって、ＬＰＣは共通して用いられる。このように、ジョイントステレオまたはマルチチャネル符号化ステージおよび／または帯域幅拡大ステージのような典型的な前処理ステージは、両方の符号化アルゴリズムのために共通して用いられ、完全なオーディオエンコーダおよび完全な音声コーダが同じ目的のために使われる状況に比べて、相当な量の記憶装置、チップ面積、消費電力を節約する。

好ましい実施例において、オーディオエンコーダは２つのブランチのための共通の前処理ステージを含み、第１のブランチは主にシンクモデルおよび／または音響心理学的なモデルによって、すなわち聴覚マスキングによって動機付けられ、第２のブランチは主にソースモデルによって、および区分ＳＮＲ計算によって動機付けられる。オーディオエンコーダは、これらのブランチへの入力または決定ステージによって制御されるこれらのブランチの出力において、これらのブランチの間のスイッチングのための１つまたはそれ以上のスイッチを備えることが好ましい。オーディオエンコーダにおいて、第１のブランチは、音響心理学に基づくオーディオエンコーダを含み、第２のブランチはＬＰＣおよびＳＮＲ分析器を含む。

好ましい実施例において、オーディオデコーダは、スペクトル領域復号化ブランチのような情報シンクに基づく復号化ブランチ、ＬＰＣ領域復号化ブランチのような情報源に基づく復号化ブランチ、ブランチの間をスイッチングするためのスイッチ、および後処理されたオーディオ信号を得るために時間領域オーディオ信号を後処理するための共通の後処理ステージを含む。

本発明の更なる態様に従った符号化されたオーディオ信号は、情報シンクモデルを有する第１の符号化アルゴリズムに従って符号化されるオーディオ信号の第１の部分を表す第１の符号化ブランチ出力信号であって、オーディオ信号を表す符号化スペクトル情報を有する第１の符号化ブランチ出力信号と；出力信号の第１の部分とは異なるものであって情報ソースモデルを有する第２の符号化アルゴリズムに従って符号化されるオーディオ信号の第２の部分を表す第２の符号化ブランチ出力信号であって、中間信号を表す情報ソースモデルのための符号化パラメータを有する第２の符号化ブランチ出力と；オーディオ信号およびオーディオ信号の拡大バージョンの違いを表す共通の前処理パラメータとを含む。
本発明の好ましい実施例は、添付の図面を参照して記載されている。

図１ａは、本発明の第１の態様に従った符号化方式を示すブロック図である。図１ｂは、本発明の第１の態様に従った復号化方式を示すブロック図である。図２ａは、本発明の第２の態様に従った符号化方式を示すブロック図である。図２ｂは、本発明の第２の態様に従った復号化方式を示す図解図である。図３ａは、本発明の更なる態様に従った符号化方式を示すブロック図である。図３ｂは、本発明の更なる態様に従う復号化方式を示すブロック図である。図４ａは、符号化ブランチの前に配置されるスイッチを有するブロック図である。図４ｂは、ブランチを符号化した後に配置されるスイッチを有する符号化方式のブロック図である。図４ｃは、好ましいコンバイナの実施例を示すブロック図である。図５Ｉの図５ａは準周期的なまたはインパルス状の信号部分としての時間領域音声セグメントの波形図であり、図５ｂは図５ａのセグメントのスペクトルを示す。図５ＩＩの図５ｃは静止またはノイズ状の部分としての無声音の時間領域音声セグメントであり、図５ｄは図５ｃの時間領域波形のスペクトルである。図６は、合成による分析ＣＥＬＰエンコーダのブロック図である。図７ａは、インパルス状および静止／ノイズ状の信号のための例としての有声／無声励振信号である。図７ｂは、インパルス状および静止／ノイズ状の信号のための例としての有声／無声励振信号である。図７ｃは、インパルス状および静止／ノイズ状の信号のための例としての有声／無声励振信号である。図７ｄは、インパルス状および静止／ノイズ状の信号のための例としての有声／無声励振信号である。図７ｅは、短期予測情報および予測誤差を提供するエンコーダ側ＬＰＣステージである。図８は、本発明の実施例に従うジョイント・マルチチャネル・アルゴリズムのブロック図である。図９は、帯域幅拡大アルゴリズムの好ましい実施例である。図１０ａは、開ループ決定を実行するときのスイッチの詳細な説明である。図１０ｂは、閉ループ決定モードで作動するときのスイッチの実施例である。

モノラル信号、ステレオ信号またはマルチチャネル信号は、図１ａの共通の前処理ステージ１００に入力される。共通の前処理方式は、ジョイントステレオ機能性、サラウンド機能性および／または帯域幅拡大機能性を有する。ブロック１００の出力で、スイッチ２００に入力されるモノラル・チャネル、ステレオ・チャネルまたは多重チャネル、またはタイプの複数のスイッチ２００がある。

ステージ１００が２つまたはそれ以上の出力を有するとき、すなわち、ステージ１００がステレオ信号またはマルチチャネル信号を出力するとき、スイッチ２００はステージ１００の出力ごとに存在することができる。典型的には、ステレオ信号の第１のチャネルは音声チャネルであり、ステレオ信号の第２のチャネルは音楽チャネルとすることができる。この状態で、決定ステージでの決定は、同じ時刻に関して２つのチャネルの間で異なることがありえる。

スイッチ２００は、決定ステージ３００によって制御される。決定ステージは、入力として、ブロック１００に入力される信号またはブロック１００によって出力される信号を受信する。あるいは、決定ステージ３００は、モノラル信号、ステレオ信号またはマルチチャネル信号に含まれるか、または少なくともこのような信号に関連する副情報を受信し、例えば、もともとモノラル信号、ステレオ信号またはマルチチャネル信号を作成するときに生成される情報が存在する。

ある実施例において、決定ステージは前処理ステージ１００を制御せず、ブロック３００と１００の間の矢印が存在しない。さらなる実施例において、決定に基づいて１つまたはそれ以上のパラメータをブロック１００にセットするために、ブロック１００の処理は、決定ステージ３００によってある程度制御される。しかしながら、これはブロック１００における一般のアルゴリズムに影響せず、ブロック１００における主機能性は、ステージ３００における決定にかかわりなく動作中である。

図１ａの上側ブランチで例示される周波数符号化部４００または図１ａの下側ブランチで例示されるＬＰＣ領域符号化部５００のどちらかにおける共通の前処理ステージの出力を供給するために、決定ステージ３００はスイッチ２００を作動させる。

実施例において、スイッチ２００は、２つの符号化ブランチ４００、５００の間で切り替わる。さらなる実施例において、第３の符号化ブランチ、または第４の符号化ブランチ、またはさらなる符号化ブランチのように、付加的な符号化ブランチがあってもよい。３つの符号化ブランチを有する実施例において、第３の符号化ブランチは第２の符号化ブランチに類似していてもよいが、第２のブランチ５００の励振エンコーダ５２０と異なる励振エンコーダを含むことができる。本実施例において、第２のブランチは、ＬＰＣステージ５１０およびＡＣＥＬＰにおけるようなコードブックに基づく励振エンコーダを含み、第３のブランチは、ＬＰＣステージと、ＬＰＣステージ出力信号のスペクトル表現上で動作する励振エンコーダとを含む。

周波数領域符号化ブランチの重要な要素は、共通の前処理ステージ出力信号をスペクトル領域に変換するスペクトル変換ブロック４１０である。スペクトル変換ブロックは、ＭＤＣＴアルゴリズム、ＱＭＦ、ＦＦＴアルゴリズム、ウェーブレット分析または一定数のフィルタバンクチャネルを有する決定的にサンプリングされたフィルタバンクのようなフィルタバンクを含み、このフィルタバンクにおけるサブバンド信号は、実数値の信号または複素数値の信号である。スペクトル変換ブロック４１０の出力は、ＡＡＣ符号化方式から知られているような処理ブロックを含むスペクトルオーディオエンコーダ４２０を用いて符号化される。

下側の符号化ブランチ５００において、重要な要素は２種類の信号を出力するＬＰＣ５１０のようなソースモデル分析器である。１つの信号は、ＬＰＣ合成フィルタのフィルタ特性を制御するために用いられるＬＰＣ情報信号である。このＬＰＣ情報は、デコーダに送信される。他のＬＰＣステージ５１０出力信号は、励振エンコーダ５２０に入力される励振信号またはＬＰＣ領域信号である。励振エンコーダ５２０は、例えばＣＥＬＰエンコーダ、ＡＣＥＬＰエンコーダまたはＬＰＣ領域信号を処理する他のエンコーダのようなソースフィルタモデル・エンコーダによってもたらされることができる。

他の好ましい励振エンコーダの実現は、励振信号の変換符号化である。本実施例において、励振信号はＡＣＥＬＰコードブック・メカニズムを用いて符号化されず、励振信号はスペクトル表現に返還され、フィルタバンクの場合にはサブバンド信号のような、またはＦＦＴのような変換の場合には周波数係数のようなスペクトル表現値はデータ圧縮を得るために符号化される。このような励振エンコーダの実現は、ＡＭＲ−ＷＢ＋から知られているＴＣＸ符号化モードである。

決定ステージにおける決定は信号適応可能であり、決定手段は音楽／音声識別を行い、音楽信号が上側ブランチ４００に入力され、音声信号が下側ブランチ５００入力されるというような方法でスイッチ２００を制御する。実施例において、決定ステージはその決定情報を出力ビットストリームに供給し、その結果、デコーダは正しい復号化動作を実行するためにこの決定情報を使用することができる。

このようなデコーダが図１ｂに例示されている。スペクトルオーディオエンコーダ４２０による信号出力は、送信の後、スペクトルオーディオデコーダ４３０に入力される。スペクトルオーディオデコーダ４３０の出力は、時間領域コンバータ４４０に入力される。同様に、図１ａの励振エンコーダ５２０の出力は、ＬＰＣ領域信号を出力する励振デコーダ５３０に入力される。ＬＰＣ領域信号は、ＬＰＣ合成ステージ５４０に入力され、それは、更なる入力として、対応するＬＰＣ分析ステージ５１０によって生成されるＬＰＣ情報を受信する。時間領域コンバータ４４０の出力および／またはＬＰＣ合成ステージ５４０の出力は、スイッチ６００に入力される。スイッチ６００は、例えば、決定ステージ３００によって生成された、または、もともとのモノラル信号、ステレオ信号またはマルチチャネル信号の創作者によって例えば外部から与えられるスイッチ制御信号によって制御される。

スイッチ６００の出力は完全なモノラル信号であり、その後、ジョイントステレオ処理または帯域幅拡大処理その他を実行する共通の後処理ステージ７００に入力される。あるいは、スイッチの出力はステレオ信号であってもよく、マルチチャネル信号であってもよい。前処理が２つのチャネルへのチャネル縮小を含む場合、それはステレオ信号である。３つのチャネルへのチャネル縮小または全くチャネル縮小はないが、スペクトル帯域幅複製だけが実行される場合、それはマルチチャネル信号である。

共通の後処理ステージの特定の機能性に応じて、モノラル信号、ステレオ信号またはマルチチャネル信号は、共通の後処理ステージ７００が帯域幅拡大動作を実行するとき、ブロック７００への信号入力より大きい帯域幅を有する出力である。

実施例において、スイッチ６００は、２つの復号化ブランチ４３０、４４０および５３０、５４０の間で切り替わる。さらなる実施例において、第３の復号化ブランチ、第４の復号化ブランチまたはそれ以上の復号化ブランチなどのような付加的な復号化ブランチがあってもよい。３つの復号化ブランチを有する実施例において、第３の復号化ブランチは第２の復号化ブランチと同様にすることができるが、第２のブランチ５３０、５４０の励振デコーダ５３０とは異なる励振デコーダを含んでいてもよい。この実施例において、第２のブランチは、例えばＬＰＣステージ５４０およびＡＣＥＬＰにおけるようなコードブックに基づく励振デコーダを含み、第３のブランチは、ＬＰＣステージと、ＬＰＣステージ５４０出力信号のスペクトル表現上で動作する励振デコーダとを含む。

前述したように、図２ａは本発明の第２の態様に従った好ましい符号化方式を例示する。図１ａからの１００における共通の前処理方式は、現在、出力として、ジョイントステレオ・パラメータと、２つまたはそれ以上のチャネルを有する信号である入力信号をダウンミキシングすることによって生成されるモノラル出力信号とを生成するサラウンド／ジョイントステレオ・ブロック１０１を含む。通常、ブロック１０１の出力における信号は、より多くのチャネルを有する信号であってもよいが、ブロック１０１のダウンミキシング機能性のため、ブロック１０１の出力でのチャネルの数はブロック１０１に入力されるチャネルの数より小さい。

ブロック１０１の出力は、図２ａのエンコーダにおいて、例えばその出力におけるローバンド信号またはローパス信号などの帯域制限信号を出力する帯域幅拡大ブロック１０２に入力される。さらに、ブロック１０２に入力される信号のハイバンドのために、ＭＰＥＧ−４のＨＥ−ＡＡＣプロファイルから知られているような、スペクトル包絡パラメータ、逆フィルタリング・パラメータ、ノイズフロア・パラメータなどのような帯域幅拡大パラメータが生成され、ビットストリーム・マルチプレクサ８００に送られる。

好ましくは、決定ステージ３００は、例えば、音楽モードまたは音声モードの間で決定をするために、ブロック１０１またはブロック１０２に入力される信号を受信する。音楽モードにおいては、上側の符号化ブランチ４００が選択され、その一方で、音声モードにおいては、下側の符号化ブランチ５００が選択される。好ましくは、決定ステージは、さらに、ジョイントステレオ・ブロック１０１および／または帯域幅拡大ブロック１０２を、これらのブロックの機能性を特定の信号に適応させるために制御する。このように、入力信号の特定の時間部分が音楽モードのような第１のモードにあると決定ステージが決定するとき、ブロック１０１および／またはブロック１０２の特定の特徴は決定ステージ３００によって制御されることができる。あるいは、信号が音声モードに、または、ＬＰＣ領域符号化モードにあると決定ステージ３００が決定するとき、ブロック１０１および１０２の特定の特徴は決定ステージ出力に従って制御されることができる。

スイッチ２００の入力信号から、または、ステージ２００に入力される信号の基礎となるオリジナルのオーディオ信号の創作者のような外部信号源から導き出されるスイッチの決定に応じて、スイッチは、周波数符号化ブランチ４００およびＬＰＣ符号化ブランチ５００の間で切り替わる。周波数符号化ブランチ４００は、スペクトル変換ステージ４１０およびその後に接続される量子化／符号化ステージ４２１（図２ａに示すように）を含む。量子化／符号化ステージは、例えばＡＡＣエンコーダのような最新の周波数領域エンコーダからわかるような機能性のいずれかを含むことができる。さらに、量子化／符号化ステージ４２１の量子化動作は、例えば周波数全体を覆う音響心理学的なマスキング閾値のような音響心理学的な情報を生成する音響心理学的モジュールによって制御されることができ、この情報はステージ４２１に入力される。

好ましくは、スペクトル変換は、ＭＤＣＴ動作を用いて、より好ましくはタイムワープしたＭＤＣＴ動作を用いて実行され、強度、または、通常、ワープ強度は、ゼロと高いワープ強度との間で制御されることができる。ゼロワープ強度において、ブロック４１１におけるＭＤＣＴ動作は、従来から知られている直接的なＭＤＣＴ動作である。タイムワープ副情報と時間歪曲強度は、副情報として、ビットストリーム・マルチプレクサ８００に送信され／入力されることができる。したがって、ＴＷ―ＭＤＣＴが使われる場合、タイムワープ副情報は図２ａの４２４で示されるようにビットストリームに送信されなければならず、−デコーダ側において−タイムワープ副情報は、図２ｂのアイテム４３４で示すように、ビットストリームから受け取られなければならない。

ＬＰＣ符号化ブランチにおいて、ＬＰＣ領域エンコーダは、ピッチゲイン、ピッチラグおよび／または例えばコードブック・インデックスやコードゲインなどのコードブック情報を算出しているＡＣＥＬＰコアを含む。

第１の符号化ブランチ４００において、スペクトル・コンバータは、好ましくは、特定の窓関数と、それに続く量子化／エントロピー符号化ステージとを含み、それは、ベクトル量子化ステージであってもよいが、好ましくは、図２ａのアイテム４２１で示されているように、周波数領域符号化ブランチにおける量子化器／符号器のために示されているような量子化器／符号器である。

図２ｂは、図２ａの符号化方式に対応する復号化方式を例示する。図２ａのビットストリーム・マルチプレクサ８００によって生成されたビットストリームは、ビットストリーム・デマルチプレクサ９００に入力される。モード検出ブロック６０１を介して例えばビットストリームから得られる情報に応じて、デコーダ側のスイッチ６００は、上側ブランチからの信号または下側ブランチからの信号のどちらかを帯域幅拡大ブロック７０１に送るように制御される。帯域幅拡大ブロック７０１は、ビットストリーム・デマルチプレクサ９００から副情報を受信して、この副情報およびモード検出６０１の出力に基づいて、スイッチ６００によって出力されるローバンドに基づいてハイバンドを再現する。

ブロック７０１で生成されるフルバンド信号は、２つのステレオチャネルまたはいくつかのマルチチャネルを再現するジョイントステレオ／サラウンド処理ステージ７０２に入力される。通常、ブロック７０２は、このブロックに入力されたより多くのチャネルを出力する。用途に応じて、ブロック７０２への入力は、ステレオモードにおけるように２つのチャネルを含み、このブロックによる出力がこのブロックへの入力より多いチャネルを有する限り、もっと多くのチャネルを含むことができる。

通常、励振デコーダ５３０が存在する。ブロック５３０において実行されるアルゴリズムは、エンコーダ側においてブロック５２０で使用される対応するアルゴリズムに適応している。ステージ４３１が周波数／時間コンバータ４４０を用いて時間領域に変換される時間領域信号から得られるスペクトルを出力する一方、ステージ５３０はＬＰＣ領域信号を出力する。ステージ５３０の出力データは、エンコーダ側で生成され送信されたＬＰＣ情報によって制御されるＬＰＣ合成ステージ５４０を用いて時間領域に変換される。そして、ブロック５４０に続いて、両方のブランチは、例えばモノラル信号、ステレオ信号またはマルチチャネル信号のようなオーディオ信号を最後に得るためにスイッチ制御信号に従って切り替えられる時間領域情報を有する。

スイッチ２００は、一方のブランチだけが処理のために信号を受信し、他方のブランチは処理のために信号を受信しないように、両方のブランチの間で切り替わることを示した。しかしながら、別の実施例において、例えば、スイッチはオーディオエンコーダ４２０および励振エンコーダ５２０に続いて配置されてもよく、それは、両方のブランチ４００，５００が平行して同じ信号を処理することを意味している。しかしながら、ビットレートが倍にならないように、これらの符号化ブランチ４００または５００の１つによって出力される信号だけが出力ビットストリームに書き込まれるように選択される。ビットストリームに書き込まれる信号が特定の費用関数を最小化するように決定ステージは作動し、費用関数は、生成されたビットレートまたは生成された知覚変容または複合率／歪曲費用関数でありえる。したがって、このモード、または、各図において例示されるモードのいずれかで、決定ステージは、最後に、符号化ブランチ出力だけが、与えられた知覚変容のために低いビットレートを有するか、または与えられたビットレートのために低い知覚変容を有するビットストリームに書き込まれることを確認するために、閉ループモードで動作することができる。

通常、ブランチ４００における処理は、知覚に基づくモデルまたは情報シンクモデルにおける処理である。このように、このブランチは、音を受信する人間の聴覚系をモデル化する。それに対して、ブランチ５００における処理は、励振、未処理またはＬＰＣ領域において信号を生成することである。通常、ブランチ５００における処理は、音声モデルまたは情報生成モデルにおける処理である。音声信号のために、このモデルは、音を生成している人間の音声／音発生システムのモデルである。しかしながら、異なる音声生成モデルを必要としている異なる音源からの音が符号化されることになっている場合、ブランチ５００における処理は異なってもよい。

図１ａないし２ｂは装置のブロック図として示されているが、これらの図は同時に方法の説明図であり、ブロックの機能性は方法のステップに対応する。

図３ａは、第１の符号化ブランチ４００および第２の符号化ブランチ５００の出力で符号化されたオーディオ信号を生成するためのオーディオエンコーダを示す。さらに、符号化されたオーディオ信号は、好ましくは、共通の前処理ステージからの前処理パラメータ、または、先の図と関連して述べられるように、スイッチ制御情報のような副情報を含む。

好ましくは、第１の符号化ブランチは、第１の符号化アルゴリズムに従ってオーディオ中間信号１９５を符号化するために働き、第１の符号化アルゴリズムは、情報シンクモデルを有する。第１の符号化ブランチ４００は、オーディオ中間信号１９５の符号化されたスペクトル情報表現である第１のエンコーダ出力信号を生成する。

さらに、第２の符号化ブランチ５００は、第２の符号化アルゴリズムに従ってオーディオ中間信号１９５を符号化するのに適応し、第２の符号化アルゴリズムは情報源モデルを有し、第１のエンコーダ出力信号において、中間オーディオ信号を表す情報源モデルのための符号化パラメータを生成する。

オーディオエンコーダは、さらに、オーディオ中間信号１９５を得るために、オーディオ入力信号９９を前処理するための共通の前処理ステージを含む。具体的には、オーディオ中間信号１９５、すなわち、共通の前処理アルゴリズムの出力がオーディオ入力信号の圧縮バージョンであるように、共通の前処理ステージはオーディオ入力信号９９を処理するために働く。

符号化オーディオ信号を生成するためのオーディオ符号化の好ましい方法は、第１の符号化アルゴリズムに従ってオーディオ中間信号１９５を符号化するステップ４００であって、第１の符号化アルゴリズムは情報シンクモデルを有し、第１の出力信号においてオーディオ信号を表す符号化スペクトル情報を生成するものであるステップと；第２の符号化アルゴリズムに従ってオーディオ中間信号１９５を符号化するステップ５００であって、第２の符号化アルゴリズムは情報源モデルを有し、第２の出力信号において中間信号１９５を表す情報源モデルのための符号化パラメータを生成するものであるステップと；オーディオ中間信号１９５を得るためにオーディオ入力信号９９を共通に前処理するステップ１００とを含み；共通に前処理するステップにおいて、オーディオ中間信号１９５がオーディオ入力信号９９の圧縮バージョンであるようにオーディオ入力信号９９は処理され、オーディオ信号の所定の部分のために第１の出力信号または第２の出力信号のどちらかを含むものである。方法は、好ましくは、第１の符号化アルゴリズムを使用するかまたは第２の符号化アルゴリズムを使用してオーディオ中間信号の所定の部分を符号化するか、または、両方のアルゴリズムを使用して信号を符号化し、符号化信号において第１の符号化アルゴリズムの結果または第２の符号化アルゴリズムの結果を出力するステップを含む。

通常、第１の符号化ブランチ４００において用いられるオーディオ符号化アルゴリズムは、オーディオシンクの状況を反映して、モデル化する。オーディオ情報のシンクは、通常、人間の耳である。人間の耳は、周波数分析器としてモデル化されることができる。したがって、第１の符号化ブランチは、符号化スペクトル情報を出力する。好ましくは、第１の符号化ブランチは、さらに、音響心理学的なマスキング閾値を適用するための音響心理学的なモデルを含む。オーディオスペクトル値を量子化するときに音響心理学的マスキング閾値が用いられ、好ましくは、音響心理学的閾値の下に隠されるスペクトルオーディオ値を量子化することによって量子化ノイズが導入されるように量子化が行われる。

第２の符号化ブランチは、オーディオサウンドの生成を反映する情報源モデルを表す。したがって、情報源モデルは、ＬＰＣステージによって、すなわち、時間領域信号をＬＰＣ領域に変換することによって、そして、その後ＬＰＣ残留信号、すなわち励振信号を処理することによって反映される音声モデルを含む。しかしながら、他の音源モデルは、特定の手段、または現実世界に存在している特定の音源のような他の音波発生器を表すための音源モデルである。ＳＮＲ計算に基づいて、すなわち、どの音源モデルがオーディオ信号の特定の時間部分および／または周波数部分を符号化するのに最も適しているかについての計算に基づいて、いくつかの異なる音源モデルが得られるときに、異なる音源モデルの間の選択が行われることができる。しかしながら、好ましくは、符号化ブランチ間の切り替えは時間領域において実行される、すなわち、特定の時間部分が１つのモデルを用いて符号化され、中間信号の特定の異なる時間部分が他の符号化ブランチを用いて符号化される。

情報源モデルは、特定のパラメータによって表される。音声モデルに関して、ＡＭＲ−ＷＢ＋のような現代音声コーダを考慮したとき、パラメータはＬＰＣパラメータおよび符号化励振パラメータである。ＡＭＲ−ＷＢ＋は、ＡＣＥＬＰエンコーダとＴＣＸエンコーダとを含む。この場合、符号化励振パラメータは、グローバルゲイン、ノイズフロアおよび可変長コードでありえる。

通常、すべての情報源モデルは、非常に効果的にオリジナルのオーディオ信号を反映するパラメータ・セットの設定を許容する。したがって、第２の符号化ブランチの出力は、オーディオ中間信号を表す情報源モデルのための符号化パラメータとなる。

図３ｂは、図３ａに示されるエンコーダに対応するデコーダを示す。通常、図３ｂは、復号化オーディオ信号７９９を得るために、符号化されたオーディオ信号を復号化するためのオーディオデコーダを示す。デコーダは、情報シンクモデルを有する第１の符号化アルゴリズムに従って符号化された符号化信号を復号化するための第１の復号化ブランチ４５０を含む。さらに、オーディオデコーダは、情報源モデルを有する第２の符号化アルゴリズムに従って符号化された符号化情報信号を復号化するための第２の復号化ブランチ５５０を含む。さらに、オーディオデコーダは、結合信号を得るために、第１の復号化ブランチ４５０および第２の復号化ブランチ５５０からの出力信号を結合するためのコンバイナを含む。復号化オーディオ中間信号６９９として図３ｂに示される結合信号は、コンバイナ６００によって出力される結合信号である復号化オーディオ中間信号６９９を後処理するための共通の後処理ステージに入力され、共通の前処理ステージの出力信号は結合信号の拡張されたバージョンである。このように、復号化オーディオ信号７９９は、復号化オーディオ中間信号６９９と比較して拡大情報量を有する。この情報拡大は、エンコーダからデコーダまで送信されることができる、または、復号化オーディオ中間信号自体から得られる前／後処理パラメータの助けを得て、共通の後処理ステージによって与えられている。しかしながら、この手順は復号化オーディオ信号の改良された品質を許容するため、好ましくは、前／後処理パラメータはエンコーダからデコーダに送信される。

図４ａおよび４ｂは、スイッチ２００の位置が異なる２つの異なる実施例を示す。図４ａにおいて、スイッチ２００は、共通の前処理ステージ１００の出力と２つの符号化ブランチ４００、５００の入力との間に配置されている。図４ａの実施例は、オーディオ信号が１つの符号化ブランチだけに入力され、共通の前処理ステージの出力に接続されない他の符号化ブランチは機能せず、従って、スイッチオフの状態かスリープモードにあることを確認する。この実施例は、非活性の符号化ブランチが電力、および特に電池式のモバイル・アプリケーションに役立つ計算資源を消費せず、電力消費の一般的限界を有するという点で好ましい。

しかしながら、一方では、電力消費が問題でないときに、図４ｂの実施例は好ましい。本実施例において、両方の符号化ブランチ４００、５００は常に動作中であり、特定の時間部分および／または特定の周波数部分のための選択された符号化ブランチの出力だけはビットストリーム・マルチプレクサ８００として実施できるビットストリーム・フォーマッタに送られる。したがって、図４ｂの実施例において、両方の符号化ブランチは常に動作中であり、決定ステージ３００によって選択される符号化ブランチの出力は出力ビットストリームに入力され、その一方で、他の選択されない符号化ブランチ４００の出力は廃棄される、すなわち、出力ビットストリーム、すなわち符号化オーディオ信号に入力されない。

図４ｃは、好ましいデコーダ実現の更なる態様を示す。特に、第１のデコーダが時間エイリアシング発生デコーダまたは概説すると周波数領域デコーダであり、第２のデコーダが時間領域デバイスであるような状況において、可聴アーチファクトを避けるために、第１のデコーダ４５０および第２のデコーダ５５０によって出力されるブロックまたはフレームの間のボーダーは、特にスイッチング状態においては完全に連続的であってはならない。このように、第１のデコーダ４５０の第１のブロックが出力され、次の時間部分のために第２のデコーダのブロックが出力されるとき、クロスフェード・ブロック６０７で示されるように、クロスフェード動作を実行することが好ましい。この目的で、クロスフェード・ブロック６０７は、図４ｃに６０７ａ、６０７ｂおよび６０７ｃで示したように実行される。各ブランチは、正規化スケール上の０と１との間に重み係数ｍ₁を有する重み付けするものを有し、重み係数は、プロット６０９に示すように変化することができ、このようなクロスフェード規則は、ユーザーがいかなる音の変化も気付かないことを保障する連続的でスムーズなクロスフェードが行われることを確認する。

特定の場合において、第１のデコーダの最後のブロックは、窓が実際にこのブロックのフェードアウトを実行した窓を用いて生成された。この場合、ブロック６０７ａにおける重み係数ｍ₁は１に等しく、実質的に、重み付けはこのブランチのために全く必要でない。

第２のデコーダから第１のデコーダへの切り替えが行われるとき、および第２のデコーダがブロックの終わりまで実際に出力をフェードアウトさせる窓を含むとき、「ｍ₂」によって示される重み付けするものは必要でなく、または、重み付けパラメータは全てのクロスフェード領域にわたって１に設定されることができる。

切り替えの後の第１のブロックが窓掛け演算を用いて生成されるとき、および、このウィンドウが実際にフェードイン動作を実行するとき、対応する重み係数は１にセットされることもでき、実際には重み付けするものは必要とされない。したがって、最後のブロックがデコーダによってフェードアウトするために窓掛けされるとき、および、切り替えの後の第１のブロックがフェードインするためにデコーダを用いて窓掛けされるとき、重み付けするもの６０７ａ，６０７ｂは全く必要ではなく、加算器６０７ｃによる加算演算は充分である。

この場合、最後のフレームのフェードアウト部分および次のフレームのフェードイン部分は、ブロック６０９で示されるクロスフェード領域を定める。さらに、１つのデコーダの最後のブロックが他のデコーダの第１のブロックと特定の時間重なりを有することは、この種の状況において好ましい。

クロスフェード動作が必要でないか可能でないかまたは求められない場合、１つのデコーダから他のデコーダへの切り替えが困難である場合、オーディオ信号の静かな通路において、または、少なくとも、低エネルギーを有するオーディオ信号の通路において、すなわち、それは沈黙であるかほぼ沈黙であると認められるが、このような切り替えを実行することが好ましい。好ましくは、決定ステージ３００は、この種の実施例において、例えば、スイッチ・イベントに続く対応する時間部分が、オーディオ信号の平均エネルギーより低くて、好ましくは、オーディオ信号の２つまたはそれ以上の時間部分／フレームに関連するオーディオ信号の平均エネルギーの５０％より低いエネルギーを有するとき、スイッチ２００が起動するだけであることを保証する。

好ましくは、第２の符号化規則／復号化規則は、ＬＰＣに基づく符号化アルゴリズムである。ＬＰＣに基づく音声符号化において、準周期的なインパルス状の励振信号セグメントまたは信号部分と、ノイズ状の励振信号セグメントまたは信号部分との間の差別化が行われる。

準周期的なインパルス状の励振信号セグメント、すなわち、特定のピッチを有する信号セグメントは、ノイズ状の励振信号とは異なるメカニズムで符号化される。準周期的なインパルス状の励振信号は有声音に接続されるが、ノイズ状の信号は無声音に関連する。

例えば、５ａ〜図５ｄについて説明する。ここで、準周期的なインパルス状の信号セグメントまたは信号部分およびノイズ状の信号セグメントまたは信号部分が例として述べられる。具体的には、図５ａに時間領域が示され、図５ｂに周波数領域が示される有声音は、準周期的なインパルス状の信号部分の例として述べられ、ノイズ状の信号部分の例としての無声音部分は図５ｃおよび図５ｄに関連して述べられる。音声は、通常、有声、無声、または混合に分類されることができる。サンプリングされた有声および無声の部分のための時間および周波数領域プロットが、図５ａ〜図５ｄに示される。有声音は時間領域において周期的で、周波数領域において調和的に構造化されているが、無声音は不揃いで広帯域である。さらに、有声セグメントのエネルギーは、通常、無声セグメントのエネルギーより高い。有声音の短時間スペクトルは、その繊細なおよびホルマント構造によって特徴づけられる。繊細な調和構造は、有声音の準周期性の結果であって、振動する声帯に起因している。ホルマント構造（スペクトル包絡）は、音源および声道の相互作用に起因する。声道は、咽頭および口腔からなる。有声音の短い時間スペクトルに「適した」スペクトル包絡の形状は、声門のパルスにより声道およびスペクトル傾斜（６ｄＢ／オクターブ）の伝達特性と関係している。スペクトル包絡は、ホルマントと呼ばれている一連のピークによって特徴づけられる。ホルマントは、声道の共振モードである。平均的な声道に関して、３〜５のホルマントが、５ｋＨｚ以下にある。最初の３つのホルマントの振幅および位置は、通常３ｋＨｚ以下で発生するのであるが、音声合成および知覚の両方に大変重要である。より高いホルマントも、広帯域および無声音表現にとって重要である。音声の特性は、以下のように、物理的な音声発生システムに関連がある。有声音は、声道を励振することによって振動している声帯によって発生する準周期的な声門の空気パルスで生じる。周期的なパルスの周波数は基音周波数またはピッチと呼ばれる。無声音は、空気を声道の狭窄部に強制的に通過させることによって生じる。鼻音は声道への鼻道の音響カップリングに起因し、そして、破裂音は声道の閉鎖の後で高まった大気圧を不意に開放することによって生成される。

このように、オーディオ信号のノイズ状の部分は、図５ｃおよび図５ｄに示したように、インパルス状の時間領域構造も調和周波数領域構造も示さず、図５ａおよび図５ｂに示されているような準周期的なインパルス状の部分と異なる。しかしながら、後ほど概説されるように、ノイズ状の部分と準周期的なインパルス状の部分との間の区別は励振信号のためのＬＰＣの後に観察されることができる。ＬＰＣは、声道をモデル化して、声道の励振を信号から抽出する方法である。

さらに、準周期的なインパルス状の部分およびノイズ状の部分はタイムリーに起こることができ、時間内の一部のオーディオ信号は雑音が多く、時間内のオーディオ信号の他の部分は準周期的、すなわち音調であることを意味する。あるいは、信号の特性は、異なる周波数帯域において異なることがありえる。このように、オーディオ信号がノイズが多いか音調であるかどうかの判定は周波数選択的に行われ、特定の周波数帯域またはいくつかの特定の周波数帯域は雑音が多く、他の周波数帯域は音調であると考えられる。この場合、オーディオ信号の特定の時間部分は、音調コンポーネントおよび雑音が多いコンポーネントを含むかもしれない。

図７ａは、音声生成システムの線形モデルを示す。このシステムは、二段階の励振、すなわち、図７ｃに示すような有声音のためのインパルス列、および図７ｄに示すような無声音のためのランダムノイズであるとみなされる。声道は全極型フィルタ７０としてモデル化され、声門のモデル７２によって生成される図７ｃまたは図７ｄのパルスまたはノイズを処理する。全極伝達関数は、ホルマントを表す少数の二端子共振器のカスケードによって形成される。声門モデルは二極ローパスフィルタとして表され、リップ輻射モデル７４はＬ（ｚ）＝１−ｚ^-1によって表される。最後に、スペクトル補正要素７６は、より高い極の低周波効果を補償するために含まれる。個々の音声表現において、スペクトル補正は省略され、リップ輻射伝達関数の０は声門の極のうちの１つによって基本的にキャンセルされる。それ故、図７ａのシステムは、ゲインステージ７７、フォワード経路７８、フィードバック経路７９、および加算ステージ８０を有する図７ｂの全極フィルタ・モデルに例えられることができる、フィードバック経路７９において、予測フィルタ８１があり、図７ｂにおいて示される全ての音源モデル合成システムは、以下の通りにｚ領域関数を用いて表されることができる。
Ｓ（ｚ）＝ｇ／（１―Ａ（ｚ））・Ｘ（ｚ）
ここで、ｇはゲインを表し、Ａ（ｚ）はＬＰＣ分析によって定まる予測フィルタであり、Ｘ（ｚ）は励振信号であり、Ｓ（ｚ）は合成音声出力である。

図７ｃおよび７ｄは、線形音源システムモデルを用いた有声音および無声音の合成の図式的な時間領域表現を示す。このシステムおよび上記の方程式の励振パラメータは知られておらず、音声サンプルの有限集合から決定されなければならない。Ａ（ｚ）の係数は、入力信号の線形予測分析およびフィルタ係数の量子化を用いて得られる。ｐ次フォワード線形予測子において、音声シーケンスの現在のサンプルは、ｐ個の過去のサンプルの線形結合から予測される。予測値係数は、レヴィンソン−ダービン・アルゴリズムのような周知のアルゴリズム、または一般的な自動相関方法または反射方法によって測定される。得られたフィルタ係数の量子化は、通常ＬＳＦ領域、またはＩＳＰ領域の多段ベクトル量子化によって実行される。

図７ｅは、例えば図１ａのうちの５１０のようなＬＰＣ分析ブロックのより詳細な実施例を示す。オーディオ信号は、フィルタ情報Ａ（ｚ）を決定するフィルタ決定ブロックに入力される。この情報は、デコーダのために必要な短期予測情報として出力される。図４ａにおいて、実施例、すなわち、短期予測情報は、インパルス符号器出力信号のために必要であるかもしれない。しかしながら、ライン８４の予測エラー信号だけが必要なときに、短期予測情報が出力される必要はない。それにもかかわらず、短期予測情報は、実際の予測フィルタ８５によって必要とされる。減算器８６において、オーディオ信号の現在のサンプルが入力され、現在のサンプルのための予測値が減算されて、このサンプルに対して予測エラー信号がライン８４に生成される。このような予測エラー信号サンプルのシーケンスは、図７ｃまたは７ｄにおいて図解されており、明確にするため、ＡＣ／ＤＣコンポーネントに関するいかなる問題も示されていない。したがって、図７ｃは、一種の修正されたインパルス状の信号と考えることができる。

その後、図１０〜１３にて図示したように、合成による分析ＣＥＬＰエンコーダは、このアルゴリズムに適用される修正を例示するために、図６と関連して後述する。このＣＥＬＰエンコーダは、「音声符号化：個別考察（Ｓｐｅｅｃｈｃｏｄｉｎｇ：ＡＴｕｔｏｒｉａｌＲｅｖｉｅｗ）」ＡｎｄｒｅａｓＳｐａｎｉｅｌｓ、ＩＥＥＥ議事録、Ｖｏｌ．８２、Ｎｏ．１０、１９９４年１０月、ページ１５４１―１５８２、において詳細に議論されている。図６にて図示したように、ＣＥＬＰエンコーダは、長期予測コンポーネント６０および短期予測コンポーネント６２を含む。さらに、６４で示されるコードブックが用いられる。知覚的な重み付けフィルタＷ（ｚ）は６６で実行され、そして、エラー最小化コントローラは６８で与えられている。ｓ（ｎ）は、時間領域入力信号である。知覚的に重み付けされた後に、重み付け信号は減算器６９に入力され、それはブロック６６の出力の重み付け合成信号およびオリジナルの重み付け信号ｓ_w（ｎ）との間の誤差を計算する。通常、短期予測Ａ（ｚ）が計算され、その係数は図７ｅに示すようにＬＰＣ分析ステージで量子化される。長期予測ゲインｇおよびベクトル量子化インデックス、すなわち、コードブック参照を含む長期予測情報Ａ_L（ｚ）は、図７ｅの１０ａで示されるＬＰＣ分析ステージの出力における予測エラー信号において計算される。ＣＥＬＰアルゴリズムは、例えばガウス・シーケンスのコードブックを用いて、短期および長期の予測の後に得られる残留信号を符号化する。「Ａ」が「代数」のために立っているＡＣＥＬＰアルゴリズムは、特定の代数的にデザインされたコードブックを有する。

コードブックは、多かれ少なかれベクトルを含み、各ベクトルは長くいくつかのサンプルである。利得係数ｇはコードベクトルを拡大・縮小し、得られたコードは長期予測合成フィルタおよび短期予測合成フィルタによってフィルタリングされる。減算器６９の出力の知覚的に重み付けされた平均自乗誤差が最小化されるように、「最適な」コードベクトルが選択される。ＣＥＬＰにおける探索プロセスは、図６に示したように、合成による分析の最適化によって実行される。

特定の場合に、フレームが無声音と有声音との混成であるとき、または、音楽を超えた音声が発生するとき、ＴＣＸ符号化はＬＰＣ領域における励振を符号化するためにより適当でありえる。ＴＣＸ符号化は、励振生成のいかなる仮定もすることなく、周波数領域において励振を直接処理する。ＴＣＸは、ＣＥＬＰ符号化よりもっと一般的で、励振の有声のまたは無声の音源モデルに制限されない。ＴＣＸは、まだ、音声状信号のフォルマントをモデル化するための線形予測フィルタを用いたソース・フィルタ・モデル符号化である。

ＡＭＲ−ＷＢ＋のような符号化において、ＡＭＲ−ＷＢ＋の説明からわかるように、異なるＴＣＸモードおよびＡＣＥＬＰ間の選択は起こる。ブロック的な高速フーリエ変換の長さが異なるモードによって異なり、ベストモードは合成による分析アプローチによって、または、ダイレクト「フィードフォワード」モードによって選択されることができるという点で、ＴＣＸモードは異なる。

図２ａおよび２ｂと関連して述べられるように、共通の前処理ステージ１００は、好ましくは、ジョイント・マルチチャネル（サラウンド／ジョイント・ステレオ・デバイス）１０１および、さらに、帯域幅拡大ステージ１０２を含む。それに対応して、デコーダは、帯域幅拡大ステージ７０１およびその後接続されたジョイント・マルチチャネル・ステージ７０２を含む。好ましくは、エンコーダに関して、ジョイント・マルチチャネル・ステージ１０１は、帯域幅拡大ステージ１０２の前に接続され、デコーダ側において、帯域幅拡大ステージ７０１は信号処理方向に関してジョイント・マルチチャネル・ステージ７０２の前に接続される。しかしながら、共通の前処理ステージは、後に接続される帯域幅積拡大ステージのないジョイント・マルチチャネル・ステージまたは接続されたジョイント・マルチチャネル・ステージのない帯域幅拡大ステージを含むことができる。

エンコーダ側１０１ａ，１０１ｂおよびデコーダ側７０２ａ，７０２ｂにおけるジョイント・マルチチャネル・ステージのための好ましい実施例が、図８との関連で示される。Ｅ個のオリジナルの入力チャネルがダウンミキサー１０１ａに入力されて、ダウンミキサーがＫ個の送信されたチャネルを生成するが、ここで、数Ｋは１より大きいか同じであり、Ｅより小さいものである。

好ましくは、Ｅ個の入力チャネルは、パラメータ情報を生成するジョイント・マルチチャネル・パラメータ分析器１０１ｂに入力される。好ましくは、このパラメータ情報は、例えば、異なる符号化および次のハフマン符号化、あるいは、次の算術符号化によってエントロピー符号化される。ブロック１０１ｂによって出力される符号化されたパラメータ情報は、図２ｂのアイテム７０２の一部であるパラメータ・デコーダ７０２ｂに送信される。パラメータ・デコーダ７０２ｂは、送信されたパラメータ情報を復号化し、復号化されたパラメータ情報をアップミキサー７０２ａに送る。アップミキサー７０２ａは、Ｋ個の送信チャネルを受信して、Ｌ個の出力チャネルを生成するが、ここで、Ｌの数は、Ｋより大きく、Ｅより小さいか等しい。

パラメータ情報は、公知のＢＣＣ技術からわかるように、そしてＭＰＥＧサラウンド規準に詳述されているように、チャネル間レベル差、チャネル間時間差、チャネル間位相差および／またはチャネル間コヒーレンス測定を含む。送信チャネルの数は、超低ビットレート・アプリケーションのための単一のモノラル・チャネルでもよいし、互換性を持つステレオ・アプリケーションを含んでいてもよいし、または、互換性を持つステレオ信号、すなわち２つのチャネルを含んでいてもよい。概して、Ｅ個の入力チャネルの数は、５であるか、それより高くてもよい。あるいは、Ｅ個の入力チャネルは、空間オーディオオブジェクト符号化（ＳＡＯＣ）の文脈において公知であるようにＥ個のオーディオ・オブジェクトであってもよい。

一実施例において、ダウンミキサーは最初のＥ個の入力チャネルの重み付けされたまたは重み付けされていない加算、または、Ｅ個の入力オーディオオブジェクトの加算を実行する。入力チャネルとしてのオーディオオブジェクトの場合、ジョイント・マルチチャネル・パラメータ分析器１０１ｂは、好ましくは時間部分ごとに、より好ましくは、周波数帯域ごとに、オーディオオブジェクトの間の相関行列のようなオーディオオブジェクトパラメータを計算する。この目的で、全周波数範囲は、少なくとも１０、好ましくは３２または６４の周波数帯域に分けられる。

図９は、図２ａの帯域幅拡大ステージ１０２および図２ｂの対応する帯域幅拡大ステージ７０１の実施のための好ましい実施例を示す。エンコーダ側において、帯域幅拡大ブロック１０２は、好ましくは、ローパスフィルタ・ブロック１０２ｂおよびハイバンド分析器１０２ａを含む。帯域幅拡大ブロック１０２に入力されるオリジナルのオーディオ信号は、ローパスフィルタリングされてローバンド信号が生成され、それは符号化ブランチおよび／またはスイッチに入力される。ローパスフィルタは、概して３ｋＨｚ〜１０ｋＨｚの範囲にあるカットオフ周波数を有する。ＳＢＲを用いて、この範囲を超えることができる。さらに、帯域幅拡大ブロック１０２は、スペクトル包絡パラメータ情報、ノイズフロア・パラメータ情報、逆フィルタリング・パラメータ情報、ハイバンドの特定のハーモニック・ラインに関するパラメータ情報およびスペクトルバンド複製に関連した章のＭＰＥＧ−４基準（ＩＳＯ／ＩＥＣ１４４９６―３：２００５、Ｐａｒｔ３、Ｃｈａｐｔｅｒ４．６．１８）で詳述する付加パラメータのような帯域幅拡大パラメータを計算するためのハイバンド分析器を含む。

デコーダ側において、帯域幅拡大ブロック７０１は、パッチャ７０１ａ、アジャスタ７０１ｂおよびコンバイナ７０１ｃを含む。コンバイナ７０１ｃは、復号化されたローバンド信号と、アジャスタ７０１ｂによって出力される再構成され調整されたハイバンド信号出力とを結合する。アジャスタ７０１ｂへの入力は、スペクトルバンド複製によって、または、通常、帯域幅拡大によって、ローバンド信号からハイバンド信号を引き出すために動作するパッチャによって与えられる。パッチャ７０１ａによって実行されるパッチングは、調和的方法で、または、非調和的な方法で実行されるパッチングでもよい。パッチャ７０１ａによって生成される信号は、その後、送信されたパラメータの帯域幅拡大情報を用いてアジャスタ７０１ｂによって調整される。

図８および図９に示すように、記載されているブロックは、好ましい実施例において、モード制御入力を有する。このモード制御入力は、決定ステージ３００の出力信号に由来する。このような好ましい実施例において、対応するブロックの特性は決定ステージ出力、すなわち、音声に対する決定または音楽に対する決定がオーディオ信号の特定の時間部分のためになされるかどうかに適応している。好ましくは、モード制御が、ブロックの機能性の全てではなく、これらのブロックの機能性の１つまたはそれ以上に関連する。例えば、決定は、パッチャ７０１ａだけに影響するが、図９の他のブロックに影響することはなく、また、例えば、図８のジョイント・マルチチャネル・パラメータ分析器１０１ｂだけに影響し、図８の他のブロックに影響することはない。共通の前処理ステージに柔軟性を与えることにより、高い柔軟性および高い品質および低いビットレートの出力信号が得られるような実現は好ましい。しかしながら、一方では、両方の種類の信号のための共通の前処理ステージにおけるアルゴリズムの使用は、効率的な符号化／復号化方式の実行を許容する。

図１０ａおよび図１０ｂは、決定ステージ３００の２つの異なる実施例を示す。図１０ａにおいて、開ループ決定が示される。ここで、決定ステージにおける信号分析器３００ａは特定の規則を有し、入力信号の特定の時間部分か特定の周波数部分が、この信号部分が第１の符号化ブランチ４００によって、または、第２の符号化ブランチ５００によって符号化されることが必要である特性を有するかどうかを決める。この目的で、信号分析器３００ａは、共通の前処理ステージへのオーディオ入力信号を分析するか、または共通の処理ステージによって出力されるオーディオ信号、すなわちオーディオ中間信号を分析するか、または、モノラル信号であるか、図８に示されるｋチャネルを有する信号であるダウンミックス信号の出力のような共通の前処理ステージ内の中間信号を分析する。出力側において、信号分析器３００ａは、エンコーダ側のスイッチ２００およびデコーダ側の対応するスイッチ６００またはコンバイナ６００を制御するためのスイッチング決定を生成する。

あるいは、決定ステージ３００は、両方の符号化ブランチがオーディオ信号の同じ部分でそれらの作業を遂行し、そして、両方の符号化信号が対応する復号化ブランチ３００ｃ，３００ｄによって復号化されることを意味する閉ループ決定を実行することができる。デバイス３００ｃおよび３００ｄの出力は、復号化デバイスの出力を例えばオーディオ中間信号の対応する部分と比較する比較器３００ｂに入力される。そして、ブランチごとの信号対ノイズ比のようなコスト関数に依存して、スイッチング決定はなされる。この閉ループ決定は開ループ決定と比較して大きな複雑さを有するが、この複雑さはエンコーダ側に存在しているだけであり、デコーダはこの符号化決定の出力を都合よく使用することができるため、デコーダはこのプロセスからいかなる不利な点も受けない。したがって、閉ループモードは、アプリケーションの複雑さおよび品質の考慮により好ましく、デコーダの複雑さは、例えば少数のエンコーダがあるだけで、さらにスマートで安価でなければならない多数のデコーダがある放送に適用されるような問題ではない。

比較器３００ｂによって適用されるコスト関数は、品質面で駆動されるコスト関数でもよいし、ノイズ面で駆動されるコスト関数でもよいし、ビットレート面で駆動されるコスト関数でもよいし、（符号化アーチファクトによって、特に量子化によって導かれる）ビットレート、品質、ノイズなどのいかなる組合せによって駆動される複合コスト関数でもよい。

好ましくは、第１の符号化ブランチおよび／または第２の符号化ブランチは、エンコーダ側において、および、対応してデコーダ側において、ワープ機能性を有する。実施例において、第１の符号化ブランチは、一部のオーディオ信号に依存する可変のワープ特性を算出するためのタイムワープ・モジュール、決定されたタイムワープ特性に従ってリサンプリングを行うためのリサンプラ、時間領域／周波数領域コンバータ、および時間領域／周波数領域変換の結果を符号化表現に変換するためのエントロピー符号器を含む。可変のワープ特性は、符号化されたオーディオ信号に含まれる。この情報は、タイムワープ強化復号化ブランチによって読み込まれて、最後にワープしないタイム・スケールの出力信号を有するために処理される。例えば、復号化ブランチは、エントロピー復号化、非量子化、周波数領域から時間領域への変換を実行する。時間領域において、反ワープが適用され、最後にワープされないタイム・スケールを有する別々のオーディオ信号を得るために、対応するリサンプリング動作が続く。

発明の方法の特定の実現要求に応じて、発明の方法は、ハードウェアにおいて、またはソフトウェアにおいて実行することができる。特に、実現は、発明の方法が実行されるようにプログラム可能なコンピューターシステムと協働して、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記録媒体、特に、ディスク、ＤＶＤまたはＣＤを用いて実行されることができる。したがって、通常、本発明は、機械で読み取ることができるキャリアに格納されるプログラムコードを有するコンピュータ・プログラム製品であり、コンピュータ・プログラム製品がコンピュータで動くときに、プログラムコードが発明の方法を実行するために作動する。換言すれば、発明の方法は、コンピュータ・プログラムがコンピュータで動くときに、発明の方法のうちの少なくとも１つを実行するためのプログラムコードを有するコンピュータ・プログラムである。

発明の符号化されたオーディオ信号は、デジタル記憶媒体に格納されることができ、例えば無線伝送路やインターネットなどの有線伝送路などの伝送路に送信されることができる。

上記した実施例は、本発明の原理のために単に示しただけである。本願明細書において記載されているアレンジおよび詳細の修正変更は他の当業者にとって明らかであるものと理解される。したがって、間近にある特許クレームの範囲だけによって制限され、本願明細書において実施例として記載され説明されている具体的な詳細によって制限されないことが意図するところである。

Claims

符号化されたオーディオ信号を生成するためのオーディオエンコーダであって、
第１の符号化アルゴリズムに従ってオーディオ中間信号（１９５）を符号化するための第１の符号化ブランチ（４００）であって、前記第１の符号化アルゴリズムは、情報シンクモデルを有し、第１の符号化ブランチ出力信号において前記オーディオ中間信号を表す符号化されたスペクトル情報を生成し、前記第１の符号化ブランチは、前記オーディオ中間信号をスペクトル領域に変換するためのスペクトル変換ブロック（４１０）と、符号化されたスペクトル情報を得るために前記スペクトル変換ブロック（４１０）の出力信号を符号化するためのスペクトルオーディオエンコーダ（４２０）とを含む第１の符号化ブランチ、
第２の符号化アルゴリズムに従ってオーディオ中間信号（１９５）を符号化するための第２の符号化ブランチ（５００）であって、前記第２の符号化アルゴリズムは、情報源モデルを有し、第２の符号化ブランチ出力信号において前記オーディオ中間信号（１９５）を表す情報源モデルのための符号化されたパラメータを生成し、前記第２の符号化ブランチは、前記オーディオ中間信号を分析し、ＬＰＣ合成フィルタと励振信号とを制御することに使用可能なＬＰＣ情報信号を出力するためのＬＰＣ分析器（５１０）と、前記符号化されたパラメータを得るために前記励振信号を符号化するための励振エンコーダ（５２０）とを含む第２の符号化ブランチ、および
前記オーディオ中間信号（１９５）を得るためにオーディオ入力信号（９９）を前処理するための共通の前処理ステージ（１００）であって、前記共通の前処理ステージ（１００）は、前記オーディオ中間信号（１９５）が前記オーディオ入力信号（９９）の圧縮バージョンであるように前記オーディオ入力信号（９９）を処理するように動作する共通の前処理ステージを含む、オーディオエンコーダ。
さらに、前記第１の符号化ブランチ（４００）と前記第２の符号化ブランチ（５００）の間において、両ブランチへの入力または両ブランチの出力に接続されるスイッチングステージ（２００）を含み、前記スイッチングステージはスイッチング制御信号によって制御される、請求項１に記載のオーディオエンコーダ。
さらに、前記第１の符号化ブランチ出力信号または前記第２の符号化ブランチ出力信号のどちらかとして、前記符号化されたオーディオ信号において送信される信号の時間または周波数部分を見つけるために、前記オーディオ入力信号（９９）または前記オーディオ中間信号（１９５）または時間または周波数において前記共通の前処理ステージ（１００）における中間信号を分析するための決定ステージ（３００，３００ａ，３００ｂ）を含む、請求項２に記載のオーディオエンコーダ。
前記共通の前処理ステージ（１００）は、オーディオ中間信号（１９５）の第１のおよび異なる第２の部分に含まれないオーディオ入力信号の部分のための共通の前処理パラメータを計算し、前記前処理パラメータの符号化表現を前記符号化されたオーディオ信号に導入するように動作し、前記符号化されたオーディオ信号は、さらに、前記オーディオ中間信号の第１の部分を表すための第１の符号化ブランチ出力信号および前記オーディオ中間信号の第２の部分を表すための第２の符号化ブランチ出力信号を含む、請求項１ないし請求項３のいずれかに記載のオーディオエンコーダ。
前記共通の前処理ステージ（１００）は、ジョイント・マルチチャネル・モジュール（１０１）を含み、前記ジョイント・マルチチャネル・モジュールは、
１より大きいか等しく、ダウン・ミキサー（１０１ａ）に入力されるチャネルの数より小さいダウンミックス・チャネルの数を生成するためのダウン・ミキサー（１０１ａ）、および
マルチチャネル・パラメータを計算し、前記マルチチャネル・パラメータおよびダウンミックス・チャネルの数を用いて、オリジナルのチャネルの表現が可能であるようにするためのマルチチャネル・パラメータ計算器（１０１ｂ）を含む、請求項１ないし請求項４のいずれかに記載のオーディオエンコーダ。
前記マルチチャネル・パラメータは、チャネル間レベル差パラメータ、チャネル間相関またはコヒーレンス・パラメータ、チャネル間位相差パラメータ、チャネル間時間差パラメータ、オーディオオブジェクトパラメータまたは方向または拡散パラメータである、請求項５に記載のオーディオエンコーダ。
前記共通の前処理ステージ（１００）は、バンド幅拡大分析ステージ（１０２）を含み、
入力信号におけるハイバンドを拒絶し、ローバンド信号を生成するための帯域制限デバイス（１０２ｂ）、および
前記帯域制限デバイスによって拒絶されるハイバンドのためのバンド幅拡大パラメータを計算するためのパラメータ計算機（１０２ａ）を含み、前記パラメータ計算器（１０２ａ）は、算出パラメータおよびローバンド信号を用いて、帯域幅拡大入力信号の再構成が実行可能であるようにされる、請求項１ないし請求項６のいずれかに記載のオーディオエンコーダ。
前記共通の前処理ステージ（１００）は、ジョイント・マルチチャネル・モジュール（１０１）、帯域幅拡大ステージ（１０２）、および第１の符号化ブランチ（４００）と第２の符号化ブランチ（５００）との間の切り替えのためのスイッチ（２００）を含み、
前記ジョイント・マルチチャネル・ステージ（１０１）の出力は前記帯域幅拡大ステージ（１０２）の入力に接続され、前記帯域幅拡大ステージの出力は前記スイッチ（２００）の入力に接続され、前記スイッチの第１の出力は前記第１の符号化ブランチの入力に接続され、前記スイッチの第２の出力は前記第２の符号化ブランチ（５００）の入力に接続され、前記符号化ブランチの出力はビットストリーム作成器（８００）に接続される、請求項１ないし請求項７のいずれかに記載のオーディオエンコーダ。
前記決定ステージ（３００）は前記第２の符号化ブランチ（５００）と比較して特定のビットレートでより良好な信号対ノイズ比を有する前記第１の符号化ブランチ（４００）によって符号化される部分を探すための決定ステージ入力信号を分析するように動作し、前記決定ステージ（３００）は符号化されたおよび再び復号化された信号のない開ループ・アルゴリズムに基づいて、または、符号化されたおよび再び復号化された信号を用いた閉ループ・アルゴリズムに基づいて分析するように動作する、請求項３に記載のオーディオエンコーダ。
前記共通の前処理ステージは、特定の数の機能性（１０１ａ、１０１ｂ、１０２ａ、１０２ｂ）を有し、少なくとも１つの機能性は決定ステージ（３００）出力信号によって適応性があり、少なくとも１つの機能性は適応性がない、請求項３に記載のオーディオエンコーダ。
前記第１の符号化ブランチは、オーディオ信号の部分によって決まる可変ワープ特性を計算するための時間ワープモジュールを含み、
前記第１の符号化ブランチは、決定されたワープ特性に応じてリサンプリングを行うためのリサンプラを含み、
前記第１の符号化ブランチは、時間領域／周波数領域コンバータおよび時間領域／周波数領域変換の結果を符号化された表現に変換するためのエントロピー符号器を含み、
可変ワープ特性は、符号化されたオーディオ信号に含まれる、請求項１ないし請求項１０のいずれかに記載のオーディオエンコーダ。
前記共通の前処理ステージは、少なくとも２つの中間信号を出力するように働き、それぞれのオーディオ中間信号に対して、前記第１および前記第２の符号化ブランチおよび前記２つのブランチを切り替えるためのスイッチが与えられる、請求項１ないし請求項１１のいずれかに記載のオーディオエンコーダ。
符号化されたオーディオ信号を生成するためのオーディオ符号化方法であって、
第１の符号化アルゴリズムに従ってオーディオ中間信号（１９５）を符号化するステップ（４００）であって、前記第１の符号化アルゴリズムは、情報シンクモデルを有し、第１の出力信号において、前記オーディオ信号を表す符号化されたスペクトル情報を生成し、前記第１の符号化アルゴリズムは、前記オーディオ中間信号をスペクトル領域に変換するスペクトル変換ステップ（４１０）と、符号化されたスペクトル情報を得るために前記スペクトル変換ステップ（４１０）の出力信号を符号化するスペクトルオーディオ符号化ステップ（４２０）とを含むステップ、
第２の符号化アルゴリズムに従ってオーディオ中間信号（１９５）を符号化するステップ（５００）であって、前記第２の符号化アルゴリズムは、情報源モデルを有し、第２の出力信号において、前記中間信号（１９５）を表す前記情報源モデルのための符号化されたパラメータを生成し、前記第２の符号化ブランチは、前記オーディオ中間信号をＬＰＣ分析（５１０）してＬＰＣ合成フィルタを制御することに使用可能なＬＰＣ情報信号と、励振信号とを出力するステップと、符号化されたパラメータを得るために前記励振信号を励振符号化（５２０）するステップとを含むステップ、および
前記オーディオ中間信号（１９５）を得るためにオーディオ入力信号（９９）を共通に前処理するステップ（１００）であって、共通に前処理するステップにおいて、前記オーディオ中間信号（１９５）が前記オーディオ入力信号（９９）の圧縮バージョンであるように、前記オーディオ入力信号（９９）が処理されるステップを含み、
前記符号化されたオーディオ信号は、前記オーディオ信号の特定の部分に対して、前記第１の出力信号または前記第２の出力信号のいずれかを含む、オーディオ符号化方法。
符号化されたオーディオ信号を復号化するためのオーディオデコーダであって、
情報シンクモデルを有する第１の符号化アルゴリズムに従って符号化された符号化信号を復号化するための第１の復号化ブランチ（４３０、４４０）であって、前記第１の復号化ブランチは、情報シンクモデルを有する第１の符号化アルゴリズムに従って符号化された符号化信号をスペクトルオーディオ復号化するためのスペクトルオーディオデコーダ（４３０）と、前記スペクトルオーディオデコーダ（４３０）の出力信号を時間領域に変換するための時間領域コンバータ（４４０）とを含む第１の復号化ブランチ、
情報源モデルを有する第２の符号化アルゴリズムに従って符号化された符号化オーディオ信号を復号化するための第２の復号化ブランチ（５３０、５４０）であって、前記第２の復号化ブランチは、ＬＰＣ領域信号を得るために第２の符号化アルゴリズムにしたがって符号化された符号化オーディオ信号を復号化するための励振デコーダ（５３０）と、ＬＰＣ分析ステージによって生成されたＬＰＣ情報信号を受信し前記ＬＰＣ領域信号を時間領域に変換するためのＬＰＣ合成ステージ（５４０）とを含む第２の復号化ブランチ、
前記第１の復号化ブランチ（４３０、４４０）の前記時間領域コンバータ（４４０）および前記第２の復号化ブランチ（５３０、５４０）の前記ＬＰＣ合成ステージ（５４０）からの時間領域出力信号を結合して結合信号（６９９）を得るためのコンバイナ（６００）、および
前記結合信号（６９９）を処理するための共通の後処理ステージ（７００）であって、前記共通の後処理ステージの復号化された出力信号（７９９）が前記結合信号（６９９）の拡大バージョンであるようにする共通の後処理ステージを含む、オーディオデコーダ。
前記コンバイナ（６００）は、前記結合オーディオ信号（６９９）が連続的な別々の時間領域信号であるように、前記符号化オーディオ信号に明確にまたは黙示的に含まれるモード標識に従って前記第１の復号化ブランチ（４５０）および前記第２の復号化ブランチ（５５０）からの復号化信号を切り替えるためのスイッチを含む、請求項１４に記載のオーディオデコーダ。
前記コンバイナ（６００）は、スイッチング・イベントの場合、時間領域クロスフェード範囲において復号化ブランチ（４５０，５５０）の出力とそれとは別の復号化ブランチ（４５０，５５０）の出力との間でクロスフェードするためのクロスフェーダ（６０７）を含む、請求項１４または請求項１５に記載のオーディオデコーダ。
前記クロスフェーダ（６０７）は、クロスフェード範囲において少なくとも１つの前記復号化ブランチ出力信号を重み付けし、別の復号化ブランチ（６０７ｃ）からの重み付けされたまたは重み付けされていない信号に少なくとも１つの重み付けされた信号を加えるように働き、少なくとも１つの信号（６０７ａ，６０７ｂ）の重み付けのために用いられる重みは、クロスフェード範囲において可変である、請求項１６に記載のオーディオデコーダ。
前記共通の後処理ステージは、ジョイント・マルチチャネル・デコーダ（７０２）または帯域幅拡大プロセッサ（７０１）のうちの少なくとも１つを含む、請求項１４ないし請求項１７のいずれかに記載のオーディオデコーダ。
前記ジョイント・マルチチャネル・デコーダ（７０２）は、パラメータ・デコーダ（７０２ｂ）およびパラメータ・デコーダ（７０２ｂ）出力によって制御されるアップミキサー（７０２ａ）を含む、請求項１８に記載のオーディオデコーダ。
前記帯域幅拡大プロセッサ（７０２）は、ハイバンド信号をつくるためのパッチャ（７０１ａ）、ハイバンド信号を調整するためのアジャスタ（７０１ｂ）、および帯域幅拡大信号を得るために調整されたハイバンド信号およびローバンド信号を結合するためのコンバイナ（７０１ｃ）を含む、請求項１８に記載のオーディオデコーダ。
前記第１の復号化ブランチ（４５０）は周波数領域オーディオデコーダを含み、前記第２の復号化ブランチ（５５０）は時間領域音声デコーダを含む、請求項１４ないし請求項２０のいずれかに記載のオーディオデコーダ。
前記第１の復号化ブランチ（４５０）は周波数領域オーディオデコーダを含み、前記第２の復号化ブランチ（５５０）はＬＰＣに基づくデコーダを含む、請求項１４ないし請求項２０のいずれかに記載のオーディオデコーダ。
前記共通の後処理ステージは、特定の数の機能性（７００、７０１、７０２）を有し、少なくとも１つの機能性は、モード検出機能（６０１）によって適応性があり、少なくとも一つの機能性は適応性がない、請求項１４ないし請求項２２のいずれかに記載のオーディオデコーダ。
符号化されたオーディオ信号のオーディオ復号化方法であって、
情報シンクモデルを有する第１の符号化アルゴリズムに従って符号化された符号化信号を復号化するステップ（４５０）であって、情報シンクモデルを有する第１の符号化アルゴリズムに従って符号化された符号化信号をスペクトルオーディオ復号化するステップ（４３０）と、前記スペクトルオーディオ復号化ステップ（４３０）の出力信号を時間領域に時間領域変換するステップ（４４０）とを含むステップ、
情報源モデルを有する第２の符号化アルゴリズムに従って符号化された符号化オーディオ信号を復号化するステップ（５５０）であって、ＬＰＣ領域信号を得るために第２の符号化アルゴリズムに従って符号化された符号化オーディオ信号を励振復号化するステップ（５３０）と、ＬＰＣ分析ステージによって生成されたＬＰＣ情報信号を受信してＬＰＣ領域信号を時間領域に変換するためにＬＰＣ合成するステップ（５４０）とを含むステップ、
結合信号（６９９）を得るために、時間領域変換するステップ（４４０）およびＬＰＣ合成するステップ（５４０）からの時間領域出力信号を結合するステップ（６００）、および
共通の後処理ステージの復号化された出力信号（７９９）が結合信号（７９９）の拡大バージョンであるように結合信号（６９９）を共通に処理するステップ（７００）を含む、オーディオ復号化方法。
コンピュータ上で実行されるとき、請求項１４または請求項２４の方法を実行させるためのコンピュータ・プログラム。