JP2015518176A

JP2015518176A - マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ

Info

Publication number: JP2015518176A
Application number: JP2015503766A
Authority: JP
Inventors: ヴィレット，ダヴィド; ラン，ユエ; シュイ，ジエンフォン
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-04-05
Filing date: 2012-04-05
Publication date: 2015-06-25
Anticipated expiration: 2032-04-05
Also published as: KR101621287B1; KR20140140101A; CN103460283A; EP2834814A1; WO2013149672A1; EP2834814B1; ES2571742T3; US20150010155A1; US9449604B2; CN103460283B; JP5947971B2

Abstract

マルチチャネルオーディオ信号のオーディオチャネル信号のための符号化パラメータを決定する方法を提供する。方法（100）は、オーディオチャネル信号（x1）について、そのオーディオチャネル信号及びリファレンスオーディオ信号（x2）から関数の組（c[b]）を決定するステップ（101）と、マルチチャネルオーディオ信号のフレームシーケンス（i）に対する第１及び第２の平滑化係数（SMW1，SMW2）に基づく関数の組（c[b]）の平滑化に基づき、夫々、第１及び第２の組の符号化パラメータ（ITD[b]，ITD_inst[b]）を決定するステップ（103，105）と、第１及び／又は第２の組の符号化パラメータに対する品質基準に基づき、符号化パラメータ（ITD）を決定するステップ（107）とを有する。

Description

本発明は、オーディオ符号化に関し、特に、パラメトリック空間オーディオ符号化としても知られるパラメトリックマルチチャネル又はステレオオーディオ符号化に関する。

例えば、C. Faller及びF. Baumgarte，“Efficient representation of spatial audio using perceptual parametrization”，Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust.，２００１年１０月，１９９〜２０２頁において記載されるパラメトリックステレオ又はマルチチャネルオーディオ符号化は、ダウンミックス、通常はモノラル又はステレオのオーディオ信号から、ダウンミックスオーディオ信号よりも多いチャネルを有するマルチチャネルオーディオ信号を同期させるために、空間キューを使用する。通常、ダウンミックスオーディオ信号は、マルチチャネルオーディオ信号の、例えば、ステレオオーディオ信号の複数のオーディオチャネル信号の重ね合わせに由来する。そのような、より少ないチャネルは、波形符号化され、そして、原の信号チャネル間の関係に関するサイド情報、すなわち、空間キューは、符号化パラメータとして、符号化されたオーディオ信号に加えられる。デコーダは、復号された波形符号化されたオーディオチャネルに基づき元の数のオーディオチャネルを再生させるために、このサイド情報を使用する。

基本のパラメトリックステレオコーダは、モノラルのダウンミックスオーディオ信号からステレオ信号を生成するのに必要とされるキューとして、チャネル間レベル差（ILD又はCLD）を使用してよい。より高度なコーダは、オーディオチャネル信号、すなわち、オーディオチャネルの間の類似度を表すことができるチャネル間コヒーレンス（ICC）を更に使用してよい。加えて、頭部伝達関数（HRTF）フィルタリングを用いることによるサラウンドレンダリングに基づき、例えば、３Ｄオーディオ又はヘッドホンのために、両耳性ステレオ信号を符号化する場合に、両耳間時間差（ITD）が、チャネル間の遅延差を再現する役割を担ってよい。

両耳間時間差（ITD）は、図８を見ても分かるように、２つの耳803、805の間の、音響801の到着時間の差である。音響の局在性にとって、それがキューを供給する場合に、（頭部809に対する）音源801の入射の方向807又は角度θを特定することは重要である。信号が一方の側から耳803、805に届く場合に、その信号は、遠位の耳803（反対側）に達するためのより長い経路811と、近位の耳805（同側）に届くためのより短い経路813とを有する。このような経路長さの差は、耳803、805への音響の到達の間の時間差815をもたらす。時間差815は検出され、音源801の方向807を特定するプロセスを助ける。

図８は、ITD（Δt又は時間差815として表される。）の一例を与える。２つの耳803、805への到達時間の差は、音響波形の遅延によって表される。左耳803への波形が最初にやってくる場合に、ITD815は正であり、そうでない場合は、それは負である。音源801が直接に聴取者の前にある場合は、波形は同時に両方の耳803、805に届き、ITD815はよって０である。

ITDキューは、ステレオレコーディングの大部分にとって重要である。例えば、頭部伝達関数（HRTF）プロセッシングに基づき、例えば、ダミーヘッド又は両耳合成を用いて、実際のレコーディングから取得され得る両耳性オーディオ信号は、音楽レコーディング又は電話会議のために使用される。従って、それは、低ビットレートのパラメトリックステレオコーデックにとって、そして特に、対話アプリケーションを対象とするコーデックにとって、極めて重要なパラメータである。低計算量の且つ安定したITD推定アルゴリズムが、低ビットレートパラメトリックステレオコーデックに必要とされる。更に、例えば、チャネル間レベル差（CLD又はILD）及びチャネル間コヒーレンス（ICC）のような他のパラメータに加えて、ITDパラメータの使用は、ビットレートオーバヘッドを増大させ得る。このような特定の超低ビットレートシナリオのために、唯１つの全バンドITDパラメータが送信され得る。唯１つの全バンドITDが推定される場合に、安定性に対する制約は達成するのがより一層困難になる。

パラメータが相互相関、相互スペクトル又はエネルギを用いることによって推定される場合に、推定関数の急激な変化は、パラメータの不安定な推定の原因となり得る。推定されるパラメータは、フレームごとに極めて速く且つ極めて頻繁に変化する恐れがあり、それは、通常は望ましくない。これは、フレームのサイズが小さく、相互相関の信頼できない推定器をもたらし得る場合に、当てはまる。不安定性の問題は、たとえ実際の発生源がその位置を変えないとしても、左側から右側へ及び／又はその逆にジャンプしているように見える発生源として認知される。不安定性の問題はまた、たとえ発生源の位置が左側から右側へジャンプしないとしても、聴取者によって検出され得る。時間にわたる発生源の位置のわずかな変化は、容易に聴取者によって認知され、その場合に、実際の発生源が固定されるときは回避されるべきである。

例えば、両耳間時間差（ITD）は、パラメトリックステレオコーデックにとって重要なパラメータである。ITDが相互相関関数の計算に基づき周波数領域において推定される場合は、推定されるITDは、たとえ音源の位置が固定され且つ実際のITDが安定しているとしても、通常、連続的なフレームにわたって安定しない。安定性の問題は、相互相関をITD推定に用いる前に、平滑化関数を相互相関に適用することによって、解消され得る。しかし、相互相関を平滑化する場合に、実際のITDの急激な変化は追随され得ない。その上、安定した平滑化は、音源又は聴取の位置が互いに対して動く場合にITDの変化に素早く追随する追跡動作を減らす。

他の例は、チャネルレベル差（CLD）推定である。CLDは、パラメトリックステレオコーデックにとって重要なパラメータである。CLDが、夫々のビン又はサブバンドのエネルギの計算に基づき周波数領域において推定される場合は、推定されるCLDは、たとえ音源の位置が固定され且つ実際のレベル差が安定しているとしても、通常、連続的なフレームにわたって安定しない。安定性の問題は、エネルギをCLD推定に用いる前に、平滑化関数をエネルギに適用することによって、解消され得る。しかし、エネルギを平滑化する場合に、実際のCLDの急激な変化は追随され得ず、それにより、音源又は聴取の位置が互いに対して動く場合にCLDの変化に素早く追随する追跡動作を減らす。

ITD又はCLDを安定に保ったままITD又はCLDの変化に素早く追随することを可能にする正確な平滑化係数を見つけることは、特に、相関関数が乏しい分解能、例えば、FFTの周波数分解能を有する場合に、不可能であることが示されている。

C. Faller及びF. Baumgarte，"Efficient representation of spatial audio using perceptual parametrization"，Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust.，２００１年１０月，１９９〜２０２頁

本発明の目的は、安定且つ高速なパラメータ推定を提供するマルチチャネルオーディオエンコーダの構想を提供することである。

この目的は、独立請求項の特徴によって達成される。更なる実施形態は、従属請求項、明細書及び図面から明らかである。

本発明は、ITDの場合には相互相関へ、又はCLDの場合にはエネルギへ、強い平滑化及び弱い平滑化（低い平滑化とも呼ばれる。）の両方を適用することにより、一方がITD又はCLDの変化に素早く追随し、他方が連続的なフレームにわたって安定したパラメータ値を提供する２つの異なる符号化パラメータがもたらされるとの認定に基づく。安定性基準のような品質基準に依存するスマート検出プロシージャを使用することによって、結果として得られる符号化パラメータは安定しており且つITD又はCLDの変化に素早く追随する。

相関関係のただ一回の推定は、安定性、すなわち、実際の発生源が動かない場合に時間にわたってITDパラメータの一貫した推定を保つこと、及び反応性、すなわち、実際の発生源が動いている場合又は異なる位置を有する新しい発生源がオーディオシーンに現れる場合に極めて高速に評価関数を変化させることの両方を得るには十分でない。異なる平滑化係数に基づく異なるメモリ効果により同じパラメータの２つの異なる評価関数を有することは、一方の評価の焦点を安定性に、そして他方の評価の焦点を反応性に合わせることを可能にする。選択アルゴリズムは、最良の評価、すなわち、最も信頼できる１つを選択するよう与えられる。本発明の態様は、異なる平滑化係数による同じ評価関数の２つのバージョンに基づく。品質又は信頼性の基準は、長期評価から短期評価へ切り替える決定のために導入される。短期評価及び長期評価の両方から恩恵を受けるために、長期の状態は、メモリ効果を失効させるために短期の状態によって更新される。

本発明を詳細に記載するために、以下の用語、略語及び表記が使用される。

BCC：チャネル間の関係を記述するためのダウンミックス及び両耳キュー（又は空間パラメータ）を用いる両耳キュー符号化（Binaural Cues Coding）、ステレオ又はマルチチャネル信号の符号化。

両耳キュー（Binaural cues）：左右の耳口にある信号の間のチャネル間キュー（ITD，ILD，及びICを参照）。

CLD：チャネルレベル差、ILDと同じ。

FFT：DFTの高速実施、高速フーリエ変換（Fast Fourier Transform）を意味する。

HRTF：自由場における発生源から左右の耳口への音響の変換をモデリングする頭部伝達関数（Head-Related Transfer Function）。

IC：両耳間コヒーレンス（Inter-aural Coherence）、すなわち、左右の耳口にある信号の間の類似度。これは、時々、IAC又は両耳間相互相関（Inter-Aural Cross-Correlation）（IACC）とも呼ばれる。

ICC：チャネル間コヒーレンス（Inter-Channel Coherence）、チャネル間相関（Inter-Channel Correlation）。ICと同じであるが、より一般的には、いずれかの信号対（例えば、ラウドスピーカ信号対、耳口信号対、等）の間に定義される。

ICPD：チャネル間位相差（Inter-Channel Phase Difference）。信号対の間の平均位相差。

ICLD：チャネル間レベル差（Inter-Channel Level Difference）。ILDと同じであるが、より一般的には、いずれかの信号対（例えば、ラウドスピーカ信号対、耳口信号対、等）の間に定義される。

ICTD：チャネル間時間差（Inter-Channel Time Difference）。ILDと同じであるが、より一般的には、いずれかの信号対（例えば、ラウドスピーカ信号対、耳口信号対、等）の間に定義される。

ILD：両耳間レベル差（Inter-aural Level Difference）、すなわち、左右の耳口にある信号の間のレベル差。これは、時々、両耳間強度差（Inter-aural Intensity Difference）（IID）とも呼ばれる。

IPD：両耳間位相差（Inter-aural Phase Difference）、すなわち、左右の耳口にある信号の間の位相差。

ITD：両耳間時間差（Inter-aural Time Difference）、すなわち、左右の耳口にある信号の間の時間差。これは、時々、両耳間時間遅延とも呼ばれる。

ICD：チャネル間差（Inter-Channel Difference）。２つのチャネルの間の差、例えば、時間差、位相差、レベル差、又は２つのチャネルの間のコヒーレンスについての総括的な用語。

ミキシング（Mixing）：多数のソース信号（例えば、別々に録音された楽器、マルチトラックレコーディング）を前提として、空間オーディオ再生を対象としたステレオ又はマルチチャネルオーディオ信号を生成するプロセスが、ミキシングを意味する。

OCPD：全体的なチャネル位相差（Overall Channel Phase Difference）。２又はそれ以上のオーディオチャネルの共通の位相変化。

空間オーディオ（Spatial audio）：適切な再生システムを通じて再生される場合に、聴覚空間イメージを呼び起こすオーディオ信号。

空間キュー（Spatial cues）：空間認知に関連したキュー。この用語は、ステレオ又はマルチチャネルオーディオ信号のチャネルの対の間のキューのために使用される（ICTD，ICLD，及びICCを参照）。また、空間パラメータ又は両耳キューとも表される。

第１の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちのオーディオチャネル信号のための符号化パラメータを決定する方法であって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有する方法において、
当該オーディオチャネル信号について、当該オーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定するステップと、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第１の平滑化係数に基づく前記関数の組の平滑化に基づき、第１の組の符号化パラメータを決定するステップと、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第２の平滑化係数に基づく前記関数の組の平滑化に基づき、第２の組の符号化パラメータを決定するステップと、
前記第１の組の符号化パラメータ及び／又は前記第２の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定するステップと
を有する方法に関する。

第２の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちのオーディオチャネル信号のための符号化パラメータを決定する方法であって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有する方法において、
当該オーディオチャネル信号について、当該オーディオチャネル信号のオーディオチャネル信号値と、前記複数のマルチチャネルオーディオ信号の少なくとも２つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定するステップと、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第１の平滑化係数に基づく前記関数の組の平滑化に基づき、第１の組の符号化パラメータを決定するステップと、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第２の平滑化係数に基づく前記関数の組の平滑化に基づき、第２の組の符号化パラメータを決定するステップと、
前記第１の組の符号化パラメータ及び／又は前記第２の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定するステップと
を有する方法に関する。

前記関数の組の強平滑化バージョン、例えば、第１の平滑化パラメータに基づく平滑化は、推定を安定させる。前記関数の組の弱平滑化バージョン、例えば、同時に決定される第２の平滑化パラメータに基づく平滑化は、推定を、推定パラメータ、すなわち、ITD又はCLDの実際の高速な変化に追随させる。前記関数の組の強平滑化バージョンのメモリは、前記関数の組の弱平滑化バージョンによって更新され、それによって、追跡速度及び安定性に関して最適な結果を提供する。どちらの平滑化バージョンを使用すべきかの決定は、前記第１の組及び／又は前記第２の組の符号化パラメータの品質メトリックに基づく。よって、安定且つ高速なパラメータ推定が提供される。

第１の態様に従う又は第２の態様に従う方法の第１の可能な実施形態において、前記関数の組を決定する前記ステップは、
当該オーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定するステップと、
前記リファレンスオーディオ信号の前記リファレンスオーディオ信号値の周波数変換を決定するステップと、
周波数サブバンドのサブセットの少なくとも夫々の周波数サブバンドについて、相互スペクトル又は相互相関として前記関数の組を決定するステップと
を有し、
前記関数の組の夫々の関数は、前記関数の組の当該関数が関連付けられる各々の周波数サブバンドにおいて、前記オーディオチャネル信号の帯域制限された信号部分と、前記リファレンスオーディオ信号の帯域制限された部分との間で計算される。

相互相関に基づき周波数領域において前記符号化パラメータを推定する場合に、符号化パラメータ推定の安定性は高められる。前記関数の組は、周波数サブバンドについて処理されてよく、それによって、前記符号化パラメータを選択する際の柔軟性を改善し、且つ、周波数サブバンドが全周波数バンドよりもノイズに敏感でないためにノイズに対するロバスト性を改善する。

第１の態様の第１の実施形態に従う又は第２の態様の第１の実施形態に従う方法の第２の可能な実施形態において、周波数サブバンドは、１又は複数の周波数ビンを有する。

前記周波数サブバンドのサイズは、柔軟に調整されてよく、それによって、周波数サブバンドごとに異なる符号化パラメータを使用することを可能にする。

そのようなものとして第１の態様に従う若しくはそのようなものとして第２の態様に従う、又は第１の態様の上記の実施形態のいずれかに従う若しくは第２の態様の上記の実施形態のいずれかに従う方法の第３の可能な実施形態において、前記第１及び第２の組の符号化パラメータは、チャネル間時間差及び／又はチャネル間レベル差を有するチャネル間の差を有する。

チャネル間の差は、マルチチャネルオーディオ信号の第１及び第２のオーディオチャネルの間の差を検出するために空間パラメータとして使用され得る。差は、例えば、両耳間時間差若しくはチャネル間時間差のような到着時間の差、又は両オーディオチャネルのレベルの差であることができる。いずれの差も、符号化パラメータとして使用されるのに適する。

そのようなものとして第１の態様に従う若しくはそのようなものとして第２の態様に従う、又は第１の態様の上記の実施形態のいずれかに従う若しくは第２の態様の上記の実施形態のいずれかに従う方法の第４の可能な実施形態において、品質基準に基づき前記符号化パラメータを決定する前記ステップは、前記品質基準によって使用される安定性パラメータを決定するステップを有する。

前記品質基準は、例えば、安定性パラメータに基づくことができ、それによって、符号化パラメータ推定の安定性を高める。追加的に、又は代替的に、前記品質基準は、ユーザのクオリティ・オブ・エクスペリエンス（QoE）を高めるためにQoE基準に基づくことができる。前記品質基準は、オーディオ符号化を実行する場合にバンド幅を有効に用いるためにバンド幅基準に基づくことができる。

第１の態様の第４の実施形態に従う又は第２の態様の第４の実施形態に従う方法の第５の可能な実施形態において、前記符号化パラメータを決定する前記ステップは、
前記フレームシーケンスに対する前記第２の組の符号化パラメータの連続する値の間の比較に基づき、前記第２の組の符号化パラメータの安定性パラメータを決定するステップと、
前記安定性パラメータに依存して、前記符号化パラメータを決定するステップと
を有する。

安定性パラメータを用いることによって、推定の安定性が改善される。その上、相互相関の又はエネルギの平滑化は、安定性パラメータが安定性の喪失を示すまで小さくされ得るので、推定の速度は上げられる。

第１の態様の第４の実施形態に従う又は第２の態様の第４の実施形態に従う第６の可能な実施形態において、前記安定性パラメータは、前記第２の組の符号化パラメータの標準偏差に少なくも基づく。

前記標準偏差は、計算するのが容易であり、安定性の正確な指標を提供する。標準偏差が小さい場合に、推定は安定しており又は信頼でき、標準偏差が大きい場合に、推定は不安定であり又は信頼できない。

第１の態様の第４の実施形態に従う若しくは第２の態様の第４の実施形態に従う、又は第１の態様の第５の実施形態に従う若しくは第２の態様の第５の実施形態に従う方法の第７の可能な実施形態において、前記安定性パラメータは、前記マルチチャネルオーディオ信号の１つのフレームにわたって又は複数のフレームにわたって決定される。

前記マルチチャネルオーディオ信号の１つのフレームにわたって前記安定性パラメータを決定することは、実施するのが容易であり、計算複雑性が低く、一方、複数のフレームにわたって前記安定性パラメータを決定することは、安定性のための正確な推定を提供する。

第１の態様の第４乃至第７の実施形態のうちのいずれかに従う又は第２の態様の第４乃至第７の実施形態のうちのいずれかに従う方法の第８の可能な実施形態において、前記符号化パラメータを決定する前記ステップは、前記安定性パラメータの閾値の交差に基づき決定される。

前記安定パラメータが前記閾値を下回る場合に、推定は安定しており又は信頼でき、一方、前記安定性パラメータが前記閾値を上回ることは、不安定な又は信頼できない推定を示す。

第１の態様の第８の実施形態に従う又は第２の態様の第８の実施形態に従う方法の第９の可能な実施形態において、当該方法は、前記安定性パラメータが前記閾値を交差する場合に、前記第２の組の符号化パラメータにより前記第１の組の符号化パラメータを更新するステップを更に有する。

前記更新によって、前記第１の組の符号化パラメータの推定は改善され得る。前記安定性パラメータが、安定した推定を示す前記閾値を上回る場合に、長期平滑化が短期平滑化によって更新又は置換されてよく、それによって、安定性を保ちながら推定の速度を上げる。

そのようなものとして第１の態様に従う若しくはそのようなものとして第２の態様に従う、又は第１の態様の上記の実施形態のいずれかに従う又は第２の態様の上記の実施形態のいずれかに従う方法の第１０の可能な実施形態において、第１及び第２の平滑化係数に基づく前記関数の組の前記平滑化は、前記第１及び前記第２の平滑化係数に基づく第１の係数を乗じられた前記関数の組並びに前記第１及び前記第２の平滑化係数に基づく第２の係数を乗じられた前記関数の組の第１及び第２の平滑化されたバージョンのメモリ状態の足し算として計算される。

そのような再帰計算は、前記関数の組の前記第１及び第２の平滑化されたバージョンの過去の値を記憶するためにメモリを使用する。再帰的な平滑化は、加算及び乗算の数が少ないほど計算効率がよい。再帰的な平滑化は、唯１つのメモリ状態が関数の過去に平滑化された値を記憶するのに必要とされるのでメモリ効率がよく、前記メモリ状態は夫々の計算ステップにおいて更新される。

第１の態様の第１０の実施形態に従う又は第２の態様の第１０の実施形態に従う方法の第１１の可能な実施形態において、当該方法は、前記安定性パラメータが前記閾値を交差する場合に、前記関数の組の前記第２の平滑化されたバージョンのメモリ状態により前記関数の組の前記第１の平滑化されたバージョンのメモリ状態を更新するステップを更に有する。

前記安定性パラメータに依存して前記関数の組の前記第２の平滑化されたバージョンのメモリ状態により前記関数の組の前記第１の平滑化されたバージョンのメモリ状態を更新することによって、推定の安定性及び速度は改善される。前記安定性パラメータが、安定した推定を示す前記閾値を上回る場合に、長期平滑化、すなわち、前記関数の組の前記第１の平滑化されたバージョンは、短期平滑化、すなわち、前記関数の組の前記第２の平滑化されたバージョンによって更新又は置換されてよく、それによって、安定を保ちながら推定の速度を上げる。

そのようなものとして第１の態様に従う若しくはそのようなものとして第２の態様に従う、又は第１の態様の上記の実施形態のいずれかに従う若しくは第２の態様の上記の実施形態のいずれかに従う方法の第１２の可能な実施形態において、前記第１の平滑化係数は、前記第２の平滑化係数よりも高い。

前記第１の平滑化係数は長期推定を可能にし、一方、前記第２の平滑化係数は短期推定を可能にし、それによって、異なる平滑化結果を区別することを可能にする。

そのようなものとして第１の態様に従う若しくはそのようなものとして第２の態様に従う、又は第１の態様の上記の実施形態のいずれかに従う若しくは第２の態様の上記の実施形態のいずれかに従う方法の第１３の可能な実施形態において、前記関数の組の前記平滑化は、前記マルチチャネルオーディオ信号の少なくとも２つの連続するフレームに対する。

前記平滑化は、前記マルチチャネルオーディオ信号の２又はそれ以上の連続するフレームが使用される場合に、より正確である。

そのようなものとして第１の態様に従う若しくはそのようなものとして第２の態様に従う、又は第１の態様の上記の実施形態のいずれかに従う若しくは第２の態様の上記の実施形態のいずれかに従う方法の第１４の可能な実施形態において、前記関数の組の前記平滑化は、前記第２の組の符号化パラメータの正の値と前記第２の組の符号化パラメータの負の値とを区別する。

前記第２の組の符号化パラメータの正及び負の値を区別することによって、推定は、より高い精度を有する。

第１の態様の第１４の実施形態に従う又は第２の態様の第１４の実施形態に従う方法の第１５の可能な実施形態において、前記関数の組の前記平滑化は、多数の周波数ビン又は周波数サブバンドにわたって、前記第２の組の符号化パラメータの正の値の第１の数と、前記第２の組の符号化パラメータの負の値の第２の数とを数えることを有する。

前記正及び負の値を数えることは、前記第２の組の符号化パラメータをその符号に依存して区別することを可能にする。推定速度は、その区別によって高められる。

第３の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちのオーディオチャネル信号のための符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有するマルチチャネルオーディオエンコーダにおいて、
当該オーディオチャネル信号について、当該オーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定する第１の決定部と、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第１の平滑化係数に基づく前記関数の組の平滑化に基づき、第１の組の符号化パラメータを決定する第２の決定部と、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第２の平滑化係数に基づく前記関数の組の平滑化に基づき、第２の組の符号化パラメータを決定する第３の決定部と、
前記第１の組の符号化パラメータ及び／又は前記第２の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定する符号化パラメータ決定部と
を有するマルチチャネルオーディオエンコーダに関する。

前記第４の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちのオーディオチャネル信号のための符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有するマルチチャネルオーディオエンコーダにおいて、
当該オーディオチャネル信号について、当該オーディオチャネル信号のオーディオチャネル信号値と、前記複数のマルチチャネルオーディオ信号の少なくとも２つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定する第１の決定部と、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第１の平滑化係数に基づく前記関数の組の平滑化に基づき、第１の組の符号化パラメータを決定する第２の決定部と、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第２の平滑化係数に基づく前記関数の組の平滑化に基づき、第２の組の符号化パラメータを決定する第３の決定部と、
前記第１の組の符号化パラメータ及び／又は前記第２の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定する符号化パラメータ決定部と
を有するマルチチャネルオーディオエンコーダに関する。

そのようなマルチチャネルオーディオエンコーダは、速度及び安定性に関して最適な符号化を提供する。前記関数の組の強平滑化バージョン、例えば、第１の平滑化パラメータに基づく平滑化は、推定を安定させる。前記関数の組の弱平滑化バージョン、例えば、同時に決定される第２の平滑化パラメータに基づく平滑化は、推定を、推定パラメータ、すなわち、ITD又はCLDの実際の高速な変化に追随させる。前記関数の組の強平滑化バージョンのメモリは、前記関数の組の弱平滑化バージョンによって更新され、それによって、追跡速度及び安定性に関して最適な結果を提供する。どちらの平滑化バージョンを使用すべきかの決定は、前記第１の組及び／又は前記第２の組の符号化パラメータの品質メトリックに基づく。よって、安定且つ高速なパラメータ推定が提供される。

第５の態様に従って、本発明は、コンピュータで実行される場合に、そのようなものとして第１の態様に従う若しくはそのようなものとして第２の態様に従う、又は第１の態様の上記の実施形態のいずれかに従う又は第２の態様の上記の実施形態のいずれかに従う方法を実行するプログラムコードを含むコンピュータプログラムに関する。

第６の態様に従って、本発明は、コンピュータで実行される場合に、そのようなものとして第１の態様に従う若しくはそのようなものとして第２の態様に従う、又は第１の態様の上記の実施形態のいずれかに従う又は第２の態様の上記の実施形態のいずれかに従う方法を実行するプログラムコードを有するコンピュータプログラムを含む、ストレージ、特にコンパクトディスクのような機械可読媒体に関する。

上述された本発明の態様は、パラメトリック空間オーディオエンコーダにおけるITD推定のために使用され得る。パラメトリック空間オーディオエンコーダ又はパラメトリックマルチチャネルオーディオエンコーダにおいて、空間パラメータは、ビットストリームにおいて多重化される前に、抽出され量子化される。パラメータ（例えば、ITD）は、相互相関に基づき周波数領域において推定されてよい。推定をより安定させるために、周波数領域の相互相関は、パラメータ（ITD）推定のために強平滑化される。パラメータの実際の高速な変化に追随するために、周波数領域の相互相関の弱平滑化バージョンがまた、メモリ効果を減じることによって相互相関のほぼ瞬時の推定に基づき同時に計算される。

推定関数の弱平滑化バージョンは、パラメータ（ITD）を推定するために、且つ、パラメータの状態の変化時に相互相関の強平滑化バージョンの相互相関メモリを更新するために、使用される。弱平滑化バージョンを使用するとの決定は、推定されるパラメータの品質メトリックに基づく。パラメータは、推定関数の２つのバージョンに基づき推定される。最良の推定が保たれ、弱平滑化された関数が選択される場合は、それは強平滑化バージョンを更新するために使用される。

例えば、ITD推定の場合に、ITD_inst（ITDの弱平滑化バージョン）は、周波数領域の相互相関の弱平滑化バージョンに基づき計算される。複数の周波数ビン／サブバンドにわたるITD_instの標準偏差が所定の閾値よりも低い場合は、強平滑化された相互相関のメモリは弱平滑化バージョンからの１つによって更新され、弱平滑化された関数により推定されるITDが選択される。

単純な品質メトリックは、弱平滑化されたバージョンのITD推定の標準偏差に基づく。当然、他の品質メトリックが同様に使用され得る。例えば、位置変化の可能性は、全ての利用可能な空間情報（CLD，ITD，ICC）に基づき計算され得る。一例として、ITDの高速な変化とCLDの高速な変化との間の相関関係は、空間イメージの変化の高い可能性を表す。

ここで記載される方法は、デジタル信号プロセッサ（DSP）において、マイクロコントローラにおいて又はいずれかの他のプロセッサにおいてソフトウェアとして、あるいは、特定用途向け集積回路（ASIC）内でハードウェアとして、実施されてよい。

本発明は、デジタル電子回路において、又はコンピュータハードウェア、ファームウェア、ソフトウェアにおいて、若しくはそれらの組み合わせにおいて、実施され得る。

本発明の更なる実施形態は、以下の図面に関して記載される。
実施形態に従って、オーディオチャネル信号の符号化パラメータを決定する方法の概略図を示す。実施形態に従って、オーディオチャネル信号の符号化パラメータを決定する方法の概略図を示す。実施形態に従って、ITD推定アルゴリズムの概略図を示す。実施形態に従って、CLD推定アルゴリズムの概略図を示す。実施形態に従って、パラメトリックオーディオエンコーダのブロック図を示す。実施形態に従って、パラメトリックオーディオデコーダのブロック図を示す。実施形態に従って、パラメトリックステレオオーディオエンコーダ及びデコーダのブロック図を示す。実施形態に従って、ITD選択アルゴリズムのブロック図を示す。両耳間時間差の原理を説明する概略図を示す。

図１ａは、実施形態に従って、オーディオチャネル信号の符号化パラメータを決定する方法100aの概略図を示す。

方法100aは、マルチチャネルオーディオ信号の複数のチャネル信号x₁，x₂のうちのオーディオチャネル信号x₁について、符号化パラメータITD、例えば、チャネル間時間差又は両耳間時間差を決定するためのものである。夫々のオーディオチャネル信号x₁，x₂は、オーディオチャネル信号値x₁[n]，x₂[n]を有する。方法100aは：
オーディオチャネル信号x₁について、オーディオチャネル信号x₁のオーディオチャネル信号値x₁[n]と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x₂又は複数のマルチチャネルオーディオ信号の少なくとも２つのオーディオチャネル信号x₁，x₂から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号x₂のリファレンスオーディオ信号値x₂[n]とから、関数の組c[b]を決定するステップ101と、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第１の平滑化係数SMW₁に基づく関数の組c[b]の平滑化に基づき、第１の組の符号化パラメータITD[b]を決定するステップ103aと、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第２の平滑化係数SMW₂に基づく関数の組c[b]の平滑化に基づき、第２の組の符号化パラメータITD_inst[b]を決定するステップ105aと、
第１の組の符号化パラメータITD[b]及び／又は第２の組の符号化パラメータITD_inst[b]に対する品質基準に基づき、符号化パラメータITDを決定するステップ107aと
を有する。

実施形態において、符号化パラメータITDを決定するステップ107aは、第２の組の符号化パラメータITD_inst[b]の安定性を確認するステップを有する。第２の組の符号化パラメータITD_inst[b]が全ての周波数ビンbにわたって安定している場合は、最終の推定として第２の組の符号化パラメータITD_inst[b]に基づき符号化パラメータITDを選択し、第１の平滑化係数SMW₁に基づく関数の組c[b]の平滑化のメモリを、第２の平滑化係数SMW₂に基づく関数の組c[b]の平滑化によって更新する。第２の組の符号化パラメータITD_inst[b]が全ての周波数ビンbにわたって安定していない場合は、最終の推定として第１の組の符号化パラメータITD[b]に基づき符号化パラメータITDを選択する。

実施形態において、方法100aは以下のステップを有する：
第１の平滑化係数に基づき入力信号x₁[n]，x₂[n]からパラメータITDの推定のために第１の関数c[b]を計算し101且つ関連する平滑化された関数c_sm[b]を計算する103a。

第２の平滑化係数に基づき入力信号x₁[n]，x₂[n]からパラメータITDの推定のために第２の平滑化された関数c_{sm_inst}[b]を計算する105a。

推定関数の２つの平滑化されたバージョンc_sm[b]及びc_{sm_inst}[b]に基づきパラメータの第１及び第２の推定ITD及びITD_instを計算する107a。

パラメータの第２の推定ITD_instの安定性を確認する107a。パラメータの第２の推定が安定している場合は、最終の推定としてパラメータの第２の推定ITD_instを選択し、第１の平滑化された関数のメモリを第２の平滑化された関数によって更新する。パラメータの第２の推定が安定していない場合は、最終の推定としてパラメータの第１の推定ITDを選択する。

実施形態において、方法100aは以下のステップを有する：
１．第１及び第２のチャネル信号x₁[n]及びx₂[n]のFFTを計算する。
２．周波数領域においてそれら２つのチャネルの相互相関c[n]を計算する。
２．１．相互相関c[n]を強平滑化し、第１の平滑化係数、すなわち、長期平滑化係数に関して夫々の周波数ビン（又は周波数バンド）のITD（チャネル間時間差の長期推定）を計算する。
２．２．相互相関c[n]を弱平滑化し、第２の平滑化係数、すなわち、短期平滑化係数に関して夫々の周波数ビン（又は周波数バンド）のITD_inst（チャネル間時間差の短期推定）を計算する。
３．ITD_instの平均及び標準偏差を計算する。
４．ITD_instの標準偏差が閾値よりも低い場合は、強平滑化された相互相関のメモリを、弱平滑化されたバージョンからの１つにより更新し、最終のITDとしてITD_instの平均を出力する。ITD_instの標準偏差が閾値よりも高い場合は、最終のITDとしてITDの平均を出力する。

図１ｂは、実施形態に従って、オーディオチャネル信号の符号化パラメータを決定する方法100bの概略図を示す。

方法100bは、マルチチャネルオーディオ信号の複数のチャネル信号x₁，x₂のうちのオーディオチャネル信号x₁について、符号化パラメータCLD、例えば、チャネル間レベル差を決定するためのものである。夫々のオーディオチャネル信号x₁，x₂は、オーディオチャネル信号値x₁[n]，x₂[n]を有する。方法100bは：
オーディオチャネル信号x₁について、オーディオチャネル信号x₁のオーディオチャネル信号値x₁[n]と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x₂又は複数のマルチチャネルオーディオ信号の少なくとも２つのオーディオチャネル信号x₁，x₂から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号x₂のリファレンスオーディオ信号値x₂[n]とから、関数の組c[b]を決定するステップ101と、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第１の平滑化係数SMW₁に基づく関数の組c[b]の平滑化に基づき、第１の組の符号化パラメータCLD[b]を決定するステップ103bと、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第２の平滑化係数SMW₂に基づく関数の組c[b]の平滑化に基づき、第２の組の符号化パラメータCLD_inst[b]を決定するステップ105bと、
第１の組の符号化パラメータCLD[b]及び／又は第２の組の符号化パラメータCLD_inst[b]に対する品質基準に基づき、符号化パラメータCLDを決定するステップ107bと
を有する。

実施形態において、符号化パラメータCLDを決定するステップ107bは、第２の組の符号化パラメータCLD_inst[b]の安定性を確認するステップを有する。第２の組の符号化パラメータCLD_inst[b]が全ての周波数ビンbにわたって安定している場合は、最終の推定として第２の組の符号化パラメータCLD_inst[b]に基づき符号化パラメータCLDを選択し、第１の平滑化係数SMW₁に基づく関数の組c[b]の平滑化のメモリを、第２の平滑化係数SMW₂に基づく関数の組c[b]の平滑化によって更新する。第２の組の符号化パラメータCLD_inst[b]が全ての周波数ビンbにわたって安定していない場合は、最終の推定として第１の組の符号化パラメータCLD[b]に基づき符号化パラメータCLDを選択する。

実施形態において、方法100bは以下のステップを有する：
第１の平滑化係数に基づき入力信号x₁[n]，x₂[n]からパラメータCLDの推定のために第１の関数c[b]を計算し101且つ関連する平滑化された関数c_sm[b]を計算する103b。

第２の平滑化係数に基づき入力信号x₁[n]，x₂[n]からパラメータCLDの推定のために第２の平滑化された関数c_{sm_inst}[b]を計算する105b。

推定関数の２つの平滑化されたバージョンc_sm[b]及びc_{sm_inst}[b]に基づきパラメータの第１及び第２の推定CLD及びCLD_instを計算する107b。

パラメータの第２の推定CLD_instの安定性を確認する107b。パラメータの第２の推定が安定している場合は、最終の推定としてパラメータの第２の推定CLD_instを選択し、第１の平滑化された関数のメモリを第２の平滑化された関数によって更新する。パラメータの第２の推定が安定していない場合は、最終の推定としてパラメータの第１の推定CLDを選択する。

実施形態において、方法100bは以下のステップを有する：
１．第１及び第２のチャネル信号x₁[n]及びx₂[n]のFFTを計算する。
２．周波数領域においてそれら２つのチャネルのエネルギen[n]を計算する。
２．１．エネルギen[n]を強平滑化し、第１の平滑化係数、すなわち、長期平滑化係数に関して夫々の周波数ビン（又は周波数バンド）のCLD（チャネル間レベル差の長期推定）を計算する。
２．２．エネルギen[n]を弱平滑化し、第２の平滑化係数、すなわち、短期平滑化係数に関して夫々の周波数ビン（又は周波数バンド）のCLD_inst（チャネル間レベル差の短期推定）を計算する。
３．CLD_instに基づきステレオイメージの安定性を確認する。
４．ステレオイメージが安定していない場合は、強平滑化されたエネルギのメモリを、弱平滑化されたバージョンからの１つにより更新し、最終のCLDとしてCLD_instを出力する。ステレオイメージが安定している場合は、最終のCLDとしてCLDを出力する。

図２は、実施形態に従って、ITD推定アルゴリズム200の概略図を示す。

第１のステップ209で、時間周波数変換が第１の入力チャネルのサンプルx₁[n]に適用され、第１の入力チャネルx₁の周波数表現X₁[k]が取得される。第２のステップ211で、時間周波数変換が第２の入力チャネルのサンプルx₂[n]に適用され、第２の入力チャネルx₂の周波数表現X₂[k]が取得される。ステレオ入力チャネルの実施形態では、第１の入力チャネルx₁は左チャネルであってよく、第２の入力チャネルx₂は右チャネルであってよい。好ましい実施形態において、時間周波数変換は高速フーリエ変換（FFT）又は短時間フーリエ変換（STFT）である。代替の実施形態において、時間周波数変換はコサイン変調フィルタバンク又は複素フィルタバンクである。

第３のステップ213で、相互スペクトルc[b]が、

として、サブバンドごとに第１及び第２の入力チャネルx_1，x₂の周波数表現X₁[k]及びX₂[k]から計算される。ここで、c[b]は、サブバンドbの相互スペクトルである。X₁[k]及びX₂[k]は２つのチャネル（例えば、ステレオの場合に左及び右チャネル）のFFT係数である。*は複素共役を表す。k_bはサブバンドbの開始ビンであり、k_b+1は隣接サブバンドb+1の開始ビンである。よって、k_bからk_b+1-1までのFFTの周波数ビン[k]はサブバンド[b]に相当する。代替的に、相互スペクトルは、

として、FFTの夫々の周波数ビンについて計算される。ここで、c[b]は、周波数ビン[b]の相互スペクトルであり、X₁[b]及びX₂[b]は、２つのチャネルのFFT係数である。*は複素共役を表す。この場合について、サブバンド[b]は、１つの周波数ビン[k]に直接対応し、周波数ビン[b]及び[k]は、厳密に同じ周波数ビンを表す。この実施形態における相互スペクトルc[b]は、図１ａ及び１ｂに関して記載された関数の組c[b]に対応する。

第４及び第５のステップ215及び219で、平滑化された相互スペクトルの２つのバージョンc_sm[b,i]及びc_{sm_inst}[b,i]が、

として、相互スペクトルc[b]から計算される。ここで、SMW₁及びSMW₂は各々の平滑化係数であり、SMW₁＞SMW₂。iは、マルチチャネルオーディオ信号に基づく各々の相互スペクトルのフレームインデックスである。例となるが好ましい実施形態において、SMW₁＝0.9844及びSMW₂＝0.75。

第６及び第７のステップ221及び223で、チャネル間時間差の２つのバージョンITD及びITD_instが、

として、夫々、強平滑化された相互スペクトルc_sm[b,i]及び弱平滑化された相互スペクトルc_{sm_inst}[b,i]に基づき、ビンごと又はサブバンドごとに計算される。ここで、演算∠は、平滑化された相互スペクトルの角度を計算するための引数演算子である。Nは、FFTビンの数である。

第８のステップ225で、チャネル間時間差の強平滑化バージョンITDの平均が、全ての関心のあるビン（又はサブバンド）にわたって計算される。

ここで、B₁及びB₂は、関心のある周波数範囲内の最初及び最後のビン（又はサブバンド）のインデックスである。

第９及び第１０のステップ227及び229で、チャネル間時間差の弱平滑化されたバージョンITD_instの平均ITD_inst_mean及び標準偏差ITD_inst_stdが、全ての関心のあるビン（又は周波数サブバンド）にわたって計算される。

第１１のステップ231で、チャネル間時間差の弱平滑化されたバージョンの標準偏差ITD_inst_stdが閾値（thr）よりも小さいかどうか、すなわち、ITD_inst_std＜thrが、比較により確認される。これが真である（Y＝はい）場合は、第１の平滑化された関数c_sm[b,i]は、第１２のステップ217で、C_sm[b,i]＝C_{sm_inst}[b,i]に従って更新され、チャネル間時間差の弱平滑化されたバージョンITD_instの平均ITD_inst_meanが、第１３のステップ233で最終の符号化パラメータITDとして出力される。これが真でない（N＝いいえ）場合は、チャネル間時間差の強平滑化バージョンITDの平均ITD_meanが、第１４のステップ235で最終の符号化パラメータITDとして出力される。

上記のステップ209、211及び213は、図１ａに関して記載されたステップ101に対応するステップ201として表されてよい。上記のステップ215及び221は、図１ａに関して記載されたステップ103aに対応するステップ203として表されてよい。上記のステップ217、219及び223は、図１ａに関して記載されたステップ105aに対応するステップ205として表されてよい。上記のステップ225、227、229、231、233及び235は、図１ａに関して記載されたステップ107aに対応するステップ207として表されてよい。

ITD推定の好ましい実施形態において、符号化パラメータITDは、チャネル間時間差についての２つの平滑化バージョンITD及びITD_instに基づき計算され、このとき、それら２つの平滑化バージョンITD及びITD_instの夫々は、以下の実施に従って、夫々、ITD及びITD_instの正及び負の計算に基づき決定される：
チャネル間時間差の強平滑化バージョンITDの正及び負の値のカウントが実行される。正及び負のITDの平均及び標準偏差は、次のとおりに、ITDの符号に基づく：

ここで、Nb_pos及びNb_negは、夫々、正及び負のITDの数である。Mは、取り出されるITDの総数である。代替的に、ITDが０に等しい場合に、それは負ITDにおいてカウントされるか又はいずれの平均においてもカウントされ得ない点が留意されるべきである。

ITDは、図７に表される選択アルゴリズムに従って、平均及び標準偏差に基づき正及び負のITDから選択される。

同じ計算は、チャネル間時間差の弱平滑化バージョンITD_instについて実行される。

マルチチャネルパラメトリックオーディオコーデックへの方法の適用に従う実施形態において、方法200は以下のステップを有する：
第１及び第２のステップ209及び211で、時間周波数変換が入力チャネルに適用される。好ましい実施形態において、時間周波数変換は高速フーリエ変換（FFT）又は短時間フーリエ変換（STFT）である。代替の実施形態において、時間周波数変換はコサイン変調フィルタバンク又は複素フィルタバンクである。

第３のステップ213で、チャネルjの相互スペクトルc[b]が、

として、サブバンドごとに計算される。ここで、c[b]は、ビンb又はサブバンドbの相互スペクトルである。X_j[b]及びX_ref[b]は、チャネルj及びリファレンスチャネルのFFT係数である。*は複素共役を表す。k_bはバンドbの開始ビンであり、k_b+1は隣接サブバンドb+1の開始ビンである。よって、k_bからk_b+1-1までのFFTの周波数ビン[k]はサブバンド[b]に相当する。実施形態において、リファレンス信号X_refのスペクトルは、チャネルXj（[1,m]に含まれるjについて。）の１つとして選択され、その場合、M-1個の空間キューがデコーダにおいて計算される。代替の実施形態において、X_refは、全てのM個のチャネルの平均であるモノラルのダウンミックス信号のスペクトルであり、その場合、M個の空間キューがデコーダにおいて計算される。マルチチャネルオーディオ信号のためのリファレンスとしてダウンミックス信号を使用する利点は、リファレンス信号として無音信号を用いることを回避することである。実際に、ダウンミックス信号は、全てのチャネルのエネルギの平均に相当し、よって、無音であることを免れる。

代替の実施形態において、相互スペクトルは、

として、FFTの夫々の周波数ビンについて計算される。ここで、c[b]は、周波数ビン[b]の相互スペクトルである。X_ref[b]は、リファレンス信号のスペクトルであり、X_j[b]（[1,m]に含まれるjについて。）は、マルチチャネル信号の夫々のチャネルのスペクトルである。*は複素共役を表す。この場合について、サブバンド[b]は、１つの周波数ビン[k]に直接対応し、周波数ビン[b]及び[k]は、厳密に同じ周波数ビンを表す。

第４及び第５のステップ215及び219で、平滑化された相互スペクトルの２つのバージョンが計算される

ここで、SMW₁及びSMW₂は平滑化係数であり、SMW₁＞SMW₂。iは、マルチチャネルオーディオ信号に基づくフレームインデックスである。好ましい実施形態において、SMW₁＝0.9844及びSMW₂＝0.75。

第６及び第７のステップ221及び223で、ITD及びITD_instが、

として、夫々、強平滑化された相互スペクトルc_sm及び弱平滑化された相互スペクトルc_{sm_inst}に基づき、ビンごと又はサブバンドごとに計算される。ここで、演算∠は、平滑化された相互スペクトルの角度を計算するための引数演算子である。Nは、FFTビンの数である。

第８のステップ225で、ITDの平均が、全ての関心のあるビン（又はサブバンド）にわたって計算される。

第９第６及び第１０のステップ227及び229で、ITD_instの平均及び標準偏差が、次のとおりに、全ての関心のあるビン（又は周波数サブバンド）にわたって計算される：

第１１のステップ231で、ITD_inst_std,jは、ITD_inst_std,j＜thrに従って、閾値（thr）よりも小さいことを確認される。それがより小さい場合（Y経路）、第１の平滑化された関数は、第１２のステップ217でC_j,sm[b,i]＝C_{j,sm_inst}[b,i]に従って更新され、ITD_inst_jの平均（ITD_inst_mean,j）が、第１３のステップ233で最終のITD_jとして出力される。それがより小さくない場合（N経路）、ITD_jの平均（ITD_mean,j）が、第１４のステップ235で最終のITD_jとして出力される。

ITD推定の好ましい実施形態において、符号化パラメータITD_jは、チャネル間時間差についての２つの平滑化バージョンITD_j及びITD_inst_jに基づき計算され、このとき、それら２つの平滑化バージョンITD_j及びITD_inst_jの夫々は、以下の実施に従って、夫々、ITD_j及びITD_inst_jの正及び負の計算に基づき決定される：
チャネル間時間差の強平滑化バージョンITDの正及び負の値のカウントが実行される。正及び負のITDの平均及び標準偏差は、次のとおりに、ITDの符号に基づく：

図３は、実施形態に従って、CLD推定アルゴリズムの概略図を示す。

第１のステップ309で、時間周波数変換が第１の入力チャネルのサンプルx₁[n]に適用され、第１の入力チャネルx₁の周波数表現X₁[k]が取得される。第２のステップ311で、時間周波数変換が第２の入力チャネルのサンプルx₂[n]に適用され、第２の入力チャネルx₂の周波数表現X₂[k]が取得される。ステレオ入力チャネルの実施形態では、第１の入力チャネルx₁は左チャネルであってよく、第２の入力チャネルx₂は右チャネルであってよい。好ましい実施形態において、時間周波数変換は高速フーリエ変換（FFT）又は短時間フーリエ変換（STFT）である。代替の実施形態において、時間周波数変換はコサイン変調フィルタバンク又は複素フィルタバンクである。

第３のステップ313で、第１のチャネルx₁のエネルギen₁[b]及び第２のチャネルx₂のエネルギen₂[b]が、

として、サブバンドbごとに計算される。ここで、en₁[b]及びen₂[b]は、サブバンドbのエネルギである。X₁[k]及びX₂[k]は２つのチャネル（例えば、ステレオの場合に左及び右チャネル）のFFT係数である。*は複素共役を表す。k_bはバンドbの開始ビンであり、k_b+1は隣接サブバンドb+1の開始ビンである。よって、k_bからk_b+1-1までのFFTの周波数ビン[k]はサブバンド[b]に相当する。

代替的に、FFTの夫々の周波数ビンについての２つのチャネルx₁及びx₂のエネルギは、

に従って計算される。ここで、en₁[b]及びen₂[b]は、夫々、第１及び第２のチャネルの周波数ビン[b]のエネルギであり、X₁[b]及びX₂[b]は、２つのチャネルのFFT係数である。*は複素共役を表す。この場合について、サブバンド[b]は、１つの周波数ビン[k]に直接対応し、周波数ビン[b]及び[k]は、厳密に同じ周波数ビンを表す。

として、第４のステップ315で、第１のチャネルx₁のエネルギの強平滑化されたバージョンen_{1_sm}[b,i]及び第２のチャネルx₂のエネルギの強平滑化されたバージョンen_{2_sm}[b,i]が決定され、第５のステップ319で、第１のチャネルx₁のエネルギの弱平滑化されたバージョンen_{1_sm_inst}[b,i]及び第２のチャネルx₂のエネルギの弱平滑化されたバージョンen_{2_sm_inst}[b,i]が決定される。ここで、SMW₁及びSMW₂は平滑化係数又は平滑化係数であり、SMW₁＞SMW₂。すなわち、SMW₁は強平滑化係数であり、SMW₂は弱平滑化係数である。iはフレームインデックスである。CLDの厳密な展開に従う実施形態において、SMW₂は０に設定される。

第６のステップ321で及び第７のステップ323で、チャネル間レベル差の強平滑化されたバージョンCLD及びチャネル間レベル差の弱平滑化されたバージョンCLD_instが、次のとおりに、夫々、強平滑化されたエネルギen_{1_sm}及びen_{2_sm}に及び弱平滑化されたエネルギen_{1_sm_inst}及びen_{2_sm_inst}に基づき、ビンごと又はサブバンドごとに計算される：

第８のステップ329で、ステレオイメージの安定性が、チャネル間レベル差の弱平滑化されたバージョンCLD_instに基づき計算される。実施形態において、安定性フラグは、特許公報“国際公開第２０１０／０７９１６７（Ａ１）号パンフレット”において記載される方法に従って決定される。すなわち、感度指標が計算される。感度指標は、現在のフレームがパケット損失に起因した長期予測（LTP）フィルタ状態におけるエラーにどの程度敏感であるかを予測する。感度指標は、式：

s＝0.5PG_LTP＋0.5PG_LTP,HP

に従って計算される。ここで、PG_LTPは、LPC（Linear Predictive Coding）（線形予測符号化）の残留信号r_LPCとLTP（Long Term Prediction）（長期予測）の残留信号r_LTPとのエネルギの比として測定される長期予測ゲインであり、PG_LTP,HPは：

PG_LTP,HP(n)＝PG_LTP(n)−PG_LTP(n-1)＋0.5PG_LTP,HP(n-1)

に従って一次ハイパスフィルタにPG_LTPを通すことによって取得される信号である。

感度指標は、LTP予測と同指標のハイパスバージョンとの組み合わせである。LTP予測ゲインは、それがLTP状態エラーを出力信号エラーと直接に関連づけるので、選択される。ハイパス部分は、信号変化に重きを置くよう加えられる。変化する信号は、エンコーダ及びデコーダにおけるLTP状態がたいがいパケット損失後に極めて異なるので、深刻なエラー伝播を与える高い危険性を有する。

感度指標は、ステレオイメージの安定性を示すフラグを出力する。比較ステップ331で、フラグは、０又は１であることを確認される。フラグが０に等しい場合（経路N）、ステレオイメージは安定しており、チャネル間レベル差CDLは、２つの連続したフレームの間で大きい変化を有さない。フラグが１に等しい場合（経路Y）、ステレオイメージは安定しておらず、これは、２つの連続したフレームの間のチャネル間レベル差CLDが非常に高速に変化することを意味する。

第９のステップ331で、前のステップ329から出力される安定性フラグが確認される。安定性フラグが１に等しい場合（経路Y）、メモリは第１０のステップ317で更新される。すなわち、強平滑化されたエネルギは、次のとおりに、弱平滑化されたエネルギによって更新される：

en_{1_sm}[b,i]＝en_{1_sm_inst}[b,i] 及び en_{2_sm}[b,i]＝en_{2_sm_inst}[b,i]

第１１のステップ333で、チャネル間レベル差の弱平滑化されたバージョンCLDは、最終の符号化パラメータCDLとして出力される。安定性フラグが０に等しい場合（経路N）、第１２のステップ335で、チャネル間レベル差の強平滑化されたバージョンCDLは、最終の符号化パラメータCDLとして出力される。

上記のステップ309、311及び313は、図１ｂに関して記載されたステップ101に対応するステップ301として表されてよい。上記のステップ315及び321は、図１ｂに関して記載されたステップ103bに対応するステップ303として表されてよい。上記のステップ317、319及び323は、図１ｂに関して記載されたステップ105bに対応するステップ305として表されてよい。上記のステップ329、331、333、及び335は、図１ｂに関して記載されたステップ107bに対応するステップ307として表されてよい。

図４は、実施形態に従って、パラメトリックオーディオエンコーダ400のブロック図を示す。パラメトリックオーディオエンコーダ400は、マルチチャネルオーディオ信号401を入力信号として受信し、ビットストリームを出力信号403として供給する。パラメトリックオーディオエンコーダ400は、符号化パラメータ415を生成するためにマルチチャネルオーディオ信号401へ結合されるパラメータ生成部405と、ダウンミックス信号411又は和信号を生成するためにマルチチャネルオーディオ信号401へ結合されるダウンミックス信号生成部407と、符号化オーディオ信号413を供給するようダウンミックス信号411を符号化するためにダウンミックス信号生成部407へ結合されるオーディオ符号化部409と、符号化パラメータ415及び符号化信号413からビットストリーム403を形成するようパラメータ生成部405及びオーディオ符号化部409へ結合される結合部417、例えば、ビットストリーム形成部とを有する。

パラメトリックオーディオエンコーダ400は、１つの単一オーディオチャネル、例えば、オーディオチャネルx₁，x₂，・・・，x_Mの間の“知覚的に関連した差（perceptually relevant differences）”を記述する付加的なパラメータを加えた入力オーディオチャネルのダウンミックス表現、のみを送信するステレオ及びマルチチャネルオーディオ信号のためのオーディオ符号化スキームを実施する。符号化スキームは、両耳キューがそれにおいて重要な役割を果たすので、両耳キュー符号化（BCC）に従う。図に示されるように、入力オーディオチャネルx₁，x₂，・・・，x_Mは、和信号とも表される１つの単一オーディオチャネル411へとダウンミックスされる。オーディオチャネルx₁，x₂，・・・，x_Mの間の“知覚的に関連した差”として、符号化パラメータ415、例えば、チャネル間時間差（ICTD）、チャネル間レベル差（ICLD）、及び／又はチャネル間コヒーレンス（ICC）は、周波数及び時間の関数として推定され、図５に表されるデコーダ500へサイド情報として送信される。

BCCを実施するパラメータ生成部405は、ある時間及び周波数分解能によりマルチチャネルオーディオ信号401を処理する。使用される周波数分解能は、聴覚系の周波数分解能によって大いに動機付けされる。心理音響学は、空間認知がたいがい音響入力信号の臨界バンド表示に基づくことを示唆する。この周波数分解能は、聴覚系の臨界バンド幅に等しいか又は比例するバンド幅を有するサブバンドによる反転フィルタバンクを使用することによって考えられる。送信される和信号411は、マルチチャネルオーディオ信号401の全ての信号成分を含むことが重要である。目標は、夫々の信号成分が十分に保たれることである。マルチチャネルオーディオ信号401のオーディオ入力チャネルx₁，x₂，・・・，x_Mの単純な合計は、しばしば、信号成分の増幅又は減衰を生じさせる。つまり、“単純な”和における信号成分の電力は、しばしば、夫々のチャネルx₁，x₂，・・・，x_Mの対応する信号成分の電力の和よりも大きいか又は小さい。従って、ダウンミックス技術は、和信号411における信号成分の電力がマルチチャネルオーディオ信号401の全ての入力オーディオチャネルx₁，x₂，・・・，x_Mにおける対応する電力と略等しいように和信号411をイコライズするダウンミキシング装置407を適用することによって、使用される。入力オーディオチャネルx₁，x₂，・・・，x_Mは、多数のサブバンドに分解される。１つのそのようなサブバンドは、X1[b]と表される（表記の簡単のために、サブバンドのインデックスは使用されない点に留意されたい。）。同様の処理が、全てのサブバンドに独立して適用され、通常、サブバンド信号はダウンサンプリングされる。夫々の入力チャネルの夫々のサブバンドの信号は足し合わされ、次いで、電力正規化係数を乗じられる。

和信号411を鑑みて、パラメータ生成部405は、ICTD、ICLD、及び／又はICCが原のマルチチャネルオーディオ信号401の対応するキューに近づくように、空間符号化パラメータ415を取り出す。

１つの発生源の両耳室内インパルス応答（BRIR）を考える場合に、聴覚事象及びリスナーエンベロップメント（listener envelopment）の幅と、両耳室内インパルス応答の前半及び後半部について推定されるICとの間の関係が存在する。しかし、BRIRはもちろん、IC又はICCと一般的な信号についてのそれらの特性との間の関係は直接的でない。ステレオ及びマルチチャネルオーディオ信号は、通常は、閉ざされた空間におけるレコーディングにより生じる反射信号成分を重畳されるか、又は空間的印象を人為的に作り出すためにレコーディングエンジニアによって付加される同時アクティブなソース信号の複雑な混合を含む。異なる音源信号及びそれらの反射は、時間−周波数面において異なる範囲を占有する。これは、時間及び周波数の関数として変化するICTD、ICLD、及びICCによって反映される。この場合に、瞬時的なICTD、ICLD、及びICCと聴覚事象方向と空間的印象との間の関係は自明でない。パラメータ生成部405の方策は、それらのキューを、それらが原のオーディオ信号の対応するキューに近づくように、無分別に取り出すことである。

実施形態において、パラメトリックオーディオエンコーダ400は、等価な矩形バンド幅に等しいか又はその２倍のバンド幅のサブバンドによるフィルタバンクを使用する。非公式の傾聴は、BCCのオーディオ品質が、より高い周波数分解能を選択する場合に、顕著に改善しなかったことを浮き彫りにした。より低い周波数分解能は、デコーダへ送信される必要があるICTD、ICLD、及びICCの値がより少なくて済み、よって、ビットレートをより低くできるので、好ましい。時間分解能に関して、ICTD、ICLD、及びICCは、規則的な時間間隔で考えられる。実施形態において、ICTD、ICLD、及びICCは、約４〜１６ミリ秒ごとに考えられる。キューが極めて短い時間間隔で考えられない限り、先行音効果は直接考えられない。

リファレンス信号と合成信号との間のしばしば達成される知覚的に小さい差は、広範な聴覚空間イメージ属性に関連するキューが、規則的な時間間隔でICTD、ICLD、及びICCを合成することで暗黙的に考えられることを暗示する。そのような空間キューの伝送に必要とされるビットレートは、たった数ｋｂ／ｓであり、よって、パラメトリックオーディオエンコーダ400は、ステレオ及びマルチチャネルオーディオ信号を、単一オーディオチャネルに必要とされるものに近いビットレートで送信することができる。図１ａ及び２は、ITDが符号化パラメータ415として推定される方法を説明する。図１ｂ及び３は、CLDが符号化パラメータ415として推定される方法を説明する。

パラメトリックオーディオエンコーダ400は、ダウンミックス信号411を取得するようマルチチャネルオーディオ信号401のオーディオチャネル信号のうちの少なくとも２つを重ね合わせるダウンミックス信号生成部407と、符号化オーディオ信号413を取得するようダウンミックス信号411を符号化するオーディオ符号化部409、特に、モノラルエンコーダと、符号化オーディオ信号413を対応する符号化パラメータ415と結合する結合部417とを有する。

パラメトリックオーディオエンコーダ400は、マルチチャネルオーディオ信号401の、x₁，x₂，・・・，x_Mとして表される複数のオーディオチャネル信号のうちの１つのオーディオチャネル信号について、符号化パラメータ415を生成する。オーディオチャネル信号x₁，x₂，・・・，x_Mの夫々は、x₁[n]，x₂[n]，・・・，x_M[n]として表されるデジタルオーディオチャネル信号値を有するデジタル信号であってよい。

パラメトリックオーディオエンコーダ400が符号化パラメータ415を生成する、例となるオーディオチャネル信号は、信号値x₁[n]を有する第１のオーディオチャネル信号x₁である。パラメータ生成部405は、第１のオーディオ信号x₁のオーディオチャネル信号値x₁[n]から及びリファレンスオーディオ信号x₂のリファレンスオーディオ信号値x₂[n]から符号化パラメータITDを決定する。

リファレンスオーディオ信号として使用されるオーディオチャネル信号は、例えば、第２のオーディオチャネル信号x₂である。同様に、オーディオチャネル信号x₁，x₂，・・・，x_Mのいずれか他の１つリファレンスオーディオ信号となってよい。第１の態様に従って、リファレンスオーディオ信号は、符号化パラメータ415が生成されるオーディオチャネル信号x₁と等しくない、オーディオチャネル信号のうちの他のオーディオチャネル信号である。

第２の態様に従って、リファレンスオーディオ信号は、複数のマルチチャネルオーディオ信号401の少なくとも２つのオーディオチャネル信号から導出される、例えば、第１のオーディオチャネル信号x₁及び第２のオーディオチャネル信号x₂から導出されるダウンミックスオーディオ信号である。実施形態において、リファレンスオーディオ信号は、ダウンミキシング装置407によって生成される和信号とも呼ばれるダウンミックス信号411である。実施形態において、リファレンスオーディオ信号は、エンコーダ409によって供給される符号化信号413である。

パラメータ生成部405によって使用される、例となるリファレンスオーディオ信号は、信号値x₂[n]を有する第２のオーディオチャネル信号x₂である。

パラメータ生成部405は、オーディオチャネル信号x₁のオーディオチャネル信号値x₁[n]の周波数変換と、リファレンスオーディオ信号x₁のリファレンスオーディオ信号値x₂[n]の周波数変換とを決定する。リファレンスオーディオ信号は、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x₂、又は複数のオーディオチャネル信号のうちの少なくとも２つのオーディオチャネル信号x₁，x₂から導出されるダウンミックスオーディオ信号である。パラメータ生成部405は、周波数サブバンドのサブセットの少なくとも夫々の周波数サブバンドについてチャネル間の差を決定する。夫々のチャネル間の差は、そのチャネル間の差が関連付けられる各々の周波数サブバンドにおける、オーディオチャネル信号の帯域制限された信号部分と、リファレンスオーディオ信号の帯域制限された部分との間の時間差ITD[b]又は位相差IPD[b]又はレベル差CLD[b]を示す。

チャネル間位相差（ICPD）は、信号対の間の平均位相差である。チャネル間レベル差（ICLD）は、両耳間レベル（ILD）、すなわち、左右の耳口にある信号の間の差と同じであるが、より一般的に、何らかの信号対、例えば、ラウドスピーカ対、耳口信号対、等の間で定義される。チャネル間コヒーレンス又はチャネル間相関は、両耳間コヒーレンス（IC）、すなわち、左右の耳口にある信号の間の類似度と同じであるが、より一般的に、何らかの信号対、例えば、ラウドスピーカ対、耳口信号対、等の間で定義される。チャネル間時間差（ICTD）は、ときどき両耳間時間遅延とも呼ばれる両耳間時間差、すなわち、左右の耳口にある信号の間の時間差と同じであるが、より一般的に、いずれかの信号対、例えば、ラウドスピーカ対、耳口信号対、等の間で定義される。サブバンド・チャネル間レベル差、サブバンド・チャネル間位相差、サブバンド・チャネル間コヒーレンス及びサブバンド・チャネル間強度差は、サブバンド帯域幅に関して上記のパラメータに関連する。

パラメータ生成部405は、図１ａ、１ｂ、２及び３に関して記載された方法のうちの１つを実施するよう構成される。

実施形態において、パラメータ生成部405は：
オーディオチャネル信号（x₁）について、オーディオチャネル信号（x₁）のオーディオチャネル信号値（x₁[n]）と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号（x₂）又は複数のマルチチャネルオーディオ信号の少なくとも２つのオーディオチャネル信号（x₁，x₂）から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号（x₂）のリファレンスオーディオ信号値（x₂[n]）とから、関数の組（c[b]）を決定する第１の決定部と、
マルチチャネルオーディオ信号のフレームシーケンス（i）に対する、第１の平滑化係数（SMW₁）に基づく関数の組（c[b]）の平滑化に基づき、第１の組の符号化パラメータ（ITD[b]，CLD[b]）を決定する第２の決定部と、
マルチチャネルオーディオ信号のフレームシーケンス（i）に対する、第２の平滑化係数（SMW₂）に基づく関数の組（c[b]）の平滑化に基づき、第２の組の符号化パラメータ（ITD_inst[b]，CLD_inst[b]）を決定する第３の決定部と、
第１の組の符号化パラメータ（ITD[b]，CLD[b]）及び／又は第２の組の符号化パラメータ（ITD_inst[b]，CLD_inst[b]）に対する品質基準に基づき、符号化パラメータ（ITD，CLD）を決定する符号化パラメータ決定部と
を有する。

図５は、実施形態に従って、パラメトリックオーディオデコーダ500のブロック図を示す。パラメトリックオーディオデコーダ500は、通信チャネル上で送信されたビットストリーム503を入力信号として受信し、復号されたマルチチャネルオーディオ信号501を出力信号として供給する。パラメトリックオーディオデコーダ500は、ビットストリーム503を符号化パラメータ515及び符号化信号513へと復号するためにビットストリーム503へ結合されるビットストリーム復号化部517と、符号化信号513から和信号511を生成するためにビットストリーム復号化部517へ結合される復号化部509と、符号化パラメータ515からパラメータ521を還元するためにビットストリーム復号化部517へ結合されるパラメータ分離部505と、パラメータ521及び和信号511から復号されたマルチチャネルオーディオ信号501を合成するためにパラメータ分離部505及び復号化部509と結合される合成部505とを有する。

パラメトリックオーディオデコーダ500は、チャネル間のICTD、ICLD、及び／又はICCが原のマルチチャネルオーディオ信号のそれらに近づくように、そのマルチチャネルオーディオ信号501の出力チャネルを生成する。記載されるスキームは、マルチチャネルオーディオ信号を、モノラルのオーディオ信号を表現するのに必要とされるものよりもわずかにのみ高いビットレートで表現することができる。そうであるのは、チャネル対の間の推定されるICTD、ICLD、及びICCがオーディオ波形よりも約２桁少ない情報を含むためである。低ビットレートのみならず後方互換性の側面も重要である。送信される和信号は、ステレオ又はマルチチャネル信号のモノラルダウンミックスに対応する。

図６は、実施形態に従って、パラメトリックステレオオーディオエンコーダ601及びデコーダ603のブロック図を示す。パラメトリックステレオオーディオエンコーダ601は、図４に関して記載されたパラメトリックオーディオエンコーダ400に対応するが、マルチチャネルオーディオ信号401は、左605及び右607オーディオチャネルによるステレオオーディオ信号である。

パラメトリックステレオオーディオエンコーダ601は、ステレオオーディオ信号605、607を入力信号として受信し、ビットストリームを出力信号609として供給する。パラメトリックオーディオエンコーダ400は、空間パラメータ613を生成するためにステレオオーディオ信号605、607へ結合されるパラメータ生成部611と、ダウンミックス信号617又は和信号を生成するためにステレオオーディオ信号605、607へ結合されるダウンミックス信号生成部615と、符号化オーディオ信号621を供給するようダウンミックス信号617を符号化するためにダウンミックス信号生成部615へ結合されるモノラル符号化部619と、出力信号609を供給するよう符号化パラメータ613及び符号化オーディオ信号621をビットストリームにまとめるようにパラメータ生成部611及びモノラル符号化部619へ結合されるビットストリーム結合部623とを有する。パラメータ生成部611において、空間パラメータ613は、ビットストリームにおいて多重化される前に、抽出され量子化される。

パラメトリックステレオオーディオデコーダ603は、ビットストリーム、すなわち、通信チャネル上で送信されたパラメトリックステレオオーディオエンコーダ601の出力信号609を入力信号として受信し、左チャネル625及び右チャネル627を有する復号されたステレオオーディオ信号を出力信号として供給する。パラメトリックステレオオーディオデコーダ603は、ビットストリーム609を符号化パラメータ631及び符号化信号633へと復号するために受信されたビットストリーム609へ結合されるビットストリーム復号化部629と、符号化信号633から和信号637を生成するためにビットストリーム復号化部629へ結合されるモノラル復号化部635と、符号化パラメータ631から空間パラメータ641を還元するためにビットストリーム復号化部629へ結合される空間パラメータ分離部639と、空間パラメータ641及び和信号637から復号されたステレオオーディオ信号625、627を合成するために空間パラメータ分離部639及びモノラル復号化部635と結合される合成部643とを有する。

パラメトリックステレオオーディオデコーダ603における処理は、空間パラメータ631、例えば、チャネル間時間差（ICTD）及びチャネル間レベル差（ICLD）を生成するよう、時間及び周波数において適応的に遅延を導入し且つオーディオ信号のレベルを変更することができる。更に、パラメトリックステレオオーディオデコーダ603は、チャネル間コヒーレンス（ICC）合成のために有効に時間適応フィルタリングを実行する。実施形態において、パラメトリックステレオエンコーダは、低い計算複雑性を有して有効に両耳キュー符号化（BCC）スキームを実施するために、短時間フーリエ変換（STFT）に基づきフィルタバンクを使用する。パラメトリックステレオオーディオエンコーダ601における処理は、低い計算複雑性及び低い遅延を有し、パラメトリックステレオオーディオ符号化を実時間の適用のためにマイクロプロセッサ又はデジタル信号プロセッサでの手頃な実施に適したものとする。

図６に表されるパラメータ生成部611は、空間キューの量子化及び符号化が加えられている点を除いて、図４に関して記載された対応するパラメータ生成部405と機能的に同じである。和信号617は、従来のモノラルオーディオコーダ619により符号化される。実施形態において、パラメトリックステレオオーディオエンコーダ601は、周波数領域においてステレオオーディオチャネル信号605、607を変換するために、STFTに基づく時間−周波数変換を使用する。STFTは、離散フーリエ変換（DFT）を入力信号x(n)の窓掛け部分に適用する。N個のサンプルの信号フレームは、N点DFTが適用される前に、長さWの窓を掛けられる。隣接する窓は重なり合い、W/2のサンプル分だけシフトされている。窓は、重なり合う窓が合計で１の一定値になるように選択される。従って、逆変換のために、更なる窓掛けの必要性はない。W/2のサンプル分の連続したフレームの時間前進を伴うサイズNの単純な逆DFTが、デコーダ603では使用される。スペクトルが変更されない場合は、完璧な再構成が、重ね／加算によって達成される。

STFTの一様なスペクトル分解能は人の知覚にうまく適応しないので、STFTの一様に間隔をあけられたスペクトル係数は、知覚により良く適応するバンド幅を有するB個の重なり合わないパーティションにグループ分けされる。１つのパーティションは、概念上、図４に関する記載に従う１つの“サブバンド”に対応する。代替の実施形態において、パラメトリックステレオオーディオエンコーダ601は、周波数領域においてステレオオーディオチャネル信号605、607を変換するために、非一様なフィルタバンクを使用する。

実施形態において、ダウンミキサ615は、

によって、イコライズされた和信号Sm(k)617の１つのパターンbの又は１つのサブバンドbのスペクトル係数を決定する。ここで、Xc,m(k)は入力オーディオチャネル605、607のスペクトルであり、eb(k)は、

として、パーティション電力推定

により計算されるゲイン係数である。

サブバンド信号の和の減衰が顕著である場合に、大きいゲイン係数により生じるアーティファクトを防ぐよう、ゲイン係数eb(k)は６デシベルに制限される。すなわち、eb(k)≦2。

パラメトリックステレオオーディオエンコーダ601及びデコーダ603の実施形態において、ITD情報（全帯域）のタイプは、遠隔のデコーダ603へ信号で伝えられる。実施形態において、タイプの信号伝達は、少なくとも１つのビットストリームにおいて運ばれる補助データを用いて暗黙的な信号伝達によって実行される。代替の実施形態において、信号伝達は、各々のビットストリームのタイプを示すフラグを用いて明示的な信号伝達によって実行される。実施形態において、暗黙的な信号伝達を有する第１の信号伝達オプションと、明示的な信号伝達を有する第２の信号伝達オプションとの間を切り替えることが可能である。暗黙的な信号伝達の実施形態では、フラグは、少なくとも１つの後方互換性のあるビットストリームの補助データにおける二次的なチャネル情報の存在を示す。レガシーデコーダは、フラグが存在するか否かを確認せず、後方互換性のあるビットストリームをただ復号するのみである。例えば、二次的なチャネルビットストリームの信号伝達は、AACビットストリームの補助データにおいて含まれてよい。更に、二次的なビットストリームがまた、AACビットストリームの補助データにおいて含まれてよい。その場合に、レガシーAACデコーダは、ビットストリームの後方互換性のある部分のみを復号し、補助データを捨てる。パラメトリックステレオオーディオエンコーダ601及びデコーダ603の実施形態において、そのようなフラグの存在は確認され、フラグが受信されたビットストリームにおいて存在する場合は、デコーダ603は、付加的な全帯域ITD情報に基づきマルチチャネルオーディオ信号を再構成する。

明示的な信号伝達の実施形態では、ビットストリームが、新しいレガシーでないエンコーダにより取得された新しいビットストリームであることを示すフラグが、使用される。レガシーデコーダは、如何にしてこのフラグを解釈すべきかを知らないので、ビットストリームを復号することができない。しかし、実施形態に従うデコーダ603は、後方互換性のある部分のみ又は完全なマルチチャネルオーディオ信号のいずれかを復号するための及び復号すると決定するための能力を備える。

そのような後方互換性の利点は、次のとおりに見られる。実施形態に従うデコーダ603を有するモバイル端末は、複雑性負荷が低くなるにつれて、内蔵電池のバッテリ寿命を節約するために、後方互換性のある部分を復号すると決定することができる。更に、レンダリングシステムに依存して、デコーダ603は、ビットストリームのどの部分を復号すべきかを決定することができる。例えば、ヘッドホンによるレンダリングのためには、受信信号の後方互換性のある部分で十分であり、一方、マルチチャネルオーディオ信号は、端末が、例えば、マルチチャネルレンダリング機能を備えたドッキングステーションへ接続される場合にのみ、復号される。

実施形態において、図１ａ、１ｂ、２及び３の１つに関して記載された方法は、ITU-T G.722、G.722 Annex B、G.711.1及び／又はG.711.1 Annex Dのステレオ拡張のエンコーダにおいて適用される。更に、実施形態において、図１ａ、１ｂ、２及び３の１つに関して記載された方法は、3GGP EVS（Enhanced Voice Services）コーデックにおいて定義されるモバイルアプリケーションのためのスピーチ及びオーディオエンコーダに適用される。

実施形態において、図１ａ、１ｂ、２及び３の１つに関して記載された方法は、聴覚情景解析に使用される。その場合に、ITD推定又はCLD推定の実施形態の１つは、空間イメージの特性を評価するために及びオーディオシーンにおける音源の位置を検出するために単独で又は組み合わせて使用される。

図７は、実施形態に従って、ITD選択アルゴリズムの概略図を示す。

第１のステップ701で、正のITD値の数Nb_posが、負のITD値の数Nb_negに対して確認される。Nb_posがNb_negよりも大きい場合は、ステップ703が実行され、Nb_posがNb_negよりも大きくない場合は、ステップ705が実行される。

ステップ703で、例えば、

（ITD_{std_pos}＜ITD_{std_neg}）||（Nb_pos＞＝A*Nb_neg）

に従って、正ITDの標準偏差ITD_{std_pos}が、負ITDの標準偏差ITD_{std_neg}に対して確認され、且つ、正のITD値の数が、第１の係数Aを乗じられた負のITD値Nb_negの数に対して確認される。ITD_{std_pos}＜ITD_{std_neg}）又はNb_pos＞A*Nb_negの場合は、ステップ707で、ITDは正ITDの平均として選択される。そうでない場合は、ステップ709で、正及び負のITFの間の関係が更に確認される。

ステップ709で、例えば、

（ITD_{std_neg}＜B*ITD_{std_pos}）

に従って、負ITDの標準偏差ITD_{std_neg}が、第２の係数Bを乗じられた正ITDの標準偏差ITD_{std_pos}に対して確認される。ITD_{std_neg}＜B* ITD_{std_pos}の場合は、ステップ715で、負ITDの平均の反対の値が、出力されるITDとして選択される。そうでない場合は、前のフレーム（Pre_itd）からのITDがステップ717で確認される。

ステップ717で、前のフレームからのITDは、例えば、“Pre_itd＞0”に従って、０よりも大きいことに関して確認される。Pre_itd＞0の場合は、ステップ723で、出力されるITDは正ITDの平均として選択され、そうでない場合は、ステップ725で、出力されるITDは負ITDの平均の反対の値である。

ステップ705で、例えば、

（ITD_{std_neg}＜ITD_{std_pos}）||（Nb_neg＞＝A*Nb_pos）

に従って、負ITDの標準偏差ITD_{std_neg}は、正ITDの標準偏差ITD_{std_pos}に対して確認され、かつ、負のITD値の数Nb_negは、第１の係数Aを乗じられた正のITD値の数Nb_posに対して確認される。ITD_{std_neg}＜ITD_{std_pos}又はNb_neg＞A*Nb_posの場合は、ステップ711で、ITDは負ITDの平均として選択される。そうでない場合は、ステップ713で、負及び正のITDの間の関係が更に確認される。

ステップ713で、例えば、

（ITD_{std_pos}＜B*ITD_{std_neg}）

に従って、正ITDの標準偏差ITD_{std_pos}が、第２の係数Bを乗じられた負ITDの標準偏差ITD_{std_neg}に対して確認される。ITD_{std_pos}＜B*ITD_{std_neg}の場合は、ステップ719で、正ITDの平均の反対の値が、出力されるITDとして選択される。そうでない場合は、前のフレーム（Pre_itd）からのITDがステップ721で確認される。

ステップ721で、前のフレームからのITDは、例えば、“Pre_itd＞0”に従って、０よりも大きいことに関して確認される。Pre_itd＞0の場合は、ステップ727で、出力されるITDは負ITDの平均として選択され、そうでない場合は、ステップ729で、出力されるITDは正ITDの平均の反対の値である。

相互スペクトルの強平滑化されたバージョンに基づくITD（ITD_mean）と、相互スペクトルの逆平滑化されたバージョンに基づくITD（ITD_{mean_inst}）との間の選択は、正ITD及び負ITDについて別個に取得される。最終的に、ITDに関する決定は、図７に記載されるように行われる。

上記から、様々な方法、システム、記録媒体上のコンピュータプログラム、及び同様のものが提供されることは、当業者に明らかであろう。

本開示はまた、実行される場合に、少なくとも１つのコンピュータに、ここで記載される実行及び計算ステップを実行させるコンピュータ実行可能コード又はコンピュータ実行可能命令を含むコンピュータプログラム製品をサポートする。

本開示はまた、ここで記載される実行及び計算ステップを実行するよう構成されるシステムをサポートする。

多くの代替、改良、及び変形は、上記の教示に照らして当業者に明らかであろう。当然、当業者は、ここで開示されているものを越えて本発明の多数の適用が存在すると容易に認識する。本発明は１又はそれ以上の特定の実施形態を参照して記載されてきたが、当業者は、多くの変更がそれらに対して、本発明の精神及び適用範囲を逸脱することなしになされてよいと認識する。従って、添付の特許請求の範囲及びそれらの均等の適用範囲内で、本発明は、ここで具体的に記載されているのとは別なふうに実施されてよい。

400 マルチチャネルオーディオエンコーダ
401 マルチチャネルオーディオ信号
403 ビットストリーム（出力信号）
405 パラメータ生成部
407 ダウンミックス信号生成部
409 オーディオ符号化部
411 ダウンミックス信号
413 符号化オーディオ信号
415 符号化パラメータ
417 結合部
500 パラメトリックオーディオデコーダ
501 マルチチャネルオーディオ信号
503 ビットストリーム（入力信号）
505 パラメータ分離部
507 合成部
509 復号化部
511 和信号
513 符号化信号
515 符号化パラメータ
517 ビットストリーム復号化部
521 パラメータ
601 パラメトリックステレオオーディオエンコーダ
603 パラメトリックステレオオーディオデコーダ
605 ステレオオーディオ信号（左チャネル）
607 ステレオオーディオ信号（右チャネル）
609 ビットストリーム
611 パラメータ生成部
613 空間パラメータ
615 ダウンミックス信号生成部
617 ダウンミックス信号
619 モノラル符号化部
621 符号化オーディオ信
623 ビットストリーム結合部
625 復号されたステレオオーディオ信号（左チャネル）
627 復号されたステレオオーディオ信号（右チャネル）
629 ビットストリーム復号化部
631 符号化パラメータ
633 符号化信号
635 モノラル復号化部
637 和信号
639 空間パラメータ分離部
641 空間パラメータ
643 合成部

第１の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第１のオーディオチャネル信号のための符号化パラメータを決定する方法であって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有する方法において、
前記第１のオーディオチャネル信号について、前記第１のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定するステップと、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第１の平滑化係数に基づく前記関数の組の平滑化に基づき、第１の組の符号化パラメータを決定するステップと、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第２の平滑化係数に基づく前記関数の組の平滑化に基づき、第２の組の符号化パラメータを決定するステップと、
前記第１の組の符号化パラメータ及び／又は前記第２の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定するステップと
を有する方法に関する。

第２の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第１のオーディオチャネル信号のための符号化パラメータを決定する方法であって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有する方法において、
前記第１のオーディオチャネル信号について、前記第１のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの少なくとも２つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定するステップと、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第１の平滑化係数に基づく前記関数の組の平滑化に基づき、第１の組の符号化パラメータを決定するステップと、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第２の平滑化係数に基づく前記関数の組の平滑化に基づき、第２の組の符号化パラメータを決定するステップと、
前記第１の組の符号化パラメータ及び／又は前記第２の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定するステップと
を有する方法に関する。

第１の態様に従う又は第２の態様に従う方法の第１の可能な実施形態において、前記関数の組を決定する前記ステップは、
前記第１のオーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定するステップと、
前記リファレンスオーディオ信号の前記リファレンスオーディオ信号値の周波数変換を決定するステップと、
周波数サブバンドのサブセットの少なくとも夫々の周波数サブバンドについて、相互スペクトル又は相互相関として前記関数の組を決定するステップと
を有し、
前記関数の組の夫々の関数は、前記関数の組の当該関数が関連付けられる各々の周波数サブバンドにおいて、前記第１のオーディオチャネル信号の帯域制限された信号部分と、前記リファレンスオーディオ信号の帯域制限された部分との間で計算される。

第３の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第１のオーディオチャネル信号のための符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有するマルチチャネルオーディオエンコーダにおいて、
前記第１のオーディオチャネル信号について、前記第１のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定する第１の決定部と、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第１の平滑化係数に基づく前記関数の組の平滑化に基づき、第１の組の符号化パラメータを決定する第２の決定部と、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第２の平滑化係数に基づく前記関数の組の平滑化に基づき、第２の組の符号化パラメータを決定する第３の決定部と、
前記第１の組の符号化パラメータ及び／又は前記第２の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定する符号化パラメータ決定部と
を有するマルチチャネルオーディオエンコーダに関する。

前記第４の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第１のオーディオチャネル信号のための符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有するマルチチャネルオーディオエンコーダにおいて、
前記第１のオーディオチャネル信号について、前記第１のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの少なくとも２つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定する第１の決定部と、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第１の平滑化係数に基づく前記関数の組の平滑化に基づき、第１の組の符号化パラメータを決定する第２の決定部と、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第２の平滑化係数に基づく前記関数の組の平滑化に基づき、第２の組の符号化パラメータを決定する第３の決定部と、
前記第１の組の符号化パラメータ及び／又は前記第２の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定する符号化パラメータ決定部と
を有するマルチチャネルオーディオエンコーダに関する。

第５の態様に従って、本発明は、コンピュータで実行される場合に、該コンピュータに、そのようなものとして第１の態様に従う若しくはそのようなものとして第２の態様に従う、又は第１の態様の上記の実施形態のいずれかに従う又は第２の態様の上記の実施形態のいずれかに従う方法を実行させるコンピュータプログラムに関する。

第６の態様に従って、本発明は、コンピュータで実行される場合に、該コンピュータに、そのようなものとして第１の態様に従う若しくはそのようなものとして第２の態様に従う、又は第１の態様の上記の実施形態のいずれかに従う又は第２の態様の上記の実施形態のいずれかに従う方法を実行させるコンピュータプログラムを含む、ストレージ、特にコンパクトディスクのような機械可読媒体に関する。

方法100aは、マルチチャネルオーディオ信号の複数のチャネル信号x₁，x₂のうちのオーディオチャネル信号x₁について、符号化パラメータITD、例えば、チャネル間時間差又は両耳間時間差を決定するためのものである。夫々のオーディオチャネル信号x₁，x₂は、オーディオチャネル信号値x₁[n]，x₂[n]を有する。方法100aは：
オーディオチャネル信号x₁について、オーディオチャネル信号x₁のオーディオチャネル信号値x₁[n]と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x₂又は複数のオーディオチャネル信号のうちの少なくとも２つのオーディオチャネル信号x₁，x₂から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号x₂のリファレンスオーディオ信号値x₂[n]とから、関数の組c[b]を決定するステップ101と、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第１の平滑化係数SMW₁に基づく関数の組c[b]の平滑化に基づき、第１の組の符号化パラメータITD[b]を決定するステップ103aと、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第２の平滑化係数SMW₂に基づく関数の組c[b]の平滑化に基づき、第２の組の符号化パラメータITD_inst[b]を決定するステップ105aと、
第１の組の符号化パラメータITD[b]及び／又は第２の組の符号化パラメータITD_inst[b]に対する品質基準に基づき、符号化パラメータITDを決定するステップ107aと
を有する。

方法100bは、マルチチャネルオーディオ信号の複数のチャネル信号x₁，x₂のうちのオーディオチャネル信号x₁について、符号化パラメータCLD、例えば、チャネル間レベル差を決定するためのものである。夫々のオーディオチャネル信号x₁，x₂は、オーディオチャネル信号値x₁[n]，x₂[n]を有する。方法100bは：
オーディオチャネル信号x₁について、オーディオチャネル信号x₁のオーディオチャネル信号値x₁[n]と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x₂又は複数のオーディオチャネル信号のうちの少なくとも２つのオーディオチャネル信号x₁，x₂から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号x₂のリファレンスオーディオ信号値x₂[n]とから、関数の組c[b]を決定するステップ101と、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第１の平滑化係数SMW₁に基づく関数の組c[b]の平滑化に基づき、第１の組の符号化パラメータCLD[b]を決定するステップ103bと、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第２の平滑化係数SMW₂に基づく関数の組c[b]の平滑化に基づき、第２の組の符号化パラメータCLD_inst[b]を決定するステップ105bと、
第１の組の符号化パラメータCLD[b]及び／又は第２の組の符号化パラメータCLD_inst[b]に対する品質基準に基づき、符号化パラメータCLDを決定するステップ107bと
を有する。

として、第４のステップ315で、第１のチャネルx₁のエネルギの強平滑化されたバージョンen_{1_sm}[b,i]及び第２のチャネルx₂のエネルギの強平滑化されたバージョンen_{2_sm}[b,i]が決定され、第５のステップ319で、第１のチャネルx₁のエネルギの弱平滑化されたバージョンen_{1_sm_inst}[b,i]及び第２のチャネルx₂のエネルギの弱平滑化されたバージョンen_{2_sm_inst}[b,i]が決定される。ここで、SMW₁及びSMW₂は平滑化係数であり、SMW₁＞SMW₂。すなわち、SMW₁は強平滑化係数であり、SMW₂は弱平滑化係数である。iはフレームインデックスである。CLDの厳密な展開に従う実施形態において、SMW₂は０に設定される。

第２の態様に従って、リファレンスオーディオ信号は、マルチチャネルオーディオ信号401の少なくとも２つのオーディオチャネル信号から導出される、例えば、第１のオーディオチャネル信号x₁及び第２のオーディオチャネル信号x₂から導出されるダウンミックスオーディオ信号である。実施形態において、リファレンスオーディオ信号は、ダウンミキシング装置407によって生成される和信号とも呼ばれるダウンミックス信号411である。実施形態において、リファレンスオーディオ信号は、エンコーダ409によって供給される符号化信号413である。

パラメータ生成部405は、オーディオチャネル信号x₁のオーディオチャネル信号値x₁[n]の周波数変換と、リファレンスオーディオ信号x₂のリファレンスオーディオ信号値x₂[n]の周波数変換とを決定する。リファレンスオーディオ信号は、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x₂、又は複数のオーディオチャネル信号のうちの少なくとも２つのオーディオチャネル信号x₁，x₂から導出されるダウンミックスオーディオ信号である。パラメータ生成部405は、周波数サブバンドのサブセットの少なくとも夫々の周波数サブバンドについてチャネル間の差を決定する。夫々のチャネル間の差は、そのチャネル間の差が関連付けられる各々の周波数サブバンドにおける、オーディオチャネル信号の帯域制限された信号部分と、リファレンスオーディオ信号の帯域制限された部分との間の時間差ITD[b]又は位相差IPD[b]又はレベル差CLD[b]を示す。

実施形態において、パラメータ生成部405は：
オーディオチャネル信号（x₁）について、オーディオチャネル信号（x₁）のオーディオチャネル信号値（x₁[n]）と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号（x₂）又は複数のオーディオチャネル信号のうちの少なくとも２つのオーディオチャネル信号（x₁，x₂）から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号（x₂）のリファレンスオーディオ信号値（x₂[n]）とから、関数の組（c[b]）を決定する第１の決定部と、
マルチチャネルオーディオ信号のフレームシーケンス（i）に対する、第１の平滑化係数（SMW₁）に基づく関数の組（c[b]）の平滑化に基づき、第１の組の符号化パラメータ（ITD[b]，CLD[b]）を決定する第２の決定部と、
マルチチャネルオーディオ信号のフレームシーケンス（i）に対する、第２の平滑化係数（SMW₂）に基づく関数の組（c[b]）の平滑化に基づき、第２の組の符号化パラメータ（ITD_inst[b]，CLD_inst[b]）を決定する第３の決定部と、
第１の組の符号化パラメータ（ITD[b]，CLD[b]）及び／又は第２の組の符号化パラメータ（ITD_inst[b]，CLD_inst[b]）に対する品質基準に基づき、符号化パラメータ（ITD，CLD）を決定する符号化パラメータ決定部と
を有する。

図５は、実施形態に従って、パラメトリックオーディオデコーダ500のブロック図を示す。パラメトリックオーディオデコーダ500は、通信チャネル上で送信されたビットストリーム503を入力信号として受信し、復号されたマルチチャネルオーディオ信号501を出力信号として供給する。パラメトリックオーディオデコーダ500は、ビットストリーム503を符号化パラメータ515及び符号化信号513へと復号するためにビットストリーム503へ結合されるビットストリーム復号化部517と、符号化信号513から和信号511を生成するためにビットストリーム復号化部517へ結合される復号化部509と、符号化パラメータ515からパラメータ521を還元するためにビットストリーム復号化部517へ結合されるパラメータ分離部505と、パラメータ521及び和信号511から復号されたマルチチャネルオーディオ信号501を合成するためにパラメータ分離部505及び復号化部509と結合される合成部507とを有する。

Claims

マルチチャネルオーディオ信号の複数のオーディオチャネル信号（x₁，x₂）のうちのオーディオチャネル信号（x₁）のための符号化パラメータ（ITD）を決定する方法（100）であって、夫々のオーディオチャネル（x₁，x₂）がオーディオチャネル信号値（x₁[n]，x₂[n]）を有する方法において、
当該オーディオチャネル信号（x₁）について、当該オーディオチャネル信号（x₁）のオーディオチャネル信号値（x₁[n]）と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号（x₂）又は前記複数のマルチチャネルオーディオ信号の少なくとも２つのオーディオチャネル信号（x₁，x₂）から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号（x₂）のリファレンスオーディオ信号値（x₂[n]）とから、関数の組（c[b]）を決定するステップ（101）と、
前記マルチチャネルオーディオ信号のフレームシーケンス（i）に対する、第１の平滑化係数（SMW₁）に基づく前記関数の組（c[b]）の平滑化に基づき、第１の組の符号化パラメータ（ITD[b]）を決定するステップ（103）と、
前記マルチチャネルオーディオ信号の前記フレームシーケンス（i）に対する、第２の平滑化係数（SMW₂）に基づく前記関数の組（c[b]）の平滑化に基づき、第２の組の符号化パラメータ（ITD_inst[b]）を決定するステップ（105）と、
前記第１の組の符号化パラメータ（ITD[b]）及び／又は前記第２の組の符号化パラメータ（ITD_inst[b]）に対する品質基準に基づき、前記符号化パラメータ（ITD）を決定するステップ（107）と
を有する方法。
前記関数の組（c[b]）を決定する前記ステップ（101）は、
当該オーディオチャネル信号（x₁）の前記オーディオチャネル信号値（x₁[n]）の周波数変換（X₁[k]）を決定するステップと、
前記リファレンスオーディオ信号（x₂）の前記リファレンスオーディオ信号値（x₂[n]）の周波数変換（X₂[k]）を決定するステップ（103）と、
周波数サブバンドのサブセットの少なくとも夫々の周波数サブバンド（b）について、相互スペクトル又は相互相関として前記関数の組（c[b]）を決定するステップ（105）と
を有し、
前記関数の組（c[b]）の夫々の関数は、前記関数の組（c[b]）の当該関数が関連付けられる各々の周波数サブバンド（b）において、前記オーディオチャネル信号の帯域制限された信号部分と、前記リファレンスオーディオ信号の帯域制限された部分との間で計算される、
請求項に１記載の方法。
周波数サブバンドは、１又は複数の周波数ビン（k）を有する、
請求項２に記載の方法（100）。
前記第１の組の符号化パラメータ（ITD[b]）及び前記第２の組の符号化パラメータ（ITD_inst[b]）は、チャネル間時間差（ITD[b]）及び／又はチャネル間レベル差（CLD[b]）を有するチャネル間の差（ICD[b]）を有する、
請求項１乃至３のうちいずれかに記載の方法（100）。
品質基準に基づき前記符号化パラメータ（ITD）を決定する前記ステップ（107）は、前記品質基準によって使用される安定性パラメータを決定するステップを有する、
請求項１乃至４のうちいずれかに記載の方法（100）。
前記符号化パラメータ（ITD，CLD）を決定する前記ステップ（107）は、
前記周波数シーケンス（i）に対する前記第２の組の符号化パラメータ（ITD_inst[b]，CLD_inst[b]）の連続する値の間の比較に基づき前記第２の組の符号化パラメータ（ITD_inst[b]，CLD_inst[b]）の安定性パラメータを決定するステップと、
前記安定性パラメータに依存して前記符号化パラメータ（ITD，CLD）を決定するステップと
を有する、請求項５に記載の方法（100）。
前記安定性パラメータは、前記第２の組の符号化パラメータ（ITD_inst[b]，CLD_inst[b]）の標準偏差（ITD_inst_std）に少なくとも基づく、
請求項５に記載の方法（100）。
前記安定性パラメータは、前記マルチチャネルオーディオ信号の１つのフレームにわたって又は複数のフレームにわたって決定される、
請求項６又は請求項７に記載の方法（100）。
前記符号化パラメータ（ITD，CLD）を決定する前記ステップは、前記安定性パラメータの閾値の交差に基づき決定される、
請求項６、請求項７又は請求項８に記載の方法（100）。
前記安定性パラメータが前記閾値を交差する場合に、前記第２の組の符号化パラメータ（ITD_inst[b]，CLD_inst[b]）により前記第１の組の符号化パラメータ（ITD[b]，CLD[b]）を更新するステップを更に有する
請求項９に記載の方法（100）。
第１及び第２の平滑化係数（SMW₁，SMW₂）に基づく前記関数の組（c[b]）の前記平滑化は、前記第１及び前記第２の平滑化係数（SMW₁，SMW₂）に基づく第１の係数を乗じられた前記関数の組並びに前記第１及び前記第２の平滑化係数（SMW₁，SMW₂）に基づく第２の係数を乗じられた前記関数の組（c[b]）の第１及び第２の平滑化されたバージョンのメモリ状態の足し算として計算される、
請求項１乃至１０のうちいずれかに記載の方法（100）。
前記安定性パラメータが前記閾値を交差する場合に、前記関数の組（c[b]）の前記第２の平滑化されたバージョンのメモリ状態により前記関数の組（c[b]）の前記第１の平滑化されたバージョンのメモリ状態を更新するステップを更に有する
請求項１１に記載の方法（100）。
前記第１の平滑化係数（SMW₁）は、前記第２の平滑化係数（SMW₂）よりも高い、
請求項１乃至１２のうちいずれかに記載の方法（100）。
マルチチャネルオーディオ信号の複数のオーディオチャネル信号（x₁，x₂）のうちのオーディオチャネル信号（x₁）のための符号化パラメータ（ITD）を決定するマルチチャネルオーディオエンコーダ（400）であって、夫々のオーディオチャネル（x₁，x₂）がオーディオチャネル信号値（x₁[n]，x₂[n]）を有するマルチチャネルオーディオエンコーダにおいて、
当該オーディオチャネル信号（x₁）について、当該オーディオチャネル信号（x₁）のオーディオチャネル信号値（x₁[n]）と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号（x₂）又は前記複数のマルチチャネルオーディオ信号の少なくとも２つのオーディオチャネル信号（x₁，x₂）から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号（x₂）のリファレンスオーディオ信号値（x₂[n]）とから、関数の組（c[b]）を決定する第１の決定部と、
前記マルチチャネルオーディオ信号のフレームシーケンス（i）に対する、第１の平滑化係数（SMW₁）に基づく前記関数の組（c[b]）の平滑化に基づき、第１の組の符号化パラメータ（ITD[b]）を決定する第２の決定部と、
前記マルチチャネルオーディオ信号の前記フレームシーケンス（i）に対する、第２の平滑化係数（SMW₂）に基づく前記関数の組（c[b]）の平滑化に基づき、第２の組の符号化パラメータ（ITD_inst[b]）を決定する第３の決定部と、
前記第１の組の符号化パラメータ（ITD[b]）及び／又は前記第２の組の符号化パラメータ（ITD_inst[b]）に対する品質基準に基づき、前記符号化パラメータ（ITD）を決定する符号化パラメータ決定部と
を有するマルチチャネルオーディオエンコーダ。
コンピュータで実行される場合に請求項１乃至１３のうちの一項に記載の方法を実行するプログラムコードを含むコンピュータプログラム。