JP2009522895A

JP2009522895A - バイノーラルオーディオ信号の復号

Info

Publication number: JP2009522895A
Application number: JP2008549032A
Authority: JP
Inventors: パスィオヤラ; ユリアトゥルク; マウリヴァーナネン; ミッコタミ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2006-01-09
Filing date: 2007-01-04
Publication date: 2009-06-11
Also published as: US20070160219A1; EP1972180A4; US20070160218A1; KR20080074223A; TW200746871A; BRPI0706306A2; CA2635024A1; JP2009522894A; WO2007080211A1; RU2008126699A; RU2409911C2; BRPI0722425A2; EP1971979A1; KR20080078882A; RU2409912C2; CN101366321A; CN101366081A; KR20110002491A; RU2008127062A; RU2409912C9

Abstract

バイノーラルオーディオ信号を合成するための方法であって、本方法は、複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含むパラメトリック符号化されたオーディオ信号を入力することと、バイノーラルオーディオ信号を合成するために、対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用することと、を含む。
【選択図】図３

Description

本発明は、空間オーディオ符号化（Spatial Audio Coding）に関し、より具体的には、バイノーラルオーディオ信号（Binaural Audio Signal）の復号に関する。

関連出願

本出願は、2006年1月9日に出願された国際出願第PCT/FI2006/050014号、2006年1月17日に出願された米国出願第11/334,041号、および2006年2月13日に出願された米国出願第11/354,211号に基づく優先権を主張する。

発明の背景

空間オーディオ符号化において、異なるオーディオチャンネル上で再生されるべきオーディオ信号がそれぞれ異なることにより、２チャンネル／マルチチャンネルオーディオ信号を処理することによって、音源周辺の空間効果の印象がリスナーにもたらされる。空間効果は、マルチチャンネルまたはバイノーラル再生の適切なフォーマットに直接オーディオを録音することによって生成可能である。あるいは、空間効果は、いかなる２チャンネル／マルチチャンネルオーディオ信号においても人工的に生成可能であり、空間化（Spatialization）として知られている。

ヘッドフォンの再生に関し、リスナーの左耳および右耳用のバイノーラル信号を生成する頭部伝達関数（Head Related Transfer Function; HRTF）フィルタリングによって、人工的に空間化を行うことができることは一般的に知られている。音源信号は、その音源の方向に対応するHRTFから得られるフィルタでフィルタリングされる。HRTFは、自由音場における音源から人間の耳または人工の頭部まで測定される伝達関数であり、頭部と置換され、かつ頭部の中に配置されるマイクに対する伝達関数によって割られる。人工的室内効果（例えば、早期反射および／または後期残響）を空間化信号に加えることによって、音源の外在化（Externalization）および自然性（Naturalness）を改善できる。

多種多様なオーディオ聴音装置および相互作用装置が増加するにつれ、その互換性がより重要になってきた。空間オーディオフォーマットにおいては、アップミックス（upmix）およびダウンミックス（downmix）技術によって互換性を追求している。Dolby Digital^(r)およびDolby Surround^(r)などのステレオフォーマットにマルチチャンネルオーディオ信号を変換し、さらに、ステレオ信号をバイノーラル信号に変換するためのアルゴリズムが存在することは一般的に知られている。しかしながら、このような処理において、元のマルチチャンネルオーディオ信号の空間イメージは、完全には再生できない。ヘッドフォンリスニングのためのマルチチャンネルオーディオ信号を変換する改善方法として、HRTFフィルタリングを使用することによって元のスピーカを仮想スピーカに置換し、それら（例えば、Dolby Headphone^(r)）を介してスピーカチャンネル信号を再生することが挙げられる。しかしながら、この処理は、バイノーラル信号生成に関し、常にマルチチャンネルミックスを最初に必要とするという不利点を有する。つまり、マルチチャンネル（例えば、5+1チャンネル）信号が、最初に復号および合成され、続いてバイノーラル信号を生成するためにHRTFが各信号に適用される。これは、圧縮されたマルチチャンネルフォーマットからバイノーラルフォーマットに直接復号することに比べ、計算的に重いアプローチになる。

バイノーラルキュー符号化（Binaural Cue Coding; BCC）は、高度なパラメトリック空間オーディオ符号化方法である。BCCは、単一の（またはいくつかの）ダウンミックスされたオーディオチャンネルと、オリジナルの信号からの周波数および時間の関数として推定された１組の知覚関連のチャンネル間差として、空間マルチチャンネル信号を表現する。この方法によって、任意のスピーカ配置が、同数または異なる数のスピーカを含むその他のいかなるスピーカ配置にも変換されるようにミックスされた空間オーディオ信号が可能になる。

従って、BCCは、マルチチャンネルスピーカシステムのために設計される。しかしながら、BCC処理されたモノラル信号およびそのサイド情報からバイノーラル信号を生成する場合、モノラル信号およびサイド情報に基づいてマルチチャンネル表現がまず合成された後に、そのマルチチャンネル表現から空間ヘッドフォン再生のためのバイノーラル信号が生成可能となりうる。このアプローチであっても、バイノーラル信号生成を考慮すると、最適化されていないことは明らかである。

発明の摘要

バイノーラル信号の生成が、パラメトリック符号化されたオーディオ信号から直接可能になるように改良された方法と、その方法を実行する技術装置が発明される。本発明の種々の側面は、復号方法、復号器、装置、およびコンピュータプログラムを含み、これらは、以下に一般的且つ詳細に開示される事項よって特徴付けられる。本発明の種々の実施形態についても開示される。

第１の側面によると、本発明に従う方法は、バイノーラルオーディオ信号を合成する次のような概念に基づく。まず、複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含むパラメトリック符号化されたオーディオ信号を、入力する。この少なくとも１つの結合信号は、複数のサブ帯域に分割され、サブ帯域のパラメータ値はサイド情報の組によって決定される。次に、バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用する。

実施形態によっては、前記パラメータ値は、前記サイド情報の組によって提供される次の及び前のパラメータ値へ、特定のサブ帯域に対応するパラメータ値を補間することによって決定される。

実施形態によっては、前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルスピーカ配置の各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組が、選択され適用される。

実施形態によっては、前記サイド情報の組は、オリジナルの音響イメージを表現する、前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む。

実施形態によっては、オリジナルのマルチチャンネルオーディオの推定利得を、時間および周波数の関数として決定し、各利得値の二乗の和が１に等しくなるように、スピーカチャンネル毎の前記利得を調整する。

実施形態によっては、前記頭部伝達関数フィルタを適用する前に、QMFサブ帯域、等価方形幅（Equivalent Rectangular Bandwidth; ERB）の複数のサブ帯域、心理音響学的に導かれた複数のサブ帯域、のいずれかのサブ帯域に、前記少なくとも１つの結合信号を分割する。

実施形態によっては、前記パラメータ値は、少なくとも１つのサブ帯域の利得値である。

マルチチャンネル実施形態によっては、サブ帯域の利得値を決定するステップは、オリジナルの音響イメージを表現するマルチチャンネルオーディオの各チャンネル信号の利得値を決定することと、複数のサブ帯域のための単一の利得値を、前記各チャンネル信号の利得値から補間することと、を含む。

実施形態によっては、サブ帯域のバイノーラル信号の周波数領域における表現は、前記少なくとも１つの結合信号に、少なくとも１つの利得値と所定の頭部伝達関数フィルタを乗ずることにより得られる。

本発明に従う構成により有意な利点がもたらされる。主な利点は、復号処理の簡素化および計算複雑性の低下である。また、復号器は、符号化器が提供する空間および符号化パラメータに基づいてバイノーラル合成を完全に実行するという点において、柔軟性を有する。さらに、オリジナルの信号と同等の空間性が変換において維持される。サイド情報に関しては、オリジナルミックスの推定利得の組で十分である。より重要なことに、本発明により、パラメトリックオーディオ符号化においてもたらされる圧縮中間状態の活用の強化が可能になり、オーディオの伝送および保存における効果が改善される。サイド情報からサブ帯域の利得値が決定されるとすれば、ある周波数帯域から他の周波数帯域にかけての利得値の変化が緩やかになることにより、バイノーラル出力信号の品質が改善されうる。また、フィルタリング処理が著しく簡略化される。

本発明のさらなる側面は、上記方法の発明ステップを実行するように構成された種々の装置を含む。

発明の実施形態の詳細な説明

以下において、本発明の種々の実施形態について、添付の図面を参照してより詳細に説明する。

バイノーラルキュー符号化（Binaural Cue Coding; BCC）を、実施形態に従う復号スキームを実行するための例示的な基盤として言及することによって、本発明を以下に説明する。しかしながら、本発明は、BCC型の空間オーディオ符号化方法だけに限定されず、１つ以上のオーディオチャンネルの組のオリジナルから結合された少なくとも１つのオーディオ信号と、適切な空間サイド情報とが用意される、いかなるオーディオ符号化スキームにおいても実行可能であることに留意されたい。

バイノーラルキュー符号化（Binaural Cue Coding; BCC）は、空間オーディオのパラメータ表現に関する一般概念であり、単一のオーディオチャンネルといくつかのサイド情報から任意の数のチャンネルを有するマルチチャンネル出力を提供するものである。図１は、本概念を示す。いくつかの入力オーディオチャンネル（M）は、ダウンミックス処理によって単一出力（S;「サム」）信号に結合される。並行して、マルチチャンネル音響イメージを表現する最重要なチャンネル間キューが、入力チャンネルから抽出され、BCCサイド情報（BCC side information）としてコンパクトに符号化される。次に、サム信号およびサイド情報は、例えばサム信号を符号化するための適切な低ビットレートオーディオ符号化スキームを使用して受信側に伝送される。最終的に、BCC復号器は、チャンネル間時間差（Inter-channel Time Difference; ICTD）、チャンネル間レベル差（Inter-channel Level Difference; ICLD）、およびチャンネル間コヒーレンス（Inter-channel Coherence; ICC）などの関連チャンネル間キューを有するチャンネル出力信号を再合成することによって、伝送されたサム信号および空間キュー情報から、スピーカのマルチチャンネル出力信号（N）を生成する。従って、BCCサイド情報、つまりチャンネル間キューは、特にスピーカ再生のためのマルチチャンネルオーディオ信号の復元の最適化を考慮して選択される。

２つのBCCスキームが存在する。１つは、受信側でレンダリングする目的で多数の異なる音源信号を伝送する、フレキシブルレンダリング（Flexible Rendering）に関するBCC（I型BCC）であり、もう１つは、ステレオまたはサラウンド信号の多数のオーディオチャンネルを伝送する、ナチュラルレンダリング（Natural Rendering）（II型BCC）に関するBCCである。フレキシブルレンダリングに関するBCCは、複数の異なる音源信号（例えば、スピーチ信号、別々に録音された楽器、マルチトラック録音）を入力として使用する。ナチュラルレンダリングに関するBCCは、「完全にミックスされた（final mix）」ステレオまたはマルチチャンネル信号（例えば、CDオーディオ、DVDサラウンド）を入力として使用する。これらの処理が、従来の符号化技術によって実行される場合、ビットレートは、オーディオチャンネルの数に比例して、または少なくともほぼ比例して増減する。例えば、5.1マルチチャンネルシステムの6つのオーディオチャンネルを伝送するには、１つのオーディオチャンネルの約6倍のビットレートが必要になる。しかしながら、BCCサイド情報は非常に低いビットレート（例えば、2kb/s）しか必要としないため、両BCCスキームのビットレートは、結果的に、１つのオーディオチャンネルの伝送に必要なビットレートよりも若干高くなるだけである。

図２は、BCC合成スキームの一般構造を示す。伝送されたモノラル信号（"Sum"）は、まず、時間領域において窓掛けが行なわれてフレームに分割され、次に、高速フーリエ変換（Fast Fourier Transform; FFT）処理およびフィルタバンク（filterbank; FB）によって、適切なサブ帯域の空間表現にマップされる。再生チャンネルの一般的場合において、ICLDおよびICTDは、対のチャンネル間、つまり、参照チャンネルに対する各チャンネルの各サブ帯域において考慮される。サブ帯域は、十分高い周波数分解能が達成されるように選択される。例えば、等価方形幅（Equivalent Rectangular Bandwidth; ERB）スケールの2倍に等しいサブ帯域幅が一般的に適切であると考えられる。生成される出力チャンネル毎に、個々の時間遅延ICTDおよびレベル差ICLDが、スペクトル係数に課され、その後、コヒーレンス合成処理により、合成されたオーディオチャンネル間のコヒーレンスおよび／または相関（ICC）に関する最重要側面を再導入する。最終的に、合成された全出力チャンネルは、IFFT処理（逆FFT）によって時間領域表現に再び変換され、マルチチャンネル出力をもたらす。BCCアプローチに関するさらに詳しい説明は、下記非特許文献1及び２を参照されたい。
F. Baumgarte and C. Faller: "Binaural Cue Coding - Part I: Psy-choacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003 C. Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003

BCCは、符号化スキームの一例であり、この符号化スキームにより、実施形態に従う復号スキームを実行するための適切な基盤が提供される。ある実施形態に従うバイノーラル復号器は、モノラル化信号およびサイド情報を入力として受信する。この概念は、元のミックス状態における各スピーカを、リスニング位置に対するスピーカの方向に対応するHRTFの組に置換することである。モノラル化信号における各周波数チャンネルは、利得値の組によって決定付けられる割合でHRTFを実行する各対のフィルタに渡される。この利得値は、サイド情報に基づき計算可能である。その結果、この処理は、バイノーラルオーディオシーンにおいて、元のスピーカに対応する１組の仮想スピーカを実装するものとして考えられることが可能である。従って、本発明は、種々のスピーカ配置のマルチチャンネルオーディオ信号の他に、いかなる中間BCC合成処理もせずに、パラメトリック符号化された空間オーディオ信号から直接にバイノーラルオーディオ信号を導き出すことを可能にすることによって、BCCに価値を加える。

本発明のいくつかの実施形態について、図３を参照して以下に説明する。図３は、本発明のある側面に従うバイノーラル復号器のブロック図を示す。復号器300は、モノラル化信号の第１の入力302と、サイド情報の第２の入力304とを含む。入力302、304は、実施形態を説明する上でそれぞれ異なる入力として示されるが、当業者は、実際の実装において、モノラル化信号およびサイド情報が同一の入力によって供給可能であることを理解されたい。

実施形態によっては、サイド情報は、BCCスキームと同じチャンネル間キュー、つまり、チャンネル間時間差（Inter-channel Time Difference; ICTD）、チャンネル間レベル差（Inter-channel Level Difference; ICLD）、およびチャンネル間コヒーレンス（Inter-channel Coherence; ICC）を含む必要はなく、その代わりに、各周波数帯域における元のミックス状態におけるチャンネル間の音圧分布を規定する推定利得の組のみで十分である。推定利得の他に、サイド情報は、元のミックス状態におけるスピーカの数およびリスニング位置に対する位置、ならびに使用されたフレーム長を含むことが好ましい。実施形態によっては、サイド情報の一部として推定利得を符号化器から伝送する代わりに、推定利得は、BCCスキームのチャンネル間キュー、例えば、ICLDから復号器において計算される。

復号器300は、窓掛け部306をさらに備え、ここで、モノラル化信号は、まず、使用されたフレーム長の時間フレームに分割され、次に、フレームに窓掛けが適切に行なわれる（例えば、サイン窓）。適切なフレーム長を調整することによって、フレームが、離散フーリエ変換（discrete Fourier-transform; DFT）のために十分長くなるようにし、また同時に、信号の急速な変化を管理するために十分短くなるようにするべきである。実験によると、適切なフレーム長は約50msである。従って、44.1kHzのサンプリング周波数（種々のオーディオ符号化スキームで通常使用される）を使用する場合、フレームは、例えば、46.4msのフレーム長をもたらす2048個のサンプルを含むことができる。窓掛けは、スペクトル変形（レベルおよび遅延）による遷移を円滑化するために、隣接する窓が50%重複するように実行することが好ましい。

その後、窓掛けされたモノラル化信号は、FFT部308において周波数領域に変換される。効果的に計算するために、処理は周波数領域において実行される。信号処理の前回のステップを実際の復号器300の外部で実行してもよいこと、つまり、窓掛け部306およびFFT部308は、この復号器が実装される装置側に実装されてもよく、処理されるモノラル化信号は、復号器に供給される際には既に窓掛けされ、周波数領域に変換されてもよいことを、当業者は理解するだろう。

周波数領域化された信号を効率的に計算するために、信号は、フィルタバンク310に導かれ、フィルタバンク310は、心理音響学的に導かれた周波数帯域に信号を分割する。実施形態によっては、フィルタバンク310は、一般的に認知される等価方形幅（Equivalent Rectangular Bandwidth; ERB）スケールに従い32個の周波数帯域に信号を分割し、結果的に、その32個の周波数帯域に信号成分x₀、…、x₃₁をもたらすように構成するように設計される。

復号器300は、事前に保存された情報としてHRTF312、314の組を含み、ここから各スピーカ方向に対応する左右の組のHRTFが選択される。説明上、図３には2組のHRTF312、314が描かれており、一方の組は左側信号であり、他方の組は右側信号であるが、実際の実装において、１組のHRTFでも十分であることは明らかである。選択された左右の組のHRTFを、各スピーカチャンネルのオーディオレベルに対応するように調整するためには、利得値Gを推定することが好ましい。上述のように、推定利得は符号化器から受信したサイド情報に含めてもよく、あるいは、BCCサイド情報に基づき復号器において計算してもよい。利得は、時間および周波数の関数としてスピーカチャンネル毎に推定されるが、元のミックス状態における利得レベルを維持するために、スピーカチャンネル毎の利得を調整して、各利得値の二乗の合計が１に等しくすることが好ましい。これにより、仮想的に生成されるチャンネルの数がN個である場合、符号化器から伝送する必要がある推定利得はN-1個だけであり、不足利得値をN-1個の利得値に基づき計算可能である、という利点がもたらされる。しかしながら当業者は、本発明の動作において、復号器は、各利得値の二乗の合計を１に等しくなるように調整する必要は必ずしもないが、合計を１に等しくするように利得値の二乗を増減可能であることを理解されたい。

次に、HRTFフィルタ312、314の左右の組の各々を、利得Gの組によって決定される割合で調整し、HRTFフィルタ312'、314'を得る。実際には、元のHRTFフィルタの大きさ312、314は、利得値に応じて単に増減されるだけであるが、実施形態を説明する上で、HRTF312'、314'の組が図３において「付加的に」示されていることを再び留意されたい。

各周波数帯域について、モノラル信号成分x₀、…、x₃₁が、調整されたHRTFフィルタ312'、314'の各左右の組に提供される。次に、左側信号および右側信号のフィルタ出力は、両バイノーラルチャンネルの加算部316、318において加算される。加算されたバイノーラル信号は、再びサイン窓掛けが行なわれ、IFFT部320、322で実行される逆FFT処理によって、時間領域に再び変換される。分析フィルタが１つの信号にまとめない場合、あるいはその位相応答が線形でない場合、適切な合成フィルタバンクを使用して、最終的なバイノーラル信号B_RおよびB_Lにおける歪みを回避することが好ましい。

実施形態によっては、バイノーラル信号の外在化、つまり頭外定位を向上させるために、適度な室内応答をバイノーラル信号に加えることが可能である。そのために、復号器は、残響部を備えてもよい。この残響部は、加算部316、318とIFFT部320、322の間に位置することが好ましい。付加された室内応答は、スピーカリスニング状況における室内効果を模倣する。しかしながら、必要とされる残響時間は、計算複雑性が顕著に増加しないように十分短くする。

また、図３のバイノーラル復号器300によって、ステレオダウンミックス復号という特別の例が可能になる。この場合、空間イメージは狭められる。上記実施形態において、調整可能な各HRTFフィルタ312、314は、利得値に応じて単に増減されていたが、その利得値が既定の利得に置換されるように、復号器300の動作を修正する。従って、モノラル化信号は、サイド情報に基づいて計算された利得値の組を乗じた単一の利得を含む、コンスタントなHRTFフィルタによって処理される。結果的に、空間オーディオは、ステレオ信号にダウンミックスされる。この特別の例により、空間オーディオを復号することなく、空間サイド情報を使用して結合信号からステレオ信号を生成できるという利点がもたらされる。従って、ステレオ復号の手順が従来のBCC合成よりも簡素化される。バイノーラル復号器300の構造は、調整可能なHRTFフィルタ312、314がステレオダウンミックスのための既定の利得を有するダウンミックスフィルタと置換されること以外は、図３と同じである。

バイノーラル復号器が、HRTFフィルタ、例えば、5.1サラウンドオーディオ構成を備える場合、ステレオダウンミックス復号の特別の例について、HRTFフィルタのコンスタントな利得は、例えば、表1に規定される。

本発明に従う構成により有意な利点がもたらされる。主な利点は、復号処理の簡素化および計算複雑性の低下である。また、復号器は、符号化器が提供する空間および符号化パラメータに基づいてバイノーラルアップミックスを完全に実行するという点において、柔軟性を有する。さらに、元の信号について同等の空間性が変換において維持される。サイド情報に関しては、元のミックスにおける推定利得の組で十分である。オーディオの伝送または保存の観点から見ると、最も有意な利点は、パラメトリックオーディオ符号化においてもたらされる圧縮中間状態を利用する際の効率改善によって得られる。

HRTFは個々の差が大きく平均化が不可能であるため、完全な再空間化（re-spatialization）は、リスナー独自のHRTF組を測定することによってのみ達成されうることを、当業者は理解しているだろう。従って、HRTFの使用により信号は必然的にゆがみ、処理されたオーディオの質が、元の質と同等でなくなる。しかしながら、各リスナーのHRTFを測定することは非現実的な選択であるため、モデル化された組あるいは人頭模型または平均サイズおよび顕著な対称性を有する頭部を有する者から測定された組を使用する際に、最善の結果が達成される。

前述のように、実施形態によっては、推定利得は、符号化器から受信するサイド情報に含まれてもよい。結果的に、本発明のある側面は、マルチチャンネル空間オーディオ信号の符号化器に関し、この符号化器は、周波数および時間の関数としてスピーカチャンネル毎の利得を推定し、１つ（または複数の）結合チャンネル上で伝送されるサイド情報に推定利得を含める。符号化器は、例えば、既知のBCC符号化器であってもよく、この符号化器は、マルチチャンネル音響イメージを表現するチャンネル間キューであるICTD、ICLD、およびICCに付加的にまたは代替的に、推定利得を計算するようにさらに構成される。次に、サム信号および推定利得を少なくとも含むサイド情報は、好ましくは、サム信号を符号化する適切な低ビットレートオーディオ符号化スキームを使用して受信側に伝送される。

実施形態によっては、符号化器において推定利得を計算する場合、その計算は、個々のチャンネル毎の利得レベルを、結合チャンネルの累積利得レベルと比較することによって実行される。つまり、利得レベルをX、元のスピーカ配置における個々のチャンネルを「m」、サンプルを「k」とする場合、チャンネル毎の推定利得は│X_m(k)│/│X_SUM(k)│で計算される。従って、推定利得は、全チャンネルの全ての利得の大きさと比較して、個々のチャンネル毎の利得の大きさを比例的に決定する。

実施形態によっては、BCCサイド情報に基づき復号器において推定利得を計算する場合、その計算は、例えば、チャンネル間レベル差（ICLD）の値に基づき実行されてもよい。従って、仮想的に生成される「スピーカ」の数をN個とする場合、N-1個の未知変数を含むN-1個の数式を、ICLD値に基づきまず作成する。次に、各スピーカ数式の二乗の和を１に等しくなるように設定することによって、１つの独立チャンネルの推定利得を解くことが可能になり、その解かれた推定利得に基づいて、残りの推定利得をN-1個の数式から解くことができる。

例えば、仮想的に生成されるチャンネルの数が5の場合（N=5）、N-1個の数式は、L2=L1+ICLD1、L3=L1+ICLD2、L4=L1+ICLD3、およびL5=L1+ICLD4と作成されることができる。次に、それらの二乗の和が１に等しくなるように設定される。つまり、L1²+ (L1+ICLD1)²+ (L1+ICLD2)²+ (L1+ICLD3)² + (L1+ICLD4)² = 1となるようにする。次に、L1の値を解くことが可能であり、L1に基づき、残りの利得レベル値L2〜L5を解くことができる。

実施形態によっては、本発明の基本的なアイディア、すなわち、はじめにマルチチャンネルフォーマットに復号することなく、バイノーラル信号をパラメトリックに符号化されたオーディオ信号から直接生成するというアイディアは、推定利得の組を使ってそれらを各周波数サブ帯域に適用する代わりに、サイド情報ビットストリームのチャンネルレベル情報（channel level information；ICLD）部分だけをサム信号と共に用いてバイノーラル信号を構成することによっても実装することができる。

この場合、復号器で推定利得の組を定義したり、符号化器においてBCCサイド情報に推定利得を含めたりする代わりに、各オリジナルチャンネルについて、普通のBCCサイド情報のチャンネルレベル情報（ICLD）部分が、時間及び周波数の関数として、復号器において適切に処理される。元のサム信号は適切な周波数ビンに分割され、これらの周波数ビンの利得はチャンネルレベル情報から得られる。この処理は、ある周波数帯域から他の周波数帯域にかけての利得値の変化が緩やかにすることにより、バイノーラル出力信号の品質をさらに向上させることを可能とする。

この実施形態における処理の初めの段階は、前述の実施形態と同様である。すなわち、モノラル又はステレオのサム信号とサイド情報とが復号器に入力され、そのサム信号は使用されるフレーム長の時間フレームへ分割され、続いてサイン窓関数などにより適当に窓掛けされる。解析のため、再び50%オーバーラップの正弦窓が用いられ、時間領域の信号を周波数領域へ効果的に変換するために、FFTが用いられた。もし解析窓の長さがNサンプルであり、窓の50%がオーバーラップするのであれば、周波数領域において、N／２の周波数ビンが得られる。この実施形態では、ERBスケールに従うサブ帯域のような心理音響学的に導かれた周波数帯域に信号を分割する代わりに、上述の周波数ビンが処理に用いられる。

前述のように、BCC符号化器のサイド情報は、各独立チャンネルを得るためにサム信号がどのようにスケーティングされるべきかの情報を提供する。利得情報は、一般的に、特定の時間及び周波数位置についてのみ提供される。時間方向では、利得値は、例えば2048サンプルに一度だけ提供される。本実施形態の既存のために、各正弦窓の中央及び各周波数ビンにおいて利得値が必要である。（すなわち、各正弦窓の中央でN/2個の利得値が必要である。）これは、補間処理により効果的に実現しうる。代わりに、サイド情報により定められる時刻に利得情報が提供され、一つのフレームの中の当該時刻の数も当該サイド情報により得られる。このような代替実装において、利得値は当該時刻の情報及び利得値が更新された時刻の数に基づいて補間される。

BCCマルチチャンネル符号化器が、時刻t_m, m = 0, 1, 2, ….に、N_q個の利得値を供給するとしよう。現在の時刻t_w（現在の正弦窓の中央）に関し、BCCマルチチャンネル符号化器によって得られる次及び前の利得値の組が検索される。これらをt_prev及びt_next表そう。例のために線形補間を用いると、N_g個の利得値が時刻t_wへと補間され、t_wからt_prev及びt_nextへの距離がスケーリングファクターとして補間処理に用いられる。他の実施形態では、時刻t_wに近い利得値（t_prevまたはt_next）が、単に選択される。これは、よく近似された利得値を決定するためのより簡単な方法を提供する。

現在の時刻においてN_g個の利得値の組が決定されると、これらは周波数方向で補間され、N/2個の周波数ビンのそれぞれに対して個々に利得値が求められる。この処理を行なうには、単純な線形補間を用いることが可能である。しかしながら、たとえばsinc補間などを使うこともできる。一般的に、N_g個の利得値は、低い周波数で高い分解能を与え（分解能は例えばERBスケールに従う）、このことは補完処理において考慮されねばならない。補間処理は線形的や対数的に行うことができる。補間された利得の組の数は、マルチチャンネル復号器の出力チャンネルの数にサム信号の数を乗じたものに等しい。

さらに、バイノーラル信号を構築するには、オリジナルのスピーカーの方向のHRTFが必要である。HRTFも周波数領域に変換される。周波数領域の処理を単純にするために、その変換には、サム信号を時間領域から周波数領域（N/2の周波数ビン）に変換するために用いられたものと同じフレーム長（Nサンプル）が用いられる。

バイノーラル信号の左と右の信号の周波数領域における表現を、Y₁(n)及びY₂(n)としよう。サム信号が一つの場合（すなわちモノラル化されたサム信号X_sum1(n)の場合）、バイノーラル出力は次のように構築される。

ここで、0≦n＜N/2であり、cはBCCマルチチャンネル符号化器における全チャンネル数（たとえば5.1オーディオ信号であれば6チャンネル）、g₁ ^c(n)は、現在時刻t_wにおいてモノラルサム信号からチャンネルcを構築するための補間された利得値である。H₁ ^c(n)とH₂ ^c(n)は、マルチチャンネル符号化器の出力チャンネルcについての、左耳及び右耳のHRTFのDFT領域の表現である。すなわち、各オリジナルチャンネルの方向は既知でなくてはならない。

BCCマルチチャンネル符号化器から供給されるサム信号が２つ（ステレオサム信号）であるとき、どちらのサム信号（X_sum1(n)及びX_sum2(n)）も、両方のバイノーラル出力に次のように影響を及ぼす。

ここで、0≦n＜N/2である。またg₁ ^c(n)及びg₂ ^c(n)、はマルチチャンネル符号化器において、その和として出力チャンネルcを構築するために、左及び右のサム信号ために用いられる利得を表している。

処理の後段は、やはり前述のものと同様である。すなわち、Y₁(n)とY₂(n)が逆FFT処理によって時間領域へと再変換され、信号がサイン窓関数によりもう一度窓掛けされ、オーバーラップ窓関数が適用される。

この実施形態の主な利点は、ある周波数ビンから別の周波数ビンへと、利得が急激には変化しないことである。このような事態は、ERBやその他のサブ帯域が用いられるときに生じる。これによって、バイノーラル出力信号の品質は一般的には向上する。さらに、左耳と右耳のHRTFの表現として、マルチチャンネルオーディオの各チャンネルのHFTFの特定の左右ペアの代わりに、累積DFT領域（summed-up DFT domain）の表現（H₁ ^c(n)、H₂ ^c(n)）を用いることにより、フィルタリング処理が著しく簡単になる。

この実施形態において、バイノーラル信号はDFT領域で構築され、フィルタバンクによってERBスケールに従って信号をサブ帯域へ分割することは省略することができる。実装においていかなるフィルタバンクも必要でないとはいえ、当業者は、DFT以外の変換方法や十分に高い周波数分解能を有するフィルタバンク構造が用いられてもよいことを理解するであろう。そのような場合においては、用いられるフィルタバンクや変換の特性の組に基づいてHRTFフィルタリングが実行されるように、構築式Y₁(n) 及び Y₂(n)が修正されねばない。

例えば、QMFフィルタバンクが適用される場合、周波数分解能はQMFサブ帯域により定義される。もし、N_g個の利得値の組がQMF サブ帯域の数より少ない場合は、各サブ帯域のための利得を得るために、当該利得値が補間される。例えば、サイド情報において、ある与えられた時刻において28の周波数帯域に対応する28の利得値が得られるとして、これらは、105のQMFサブ帯域にマップされることができる。この場合において、隣接する狭いサブ帯域で急激な変化が生じることを避けるために、非線形または線形の補間が行われる。その後、上に説明した、左右バイノーラル信号の周波数領域表現のための式（Y₁(n), Y₂(n)）が適用されるがただし、H₁ ^c(n) と H₂ ^c(n)は、マトリクス形式のQMFドメインのHRTFフィルタとなり、X_sum1(n)はモノラル化された信号のブロックとなる。ステレオサム信号の場合、HFTFフィルタは変換マトリクスの形式であり、X_sum1(n) と X_sum2(n)は、それぞれ二つのサム信号のブロックである。QMFドメインにおける実際のフィルタリングの実装の例が、次の非特許文献３に説明されている。
IEEE 0-7803-5041-3/99, Lanciani C. A. et al.: "Subband domain filtering of MPEG audio signals

簡素化するため、前述の例の殆どは、入力チャンネル（M）が符号化器においてダウンミックスされて単一の結合（例えば、モノラル）チャンネルを形成するように説明される。しかしながら、実施形態は、特定のオーディオ処理用途に応じて、多数の入力チャンネル（M）が、ダウンミックスされて２つ以上の別々の結合チャンネル（S）を形成するような代替的な実装においても同様に適用可能である。ダウンミックスにより多数の結合チャンネルが生成される場合、結合チャンネルデータは、従来のオーディオ伝送技術を使用して伝送可能である。例えば、２つの結合チャンネルが生成される場合、従来のステレオ伝送技術を使用してもよい。この場合、上述の最後の実施例に関して示されたように、BCC復号器は、BCC符号を抽出および使用して、２つの結合チャンネルからバイノーラル信号を合成できる。

実施形態によっては、合成されたバイノーラル信号における仮想的に生成された「スピーカ」の数（N）は、特定用途に応じて、入力チャンネル（M）の数と異なってもよい（多くても少なくてもよい）。例えば、入力オーディオが7.1サラウンドオーディオに相当し、バイノーラル出力オーディオが5.1サラウンドオーディオに相当するように合成されてもよく、または、その反対でもよい。

上記実施形態は、次のように一般化されることができる。すなわち、本発明の実施形態は、Ｍ個の入力オーディオチャンネルをＳ個の結合オーディオチャンネルおよび１つ以上の対応するサイド情報の組に変換可能にするものであり（Ｍ＞Ｓ）また、Ｓ個の結合オーディオチャンネルおよび対応するサイド情報の組からＮ個の出力オーディオチャンネルを生成するものである（Ｎ＞Ｓ）。Ｎは、Ｍと等しくとも異なっていてもよい。

１つの結合チャンネルおよび必要なサイド情報を伝送するのに必要なビットレートは非常に低いため、本発明は、特に、利用可能な帯域幅が無線通信システムなどのリソースが乏しいシステムに十分適用可能である。従って、実施形態は、特に、高品質のスピーカを一般的に含まない携帯端末またはその他の携帯型装置に適用可能であり、この場合、マルチチャンネルサラウンドオーディオの特徴は、実施形態に従うバイノーラルオーディオ信号を聴くためのヘッドフォンを介して導入可能である。実行可能な用途のさらなる分野には、テレビ会議サービスが含まれる。この場合、電話会議出席者が会議室の異なる位置に居るという印象をリスナーに与えることによって、テレビ会議の出席者を容易に区別することができる。

図４は、データ処理装置（TE）の簡素化構造を示す。このデータ処理装置において、本発明に従うバイノーラル復号システムを実装することが可能である。データ処理装置（TE）は、例えば、携帯端末、MP3プレーヤー、PDA装置、またはパーソナルコンピュータ（PC）であることが可能である。データ処理ユニット（TE）は、I/O手段（I/O）、中央処理装置（CPU）、およびメモリ（MEM）を備える。メモリ（MEM）は、ランダムアクセスメモリRAMおよびFLASHメモリなどの、読取専用メモリROM部分および再書き込み可能部分を備える。CD-ROM、その他の装置、およびユーザなどの様々な外部装置と通信するために使用される情報は、I/O手段（I/O）を介して中央処理装置（CPU）によって送受信される。データ処理装置が移動局として実装される場合、データ処理装置は、一般的に送受信機Tx/Rxを備え、この送受信機Tx/Rxは、無線線ネットワークと通信し、一般的にはアンテナを介して基地局（BTS）と通信する。ユーザインターフェース（UI）機器は、一般的に、ディスプレイ、キーパッド、マイク、およびヘッドフォン用接続手段を備える。データ処理装置は、種々のハードウェアモジュール用または集積回路ICとしての標準型スロットなどの接続手段MMCをさらに備えて、データ処理装置において実行される種々のアプリケーションを提供してもよい。

従って、本発明に従うバイノーラル復号システムは、データ処理装置の中央処理装置（central processing unit; CPU）または専用のデジタル信号プロセッサ（digital signal processor; DSP）（パラメトリック符号化プロセッサ）において実行されてもよい。従って、データ処理装置は、複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含むパラメトリック符号化されたオーディオ信号を受信する。パラメトリック符号化されたオーディオ信号は、CD-ROMなどのメモリ手段から、あるいはアンテナおよび送受信機を介した無線ネットワークから受信されてもよい。データ処理装置は、適切なフィルタバンクおよび頭部伝達関数フィルタの既定の組をさらに備える。従って、データ処理装置は、結合信号を周波数領域に変換し、頭部伝達関数フィルタの適切な左右の組を、対応するサイド情報の組によって決定される割合で結合信号に適用することによって、バイノーラルオーディオ信号を合成し、ヘッドフォンを介して再生する。

同様に、本発明に従う符号化システムも、データ処理装置の中央処理装置（CPU）または専用のデジタル信号プロセッサ（DSP）において実行されることができる。従って、データ処理装置は、複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネルオーディオのチャンネル信号の推定利得を含む１つ以上の対応するサイド情報の組とを含むパラメトリック符号化されたオーディオ信号を生成する。

本発明の機能は、移動局などの端末装置において実装されてもよく、また、コンピュータプログラムとして実装されてもよい。このコンピュータプログラムは、中央処理装置CPUまたは専用のデジタル信号プロセッサDSPにおいて実行されると、本発明の手順を実行するように端末装置に作用する。コンピュータプログラムSWの機能は、相互に通信するいくつかの別々のプログラム要素に分散されてもよい。コンピュータソフトウェアは、PCのハードディスクまたはCD-ROMディスクなど如何なるメモリ手段にも保存されてもよく、そこから携帯端末のメモリにロード可能である。また、コンピュータソフトウェアは、例えば、TCP/IPプロトコルスタックを使用してネットワークを介してロード可能である。

また、ハードウェアソリューションあるいはハードウェアおよびソフトウェアソリューションの組み合わせを使用して、発明の手段を実行することも可能である。従って、上記のコンピュータプログラムは、モジュールを電子装置に接続するための接続手段を備えるハードウェアモジュールにおける例えばASICまたはFPGA回路などのハードウェアソリューションとして、あるいは１つ以上の集積回路として、少なくとも部分的に実装可能である。このハードウェアモジュールまたはICは、上記プログラムコードタスクを実行するための種々の手段をさらに含み、また、上記手段は、ハードウェアおよび／またはソフトウェアとして実装される。

本発明は、上に提示された実施形態だけに限定されないが、添付の請求項の範囲内で修正可能であることは、当業者であれば誰にでも明らかであろう。

従来技術に従う一般的なバイノーラルキュー符号化（Binaural Cue Coding; BCC）スキームを示す。従来技術に従うBCC合成スキームの一般構造を示す。本発明の実施形態に従う、バイノーラル復号器のブロック図を示す。簡易ブロック図において、本発明の実施形態に従う電子装置を示す。

Claims

バイノーラルオーディオ信号を合成するための方法であって、
複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含む、パラメトリック符号化されたオーディオ信号を入力することと、
前記少なくとも１つの結合信号を複数のサブ帯域へ分割することと、
前記サイド情報の組からサブ帯域のためのパラメータ値を決定することと、
バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用することと、
を含む、方法。
前記パラメータ値は、特定のサブ帯域に対応するパラメータ値を、前記サイド情報の組によって提供される次及び前のパラメータ値から補間することによって決定される、請求項１に記載の方法。
前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルオーディオの各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組を適用すること、
をさらに含む、請求項１又は２に記載の方法。
前記サイド情報の組は、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、
請求項１から３のいずれかに記載の方法。
前記サイド情報の組は、オリジナルのマルチチャンネル音響イメージにおけるスピーカの数およびリスニング位置に対する位置と、使用されるフレーム長とをさらに含む、
請求項４に記載の方法。
前記サイド情報の組は、チャンネル間時間差（Inter-channel Time Difference; ICTD）、チャンネル間レベル差（Inter-channel Level Difference; ICLD）、およびチャンネル間コヒーレンス（Inter-channel Coherence; ICC）などの、バイノーラルキュー符号化（Binaural Cue Coding; BCC）スキームにおいて使用されるチャンネル間キューを含み、
前記BCCスキームの前記チャンネル間キューのうちの少なくとも１つに基づき、オリジナルのマルチチャンネルオーディオにおける推定利得の組を計算すること、
をさらに含む、請求項３に記載の方法。
オリジナルのマルチチャンネルオーディオにおける前記推定利得の組を、時間および周波数の関数として決定することと、
各利得値の二乗の和が１に等しくなるように、スピーカチャンネル毎に利得を調整することと、
をさらに含む、請求項４から６のいずれかに記載の方法。
前記少なくとも１つの結合信号を、次のサブ帯域：
・複数のQMFサブ帯域
・複数の（Equivalent Rectangular Bandwidth; ERB）サブ帯域
・心理音響学的に導かれた複数の周波数帯域
のいずれかに分割することをさらに含む、請求項１に記載の方法。
前記少なくとも１つの結合信号を、周波数領域おいて、等価方形幅（Equivalent Rectangular Bandwidth; ERB）スケールに従う32個の周波数帯域に分割すること、
をさらに含む、請求項８に記載の方法。
左側信号及び右側信号の各々について、各前記周波数帯域における前記頭部伝達関数フィルタの出力をそれぞれ加算することと、
バイノーラルオーディオ信号の左側成分および右側成分を生成するために、前記加算された左側信号と前記加算された右側信号とを、時間領域に変換することと、
をさらに含む、請求項９に記載の方法。
前記パラメータ値は、少なくとも１つのサブ帯域の利得値である、請求項１に記載の方法。
前記利得値は、前記サイド情報により提供される利得値のうち最も近いものを選択することにより決定される、請求項１１に記載の方法。
前記少なくとも１つの結合信号を複数のサブ帯域へ分割することは、さらに、
前記少なくとも１つの結合信号を、所定の数のサンプルを含む時間フレームへ分割すると共にそれらのフレームに窓関数を掛けることと、
複数の周波数サブ帯域を形成すべく、前記少なくとも１つの結合信号を周波数領域へと変化することと、
を含む、請求項１１又は１２に記載の方法。
サブ帯域のために利得値を決定することは、さらに、
オリジナルの音響イメージを表現するマルチチャンネルオーディオの各チャンネル信号の利得値を決定することと、
複数のサブ帯域のための単一の利得値を、前記各チャンネル信号の利得値から補間することと、
を含む、請求項１１から１３のいずれかに記載の方法。
サブ帯域のバイノーラル信号の周波数領域における表現を、前記少なくとも１つの結合信号に、少なくとも１つの利得値と所定の頭部伝達関数フィルタを乗ずることにより得る、請求項１１から１４のいずれかに記載の方法。
各周波数ビンのバイノーラル信号の周波数領域における表現が、モノラル化されたサム信号X_sum1(n)により、

のように決定される、請求項１５に記載の方法。ただし、Y₁(n)及びY₂(n)は、バイノーラル信号の左と右の信号の周波数領域における表現であり、cは符号化器におけるチャンネル数であり、g₁ ^c(n)は、特定の時刻t_wにおいてモノラルサム信号からチャンネルcを構築するための補間された利得値であり、H₁ ^c(n)とH₂ ^c(n)は、符号化器の出力チャンネルcについての、左耳及び右耳の頭部伝達関数フィルタのサブ帯域領域における表現である。
各周波数ビンにおける、前記サブ帯域のバイノーラル信号の周波数領域の表現は、ステレオサム信号X_sum1(n)及びX_sum2(n)により、

のように決定される、請求項１５に記載の方法。ただし、Y₁(n)及びY₂(n)は、バイノーラル信号の左と右の信号の周波数領域における表現であり、cは符号化器におけるチャンネル数であり、g₁ ^c(n)は、特定の時刻t_wにおいてモノラルサム信号からチャンネルcを構築するための補間された利得値であり、H₁ ^c(n)とH₂ ^c(n)は、符号化器の出力チャンネルcについての、左耳及び右耳の頭部伝達関数フィルタのサブ帯域領域における表現である。
前記利得値は、特定の周波数サブ帯域に対応する各利得値は、前記サイド情報により提供される、隣接する周波数サブ帯域の利得値から補間することにより決定される、請求項１１に記載の方法。
複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含む、パラメトリック符号化されたオーディオ信号を処理するためのパラメトリック符号化プロセッサと、
前記少なくとも１つの結合信号を複数のサブ帯域へ分割する手段と、
前記サイド情報の組からサブ帯域のためのパラメータ値を決定する手段と、
バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用するための合成器と、
を備える、パラメトリックオーディオ復号器。
前記パラメータ値は、特定のサブ帯域に対応するパラメータ値を、前記サイド情報の組によって提供される次及び前のパラメータ値から補間することによって決定される、請求項１９に記載の復号器。
前記合成器は、前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルオーディオの各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組を適用するように構成される、
請求項１９又は２０に記載の復号器。
前記サイド情報の組は、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、
請求項１９から２１のいずれかに記載の復号器。
前記サイド情報の組は、チャンネル間時間差（Inter-channel Time Difference; ICTD）、チャンネル間レベル差（Inter-channel Level Difference; ICLD）、およびチャンネル間コヒーレンス（Inter-channel Coherence; ICC）などの、バイノーラルキュー符号化（Binaural Cue Coding; BCC）スキームにおいて使用されるチャンネル間キューを含み、
前記BCCスキームの前記チャンネル間キューのうちの少なくとも１つに基づき、オリジナルのマルチチャンネルオーディオにおける推定利得の組を計算する、
請求項２１に記載の復号器。
前記少なくとも１つの結合信号を、次のサブ帯域：
・複数のQMFサブ帯域
・複数の（Equivalent Rectangular Bandwidth; ERB）サブ帯域
・心理音響学的に導かれた複数の周波数帯域
のいずれかに分割する手段をさらに備える、請求項１９に記載の復号器。
前記少なくとも１つの結合信号を周波数領域において分割する前記手段は、前記少なくとも１つの結合信号を、等価方形幅（Equivalent Rectangular Bandwidth; ERB）スケールに従う３２個の周波数帯域に分割するように構成されるフィルタバンクを備える、
請求項２４に記載の復号器。
左側信号及び右側信号の各々について、各前記周波数帯域における前記頭部伝達関数フィルタの出力をそれぞれ加算するための加算部と、
バイノーラルオーディオ信号の左側成分および右側成分を生成するために、前記加算された左側信号と前記加算された右側信号とを、時間領域に変換するための変換部と、
をさらに備える、請求項２５に記載の復号器。
前記パラメータ値は、少なくとも１つのサブ帯域の利得値である、請求項１９に記載の復号器。
前記利得値は、前記サイド情報により提供される利得値のうち最も近いものを選択することにより決定される、請求項２７に記載の復号器。
前記サブ帯域のために利得値を決定する手段は、
オリジナルの音響イメージを表現するマルチチャンネルオーディオの各チャンネル信号の利得値を決定し、
複数のサブ帯域のための単一の利得値を、前記各チャンネル信号の利得値から補間する、
ように構成される、請求項２７又は２８に記載の復号器。
サブ帯域のバイノーラル信号の周波数領域における表現を、前記少なくとも１つの結合信号に、少なくとも１つの利得値と所定の頭部伝達関数フィルタを乗ずることにより定めるように構成される、請求項２７から２９のいずれかに記載の復号器。
コンピュータ可読媒体に保存され、かつデータ処理装置において実行可能であるコンピュータプログラムであって、複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含むパラメトリック符号化されたオーディオ信号を処理するために、
前記少なくとも１つの結合信号を複数のサブ帯域に変換するためのコンピュータプログラムコード部分と、
前記サイド情報の組からサブ帯域のためのパラメータ値を決定するためのコンピュータプログラムコード部分と、
バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用するためのコンピュータプログラムコード部分と、
を備える、コンピュータプログラム。
バイノーラルオーディオ信号を合成する装置であって、
複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含む、パラメトリック符号化されたオーディオ信号を入力する手段と、
前記少なくとも１つの結合信号を複数のサブ帯域へ分割する手段と、
前記サイド情報の組からサブ帯域のためのパラメータ値を決定する手段と、
バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用する手段と、
前記バイノーラルオーディオ信号をオーディオ再生手段に供給する手段と、
を備える、装置。
前記装置は、携帯端末、PDA装置、またはパーソナルコンピュータである、請求項３２に記載の装置。