JP2009522894A

JP2009522894A - バイノーラルオーディオ信号の復号

Info

Publication number: JP2009522894A
Application number: JP2008549031A
Authority: JP
Inventors: パスィオヤラ; ユリアトゥルク; マウリヴァーナネン
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2006-01-09
Filing date: 2007-01-04
Publication date: 2009-06-11
Also published as: US20070160218A1; CA2635024A1; RU2008127062A; KR20080078882A; KR20110002491A; CN101366081A; RU2008126699A; TW200727729A; EP1972180A1; RU2409912C2; CN101366321A; AU2007204332A1; EP1972180A4; EP1971979A4; US20070160219A1; BRPI0722425A2; JP2009522895A; BRPI0706306A2; RU2409912C9; EP1971979A1

Abstract

バイノーラルオーディオ信号を合成するための方法であって、本方法は、複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含むパラメトリック符号化されたオーディオ信号を入力することと、バイノーラルオーディオ信号を合成するために、対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用することと、を含む。対応するパラメトリックオーディオ復号器、パラメトリックオーディオ符号化器、コンピュータプログラム、およびバイノーラルオーディオ信号を合成する装置についても記載される。
【選択図】図３

Description

本発明は、空間音響符号化（Spatial Audio Coding）に関し、より具体的には、バイノーラルオーディオ信号（Binaural Audio Signal）の復号に関する。

関連出願

本出願は、2006年1月9日に出願された国際出願第PCT/FI2006/050014号および2006年1月17日に出願された米国出願第11/334,041号に基づく優先権を主張する。

発明の背景

空間音響符号化において、異なるオーディオチャンネル上で再生されるべきオーディオ信号がそれぞれ異なることにより、２チャンネル／マルチチャンネルオーディオ信号を処理することによって、音源周辺の空間効果の印象がリスナーにもたらされる。空間効果は、マルチチャンネルまたはバイノーラル再生の適切なフォーマットに直接オーディオを録音することによって生成可能である。あるいは、空間効果は、いかなる２チャンネル／マルチチャンネルオーディオ信号においても人工的に生成可能であり、空間化（Spatialization）として知られている。

ヘッドフォンの再生に関し、リスナーの左耳および右耳用のバイノーラル信号を生成する頭部伝達関数（Head Related Transfer Function; HRTF）フィルタリングによって、人工的に空間化を行うことができることは一般的に知られている。音源信号は、その音源の方向に対応するHRTFから得られるフィルタでフィルタリングされる。HRTFは、自由音場における音源から人間の耳または人工の頭部まで測定される伝達関数であり、頭部と置換され、かつ頭部の中に配置されるマイクに対する伝達関数によって割られる。人工的室内効果（例えば、早期反射および／または後期残響）を空間化信号に加えることによって、音源の外在化（Externalization）および自然性（Naturalness）を改善できる。

多種多様なオーディオ聴音装置および相互作用装置が増加するにつれ、その互換性がより重要になってきた。空間音響フォーマットにおいては、アップミックス（upmix）およびダウンミックス（downmix）技術によって互換性を追求している。Dolby Digital^(r)およびDolby Surround^(r)などのステレオフォーマットにマルチチャンネルオーディオ信号を変換し、さらに、ステレオ信号をバイノーラル信号に変換するためのアルゴリズムが存在することは一般的に知られている。しかしながら、このような処理において、元のマルチチャンネルオーディオ信号の空間イメージは、完全には再生できない。ヘッドフォンリスニングのためのマルチチャンネルオーディオ信号を変換する改善方法として、HRTFフィルタリングを使用することによって元のスピーカを仮想スピーカに置換し、それら（例えば、Dolby Headphone^(r)）を介してスピーカチャンネル信号を再生することが挙げられる。しかしながら、この処理は、バイノーラル信号生成に関し、常にマルチチャンネルミックスを最初に必要とするという不利点を有する。つまり、マルチチャンネル（例えば、5+1チャンネル）信号が、最初に復号および合成され、続いてバイノーラル信号を生成するためにHRTFが各信号に適用される。これは、圧縮されたマルチチャンネルフォーマットからバイノーラルフォーマットに直接復号することに比べ、計算的に重いアプローチになる。

バイノーラルキュー符号化（Binaural Cue Coding; BCC）は、高度なパラメトリック空間音響符号化方法である。BCCは、単一の（またはいくつかの）ダウンミックスされたオーディオチャンネルと、オリジナルの信号からの周波数および時間の関数として推定された１組の知覚関連のチャンネル間差として、空間マルチチャンネル信号を表現する。この方法によって、任意のスピーカ配置が、同数または異なる数のスピーカを含むその他のいかなるスピーカ配置にも変換されるようにミックスされた空間音響信号が可能になる。

従って、BCCは、マルチチャンネルスピーカシステムのために設計される。しかしながら、BCC処理されたモノラル信号およびそのサイド情報からバイノーラル信号を生成する場合、モノラル信号およびサイド情報に基づいてマルチチャンネル表現がまず合成された後に、そのマルチチャンネル表現から空間ヘッドフォン再生のためのバイノーラル信号が生成可能となりうる。このアプローチは、バイノーラル信号生成を考慮すると、最適化されていないことが明らかである。

発明の摘要

バイノーラル信号の生成が、パラメトリック符号化されたオーディオ信号から直接可能になるように改良された方法と、その方法を実行する技術装置が発明される。本発明の種々の側面は、復号方法、復号器、装置、符号化方法、符号化器、およびコンピュータプログラムを含み、これらは、独立請求項の記載によって特徴付けられる。本発明の種々の実施形態は、従属請求項において開示される。

第１の側面によると、本発明に従う方法は、バイノーラルオーディオ信号を合成する次のような概念に基づく。まず、複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含むパラメトリック符号化されたオーディオ信号を、入力するようにする。次に、バイノーラルオーディオ信号を合成するために、前記対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用する。

実施形態によっては、前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルスピーカ配置の各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組が、選択され適用される。

実施形態によっては、前記サイド情報の組は、オリジナルの音響イメージを表現する、前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む。

実施形態によっては、オリジナルのマルチチャンネルオーディオの推定利得を、時間および周波数の関数として決定し、各利得値の二乗の和が１に等しくなるように、スピーカチャンネル毎の前記利得を調整する。

実施形態によっては、前記少なくとも１つの結合信号を、使用されるフレーム長の時間フレームに分割し、続いてそのフレームに窓関数を掛ける。そして、頭部伝達関数フィルタを適用する前に、前記少なくとも１つの結合信号を周波数領域に変換する。

実施形態によっては、前記頭部伝達関数フィルタを適用する前に、周波数領域において、等価方形幅（Equivalent Rectangular Bandwidth; ERB）スケールに従う周波数帯域などの、心理音響学的に導かれた複数の周波数帯域に、前記少なくとも１つの結合信号を分割する。

実施形態によっては、各周波数帯域から得られた頭部伝達関数フィルタの出力を、左側信号及び右側信号毎に加算し、バイノーラルオーディオ信号の左側成分および右側成分を生成するために、前記加算された左側信号と前記加算された右側信号とを、時間領域に変換する。

第２の側面は、パラメトリック符号化されたオーディオ信号を生成するための方法を提供し、この方法は、複数のオーディオチャンネルを含むマルチチャンネルオーディオ信号を入力することと、前記複数のオーディオチャンネルの結合信号を少なくとも１つを生成することと、前記複数のオーディオチャンネルの推定利得を含む、１つ以上の対応するサイド情報の組を生成することと、を含む。

実施形態によっては、個々の各チャンネルの利得レベルを前記結合信号の累積利得レベルと比較することによって、前記推定利得を計算する。

本発明に従う構成により有意な利点がもたらされる。主な利点は、復号処理の簡素化および計算複雑性の低下である。また、復号器は、符号化器が提供する空間および符号化パラメータに基づいてバイノーラル合成を完全に実行するという点において、柔軟性を有する。さらに、オリジナルの信号と同等の空間性が変換において維持される。サイド情報に関しては、オリジナルミックスの推定利得の組で十分である。より重要なことに、本発明により、パラメトリックオーディオ符号化においてもたらされる圧縮中間状態の活用の強化が可能になり、オーディオの伝送および保存における効果が改善される。

本発明のさらなる側面は、上記方法の発明ステップを実行するように構成された種々の装置を含む。

実施形態の説明

以下において、本発明の種々の実施形態について、添付の図面を参照してより詳細に説明する。

バイノーラルキュー符号化（Binaural Cue Coding; BCC）を、実施形態に従う復号スキームを実行するための例示的な基盤として言及することによって、本発明を以下に説明する。しかしながら、本発明は、BCC型の空間音響符号化方法だけに限定されず、１つ以上のオーディオチャンネルの組のオリジナルから結合された少なくとも１つのオーディオ信号と、適切な空間サイド情報とが用意される、いかなるオーディオ符号化スキームにおいても実行可能であることに留意されたい。

バイノーラルキュー符号化（Binaural Cue Coding; BCC）は、空間音響のパラメータ表現に関する一般概念であり、単一のオーディオチャンネルといくつかのサイド情報から任意の数のチャンネルを有するマルチチャンネル出力を提供するものである。図１は、本概念を示す。いくつかの入力オーディオチャンネル（M）は、ダウンミックス処理によって単一出力（S;「サム」）信号に結合される。並行して、マルチチャンネル音響イメージを表現する最重要なチャンネル間キューが、入力チャンネルから抽出され、BCCサイド情報（BCC side information）としてコンパクトに符号化される。次に、サム信号およびサイド情報は、例えばサム信号を符号化するための適切な低ビットレートオーディオ符号化スキームを使用して受信側に伝送される。最終的に、BCC復号器は、チャンネル間時間差（Inter-channel Time Difference; ICTD）、チャンネル間レベル差（Inter-channel Level Difference; ICLD）、およびチャンネル間コヒーレンス（Inter-channel Coherence; ICC）などの関連チャンネル間キューを有するチャンネル出力信号を再合成することによって、伝送されたサム信号および空間キュー情報から、スピーカのマルチチャンネル出力信号（N）を生成する。従って、BCCサイド情報、つまりチャンネル間キューは、特にスピーカ再生のためのマルチチャンネルオーディオ信号の復元の最適化を考慮して選択される。

２つのBCCスキームが存在する。１つは、受信側でレンダリングする目的で多数の異なる音源信号を伝送する、フレキシブルレンダリング（Flexible Rendering）に関するBCC（I型BCC）であり、もう１つは、ステレオまたはサラウンド信号の多数のオーディオチャンネルを伝送する、ナチュラルレンダリング（Natural Rendering）（II型BCC）に関するBCCである。フレキシブルレンダリングに関するBCCは、複数の異なる音源信号（例えば、スピーチ信号、別々に録音された楽器、マルチトラック録音）を入力として使用する。ナチュラルレンダリングに関するBCCは、「完全にミックスされた（final mix）」ステレオまたはマルチチャンネル信号（例えば、CDオーディオ、DVDサラウンド）を入力として使用する。これらの処理が、従来の符号化技術によって実行される場合、ビットレートは、オーディオチャンネルの数に比例して、または少なくともほぼ比例して増減する。例えば、5.1マルチチャンネルシステムの6つのオーディオチャンネルを伝送するには、１つのオーディオチャンネルの約6倍のビットレートが必要になる。しかしながら、BCCサイド情報は非常に低いビットレート（例えば、2kb/s）しか必要としないため、両BCCスキームのビットレートは、結果的に、１つのオーディオチャンネルの伝送に必要なビットレートよりも若干高くなるだけである。

図２は、BCC合成スキームの一般構造を示す。伝送されたモノラル信号（"Sum"）は、まず、時間領域において窓掛けが行なわれてフレームに分割され、次に、高速フーリエ変換（Fast Fourier Transform; FFT）処理およびフィルタバンク（filterbank; FB）によって、適切なサブ帯域の空間表現にマップされる。FFTおよびFBの処理の代わりに、直交ミラーフィルタ（Quadrature Mirror Filter; QMF）のフィルタバンク処理を使用して、信号分解を実行することが可能である。再生チャンネルの一般的場合において、ICLDおよびICTDは、対のチャンネル間、つまり、参照チャンネルに対する各チャンネルの各サブ帯域において考慮される。サブ帯域は、十分高い周波数分解能が達成されるように選択される。例えば、等価方形幅（Equivalent Rectangular Bandwidth; ERB）スケールの2倍に等しいサブ帯域幅が一般的に適切であると考えられる。生成される出力チャンネル毎に、個々の時間遅延ICTDおよびレベル差ICLDが、スペクトル係数に課され、その後、コヒーレンス合成処理により、合成されたオーディオチャンネル間のコヒーレンスおよび／または相関（ICC）に関する最重要側面を再導入する。最終的に、合成された全出力チャンネルは、IFFT処理（逆FFT）によって時間領域表現に再び変換され、マルチチャンネル出力をもたらす。BCCアプローチに関するさらに詳しい説明は、下記非特許文献1及び２を参照されたい。
F. Baumgarte and C. Faller: "Binaural Cue Coding - Part I: Psy-choacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003 C. Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003

BCCは、符号化スキームの一例であり、この符号化スキームにより、実施形態に従う復号スキームを実行するための適切な基盤が提供される。ある実施形態に従うバイノーラル復号器は、モノラル化信号およびサイド情報を入力として受信する。この概念は、元のミックス状態における各スピーカを、リスニング位置に対するスピーカの方向に対応するHRTFの組に置換することである。モノラル化信号における各周波数チャンネルは、利得値の組によって決定付けられる割合でHRTFを実行する各対のフィルタに渡される。この利得値は、サイド情報に基づき計算可能である。その結果、この処理は、バイノーラルオーディオシーンにおいて、元のスピーカに対応する１組の仮想スピーカを実装するものとして考えられることが可能である。従って、本発明は、種々のスピーカ配置のマルチチャンネルオーディオ信号の他に、いかなる中間BCC合成処理もせずに、パラメトリック符号化された空間音響信号から直接にバイノーラルオーディオ信号を導き出すことを可能にすることによって、BCCに価値を加える。

本発明のいくつかの実施形態について、図３を参照して以下に説明する。図３は、本発明のある側面に従うバイノーラル復号器のブロック図を示す。復号器300は、モノラル化信号の第１の入力302と、サイド情報の第２の入力304とを含む。入力302、304は、実施形態を説明する上でそれぞれ異なる入力として示されるが、当業者は、実際の実装において、モノラル化信号およびサイド情報が同一の入力によって供給可能であることを理解されたい。

実施形態によっては、サイド情報は、BCCスキームと同じチャンネル間キュー、つまり、チャンネル間時間差（Inter-channel Time Difference; ICTD）、チャンネル間レベル差（Inter-channel Level Difference; ICLD）、およびチャンネル間コヒーレンス（Inter-channel Coherence; ICC）を含む必要はなく、その代わりに、各周波数帯域における元のミックス状態におけるチャンネル間の音圧分布を規定する推定利得の組のみで十分である。推定利得の他に、サイド情報は、元のミックス状態におけるスピーカの数およびリスニング位置に対する位置、ならびに使用されたフレーム長を含むことが好ましい。実施形態によっては、サイド情報の一部として推定利得を符号化器から伝送する代わりに、推定利得は、BCCスキームのチャンネル間キュー、例えば、ICLDから復号器において計算される。

復号器300は、窓掛け部306をさらに備え、ここで、モノラル化信号は、まず、使用されたフレーム長の時間フレームに分割され、次に、フレームに窓掛けが適切に行なわれる（例えば、サイン窓）。適切なフレーム長を調整することによって、フレームが、離散フーリエ変換（discrete Fourier-transform; DFT）のために十分長くなるようにし、また同時に、信号の急速な変化を管理するために十分短くなるようにするべきである。実験によると、適切なフレーム長は約50msである。従って、44.1kHzのサンプリング周波数（種々のオーディオ符号化スキームで通常使用される）を使用する場合、フレームは、例えば、46.4msのフレーム長をもたらす2048個のサンプルを含むことができる。窓掛けは、スペクトル変形（レベルおよび遅延）による遷移を円滑化するために、隣接する窓が50%重複するように実行することが好ましい。

その後、窓掛けされたモノラル化信号は、FFT部308において周波数領域に変換される。効果的に計算するために、処理は周波数領域において実行される。信号処理の前回のステップを実際の復号器300の外部で実行してもよいこと、つまり、窓掛け部306およびFFT部308は、この復号器が実装される装置側に実装されてもよく、処理されるモノラル化信号は、復号器に供給される際には既に窓掛けされ、周波数領域に変換されてもよいことを、当業者は理解するだろう。

周波数領域化された信号を効率的に計算するために、信号は、フィルタバンク310に導かれ、フィルタバンク310は、心理音響学的に導かれた周波数帯域に信号を分割する。実施形態によっては、フィルタバンク310は、一般的に認知される等価方形幅（Equivalent Rectangular Bandwidth; ERB）スケールに従い32個の周波数帯域に信号を分割し、結果的に、その32個の周波数帯域に信号成分x₀、…、x₃₁をもたらすように構成するように設計される。

ブロック306、308、および310の代替として、モノラル化信号の時間−周波数領域処理を、信号分解を実行するQMFフィルタバンク部で実行してもよい。当業者は、FFT処理またはQMFフィルタバンク処理の他に、所望の時間−周波数領域処理を実行するためのその他のいかなる適切な方法をも使用可能であることを理解されたい。

復号器300は、事前に保存された情報としてHRTF312、314の組を含み、ここから各スピーカ方向に対応する左右の組のHRTFが選択される。説明上、図３には2組のHRTF312、314が描かれており、一方の組は左側信号であり、他方の組は右側信号であるが、実際の実装において、１組のHRTFでも十分であることは明らかである。選択された左右の組のHRTFを、各スピーカチャンネルのオーディオレベルに対応するように調整するためには、利得値Gを推定することが好ましい。上述のように、推定利得は符号化器から受信したサイド情報に含めてもよく、あるいは、BCCサイド情報に基づき復号器において計算してもよい。利得は、時間および周波数の関数としてスピーカチャンネル毎に推定されるが、元のミックス状態における利得レベルを維持するために、スピーカチャンネル毎の利得を調整して、各利得値の二乗の合計が１に等しくすることが好ましい。これにより、仮想的に生成されるチャンネルの数がN個である場合、符号化器から伝送する必要がある推定利得はN-1個だけであり、不足利得値をN-1個の利得値に基づき計算可能である、という利点がもたらされる。しかしながら当業者は、本発明の動作において、復号器は、各利得値の二乗の合計を１に等しくなるように調整する必要は必ずしもないが、合計を１に等しくするように利得値の二乗を増減可能であることを理解されたい。

次に、HRTFフィルタ312、314の左右の組の各々を、利得Gの組によって決定される割合で調整し、HRTFフィルタ312'、314'を得る。実際には、元のHRTFフィルタの大きさ312、314は、利得値に応じて単に増減されるだけであるが、実施形態を説明する上で、HRTF312'、314'の組が図３において「付加的に」示されていることを再び留意されたい。

各周波数帯域について、モノラル信号成分x₀、…、x₃₁が、調整されたHRTFフィルタ312'、314'の各左右の組に提供される。次に、左側信号および右側信号のフィルタ出力は、両バイノーラルチャンネルの加算部316、318において加算される。加算されたバイノーラル信号は、再びサイン窓掛けが行なわれ、IFFT部320、322で実行される逆FFT処理によって、時間領域に再び変換される。分析フィルタが１つの信号にまとめない場合、あるいはその位相応答が線形でない場合、適切な合成フィルタバンクを使用して、最終的なバイノーラル信号B_RおよびB_Lにおける歪みを回避することが好ましい。また、上記のように、信号分解にQMFフィルタバンク部を使用する場合、IFFT部320、322は、IQMF（逆QMF）フィルタバンク部と置換されることが好ましい。

実施形態によっては、バイノーラル信号の外在化、つまり頭外定位を向上させるために、適度な室内応答をバイノーラル信号に加えることが可能である。そのために、復号器は、残響部を備えてもよい。この残響部は、加算部316、318とIFFT部320、322の間に位置することが好ましい。付加された室内応答は、スピーカリスニング状況における室内効果を模倣する。しかしながら、必要とされる残響時間は、計算複雑性が顕著に増加しないように十分短くする。

また、図３のバイノーラル復号器300によって、ステレオダウンミックス復号という特別の例が可能になる。この場合、空間イメージは狭められる。上記実施形態において、調整可能な各HRTFフィルタ312、314は、利得値に応じて単に増減されていたが、その利得値が既定の利得に置換されるように、復号器300の動作を修正する。従って、モノラル化信号は、サイド情報に基づいて計算された利得値の組を乗じた単一の利得を含む、コンスタントなHRTFフィルタによって処理される。結果的に、空間音響は、ステレオ信号にダウンミックスされる。この特別の例により、空間音響を復号することなく、空間サイド情報を使用して結合信号からステレオ信号を生成できるという利点がもたらされる。従って、ステレオ復号の手順が従来のBCC合成よりも簡素化される。バイノーラル復号器300の構造は、調整可能なHRTFフィルタ312、314がステレオダウンミックスのための既定の利得を有するダウンミックスフィルタと置換されること以外は、図３と同じである。

バイノーラル復号器が、HRTFフィルタ、例えば、5.1サラウンドオーディオ構成を備える場合、ステレオダウンミックス復号の特別の例について、HRTFフィルタのコンスタントな利得は、例えば、表1に規定される。

本発明に従う構成により有意な利点がもたらされる。主な利点は、復号処理の簡素化および計算複雑性の低下である。また、復号器は、符号化器が提供する空間および符号化パラメータに基づいてバイノーラルアップミックスを完全に実行するという点において、柔軟性を有する。さらに、元の信号について同等の空間性が変換において維持される。サイド情報に関しては、元のミックスにおける推定利得の組で十分である。オーディオの伝送または保存の観点から見ると、最も有意な利点は、パラメトリックオーディオ符号化においてもたらされる圧縮中間状態を利用する際の効率改善によって得られる。

HRTFは個々の差が大きく平均化が不可能であるため、完全な再空間化（re-spatialization）は、リスナー独自のHRTF組を測定することによってのみ達成されうることを、当業者は理解しているだろう。従って、HRTFの使用により信号は必然的にゆがみ、処理されたオーディオの質が、元の質と同等でなくなる。しかしながら、各リスナーのHRTFを測定することは非現実的な選択であるため、モデル化された組あるいは人頭模型または平均サイズおよび顕著な対称性を有する頭部を有する者から測定された組を使用する際に、最善の結果が達成される。

前述のように、実施形態によっては、推定利得は、符号化器から受信するサイド情報に含まれてもよい。結果的に、本発明のある側面は、マルチチャンネル空間音響信号の符号化器に関し、この符号化器は、周波数および時間の関数としてスピーカチャンネル毎の利得を推定し、１つ（または複数の）結合チャンネル上で伝送されるサイド情報に推定利得を含める。符号化器は、例えば、既知のBCC符号化器であってもよく、この符号化器は、マルチチャンネル音響イメージを表現するチャンネル間キューであるICTD、ICLD、およびICCに付加的にまたは代替的に、推定利得を計算するようにさらに構成される。次に、サム信号および推定利得を少なくとも含むサイド情報は、好ましくは、サム信号を符号化する適切な低ビットレートオーディオ符号化スキームを使用して受信側に伝送される。

実施形態によっては、符号化器において推定利得を計算する場合、その計算は、個々のチャンネル毎の利得レベルを、結合チャンネルの累積利得レベルと比較することによって実行される。つまり、利得レベルをX、元のスピーカ配置における個々のチャンネルを「m」、サンプルを「k」とする場合、チャンネル毎の推定利得は│X_m(k)│/│X_SUM(k)│で計算される。従って、推定利得は、全チャンネルの全ての利得の大きさと比較して、個々のチャンネル毎の利得の大きさを比例的に決定する。

実施形態によっては、BCCサイド情報に基づき復号器において推定利得を計算する場合、その計算は、例えば、チャンネル間レベル差（ICLD）の値に基づき実行されてもよい。従って、仮想的に生成される「スピーカ」の数をN個とする場合、N-1個の未知変数を含むN-1個の数式を、ICLD値に基づきまず作成する。次に、各スピーカ数式の二乗の和を１に等しくなるように設定することによって、１つの独立チャンネルの推定利得を解くことが可能になり、その解かれた推定利得に基づいて、残りの推定利得をN-1個の数式から解くことができる。

例えば、仮想的に生成されるチャンネルの数が5の場合（N=5）、N-1個の数式は、L2=L1+ICLD1、L3=L1+ICLD2、L4=L1+ICLD3、およびL5=L1+ICLD4と作成されることができる。次に、それらの二乗の和が１に等しくなるように設定される。つまり、L1²+ (L1+ICLD1)²+ (L1+ICLD2)²+ (L1+ICLD3)² + (L1+ICLD4)² = 1となるようにする。次に、L1の値を解くことが可能であり、L1に基づき、残りの利得レベル値L2〜L5を解くことができる。

簡素化するため、前述の例は、入力チャンネル（M）が符号化器においてダウンミックスされて単一の結合（例えば、モノラル）チャンネルを形成するように説明される。しかしながら、実施形態は、特定のオーディオ処理用途に応じて、多数の入力チャンネル（M）が、ダウンミックスされて２つ以上の別々の結合チャンネル（S）を形成するような代替的な実装においても同様に適用可能である。ダウンミックスにより多数の結合チャンネルが生成される場合、結合チャンネルデータは、従来のオーディオ伝送技術を使用して伝送可能である。例えば、２つの結合チャンネルが生成される場合、従来のステレオ伝送技術を使用してもよい。この場合、BCC復号器は、BCC符号を抽出および使用して、２つの結合チャンネルからバイノーラル信号を合成できる。

実施形態によっては、合成されたバイノーラル信号における仮想的に生成された「スピーカ」の数（N）は、特定用途に応じて、入力チャンネル（M）の数と異なってもよい（多くても少なくてもよい）。例えば、入力オーディオが7.1サラウンドオーディオに相当し、バイノーラル出力オーディオが5.1サラウンドオーディオに相当するように合成されてもよく、または、その反対でもよい。

上記実施形態は、次のように一般化されることができる。すなわち、本発明の実施形態は、Ｍ個の入力オーディオチャンネルをＳ個の結合オーディオチャンネルおよび１つ以上の対応するサイド情報の組に変換可能にするものであり（Ｍ＞Ｓ）また、Ｓ個の結合オーディオチャンネルおよび対応するサイド情報の組からＮ個の出力オーディオチャンネルを生成するものである（Ｎ＞Ｓ）。Ｎは、Ｍと等しくとも異なっていてもよい。

１つの結合チャンネルおよび必要なサイド情報を伝送するのに必要なビットレートは非常に低いため、本発明は、特に、利用可能な帯域幅が無線通信システムなどのリソースが乏しいシステムに十分適用可能である。従って、実施形態は、特に、高品質のスピーカを一般的に含まない携帯端末またはその他の携帯型装置に適用可能であり、この場合、マルチチャンネルサラウンドオーディオの特徴は、実施形態に従うバイノーラルオーディオ信号を聴くためのヘッドフォンを介して導入可能である。実行可能な用途のさらなる分野には、テレビ会議サービスが含まれる。この場合、電話会議出席者が会議室の異なる位置に居るという印象をリスナーに与えることによって、テレビ会議の出席者を容易に区別することができる。

図４は、データ処理装置（TE）の簡素化構造を示す。このデータ処理装置において、本発明に従うバイノーラル復号システムを実装することが可能である。データ処理装置（TE）は、例えば、携帯端末、PDA装置、またはパーソナルコンピュータ（PC）であることが可能である。データ処理ユニット（TE）は、I/O手段（I/O）、中央処理装置（CPU）、およびメモリ（MEM）を備える。メモリ（MEM）は、ランダムアクセスメモリRAMおよびFLASHメモリなどの、読取専用メモリROM部分および再書き込み可能部分を備える。CD-ROM、その他の装置、およびユーザなどの様々な外部装置と通信するために使用される情報は、I/O手段（I/O）を介して中央処理装置（CPU）によって送受信される。データ処理装置が移動局として実装される場合、データ処理装置は、一般的に送受信機Tx/Rxを備え、この送受信機Tx/Rxは、無線線ネットワークと通信し、一般的にはアンテナを介して基地局（BTS）と通信する。ユーザインターフェース（UI）機器は、一般的に、ディスプレイ、キーパッド、マイク、およびヘッドフォン用接続手段を備える。データ処理装置は、種々のハードウェアモジュール用または集積回路ICとしての標準型スロットなどの接続手段MMCをさらに備えて、データ処理装置において実行される種々のアプリケーションを提供してもよい。

従って、本発明に従うバイノーラル復号システムは、データ処理装置の中央処理装置（central processing unit; CPU）または専用のデジタル信号プロセッサ（digital signal processor; DSP）（パラメトリック符号化プロセッサ）において実行されてもよい。従って、データ処理装置は、複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含むパラメトリック符号化されたオーディオ信号を受信する。パラメトリック符号化されたオーディオ信号は、CD-ROMなどのメモリ手段から、あるいはアンテナおよび送受信機を介した無線ネットワークから受信されてもよい。データ処理装置は、適切なフィルタバンクおよび頭部伝達関数フィルタの既定の組をさらに備える。従って、データ処理装置は、結合信号を周波数領域に変換し、頭部伝達関数フィルタの適切な左右の組を、対応するサイド情報の組によって決定される割合で結合信号に適用することによって、バイノーラルオーディオ信号を合成し、ヘッドフォンを介して再生する。

同様に、本発明に従う符号化システムも、データ処理装置の中央処理装置（CPU）または専用のデジタル信号プロセッサ（DSP）において実行されることができる。従って、データ処理装置は、複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネルオーディオのチャンネル信号の推定利得を含む１つ以上の対応するサイド情報の組とを含むパラメトリック符号化されたオーディオ信号を生成する。

本発明の機能は、移動局などの端末装置において実装されてもよく、また、コンピュータプログラムとして実装されてもよい。このコンピュータプログラムは、中央処理装置CPUまたは専用のデジタル信号プロセッサDSPにおいて実行されると、本発明の手順を実行するように端末装置に作用する。コンピュータプログラムSWの機能は、相互に通信するいくつかの別々のプログラム要素に分散されてもよい。コンピュータソフトウェアは、PCのハードディスクまたはCD-ROMディスクなど如何なるメモリ手段にも保存されてもよく、そこから携帯端末のメモリにロード可能である。また、コンピュータソフトウェアは、例えば、TCP/IPプロトコルスタックを使用してネットワークを介してロード可能である。

また、ハードウェアソリューションあるいはハードウェアおよびソフトウェアソリューションの組み合わせを使用して、発明の手段を実行することも可能である。従って、上記のコンピュータプログラムは、モジュールを電子装置に接続するための接続手段を備えるハードウェアモジュールにおける例えばASICまたはFPGA回路などのハードウェアソリューションとして、あるいは１つ以上の集積回路として、少なくとも部分的に実装可能である。このハードウェアモジュールまたはICは、上記プログラムコードタスクを実行するための種々の手段をさらに含み、また、上記手段は、ハードウェアおよび／またはソフトウェアとして実装される。

本発明は、上に提示された実施形態だけに限定されないが、添付の請求項の範囲内で修正可能であることは明らかである。

従来技術に従う一般的なバイノーラルキュー符号化（Binaural Cue Coding; BCC）スキームを示す。従来技術に従うBCC合成スキームの一般構造を示す。本発明の実施形態に従う、バイノーラル復号器のブロック図を示す。簡易ブロック図において、本発明の実施形態に従う電子装置を示す。

Claims

バイノーラルオーディオ信号を合成するための方法であって、
複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含む、パラメトリック符号化されたオーディオ信号を入力することと、
バイノーラルオーディオ信号を合成するために、前記対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用することと、
を含む、方法。
前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルオーディオの各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組を適用すること、
をさらに含む、請求項１に記載の方法。
前記サイド情報の組は、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、
請求項１または２に記載の方法。
前記サイド情報の組は、オリジナルのマルチチャンネル音響イメージにおけるスピーカの数およびリスニング位置に対する位置と、使用されるフレーム長とをさらに含む、
請求項３に記載の方法。
前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューを含み、
前記BCCスキームの前記チャンネル間キューのうちの少なくとも１つに基づき、オリジナルのマルチチャンネルオーディオにおける推定利得の組を計算すること、
をさらに含む、請求項１または２に記載の方法。
オリジナルのマルチチャンネルオーディオにおける前記推定利得の組を、時間および周波数の関数として決定することと、
各利得値の二乗の和が１に等しくなるように、スピーカチャンネル毎に利得を調整することと、
をさらに含む、請求項３から５のいずれかに記載の方法。
前記少なくとも１つの結合信号を、使用されるフレーム長の時間フレームに分割し、続いてそのフレームを窓掛けすることと、
前記頭部伝達関数フィルタを適用する前に、前記少なくとも１つの結合信号を周波数領域に変換することと、
をさらに含む、請求項１から６のいずれかに記載の方法。
前記頭部伝達関数フィルタを適用する前に、前記少なくとも１つの結合信号を、周波数領域において、心理音響学的に導かれた複数の周波数帯域に分割すること、
をさらに含む、請求項７に記載の方法。
前記少なくとも１つの結合信号を、周波数領域おいて、等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールに従う32個の周波数帯域に分割すること、
をさらに含む、請求項８に記載の方法。
前記少なくとも１つの結合信号を周波数領域に変換することは、前記少なくとも１つの結合信号を分解すべくＱＭＦフィルタを使用して実行される、
請求項７から９のいずれかに記載の方法。
左側信号及び右側信号の各々について、各前記周波数帯域における前記頭部伝達関数フィルタの出力をそれぞれ加算することと、
バイノーラルオーディオ信号の左側成分および右側成分を生成するために、前記加算された左側信号と前記加算された右側信号とを、時間領域に変換することと、
をさらに含む、請求項８から１０のいずれかに記載の方法。
ステレオオーディオ信号を合成するための方法であって、
複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含むパラメトリック符号化されたオーディオ信号を入力することと、
ステレオオーディオ信号を合成するために、前記対応するサイド情報の組によって決定される割合で、既定の利得値を有するダウンミックスフィルタの組を前記少なくとも１つの結合信号に適用することと、
を含む方法。
複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含む、パラメトリック符号化されたオーディオ信号を処理するためのパラメトリック符号化プロセッサと、
バイノーラルオーディオ信号を合成するために、前記対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用するための合成器と、
を備える、パラメトリックオーディオ復号器。
前記合成器は、前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルオーディオの各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組を適用するように構成される、
請求項１３に記載の復号器。
前記サイド情報の組は、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、
請求項１３または１４に記載の復号器。
前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューを含み、
前記BCCスキームの前記チャンネル間キューのうちの少なくとも１つに基づき、オリジナルのマルチチャンネルオーディオにおける推定利得の組を計算する、
請求項１３または１４に記載の復号器。
前記少なくとも１つの結合信号を、使用されるフレーム長の時間フレームに分割する手段と、
前記フレームに窓掛けする手段と、
前記頭部伝達関数フィルタを適用する前に、前記少なくとも１つの結合信号を周波数領域に変換する手段と、
をさらに備える、請求項１３から１６のいずれかに記載の復号器。
前記頭部伝達関数フィルタを適用する前に、前記少なくとも１つの結合信号を、周波数領域おいて、心理音響学的に導かれた複数の周波数帯域に分割する手段、
をさらに備える、請求項１７に記載の復号器。
前記少なくとも１つの結合信号を周波数領域において分割する前記手段は、前記少なくとも１つの結合信号を、等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールに従う３２個の周波数帯域に分割するように構成されるフィルタバンクを備える、
請求項１８に記載の復号器。
前記少なくとも１つの結合信号を周波数領域に変換する手段は、前記少なくとも１つの結合信号を分解するように構成されるQMFフィルタを備える、
請求項１７から１９のいずれかに記載の復号器。
左側信号及び右側信号の各々について、各前記周波数帯域における前記頭部伝達関数フィルタの出力をそれぞれ加算するための加算部と、
バイノーラルオーディオ信号の左側成分および右側成分を生成するために、前記加算された左側信号と前記加算された右側信号とを、時間領域に変換するための変換部と、
をさらに備える、請求項１７から２０のいずれかに記載の復号器。
複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含む、パラメトリック符号化されたオーディオ信号を処理するためのパラメトリック符号化プロセッサと、
ステレオオーディオ信号を合成するために、前記対応するサイド情報の組によって決定される割合で、既定の利得値を有するダウンミックスフィルタの組を前記少なくとも１つの結合信号に適用するための合成器と、
を備える、パラメトリックオーディオ復号器。
コンピュータ可読媒体に保存され、かつデータ処理装置において実行可能であるコンピュータプログラムであって、複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含むパラメトリック符号化されたオーディオ信号を処理するために、
前記少なくとも１つの結合信号を周波数領域に変換することを制御するためのコンピュータプログラムコード部分と、
バイノーラルオーディオ信号を合成するために、前記対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用するためのコンピュータプログラムコード部分と、
を備える、コンピュータプログラム。
バイノーラルオーディオ信号を合成する装置であって、
複数のオーディオチャンネルの結合信号を少なくとも１つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を１つ以上含む、パラメトリック符号化されたオーディオ信号を入力する手段と、
バイノーラルオーディオ信号を合成するために、前記対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも１つの結合信号に適用する手段と、
前記バイノーラルオーディオ信号をオーディオ再生手段に供給する手段と、
を備える、装置。
前記装置は、携帯端末、PDA装置、またはパーソナルコンピュータである、請求項２４に記載の装置。
パラメトリック符号化されたオーディオ信号を生成するための方法であって、
複数のオーディオチャンネルを含むマルチチャンネルオーディオ信号を入力することと、
前記複数のオーディオチャンネルの結合信号を少なくとも１つを生成することと、
前記複数のオーディオチャンネルの推定利得を含む、１つ以上の対応するサイド情報の組を生成することと、
を含む、方法。
個々の各チャンネルの利得レベルを前記結合信号の累積利得レベルと比較することによって、前記推定利得を計算することをさらに含む、
請求項２６に記載の方法。
前記サイド情報の組は、オリジナルのマルチチャンネル音響イメージにおけるスピーカの数およびリスニング位置に対する位置と、使用されるフレーム長とをさらに含む、
請求項２６または２７に記載の方法。
前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューをさらに含む、
請求項２６から２８のいずれかに記載の方法。
オリジナルのマルチチャンネルオーディオにおける前記推定利得の組を、時間および周波数の関数として決定することと、
各利得値の二乗の和が１に等しくなるように、スピーカチャンネル毎の前記利得を調整することと、
をさらに含む、請求項２６から２９のいずれかに記載の方法。
パラメトリック符号化されたオーディオ信号を生成するためのパラメトリックオーディオ符号化器であって、
複数のオーディオチャンネルを含むマルチチャンネルオーディオ信号を入力する手段と、
前記複数のオーディオチャンネルの結合信号を少なくとも１つを生成する手段と、
前記複数のオーディオチャンネルの推定利得を含む、１つ以上の対応するサイド情報の組を生成する手段と、
を備える、符号化器。
個々の各チャンネルの利得レベルを前記結合信号の累積利得レベルと比較することによって、前記推定利得を計算する手段をさらに備える、
請求項３１に記載の符号化器。
コンピュータ可読媒体に保存され、かつデータ処理装置において実行可能であるコンピュータプログラムであって、パラメトリック符号化されたオーディオ信号を生成するために、
複数のオーディオチャンネルを含むマルチチャンネルオーディオ信号を入力するコンピュータプログラムコード部分と、
前記複数のオーディオチャンネルの結合信号を少なくとも１つを生成するコンピュータプログラムコード部分と、
前記複数のオーディオチャンネルの推定利得を含む、１つ以上の対応するサイド情報の組を生成するコンピュータプログラムコード部分と、
を備える、コンピュータプログラム。