JP2009543389A

JP2009543389A - バイノーラル音響信号の動的な復号

Info

Publication number: JP2009543389A
Application number: JP2009517304A
Authority: JP
Inventors: パスィオヤラ; ユリアトゥルク
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2006-07-08
Filing date: 2007-06-18
Publication date: 2009-12-03
Anticipated expiration: 2027-06-18
Also published as: EP2038880A1; WO2008006938A1; KR101054932B1; JP4708493B2; US7876904B2; CN101490743B; EP2038880B1; US20080008327A1; CN101490743A; KR20090018861A; EP2038880A4; HK1132365A1

Abstract

複数の音響チャネルが結合した少なくとも１つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含む１つ以上のサイド情報のセットとを含むパラメトリックに符号化された音響信号を入力することと；バイノーラル音響信号における音響源の水平位置および垂直位置のうち少なくとも１つを表現する音響源配置データを、前記チャネル構成情報から抽出することと；頭部伝達関数フィルタの所定のセットから、音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を選択すること、ただし、頭部伝達関数フィルタの左右の対は、好適には、水平面において段階的動作で探索される、該選択することと；処理済みの少なくとも１つの信号から、サイド情報および前記チャネル構成情報に従ってバイノーラル音響信号を合成することとを含む方法。
【選択図】図７

Description

発明の分野

本発明は、空間音響符号化（spatial audio coding）に関し、特に、バイノーラル音響信号（binaural audio signal）の動的な復号を制御することに関する。

発明の背景

空間音響符号化では、別々の音響チャネルで再生される音響信号が互いに異なるように、２チャネル又はマルチチャネルで音響信号が処理され、それによって、聴取者に音響源周囲の立体感という効果が提供される。立体感は、マルチチャネルまたはバイノーラル再生に適切なフォーマットに音響を直接録音することによって作ることができる。または、立体感は、任意の２チャネル又はマルチチャネル音響信号で人工的に作ることができ、これは空間化（spatialization）として既知である。

ヘッドホン再生については、人工的な空間化は、聴取者の左右の耳用のバイノーラル信号を生じるHRTF（Head Related Transfer Function：頭部伝達関数）フィルタリングにより実行できるということが広く知られている。音源信号は、それらの発生方向に対応するHRTFから得られるフィルタでフィルタリングされる。HRTFは、自由音場において、音源から人の耳または人工骨頭まで測定し、頭部の代わりに頭部の中心に置かれたマイクロホンまでの伝達関数で割った伝達関数である。人工的な室内効果（例えば、早期反射および/または後期残響）を、空間化信号に付加し、発信源の外在化および自然さを強化することができる。

バイノーラル・キュー・コーディング（BCC:Binaural Cue Coding）は、マルチチャネル・スピーカ・システム向けに設計された、高度に発達したパラメトリック空間音響符号化方法（parametric spatial audio coding method）である。BCCは、単一の（またはいくつかの）ダウンミックス済み音響チャネル、および原信号から周波数および時間の関数として推定される知覚関連のチャネル間の差のセットとして、空間マルチチャネル信号を符号化する。この方法では、任意のスピーカ配置用にミックスされた空間音響信号を、同じかまたは異なる数のスピーカから成る他の任意のスピーカ配置用に変換することができる。BCCは、ヘッドホンでの聴取用にマルチチャネル音響信号を変換することも可能にする。それによって、HRTFフィルタリングを用いることで元のスピーカが仮想スピーカに置き換えられ、スピーカのチャネル信号がHRTFフィルタを通して再生される。

下記非特許文献１は、例えばBCCデコーダ向けなどの、バイノーラル・デコーダ向けに設計された音響像レンダリング・システムを開示している。このデコーダは、考えられるスピーカの位置それぞれを表すのに十分な数のHRTFフィルタの対を含む。音響像レンダリングは、音響像制御ビットストリームに基づいて実施される。音響像制御ビットストリームは、サイド情報としてデコーダへ伝送される、差別的かつ絶対的な音源（スピーカなど）配置から成ればよく、これに従ってHRTFフィルタの対が選択される。したがって、コンテンツ作成者は、スピーカの位置が物理的に固定されているスピーカ表現よりも柔軟にバイノーラル・コンテンツの動的な音響像を設計できる。
ISO/IEC JTC 1/SC 29/WG 11/M13233, Ojala P., Jakka J. "Further information on binaural decoder functionality", April 2006, Montreux

デコーダが十分な数のHRTFフィルタの対を含んでいれば、上記の設計は、音響像レンダリングに対して非常に柔軟かつ用途の広い変化を提供する。しかし、バイノーラル・デコーダ標準は、HRTFセットについて特に要求を定めてはいない。したがって、コンテンツ作成は、バイノーラル・デコーダ内の利用可能なHRTFフィルタのデータベースについて何も認識していない。その結果、音響像制御ビット・ストリームと平行して伝えられる音源配置情報は、バイノーラル・デコーダ内の利用可能なHRTFフィルタ・セットの分解能を超えることがあり、またはそれに正確に一致しないこともある。結果として、デコーダは、矛盾したHRTFフィルタ・セットが原因で音響像制御を省略することもあり、それによって認識される音響像が、コンテンツ作成者が意図したものと大きく異なることもある。

発明の摘要

デコーダがHRTFフィルタの限られたセットしか含まない場合でも、動的なバイノーラル制御が利用可能となるよう改善された方法、及び当該方法を実装する技術装置が発明された。本発明の種々の態様は、方法、装置、デコーダ、エンコーダ、コンピュータ・プログラムおよびモジュールを含み、これらは独立請求項に記載の事項を特徴とする。本発明の種々の実施形態が、従属請求項にて開示される。

第1の態様によれば、本発明による方法は、複数の音響チャネルが結合した少なくとも１つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含むサイド情報の１つ以上のセットとを含むパラメトリックに符号化された（parametrically encoded）音響信号を入力することと；バイノーラル音響信号における音響源の水平位置および/または垂直位置を表現する音響源配置データを、前記チャネル構成情報から抽出すること；頭部伝達関数フィルタの所定のセットから、音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を選択すること、ただし、頭部伝達関数フィルタの左右の対は、空間音響像において探索される、該選択すること；および、処理済みの該少なくとも１つの信号から、サイド情報および前記チャネル構成情報に従ってバイノーラル音響信号を合成することという発想に基づく。

ある実施形態では、頭部伝達関数フィルタの左右の対は、水平面において段階的動作で探索される。

ある実施形態では、音源移動の角速度は、音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を探索する間、一定に保たれる。

ある実施形態では、段階的動作は、水平面において複数の仰角で10度または20度の複数ステップで行われる。

ある実施形態では、方法は、音響源配置データが、音像内の特異な位置（頂点）に交差する音源の移動を意味するかどうかを監視し；肯定であれば、特異な位置の交差後に、音源配置の水平角を、計算上180度回転させることをさらに含む。

本発明による構成は大きな利点を提供する。主要な利点は、水平面における音源移動の角速度が一定である結果、制御情報のビットレートを最小限に抑えることができるということである。さらに、デコーダがHRTFフィルタの限られたセットしか含まなくても、動的なバイノーラル制御が利用可能である。コンテンツ作成の観点からすると、実現し得る音響像の最良の近似が常に実現されるため、動的制御を確実に利用することができる。

第2の態様は、パラメトリックに符号化された音響信号を生成する方法を提供する。本方法は、複数の音響チャネルを含むマルチチャネル音響信号を入力することと；複数の音響チャネルが結合した少なくとも１つの結合信号を生成することと；バイノーラル音響信号の合成において音響源配置を制御するためのチャネル構成情報を含むサイド情報の１つ以上の対応するセットを生成することとを含む。チャネル構成情報は、バイノーラル音響信号の合成中に、頭部伝達関数フィルタの所定のセットから、空間音響像において音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を探索するための情報を含んでいる。

ある実施形態では、チャネル構成情報は、音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を、段階的動作で探索するための情報を含んでいる。

したがって、この態様は、コンテンツ作成者が、少なくとも一定の場合においては、バイノーラル・ダウンミックスにおけるインクリメントステップ（incremental steps）の使用を制御することができるようにする。そしてその場合、符号化において、所望のインクリメントステップおよびそれらの方向が、ビットストリームのチャネル構成情報に含められる。

さらに以下にある実施形態の詳細な開示を考慮すると、本発明のこれらの態様および他の態様、ならびにそれに関連する実施形態が明らかとなる。

以下では、添付の図面を参照しつつ、本発明の種々の実施形態がさらに詳細に説明される。

従来技術による一般的なバイノーラル・キュー・コーディング（BCC）スキームを示す。従来技術によるBCC合成スキームの一般的な構造を示す。チャネル構成情報を用いた、強化されたバイノーラル・キュー・コーディング（BCC）スキームを示す。適切に選択されたHRTFフィルタリングを用いるバイノーラル復号スキームを示す。水平面における、空間音響像の音源配置変更の例を示す。水平面における、空間音響像の音源配置変更の例を示す。水平面および垂直面両方において考えられる音源位置の投影を示す。本発明の実施形態による方法を流れ図で示す。本発明の実施形態による装置を単純化したブロック図で示す。

実施形態の説明

実施例をより具体的にするために、上記非特許文献１で開示されているバイノーラル・デコーダおよびその動作についてここで簡潔に説明する。まず、バイノーラル・デコーダの基礎的な情報として、実施例における符号化および復号スキームを実装する例示のプラットフォームとして、バイノーラル・キュー・コーディング（BCC）の概念を簡潔に紹介する。なお、本発明はBCC形式の空間音響符号化方法だけに限定されるのではなく、１つ以上の音響チャネルのオリジナルのセットと、適切な空間サイド情報とを結合した少なくとも１つの音響信号を提供する任意の音響符号化スキームにおいて実装することができる。例えば、本発明は、BCCスキームを活用するがそれをさらに拡張するMPEGサラウンド符号化スキームにおいて利用されてもよい。

バイノーラル・キュー・コーディング（BCC）は、空間音響のパラメトリック表現の一般概念であり、単一の音響チャネル、さらにいくらかのサイド情報から、任意の数のチャネルを用いたマルチチャネル出力を提供する。図1はこの概念を示す。いくつか（M）の入力音響チャネルが、ダウンミックス処理によって、単一の出力（S；"和（sum）"）信号へと結合される。同時に、マルチチャネル音像を表現する最も顕著なチャネル間キューが入力チャネルから抽出され、BCCサイド情報として簡潔に符号化される。続いて、和信号およびサイド情報はどちらも受信側へ伝送されるが、これには場合によって、和信号を符号化するのに適した低ビットレート音響符号化スキームが使用される。受信側では、BCCデコーダがユーザ入力としてスピーカの数（N：number）を認識している。最後に、BCCデコーダは、チャネル出力信号を再合成することによって、伝送された和（SUM）信号および空間キュー情報からマルチチャネル（N）出力信号を生成し、、スピーカへ送る。この出力信号は、チャネル間時間差（ICTD：Inter‐channel Time Difference）、チャネル間レベル差（ICLD：Inter‐channel Level Difference）、およびチャネル間コヒーレンス（ICC：Inter‐channel Coherence）など、関連のチャネル間キューを伝える。したがって、BCCサイド情報、すなわちチャネル間キューは、特にスピーカ再生用のマルチチャネル音響信号の再構成を最適化することを考慮して選ばれる。BCCサイド情報は非常に低いビットレート（例えば2kb/s）しか必要としないため、BCCスキームは、1音響チャネルの伝送に必要なビットレートよりもわずかに高いビットレートをもたらす。

図2は、BCC合成スキームの一般的な構造を示す。伝送されるモノラル信号（mono signal）（和, SUM）は、まず時間領域で複数フレームへとウィンドウ化され（windowed）、次にFFT（Fast Fourier Transform：高速フーリエ変換）処理およびフィルタバンク（FB：filterbank）によって適切なサブバンドのスペクトル表現にマップされる。あるいは、例えばQMF（Quadrature Mirror Filter：直交ミラー・フィルタ）分析を用いて時間周波数分析を行うことも可能である。再生チャネルの一般的なケースでは、ICLDおよびICTDが、チャネルのペアの間の各サブバンドにおいて、すなわち参照チャネルに関連して各チャネルについて考慮される。サブバンドは、十分高い周波数分解能が達成されるように選択される。例えば、一般的に、ERBスケール（Equivalent Rectangular Bandwidth：等価矩形帯域幅）の2倍に等しいサブバンド幅が適切と考えられている。生成される各出力チャネルについて、個々の時間遅延ICTDおよびレベル差ICLDがスペクトル係数に加えられ、その後に、合成済み音響チャネル間のコヒーレンスや相関（ICC）の最適な特徴を再導入するコヒーレンス合成処理が続く。最後に、すべての合成済み出力チャネルが、IFFT処理（Inverse FFT：逆高速フーリエ変換）、あるいは逆QMFフィルタリングによって時間領域表現へと変換し直され、マルチチャネル出力が作られる。BCC手法のより詳細な説明については、下記非特許文献２や３を参照されたい。
F. Baumgarte and C. Faller: "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003 C. Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003

前掲非特許文献１で紹介されているバイノーラル・デコーダは、BCC手法に基づく。図3に描かれているように、デコーダの入力信号はエンコーダにより生成され、エンコーダは複数の入力音響チャネル（M）を１つ以上の結合信号（S）へと結合すると同時に、マルチチャネル音像を、適用可能なHRTFパラメータを用いてBCCサイド情報（SI：side information）として符号化する。

なお、マルチチャネル・スピーカ再生と対照的に、バイノーラル再生は、音響像の構築においてさらなる柔軟性を可能にする。例えば、音源の位置決めには完全な3D空間が利用可能であるに対して、5.1サラウンドなどのマルチチャネル・スピーカ構成の音響像は、わずかな分解能の方位（水平）面に限られている。バイノーラル再生のさらなる可能性を生かすために、既定のスピーカ位置よりも多い方向を対象とするHRTFセットが必要とされており、音響像を制御するシステムが求められている。

そこで、エンコーダはさらに、バイノーラル再生が選択されているときに音響像の操作を可能にする操作情報（チャネル構成情報,CC：channel configuration）、すなわち音響源配置情報を生成する。コンテンツ作成者は、この操作情報を生成し、ビットストリームに加える。音響源配置情報は、音響表現全体にわたって静的とすることができるので、ヘッダ情報としては音響ストリームの先頭に単一の情報ブロックのみがあればよい。音響シーンは動的であってもよく、伝送されるビットストリームに配置更新が含まれてもよい。発信源の配置の更新頻度は、性質上、可変レートである。したがって、算術符号化を利用して、情報を転送用に効率よく符号化することができる。これは、ビットレートをできる限り低く保つことを考えると重要である。

図4は、復号処理をより詳しく示す。１つまたは２つのダウンミックス済み音響チャネル（和信号，SUM信号）から成る入力信号が、まずQMF領域に変換され、その後、空間サイド情報パラメータがHRTFパラメータと共に適用され、バイノーラル音響が構成される。続いて、バイノーラル音響信号は、バイノーラル・ダウンミックス処理を受け、これは今度はチャネル構成情報（CC）により制御される。バイノーラル・ダウンミックス処理では、静的なスピーカ位置に対応するHRTFフィルタではなく、チャネル構成情報（CC）に基づき各音響源に対してフィルタの対が選択され、その結果、チャネル構成情報（CC）に従って、使用されるHRTFの対が変更される。この変更は、ヘッドホンでの聴取者が感知する空間音響像における音源の配置を移動させる。実際には、水平面では10度、および垂直方向（仰角）では30度のチャネル分解能があれば、完全な３D音響シーンにおいて音源を滑らかに移動可能にするには十分である。HRTFフィルタの対が選択された後、図4に描かれているようにフィルタリングが実施される。次に、QMF合成が適用されて、バイノーラル信号が時間領域に変換される。

空間音響像における音源配置の水平方向（方位）の変更が図5aおよび5bに示されている。図5aで、ヘッドホンでの聴取者向けにバイノーラル音響信号として空間音響像が構築され、ここでは、点線のスピーカ位置（すなわち音源）が、従来の5.1スピーカ構成に従って構築されている。聴取者の前にあるスピーカ（FLおよびFR）は、中央スピーカ（C：centre）から30度のところに配置されている。後方スピーカ（RLおよびRR）は、中央から計算して110度のところに配置されている。バイノーラル効果の結果、ヘッドホンを用いたバイノーラル再生において、音源は、実際の5.1再生と同じ配置であるように思われる。

図5bでは、空間音響像が、バイノーラル領域（binaural domain）で音響像をレンダリングすることによって変更され、その結果、前方音源FLおよびFR（点線のスピーカ）がさらに離れるよう移動されて、拡大された空間像が構築されている。移動は、チャネル構成情報に従って、FLおよびFRチャネル信号用に異なるHRTFペアを選択することによって実現される。あるいは、再生中でも、音源のいずれか、またはすべてを異なる場所へ移動することができる。したがって、コンテンツ作成者は、バイノーラル音響コンテンツのレンダリング時の動的な音響像をより柔軟に設計できる。

図6は、水平面および垂直面両方での、考えられる音源位置の投影を示す。仮の聴取者が、投影の起点に位置する。この場合、水平面（0度の仰角）ならびに30度の仰角の次のレベルが20度の角度分解能を有する。分解能は、60度の仰角に音源位置を上げると、60度に下がる。最後に、聴取者の真上の頂点には１つの位置しかない。なお、図には半球の左側半分は示されていないが、これは単に図6の投影を正確にコピーしたものとなる。

図5a、5bおよび6の例は、上述のバイノーラル・デコーダを用いて得られる利点を明確に示す。これで、コンテンツ作成者は、バイノーラル・コンテンツ用に、スピーカ位置が物理的に固定されているスピーカ表現より動的な音響像を設計可能なように、デコーダにおけるバイノーラル・ダウンミックス処理を制御することができる。音源、すなわち仮想スピーカを、水平面または垂直面において移動させることによって、立体感を強化することができるであろう。音源は、再生中でも移動可能であり、したがって特別な音響効果が可能になる。

なお、音源が滑らかに移動できるようにするためには、水平面および垂直面の両方で空間音響像内の音源位置を自由に変更するべく、デコーダは十分な数のHRTFの対を含まなければならない。上述のバイノーラル・デコーダについては、音響像制御の成功には上半球に64のHRTFの対が必要であるという結論に至った。

しかしここで、デコーダが球（または半球）全体に及ぶ全帯域のHRTFフィルタの対を有しないこともあり、または分解能が、コンテンツ作成者がバイノーラル・レンダリング制御の構築時に意図したよりも粗いこともあるということから、問題が生じ得る。バイノーラル・デコーダ標準は、特定のHRTFセットを要求していない。したがって、コンテンツ作成は、バイノーラル・デコーダにおいて利用可能なHRTFフィルタ・データベースについて何も認識しておらず、そのため、ビットストリーム・シンタックスにより定義される分解能は完全に実現されないかもしれない。

ビットストリーム内のチャネル構成情報が、音源の配置における急激な変化、すなわち移動を含むと、さらに問題が生じる。上記のように、制御情報のビットレートはできる限り低く保たれなければならない。音源配置が急激に変化すると、デコーダに所望の移動を示す追加の符号語がビットストリームに含まれる必要がある。符号語の差分符号化という性質が原因で、一般的に、移動が大きいほど、変化を示すために必要な符号語が確実に長くなる。結果として、音源配置のいかなる急激な変化も、制御情報のビットレートを上げる。

ここで、これらの問題が実施例を用いて回避される。実施例によれば、デコーダは、チャネル構成情報において示された音源配置に最も近いHRTFフィルタの対を段階的動作で探索するよう構成されており、それによって、音源の移動の角速度は、デコーダにおける実際の音源配置分解能に関わらず、一定に保たれる。急激な変化、すなわち長い符号語がビットストリームの制御情報において示される必要がないため、制御情報のビットレートが最小限に抑えられ、有利であると思われる。例えば、急激な移動を示す長い符号語用に特に予約されたビットを除外することによって、制御情報のシンタックスが簡略化されてもよい。

ある実施例では、示された音源配置に最も近いHRTFフィルタの対を探索する段階的動作は、可能性がある仰角すべてにおいて、水平面で10度のステップで行われる。図6に示されているように、音源配置の分解能は、仰角が大きいほど（例えば45度超）必然的に方位面よりも粗くなる。ここで、制御情報により示される音源の移動が垂直方向のみであると、対応する水平角に利用可能な「より高い」音源配置がないということが起こり得る。したがって、特定の仰角で最も近いHRTFフィルタの対が探索されなくてはならず、これは、水平面において、インクリメントステップ、好適には10度のステップとして実行され、有利である。この場合もやはり、いかなる追加の制御情報もなしで、所望の音源配置の、実現し得る最良近似を確実に発見することができる。

当業者には、上述の10度のステップが、最良のHRTFフィルタの対を探索するのに使用できる適切なインクリメントステップの一例でしかないということが分かる。デコーダの構造によっては、例えば20度が適切なインクリメントステップということもあり得る。したがって、その他任意の適切な値、好適には5度から30度の間の任意の値が、インクリメントステップとして使用され得る。

上記の実施例は大きな利点を提供する。水平面における音源移動の一定の角速度の結果、制御情報のビットレートを最小限に抑えることができる。さらに、デコーダがHRTFフィルタの限られたセットしか含まないとしても、動的なバイノーラル制御を利用可能である。コンテンツ作成の観点からすると、音響像の実現し得る最良近似を常に得られるため、動的制御を確実に利用可能である。

音源が、半球の「頂点」上、または近くに移動され、それによって必要な角速度が無限大に達すると、特別な場合が生じる。例えば、音源が45度の角度方向に位置しており、仰角が段階的に大きくなり最終的に90度（頂点）に交差すると、角度方向は、45＋180＝225度に変更される必要がある。180度の変更は、限られた差分符号化では必ずしも可能でない。

ある実施例では、デコーダは、音源移動において特異な位置（頂点）に交差するかどうかを監視するよう構成されており、肯定であれば、特異点位置の交差後に、デコーダは、音源位置の水平角を計算上180度回転させるよう、すなわち、デコーダは所望の発信源の角度に180度を足すよう構成されている。この計算動作は、増分の段階的動作を円滑に継続できるようにする。

ある実施例では、計算動作は、デコーダ・ソフトウェアへの軽微な追加として実施される。差分配置符号化でのデコーダの実装は、例えば以下のように実施されるとよい。

/* ビットストリームから差分動作を読み取る */
Angular_step ＝ decode_angular（bit_stream） /*ステップは角度（degree）*/
Elevation_step ＝ decode_elevation（bit_stream） /*ステップは角度（degree）*/

/* 鉛直角を更新 */
Elevation_angle ＋＝ Elevation_step；

/* 特異な位置（頂点）の交差を確認 */
If （Elevation_angle ＞ 90） /* サウンドが特異点を交差 */
Angular_angle_correction ＝ 180；
Else
Angular_angle_correction ＝ 0；

/* 水平角を更新 */
Angular_angle ＋＝ Angular_step ＋ Angular_angle_correction；

したがって、180度の絶対的な音源配置更新は必要ないが、特異点位置に対処するという問題に対しては、単純な計算動作で対処される。

特定の実施例が互いに代替案でしかないと明確にまたは暗に記載されていない限り、上述の実施例はいずれも、他の実施例の１つ以上との組み合わせとして実装されてもよいということが、当業者には分かる。

一部の実施例が、図7の流れ図にさらに示されている。これは、デコーダの動作の観点から描かれている。動作の出発点は、複数の音響チャネルが結合した少なくとも１つの結合信号を含むパラメトリックに符号化された音響信号と、チャネル構成情報も含んだサイド情報の１つ以上の対応するセットとが、デコーダに入力される（700）というものである。上記のように、チャネル構成情報は、バイノーラル音響信号における音響源の水平位置および/または垂直位置を表現する音響源配置データを含む。この音響源配置データは、チャネル構成情報から抽出される（702）。

ある実施例では、次に、特異点位置の交差の可能性が確認される。したがって、デコーダは、音響源配置データが、そのような、音像内の特異な位置（頂点）を交差する音源移動を意味するかどうかを監視する（704）。音響源配置データでそのような音源移動が示されると、特異な位置の交差後に、音源配置の水平角が、計算上180度回転させられる（706）。

特異点位置の処理が必要か否かに関わらず、デコーダはHRTFフィルタの左右の対を、水平面において、段階的動作で頭部伝達関数フィルタの所定のセットから探索し続ける（708）。その結果、音響源配置データに最も一致するHRTFフィルタの左右の対が選択される（710）。最後に、バイノーラル音響信号が、サイド情報およびチャネル構成情報に従って処理された少なくとも１つの信号から合成され（712）、その結果、音響源配置データにより示された音源の正しい場所の、少なくとも近くで音源が再生される。

最良のHRTFフィルタの対をインクリメントステップで探索し、特異点位置に対処する上記の実施例は、デコーダが、エンコーダからいかなる命令もなしで、所定のステップで自動的に最良のHRTFフィルタの対を探索し、選択するよう構成される、デコーダ固有の特徴として実施することができる。なお、少なくとも、インクリメントステップの使用は場合によって、コンテンツ作成者により制御されてもよく、それによって、所望のインクリメントステップおよびそれらの方向がエンコーダから受信されるビットストリームのチャネル構成情報（CC）に含まれてもよい。コンテンツ作成者が、180度での絶対的な音源配置の更新をビットストリームに含めて、デコーダによるいかなる介入もなしで、音源配置の水平角の回転を直接制御することも可能である。なお、これは、180度の変更を示すのに十分な長さの符号語を必要とする。すなわち、制御情報のビットレートが高くなる。

その結果、本発明の態様は、複数の音響チャネルを含むマルチチャネル音響信号からパラメトリックに符号化された音響信号を生成するためのパラメトリック音響エンコーダに関する。エンコーダは、複数の音響チャネルが結合した少なくとも１つの結合信号を生成する。さらに、エンコーダは、サイド情報の対応する１つ以上のセットを生成する。サイド情報は、バイノーラル音響信号の合成において音響源配置を制御するためのチャネル構成情報を含む。さらに、チャネル構成情報は、音響源配置データに最も一致するHRTFフィルタの左右の対を、バイノーラル音響信号の合成中に段階的動作で探索するための情報を含む。結果として、コンテンツ作成者は、デコーダにおけるバイノーラル・ダウンミックス処理と、インクリメントステップの使用とを制御することができる。立体感は、例えば音源（仮想スピーカ）を中心（中央）軸からさらに離すことによって、強化することができるであろう。さらに、１つ以上の音源が再生中に移動させられ、特別な音響効果を可能にすることができるであろう。したがって、コンテンツ作成者は、スピーカの位置が（物理的に）固定されているスピーカ表現に対するよりも、自由かつ柔軟に、バイノーラル・コンテンツの音響像を設計することができる。

エンコーダは、例えば、マルチチャネル音像を表現するチャネル間キューICTD、ICLDおよびICCに加えて、またはその代わりにチャネル構成情報を計算するようさらに構成されている、既知のBCCエンコーダとしてもよい。エンコーダは、利得推定内に、または、静的チャネル構成の場合は音響ストリームの先頭の単一の情報ブロックとして、または動的構成更新が使用されていれば伝送されるビットストリーム内に時々含まれる別個のフィールド内に、チャネル構成情報を符号化するとよい。続いて、和信号およびサイド情報の両方、さらにチャネル構成情報が受信側へ伝送されるが、これには、和信号を符号化するのに適した低ビットレート音響符号化スキームが使用されることが好ましい。

１つの結合チャネルおよび必要なサイド情報の伝送に必要なビットレートは非常に低いため、本発明は特に、ワイヤレス通信システムなど、利用可能な帯域幅が希少資源であるシステムに十分に適用できる。したがって、実施例は、一般的に高品質のスピーカを欠く移動端末、またはその他の携帯用デバイスにおいて特に適用可能であり、実施例によるバイノーラル音響信号を聴取するヘッドホンを介して、マルチチャネル・サラウンド・サウンドの特徴を取り入れることができる。実行可能な適用のさらなる分野には、電話会議サービスが含まれる。聴取者に会議通話の参加者が会議室の別々の位置にいるという印象を聴取者に与えることによって、電話会議の参加者を容易に識別することができる。

図8は、本発明によるバイノーラル復号システムを実装することができるデータ処理デバイス（TE）の簡略化された構造を示す。データ処理デバイス（TE）は、例えば、移動端末、PDAデバイスまたはパーソナル・コンピュータ（PC）とすることができる。データ処理ユニット（TE）は、I/O手段（I/O）、中央処理ユニット（CPU：central processing unit）およびメモリ（MEM：memory）を含む。メモリ（MEM）は、ランダム・アクセス・メモリRAM（random access memory）およびFLASHメモリなどの読み出し専用メモリROM（read−only memory）部および書き換え可能部を含む。例えばCD‐ROM、その他のデバイスおよびユーザなど、種々の外部パーティと通信するのに使用される情報は、I/O手段（I/O）を介して、中央処理ユニット（CPU）へ/から伝送される。データ処理デバイスが移動局として実装されると、一般的には、送受信機Tx/Rxが含まれる。送受信機Tx/Rxは、ワイヤレス・ネットワーク、一般的には基地局（BTS：base transceiver station）と、アンテナを介して通信する。ユーザ・インターフェース（UI：User Interface）機器は、一般的に、ディスプレイ、キーボード、マイクロホンおよびヘッドホン用の接続手段を含む。データ処理デバイスはさらに、種々のハードウェア・モジュール用、またはデータ処理デバイスにおいて種々のアプリケーションの実行を提供し得る集積回路IC（integrated circuits）として、標準形式のスロットなどの接続手段MMCを含むとよい。

したがって、本発明によるバイノーラル復号システムは、中央処理ユニットCPUまたはデータ処理デバイスの専用デジタル信号プロセッサDSP（digital signal processor）（パラメトリック符号プロセッサ）において実行されるとよく、それによって、データ処理システムは、複数の音響チャネルが結合した少なくとも１つの結合信号と、マルチチャネル音像を表現しバイノーラル音響信号の合成において音響源配置を制御するためのチャネル構成情報を含んだサイド情報の１つ以上の対応するセットとを含むパラメトリックに符号化された音響信号を受信する。パラメトリックに符号化された音響信号は、例えばCD‐ROMなどのメモリ手段から、またはアンテナおよび送受信機Tx/Rxを介してワイヤレス・ネットワークから受信されるとよい。処理ユニット（DSPまたはCPU）は、チャネル構成情報から、バイノーラル音響信号における音響源の水平位置および/または垂直位置を表現する音響源配置データを抽出する。データ処理デバイスはさらに、頭部伝達関数フィルタの所定のセットを含み、その中から、音響源配置データに最も一致する頭部伝達関数フィルタの左右の対が水平面における段階的動作で探索されるように、頭部伝達関数フィルタの左右の対が選択される。最後に、データ処理デバイスはさらに、サイド情報と前記チャネル構成情報とに従って処理された少なくとも１つの信号からバイノーラル音響信号を合成する合成器を含む。次に、バイノーラル音響信号はヘッドホンを介して再生される。

デコーダは、データ処理デバイスTEの一体部分として、すなわち内蔵型の構造として、デバイス内に実装することができる。または、デコーダは、必要な復号機能を含み様々な種類のデータ処理デバイスに取り付け可能な別個のモジュールであってもよい。必要な復号機能は、チップセット、すなわち集積回路、および集積回路をデータ処理デバイスに接続するのに必要な接続手段として実装されてもよい。

同様に、本発明による符号化システムも同じく、中央処理ユニットCPUまたはデータ処理デバイスの専用デジタル信号プロセッサDSPにおいて実行されてもよい。それによって、データ処理デバイスは、複数の音響チャネルが結合した少なくとも１つの結合信号と、サイド情報の１つ以上の対応するセットとを含むパラメトリックに符号化された音響信号を生成する。サイド情報は、バイノーラル音響信号の合成において音響源配置を制御するためのチャネル構成情報を含む。前記チャネル構成情報は、バイノーラル音響信号の合成中に、段階的動作で、頭部伝達関数フィルタの所定のセットから、音響源位置データに最も一致する頭部伝達関数フィルタの左右の対を探索するための方法を含む。

本発明の機能は、移動局などの端末デバイスにおいて実装されてもよく、中央処理ユニットCPUまたは専用デジタル信号プロセッサDSPにおいて実行されると本発明の手順を実行するよう端末デバイスに影響を及ぼすコンピュータ・プログラムとして実装されてもよい。コンピュータ・プログラム（ソフトウェア（SW：software））の機能は、互いに通信しているいくつかの別々のプログラム・コンポーネントに分配されてもよい。コンピュータ・ソフトウェアは、PCのハード・ディスクまたはDVDまたはCD‐ROMディスク、フラッシュ・メモリ、または同様のものなど、任意のメモリ手段に格納されればよく、そこから移動端末のメモリにコンピュータ・ソフトウェアがロードされることが可能である。コンピュータ・ソフトウェアはさらに、例えばTCP/IPプロトコル・スタックを使用し、ネットワークを介してロードすることができる。

発明の手段の実装には、ハードウェア・ソリューションまたはハードウェア・ソリューションとソフトウェア・ソリューションとの組み合わせを使用することもできる。したがって、上記のコンピュータ・プログラムは、少なくとも部分的に、ハードウェア・モジュールを電子デバイスに接続するための接続手段を含むハードウェア・モジュールにおいて、例えばASICまたはFPGA回路など、ハードウェア・ソリューションとして実装すること、または、１つ以上の集積回路ICとして実装することができる。ハードウェア・モジュールまたはICはさらに、前記プログラム・コードのタスクを実行するための種々の手段を含む。前記手段は、ハードウェアおよび/またはソフトウェアとして実装される。

当然のことながら、本発明は、上記で提示された実施例にのみに限定はされず、添付の特許請求の範囲の範囲内で変更することができる。

Claims

複数の音響チャネルが結合した少なくとも１つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含む１つ以上のサイド情報のセットとを含む、パラメトリックに符号化された音響信号を入力することと；
前記音響信号における複数の音響源の水平位置および垂直位置のうち少なくとも１つを表現する音響源配置データを、前記チャネル構成情報から抽出することと；
頭部伝達関数フィルタの所定のセットから、前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を選択すること、ただし、頭部伝達関数フィルタの前記左右の対は、空間音響像において探索される、前記選択することと；
処理済みの前記少なくとも１つの信号から、サイド情報および前記チャネル構成情報に従って、バイノーラル音響信号を合成することと
を含む方法。
水平面における段階的動作で、頭部伝達関数フィルタの前記左右の対を探索すること
をさらに含む、請求項１に記載の方法。
前記音源の移動の角速度制御を一定に保つことと；
前記音響源配置データに最も一致する頭部伝達関数フィルタの前記左右の対を探索することと
をさらに含む、請求項１または２に記載の方法。
前記段階的動作は、前記水平面において複数の仰角で１０度または２０度ステップで行われる、
請求項２に記載の方法。
前記音響源配置データが、前記音像内の特異点位置に交差する音源移動を意味するかどうかを監視することと；肯定であれば、
前記特異点位置の交差後に、音源配置の水平角を、計算上１８０度回転させることと
をさらに含む、請求項１から４のいずれかに記載の方法。
前記サイド情報のセットは、チャネル間時間差（ＩＣＴＤ）、チャネル間レベル差（ＩＣＬＤ）、およびチャネル間コヒーレンス（ＩＣＣ）など、バイノーラル・キュー・コーディング（ＢＣＣ）スキームにおいて使用されるチャネル間キューをさらに含む、
請求項１から５のいずれかに記載の方法。
バイノーラル音響信号を合成する前記ステップは、
バイノーラル・キュー・コーディング（ＢＣＣ）合成処理において、前記少なくとも１つの結合信号から、前記複数の音響チャネルの複数の音響信号を合成すること、ただし、前記ＢＣＣ合成処理は、サイド情報の前記１つ以上の対応するセットに従い制御される、前記合成することと；
前記複数の合成済み音響信号を、バイノーラル・ダウンミックス処理に印加することと
をさらに含む、請求項６に記載の方法。
複数の音響チャネルが結合した少なくとも１つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含む１つ以上のサイド情報のセットとを含むパラメトリックに符号化された音響信号を処理するパラメトリック符号プロセッサであって、前記音響信号における複数の音響源の水平位置および垂直位置のうち少なくとも１つを表現する音響源配置データが、前記チャネル構成情報から抽出される、前記パラメトリック符号プロセッサと；
頭部伝達関数フィルタの所定のセットであって、前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対が空間音響像において探索されるように、前記所定のセットから頭部伝達関数フィルタの前記左右の対が選択されるよう構成されている、前記所定のセットと；
処理済みの前記少なくとも１つの信号から、サイド情報および前記チャネル構成情報に従ってバイノーラル音響信号を合成する合成器と
を含む装置。
前記最も一致する頭部伝達関数フィルタの左右の対は、水平面における段階的動作で探索されるよう構成されている、
請求項８に記載の装置。
前記段階的動作は、水平面において複数の仰角で１０度または２０度の複数ステップで行われる、
請求項９に記載の装置。
前記音源の移動の角速度制御を一定に保ち、前記音響源配置データに最も一致する頭部伝達関数フィルタの前記左右の対を探索するための処理ユニット
をさらに含む、請求項８から１０のいずれかに記載の装置。
前記処理ユニットは、
前記音響源配置データが、前記音像内の特異な位置（頂点）に交差する音源移動を意味するかどうかを監視し；肯定であれば、
前記特異点位置の交差後に、音源配置の水平角を、計算上１８０度回転させる
よう構成されている、請求項１１に記載の装置。
前記サイド情報のセットは、チャネル間時間差（ＩＣＴＤ）、チャネル間レベル差（ＩＣＬＤ）、およびチャネル間コヒーレンス（ＩＣＣ）など、バイノーラル・キュー・コーディング（ＢＣＣ）スキームにおいて使用されるチャネル間キューをさらに含む、
請求項８から１２のいずれかに記載の装置。
前記合成器は、バイノーラル・キュー・コーディング（ＢＣＣ）合成処理において、前記少なくとも１つの結合信号から、前記複数の音響チャネルの複数の音響信号を合成するよう構成されており、前記ＢＣＣ合成処理は、サイド情報の前記１つ以上の対応するセットに従い制御され；前記装置は、
前記チャネル構成情報に従ってバイノーラル音響信号を合成するために、前記複数の合成済み音響信号が印加されるバイノーラル・ダウンミックス・ユニット
をさらに含む、
請求項１３に記載の装置。
前記装置は、移動端末、携帯情報端末デバイスまたはパーソナル・コンピュータである、請求項８から１４のいずれかに記載の装置。
複数の音響チャネルが結合した少なくとも１つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含む１つ以上のサイド情報のセットとを含むパラメトリックに符号化された音響信号を処理することを目的とし、コンピュータ可読媒体に格納されデータ処理デバイスにおいて実行可能なコンピュータ・プログラムであって、
前記音響信号における複数の音響源の水平位置および垂直位置のうち少なくとも１つを表現する音響源配置データを、前記チャネル構成情報から抽出するためのコンピュータ・プログラム・コード部分と；
頭部伝達関数フィルタの所定のセットから、前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を選択するためのコンピュータ・プログラム・コード部分であって、頭部伝達関数フィルタの前記左右の対は、空間音響像において探索される、前記コンピュータ・プログラム・コード部分と；
処理済みの前記少なくとも１つの信号から、サイド情報および前記チャネル構成情報に従ってバイノーラル音響信号を合成するためのコンピュータ・プログラム・コード部分と
を含む、コンピュータ・プログラム。
水平面における段階的動作で、頭部伝達関数フィルタの前記左右の対を探索するためのコンピュータ・プログラム・コード部分
をさらに含む、請求項１６に記載のコンピュータ・プログラム。
データ処理デバイスに取り付け可能であり、音響エンコーダを含むモジュールであって、前記音響エンコーダは、
複数の音響チャネルが結合した少なくとも１つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含む１つ以上のサイド情報のセットとを含むパラメトリックに符号化された音響信号を処理するパラメトリック符号プロセッサであって、前記バイノーラル音響信号における複数の音響源の水平位置および垂直位置のうち少なくとも１つを表現する音響源配置データが、前記チャネル構成情報から抽出される、前記パラメトリック符号プロセッサと；
頭部伝達関数フィルタの所定のセットであって、前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対が空間音響像において探索されるように、前記所定のセットから頭部伝達関数フィルタの前記左右の対が選択されるよう構成されている、前記所定のセットと；
処理済みの前記少なくとも１つの信号から、サイド情報および前記チャネル構成情報に従ってバイノーラル音響信号を合成する合成器と
を含む、モジュール。
前記最も一致する頭部伝達関数フィルタの左右の対は、水平面における段階的動作で探索されるよう構成されている、
請求項１８に記載のモジュール。
前記モジュールは、チップセットとして実装される、
請求項１８または１９に記載のモジュール。
パラメトリックに符号化された音響信号を生成する方法であって、
複数の音響チャネルを含むマルチチャネル音響信号を入力することと；
前記複数の音響チャネルが結合した少なくとも１つの結合信号を生成することと；
バイノーラル音響信号の合成において複数の音響源配置を制御するためのチャネル構成情報を含んだサイド情報の１つ以上の対応するセットを生成すること、ただし、前記チャネル構成情報は、前記バイノーラル音響信号の前記合成中に、頭部伝達関数フィルタの所定のセットから、空間音響像において前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を探索するための情報を含んでいる、前記生成することと
を含む方法。
前記チャネル構成情報は、前記音響源配置データに最も一致する頭部伝達関数フィルタの前記左右の対を、段階的動作で探索するための情報を含んでいる、
請求項２１に記載の方法。
前記音響源配置は、バイノーラル音響信号シーケンス全体にわたって静的であり、前記方法は、
前記チャネル構成情報を、前記バイノーラル音響信号シーケンスに対応するサイド情報の前記１つ以上の対応するセットに情報フィールドとして含めること
をさらに含む、請求項２１または２２に記載の方法。
前記音響源配置は可変であり、前記方法は、
前記チャネル構成情報を、前記音響源配置における変化を反映する複数の情報フィールドとして、サイド情報の前記１つ以上の対応するセットに含めること
をさらに含む、請求項２１または２２に記載の方法。
前記サイド情報のセットは、チャネル間時間差（ＩＣＴＤ）、チャネル間レベル差（ＩＣＬＤ）、およびチャネル間コヒーレンス（ＩＣＣ）など、バイノーラル・キュー・コーディング（ＢＣＣ）スキームにおいて使用されるチャネル間キューをさらに含む、
請求項２１から２４のいずれかに記載の方法。
パラメトリックに符号化された音響信号を生成するパラメトリック音響エンコーダであって、
複数の音響チャネルを含むマルチチャネル音響信号を入力する手段と；
前記複数の音響チャネルが結合した少なくとも１つの結合信号を生成する手段と；
バイノーラル音響信号の合成において複数の音響源配置を制御するためのチャネル構成情報を含んだサイド情報の１つ以上の対応するセットを生成する手段であって、前記チャネル構成情報は、前記バイノーラル音響信号の前記合成中に、頭部伝達関数フィルタの所定のセットから、空間音響像において音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を探索するための情報を含んでいる、前記手段と
を含むエンコーダ。
前記チャネル構成情報は、前記音響源配置データに最も一致する頭部伝達関数フィルタの前記左右の対を、段階的動作で探索するための情報を含んでいる、
請求項２６に記載のエンコーダ。
前記音響源配置がバイノーラル音響信号シーケンス全体にわたって静的であれば、前記チャネル構成情報を、前記バイノーラル音響信号シーケンスに対応するサイド情報の前記１つ以上の対応するセットに情報フィールドとして含める手段
をさらに含む、請求項２６または２７に記載のエンコーダ。
前記音響源配置が可変であれば、前記チャネル構成情報を、前記音響源配置における変化を反映する複数の情報フィールドとして、サイド情報の前記１つ以上の対応するセットに含める手段
をさらに含む、請求項２６または２７に記載のエンコーダ。
パラメトリックに符号化された音響信号を生成するよう、コンピュータ可読媒体に格納されデータ処理デバイスにおいて実行可能なコンピュータ・プログラムであって、
複数の音響チャネルを含むマルチチャネル音響信号を入力するためのコンピュータ・プログラム・コード部分と；
前記複数の音響チャネルが結合した少なくとも１つの結合信号を生成するためのコンピュータ・プログラム・コード部分と；
バイノーラル音響信号の合成において複数の音響源配置を制御するためのチャネル構成情報を含んだサイド情報の１つ以上の対応するセットを生成するためのコンピュータ・プログラム・コード部分であって、前記チャネル構成情報は、前記バイノーラル音響信号の前記合成中に、頭部伝達関数フィルタの所定のセットから、空間音響像において前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を探索するための情報を含んでいる、前記コンピュータ・プログラム・コード部分と
を含む、コンピュータ・プログラム。
前記音響源配置データに最も一致する頭部伝達関数フィルタの前記左右の対を段階的動作で探索するための情報を含んだ、チャネル構成情報を生成するためのコンピュータ・プログラム・コード部分
をさらに含む、請求項３０に記載のコンピュータ・プログラム。