JP2009543389A - バイノーラル音響信号の動的な復号 - Google Patents

バイノーラル音響信号の動的な復号 Download PDF

Info

Publication number
JP2009543389A
JP2009543389A JP2009517304A JP2009517304A JP2009543389A JP 2009543389 A JP2009543389 A JP 2009543389A JP 2009517304 A JP2009517304 A JP 2009517304A JP 2009517304 A JP2009517304 A JP 2009517304A JP 2009543389 A JP2009543389 A JP 2009543389A
Authority
JP
Japan
Prior art keywords
acoustic
binaural
channel
configuration information
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009517304A
Other languages
English (en)
Other versions
JP4708493B2 (ja
Inventor
パスィ オヤラ
ユリア トゥルク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2009543389A publication Critical patent/JP2009543389A/ja
Application granted granted Critical
Publication of JP4708493B2 publication Critical patent/JP4708493B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

複数の音響チャネルが結合した少なくとも1つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含む1つ以上のサイド情報のセットとを含むパラメトリックに符号化された音響信号を入力することと;バイノーラル音響信号における音響源の水平位置および垂直位置のうち少なくとも1つを表現する音響源配置データを、前記チャネル構成情報から抽出することと;頭部伝達関数フィルタの所定のセットから、音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を選択すること、ただし、頭部伝達関数フィルタの左右の対は、好適には、水平面において段階的動作で探索される、該選択することと;処理済みの少なくとも1つの信号から、サイド情報および前記チャネル構成情報に従ってバイノーラル音響信号を合成することとを含む方法。
【選択図】図7

Description

発明の分野
本発明は、空間音響符号化(spatial audio coding)に関し、特に、バイノーラル音響信号(binaural audio signal)の動的な復号を制御することに関する。
発明の背景
空間音響符号化では、別々の音響チャネルで再生される音響信号が互いに異なるように、2チャネル又はマルチチャネルで音響信号が処理され、それによって、聴取者に音響源周囲の立体感という効果が提供される。立体感は、マルチチャネルまたはバイノーラル再生に適切なフォーマットに音響を直接録音することによって作ることができる。または、立体感は、任意の2チャネル又はマルチチャネル音響信号で人工的に作ることができ、これは空間化(spatialization)として既知である。
ヘッドホン再生については、人工的な空間化は、聴取者の左右の耳用のバイノーラル信号を生じるHRTF(Head Related Transfer Function:頭部伝達関数)フィルタリングにより実行できるということが広く知られている。音源信号は、それらの発生方向に対応するHRTFから得られるフィルタでフィルタリングされる。HRTFは、自由音場において、音源から人の耳または人工骨頭まで測定し、頭部の代わりに頭部の中心に置かれたマイクロホンまでの伝達関数で割った伝達関数である。人工的な室内効果(例えば、早期反射および/または後期残響)を、空間化信号に付加し、発信源の外在化および自然さを強化することができる。
バイノーラル・キュー・コーディング(BCC:Binaural Cue Coding)は、マルチチャネル・スピーカ・システム向けに設計された、高度に発達したパラメトリック空間音響符号化方法(parametric spatial audio coding method)である。BCCは、単一の(またはいくつかの)ダウンミックス済み音響チャネル、および原信号から周波数および時間の関数として推定される知覚関連のチャネル間の差のセットとして、空間マルチチャネル信号を符号化する。この方法では、任意のスピーカ配置用にミックスされた空間音響信号を、同じかまたは異なる数のスピーカから成る他の任意のスピーカ配置用に変換することができる。BCCは、ヘッドホンでの聴取用にマルチチャネル音響信号を変換することも可能にする。それによって、HRTFフィルタリングを用いることで元のスピーカが仮想スピーカに置き換えられ、スピーカのチャネル信号がHRTFフィルタを通して再生される。
下記非特許文献1は、例えばBCCデコーダ向けなどの、バイノーラル・デコーダ向けに設計された音響像レンダリング・システムを開示している。このデコーダは、考えられるスピーカの位置それぞれを表すのに十分な数のHRTFフィルタの対を含む。音響像レンダリングは、音響像制御ビットストリームに基づいて実施される。音響像制御ビットストリームは、サイド情報としてデコーダへ伝送される、差別的かつ絶対的な音源(スピーカなど)配置から成ればよく、これに従ってHRTFフィルタの対が選択される。したがって、コンテンツ作成者は、スピーカの位置が物理的に固定されているスピーカ表現よりも柔軟にバイノーラル・コンテンツの動的な音響像を設計できる。
ISO/IEC JTC 1/SC 29/WG 11/M13233, Ojala P., Jakka J. "Further information on binaural decoder functionality", April 2006, Montreux
デコーダが十分な数のHRTFフィルタの対を含んでいれば、上記の設計は、音響像レンダリングに対して非常に柔軟かつ用途の広い変化を提供する。しかし、バイノーラル・デコーダ標準は、HRTFセットについて特に要求を定めてはいない。したがって、コンテンツ作成は、バイノーラル・デコーダ内の利用可能なHRTFフィルタのデータベースについて何も認識していない。その結果、音響像制御ビット・ストリームと平行して伝えられる音源配置情報は、バイノーラル・デコーダ内の利用可能なHRTFフィルタ・セットの分解能を超えることがあり、またはそれに正確に一致しないこともある。結果として、デコーダは、矛盾したHRTFフィルタ・セットが原因で音響像制御を省略することもあり、それによって認識される音響像が、コンテンツ作成者が意図したものと大きく異なることもある。
発明の摘要
デコーダがHRTFフィルタの限られたセットしか含まない場合でも、動的なバイノーラル制御が利用可能となるよう改善された方法、及び当該方法を実装する技術装置が発明された。本発明の種々の態様は、方法、装置、デコーダ、エンコーダ、コンピュータ・プログラムおよびモジュールを含み、これらは独立請求項に記載の事項を特徴とする。本発明の種々の実施形態が、従属請求項にて開示される。
第1の態様によれば、本発明による方法は、複数の音響チャネルが結合した少なくとも1つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含むサイド情報の1つ以上のセットとを含むパラメトリックに符号化された(parametrically encoded)音響信号を入力することと;バイノーラル音響信号における音響源の水平位置および/または垂直位置を表現する音響源配置データを、前記チャネル構成情報から抽出すること;頭部伝達関数フィルタの所定のセットから、音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を選択すること、ただし、頭部伝達関数フィルタの左右の対は、空間音響像において探索される、該選択すること;および、処理済みの該少なくとも1つの信号から、サイド情報および前記チャネル構成情報に従ってバイノーラル音響信号を合成することという発想に基づく。
ある実施形態では、頭部伝達関数フィルタの左右の対は、水平面において段階的動作で探索される。
ある実施形態では、音源移動の角速度は、音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を探索する間、一定に保たれる。
ある実施形態では、段階的動作は、水平面において複数の仰角で10度または20度の複数ステップで行われる。
ある実施形態では、方法は、音響源配置データが、音像内の特異な位置(頂点)に交差する音源の移動を意味するかどうかを監視し;肯定であれば、特異な位置の交差後に、音源配置の水平角を、計算上180度回転させることをさらに含む。
本発明による構成は大きな利点を提供する。主要な利点は、水平面における音源移動の角速度が一定である結果、制御情報のビットレートを最小限に抑えることができるということである。さらに、デコーダがHRTFフィルタの限られたセットしか含まなくても、動的なバイノーラル制御が利用可能である。コンテンツ作成の観点からすると、実現し得る音響像の最良の近似が常に実現されるため、動的制御を確実に利用することができる。
第2の態様は、パラメトリックに符号化された音響信号を生成する方法を提供する。本方法は、複数の音響チャネルを含むマルチチャネル音響信号を入力することと;複数の音響チャネルが結合した少なくとも1つの結合信号を生成することと;バイノーラル音響信号の合成において音響源配置を制御するためのチャネル構成情報を含むサイド情報の1つ以上の対応するセットを生成することとを含む。チャネル構成情報は、バイノーラル音響信号の合成中に、頭部伝達関数フィルタの所定のセットから、空間音響像において音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を探索するための情報を含んでいる。
ある実施形態では、チャネル構成情報は、音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を、段階的動作で探索するための情報を含んでいる。
したがって、この態様は、コンテンツ作成者が、少なくとも一定の場合においては、バイノーラル・ダウンミックスにおけるインクリメントステップ(incremental steps)の使用を制御することができるようにする。そしてその場合、符号化において、所望のインクリメントステップおよびそれらの方向が、ビットストリームのチャネル構成情報に含められる。
さらに以下にある実施形態の詳細な開示を考慮すると、本発明のこれらの態様および他の態様、ならびにそれに関連する実施形態が明らかとなる。
以下では、添付の図面を参照しつつ、本発明の種々の実施形態がさらに詳細に説明される。
従来技術による一般的なバイノーラル・キュー・コーディング(BCC)スキームを示す。 従来技術によるBCC合成スキームの一般的な構造を示す。 チャネル構成情報を用いた、強化されたバイノーラル・キュー・コーディング(BCC)スキームを示す。 適切に選択されたHRTFフィルタリングを用いるバイノーラル復号スキームを示す。 水平面における、空間音響像の音源配置変更の例を示す。 水平面における、空間音響像の音源配置変更の例を示す。 水平面および垂直面両方において考えられる音源位置の投影を示す。 本発明の実施形態による方法を流れ図で示す。 本発明の実施形態による装置を単純化したブロック図で示す。
実施形態の説明
実施例をより具体的にするために、上記非特許文献1で開示されているバイノーラル・デコーダおよびその動作についてここで簡潔に説明する。まず、バイノーラル・デコーダの基礎的な情報として、実施例における符号化および復号スキームを実装する例示のプラットフォームとして、バイノーラル・キュー・コーディング(BCC)の概念を簡潔に紹介する。なお、本発明はBCC形式の空間音響符号化方法だけに限定されるのではなく、1つ以上の音響チャネルのオリジナルのセットと、適切な空間サイド情報とを結合した少なくとも1つの音響信号を提供する任意の音響符号化スキームにおいて実装することができる。例えば、本発明は、BCCスキームを活用するがそれをさらに拡張するMPEGサラウンド符号化スキームにおいて利用されてもよい。
バイノーラル・キュー・コーディング(BCC)は、空間音響のパラメトリック表現の一般概念であり、単一の音響チャネル、さらにいくらかのサイド情報から、任意の数のチャネルを用いたマルチチャネル出力を提供する。図1はこの概念を示す。いくつか(M)の入力音響チャネルが、ダウンミックス処理によって、単一の出力(S;"和(sum)")信号へと結合される。同時に、マルチチャネル音像を表現する最も顕著なチャネル間キューが入力チャネルから抽出され、BCCサイド情報として簡潔に符号化される。続いて、和信号およびサイド情報はどちらも受信側へ伝送されるが、これには場合によって、和信号を符号化するのに適した低ビットレート音響符号化スキームが使用される。受信側では、BCCデコーダがユーザ入力としてスピーカの数(N:number)を認識している。最後に、BCCデコーダは、チャネル出力信号を再合成することによって、伝送された和(SUM)信号および空間キュー情報からマルチチャネル(N)出力信号を生成し、、スピーカへ送る。この出力信号は、チャネル間時間差(ICTD:Inter‐channel Time Difference)、チャネル間レベル差(ICLD:Inter‐channel Level Difference)、およびチャネル間コヒーレンス(ICC:Inter‐channel Coherence)など、関連のチャネル間キューを伝える。したがって、BCCサイド情報、すなわちチャネル間キューは、特にスピーカ再生用のマルチチャネル音響信号の再構成を最適化することを考慮して選ばれる。BCCサイド情報は非常に低いビットレート(例えば2kb/s)しか必要としないため、BCCスキームは、1音響チャネルの伝送に必要なビットレートよりもわずかに高いビットレートをもたらす。
図2は、BCC合成スキームの一般的な構造を示す。伝送されるモノラル信号(mono signal)(和, SUM)は、まず時間領域で複数フレームへとウィンドウ化され(windowed)、次にFFT(Fast Fourier Transform:高速フーリエ変換)処理およびフィルタバンク(FB:filterbank)によって適切なサブバンドのスペクトル表現にマップされる。あるいは、例えばQMF(Quadrature Mirror Filter:直交ミラー・フィルタ)分析を用いて時間周波数分析を行うことも可能である。再生チャネルの一般的なケースでは、ICLDおよびICTDが、チャネルのペアの間の各サブバンドにおいて、すなわち参照チャネルに関連して各チャネルについて考慮される。サブバンドは、十分高い周波数分解能が達成されるように選択される。例えば、一般的に、ERBスケール(Equivalent Rectangular Bandwidth:等価矩形帯域幅)の2倍に等しいサブバンド幅が適切と考えられている。生成される各出力チャネルについて、個々の時間遅延ICTDおよびレベル差ICLDがスペクトル係数に加えられ、その後に、合成済み音響チャネル間のコヒーレンスや相関(ICC)の最適な特徴を再導入するコヒーレンス合成処理が続く。最後に、すべての合成済み出力チャネルが、IFFT処理(Inverse FFT:逆高速フーリエ変換)、あるいは逆QMFフィルタリングによって時間領域表現へと変換し直され、マルチチャネル出力が作られる。BCC手法のより詳細な説明については、下記非特許文献2や3を参照されたい。
F. Baumgarte and C. Faller: "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003 C. Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003
前掲非特許文献1で紹介されているバイノーラル・デコーダは、BCC手法に基づく。図3に描かれているように、デコーダの入力信号はエンコーダにより生成され、エンコーダは複数の入力音響チャネル(M)を1つ以上の結合信号(S)へと結合すると同時に、マルチチャネル音像を、適用可能なHRTFパラメータを用いてBCCサイド情報(SI:side information)として符号化する。
なお、マルチチャネル・スピーカ再生と対照的に、バイノーラル再生は、音響像の構築においてさらなる柔軟性を可能にする。例えば、音源の位置決めには完全な3D空間が利用可能であるに対して、5.1サラウンドなどのマルチチャネル・スピーカ構成の音響像は、わずかな分解能の方位(水平)面に限られている。バイノーラル再生のさらなる可能性を生かすために、既定のスピーカ位置よりも多い方向を対象とするHRTFセットが必要とされており、音響像を制御するシステムが求められている。
そこで、エンコーダはさらに、バイノーラル再生が選択されているときに音響像の操作を可能にする操作情報(チャネル構成情報,CC:channel configuration)、すなわち音響源配置情報を生成する。コンテンツ作成者は、この操作情報を生成し、ビットストリームに加える。音響源配置情報は、音響表現全体にわたって静的とすることができるので、ヘッダ情報としては音響ストリームの先頭に単一の情報ブロックのみがあればよい。音響シーンは動的であってもよく、伝送されるビットストリームに配置更新が含まれてもよい。発信源の配置の更新頻度は、性質上、可変レートである。したがって、算術符号化を利用して、情報を転送用に効率よく符号化することができる。これは、ビットレートをできる限り低く保つことを考えると重要である。
図4は、復号処理をより詳しく示す。1つまたは2つのダウンミックス済み音響チャネル(和信号,SUM信号)から成る入力信号が、まずQMF領域に変換され、その後、空間サイド情報パラメータがHRTFパラメータと共に適用され、バイノーラル音響が構成される。続いて、バイノーラル音響信号は、バイノーラル・ダウンミックス処理を受け、これは今度はチャネル構成情報(CC)により制御される。バイノーラル・ダウンミックス処理では、静的なスピーカ位置に対応するHRTFフィルタではなく、チャネル構成情報(CC)に基づき各音響源に対してフィルタの対が選択され、その結果、チャネル構成情報(CC)に従って、使用されるHRTFの対が変更される。この変更は、ヘッドホンでの聴取者が感知する空間音響像における音源の配置を移動させる。実際には、水平面では10度、および垂直方向(仰角)では30度のチャネル分解能があれば、完全な3D音響シーンにおいて音源を滑らかに移動可能にするには十分である。HRTFフィルタの対が選択された後、図4に描かれているようにフィルタリングが実施される。次に、QMF合成が適用されて、バイノーラル信号が時間領域に変換される。
空間音響像における音源配置の水平方向(方位)の変更が図5aおよび5bに示されている。図5aで、ヘッドホンでの聴取者向けにバイノーラル音響信号として空間音響像が構築され、ここでは、点線のスピーカ位置(すなわち音源)が、従来の5.1スピーカ構成に従って構築されている。聴取者の前にあるスピーカ(FLおよびFR)は、中央スピーカ(C:centre)から30度のところに配置されている。後方スピーカ(RLおよびRR)は、中央から計算して110度のところに配置されている。バイノーラル効果の結果、ヘッドホンを用いたバイノーラル再生において、音源は、実際の5.1再生と同じ配置であるように思われる。
図5bでは、空間音響像が、バイノーラル領域(binaural domain)で音響像をレンダリングすることによって変更され、その結果、前方音源FLおよびFR(点線のスピーカ)がさらに離れるよう移動されて、拡大された空間像が構築されている。移動は、チャネル構成情報に従って、FLおよびFRチャネル信号用に異なるHRTFペアを選択することによって実現される。あるいは、再生中でも、音源のいずれか、またはすべてを異なる場所へ移動することができる。したがって、コンテンツ作成者は、バイノーラル音響コンテンツのレンダリング時の動的な音響像をより柔軟に設計できる。
図6は、水平面および垂直面両方での、考えられる音源位置の投影を示す。仮の聴取者が、投影の起点に位置する。この場合、水平面(0度の仰角)ならびに30度の仰角の次のレベルが20度の角度分解能を有する。分解能は、60度の仰角に音源位置を上げると、60度に下がる。最後に、聴取者の真上の頂点には1つの位置しかない。なお、図には半球の左側半分は示されていないが、これは単に図6の投影を正確にコピーしたものとなる。
図5a、5bおよび6の例は、上述のバイノーラル・デコーダを用いて得られる利点を明確に示す。これで、コンテンツ作成者は、バイノーラル・コンテンツ用に、スピーカ位置が物理的に固定されているスピーカ表現より動的な音響像を設計可能なように、デコーダにおけるバイノーラル・ダウンミックス処理を制御することができる。音源、すなわち仮想スピーカを、水平面または垂直面において移動させることによって、立体感を強化することができるであろう。音源は、再生中でも移動可能であり、したがって特別な音響効果が可能になる。
なお、音源が滑らかに移動できるようにするためには、水平面および垂直面の両方で空間音響像内の音源位置を自由に変更するべく、デコーダは十分な数のHRTFの対を含まなければならない。上述のバイノーラル・デコーダについては、音響像制御の成功には上半球に64のHRTFの対が必要であるという結論に至った。
しかしここで、デコーダが球(または半球)全体に及ぶ全帯域のHRTFフィルタの対を有しないこともあり、または分解能が、コンテンツ作成者がバイノーラル・レンダリング制御の構築時に意図したよりも粗いこともあるということから、問題が生じ得る。バイノーラル・デコーダ標準は、特定のHRTFセットを要求していない。したがって、コンテンツ作成は、バイノーラル・デコーダにおいて利用可能なHRTFフィルタ・データベースについて何も認識しておらず、そのため、ビットストリーム・シンタックスにより定義される分解能は完全に実現されないかもしれない。
ビットストリーム内のチャネル構成情報が、音源の配置における急激な変化、すなわち移動を含むと、さらに問題が生じる。上記のように、制御情報のビットレートはできる限り低く保たれなければならない。音源配置が急激に変化すると、デコーダに所望の移動を示す追加の符号語がビットストリームに含まれる必要がある。符号語の差分符号化という性質が原因で、一般的に、移動が大きいほど、変化を示すために必要な符号語が確実に長くなる。結果として、音源配置のいかなる急激な変化も、制御情報のビットレートを上げる。
ここで、これらの問題が実施例を用いて回避される。実施例によれば、デコーダは、チャネル構成情報において示された音源配置に最も近いHRTFフィルタの対を段階的動作で探索するよう構成されており、それによって、音源の移動の角速度は、デコーダにおける実際の音源配置分解能に関わらず、一定に保たれる。急激な変化、すなわち長い符号語がビットストリームの制御情報において示される必要がないため、制御情報のビットレートが最小限に抑えられ、有利であると思われる。例えば、急激な移動を示す長い符号語用に特に予約されたビットを除外することによって、制御情報のシンタックスが簡略化されてもよい。
ある実施例では、示された音源配置に最も近いHRTFフィルタの対を探索する段階的動作は、可能性がある仰角すべてにおいて、水平面で10度のステップで行われる。図6に示されているように、音源配置の分解能は、仰角が大きいほど(例えば45度超)必然的に方位面よりも粗くなる。ここで、制御情報により示される音源の移動が垂直方向のみであると、対応する水平角に利用可能な「より高い」音源配置がないということが起こり得る。したがって、特定の仰角で最も近いHRTFフィルタの対が探索されなくてはならず、これは、水平面において、インクリメントステップ、好適には10度のステップとして実行され、有利である。この場合もやはり、いかなる追加の制御情報もなしで、所望の音源配置の、実現し得る最良近似を確実に発見することができる。
当業者には、上述の10度のステップが、最良のHRTFフィルタの対を探索するのに使用できる適切なインクリメントステップの一例でしかないということが分かる。デコーダの構造によっては、例えば20度が適切なインクリメントステップということもあり得る。したがって、その他任意の適切な値、好適には5度から30度の間の任意の値が、インクリメントステップとして使用され得る。
上記の実施例は大きな利点を提供する。水平面における音源移動の一定の角速度の結果、制御情報のビットレートを最小限に抑えることができる。さらに、デコーダがHRTFフィルタの限られたセットしか含まないとしても、動的なバイノーラル制御を利用可能である。コンテンツ作成の観点からすると、音響像の実現し得る最良近似を常に得られるため、動的制御を確実に利用可能である。
音源が、半球の「頂点」上、または近くに移動され、それによって必要な角速度が無限大に達すると、特別な場合が生じる。例えば、音源が45度の角度方向に位置しており、仰角が段階的に大きくなり最終的に90度(頂点)に交差すると、角度方向は、45+180=225度に変更される必要がある。180度の変更は、限られた差分符号化では必ずしも可能でない。
ある実施例では、デコーダは、音源移動において特異な位置(頂点)に交差するかどうかを監視するよう構成されており、肯定であれば、特異点位置の交差後に、デコーダは、音源位置の水平角を計算上180度回転させるよう、すなわち、デコーダは所望の発信源の角度に180度を足すよう構成されている。この計算動作は、増分の段階的動作を円滑に継続できるようにする。
ある実施例では、計算動作は、デコーダ・ソフトウェアへの軽微な追加として実施される。差分配置符号化でのデコーダの実装は、例えば以下のように実施されるとよい。

/* ビットストリームから差分動作を読み取る */
Angular_step = decode_angular(bit_stream) /*ステップ は角度(degree)*/
Elevation_step = decode_elevation(bit_stream) /*ステップ は角度(degree)*/

/* 鉛直角を更新 */
Elevation_angle += Elevation_step;

/* 特異な位置(頂点)の交差を確認 */
If (Elevation_angle > 90) /* サウンドが特異点を交差 */
Angular_angle_correction = 180;
Else
Angular_angle_correction = 0;

/* 水平角を更新 */
Angular_angle += Angular_step + Angular_angle_correction;
したがって、180度の絶対的な音源配置更新は必要ないが、特異点位置に対処するという問題に対しては、単純な計算動作で対処される。
特定の実施例が互いに代替案でしかないと明確にまたは暗に記載されていない限り、上述の実施例はいずれも、他の実施例の1つ以上との組み合わせとして実装されてもよいということが、当業者には分かる。
一部の実施例が、図7の流れ図にさらに示されている。これは、デコーダの動作の観点から描かれている。動作の出発点は、複数の音響チャネルが結合した少なくとも1つの結合信号を含むパラメトリックに符号化された音響信号と、チャネル構成情報も含んだサイド情報の1つ以上の対応するセットとが、デコーダに入力される(700)というものである。上記のように、チャネル構成情報は、バイノーラル音響信号における音響源の水平位置および/または垂直位置を表現する音響源配置データを含む。この音響源配置データは、チャネル構成情報から抽出される(702)。
ある実施例では、次に、特異点位置の交差の可能性が確認される。したがって、デコーダは、音響源配置データが、そのような、音像内の特異な位置(頂点)を交差する音源移動を意味するかどうかを監視する(704)。音響源配置データでそのような音源移動が示されると、特異な位置の交差後に、音源配置の水平角が、計算上180度回転させられる(706)。
特異点位置の処理が必要か否かに関わらず、デコーダはHRTFフィルタの左右の対を、水平面において、段階的動作で頭部伝達関数フィルタの所定のセットから探索し続ける(708)。その結果、音響源配置データに最も一致するHRTFフィルタの左右の対が選択される(710)。最後に、バイノーラル音響信号が、サイド情報およびチャネル構成情報に従って処理された少なくとも1つの信号から合成され(712)、その結果、音響源配置データにより示された音源の正しい場所の、少なくとも近くで音源が再生される。
最良のHRTFフィルタの対をインクリメントステップで探索し、特異点位置に対処する上記の実施例は、デコーダが、エンコーダからいかなる命令もなしで、所定のステップで自動的に最良のHRTFフィルタの対を探索し、選択するよう構成される、デコーダ固有の特徴として実施することができる。なお、少なくとも、インクリメントステップの使用は場合によって、コンテンツ作成者により制御されてもよく、それによって、所望のインクリメントステップおよびそれらの方向がエンコーダから受信されるビットストリームのチャネル構成情報(CC)に含まれてもよい。コンテンツ作成者が、180度での絶対的な音源配置の更新をビットストリームに含めて、デコーダによるいかなる介入もなしで、音源配置の水平角の回転を直接制御することも可能である。なお、これは、180度の変更を示すのに十分な長さの符号語を必要とする。すなわち、制御情報のビットレートが高くなる。
その結果、本発明の態様は、複数の音響チャネルを含むマルチチャネル音響信号からパラメトリックに符号化された音響信号を生成するためのパラメトリック音響エンコーダに関する。エンコーダは、複数の音響チャネルが結合した少なくとも1つの結合信号を生成する。さらに、エンコーダは、サイド情報の対応する1つ以上のセットを生成する。サイド情報は、バイノーラル音響信号の合成において音響源配置を制御するためのチャネル構成情報を含む。さらに、チャネル構成情報は、音響源配置データに最も一致するHRTFフィルタの左右の対を、バイノーラル音響信号の合成中に段階的動作で探索するための情報を含む。結果として、コンテンツ作成者は、デコーダにおけるバイノーラル・ダウンミックス処理と、インクリメントステップの使用とを制御することができる。立体感は、例えば音源(仮想スピーカ)を中心(中央)軸からさらに離すことによって、強化することができるであろう。さらに、1つ以上の音源が再生中に移動させられ、特別な音響効果を可能にすることができるであろう。したがって、コンテンツ作成者は、スピーカの位置が(物理的に)固定されているスピーカ表現に対するよりも、自由かつ柔軟に、バイノーラル・コンテンツの音響像を設計することができる。
エンコーダは、例えば、マルチチャネル音像を表現するチャネル間キューICTD、ICLDおよびICCに加えて、またはその代わりにチャネル構成情報を計算するようさらに構成されている、既知のBCCエンコーダとしてもよい。エンコーダは、利得推定内に、または、静的チャネル構成の場合は音響ストリームの先頭の単一の情報ブロックとして、または動的構成更新が使用されていれば伝送されるビットストリーム内に時々含まれる別個のフィールド内に、チャネル構成情報を符号化するとよい。続いて、和信号およびサイド情報の両方、さらにチャネル構成情報が受信側へ伝送されるが、これには、和信号を符号化するのに適した低ビットレート音響符号化スキームが使用されることが好ましい。
1つの結合チャネルおよび必要なサイド情報の伝送に必要なビットレートは非常に低いため、本発明は特に、ワイヤレス通信システムなど、利用可能な帯域幅が希少資源であるシステムに十分に適用できる。したがって、実施例は、一般的に高品質のスピーカを欠く移動端末、またはその他の携帯用デバイスにおいて特に適用可能であり、実施例によるバイノーラル音響信号を聴取するヘッドホンを介して、マルチチャネル・サラウンド・サウンドの特徴を取り入れることができる。実行可能な適用のさらなる分野には、電話会議サービスが含まれる。聴取者に会議通話の参加者が会議室の別々の位置にいるという印象を聴取者に与えることによって、電話会議の参加者を容易に識別することができる。
図8は、本発明によるバイノーラル復号システムを実装することができるデータ処理デバイス(TE)の簡略化された構造を示す。データ処理デバイス(TE)は、例えば、移動端末、PDAデバイスまたはパーソナル・コンピュータ(PC)とすることができる。データ処理ユニット(TE)は、I/O手段(I/O)、中央処理ユニット(CPU:central processing unit)およびメモリ(MEM:memory)を含む。メモリ(MEM)は、ランダム・アクセス・メモリRAM(random access memory)およびFLASHメモリなどの読み出し専用メモリROM(read−only memory)部および書き換え可能部を含む。例えばCD‐ROM、その他のデバイスおよびユーザなど、種々の外部パーティと通信するのに使用される情報は、I/O手段(I/O)を介して、中央処理ユニット(CPU)へ/から伝送される。データ処理デバイスが移動局として実装されると、一般的には、送受信機Tx/Rxが含まれる。送受信機Tx/Rxは、ワイヤレス・ネットワーク、一般的には基地局(BTS:base transceiver station)と、アンテナを介して通信する。ユーザ・インターフェース(UI:User Interface)機器は、一般的に、ディスプレイ、キーボード、マイクロホンおよびヘッドホン用の接続手段を含む。データ処理デバイスはさらに、種々のハードウェア・モジュール用、またはデータ処理デバイスにおいて種々のアプリケーションの実行を提供し得る集積回路IC(integrated circuits)として、標準形式のスロットなどの接続手段MMCを含むとよい。
したがって、本発明によるバイノーラル復号システムは、中央処理ユニットCPUまたはデータ処理デバイスの専用デジタル信号プロセッサDSP(digital signal processor)(パラメトリック符号プロセッサ)において実行されるとよく、それによって、データ処理システムは、複数の音響チャネルが結合した少なくとも1つの結合信号と、マルチチャネル音像を表現しバイノーラル音響信号の合成において音響源配置を制御するためのチャネル構成情報を含んだサイド情報の1つ以上の対応するセットとを含むパラメトリックに符号化された音響信号を受信する。パラメトリックに符号化された音響信号は、例えばCD‐ROMなどのメモリ手段から、またはアンテナおよび送受信機Tx/Rxを介してワイヤレス・ネットワークから受信されるとよい。処理ユニット(DSPまたはCPU)は、チャネル構成情報から、バイノーラル音響信号における音響源の水平位置および/または垂直位置を表現する音響源配置データを抽出する。データ処理デバイスはさらに、頭部伝達関数フィルタの所定のセットを含み、その中から、音響源配置データに最も一致する頭部伝達関数フィルタの左右の対が水平面における段階的動作で探索されるように、頭部伝達関数フィルタの左右の対が選択される。最後に、データ処理デバイスはさらに、サイド情報と前記チャネル構成情報とに従って処理された少なくとも1つの信号からバイノーラル音響信号を合成する合成器を含む。次に、バイノーラル音響信号はヘッドホンを介して再生される。
デコーダは、データ処理デバイスTEの一体部分として、すなわち内蔵型の構造として、デバイス内に実装することができる。または、デコーダは、必要な復号機能を含み様々な種類のデータ処理デバイスに取り付け可能な別個のモジュールであってもよい。必要な復号機能は、チップセット、すなわち集積回路、および集積回路をデータ処理デバイスに接続するのに必要な接続手段として実装されてもよい。
同様に、本発明による符号化システムも同じく、中央処理ユニットCPUまたはデータ処理デバイスの専用デジタル信号プロセッサDSPにおいて実行されてもよい。それによって、データ処理デバイスは、複数の音響チャネルが結合した少なくとも1つの結合信号と、サイド情報の1つ以上の対応するセットとを含むパラメトリックに符号化された音響信号を生成する。サイド情報は、バイノーラル音響信号の合成において音響源配置を制御するためのチャネル構成情報を含む。前記チャネル構成情報は、バイノーラル音響信号の合成中に、段階的動作で、頭部伝達関数フィルタの所定のセットから、音響源位置データに最も一致する頭部伝達関数フィルタの左右の対を探索するための方法を含む。
本発明の機能は、移動局などの端末デバイスにおいて実装されてもよく、中央処理ユニットCPUまたは専用デジタル信号プロセッサDSPにおいて実行されると本発明の手順を実行するよう端末デバイスに影響を及ぼすコンピュータ・プログラムとして実装されてもよい。コンピュータ・プログラム(ソフトウェア(SW:software))の機能は、互いに通信しているいくつかの別々のプログラム・コンポーネントに分配されてもよい。コンピュータ・ソフトウェアは、PCのハード・ディスクまたはDVDまたはCD‐ROMディスク、フラッシュ・メモリ、または同様のものなど、任意のメモリ手段に格納されればよく、そこから移動端末のメモリにコンピュータ・ソフトウェアがロードされることが可能である。コンピュータ・ソフトウェアはさらに、例えばTCP/IPプロトコル・スタックを使用し、ネットワークを介してロードすることができる。
発明の手段の実装には、ハードウェア・ソリューションまたはハードウェア・ソリューションとソフトウェア・ソリューションとの組み合わせを使用することもできる。したがって、上記のコンピュータ・プログラムは、少なくとも部分的に、ハードウェア・モジュールを電子デバイスに接続するための接続手段を含むハードウェア・モジュールにおいて、例えばASICまたはFPGA回路など、ハードウェア・ソリューションとして実装すること、または、1つ以上の集積回路ICとして実装することができる。ハードウェア・モジュールまたはICはさらに、前記プログラム・コードのタスクを実行するための種々の手段を含む。前記手段は、ハードウェアおよび/またはソフトウェアとして実装される。
当然のことながら、本発明は、上記で提示された実施例にのみに限定はされず、添付の特許請求の範囲の範囲内で変更することができる。

Claims (31)

  1. 複数の音響チャネルが結合した少なくとも1つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含む1つ以上のサイド情報のセットとを含む、パラメトリックに符号化された音響信号を入力することと;
    前記音響信号における複数の音響源の水平位置および垂直位置のうち少なくとも1つを表現する音響源配置データを、前記チャネル構成情報から抽出することと;
    頭部伝達関数フィルタの所定のセットから、前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を選択すること、ただし、頭部伝達関数フィルタの前記左右の対は、空間音響像において探索される、前記選択することと;
    処理済みの前記少なくとも1つの信号から、サイド情報および前記チャネル構成情報に従って、バイノーラル音響信号を合成することと
    を含む方法。
  2. 水平面における段階的動作で、頭部伝達関数フィルタの前記左右の対を探索すること
    をさらに含む、請求項1に記載の方法。
  3. 前記音源の移動の角速度制御を一定に保つことと;
    前記音響源配置データに最も一致する頭部伝達関数フィルタの前記左右の対を探索することと
    をさらに含む、請求項1または2に記載の方法。
  4. 前記段階的動作は、前記水平面において複数の仰角で10度または20度ステップで行われる、
    請求項2に記載の方法。
  5. 前記音響源配置データが、前記音像内の特異点位置に交差する音源移動を意味するかどうかを監視することと;肯定であれば、
    前記特異点位置の交差後に、音源配置の水平角を、計算上180度回転させることと
    をさらに含む、請求項1から4のいずれかに記載の方法。
  6. 前記サイド情報のセットは、チャネル間時間差(ICTD)、チャネル間レベル差(ICLD)、およびチャネル間コヒーレンス(ICC)など、バイノーラル・キュー・コーディング(BCC)スキームにおいて使用されるチャネル間キューをさらに含む、
    請求項1から5のいずれかに記載の方法。
  7. バイノーラル音響信号を合成する前記ステップは、
    バイノーラル・キュー・コーディング(BCC)合成処理において、前記少なくとも1つの結合信号から、前記複数の音響チャネルの複数の音響信号を合成すること、ただし、前記BCC合成処理は、サイド情報の前記1つ以上の対応するセットに従い制御される、前記合成することと;
    前記複数の合成済み音響信号を、バイノーラル・ダウンミックス処理に印加することと
    をさらに含む、請求項6に記載の方法。
  8. 複数の音響チャネルが結合した少なくとも1つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含む1つ以上のサイド情報のセットとを含むパラメトリックに符号化された音響信号を処理するパラメトリック符号プロセッサであって、前記音響信号における複数の音響源の水平位置および垂直位置のうち少なくとも1つを表現する音響源配置データが、前記チャネル構成情報から抽出される、前記パラメトリック符号プロセッサと;
    頭部伝達関数フィルタの所定のセットであって、前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対が空間音響像において探索されるように、前記所定のセットから頭部伝達関数フィルタの前記左右の対が選択されるよう構成されている、前記所定のセットと;
    処理済みの前記少なくとも1つの信号から、サイド情報および前記チャネル構成情報に従ってバイノーラル音響信号を合成する合成器と
    を含む装置。
  9. 前記最も一致する頭部伝達関数フィルタの左右の対は、水平面における段階的動作で探索されるよう構成されている、
    請求項8に記載の装置。
  10. 前記段階的動作は、水平面において複数の仰角で10度または20度の複数ステップで行われる、
    請求項9に記載の装置。
  11. 前記音源の移動の角速度制御を一定に保ち、前記音響源配置データに最も一致する頭部伝達関数フィルタの前記左右の対を探索するための処理ユニット
    をさらに含む、請求項8から10のいずれかに記載の装置。
  12. 前記処理ユニットは、
    前記音響源配置データが、前記音像内の特異な位置(頂点)に交差する音源移動を意味するかどうかを監視し;肯定であれば、
    前記特異点位置の交差後に、音源配置の水平角を、計算上180度回転させる
    よう構成されている、請求項11に記載の装置。
  13. 前記サイド情報のセットは、チャネル間時間差(ICTD)、チャネル間レベル差(ICLD)、およびチャネル間コヒーレンス(ICC)など、バイノーラル・キュー・コーディング(BCC)スキームにおいて使用されるチャネル間キューをさらに含む、
    請求項8から12のいずれかに記載の装置。
  14. 前記合成器は、バイノーラル・キュー・コーディング(BCC)合成処理において、前記少なくとも1つの結合信号から、前記複数の音響チャネルの複数の音響信号を合成するよう構成されており、前記BCC合成処理は、サイド情報の前記1つ以上の対応するセットに従い制御され;前記装置は、
    前記チャネル構成情報に従ってバイノーラル音響信号を合成するために、前記複数の合成済み音響信号が印加されるバイノーラル・ダウンミックス・ユニット
    をさらに含む、
    請求項13に記載の装置。
  15. 前記装置は、移動端末、携帯情報端末デバイスまたはパーソナル・コンピュータである、請求項8から14のいずれかに記載の装置。
  16. 複数の音響チャネルが結合した少なくとも1つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含む1つ以上のサイド情報のセットとを含むパラメトリックに符号化された音響信号を処理することを目的とし、コンピュータ可読媒体に格納されデータ処理デバイスにおいて実行可能なコンピュータ・プログラムであって、
    前記音響信号における複数の音響源の水平位置および垂直位置のうち少なくとも1つを表現する音響源配置データを、前記チャネル構成情報から抽出するためのコンピュータ・プログラム・コード部分と;
    頭部伝達関数フィルタの所定のセットから、前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を選択するためのコンピュータ・プログラム・コード部分であって、頭部伝達関数フィルタの前記左右の対は、空間音響像において探索される、前記コンピュータ・プログラム・コード部分と;
    処理済みの前記少なくとも1つの信号から、サイド情報および前記チャネル構成情報に従ってバイノーラル音響信号を合成するためのコンピュータ・プログラム・コード部分と
    を含む、コンピュータ・プログラム。
  17. 水平面における段階的動作で、頭部伝達関数フィルタの前記左右の対を探索するためのコンピュータ・プログラム・コード部分
    をさらに含む、請求項16に記載のコンピュータ・プログラム。
  18. データ処理デバイスに取り付け可能であり、音響エンコーダを含むモジュールであって、前記音響エンコーダは、
    複数の音響チャネルが結合した少なくとも1つの結合信号と、それに対応する、マルチチャネル音像を表現しチャネル構成情報を含む1つ以上のサイド情報のセットとを含むパラメトリックに符号化された音響信号を処理するパラメトリック符号プロセッサであって、前記バイノーラル音響信号における複数の音響源の水平位置および垂直位置のうち少なくとも1つを表現する音響源配置データが、前記チャネル構成情報から抽出される、前記パラメトリック符号プロセッサと;
    頭部伝達関数フィルタの所定のセットであって、前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対が空間音響像において探索されるように、前記所定のセットから頭部伝達関数フィルタの前記左右の対が選択されるよう構成されている、前記所定のセットと;
    処理済みの前記少なくとも1つの信号から、サイド情報および前記チャネル構成情報に従ってバイノーラル音響信号を合成する合成器と
    を含む、モジュール。
  19. 前記最も一致する頭部伝達関数フィルタの左右の対は、水平面における段階的動作で探索されるよう構成されている、
    請求項18に記載のモジュール。
  20. 前記モジュールは、チップセットとして実装される、
    請求項18または19に記載のモジュール。
  21. パラメトリックに符号化された音響信号を生成する方法であって、
    複数の音響チャネルを含むマルチチャネル音響信号を入力することと;
    前記複数の音響チャネルが結合した少なくとも1つの結合信号を生成することと;
    バイノーラル音響信号の合成において複数の音響源配置を制御するためのチャネル構成情報を含んだサイド情報の1つ以上の対応するセットを生成すること、ただし、前記チャネル構成情報は、前記バイノーラル音響信号の前記合成中に、頭部伝達関数フィルタの所定のセットから、空間音響像において前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を探索するための情報を含んでいる、前記生成することと
    を含む方法。
  22. 前記チャネル構成情報は、前記音響源配置データに最も一致する頭部伝達関数フィルタの前記左右の対を、段階的動作で探索するための情報を含んでいる、
    請求項21に記載の方法。
  23. 前記音響源配置は、バイノーラル音響信号シーケンス全体にわたって静的であり、前記方法は、
    前記チャネル構成情報を、前記バイノーラル音響信号シーケンスに対応するサイド情報の前記1つ以上の対応するセットに情報フィールドとして含めること
    をさらに含む、請求項21または22に記載の方法。
  24. 前記音響源配置は可変であり、前記方法は、
    前記チャネル構成情報を、前記音響源配置における変化を反映する複数の情報フィールドとして、サイド情報の前記1つ以上の対応するセットに含めること
    をさらに含む、請求項21または22に記載の方法。
  25. 前記サイド情報のセットは、チャネル間時間差(ICTD)、チャネル間レベル差(ICLD)、およびチャネル間コヒーレンス(ICC)など、バイノーラル・キュー・コーディング(BCC)スキームにおいて使用されるチャネル間キューをさらに含む、
    請求項21から24のいずれかに記載の方法。
  26. パラメトリックに符号化された音響信号を生成するパラメトリック音響エンコーダであって、
    複数の音響チャネルを含むマルチチャネル音響信号を入力する手段と;
    前記複数の音響チャネルが結合した少なくとも1つの結合信号を生成する手段と;
    バイノーラル音響信号の合成において複数の音響源配置を制御するためのチャネル構成情報を含んだサイド情報の1つ以上の対応するセットを生成する手段であって、前記チャネル構成情報は、前記バイノーラル音響信号の前記合成中に、頭部伝達関数フィルタの所定のセットから、空間音響像において音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を探索するための情報を含んでいる、前記手段と
    を含むエンコーダ。
  27. 前記チャネル構成情報は、前記音響源配置データに最も一致する頭部伝達関数フィルタの前記左右の対を、段階的動作で探索するための情報を含んでいる、
    請求項26に記載のエンコーダ。
  28. 前記音響源配置がバイノーラル音響信号シーケンス全体にわたって静的であれば、前記チャネル構成情報を、前記バイノーラル音響信号シーケンスに対応するサイド情報の前記1つ以上の対応するセットに情報フィールドとして含める手段
    をさらに含む、請求項26または27に記載のエンコーダ。
  29. 前記音響源配置が可変であれば、前記チャネル構成情報を、前記音響源配置における変化を反映する複数の情報フィールドとして、サイド情報の前記1つ以上の対応するセットに含める手段
    をさらに含む、請求項26または27に記載のエンコーダ。
  30. パラメトリックに符号化された音響信号を生成するよう、コンピュータ可読媒体に格納されデータ処理デバイスにおいて実行可能なコンピュータ・プログラムであって、
    複数の音響チャネルを含むマルチチャネル音響信号を入力するためのコンピュータ・プログラム・コード部分と;
    前記複数の音響チャネルが結合した少なくとも1つの結合信号を生成するためのコンピュータ・プログラム・コード部分と;
    バイノーラル音響信号の合成において複数の音響源配置を制御するためのチャネル構成情報を含んだサイド情報の1つ以上の対応するセットを生成するためのコンピュータ・プログラム・コード部分であって、前記チャネル構成情報は、前記バイノーラル音響信号の前記合成中に、頭部伝達関数フィルタの所定のセットから、空間音響像において前記音響源配置データに最も一致する頭部伝達関数フィルタの左右の対を探索するための情報を含んでいる、前記コンピュータ・プログラム・コード部分と
    を含む、コンピュータ・プログラム。
  31. 前記音響源配置データに最も一致する頭部伝達関数フィルタの前記左右の対を段階的動作で探索するための情報を含んだ、チャネル構成情報を生成するためのコンピュータ・プログラム・コード部分
    をさらに含む、請求項30に記載のコンピュータ・プログラム。
JP2009517304A 2006-07-08 2007-06-18 バイノーラル音響信号の動的な復号 Active JP4708493B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/456,191 2006-07-08
US11/456,191 US7876904B2 (en) 2006-07-08 2006-07-08 Dynamic decoding of binaural audio signals
PCT/FI2007/050367 WO2008006938A1 (en) 2006-07-08 2007-06-18 Dynamic decoding of binaural audio signals

Publications (2)

Publication Number Publication Date
JP2009543389A true JP2009543389A (ja) 2009-12-03
JP4708493B2 JP4708493B2 (ja) 2011-06-22

Family

ID=38919148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009517304A Active JP4708493B2 (ja) 2006-07-08 2007-06-18 バイノーラル音響信号の動的な復号

Country Status (7)

Country Link
US (1) US7876904B2 (ja)
EP (1) EP2038880B1 (ja)
JP (1) JP4708493B2 (ja)
KR (1) KR101054932B1 (ja)
CN (1) CN101490743B (ja)
HK (1) HK1132365A1 (ja)
WO (1) WO2008006938A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014192602A1 (ja) * 2013-05-31 2014-12-04 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP2017215595A (ja) * 2017-07-06 2017-12-07 日本放送協会 音響信号再生装置

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US8111830B2 (en) * 2005-12-19 2012-02-07 Samsung Electronics Co., Ltd. Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
EP1974347B1 (en) * 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
WO2007091850A1 (en) * 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
CN101390443B (zh) 2006-02-21 2010-12-01 皇家飞利浦电子股份有限公司 音频编码和解码
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
CN101529898B (zh) * 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
KR101438389B1 (ko) * 2007-11-15 2014-09-05 삼성전자주식회사 오디오 매트릭스 디코딩 방법 및 장치
JP4557035B2 (ja) * 2008-04-03 2010-10-06 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び記録媒体
KR101615262B1 (ko) * 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
TWI413110B (zh) 2009-10-06 2013-10-21 Dolby Int Ab 以選擇性通道解碼的有效多通道信號處理
EP3723090B1 (en) * 2009-10-21 2021-12-15 Dolby International AB Oversampling in a combined transposer filter bank
KR101567461B1 (ko) * 2009-11-16 2015-11-09 삼성전자주식회사 다채널 사운드 신호 생성 장치
WO2011063857A1 (en) 2009-11-30 2011-06-03 Nokia Corporation An apparatus
KR20120004909A (ko) * 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
US8654984B2 (en) * 2011-04-26 2014-02-18 Skype Processing stereophonic audio signals
WO2012150482A1 (en) * 2011-05-04 2012-11-08 Nokia Corporation Encoding of stereophonic signals
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
BR112014029916A2 (pt) * 2012-06-06 2018-04-17 Sony Corp dispositivo e, método de processamento do sinal de áudio, e, programa de computador.
EP2717263B1 (en) 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015031074A2 (en) 2013-08-30 2015-03-05 Gleim Conferencing, Llc Multidimensional virtual learning system and method
WO2015031080A2 (en) * 2013-08-30 2015-03-05 Gleim Conferencing, Llc Multidimensional virtual learning audio programming system and method
BR112016008817B1 (pt) 2013-10-21 2022-03-22 Dolby International Ab Método para reconstruir um sinal de áudio de n canais, sistema de decodificação de áudio, método para codificar um sinal de áudio de n canais e sistema de codificação de áudio
EP3090576B1 (en) 2014-01-03 2017-10-18 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
WO2015104447A1 (en) * 2014-01-13 2015-07-16 Nokia Technologies Oy Multi-channel audio signal classifier
MX357405B (es) * 2014-03-24 2018-07-09 Samsung Electronics Co Ltd Metodo y aparato de reproduccion de señal acustica y medio de grabacion susceptible de ser leido en computadora.
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN111866022B (zh) * 2015-02-03 2022-08-30 杜比实验室特许公司 感知质量比会议中原始听到的更高的后会议回放系统
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
CN107204132A (zh) * 2016-03-16 2017-09-26 中航华东光电(上海)有限公司 3d虚拟立体声空中预警系统
WO2017223110A1 (en) * 2016-06-21 2017-12-28 Dolby Laboratories Licensing Corporation Headtracking for pre-rendered binaural audio
CN112954582A (zh) 2016-06-21 2021-06-11 杜比实验室特许公司 用于预渲染的双耳音频的头部跟踪
US11463795B2 (en) * 2019-12-10 2022-10-04 Meta Platforms Technologies, Llc Wearable device with at-ear calibration

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0666200U (ja) * 1993-02-16 1994-09-16 オンキヨー株式会社 音響再生装置
JPH06285258A (ja) * 1993-03-31 1994-10-11 Victor Co Of Japan Ltd ビデオゲーム機
JPH11338975A (ja) * 1998-05-28 1999-12-10 Fujitsu Ltd 文字切り出し処理方式および文字切り出し処理プログラムを記録した記録媒体
JP2000023299A (ja) * 1998-07-01 2000-01-21 Ricoh Co Ltd 音像定位制御装置および音像定位制御方式
JP2000078572A (ja) * 1998-08-31 2000-03-14 Toshiba Corp オブジェクト符号化装置およびオブジェクト符号化装置のコマ落し制御方法およびプログラムを記録した記憶媒体
JP2000250745A (ja) * 1999-03-01 2000-09-14 Nec Corp プログラム自動生成システム
JP2001100792A (ja) * 1999-09-28 2001-04-13 Sanyo Electric Co Ltd 符号化方法、符号化装置およびそれを備える通信システム
JP2002176361A (ja) * 2000-12-06 2002-06-21 Sony Corp 量子化方法および量子化装置
JP2003009296A (ja) * 2001-06-22 2003-01-10 Matsushita Electric Ind Co Ltd 音響処理装置および音響処理方法
JP2005109914A (ja) * 2003-09-30 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 高臨場感音場再生方法、頭部伝達関数データベース作成方法及び高臨場感音場再生装置
WO2005043511A1 (en) * 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
JP2005229612A (ja) * 2004-02-12 2005-08-25 Agere Systems Inc 聴覚情景の後部残響音ベースの合成
WO2006006809A1 (en) * 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
WO2006060279A1 (en) * 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
JP2007533221A (ja) * 2004-04-16 2007-11-15 コーディング テクノロジーズ アクチボラゲット 低ビットレート用パラメトリック表現の生成方法
JP2008522551A (ja) * 2004-11-30 2008-06-26 アギア システムズ インコーポレーテッド 被送出チャネルに基づくキューを用いる空間オーディオのパラメトリック・コーディング
JP2008532395A (ja) * 2005-03-04 2008-08-14 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ断片またはオーディオデータストリームの符号化ステレオ信号を生成するための装置および方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19728283A1 (de) * 1997-07-02 1999-01-07 Siemens Ag Ansteuerschaltung für ein steuerbares Halbleiterbauelement
GB9726338D0 (en) * 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
JP4322207B2 (ja) * 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
CN100594744C (zh) * 2002-09-23 2010-03-17 皇家飞利浦电子股份有限公司 声音信号的生成
KR100663729B1 (ko) * 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0666200U (ja) * 1993-02-16 1994-09-16 オンキヨー株式会社 音響再生装置
JPH06285258A (ja) * 1993-03-31 1994-10-11 Victor Co Of Japan Ltd ビデオゲーム機
JPH11338975A (ja) * 1998-05-28 1999-12-10 Fujitsu Ltd 文字切り出し処理方式および文字切り出し処理プログラムを記録した記録媒体
JP2000023299A (ja) * 1998-07-01 2000-01-21 Ricoh Co Ltd 音像定位制御装置および音像定位制御方式
JP2000078572A (ja) * 1998-08-31 2000-03-14 Toshiba Corp オブジェクト符号化装置およびオブジェクト符号化装置のコマ落し制御方法およびプログラムを記録した記憶媒体
JP2000250745A (ja) * 1999-03-01 2000-09-14 Nec Corp プログラム自動生成システム
JP2001100792A (ja) * 1999-09-28 2001-04-13 Sanyo Electric Co Ltd 符号化方法、符号化装置およびそれを備える通信システム
JP2002176361A (ja) * 2000-12-06 2002-06-21 Sony Corp 量子化方法および量子化装置
JP2003009296A (ja) * 2001-06-22 2003-01-10 Matsushita Electric Ind Co Ltd 音響処理装置および音響処理方法
JP2005109914A (ja) * 2003-09-30 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 高臨場感音場再生方法、頭部伝達関数データベース作成方法及び高臨場感音場再生装置
WO2005043511A1 (en) * 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
JP2005229612A (ja) * 2004-02-12 2005-08-25 Agere Systems Inc 聴覚情景の後部残響音ベースの合成
JP2007533221A (ja) * 2004-04-16 2007-11-15 コーディング テクノロジーズ アクチボラゲット 低ビットレート用パラメトリック表現の生成方法
WO2006006809A1 (en) * 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
WO2006060279A1 (en) * 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
JP2008522551A (ja) * 2004-11-30 2008-06-26 アギア システムズ インコーポレーテッド 被送出チャネルに基づくキューを用いる空間オーディオのパラメトリック・コーディング
JP2008532395A (ja) * 2005-03-04 2008-08-14 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ断片またはオーディオデータストリームの符号化ステレオ信号を生成するための装置および方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014192602A1 (ja) * 2013-05-31 2014-12-04 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JPWO2014192602A1 (ja) * 2013-05-31 2017-02-23 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9805729B2 (en) 2013-05-31 2017-10-31 Sony Corporation Encoding device and method, decoding device and method, and program
JP2017215595A (ja) * 2017-07-06 2017-12-07 日本放送協会 音響信号再生装置

Also Published As

Publication number Publication date
EP2038880A1 (en) 2009-03-25
WO2008006938A1 (en) 2008-01-17
KR101054932B1 (ko) 2011-08-05
JP4708493B2 (ja) 2011-06-22
US7876904B2 (en) 2011-01-25
CN101490743B (zh) 2011-12-28
EP2038880B1 (en) 2015-09-09
US20080008327A1 (en) 2008-01-10
CN101490743A (zh) 2009-07-22
KR20090018861A (ko) 2009-02-23
EP2038880A4 (en) 2013-01-09
HK1132365A1 (en) 2010-02-19

Similar Documents

Publication Publication Date Title
JP4708493B2 (ja) バイノーラル音響信号の動的な復号
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
RU2409911C2 (ru) Декодирование бинауральных аудиосигналов
Engdegard et al. Spatial audio object coding (SAOC)—the upcoming MPEG standard on parametric object based audio coding
US9313599B2 (en) Apparatus and method for multi-channel signal playback
RU2643644C2 (ru) Кодирование и декодирование аудиосигналов
US20150170657A1 (en) Multiplet-based matrix mixing for high-channel count multichannel audio
JP2009527970A (ja) オーディオ符号化及び復号
Breebaart et al. Spatial audio object coding (SAOC)-the upcoming MPEG standard on parametric object based audio coding
TW202032538A (zh) 對空間音訊表示進行編碼的裝置和方法或使用傳輸後設資料對編碼音訊訊號進行解碼的裝置和方法和相關計算機程式
BR112020000759A2 (pt) aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro
CN114600188A (zh) 用于音频编码的装置和方法
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
CN112673649A (zh) 空间音频增强
EP1582089A1 (en) Audio signal processing
KR20080078907A (ko) 양 귀 오디오 신호들의 복호화 제어
CN112133316A (zh) 空间音频表示和渲染
WO2007080224A1 (en) Decoding of binaural audio signals

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110316

R150 Certificate of patent or registration of utility model

Ref document number: 4708493

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250