JP2009522610A - バイノーラルオーディオ信号の復号制御 - Google Patents

バイノーラルオーディオ信号の復号制御 Download PDF

Info

Publication number
JP2009522610A
JP2009522610A JP2008549029A JP2008549029A JP2009522610A JP 2009522610 A JP2009522610 A JP 2009522610A JP 2008549029 A JP2008549029 A JP 2008549029A JP 2008549029 A JP2008549029 A JP 2008549029A JP 2009522610 A JP2009522610 A JP 2009522610A
Authority
JP
Japan
Prior art keywords
channel
binaural
signal
audio
side information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008549029A
Other languages
English (en)
Other versions
JP4944902B2 (ja
Inventor
ユリア トゥルク
パスィ オヤラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2009522610A publication Critical patent/JP2009522610A/ja
Application granted granted Critical
Publication of JP4944902B2 publication Critical patent/JP4944902B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

パラメトリック符号化されたオーディオ信号を生成するための方法であって、複数のオーディオチャンネルを含むマルチチャンネルオーディオ信号を入力することと、前記複数のオーディオチャンネルの結合信号を少なくとも1つを生成することと、バイノーラルオーディオ信号の合成における音源位置を制御するためのチャンネル構成情報を含む、1つ以上の対応するサイド情報の組を生成することとを含む。
【選択図】図3

Description

本発明は、空間オーディオ符号化(Spatial Audio Coding)に関し、より具体的には、バイノーラルオーディオ信号(Binaural Audio Signal)の復号の制御に関する。
発明の背景
空間オーディオ符号化において、異なるオーディオチャンネル上で再生されるべきオーディオ信号がそれぞれ異なることにより、2チャンネル/マルチチャンネルオーディオ信号を処理することによって、音源周辺の空間効果の印象がリスナーにもたらされる。空間効果は、マルチチャンネルまたはバイノーラル再生の適切なフォーマットに直接オーディオを録音することによって生成可能である。あるいは、空間効果は、いかなる2チャンネル/マルチチャンネルオーディオ信号においても人工的に生成可能であり、空間化(Spatialization)として知られている。
ヘッドフォンの再生に関し、リスナーの左耳および右耳用のバイノーラル信号を生成する頭部伝達関数(Head Related Transfer Function; HRTF)フィルタリングによって、人工的に空間化を行うことができることは一般的に知られている。音源信号は、その音源の方向に対応するHRTFから得られるフィルタでフィルタリングされる。HRTFは、自由音場における音源から人間の耳または人工の頭部まで測定される伝達関数であり、頭部と置換され、かつ頭部の中に配置されるマイクに対する伝達関数によって割られる。人工的室内効果(例えば、早期反射および/または後期残響)を空間化信号に加えることによって、音源の外在化(Externalization)および自然性(Naturalness)を改善できる。
多種多様なオーディオ聴音装置および相互作用装置が増加するにつれ、その互換性がより重要になってきた。空間オーディオフォーマットにおいては、アップミックス(upmix)およびダウンミックス(downmix)技術によって互換性を追求している。Dolby Digital(r)およびDolby Surround(r)などのステレオフォーマットにマルチチャンネルオーディオ信号を変換し、さらに、ステレオ信号をバイノーラル信号に変換するためのアルゴリズムが存在することは一般的に知られている。しかしながら、このような処理において、元のマルチチャンネルオーディオ信号の空間イメージは、完全には再生できない。ヘッドフォンリスニングのためのマルチチャンネルオーディオ信号を変換する改善方法として、HRTFフィルタリングを使用することによって元のスピーカを仮想スピーカに置換し、それら(例えば、Dolby Headphone(r))を介してスピーカチャンネル信号を再生することが挙げられる。しかしながら、この処理は、バイノーラル信号生成に関し、常にマルチチャンネルミックスを最初に必要とするという不利点を有する。つまり、マルチチャンネル(例えば、5+1チャンネル)信号が、最初に復号および合成され、続いてバイノーラル信号を生成するためにHRTFが各信号に適用される。これは、圧縮されたマルチチャンネルフォーマットからバイノーラルフォーマットに直接復号することに比べ、計算的に重いアプローチになる。
バイノーラルキュー符号化(Binaural Cue Coding; BCC)は、高度なパラメトリック空間オーディオ符号化方法である。BCCは、単一の(またはいくつかの)ダウンミックスされたオーディオチャンネルと、オリジナルの信号からの周波数および時間の関数として推定された1組の知覚関連のチャンネル間差として、空間マルチチャンネル信号を表現する。この方法によって、任意のスピーカ配置が、同数または異なる数のスピーカを含むその他のいかなるスピーカ配置にも変換されるようにミックスされた空間オーディオ信号が可能になる。
従って、BCCは、マルチチャンネルスピーカシステムのために設計される。元のスピーカのレイアウトは、符号化器の出力の内容、すなわち、BCC処理されたモノラル信号およびそのサイド情報を定め、また、復号ユニットのレイアウトは、再構築のために当該情報がどのように変換されるのかを定める。空間ヘッドフォンにおける再生のために再構築される場合、元のスピーカのレイアウトは、生成されるバイノーラル信号の音源の位置を決定づける。したがって、空間バイノーラル信号が音源の位置を柔軟に変えることを可能とするにしても、従来の方法で符号化されたBCC信号から生成されたバイノーラル信号によるスピーカのレイアウトは、オリジナルのマルチチャンネル信号における音源の位置によって決まってしまう。これは、アプリケーションにおいて空間効果を強化することへの制限となっている。
発明の摘要
コンテンツの製作者が、復号器におけるバイノーラルダウンミックス処理を制御することのできる方法と、その方法を実行する技術装置が発明される。本発明の種々の側面は、符号化方法、符号化器、復号方法、復号器、装置、およびコンピュータプログラムを含み、これらは、独立請求項の記載によって特徴付けられる。本発明の種々の実施形態は、従属請求項において開示される。
第1の側面によると、本発明に従う方法は、パラメトリック符号化されたオーディオ信号を生成する次のような概念に基づく。この方法は、複数のオーディオチャンネルを含むマルチチャンネルオーディオ信号を入力することと、前記複数のオーディオチャンネルの結合信号を少なくとも1つを生成することと、バイノーラルオーディオ信号の合成における音源位置を制御するためのチャンネル構成情報を含む、1つ以上の対応するサイド情報の組を生成することと、を含む。
つまり大事なことは、復号に用いられるサイド情報に、チャンネル構成情報すなわち音源位置情報を含めることである。これは静的なものでも可変なものであってもよい。チャンネル構成情報は、コンテンツの製作者が、ヘッドフォンのリスナーが知覚しうる空間音響イメージの中の音源の位置の動きを制御することを可能にする。
実施形態によっては、前記音源位置はバイノーラルオーディオ信号シーケンスを通じて静的であり、前記方法は、前記バイノーラルオーディオ信号シーケンスに対応する、前記1つ以上の対応するサイド情報の組に、前記チャンネル構成情報を情報フィールドとして含めることを含む。
実施形態によっては、前記音源位置は可変であり、前記方法は、前記1つ以上の対応するサイド情報の組に、前記チャンネル構成情報を、前記音源位置の変化を反映した複数の情報フィールドとして含めることを含む。
実施形態によっては、前記サイド情報の組が、オリジナルのマルチチャンネル音響イメージにおけるスピーカの数およびリスニング位置に対する位置と、使用されるフレーム長とをさらに含む。
実施形態によっては、前記サイド情報の組が、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューをさらに含む。
実施形態によっては、前記サイド情報の組はさらに、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む。
第2の側面によれば、バイノーラルオーディオ信号を合成するための方法が提供される。この方法は、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現すると共にチャンネル構成情報を含む対応するサイド情報の組を1つ以上含む、パラメトリック符号化されたオーディオ信号を入力することと、前記対応するサイド情報の組に従って前記少なくとも1つの結合信号を処理することと、前記少なくとも1つの処理された信号からバイノーラルオーディオ信号を合成することと、を含み、前記チャンネル構成情報は、バイノーラルオーディオ信号の合成における音源位置を制御するために用いられる。
実施形態によっては、前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューをさらに含む。
実施形態によっては、前記少なくとも1つの結合信号を処理することが、さらに、前記1つ以上の対応するサイド情報の組によって制御される、バイノーラルキュー符号化(Binaural Cue Coding; BCC)合成によって、前記少なくとも1つの結合信号から複数のオーディオチャンネルのオリジナルのオーディオ信号を合成することと、合成された複数のオーディオ信号をバイノーラルダウンミックス処理に適用することとを含む。
実施形態によっては、前記サイド情報の組が、オリジナルの音響イメージを表現するマルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む。
実施形態によっては、前記少なくとも1つの結合信号を処理することが、さらに、バイノーラルオーディオ信号を合成するために、前記対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用することを含む。
本発明に従う構成により有意な利点がもたらされる。主な利点は、コンテンツの製作者が、復号器におけるバイノーラルダウンミックス処理を制御することができること、すなわち、コンテンツの製作者が、バイノーラルコンテンツのためのダイナミックな音響イメージをデザインする上で、スピーカの位置が物理的に固定されたスピーカ表現のための音響イメージをデザインするよりも、より大きな柔軟性を有することである。例えば、音源すなわち仮想スピーカを、中央の軸から離していくなど移動させることにより、優れた空間効果を実現することができる。さらなる利点として、1つ又は複数の音源を再生中に移動させることができ、空間音響効果を実現することができる。
本発明のさらなる側面は、上記方法の発明ステップを実行するように構成された種々の装置を含む。
実施形態の説明
以下において、本発明の種々の実施形態について、添付の図面を参照してより詳細に説明する。
バイノーラルキュー符号化(Binaural Cue Coding; BCC)を、実施形態に従う符号化及び復号スキームを実行するための例示的な基盤として言及することによって、本発明を以下に説明する。しかしながら、本発明は、BCC型の空間オーディオ符号化方法だけに限定されず、1つ以上のオーディオチャンネルの組のオリジナルから結合された少なくとも1つのオーディオ信号と、適切な空間サイド情報とが用意される、いかなるオーディオ符号化スキームにおいても実行可能であることに留意されたい。
バイノーラルキュー符号化(Binaural Cue Coding; BCC)は、空間オーディオのパラメータ表現に関する一般概念であり、単一のオーディオチャンネルといくつかのサイド情報から任意の数のチャンネルを有するマルチチャンネル出力を提供するものである。図1は、本概念を示す。いくつかの入力オーディオチャンネル(M)は、ダウンミックス処理によって単一出力(S;「サム」)信号に結合される。並行して、マルチチャンネル音響イメージを表現する最重要なチャンネル間キューが、入力チャンネルから抽出され、BCCサイド情報(BCC side information)としてコンパクトに符号化される。次に、サム信号およびサイド情報は、例えばサム信号を符号化するための適切な低ビットレートオーディオ符号化スキームを使用して受信側に伝送される。受信側では、BCC復号器はユーザ入力としてスピーカの数(N)を知っている。最終的に、BCC復号器は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの関連チャンネル間キューを有するチャンネル出力信号を再合成することによって、伝送されたサム信号および空間キュー情報から、スピーカのマルチチャンネル出力信号(N)を生成する。従って、BCCサイド情報、つまりチャンネル間キューは、特にスピーカ再生のためのマルチチャンネルオーディオ信号の復元の最適化を考慮して選択される。
2つのBCCスキームが存在する。1つは、受信側でレンダリングする目的で多数の異なる音源信号を伝送する、フレキシブルレンダリング(Flexible Rendering)に関するBCC(I型BCC)であり、もう1つは、ステレオまたはサラウンド信号の多数のオーディオチャンネルを伝送する、ナチュラルレンダリング(Natural Rendering)(II型BCC)に関するBCCである。フレキシブルレンダリングに関するBCCは、複数の異なる音源信号(例えば、スピーチ信号、別々に録音された楽器、マルチトラック録音)を入力として使用する。ナチュラルレンダリングに関するBCCは、「完全にミックスされた(final mix)」ステレオまたはマルチチャンネル信号(例えば、CDオーディオ、DVDサラウンド)を入力として使用する。これらの処理が、従来の符号化技術によって実行される場合、ビットレートは、オーディオチャンネルの数に比例して、または少なくともほぼ比例して増減する。例えば、5.1マルチチャンネルシステムの6つのオーディオチャンネルを伝送するには、1つのオーディオチャンネルの約6倍のビットレートが必要になる。しかしながら、BCCサイド情報は非常に低いビットレート(例えば、2kb/s)しか必要としないため、両BCCスキームのビットレートは、結果的に、1つのオーディオチャンネルの伝送に必要なビットレートよりも若干高くなるだけである。
図2は、BCC合成スキームの一般構造を示す。伝送されたモノラル信号("Sum")は、まず、時間領域において窓掛けが行なわれてフレームに分割され、次に、高速フーリエ変換(Fast Fourier Transform; FFT)処理およびフィルタバンク(filterbank; FB)によって、適切なサブ帯域の空間表現にマップされる。再生チャンネルの一般的場合において、ICLDおよびICTDは、対のチャンネル間、つまり、参照チャンネルに対する各チャンネルの各サブ帯域において考慮される。サブ帯域は、十分高い周波数分解能が達成されるように選択される。例えば、等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールの2倍に等しいサブ帯域幅が一般的に適切であると考えられる。生成される出力チャンネル毎に、個々の時間遅延ICTDおよびレベル差ICLDが、スペクトル係数に課され、その後、コヒーレンス合成処理により、合成されたオーディオチャンネル間のコヒーレンスおよび/または相関(ICC)に関する最重要側面を再導入する。最終的に、合成された全出力チャンネルは、IFFT処理(逆FFT)によって時間領域表現に再び変換され、マルチチャンネル出力をもたらす。BCCアプローチに関するさらに詳しい説明は、下記非特許文献1及び2を参照されたい。
F. Baumgarte and C. Faller: "Binaural Cue Coding - Part I: Psy-choacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003 C. Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003
BCCは、符号化方式の一例であり、本実施例に従う符号化及び復号のスキームを実装するプラットフォームとして適当なものである。これらの実施例の基礎となる基本的な原理が図3に描かれている。ある実施形態に従う符号化器は複数の入力オーディオチャンネル(M)を一つまたは複数の結合信号(S)へと結合し、同時にマルチチャンネル音響イメージをBCCサイド情報(SI)として符号化する。さらに、符号化器はチャンネル構成情報(CC)すなわち音源の位置情報を形成する。音源の位置情報は音響を生成している間中静的なものであってよく、その場合はオーディオストリームの開始時にヘッダ情報として一つの情報ブロックが必要とされるだけである。または、音響シーンはダイナミックなものであってもよく、その場合が送信ビットストリームの中に位置情報の更新が含められる。その性質から、音源位置の更新は可変レートである。このように、算術符号化を利用することにより、情報は送信に効率的なように符号化されうる。チャンネル構成情報(CC)は、好ましくはサイド情報の中で符号化される。
一つまたは複数のサム信号(S)、サイド情報(SI)及びチャンネル構成情報(CC)が受信側へ送信され、サム信号(S)はBCC合成処理に送り込まれる。BCC合成処理は、サイド情報の処理を通じて得られたチャンネル間キューに従って制御される。BCC合成処理の出力は、バイノーラルダウンミックス処理へと送り込まれる。バイノーラルダウンミックス処理は、同様に、チャンネル構成情報(CC)に従って制御される。バイノーラルダウンミックス処理において、用いられるHRTFの組はチャンネル構成情報(CC)に従って変わる。用いられるHRTFの組が変わると、ヘッドフォンのリスナーに知覚される空間音響イメージの中の音源の位置が動く。
空間音響イメージの中で音源の位置が変わることが、図4aと4bに描かれている。図4aでは、空間音響イメージはバイノーラルオーディオ信号として、ヘッドフォンのリスナーのために作られている。バイノーラルオーディオ信号の中で、仮想スピーカ(Phantom Loudspeaker))の位置(すなわち音源)は、従来型の5.1スピーカ構成に従って形成されている。リスナーの前面のスピーカ(FLとFR)は、センタースピーカ(C)から30度の位置に配置される。リヤスピーカ(RLとRR)は、センターから測って110度の位置に配置される。バイノーラル効果のためにヘッドフォンを通じたバイノーラル再生における音源の位置は、実際の5.1再生における位置と同じように感じられる。
図4bでは、空間音響イメージは、バイノーラル領域で音響イメージをレンダリングすることを通じて変化する。例えば、フロントの音源FLとFR(仮想スピーカ)が離れるように動くことで効果的な空間イメージが作られる。この動きは、チャンネル構成情報に従ってFLとFRのために異なるHRTFペアを選択することにより実現される。代わりに、いずれかの又は全ての音源が、再生中であっても、異なる位置で動くことができる。このように、コンテンツの制作者は、バイノーラルオーディオコンテンツをレンダリングして動的な音響イメージをデザインするにあたり、大きな柔軟性を有することができる。
音源の移動をスムーズにするために、復号器は、十分な数のHRTFペアを備えているべきである。空間音響イメージにおいて音源の位置を自由に変えることが可能になるからである。人間の聴覚システムは、入射角に依存するが、2つの音源が2−5度より離れていない場合はこれらの位置を区別できないと考えられている。しかしながら、補間を通じて入射角の関数としてHRTFの変化のスムーズさを利用することで、少ないHRTFフィルタの組で十分な分解能を実現可能である。360度の空間音響イメージ全体がカバーされねばならない場合、HRTFペアの数は360/10 = 36ペアで十分である。むろん、ほとんどの空間効果はそこまでの連続的な音源位置の変化を必要としないであろうから、普通はHRTFペアの数は36個以下で構わず、それでもリスナーは音源の位置の変化をはっきりと知覚できる。
本発明に従うチャンネル構成情報とその空間音響イメージにおける効果は、従来のBCC符号化スキームに適用することができ、その場合、チャンネル構成情報は、関連する空間チャネル間キューICTD, ICLD, ICCを運ぶサイド情報の中に符号化される。BCC復号器は、受信したサム信号とサイド情報に基づいて、複数のスピーカによるオリジナルの音響イメージを合成し、この合成プロセスからの複数の出力は、次にバイノーラルダウンミックスプロセスで使用される。そこではチャンネル構成情報に従ってHRTFペアの選択が制御される。
しかしながら、すると、BCC処理されたモノラル信号とサイド情報からバイノーラル信号を生成するには、まず初めにモノラル信号とサイド情報に基づいてマルチチャンネル表現を生成し、その後ようやくマルチチャンネル表現からヘッドフォンによる空間的再生のためにバイノーラル信号の生成が可能となるということである。これは、計算量の点からは重いアプローチであり、バイノーラル信号の生成という観点からは最適化されていない。
そこで、ある実施形態においては、BCC復号処理が、バイノーラル信号の生成という観点から単純化される。かかる実施形態においては、マルチチャンネル表現を合成する代わりに、元のミックス状態における各スピーカが、リスニング位置に対するスピーカの方向に対応するHRTFの組に置換される。モノラル化信号における各周波数チャンネルは、利得値の組によって決定付けられる割合でHRTFを実行する各対のフィルタに渡される。この利得値の組は、チャンネル構成情報を含んでいる。その結果、この処理は、バイノーラルオーディオシーンにおいて、元のスピーカに対応する1組の仮想スピーカを実装するものとして考えられることが可能である。従って、かかる実施形態は、いかなる中間BCC合成処理もせずに、パラメトリック符号化された空間オーディオ信号からバイノーラルオーディオ信号を直接生成することを可能にする。
この実施形態について、図5を参照して以下に更に説明する。図5は、この実施形態に従うバイノーラル復号器のブロック図を示す。復号器500は、モノラル化信号のための第1の入力502と、チャンネル構成情報を含むサイド情報のための第2の入力504とを含む。入力502、504は、実施形態を説明する上でそれぞれ異なる入力として示されるが、当業者は、実際の実装において、モノラル化信号およびサイド情報が同一の入力によって供給可能であることを理解されたい。
実施形態によっては、サイド情報は、BCCスキームと同じチャンネル間キュー、つまり、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)を含む必要はなく、その代わりに、各周波数帯域における元のミックス状態におけるチャンネル間の音圧分布を規定する推定利得の組のみで十分である。チャンネル構成情報は、推定利得の中に符号化されるか、ヘッダ情報のように単独の情報ブロックとして送信されうる。チャンネル構成情報は、オーディオストリームの最初に、又は送信bidストリームに時々含まれる別のフィールドとして、送信されうる。推定利得及びチャンネル構成情報の他に、サイド情報は、元のミックス状態におけるスピーカの数およびリスニング位置に対する位置、ならびに使用されたフレーム長を含むことが好ましい。実施形態によっては、サイド情報の一部として推定利得を符号化器から伝送する代わりに、推定利得は、BCCスキームのチャンネル間キュー、例えば、ICLDから復号器において計算される。
復号器500は、窓掛け部506をさらに備え、ここで、モノラル化信号は、まず、使用されたフレーム長の時間フレームに分割され、次に、フレームに窓掛けが適切に行なわれる(例えば、サイン窓)。適切なフレーム長を調整することによって、フレームが、離散フーリエ変換(discrete Fourier-transform; DFT)のために十分長くなるようにし、また同時に、信号の急速な変化を管理するために十分短くなるようにするべきである。実験によると、適切なフレーム長は約50msである。従って、44.1kHzのサンプリング周波数(種々のオーディオ符号化スキームで通常使用される)を使用する場合、フレームは、例えば、46.4msのフレーム長をもたらす2048個のサンプルを含むことができる。窓掛けは、スペクトル変形(レベルおよび遅延)による遷移を円滑化するために、隣接する窓が50%重複するように実行することが好ましい。
その後、窓掛けされたモノラル化信号は、FFT部508において周波数領域に変換される。効果的に計算するために、処理は周波数領域において実行される。
この目的のために、信号は、フィルタバンク510に導かれ、フィルタバンク510は、心理音響学的に導かれた周波数帯域に信号を分割する。実施形態によっては、フィルタバンク510は、一般的に認知される等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールに従い32個の周波数帯域に信号を分割し、結果的に、その32個の周波数帯域に信号成分x0、…、x31をもたらすように構成するように設計される。
復号器500は、事前に保存された情報としてHRTF512、514の組を含み、ここから各スピーカ方向に対応する左右の組のHRTFが、チャンネル構成情報に従って選択される。説明上、図5には2組のHRTF512、514が描かれており、一方の組は左側信号であり、他方の組は右側信号であるが、実際の実装において、1組のHRTFでも十分であることは明らかである。選択された左右の組のHRTFを、各スピーカチャンネルのオーディオレベルに対応するように調整するためには、利得値Gを推定することが好ましい。上述のように、推定利得は符号化器から受信したサイド情報に含めてもよく、あるいは、BCCサイド情報に基づき復号器において計算してもよい。利得は、時間および周波数の関数としてスピーカチャンネル毎に推定されるが、元のミックス状態における利得レベルを維持するために、スピーカチャンネル毎の利得を調整して、各利得値の二乗の合計が1に等しくすることが好ましい。これにより、仮想的に生成されるチャンネルの数がN個である場合、符号化器から伝送する必要がある推定利得はN-1個だけであり、不足利得値をN-1個の利得値に基づき計算可能である、という利点がもたらされる。しかしながら当業者は、本発明の動作において、復号器は、各利得値の二乗の合計を1に等しくなるように調整する必要は必ずしもないが、合計を1に等しくするように利得値の二乗を増減可能であることを理解されたい。
次に、適当なHRTFフィルタ512、514の左右の組の各々が、チャンネル構成情報に従って選択され、続いて選択されたHRTFフィルタの組が利得Gの組によって決定される割合で調整され、HRTFフィルタ512'、514'が得られる。実際には、元のHRTFフィルタの大きさ512、514は、利得値に応じて単に増減されるだけであるが、実施形態を説明する上で、HRTF512'、514'の組が図3において「付加的に」示されていることを再び留意されたい。
各周波数帯域について、モノラル信号成分x0、…、x31が、調整されたHRTFフィルタ512'、514'の各左右の組に提供される。次に、左側信号および右側信号のフィルタ出力は、両バイノーラルチャンネルの加算部516、518において加算される。加算されたバイノーラル信号は、再びサイン窓掛けが行なわれ、IFFT部520、522で実行される逆FFT処理によって、時間領域に再び変換される。分析フィルタが1つの信号にまとめない場合、あるいはその位相応答が線形でない場合、適切な合成フィルタバンクを使用して、最終的なバイノーラル信号BRおよびBLにおける歪みを回避することが好ましい。
実施形態によっては、バイノーラル信号の外在化、つまり頭外定位を向上させるために、適度な室内応答をバイノーラル信号に加えることが可能である。そのために、復号器は、残響部を備えてもよい。この残響部は、加算部516、518とIFFT部520、522の間に位置することが好ましい。付加された室内応答は、スピーカリスニング状況における室内効果を模倣する。しかしながら、必要とされる残響時間は、計算複雑性が顕著に増加しないように十分短くする。
HRTFは個々の差が大きく平均化が不可能であるため、完全な再空間化(re-spatialization)は、リスナー独自のHRTF組を測定することによってのみ達成されうることを、当業者は理解しているだろう。従って、HRTFの使用により信号は必然的にゆがみ、処理されたオーディオの質が、元の質と同等でなくなる。しかしながら、各リスナーのHRTFを測定することは非現実的な選択であるため、モデル化された組あるいは人頭模型または平均サイズおよび顕著な対称性を有する頭部を有する者から測定された組を使用する際に、最善の結果が達成される。
前述のように、実施形態によっては、推定利得は、符号化器から受信するサイド情報に含まれてもよい。結果的に、本発明のある側面は、マルチチャンネル空間オーディオ信号の符号化器に関し、この符号化器は、周波数および時間の関数としてスピーカチャンネル毎の利得を推定し、1つ(または複数の)結合チャンネル上で伝送されるサイド情報に推定利得を含める。さらに、符号化器は、コンテンツ製作者の指示に従って、チャンネル構成情報をサイド情報の中に含める。この結果、コンテンツ製作者は、復号器におけるバイノーラルダウンミックスプロセスを制御することができる。たとえば音源(仮想スピーカ)を中央部から端の方へ動かすなどすることにより、優れた空間的効果を得ることができる。加えて、一つまたは複数の音源を再生中に動かすことができ、これによって空間的音響効果を得ることができる。したがって、コンテンツ製作者は、物理的に固定したスピーカ位置に対するスピーカの表現によって音響イメージをデザインするよりも、バイノーラルコンテンツのために音響イメージをデザインする場合に、より多くの自由度と柔軟性を得ることができる。
符号化器は、例えば、既知のBCC符号化器であってもよく、この符号化器は、マルチチャンネル音響イメージを表現するチャンネル間キューであるICTD、ICLD、およびICCに付加的にまたは代替的に、推定利得を計算するようにさらに構成される。静的なチャンネル構成の場合、符号化器は、チャンネル構成情報を推定利得の中に符号化するか、オーディオストリームの最初に一つの情報ブロックとして符号化してもよい。また、動的な構成の更新が行われる場合、送信ビットストリームに時々含まれる別の情報フィールドとして、チャンネル構成情報を符号化してもよい。次に、サム信号と、推定利得及びチャンネル構成情報を少なくとも含むサイド情報は、好ましくは、サム信号を符号化する適切な低ビットレートオーディオ符号化スキームを使用して受信側に伝送される。
実施形態によっては、符号化器において推定利得を計算する場合、その計算は、個々のチャンネル毎の利得レベルを、結合チャンネルの累積利得レベルと比較することによって実行される。つまり、利得レベルをX、元のスピーカ配置における個々のチャンネルを「m」、サンプルを「k」とする場合、チャンネル毎の推定利得は│Xm(k)│/│XSUM(k)│で計算される。従って、推定利得は、全チャンネルの全ての利得の大きさと比較して、個々のチャンネル毎の利得の大きさを比例的に決定する。
簡素化するため、前述の例は、入力チャンネル(M)が符号化器においてダウンミックスされて単一の結合(例えば、モノラル)チャンネルを形成するように説明される。しかしながら、実施形態は、特定のオーディオ処理用途に応じて、多数の入力チャンネル(M)が、ダウンミックスされて2つ以上の別々の結合チャンネル(S)を形成するような代替的な実装においても同様に適用可能である。ダウンミックスにより多数の結合チャンネルが生成される場合、結合チャンネルデータは、従来のオーディオ伝送技術を使用して伝送可能である。例えば、2つの結合チャンネルが生成される場合、従来のステレオ伝送技術を使用してもよい。この場合、BCC復号器は、BCC符号を抽出および使用して、2つの結合チャンネルからバイノーラル信号を合成できる。
実施形態によっては、合成されたバイノーラル信号における仮想的に生成された「スピーカ」の数(N)は、特定用途に応じて、入力チャンネル(M)の数と異なってもよい(多くても少なくてもよい)。例えば、入力オーディオが7.1サラウンドオーディオに相当し、バイノーラル出力オーディオが5.1サラウンドオーディオに相当するように合成されてもよく、または、その反対でもよい。
上記実施形態は、次のように一般化されることができる。すなわち、本発明の実施形態は、M個の入力オーディオチャンネルをS個の結合オーディオチャンネルおよび1つ以上の対応するサイド情報の組に変換可能にするものであり(M>S)また、S個の結合オーディオチャンネルおよび対応するサイド情報の組からN個の出力オーディオチャンネルを生成するものである(N>S)。Nは、Mと等しくとも異なっていてもよい。
1つの結合チャンネルおよび必要なサイド情報を伝送するのに必要なビットレートは非常に低いため、本発明は、特に、利用可能な帯域幅が無線通信システムなどのリソースが乏しいシステムに十分適用可能である。従って、実施形態は、特に、高品質のスピーカを一般的に含まない携帯端末またはその他の携帯型装置に適用可能であり、この場合、マルチチャンネルサラウンドオーディオの特徴は、実施形態に従うバイノーラルオーディオ信号を聴くためのヘッドフォンを介して導入可能である。実行可能な用途のさらなる分野には、テレビ会議サービスが含まれる。この場合、電話会議出席者が会議室の異なる位置に居るという印象をリスナーに与えることによって、テレビ会議の出席者を容易に区別することができる。
図6は、データ処理装置(TE)の簡素化構造を示す。このデータ処理装置において、本発明に従うバイノーラル復号システムを実装することが可能である。データ処理装置(TE)は、例えば、携帯端末、PDA装置、またはパーソナルコンピュータ(PC)であることが可能である。データ処理ユニット(TE)は、I/O手段(I/O)、中央処理装置(CPU)、およびメモリ(MEM)を備える。メモリ(MEM)は、ランダムアクセスメモリRAMおよびFLASHメモリなどの、読取専用メモリROM部分および再書き込み可能部分を備える。CD-ROM、その他の装置、およびユーザなどの様々な外部装置と通信するために使用される情報は、I/O手段(I/O)を介して中央処理装置(CPU)によって送受信される。データ処理装置が移動局として実装される場合、データ処理装置は、一般的に送受信機Tx/Rxを備え、この送受信機Tx/Rxは、無線線ネットワークと通信し、一般的にはアンテナを介して基地局(BTS)と通信する。ユーザインターフェース(UI)機器は、一般的に、ディスプレイ、キーパッド、マイク、およびヘッドフォン用接続手段を備える。データ処理装置は、種々のハードウェアモジュール用または集積回路ICとしての標準型スロットなどの接続手段MMCをさらに備えて、データ処理装置において実行される種々のアプリケーションを提供してもよい。
従って、本発明に従うバイノーラル復号システムは、データ処理装置の中央処理装置(central processing unit; CPU)または専用のデジタル信号プロセッサ(digital signal processor; DSP)(パラメトリック符号化プロセッサ)において実行されてもよい。従って、データ処理装置は、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現すると共にバイノーラル信号の合成における音源位置の制御のためのチャンネル構成情報を含む対応するサイド情報の組を1つ以上含むパラメトリック符号化されたオーディオ信号を受信する。その少なくとも1つの結合信号は、サイド情報の組に従ってプロセッサで処理される。パラメトリック符号化されたオーディオ信号は、CD-ROMなどのメモリ手段から、あるいはアンテナおよび送受信機を介した無線ネットワークから受信されてもよい。
データ処理装置は、例えば適切なフィルタバンクおよび頭部伝達関数フィルタの既定の組を備える合成器を備える。これによって、バイノーラルオーディオ信号は、処理された少なくとも1つの信号から合成され、チャンネル構成情報は、バイノーラル信号の合成における音源位置の制御のために用いられる。そしてバイノーラルオーディオ信号は、ヘッドフォンを介して再生される。
同様に、本発明に従う符号化システムも、データ処理装置の中央処理装置(CPU)または専用のデジタル信号プロセッサ(DSP)において実行されることができる。従って、データ処理装置は、複数のオーディオチャンネルの結合信号を少なくとも1つと、バイノーラル信号の合成における音源位置の制御のためのチャンネル構成情報を含む1つ以上の対応するサイド情報の組とを含むパラメトリック符号化されたオーディオ信号を生成する。
本発明の機能は、移動局などの端末装置において実装されてもよく、また、コンピュータプログラムとして実装されてもよい。このコンピュータプログラムは、中央処理装置CPUまたは専用のデジタル信号プロセッサDSPにおいて実行されると、本発明の手順を実行するように端末装置に作用する。コンピュータプログラムSWの機能は、相互に通信するいくつかの別々のプログラム要素に分散されてもよい。コンピュータソフトウェアは、PCのハードディスクまたはCD-ROMディスクなど如何なるメモリ手段にも保存されてもよく、そこから携帯端末のメモリにロード可能である。また、コンピュータソフトウェアは、例えば、TCP/IPプロトコルスタックを使用してネットワークを介してロード可能である。
また、ハードウェアソリューションあるいはハードウェアおよびソフトウェアソリューションの組み合わせを使用して、発明の手段を実行することも可能である。従って、上記のコンピュータプログラムは、モジュールを電子装置に接続するための接続手段を備えるハードウェアモジュールにおける例えばASICまたはFPGA回路などのハードウェアソリューションとして、あるいは1つ以上の集積回路として、少なくとも部分的に実装可能である。このハードウェアモジュールまたはICは、上記プログラムコードタスクを実行するための種々の手段をさらに含み、また、上記手段は、ハードウェアおよび/またはソフトウェアとして実装される。
本発明は、上に提示された実施形態だけに限定されないが、添付の請求項の範囲内で修正可能であることは明らかである。
従来技術に従う一般的なバイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームを示す。 従来技術に従うBCC合成スキームの一般構造を示す。 本発明の実施形態に従う、一般的なバイノーラル符号化スキームを示す。 本発明の実施形態に従う、空間音響イメージにおける音源の位置の変化を示す。 本発明の実施形態に従う、空間音響イメージにおける音源の位置の変化を示す。 本発明の実施形態に従う、バイノーラル復号器のブロック図を示す。 簡易ブロック図によって、本発明の実施形態に従う電子装置を示す。

Claims (28)

  1. パラメトリック符号化されたオーディオ信号を生成するための方法であって、
    複数のオーディオチャンネルを含むマルチチャンネルオーディオ信号を入力することと、
    前記複数のオーディオチャンネルの結合信号を少なくとも1つを生成することと、
    バイノーラルオーディオ信号の合成における音源位置を制御するためのチャンネル構成情報を含む、1つ以上の対応するサイド情報の組を生成することと、
    を含む、方法。
  2. 前記音源位置はバイノーラルオーディオ信号シーケンスを通じて静的であり、前記方法は、
    前記バイノーラルオーディオ信号シーケンスに対応する、前記1つ以上の対応するサイド情報の組に、前記チャンネル構成情報を情報フィールドとして含めることを含む、請求項1に記載の方法。
  3. 前記音源位置は可変であり、前記方法は、前記1つ以上の対応するサイド情報の組に、前記チャンネル構成情報を、前記音源位置の変化を反映した複数の情報フィールドとして含めることを含む、請求項位置に記載の方法。
  4. 前記サイド情報の組は、オリジナルのマルチチャンネル音響イメージにおけるスピーカの数およびリスニング位置に対する位置と、使用されるフレーム長とをさらに含む、請求項1から3のいずれかに記載の方法。
  5. 前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューをさらに含む、
    請求項1から4のいずれかに記載の方法。
  6. 前記サイド情報の組はさらに、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、請求項1から5のいずれかに記載の方法。
  7. オリジナルのマルチチャンネルオーディオにおける前記推定利得の組を、時間および周波数の関数として決定することと、
    各利得値の二乗の和が1に等しくなるように、スピーカチャンネル毎の前記利得を調整することと、
    をさらに含む、請求項6に記載の方法。
  8. パラメトリック符号化されたオーディオ信号を生成するためのパラメトリックオーディオ符号化器であって、
    複数のオーディオチャンネルを含むマルチチャンネルオーディオ信号を入力する手段と、
    前記複数のオーディオチャンネルの結合信号を少なくとも1つを生成する手段と、
    バイノーラルオーディオ信号の合成における音源位置を制御するためのチャンネル構成情報を含む、1つ以上の対応するサイド情報の組を生成する手段と、
    を備える、符号化器。
  9. 前記音源位置はバイノーラルオーディオ信号シーケンスを通じて静的である場合、 前記バイノーラルオーディオ信号シーケンスに対応する、前記1つ以上の対応するサイド情報の組に、前記チャンネル構成情報を情報フィールドとして含める手段をさらに備える、請求項8に記載の符号化器。
  10. 前記音源位置は可変である場合、前記1つ以上の対応するサイド情報の組に、前記チャンネル構成情報を、前記音源位置の変化を反映した複数の情報フィールドとして含める手段をさらに備える、請求項8又は9に記載の符号化器。
  11. 前記サイド情報の組は、さらに、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、チャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームで使用されるチャンネル間キューを含む、請求項8から10のいずれかに記載の方法。
  12. 前記サイド情報の組はさらに、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、請求項8から11のいずれかに記載の符号化器。
  13. コンピュータ可読媒体に保存され、かつデータ処理装置において実行可能であるコンピュータプログラムであって、パラメトリック符号化されたオーディオ信号を生成するために、
    複数のオーディオチャンネルを含むマルチチャンネルオーディオ信号を入力するコンピュータプログラムコード部分と、
    前記複数のオーディオチャンネルの結合信号を少なくとも1つを生成するコンピュータプログラムコード部分と、
    バイノーラルオーディオ信号の合成における音源位置を制御するためのチャンネル構成情報を含む、1つ以上の対応するサイド情報の組を生成するコンピュータプログラムコード部分と、
    を備える、コンピュータプログラム。
  14. バイノーラルオーディオ信号を合成するための方法であって、
    複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現すると共にチャンネル構成情報を含む対応するサイド情報の組を1つ以上含む、パラメトリック符号化されたオーディオ信号を入力することと、
    前記対応するサイド情報の組に従って前記少なくとも1つの結合信号を処理することと、
    前記少なくとも1つの処理された信号からバイノーラルオーディオ信号を合成することと、
    を含み、前記チャンネル構成情報は、バイノーラルオーディオ信号の合成における音源位置を制御するために用いられる、
    方法。
  15. 前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューを含む、請求項14に記載の方法。
  16. 前記少なくとも1つの結合信号を処理することは、さらに、
    前記1つ以上の対応するサイド情報の組によって制御される、バイノーラルキュー符号化(Binaural Cue Coding; BCC)合成によって、前記少なくとも1つの結合信号から複数のオーディオチャンネルのオリジナルのオーディオ信号を合成することと、
    合成された複数のオーディオ信号をバイノーラルダウンミックス処理に適用することと、
    を含む、請求項15に記載の方法。
  17. 前記サイド情報の組は、オリジナルの音響イメージを表現するマルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、
    請求項14に記載の方法。
  18. 前記少なくとも1つの結合信号を処理することは、さらに、
    バイノーラルオーディオ信号を合成するために、前記対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用することを含む、請求項17に記載の方法。
  19. 前記頭部伝達関数フィルタの既定の組から、前記チャンネル構成情報に従って、頭部伝達関数フィルタの左右の組を適用することをさらに含む、請求項18に記載の方法。
  20. 複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応すると共にチャンネル構成情報を含むサイド情報の組を1つ以上含み、前記1つの結合情報を前記対応するサイド情報の組に従って処理する、パラメトリック符号化されたオーディオ信号を処理するためのパラメトリック符号化プロセッサと、
    前記チャンネル構成情報を、バイノーラルオーディオ信号の合成における音源位置を制御するために用いて、前記少なくとも1つの処理された信号からバイノーラルオーディオ信号を合成する合成器と、
    を備える、パラメトリックオーディオ復号器。
  21. 前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューを含む、請求項20に記載の復号器。
  22. 前記合成器は、前記1つ以上の対応するサイド情報の組によって制御される、バイノーラルキュー符号化(Binaural Cue Coding; BCC)合成処理によって、前記少なくとも1つの結合信号から複数のオーディオチャンネルのオリジナルのオーディオ信号を合成するように構成され、
    前記復号器が、合成された複数のオーディオ信号をバイノーラルダウンミックス処理に適用するように構成される、
    請求項21に記載の復号器。
  23. 前記サイド情報の組は、オリジナルの音響イメージを表現するマルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、請求項20に記載の復号器。
  24. 前記合成器は、バイノーラルオーディオ信号を合成するために、前記対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用するように構成される、請求項23に記載の復号器。
  25. 前記合成器は、前記頭部伝達関数フィルタの既定の組から、前記チャンネル構成情報に従って、頭部伝達関数フィルタの左右の組を適用するように構成される、請求項24に記載の復号器。
  26. コンピュータ可読媒体に保存され、かつデータ処理装置において実行可能であるコンピュータプログラムであって、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応すると共にチャンネル構成情報を含むサイド情報の組を1つ以上含むパラメトリック符号化されたオーディオ信号を処理するために、
    前記対応するサイド情報の組に従って前記少なくとも1つの結合信号の処理を制御するためのコンピュータプログラムコード部分と、
    前記チャンネル構成情報を、バイノーラルオーディオ信号の合成における音源位置を制御するために用いて、前記少なくとも1つの処理された信号からバイノーラルオーディオ信号を合成するためのコンピュータプログラムコード部分と、
    を備える、コンピュータプログラム。
  27. バイノーラルオーディオ信号を合成する装置であって、
    複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応すると共にチャンネル構成情報を含むサイド情報の組を1つ以上含む、パラメトリック符号化されたオーディオ信号を入力する手段と、
    前記対応するサイド情報の組に従って前記少なくとも1つの結合信号を処理する手段と、
    前記チャンネル構成情報を、バイノーラルオーディオ信号の合成における音源位置を制御するために用いて、前記少なくとも1つの処理された信号からバイノーラルオーディオ信号を合成する手段と、
    前記バイノーラルオーディオ信号をオーディオ再生手段に供給する手段と、
    を備える、装置。
  28. 前記装置は、携帯端末、PDA装置、またはパーソナルコンピュータである、請求項27に記載の装置。
JP2008549029A 2006-01-09 2006-01-09 バイノーラルオーディオ信号の復号制御 Expired - Fee Related JP4944902B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI2006/050015 WO2007080212A1 (en) 2006-01-09 2006-01-09 Controlling the decoding of binaural audio signals

Publications (2)

Publication Number Publication Date
JP2009522610A true JP2009522610A (ja) 2009-06-11
JP4944902B2 JP4944902B2 (ja) 2012-06-06

Family

ID=38256020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008549029A Expired - Fee Related JP4944902B2 (ja) 2006-01-09 2006-01-09 バイノーラルオーディオ信号の復号制御

Country Status (7)

Country Link
US (1) US8081762B2 (ja)
EP (1) EP1971978B1 (ja)
JP (1) JP4944902B2 (ja)
CN (1) CN101356573B (ja)
AT (1) ATE476732T1 (ja)
DE (1) DE602006016017D1 (ja)
WO (1) WO2007080212A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014505420A (ja) * 2011-01-05 2014-02-27 コーニンクレッカ フィリップス エヌ ヴェ オーディオ・システムおよびその動作方法
WO2014192602A1 (ja) * 2013-05-31 2014-12-04 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2015186535A1 (ja) * 2014-06-06 2015-12-10 ソニー株式会社 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム
KR101627247B1 (ko) * 2014-12-30 2016-06-03 가우디오디오랩 주식회사 추가 자극을 생성하는 바이노럴 오디오 신호 처리 방법 및 장치

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214220B2 (en) * 2005-05-26 2012-07-03 Lg Electronics Inc. Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal
WO2006126843A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding audio signal
JP4988717B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
KR100803212B1 (ko) 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
US8208641B2 (en) 2006-01-19 2012-06-26 Lg Electronics Inc. Method and apparatus for processing a media signal
CN101410891A (zh) 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
US8285556B2 (en) 2006-02-07 2012-10-09 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
US8284713B2 (en) * 2006-02-10 2012-10-09 Cisco Technology, Inc. Wireless audio systems and related methods
KR100773560B1 (ko) 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US9697844B2 (en) * 2006-05-17 2017-07-04 Creative Technology Ltd Distributed spatial audio decoder
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
KR100763920B1 (ko) 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
EP2071564A4 (en) 2006-09-29 2009-09-02 Lg Electronics Inc METHOD AND DEVICES FOR CODING AND DECODING OBJECT-BASED AUDIO SIGNALS
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
CN101617360B (zh) 2006-09-29 2012-08-22 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
JP5232791B2 (ja) 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
EP2122613B1 (en) 2006-12-07 2019-01-30 LG Electronics Inc. A method and an apparatus for processing an audio signal
EP2238589B1 (en) * 2007-12-09 2017-10-25 LG Electronics Inc. A method and an apparatus for processing a signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
JP5540492B2 (ja) * 2008-10-29 2014-07-02 富士通株式会社 通信装置、効果音出力制御プログラム及び効果音出力制御方法
EP2194527A3 (en) * 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
US8434006B2 (en) * 2009-07-31 2013-04-30 Echostar Technologies L.L.C. Systems and methods for adjusting volume of combined audio channels
BR122020007866B1 (pt) * 2009-10-21 2021-06-01 Dolby International Ab Sistema configurado para gerar um componente de alta frequência de um sinal de áudio, método para gerar um componente de alta frequência de um sinal de áudio e método para projetar um transpositor de harmônicos
CN102792378B (zh) * 2010-01-06 2015-04-29 Lg电子株式会社 处理音频信号的设备及其方法
TWI516138B (zh) 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
US8842842B2 (en) 2011-02-01 2014-09-23 Apple Inc. Detection of audio channel configuration
US8621355B2 (en) 2011-02-02 2013-12-31 Apple Inc. Automatic synchronization of media clips
US9420394B2 (en) 2011-02-16 2016-08-16 Apple Inc. Panning presets
US8887074B2 (en) 2011-02-16 2014-11-11 Apple Inc. Rigging parameters to create effects and animation
US8965774B2 (en) 2011-08-23 2015-02-24 Apple Inc. Automatic detection of audio compression parameters
CN102523541B (zh) * 2011-12-07 2014-05-07 中国航空无线电电子研究所 用于hrtf测量的轨道牵引式音箱位置调节装置
US9973591B2 (en) 2012-02-29 2018-05-15 Razer (Asia-Pacific) Pte. Ltd. Headset device and a device profile management system and method thereof
AU2014262196B2 (en) * 2012-02-29 2015-11-26 Razer (Asia-Pacific) Pte Ltd Headset device and a device profile management system and method thereof
US9654644B2 (en) 2012-03-23 2017-05-16 Dolby Laboratories Licensing Corporation Placement of sound signals in a 2D or 3D audio conference
WO2013142668A1 (en) 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Placement of talkers in 2d or 3d conference scene
CN104335605B (zh) * 2012-06-06 2017-10-03 索尼公司 音频信号处理装置、音频信号处理方法和计算机程序
CN104782145B (zh) * 2012-09-12 2017-10-13 弗劳恩霍夫应用研究促进协会 为3d音频提供增强的导引降混性能的装置及方法
CN108806706B (zh) * 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
KR102150955B1 (ko) 2013-04-19 2020-09-02 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
EP2946573B1 (en) * 2013-04-30 2019-10-02 Huawei Technologies Co., Ltd. Audio signal processing apparatus
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
CN109068263B (zh) 2013-10-31 2021-08-24 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN104581602B (zh) * 2014-10-27 2019-09-27 广州酷狗计算机科技有限公司 录音数据训练方法、多轨音频环绕方法及装置
EP3219115A1 (en) * 2014-11-11 2017-09-20 Google, Inc. 3d immersive spatial audio systems and methods
GB2535990A (en) * 2015-02-26 2016-09-07 Univ Antwerpen Computer program and method of determining a personalized head-related transfer function and interaural time difference function
CN113038354A (zh) 2015-11-17 2021-06-25 杜比实验室特许公司 用于参数化双耳输出系统和方法的头部跟踪
US10375496B2 (en) 2016-01-29 2019-08-06 Dolby Laboratories Licensing Corporation Binaural dialogue enhancement
CN107040862A (zh) * 2016-02-03 2017-08-11 腾讯科技(深圳)有限公司 音频处理方法及处理系统
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
CN108665902B (zh) 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
US11212631B2 (en) * 2019-09-16 2021-12-28 Gaudio Lab, Inc. Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001511995A (ja) * 1997-12-13 2001-08-14 セントラル リサーチ ラボラトリーズ リミティド オーディオ信号処理方法
JP2004048741A (ja) * 2002-06-24 2004-02-12 Agere Systems Inc オーディオミキシングのための等化技術
JP2004078183A (ja) * 2002-06-24 2004-03-11 Agere Systems Inc オーディオ信号のマルチチャネル/キュー符号化/復号化
JP2005229612A (ja) * 2004-02-12 2005-08-25 Agere Systems Inc 聴覚情景の後部残響音ベースの合成
JP2006166447A (ja) * 2004-12-01 2006-06-22 Samsung Electronics Co Ltd 多チャンネルオーディオ信号処理装置、多チャンネルオーディオ信号処理方法、圧縮効率向上方法及び多チャンネルオーディオ信号処理システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6307941B1 (en) * 1997-07-15 2001-10-23 Desper Products, Inc. System and method for localization of virtual sound
JP4304845B2 (ja) * 2000-08-03 2009-07-29 ソニー株式会社 音声信号処理方法及び音声信号処理装置
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
EP1500084B1 (en) * 2002-04-22 2008-01-23 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
KR100981699B1 (ko) * 2002-07-12 2010-09-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001511995A (ja) * 1997-12-13 2001-08-14 セントラル リサーチ ラボラトリーズ リミティド オーディオ信号処理方法
JP2004048741A (ja) * 2002-06-24 2004-02-12 Agere Systems Inc オーディオミキシングのための等化技術
JP2004078183A (ja) * 2002-06-24 2004-03-11 Agere Systems Inc オーディオ信号のマルチチャネル/キュー符号化/復号化
JP2005229612A (ja) * 2004-02-12 2005-08-25 Agere Systems Inc 聴覚情景の後部残響音ベースの合成
JP2006166447A (ja) * 2004-12-01 2006-06-22 Samsung Electronics Co Ltd 多チャンネルオーディオ信号処理装置、多チャンネルオーディオ信号処理方法、圧縮効率向上方法及び多チャンネルオーディオ信号処理システム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014505420A (ja) * 2011-01-05 2014-02-27 コーニンクレッカ フィリップス エヌ ヴェ オーディオ・システムおよびその動作方法
WO2014192602A1 (ja) * 2013-05-31 2014-12-04 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JPWO2014192602A1 (ja) * 2013-05-31 2017-02-23 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9805729B2 (en) 2013-05-31 2017-10-31 Sony Corporation Encoding device and method, decoding device and method, and program
TWI615834B (zh) * 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
WO2015186535A1 (ja) * 2014-06-06 2015-12-10 ソニー株式会社 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム
JPWO2015186535A1 (ja) * 2014-06-06 2017-04-20 ソニー株式会社 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム
US10621994B2 (en) 2014-06-06 2020-04-14 Sony Corporaiton Audio signal processing device and method, encoding device and method, and program
KR101627247B1 (ko) * 2014-12-30 2016-06-03 가우디오디오랩 주식회사 추가 자극을 생성하는 바이노럴 오디오 신호 처리 방법 및 장치
WO2016108510A1 (ko) * 2014-12-30 2016-07-07 가우디오디오랩 주식회사 추가 자극을 생성하는 바이노럴 오디오 신호 처리 방법 및 장치
US10003904B2 (en) 2014-12-30 2018-06-19 Gaudi Audio Lab, Inc. Method and device for processing binaural audio signal generating additional stimulation

Also Published As

Publication number Publication date
JP4944902B2 (ja) 2012-06-06
EP1971978B1 (en) 2010-08-04
US8081762B2 (en) 2011-12-20
EP1971978A4 (en) 2009-04-08
WO2007080212A1 (en) 2007-07-19
DE602006016017D1 (de) 2010-09-16
CN101356573A (zh) 2009-01-28
US20090129601A1 (en) 2009-05-21
CN101356573B (zh) 2012-01-25
ATE476732T1 (de) 2010-08-15
EP1971978A1 (en) 2008-09-24

Similar Documents

Publication Publication Date Title
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
JP5081838B2 (ja) オーディオ符号化及び復号
JP4708493B2 (ja) バイノーラル音響信号の動的な復号
RU2409911C2 (ru) Декодирование бинауральных аудиосигналов
US20170366912A1 (en) Ambisonic audio rendering with depth decoding
TWI415111B (zh) 空間解碼器單元、空間解碼器裝置、音訊系統、消費型電子裝置、產生一對雙耳輸出聲道之方法及電腦可讀媒體
US20100246832A1 (en) Method and apparatus for generating a binaural audio signal
US20190373398A1 (en) Methods, apparatus and systems for dynamic equalization for cross-talk cancellation
WO2007080225A1 (en) Decoding of binaural audio signals
EP3808106A1 (en) Spatial audio capture, transmission and reproduction
KR20080078907A (ko) 양 귀 오디오 신호들의 복호화 제어
WO2007080224A1 (en) Decoding of binaural audio signals
MX2008008829A (en) Decoding of binaural audio signals
MX2008008424A (es) Decodificacion de señales de audio binaurales

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120302

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees