JP2009522895A - バイノーラルオーディオ信号の復号 - Google Patents

バイノーラルオーディオ信号の復号 Download PDF

Info

Publication number
JP2009522895A
JP2009522895A JP2008549032A JP2008549032A JP2009522895A JP 2009522895 A JP2009522895 A JP 2009522895A JP 2008549032 A JP2008549032 A JP 2008549032A JP 2008549032 A JP2008549032 A JP 2008549032A JP 2009522895 A JP2009522895 A JP 2009522895A
Authority
JP
Japan
Prior art keywords
signal
channel
audio
binaural
side information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008549032A
Other languages
English (en)
Inventor
パスィ オヤラ
ユリア トゥルク
マウリ ヴァーナネン
ミッコ タミ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Priority claimed from PCT/FI2007/050005 external-priority patent/WO2007080225A1/en
Publication of JP2009522895A publication Critical patent/JP2009522895A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

バイノーラルオーディオ信号を合成するための方法であって、本方法は、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含むパラメトリック符号化されたオーディオ信号を入力することと、バイノーラルオーディオ信号を合成するために、対応するサイド情報の組によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用することと、を含む。
【選択図】図3

Description

本発明は、空間オーディオ符号化(Spatial Audio Coding)に関し、より具体的には、バイノーラルオーディオ信号(Binaural Audio Signal)の復号に関する。
関連出願
本出願は、2006年1月9日に出願された国際出願第PCT/FI2006/050014号、2006年1月17日に出願された米国出願第11/334,041号、および2006年2月13日に出願された米国出願第11/354,211号に基づく優先権を主張する。
発明の背景
空間オーディオ符号化において、異なるオーディオチャンネル上で再生されるべきオーディオ信号がそれぞれ異なることにより、2チャンネル/マルチチャンネルオーディオ信号を処理することによって、音源周辺の空間効果の印象がリスナーにもたらされる。空間効果は、マルチチャンネルまたはバイノーラル再生の適切なフォーマットに直接オーディオを録音することによって生成可能である。あるいは、空間効果は、いかなる2チャンネル/マルチチャンネルオーディオ信号においても人工的に生成可能であり、空間化(Spatialization)として知られている。
ヘッドフォンの再生に関し、リスナーの左耳および右耳用のバイノーラル信号を生成する頭部伝達関数(Head Related Transfer Function; HRTF)フィルタリングによって、人工的に空間化を行うことができることは一般的に知られている。音源信号は、その音源の方向に対応するHRTFから得られるフィルタでフィルタリングされる。HRTFは、自由音場における音源から人間の耳または人工の頭部まで測定される伝達関数であり、頭部と置換され、かつ頭部の中に配置されるマイクに対する伝達関数によって割られる。人工的室内効果(例えば、早期反射および/または後期残響)を空間化信号に加えることによって、音源の外在化(Externalization)および自然性(Naturalness)を改善できる。
多種多様なオーディオ聴音装置および相互作用装置が増加するにつれ、その互換性がより重要になってきた。空間オーディオフォーマットにおいては、アップミックス(upmix)およびダウンミックス(downmix)技術によって互換性を追求している。Dolby Digital(r)およびDolby Surround(r)などのステレオフォーマットにマルチチャンネルオーディオ信号を変換し、さらに、ステレオ信号をバイノーラル信号に変換するためのアルゴリズムが存在することは一般的に知られている。しかしながら、このような処理において、元のマルチチャンネルオーディオ信号の空間イメージは、完全には再生できない。ヘッドフォンリスニングのためのマルチチャンネルオーディオ信号を変換する改善方法として、HRTFフィルタリングを使用することによって元のスピーカを仮想スピーカに置換し、それら(例えば、Dolby Headphone(r))を介してスピーカチャンネル信号を再生することが挙げられる。しかしながら、この処理は、バイノーラル信号生成に関し、常にマルチチャンネルミックスを最初に必要とするという不利点を有する。つまり、マルチチャンネル(例えば、5+1チャンネル)信号が、最初に復号および合成され、続いてバイノーラル信号を生成するためにHRTFが各信号に適用される。これは、圧縮されたマルチチャンネルフォーマットからバイノーラルフォーマットに直接復号することに比べ、計算的に重いアプローチになる。
バイノーラルキュー符号化(Binaural Cue Coding; BCC)は、高度なパラメトリック空間オーディオ符号化方法である。BCCは、単一の(またはいくつかの)ダウンミックスされたオーディオチャンネルと、オリジナルの信号からの周波数および時間の関数として推定された1組の知覚関連のチャンネル間差として、空間マルチチャンネル信号を表現する。この方法によって、任意のスピーカ配置が、同数または異なる数のスピーカを含むその他のいかなるスピーカ配置にも変換されるようにミックスされた空間オーディオ信号が可能になる。
従って、BCCは、マルチチャンネルスピーカシステムのために設計される。しかしながら、BCC処理されたモノラル信号およびそのサイド情報からバイノーラル信号を生成する場合、モノラル信号およびサイド情報に基づいてマルチチャンネル表現がまず合成された後に、そのマルチチャンネル表現から空間ヘッドフォン再生のためのバイノーラル信号が生成可能となりうる。このアプローチであっても、バイノーラル信号生成を考慮すると、最適化されていないことは明らかである。
発明の摘要
バイノーラル信号の生成が、パラメトリック符号化されたオーディオ信号から直接可能になるように改良された方法と、その方法を実行する技術装置が発明される。本発明の種々の側面は、復号方法、復号器、装置、およびコンピュータプログラムを含み、これらは、以下に一般的且つ詳細に開示される事項よって特徴付けられる。本発明の種々の実施形態についても開示される。
第1の側面によると、本発明に従う方法は、バイノーラルオーディオ信号を合成する次のような概念に基づく。まず、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含むパラメトリック符号化されたオーディオ信号を、入力する。この少なくとも1つの結合信号は、複数のサブ帯域に分割され、サブ帯域のパラメータ値はサイド情報の組によって決定される。次に、バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用する。
実施形態によっては、前記パラメータ値は、前記サイド情報の組によって提供される次の及び前のパラメータ値へ、特定のサブ帯域に対応するパラメータ値を補間することによって決定される。
実施形態によっては、前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルスピーカ配置の各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組が、選択され適用される。
実施形態によっては、前記サイド情報の組は、オリジナルの音響イメージを表現する、前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む。
実施形態によっては、オリジナルのマルチチャンネルオーディオの推定利得を、時間および周波数の関数として決定し、各利得値の二乗の和が1に等しくなるように、スピーカチャンネル毎の前記利得を調整する。
実施形態によっては、前記頭部伝達関数フィルタを適用する前に、QMFサブ帯域、等価方形幅(Equivalent Rectangular Bandwidth; ERB)の複数のサブ帯域、心理音響学的に導かれた複数のサブ帯域、のいずれかのサブ帯域に、前記少なくとも1つの結合信号を分割する。
実施形態によっては、前記パラメータ値は、少なくとも1つのサブ帯域の利得値である。
マルチチャンネル 実施形態によっては、サブ帯域の利得値を決定するステップは、オリジナルの音響イメージを表現するマルチチャンネルオーディオの各チャンネル信号の利得値を決定することと、複数のサブ帯域のための単一の利得値を、前記各チャンネル信号の利得値から補間することと、を含む。
実施形態によっては、サブ帯域のバイノーラル信号の周波数領域における表現は、前記少なくとも1つの結合信号に、少なくとも1つの利得値と所定の頭部伝達関数フィルタを乗ずることにより得られる。
本発明に従う構成により有意な利点がもたらされる。主な利点は、復号処理の簡素化および計算複雑性の低下である。また、復号器は、符号化器が提供する空間および符号化パラメータに基づいてバイノーラル合成を完全に実行するという点において、柔軟性を有する。さらに、オリジナルの信号と同等の空間性が変換において維持される。サイド情報に関しては、オリジナルミックスの推定利得の組で十分である。より重要なことに、本発明により、パラメトリックオーディオ符号化においてもたらされる圧縮中間状態の活用の強化が可能になり、オーディオの伝送および保存における効果が改善される。サイド情報からサブ帯域の利得値が決定されるとすれば、ある周波数帯域から他の周波数帯域にかけての利得値の変化が緩やかになることにより、バイノーラル出力信号の品質が改善されうる。また、フィルタリング処理が著しく簡略化される。
本発明のさらなる側面は、上記方法の発明ステップを実行するように構成された種々の装置を含む。
発明の実施形態の詳細な説明
以下において、本発明の種々の実施形態について、添付の図面を参照してより詳細に説明する。
バイノーラルキュー符号化(Binaural Cue Coding; BCC)を、実施形態に従う復号スキームを実行するための例示的な基盤として言及することによって、本発明を以下に説明する。しかしながら、本発明は、BCC型の空間オーディオ符号化方法だけに限定されず、1つ以上のオーディオチャンネルの組のオリジナルから結合された少なくとも1つのオーディオ信号と、適切な空間サイド情報とが用意される、いかなるオーディオ符号化スキームにおいても実行可能であることに留意されたい。
バイノーラルキュー符号化(Binaural Cue Coding; BCC)は、空間オーディオのパラメータ表現に関する一般概念であり、単一のオーディオチャンネルといくつかのサイド情報から任意の数のチャンネルを有するマルチチャンネル出力を提供するものである。図1は、本概念を示す。いくつかの入力オーディオチャンネル(M)は、ダウンミックス処理によって単一出力(S;「サム」)信号に結合される。並行して、マルチチャンネル音響イメージを表現する最重要なチャンネル間キューが、入力チャンネルから抽出され、BCCサイド情報(BCC side information)としてコンパクトに符号化される。次に、サム信号およびサイド情報は、例えばサム信号を符号化するための適切な低ビットレートオーディオ符号化スキームを使用して受信側に伝送される。最終的に、BCC復号器は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの関連チャンネル間キューを有するチャンネル出力信号を再合成することによって、伝送されたサム信号および空間キュー情報から、スピーカのマルチチャンネル出力信号(N)を生成する。従って、BCCサイド情報、つまりチャンネル間キューは、特にスピーカ再生のためのマルチチャンネルオーディオ信号の復元の最適化を考慮して選択される。
2つのBCCスキームが存在する。1つは、受信側でレンダリングする目的で多数の異なる音源信号を伝送する、フレキシブルレンダリング(Flexible Rendering)に関するBCC(I型BCC)であり、もう1つは、ステレオまたはサラウンド信号の多数のオーディオチャンネルを伝送する、ナチュラルレンダリング(Natural Rendering)(II型BCC)に関するBCCである。フレキシブルレンダリングに関するBCCは、複数の異なる音源信号(例えば、スピーチ信号、別々に録音された楽器、マルチトラック録音)を入力として使用する。ナチュラルレンダリングに関するBCCは、「完全にミックスされた(final mix)」ステレオまたはマルチチャンネル信号(例えば、CDオーディオ、DVDサラウンド)を入力として使用する。これらの処理が、従来の符号化技術によって実行される場合、ビットレートは、オーディオチャンネルの数に比例して、または少なくともほぼ比例して増減する。例えば、5.1マルチチャンネルシステムの6つのオーディオチャンネルを伝送するには、1つのオーディオチャンネルの約6倍のビットレートが必要になる。しかしながら、BCCサイド情報は非常に低いビットレート(例えば、2kb/s)しか必要としないため、両BCCスキームのビットレートは、結果的に、1つのオーディオチャンネルの伝送に必要なビットレートよりも若干高くなるだけである。
図2は、BCC合成スキームの一般構造を示す。伝送されたモノラル信号("Sum")は、まず、時間領域において窓掛けが行なわれてフレームに分割され、次に、高速フーリエ変換(Fast Fourier Transform; FFT)処理およびフィルタバンク(filterbank; FB)によって、適切なサブ帯域の空間表現にマップされる。再生チャンネルの一般的場合において、ICLDおよびICTDは、対のチャンネル間、つまり、参照チャンネルに対する各チャンネルの各サブ帯域において考慮される。サブ帯域は、十分高い周波数分解能が達成されるように選択される。例えば、等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールの2倍に等しいサブ帯域幅が一般的に適切であると考えられる。生成される出力チャンネル毎に、個々の時間遅延ICTDおよびレベル差ICLDが、スペクトル係数に課され、その後、コヒーレンス合成処理により、合成されたオーディオチャンネル間のコヒーレンスおよび/または相関(ICC)に関する最重要側面を再導入する。最終的に、合成された全出力チャンネルは、IFFT処理(逆FFT)によって時間領域表現に再び変換され、マルチチャンネル出力をもたらす。BCCアプローチに関するさらに詳しい説明は、下記非特許文献1及び2を参照されたい。
F. Baumgarte and C. Faller: "Binaural Cue Coding - Part I: Psy-choacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003 C. Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003
BCCは、符号化スキームの一例であり、この符号化スキームにより、実施形態に従う復号スキームを実行するための適切な基盤が提供される。ある実施形態に従うバイノーラル復号器は、モノラル化信号およびサイド情報を入力として受信する。この概念は、元のミックス状態における各スピーカを、リスニング位置に対するスピーカの方向に対応するHRTFの組に置換することである。モノラル化信号における各周波数チャンネルは、利得値の組によって決定付けられる割合でHRTFを実行する各対のフィルタに渡される。この利得値は、サイド情報に基づき計算可能である。その結果、この処理は、バイノーラルオーディオシーンにおいて、元のスピーカに対応する1組の仮想スピーカを実装するものとして考えられることが可能である。従って、本発明は、種々のスピーカ配置のマルチチャンネルオーディオ信号の他に、いかなる中間BCC合成処理もせずに、パラメトリック符号化された空間オーディオ信号から直接にバイノーラルオーディオ信号を導き出すことを可能にすることによって、BCCに価値を加える。
本発明のいくつかの実施形態について、図3を参照して以下に説明する。図3は、本発明のある側面に従うバイノーラル復号器のブロック図を示す。復号器300は、モノラル化信号の第1の入力302と、サイド情報の第2の入力304とを含む。入力302、304は、実施形態を説明する上でそれぞれ異なる入力として示されるが、当業者は、実際の実装において、モノラル化信号およびサイド情報が同一の入力によって供給可能であることを理解されたい。
実施形態によっては、サイド情報は、BCCスキームと同じチャンネル間キュー、つまり、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)を含む必要はなく、その代わりに、各周波数帯域における元のミックス状態におけるチャンネル間の音圧分布を規定する推定利得の組のみで十分である。推定利得の他に、サイド情報は、元のミックス状態におけるスピーカの数およびリスニング位置に対する位置、ならびに使用されたフレーム長を含むことが好ましい。実施形態によっては、サイド情報の一部として推定利得を符号化器から伝送する代わりに、推定利得は、BCCスキームのチャンネル間キュー、例えば、ICLDから復号器において計算される。
復号器300は、窓掛け部306をさらに備え、ここで、モノラル化信号は、まず、使用されたフレーム長の時間フレームに分割され、次に、フレームに窓掛けが適切に行なわれる(例えば、サイン窓)。適切なフレーム長を調整することによって、フレームが、離散フーリエ変換(discrete Fourier-transform; DFT)のために十分長くなるようにし、また同時に、信号の急速な変化を管理するために十分短くなるようにするべきである。実験によると、適切なフレーム長は約50msである。従って、44.1kHzのサンプリング周波数(種々のオーディオ符号化スキームで通常使用される)を使用する場合、フレームは、例えば、46.4msのフレーム長をもたらす2048個のサンプルを含むことができる。窓掛けは、スペクトル変形(レベルおよび遅延)による遷移を円滑化するために、隣接する窓が50%重複するように実行することが好ましい。
その後、窓掛けされたモノラル化信号は、FFT部308において周波数領域に変換される。効果的に計算するために、処理は周波数領域において実行される。信号処理の前回のステップを実際の復号器300の外部で実行してもよいこと、つまり、窓掛け部306およびFFT部308は、この復号器が実装される装置側に実装されてもよく、処理されるモノラル化信号は、復号器に供給される際には既に窓掛けされ、周波数領域に変換されてもよいことを、当業者は理解するだろう。
周波数領域化された信号を効率的に計算するために、信号は、フィルタバンク310に導かれ、フィルタバンク310は、心理音響学的に導かれた周波数帯域に信号を分割する。実施形態によっては、フィルタバンク310は、一般的に認知される等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールに従い32個の周波数帯域に信号を分割し、結果的に、その32個の周波数帯域に信号成分x0、…、x31をもたらすように構成するように設計される。
復号器300は、事前に保存された情報としてHRTF312、314の組を含み、ここから各スピーカ方向に対応する左右の組のHRTFが選択される。説明上、図3には2組のHRTF312、314が描かれており、一方の組は左側信号であり、他方の組は右側信号であるが、実際の実装において、1組のHRTFでも十分であることは明らかである。選択された左右の組のHRTFを、各スピーカチャンネルのオーディオレベルに対応するように調整するためには、利得値Gを推定することが好ましい。上述のように、推定利得は符号化器から受信したサイド情報に含めてもよく、あるいは、BCCサイド情報に基づき復号器において計算してもよい。利得は、時間および周波数の関数としてスピーカチャンネル毎に推定されるが、元のミックス状態における利得レベルを維持するために、スピーカチャンネル毎の利得を調整して、各利得値の二乗の合計が1に等しくすることが好ましい。これにより、仮想的に生成されるチャンネルの数がN個である場合、符号化器から伝送する必要がある推定利得はN-1個だけであり、不足利得値をN-1個の利得値に基づき計算可能である、という利点がもたらされる。しかしながら当業者は、本発明の動作において、復号器は、各利得値の二乗の合計を1に等しくなるように調整する必要は必ずしもないが、合計を1に等しくするように利得値の二乗を増減可能であることを理解されたい。
次に、HRTFフィルタ312、314の左右の組の各々を、利得Gの組によって決定される割合で調整し、HRTFフィルタ312'、314'を得る。実際には、元のHRTFフィルタの大きさ312、314は、利得値に応じて単に増減されるだけであるが、実施形態を説明する上で、HRTF312'、314'の組が図3において「付加的に」示されていることを再び留意されたい。
各周波数帯域について、モノラル信号成分x0、…、x31が、調整されたHRTFフィルタ312'、314'の各左右の組に提供される。次に、左側信号および右側信号のフィルタ出力は、両バイノーラルチャンネルの加算部316、318において加算される。加算されたバイノーラル信号は、再びサイン窓掛けが行なわれ、IFFT部320、322で実行される逆FFT処理によって、時間領域に再び変換される。分析フィルタが1つの信号にまとめない場合、あるいはその位相応答が線形でない場合、適切な合成フィルタバンクを使用して、最終的なバイノーラル信号BRおよびBLにおける歪みを回避することが好ましい。
実施形態によっては、バイノーラル信号の外在化、つまり頭外定位を向上させるために、適度な室内応答をバイノーラル信号に加えることが可能である。そのために、復号器は、残響部を備えてもよい。この残響部は、加算部316、318とIFFT部320、322の間に位置することが好ましい。付加された室内応答は、スピーカリスニング状況における室内効果を模倣する。しかしながら、必要とされる残響時間は、計算複雑性が顕著に増加しないように十分短くする。
また、図3のバイノーラル復号器300によって、ステレオダウンミックス復号という特別の例が可能になる。この場合、空間イメージは狭められる。上記実施形態において、調整可能な各HRTFフィルタ312、314は、利得値に応じて単に増減されていたが、その利得値が既定の利得に置換されるように、復号器300の動作を修正する。従って、モノラル化信号は、サイド情報に基づいて計算された利得値の組を乗じた単一の利得を含む、コンスタントなHRTFフィルタによって処理される。結果的に、空間オーディオは、ステレオ信号にダウンミックスされる。この特別の例により、空間オーディオを復号することなく、空間サイド情報を使用して結合信号からステレオ信号を生成できるという利点がもたらされる。従って、ステレオ復号の手順が従来のBCC合成よりも簡素化される。バイノーラル復号器300の構造は、調整可能なHRTFフィルタ312、314がステレオダウンミックスのための既定の利得を有するダウンミックスフィルタと置換されること以外は、図3と同じである。
バイノーラル復号器が、HRTFフィルタ、例えば、5.1サラウンドオーディオ構成を備える場合、ステレオダウンミックス復号の特別の例について、HRTFフィルタのコンスタントな利得は、例えば、表1に規定される。
Figure 2009522895
本発明に従う構成により有意な利点がもたらされる。主な利点は、復号処理の簡素化および計算複雑性の低下である。また、復号器は、符号化器が提供する空間および符号化パラメータに基づいてバイノーラルアップミックスを完全に実行するという点において、柔軟性を有する。さらに、元の信号について同等の空間性が変換において維持される。サイド情報に関しては、元のミックスにおける推定利得の組で十分である。オーディオの伝送または保存の観点から見ると、最も有意な利点は、パラメトリックオーディオ符号化においてもたらされる圧縮中間状態を利用する際の効率改善によって得られる。
HRTFは個々の差が大きく平均化が不可能であるため、完全な再空間化(re-spatialization)は、リスナー独自のHRTF組を測定することによってのみ達成されうることを、当業者は理解しているだろう。従って、HRTFの使用により信号は必然的にゆがみ、処理されたオーディオの質が、元の質と同等でなくなる。しかしながら、各リスナーのHRTFを測定することは非現実的な選択であるため、モデル化された組あるいは人頭模型または平均サイズおよび顕著な対称性を有する頭部を有する者から測定された組を使用する際に、最善の結果が達成される。
前述のように、実施形態によっては、推定利得は、符号化器から受信するサイド情報に含まれてもよい。結果的に、本発明のある側面は、マルチチャンネル空間オーディオ信号の符号化器に関し、この符号化器は、周波数および時間の関数としてスピーカチャンネル毎の利得を推定し、1つ(または複数の)結合チャンネル上で伝送されるサイド情報に推定利得を含める。符号化器は、例えば、既知のBCC符号化器であってもよく、この符号化器は、マルチチャンネル音響イメージを表現するチャンネル間キューであるICTD、ICLD、およびICCに付加的にまたは代替的に、推定利得を計算するようにさらに構成される。次に、サム信号および推定利得を少なくとも含むサイド情報は、好ましくは、サム信号を符号化する適切な低ビットレートオーディオ符号化スキームを使用して受信側に伝送される。
実施形態によっては、符号化器において推定利得を計算する場合、その計算は、個々のチャンネル毎の利得レベルを、結合チャンネルの累積利得レベルと比較することによって実行される。つまり、利得レベルをX、元のスピーカ配置における個々のチャンネルを「m」、サンプルを「k」とする場合、チャンネル毎の推定利得は│Xm(k)│/│XSUM(k)│で計算される。従って、推定利得は、全チャンネルの全ての利得の大きさと比較して、個々のチャンネル毎の利得の大きさを比例的に決定する。
実施形態によっては、BCCサイド情報に基づき復号器において推定利得を計算する場合、その計算は、例えば、チャンネル間レベル差(ICLD)の値に基づき実行されてもよい。従って、仮想的に生成される「スピーカ」の数をN個とする場合、N-1個の未知変数を含むN-1個の数式を、ICLD値に基づきまず作成する。次に、各スピーカ数式の二乗の和を1に等しくなるように設定することによって、1つの独立チャンネルの推定利得を解くことが可能になり、その解かれた推定利得に基づいて、残りの推定利得をN-1個の数式から解くことができる。
例えば、仮想的に生成されるチャンネルの数が5の場合(N=5)、N-1個の数式は、L2=L1+ICLD1、L3=L1+ICLD2、L4=L1+ICLD3、およびL5=L1+ICLD4と作成されることができる。次に、それらの二乗の和が1に等しくなるように設定される。つまり、L12+ (L1+ICLD1)2 + (L1+ICLD2)2 + (L1+ICLD3)2 + (L1+ICLD4)2 = 1となるようにする。次に、L1の値を解くことが可能であり、L1に基づき、残りの利得レベル値L2〜L5を解くことができる。
実施形態によっては、本発明の基本的なアイディア、すなわち、はじめにマルチチャンネルフォーマットに復号することなく、バイノーラル信号をパラメトリックに符号化されたオーディオ信号から直接生成するというアイディアは、推定利得の組を使ってそれらを各周波数サブ帯域に適用する代わりに、サイド情報ビットストリームのチャンネルレベル情報(channel level information;ICLD)部分だけをサム信号と共に用いてバイノーラル信号を構成することによっても実装することができる。
この場合、復号器で推定利得の組を定義したり、符号化器においてBCCサイド情報に推定利得を含めたりする代わりに、各オリジナルチャンネルについて、普通のBCCサイド情報のチャンネルレベル情報(ICLD)部分が、時間及び周波数の関数として、復号器において適切に処理される。元のサム信号は適切な周波数ビンに分割され、これらの周波数ビンの利得はチャンネルレベル情報から得られる。この処理は、ある周波数帯域から他の周波数帯域にかけての利得値の変化が緩やかにすることにより、バイノーラル出力信号の品質をさらに向上させることを可能とする。
この実施形態における処理の初めの段階は、前述の実施形態と同様である。すなわち、モノラル又はステレオのサム信号とサイド情報とが復号器に入力され、そのサム信号は使用されるフレーム長の時間フレームへ分割され、続いてサイン窓関数などにより適当に窓掛けされる。解析のため、再び50%オーバーラップの正弦窓が用いられ、時間領域の信号を周波数領域へ効果的に変換するために、FFTが用いられた。もし解析窓の長さがNサンプルであり、窓の50%がオーバーラップするのであれば、周波数領域において、N/2の周波数ビンが得られる。この実施形態では、ERBスケールに従うサブ帯域のような心理音響学的に導かれた周波数帯域に信号を分割する代わりに、上述の周波数ビンが処理に用いられる。
前述のように、BCC符号化器のサイド情報は、各独立チャンネルを得るためにサム信号がどのようにスケーティングされるべきかの情報を提供する。利得情報は、一般的に、特定の時間及び周波数位置についてのみ提供される。時間方向では、利得値は、例えば2048サンプルに一度だけ提供される。本実施形態の既存のために、各正弦窓の中央及び各周波数ビンにおいて利得値が必要である。(すなわち、各正弦窓の中央でN/2個の利得値が必要である。)これは、補間処理により効果的に実現しうる。代わりに、サイド情報により定められる時刻に利得情報が提供され、一つのフレームの中の当該時刻の数も当該サイド情報により得られる。このような代替実装において、利得値は当該時刻の情報及び利得値が更新された時刻の数に基づいて補間される。
BCCマルチチャンネル符号化器が、時刻tm, m = 0, 1, 2, ….に、Nq個の利得値を供給するとしよう。現在の時刻tw(現在の正弦窓の中央)に関し、BCCマルチチャンネル符号化器によって得られる次及び前の利得値の組が検索される。これらをtprev及びtnext表そう。例のために線形補間を用いると、Ng個の利得値が時刻twへと補間され、twからtprev及びtnextへの距離がスケーリングファクターとして補間処理に用いられる。他の実施形態では、時刻twに近い利得値(tprevまたはtnext)が、単に選択される。これは、よく近似された利得値を決定するためのより簡単な方法を提供する。
現在の時刻においてNg個の利得値の組が決定されると、これらは周波数方向で補間され、N/2個の周波数ビンのそれぞれに対して個々に利得値が求められる。この処理を行なうには、単純な線形補間を用いることが可能である。しかしながら、たとえばsinc補間などを使うこともできる。一般的に、Ng個の利得値は、低い周波数で高い分解能を与え(分解能は例えばERBスケールに従う)、このことは補完処理において考慮されねばならない。補間処理は線形的や対数的に行うことができる。補間された利得の組の数は、マルチチャンネル復号器の出力チャンネルの数にサム信号の数を乗じたものに等しい。
さらに、バイノーラル信号を構築するには、オリジナルのスピーカーの方向のHRTFが必要である。HRTFも周波数領域に変換される。周波数領域の処理を単純にするために、その変換には、サム信号を時間領域から周波数領域(N/2の周波数ビン)に変換するために用いられたものと同じフレーム長(Nサンプル)が用いられる。
バイノーラル信号の左と右の信号の周波数領域における表現を、Y1(n)及びY2(n)としよう。サム信号が一つの場合(すなわちモノラル化されたサム信号Xsum1(n)の場合)、バイノーラル出力は次のように構築される。
Figure 2009522895
ここで、0≦n<N/2であり、cはBCCマルチチャンネル符号化器における全チャンネル数(たとえば5.1オーディオ信号であれば6チャンネル)、g1 c(n)は、現在時刻twにおいてモノラルサム信号からチャンネルcを構築するための補間された利得値である。H1 c(n)とH2 c(n)は、マルチチャンネル符号化器の出力チャンネルcについての、左耳及び右耳のHRTFのDFT領域の表現である。すなわち、各オリジナルチャンネルの方向は既知でなくてはならない。
BCCマルチチャンネル符号化器から供給されるサム信号が2つ(ステレオサム信号)であるとき、どちらのサム信号(Xsum1(n)及びXsum2(n))も、両方のバイノーラル出力に次のように影響を及ぼす。
Figure 2009522895
ここで、0≦n<N/2である。またg1 c(n)及びg2 c(n)、はマルチチャンネル符号化器において、その和として出力チャンネルcを構築するために、左及び右のサム信号ために用いられる利得を表している。
処理の後段は、やはり前述のものと同様である。すなわち、Y1(n)とY2(n)が逆FFT処理によって時間領域へと再変換され、信号がサイン窓関数によりもう一度窓掛けされ、オーバーラップ窓関数が適用される。
この実施形態の主な利点は、ある周波数ビンから別の周波数ビンへと、利得が急激には変化しないことである。このような事態は、ERBやその他のサブ帯域が用いられるときに生じる。これによって、バイノーラル出力信号の品質は一般的には向上する。さらに、左耳と右耳のHRTFの表現として、マルチチャンネルオーディオの各チャンネルのHFTFの特定の左右ペアの代わりに、累積DFT領域(summed-up DFT domain)の表現(H1 c(n)、H2 c(n))を用いることにより、フィルタリング処理が著しく簡単になる。
この実施形態において、バイノーラル信号はDFT領域で構築され、フィルタバンクによってERBスケールに従って信号をサブ帯域へ分割することは省略することができる。実装においていかなるフィルタバンクも必要でないとはいえ、当業者は、DFT以外の変換方法や十分に高い周波数分解能を有するフィルタバンク構造が用いられてもよいことを理解するであろう。そのような場合においては、用いられるフィルタバンクや変換の特性の組に基づいてHRTFフィルタリングが実行されるように、構築式Y1(n) 及び Y2(n)が修正されねばない。
例えば、QMFフィルタバンクが適用される場合、周波数分解能はQMFサブ帯域により定義される。もし、Ng個の利得値の組がQMF サブ帯域の数より少ない場合は、各サブ帯域のための利得を得るために、当該利得値が補間される。例えば、サイド情報において、ある与えられた時刻において28の周波数帯域に対応する28の利得値が得られるとして、これらは、105のQMFサブ帯域にマップされることができる。この場合において、隣接する狭いサブ帯域で急激な変化が生じることを避けるために、非線形または線形の補間が行われる。その後、上に説明した、左右バイノーラル信号の周波数領域表現のための式(Y1(n), Y2(n))が適用されるがただし、H1 c(n) と H2 c(n)は、マトリクス形式のQMFドメインのHRTFフィルタとなり、Xsum1(n)はモノラル化された信号のブロックとなる。ステレオサム信号の場合、HFTFフィルタは変換マトリクスの形式であり、Xsum1(n) と Xsum2(n)は、それぞれ二つのサム信号のブロックである。QMFドメインにおける実際のフィルタリングの実装の例が、次の非特許文献3に説明されている。
IEEE 0-7803-5041-3/99, Lanciani C. A. et al.: "Subband domain filtering of MPEG audio signals
簡素化するため、前述の例の殆どは、入力チャンネル(M)が符号化器においてダウンミックスされて単一の結合(例えば、モノラル)チャンネルを形成するように説明される。しかしながら、実施形態は、特定のオーディオ処理用途に応じて、多数の入力チャンネル(M)が、ダウンミックスされて2つ以上の別々の結合チャンネル(S)を形成するような代替的な実装においても同様に適用可能である。ダウンミックスにより多数の結合チャンネルが生成される場合、結合チャンネルデータは、従来のオーディオ伝送技術を使用して伝送可能である。例えば、2つの結合チャンネルが生成される場合、従来のステレオ伝送技術を使用してもよい。この場合、上述の最後の実施例に関して示されたように、BCC復号器は、BCC符号を抽出および使用して、2つの結合チャンネルからバイノーラル信号を合成できる。
実施形態によっては、合成されたバイノーラル信号における仮想的に生成された「スピーカ」の数(N)は、特定用途に応じて、入力チャンネル(M)の数と異なってもよい(多くても少なくてもよい)。例えば、入力オーディオが7.1サラウンドオーディオに相当し、バイノーラル出力オーディオが5.1サラウンドオーディオに相当するように合成されてもよく、または、その反対でもよい。
上記実施形態は、次のように一般化されることができる。すなわち、本発明の実施形態は、M個の入力オーディオチャンネルをS個の結合オーディオチャンネルおよび1つ以上の対応するサイド情報の組に変換可能にするものであり(M>S)また、S個の結合オーディオチャンネルおよび対応するサイド情報の組からN個の出力オーディオチャンネルを生成するものである(N>S)。Nは、Mと等しくとも異なっていてもよい。
1つの結合チャンネルおよび必要なサイド情報を伝送するのに必要なビットレートは非常に低いため、本発明は、特に、利用可能な帯域幅が無線通信システムなどのリソースが乏しいシステムに十分適用可能である。従って、実施形態は、特に、高品質のスピーカを一般的に含まない携帯端末またはその他の携帯型装置に適用可能であり、この場合、マルチチャンネルサラウンドオーディオの特徴は、実施形態に従うバイノーラルオーディオ信号を聴くためのヘッドフォンを介して導入可能である。実行可能な用途のさらなる分野には、テレビ会議サービスが含まれる。この場合、電話会議出席者が会議室の異なる位置に居るという印象をリスナーに与えることによって、テレビ会議の出席者を容易に区別することができる。
図4は、データ処理装置(TE)の簡素化構造を示す。このデータ処理装置において、本発明に従うバイノーラル復号システムを実装することが可能である。データ処理装置(TE)は、例えば、携帯端末、MP3プレーヤー、PDA装置、またはパーソナルコンピュータ(PC)であることが可能である。データ処理ユニット(TE)は、I/O手段(I/O)、中央処理装置(CPU)、およびメモリ(MEM)を備える。メモリ(MEM)は、ランダムアクセスメモリRAMおよびFLASHメモリなどの、読取専用メモリROM部分および再書き込み可能部分を備える。CD-ROM、その他の装置、およびユーザなどの様々な外部装置と通信するために使用される情報は、I/O手段(I/O)を介して中央処理装置(CPU)によって送受信される。データ処理装置が移動局として実装される場合、データ処理装置は、一般的に送受信機Tx/Rxを備え、この送受信機Tx/Rxは、無線線ネットワークと通信し、一般的にはアンテナを介して基地局(BTS)と通信する。ユーザインターフェース(UI)機器は、一般的に、ディスプレイ、キーパッド、マイク、およびヘッドフォン用接続手段を備える。データ処理装置は、種々のハードウェアモジュール用または集積回路ICとしての標準型スロットなどの接続手段MMCをさらに備えて、データ処理装置において実行される種々のアプリケーションを提供してもよい。
従って、本発明に従うバイノーラル復号システムは、データ処理装置の中央処理装置(central processing unit; CPU)または専用のデジタル信号プロセッサ(digital signal processor; DSP)(パラメトリック符号化プロセッサ)において実行されてもよい。従って、データ処理装置は、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含むパラメトリック符号化されたオーディオ信号を受信する。パラメトリック符号化されたオーディオ信号は、CD-ROMなどのメモリ手段から、あるいはアンテナおよび送受信機を介した無線ネットワークから受信されてもよい。データ処理装置は、適切なフィルタバンクおよび頭部伝達関数フィルタの既定の組をさらに備える。従って、データ処理装置は、結合信号を周波数領域に変換し、頭部伝達関数フィルタの適切な左右の組を、対応するサイド情報の組によって決定される割合で結合信号に適用することによって、バイノーラルオーディオ信号を合成し、ヘッドフォンを介して再生する。
同様に、本発明に従う符号化システムも、データ処理装置の中央処理装置(CPU)または専用のデジタル信号プロセッサ(DSP)において実行されることができる。従って、データ処理装置は、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネルオーディオのチャンネル信号の推定利得を含む1つ以上の対応するサイド情報の組とを含むパラメトリック符号化されたオーディオ信号を生成する。
本発明の機能は、移動局などの端末装置において実装されてもよく、また、コンピュータプログラムとして実装されてもよい。このコンピュータプログラムは、中央処理装置CPUまたは専用のデジタル信号プロセッサDSPにおいて実行されると、本発明の手順を実行するように端末装置に作用する。コンピュータプログラムSWの機能は、相互に通信するいくつかの別々のプログラム要素に分散されてもよい。コンピュータソフトウェアは、PCのハードディスクまたはCD-ROMディスクなど如何なるメモリ手段にも保存されてもよく、そこから携帯端末のメモリにロード可能である。また、コンピュータソフトウェアは、例えば、TCP/IPプロトコルスタックを使用してネットワークを介してロード可能である。
また、ハードウェアソリューションあるいはハードウェアおよびソフトウェアソリューションの組み合わせを使用して、発明の手段を実行することも可能である。従って、上記のコンピュータプログラムは、モジュールを電子装置に接続するための接続手段を備えるハードウェアモジュールにおける例えばASICまたはFPGA回路などのハードウェアソリューションとして、あるいは1つ以上の集積回路として、少なくとも部分的に実装可能である。このハードウェアモジュールまたはICは、上記プログラムコードタスクを実行するための種々の手段をさらに含み、また、上記手段は、ハードウェアおよび/またはソフトウェアとして実装される。
本発明は、上に提示された実施形態だけに限定されないが、添付の請求項の範囲内で修正可能であることは、当業者であれば誰にでも明らかであろう。
従来技術に従う一般的なバイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームを示す。 従来技術に従うBCC合成スキームの一般構造を示す。 本発明の実施形態に従う、バイノーラル復号器のブロック図を示す。 簡易ブロック図において、本発明の実施形態に従う電子装置を示す。

Claims (33)

  1. バイノーラルオーディオ信号を合成するための方法であって、
    複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含む、パラメトリック符号化されたオーディオ信号を入力することと、
    前記少なくとも1つの結合信号を複数のサブ帯域へ分割することと、
    前記サイド情報の組からサブ帯域のためのパラメータ値を決定することと、
    バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用することと、
    を含む、方法。
  2. 前記パラメータ値は、特定のサブ帯域に対応するパラメータ値を、前記サイド情報の組によって提供される次及び前のパラメータ値から補間することによって決定される、請求項1に記載の方法。
  3. 前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルオーディオの各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組を適用すること、
    をさらに含む、請求項1又は2に記載の方法。
  4. 前記サイド情報の組は、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、
    請求項1から3のいずれかに記載の方法。
  5. 前記サイド情報の組は、オリジナルのマルチチャンネル音響イメージにおけるスピーカの数およびリスニング位置に対する位置と、使用されるフレーム長とをさらに含む、
    請求項4に記載の方法。
  6. 前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューを含み、
    前記BCCスキームの前記チャンネル間キューのうちの少なくとも1つに基づき、オリジナルのマルチチャンネルオーディオにおける推定利得の組を計算すること、
    をさらに含む、請求項3に記載の方法。
  7. オリジナルのマルチチャンネルオーディオにおける前記推定利得の組を、時間および周波数の関数として決定することと、
    各利得値の二乗の和が1に等しくなるように、スピーカチャンネル毎に利得を調整することと、
    をさらに含む、請求項4から6のいずれかに記載の方法。
  8. 前記少なくとも1つの結合信号を、次のサブ帯域:
    ・ 複数のQMFサブ帯域
    ・ 複数の(Equivalent Rectangular Bandwidth; ERB)サブ帯域
    ・ 心理音響学的に導かれた複数の周波数帯域
    のいずれかに分割することをさらに含む、請求項1に記載の方法。
  9. 前記少なくとも1つの結合信号を、周波数領域おいて、等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールに従う32個の周波数帯域に分割すること、
    をさらに含む、請求項8に記載の方法。
  10. 左側信号及び右側信号の各々について、各前記周波数帯域における前記頭部伝達関数フィルタの出力をそれぞれ加算することと、
    バイノーラルオーディオ信号の左側成分および右側成分を生成するために、前記加算された左側信号と前記加算された右側信号とを、時間領域に変換することと、
    をさらに含む、請求項9に記載の方法。
  11. 前記パラメータ値は、少なくとも1つのサブ帯域の利得値である、請求項1に記載の方法。
  12. 前記利得値は、前記サイド情報により提供される利得値のうち最も近いものを選択することにより決定される、請求項11に記載の方法。
  13. 前記少なくとも1つの結合信号を複数のサブ帯域へ分割することは、さらに、
    前記少なくとも1つの結合信号を、所定の数のサンプルを含む時間フレームへ分割すると共にそれらのフレームに窓関数を掛けることと、
    複数の周波数サブ帯域を形成すべく、前記少なくとも1つの結合信号を周波数領域へと変化することと、
    を含む、請求項11又は12に記載の方法。
  14. サブ帯域のために利得値を決定することは、さらに、
    オリジナルの音響イメージを表現するマルチチャンネルオーディオの各チャンネル信号の利得値を決定することと、
    複数のサブ帯域のための単一の利得値を、前記各チャンネル信号の利得値から補間することと、
    を含む、請求項11から13のいずれかに記載の方法。
  15. サブ帯域のバイノーラル信号の周波数領域における表現を、前記少なくとも1つの結合信号に、少なくとも1つの利得値と所定の頭部伝達関数フィルタを乗ずることにより得る、請求項11から14のいずれかに記載の方法。
  16. 各周波数ビンのバイノーラル信号の周波数領域における表現が、モノラル化されたサム信号Xsum1(n)により、
    Figure 2009522895
    のように決定される、請求項15に記載の方法。ただし、Y1(n)及びY2(n)は、バイノーラル信号の左と右の信号の周波数領域における表現であり、cは符号化器におけるチャンネル数であり、g1 c(n)は、特定の時刻twにおいてモノラルサム信号からチャンネルcを構築するための補間された利得値であり、H1 c(n)とH2 c(n)は、符号化器の出力チャンネルcについての、左耳及び右耳の頭部伝達関数フィルタのサブ帯域領域における表現である。
  17. 各周波数ビンにおける、前記サブ帯域のバイノーラル信号の周波数領域の表現は、ステレオサム信号Xsum1(n)及びXsum2(n)により、
    Figure 2009522895
    のように決定される、請求項15に記載の方法。ただし、Y1(n)及びY2(n)は、バイノーラル信号の左と右の信号の周波数領域における表現であり、cは符号化器におけるチャンネル数であり、g1 c(n)は、特定の時刻twにおいてモノラルサム信号からチャンネルcを構築するための補間された利得値であり、H1 c(n)とH2 c(n)は、符号化器の出力チャンネルcについての、左耳及び右耳の頭部伝達関数フィルタのサブ帯域領域における表現である。
  18. 前記利得値は、特定の周波数サブ帯域に対応する各利得値は、前記サイド情報により提供される、隣接する周波数サブ帯域の利得値から補間することにより決定される、請求項11に記載の方法。
  19. 複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含む、パラメトリック符号化されたオーディオ信号を処理するためのパラメトリック符号化プロセッサと、
    前記少なくとも1つの結合信号を複数のサブ帯域へ分割する手段と、
    前記サイド情報の組からサブ帯域のためのパラメータ値を決定する手段と、
    バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用するための合成器と、
    を備える、パラメトリックオーディオ復号器。
  20. 前記パラメータ値は、特定のサブ帯域に対応するパラメータ値を、前記サイド情報の組によって提供される次及び前のパラメータ値から補間することによって決定される、請求項19に記載の復号器。
  21. 前記合成器は、前記頭部伝達関数フィルタの既定の組から、オリジナルのマルチチャンネルオーディオの各スピーカ方向に対応する、頭部伝達関数フィルタの左右の組を適用するように構成される、
    請求項19又は20に記載の復号器。
  22. 前記サイド情報の組は、オリジナルの音響イメージを表現する前記マルチチャンネルオーディオのチャンネル信号のための推定利得の組を含む、
    請求項19から21のいずれかに記載の復号器。
  23. 前記サイド情報の組は、チャンネル間時間差(Inter-channel Time Difference; ICTD)、チャンネル間レベル差(Inter-channel Level Difference; ICLD)、およびチャンネル間コヒーレンス(Inter-channel Coherence; ICC)などの、バイノーラルキュー符号化(Binaural Cue Coding; BCC)スキームにおいて使用されるチャンネル間キューを含み、
    前記BCCスキームの前記チャンネル間キューのうちの少なくとも1つに基づき、オリジナルのマルチチャンネルオーディオにおける推定利得の組を計算する、
    請求項21に記載の復号器。
  24. 前記少なくとも1つの結合信号を、次のサブ帯域:
    ・ 複数のQMFサブ帯域
    ・ 複数の(Equivalent Rectangular Bandwidth; ERB)サブ帯域
    ・ 心理音響学的に導かれた複数の周波数帯域
    のいずれかに分割する手段をさらに備える、請求項19に記載の復号器。
  25. 前記少なくとも1つの結合信号を周波数領域において分割する前記手段は、前記少なくとも1つの結合信号を、等価方形幅(Equivalent Rectangular Bandwidth; ERB)スケールに従う32個の周波数帯域に分割するように構成されるフィルタバンクを備える、
    請求項24に記載の復号器。
  26. 左側信号及び右側信号の各々について、各前記周波数帯域における前記頭部伝達関数フィルタの出力をそれぞれ加算するための加算部と、
    バイノーラルオーディオ信号の左側成分および右側成分を生成するために、前記加算された左側信号と前記加算された右側信号とを、時間領域に変換するための変換部と、
    をさらに備える、請求項25に記載の復号器。
  27. 前記パラメータ値は、少なくとも1つのサブ帯域の利得値である、請求項19に記載の復号器。
  28. 前記利得値は、前記サイド情報により提供される利得値のうち最も近いものを選択することにより決定される、請求項27に記載の復号器。
  29. 前記サブ帯域のために利得値を決定する手段は、
    オリジナルの音響イメージを表現するマルチチャンネルオーディオの各チャンネル信号の利得値を決定し、
    複数のサブ帯域のための単一の利得値を、前記各チャンネル信号の利得値から補間する、
    ように構成される、請求項27又は28に記載の復号器。
  30. サブ帯域のバイノーラル信号の周波数領域における表現を、前記少なくとも1つの結合信号に、少なくとも1つの利得値と所定の頭部伝達関数フィルタを乗ずることにより定めるように構成される、請求項27から29のいずれかに記載の復号器。
  31. コンピュータ可読媒体に保存され、かつデータ処理装置において実行可能であるコンピュータプログラムであって、複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含むパラメトリック符号化されたオーディオ信号を処理するために、
    前記少なくとも1つの結合信号を複数のサブ帯域に変換するためのコンピュータプログラムコード部分と、
    前記サイド情報の組からサブ帯域のためのパラメータ値を決定するためのコンピュータプログラムコード部分と、
    バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用するためのコンピュータプログラムコード部分と、
    を備える、コンピュータプログラム。
  32. バイノーラルオーディオ信号を合成する装置であって、
    複数のオーディオチャンネルの結合信号を少なくとも1つと、マルチチャンネル音響イメージを表現する対応するサイド情報の組を1つ以上含む、パラメトリック符号化されたオーディオ信号を入力する手段と、
    前記少なくとも1つの結合信号を複数のサブ帯域へ分割する手段と、
    前記サイド情報の組からサブ帯域のためのパラメータ値を決定する手段と、
    バイノーラルオーディオ信号を合成するために、前記パラメータ値によって決定される割合で、頭部伝達関数フィルタの既定の組を前記少なくとも1つの結合信号に適用する手段と、
    前記バイノーラルオーディオ信号をオーディオ再生手段に供給する手段と、
    を備える、装置。
  33. 前記装置は、携帯端末、PDA装置、またはパーソナルコンピュータである、請求項32に記載の装置。
JP2008549032A 2006-01-09 2007-01-04 バイノーラルオーディオ信号の復号 Pending JP2009522895A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
PCT/FI2006/050014 WO2007080211A1 (en) 2006-01-09 2006-01-09 Decoding of binaural audio signals
US11/334,041 US20070160218A1 (en) 2006-01-09 2006-01-17 Decoding of binaural audio signals
US11/354,211 US20070160219A1 (en) 2006-01-09 2006-02-13 Decoding of binaural audio signals
PCT/FI2007/050005 WO2007080225A1 (en) 2006-01-09 2007-01-04 Decoding of binaural audio signals

Publications (1)

Publication Number Publication Date
JP2009522895A true JP2009522895A (ja) 2009-06-11

Family

ID=38232768

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008549031A Pending JP2009522894A (ja) 2006-01-09 2007-01-04 バイノーラルオーディオ信号の復号
JP2008549032A Pending JP2009522895A (ja) 2006-01-09 2007-01-04 バイノーラルオーディオ信号の復号

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2008549031A Pending JP2009522894A (ja) 2006-01-09 2007-01-04 バイノーラルオーディオ信号の復号

Country Status (11)

Country Link
US (2) US20070160218A1 (ja)
EP (2) EP1972180A4 (ja)
JP (2) JP2009522894A (ja)
KR (3) KR20080078882A (ja)
CN (2) CN101366081A (ja)
AU (2) AU2007204332A1 (ja)
BR (2) BRPI0722425A2 (ja)
CA (2) CA2635024A1 (ja)
RU (2) RU2409911C2 (ja)
TW (2) TW200746871A (ja)
WO (1) WO2007080211A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011509588A (ja) * 2008-01-01 2011-03-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2011509591A (ja) * 2008-01-01 2011-03-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2012513700A (ja) * 2008-12-22 2012-06-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 送信効果処理による出力信号の生成

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US8917874B2 (en) * 2005-05-26 2014-12-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
JP4806031B2 (ja) * 2006-01-19 2011-11-02 エルジー エレクトロニクス インコーポレイティド メディア信号の処理方法及び装置
KR100983286B1 (ko) 2006-02-07 2010-09-24 엘지전자 주식회사 부호화/복호화 장치 및 방법
BRPI0707969B1 (pt) 2006-02-21 2020-01-21 Koninklijke Philips Electonics N V codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100754220B1 (ko) 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
US8392176B2 (en) 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
DE602007003023D1 (de) * 2006-05-30 2009-12-10 Koninkl Philips Electronics Nv Linear-prädiktive codierung eines audiosignals
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
FR2903562A1 (fr) * 2006-07-07 2008-01-11 France Telecom Spatialisation binaurale de donnees sonores encodees en compression.
WO2008009175A1 (fr) * 2006-07-14 2008-01-24 Anyka (Guangzhou) Software Technologiy Co., Ltd. Rocédé et un système de codage et décodage audio canal à rétrocompatibilité d'après la règle d'entropie maximale
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
FR2906099A1 (fr) * 2006-09-20 2008-03-21 France Telecom Procede de transfert d'un flux audio entre plusieurs terminaux
CN101578656A (zh) * 2007-01-05 2009-11-11 Lg电子株式会社 用于处理音频信号的装置和方法
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
JP5285626B2 (ja) * 2007-03-01 2013-09-11 ジェリー・マハバブ 音声空間化及び環境シミュレーション
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
US8126172B2 (en) * 2007-12-06 2012-02-28 Harman International Industries, Incorporated Spatial processing stereo system
ATE538469T1 (de) * 2008-07-01 2012-01-15 Nokia Corp Vorrichtung und verfahren zum justieren von räumlichen hinweisinformationen eines mehrkanaligen audiosignals
KR101230691B1 (ko) * 2008-07-10 2013-02-07 한국전자통신연구원 공간정보 기반의 다객체 오디오 부호화에서의 오디오 객체 편집 방법 및 그 장치
MX2011000366A (es) 2008-07-11 2011-04-28 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar muestras de audio.
US20110112843A1 (en) * 2008-07-11 2011-05-12 Nec Corporation Signal analyzing device, signal control device, and method and program therefor
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
KR101499785B1 (ko) 2008-10-23 2015-03-09 삼성전자주식회사 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법
WO2010058931A2 (en) * 2008-11-14 2010-05-27 Lg Electronics Inc. A method and an apparatus for processing a signal
US20100137030A1 (en) * 2008-12-02 2010-06-03 Motorola, Inc. Filtering a list of audible items
KR101496760B1 (ko) * 2008-12-29 2015-02-27 삼성전자주식회사 서라운드 사운드 가상화 방법 및 장치
EP2626855B1 (en) 2009-03-17 2014-09-10 Dolby International AB Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
CN101556799B (zh) * 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
CA2765116C (en) * 2009-06-23 2020-06-16 Nokia Corporation Method and apparatus for processing audio signals
US8434006B2 (en) * 2009-07-31 2013-04-30 Echostar Technologies L.L.C. Systems and methods for adjusting volume of combined audio channels
KR101411780B1 (ko) 2009-10-20 2014-06-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 이전의 디코딩된 스펙트럼 값들의 그룹의 검출을 이용하는 오디오 인코더, 오디오 디코더, 오디오 정보를 인코딩하기 위한 방법, 오디오 정보를 디코딩하기 위한 방법 및 컴퓨터 프로그램
JP5345737B2 (ja) * 2009-10-21 2013-11-20 ドルビー インターナショナル アーベー 結合されたトランスポーザーフィルターバンクにおけるオーバーサンプリング
JP5773502B2 (ja) 2010-01-12 2015-09-02 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ符号化器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および上位状態値と間隔境界との両方を示すハッシュテーブルを用いたコンピュータプログラム
CN103119648B (zh) * 2010-09-22 2015-06-17 杜比实验室特许公司 用于音频编码系统中的去相关和其他应用的相移滤波的有效实现方式
TR201815799T4 (tr) * 2011-01-05 2018-11-21 Anheuser Busch Inbev Sa Bir audio sistemi ve onun operasyonunun yöntemi.
BR112013020587B1 (pt) 2011-02-14 2021-03-09 Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
EP2676270B1 (en) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
WO2012110415A1 (en) * 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
WO2012110478A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
KR101551046B1 (ko) 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
US20140056450A1 (en) * 2012-08-22 2014-02-27 Able Planet Inc. Apparatus and method for psychoacoustic balancing of sound to accommodate for asymmetrical hearing loss
US9860663B2 (en) 2013-01-15 2018-01-02 Koninklijke Philips N.V. Binaural audio processing
CN104919820B (zh) * 2013-01-17 2017-04-26 皇家飞利浦有限公司 双耳音频处理
MX342965B (es) * 2013-04-05 2016-10-19 Dolby Laboratories Licensing Corp Sistema y método de compansión para reducir el ruido de cuantificación usando extensión espectral avanzada.
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
PL3008726T3 (pl) 2013-06-10 2018-01-31 Fraunhofer Ges Forschung Urządzenie i sposób kodowania obwiedni sygnału audio, przetwarzania i dekodowania przez modelowanie reprezentacji sumy skumulowanej z zastosowaniem kwantyzacji i kodowania rozkładu
ES2635026T3 (es) * 2013-06-10 2017-10-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento de codificación, procesamiento y decodificación de envolvente de señal de audio por división de la envolvente de la señal de audio utilizando cuantización y codificación de distribución
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
JP6392353B2 (ja) * 2013-09-12 2018-09-19 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ・コンテンツの符号化
TWI671734B (zh) 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
CA3194257A1 (en) 2013-09-17 2015-03-26 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing multimedia signals
US9143878B2 (en) * 2013-10-09 2015-09-22 Voyetra Turtle Beach, Inc. Method and system for headset with automatic source detection and volume control
US10580417B2 (en) 2013-10-22 2020-03-03 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
EP3063955B1 (en) * 2013-10-31 2019-10-16 Dolby Laboratories Licensing Corporation Binaural rendering for headphones using metadata processing
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
JP6151866B2 (ja) 2013-12-23 2017-06-21 ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置
CA3162763A1 (en) * 2013-12-27 2015-07-02 Sony Corporation Decoding apparatus and method, and program
CN107750042B (zh) 2014-01-03 2019-12-13 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
WO2015142073A1 (ko) 2014-03-19 2015-09-24 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
EP3128766A4 (en) 2014-04-02 2018-01-03 Wilus Institute of Standards and Technology Inc. Audio signal processing method and device
EP4329331A3 (en) * 2014-04-02 2024-05-08 Wilus Institute of Standards and Technology Inc. Audio signal processing method and device
US9860666B2 (en) 2015-06-18 2018-01-02 Nokia Technologies Oy Binaural audio reproduction
JP6797187B2 (ja) 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法
ES2818562T3 (es) * 2015-08-25 2021-04-13 Dolby Laboratories Licensing Corp Descodificador de audio y procedimiento de descodificación
AU2016311335B2 (en) 2015-08-25 2021-02-18 Dolby International Ab Audio encoding and decoding using presentation transform parameters
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
CN105611481B (zh) * 2015-12-30 2018-04-17 北京时代拓灵科技有限公司 一种基于空间声的人机交互方法和系统
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
EP3561660B1 (en) * 2018-04-27 2023-09-27 Sherpa Europe, S.L. Digital assistant
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
CN110956973A (zh) * 2018-09-27 2020-04-03 深圳市冠旭电子股份有限公司 一种回声消除方法、装置及智能终端
GB2580360A (en) * 2019-01-04 2020-07-22 Nokia Technologies Oy An audio capturing arrangement
JP7471326B2 (ja) 2019-06-14 2024-04-19 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. パラメータの符号化および復号
US11212631B2 (en) * 2019-09-16 2021-12-28 Gaudio Lab, Inc. Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor
CN111031467A (zh) * 2019-12-27 2020-04-17 中航华东光电(上海)有限公司 一种hrir前后方位增强方法
AT523644B1 (de) * 2020-12-01 2021-10-15 Atmoky Gmbh Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5521981A (en) * 1994-01-06 1996-05-28 Gehring; Louis S. Sound positioner
WO1999014983A1 (en) * 1997-09-16 1999-03-25 Lake Dsp Pty. Limited Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
JP2000197195A (ja) * 1998-12-22 2000-07-14 Texas Instr Inc <Ti> 3次元音をスピ―カから放射するシステムおよび方法
JP2001511995A (ja) * 1997-12-13 2001-08-14 セントラル リサーチ ラボラトリーズ リミティド オーディオ信号処理方法
US20030026441A1 (en) * 2001-05-04 2003-02-06 Christof Faller Perceptual synthesis of auditory scenes
US20030219130A1 (en) * 2002-05-24 2003-11-27 Frank Baumgarte Coherence-based audio coding and synthesis
JP2004048741A (ja) * 2002-06-24 2004-02-12 Agere Systems Inc オーディオミキシングのための等化技術
WO2004077884A1 (en) * 2003-02-26 2004-09-10 Helsinki University Of Technology A method for reproducing natural or modified spatial impression in multichannel listening
WO2005048653A1 (en) * 2003-11-12 2005-05-26 Lake Technology Limited Audio signal processing system and method
WO2005059899A1 (en) * 2003-12-19 2005-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimised variable frame length encoding
JP2005520219A (ja) * 2002-09-19 2005-07-07 松下電器産業株式会社 オーディオ復号装置およびオーディオ復号方法
JP2005229612A (ja) * 2004-02-12 2005-08-25 Agere Systems Inc 聴覚情景の後部残響音ベースの合成
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5173944A (en) * 1992-01-29 1992-12-22 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Head related transfer function pseudo-stereophony
JP3286869B2 (ja) * 1993-02-15 2002-05-27 三菱電機株式会社 内部電源電位発生回路
JP3498375B2 (ja) * 1994-07-20 2004-02-16 ソニー株式会社 ディジタル・オーディオ信号記録装置
US6072877A (en) * 1994-09-09 2000-06-06 Aureal Semiconductor, Inc. Three-dimensional virtual audio display employing reduced complexity imaging filters
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
KR101016982B1 (ko) * 2002-04-22 2011-02-28 코닌클리케 필립스 일렉트로닉스 엔.브이. 디코딩 장치
SE0301273D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5521981A (en) * 1994-01-06 1996-05-28 Gehring; Louis S. Sound positioner
WO1999014983A1 (en) * 1997-09-16 1999-03-25 Lake Dsp Pty. Limited Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
JP2001517050A (ja) * 1997-09-16 2001-10-02 レイク テクノロジー リミティド リスナーの周囲にある音源の空間的ひろがり感を増強するためのステレオヘッドホンデバイス内でのフィルタ効果の利用
JP2001511995A (ja) * 1997-12-13 2001-08-14 セントラル リサーチ ラボラトリーズ リミティド オーディオ信号処理方法
JP2000197195A (ja) * 1998-12-22 2000-07-14 Texas Instr Inc <Ti> 3次元音をスピ―カから放射するシステムおよび方法
US20030026441A1 (en) * 2001-05-04 2003-02-06 Christof Faller Perceptual synthesis of auditory scenes
US20030219130A1 (en) * 2002-05-24 2003-11-27 Frank Baumgarte Coherence-based audio coding and synthesis
JP2004048741A (ja) * 2002-06-24 2004-02-12 Agere Systems Inc オーディオミキシングのための等化技術
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
JP2005520219A (ja) * 2002-09-19 2005-07-07 松下電器産業株式会社 オーディオ復号装置およびオーディオ復号方法
WO2004077884A1 (en) * 2003-02-26 2004-09-10 Helsinki University Of Technology A method for reproducing natural or modified spatial impression in multichannel listening
WO2005048653A1 (en) * 2003-11-12 2005-05-26 Lake Technology Limited Audio signal processing system and method
JP2007511140A (ja) * 2003-11-12 2007-04-26 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号処理システム及び方法
WO2005059899A1 (en) * 2003-12-19 2005-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimised variable frame length encoding
JP2007529021A (ja) * 2003-12-19 2007-10-18 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 忠実度最適化可変フレーム長符号化
JP2005229612A (ja) * 2004-02-12 2005-08-25 Agere Systems Inc 聴覚情景の後部残響音ベースの合成

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN7010002475, Julia Jakka, "Binaural to Multichannel Audio Upmix", Master’s Thesis, 20050606, 第34頁第6行−11行目, FI, Helsinki University of Technology *
JPN7010002476, Christof Faller et al., "Binaural Cue Coding − Part II:Schemes and Applications", IEEE Transcations on speech and audio processing, 200311, Vol.11, No.6, IEEE *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011509588A (ja) * 2008-01-01 2011-03-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2011509591A (ja) * 2008-01-01 2011-03-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2011509590A (ja) * 2008-01-01 2011-03-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2012513700A (ja) * 2008-12-22 2012-06-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 送信効果処理による出力信号の生成

Also Published As

Publication number Publication date
US20070160219A1 (en) 2007-07-12
EP1972180A4 (en) 2011-06-29
US20070160218A1 (en) 2007-07-12
KR20080074223A (ko) 2008-08-12
TW200746871A (en) 2007-12-16
BRPI0706306A2 (pt) 2011-03-22
CA2635024A1 (en) 2007-07-19
JP2009522894A (ja) 2009-06-11
WO2007080211A1 (en) 2007-07-19
RU2008126699A (ru) 2010-02-20
RU2409911C2 (ru) 2011-01-20
BRPI0722425A2 (pt) 2014-10-29
EP1971979A1 (en) 2008-09-24
KR20080078882A (ko) 2008-08-28
RU2409912C2 (ru) 2011-01-20
CN101366321A (zh) 2009-02-11
CN101366081A (zh) 2009-02-11
KR20110002491A (ko) 2011-01-07
RU2008127062A (ru) 2010-02-20
RU2409912C9 (ru) 2011-06-10
CA2635985A1 (en) 2007-07-19
EP1972180A1 (en) 2008-09-24
AU2007204332A1 (en) 2007-07-19
TW200727729A (en) 2007-07-16
EP1971979A4 (en) 2011-12-28
AU2007204333A1 (en) 2007-07-19

Similar Documents

Publication Publication Date Title
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
US20200335115A1 (en) Audio encoding and decoding
JP2009522895A (ja) バイノーラルオーディオ信号の復号
EP3122073B1 (en) Audio signal processing method and apparatus
TWI415111B (zh) 空間解碼器單元、空間解碼器裝置、音訊系統、消費型電子裝置、產生一對雙耳輸出聲道之方法及電腦可讀媒體
JP5227946B2 (ja) フィルタ適応周波数分解能
WO2007080225A1 (en) Decoding of binaural audio signals
WO2019193248A1 (en) Spatial audio parameters and associated spatial audio playback
RU2427978C2 (ru) Кодирование и декодирование аудио
KR20080078907A (ko) 양 귀 오디오 신호들의 복호화 제어
WO2007080224A1 (en) Decoding of binaural audio signals
MX2008008424A (es) Decodificacion de señales de audio binaurales
MX2008008829A (en) Decoding of binaural audio signals

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100811

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110125