JP6342986B2 - 1次アンビソニックス信号の指向性を高める方法及び装置 - Google Patents

1次アンビソニックス信号の指向性を高める方法及び装置 Download PDF

Info

Publication number
JP6342986B2
JP6342986B2 JP2016503627A JP2016503627A JP6342986B2 JP 6342986 B2 JP6342986 B2 JP 6342986B2 JP 2016503627 A JP2016503627 A JP 2016503627A JP 2016503627 A JP2016503627 A JP 2016503627A JP 6342986 B2 JP6342986 B2 JP 6342986B2
Authority
JP
Japan
Prior art keywords
order
ambisonics
signal
format
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016503627A
Other languages
English (en)
Other versions
JP2016517033A (ja
JP2016517033A5 (ja
Inventor
ボエム,ヨハネス
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2016517033A publication Critical patent/JP2016517033A/ja
Publication of JP2016517033A5 publication Critical patent/JP2016517033A5/ja
Application granted granted Critical
Publication of JP6342986B2 publication Critical patent/JP6342986B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/156Correlation function computation including computation of convolution operations using a domain transform, e.g. Fourier transform, polynomial transform, number theoretic transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Stereophonic Arrangements (AREA)

Description

本発明は、アンビソニックス音声信号処理及び音響効果の分野に関する。
アンビソニックス(Ambisonics)は、音圧に関してオーディオシーンを記述する技術であって、2D及び3Dの両方において、優れた空間分解能による複雑なオーディオシーンの記録、生成、伝送及び再生に対処する。アンビソニックスにおいて、空間オーディオシーンは、フーリエ−ベッセル級数の係数An m(k)によって記述される。いわゆるBフォーマット信号として1次アンビソニックス信号を供給するマイクロホンアレイが知られている。しかし、1次アンビソニックス信号を2Dサラウンド又は3Dのためのスピーカ配置へと復号及びレンダリングすることは、音響指向性の限られた認知しか示さない。音源は、しばしば、それらが実際にあるよりも広いと認知される。特に、中心を外れた聴取位置について、音源は、スピーカ間のそれらの意図された実際上の位置の代わりに、最も近いスピーカ位置から聞こえてくるものとしてしばしば位置決めされる。1次アンビソニックス(Bフォーマット)信号は、音圧のフーリエ−ベッセル級数記述の4つの係数から成る。これらの係数は3D音場表現を形成する。それらはWチャネル(モノミックス、すなわち0次)及びX,Y,Zチャネル(1次)である。より高次の信号はより多くの係数を使用する。このことは、それらの係数がスピーカ信号へと復号される場合に、空間的な音源の位置決めの精度を向上させる。しかし、そのような高次の信号は、マイクロホンアレイによって供給されるBフォーマット信号に含まれない。
指向性オーディオ・コーディング(Directional Audio Coding)(DirAC)は、オーディオ信号を表現又は再現するための既知の技術[5,9]である。それは、拡散音からダイレクトサウンドを分離するためにBフォーマット復号器を使用し、次いで、周波数領域におけるダイレクトサウンドの選択的な増幅のためにベクトル方式による振幅パニング(Vector-Based Amplitude Panning)(VBAP)を使用し、合成フィルタリングの後に、最終的にその出力でスピーカ信号を供給する。
図1a)は、DirACに基づくBフォーマット復号化の構造を示す。Bフォーマット信号10は時間領域信号であり、分析フィルタバンクAFBにおいてK個の周波数バンド11へとフィルタリングされる。音場解析ブロックSFAは、拡散推定Ψ(f)13及び到来方向(directions-of-arrival)(DoA)12を推定する。DoAは、バンドkの特定の中間周波数でのソースへの方向の方位φ(f)及び傾斜Θ(f)である。1次アンビソニックス復号器AmbDは、アンビソニックス信号をL個のスピーカ信号14へとレンダリングする。直接拡散分離ブロックDDSは、拡散推定13から決定されるフィルタを用いて、1次アンビソニックス信号をL個のダイレクトサウンド信号15及びL個の拡散音信号16に分離する。L個の拡散音信号16は、復号器AmbDの出力14に、拡散推定13から得られる√Ψ(f)を乗じることによって、導出される。指向性信号は、√(1−Ψ(f))との乗算から導出される。ダイレクトサウンド信号15は、ベクトル方式による振幅パニング(VBAP)[8]と呼ばれる技術を用いて、更に処理される。VBAPユニットVPにおいて、(各周波数バンドにおける)各スピーカ信号のためのゲイン値は、DoA12及びスピーカの位置に従って、ダイレクトサウンドを所望の方向へパンするように乗じられる。拡散信号16は、無相関フィルタリングDFによって無相関にされ、無相関にされた拡散信号17は、VBAPユニットVPから得られるダイレクトサウンド信号に加えられる。合成フィルタバンクSFBは、周波数バンドを時間領域信号19と結合し、該結合された信号がL個のスピーカによって再生され得る。時間積分のための平滑化フィルタ(図1に図示せず。)は、拡散推定Ψ(f)13を計算するよう、且つ、VBAPによって導出されたゲイン値を平滑化するよう、適用される。
図1b)は、音場解析ブロックSFAの詳細を示す。Bフォーマット信号は、原点(観測位置、r=0)での周波数領域における音場を表す。音響強度は、音場における運動及び位置エネルギの輸送を記述する。音場において、音響エネルギの全ての局所的な運動が正味の輸送に相当するわけではない。アクティブインテンシティI(時間平均された音響強度、DoA〜I)は、指向性の正味エネルギ輸送の割合、すなわち、3つのデカルト方向のための単位時間ごとのエネルギである。Bフォーマット信号のアクティブインテンシティ11aは、アクティブインテンシティ解析ブロックAIAにおいて得られ、拡散解析ブロックDAB及びDoA解析ブロックDOAABへ供給される。DoA解析ブロックDOAAB及び拡散解析ブロックDABは、DoA12及び拡散推定13を夫々出力する。DirACについては[9]において更に、また、基礎をなす理論は[5]において、記載される。
例えばBフォーマットマイクロホン記録などの、1次アンビソニックス信号の指向性を高めることが望ましい。そのような指向性の強化は、よりリアルな再生のために、又は実際の記録された音響をより高次のコンテンツとミキシングするために、例えば、異なったスピーカセットアップのために再生されるよう意図されるフィルムサウンドに音響効果を加えるために、望ましい。本発明によって解決されるべき1つの課題は、1次アンビソニックス信号又はBフォーマット信号の指向性を、たとえそのような信号の高次係数が利用可能でないとしても高めることである。
本発明に従って、この及び他の課題は、拡散音成分が変更されずにダイレクトサウンド成分を選択的に増幅することによって解決され得る。ダイレクトサウンドを選択的に増幅する場合に、次数を高められたアンビソニックスフォーマットの信号が得られることが有利である。これは、そのような信号が他のアンビソニックスフォーマットの信号と容易にミキシングされ得るためである。本発明によれば、1次アンビソニックス信号の次数を高めることが可能であり、これにより、指向性音響成分のみが考慮される。このことは、より高い次数(少なくとも2次)を有しながら、先と同じくアンビソニックスフォーマットの信号をもたらす。原理上は、1次アンビソニックス信号の指向性を高めるための開示される方法は、1次係数情報からより高次の係数を導出し、それらの導出された高次係数をアンビソニックス信号に加える。よって、1次アンビソニックス信号の1次係数情報(すなわち、0次及び1次の係数)は有利に保たれる(一実施形態において、再フォーマットを除く。)
言い換えると、付加的な指向性情報は、低次アンビソニックス信号から取り出され、その付加的な指向性情報は、より高次の係数を推定するのに使用される。このように、アンビソニックス信号の指向性は高められる。このことは、アンビソニックス信号がラウドスピーカ信号へと復号される場合に、空間的なソースの位置決めの精度を向上させる。本発明の1つの効果は、結果として得られる出力信号が入力信号よりも多くのエネルギを有することである。
本発明は、請求項1において定義されるような、1次アンビソニックス信号であり、0次及び1次の係数を有する入力信号の指向性を高めるための方法に関する。
本発明はまた、請求項9において定義されるような、0次及び1次の係数を有する1次アンビソニックス信号の指向性を高めるための装置に関する。
更に、本発明は、コンピュータで実行される場合に、該コンピュータに、請求項1において定義されるような、0次及び1次の係数を有する1次アンビソニックス信号の指向性を高めるための方法を実行させるコンピュータ可読命令を記憶したコンピュータ可読記憶媒体に関する。
いずれかの所与の次数のアンビソニックス信号は、たとえここで明示的に述べられていないとしても、一般的に、その所与の次数の係数のみならず、全てのより低次の次数の係数も含むことが知られる。例えば、2次のHOA信号は、2次の係数のみならず、0次及び1次の係数も含む。
本発明の有利な実施形態は、従属請求項、下記の記載及び図面において開示される。
本発明の例となる実施形態は、添付の図面を参照して記載される。
a)は、既知のDirACベースのBフォーマット復号器の構造を示し、b)は、既知の音場解析ブロックの一般的な構造を示す。 本発明の一般的な実施形態に従う装置の構造を示す。 時間領域における結合を利用する実施形態に従う装置の構造を示す。 周波数領域における結合を利用する第1実施形態に従う装置の構造を示す。 周波数領域における結合を利用する第2実施形態に従う装置の構造を示す。 本発明に従う方法のフローチャートを示す。 結合ステップの詳細のフローチャートを示す。
図2は、本発明の一般的な実施形態に従う装置の構造を示す。時間領域の1次アンビソニックス信号10(例えば、Bフォーマット信号)は、分析フィルタバンクAFBにおいてフィルタをかけられ、4つの周波数領域チャネル21が得られる。それらは入力信号10の周波数領域表現である。周波数領域チャネルの1つは0次係数(すなわち、Wチャネル)を表し、残り3つの周波数領域チャネルは1次係数(X、Y、Zチャネル)を表す。
ダイレクトサウンド分離ユニットDSSは、4つの周波数領域チャネル21に含まれるダイレクトサウンド(すなわち、指向性音響)20を拡散音から分離する。実施形態において、ダイレクトサウンド分離ユニットDSSは、単にWチャネルを選択し、それをダイレクトサウンド20として使用する。更に、音場解析ユニットSFAは、4つの周波数領域チャネルの音場解析を実行して、周波数チャネルの周波数バンドごとにソース方向Θ,Φ22及び拡散推定Ψ23を得る。実施形態において、音場解析ユニットSFAは、方向情報22を得るために到来方向(DoA)解析ユニットを有する。
ダイレクトサウンド分離器DSSによって得られたダイレクトサウンド20は、次いでフィルタFにおいてフィルタをかけられ、これによって、拡散成分が減衰されて、指向性音響が選択的に(相対的に)増幅される。フィルタFは、選択的な増幅のために拡散推定Ψ23を使用する。原理上は、それは、選択的に増幅されたダイレクトサウンド24を得るようにダイレクトサウンド20に√(2(1−Ψ(f)))を乗じる。選択的に増幅されたダイレクトサウンド24は、次いでHOA符号器HOAeにおいてアンビソニックス符号化され、所定の次数N(N>1、すなわち、少なくとも2次)のHOA信号25が得られる。HOA符号器HOAeは、符号化のためにソース方向Θ,Φ22を使用する。それは、Bフォーマットに従って0次及び1次の係数を有するアンビソニックスフォーマットを使用してよい。それはまた、代わりに、異なるアンビソニックスフォーマットを使用してよい。異なるアンビソニックスフォーマットは、通常は、Bフォーマットの順序とは異なる定義された係数の順序、若しくはBフォーマットの係数スケーリングとは異なる係数スケーリング、又はその両方を有する。
選択器SELは、HOA信号25の定義された部分を選択し、その選択された部分25aは、次いで結合及び合成ユニットCSにおいて原のBフォーマット信号と結合される。選択された部分25aは、HOA信号25の高次部分、すなわち、少なくとも2次の部分(実施形態では係数)である。結合及び合成ユニットCSは、その出力において、スピーカ信号をレンダリングするのに使用され得る時間領域信号29を(HOAフォーマットにおいて)供給する。結合及び合成ユニットCSは、アンビソニックスフォーマットの信号にフィルタをかけ、時間領域信号を得るために、合成フィルタSFを有する。
図2は、得られたHOA出力信号29が高次の他のHOA入力信号30とミキシングされ得る任意的な追加のミキサユニットMXを更に示す。他のHOA入力信号30はまた、後述されるHOAフォーマットアダプタHFAにより、入力信号10とは異なるアンビソニックスフォーマットを有することができる。ミキサMXは、得られたHOA出力信号29(すなわち、エンハンスドBフォーマット入力信号)及びHOA入力信号30の混合を含むHOA信号31を生成する。
結合及び合成ユニットCSの実施形態の2つの基本的なタイプは、以下で記載される。1つのタイプの実施形態では、結合及び合成ユニットCSは、時間領域において、選択された部分25aを原のBフォーマット信号10と結合する。従って、それは、時間領域への選択された部分25aのみの合成を実行する。他のタイプの実施形態では、結合及び合成ユニットCSは、周波数領域において、選択された部分25aを原のBフォーマット信号10と結合し、後で時間領域への合成を実行する。
図3は、第1のタイプの実施形態を示す。この実施形態では、結合及び合成ユニットCSは、合成された時間領域信号26を得るように、合成フィルタバンクSFBにおいて、HOA信号25のうちの選択された高次係数25aのみを合成する。時間領域結合器ユニットCBは、時間領域出力信号29を得るように、時間領域において、合成された時間領域信号26を入力信号と結合する。一実施形態において、時間領域HOAフォーマットアダプタユニットHFAは、HOA符号器HOAeが使用するフォーマットに従って、時間領域入力信号のフォーマットを適応させる。これは、時間領域結合器ユニットCBにおける得られた時間領域HOA信号28と合成された時間領域信号26との結合を簡単にする。幾つかの実施形態において、例えば、HOA符号器HOAeが、HOA入力信号と互換性があるフォーマットを使用する場合に、HOAフォーマットアダプタユニットHFAは必要とされなくてよい。HOAフォーマットアダプタユニットHFAは、HOA信号の係数を再配置及び/又は再スケーリングしてよい。
分析フィルタバンクAFBは、例えば、FFT(高速フーリエ変換)を実行することによって、異なる周波数バンドを得る。これは時間遅延を生成する。一実施形態において、時間領域入力信号の遅延補償ユニットDC、例えば、分析フィルタバンクAFBや選択的増幅フィルタFなどのフィルタバンク遅延を補償する。表されている実施形態では、遅延補償は、HOAフォーマット適応HFAより前に行われているが、それは、他の実施形態では、HOAフォーマット適応より後に行われ得る。更なる他の実施形態では、遅延補償は2つのステップにおいて行われる。1つの遅延補償ユニットはフォーマット適応より前にあり、もう1つの遅延補償ユニットはフォーマット適応HFAより後にある。
図4及び図5は、第2のタイプの結合及び合成ユニットCSを使用する実施形態を示す。この実施形態では、結合及び合成ユニットCSは、分析フィルタバンクから得られる、入力信号の周波数領域での0次及び1次のアンビソニックス信号を受信する。これは、図4に示される実施形態で見られるように、別個の分析フィルタバンクAFB’であってよく、あるいは、それは、図5に示される実施形態で見られるように、上記の分析フィルタバンクAFBであってよい。後者の場合に、分析フィルタバンクAFBによって供給される4つの周波数領域チャネル21は、結合及び合成ユニットCSに直接入力される。周波数領域結合器ユニットCBは、HOA信号25のうちの選択された高次係数25aを、周波数領域において、入力信号の0次及び1次のアンビソニックス係数と結合する。合成フィルタバンクSFB’は、結合されたアンビソニックス信号を合成し、時間領域出力信号29が得られる。一実施形態において、任意的な周波数領域HOAフォーマット適応HFAは、入力信号の0次及び1次のアンビソニックス係数に対して、それらをHOA信号25のうちの選択された高次係数25aと結合するより前に実行される。HOAフォーマットアダプタユニットHFAは、HOA信号の係数を再配置及び/又は再スケーリングしてよい。上述されたように、HOAフォーマットアダプタユニットHFAは、幾つかの実施形態では必要とされないことがある。更に、やはり上述されたように、遅延補償(図示せず。)は、処理チェーン(例えば、選択的増幅フィルタF、HOA符号器HOAe)において挿入される可能性があるあらゆる遅延のために、一実施形態において使用されてよい。なお、分析フィルタバンクAFB、AFB’によって挿入される遅延は補償される必要がないので、それは通常必要とされない。
時間領域結合器CBは、時間領域において動作する結合器であり、一方、周波数領域結合器CBは、周波数領域において動作する結合器である。いずれのタイプの結合器も、選択された部分25aの得られた係数を入力信号10の(場合により再フォーマットされた)係数に加える。
概して、0次及び1次の係数を有する1次アンビソニックス時間領域信号の指向性を高める装置は、
1次アンビソニックス信号にフィルタをかけて、1次アンビソニックス信号の周波数領域表現である4つの周波数領域チャネルが得られ、周波数領域チャネルのうちの1つの周波数領域チャネル20が0次係数を表し、3つの周波数領域チャネルが1次係数を表す、分析フィルタバンクAFBと、
4つの周波数領域チャネルの音場解析を実行して、ソース方向Θ,Φ22及び拡散推定Ψ23が得られる音場解析ユニットSFAと、
拡散推定Ψ23が使用されて、0次係数を有する周波数領域チャネル20にフィルタをかけ、ダイレクトサウンド成分24が得られる選択的増幅フィルタFと、
ソース方向Θ,Φ22が使用されて、少なくとも2である所定の次数を持ったアンビソニックスフォーマットでダイレクトサウンド成分24を符号化し、少なくとも0次、1次及び2次のアンビソニックス係数を含む、所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンド25が得られる、高次アンビソニックス符号器HOAeと、
所定の次数のアンビソニックスフォーマットにおける得られた符号化されたダイレクトサウンド25から少なくとも2次のアンビソニックス係数25aを選択する選択器SELと、
符号化されたダイレクトサウンドから選択された少なくとも2次のアンビソニックス係数25aを1次アンビソニックス入力信号10のアンビソニックス係数と結合して、少なくとも2次のアンビソニックス信号の時間領域表現29が得られる結合及び合成ユニットCSと
を有する。少なくとも2次の選択されたアンビソニックス係数25aは、0次又は1次の係数を含まないことが知られる。すなわち、選択器SELは、低次係数を除外する。
一実施形態において、本発明は、1次のアンビソニックス信号10(すなわち、0次及び1次の係数のみを持ったアンビソニックス信号)の指向性を高めるための方法に関する。概して、方法は、
音場解析ユニットSFAにおいて、1次アンビソニックス信号から拡散推定Ψ23及び方向情報Θ,Φ22を生成するステップと、
選択的な増幅のためのフィルタFにおいて拡散推定Ψ23を使用して、1次アンビソニックス信号からダイレクトサウンド24を分離して選択的に増幅するステップと、
HOA符号器HOAeにおいて方向情報Θ,Φ22を使用して、選択的に増幅されたダイレクトサウンド24を符号化し、少なくとも2次のHOA信号25が得られるステップと、
HOA信号25から高次部分を選択し、該選択された高次部分が1次よりも高い次数の係数のみを含む(すなわち、0次の係数を含まず且つ1次の係数を含まない)ようにするステップと、
結合及び合成ユニットCSにおいて、HOA信号25から選択された高次係数を、入力された1次アンビソニックス信号と結合し、高次アンビソニックス信号(すなわち、少なくとも2次のアンビソニックス信号)の時間領域表現29が得られるステップと
を有する。
一実施形態において、HOA信号25のうちの選択された高次係数を、入力された1次アンビソニックス信号10と結合するステップは、分析フィルタバンクAFBから入力信号の周波数領域での0次及び1次のアンビソニックス係数を受け取るステップと、HOA信号25のうちの選択された高次(すなわち、2次以上)係数を、周波数領域において、入力信号の0次及び1次のアンビソニックス係数と結合するステップと、結合されたアンビソニックス信号を合成フィルタバンクSFBにおいて合成して時間領域出力信号29を得るステップとを有する。
実施形態において、方法は、入力信号の0次及び1次のアンビソニックス係数に対して、それらをHOA信号25のうちの選択された高次係数と結合するより前に、周波数領域HOAフォーマット適応HFAを実行するステップを更に有する。
他の実施形態において、HOA信号25のうちの選択された高次係数を、入力された1次アンビソニックス信号10と結合するステップは、HOA信号25のうちの選択された高次係数25aのみを合成フィルタバンクSFBにおいて合成して、合成された時間領域信号26を得るステップと、得られた合成された時間領域信号を時間領域において入力信号と結合して、時間領域出力信号29を得るステップとを有する。実施形態において、時間領域入力信号の時間領域HOAフォーマット適応HFAは、結合より前に実行される。更なる実施形態では、フィルタバンク遅延を補償するための時間領域入力信号の遅延補償DCが、結合するステップより前に実行される。
高次係数は、分析フィルタバンクAFBにおいて1次アンビソニックス入力信号10にフィルタをかけ、フィルタ処理された信号の到来方向(DoA)解析を実行して、拡散推定Ψ23及び方向Φ,Θ22が得られ、拡散推定Ψ23を用いてWチャネル(0次係数)にフィルタをかけ、それによりダイレクトサウンドS(f)20が分離され、高次アンビソニックス符号器HOAeにおいてアンビソニックスフォーマットでダイレクトサウンドS(f)を符号化することによって、得られる。結果として得られるHOA信号25から、高次係数のみが使用され、入力信号の低次係数と結合され、その結果からアンビソニックス出力信号29が合成される。
概して、HOA信号25のうちの選択された高次係数を、入力された1次アンビソニックス信号10と結合するステップは、それらの夫々の係数を足し合わせることを有する。すなわち、出力信号29は、入力信号10の全ての係数と、更なる係数、すなわち、選択された部分25aのより高次の係数とを含む。
図6は、本発明の一実施形態に従う方法のフローチャートを示す。入力信号10(0次及び1次の係数を有する1次アンビソニックス信号)の指向性を高める方法60は、
4つの周波数領域チャネル21が得られ、それらのうちの1つがアンビソニックスWチャネル20であるように、入力信号10にフィルタをかけるステップs1と、
4つの周波数領域チャネル21の音場解析SFAを実行して、ソース方向22及び拡散推定23が得られるステップs1と、
拡散推定23が使用されて、周波数領域のアンビソニックスWチャネル20を選択してフィルタをかけ、入力信号のダイレクトサウンド成分24が得られるステップs3と、
高次アンビソニックス符号器HOAeにおいて、ソース方向22が使用されて、所定の次数Nを持ったアンビソニックスフォーマットでダイレクトサウンド成分24を符号化し、所定の次数Nのアンビソニックスフォーマットにおける符号化されたダイレクトサウンド25が得られるステップs4と、
アンビソニックスフォーマットにおける得られた符号化されたダイレクトサウンド25から、少なくとも2次(すなわち、より低い次数を除く2次以上の次数)のアンビソニックス係数を含む定義された部分25aを選択するステップs5と、
符号化されたダイレクトサウンド25のうちの選択された部分の少なくとも2次のアンビソニックス係数を表す信号を入力信号10を表す信号と結合し、少なくとも2次のアンビソニックス信号29が得られるステップs6と
を有する。
フィルタリングステップs1において得られる4つの周波数領域チャネル21は、1次アンビソニックス信号の周波数表現であり、周波数領域チャネル21のうちの1つの第1の周波数領域チャネル(Wチャネル)20は0次の係数を表し、一方、残り3つの周波数領域チャネル21(X,Y,Zチャネル)は1次の係数を表す。
符号化ステップs4で、高次アンビソニックス符号器HOAeは、ソース方向Φ,Θ22を用いて、所定の次数Nを持ったアンビソニックスフォーマットにおいてダイレクトサウンド成分24を符号化する。所定の数Nは少なくとも2であり、所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンドは、少なくとも2次の次数のアンビソニックス係数を有する。
図7a)は、結合するステップs6が4つの周波数領域チャネル21を入力信号10の表現として使用する実施形態(図4,5に示される装置に対応)を示す。それは、
周波数領域結合器ユニットCBにおいて、4つの周波数領域チャネル21、21’、28の係数によって表される1次アンビソニックス信号10のアンビソニックス係数を、少なくとも2次のエンハンスメント高次アンビソニックス信号25のうちの選択された周波数成分25aと結合し、少なくとも2次のアンビソニックス信号の周波数領域表現であって、1次アンビソニックス入力信号10と比較して指向性が高められている信号37が得られるステップs61と、
合成フィルタバンクSFB’において、得られた信号37にフィルタをかけ、少なくとも2次の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現が得られるステップs64と
を有する。
図7b)は、結合するステップs6が入力信号10の時間領域係数を使用する実施形態(図3に示される装置に対応)を示す。それは、
合成フィルタバンクSFBにおいて、符号化されたダイレクトサウンド25のうちの少なくとも2次の選択されたアンビソニックス係数25aにフィルタをかけ、少なくとも2次の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現26が得られるステップs62と、
時間領域結合器CBにおいて、1次アンビソニックス信号10(又は、実際のHOAフォーマットは適応され得るので、むしろ、1次アンビソニックス信号10のアンビソニックス係数を表す係数)を、少なくとも2次のエンハンスメント高次アンビソニックス信号の時間領域表現26と結合し、1次アンビソニックス信号10と比較して指向性が高められている少なくとも2次のアンビソニックス信号の時間領域表現29が得られるステップs65と
を有する。
下記の記載は、アンビソニックスに関する更なる詳細を提供する。アンビソニックス理論では、空間オーディオシーンは、フーリエ−ベッセル級数の係数An m(k)によって記述される。ソースがないボリュームについて、観測位置(r,θ,φ)での音圧は、次の式(1)によって、その球座標の関数として記述され得る(半径r、傾斜Θ、方位角Φ及び空間周波数k=ω/c=2πf/c):
Figure 0006342986
上記の式において、数An m(k)はアンビソニックス係数であり、jn(kr)は、半径依存性を記述する第1種の球ベッセル関数であり、Yn m(θ,φ)は、実際に実数値を有する球面調和関数(Spherical Harmonics)(SH)である。それらは角度依存性に関与する。nはアンビソニックス次数インデックスであり、mは等級である。小さいkrについてしか有効数字を有さないベッセル関数の性質により、総和級数は、十分な精度を伴って、ある次数n=Nで切り捨てられ得る。理論上完ぺきな再構成のために、N→∞である。更なる情報及び詳細は[11]、[6]、[7]、[3]、[13]において見直されてよい。アンビソニックス係数An mはアンビソニックス信号を形成する。それらは、音圧の物理単位(1Pa)を有し、時間により変化する。信号A0 0は、アンビソニック記録のモノバージョンと見なされ得る。アンビソニックス係数の実際の値は、SHの定義、より正確には、その正規化スキームによって、決定される。式(1)における係数An mの数は、2D表現についてはO=2N+1によって、そして、3D表現についてはO=(N+1)2によって、与えられる。
実際に、アンビソニックスは、実数値の球面調和関数(SH)を使用する。符号化及び復号化の動作に作用するSHのための正規化スキームの種々の定式化及び種類、すなわち、アンビソニックス係数の値が存在するので、定義は以下で与えられる。符号なし表現による実数値SHの定式化は、ここでは次の式(2)の通りである:
Figure 0006342986
上記の式において、
[外1]
Figure 0006342986
は、Yn mとYn/ m/*との間の直交関係に対応する正規化因子である(表1を参照)。すなわち、次の式の通りである;
Figure 0006342986
上記の式において、クロネッカのデルタδaaは、a=a’については1に等しく、それ以外は0である。下記では、直交正規化スキームが使用される。
Pn,|m|は、傾斜cos(θ)の依存性を記述する、関連するルジャンドル関数である。
[外2]
Figure 0006342986
Pn,|m|は、式(3)によってロドリーグの公式を用いて表現され得る(すなわち、ここで提示される全ての定義は、実数値変数の補償があいまいさを生じさせ得るコンドン−ショートレー位相の使用なしで済ませる。)。しかし、実装される計算のためのより有効な方法が存在する:
Figure 0006342986
方位角部分φに対する依存性は、次の式(4)によって与えられる:
Figure 0006342986
表1は、アンビソニックス内で使用される一般的な正規化スキームを示す。δ0,mは、m=0について1の値をとり、それ以外は0をとる。命名規則SN3D、N3Dは、[3]から採用される:
Figure 0006342986
SoundField(登録商標)のようなマイクロホンによって記録された信号は、Bフォーマット信号を用いて表される。その技術は[2]において記載されている。4つのBフォーマット信号が存在する。W信号は、無指向性マイクロホンによって記録された音圧に比例する信号を搬送するが、1/√2という因数によってスケーリングされる。X、Y、Z信号は、3つのデカルト方向における圧力勾配に比例する信号を搬送する。4つのBフォーマット係数W、X、Y、Zは、W=A0 0 N3D/√2、X=A1 1 N3D/√3、Y=A1 -1 N3D/√3、Z=A1 0 N3D/√3によるN3D正規化スキーム[3],[4]を用いる1次HOA係数に、及びW=A0 0 SN3D/√2、X=A1 1 SN3D、Y=A1 -1 SN3D、Z=A1 0 SN3DによるSN3D正規化を用いるHOA係数に関係がある。更に、Bフォーマットは、因数inが係数表現内で除外される平面波符号化モデルを想定する。
HOA信号は、平面波によっても表現され得る。平面波の音圧は、球面調和関数のためのN3D正規化スキームを用いて、[11]によって与えられている:
Figure 0006342986
正確には、An mは、次のようになる:
Figure 0006342986
上記の式で、PS0(f)は、周波数fにおける座標系の原点での音圧である。Θ(f)s、φ(f)sは、ソースに対する方向(DoA)(傾斜、方位角)であり、*は複素共役を示す。Bフォーマット及びSoundField(登録商標)マイクロホンシステムを含む多数のアンビソニックスフォーマット及びシステムは、平面波符号化及び復号化モデルを想定し、因数inは除外される。その場合に、An mは、次のようになる:
Figure 0006342986
上述されたように、図1b)は、音場解析ブロックSFAのビルディングブロックを表す。それは、実際には、一般化された時間−周波数の検討が使用され、それにより任意の時間窓が使用可能となる点を除いて、本発明の音場解析ブロックSFAと同じようである。すなわち、音場解析は、種々の時間正規化へと簡略化される。この一般化は、任意の複素フィルタバンクの使用を可能にする。ここで考えられている他の一般化は、アクティブな音場が平面波の重ね合わせから組み立てられる点である。全ての音場パラメータは周波数の関数であり、それらは、フィルタバンクバンドkの夫々の中心周波数について計算され得る。kからのfの依存性は、下記の詳細な説明では省略される。
アクティブインテンシティが次に記載される。
アクティブインテンシティIa(f)は、次の式(8)に従って定義される([5]を参照):
Figure 0006342986
アクティブインテンシティの単位はW/m2=N/(ms)である。P(f)*は、共役複素音圧(パスカル=1N/m2)であり、U(f)は、3つのデカルト次元におけるm/sでの粒子速度ベクトルである。Re{.}は実数部分を表す。アクティブインテンシティの他の定式化は、[11]において見られるように、1/2の更なる因数を使用する。それは、次いで、式(13)のための更なる因数をもたらす。Bフォーマット信号Wは、音圧信号P(f)に比例し、信号X(f)=[X(f),Y(f),Z(f)]Tは、音速Uに比例する。
Figure 0006342986
上記の式において、eiはデカルト座標軸の単位ベクトルであり、伝播する平面波の単位ベクトル方向のeuである。Z0は特性インピーダンスである(空気の密度と音速との積Z00×c)。その場合に、アクティブインテンシティIaは、次の(10)のようにBフォーマットを用いて表現され得る([5]を参照):
Figure 0006342986
上記の式において、因数√2は、Bフォーマット内のW係数のスケーリングを表し、*は複素共役を表す。Ia(f)、X(f)は、デカルト座標における周波数のベクトル関数である。
到来方向が次に記載される。
アクティブインテンシティの単位ベクトルeI(f)=[eIx(f),eIy(f),eIz(f)]Tは、eI=Ia(f)/||Ia(f)||によって与えられる。DoAの方位角は、次の式(11)によってラジアンで与えられる:
Figure 0006342986
上記の式において、Iai(f)は、Ia(f)のデカルト成分であり、atan2は4象限逆正接である。仰角Θ(f)は、次の式(12)によって計算され得る:
Figure 0006342986
拡散が次に記載される。
音場のエネルギ密度、すなわち、単位ボリュームごとの音響エネルギ(物理単位N/m2=(kg・m/s2)/m2)は、[5]によって記載される:
Figure 0006342986
上記の式において、||U||は行列ノルム2を記述し、ベクトルのユークリッド長さである。
アンビソニックス信号について、1次/Bフォーマットは、次のようになる:
Figure 0006342986
下記で、表記法における周波数の依存性は、より良い読みやすさのために断念される。
拡散推定Ψは、[5]のように定義される:
Figure 0006342986
[外3]
Figure 0006342986
は、IIRフィルタによる1次又は窓掛け平均によって実現される時間平均化を用いて実装され得る期待値演算子である。Ψは、音場の非アクティブ部分の寄与を表す。1の値は、完全に拡散した音場(運動エネルギの寄与なし)を記述し、0の値は、完全にアクティブな音場を記述する。Bフォーマット信号を用いると、拡散は、次の式(16)のように表現され得る:
Figure 0006342986
拡散推定の代替の実現[1]は、次の式(17)によって与えられる:
Figure 0006342986
平均フィルタリングが次に記載される。
拡散推定及びDoA方向は、時間平均化を必要とする。期待値
[外4]
Figure 0006342986
を近似するよう、平滑化フィルタ出力は、[12]によって定義される:

y(n,k)=(1-g)x(n,k)+gy(n-1,k) (18)

ここで、x(n,k)は入力であり、y(n-1,k)は、フィルタバンドkにおいて出力される遅延されたサンプル(変換ブロック)である。フィルタパラメータgはg=exp(-1/fcτ)によって与えられる。ここで、fcは、サブサンプリングフィルタバンクのサンプルレートである。50%だけ重なり合った窓を持つブロックベースのフィルタバンクについて、fcはfc=fs/Nhopになる。ホップサイズNhopは、この50%オーバラップの場合について、窓サイズの半分である。時定数τは平均化の特性を決定づける。小さい値は、入力信号の高速な変化が追随される必要がある場合に適切であり、大きい値は、長期平均に適している。
代替の実現手法が存在し、例えば([10]を参照):

y(k,n)=ax(n,k)+(1-a)y(k,n-1) (19)

ここで、a=Nhop/τfsであり、τ≧Nhop/fs。なお、τは、fsに対する絶対的な関係において見られる。
ブロック依存のスイッチパラメータcc及び2つの時定数τmax、τminを有する適応フィルタは、次の時定数(20)のために使用され得る:
Figure 0006342986
ほとんどの場合において、如何なる1次アンビソニックス記録もBフォーマット信号である。本発明に従う方法は、1次係数情報を保ちながら、既存の1次アンビソニックス記録のための高次アンビソニックス係数を導出する。到来方向(DoA)解析は、周波数にわたって最も強い方向を導出するために実行される。Wチャネルは、それらの信号の全てのモノミックスに相当する。Wチャネルは、拡散部分が周波数にわたって除去されるようにフィルタをかけられる。よって、フィルタをかけられたWチャネルは、周波数にわたるダイレクトサウンドの推定になる。DoA方向は、3DのためにはO=(Norder+1)2個の、2D実現のためにはO=(2Norder+1)個の係数を有して、予め割り当てられたアンビソニックス次数Norder>1の新しいHOA信号を形成するように、フィルタをかけられたWチャネル信号のアンビソニックス符号化のために使用される。Bフォーマット記録(すなわち、1次信号)の4つの係数は、必要ならば新しいアンビソニックス信号と同じフォーマットに変換されたフォーマットであり、出力信号を形成するように新しい係数と結合される。結果として得られる出力HOA信号係数C は、0及び1次係数の変換されたBフォーマット係数と、より高次の成分の新しいHOA係数とから成る。
処理又は処理の部分は、分析フィルタバンクのフィルタバンク周波数領域において適用される。
一実施形態は、FFTベースの分析フィルタバンクを使用する。50%が重なり合ったサイン窓は960個のサンプルに、又は代替的に、例えば640若しくは512個のサンプルに適用される。左右へのゼロパディングは、1024個のサンプルFFT長を得るために使用される。逆フィルタバンク(合成フィルタバンク)は、480(320,256)個のサンプルをリストアするために窓掛け及びオーバーレイ加算を使用する。代替的に使用可能なフィルタバンクは、人体感覚により良く適合するフィルタバンド幅を使用するものであって、ISO/IEC 23003/2007/2010(MPEG Surround,SAOC)において記載されている。FFTフィルタバンクを使用する場合に、2以上のフィルタバンドは、特に高周波のために、人体感覚により良く適応するように結合され得る。一実施形態において、バークの約4分の1のバンド幅が1つのFFTフィルタバンドの細かさにより使用され、結合されたバンドにわたるアクティブインテンシティ及びエネルギの平均値が使用される。様々な実施形態において、音場パラメータ“アクティブインテンシティ”及び/又は“エネルギ密度”は、DoA角度及び拡散推定を導出するために使用される。
一実施形態において、DoA方向及び拡散推定のための式(18)に従う特別の平滑化フィルタが使用される。その場合に、拡散推定の平滑化は、次のように実現される(周波数バンド依存性は、明りょうさのために省略される。)。
式(15)に従う拡散推定は、
[外5]
Figure 0006342986
によって与えられる。エニュメレータ
[外6]
Figure 0006342986
の平滑化フィルタは、それらの成分のために同じ時定数を用いて1次IIRフィルタによって実現される。更に、フィルタは、小さいτmin及び大きい時定数τmaxによって特徴付けられる2つの係数を有する。時定数間の切り替えは、||Ia||の変化及び付加的な状態カウンタccに応じて実行される。このとき、Iaはフィルタ入力であり、
[外7]
Figure 0006342986
は前の動作のフィルタ出力である。
[外8]
Figure 0006342986
大きい時定数τmaxを有する係数が使用される。
[外9]
Figure 0006342986
小さい時定数τminによって特徴付けられる係数が使用され、ccは、1よりも大きいccmaxにセットされる(例えば、ccmax=10)。
[外10]
Figure 0006342986
時定数τ=τmin+((ccmax-cc)/ccmax)(τmaxmin)が使用され、ccは、それがゼロにならない限り以後デクリメントされる(ブロック処理)。
ε1は正の定数である。エネルギEの平滑化は、同じ適応フィルタ構造だが別個のフィルタを用いて、同じように実行される。それはτmax、τmin及び自己cc状態カウンタによって特徴付けられる。このとき、|E(n)|の変化は、大きい、小さい及び補間された時定数の間を切り替えるために使用される。
φ(f)及びΘ(f)は、2つの複素信号を生成することによって、アクティブインテンシティeI(f)=Ia(f)/||Ia(f)||の単位ベクトルから導出される:

a1=eIx+ieIy (21)

及び

a2=√(eIx 2+eIy 2)+ieIz (22)

上記の式において、i=√(-1)及びeIx、eIy、eIzは、アクティブインテンシティの単位ベクトルのデカルト成分である。信号a1、a2は、式(18)に従ってサブバンドごとに適応IIR1次フィルタを用いてフィルタをかけられる:

b1(n)=(1-g(Ψ))a1(n)+g(Ψ)b1(n-1) (23)

そして、b2(n)については、入力a2(n)と、拡散Ψに依存する同じフィルタパラメータg(Ψ)とを用いて同様である。依存性は線形であってよい:

g(Ψ)=(gmax-gmin)Ψ+gmin

gminはゼロに近く、gmax≦1である。
指向性信号φ,Θは、次のようにフィルタ出力から計算され得る:

φ=atan2(Im{b1}/Re{b1}) (24)
Θ=atan2(Re{b2}/Im{b2}) (25)

図2〜5を参照して上述された実施形態は、Bフォーマットの場合におけるW、X、Y、Zによって表される4つの1次係数のために4つの分析フィルタを使用する。DoA及び拡散推定の解析は、中心周波数fkを有するK個の周波数バンドにおける上記の適応平滑化フィルタを用いて実行される。W係数信号は、Bフォーマットの場合には√(2(1-Ψ(fk)))を、他の正規化された1次信号の場合には√(1-Ψ(fk))を各周波数バンドにおいて乗じられて、信号Sを実現する。DoA方向は、3DのためにはO=(Norder+1)2個の、2D実現のためにはO=(2Norder+1)個の係数を有して、予め割り当てられたアンビソニックス次数Norder>1の新しいHOA信号を形成するように、周波数バンドにおいて信号Sをアンビソニックス符号化するために使用される。O個の新しいアンビソニックス信号はBn mによって表される。一実施形態において、HOA符号器は、因数inを除外する直交正規化球面調和関数又はN3dを使用する。平面波符号化スキームが使用される:
Figure 0006342986
上記の式において、B(fk)は、O個のアンビソニックス係数B(fk)=[B0 0(fk),B1 -1(fk),B1 0(fk),B1 1(fk),B2 -2(fk),..]Tを保持する、中間周波数fkを持った夫々の周波数バンドkのためのベクトルである。
[外11]
Figure 0006342986
は、指向性の球面調和関数を保持する、サイズOx1のモードベクトルである:
Figure 0006342986
Bフォーマット入力信号(例えば、記録)の4つの係数は、HOA符号器HOAeによって生成される新しいアンビソニックス信号と同じフォーマットに変換されたフォーマットである。これは、時々アンビソニックス係数内に含まれる因数inの任意的な考慮とともに球面調和関数の種々の正規化への適応と、2D球面調和関数に適応するための3Dから2Dへの変換又はその逆の変換とを暗示することができる。変換され且つソートされ直されたBフォーマット係数は、関係:[W,Y,Z,X]→[A0 0,A1 -1,A1 0,A1 1]及び2Dについては:[W,Y,X]→[A0 0,A1 -1,A1 1]を用いてA0 0,A1 -1,A1 0,A1 1と表される。
結果として得られるHOA信号Cn m29は、変換されたBフォーマット信号と、0及び1次係数が除去された新しいHOA係数Bn mとから成る。すなわち、Cn m:[A0 0,A1 -1,A1 0,A1 1,B2 -2,B2 -1,B2 0,B2 1,B2 2,…’]。結果として得られるHOA信号Cn m29は、3D実現のためのO=(Norder+1)2個の成分、又はCn m:[A0 0,A1 -1,
A1 1,B2 -2,B2 2,…]による2D実現のためのO=(2Norder+1)個の成分を有する。このプロシージャは、アンビソニックス信号のための次数アップミックスと見なされ得る。
図3に関連して上述された実施形態は、原の係数を時間領域において新しい係数と結合し、O-4個の合成フィルタ(文字“O”は非ゼロを意図される点を留意されたい。)及び付加的な遅延を用いてフィルタバンク遅延を補償する。図4及び5に示される実施形態は、フィルタバンク領域において結合し、O(非ゼロ)個の合成フィルタを使用する。
本発明に従う次数アップミックスの後、新しい信号Cn mは、幾つかの目的、例えば、信号Dn mを形成するようにNorderの他のアンビソニックスコンテンツとミキシングすること、Norderのアンビソニックス復号器を用いてL個のスピーカによる再生のためにCn m又はDn mを復号すること、データベースにおいてCn m又はDn mを伝送及び/又は記憶すること、などのために使用され得る。幾つかの場合、例えば、伝送及び/又は記憶する場合に、メタデータが、アンビソニックス信号のオリジナル及び実行された処理を示すために使用され得る。
本発明は、あらゆる低次のアンビソニックス信号の指向性も夫々の高次アンビソニックス信号へと高めるのに適しており、一方、ここで記載される例となる実施形態は、例えば2次信号へと高められるための1次(Bフォーマット)信号しか使用しない。しかし、同じ原理は、所与の次数のアンビソニックス信号をあらゆるより高い次数へも(例えば、2次信号を3次信号へ、1次信号を4次信号へ、など)高めるように適用され得る。一般的に、4次よりも高い次数の係数を生成することは意味をなさない。
本発明の1つの利点は、それが、Bフォーマット信号(例えば、1次マイクロホン記録)をより高次のコンテンツとミキシングして、その混合を復号する場合に空間再現の正確さを高めることを可能にする点である。
記載されている装置及び方法における、開示されているデバイスの形態及び詳細における、並びにそれらの動作における様々な削除、置換及び変更は、当業者によってなされ得るが、同じ結果を達成するように略同じように略同じ機能を実行するそれらの要素の全ての組み合わせが本発明の適用範囲内にあることは、明示的に意図される。本発明は、例示として記載されているのであり、明細書並びに(必要に応じて)特許請求の範囲及び図面において開示されている各特徴は、独立して、又はあらゆる適切な組み合わせにおいても、提供されてよい。特徴は、必要に応じて、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実装されてよい。特許請求の範囲に現れる参照符号は、単なる例示であって、特許請求の範囲の適用範囲を制限するものではない。
引用文献
Figure 0006342986

Claims (15)

  1. 1次アンビソニックス信号であり、0次及び1次の係数を有する入力信号の指向性を高める方法であって、
    分析フィルタバンクにおいて前記入力信号にフィルタをかけるステップであって、前記1次アンビソニックス信号の周波数領域表現である4つの周波数領域チャネルが得られ、該周波数領域チャネルのうちの1つの第1周波数領域チャネルが0次係数を表し、残り3つの周波数領域チャネルが1次係数を表す、ステップと、
    前記4つの周波数領域チャネルの音場解析を実行して、ソース方向及び拡散推定が得られるステップと、
    フィルタにおいて、0次係数を有する前記第1周波数領域チャネルにフィルタをかけるステップであって、前記拡散推定が使用され、ダイレクトサウンド成分が得られるステップと、
    高次アンビソニックス符号器において、少なくとも2である所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップであって、前記ソース方向が使用され、1次よりも高次のアンビソニックス係数を含む、前記所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンドが得られるステップと、
    前記所定の次数のアンビソニックスフォーマットにおける前記得られた符号化されたダイレクトサウンドから2次以上のアンビソニックス係数を選択するステップであって、1次及び0次の係数が除外されるステップと、
    結合及び合成ユニットにおいて、前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数を表す信号を前記入力信号と結合するステップであって、指向性が高められた少なくとも2次のエンハンスド・アンビソニックス信号が得られるステップと
    を有する方法。
  2. 前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数を表す信号を前記入力信号と結合するステップは、
    周波数領域結合器ユニットにおいて、前記4つの周波数領域チャネルのアンビソニックス信号を、前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数の中から選択された周波数係数と結合し、少なくとも2次のアンビソニックス信号の周波数領域表現である信号が得られるステップと、
    合成フィルタバンクにおいて前記得られた信号にフィルタをかけて、少なくとも2次の係数を有するエンハンスド・アンビソニックス信号の時間領域表現が得られるステップと
    を有する、請求項1に記載の方法。
  3. 前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数を表す信号を前記入力信号と結合するステップは、
    合成フィルタバンクにおいて、前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数にフィルタをかけて、2次以上の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現が得られるステップと、
    時間領域結合器において、前記入力信号を表すアンビソニックス係数を、2次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合し、前記入力信号と比較して指向性が高められた少なくとも2次のエンハンスド・アンビソニックス信号の時間領域表現が得られるステップと
    を有する、請求項1に記載の方法。
  4. 前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップにおいて、前記高次アンビソニックス符号器はBフォーマットを使用する、
    請求項1乃至3のうちいずれか一項に記載の方法。
  5. 前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップにおいて、前記高次アンビソニックス符号器は、Bフォーマット以外のアンビソニックスフォーマットを使用し、当該方法は、
    前記結合するステップより前に、HOAフォーマット適応ユニットにおいて、前記Bフォーマット以外のアンビソニックスフォーマットに従って前記入力信号を再フォーマットし、前記入力信号の再フォーマットされたアンビソニックス係数が得られるステップを更に有し、
    前記結合するステップにおいて、前記時間領域結合器は、前記入力信号の前記再フォーマットされたアンビソニックス係数を、2次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合する、
    請求項に記載の方法。
  6. 前記4つの周波数領域チャネルの音場解析を実行するステップは、
    前記4つの周波数領域チャネルのアクティブインテンシティ解析を実行して、アクティブインテンシティを表す値が得られるステップと、
    前記4つの周波数領域チャネルの拡散解析を実行して、前記拡散推定が得られるステップと、
    前記アクティブインテンシティを表す値の到来方向解析を実行して、前記ソース方向が得られるステップと
    を有する、請求項1乃至5のうちいずれか一項に記載の方法。
  7. 前記少なくとも2次のエンハンスド・アンビソニックス信号を、より高次の又は異なったアンビソニックスフォーマットの更なるHOA入力信号とミキシングして、前記入力信号と前記更なるHOA入力信号との混合を含むHOA信号が得られるステップ
    を更に有する請求項1乃至6のうちいずれか一項に記載の方法。
  8. 前記エンハンスド・アンビソニックス信号は、3D実現のためのO=(Norder+1)2個の成分と、2D実現のためのO=(2Norder+1)個の成分とを有し、Norderは、前記高次アンビソニックス符号器の次数であり、
    前記エンハンスド・アンビソニックス信号は、Cn m:[A0 0,A1 -1,A1 0,A1 1,B2 -2,B2 -1,B2 0,B2 1,B2 2,…’]に従うCn m個の係数を有し、Ai jは、前記入力信号の係数であり、Bi jは、前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数である、
    請求項1乃至7のうちいずれか一項に記載の方法。
  9. 1次アンビソニックス信号であり、0次及び1次の係数を有する入力信号の指向性を高める装置であって、
    前記入力信号にフィルタをかけて、前記1次アンビソニックス信号の周波数領域表現である4つの周波数領域チャネルが得られ、該周波数領域チャネルのうちの1つの第1周波数領域チャネルが0次係数を表し、残り3つの周波数領域チャネルが1次係数を表す、分析フィルタバンクと、
    前記4つの周波数領域チャネルの音場解析を実行して、ソース方向及び拡散推定が得られる音場解析ユニットと、
    前記拡散推定が使用されて、0次係数を有する前記第1周波数領域チャネルにフィルタをかけ、ダイレクトサウンド成分が得られるフィルタと、
    前記ソース方向が使用されて、少なくとも2である所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化し、少なくとも0次、1次及び2次のアンビソニックス係数を含む、前記所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンドが得られる、高次アンビソニックス符号器と、
    前記所定の次数のアンビソニックスフォーマットにおける前記得られた符号化されたダイレクトサウンドから少なくとも2次のアンビソニックス係数を選択する選択器と、
    前記符号化されたダイレクトサウンドから選択された前記少なくとも2次のアンビソニックス係数に従う時間領域信号を前記1次アンビソニックス信号のアンビソニックス係数と結合して、少なくとも2次のエンハンスド・アンビソニックス信号の時間領域表現が得られる結合及び合成ユニットと
    を有する装置。
  10. 前記結合及び合成ユニットは、
    前記4つの周波数領域チャネルのアンビソニックス信号を、前記符号化されたダイレクトサウンドからの2次以上の前記選択されたアンビソニックス係数の中から選択された周波数係数と結合し、少なくとも2次のアンビソニックス信号の周波数領域表現である信号が得られる周波数領域結合器ユニットと、
    前記得られた信号にフィルタをかけて、少なくとも2次の係数を有するエンハンスド・アンビソニックス信号の時間領域表現が得られる合成フィルタバンクと
    を有する、請求項9に記載の装置。
  11. 前記結合及び合成ユニットは、
    前記符号化されたダイレクトサウンドからの2次以上の前記選択されたアンビソニックス係数にフィルタをかけて、2次以上の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現が得られる合成フィルタバンクと、
    前記入力信号を表すアンビソニックス係数を、2次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合し、前記入力信号と比較して指向性が高められた少なくとも2次のエンハンスド・アンビソニックス信号の時間領域表現が得られる時間領域結合器ユニットと
    を有する、請求項9に記載の装置。
  12. 前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化する前記高次アンビソニックス符号器は、Bフォーマットを使用する、
    請求項9乃至11のうちいずれか一項に記載の装置。
  13. 前記高次アンビソニックス符号器は、前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するときに、Bフォーマット以外のアンビソニックスフォーマットを使用し、当該装置は、
    前記Bフォーマット以外のアンビソニックスフォーマットに従って前記入力信号を再フォーマットし、前記入力信号の再フォーマットされたアンビソニックス係数が得られるHOAフォーマット適応ユニットを更に有し、
    前記時間領域結合器ユニットは、前記入力信号の前記再フォーマットされたアンビソニックス係数を、2次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合する、
    請求項11に記載の装置。
  14. 前記音場解析ユニットは、
    前記4つの周波数領域チャネルのアクティブインテンシティ解析を実行して、アクティブインテンシティを表す値が得られるアクティブインテンシティ解析ブロックと、
    前記4つの周波数領域チャネルの拡散解析を実行して、前記拡散推定が得られる拡散解析ブロックと、
    前記アクティブインテンシティを表す値の到来方向解析を実行して、前記ソース方向が得られる到来方向解析ブロックと
    を有する、請求項9乃至13のうちいずれか一項に記載の装置。
  15. 前記少なくとも2次のエンハンスド・アンビソニックス信号を、より高次の又は異なったアンビソニックスフォーマットの他のHOA入力信号とミキシングして、前記入力信号と前記他のHOA入力信号との混合を含むHOA信号が得られるミキサユニット
    を更に有する請求項9乃至14のうちいずれか一項に記載の装置。
JP2016503627A 2013-03-22 2014-03-17 1次アンビソニックス信号の指向性を高める方法及び装置 Active JP6342986B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13305352.0 2013-03-22
EP20130305352 EP2782094A1 (en) 2013-03-22 2013-03-22 Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
PCT/EP2014/055313 WO2014147029A1 (en) 2013-03-22 2014-03-17 Method and apparatus for enhancing directivity of a 1st order ambisonics signal

Publications (3)

Publication Number Publication Date
JP2016517033A JP2016517033A (ja) 2016-06-09
JP2016517033A5 JP2016517033A5 (ja) 2017-04-13
JP6342986B2 true JP6342986B2 (ja) 2018-06-13

Family

ID=48095764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016503627A Active JP6342986B2 (ja) 2013-03-22 2014-03-17 1次アンビソニックス信号の指向性を高める方法及び装置

Country Status (9)

Country Link
US (1) US9838822B2 (ja)
EP (2) EP2782094A1 (ja)
JP (1) JP6342986B2 (ja)
KR (1) KR102208258B1 (ja)
CN (1) CN105051813B (ja)
AU (1) AU2014234480B2 (ja)
BR (1) BR112015019526B1 (ja)
TW (1) TWI646847B (ja)
WO (1) WO2014147029A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US10134403B2 (en) * 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
GB2554446A (en) 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
CN106960672B (zh) * 2017-03-30 2020-08-21 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置
US10390166B2 (en) * 2017-05-31 2019-08-20 Qualcomm Incorporated System and method for mixing and adjusting multi-input ambisonics
US10015618B1 (en) * 2017-08-01 2018-07-03 Google Llc Incoherent idempotent ambisonics rendering
EP3740950B8 (en) 2018-01-18 2022-05-18 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
CN108845292B (zh) * 2018-06-15 2020-11-27 北京时代拓灵科技有限公司 一种声源定位的方法及装置
CN110719564B (zh) * 2018-07-13 2021-06-08 海信视像科技股份有限公司 音效处理方法和装置
WO2020039734A1 (ja) * 2018-08-21 2020-02-27 ソニー株式会社 オーディオ再生装置、オーディオ再生方法及びオーディオ再生プログラム
KR102599744B1 (ko) 2018-12-07 2023-11-08 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램
CN113673317B (zh) * 2021-07-12 2023-04-07 电子科技大学 基于原子范数最小化可降维的二维离格doa估计方法
JP2024026010A (ja) * 2022-08-15 2024-02-28 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム
US20240098439A1 (en) * 2022-09-15 2024-03-21 Sony Interactive Entertainment Inc. Multi-order optimized ambisonics encoding
JP2024048967A (ja) * 2022-09-28 2024-04-09 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム
WO2024175587A1 (en) * 2023-02-23 2024-08-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal representation decoding unit and audio signal representation encoding unit

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1512514A (en) 1974-07-12 1978-06-01 Nat Res Dev Microphone assemblies
GB9204485D0 (en) 1992-03-02 1992-04-15 Trifield Productions Ltd Surround sound apparatus
US6356639B1 (en) * 1997-04-11 2002-03-12 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
AUPP272598A0 (en) * 1998-03-31 1998-04-23 Lake Dsp Pty Limited Wavelet conversion of 3-d audio signals
AUPR647501A0 (en) * 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
CA2354858A1 (en) 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
FR2844894B1 (fr) 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
WO2008039339A2 (en) * 2006-09-25 2008-04-03 Dolby Laboratories Licensing Corporation Improved spatial resolution of the sound field for multi-channel audio playback systems by deriving signals with high order angular terms
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
ES2690164T3 (es) 2009-06-25 2018-11-19 Dts Licensing Limited Dispositivo y método para convertir una señal de audio espacial
WO2011041834A1 (en) * 2009-10-07 2011-04-14 The University Of Sydney Reconstruction of a recorded sound field
US9313598B2 (en) * 2010-03-02 2016-04-12 Nokia Technologies Oy Method and apparatus for stereo to five channel upmix
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
CN101977349A (zh) 2010-09-29 2011-02-16 华南理工大学 Ambisonic声重发系统解码的优化改进方法
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US9131298B2 (en) * 2012-11-28 2015-09-08 Qualcomm Incorporated Constrained dynamic amplitude panning in collaborative sound systems

Also Published As

Publication number Publication date
WO2014147029A1 (en) 2014-09-25
EP2976769A1 (en) 2016-01-27
TWI646847B (zh) 2019-01-01
EP2782094A1 (en) 2014-09-24
BR112015019526A8 (pt) 2017-12-05
JP2016517033A (ja) 2016-06-09
US20160057556A1 (en) 2016-02-25
AU2014234480B2 (en) 2019-11-21
US9838822B2 (en) 2017-12-05
AU2014234480A1 (en) 2015-08-13
BR112015019526A2 (pt) 2017-07-18
EP2976769B1 (en) 2017-02-22
KR20150134336A (ko) 2015-12-01
BR112015019526B1 (pt) 2021-12-07
TW201442522A (zh) 2014-11-01
CN105051813B (zh) 2019-03-22
KR102208258B1 (ko) 2021-01-27
CN105051813A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
JP6342986B2 (ja) 1次アンビソニックス信号の指向性を高める方法及び装置
US20200335115A1 (en) Audio encoding and decoding
JP7564295B2 (ja) DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム
US10332532B2 (en) Encoding/decoding apparatus for processing channel signal and method therefor
US8175280B2 (en) Generation of spatial downmixes from parametric representations of multi channel signals
JP7559106B2 (ja) オーディオ・デコーダおよびデコード方法
RU2376654C2 (ru) Параметрическое совместное кодирование аудиоисточников
EP2154677B1 (en) An apparatus for determining a converted spatial audio signal
JP2024138553A (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
CA2673624A1 (en) Apparatus and method for multi-channel parameter transformation
TW200837718A (en) Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program
US20240119949A1 (en) Encoding/decoding apparatus for processing channel signal and method therefor
AU2018201133B2 (en) Method and device for decoding an audio soundfield representation for audio playback
JP2020110007A (ja) パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20160826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170310

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180517

R150 Certificate of patent or registration of utility model

Ref document number: 6342986

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250