JP6674021B2 - 音場記述を生成する装置、方法、及びコンピュータプログラム - Google Patents
音場記述を生成する装置、方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP6674021B2 JP6674021B2 JP2018523004A JP2018523004A JP6674021B2 JP 6674021 B2 JP6674021 B2 JP 6674021B2 JP 2018523004 A JP2018523004 A JP 2018523004A JP 2018523004 A JP2018523004 A JP 2018523004A JP 6674021 B2 JP6674021 B2 JP 6674021B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- time
- frequency
- sound field
- diffuse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 66
- 238000004590 computer program Methods 0.000 title claims description 13
- 230000006870 function Effects 0.000 claims description 178
- 230000004044 response Effects 0.000 claims description 68
- 238000011156 evaluation Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 12
- 230000007480 spreading Effects 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 description 31
- 238000012545 processing Methods 0.000 description 22
- 230000003595 spectral effect Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 11
- 238000009499 grossing Methods 0.000 description 11
- 238000013459 approach Methods 0.000 description 10
- 238000010606 normalization Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005316 response function Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 241000712899 Lymphocytic choriomeningitis mammarenavirus Species 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 206010011906 Death Diseases 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001093 holography Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Description
記録された信号は、標準的なステレオ・ラウドスピーカー・セットアップから再生されて、ステレオサウンド・イメージを得ることができる。
例えば、5.1ラウドスピーカー・セットアップを用いたサラウンド音響再生には、同様の録音技術、例えばラウドスピーカーの位置に向けた5つのカーディオイドマイクロフォン[ArrayDesign](非特許文献3)を用いることができる。
最近では、7.1+4ラウドスピーカー・セットアップなどの3D音響再生システムが登場し、4つの高所スピーカーを用いて高度な音を再生している。
このようなラウドスピーカー・セットアップ用の信号は、例えば非常に特定の、間隔をあけて配置された3Dマイクロフォン・セットアップ[MicSetup3D](非特許文献13)で記録することができる。これらすべての録音技術は、特定のラウドスピーカー・セットアップ用に設計されているため、例えば記録された音を異なるラウドスピーカー構成で再生すべき時など、実用適用性が限られているという点において共通である。
このような中間フォーマットは実用面において確立されており、(高次)アンビソニックス[Ambisonics](非特許文献1)に代表される。アンビソニックス信号からは、ヘッドフォン再生用のバイノーラル信号を含む、各所望のラウドスピーカー・セットアップの信号を生成することができる。これには、標準的なアンビソニックスレンダラー[Ambisonics](非特許文献1)、指向性オーディオ符号化(DirAC)[DirAC](非特許文献6)、HARPEX[HARPEX](非特許文献11)など、アンビソニックス信号に適用される特定のレンダラーが必要である。
したがって、空間基底関数係数(すなわち、アンビソニックスコンポーネント)は、録音場所での音場のコンパクトな記述を表す。空間基底関数には、例えば、球面調和関数(SHs)[FourierAcoust](非特許文献10)や円筒調和関数(CHs)[FourierAcoust](非特許文献10)など異なるタイプのものがある。CHsは、(例えば2D音再生のために)2D空間の音場を記述する時に用いることができ、SHsは、(例えば2Dおよび3D音再生のために)2Dおよび3D空間の音場を記述するのに用いることができる。
ただし、次数lは「レベル」と称されることもあり、モードmは「度」と称されることもある。
図1aから分かるように、ゼロ次(第ゼロのレベル)l=0の球面調和関数は、記録場所での全指向音圧を表し、1次(第1のレベル)l=1の球面調和関数は、デカルト座標系の3次元に沿った双極子コンポーネントを表している。
これは、ある特定の次数(レベル)の空間基底関数は、次数lのマイクロフォンの指向性を記述することを意味する。
言い換えると、空間基底関数の係数は、次数(レベル)lおよびモードmのマイクロフォンの信号に対応する。ただし、異なる次数およびモードの空間基底関数は互いに直交する。これは、例えば純粋な拡散音場において、全ての空間基底関数の係数が互いに無相関であることを意味する。
例えば、SHsを空間基底関数として用いて音場をレベルl=1まで記述した場合、アンビソニックス信号は、4つのアンビソニックスコンポーネントを備えることになる(なぜなら次数l=0に対する1モード+次数l=1に対する3モードがあるため)。
以下では、最高次l=1のアンビソニックス信号を1次アンビソニックス(FOA)と呼び、最高次l>1のアンビソニックス信号を高次アンビソニックス(HOA)と呼ぶ。音場を記述するために高次のlを用いた場合、空間分解能が高くなる、すなわち音場を高精度で記述または再生成することができる。
したがって、ごくわずかの次数のみでも音場を記述することはできるが精度が低くなり(ただしデータ量は少ない)、より高い次数を用いれば精度を高く(データ量を多く)することができる。
この手法では、例えば円上または球の表面上など、極めて特殊な位置で音圧を測定することが要求される。
その後、空間基底関数係数は、例えば[FourierAcoust, p. 218](非特許文献10)に述べられているように、測定した音圧を積分することによって演算することができる。
この直接的な手法では、特定のマイクロフォン・セットアップ、例えば全指向性マイクロフォンの円配列または球面配列が必要となる。商用のマイクロフォン・セットアップの2つの典型的な例は、SoundField ST350マイクロフォンと、EigenMike(登録商標)[EigenMike](非特許文献7)である。
残念ながら、特定のマイクロフォン配置が必要であるために、例えばマイクロフォンを小型の装置に組み込む必要がある時、あるいはマイクロフォン配列をビデオカメラと組み合わせる必要がある場合に、実用適用性がかなり限定されてしまう。
さらに、この直接的な手法で高次の空間係数を決定するには、ノイズに対する十分なロバスト性を確保するために比較的多数のマイクロフォンが必要となる。従って、アンビソニックス信号を得る直接的な方法は、非常に費用がかかることが多い。
さらに、音場コンポーネント計算器は、複数の時間−周波数タイルの各時間−周波数タイルに対して、1つ以上の音方向を用いて評価された1つ以上の空間基底関数に対応する1つ以上の音場コンポーネントを、対応する時間−周波数タイルに対する、複数のマイクロフォン信号のうち1つ以上のマイクロフォン信号から導出された参照信号を用いて計算する。
これらの時間−周波数タイルは、一方では複数のマイクロフォン信号を参照し、他方では音方向を判定するために用いられる。よって、音方向判定は、時間−周波数表現の時間−周波数タイルを用いてスペクトル領域内で行われる。そして、以降の処理の大部分は、同じ時間−周波数表現内で行われることが好ましい。
この目的のために、空間基底関数の評価は、各時間−周波数タイルに対して判定された1つ以上の音方向を用いて実行される。空間基底関数は、音方向に依存するが、周波数には影響されない。よって、周波数領域信号、すなわち時間−周波数タイルの信号による空間基底関数の評価が適用される。同じ時間−周波数表現内では、1つ以上の音方向を用いて評価された1つ以上の空間基底関数に対応する1つ以上の音場コンポーネントは、やはり同じ時間−周波数表現内に存在する参照信号とともに計算される。
実施によっては、上記1つ以上の音場コンポーネントは、時間−周波数タイルを用いて時間−周波数表現内で判定された直接音場コンポーネントであってもよいし、典型的には直接音場コンポーネントに加えて判定される拡散音場コンポーネントであってもよい。そして、直接部分と拡散部分を有する最終的な音場コンポーネントは、直接音場コンポーネントと拡散音場コンポーネントを結合することによって得ることができ、この結合は、実際の実施に応じて時間領域または周波数領域のいずれかで行うことができる。
高度な参照信号判定では、マイクロフォン信号が導出されたマイクロフォンのうち、音方向の最も近くに位置するマイクロフォンからの特定のマイクロフォン信号を、上記複数のマイクロフォン信号から選択する。さらなる代替案では、多チャンネルフィルタを2つ以上のマイクロフォン信号に適用して、これらのマイクロフォン信号を一緒にフィルタリングすることによって、時間ブロックのすべての周波数タイルに対して共通の参照信号が得られる。
あるいは、時間ブロック内の異なる周波数タイルに対して異なる参照信号を導出してもよい。異なる時間ブロックに対するものではあるが、これら異なる時間ブロック内の同じ周波数に対する異なる参照信号も、もちろん生成することができる。
従って、実施によっては、ある時間−周波数タイルに対する参照信号を、複数のマイクロフォン信号から自由に選択または導出することができる。
従って、直接音コンポーネントは、所定の到来方向により、所定の空間基底関数の評価を用いて計算され、拡散音コンポーネントは当然、所定の到来方向を用いて計算されるのではなく、拡散参照信号を用い、かつ、この拡散参照信号と、ある次数またはレベルまたはモードの空間基底関数の平均応答を、所定の関数によって結合することによって計算される。
この関数による結合は、例えば、直接音コンポーネントの計算でも実行できるように乗算であってもいいし、例えば対数領域での計算が行われる際には、この結合は、加重乗算または加算または減算であってもよい。
乗算または加算/減算とは異なる他の結合は、さらなる非線形または線形関数を用いて実行することができるが、非線形関数が好ましい。ある直接音場コンポーネントと拡散音場コンポーネントを生成した後、直接音場コンポーネントと拡散音場コンポーネントを各時間−周波数タイルごとにスペクトル領域内で結合することによって、結合を実行することができる。
あるいは、ある次数の拡散音場コンポーネントと直接音場コンポーネントを、周波数領域から時間領域に変換することができ、その後、ある次数の直接時間領域コンポーネントと拡散時間領域コンポーネントの時間領域組み合わせも行うことができる。
従って、本手法は、比較的安価で実用的である。提案される実施の形態では、アンビソニックスコンポーネントは、上述した最先端の手法に関して特定の面に沿った音圧情報から直接算出するのではなく、パラメトリック手法に基づいて合成される。
このために、例えばDirAC[DirAC](非特許文献6)で用いたのと同様の、やや単純な音場モデルが想定される。さらに詳細には、録音場所の音場は、特定の音方向から到来する1つまたは数個の直接音に加えて、全ての方向から到来する拡散音からなると想定される。
このモデルに基づき、さらに直接音の音方向など音場に関するパラメトリック情報を用いることにより、アンビソニックスコンポーネントまたは任意の他の音場コンポーネントを、音圧をごく数回測定したものから合成することができる。本手法については、以下の項で詳細に説明する。
図1eおよび1fを参照して述べるように、4つの空間基底関数など、2つあるいはさらに多くの異なる空間基底関数を用いるのが好ましい。よって、ブロック103の出力133では、時間−スペクトル表現の異なる時間−周波数タイルに対する異なる次数およびモードの評価空間基底関数が得られ、音場コンポーネント計算器201に入力される。
音場コンポーネント計算器201は、参照信号計算器(図1cには図示せず)によって生成される参照信号134もさらに用いる。参照信号134は、複数のマイクロフォン信号のうち1つ以上のマイクロフォン信号から導出され、同じ時間/周波数表現内の音場コンポーネント計算器によって用いられる。
よって、例として、図1eの上部に示すように、時間−周波数タイル(10,1)は音方向n(10,1)を有し、時間−周波数タイル(5,2)は音方向n(5,2)を有する。三次元の場合、音方向はx、y、z成分を有する三次元ベクトルである。もちろん、2つの角度と1つの動径に依る球面座標などの他の座標系を用いてもよい。あるいは、角度を例えば方位角および仰角とすることができる。この場合、動径は必要ない。同様に、デカルト座標などの二次元の場合には、音方向の成分が2つ、すなわちx方向とy方向があり、あるいは動径と角度または方位角および仰角を有する円座標を用いても良い。
図2aは、ブロック(10)によって得られる、多数の(2つ以上の)マイクロフォンの信号から所望の次数(レベル)およびモードのアンビソニックスコンポーネントを合成することができる本新規な手法を示している。関連する最先端の手法とは異なり、マイクロフォン・セットアップには何ら制約がない。これは、多数のマイクロフォンを例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置してもよいことを意味する。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
DOAの代わりに、DOAの逆方向である音の伝搬方向、あるいは音方向を記述する他の手段を考えてもよい。1つまたは多数の音方向またはDOAはブロック(102A)において、例えば、ほとんどどのマイクロフォン・セットアップに対しても利用可能な最先端の狭帯域DOA推定器を用いて推定される。DOA推定器の適切な例が実施の形態1に挙げられている。
ブロック(102A)で算出される音方向またはDOAの数(1つ以上)は、例えば、許容される計算複雑性に依存するとともに、用いられるDOA推定器の性能またはマイクロフォン形状に依存する。音方向は、例えば二次元空間(例えば方位角の形式で表される)において、または三次元空間(例えば、方位角と仰角の形式で表される)において推定することができる。
以下では、大半の記述は、より一般的な三次元の場合に基づくが、全ての処理工程を二次元の場合にも適用するのは容易である。多くの場合、ユーザは、いくつの音方向またはDOA(例えば、1つ、2つ、または3つ)を推定するかを時間−周波数タイルごとに指定する。あるいは、最先端の手法、例えば[SourceNum](非特許文献20)に説明されている手法を用いて、顕著な音の数を推定してもよい。
先の項で説明したように、空間基底関数は、例えば球面調和関数(例えば、処理が三次元空間で実行される場合)または円調和関数(例えば、処理が二次元空間で実行される場合)を表現することができる。空間基底関数の応答は、第1の実施の形態でより詳細に説明するように、対応する推定音方向において評価された空間基底関数である。
このようなアンビソニックスコンポーネントは、推定された音方向から到来する指向性音に対するアンビソニックスコンポーネントを合成する。この時間−周波数タイルに対してブロック(103A)で算出された空間基底関数の1つ以上の応答、および所定の時間−周波数タイルに対する1つ以上のマイクロフォン信号も、ブロック(201A)に更に入力される。
ブロック(201A)では、推定された各音方向および対応する空間基底関数の応答に対して、所望の次数(レベル)およびモードの1つのアンビソニックスコンポーネントが算出される。ブロック(201A)の処理工程については、以下の実施の形態でさらに説明する。
ブロック(301)には、1つ以上のマイクロフォン信号に加え、ブロック(102A)で推定された1つ以上の音方向が入力される。ブロック(301)の処理工程については、後の実施の形態でさらに説明する。
こうすることで、非相関化された異なる次数(レベル)およびモードの拡散音アンビソニックスコンポーネントが、相互に無相関になる。これにより予期された物理的挙動が起こる、すなわち異なる次数(レベル)およびモードのアンビソニックスコンポーネントが、例えば[SpCoherence](非特許文献21)で説明されるように、拡散音または周囲音に対して相互に無相関になる。
後の実施の形態で説明するように、結合は、例えば(加重)和として実現することができる。ブロック(401)の出力は、所定の時間−周波数タイルに対する所望の次数(レベル)およびモードの最終的な合成アンビソニックスコンポーネントである。
当然、ある時間−周波数タイルに対して所望の次数(レベル)およびモードの単一の(直接音)アンビソニックスコンポーネントのみがブロック(201A)で算出される(また、拡散音アンビソニックスコンポーネントがない)場合、結合器(401)は必要ない。
ただし、逆時間−周波数変換は全ての適用において必要というわけではなく、したがって本発明の一部ではない。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対してアンビソニックスコンポーネントを算出することになるであろう。
これは、逆時間−周波数変換が通常、線形変換であるため可能である。結合器(401)の前に逆時間−周波数変換を適用することによって、例えば、時間領域(図2aのように時間―周波数領域ではなく)において非相関化を実行することができる。これによって、本発明を実施する際、ある適用では実用的な利点が得られる。
しかし、両方または一方のブロックのみを周波数領域で適用してもよい。
さらに、実施によっては、拡散コンポーネント計算器は拡散音情報を非相関化する非相関器107をさらに備え、非相関器は、相関が拡散音コンポーネントの時間−周波数タイル表現で行われるように、周波数領域内に実装することができる。あるいは、非相関器は、図2bに図示するように時間領域内で動作するように構成されて、ある次数のある拡散音コンポーネントの時間表現の時間領域内で非相関化が行われる。
更なる実施の形態は、1つ以上の音場コンポーネント、または1つ以上の音場コンポーネント、すなわち直接音場コンポーネントと拡散音コンポーネントの組み合わせを、音場コンポーネントの時間領域表現に変換する図2aまたは図2bのブロック20などの周波数−時間変換器を備える。
さらに、周波数−時間変換器20は、拡散音(場)コンポーネントを処理して複数の時間領域拡散(音場)コンポーネントを得るように構成され、結合器は、例えば図2bに示すように時間領域において時間領域(直接)音場コンポーネントと時間領域拡散(音場コンポーネント)の結合を実行するように構成されている。
あるいは、結合器401は、ある時間−周波数タイルの1つ以上の(直接)音場コンポーネントと、対応する時間−周波数タイルの拡散音(場)コンポーネントを周波数領域内で結合するように構成されており、周波数−時間変換器20は、例えば図2aに示すように、結合器401の結果を処理して時間領域の音場コンポーネント、すなわち時間領域の音場コンポーネントの表現を得るように構成される。
実施の形態8では、時間−周波数タイルあたり1より多い音方向を考えた例について説明している。この実施の形態の概念は、全ての他の実施の形態に容易に適用できる。
図3aは、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の実施の形態を示す。
(102B)における音方向推定には、最先端の狭帯域到来方向(DOA)推定器を用いることができ、これは文献において異なるマイクロフォン配列形状に利用可能である。例えば、任意のマイクロフォン・セットアップに適用可能なMUSICアルゴリズム[MUSIC](非特許文献14)を用いることができる。
全指向性マイクロフォンの均等直線配列、等距離格子点を備えた不均等直線配列、あるいは円配列の場合、MUSICよりも計算上効率の良いRoot MUSICアルゴリズム[RootMUSIC1, RootMUSIC2, RootMUSIC3](非特許文献16〜18)を適用することができる。回転不変サブアレイ構造を備えた直線配列または平面配列に適用できる他の公知の狭帯域DOA推定器としてはESPRIT[ESPRIT](非特許文献9)がある。
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは例えば以下のような関係にある。
(数1)
次数(レベル)lおよびモードmの空間基底関数の応答は、
で表され、以下のように計算される。
(数3)
は次数(レベル)lおよびモードmの空間基底関数であり、ベクトル
または方位角φ(k,n)および/または仰角θ(k,n)によって示される方向に依存する。
従って、応答
は、ベクトル
あるいは方位角φ(k,n)および/または仰角θ(k,n)によって示される方向から到来する音の空間基底関数
の応答を表す。
例えば、空間基底関数としてN3D正規化による実数値の球面調和関数を考えた場合、
は、[SphHarm, Ambix, FourierAcoust](非特許文献22,2,10)として算出することができる。
(数4)
ここで、
(数5)
は、N3D正規化定数であり、
は、仰角によって決まる、次数(レベル)lおよびモードmの関連するルジャンドル多項式であり、例えば[FourierAcoust](非特許文献10)に定義されている。
ただし、所望の次数(レベル)lおよびモードmの空間基底関数
の応答は、各方位角および/または仰角ごとに予め算出してルックアップ・テーブルに保存した後、推定された音方向に応じて選択してもよい。
が乗算115などして結合される、すなわち、
(数7)
であり、これにより、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの所望のアンビソニックスコンポーネント
が得られる。
得られたアンビソニックスコンポーネント
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生適用のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになる。
図3bは、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態1と類似しているが、複数のマイクロフォンの信号から参照マイクロフォン信号を判定するブロック(104)をさらに備えている。
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
は実施の形態1で説明したように判定することができる。
異なる時間−周波数タイルに対して、異なる参照信号を判定してもよい。音方向情報に基づいて多数のマイクロフォン信号P1...M(k,n)から参照マイクロフォン信号Pref(k,n)を判定するという異なる可能性がある。
例えば、多数のマイクロフォンから、推定した音方向に最も近いマイクロフォンを時間および周波数ごとに選択することができる。この手法が、図1bに視覚的に示されている。
例えば、マイクロフォン位置が位置ベクトル
によって与えられると仮定した場合、最も近いマイクロフォンのインデックスi(k,n)は、以下の問題を解くことによって得られる。
(数8)
その結果、検討中の時間および周波数に対する参照マイクロフォン信号は、以下によって与えられる。
(数9)
が
に最も近いので、時間−周波数タイル(k,n)の参照マイクロフォンはマイクロフォンNo.3、すなわちi(k,n)=3である。参照マイクロフォン信号Pref(k,n)を判定する別の手法は、多チャンネルフィルタをマイクロフォン信号に適用する、すなわち、
(数10)
である。ここで
は、推定された音方向に応じた多チャンネルフィルタで、ベクトル
は、多数のマイクロフォン信号を含む。
文献には、Pref(k,n)を算出するのに用いることができる、多くの異なる最適な多チャンネルフィルタ
があり、例えば、[OptArrayPr](非特許文献15)で導出されるdelay&sumフィルタやLCMVフィルタがある。多チャンネルフィルタを用いることには[OptArrayPr](非特許文献15)で説明されるような異なる利点と欠点があるが、例えば、マイクロフォンの自生雑音を減少させることができる。
が、時間および周波数ごとに結合されて(乗算115されて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの所望のアンビソニックスコンポーネント
が得られる。得られたアンビソニックスコンポーネント
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
図4は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態1と類似しているが、直接音信号と拡散音信号のアンビソニックスコンポーネントを算出する。
時間−周波数変換(101)の出力は時間−周波数領域のマイクロフォン信号であり、P1...M(k,n)で表される。以下の処理は、各時間−周波数タイル(k,n)に対して別々に実行される。
対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102B)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。
音方向は、例えば、単位ノルムベクトル
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
空間基底関数の応答は、
で表される。
例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
は実施の形態1で説明したように判定することができる。
で示され、全ての可能な方向から到来する音(拡散音や周囲音など)に対する空間基底関数の応答を記述している。平均応答
を定義する一つの例は、全ての可能な角度φおよび/またはθに対して空間基底関数
の二乗振幅の積分を考えることである。例えば、球上の全ての角度に対して積分した場合、
(数11)
が得られる。
の定義は、以下のように解釈することができる。実施の形態1で説明したように、空間基底関数
は、次数lのマイクロフォンの指向性と解釈することができる。
次数が高くなると、このようなマイクロフォンはますます指向性が高くなり、従って、全指向性マイクロフォン(次数l=0のマイクロフォン)と比較して実際の音場で得られる拡散音エネルギーまたは周囲音エネルギーが少なくなる。
上記において定められた
の定義によれば、平均応答
によって実数値係数が得られ、これは全指向性マイクロフォンに比べて、次数lのマイクロフォンの信号においてどのくらい拡散音エネルギーまたは周囲音エネルギーが減衰されるかを表している。
明らかに、球の方向に対して空間基底関数
の二乗振幅を積分することに加え、例えば、円の方向に対して
の二乗振幅を積分する、所望の方向(φ,θ)の任意の組に対して
の二乗振幅を積分する、所望の方向(φ,θ)の任意の組に対して
の二乗振幅を平均する、二乗振幅の代わりに
の振幅を積分または平均する、所望の方向(φ,θ)の任意の組に対して
の加重和を取る、または拡散音または周囲音に対して次数lの上述した仮想マイクロフォンの所望の感度に対応する
の任意の所望の実数値を特定するなど、平均応答
を定義する異なる代替案がある。
ブロック(105)では、直接音信号Pdir(k,n)は、例えば、単一チャンネルフィルタWdir(k,n)を参照マイクロフォン信号に適用することによって計算することができる、すなわち、
(数12)
Pdir(k,n)=Wdir(k,n)Pref(k,n)
である。
(数13)
ここで、SDR(k,n)は時間インスタンスnおよび周波数インデックスkにおける信号対拡散比(SDR)であり、[VirtualMic](非特許文献23)で説明されるように直接音と拡散音の出力比を表す。
SDRは、多数のマイクロフォン信号P1...M(k,n)のうち任意の2つのマイクロフォンを用いて、文献において利用可能な最先端のSDR推定器、例えば2つの任意のマイクロフォン信号間の空間コヒーレンスに基づいた、[SDRestim](非特許文献19)に提案される推定器で推定することができる。
ブロック(105)において、拡散音信号Pdiff(k,n)は、例えば単一チャネルフィルタWdiff(k,n)を参照マイクロフォン信号に適用することによって計算することができる、すなわち、
(数14)
である。
(数15)
ここで、SDR(k,n)は先に述べたように推定できるSDRである。
が時間および周波数ごとに結合される(乗算115aされる)、すなわち、
(数16)
これにより、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント
が得られる。さらに、ブロック(105)で判定した拡散音信号Pdiff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答
が時間および周波数ごとに結合される(乗算115bされる)、すなわち、
(数17)
であり、これにより、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント
が得られる。
と拡散音アンビソニックスコンポーネント
を、例えば加算演算(109)によって結合して、時間−周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント
を得る、すなわち、
(数18)
である。
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
を算出する前、すなわち演算(109)の前に実行してもよいことを強調することは重要である。
これは、まず
と
を元の時間領域に変換しなおした後、両方のコンポーネントを演算(109)によって合計して最終的なアンビソニックスコンポーネント
を得ても良いことを意味する。これは、逆フィルターバンクまたは逆STFTが一般に線形演算であるため可能である。
と拡散音アンビソニックスコンポーネント
が異なるモード(次数)lに対して算出されるように構成できることに留意すべきである。
例えば、
は次数l=4まで算出することができ、一方、
は次数l=1までのみ算出してもよい(この場合、
は、l=1より大きい次数に対してはゼロになる)。
これによって、実施の形態4で説明するような一定の利点が得られる。例えば特定の次数(レベル)lまたはモードmに対して
ではなく
のみを計算することが望ましい場合、例えばブロック(105)を、拡散音信号Pdiff(k,n)がゼロに等しくなるように構成することができる。これは、例えば、先の式におけるフィルタWdiff(k,n)をゼロに、フィルタWdir(k,n)を1に設定することによって実現できる。あるいは、手作業で先の式におけるSDRを非常に高い値に設定することも可能であろう。
図5は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。
この実施の形態は、実施の形態3と類似しているが、拡散アンビソニックスコンポーネントに対する非相関器をさらに備えている。
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
空間基底関数の応答は、
と表される。
例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
は実施の形態1で説明したように判定することができる。
で示され、全ての可能な方向から到来する音(拡散音または周囲音など)に対する空間基底関数の応答を表している。平均応答
は、実施の形態3で説明したように得られる。
Pdir(k,n)とPdiff(k,n)の算出については、実施の形態3に説明した通りである。
が時間および周波数ごとに結合されて(乗算115aされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント
が得られる。さらに、ブロック(105)で判定した拡散音信号Pdiff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答
が時間および周波数ごとに結合されて(乗算115bされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント
が得られる。
は、非相関器を用いてブロック(107)で非相関化され、
で表される非相関拡散音アンビソニックスコンポーネントが得られる。非相関化には、最先端の非相関化技術を用いることができる。異なるレベルおよびモードの非相関拡散音アンビソニックスコンポーネント
が互いに無相関になるよう、異なる次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント
には、通常、異なる非相関器または非相関器の実現例が適用される。こうする際、拡散音アンビソニックスコンポーネント
は期待された物理的挙動を有する、すなわち異なる次数およびモードのアンビソニックスコンポーネントは、音場が周囲のものまたは拡散している場合に相互に無相関になる[SpCoherence](非特許文献21)。ただし、拡散音アンビソニックスコンポーネント
は、非相関器(107)を適用する前に、例えば逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおしてもよいことに留意すべきである。
と非相関拡散音アンビソニックスコンポーネント
を、例えば加算(109)によって結合して、時間−周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント
を得る、すなわち、
(数19)
である。
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
を算出する前、すなわち、演算(109)の前に実行してもよいことを強調することは重要である。
これは、まず
と
を元の時間領域に変換しなおした後、両方のコンポーネントを演算(109)によって合計して最終的なアンビソニックスコンポーネント
を得ても良いことを意味する。これは、逆フィルターバンクまたは逆STFTが一般に線形演算であるため可能である。
同様に、非相関器(107)は、拡散音アンビソニックスコンポーネント
を元の時間領域に変換しなおした後に
に対して適用してもよい。非相関器の中には時間領域信号で動作するものがあるので、実用においてこれが有益かもしれない。
と拡散音アンビソニックスコンポーネント
が異なるモード(次数)lに対して算出されるように構成できる。
例えば、
は、次数l=4まで算出することができ、一方、
は次数l=1までのみ算出してもよい。これによって、計算複雑性が低くなる。
図6は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態4と類似しているが、直接音信号と拡散音信号が、複数のマイクロフォン信号から、到来方向情報を活用することによって判定される。
時間−周波数変換(101)の出力は時間−周波数領域のマイクロフォン信号であり、P1...M(k,n)で表される。以下の処理は、各時間−周波数タイル(k,n)に対して別々に実行される。
音方向推定器(102B)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
空間基底関数の応答は、
と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
は実施の形態1で説明したように判定することができる。
で示され、全ての可能な方向から到来する音(拡散音または周囲音など)に対する空間基底関数の応答を表している。平均応答
は、実施の形態3で説明したように得られる。
このために、ブロック(110)は通常、ブロック(102)で判定した音方向情報を用いる。以下では、どのようにPdir(k,n)およびPdiff(k,n)を判定するかを述べた、ブロック(110)の異なる例について説明する。
参照マイクロフォン信号Pref(k,n)は、検討中の時間および周波数に対する推定音方向に最も近いマイクロフォン信号を選択することによって判定してもよい。
この参照マイクロフォン信号Pref(k,n)を判定するための選択処理については、実施の形態2で説明した。Pref(k,n)を判定した後、例えば、単一チャネルフィルタWdir(k,n)とWdiff(k,n)をそれぞれ参照マイクロフォン信号Pref(k,n)に適用することによって、直接音信号Pdir(k,n)と拡散音信号Pdiff(k,n)を計算することができる。この手法および対応する単一チャネルフィルタの算出については、実施の形態3で説明した。
しかし、拡散信号を判定するためには、第2の参照信号
を選択し、単一チャネルフィルタ
を第2の参照信号
に適用する、すなわち
(数20)
である。
第2の参照信号
は、利用可能なマイクロフォン信号P1...M(k,n)の1つに対応する。
しかし、異なる次数lおよびモードmに対しては、異なるマイクロフォン信号を第2の参照信号として用いても良い。例えば、レベルl=1、モードm=−1に対しては、第1のマイクロフォン信号を第2の参照信号として用いてもよい、すなわち、
である。レベルl=1、モードm=0に対しては、第2のマイクロフォン信号を用いることができる、すなわち、
である。
レベルl=1、モードm=1に対しては、第3のマイクロフォン信号を用いることができる、すなわち、
である。利用可能なマイクロフォン信号P1...M(k,n)は、例えば、異なる次数およびモードに対する第2の参照信号
にランダムに割り当てることができる。拡散または周囲録音状況に対しては、全てのマイクロフォン信号が通常同様の音響出力を備えるので、これは実用において合理的な手法である。
異なる次数およびモードに対して異なる第2の参照マイクロフォン信号を選択することには、得られる拡散音信号が異なる次数およびモードに対してしばしば(少なくとも部分的に)相互に無相関になるという利点がある。
(数21)
であり、ここで、多チャンネルフィルタ
は推定された音方向に依存し、ベクトル
は多数のマイクロフォン信号を含む。
文献には、音方向情報からPdir(k,n)を算出するために用いることができる、多くの異なる最適な多チャンネルフィルタ
、例えば、[InformedSF](非特許文献12)で導出されたフィルタなどがある。
同様に、拡散音信号Pdiff(k,n)は、多数のマイクロフォン信号P1...M(k,n)に
で示す多チャンネルフィルタを適用することによって判定される、すなわち、
(数22)
であり、ここで、多チャンネルフィルタ
は推定された音方向に依存する。
文献には、Pdiff(k,n)を算出するために用いることができる、多くの異なる最適な多チャンネルフィルタ
、例えば[DiffuseBF](非特許文献5)で導出されたフィルタなどがある。
と
をマイクロフォン信号
に適用することによってそれぞれ判定する。
しかし、異なる次数lおよびモードmに対して得られた拡散音信号Pdiff(k,n)が相互に無相関となるよう、異なる次数lおよびモードmに対して異なるフィルタ
を用いる。出力信号の相関を最小にする、これらの異なるフィルタ
は、例えば[CovRender](非特許文献4)で説明するように算出することができる。
が時間および周波数ごとに結合されて(乗算115aされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント
が得られる。
さらに、ブロック(105)で判定した拡散音信号Pdiff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答
が時間および周波数ごとに結合されて(乗算115bされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント
が得られる。
と拡散音アンビソニックスコンポーネント
は、例えば加算演算(109)によって結合されて、時間−周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント
が得られる。得られたアンビソニックスコンポーネント
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。実施の形態3で説明したように、時間領域への再変換は、
を算出する前、すなわち演算(109)の前に実行してもよい。
と拡散音アンビソニックスコンポーネント
が異なるモード(次数)lに対して算出されるように構成できることに留意すべきである。
例えば、
は、次数l=4まで算出することができ、一方、
は次数l=1までのみ算出してもよい(この場合、
はl=1より大きい次数に対してはゼロになる)。例えば特定の次数(レベル)lまたはモードmに対して
ではなく
のみを計算することが望ましい場合、例えばブロック(110)を、拡散音信号Pdiff(k,n)がゼロに等しくなるように構成することができる。
これは、例えば、先の式におけるフィルタWdiff(k,n)をゼロに、フィルタWdir(k,n)を1に設定することによって実現できる。同様に、フィルタ
をゼロに設定することもできよう。
図7は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態5と類似しているが、拡散アンビソニックスコンポーネントに対する非相関器をさらに備える。
対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102B)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
は実施の形態1で説明したように判定することができる。
で示され、全ての可能な方向から到来する音(拡散音または周囲音など)に対する空間基底関数の応答を表している。平均応答
は、実施の形態3で説明したように得られる。
このために、ブロック(110)は通常、ブロック(102B)で判定した音方向情報を用いる。ブロック(110)の異なる例については実施の形態5で説明した通りである。
が時間および周波数ごとに結合されて(乗算115aされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント
が得られる。
さらに、ブロック(105)で判定した拡散音信号Pdiff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答
が時間および周波数ごとに結合されて(乗算115bされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント
が得られる。
は、非相関器を用いてブロック(107)で非相関化され、
で表される非相関拡散音アンビソニックスコンポーネントが得られる。非相関化の根拠およびその方法については実施の形態4に述べた通りである。
実施の形態4と同様に、拡散音アンビソニックスコンポーネント
は、非相関器(107)を適用する前に、例えば逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおしてもよい。
と非相関拡散音アンビソニックスコンポーネント
は、例えば加算演算(109)によって結合されて、時間−周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント
が得られる。得られたアンビソニックスコンポーネント
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。実施の形態4で説明したように、時間領域への再変換は、
を算出する前、すなわち演算(109)の前に実行してもよい。
と拡散音アンビソニックスコンポーネント
が異なるモード(次数)lに対して算出されるように構成することができる。例えば、
は、次数l=4まで計算することができ、一方、
は次数l=1までのみ算出してもよい。
図8は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。
この実施の形態は、実施の形態1と類似しているが、計算された空間基底関数の応答
に平滑化演算を適用するブロック(111)をさらに含む。
さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
時間−周波数変換(101)の出力は時間−周波数領域のマイクロフォン信号であり、P1...M(k,n)で表される。以下の処理は、各時間−周波数タイル(k,n)に対して別々に実行される。
対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102B)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
は実施の形態1で説明したように判定することができる。
は、平滑化演算を
に適用するブロック(111)への入力として用いられる。ブロック(111)の出力は、
と表される平滑化応答関数である。
平滑化演算の目的は、実用において例えばブロック(102B)で推定した音方向φ(k,n)および/またはθ(k,n)にノイズが多い場合に起こる、
の値の望ましくない推定変動を低下させることにある。
に適用される平滑化は、例えば時間および/または周波数に対して実行することができる。例えば、時間平滑化は、以下の公知の再帰平均化フィルタを用いて実現することができる。
(数23)
ここで、
は直前の時間フレームで算出された応答関数である。さらに、αは0と1の間の実数値であって、時間平滑化の強度を制御する。ゼロに近いαの値に対しては強い時間平均化を実行し、1に近いαの値に対しては短い時間平均化を実行する。
実際の適用ではαの値は適用によって変わり、例えばα=0.5など一定にしてもよい。あるいは、スペクトル平滑化をブロック(111)で実行することもでき、これは応答
が多数の周波数帯域にわたって平均化されることを意味する。例えば、いわゆるERB帯域内でのこのようなスペクトル平滑化が、[ERBsmooth](非特許文献8)に記述されている。
と、時間および周波数ごとに結合されて(乗算115されて)など、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの所望のアンビソニックスコンポーネント
が得られる。得られたアンビソニックスコンポーネント
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
本発明は、時間−周波数タイルごとに1つより多い音方向が考えられる、いわゆる多重波の場合にも適用できる。例えば、図3bに示す実施の形態2は、多重波の場合において実現できる。この場合、ブロック(102B)は、時間および周波数ごとにJ個の音方向を推定する。
なお、Jは1より大きい整数、例えばJ=2である。多数の音方向を推定するためには、最先端の推定器、例えば[ESPRIT, RootMUSIC1](非特許文献9,16)に述べられるESPRITまたはRoot MUSICを用いることができる。この場合、ブロック(102B)の出力は、例えば、多数の方位角φ1...j(k,n)および/または仰角θ1…J(k,n)で示される多数の音方向である。
を、例えば実施の形態1で説明したように算出する。
さらに、ブロック(102B)で計算した多数の音方向は、各多数の音方向に対して1つが対応する多数の参照信号Pref,1...j(k,n)を計算するためにブロック(104)で用いられる。多数の参照信号はそれぞれ、例えば、実施の形態2で説明したのと同様に、多数のマイクロフォン信号に多チャンネルフィルタw1…J(n)を適用することによって計算することができる。
例えば、第1の参照信号Pref,1(k,n)は、方向φ1(k,n)および/またはθ1(k,n)からの音を抽出しつつ全ての他の方向からの音を減衰する、最先端の多チャンネルフィルタ
を適用することによって得られる。このようなフィルタは、例えば[InformedSF](非特許文献12)で説明されるインフォームドLCMVフィルタとして算出することができる。そして、多数の参照信号Pref,1...j(k,n)には、対応する多数の応答
が乗算されて多数のアンビソニックスコンポーネント
が得られる。例えば、j番目の音方向および参照信号にそれぞれ対応するj番目のアンビソニックスコンポーネントは、以下のように計算される。
(数24)
を得る、すなわち、
(数25)
である。
多数の直接音には、その後、対応する多数の応答
が乗算されて多数の直接音アンビソニックスコンポーネント
が得られ、これらを合計して最終的な所望の直接音アンビソニックスコンポーネント
を得ることができる。
1.複数のマイクロフォン信号を時間−周波数領域に変換する。
2.上記複数のマイクロフォン信号から時間および周波数ごとに1つ以上の音方向を計算する。
3.上記1つ以上の音方向に依存する1つ以上の応答関数を各時間および周波数に対して算出する。
4.各時間および周波数に対して1つ以上の参照マイクロフォン信号を得る。
5.各時間および周波数に対して、上記1つ以上の参照マイクロフォン信号を上記1つ以上の応答関数で乗算して、所望の次数およびモードの1つ以上のアンビソニックスコンポーネントを得る。
6.所望の次数およびモードのアンビソニックスコンポーネントが複数得られた場合、該当するアンビソニックスコンポーネントを合計して最終的な所望のアンビソニックスコンポーネントを得る。
7.いくつかの実施の形態では、ステップ4で、上記1つ以上の参照マイクロフォン信号ではなく1つ以上の直接音および拡散音を複数のマイクロフォン信号から算出する。
8.上記1つ以上の直接音および拡散音を1つ以上の対応する直接音応答および拡散音応答で乗算して、所望の次数およびモードの1つ以上の直接音アンビソニックスコンポーネントおよび拡散音アンビソニックスコンポーネントを得る。
9.拡散音アンビソニックスコンポーネントは、異なる次数およびモードに対して、さらに非相関化してもよい。
10.直接音アンビソニックスコンポーネントと拡散音アンビソニックスコンポーネントを合計して、所望の次数およびモードの最終的な所望のアンビソニックスコンポーネントを得る。
102 方向判定器
103 空間基底関数評価器
107 非相関器
201 音場コンポーネント計算器
301 拡散コンポーネント計算器
401 結合器
20 周波数−時間変換器
Claims (24)
- 音場コンポーネントの表現を有する音場記述を生成する装置であって、
複数のマイクロフォン信号の複数の時間−周波数タイルの各時間−周波数タイルに対して、1つ以上の音方向を判定する方向判定器(102)と、
前記複数の時間−周波数タイルの各時間−周波数タイルに対して、前記1つ以上の音方向を用いて1つ以上の空間基底関数を評価する空間基底関数評価器(103)と、
前記複数の時間−周波数タイルの各時間−周波数タイルに対して、前記1つ以上の音方向を用いて評価された前記1つ以上の空間基底関数を用い、かつ対応する時間−周波数タイルに対する、前記複数のマイクロフォン信号のうち1つ以上のマイクロフォン信号から導出された参照信号を用いて、前記1つ以上の空間基底関数に対応する1つ以上の音場コンポーネントを計算する音場コンポーネント計算器(201)と、を備える装置。 - 前記複数の時間−周波数タイルの各時間−周波数タイルに対して、1つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器(301)と、
拡散音情報と直接音場情報を結合して前記音場コンポーネントの周波数領域表現または時間領域表現を得る結合器(401)と、をさらに備える、請求項1に記載の装置。 - 前記拡散音コンポーネント計算器(301)は、拡散音情報を非相関化する非相関器(107)をさらに備える、請求項2に記載の装置。
- 複数の時間領域マイクロフォン信号のそれぞれを、前記複数の時間−周波数タイルを有する時間−周波数表現に変換する時間−周波数変換器(101)をさらに備える、請求項1乃至3の何れか1項に記載の装置。
- 前記1つ以上の音場コンポーネント、または前記1つ以上の音場コンポーネントと拡散音コンポーネントとを結合したものを、前記音場コンポーネントの時間領域表現に変換する周波数−時間変換器(20)をさらに備える、請求項1乃至4の何れか1項に記載の装置。
- 前記周波数−時間変換器(20)は、前記1つ以上の音場コンポーネントを処理して複数の時間領域音場コンポーネントを得るように構成され、前記周波数−時間変換器は、前記拡散音コンポーネントを処理して複数の時間領域拡散コンポーネントを得るように構成され、
結合器(401)は、時間領域において前記時間領域音場コンポーネントと前記時間領域拡散コンポーネントとの結合を行うように構成され、または、結合器(401)は、周波数領域において、ある時間−周波数タイルの前記1つ以上の音場コンポーネントと、該当する時間−周波数タイルの前記拡散音コンポーネントとを結合するように構成され、
前記周波数−時間変換器(20)は、前記結合器(401)の結果を処理して前記時間領域の音場コンポーネントを得るように構成される、請求項5に記載の装置。 - 前記1つ以上の音方向を用いて、前記1つ以上の音方向に基づいて前記複数のマイクロフォン信号から特定のマイクロフォン信号を選択することを用いて、或いは、2つ以上のマイクロフォン信号に適用される多チャンネルフィルタであって、前記1つ以上の音方向と、前記複数のマイクロフォン信号が得られるマイクロフォンの個々の位置とに依存する多チャンネルフィルタを用いて、前記複数のマイクロフォン信号から前記参照信号を計算する参照信号計算器(104)をさらに備える、請求項1乃至6の何れか1項に記載の装置。
- 前記空間基底関数評価器(103)は、空間基底関数として、パラメータが音方向であるパラメータ化表現を用い、前記音方向に対応するパラメータを前記パラメータ化表現に挿入して各空間基底関数の評価結果を得るように構成される、或いは、
前記空間基底関数評価器(103)は、入力として空間基底関数識別と、前記音方向とを有し、出力として評価結果を有する各空間基底関数に対して、ルックアップ・テーブルを用い、前記空間基底関数評価器(103)は、前記方向判定器によって判定された前記1つ以上の音方向に対して、前記ルックアップ・テーブル入力の対応する音方向を判定する、または前記方向判定器によって判定された前記1つ以上の音方向に隣接する2つのルックアップ・テーブル入力の加重または非加重平均を計算するように構成される、或いは、
前記空間基底関数評価器(103)は、空間基底関数として、パラメータが音方向であり、前記音方向が、二次元状況では方位角などの一次元または三次元状況では方位角および仰角などの二次元である、パラメータ化表現を用い、前記音方向に対応するパラメータを前記パラメータ化表現に挿入して、各空間基底関数に対する評価結果を得るように構成される、請求項1乃至7の何れか1項に記載の装置。 - 前記参照信号として、前記複数のマイクロフォン信号の直接部分または拡散部分を判定する直接または拡散音判定器(105)をさらに備え、
前記音場コンポーネント計算器(201)は、1つ以上の直接音場コンポーネントを計算する際にのみ前記直接部分を用いるように構成される、請求項1乃至5の何れか1項に記載の装置。 - 平均空間基底関数応答を判定する平均応答基底関数判定器(106)であって、計算処理またはルックアップ・テーブルアクセス処理を備える判定器と、
前記参照信号として前記拡散部分のみを、前記平均空間基底関数応答とともに用いて1つ以上の拡散音場コンポーネントを計算する拡散音コンポーネント計算器(301)と、をさらに備える請求項9に記載の装置。 - 直接音場コンポーネントと、拡散音場コンポーネントとを結合して前記音場コンポーネントを得る結合器(109)をさらに備える、請求項10に記載の装置。
- 前記拡散音コンポーネント計算器(301)は、拡散音コンポーネントを所定の第1の数または次数まで計算するように構成され、
前記音場コンポーネント計算器(201)は、直接音場コンポーネントを所定の第2の数または次数まで計算するように構成され、
前記所定の第2の数または次数は、前記所定の第1の数または次数より大きく、
前記所定の第1の数または次数は、1以上である、請求項10又は11に記載の装置。 - 前記直接又は拡散音判定器(105)は、周波数領域表現または時間領域表現での空間基底関数の平均応答との結合の前または後に、拡散音コンポーネントを非相関化する非相関器(107)を備える、請求項10乃至12の何れか1項に記載の装置。
- 複数の時間−周波数タイルの各時間-周波数タイルに対して、1つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器(301)をさらに備え、
前記直接または拡散音判定器(105)は、
単一のマイクロフォン信号から前記直接部分と前記拡散部分を計算するように構成され、前記拡散音コンポーネント計算器(301)は、前記拡散部分を前記参照信号として用いて前記1つ以上の拡散音コンポーネントを計算するように構成され、前記音場コンポーネント計算器(201)は、前記直接部分を前記参照信号として用いて前記1つ以上の直接音場コンポーネントを計算するように構成される、或いは、
前記直接または拡散音判定器(105)は、
前記直接部分が計算されるマイクロフォン信号とは異なるマイクロフォン信号から拡散部分を計算するように構成され、前記拡散音コンポーネント計算器(301)は、前記拡散部分を前記参照信号として用いて前記1つ以上の拡散音コンポーネントを計算するように構成され、前記音場コンポーネント計算器(201)は、前記直接部分を前記参照信号として用いて前記1つ以上の直接音場コンポーネントを計算するように構成される、或いは、
複数の時間−周波数タイルの各時間-周波数タイルに対して、1つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器(301)をさらに備え、
前記直接または拡散音判定器(105)は、
異なるマイクロフォン信号を用いて異なる空間基底関数の拡散部分を計算するように構成され、前記拡散音コンポーネント計算器(301)は、第1の数に対応する平均空間基底関数応答に対する前記参照信号として第1の拡散部分を用い、第2の数の平均空間基底関数応答に対応する前記参照信号として異なる第2の拡散部分を使用するように構成され、前記第1の数は前記第2の数とは異なり、前記第1の数および第2の数は前記1つ以上の空間基底関数の任意の次数またはレベルおよびモードを示し、或いは、
複数の時間−周波数タイルの各時間-周波数タイルに対して、1つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器(301)をさらに備え、
前記直接または拡散音判定器(105)は、
前記複数のマイクロフォン信号に適用される第1の多チャンネルフィルタを用いて前記直接部分を計算し、前記複数のマイクロフォン信号に適用される第2の多チャンネルフィルタを用いて前記拡散部分を計算するように構成され、前記第2の多チャンネルフィルタは、前記第1の多チャンネルフィルタとは異なり、前記拡散音コンポーネント計算器(301)は、前記拡散部分を前記参照信号として用いて前記1つ以上の拡散音コンポーネントを計算するように構成され、前記音場コンポーネント計算器(201)は、前記直接部分を前記参照信号として用いて前記1つ以上の直接音場コンポーネントを計算するように構成される、或いは、
複数の時間−周波数タイルの各時間-周波数タイルに対して、1つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器(301)をさらに備え、
前記直接または拡散音判定器(105)は、
異なる空間基底関数の前記拡散部分を、前記異なる空間基底関数に対する異なる多チャンネルフィルタを用いて計算するように構成され、前記拡散音コンポーネント計算器(301)は、前記拡散部分を前記参照信号として用いて前記1つ以上の拡散音コンポーネントを計算するように構成され、前記音場コンポーネント計算器(201)は、前記直接部分を前記参照信号として用いて前記1つ以上の直接音場コンポーネントを計算するように構成される、請求項9に記載の装置。 - 前記空間基底関数評価器(103)は、時間方向または周波数方向で動作する、評価結果を平滑化するゲイン平滑器(111)を備え、
前記音場コンポーネント計算器(201)は、前記1つ以上の音場コンポーネントを計算する際に、平滑化された評価結果を使用するように構成される、請求項1乃至14の何れか1項に記載の装置。 - 前記空間基底関数評価器(103)は、時間−周波数タイルに対し、前記方向判定器によって判定された少なくとも2つの音方向のそれぞれの音方向に、前記1つ以上の2つの空間基底関数の空間基底関数ごとに、評価結果を計算するように構成され、
参照信号計算器(104)は、各音方向に対して別々の参照信号を計算するように構成され、
前記音場コンポーネント計算器(201)は、各方向に対する前記音場コンポーネントを、前記音方向の評価結果と、前記音方向の参照信号とを用いて計算するように構成され、
前記音場コンポーネント計算器は、空間基底関数を用いて計算された異なる方向に対する音場コンポーネントを加算して、時間−周波数タイルにおける前記空間基底関数の音場コンポーネントを得るように構成される、請求項1乃至15の何れか1項に記載の装置。 - 前記空間基底関数評価器(103)は、二次元または三次元状況のアンビソニックスに対して前記1つ以上の空間基底関数を用いるように構成される、請求項1乃至16の何れか1項に記載の装置。
- 前記空間基底関数評価器(103)は、少なくとも2つのレベルまたは次数または少なくとも2つのモードの空間基底関数を少なくとも用いるように構成される、請求項17に記載の装置。
- 前記音場コンポーネント計算器(201)は、レベル0、レベル1、レベル2、レベル3、レベル4からなるレベルのグループのうち少なくとも2つのレベルに対する前記音場コンポーネントを計算するように構成される、或いは、
前記音場コンポーネント計算器(201)は、モード(−4)、モード(−3)、モード(−2)、モード(−1)、モード(0)、モード(+1)、モード(+2)、モード(+3)、モード(+4)からなるモードのグループのうち少なくとも2つのモードに対する前記音場コンポーネントを計算するように構成される、請求項18に記載の装置。 - 前記複数の時間−周波数タイルの各時間−周波数タイルに対して、1つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器(301)と、
拡散音情報と直接音場情報とを結合して、前記音場コンポーネントの周波数領域表現または時間領域表現を得る結合器(401)と、を備え、
前記拡散音コンポーネント計算器または前記結合器は、前記音場コンポーネント計算器(201)が直接音場コンポーネントを計算するように構成された次数または数よりも小さい、所定の次数または数まで拡散音コンポーネントを計算または結合するように構成される、請求項1乃至19の何れか1項に記載の装置。 - 前記所定の次数または数は1またはゼロであり、前記音場コンポーネント計算器(201)が音場コンポーネントを計算するように構成された次数または数は2以上である、請求項20に記載の装置。
- 前記音場コンポーネント計算器(201)は、前記参照信号の時間−周波数タイルの信号を、空間基底関数から得た評価結果で乗算(115)して、前記空間基底関数に関連する音場コンポーネントの情報を得て、前記参照信号の時間−周波数タイルの信号を、更なる空間基底関数から得た更なる評価結果で乗算(115)して前記更なる空間基底関数に関連する更なる音場コンポーネントの情報を得るように構成される、請求項1乃至21の何れか1項に記載の装置。
- 音場コンポーネントの表現を有する音場記述を生成する方法であって、
複数のマイクロフォン信号の複数の時間−周波数タイルの各時間−周波数タイルに対して、1つ以上の音方向を判定し(102)、
前記複数の時間−周波数タイルの各時間−周波数タイルに対して、前記1つ以上の音方向を用いて1つ以上の空間基底関数を評価し(103)、
前記複数の時間−周波数タイルの各時間−周波数タイルに対して、前記1つ以上の音方向を用いて評価された前記1つ以上の空間基底関数を用い、かつ対応する時間−周波数タイルに対する、前記複数のマイクロフォン信号のうち1つ以上のマイクロフォン信号から導出された参照信号を用いて、前記1つ以上の空間基底関数に対応する1つ以上の音場コンポーネントを計算する(201)、ことを含む方法。 - コンピュータまたはプロセッサ上で実行されるときに、請求項23に記載の、音場コンポーネントの表現を有する音場記述を生成する方法を実行するためのコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16160504.3 | 2016-03-15 | ||
EP16160504 | 2016-03-15 | ||
PCT/EP2017/055719 WO2017157803A1 (en) | 2016-03-15 | 2017-03-10 | Apparatus, method or computer program for generating a sound field description |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020037421A Division JP7043533B2 (ja) | 2016-03-15 | 2020-03-05 | 音場記述を生成する装置、方法、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018536895A JP2018536895A (ja) | 2018-12-13 |
JP6674021B2 true JP6674021B2 (ja) | 2020-04-01 |
Family
ID=55532229
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018523004A Active JP6674021B2 (ja) | 2016-03-15 | 2017-03-10 | 音場記述を生成する装置、方法、及びコンピュータプログラム |
JP2020037421A Active JP7043533B2 (ja) | 2016-03-15 | 2020-03-05 | 音場記述を生成する装置、方法、及びコンピュータプログラム |
JP2022041663A Active JP7434393B2 (ja) | 2016-03-15 | 2022-03-16 | 音場記述を生成する装置、方法、及びコンピュータプログラム |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020037421A Active JP7043533B2 (ja) | 2016-03-15 | 2020-03-05 | 音場記述を生成する装置、方法、及びコンピュータプログラム |
JP2022041663A Active JP7434393B2 (ja) | 2016-03-15 | 2022-03-16 | 音場記述を生成する装置、方法、及びコンピュータプログラム |
Country Status (13)
Country | Link |
---|---|
US (3) | US10524072B2 (ja) |
EP (2) | EP3579577A1 (ja) |
JP (3) | JP6674021B2 (ja) |
KR (3) | KR102063307B1 (ja) |
CN (2) | CN112218211B (ja) |
BR (1) | BR112018007276A2 (ja) |
CA (1) | CA2999393C (ja) |
ES (1) | ES2758522T3 (ja) |
MX (1) | MX2018005090A (ja) |
PL (1) | PL3338462T3 (ja) |
PT (1) | PT3338462T (ja) |
RU (1) | RU2687882C1 (ja) |
WO (1) | WO2017157803A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6674021B2 (ja) | 2016-03-15 | 2020-04-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 音場記述を生成する装置、方法、及びコンピュータプログラム |
US10674301B2 (en) * | 2017-08-25 | 2020-06-02 | Google Llc | Fast and memory efficient encoding of sound objects using spherical harmonic symmetries |
US10595146B2 (en) * | 2017-12-21 | 2020-03-17 | Verizon Patent And Licensing Inc. | Methods and systems for extracting location-diffused ambient sound from a real-world scene |
CN109243423B (zh) * | 2018-09-01 | 2024-02-06 | 哈尔滨工程大学 | 一种水下人工弥散声场的产生方法和装置 |
GB201818959D0 (en) * | 2018-11-21 | 2019-01-09 | Nokia Technologies Oy | Ambience audio representation and associated rendering |
FI3891736T3 (fi) | 2018-12-07 | 2023-04-14 | Fraunhofer Ges Forschung | Laite, menetelmä ja tietokoneohjelma koodausta, dekoodausta, kohtauksen prosessointia ja muita proseduureja varten liittyen dirac-pohjaiseen spatiaaliseen audiokoodaukseen käyttäen matalan asteen, keskiasteen ja korkean asteen komponenttigeneraattoreita |
EP3915106A1 (en) | 2019-01-21 | 2021-12-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a spatial audio representation or apparatus and method for decoding an encoded audio signal using transport metadata and related computer programs |
GB2586214A (en) * | 2019-07-31 | 2021-02-17 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
GB2586461A (en) * | 2019-08-16 | 2021-02-24 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
CN111175693A (zh) * | 2020-01-19 | 2020-05-19 | 河北科技大学 | 一种波达方向估计方法及波达方向估计装置 |
EP4040801A1 (en) * | 2021-02-09 | 2022-08-10 | Oticon A/s | A hearing aid configured to select a reference microphone |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6658059B1 (en) * | 1999-01-15 | 2003-12-02 | Digital Video Express, L.P. | Motion field modeling and estimation using motion transform |
FR2836571B1 (fr) * | 2002-02-28 | 2004-07-09 | Remy Henri Denis Bruno | Procede et dispositif de pilotage d'un ensemble de restitution d'un champ acoustique |
FR2858512A1 (fr) * | 2003-07-30 | 2005-02-04 | France Telecom | Procede et dispositif de traitement de donnees sonores en contexte ambiophonique |
WO2006006809A1 (en) * | 2004-07-09 | 2006-01-19 | Electronics And Telecommunications Research Institute | Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information |
KR100663729B1 (ko) * | 2004-07-09 | 2007-01-02 | 한국전자통신연구원 | 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치 |
US8374365B2 (en) * | 2006-05-17 | 2013-02-12 | Creative Technology Ltd | Spatial audio analysis and synthesis for binaural reproduction and format conversion |
WO2007137232A2 (en) * | 2006-05-20 | 2007-11-29 | Personics Holdings Inc. | Method of modifying audio content |
US7952582B1 (en) * | 2006-06-09 | 2011-05-31 | Pixar | Mid-field and far-field irradiance approximation |
US8509454B2 (en) * | 2007-11-01 | 2013-08-13 | Nokia Corporation | Focusing on a portion of an audio scene for an audio signal |
CN101431710A (zh) * | 2007-11-06 | 2009-05-13 | 巍世科技有限公司 | 环绕音效喇叭之三维数组结构 |
JP5603325B2 (ja) * | 2008-04-07 | 2014-10-08 | ドルビー ラボラトリーズ ライセンシング コーポレイション | マイクロホン配列からのサラウンド・サウンド生成 |
EP2154910A1 (en) | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for merging spatial audio streams |
US8654990B2 (en) * | 2009-02-09 | 2014-02-18 | Waves Audio Ltd. | Multiple microphone based directional sound filter |
EP2360681A1 (en) | 2010-01-15 | 2011-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information |
ES2656815T3 (es) | 2010-03-29 | 2018-02-28 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung | Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica |
WO2012025580A1 (en) * | 2010-08-27 | 2012-03-01 | Sonicemotion Ag | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
EP2448289A1 (en) * | 2010-10-28 | 2012-05-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for deriving a directional information and computer program product |
EP2647005B1 (en) | 2010-12-03 | 2017-08-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for geometry-based spatial audio coding |
EP2469741A1 (en) | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
EP2592845A1 (en) | 2011-11-11 | 2013-05-15 | Thomson Licensing | Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field |
EP2592846A1 (en) * | 2011-11-11 | 2013-05-15 | Thomson Licensing | Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field |
EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
CN104428835B (zh) * | 2012-07-09 | 2017-10-31 | 皇家飞利浦有限公司 | 音频信号的编码和解码 |
EP2743922A1 (en) * | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
EP2800401A1 (en) * | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
US9502044B2 (en) * | 2013-05-29 | 2016-11-22 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
US20150127354A1 (en) * | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
EP2884491A1 (en) | 2013-12-11 | 2015-06-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Extraction of reverberant sound using microphone arrays |
US9536531B2 (en) * | 2014-08-01 | 2017-01-03 | Qualcomm Incorporated | Editing of higher-order ambisonic audio data |
JP6674021B2 (ja) | 2016-03-15 | 2020-04-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 音場記述を生成する装置、方法、及びコンピュータプログラム |
WO2018064296A1 (en) * | 2016-09-29 | 2018-04-05 | Dolby Laboratories Licensing Corporation | Method, systems and apparatus for determining audio representation(s) of one or more audio sources |
-
2017
- 2017-03-10 JP JP2018523004A patent/JP6674021B2/ja active Active
- 2017-03-10 MX MX2018005090A patent/MX2018005090A/es active IP Right Grant
- 2017-03-10 WO PCT/EP2017/055719 patent/WO2017157803A1/en active Application Filing
- 2017-03-10 KR KR1020187008955A patent/KR102063307B1/ko active IP Right Grant
- 2017-03-10 CN CN202011129075.1A patent/CN112218211B/zh active Active
- 2017-03-10 BR BR112018007276-1A patent/BR112018007276A2/pt active Search and Examination
- 2017-03-10 ES ES17709449T patent/ES2758522T3/es active Active
- 2017-03-10 CN CN201780011824.0A patent/CN108886649B/zh active Active
- 2017-03-10 KR KR1020207031014A patent/KR102357287B1/ko active IP Right Grant
- 2017-03-10 EP EP19187901.4A patent/EP3579577A1/en active Pending
- 2017-03-10 EP EP17709449.7A patent/EP3338462B1/en active Active
- 2017-03-10 CA CA2999393A patent/CA2999393C/en active Active
- 2017-03-10 KR KR1020197018068A patent/KR102261905B1/ko active IP Right Grant
- 2017-03-10 PL PL17709449T patent/PL3338462T3/pl unknown
- 2017-03-10 RU RU2018121969A patent/RU2687882C1/ru active
- 2017-03-10 PT PT177094497T patent/PT3338462T/pt unknown
-
2018
- 2018-03-22 US US15/933,155 patent/US10524072B2/en active Active
-
2019
- 2019-05-13 US US16/410,923 patent/US10694306B2/en active Active
-
2020
- 2020-03-05 JP JP2020037421A patent/JP7043533B2/ja active Active
- 2020-05-13 US US15/931,404 patent/US11272305B2/en active Active
-
2022
- 2022-03-16 JP JP2022041663A patent/JP7434393B2/ja active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6674021B2 (ja) | 音場記述を生成する装置、方法、及びコンピュータプログラム | |
US11451920B2 (en) | Method and device for decoding a higher-order ambisonics (HOA) representation of an audio soundfield | |
US10522159B2 (en) | Method and device for decoding an audio soundfield representation | |
JP5814476B2 (ja) | 空間パワー密度に基づくマイクロフォン位置決め装置および方法 | |
EP2609759B1 (en) | Method and device for enhanced sound field reproduction of spatially encoded audio input signals | |
KR101715541B1 (ko) | 복수의 파라메트릭 오디오 스트림들을 생성하기 위한 장치 및 방법 그리고 복수의 라우드스피커 신호들을 생성하기 위한 장치 및 방법 | |
JP2014502108A (ja) | 音響三角測量方式による空間的に選択的な音の取得のための装置および方法 | |
US20220150657A1 (en) | Apparatus, method or computer program for processing a sound field representation in a spatial transform domain | |
WO2009077152A1 (en) | Signal pickup with a variable directivity characteristic | |
Pinardi et al. | Metrics for evaluating the spatial accuracy of microphone arrays | |
Delikaris‐Manias et al. | Adaptive mixing of excessively directive and robust beamformers for reproduction of spatial sound | |
Keller | Technical Report on Analysis of Directional Room Impulse Responses Recorded with Spherical Microphone Arrays |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180507 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190305 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6674021 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |