JP6374882B2 - 音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置 - Google Patents
音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置 Download PDFInfo
- Publication number
- JP6374882B2 JP6374882B2 JP2015556516A JP2015556516A JP6374882B2 JP 6374882 B2 JP6374882 B2 JP 6374882B2 JP 2015556516 A JP2015556516 A JP 2015556516A JP 2015556516 A JP2015556516 A JP 2015556516A JP 6374882 B2 JP6374882 B2 JP 6374882B2
- Authority
- JP
- Japan
- Prior art keywords
- dominant
- time frame
- sound source
- source
- hoa
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000875 corresponding Effects 0.000 claims description 46
- 238000009826 distribution Methods 0.000 claims description 25
- 230000003111 delayed Effects 0.000 claims description 24
- 238000000034 methods Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 13
- 230000001131 transforming Effects 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 6
- 230000002596 correlated Effects 0.000 claims description 4
- 238000004364 calculation methods Methods 0.000 description 22
- 239000011159 matrix materials Substances 0.000 description 10
- 230000005428 wave function Effects 0.000 description 9
- 239000006185 dispersions Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical methods Methods 0.000 description 3
- 238000000354 decomposition reactions Methods 0.000 description 3
- 230000001419 dependent Effects 0.000 description 3
- 230000017105 transposition Effects 0.000 description 2
- 241001417517 Scatophagidae Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000562 conjugates Substances 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagrams Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reactions Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000003786 synthesis reactions Methods 0.000 description 1
- 230000002194 synthesizing Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Description
発明は、音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置に関する。
高次アンビソニクス(Higher Order Ambisonics)(HOA)は、波面合成法(Wave Field Synthesis)(WFS)、及び22.2のようなチャネルベースのアプローチのような技術の中で特に、3次元サウンドを表現するための1つの可能性を提供する。チャネルベースの方法と対照的に、また一方で、HOA表現は、固有のラウドスピーカ配置に依存しないという利点を提供する。しかし、このような柔軟性は、特定のラウドスピーカ配置でのHOA表現の再生に必要とされる復号化プロセスを代償にする。必要とされるラウドスピーカの数が通常は非常に多いWFSアプローチと比較して、HOAは、ほんの少数のラウドスピーカから成る配置にもレンダリングされ得る。HOAの更なる利点は、同じ表現が、ヘッドホンへのバイノーラル・レンダリングのためにも、如何なる変更なしで用いられ得ることである。
HOAは、切り捨てられた球面調和関数(Spherical Harmonics)(SH)展開による複素高調平面波振幅の空間密度の表現に基づく。夫々の展開係数は、時間領域の関数によって等価に表現され得る角周波数の関数である。よって、一般性を損なうことなしに、完全なHOA音場表現は、実際上、O個の時間領域関数から成ると推測され得る。このとき、Oは、展開係数の数を表す。以下で、それらの時間領域関数は、HOA係数シーケンスと、又はHOAチャネルと呼ばれる。
HOAは、高い空間分解能を提供する可能性を備える。空間分解能は、最大展開次数Nを増やすことにより改善する。それは、ドミナント音源に対して音場を解析する可能性を提供する。
応用は、音場を構成する独立したドミナント音源を所与のHOA表現から如何にして特定するのか、及びそれらの時間軌跡を如何にして追跡するのかであってよい。そのような動作は、例えば、欧州特許出願第12305537.8号において記載されるような、ドミナント指向性信号及び残りの周囲成分への音場の分解によるHOA表現の圧縮のために、必要とされる。そのような方向追跡方法のための更なる応用は、粗い予備的な源分離でありうる。特定の音源の信号を増幅又は減衰させる手段として、推定される方向軌跡をHOA音場レコーディングのポストプロダクションのために使用することも可能でありうる。
上記の欧州特許出願では、次の3つの動作を逐次実行することが提案されている:
・時間フレーム内の目下存在しているドミナント音源の数が特定され、対応する方向が探索される。ドミナント音源の数は、HOAチャネル相互相関行列の固有値から決定される。ドミナント音源方向の探索のために、固定された多数の予め定義された試験方向についてのHOA係数のフレームに対応する指向性電力分布が評価される。最初の方向推定は、指向性電力分布において極大を探すことによって得られる。次いで、残りの特定された方向は、次の2つの動作を連続して繰り返すことによって見つけられる:空間近傍における試験方向は、残りの試験方向の組から削除され、結果として得られる組は、指向性電力分布の極大の探索のために考慮される。
・推定された方向は、最後の時間フレームにおいてアクティブであると見なされる音源に割り当てられる。
・割り当てに続いて、方向推定の適切な平滑化が、時間的に滑らかな方向軌跡を得るために実行される。
しかし、そのような処理によれば、方向推定の時間平滑化は、指数関数的に重み付けされた移動平均を計算することによって、原理上は達成されるが、この技術は、急な方向の変化又は新しいドミナント音の開始を正確に捕捉でないという欠点を持つ。
この問題を解決するよう、欧州特許出願第12306485.9号では、ベイズ学習規則によって実施される統計的に動機付けされた平滑化のために用いられる簡単な統計的な源移動予測モデルを導入することが提案された。しかし、この特許出願及び先の欧州特許出願第12305537.8号は、指向性電力分布からしか音源方向についての尤度関数を計算しない。この分布は、単位球面上のほぼ一様に分布したサンプリング点によって特定される方向からの多数の一般平面波の電力を表す。それは、異なる方向からの一般平面波の間の相互相関に関する如何なる情報も提供しない。実際に、HOA表現の次数Nは、通常は有限であり、空間的に帯域制限された音場を生じさせる。特に、このことは、指向性電力分布への指向性音源の寄与が、近傍にある方向へと真の入射方向の周囲で不鮮明化されることを意味する。このような不鮮明化効果は‘分散関数’によって数学的に記述される。以下の「高次アンビソニクスの空間分解」の項を参照されたい。その範囲は、HOA表現の次数が減るにつれて増大する。欧州特許出願第12306485.9号及び欧州特許出願第12305537.8号の方向追跡方法は、前に見つけられた方向の近傍の外にある領域に方向の探索を制限することによって、この効果をある程度まで考慮している。しかし、近傍の指定は、全ての音源がHOA表現の全次数Nにより符号化されると仮定する。このような仮定は、Nよりも小さい次数で符号化された一般平面波を含む次数NのHOA表現について破られる。Nよりも小さい次数のそのような一般平面波は、音源をより幅広く現れさせるために、芸術的創作の結果であってよい。しかし、それらは、球形マイクロホンによるHOA音場表現のレコーディングによっても起こる。
欧州特許出願第12306485.9号及び欧州特許出願第12305537.8号の方向追跡方法は、音場がNよりも小さい次数の単一の一般平面波から成る場合に、1よりも多い音源を特定しうる。このことは、好ましくない性質である。
発明によって解決されるべき課題は、HOA音場におけるドミナント音源の決定を改善して、それらの時間軌跡が追跡され得るようにすることである。この課題は、請求項1、2及び6において開示される方法によって解決される。請求項6の方法を用いる装置は、請求項11において開示される。
発明は、欧州特許出願第12306485.9号の処理を改善する。発明の処理は、独立したドミナント音源を探し、それらの方向を時間にわたって追跡する。‘独立したドミナント音源’との表現は、夫々の音源の信号が無相関であることを意味する。欧州特許出願第12305537.8号及び欧州特許出願第12306485.9号における最先端の方法は、原のHOA表現の指向性電力分布のみを調べることによって、ドミナント音源方向についての全ての潜在的な候補を探しており、一方、以下で記載される発明の処理は、原のHOA表現からの夫々の方向候補の探索について、前に見つけられた音源の信号と相関する全ての成分を除外する。そのような動作によって、ただ1つの正確な音源ではなく多くを誤って検出する問題は、音場へのその寄与が極めて方向的に分散される場合に回避され得る。上述されたように、そのような効果は、Nよりも小さい次数において符号化された一般平面波を含む次数NのHOA表現について起こり得る。
欧州特許出願第12306485.9号と同様に、ドミナント音源方向について見つけられた候補は、次いで、前に見つけられたドミナント音源に割り当てられ、最後に、統計的な源移動モデルに従って平滑化される。よって、欧州特許出願第12306485.9号と同様に、発明の処理は、時間的に平滑化された方向推定を提供し、急な方向の変化及び新しいドミナント音の開始を捕捉することが可能である。
発明の処理は、2つの連続した処理において、HOA表現の連続したフレームについてドミナント音源方向の推定を決定する:
HOA表現の減算時間フレームkから、ドミナント音源方向についての候補又は推定が逐次探索され、夫々の音源によって生成されると考えられるHOA表現の成分が決定される。この探索プロセスの夫々の繰り返しにおいて、夫々の更なる方向候補は、前に見つけられた音源の信号と相関する全ての成分が除外された原のHOA表現を表す残留HOA表現から計算される。現在の方向候補は、複数の予め定義された試験方向の中から選択され、聴取者位置で前記選択された方向から作用する残余HOA表現の関連する一般平面波の電力が、全ての他の試験方向の電力と比較して最大であるようにする。
次に、現在時間フレームについての選択された方向候補は、HOA係数の前の時間フレームk−1において見つけられたドミナント音源へ割り当てられる。その後に、結果として得られる時間軌跡に対して平滑化される最終の方向推定は、ベイズ推定プロセスを実行することによって計算される。このベイズ推定プロセスは、一方では、統計に基づく先験的な音源移動モデルを、そして、他方では、原のHOA表現のドミナント音源成分の指向性電力分布を利用する。その先験的な音源移動モデルは、個々の音源の現在の動きを、前の時間フレームk−1におけるそれらの方向と、前の時間フレームk−1と最後から2番目の時間フレームk−2との間での動きとから統計的に予測する。
HOA係数の前の時間フレーム(k−1)において見つけられたドミナント音源への方向推定の割り当ては、方向推定及び前に見つけられた音源の方向の組の間の角度の連帯的な最小化と、方向推定に及び前の時間フレームにおいて見つけられたドミナント音源に関連した指向性信号の組の間の相関係数の絶対値の最大化とによって達成される。
原理上、発明の方法は、音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定するのに適しており、当該方法は、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するステップと、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るステップと、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するステップと、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するステップと
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される。
原理上、発明の装置は、音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定することに適しており、当該装置は、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するよう構成される手段と、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るよう構成される手段と、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するよう構成される手段と、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するよう構成される手段と
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される。
発明の有利な更なる実施形態は、夫々の従属請求項において開示される。
発明の例となる実施形態は、添付の図面を参照して記載される。
発明の方向追跡処理の原理は、図1において表されており、以下で説明される。方向追跡は、kがフレームインデックスであるとして、長さLのHOA係数シーケンスの入力フレームC(k)の連続した処理に基づくと考えられる。フレームは、次の式(1)として、「高次アンビソニクスの基本」の項において式(45)で特定されるHOA係数シーケンスに対して定義される:
第1のステップ又は段階11において、HOA表現のk番目のフレームC(k)は、ドミナント音源について予備的解析をなされる。この処理の詳細な説明は、以下の「予備的な方向探索」の項で与えられる。特に、検出されたドミナント指向性信号の数
[外1]
は、
対応する
[外2]
とともに決定される。加えて、対応する個々のドミナント音源及び対応する瞬時指向性信号
[外3]
(すなわち、一般平面波関数)によって生成される(と考えられる)HOA音場成分
[外4]
が計算される。
個々の一応の方向推定及び関連する量は、順次に、すなわち、最初にd=1について、次いでd=2について、そして以降同様に、計算される。第1のステップで、原のHOA表現C(k)の指向性電力分布は、欧州特許出願第12305537.8号で提案されているように計算され、引き続いてドミナント音源の存在について解析される。ドミナント音源が検出される場合に、夫々の一応の方向推定
[外5]
が計算される。加えて、対応する指向性信号xINST (1)(k)は、この音源によって生成されると考えられる現在フレームC(k)のその成分CDOM,CORR (1)(k)とともに、推定される。CDOM,CORR (1)(k)は、指向性信号xINST (1)(k)と相関するC(k)のその成分を表すと考えられる。最後に、HOA成分CDOM,CORR (1)(k)は、残余HOA表現CREM (2)(k)を得るために、C(k)から減じられる。d番目(d≧2)の一応の方向の推定は、C(k)の代わりに残余HOA表現CREM (d)(k)を用いる点のみを除いて、最初の一応の方向推定と全く同じように行われる。それによって、明らかに当然ながら、見つけられたd番目の音源によって生成される音場成分は、更なる方向探索について除外される。
方向割り当てステップ又は段階13において、k番目のフレームにおいてステップ/段階11で見つけられたドミナント音源は、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)対応する音源へ割り当てられる。一方で、割り当ては、現在のフレーム(k)についての一応の方向推定
[外6]
と、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)音源の平滑化された方向とを比較することによって、達成される。この平滑化された方向は組GΩ,DOM,ACT(k−1)に含まれており、それらのインデックスはJDOM,ACT(k−1)に含まれている。他方で、割り当てのために、フレームkでの検出されたドミナント音源の瞬時指向性信号
[外7]
と、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)音源の指向性信号XACT(k−1)との間の相関が利用される。割り当ての結果は、Dが、追跡されるべき期待される音源の最大数を表すとして、割り当て関数
[外8]
によって定式化される。このことは、d番目の新たに見つけられた音源が、インデックスfA,k(d)を持った以前にアクティブであった音源へ割り当てられることを意味する。
平滑化されたドミナント音源方向のモデルベースの計算ステップ又は段階14で、平滑化されたドミナント源方向
[外9]
は、フレーム(k−1)でのアクティブなドミナント音源のインデックスの組JDOM,ACT(k−1)と、フレーム(k−1)での対応するドミナント源方向推定の組GΩ,DOM,ACT(k−1)と、フレーム(k−2)及び(k−1)の間の夫々の源移動角度の組
[外10]
と、見つけられたドミナント音源によって生成されると考えられるHOA音場成分
[外11]
と、割り当て関数fA,Kとを用いることによって、欧州特許出願第12306485.9号で提案されている統計的な音源移動モデルに基づき計算される。このモデルベースの平滑化プロシージャの詳細な説明は、以下の「平滑化されたドミナント音源方向のモデルベースの計算」の項で与えられる。
最後のステップ又は段階15で、組JDOM,ACT(k)及びGΩ,DOM,ACT(k)に夫々含まれると考えられる目下アクティブなドミナント音源のインデックス及び方向は、ステップ/段階14からの平滑化されたドミナント源方向
[外12]
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向及び夫々のインデックスを含む組GΩ、DOM,ACT(k−1)及びJDOM,ACT(k−1)とを用いて、決定される。この動作は、少数の連続したフレームについて検出されなかった音源を擬似的に非アクティブにしない目的を持つ。
ステップ又は段階12は、フレームk−1のHOA表現C(k−1)と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向の組GΩ、DOM,ACT(k−1)とを用いて、(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号の計算を実行する。計算は、M. A. Poletti,“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”,J. Audio Eng. Soc.,Vo.53(11),pp.1004-1025,2005年において記載されるモードマッチングの原理に基づく。
源移動角度推定ステップ又は段階16で、フレームk−1でのドミナントのアクティブな音源の移動角度の組
[外13]
は、(k−1)番目及び(k−2)番目のフレームにおいて夫々アクティブであると考えられる音源の平滑化された方向推定の2つの組GΩ,DOM,ACT(k−1)及びGΩ,DOM,ACT(k−2)から計算される。移動は、フレームk−2及びk−1の間で起こると理解される。アクティブなドミナント音源の移動角度は、フレームk−2でのその平滑化された方向推定と、フレームk−1でのその平滑化された方向推定との間の円弧である。
備考:フレームk−2についての方向推定が、フレームk−1においてアクティブであると考えられるドミナント音源について利用可能でない場合は、夫々の移動角度は、‘π’の最大値に設定され得る。一般に、第1のフレームk及びフレームk−1について処理を開始するときに値は未だ利用可能でなく、図1のステップ又は段階において入力される対応する設定又は値は、夫々、空であるか、又はゼロに設定される。
この動作は、この音源の次の方向についての事前確率を、全ての可能な方向にわたってほぼ一様にならしめる。以下の「目下アクティブなドミナント音源のインデックス及び方向の決定」の項を参照されたい。
フレーム遅延171乃至174は、夫々の信号を1フレームずつ遅延させている。
以下で、上記のステップ及び段階は、より詳細に説明される。
[予備的な方向探索]
予備的な方法探索のステップ/段階11で、(フレームkにおいて)存在するドミナント音源の現在数
[外14]
及び夫々の方向
[外15]
は推定される。加えて、個々の音源によって生成されると考えられるHOA音場成分
[外16]
は、対応する指向性信号
[外17]
(すなわち、一般平面波関数)とともに、計算される。全ての先に列挙された量は、最初に方向インデックスd=1について、次いでd=2について、そして以降同様に、
[外18]
になるまで、計算される。
単一の方向dインデックスについての計算プロシージャは、図2に表されている。(d−1)番目の方向の推定後に生成される残りのHOA表現CREM (d)(k)(k番目の時間フレームについてのd番目の方向の推定に関連する。)は、この段階へ入力される。それによって、ループの開始時にCREM (1)(k)は原のHOAフレームC(k)に対応すると理解される。第1のステップ又は段階21で、残りのHOA表現CREM (d)(k)の指向性電力分布p(d)(k)は、単位球面上でほぼ一様に分布する所定の数Q個の離散的な試験方向Ωq,q=1,...,Qについて計算される。具体的には、夫々の試験信号Ωqは、次の式(2)に従って、傾斜角θq∈[0,π]及びアジマス角φq∈[0,2π]を含むベクトルとして定義される:
ステップ又は段階22で、指向性電力分布p(d)(k)は、ドミナント音源の存在について解析される。ドミナント源を検出する1つの方法は、以下の「ドミナント音源の存在についての解析」の項で記載される。ドミナント音源の不在が検出される場合は、方向探索は停止され、見つけられたドミナント方向の総数は
[外19]
に設定される。そうではなく、ドミナント音源が検出される場合は、座標原点に対するその方向
[外20]
の一応の推定がステップ又は段階23で計算される。詳細については、以下の「ドミナント音源方向の探索」の項を参照されたい。
引き続いて、d番目のドミナント音源によって生成されると考えられる音場成分の夫々の指向性信号xINST (d)(k)及びHOA表現CDOM,CORR (d)(k)は、以下の「ドミナント音源によって生成される音場のドミナント指向性信号及びHOA表現の計算」の項においてより詳細に記載されるように、ステップ又は段階24で計算される。
最後に、ステップ又は段階25で、HOA成分CDOM,CORR (d)(k)は、次(すなわち、(d+1)番目)の指向性音源の探索のために使用される残余HOA表現CREM (d+1)(k)を得るために、CREM (d)(k)から減じられる。それによって、明らかに当然ながら、見つけられたd番目の音源によって生成される音場成分は、更なる方向探索については除外される。
●ドミナント音源の存在の解析
CREM (d)(k)によって表される音場内でドミナント音源の存在を検出するために、残りのHOA表現CREM (1)(k),...,CREM (d)(k)の指向性電力分布p(1)(k),...,p(d)(k)が考慮される。一方で、次の式(4)で表される分散比をモニタすることが妥当であることが実験的に分かっている:
上記の検討を要約するよう、C(k)によって表される音場には少なくとも単一のドミナント音源が常に存在していると考えられ得る。すなわち、
[外21]
である。更なるドミナント音源は、変数比δp (d)(k)の値がある所定の閾値εp<1を上回ったままであり、且つ、変数比の値は1よりも小さい場合に、(d≧2について)検出される。すなわち、ドミナント音源は、次の関係式(8)が成立する場合に、(d≧2について)検出される:
●ドミナント音源方向の探索
d番目の音源が検出された後、その方向
[外22]
の一応の推定は、指向性電力分布p(d)(k)を用いることによって探索される。探索は、指向性電力が最大であるところの試験方向Ωqを採ることによって、達成される。すなわち:
その後に、ドミナント源方向の一応の推定
[外23]
を決定した後、夫々の指向性信号xINT (d)(k)は、同じ音源によって生成されると考えられる音場成分のHOA表現CDOM,CORR (d)(k)とともに、図3に従って計算される。ステップ又は段階31で、単位球面上にほぼ一様に分布すると考えられるO個のサンプリング位置ΩINIT,o,o=1,...,Oから成る固定の予め定義された球面グリッドGΩ,INITは回転されて、回転されたサンプリング位置ΩROT,o (d)(k),o=1,...,Oから成るグリッドGΩ,ROT (d)(k)を与える。回転は、第1の回転されたサンプリング位置ΩROT,1 (d)(k)が一応の方向推定
[外24]
に対応するように実行される。
ステップ又は段階32で、HOA表現CREM (d)(k)は、いわゆる空間領域に変形される。このとき、それは、回転されたグリッド方向ΩROT,o (d)(k),o=1,...,Oから観測者位置(すなわち、座標原点)に作用すると考えられるO個の平面波関数(グリッド指向性信号とも呼ばれる。)xo,INST (d)(k),o=1,...,Oによって等価に表される。平面波関数xo,INST (d)(k),o=1,...,Oを計算するよう、回転されたグリッド方向に対するモード行列
[外25]
は、次のように、式(11)を用いて式(10)の通りに計算される:
[外26]
は、回転されたサンプリング位置ΩROT,1 (d)(k)に対応するので、一般平面波関数x1,INST (d)(k)は、所望のドミナント方向信号xINST (d)(k)と見なされ得る。すなわち:
[外27]
によって表される。
そのような予測を達成する1つの方法は、予測される信号
[外28]
を、フィルタが予測誤差を最小限するように決定される線形フィルタリングによってxINST (d)(k)から生成されると考えることである。フィルタが(解析フレームの存続期間と比較して)ごく短い存続期間の有限インパルス応答(FIR)フィルタであると考えられる場合は、予測誤差の最小化は、最先端の最小二乗技術を用いることによって達成され得る。
最後に、ドミナント音源信号xINST (d)(k)及び全ての予測された相関成分のHOA表現は、次の式(15)の通りに、逆球面調和関数変換(説明のために、以下の「球面調和関数」の項を参照されたい。)によって、ステップ又は段階34で求められる:
(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号
[外29]
は、式(20)に従って行列XACT(k−1)内に含まれる。この行列は、次の式(16)によってモードマッチング(上記のPolettiの文献を参照されたい。)を用いて計算される:
[外30]
は、(k−1)番目のフレームにおいてアクティブであると考えられる音源の方向
[外31]
に対するモード行列を表す。モード行列
[外32]
は、次のように、式(18)を用いて式(17)によって計算される:
上述されたように、一方で、図1のステップ/段階13での割り当ては、一応の方向推定
[外33]
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向とを比較することによって、達成される。この平滑化された方向は、次の式(19)によって表される組に含まれる:
[外34]
の組の間の角度
[外35]
が小さければ小さいほど、d番目の新たに見つけられたドミナント音源方向は、インデックスiACT,k−1(d′)を持った以前にアクティブであった音源に対応する可能性がますます高くなると考えられる。
他方で、割り当てのために、フレームkでの検出されたドミナント音源の瞬時指向性信号
[外36]
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号XACT(k−1)との間の相関が利用される。ここで、フレームXACT(k−1)は、次の式(20)の通りに、(k−1)番目のフレームにおいてアクティブであると考えられる音源の個々の指向性信号
[外37]
から成ると考えられる:
[外38]
の間の相関係数
[外39]
の絶対値が高ければ高いほど、d番目の新たに見つけられたドミナント音源方向は、インデックスiACT,k−1(d′)を持った以前にアクティブであった音源に対応する可能性がますます高くなると仮定される。そのような仮定は、相関係数が2つの信号の間の線形依存性のための指標を与えると事実によって正当化される。
これらの検討に基づき、割り当てを特定する割り当て関数
[外40]
は、次の費用関数(21)を最小化するように計算される:
[外41]
について、角度
[外42]
は、ΘMINの最小角度に事実上設定されると暗に考えられる。このとき、例えば、ΘMIN=2π/N。更に、方向インデックス
[外43]
についての相関係数
[外44]
は、事実上ゼロに設定される。最初の動作は、d番目の新たに見つけられた方向
[外45]
と以前にアクティブであったドミナント音源の方向との間の角度がΘMINよりも大きい場合に、この新たに見つけられた方向が新しい音源に属する傾向を有するとの効果を有する。
割り当ての問題は、H. W. Kuhn,“The Hungarian method for the assignment problem”,Naval research logistics quarterly,vol.2(1-2),pp.83-97,1995年において記載されている周知のハンガリアン法を用いるよって解かれ得る。
[平滑化されたドミナント音源方向のモデルベースの計算]
この項は、統計的な音源移動モデルに従って図1のステップ/段階14における平滑化されたドミナント音源方向の計算に対処する。この計算のための個々のステップは図4に表されており、以下で詳細に説明される。
●ドミナント音源方向についての方向の事前確率関数の計算
新たに見つけられたドミナント音源方向についての方向の事前確率関数
[外46]
は:
・フレーム(k−1)でのアクティブなドミナント音源のインデックスiACT,k−1(d′),d′=1,...,DACT(k−1)の組JDOM,ACT(k−1)と、
・フレーム(k−1)での対応するドミナント音源方向推定
[外47]
の組GΩ,DOM,ACT(k−1)と、
・フレーム(k−2)及び(k−1)の間の夫々の源移動角度
[外48]
の組
[外49]
と、
・割り当て関数fA,kと
を用いて、ステップ又は段階42で計算される。計算は、欧州特許出願第12306485.9号において紹介されている単純な音源移動予測モデルに基づく。特に、d番目の新たに見つけられたドミナント音源についての方向の事前確率関数
[外50]
は、3次元空間における単位球面上のフォンミーゼス−フィッシャー分布の離散バージョンであると考えられる。
以下で、方向の事前確率関数
[外51]
は、次の式(22)として、個々の試験方向Ωq,q=1,...,Qについての確率
[外52]
から成るベクトルによって与えられると考えられる:
a)d番目の新たに見つけられたドミナント音源に割り当てられる源インデックスfA,k(d)が組JDOM,ACT(k−1)に含まれる場合は、事前確率は、次の式(23)に従って計算される:
[外53]
と試験方向Ωqとの間の角度を表す。すなわち:
[外54]
を用いて計算される濃度パラメータを表す:
b)d番目に新たに見つけられたドミナント音源に割り当てられた源インデックスfA,k(d)が組JDOM,ACT(k−1)に含まれない場合は、夫々の音源は、以前にアクティブでなかったと考えられる。結果として、この源の方向に関する演繹的知識は実際には利用可能でない。よって、事前確率関数
[外55]
は、単位球面において一様であると考えられる。このとき、個々の確率は、全ての試験方向Ωqに関して等しい。すなわち:
方向の尤度関数
[外56]
は、割り当て関数fA,kに加えて、個々の新たに検出されたドミナント音源によって生成されると考えられるHOA音場成分
[外57]
を用いて、ステップ又は段階41で計算される。方向の尤度関数
[外58]
は、次の式(29)のように、個々の試験方向Ωq,q=1,...,Qについての尤度
[外59]
から成るベクトルあると考えられる:
[外60]
は、欧州特許出願第12305537.8号で記載されるように、試験方向Ωqから作用する一般平面波の電力の近似であるよう計算される。特に:
方向の事後確率関数
[外61]
は、方向の事前確率関数
[外62]
及び方向の尤度関数
[外63]
を用いて、ステップ又は段階43で計算される。ここで、もう一度、方向の事後確率関数
[外64]
は、次の式(33)のように、個々の試験方向Ωq,q=1,...,Qについての事後確率
[外65]
から成るベクトルあると考えられる:
[外66]
は、次の式(34)ベのように、ベイズの規則に従って計算される(欧州特許出願第12306485.9号を参照):
●平滑化されたドミナント音源方向の計算
平滑化されたドミナント音源方向
[外67]
は、事後確率関数
[外68]
を用いて、ステップ又は段階44で計算される。特に、フレームkについて見つけられたd番目の音源の平滑化された方向
[外69]
は、次の事後確率関数において最大値を探すことによって求められる:
フレームkでの全てのDACT(k)個のアクティブなドミナント音源のインデックスiact,k(d′),d′=1,...,DACT(k)の組JDOM,ACT(k)、及びフレームkでの対応するドミナント源方向の推定
[外70]
の組GΩ,DOM,ACT(k)は、フレーム(k−1)での全てのアクティブなドミナント音源方向の平滑化された推定
[外71]
の組GΩ,DOM,ACT(k−1)と、対応するインデックスiact,k−1(d),d′=1,...,DACT(k−1)と、フレームkについて求められた平滑化されたドミナント音源方向の推定
[外72]
とを用いて、図1のステップ又は段階15で計算される。この演算は、少数の連続したフレームについて検出されていない音源を見かけ上非アクティブにしない目的を持ち、このようなことは、例えば、個々のインパルスの間に短い中断を伴ってインパルス様の音響を生成するカスタネットのような、源について起こり得る。このように、最後(すなわち、(k−1)番目)のふれーむにおいてアクティブであると考えられた音源を、それらが所定数KINACTの連続するフレームについて検出されなかった場合にのみ非アクティブにすることが妥当である。
先の検討に従って、第1のステップで、フレーム(k−1)での全てのDACT(k−1)個のアクティブなドミナント音源のインデックスiACT,k−1(d′),d′=1,...,DACT(k−1)の組JDOM,ACT(k−1)と、次の式(36)で表される全ての新たに検出された音源のインデックスの組との結合された組JJOINED(k)は、計算される:
最後に、iact,k(d′)がJDOM,ACT(k)の要素を示すとして、ドミナント源方向推定
[外73]
は、次の式(38)によって決定される:
[高次アンビソニクスの基本]
高次アンビソニクス(HOA)は、音源がないと考えられる関心のあるコンパクトな領域内での音場の記述に基づく。その場合に、関心のある領域内での時間t及び位置xでの音圧p(t,x)の時空間的な挙動は、同次波動方程式によって物理的に十分に決定される。以下で、図5に示される球座標系が考えられる。使用される座標系では、x軸は正面位置を指し示し、y軸は左を指し示し、z軸は上を指し示す。空間x(r,θ,φ)Tでの位置は、半径r>0(すなわち、座標原点までの距離)、極軸zから測定される傾斜角度θ∈[0,π]、及びx軸からx−y平面において反時計回りで測定されるアジマス角φ∈[0,2π]によって表される。(・)Tは転置を表す。
次いで、ωが角周波数を表し且つiが虚数単位を示すとして、Ft(・)、すなわち、次の式(39)によって表される、時間に対する音圧のフーリエ変換は、式(40)に従って、一連の球面調和関数に展開され得ることが示され得る(E. G. Williams,“Fourier Acoustics”,vol.93 of Applied Mathematical Sciences,Academic Press,1999年を参照):
音場が、角度タプル(θ,φ)によって特定される全ての可能な方向から到来する異なる角周波数ωの無限数の調和平面波の重ね合わせによって表される場合に、夫々の平面波複素振幅関数C(ω,θ,φ)は、次の球面調和関数展開(41)によって表現され得ることが示され得る(B. Rafaely,“Plane-wave Decomposition of the Sound Field on a Sphere by Spherical Convolution”,J. Acoust. Soc. Am.,vol.4(116),pp.2149-2157,2004年を参照):
最終のアンビソニクス様式は、次の式(45)のように、サンプリング周波数fSを用いたc(t)のサンプリングされたバージョンを提供する:
●実数値の球面調和関数の定義
実数値の球面調和関数Sn m(θ,φ)は、次の式(46)及び(47)によって表される:
方向Ω0=(θ0,φ0)Tから到来する一般平面波関数x(t)は、次の式(49)によって、HOAにおいて表される:
[外74]
は、次の式(50)及び(51)によって与えられる:
あらゆる方向Ωについて、平面波振幅の空間密度の時間領域の挙動は、あらゆる他の方向でのその挙動の倍数である。特に、幾つかの固定方向Ω1及びΩ2についての関数c(t,Ω1)及びc(t,Ω2)は、時間tに関して互いに大いに相関される。
●球面調和関数変換
平面波振幅の空間密度が、単位球面上でほぼ一様に分布している多数のO個の空間方向Ωo,1≦o≦Oで離散化される場合に、O個の指向性信号c(t,Ωo)が得られる。それらの信号を次の式(54)のようにベクトルにまとめることを考える:
発明の処理は、単一のプロセッサ又は電子回路によって、あるいは、並行して動作する及び/又は発明処理の異なる部分において動作する複数のプロセッサ若しくは電子回路によって、実行され得る。
いくつかの態様を記載しておく。
〔態様1〕
音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する方法であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算するステップを有し、
前記探索の夫々の繰り返しにおいて、夫々の更なる方向推定は、前に見つけられた音源の信号と相関する全ての成分が取り除かれている原のHOA表現を表す残余HOA表現から計算され、
現在の方向推定は、複数の予め定義された試験方向の中から選択され、聴取者位置で前記選択された方向から作用する前記残余HOA表現の関連する一般平面波の電力が、全ての他の試験方向の電力と比較して最大であるようにする、方法。
〔態様2〕
前記HOA係数の現在時間フレームについての前記選択された方向推定は、HOA係数の前の時間フレームにおいて見つけられたドミナント音源へ割り当てられ、最終の方向推定は、結果として得られる時間軌跡に対して平滑化される、
態様1に記載の方法。
〔態様3〕
前記平滑化は、ベイズ推定プロセスを実行することによって実行され、該ベイズ推定プロセスは、前記原のHOA表現のドミナント音源成分の指向性電力分布と、統計に基づく先験的な音源移動モデルとを利用する、
態様2に記載の方法。
〔態様4〕
前記統計に基づく先験的な音源移動モデルは、個々の音源の動きを、前記前の時間フレームにおけるそれらの方向の知識と、前記前の時間フレームと最後から2番目の時間フレームとの間での動きの知識とから統計的に予測する、
態様3に記載の方法。
〔態様5〕
前記HOA係数の前の時間フレームにおいて見つけられたドミナント音源への方向推定の前記割り当ては、方向推定及び前に見つけられた音源の方向の組の間の角度の連帯的な最小化と、方向推定に及び前記HOA係数の前の時間フレームにおいて見つけられたドミナント音源に関連した指向性信号の組の間の相関係数の絶対値の最大化とによって達成される、
態様3又は4に記載の方法。
〔態様6〕
音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する方法であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するステップと、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るステップと、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するステップと、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するステップと
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される、方法。
〔態様7〕
音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する装置であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するよう構成される手段と、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るよう構成される手段と、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するよう構成される手段と、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するよう構成される手段と
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される、装置。
〔態様8〕
検出されたドミナント指向性信号の数及び対応する一応の方向推定の決定において、前記対応するドミナント音源によって生成されるHOA音場成分は、対応する残余HOA表現を得るために、前記HOA係数の現在時間フレームから減算され、該減算の処理は、見つけられた音場成分が更なる方向探索について除外されるように、更なるそのような音場成分についてその都度の残りの残余HOA表現に基づき繰り返し実行される、
態様6に記載の方法、又は態様7に記載の装置。
〔態様9〕
単一の方向インデックについて、前記残りの残余HOA表現の指向性電力分布は、単位球面においてほぼ一様に分布する所定の数の離散的な試験方向について計算され、前記指向性電力分布は、ドミナント音源の存在について解析され、ドミナント音源の不在が検出される場合は、前記方向探索は停止され、ドミナント音源が検出される場合は、座標原点に対するその方向の一応の推定が計算される、
態様8に記載の方法、又は態様8に記載の装置。
〔態様10〕
ドミナント音源の一応の推定を決定した後、同じ音源によって生成されると推測される音場成分のHOA表現及び夫々の指向性信号は、
単位球面に一様に分布することを目標とされるサンプリング位置から成る固定の予め定義された球面グリッドを回転させて、回転されたサンプリング位置のグリッドを提供し、前記回転が、第1の回転されたサンプリング位置が前記一応の方向推定に対応するように実行されることと、
前記残りの残余HOA表現を、前記回転されたグリッド方向から座標原点に作用すると推測される対応する平面波関数によって等価に表現される空間領域へと変換し、ドミナント音源信号及びグリッド指向性信号を計算することと、
ドミナント音源信号からの前記グリッド指向性信号の予測を実行することと、
前記残りの残余HOA表現によって表される音場に対する前記ドミナント音源の寄与を表す、前記予測されたグリッド指向性信号のHOA表現を、逆球面調和関数変換によって計算することと
によって計算される、
態様8若しくは9に記載の方法、又は態様8若しくは9に記載の装置。
〔態様11〕
前記平滑化されたドミナント源方向の計算は、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、及び源移動角度の組を用いて、ドミナント音源方向について方向の事前確率関数を計算することと、
前記割り当て関数を用いて、且つ、ドミナント音源によって生成される前記HOA音場成分を用いて、ドミナント音源方向について方向の尤度関数を計算することと、
前記方向の尤度関数を用いて、且つ、前記方向の事前確率関数を用いて、ドミナント音源方向について方向の事後確率関数を計算することと、
ドミナント音源方向についての前記方向の事後確率関数を用いて、平滑化されたドミナント音源方向を決定することと
によって実行される、
態様6及び8乃至10のうちいずれか一項に記載の方法、又は態様7乃至10のうちいずれか一項に記載の装置。
Claims (10)
- 音場の高次アンビニソニクス(HOA)表現における無相関な音源の方向を決定する方法であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の予備的な方向推定を探索するステップと、
対応するドミナント音源に基づきHOA音場成分を決定するステップと
を有し、
現在の方向推定は、前に見つけられた音源の信号と相関する全ての成分が取り除かれている原のHOA表現を表す残余HOA表現に基づき決定され、
前記現在の方向推定は、前記残余HOA表現の関連する一般平面波の電力が、全ての他の試験方向の夫々の電力と比較して、聴取者位置に対してある方向から作用することに基づき、複数の予め定義された試験方向の中から選択され、
前記HOA係数の現在時間フレームについての前記現在の方向推定は、HOA係数の前の時間フレームの少なくとも1つのドミナント音源へ割り当てられ、時間軌跡に対して平滑化される、方法。 - 前記平滑化は、ベイズ推定プロセスに基づき、該ベイズ推定プロセスは、前記原のHOA表現のドミナント音源成分の指向性電力分布と、統計に基づく先験的な音源移動モデルとを利用する、
請求項1に記載の方法。 - 前記統計に基づく先験的な音源移動モデルは、個々の音源の動きを、前記前の時間フレームにおけるそれらの方向と、前記前の時間フレームと最後から2番目の時間フレームとの間での動きとに基づき、統計的に予測する、
請求項2に記載の方法。 - 方向推定は、方向推定及び前に見つけられた音源の方向の組の間の角度の連帯的な最小化と、方向推定に及び前記HOA係数の前の時間フレームにおいて見つけられたドミナント音源に関連した指向性信号の組の間の相関係数の絶対値の最大化とに基づき、前記HOA係数の前の時間フレームのドミナント音源に割り当てられる、
請求項2に記載の方法。 - 音場の高次アンビニソニクス(HOA)表現における無相関な音源の方向を決定する方法であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の予備的な方向推定を探索するステップと、
対応するドミナント音源に基づきHOA音場成分を決定し、対応する指向性信号を決定するステップと、
前記現在時間フレームの前記予備的な方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することに基づき、前記ドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てるステップであり、該割り当ては、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号との相関に更に基づき、割り当て関数を得るステップと、
前記割り当て関数、前記前の時間フレームにおける平滑化されたドミナント源方向、前記前の時間フレームにおけるアクティブなドミナント音源のインデックス、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度、及び前記対応するドミナント音源に基づく前記HOA音場成分に基づき、平滑化されたドミナント源方向を決定するステップと、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームの前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンに基づき、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するステップと
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数に基づくモードマッチングに基づき決定され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンに基づき決定される、方法。 - 音場の高次アンビニソニクス(HOA)表現における無相関な音源の方向を決定する装置であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の予備的な方向推定を探索し、対応するドミナント音源に基づきHOA音場成分を決定するよう構成され、更には、対応する指向性信号を決定するよう構成されるプロセッサを有し、
前記プロセッサは、前記現在時間フレームの前記予備的な方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向との比較に基づき、前記ドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てるよう更に構成され、該割り当ては、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号との相関に更に基づいて、割り当て関数を得、
前記プロセッサは、前記割り当て関数、前記前の時間フレームにおける平滑化されたドミナント源方向、前記前の時間フレームにおけるアクティブなドミナント音源のインデックス、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度、及び前記対応するドミナント音源に基づく前記HOA音場成分に基づき、平滑化されたドミナント源方向を決定するよう更に構成され、
前記プロセッサは、前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンに基づき、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するよう更に構成され、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数に基づくモードマッチングに基づき決定され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンに基づき決定される、装置。 - 検出されたドミナント指向性信号及び対応する予備的な方向推定の決定は、対応する残余HOA表現を得るために、前記HOA係数の現在時間フレームからの前記対応するドミナント音源の減算に基づき、HOA音場成分を決定することを更に含み、該減算の処理は、更なる音場成分についてのその都度の残りの残余HOA表現について繰り返し実行され、前記音場成分が更なる方向探索について除外されるようにする、
請求項5に記載の方法。 - 単位球面においてほぼ一様に分布する所定の数の離散的な試験方向について表現を決定するステップを更に有し、
指向性電力分布は、ドミナント音源の存在について解析され、ドミナント音源の不在の決定に基づき、前記方向探索は停止され、ドミナント音源の検出の決定に基づき、座標原点に対するその方向の予備的な推定は決定される、
請求項7に記載の方法。 - 同じ音源に基づく音場成分のHOA表現及び夫々の指向性信号は、
単位球面に一様に分布することを目標とされるサンプリング位置から成る固定の予め定義された球面グリッドを回転させて、回転されたサンプリング位置のグリッドを決定し、前記回転が、第1の回転されたサンプリング位置が前記予備的な方向推定に対応するように実行されることと、
前記残りの残余HOA表現を空間領域へと変換し、ドミナント音源信号及びグリッド指向性信号を決定することと、
ドミナント音源信号からの前記グリッド指向性信号の予測を実行することと、
前記残りの残余HOA表現によって表される音場に対する前記ドミナント音源の寄与を表す、前記予測されたグリッド指向性信号のHOA表現を、逆球面調和関数変換に基づき決定することと
に基づき決定される、
請求項8に記載の方法。 - 前記平滑化されたドミナント源方向は、
前記割り当て関数、前記前の時間フレームにおける平滑化されたドミナント源方向、前記前の時間フレームにおけるアクティブなドミナント音源のインデックス、及び前記源移動角度に基づき、ドミナント音源方向についての方向の事前確率関数を決定することと、
前記割り当て関数と、ドミナント音源によって生成される前記HOA音場成分とに基づき、ドミナント音源方向についての方向の尤度関数を決定することと、
前記方向の尤度関数及び前記方向の事前確率関数に基づき、ドミナント音源方向についての方向の事後確率関数を決定することと、
ドミナント音源方向についての前記方向の事後確率関数に基づき、平滑化されたドミナント音源方向を決定することと
に基づき決定される、
請求項5に記載の方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20130305156 EP2765791A1 (en) | 2013-02-08 | 2013-02-08 | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
EP13305156.5 | 2013-02-08 | ||
PCT/EP2014/052479 WO2014122287A1 (en) | 2013-02-08 | 2014-02-07 | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016509812A JP2016509812A (ja) | 2016-03-31 |
JP2016509812A5 JP2016509812A5 (ja) | 2017-02-09 |
JP6374882B2 true JP6374882B2 (ja) | 2018-08-15 |
Family
ID=47780000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015556516A Active JP6374882B2 (ja) | 2013-02-08 | 2014-02-07 | 音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9622008B2 (ja) |
EP (2) | EP2765791A1 (ja) |
JP (1) | JP6374882B2 (ja) |
KR (1) | KR20150115779A (ja) |
CN (1) | CN104995926B (ja) |
TW (1) | TWI647961B (ja) |
WO (1) | WO2014122287A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
EP2800401A1 (en) | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9489955B2 (en) | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US10448188B2 (en) | 2015-09-30 | 2019-10-15 | Dolby Laboratories Licensing Corporation | Method and apparatus for generating 3D audio content from two-channel stereo content |
CN105516875B (zh) * | 2015-12-02 | 2020-03-06 | 上海航空电器有限公司 | 用于快速测量虚拟声音产生设备空间角度分辨率的装置 |
GR1008860B (el) * | 2015-12-29 | 2016-09-27 | Κωνσταντινος Δημητριου Σπυροπουλος | Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα |
US10089063B2 (en) | 2016-08-10 | 2018-10-02 | Qualcomm Incorporated | Multimedia device for processing spatialized audio based on movement |
JP6723120B2 (ja) * | 2016-09-05 | 2020-07-15 | 本田技研工業株式会社 | 音響処理装置および音響処理方法 |
CN107147975B (zh) * | 2017-04-26 | 2019-05-14 | 北京大学 | 一种面向不规则扬声器摆放的Ambisonics匹配投影解码方法 |
US10893373B2 (en) | 2017-05-09 | 2021-01-12 | Dolby Laboratories Licensing Corporation | Processing of a multi-channel spatial audio format input signal |
US10405126B2 (en) * | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
FR3074584A1 (fr) * | 2017-12-05 | 2019-06-07 | Orange | PROCESSING DATA OF A VIDEO SEQUENCE FOR A ZOOM ON A SPEAKER DETECTED IN THE SEQUENCE |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9915398D0 (en) | 1999-07-02 | 1999-09-01 | Baker Matthew J | Magnetic particles |
FR2801108B1 (fr) | 1999-11-16 | 2002-03-01 | Maxmat S A | Analyseur chimique ou biochimique a regulation de la temperature reactionnelle |
FR2839565B1 (fr) * | 2002-05-07 | 2004-11-19 | Remy Henri Denis Bruno | Procede et systeme de representation d'un champ acoustique |
FR2858403B1 (fr) * | 2003-07-31 | 2005-11-18 | Remy Henri Denis Bruno | Systeme et procede de determination d'une representation d'un champ acoustique |
EP2297557B1 (en) * | 2008-07-08 | 2013-10-30 | Brüel & Kjaer Sound & Vibration Measurement A/S | Reconstructing an acoustic field |
EP2285139B1 (en) * | 2009-06-25 | 2018-08-08 | Harpex Ltd. | Device and method for converting spatial audio signal |
WO2011041834A1 (en) * | 2009-10-07 | 2011-04-14 | The University Of Sydney | Reconstruction of a recorded sound field |
EP2609759A1 (en) * | 2010-08-27 | 2013-07-03 | SonicEmotion AG | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
EP2541547A1 (en) * | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP2738962A1 (en) | 2012-11-29 | 2014-06-04 | Thomson Licensing | Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field |
US9913064B2 (en) * | 2013-02-07 | 2018-03-06 | Qualcomm Incorporated | Mapping virtual speakers to physical speakers |
-
2013
- 2013-02-08 EP EP20130305156 patent/EP2765791A1/en not_active Withdrawn
-
2014
- 2014-02-07 US US14/766,739 patent/US9622008B2/en active Active
- 2014-02-07 CN CN201480008017.XA patent/CN104995926B/zh active IP Right Grant
- 2014-02-07 WO PCT/EP2014/052479 patent/WO2014122287A1/en active Application Filing
- 2014-02-07 KR KR1020157021230A patent/KR20150115779A/ko active IP Right Grant
- 2014-02-07 EP EP14703102.5A patent/EP2954700B1/en active Active
- 2014-02-07 JP JP2015556516A patent/JP6374882B2/ja active Active
- 2014-02-10 TW TW103104224A patent/TWI647961B/zh active
Also Published As
Publication number | Publication date |
---|---|
US9622008B2 (en) | 2017-04-11 |
TW201448616A (zh) | 2014-12-16 |
US20150373471A1 (en) | 2015-12-24 |
EP2954700A1 (en) | 2015-12-16 |
TWI647961B (zh) | 2019-01-11 |
CN104995926A (zh) | 2015-10-21 |
EP2954700B1 (en) | 2018-03-07 |
CN104995926B (zh) | 2017-12-26 |
KR20150115779A (ko) | 2015-10-14 |
EP2765791A1 (en) | 2014-08-13 |
JP2016509812A (ja) | 2016-03-31 |
WO2014122287A1 (en) | 2014-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6310793B2 (ja) | オーディオ処理装置 | |
Blandin et al. | Multi-source TDOA estimation in reverberant audio using angular spectra and clustering | |
Nikunen et al. | Direction of arrival based spatial covariance model for blind sound source separation | |
TWI530201B (zh) | Sound extraction technology for extracting geometric information from arrival direction estimates | |
Mandel et al. | An em algorithm for localizing multiple sound: Sources in reverberant environments | |
Zhang et al. | A two microphone-based approach for source localization of multiple speech sources | |
Dvorkind et al. | Time difference of arrival estimation of speech source in a noisy and reverberant environment | |
Schwartz et al. | Multi-microphone speech dereverberation and noise reduction using relative early transfer functions | |
Vincent et al. | Oracle estimators for the benchmarking of source separation algorithms | |
Erdogan et al. | Improved mvdr beamforming using single-channel mask prediction networks. | |
JP6129316B2 (ja) | 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法 | |
TWI558228B (zh) | 依據空間能量密度定位麥克風之設備及方法 | |
Martin | Bias compensation methods for minimum statistics noise power spectral density estimation | |
Georgiou et al. | Alpha-stable modeling of noise and robust time-delay estimation in the presence of impulsive noise | |
Arberet et al. | A robust method to count and locate audio sources in a multichannel underdetermined mixture | |
Do et al. | A real-time SRP-PHAT source location implementation using stochastic region contraction (SRC) on a large-aperture microphone array | |
EP3172730A1 (en) | System and method for determining audio context in augmented-reality applications | |
US7626889B2 (en) | Sensor array post-filter for tracking spatial distributions of signals and noise | |
JP5608678B2 (ja) | Estimation of sound source position using particle filtering | |
JP4774100B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 | |
Kumar et al. | Near-field acoustic source localization and beamforming in spherical harmonics domain | |
Ward et al. | Particle filtering algorithms for tracking an acoustic source in a reverberant environment | |
JP2007523514A (ja) | 適応ビームフォーマ、サイドローブキャンセラー、方法、装置、及びコンピュータープログラム | |
US20140241549A1 (en) | Robust Estimation of Sound Source Localization | |
US20090129609A1 (en) | Method and apparatus for acquiring multi-channel sound by using microphone array |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20160826 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170106 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6374882 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |