JP6374882B2 - Method and apparatus for determining the direction of uncorrelated sound sources in higher-order ambisonic representations of sound fields - Google Patents

Method and apparatus for determining the direction of uncorrelated sound sources in higher-order ambisonic representations of sound fields Download PDF

Info

Publication number
JP6374882B2
JP6374882B2 JP2015556516A JP2015556516A JP6374882B2 JP 6374882 B2 JP6374882 B2 JP 6374882B2 JP 2015556516 A JP2015556516 A JP 2015556516A JP 2015556516 A JP2015556516 A JP 2015556516A JP 6374882 B2 JP6374882 B2 JP 6374882B2
Authority
JP
Japan
Prior art keywords
dominant
time frame
sound source
source
hoa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015556516A
Other languages
Japanese (ja)
Other versions
JP2016509812A (en
JP2016509812A5 (en
Inventor
クルーガー,アレクサンダー
コルドン,スベン
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2016509812A publication Critical patent/JP2016509812A/en
Publication of JP2016509812A5 publication Critical patent/JP2016509812A5/ja
Application granted granted Critical
Publication of JP6374882B2 publication Critical patent/JP6374882B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

発明は、音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置に関する。   The invention relates to a method and apparatus for determining the direction of an uncorrelated sound source in a higher-order ambisonic representation of a sound field.

高次アンビソニクス(Higher Order Ambisonics)(HOA)は、波面合成法(Wave Field Synthesis)(WFS)、及び22.2のようなチャネルベースのアプローチのような技術の中で特に、3次元サウンドを表現するための1つの可能性を提供する。チャネルベースの方法と対照的に、また一方で、HOA表現は、固有のラウドスピーカ配置に依存しないという利点を提供する。しかし、このような柔軟性は、特定のラウドスピーカ配置でのHOA表現の再生に必要とされる復号化プロセスを代償にする。必要とされるラウドスピーカの数が通常は非常に多いWFSアプローチと比較して、HOAは、ほんの少数のラウドスピーカから成る配置にもレンダリングされ得る。HOAの更なる利点は、同じ表現が、ヘッドホンへのバイノーラル・レンダリングのためにも、如何なる変更なしで用いられ得ることである。   Higher Order Ambisonics (HOA) represents 3D sound, among other technologies such as Wave Field Synthesis (WFS) and channel-based approaches such as 22.2. It offers one possibility to do so. In contrast to channel-based methods, and on the other hand, the HOA representation offers the advantage of not being dependent on the inherent loudspeaker arrangement. However, such flexibility comes at the price of the decoding process required for playback of the HOA representation on a particular loudspeaker arrangement. Compared to the WFS approach where the number of loudspeakers required is usually very high, the HOA can also be rendered in an arrangement consisting of only a few loudspeakers. A further advantage of HOA is that the same representation can be used without any modification for binaural rendering to headphones.

HOAは、切り捨てられた球面調和関数(Spherical Harmonics)(SH)展開による複素高調平面波振幅の空間密度の表現に基づく。夫々の展開係数は、時間領域の関数によって等価に表現され得る角周波数の関数である。よって、一般性を損なうことなしに、完全なHOA音場表現は、実際上、O個の時間領域関数から成ると推測され得る。このとき、Oは、展開係数の数を表す。以下で、それらの時間領域関数は、HOA係数シーケンスと、又はHOAチャネルと呼ばれる。   HOA is based on a representation of the spatial density of the complex harmonic plane wave amplitude by a truncated spherical harmonic (SH) expansion. Each expansion coefficient is a function of angular frequency that can be equivalently represented by a function in the time domain. Thus, without sacrificing generality, it can be inferred that a complete HOA sound field representation is actually composed of O time-domain functions. At this time, O represents the number of expansion coefficients. In the following, these time domain functions are called HOA coefficient sequences or HOA channels.

HOAは、高い空間分解能を提供する可能性を備える。空間分解能は、最大展開次数Nを増やすことにより改善する。それは、ドミナント音源に対して音場を解析する可能性を提供する。   HOA has the potential to provide high spatial resolution. The spatial resolution is improved by increasing the maximum expansion order N. It offers the possibility to analyze the sound field for a dominant sound source.

応用は、音場を構成する独立したドミナント音源を所与のHOA表現から如何にして特定するのか、及びそれらの時間軌跡を如何にして追跡するのかであってよい。そのような動作は、例えば、欧州特許出願第12305537.8号において記載されるような、ドミナント指向性信号及び残りの周囲成分への音場の分解によるHOA表現の圧縮のために、必要とされる。そのような方向追跡方法のための更なる応用は、粗い予備的な源分離でありうる。特定の音源の信号を増幅又は減衰させる手段として、推定される方向軌跡をHOA音場レコーディングのポストプロダクションのために使用することも可能でありうる。   An application may be how to identify the independent dominant sound sources that make up the sound field from a given HOA representation and how to track their time trajectories. Such an operation is required, for example, for compression of the HOA representation by decomposition of the dominant directional signal and the sound field into the remaining ambient components as described in European Patent Application No. 123055537.8. The A further application for such a direction tracking method may be coarse preliminary source separation. As a means of amplifying or attenuating the signal of a particular sound source, it may be possible to use the estimated directional trajectory for post production of HOA sound field recording.

上記の欧州特許出願では、次の3つの動作を逐次実行することが提案されている:
・時間フレーム内の目下存在しているドミナント音源の数が特定され、対応する方向が探索される。ドミナント音源の数は、HOAチャネル相互相関行列の固有値から決定される。ドミナント音源方向の探索のために、固定された多数の予め定義された試験方向についてのHOA係数のフレームに対応する指向性電力分布が評価される。最初の方向推定は、指向性電力分布において極大を探すことによって得られる。次いで、残りの特定された方向は、次の2つの動作を連続して繰り返すことによって見つけられる:空間近傍における試験方向は、残りの試験方向の組から削除され、結果として得られる組は、指向性電力分布の極大の探索のために考慮される。
・推定された方向は、最後の時間フレームにおいてアクティブであると見なされる音源に割り当てられる。
・割り当てに続いて、方向推定の適切な平滑化が、時間的に滑らかな方向軌跡を得るために実行される。
In the above European patent application, it is proposed to perform the following three operations sequentially:
-The number of dominant sound sources present in the time frame is identified and the corresponding direction is searched. The number of dominant sound sources is determined from the eigenvalues of the HOA channel cross-correlation matrix. For the search of the dominant sound source direction, the directional power distribution corresponding to the frame of HOA coefficients for a fixed number of predefined test directions is evaluated. An initial direction estimate is obtained by looking for a local maximum in the directional power distribution. The remaining identified directions are then found by repeating the following two actions in succession: the test direction in the vicinity of the space is deleted from the remaining set of test directions, and the resulting set is directed Is considered for the search for the maximum of the ionic power distribution.
The estimated direction is assigned to the sound source that is considered active in the last time frame.
• Following assignment, appropriate smoothing of direction estimation is performed to obtain a temporally smooth direction trajectory.

しかし、そのような処理によれば、方向推定の時間平滑化は、指数関数的に重み付けされた移動平均を計算することによって、原理上は達成されるが、この技術は、急な方向の変化又は新しいドミナント音の開始を正確に捕捉でないという欠点を持つ。   However, with such a process, the time smoothing of direction estimation is achieved in principle by calculating an exponentially weighted moving average, but this technique does Or it has the disadvantage that it does not accurately capture the start of a new dominant sound.

この問題を解決するよう、欧州特許出願第12306485.9号では、ベイズ学習規則によって実施される統計的に動機付けされた平滑化のために用いられる簡単な統計的な源移動予測モデルを導入することが提案された。しかし、この特許出願及び先の欧州特許出願第12305537.8号は、指向性電力分布からしか音源方向についての尤度関数を計算しない。この分布は、単位球面上のほぼ一様に分布したサンプリング点によって特定される方向からの多数の一般平面波の電力を表す。それは、異なる方向からの一般平面波の間の相互相関に関する如何なる情報も提供しない。実際に、HOA表現の次数Nは、通常は有限であり、空間的に帯域制限された音場を生じさせる。特に、このことは、指向性電力分布への指向性音源の寄与が、近傍にある方向へと真の入射方向の周囲で不鮮明化されることを意味する。このような不鮮明化効果は‘分散関数’によって数学的に記述される。以下の「高次アンビソニクスの空間分解」の項を参照されたい。その範囲は、HOA表現の次数が減るにつれて増大する。欧州特許出願第12306485.9号及び欧州特許出願第12305537.8号の方向追跡方法は、前に見つけられた方向の近傍の外にある領域に方向の探索を制限することによって、この効果をある程度まで考慮している。しかし、近傍の指定は、全ての音源がHOA表現の全次数Nにより符号化されると仮定する。このような仮定は、Nよりも小さい次数で符号化された一般平面波を含む次数NのHOA表現について破られる。Nよりも小さい次数のそのような一般平面波は、音源をより幅広く現れさせるために、芸術的創作の結果であってよい。しかし、それらは、球形マイクロホンによるHOA音場表現のレコーディングによっても起こる。   To solve this problem, European Patent Application No. 123066485.9 introduces a simple statistical source movement prediction model used for statistically motivated smoothing implemented by Bayesian learning rules. It was proposed. However, this patent application and the earlier European patent application 123055537.8 calculate the likelihood function for the sound source direction only from the directional power distribution. This distribution represents the power of a number of general plane waves from the direction specified by the sampling points distributed almost uniformly on the unit sphere. It does not provide any information regarding cross-correlation between general plane waves from different directions. In practice, the order N of the HOA representation is usually finite, resulting in a spatially band-limited sound field. In particular, this means that the contribution of the directional sound source to the directional power distribution is smeared around the true incident direction in the vicinity. Such blurring effect is mathematically described by a 'dispersion function'. See “Spatial decomposition of higher-order ambisonics” below. The range increases as the order of the HOA representation decreases. The direction tracking methods of European Patent Application No. 123066485.9 and European Patent Application No. 123055537.8 limit this effect to some extent by limiting the direction search to a region outside the vicinity of the previously found direction. To consider. However, the neighborhood designation assumes that all sound sources are encoded with the full order N of the HOA representation. Such assumptions are violated for order N HOA representations containing general plane waves encoded with orders less than N. Such general plane waves of order less than N may be the result of artistic creation to make the sound source appear more widely. However, they also occur by recording the HOA sound field representation with a spherical microphone.

欧州特許出願第12306485.9号及び欧州特許出願第12305537.8号の方向追跡方法は、音場がNよりも小さい次数の単一の一般平面波から成る場合に、1よりも多い音源を特定しうる。このことは、好ましくない性質である。   The direction tracking method of European Patent Application No. 123066485.9 and European Patent Application No. 123055537.8 identifies more than one sound source when the sound field consists of a single general plane wave of order less than N. sell. This is an undesirable property.

発明によって解決されるべき課題は、HOA音場におけるドミナント音源の決定を改善して、それらの時間軌跡が追跡され得るようにすることである。この課題は、請求項1、2及び6において開示される方法によって解決される。請求項6の方法を用いる装置は、請求項11において開示される。

The problem to be solved by the invention is to improve the determination of dominant sound sources in the HOA sound field so that their time trajectories can be tracked. This problem is solved by the method disclosed in claims 1, 2 and 6. An apparatus using the method of claim 6 is disclosed in claim 11 .

発明は、欧州特許出願第12306485.9号の処理を改善する。発明の処理は、独立したドミナント音源を探し、それらの方向を時間にわたって追跡する。‘独立したドミナント音源’との表現は、夫々の音源の信号が無相関であることを意味する。欧州特許出願第12305537.8号及び欧州特許出願第12306485.9号における最先端の方法は、原のHOA表現の指向性電力分布のみを調べることによって、ドミナント音源方向についての全ての潜在的な候補を探しており、一方、以下で記載される発明の処理は、原のHOA表現からの夫々の方向候補の探索について、前に見つけられた音源の信号と相関する全ての成分を除外する。そのような動作によって、ただ1つの正確な音源ではなく多くを誤って検出する問題は、音場へのその寄与が極めて方向的に分散される場合に回避され得る。上述されたように、そのような効果は、Nよりも小さい次数において符号化された一般平面波を含む次数NのHOA表現について起こり得る。   The invention improves the processing of European patent application 123066485.9. The inventive process looks for independent dominant sound sources and tracks their direction over time. The expression 'independent dominant sound source' means that the signals of the respective sound sources are uncorrelated. The state-of-the-art methods in European Patent Application No. 123055537.8 and European Patent Application No. 123066485.9 are all potential candidates for dominant sound source direction by examining only the directional power distribution of the original HOA representation. On the other hand, the process of the invention described below excludes all components that correlate with previously found sound source signals for each direction candidate search from the original HOA representation. With such an operation, the problem of erroneously detecting more than just one exact sound source can be avoided if its contribution to the sound field is very directionally distributed. As described above, such an effect can occur for an order N HOA representation that includes a general plane wave encoded in an order less than N.

欧州特許出願第12306485.9号と同様に、ドミナント音源方向について見つけられた候補は、次いで、前に見つけられたドミナント音源に割り当てられ、最後に、統計的な源移動モデルに従って平滑化される。よって、欧州特許出願第12306485.9号と同様に、発明の処理は、時間的に平滑化された方向推定を提供し、急な方向の変化及び新しいドミナント音の開始を捕捉することが可能である。   Similar to European patent application 123066485.9, candidates found for dominant sound source directions are then assigned to previously found dominant sound sources and finally smoothed according to a statistical source movement model. Thus, similar to European Patent Application No. 123066485.9, the inventive process provides temporally smoothed direction estimation and can capture sudden direction changes and the start of new dominant sounds. is there.

発明の処理は、2つの連続した処理において、HOA表現の連続したフレームについてドミナント音源方向の推定を決定する:
HOA表現の減算時間フレームkから、ドミナント音源方向についての候補又は推定が逐次探索され、夫々の音源によって生成されると考えられるHOA表現の成分が決定される。この探索プロセスの夫々の繰り返しにおいて、夫々の更なる方向候補は、前に見つけられた音源の信号と相関する全ての成分が除外された原のHOA表現を表す残留HOA表現から計算される。現在の方向候補は、複数の予め定義された試験方向の中から選択され、聴取者位置で前記選択された方向から作用する残余HOA表現の関連する一般平面波の電力が、全ての他の試験方向の電力と比較して最大であるようにする。
The inventive process determines the dominant sound source direction estimate for consecutive frames of the HOA representation in two consecutive processes:
From the subtraction time frame k of the HOA representation, candidates or estimates for the dominant sound source direction are sequentially searched to determine the components of the HOA representation that are considered to be generated by each sound source. In each iteration of this search process, each further direction candidate is calculated from a residual HOA representation that represents the original HOA representation with all components correlated with the previously found sound source signal excluded. The current direction candidate is selected from a plurality of predefined test directions, and the power of the associated general plane wave of the residual HOA representation acting from the selected direction at the listener position is determined by all other test directions. Try to be the maximum compared to the power.

次に、現在時間フレームについての選択された方向候補は、HOA係数の前の時間フレームk−1において見つけられたドミナント音源へ割り当てられる。その後に、結果として得られる時間軌跡に対して平滑化される最終の方向推定は、ベイズ推定プロセスを実行することによって計算される。このベイズ推定プロセスは、一方では、統計に基づく先験的な音源移動モデルを、そして、他方では、原のHOA表現のドミナント音源成分の指向性電力分布を利用する。その先験的な音源移動モデルは、個々の音源の現在の動きを、前の時間フレームk−1におけるそれらの方向と、前の時間フレームk−1と最後から2番目の時間フレームk−2との間での動きとから統計的に予測する。   Next, the selected direction candidates for the current time frame are assigned to the dominant sound source found in time frame k−1 prior to the HOA coefficient. Thereafter, a final direction estimate that is smoothed against the resulting time trajectory is calculated by performing a Bayesian estimation process. This Bayesian estimation process uses, on the one hand, a statistical a priori source movement model and, on the other hand, the directional power distribution of the dominant source component of the original HOA representation. The a priori sound source movement model shows the current movement of individual sound sources in their direction in the previous time frame k-1, the previous time frame k-1 and the penultimate time frame k-2. Statistically predict from the movement between

HOA係数の前の時間フレーム(k−1)において見つけられたドミナント音源への方向推定の割り当ては、方向推定及び前に見つけられた音源の方向の組の間の角度の連帯的な最小化と、方向推定に及び前の時間フレームにおいて見つけられたドミナント音源に関連した指向性信号の組の間の相関係数の絶対値の最大化とによって達成される。   The assignment of the direction estimate to the dominant sound source found in the previous time frame (k−1) of the HOA coefficient is a joint minimization of the angle between the direction estimate and the previously found sound source direction set. , By direction estimation and by maximizing the absolute value of the correlation coefficient between the set of directional signals associated with the dominant sound source found in the previous time frame.

原理上、発明の方法は、音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定するのに適しており、当該方法は、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するステップと、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るステップと、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するステップと、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するステップと
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される。
In principle, the inventive method is suitable for determining the direction of uncorrelated sound sources in a higher-order ambisonic representation called the HOA of the sound field,
Sequentially searching for a random direction estimate of the dominant sound source in the current time frame of the HOA coefficient, calculating a HOA sound field component generated by the corresponding dominant sound source, and calculating a corresponding directional signal;
By comparing the tentative direction estimate of the current time frame with the smoothed direction of the active sound source in the time frame before the HOA coefficient, and with the directional signal of the current time frame and the previous Assigning the calculated dominant sound source to the corresponding sound source active in the previous time frame by correlating with the directional signal of the active sound source in the time frame of
The assignment function, the set of smoothed directions in the previous time frame, the set of active dominant sound source indices in the previous time frame, between the penultimate time frame and the previous time frame Calculating a smoothed dominant source direction using the respective source movement angle sets and the HOA sound field component generated by the corresponding dominant sound source;
A frame delayed version of the smoothed dominant source direction, a direction of the active dominant source in the previous time frame, and a frame delayed version of the index of the active dominant source in the previous time frame. Using to determine an index and direction of the active dominant sound source of the current time frame;
The directional signal of the sound source active in the previous time frame uses mode matching from the frame delayed version of the active dominant sound source direction of the previous time frame and the HOA coefficient of the previous time frame. Calculated,
The set of source movement angles between the penultimate time frame and the previous time frame is the frame delayed version of the direction of the active dominant source of the previous time frame and further Calculated from the frame delayed version.

原理上、発明の装置は、音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定することに適しており、当該装置は、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するよう構成される手段と、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るよう構成される手段と、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するよう構成される手段と、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するよう構成される手段と
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される。
In principle, the device of the invention is suitable for determining the direction of uncorrelated sound sources in a higher-order ambisonics representation called the HOA of the sound field,
Means configured to sequentially search for a random direction estimate of the dominant sound source in the current time frame of the HOA coefficient, calculate a HOA sound field component generated by the corresponding dominant sound source, and calculate a corresponding directional signal; ,
By comparing the tentative direction estimate of the current time frame with the smoothed direction of the active sound source in the time frame before the HOA coefficient, and with the directional signal of the current time frame and the previous Means configured to assign the calculated dominant sound source to a corresponding sound source active in the previous time frame to obtain an assignment function by correlating with a directional signal of an active sound source in a time frame of When,
The assignment function, the set of smoothed directions in the previous time frame, the set of active dominant sound source indices in the previous time frame, between the penultimate time frame and the previous time frame Means configured to calculate a smoothed dominant source direction using a respective set of source movement angles and the HOA sound field component generated by the corresponding dominant sound source;
A frame delayed version of the smoothed dominant source direction, a direction of the active dominant source in the previous time frame, and a frame delayed version of the index of the active dominant source in the previous time frame. Using means configured to determine an index and direction of the active dominant sound source of the current time frame;
The directional signal of the sound source active in the previous time frame uses mode matching from the frame delayed version of the active dominant sound source direction of the previous time frame and the HOA coefficient of the previous time frame. Calculated,
The set of source movement angles between the penultimate time frame and the previous time frame is the frame delayed version of the direction of the active dominant source of the previous time frame and further Calculated from the frame delayed version.

発明の有利な更なる実施形態は、夫々の従属請求項において開示される。   Advantageous further embodiments of the invention are disclosed in the respective dependent claims.

高次アンビソニクス信号のドミナント及び無相関な指向性信号の方向の推定のための発明の処理のブロック図を示す。FIG. 3 shows a block diagram of the inventive process for estimation of dominant and uncorrelated directional signals in higher order ambisonics signals. 一応の方向推定の詳細を示す。Details of the direction estimation are shown. ドミナント音源によって生成される音場のHOA表現及びドミナント指向性信号の計算を示す。Fig. 4 shows the calculation of the HOA representation of the sound field generated by the dominant sound source and the dominant directional signal. 平滑化されたドミナント音源方向のモデルベースの計算を示す。FIG. 6 illustrates model-based computation of smoothed dominant source directions. 球座標系を示す。Indicates a spherical coordinate system. 異なるアンビソニクス次数Nについての且つ角度θ∈[0,π]についての正規化された分散関数ν(Θ)を示す。Figure 3 shows the normalized dispersion function ν N (Θ) for different ambisonic orders N and for the angle θε [0, π].

発明の例となる実施形態は、添付の図面を参照して記載される。   Exemplary embodiments of the invention will be described with reference to the accompanying drawings.

発明の方向追跡処理の原理は、図1において表されており、以下で説明される。方向追跡は、kがフレームインデックスであるとして、長さLのHOA係数シーケンスの入力フレームC(k)の連続した処理に基づくと考えられる。フレームは、次の式(1)として、「高次アンビソニクスの基本」の項において式(45)で特定されるHOA係数シーケンスに対して定義される:   The principle of the inventive direction tracking process is represented in FIG. 1 and will be described below. Direction tracking is considered to be based on continuous processing of input frames C (k) of length L HOA coefficient sequences, where k is the frame index. A frame is defined for the HOA coefficient sequence specified in equation (45) in the section “Basics of Higher Order Ambisonics” as the following equation (1):

Figure 0006374882
このとき、Tは、サンプリング周期を表し、B≦Lは、フレームシフトを示す。連続したフレームは重なり合っている、すなわち、B<Lであると考えることが妥当であるが、必須ではない。
Figure 0006374882
In this case, T S represents the sampling period, B ≦ L indicates a frameshift. Although it is reasonable to consider that consecutive frames overlap, ie B <L, it is not essential.

第1のステップ又は段階11において、HOA表現のk番目のフレームC(k)は、ドミナント音源について予備的解析をなされる。この処理の詳細な説明は、以下の「予備的な方向探索」の項で与えられる。特に、検出されたドミナント指向性信号の数
[外1]

Figure 0006374882
は、
対応する
[外2]
Figure 0006374882
とともに決定される。加えて、対応する個々のドミナント音源及び対応する瞬時指向性信号
[外3]
Figure 0006374882
(すなわち、一般平面波関数)によって生成される(と考えられる)HOA音場成分
[外4]
Figure 0006374882
が計算される。 In the first step or stage 11, the kth frame C (k) of the HOA representation is preliminarily analyzed for a dominant sound source. A detailed description of this process is given in the “Preliminary Direction Search” section below. In particular, the number of dominant directional signals detected [outside 1]
Figure 0006374882
Is
Corresponding [Outside 2]
Figure 0006374882
Determined with. In addition, corresponding individual dominant sound sources and corresponding instantaneous directional signals [Outside 3]
Figure 0006374882
HOA sound field component generated by (that is, considered to be a general plane wave function) [Outside 4]
Figure 0006374882
Is calculated.

個々の一応の方向推定及び関連する量は、順次に、すなわち、最初にd=1について、次いでd=2について、そして以降同様に、計算される。第1のステップで、原のHOA表現C(k)の指向性電力分布は、欧州特許出願第12305537.8号で提案されているように計算され、引き続いてドミナント音源の存在について解析される。ドミナント音源が検出される場合に、夫々の一応の方向推定
[外5]

Figure 0006374882
が計算される。加えて、対応する指向性信号xINST (1)(k)は、この音源によって生成されると考えられる現在フレームC(k)のその成分CDOM,CORR (1)(k)とともに、推定される。CDOM,CORR (1)(k)は、指向性信号xINST (1)(k)と相関するC(k)のその成分を表すと考えられる。最後に、HOA成分CDOM,CORR (1)(k)は、残余HOA表現CREM (2)(k)を得るために、C(k)から減じられる。d番目(d≧2)の一応の方向の推定は、C(k)の代わりに残余HOA表現CREM (d)(k)を用いる点のみを除いて、最初の一応の方向推定と全く同じように行われる。それによって、明らかに当然ながら、見つけられたd番目の音源によって生成される音場成分は、更なる方向探索について除外される。 Individual unidirectional direction estimates and associated quantities are calculated sequentially, ie first for d = 1, then for d = 2, and so on. In the first step, the directional power distribution of the original HOA representation C (k) is calculated as proposed in European Patent Application No. 123055537.8 and subsequently analyzed for the presence of a dominant sound source. When a dominant sound source is detected, each direction is estimated temporarily [Outside 5]
Figure 0006374882
Is calculated. In addition, the corresponding directional signal x INST (1) (k) is estimated along with its components C DOM, CORR (1) (k) of the current frame C (k) that are considered to be generated by this sound source. The C DOM, CORR (1) (k) is considered to represent that component of C (k) that correlates with directional signal x INST (1) (k). Finally, the HOA component C DOM, CORR (1) (k) is subtracted from C (k) to obtain the residual HOA expression C REM (2) (k). The d-th (d ≧ 2) tentative direction estimate is exactly the same as the first tentative direction estimate except that it uses the residual HOA representation C REM (d) (k) instead of C (k). To be done. Thereby, of course, the sound field component generated by the found d th sound source is excluded for further direction searches.

方向割り当てステップ又は段階13において、k番目のフレームにおいてステップ/段階11で見つけられたドミナント音源は、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)対応する音源へ割り当てられる。一方で、割り当ては、現在のフレーム(k)についての一応の方向推定
[外6]

Figure 0006374882
と、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)音源の平滑化された方向とを比較することによって、達成される。この平滑化された方向は組GΩ,DOM,ACT(k−1)に含まれており、それらのインデックスはJDOM,ACT(k−1)に含まれている。他方で、割り当てのために、フレームkでの検出されたドミナント音源の瞬時指向性信号
[外7]
Figure 0006374882
と、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)音源の指向性信号XACT(k−1)との間の相関が利用される。割り当ての結果は、Dが、追跡されるべき期待される音源の最大数を表すとして、割り当て関数
[外8]
Figure 0006374882
によって定式化される。このことは、d番目の新たに見つけられた音源が、インデックスfA,k(d)を持った以前にアクティブであった音源へ割り当てられることを意味する。 In the direction assignment step or stage 13, the dominant sound source found in step / stage 11 in the k th frame is assigned to the corresponding sound source that is active in (k−1) th frame. . On the other hand, the allocation is a temporary direction estimate for the current frame (k) [Out 6]
Figure 0006374882
And the smoothed direction of the sound source that is active (considered) in the (k−1) th frame. This smoothed direction is included in the set GΩ, DOM, ACT (k−1), and their indices are included in J DOM, ACT (k−1). On the other hand, for assignment, the instantaneous directional signal of the detected dominant source at frame k [outside 7]
Figure 0006374882
And the directional signal X ACT (k−1) of the sound source active (considered) in the (k−1) th frame is used. The result of the assignment is that the assignment function [outside 8], where D represents the maximum number of expected sound sources to be tracked
Figure 0006374882
Is formulated by This means that the dth newly found sound source is assigned to the previously active sound source with index fA, k (d).

平滑化されたドミナント音源方向のモデルベースの計算ステップ又は段階14で、平滑化されたドミナント源方向
[外9]

Figure 0006374882
は、フレーム(k−1)でのアクティブなドミナント音源のインデックスの組JDOM,ACT(k−1)と、フレーム(k−1)での対応するドミナント源方向推定の組GΩ,DOM,ACT(k−1)と、フレーム(k−2)及び(k−1)の間の夫々の源移動角度の組
[外10]
Figure 0006374882
と、見つけられたドミナント音源によって生成されると考えられるHOA音場成分
[外11]
Figure 0006374882
と、割り当て関数fA,Kとを用いることによって、欧州特許出願第12306485.9号で提案されている統計的な音源移動モデルに基づき計算される。このモデルベースの平滑化プロシージャの詳細な説明は、以下の「平滑化されたドミナント音源方向のモデルベースの計算」の項で与えられる。 In the model-based calculation step or stage 14 of the smoothed dominant source direction, the smoothed dominant source direction [outside 9]
Figure 0006374882
Is the set of active dominant source indices J DOM, ACT (k−1) at frame (k−1) and the corresponding set of dominant source direction estimates G Ω, DOM, at frame (k−1) . ACT (k-1) and each source movement angle set between frames (k-2) and (k-1) [outside 10]
Figure 0006374882
HOA sound field component that is considered to be generated by the found dominant sound source [Outside 11]
Figure 0006374882
And the allocation function f A, K is calculated based on the statistical sound source movement model proposed in European Patent Application No. 123066485.9. A detailed description of this model-based smoothing procedure is given in the section “Model-Based Calculation of Smoothed Dominant Source Direction” below.

最後のステップ又は段階15で、組JDOM,ACT(k)及びGΩ,DOM,ACT(k)に夫々含まれると考えられる目下アクティブなドミナント音源のインデックス及び方向は、ステップ/段階14からの平滑化されたドミナント源方向
[外12]

Figure 0006374882
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向及び夫々のインデックスを含む組GΩ、DOM,ACT(k−1)及びJDOM,ACT(k−1)とを用いて、決定される。この動作は、少数の連続したフレームについて検出されなかった音源を擬似的に非アクティブにしない目的を持つ。 In the last step or stage 15, the index and direction of the currently active dominant sound sources considered to be included in the sets J DOM, ACT (k) and GΩ, DOM, ACT (k) respectively are Smoothed dominant source direction [outside 12]
Figure 0006374882
And a set G Ω, DOM, ACT (k−1) and J DOM, ACT (k−) containing the smoothed direction of the sound source considered to be active in the (k−1) th frame and the respective indices. 1) and determined. This operation has the purpose of not making the sound source not detected for a small number of consecutive frames pseudo-inactive.

ステップ又は段階12は、フレームk−1のHOA表現C(k−1)と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向の組GΩ、DOM,ACT(k−1)とを用いて、(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号の計算を実行する。計算は、M. A. Poletti,“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”,J. Audio Eng. Soc.,Vo.53(11),pp.1004-1025,2005年において記載されるモードマッチングの原理に基づく。 Step or stage 12 consists of the HOA representation C (k−1) of frame k−1 and the smoothed direction set G Ω, DOM, of the sound sources considered to be active in the (k−1) th frame . Using ACT (k−1), the calculation of the directivity signal of the sound source considered to be active in the (k−1) -th frame is executed. The calculation is based on the principle of mode matching described in MA Poletti, “Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”, J. Audio Eng. Soc., Vo. 53 (11), pp. 1004-1025, 2005. based on.

源移動角度推定ステップ又は段階16で、フレームk−1でのドミナントのアクティブな音源の移動角度の組
[外13]

Figure 0006374882
は、(k−1)番目及び(k−2)番目のフレームにおいて夫々アクティブであると考えられる音源の平滑化された方向推定の2つの組GΩ,DOM,ACT(k−1)及びGΩ,DOM,ACT(k−2)から計算される。移動は、フレームk−2及びk−1の間で起こると理解される。アクティブなドミナント音源の移動角度は、フレームk−2でのその平滑化された方向推定と、フレームk−1でのその平滑化された方向推定との間の円弧である。 Set of movement angles of dominant active sound source at frame k−1 in the source movement angle estimation step or stage 16 [outside 13]
Figure 0006374882
Are the two sets G Ω, DOM, ACT (k−1) and G of the smoothed direction estimates of the sound source considered to be active in the (k−1) th and (k−2) th frames, respectively. Calculated from Ω, DOM, ACT (k−2). It is understood that the movement occurs between frames k-2 and k-1. The active dominant source movement angle is the arc between its smoothed direction estimate at frame k-2 and its smoothed direction estimate at frame k-1.

備考:フレームk−2についての方向推定が、フレームk−1においてアクティブであると考えられるドミナント音源について利用可能でない場合は、夫々の移動角度は、‘π’の最大値に設定され得る。一般に、第1のフレームk及びフレームk−1について処理を開始するときに値は未だ利用可能でなく、図1のステップ又は段階において入力される対応する設定又は値は、夫々、空であるか、又はゼロに設定される。   Note: If direction estimation for frame k-2 is not available for the dominant sound source that is considered active in frame k-1, the respective movement angle may be set to the maximum value of 'π'. In general, the values are not yet available when starting processing for the first frame k and frame k-1, and are the corresponding settings or values entered in the steps or stages of FIG. 1 respectively empty? Or set to zero.

この動作は、この音源の次の方向についての事前確率を、全ての可能な方向にわたってほぼ一様にならしめる。以下の「目下アクティブなドミナント音源のインデックス及び方向の決定」の項を参照されたい。   This action makes the prior probabilities for the next direction of the sound source almost uniform across all possible directions. See “Determining the Index and Direction of the Currently Active Dominant Sound Source” below.

フレーム遅延171乃至174は、夫々の信号を1フレームずつ遅延させている。   Frame delays 171 to 174 delay each signal one frame at a time.

以下で、上記のステップ及び段階は、より詳細に説明される。   In the following, the above steps and stages will be described in more detail.

[予備的な方向探索]
予備的な方法探索のステップ/段階11で、(フレームkにおいて)存在するドミナント音源の現在数
[外14]

Figure 0006374882
及び夫々の方向
[外15]
Figure 0006374882
は推定される。加えて、個々の音源によって生成されると考えられるHOA音場成分
[外16]
Figure 0006374882
は、対応する指向性信号
[外17]
Figure 0006374882
(すなわち、一般平面波関数)とともに、計算される。全ての先に列挙された量は、最初に方向インデックスd=1について、次いでd=2について、そして以降同様に、
[外18]
Figure 0006374882
になるまで、計算される。 [Preliminary direction search]
Current number of dominant sources present (at frame k) in preliminary method search step / stage 11 [outside 14]
Figure 0006374882
And their directions [outside 15]
Figure 0006374882
Is estimated. In addition, HOA sound field components that are considered to be generated by individual sound sources [Outside 16]
Figure 0006374882
Is the corresponding directional signal [outside 17]
Figure 0006374882
(Ie, a general plane wave function). All previously listed quantities are first for the direction index d = 1, then for d = 2 and so on.
[Outside 18]
Figure 0006374882
Calculated until

単一の方向dインデックスについての計算プロシージャは、図2に表されている。(d−1)番目の方向の推定後に生成される残りのHOA表現CREM (d)(k)(k番目の時間フレームについてのd番目の方向の推定に関連する。)は、この段階へ入力される。それによって、ループの開始時にCREM (1)(k)は原のHOAフレームC(k)に対応すると理解される。第1のステップ又は段階21で、残りのHOA表現CREM (d)(k)の指向性電力分布p(d)(k)は、単位球面上でほぼ一様に分布する所定の数Q個の離散的な試験方向Ω,q=1,...,Qについて計算される。具体的には、夫々の試験信号Ωは、次の式(2)に従って、傾斜角θ∈[0,π]及びアジマス角φq∈[0,2π]を含むベクトルとして定義される: The calculation procedure for a single direction d-index is represented in FIG. The remaining HOA representation C REM (d) (k) (related to the d-th direction estimate for the k-th time frame) generated after the (d-1) -th direction estimation goes to this stage. Entered. Thereby, at the start of the loop, C REM (1) (k) is understood to correspond to the original HOA frame C (k). In the first step or stage 21, the directional power distribution p (d) (k) of the remaining HOA representation C REM (d) (k) is a predetermined number Q distributed almost uniformly on the unit sphere. Discrete test directions Ω q , q = 1,. . . , Q. Specifically, each test signal Ω q is defined as a vector including the tilt angle θ q ∈ [0, π] and the azimuth angle φ q ∈ [0, 2π] according to the following equation (2):

Figure 0006374882
このとき、(・)は、転置を表す。指向性電力分布は、次のベクトル式(3)によって表される:
Figure 0006374882
At this time, (·) T represents transposition. The directional power distribution is represented by the following vector equation (3):

Figure 0006374882
その成分p (d)(k)は、k番目の時間フレームについての方向Ωに関連した表現CREM (d)(k)に残っている全てのドミナント音源の結合電力を表す。CREM (d)(k)からの指向性電力分布p(d)(k)の実際の計算は、欧州特許出願第12305537.8号で提案されているように実行されてよい。
Figure 0006374882
Its component p q (d) (k) represents the combined power of all dominant sound sources remaining in the representation C REM (d) (k) associated with the direction Ω q for the k th time frame. The actual calculation of the C REM (d) directional power distribution p from (k) (d) (k ) may be performed as suggested in European Patent Application No. 12305537.8.

ステップ又は段階22で、指向性電力分布p(d)(k)は、ドミナント音源の存在について解析される。ドミナント源を検出する1つの方法は、以下の「ドミナント音源の存在についての解析」の項で記載される。ドミナント音源の不在が検出される場合は、方向探索は停止され、見つけられたドミナント方向の総数は
[外19]

Figure 0006374882
に設定される。そうではなく、ドミナント音源が検出される場合は、座標原点に対するその方向
[外20]
Figure 0006374882
の一応の推定がステップ又は段階23で計算される。詳細については、以下の「ドミナント音源方向の探索」の項を参照されたい。 In step or stage 22, the directional power distribution p (d) (k) is analyzed for the presence of a dominant sound source. One method for detecting a dominant source is described below in the section “Analysis for the Presence of a Dominant Sound Source”. If the absence of a dominant sound source is detected, the direction search is stopped and the total number of dominant directions found is [outside 19].
Figure 0006374882
Set to Otherwise, if a dominant sound source is detected, its direction relative to the coordinate origin [outside 20]
Figure 0006374882
A temporary estimate is calculated in step or stage 23. For details, see the section “Searching for dominant sound source direction” below.

引き続いて、d番目のドミナント音源によって生成されると考えられる音場成分の夫々の指向性信号xINST (d)(k)及びHOA表現CDOM,CORR (d)(k)は、以下の「ドミナント音源によって生成される音場のドミナント指向性信号及びHOA表現の計算」の項においてより詳細に記載されるように、ステップ又は段階24で計算される。 Subsequently, each directional signal x INST (d) (k) of the sound field component considered to be generated by the d-th dominant sound source and the HOA expression C DOM, CORR (d) (k) are expressed as follows: Computed in step or stage 24 as described in more detail in the section “Calculating Dominant Directional Signals and HOA Representation of the Sound Field Generated by the Dominant Sound Source”.

最後に、ステップ又は段階25で、HOA成分CDOM,CORR (d)(k)は、次(すなわち、(d+1)番目)の指向性音源の探索のために使用される残余HOA表現CREM (d+1)(k)を得るために、CREM (d)(k)から減じられる。それによって、明らかに当然ながら、見つけられたd番目の音源によって生成される音場成分は、更なる方向探索については除外される。 Finally, in step or stage 25, the HOA component C DOM, CORR (d) (k) is the residual HOA representation C REM (respectively used for searching for the next (ie (d + 1) th) directional sound source. d + 1) subtracted from C REM (d) (k) to obtain (k). Obviously, of course, the sound field component generated by the found d-th sound source is excluded for further direction searches.

●ドミナント音源の存在の解析
REM (d)(k)によって表される音場内でドミナント音源の存在を検出するために、残りのHOA表現CREM (1)(k),...,CREM (d)(k)の指向性電力分布p(1)(k),...,p(d)(k)が考慮される。一方で、次の式(4)で表される分散比をモニタすることが妥当であることが実験的に分かっている:
Analysis of presence of dominant sound source In order to detect the presence of a dominant sound source in the sound field represented by C REM (d) (k), the remaining HOA representations C REM (1) (k),. . . , C REM (d) (k) directional power distribution p (1) (k),. . . , P (d) (k) are taken into account. On the other hand, it has been experimentally found that it is appropriate to monitor the dispersion ratio represented by the following equation (4):

Figure 0006374882
この分散比は、最初のHOA表現C(k)によって表される音場と比べられる、残りのHOA表現CREM (d)(k)によって表される音場の重要性の指標と見なされ得る。小さい比δ (d)(k)は、HOA表現CREM (d)(k)によって表される音源のいずれもがドミナントであると見なされるべきでないことを示す。他方で、次の式(5)によって表される、正規化された指向性電力分布pNORM (d)(k)及びpNORM (d−1)(k)の分散の比を見ることも妥当である:
Figure 0006374882
This variance ratio can be considered as an indicator of the importance of the sound field represented by the remaining HOA expression C REM (d) (k) compared to the sound field represented by the first HOA expression C (k). . A small ratio δ p (d) (k) indicates that none of the sound sources represented by the HOA representation C REM (d) (k) should be considered dominant. On the other hand, it is also reasonable to look at the ratio of the variances of the normalized directional power distributions p NORM (d) (k) and p NORM (d-1) (k) represented by the following equation (5) : Is:

Figure 0006374882
次の式(6)によって表される正規化された電力分布の要素pq、NORM (d)(k),q=1,...,Qは、次の式(7)によって、p(d)(k)の要素に応じて定義される:
Figure 0006374882
The normalized power distribution elements p q, NORM (d) (k), q = 1,. . . , Q are defined according to the elements of p (d) (k) by the following equation (7):

Figure 0006374882
Figure 0006374882

Figure 0006374882
分散var(pNORM (d)(k))は、指向性電力分布p(d)(k)の一様性の指標として見なされ得る。特に、分散は、全ての入力方向にわたって電力がより一様に分布するほどますます小さくなる。空間に広がったノイズの極端な場合において、分散var(pNORM (d)(k))は、ゼロの値に近づくべきである。そのような検討に基づき、分散比δp,NORM (d)(k)は、HOA表現CREM (d)(k)の指向性電力がCREM (d−1)(k)の指向性電力よりも一様に分布しているかどうかを示す。
Figure 0006374882
The variance var (p NORM (d) (k)) can be viewed as an indicator of the uniformity of the directional power distribution p (d) (k). In particular, the variance becomes smaller as the power is more evenly distributed across all input directions. In the extreme case of noise spreading in space, the variance var (p NORM (d) (k)) should approach a value of zero. Based on such a study, the dispersion ratio δ p, NORM (d) (k) is the directional power of the HOA expression C REM (d) (k) is the directional power of C REM (d−1) (k). Indicates whether the distribution is more uniform.

上記の検討を要約するよう、C(k)によって表される音場には少なくとも単一のドミナント音源が常に存在していると考えられ得る。すなわち、
[外21]

Figure 0006374882
である。更なるドミナント音源は、変数比δ (d)(k)の値がある所定の閾値ε<1を上回ったままであり、且つ、変数比の値は1よりも小さい場合に、(d≧2について)検出される。すなわち、ドミナント音源は、次の関係式(8)が成立する場合に、(d≧2について)検出される: To summarize the above discussion, it can be assumed that there is always at least a single dominant sound source in the sound field represented by C (k). That is,
[Outside 21]
Figure 0006374882
It is. A further dominant sound source is (d ≧) when the value of the variable ratio δ p (d) (k) remains above a certain threshold ε p <1 and the value of the variable ratio is less than 1. 2) detected. That is, a dominant sound source is detected (for d ≧ 2) when the following relation (8) holds:

Figure 0006374882
εの値は、何が‘ドミナント’を意味するのかの解釈に対して設定されるべきである。発明者は、妥当な選択がε=10−3によって与えられることに気付いた。
Figure 0006374882
The value of ε p should be set for the interpretation of what means 'dominant'. The inventor has realized that a reasonable choice is given by ε p = 10 −3 .

●ドミナント音源方向の探索
d番目の音源が検出された後、その方向
[外22]

Figure 0006374882
の一応の推定は、指向性電力分布p(d)(k)を用いることによって探索される。探索は、指向性電力が最大であるところの試験方向Ωを採ることによって、達成される。すなわち: ● Search for dominant sound source direction After the d-th sound source is detected, its direction [outside 22]
Figure 0006374882
Is estimated by using the directional power distribution p (d) (k). The search is accomplished by taking the test direction Ω q where the directional power is maximum. Ie:

Figure 0006374882
●ドミナント音源によって生成される音場のドミナント指向性信号及びHOA表現の計算
その後に、ドミナント源方向の一応の推定
[外23]
Figure 0006374882
を決定した後、夫々の指向性信号xINT (d)(k)は、同じ音源によって生成されると考えられる音場成分のHOA表現CDOM,CORR (d)(k)とともに、図3に従って計算される。ステップ又は段階31で、単位球面上にほぼ一様に分布すると考えられるO個のサンプリング位置ΩINIT,o,o=1,...,Oから成る固定の予め定義された球面グリッドGΩ,INITは回転されて、回転されたサンプリング位置ΩROT,o (d)(k),o=1,...,Oから成るグリッドGΩ,ROT (d)(k)を与える。回転は、第1の回転されたサンプリング位置ΩROT,1 (d)(k)が一応の方向推定
[外24]
Figure 0006374882
に対応するように実行される。
Figure 0006374882
● Calculation of dominant directional signal and HOA representation of sound field generated by dominant sound source.
Figure 0006374882
Each directional signal x INT (d) (k) is determined according to FIG. 3 together with the HOA representations C DOM, CORR (d) (k) of the sound field components that are considered to be generated by the same sound source. Calculated. In step or stage 31, O sampling positions Ω INIT, o , o = 1,. . . , O, the fixed predefined spherical grid G Ω, INIT is rotated and rotated to the sampled position Ω ROT, o (d) (k), o = 1,. . . , O, a grid GΩ, ROT (d) (k) is given. The rotation is estimated by the first rotated sampling position Ω ROT, 1 (d) (k). [Outside 24]
Figure 0006374882
It is executed to correspond to

ステップ又は段階32で、HOA表現CREM (d)(k)は、いわゆる空間領域に変形される。このとき、それは、回転されたグリッド方向ΩROT,o (d)(k),o=1,...,Oから観測者位置(すなわち、座標原点)に作用すると考えられるO個の平面波関数(グリッド指向性信号とも呼ばれる。)xo,INST (d)(k),o=1,...,Oによって等価に表される。平面波関数xo,INST (d)(k),o=1,...,Oを計算するよう、回転されたグリッド方向に対するモード行列
[外25]

Figure 0006374882
は、次のように、式(11)を用いて式(10)の通りに計算される: In step or stage 32, the HOA representation C REM (d) (k) is transformed into a so-called spatial domain. At this time, it means that the rotated grid direction Ω ROT, o (d) (k), o = 1,. . . , O from O plane wave functions (also referred to as grid directivity signals) that are considered to act on the observer position (ie, coordinate origin) x o, INST (d) (k), o = 1,. . . , O are equivalently represented. Plane wave function x o, INST (d) (k), o = 1,. . . , O, the mode matrix for the rotated grid direction [outside 25]
Figure 0006374882
Is calculated as in equation (10) using equation (11) as follows:

Figure 0006374882
Figure 0006374882

Figure 0006374882
次の式(12)の通りに、夫々のグリッド指向性信号xo,INST (d)(k)を、k番目の時間フレームの個々のサンプルから成る行ベクトルであるとする:
Figure 0006374882
Let each grid directional signal x o, INST (d) (k) be a row vector consisting of individual samples of the k th time frame, as in equation (12):

Figure 0006374882
このとき、Lは、解析されるHOA表現の長さ(サンプルにおける)を表し、全てのグリッド指向性信号の計算は、次の式(13)の通りに、球面調和関数変換(説明のために、以下の「球面調和関数変換」を参照されたい。)によって達成される:
Figure 0006374882
At this time, L represents the length of the HOA expression to be analyzed (in the sample), and the calculation of all grid directivity signals is performed by spherical harmonic transformation (for explanation) as shown in the following equation (13). , See “Spherical Harmonic Transformation” below):

Figure 0006374882
ドミナント音源方向の一応の推定
[外26]
Figure 0006374882
は、回転されたサンプリング位置ΩROT,1 (d)(k)に対応するので、一般平面波関数x1,INST (d)(k)は、所望のドミナント方向信号xINST (d)(k)と見なされ得る。すなわち:
Figure 0006374882
Dominant sound source direction estimation [Outside 26]
Figure 0006374882
Corresponds to the rotated sampling position Ω ROT, 1 (d) (k), so that the general plane wave function x 1, INST (d) (k) is the desired dominant direction signal x INST (d) (k). Can be considered. Ie:

Figure 0006374882
d番目の音源によって生成されるCREM (d)(k)のその成分を決定するよう、ステップ又は段階33で、この成分は、xINST (d)(k)から予測され得る平面波関数によって等価に表現されると仮定される。よって、グリッド指向性信号xo,INST (d)(k),o=2,...,Oは、xINST (d)(k)から予測されるよう試みられる。予測された信号は、
[外27]
Figure 0006374882
によって表される。
Figure 0006374882
In step or stage 33, this component is equivalent by a plane wave function that can be predicted from x INST (d) (k) to determine that component of C REM (d) (k) generated by the d th sound source. It is assumed that Therefore, the grid directivity signal x o, INST (d) (k), o = 2,. . . , O is attempted to be predicted from x INST (d) (k). The predicted signal is
[Outside 27]
Figure 0006374882
Represented by

そのような予測を達成する1つの方法は、予測される信号
[外28]

Figure 0006374882
を、フィルタが予測誤差を最小限するように決定される線形フィルタリングによってxINST (d)(k)から生成されると考えることである。フィルタが(解析フレームの存続期間と比較して)ごく短い存続期間の有限インパルス応答(FIR)フィルタであると考えられる場合は、予測誤差の最小化は、最先端の最小二乗技術を用いることによって達成され得る。 One way to achieve such prediction is to predict the signal [out 28]
Figure 0006374882
Is generated from x INST (d) (k) by linear filtering, which is determined to minimize the prediction error. If the filter is considered to be a finite impulse response (FIR) filter with a very short duration (compared to the duration of the analysis frame), prediction error minimization is achieved by using state-of-the-art least-squares techniques. Can be achieved.

最後に、ドミナント音源信号xINST (d)(k)及び全ての予測された相関成分のHOA表現は、次の式(15)の通りに、逆球面調和関数変換(説明のために、以下の「球面調和関数」の項を参照されたい。)によって、ステップ又は段階34で求められる: Finally, the dominant sound source signal x INST (d) (k) and the HOA representation of all predicted correlation components can be expressed as the following equation (15): (See “Spherical Harmonic Function” section).

Figure 0006374882
[以前にアクティブであったドミナント音源の指向性信号の計算]
(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号
[外29]
Figure 0006374882
は、式(20)に従って行列XACT(k−1)内に含まれる。この行列は、次の式(16)によってモードマッチング(上記のPolettiの文献を参照されたい。)を用いて計算される:
Figure 0006374882
[Calculation of directional signal of previously active dominant sound source]
(K-1) Directional signal of a sound source considered to be active in the frame No. [Outside 29]
Figure 0006374882
Are included in the matrix X ACT (k−1) according to equation (20). This matrix is calculated using mode matching (see Poletti's reference above) by the following equation (16):

Figure 0006374882
このとき、C(k−1)は、原のHOA音場表現の(k−1)番目のフレームを表し、
[外30]
Figure 0006374882
は、(k−1)番目のフレームにおいてアクティブであると考えられる音源の方向
[外31]
Figure 0006374882
に対するモード行列を表す。モード行列
[外32]
Figure 0006374882
は、次のように、式(18)を用いて式(17)によって計算される:
Figure 0006374882
At this time, C (k−1) represents the (k−1) th frame of the original HOA sound field expression,
[Outside 30]
Figure 0006374882
Is the direction of the sound source considered to be active in the (k−1) th frame [outside 31]
Figure 0006374882
Represents the mode matrix for. Mode matrix [Outside 32]
Figure 0006374882
Is calculated by equation (17) using equation (18) as follows:

Figure 0006374882
Figure 0006374882

Figure 0006374882
[方向割り当て]
上述されたように、一方で、図1のステップ/段階13での割り当ては、一応の方向推定
[外33]
Figure 0006374882
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向とを比較することによって、達成される。この平滑化された方向は、次の式(19)によって表される組に含まれる:
Figure 0006374882
[Direction assignment]
As described above, on the other hand, the assignment in step / stage 13 of FIG.
Figure 0006374882
And the smoothed direction of the sound source considered to be active in the (k−1) th frame. This smoothed direction is included in the set represented by the following equation (19):

Figure 0006374882
このとき、iACT,k−1(d′)は、(k−1)番目のフレームにおいてアクティブであると考えられるd′番目の音源のインデックスを表す。特に、
[外34]
Figure 0006374882
の組の間の角度
[外35]
Figure 0006374882
が小さければ小さいほど、d番目の新たに見つけられたドミナント音源方向は、インデックスiACT,k−1(d′)を持った以前にアクティブであった音源に対応する可能性がますます高くなると考えられる。
Figure 0006374882
At this time, i ACT, k−1 (d ′) represents the index of the d ′ th sound source that is considered to be active in the (k−1) th frame. In particular,
[Outside 34]
Figure 0006374882
Angle between pairs [Outside 35]
Figure 0006374882
The smaller the is, the more likely the d-th newly found dominant sound source direction is to correspond to the previously active sound source with index i ACT, k-1 (d ′) Conceivable.

他方で、割り当てのために、フレームkでの検出されたドミナント音源の瞬時指向性信号
[外36]

Figure 0006374882
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号XACT(k−1)との間の相関が利用される。ここで、フレームXACT(k−1)は、次の式(20)の通りに、(k−1)番目のフレームにおいてアクティブであると考えられる音源の個々の指向性信号
[外37]
Figure 0006374882
から成ると考えられる: On the other hand, for assignment, the instantaneous directional signal of the detected dominant source at frame k [outside 36]
Figure 0006374882
And the directional signal X ACT (k−1) of the sound source considered to be active in the (k−1) -th frame is used. Here, the frame X ACT (k−1) is an individual directivity signal of the sound source considered to be active in the (k−1) -th frame as shown in the following equation (20).
Figure 0006374882
Considered to consist of:

Figure 0006374882
この定義を用いると、2つの信号
[外38]
Figure 0006374882
の間の相関係数
[外39]
Figure 0006374882
の絶対値が高ければ高いほど、d番目の新たに見つけられたドミナント音源方向は、インデックスiACT,k−1(d′)を持った以前にアクティブであった音源に対応する可能性がますます高くなると仮定される。そのような仮定は、相関係数が2つの信号の間の線形依存性のための指標を与えると事実によって正当化される。
Figure 0006374882
Using this definition, two signals [outside 38]
Figure 0006374882
Correlation coefficient between [Outside 39]
Figure 0006374882
The higher the absolute value of, the more likely the d-th newly found dominant sound source direction will correspond to the previously active sound source with index i ACT, k-1 (d ′). It is assumed that it will become higher. Such an assumption is justified by the fact that the correlation coefficient gives an indication for the linear dependence between the two signals.

これらの検討に基づき、割り当てを特定する割り当て関数
[外40]

Figure 0006374882
は、次の費用関数(21)を最小化するように計算される: Allocation function that identifies allocation based on these considerations [Ex. 40]
Figure 0006374882
Is calculated to minimize the following cost function (21):

Figure 0006374882
(k−1)番目のフレーム内のいずれのアクティブな音源にも属さない方向インデックス
[外41]
Figure 0006374882
について、角度
[外42]
Figure 0006374882
は、ΘMINの最小角度に事実上設定されると暗に考えられる。このとき、例えば、ΘMIN=2π/N。更に、方向インデックス
[外43]
Figure 0006374882
についての相関係数
[外44]
Figure 0006374882
は、事実上ゼロに設定される。最初の動作は、d番目の新たに見つけられた方向
[外45]
Figure 0006374882
と以前にアクティブであったドミナント音源の方向との間の角度がΘMINよりも大きい場合に、この新たに見つけられた方向が新しい音源に属する傾向を有するとの効果を有する。
Figure 0006374882
(K-1) Direction index that does not belong to any active sound source in the frame (outside 41)
Figure 0006374882
About the angle [Outside 42]
Figure 0006374882
Is implicitly assumed to be effectively set to the minimum angle of Θ MIN . At this time, for example, Θ MIN = 2π / N. Furthermore, direction index [outside 43]
Figure 0006374882
Correlation coefficient for [Outside 44]
Figure 0006374882
Is effectively set to zero. The first action is the dth newly found direction [outside 45]
Figure 0006374882
If when the angle between the direction of a dominant sound source was active greater than theta MIN previously, this newly found was direction has the effect of having a tendency to belong to the new sound.

割り当ての問題は、H. W. Kuhn,“The Hungarian method for the assignment problem”,Naval research logistics quarterly,vol.2(1-2),pp.83-97,1995年において記載されている周知のハンガリアン法を用いるよって解かれ得る。   The problem of assignment is the well-known Hungarian method described in HW Kuhn, “The Hungarian method for the assignment problem”, Naval research logistics quarterly, vol. 2 (1-2), pp. 83-97, 1995. It can be solved by using it.

[平滑化されたドミナント音源方向のモデルベースの計算]
この項は、統計的な音源移動モデルに従って図1のステップ/段階14における平滑化されたドミナント音源方向の計算に対処する。この計算のための個々のステップは図4に表されており、以下で詳細に説明される。
[Model-based calculation of smoothed dominant sound source direction]
This term addresses the calculation of the smoothed dominant sound source direction in step / stage 14 of FIG. 1 according to a statistical sound source movement model. The individual steps for this calculation are represented in FIG. 4 and are described in detail below.

●ドミナント音源方向についての方向の事前確率関数の計算
新たに見つけられたドミナント音源方向についての方向の事前確率関数
[外46]

Figure 0006374882
は:
・フレーム(k−1)でのアクティブなドミナント音源のインデックスiACT,k−1(d′),d′=1,...,DACT(k−1)の組JDOM,ACT(k−1)と、
・フレーム(k−1)での対応するドミナント音源方向推定
[外47]
Figure 0006374882
の組GΩ,DOM,ACT(k−1)と、
・フレーム(k−2)及び(k−1)の間の夫々の源移動角度
[外48]
Figure 0006374882
の組
[外49]
Figure 0006374882
と、
・割り当て関数fA,k
を用いて、ステップ又は段階42で計算される。計算は、欧州特許出願第12306485.9号において紹介されている単純な音源移動予測モデルに基づく。特に、d番目の新たに見つけられたドミナント音源についての方向の事前確率関数
[外50]
Figure 0006374882
は、3次元空間における単位球面上のフォンミーゼス−フィッシャー分布の離散バージョンであると考えられる。 ● Calculation of direction prior probability function for dominant sound source direction Directional prior probability function for newly found dominant sound source direction [Outside 46]
Figure 0006374882
Is:
The index of the active dominant sound source i ACT, k−1 (d ′), d ′ = 1,. . . , D ACT (k−1) pair J DOM, ACT (k−1),
-Corresponding dominant sound source direction estimation in frame (k-1) [Outside 47]
Figure 0006374882
A set of G Ω, DOM, ACT (k−1),
-Each source movement angle between frames (k-2) and (k-1) [outside 48]
Figure 0006374882
Pair [outside 49]
Figure 0006374882
When,
Calculated in step or stage 42 using the allocation function f A, k . The calculation is based on a simple sound source movement prediction model introduced in European Patent Application 123066485.9. In particular, the prior probability function of direction for the d-th newly found dominant sound source [Outside 50]
Figure 0006374882
Is considered to be a discrete version of the von Mises-Fischer distribution on the unit sphere in three-dimensional space.

以下で、方向の事前確率関数
[外51]

Figure 0006374882
は、次の式(22)として、個々の試験方向Ω,q=1,...,Qについての確率
[外52]
Figure 0006374882
から成るベクトルによって与えられると考えられる: Below, prior probability function of direction [outside 51]
Figure 0006374882
Is the individual test directions Ω q , q = 1,. . . , Q probability [outside 52]
Figure 0006374882
Given a vector consisting of:

Figure 0006374882
個々の試験方向Ωについての事前確率を計算するよう、2つの場合が区別される:
a)d番目の新たに見つけられたドミナント音源に割り当てられる源インデックスfA,k(d)が組JDOM,ACT(k−1)に含まれる場合は、事前確率は、次の式(23)に従って計算される:
Figure 0006374882
Two cases are distinguished to calculate prior probabilities for individual test directions Ω q :
a) If the source index f A, k (d) assigned to the d-th newly found dominant sound source is included in the set J DOM, ACT (k−1), the prior probability is given by ) Is calculated according to:

Figure 0006374882
このとき、Θq,d(k)は、推定される方向
[外53]
Figure 0006374882
と試験方向Ωとの間の角度を表す。すなわち:
Figure 0006374882
At this time, Θ q, d (k) is estimated direction [outside 53]
Figure 0006374882
And the angle between the test direction Ω q . Ie:

Figure 0006374882
更に、k(k)は、次の式(25)に従って源移動角度推定
[外54]
Figure 0006374882
を用いて計算される濃度パラメータを表す:
Figure 0006374882
Furthermore, k d (k) is a source movement angle estimate according to the following equation (25) [Outside 54]
Figure 0006374882
Represent the concentration parameter calculated using

Figure 0006374882
このとき。Cは、次の関係(26)に設定されてよい:
Figure 0006374882
At this time. C D may be set to the following relationship (26):

Figure 0006374882
MAX及びCのための妥当な値は、次の関係(27)であることが分かっている(欧州特許出願第12306485.9号を参照):
Figure 0006374882
reasonable value for k MAX and C R are (see European Patent Application No. 12306485.9) the following relation (27) with which found to be:

Figure 0006374882
この計算の背後にある原理は、以前に音源が移動していなければいないほど、事前確率関数の濃度を増大させることである。音源が以前にたくさん動いている場合は、その一連の方向に関する不確かさは高く、よって、濃度パラメータは小さい値に達するべきである。
Figure 0006374882
The principle behind this calculation is to increase the concentration of the prior probability function the more the sound source has not moved previously. If the sound source has moved a lot in the past, the uncertainty in that series of directions is high, so the concentration parameter should reach a small value.

b)d番目に新たに見つけられたドミナント音源に割り当てられた源インデックスfA,k(d)が組JDOM,ACT(k−1)に含まれない場合は、夫々の音源は、以前にアクティブでなかったと考えられる。結果として、この源の方向に関する演繹的知識は実際には利用可能でない。よって、事前確率関数
[外55]

Figure 0006374882
は、単位球面において一様であると考えられる。このとき、個々の確率は、全ての試験方向Ωに関して等しい。すなわち: b) If the source index f A, k (d) assigned to the d-th newly found dominant sound source is not included in the set J DOM, ACT (k−1), then each sound source is Probably not active. As a result, a priori knowledge about the direction of this source is not actually available. Therefore, prior probability function [Outside 55]
Figure 0006374882
Is considered uniform on the unit sphere. The individual probabilities are then equal for all test directions Ω q . Ie:

Figure 0006374882
●ドミナント音源方向についての方向の尤度関数の計算
方向の尤度関数
[外56]
Figure 0006374882
は、割り当て関数fA,kに加えて、個々の新たに検出されたドミナント音源によって生成されると考えられるHOA音場成分
[外57]
Figure 0006374882
を用いて、ステップ又は段階41で計算される。方向の尤度関数
[外58]
Figure 0006374882
は、次の式(29)のように、個々の試験方向Ω,q=1,...,Qについての尤度
[外59]
Figure 0006374882
から成るベクトルあると考えられる:
Figure 0006374882
● Calculation of likelihood function of direction for dominant sound source direction Likelihood function [External 56]
Figure 0006374882
Is an HOA sound field component that is considered to be generated by each newly detected dominant sound source in addition to the assignment function f A, k [57]
Figure 0006374882
Is used in step or stage 41. Directional likelihood function [Outside 58]
Figure 0006374882
Is the individual test directions Ω q , q = 1,. . . , Q Likelihood [Outside 59]
Figure 0006374882
Consider a vector consisting of:

Figure 0006374882
個々の尤度
[外60]
Figure 0006374882
は、欧州特許出願第12305537.8号で記載されるように、試験方向Ωから作用する一般平面波の電力の近似であるよう計算される。特に:
Figure 0006374882
Individual likelihood [outside 60]
Figure 0006374882
Is calculated to be an approximation of the power of a general plane wave acting from the test direction Ω q as described in European Patent Application No. 123055537.8. In particular:

Figure 0006374882
このとき、次の式(31)で表されるものは、試験方向に対するモードベクトルを表し(なお、S (・)は、以下の「実数値の球面調和関数の定義」の項において記載される実数値の球面調和関数を表す。)、このとき、次の式(32)で表されるものは、HOA表現CDOM,CORR (d)(k)に対するHOA係数間相関行列を示す:
Figure 0006374882
At this time, what is expressed by the following equation (31) represents a mode vector with respect to the test direction (note that S n m (·) is described in the section “Definition of a real-valued spherical harmonic function” below) ), Where the following expression (32) represents the correlation matrix between HOA coefficients for the HOA expression C DOM, CORR (d) (k):

Figure 0006374882
Figure 0006374882

Figure 0006374882
●ドミナント音源方向についての方向の事後確率関数の計算
方向の事後確率関数
[外61]
Figure 0006374882
は、方向の事前確率関数
[外62]
Figure 0006374882
及び方向の尤度関数
[外63]
Figure 0006374882
を用いて、ステップ又は段階43で計算される。ここで、もう一度、方向の事後確率関数
[外64]
Figure 0006374882
は、次の式(33)のように、個々の試験方向Ω,q=1,...,Qについての事後確率
[外65]
Figure 0006374882
から成るベクトルあると考えられる:
Figure 0006374882
● Calculation of direction posterior probability function for dominant sound source direction Direction posterior probability function [Outside 61]
Figure 0006374882
Is the prior probability function of the direction [outside 62]
Figure 0006374882
And direction likelihood function [outside 63]
Figure 0006374882
Is used in step or stage 43. Here, again, the posterior probability function of the direction [Outside 64]
Figure 0006374882
Is the individual test direction Ω q , q = 1,. . . , Q posterior probability [outside 65]
Figure 0006374882
Consider a vector consisting of:

Figure 0006374882
個々の事後確率
[外66]
Figure 0006374882
は、次の式(34)ベのように、ベイズの規則に従って計算される(欧州特許出願第12306485.9号を参照):
Figure 0006374882
Individual posterior probabilities [External 66]
Figure 0006374882
Is calculated according to Bayes' rule, as in equation (34) (see European Patent Application No. 123066485.9):

Figure 0006374882
固定の方向インデックスdを考えると、式(34)の分母は夫々の試験方向Ωについて一定である。続く方向探索のために、事後確率関数の最大値のみが重要である場合に、そのような大域的なスケーリングは不適切である。よって、式(34)の分母の計算は、計算出力を節約するよう完全に断念され得ることが知られる。
Figure 0006374882
Considering a fixed direction index d, the denominator of equation (34) is constant for each test direction Ω q . Such global scaling is inappropriate when only the maximum value of the posterior probability function is important for subsequent direction searches. Thus, it is known that the calculation of the denominator of equation (34) can be completely abandoned to save calculation output.

●平滑化されたドミナント音源方向の計算
平滑化されたドミナント音源方向
[外67]

Figure 0006374882
は、事後確率関数
[外68]
Figure 0006374882
を用いて、ステップ又は段階44で計算される。特に、フレームkについて見つけられたd番目の音源の平滑化された方向
[外69]
Figure 0006374882
は、次の事後確率関数において最大値を探すことによって求められる: ● Calculation of smoothed dominant sound source direction Smoothed dominant sound source direction [Outside 67]
Figure 0006374882
Is the posterior probability function [External 68]
Figure 0006374882
Is used in step or stage 44. In particular, the smoothed direction of the d th sound source found for frame k [outer 69]
Figure 0006374882
Can be found by looking for the maximum in the following posterior probability function:

Figure 0006374882
[目下アクティブなドミナント音源のインデックス及び方向の決定]
フレームkでの全てのDACT(k)個のアクティブなドミナント音源のインデックスiact,k(d′),d′=1,...,DACT(k)の組JDOM,ACT(k)、及びフレームkでの対応するドミナント源方向の推定
[外70]
Figure 0006374882
の組GΩ,DOM,ACT(k)は、フレーム(k−1)での全てのアクティブなドミナント音源方向の平滑化された推定
[外71]
Figure 0006374882
の組GΩ,DOM,ACT(k−1)と、対応するインデックスiact,k−1(d),d′=1,...,DACT(k−1)と、フレームkについて求められた平滑化されたドミナント音源方向の推定
[外72]
Figure 0006374882
とを用いて、図1のステップ又は段階15で計算される。この演算は、少数の連続したフレームについて検出されていない音源を見かけ上非アクティブにしない目的を持ち、このようなことは、例えば、個々のインパルスの間に短い中断を伴ってインパルス様の音響を生成するカスタネットのような、源について起こり得る。このように、最後(すなわち、(k−1)番目)のふれーむにおいてアクティブであると考えられた音源を、それらが所定数KINACTの連続するフレームについて検出されなかった場合にのみ非アクティブにすることが妥当である。
Figure 0006374882
[Determining the index and direction of the currently active dominant sound source]
The indices i act, k (d ′), d ′ = 1,... Of all D ACT (k) active dominant sound sources in frame k. . . , D ACT (k), set J DOM, ACT (k), and estimation of corresponding dominant source direction at frame k [outer 70]
Figure 0006374882
The set G Ω, DOM, ACT (k) is a smoothed estimate of all active dominant source directions in frame (k−1) [outside 71]
Figure 0006374882
G Ω, DOM, ACT (k−1) and the corresponding index i act, k−1 (d), d ′ = 1,. . . , D ACT (k−1) and an estimate of the smoothed dominant source direction determined for frame k [out 72]
Figure 0006374882
Are used in step or stage 15 of FIG. This operation has the purpose of not apparently deactivating the undetected sound source for a small number of consecutive frames, such as the impulsive sound with short interruptions between individual impulses. This can happen with sources such as castanets that generate. Thus, sound sources considered active at the last (ie, (k−1) th) frame are inactive only if they are not detected for a predetermined number of K INACT consecutive frames. It is reasonable to

先の検討に従って、第1のステップで、フレーム(k−1)での全てのDACT(k−1)個のアクティブなドミナント音源のインデックスiACT,k−1(d′),d′=1,...,DACT(k−1)の組JDOM,ACT(k−1)と、次の式(36)で表される全ての新たに検出された音源のインデックスの組との結合された組JJOINED(k)は、計算される: In accordance with the previous discussion, in a first step, the index i ACT, k−1 (d ′), d ′ = of all D ACT (k−1) active dominant sources in frame (k−1). 1,. . . , DACT (k−1) pair J DOM, ACT (k−1) and all newly detected sound source index pairs represented by the following equation (36) are combined J JOINED (K) is calculated:

Figure 0006374882
すなわち:
Figure 0006374882
Ie:

Figure 0006374882
この組から、所望の組JDOM,ACT(k)は、多数のKINACT個の前の連続したフレームについて検出されなかった源のインデックスをJJOINED(k)から除外することによって求められる。フレームkでのアクティブなドミナント音源の数DACT(k)は、JDOM,ACT(k)の要素の数に設定される。
Figure 0006374882
From this set, the desired set J DOM, ACT (k) is determined by excluding from J JOINED (k) the index of the source that was not detected for a number of K INACT previous consecutive frames. The number of active dominant sound sources D ACT (k) in frame k is set to the number of elements of J DOM, ACT (k).

最後に、iact,k(d′)がJDOM,ACT(k)の要素を示すとして、ドミナント源方向推定
[外73]

Figure 0006374882
は、次の式(38)によって決定される: Finally, assuming that i act, k (d ′) represents an element of J DOM, ACT (k), the dominant source direction estimate [outside 73]
Figure 0006374882
Is determined by the following equation (38):

Figure 0006374882
これは、夫々の音源がフレームkで新たに検出されない場合に、以前にアクティブであったドミナント音源の方向が一定に保たれることを意味する。
Figure 0006374882
This means that the direction of the previously active dominant sound source is kept constant when each sound source is not newly detected in frame k.

[高次アンビソニクスの基本]
高次アンビソニクス(HOA)は、音源がないと考えられる関心のあるコンパクトな領域内での音場の記述に基づく。その場合に、関心のある領域内での時間t及び位置xでの音圧p(t,x)の時空間的な挙動は、同次波動方程式によって物理的に十分に決定される。以下で、図5に示される球座標系が考えられる。使用される座標系では、x軸は正面位置を指し示し、y軸は左を指し示し、z軸は上を指し示す。空間x(r,θ,φ)での位置は、半径r>0(すなわち、座標原点までの距離)、極軸zから測定される傾斜角度θ∈[0,π]、及びx軸からx−y平面において反時計回りで測定されるアジマス角φ∈[0,2π]によって表される。(・)は転置を表す。
[Basics of higher-order ambisonics]
Higher order ambisonics (HOA) is based on a description of the sound field in a compact area of interest that is considered to have no sound source. In that case, the spatio-temporal behavior of the sound pressure p (t, x) at time t and position x in the region of interest is physically well determined by the homogeneous wave equation. In the following, the spherical coordinate system shown in FIG. 5 is considered. In the coordinate system used, the x-axis points to the front position, the y-axis points to the left, and the z-axis points to the top. The position in space x (r, θ, φ) T is the radius r> 0 (ie, the distance to the coordinate origin), the tilt angle θ∈ [0, π] measured from the polar axis z, and the x axis. It is represented by the azimuth angle φε [0,2π] measured counterclockwise in the xy plane. (•) T represents transposition.

次いで、ωが角周波数を表し且つiが虚数単位を示すとして、F(・)、すなわち、次の式(39)によって表される、時間に対する音圧のフーリエ変換は、式(40)に従って、一連の球面調和関数に展開され得ることが示され得る(E. G. Williams,“Fourier Acoustics”,vol.93 of Applied Mathematical Sciences,Academic Press,1999年を参照): Then, assuming that ω represents an angular frequency and i represents an imaginary unit, F t (·), that is, the Fourier transform of sound pressure with respect to time, represented by the following equation (39), is given by equation (40): Can be shown to be expanded into a series of spherical harmonics (see EG Williams, “Fourier Acoustics”, vol. 93 of Applied Mathematical Sciences, Academic Press, 1999):

Figure 0006374882
Figure 0006374882

Figure 0006374882
式(40)で、cは音響の速度を表し、kは、k=ω/cによって角周波数ωに関連付けられる角波数を表し、j(・)は、第1種の球ベッセル関数を表し、S (θ,φ)は、以下の「実数値の球面調和関数の定義」の項で定義される次数n及び角度mの実数値の球面調和関数を表す。展開係数A (k)は、角波数kにのみ依存している。音圧は空間的に帯域制限されると暗に考えられる。よって、級数は、HOA表現の次数と呼ばれる上限値Nで次数インデックスnに対して切り捨てられる。
Figure 0006374882
In the formula (40), c s represents an acoustic velocity, k is the k = ω / c s represents the angular wavenumber associated with the angular frequency ω, j n (·) is the first kind of spherical Bessel functions S n m (θ, φ) represents a real-valued spherical harmonic function of order n and angle m defined in the section “Definition of Real-Valued spherical harmonic function” below. The expansion coefficient A n m (k) depends only on the angular wave number k. Sound pressure is considered implicit when it is spatially band limited. Therefore, the series is rounded down with respect to the order index n at the upper limit value N called the order of the HOA expression.

音場が、角度タプル(θ,φ)によって特定される全ての可能な方向から到来する異なる角周波数ωの無限数の調和平面波の重ね合わせによって表される場合に、夫々の平面波複素振幅関数C(ω,θ,φ)は、次の球面調和関数展開(41)によって表現され得ることが示され得る(B. Rafaely,“Plane-wave Decomposition of the Sound Field on a Sphere by Spherical Convolution”,J. Acoust. Soc. Am.,vol.4(116),pp.2149-2157,2004年を参照):   When the sound field is represented by a superposition of an infinite number of harmonic plane waves of different angular frequencies ω coming from all possible directions specified by the angle tuple (θ, φ), each plane wave complex amplitude function C It can be shown that (ω, θ, φ) can be expressed by the following spherical harmonic expansion (41) (B. Rafaely, “Plane-wave Decomposition of the Sound Field on a Sphere by Spherical Convolution”, J Acoust. Soc. Am., Vol. 4 (116), pp. 2149-2157, 2004):

Figure 0006374882
このとき、展開係数C (k)は、次の式(42)によって、展開係数A (k)に関連付けられる:
Figure 0006374882
At this time, the expansion coefficient C n m (k) is related to the expansion coefficient A n m (k) by the following equation (42):

Figure 0006374882
個々の係数C (k=ω/c)が角周波数ωの関数であるとする場合に、逆フーリエ変換(F−1(・)によって表される)の適用は、夫々の次数及び角度mについて、時間領域の関数(43)を与える:
Figure 0006374882
Given that the individual coefficients C nm (k = ω / cs ) are a function of the angular frequency ω, the application of the inverse Fourier transform (represented by F −1 (•)) Give the time domain function (43) for the angle m:

Figure 0006374882
これは、次の式(44)によって、単一ベクトルc(t)において収集され得る:
Figure 0006374882
This can be collected in a single vector c (t) by the following equation (44):

Figure 0006374882
ベクトルc(t)内の時間領域関数c (t)の位置インデックスは、n(n+1)+1+mによって与えられる。ベクトルc(t)における要素の全体数はO=(N+1)によって与えられる。
Figure 0006374882
The position index of the time domain function c n m (t) in the vector c (t) is given by n (n + 1) + 1 + m. The total number of elements in the vector c (t) is given by O = (N + 1) 2 .

最終のアンビソニクス様式は、次の式(45)のように、サンプリング周波数fを用いたc(t)のサンプリングされたバージョンを提供する: The final ambisonics style provides a sampled version of c (t) using the sampling frequency f S , as in equation (45):

Figure 0006374882
このとき、T=1/fはサンプリング周期を表す。c(lT)の要素はアンビソニクス係数と呼ばれる。時間領域信号c (t)、ひいてはアンビソニクス係数は、実数値である。
Figure 0006374882
At this time, T S = 1 / f S represents a sampling period. The element of c (lT S ) is called an ambisonic coefficient. The time domain signal c n m (t) and thus the ambisonic coefficient are real values.

●実数値の球面調和関数の定義
実数値の球面調和関数S (θ,φ)は、次の式(46)及び(47)によって表される:
● spherical harmonics S n m (theta, phi) of the definition real-valued spherical harmonics of real value is expressed by the following equation (46) and (47):

Figure 0006374882
関連するルジャンドル関数Pn,m(x)は、ルジャンドル多項式P(x)を用いて、上記のE. G. Williamsのテキストとは異なって、コンドン−ショートレイ位相項(−1)によらずに、次の式(48)のように定義される:
Figure 0006374882
The associated Legendre function P n, m (x) uses the Legendre polynomial P n (x) and, unlike the EG Williams text above, does not depend on the Condon-Shortley phase term (−1) m Is defined as the following equation (48):

Figure 0006374882
●高次アンビソニクスの空間分解能
方向Ω=(θ,φから到来する一般平面波関数x(t)は、次の式(49)によって、HOAにおいて表される:
Figure 0006374882
Spatial resolution of higher-order ambisonics Direction Ω 0 = (θ 0 , φ 0 ) The general plane wave function x (t) coming from T is expressed in the HOA by the following equation (49):

Figure 0006374882
平面波振幅の対応する空間密度
[外74]
Figure 0006374882
は、次の式(50)及び(51)によって与えられる:
Figure 0006374882
Corresponding spatial density of plane wave amplitude [outside 74]
Figure 0006374882
Is given by the following equations (50) and (51):

Figure 0006374882
式(51)から、それは一般平面波関数x(t)と空間分散関数ν(Θ)との積であることが分かる。このことは、次の式(52)によって表される性質をもって、ΩとΩとの間の角度Θののみ依存しているものとして示され得る:
Figure 0006374882
From equation (51), it can be seen that it is the product of the general plane wave function x (t) and the spatial dispersion function ν N (Θ). This can be shown as being dependent only on the angle Θ between Ω and Ω 0 with the properties represented by the following equation (52):

Figure 0006374882
期待されるように、無限次数、すなわち、N→∞の制限において、空間分散関数は、デラック・デルタδ(・)になる。すなわち:
Figure 0006374882
As expected, in the limit of infinite order, ie N → ∞, the spatial dispersion function becomes the deluxe delta δ (·). Ie:

Figure 0006374882
しかし、有限次数Nの場合に、方向Ωからの一般平面波の寄与は、近傍方向に不鮮明化される。このとき、不鮮明の程度は、次数の増大に伴って小さくなる。Nの異なる値についての正規化された関数ν(Θ)のプロットは図6で与えられている。
Figure 0006374882
However, for a finite order N, the contribution of the general plane wave from direction Ω 0 is smeared in the vicinity direction. At this time, the degree of blurring decreases as the order increases. A plot of the normalized function ν N (Θ) for different values of N is given in FIG.

あらゆる方向Ωについて、平面波振幅の空間密度の時間領域の挙動は、あらゆる他の方向でのその挙動の倍数である。特に、幾つかの固定方向Ω及びΩについての関数c(t,Ω)及びc(t,Ω)は、時間tに関して互いに大いに相関される。 For any direction Ω, the time domain behavior of the spatial density of the plane wave amplitude is a multiple of that behavior in any other direction. In particular, the functions c (t, Ω 1 ) and c (t, Ω 2 ) for several fixed directions Ω 1 and Ω 2 are highly correlated with respect to time t.

●球面調和関数変換
平面波振幅の空間密度が、単位球面上でほぼ一様に分布している多数のO個の空間方向Ω,1≦o≦Oで離散化される場合に、O個の指向性信号c(t,Ω)が得られる。それらの信号を次の式(54)のようにベクトルにまとめることを考える:
Spherical Harmonic Function Transformation When the spatial density of the plane wave amplitude is discretized in a number of O spatial directions Ω o , 1 ≦ o ≦ O distributed almost uniformly on the unit sphere, O A directional signal c (t, Ω o ) is obtained. Consider combining these signals into a vector as in equation (54):

Figure 0006374882
このベクトルは、次の式(55)のように単純マトリクス乗算によって、式(44)において定義される連続アンビソニクス表現d(t)から計算されることが、式(50)を用いることによって立証され得る:
Figure 0006374882
It is verified by using equation (50) that this vector is calculated from the continuous ambisonic representation d (t) defined in equation (44) by simple matrix multiplication as in equation (55) below. obtain:

Figure 0006374882
このとき、(・)は、共役転置を示し、Ψは、次の式(56)によって定義されるモード行列を表す:
Figure 0006374882
Where (·) H denotes a conjugate transpose and ψ denotes a mode matrix defined by the following equation (56):

Figure 0006374882
Ωoは、単位球面においてほぼ一様に分布しているので、モード行列は、一般に反転可能である。よって、連続アンビソニクス表現は、次の式(58)によって、指向性信号c(t,Ω)から計算され得る:
Figure 0006374882
Since Ωo is distributed almost uniformly on the unit sphere, the mode matrix is generally invertible. Thus, the continuous ambisonic representation can be calculated from the directional signal c (t, Ω o ) by the following equation (58):

Figure 0006374882
双方の式は、アンビソニクス表現と‘空間領域’との間の変換及び逆変換を構成する。それらの変換は、夫々、球面調和関数変換及び逆球面調和関数変換と称される。方向Ωは、単位球面においてほぼ一様に分布しているので、式(55)においてΨの代わりにΨ−1の使用を正当化する近似が存在する:
Figure 0006374882
Both equations constitute the transformation between the ambisonic representation and the 'spatial domain' and the inverse transformation. These transformations are referred to as spherical harmonic transformation and inverse spherical harmonic transformation, respectively. Since the direction Ω o is distributed almost uniformly in the unit sphere, there is an approximation that justifies the use of Ψ −1 instead of Ψ H in equation (55):

Figure 0006374882
上記の全ての関係は、離散時間領域についても有効である。
Figure 0006374882
All the above relationships are also valid for the discrete time domain.

発明の処理は、単一のプロセッサ又は電子回路によって、あるいは、並行して動作する及び/又は発明処理の異なる部分において動作する複数のプロセッサ若しくは電子回路によって、実行され得る。
いくつかの態様を記載しておく。
〔態様1〕
音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する方法であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算するステップを有し、
前記探索の夫々の繰り返しにおいて、夫々の更なる方向推定は、前に見つけられた音源の信号と相関する全ての成分が取り除かれている原のHOA表現を表す残余HOA表現から計算され、
現在の方向推定は、複数の予め定義された試験方向の中から選択され、聴取者位置で前記選択された方向から作用する前記残余HOA表現の関連する一般平面波の電力が、全ての他の試験方向の電力と比較して最大であるようにする、方法。
〔態様2〕
前記HOA係数の現在時間フレームについての前記選択された方向推定は、HOA係数の前の時間フレームにおいて見つけられたドミナント音源へ割り当てられ、最終の方向推定は、結果として得られる時間軌跡に対して平滑化される、
態様1に記載の方法。
〔態様3〕
前記平滑化は、ベイズ推定プロセスを実行することによって実行され、該ベイズ推定プロセスは、前記原のHOA表現のドミナント音源成分の指向性電力分布と、統計に基づく先験的な音源移動モデルとを利用する、
態様2に記載の方法。
〔態様4〕
前記統計に基づく先験的な音源移動モデルは、個々の音源の動きを、前記前の時間フレームにおけるそれらの方向の知識と、前記前の時間フレームと最後から2番目の時間フレームとの間での動きの知識とから統計的に予測する、
態様3に記載の方法。
〔態様5〕
前記HOA係数の前の時間フレームにおいて見つけられたドミナント音源への方向推定の前記割り当ては、方向推定及び前に見つけられた音源の方向の組の間の角度の連帯的な最小化と、方向推定に及び前記HOA係数の前の時間フレームにおいて見つけられたドミナント音源に関連した指向性信号の組の間の相関係数の絶対値の最大化とによって達成される、
態様3又は4に記載の方法。
〔態様6〕
音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する方法であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するステップと、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るステップと、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するステップと、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するステップと
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される、方法。
〔態様7〕
音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する装置であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するよう構成される手段と、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るよう構成される手段と、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するよう構成される手段と、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するよう構成される手段と
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される、装置。
〔態様8〕
検出されたドミナント指向性信号の数及び対応する一応の方向推定の決定において、前記対応するドミナント音源によって生成されるHOA音場成分は、対応する残余HOA表現を得るために、前記HOA係数の現在時間フレームから減算され、該減算の処理は、見つけられた音場成分が更なる方向探索について除外されるように、更なるそのような音場成分についてその都度の残りの残余HOA表現に基づき繰り返し実行される、
態様6に記載の方法、又は態様7に記載の装置。
〔態様9〕
単一の方向インデックについて、前記残りの残余HOA表現の指向性電力分布は、単位球面においてほぼ一様に分布する所定の数の離散的な試験方向について計算され、前記指向性電力分布は、ドミナント音源の存在について解析され、ドミナント音源の不在が検出される場合は、前記方向探索は停止され、ドミナント音源が検出される場合は、座標原点に対するその方向の一応の推定が計算される、
態様8に記載の方法、又は態様8に記載の装置。
〔態様10〕
ドミナント音源の一応の推定を決定した後、同じ音源によって生成されると推測される音場成分のHOA表現及び夫々の指向性信号は、
単位球面に一様に分布することを目標とされるサンプリング位置から成る固定の予め定義された球面グリッドを回転させて、回転されたサンプリング位置のグリッドを提供し、前記回転が、第1の回転されたサンプリング位置が前記一応の方向推定に対応するように実行されることと、
前記残りの残余HOA表現を、前記回転されたグリッド方向から座標原点に作用すると推測される対応する平面波関数によって等価に表現される空間領域へと変換し、ドミナント音源信号及びグリッド指向性信号を計算することと、
ドミナント音源信号からの前記グリッド指向性信号の予測を実行することと、
前記残りの残余HOA表現によって表される音場に対する前記ドミナント音源の寄与を表す、前記予測されたグリッド指向性信号のHOA表現を、逆球面調和関数変換によって計算することと
によって計算される、
態様8若しくは9に記載の方法、又は態様8若しくは9に記載の装置。
〔態様11〕
前記平滑化されたドミナント源方向の計算は、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、及び源移動角度の組を用いて、ドミナント音源方向について方向の事前確率関数を計算することと、
前記割り当て関数を用いて、且つ、ドミナント音源によって生成される前記HOA音場成分を用いて、ドミナント音源方向について方向の尤度関数を計算することと、
前記方向の尤度関数を用いて、且つ、前記方向の事前確率関数を用いて、ドミナント音源方向について方向の事後確率関数を計算することと、
ドミナント音源方向についての前記方向の事後確率関数を用いて、平滑化されたドミナント音源方向を決定することと
によって実行される、
態様6及び8乃至10のうちいずれか一項に記載の方法、又は態様7乃至10のうちいずれか一項に記載の装置。
The inventive process may be performed by a single processor or electronic circuit or by multiple processors or electronic circuits operating in parallel and / or operating in different parts of the inventive process.
Several aspects are described.
[Aspect 1]
A method for determining the direction of an uncorrelated sound source in a higher-order ambisonics representation called a HOA of a sound field,
Sequentially searching for a random direction estimate of the dominant sound source in the current time frame of the HOA coefficient and calculating a HOA sound field component generated by the corresponding dominant sound source;
In each iteration of the search, each further direction estimate is computed from a residual HOA representation that represents the original HOA representation with all components correlated with the previously found sound source signal removed,
The current direction estimate is selected from a plurality of predefined test directions, and the power of the associated general plane wave of the residual HOA representation acting from the selected direction at the listener position is determined by all other tests. A method that ensures that it is maximum compared to the direction power.
[Aspect 2]
The selected direction estimate for the current time frame of the HOA coefficient is assigned to the dominant sound source found in the previous time frame of the HOA coefficient, and the final direction estimate is smoothed against the resulting time trajectory. ,
A method according to aspect 1.
[Aspect 3]
The smoothing is performed by performing a Bayesian estimation process, which includes a directional power distribution of dominant source components of the original HOA representation and a statistical a priori source movement model. To use,
A method according to embodiment 2.
[Aspect 4]
The a priori sound source movement model based on the statistics shows the movement of individual sound sources between knowledge of their direction in the previous time frame and the last time frame and the last time frame. Predict statistically from knowledge of the movement of the
A method according to aspect 3.
[Aspect 5]
The assignment of the direction estimate to the dominant sound source found in the previous time frame of the HOA coefficient is based on the direction estimation and joint minimization of the angle between the previously found sound source direction set and the direction estimate. And maximizing the absolute value of the correlation coefficient between the set of directional signals associated with the dominant sound source found in the time frame prior to the HOA coefficient.
A method according to embodiment 3 or 4.
[Aspect 6]
A method for determining the direction of an uncorrelated sound source in a higher-order ambisonics representation called a HOA of a sound field,
Sequentially searching for a random direction estimate of the dominant sound source in the current time frame of the HOA coefficient, calculating a HOA sound field component generated by the corresponding dominant sound source, and calculating a corresponding directional signal;
By comparing the tentative direction estimate of the current time frame with the smoothed direction of the active sound source in the time frame before the HOA coefficient, and with the directional signal of the current time frame and the previous Assigning the calculated dominant sound source to the corresponding sound source active in the previous time frame by correlating with the directional signal of the active sound source in the time frame of
The assignment function, the set of smoothed directions in the previous time frame, the set of active dominant sound source indices in the previous time frame, between the penultimate time frame and the previous time frame Calculating a smoothed dominant source direction using the respective source movement angle sets and the HOA sound field component generated by the corresponding dominant sound source;
A frame delayed version of the smoothed dominant source direction, a direction of the active dominant source in the previous time frame, and a frame delayed version of the index of the active dominant source in the previous time frame. Using to determine an index and direction of the active dominant sound source of the current time frame;
Have
The directional signal of the sound source active in the previous time frame uses mode matching from the frame delayed version of the active dominant sound source direction of the previous time frame and the HOA coefficient of the previous time frame. Calculated,
The set of source movement angles between the penultimate time frame and the previous time frame is the frame delayed version of the direction of the active dominant source of the previous time frame and further A method, calculated from the frame delayed version.
[Aspect 7]
An apparatus for determining the direction of an uncorrelated sound source in a high-order ambisonic representation called a HOA of a sound field,
Means configured to sequentially search for a random direction estimate of the dominant sound source in the current time frame of the HOA coefficient, calculate a HOA sound field component generated by the corresponding dominant sound source, and calculate a corresponding directional signal; ,
By comparing the tentative direction estimate of the current time frame with the smoothed direction of the active sound source in the time frame before the HOA coefficient, and with the directional signal of the current time frame and the previous Means configured to assign the calculated dominant sound source to a corresponding sound source active in the previous time frame to obtain an assignment function by correlating with a directional signal of an active sound source in a time frame of When,
The assignment function, the set of smoothed directions in the previous time frame, the set of active dominant sound source indices in the previous time frame, between the penultimate time frame and the previous time frame Means configured to calculate a smoothed dominant source direction using a respective set of source movement angles and the HOA sound field component generated by the corresponding dominant sound source;
A frame delayed version of the smoothed dominant source direction, a direction of the active dominant source in the previous time frame, and a frame delayed version of the index of the active dominant source in the previous time frame. Means adapted to determine an index and direction of the active dominant sound source of the current time frame;
Have
The directional signal of the sound source active in the previous time frame uses mode matching from the frame delayed version of the active dominant sound source direction of the previous time frame and the HOA coefficient of the previous time frame. Calculated,
The set of source movement angles between the penultimate time frame and the previous time frame is the frame delayed version of the direction of the active dominant source of the previous time frame and further A device calculated from a frame delayed version.
[Aspect 8]
In determining the number of detected dominant directional signals and the corresponding tentative direction estimate, the HOA sound field component generated by the corresponding dominant sound source is the current HOA coefficient to obtain the corresponding residual HOA representation. Subtracted from the time frame, the subtraction process is repeated based on the remaining residual HOA representations for each such sound field component, such that the found sound field component is excluded for further direction searches. Executed,
The method according to aspect 6 or the apparatus according to aspect 7.
[Aspect 9]
For a single directional index, the directional power distribution of the remaining residual HOA representation is calculated for a predetermined number of discrete test directions that are approximately uniformly distributed in the unit sphere, and the directional power distribution is calculated as a dominant power distribution. If the presence of a sound source is analyzed and the absence of a dominant sound source is detected, the direction search is stopped, and if a dominant sound source is detected, a linear estimate of that direction relative to the coordinate origin is calculated.
The method according to aspect 8, or the apparatus according to aspect 8.
[Aspect 10]
After determining a tentative estimate of the dominant sound source, the HOA representation of the sound field components that are assumed to be generated by the same sound source and the respective directional signals are
Rotating a fixed predefined spherical grid of sampling positions targeted to be uniformly distributed on the unit sphere to provide a grid of rotated sampling positions, the rotation being a first rotation A sampled sampling position is performed to correspond to the temporary orientation estimation;
Transform the remaining residual HOA representation into a spatial domain equivalently represented by a corresponding plane wave function that is assumed to act on the coordinate origin from the rotated grid direction, and calculate a dominant source signal and grid directivity signal To do
Performing a prediction of the grid directional signal from a dominant source signal;
Computing an HOA representation of the predicted grid directivity signal representing the contribution of the dominant sound source to the sound field represented by the remaining residual HOA representation by inverse spherical harmonic transformation.
Calculated by the
The method according to aspect 8 or 9, or the apparatus according to aspect 8 or 9.
[Aspect 11]
The calculation of the smoothed dominant source direction is
Using the assignment function, the set of smoothed directions in the previous time frame, the set of active dominant sound source indices in the previous time frame, and the set of source movement angles, the direction a priori for the dominant sound source direction Calculating a probability function;
Using the allocation function and using the HOA sound field component generated by a dominant sound source to calculate a likelihood function of direction for a dominant sound source direction;
Using the likelihood function of the direction and calculating the posterior probability function of the direction with respect to the dominant sound source direction using the prior probability function of the direction;
Determining a smoothed dominant sound source direction using a posterior probability function of the direction with respect to the dominant sound source direction;
Executed by the
A method according to any one of aspects 6 and 8 to 10, or an apparatus according to any one of aspects 7 to 10.

Claims (10)

音場の高次アンビニソニクス(HOA)表現における無相関な音源の方向を決定する方法であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の予備的な方向推定を探索するステップと、
対応するドミナント音源に基づきHOA音場成分を決定するステップと
を有し、
現在の方向推定は、前に見つけられた音源の信号と相関する全ての成分が取り除かれている原のHOA表現を表す残余HOA表現に基づき決定され、
前記現在の方向推定は、前記残余HOA表現の関連する一般平面波の電力が、全ての他の試験方向の夫々の電力と比較して、聴取者位置に対してある方向から作用することに基づき、複数の予め定義された試験方向の中から選択され、
前記HOA係数の現在時間フレームについての前記現在の方向推定は、HOA係数の前の時間フレームの少なくとも1つのドミナント音源へ割り当てられ、時間軌跡に対して平滑化される、方法。
A method for determining the direction of an uncorrelated sound source in a higher order ambiniconics (HOA) representation of a sound field,
Searching for a preliminary direction estimate of the dominant sound source in the current time frame of the HOA coefficient;
Corresponding and a Ru determine Teisu steps HOA sound field component based on the dominant sound source,
The current direction estimate is determined based on a residual HOA representation that represents the original HOA representation with all components correlated with the previously found sound source signal removed,
The current direction estimate is based on the power of the associated general plane wave in the residual HOA representation acting from one direction relative to the listener position compared to the respective power in all other test directions, Selected from a plurality of predefined test directions,
The method wherein the current direction estimate for the current time frame of the HOA coefficient is assigned to at least one dominant source of the time frame prior to the HOA coefficient and smoothed with respect to the time trajectory.
前記平滑化は、ベイズ推定プロセスに基づき、該ベイズ推定プロセスは、前記原のHOA表現のドミナント音源成分の指向性電力分布と、統計に基づく先験的な音源移動モデルとを利用する、
請求項1に記載の方法。
The smoothing is based on a Bayesian estimation process, which utilizes a directional power distribution of dominant source components of the original HOA representation and an a priori source movement model based on statistics.
The method of claim 1.
前記統計に基づく先験的な音源移動モデルは、個々の音源の動きを、前記前の時間フレームにおけるそれらの方向と、前記前の時間フレームと最後から2番目の時間フレームとの間での動きとに基づき、統計的に予測する、
請求項2に記載の方法。
The a priori sound source movement model based on the statistics shows the movement of individual sound sources in their direction in the previous time frame and the movement between the previous time frame and the penultimate time frame. Based on and statistically predict,
The method of claim 2.
方向推定は、方向推定及び前に見つけられた音源の方向の組の間の角度の連帯的な最小化と、方向推定に及び前記HOA係数の前の時間フレームにおいて見つけられたドミナント音源に関連した指向性信号の組の間の相関係数の絶対値の最大化とに基づき、前記HOA係数の前の時間フレームのドミナント音源に割り当てられる、
請求項2に記載の方法。
Direction estimation was related to direction estimation and joint minimization of the angle between previously found sound source direction sets, and to direction estimation and dominant sound sources found in the time frame before the HOA coefficient. Based on maximizing the absolute value of the correlation coefficient between the set of directional signals and assigned to the dominant sound source of the time frame before the HOA coefficient,
The method of claim 2.
音場の高次アンビニソニクス(HOA)表現における無相関な音源の方向を決定する方法であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の予備的な方向推定を探索するステップと、
対応するドミナント音源に基づきHOA音場成分を決定し、対応する指向性信号を決定するステップと、
前記現在時間フレームの前記予備的な方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することに基づき、前記ドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てるステップであり、該割り当ては、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号との相関に更に基づき、割り当て関数を得るステップと、
前記割り当て関数、前記前の時間フレームにおける平滑化されたドミナント源方向、前記前の時間フレームにおけるアクティブなドミナント音源のインデックス、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度、及び前記対応するドミナント音源に基づく前記HOA音場成分に基づき、平滑化されたドミナント源方向を決定するステップと、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームの前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンに基づき、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するステップと
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数に基づくモードマッチングに基づき決定され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンに基づき決定される、方法。
A method for determining the direction of an uncorrelated sound source in a higher order ambiniconics (HOA) representation of a sound field,
Searching for a preliminary direction estimate of the dominant sound source in the current time frame of the HOA coefficient;
Determining a HOA sound field component based on a corresponding dominant sound source and determining a corresponding directional signal;
Based on comparing the preliminary direction estimate of the current time frame with the smoothed direction of the sound source active in the time frame prior to the HOA coefficient, the dominant sound source is activated in the previous time frame. Assigning to a corresponding sound source, the assignment further comprising obtaining an assignment function based further on a correlation between the directional signal of the current time frame and a directional signal of an active sound source active in the previous time frame; ,
The allocation function, the smoothed dominant source direction in the previous time frame, the index of the active dominant sound source in the previous time frame, and the last second time frame and the previous time frame, respectively. Determining a smoothed dominant source direction based on the source movement angle and the HOA sound field component based on the corresponding dominant sound source;
A frame-delayed version of the smoothed dominant source direction, a frame-delayed version of the active dominant source in the previous time frame, and a frame-delayed version of the index of the active dominant source in the previous time frame And determining an index and direction of the active dominant sound source of the current time frame based on:
The directional signal of the sound source active in the previous time frame is subjected to mode matching based on the frame delayed version of the direction of the active dominant sound source of the previous time frame and the HOA coefficient of the previous time frame. Based on
The source movement angle between the penultimate time frame and the previous time frame is the frame-delayed version of the direction of the active dominant sound source of the previous time frame and further the frame delay The method is determined based on the released version.
音場の高次アンビニソニクス(HOA)表現における無相関な音源の方向を決定する装置であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の予備的な方向推定を探索し、対応するドミナント音源に基づきHOA音場成分を決定するよう構成され、更には、対応する指向性信号を決定するよう構成されるプロセッサを有し、
前記プロセッサは、前記現在時間フレームの前記予備的な方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向との比較に基づき、前記ドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てるよう更に構成され、該割り当ては、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号との相関に更に基づいて、割り当て関数を得、
前記プロセッサは、前記割り当て関数、前記前の時間フレームにおける平滑化されたドミナント源方向、前記前の時間フレームにおけるアクティブなドミナント音源のインデックス、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度、及び前記対応するドミナント音源に基づく前記HOA音場成分に基づき、平滑化されたドミナント源方向を決定するよう更に構成され、
前記プロセッサは、前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンに基づき、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するよう更に構成され、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数に基づくモードマッチングに基づき決定され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンに基づき決定される、装置。
A device for determining the direction of an uncorrelated sound source in a higher-order ambiniconic (HOA) representation of a sound field,
Configured to search for a preliminary direction estimate of the dominant sound source in a current time frame of the HOA coefficient, determine a HOA sound field component based on the corresponding dominant sound source, and further determine a corresponding directional signal; Having a processor,
The processor determines the dominant sound source to the previous time frame based on a comparison of the preliminary direction estimate of the current time frame and a smoothed direction of an active sound source in the time frame prior to the HOA coefficient. Is further configured to assign to a corresponding sound source active in the assignment, the assignment further based on a correlation between the directional signal of the current time frame and the directional signal of the sound source active in the previous time frame. And
The processor includes the allocation function, a smoothed dominant source direction in the previous time frame, an index of an active dominant source in the previous time frame, a penultimate time frame and the previous time frame. Further configured to determine a smoothed dominant source direction based on each source movement angle between and the HOA sound field component based on the corresponding dominant sound source;
The processor includes a frame delayed version of the smoothed dominant source direction, a frame delayed version of the active dominant source direction of the previous time frame, and an index of the active dominant source index in the previous time frame. Further configured to determine an index and direction of the active dominant sound source of the current time frame based on
The directional signal of the sound source active in the previous time frame is subjected to mode matching based on the frame delayed version of the direction of the active dominant sound source of the previous time frame and the HOA coefficient of the previous time frame. Based on
The source movement angle between the penultimate time frame and the previous time frame is the frame-delayed version of the direction of the active dominant sound source of the previous time frame and further the frame delay The device is determined based on the released version.
検出されたドミナント指向性信号及び対応する予備的な方向推定の決定は、対応する残余HOA表現を得るために、前記HOA係数の現在時間フレームからの前記対応するドミナント音源の減算に基づき、HOA音場成分を決定することを更に含み、該減算の処理は、更なる音場成分についてのその都度の残りの残余HOA表現について繰り返し実行され、前記音場成分が更なる方向探索について除外されるようにする、
請求項5に記載の方法。
The determination of the detected dominant directional signal and the corresponding preliminary direction estimate is based on subtraction of the corresponding dominant sound source from the current time frame of the HOA coefficient to obtain a corresponding residual HOA representation. Further including determining a field component, wherein the subtraction process is repeated for each remaining residual HOA expression for each additional sound field component such that the sound field component is excluded for further direction searches. To
The method of claim 5.
単位球面においてほぼ一様に分布する所定の数の離散的な試験方向について表現を決定するステップを更に有し、
指向性電力分布は、ドミナント音源の存在について解析され、ドミナント音源の不在の決定に基づき、前記方向探索は停止され、ドミナント音源の検出の決定に基づき、座標原点に対するその方向の予備的な推定は決定される、
請求項7に記載の方法。
Determining a representation for a predetermined number of discrete test directions distributed substantially uniformly in the unit sphere;
The directional power distribution is analyzed for the presence of a dominant sound source, based on the determination of the absence of a dominant sound source, the direction search is stopped, and based on the determination of the detection of the dominant sound source, a preliminary estimate of that direction relative to the coordinate origin is It is determined,
The method of claim 7.
同じ音源に基づく音場成分のHOA表現及び夫々の指向性信号は、
単位球面に一様に分布することを目標とされるサンプリング位置から成る固定の予め定義された球面グリッドを回転させて、回転されたサンプリング位置のグリッドを決定し、前記回転が、第1の回転されたサンプリング位置が前記予備的な方向推定に対応するように実行されることと、
前記残りの残余HOA表現を空間領域へと変換し、ドミナント音源信号及びグリッド指向性信号を決定することと、
ドミナント音源信号からの前記グリッド指向性信号の予測を実行することと、
前記残りの残余HOA表現によって表される音場に対する前記ドミナント音源の寄与を表す、前記予測されたグリッド指向性信号のHOA表現を、逆球面調和関数変換に基づき決定することと
に基づき決定される、
請求項8に記載の方法。
HOA representation of sound field components based on the same sound source and each directional signal are
Rotating a fixed predefined spherical grid of sampling positions targeted to be uniformly distributed on the unit sphere to determine a grid of rotated sampling positions, said rotation being a first rotation The performed sampling positions correspond to the preliminary direction estimate;
Transforming the remaining residual HOA representation into a spatial domain to determine a dominant source signal and a grid directivity signal;
Performing a prediction of the grid directional signal from a dominant source signal;
Determining an HOA representation of the predicted grid directional signal representing the contribution of the dominant sound source to the sound field represented by the remaining residual HOA representation based on an inverse spherical harmonic transformation. ,
The method of claim 8.
前記平滑化されたドミナント源方向は、
前記割り当て関数、前記前の時間フレームにおける平滑化されたドミナント源方向、前記前の時間フレームにおけるアクティブなドミナント音源のインデックス、及び前記源移動角度に基づき、ドミナント音源方向についての方向の事前確率関数を決定することと、
前記割り当て関数と、ドミナント音源によって生成される前記HOA音場成分とに基づき、ドミナント音源方向についての方向の尤度関数を決定することと、
前記方向の尤度関数及び前記方向の事前確率関数に基づき、ドミナント音源方向についての方向の事後確率関数を決定することと、
ドミナント音源方向についての前記方向の事後確率関数に基づき、平滑化されたドミナント音源方向を決定することと
に基づき決定される、
請求項5に記載の方法。
The smoothed dominant source direction is
Based on the allocation function, the smoothed dominant source direction in the previous time frame, the index of the active dominant source in the previous time frame, and the source movement angle, a prior probability function of direction for the dominant source direction To decide,
Determining a likelihood function of a direction for a dominant sound source direction based on the allocation function and the HOA sound field component generated by a dominant sound source;
Determining a direction posterior probability function for a dominant sound source direction based on the likelihood function of the direction and the prior probability function of the direction;
Determining a smoothed dominant sound source direction based on a posterior probability function of said direction with respect to the dominant sound source direction;
The method of claim 5.
JP2015556516A 2013-02-08 2014-02-07 Method and apparatus for determining the direction of uncorrelated sound sources in higher-order ambisonic representations of sound fields Active JP6374882B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20130305156 EP2765791A1 (en) 2013-02-08 2013-02-08 Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
EP13305156.5 2013-02-08
PCT/EP2014/052479 WO2014122287A1 (en) 2013-02-08 2014-02-07 Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field

Publications (3)

Publication Number Publication Date
JP2016509812A JP2016509812A (en) 2016-03-31
JP2016509812A5 JP2016509812A5 (en) 2017-02-09
JP6374882B2 true JP6374882B2 (en) 2018-08-15

Family

ID=47780000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015556516A Active JP6374882B2 (en) 2013-02-08 2014-02-07 Method and apparatus for determining the direction of uncorrelated sound sources in higher-order ambisonic representations of sound fields

Country Status (7)

Country Link
US (1) US9622008B2 (en)
EP (2) EP2765791A1 (en)
JP (1) JP6374882B2 (en)
KR (1) KR102220187B1 (en)
CN (1) CN104995926B (en)
TW (1) TWI647961B (en)
WO (1) WO2014122287A1 (en)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US10448188B2 (en) 2015-09-30 2019-10-15 Dolby Laboratories Licensing Corporation Method and apparatus for generating 3D audio content from two-channel stereo content
CN105516875B (en) * 2015-12-02 2020-03-06 上海航空电器有限公司 Apparatus for rapidly measuring spatial angular resolution of virtual sound generating device
GR1008860B (en) * 2015-12-29 2016-09-27 Κωνσταντινος Δημητριου Σπυροπουλος System for the isolation of speakers from audiovisual data
US10089063B2 (en) 2016-08-10 2018-10-02 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
JP6723120B2 (en) * 2016-09-05 2020-07-15 本田技研工業株式会社 Acoustic processing device and acoustic processing method
CN107147975B (en) * 2017-04-26 2019-05-14 北京大学 A kind of Ambisonics matching pursuit coding/decoding method put towards irregular loudspeaker
US10893373B2 (en) 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
FR3074584A1 (en) * 2017-12-05 2019-06-07 Orange PROCESSING DATA OF A VIDEO SEQUENCE FOR A ZOOM ON A SPEAKER DETECTED IN THE SEQUENCE
CN110751956B (en) * 2019-09-17 2022-04-26 北京时代拓灵科技有限公司 Immersive audio rendering method and system
CN111933182B (en) * 2020-08-07 2024-04-19 抖音视界有限公司 Sound source tracking method, device, equipment and storage medium
CN112019971B (en) * 2020-08-21 2022-03-22 安声(重庆)电子科技有限公司 Sound field construction method and device, electronic equipment and computer readable storage medium
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9915398D0 (en) 1999-07-02 1999-09-01 Baker Matthew J Magnetic particles
FR2801108B1 (en) 1999-11-16 2002-03-01 Maxmat S A CHEMICAL OR BIOCHEMICAL ANALYZER WITH REACTIONAL TEMPERATURE REGULATION
FR2839565B1 (en) 2002-05-07 2004-11-19 Remy Henri Denis Bruno METHOD AND SYSTEM FOR REPRESENTING AN ACOUSTIC FIELD
FR2858403B1 (en) 2003-07-31 2005-11-18 Remy Henri Denis Bruno SYSTEM AND METHOD FOR DETERMINING REPRESENTATION OF AN ACOUSTIC FIELD
US8848481B2 (en) 2008-07-08 2014-09-30 Bruel & Kjaer Sound & Vibration Measurement A/S Reconstructing an acoustic field
EP2285139B1 (en) * 2009-06-25 2018-08-08 Harpex Ltd. Device and method for converting spatial audio signal
EP2486561B1 (en) * 2009-10-07 2016-03-30 The University Of Sydney Reconstruction of a recorded sound field
ES2472456T3 (en) * 2010-03-26 2014-07-01 Thomson Licensing Method and device for decoding a representation of an acoustic audio field for audio reproduction
WO2012025580A1 (en) * 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2738962A1 (en) 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
US9913064B2 (en) * 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers

Also Published As

Publication number Publication date
US20150373471A1 (en) 2015-12-24
KR102220187B1 (en) 2021-02-25
CN104995926A (en) 2015-10-21
WO2014122287A1 (en) 2014-08-14
JP2016509812A (en) 2016-03-31
KR20150115779A (en) 2015-10-14
US9622008B2 (en) 2017-04-11
EP2765791A1 (en) 2014-08-13
CN104995926B (en) 2017-12-26
TW201448616A (en) 2014-12-16
EP2954700B1 (en) 2018-03-07
EP2954700A1 (en) 2015-12-16
TWI647961B (en) 2019-01-11

Similar Documents

Publication Publication Date Title
JP6374882B2 (en) Method and apparatus for determining the direction of uncorrelated sound sources in higher-order ambisonic representations of sound fields
Erdogan et al. Improved MVDR beamforming using single-channel mask prediction networks.
Pavlidi et al. 3D localization of multiple sound sources with intensity vector estimates in single source zones
KR20180069299A (en) Method and Apparatus for Estimating Reverberation Time based on Multi-Channel Microphone using Deep Neural Network
MX2014006499A (en) Apparatus and method for microphone positioning based on a spatial power density.
Li et al. Online localization and tracking of multiple moving speakers in reverberant environments
JP2006276020A (en) Computer execution method of building location model
Lima et al. A volumetric SRP with refinement step for sound source localization
JP7276470B2 (en) Direction-of-arrival estimation device, model learning device, direction-of-arrival estimation method, model learning method, program
WO2016119388A1 (en) Method and device for constructing focus covariance matrix on the basis of voice signal
Christensen Multi-channel maximum likelihood pitch estimation
Yang et al. Srp-dnn: Learning direct-path phase difference for multiple moving sound source localization
WO2014047025A1 (en) Source separation using a circular model
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Jia et al. Multi-source DOA estimation in reverberant environments using potential single-source points enhancement
Dehghan Firoozabadi et al. A novel nested circular microphone array and subband processing-based system for counting and DOA estimation of multiple simultaneous speakers
JP2017085265A (en) Impulse response generation device and program
Toma et al. Efficient Detection and Localization of Acoustic Sources with a low complexity CNN network and the Diagonal Unloading Beamforming
Dilungana et al. Learning-based estimation of individual absorption profiles from a single room impulse response with known positions of source, sensor and surfaces
Wu et al. Acoustic source tracking in reverberant environment using regional steered response power measurement
Johnson et al. Latent gaussian activity propagation: using smoothness and structure to separate and localize sounds in large noisy environments
Yan et al. Fast simulation method for room impulse responses based on the mirror image source assumption
Sharma et al. Development of a speech separation system using frequency domain blind source separation technique
Dehghan Firoozabadi et al. Subband processing‐based approach for the localisation of two simultaneous speakers
Llerena et al. Synchronizing Speech Mixtures in Speech Separation Problems under Reverberant Conditions

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20160826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180720

R150 Certificate of patent or registration of utility model

Ref document number: 6374882

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250