EP2452293A1 - Source location - Google Patents

Source location

Info

Publication number
EP2452293A1
EP2452293A1 EP10751985A EP10751985A EP2452293A1 EP 2452293 A1 EP2452293 A1 EP 2452293A1 EP 10751985 A EP10751985 A EP 10751985A EP 10751985 A EP10751985 A EP 10751985A EP 2452293 A1 EP2452293 A1 EP 2452293A1
Authority
EP
European Patent Office
Prior art keywords
probability
sources
arrival
directions
observations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP10751985A
Other languages
German (de)
French (fr)
Inventor
Zaher El Chami
Alexandre Guerin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP2452293A1 publication Critical patent/EP2452293A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/22Source localisation; Inverse modelling

Definitions

  • the present invention relates generally to the automatic counting of the number of sources present in a mixture, and to the determination of the direction of arrival of signals emitted by a plurality of sources, and more particularly in the case where the number of sources is unknown a priori.
  • the invention finds applications, in particular, in the production of multitrack audio coders / decoders, in particular those of the "MPEG Surround" type, for creating, from a stereo audio track, an audio track comprising more than two channels, and / or to modify the spatial characteristics by simulating a displacement of the different sources having emitted the recorded signals. It also applies to automatic source separation to reduce noise, echo, and noise interference from sources, particularly in the case of group audio conferencing. Another application is the localization in a stereo track of the direction of arrival of certain specific sources in order to remove them, for example the sources corresponding to the voices to produce a musical track for karaoke from the original track.
  • the blind separation of said sources consists of estimating the arrival direction of the signals Sj and the number N of sources from a set comprising a number M observations.
  • Each observation is obtained by means of a sensor which records the signal up to a point in the space where said sensor is located.
  • the signal thus recorded then results from mixing and propagation in the space E of the signals S 1 , and is therefore affected by different disturbances specific to the medium traversed, such as for example noise, reverberation, interference, etc.
  • the known source separation methods can be classified into two main categories.
  • the first group includes all the methods for which the number of sources N must be known a priori. However, this information is not always available. Even if it is accessible, every first use and every change of number of sources over time, it is necessary to re-parameterize these methods. This makes it particularly difficult to use these in the context of automated processing.
  • the knowledge of the number of sources determines the accuracy of the result obtained. The speed with which the number of sources evolves in the environment, as well as the delay of modification of this parameter in this first category of methods are thus likely to degrade their reliability.
  • the delays and amplitude differences observed between the two-by-two sensors are then determined in order to calculate the so-called binaural indices of each source.
  • the directions of arrival of the signals s are then calculated, then the number of sources is then deduced by counting the number of directions of arrival corresponding to an active source.
  • the methods of this category can only be used for so-called anechoic environments in which the observations are not affected by any reverberation. Indeed, these methods are based on the assumption that a binaural index is invariant whatever the frequency of the signals s ,. This assumption is valid in the case of anechoic environment but is no longer verified in an environment affected by reverberation.
  • the present invention aims to answer an additional problem.
  • the known methods for determining a direction of arrival of a signal coming from a single source in space are based on a phase difference ⁇ (t, ⁇ ) of the signal at the level of several sensors distributed in the space.
  • phase unwrapping techniques in English to make this phase difference linear, but these methods of phase correction are not efficient, especially in the presence of noise or multiple sources.
  • the invention proposes means, described hereinafter and in particular illustrated in FIG. 3, to solve this additional problem.
  • the present invention aims to improve the situation.
  • a first aspect of the present invention provides a method for determining the arrival direction of a first number of sound signals emitted by sources, over a time range subdivided into frames, in a space, from the knowledge of at least two observations obtained using sensors.
  • the method comprises the following steps: / a / for each frame, we calculate, from the observations, for each direction of a set of directions of the space, a first probability of presence of one of the sources; IbI for a second number of frames of a temporal window, a second probability of presence of one of the sources in each direction of a set of directions of the space according to the first probability is calculated;
  • the invention thus proposes a method capable of processing a plurality of sources.
  • the method is functional, even when the number of sources is greater than the number of observations.
  • This process can be automated. In particular, it is not necessary a priori to indicate to the method the number of sources.
  • the method may comprise a step IeI in which the first number of sources is determined by counting the number of local maxima of the second probability.
  • the first probability is calculated by performing the following steps:
  • the first probability is obtained by calculating the level of correlation in the complex vector domain of a cost function relating to the ratio between the observations.
  • the first probability can be calculated by defining a weighting function of frequency ranges (G ( ⁇ )) and using the following mathematical expression:
  • the first probability thus obtained does not undergo any frequency jump, since the correlation level is calculated in the complex domain.
  • the second probability is calculated by determining the maximum of the first probability over the time window.
  • the second probability can be calculated by:
  • ⁇ ( ⁇ ) ⁇ m (t) ⁇ - ⁇ ⁇ (t) ⁇ + ⁇ .
  • the second number of frames in the time window can be chosen to be inversely proportional to the speed at which the sources are likely to move in space. This allows in particular to adapt the method according to the invention to the characteristics of the sources.
  • a second aspect of the present invention provides a device comprising means adapted to implement a method of determining the direction of arrival according to the first aspect of the present invention.
  • a third aspect of the present invention provides an audio decoding device comprising an arrival direction estimator according to the second aspect of the present invention.
  • the decoding device can generate, from stereo streams without MP3 / AAC type auxiliary information, 5.1 or binaural type contents by identifying the sources present in the mixture as well as their directions of arrival.
  • a fourth aspect of the present invention provides a computer program including instructions for carrying out the method according to the first aspect of the present invention when the program is executed by a processor.
  • FIG. 1 illustrates a space having a plurality of sources
  • FIG. 2 illustrates the main steps of a method for determining the direction of arrival of the signals in space from the observations, implemented according to an embodiment of the present invention
  • FIG. 3 illustrates the main steps of an embodiment of calculating the first probability p
  • FIG. 4 shows, in a schematic diagram, a device for estimating the direction of arrival of signals, according to an embodiment of the present invention
  • FIG. 5 illustrates a decoding device, according to an embodiment of the present invention.
  • three sources 10a, 10b, 10c, issuing respectively an Si, S signal, are considered. 2 , Se, in space E.
  • the sources can move over time.
  • the signal Si has a direction of arrival ⁇ 9
  • the signal S 2 a direction of arrival # 2
  • the signal S 3 an arrival direction #,.
  • observations xi (t) and x 2 (t) have been carried out respectively at a point Oi and a point O 2 of space E.
  • the present description refers to illustrative only, of a number N of sources equal to 3 and a number M of observation equal to 2. It is easy to apply it to any other combination of number N of sources and number M of observations, M being greater than or equal to 2.
  • the observations xi (t) and x 2 (t) can be modeled by a noisy convoluted mixture composed of the signals Si, S 2 , S 3 .
  • ⁇ a, ⁇ k) ⁇ the coefficients of the impulse response of the filter separating the Z 8 "16 source / sensor me, bj ⁇ f) diffuse independent additive noise sources
  • * is the symbol of the convolution
  • the signals Si, S 2 , S 3 have the characteristic that there exists for each of them at least one frame t p of the time range P during which the energy of said signal is greater than the sum of the energy other signals.
  • the source at the origin of said signal is then called dominant during this frame t p .
  • the following mathematical expression conveys this characteristic: with card ⁇ t p )> ⁇ . It follows from this characteristic that for all the frames t p , the observations Xi (f p , ⁇ ) and X ⁇ itp, ⁇ ) in the time-frequency domain can be approximated by the following mathematical expression:
  • B ' j is the sum of B j and residues of other non-dominant sources.
  • FIG. 2 illustrates the main steps of a method for determining the direction of arrival of the signals in space E from observations, implemented according to one embodiment of the present invention.
  • a first probability p of presence of one of the sources for each direction of arrival is calculated for a direction expressed with a vector or for a direction expressed with an angle.
  • the interval for which we will seek to obtain the first probability p is possible to limit, according to the space E, the interval for which we will seek to obtain the first probability p. For example, it may be desirable to limit calculations to directions within a given cone of space.
  • a second probability ⁇ of presence of one of the sources is calculated according to the direction of arrival, for a subset composed of a number g of T frames forming a time window F.
  • the number g can be between 2 and the number of frames T included in the time range P.
  • the choice of the number g of frames T of the window F is a function of the speed of movement of the sources. In general, the higher the speed of the sources, the smaller the number g will be. Consequently, the second number g of frames T of the time window F can be chosen so as to be inversely proportional to the speed at which the sources are likely to move in the space E. If the sources move at different speeds, we can for example consider either the minimum speed, or the maximum speed or the average speed.
  • the directions for which there is a local maximum of the second probability ⁇ are sought, said directions each corresponding to the direction of arrival of one of the signals.
  • the local maximum can be obtained by first smoothing the second probability ⁇ using, for example, a first-order low-pass filter and then looking for the directions for which the first derivative of the second probability ⁇ gives a zero value and for which the second derivative of the second probability ⁇ gives a negative value.
  • the method includes an optional step 80 during which the number N of sources is determined by counting the number of local maxima of the second probability ⁇ .
  • FIG. 3 illustrates the main steps of an embodiment of the calculation of the first probability p, implemented according to one embodiment of the present invention.
  • the phase difference ⁇ (t, ⁇ ) between the corresponding observations Xi and X 2 is determined in a step 52.
  • the phase difference ⁇ ⁇ t, ⁇ ) is assumed to be linear, which is verified in practice, even in an echo space E.
  • R is the ratio between the observations Xi and X 2
  • h is composed of the residues of the non-dominant sources, the diffuse additive noises and the reverberation.
  • the phase difference ⁇ (t p , ⁇ ) is therefore linear as a function of the frequency ⁇ , as long as h (t p , ⁇ ) does not degrade the linearity of ⁇ ⁇ t p , ⁇ ).
  • the first probability p is obtained by calculating the correlation level in the complex vector domain of a cost function relating to the ratio R between the observations Xi and X 2.
  • the probability p can be obtained by applying the following mathematical formula:
  • G ( ⁇ ) is a weighting function allowing to give more weight to certain frequencies according to the configuration of the space.
  • the second probability ⁇ for a given direction, calculated during the second step 60, can in turn be obtained by identifying the maximum of the first probability p over the time window F, which can result in the following mathematical expression: ⁇ ⁇ ) - max p ( ⁇ , t).
  • the second probability is given by the weighted histogram computed from the set of dominant arrival directions and their probability of dominance.
  • ⁇ ( ⁇ ) ⁇ m ( ⁇ ⁇ ⁇ - ⁇ ( ⁇ ⁇ + ⁇ with ⁇ a value
  • FIG. 4 shows, in a schematic diagram, a device 100 for estimating the direction of arrival of signals, according to an embodiment of the present invention.
  • the device 100 is particularly suitable for implementing the method according to the invention.
  • a Time-Frequency transformation unit 106 for example a unit adapted to the implementation of a Fast Fourier Transform commonly known as "FFT", then makes it possible to work on the observations in the frequency domain, the observations noted X 1 , X 2 in the time domain being classically noted X 1 , X 2 in the domain frequency.
  • FFT Fast Fourier Transform
  • It comprises a calculation unit of the arrival direction 110.
  • the latter is connected to the Time-Frequency transformation unit 106. It is adapted to calculate the first probability p of presence of one of the sources S for each direction. space E from observations X 1 , X 2 .
  • the device 100 comprises a temporal grouping unit 125, cooperating with the calculation unit of the arrival direction 110.
  • This grouping unit 125 is adapted to calculate the second probability ⁇ of presence of one of the sources for each direction. of space, as a function of the first probability p, and on the time window F.
  • the device 100 comprises an identification unit 130, cooperating with the temporal grouping unit 125, adapted to identify directions for which there is a local maximum of the second probability ⁇ .
  • the identification unit 130 is connected to the output 140 of the device 100 so as to be able to deliver the identified directions corresponding to the arrival directions 6> of the signals Sj.
  • the device may also include counting means 135 for outputting on the output 140 the first number N of sources by counting the number of local maxima of the second probability ⁇ .
  • the device may also comprise parameterization means
  • the temporal grouping unit 120 adapted to modify, at the level of the temporal grouping unit 125, the second number g of frames T inversely proportional to the speed at which the sources are likely to move in space
  • FIG. 5 illustrates, by a block diagram, an audio decoding device, according to an embodiment of the present invention.
  • Such a device is for example designed to notably create 5.1 type streams from a stereo stream without auxiliary information.
  • the decoding device 210 receives, as input, observations xi,..., X N , typically a stereo signal derived from the AAC coder for example and containing Si signals emitted by a plurality of sources.
  • the decoding device comprises a device 100 for estimating the direction of arrival of signals according to the invention, also receiving the observations X 1 ,..., X N.
  • the audio decoding device comprises the processing means 215 needed to generate multiple spatialized streams on an output 220 from the directions of arrival of the signals and possibly the number of sources.

Abstract

According to the invention, the incoming direction of a first number of signals emitted by a single first number of sources, respectively, is determined within a space during a time range that is subdivided into frames. Two observations of said signals are accessed over the time range. For each frame, a first probability of the presence of one of the sources is calculated, on the basis of the observations, in each direction of a set of spatial directions. For a second number of frames from a time window, a second probability of the presence of one of the sources is calculated, on the basis of the first probability, in each direction of a set of spatial directions. The directions, for which there is a local maximum in the second probability, are searched, each of said directions corresponding to the incoming direction of one of the signals.

Description

LOCALISATION DE SOURCES  LOCATION OF SOURCES
La présente invention se rapporte de manière générale au comptage automatique du nombre de sources présentes dans un mélange, et à la détermination de la direction d'arrivée de signaux émis par une pluralité de sources, et plus particulièrement au cas où le nombre de sources est inconnu a priori.  The present invention relates generally to the automatic counting of the number of sources present in a mixture, and to the determination of the direction of arrival of signals emitted by a plurality of sources, and more particularly in the case where the number of sources is unknown a priori.
L'invention trouve des applications, en particulier, dans la réalisation de codeurs/décodeurs audio multipistes, notamment ceux de type « MPEG Surround » pour créer, à partir d'une piste audio stéréo, une piste audio comportant plus de deux canaux, et/ou pour modifier les caractéristiques spatiales en simulant un déplacement des différentes sources ayant émis les signaux enregistrés. Elle s'applique aussi à la séparation de sources automatique pour réduire les perturbations de type bruit, écho, interférences liées aux prises de son éloignées des sources, notamment dans le cas d'audioconférences de groupe. Une autre application est la localisation dans une piste stéréo de la direction d'arrivée de certaines sources spécifiques afin de les supprimer, par exemple les sources correspondant aux voix afin de produire une piste musicale pour Karaoké à partir de la piste originale.  The invention finds applications, in particular, in the production of multitrack audio coders / decoders, in particular those of the "MPEG Surround" type, for creating, from a stereo audio track, an audio track comprising more than two channels, and / or to modify the spatial characteristics by simulating a displacement of the different sources having emitted the recorded signals. It also applies to automatic source separation to reduce noise, echo, and noise interference from sources, particularly in the case of group audio conferencing. Another application is the localization in a stereo track of the direction of arrival of certain specific sources in order to remove them, for example the sources corresponding to the voices to produce a musical track for karaoke from the original track.
Dans un espace E dans lequel un nombre N de sources émettent chacune un signal s,, la séparation aveugle desdites sources consiste à estimer la direction d'arrivée des signaux Sj et le nombre N de sources à partir d'un jeu comprenant un nombre M d'observations. Chaque observation est obtenue à l'aide d'un capteur qui enregistre le signal parvenu jusqu'en un point de l'espace où se situe ledit capteur. Le signal ainsi enregistré résulte alors du mélange et de la propagation dans l'espace E des signaux S1, et se trouve donc affecté de différentes perturbations propres au milieu traversé comme par exemple le bruit, la réverbération, les interférences, etc. In a space E in which a number N of sources each emits a signal s ,, the blind separation of said sources consists of estimating the arrival direction of the signals Sj and the number N of sources from a set comprising a number M observations. Each observation is obtained by means of a sensor which records the signal up to a point in the space where said sensor is located. The signal thus recorded then results from mixing and propagation in the space E of the signals S 1 , and is therefore affected by different disturbances specific to the medium traversed, such as for example noise, reverberation, interference, etc.
Les procédés connus de séparation de sources peuvent être classés en deux catégories principales. La première regroupe l'ensemble des méthodes pour lesquelles le nombre de sources N doit être connu a priori. Or, cette information n'est pas toujours disponible. Quand bien même cette dernière est accessible, à chaque première utilisation et ensuite à chaque changement du nombre de sources au cours du temps, il est nécessaire de paramétrer à nouveau lesdites méthodes. Cela rend donc particulièrement complexe l'utilisation de ces dernières dans le cadre de traitements automatisés. De plus, la connaissance du nombre de sources conditionne la précision du résultat obtenu. La rapidité à laquelle évolue le nombre de sources dans l'environnement, ainsi que le délai de modification dudit paramètre dans cette première catégorie de méthodes sont donc susceptibles de dégrader leur fiabilité. The known source separation methods can be classified into two main categories. The first group includes all the methods for which the number of sources N must be known a priori. However, this information is not always available. Even if it is accessible, every first use and every change of number of sources over time, it is necessary to re-parameterize these methods. This makes it particularly difficult to use these in the context of automated processing. In addition, the knowledge of the number of sources determines the accuracy of the result obtained. The speed with which the number of sources evolves in the environment, as well as the delay of modification of this parameter in this first category of methods are thus likely to degrade their reliability.
Une deuxième catégorie de méthodes, parmi lesquelles on peut penser à la méthode décrite dans le document « A Robust Method to Count and Locate Audio Sources in a Stéréophonie Linear Anechoic Mixture » - Arberet, S.; Gribonval, R.; Bimbot, F.- Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conférence on , vol.3, no., pp.lll-745-lll-748, 15-20 April 2007», propose de détecter, dans les observations M, des zones temps-fréquence pour lesquelles une seule source est dominante, c'est-à-dire une source dont l'énergie du signal s, correspondant est supérieure à la somme des énergies des autres signaux s,. On détermine alors les délais et les différences d'amplitude observés entre les capteurs deux à deux pour calculer les indices dits binauraux de chaque source. Les directions d'arrivée des signaux s, sont alors calculées, puis le nombre de sources est alors déduit en comptant le nombre de directions d'arrivée correspondant à une source active. Cependant, les méthodes de cette catégorie ne peuvent être utilisées que pour des environnements dits anéchoïques dans lesquelles les observations ne sont affectées d'aucune réverbération. En effet, ces méthodes reposent sur l'hypothèse qu'un indice binaural est invariant quelque soit la fréquence des signaux s,. Cette hypothèse s'avère valide dans le cas d'environnement anéchoïques mais n'est plus vérifiée dans un environnement affecté de réverbération. En outre, la réverbération rend délicate la détection des zones temps-fréquence où une seule source est dominante active. Il en découle que cette limitation exclut d'utiliser ces méthodes avec des observations réalisées dans des environnements échoïques, parmi lesquels on peut citer, pour les signaux acoustiques, les salles de réunion, les restaurants et plus généralement l'ensemble des lieux courants dans lesquels les prises de son sont réalisées. A second category of methods, among which one can think of the method described in the document "A Robust Method to Count and Locate Audio Sources in a Stereophonic Linear Anechoic Mixture" - Arberet, S .; Gribonval, R .; Bimbot, F.- Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on, vol.3, no., Pp.lll-745-lll-748, 15-20 April 2007 ", proposes to detect, in the observations M, time-frequency zones for which only one source is dominant, that is to say a source whose energy of the corresponding signal s is greater than the sum of the energies of the other signals s ,. The delays and amplitude differences observed between the two-by-two sensors are then determined in order to calculate the so-called binaural indices of each source. The directions of arrival of the signals s, are then calculated, then the number of sources is then deduced by counting the number of directions of arrival corresponding to an active source. However, the methods of this category can only be used for so-called anechoic environments in which the observations are not affected by any reverberation. Indeed, these methods are based on the assumption that a binaural index is invariant whatever the frequency of the signals s ,. This assumption is valid in the case of anechoic environment but is no longer verified in an environment affected by reverberation. In addition, reverb makes it difficult to detect time-frequency zones where only one source is dominant. It follows that this limitation excludes the use of these methods with observations made in echoic environments, among which, for acoustic signals, meeting rooms, restaurants and more generally all current places in which the sound is taken.
La présente invention vise à répondre à un problème additionnel. Les méthodes connues de détermination d'une direction d'arrivée d'un signal provenant d'une source unique dans l'espace se basent sur une différence de phase φ{t,ω) du signal au niveau de plusieurs capteurs répartis dans l'espace.The present invention aims to answer an additional problem. The known methods for determining a direction of arrival of a signal coming from a single source in space are based on a phase difference φ (t, ω) of the signal at the level of several sensors distributed in the space.
Pour cela, elles proposent de calculer une probabilité p de présence de la source en fonction du temps et de la direction d'arrivée, reposant par exemple sur la fonction de coût suivante : où la fonction P est une loi de probabilité, R le rapport entre les signaux reçus par les capteurs et G(ω) est une fonction de pondération permettant d'accorder plus de poids à certaines fréquence en fonction de la configuration de l'espace. Or la différence de phase arg[f?(f, ω)] est une fonctionnelle discontinue car cette dernière est définie modulo 2τr, et présente généralement des sauts de 2π en fonction de la fréquence, tandis que la fonction ωr est linéaire et continue. Il existe cependant des techniques dites de « phase unwrapping » en anglais pour rendre cette différence de phase linéaire, mais ces méthodes de correction de la phase ne sont pas performantes, notamment en présence de bruit ou de multiples sources. For that, they propose to compute a probability p of presence of the source as a function of time and direction of arrival, resting for example on the following cost function: where the function P is a law of probability, R the ratio between the signals received by the sensors and G (ω) is a weighting function making it possible to give more weight to certain frequencies as a function of the configuration of the space. Now the difference in the phase arg [f? (F, ω)] is a discontinuous functional because the latter is defined modulo 2τr, and generally has jumps of 2π as a function of the frequency, whereas the function ωr is linear and continuous. However, there are so-called "phase unwrapping" techniques in English to make this phase difference linear, but these methods of phase correction are not efficient, especially in the presence of noise or multiple sources.
L'invention propose des moyens, décrits ci-après et notamment illustrés à la figure 3, pour résoudre ce problème additionnel.  The invention proposes means, described hereinafter and in particular illustrated in FIG. 3, to solve this additional problem.
La présente invention vise à améliorer la situation.  The present invention aims to improve the situation.
Un premier aspect de la présente invention propose un procédé de détermination de la direction d'arrivée d'un premier nombre de signaux sonores émis par des sources, au cours d'une plage temporelle subdivisée en trames, dans un espace, à partir de la connaissance d'au moins deux observations obtenues à l'aide de capteurs. Le procédé comporte les étapes suivantes : /a/ pour chaque trame, on calcule, à partir des observations, pour chaque direction d'un ensemble de directions de l'espace, une première probabilité de présence d'une des sources ; IbI pour un deuxième nombre de trames d'une fenêtre temporelle, on calcule une deuxième probabilité de présence d'une des sources dans chaque direction d'un ensemble de directions de l'espace en fonction de la première probabilité; Ici on recherche les directions pour lesquelles il existe un maximum local de la deuxième probabilité, lesdites directions correspondant chacune à la direction d'arrivée d'un des signaux. A first aspect of the present invention provides a method for determining the arrival direction of a first number of sound signals emitted by sources, over a time range subdivided into frames, in a space, from the knowledge of at least two observations obtained using sensors. The method comprises the following steps: / a / for each frame, we calculate, from the observations, for each direction of a set of directions of the space, a first probability of presence of one of the sources; IbI for a second number of frames of a temporal window, a second probability of presence of one of the sources in each direction of a set of directions of the space according to the first probability is calculated; Here we search the directions for which there is a local maximum of the second probability, said directions each corresponding to the direction of arrival of one of the signals.
L'invention propose ainsi une méthode apte à traiter une pluralité de sources. Le procédé est fonctionnel, y compris lorsque le nombre de sources est supérieur au nombre d'observations. The invention thus proposes a method capable of processing a plurality of sources. The method is functional, even when the number of sources is greater than the number of observations.
Ce procédé peut être automatisé. En particulier, il n'est pas nécessaire a priori d'indiquer au procédé le nombre de sources.  This process can be automated. In particular, it is not necessary a priori to indicate to the method the number of sources.
On peut prévoir qu'au cours de l'étape Ici, seules les directions correspondant à un maximum local supérieur à un seuil sont considérées comme des directions d'arrivée d'un des signaux. Ce filtrage par seuil permet en outre d'améliorer la robustesse du procédé face aux fausses détections de direction d'arrivée, alors qu'aucune source ne correspond.  It can be expected that during the step Here, only the directions corresponding to a local maximum greater than a threshold are considered as directions of arrival of one of the signals. This threshold filtering also makes it possible to improve the robustness of the process in the face of false detection of the direction of arrival, whereas no source corresponds.
Dans le cas par exemple où ce paramètre est inconnu, le procédé peut comporter une étape IeI où l'on détermine le premier nombre de sources en dénombrant le nombre de maxima locaux de la deuxième probabilité. Ainsi, il est possible de fournir cette information en sortie du procédé par le calcul, sans connaissance a priori de ce nombre.  In the case, for example, where this parameter is unknown, the method may comprise a step IeI in which the first number of sources is determined by counting the number of local maxima of the second probability. Thus, it is possible to provide this information at the output of the method by calculation, without prior knowledge of this number.
Dans un mode de réalisation de la présente invention, la première probabilité est calculée en réalisant les étapes suivantes :  In one embodiment of the present invention, the first probability is calculated by performing the following steps:
IdI on détermine les différences de phase entre les observations ; IeI on obtient la première probabilité, en calculant le niveau de corrélation dans le domaine vectoriel complexe d'une fonction de coût portant sur le rapport entre les observations. IdI the phase differences between the observations are determined; The first probability is obtained by calculating the level of correlation in the complex vector domain of a cost function relating to the ratio between the observations.
En particulier, la première probabilité peut être calculée, en définissant une fonction de pondération de plages de fréquences (G(ω)) et à l'aide de l'expression mathématique suivante : In particular, the first probability can be calculated by defining a weighting function of frequency ranges (G (ω)) and using the following mathematical expression:
La première probabilité ainsi obtenue ne subit ainsi aucun saut de fréquence, puisque le niveau de corrélation est calculé dans le domaine complexe.  The first probability thus obtained does not undergo any frequency jump, since the correlation level is calculated in the complex domain.
Dans un mode de réalisation de la présente invention, on calcule pour chaque direction de l'espace la deuxième probabilité en déterminant le maximum de la première probabilité sur la fenêtre temporelle. Alternativement, on peut calculer la deuxième probabilité en :  In one embodiment of the present invention, for each space direction the second probability is calculated by determining the maximum of the first probability over the time window. Alternatively, the second probability can be calculated by:
• déterminant, pour chaque trame temporelle, la direction d'arrivée dominante r(f) = argmax /?(r,f) ; • determining, for each time frame, the dominant direction of arrival r (f) = argmax / ? (R, f);
r  r
• calculant une probabilité de dominance m{t) = mΑ\ p{τ,t) ; • calculating a probability of dominance m {t) = mΑ \ p {τ, t);
• appliquant, pour obtenir la deuxième probabilité, et pour une valeur (ε) définissant un degré de lissage, l'expression mathématique suivante : Applying, to obtain the second probability, and for a value (ε) defining a degree of smoothing, the following mathematical expression:
μ(τ) =∑m(t) \ τ-ε < τ(t) < τ + ε .  μ (τ) = Σm (t) τ-ε <τ (t) <τ + ε.
IeT  EIT
Le deuxième nombre de trames de la fenêtre temporelle peut être choisi de sorte à être inversement proportionnel à la vitesse à laquelle les sources sont susceptibles de se déplacer dans l'espace. Cela permet notamment d'adapter le procédé selon l'invention aux caractéristiques des sources.  The second number of frames in the time window can be chosen to be inversely proportional to the speed at which the sources are likely to move in space. This allows in particular to adapt the method according to the invention to the characteristics of the sources.
Un deuxième aspect de la présente invention propose un dispositif comprenant des moyens adaptés pour mettre en œuvre un procédé de détermination de la direction d'arrivée selon le premier aspect de la présente invention. Un troisième aspect de la présente invention propose un dispositif de décodage audio comprenant un dispositif d'estimation de la direction d'arrivée selon le deuxième aspect de la présente invention. A titre d'exemple, le dispositif de décodage peut générer, à partir de flux stéréo sans information auxiliaire de type MP3/AAC, des contenus de type 5.1 ou binauraux par identification des sources présentes dans le mélange ainsi que leurs directions d'arrivée A second aspect of the present invention provides a device comprising means adapted to implement a method of determining the direction of arrival according to the first aspect of the present invention. A third aspect of the present invention provides an audio decoding device comprising an arrival direction estimator according to the second aspect of the present invention. By way of example, the decoding device can generate, from stereo streams without MP3 / AAC type auxiliary information, 5.1 or binaural type contents by identifying the sources present in the mixture as well as their directions of arrival.
Un quatrième aspect de la présente invention propose un programme d'ordinateur comportant des instructions pour la mise en oeuvre du procédé selon le premier aspect de la présente invention lorsque ce programme est exécuté par un processeur.  A fourth aspect of the present invention provides a computer program including instructions for carrying out the method according to the first aspect of the present invention when the program is executed by a processor.
D'autres aspects, buts et avantages de l'invention apparaîtront à la lecture de la description d'un de ses modes de réalisation. Other aspects, objects and advantages of the invention will appear on reading the description of one of its embodiments.
L'invention sera également mieux comprise à l'aide des dessins, sur lesquels :  The invention will also be better understood with the aid of the drawings, in which:
la figure 1 illustre un espace comportant une pluralité de sources ; la figure 2 illustre les étapes principales d'un procédé de détermination de la direction d'arrivée des signaux dans l'espace à partir des observations, mis en œuvre selon un mode de réalisation de la présente invention ;  Figure 1 illustrates a space having a plurality of sources; FIG. 2 illustrates the main steps of a method for determining the direction of arrival of the signals in space from the observations, implemented according to an embodiment of the present invention;
la figure 3 illustre les étapes principales d'un mode de réalisation du calcul de la première probabilité p ;  FIG. 3 illustrates the main steps of an embodiment of calculating the first probability p;
la figure 4 montre, par un schéma de principe, un dispositif d'estimation de la direction d'arrivée de signaux, selon un mode de réalisation de la présente invention ;  FIG. 4 shows, in a schematic diagram, a device for estimating the direction of arrival of signals, according to an embodiment of the present invention;
la figure 5 illustre un dispositif de décodage, selon un mode de réalisation de la présente invention.. Dans la présente description, et comme illustré sur la figure 1 , on considère trois sources 10a, 10b, 10c, émettant respectivement un signal Si, S2, Se, dans l'espace E. Les sources peuvent se déplacer au cours du temps. Par rapport à un point A de l'espace E, et à un instant donné, le signal Si a une direction d'arrivée <9, , le signal S2 une direction d'arrivée #2 , le signal S3 une direction d'arrivée #, . Sur une plage temporelle P, subdivisée en trames T, des observations xi(t) et x2(t) ont été réalisées respectivement en un point Oi et un point O2 de l'espace E. La présente description fait état, à titre illustratif uniquement, d'un nombre N de sources égal à 3 et d'un nombre M d'observation égal à 2. Il est aisé de l'appliquer à toute autre combinaison de nombre N de sources et de nombre M d'observations, M étant supérieur ou égal à 2. FIG. 5 illustrates a decoding device, according to an embodiment of the present invention. In the present description, and as illustrated in FIG. 1, three sources 10a, 10b, 10c, issuing respectively an Si, S signal, are considered. 2 , Se, in space E. The sources can move over time. With respect to a point A of the space E, and at a given instant, the signal Si has a direction of arrival <9, the signal S 2 a direction of arrival # 2 , the signal S 3 an arrival direction #,. Over a time range P, subdivided into frames T, observations xi (t) and x 2 (t) have been carried out respectively at a point Oi and a point O 2 of space E. The present description refers to illustrative only, of a number N of sources equal to 3 and a number M of observation equal to 2. It is easy to apply it to any other combination of number N of sources and number M of observations, M being greater than or equal to 2.
Dans un espace E échoïque, les observations xi(t) et x2(t) peuvent être modélisées par un mélange convolutif bruité composé des signaux Si, S2, S3. En posant {a,{k)} les coefficients de la réponse impulsionelle du filtre séparant la Z8"16 source du /me capteur, bj^f) le bruit additif diffus indépendant des sources, * étant le symbole de la convolution, les observations xi(t) et x2(t) peuvent être modélisées ainsi : M0=ΣΣM% ('-*)+^(')=Σ>, **,)(')+M0 j≈u-M . In an echoic space E, the observations xi (t) and x 2 (t) can be modeled by a noisy convoluted mixture composed of the signals Si, S 2 , S 3 . By asking {a, {k)} the coefficients of the impulse response of the filter separating the Z 8 "16 source / sensor me, bj ^ f) diffuse independent additive noise sources, * is the symbol of the convolution, the observations xi (t) and x 2 (t) can be modeled as follows: M0 = ΣΣM% ('- * ) + ^ (' ) = Σ>, **,) ( ') + M0 j≈ uM.
Dans le domaine fréquentiel, par transformation temps-fréquence, en posant u(k) une fenêtre apodisante de type fenêtre de Hanning par exemple, on obtient alors: In the frequency domain, by time-frequency transformation, by putting u (k) an apodizing window like Hanning window for example, we obtain:
XJ (t,ω) =∑u(k)xJ (t + k)e^ = fiAJ, (ω)Sι (t,ω) + B] (co) où Aj,(ω) est la transformée temps-fréquence de ay/(k), B/ω) la transformée temps-fréquence de b,(t), et S,(t,ω) la transformée temps-fréquence à court- terme de s,(t). X J (t, ω) = Σu (k) x J (t + k) e ^ = f i A J , (ω) S ι (t, ω) + B ] (co) where A j , (ω ) is the time-frequency transform of a y / (k), B / ω) the time-frequency transform of b, (t), and S, (t, ω) the short-term time-frequency transform of s (t).
Les signaux Si, S2, S3 ont pour caractéristique qu'il existe pour chacun d'eux au moins une trame tp de la plage temporelle P au cours de laquelle l'énergie dudit signal est supérieur à la somme de l'énergie des autres signaux. La source à l'origine dudit signal est alors dite dominante au cours de cette trame tp. L'expression mathématique suivante traduit cette caractéristique: avec card{tp) > \ . II résulte de cette caractéristique, que pour l'ensemble des trames tp, les observations Xi(fp, ω) et Xitp, ω) dans le domaine temps-fréquence peuvent être approchées par l'expression mathématique suivante : The signals Si, S 2 , S 3 have the characteristic that there exists for each of them at least one frame t p of the time range P during which the energy of said signal is greater than the sum of the energy other signals. The source at the origin of said signal is then called dominant during this frame t p . The following mathematical expression conveys this characteristic: with card {t p )> \. It follows from this characteristic that for all the frames t p , the observations Xi (f p , ω) and X Σ itp, ω) in the time-frequency domain can be approximated by the following mathematical expression:
*,M)~Λ *H5,M)>) *, M) ~ Λ * H 5 , M) + β >)
où B'j est la somme de Bj et des résidus des autres sources non dominantes. where B ' j is the sum of B j and residues of other non-dominant sources.
La figure 2 illustre les étapes principales d'un procédé de détermination de la direction d'arrivée des signaux dans l'espace E à partir des observations, mis en œuvre selon un mode de réalisation de la présente invention. FIG. 2 illustrates the main steps of a method for determining the direction of arrival of the signals in space E from observations, implemented according to one embodiment of the present invention.
Dans une première étape 50, à partir des M observations, on calcule pour toutes les trames T, une première probabilité p de présence d'une des sources pour chaque direction d'arrivée. On peut, de manière équivalente, calculer ladite probabilité p pour une direction exprimée à l'aide d'un vecteur ou pour une direction exprimée à l'aide d'un angle. De même, il est possible de limiter, en fonction de l'espace E, l'intervalle pour lequel on va chercher à obtenir la première probabilité p. Par exemple, il peut être souhaitable de limiter les calculs aux directions comprises dans un cône donné de l'espace. En outre, il est possible de définir un pas de résolution spatiale avec lequel on va balayer l'espace E, pour limiter le nombre de premières probabilités p effectivement calculées.  In a first step 50, from the M observations, one calculates for all the frames T, a first probability p of presence of one of the sources for each direction of arrival. Equivalently, the probability p can be calculated for a direction expressed with a vector or for a direction expressed with an angle. Similarly, it is possible to limit, according to the space E, the interval for which we will seek to obtain the first probability p. For example, it may be desirable to limit calculations to directions within a given cone of space. In addition, it is possible to define a spatial resolution step with which we will scan the space E, to limit the number of first probabilities p actually calculated.
Dans une deuxième étape 60, à partir des premières probabilités p, on calcule une deuxième probabilité μ de présence d'une des sources en fonction de la direction d'arrivée, pour un sous-ensemble composé d'un nombre g de trames T formant une fenêtre temporelle F. Le nombre g peut être compris entre 2 et le nombre de trames T compris dans la plage temporelle P. Dans le cas où les sources sont susceptibles de se déplacer dans l'espace E, le choix du nombre g de trames T de la fenêtre F est fonction de la vitesse de déplacement des sources. De manière générale, plus la vitesse des sources est susceptible d'être importante, plus le nombre g sera petit. En conséquence, le deuxième nombre g de trames T de la fenêtre temporelle F peut être choisi de sorte à être inversement proportionnel à la vitesse à laquelle les sources sont susceptibles de se déplacer dans l'espace E. Si les sources se déplacent à des vitesses différentes, on pourra par exemple considérer soit la vitesse minimale, soit la vitesse maximale ou encore la vitesse moyenne. In a second step 60, from the first probabilities p, a second probability μ of presence of one of the sources is calculated according to the direction of arrival, for a subset composed of a number g of T frames forming a time window F. The number g can be between 2 and the number of frames T included in the time range P. In the case where the sources are likely to move in the space E, the choice of the number g of frames T of the window F is a function of the speed of movement of the sources. In general, the higher the speed of the sources, the smaller the number g will be. Consequently, the second number g of frames T of the time window F can be chosen so as to be inversely proportional to the speed at which the sources are likely to move in the space E. If the sources move at different speeds, we can for example consider either the minimum speed, or the maximum speed or the average speed.
On recherche, dans une troisième étape 70, les directions pour lesquelles il existe un maximum local de la deuxième probabilité μ, lesdites directions correspondant chacune à la direction d'arrivée d'un des signaux. A titre d'exemple non limitatif, le maximum local peut être obtenu en lissant, dans un premier temps, la deuxième probabilité μ à l'aide par exemple d'un filtre passe-bas de premier ordre, puis en recherchant les directions pour lesquelles la dérivée première de la deuxième probabilité μ donne une valeur nulle et pour lesquelles la dérivée seconde de la deuxième probabilité μ donne une valeur négative. On peut alors encore éventuellement calculer l'énergie de la deuxième probabilité μ pour une plage de valeur autour desdits maxima locaux et éliminer les maxima locaux pour lesquels cette énergie est inférieure à un seuil prédéterminé.  In a third step, the directions for which there is a local maximum of the second probability μ are sought, said directions each corresponding to the direction of arrival of one of the signals. By way of nonlimiting example, the local maximum can be obtained by first smoothing the second probability μ using, for example, a first-order low-pass filter and then looking for the directions for which the first derivative of the second probability μ gives a zero value and for which the second derivative of the second probability μ gives a negative value. One can then possibly calculate the energy of the second probability μ for a value range around said local maxima and eliminate the local maxima for which this energy is lower than a predetermined threshold.
Dans un mode de réalisation de la présente invention, le procédé comporte une étape optionnelle 80 au cours de laquelle on détermine le nombre N de sources en dénombrant le nombre de maxima locaux de la deuxième probabilité μ.  In one embodiment of the present invention, the method includes an optional step 80 during which the number N of sources is determined by counting the number of local maxima of the second probability μ.
La figure 3 illustre les étapes principales d'un mode de réalisation du calcul de la première probabilité p, mis en œuvre selon un mode de réalisation de la présente invention. FIG. 3 illustrates the main steps of an embodiment of the calculation of the first probability p, implemented according to one embodiment of the present invention.
Pour calculer la première probabilité p à l'étape 50, pour une trame T donnée, on détermine, dans une étape 52, la différence de phase φ{t,ω) entre les observations Xi et X2 correspondantes. La différence de phase φ{t,ω) est supposée linéaire, ce qui est vérifiée en pratique, y compris dans un espace E échoïque. Ainsi, aux instants où une source est dominante par rapport aux autres, la différence de phase φ{tp,co) entre les points Oi ou O2 peut être modélisée par l'expression mathématique suivante : φ(tp,ω) = aig R(tp,ω) = Αrg— ) '- = τpω+h{tp,ω) où R est le rapport entre les observations Xi et X2, et h est composé des résidus des sources non dominantes, des bruits additifs diffus et de la réverbération. La différence de phase φ(tp,ω) est donc linéaire en fonction de la fréquence ω, tant que h(tp,ω) ne dégrade pas la linéarité de φ{tp,ω). To calculate the first probability p in step 50, for a given frame T, the phase difference φ (t, ω) between the corresponding observations Xi and X 2 is determined in a step 52. The phase difference φ {t, ω) is assumed to be linear, which is verified in practice, even in an echo space E. Thus, at the moments when a source is dominant relative to the others, the phase difference φ {t p , co) between the points Oi or O 2 can be modeled by the following mathematical expression: φ (t p , ω) = aig R (t p , ω) = Αrg-) '- = τ p ω + h (t p , ω) where R is the ratio between the observations Xi and X 2 , and h is composed of the residues of the non-dominant sources, the diffuse additive noises and the reverberation. The phase difference φ (t p , ω) is therefore linear as a function of the frequency ω, as long as h (t p , ω) does not degrade the linearity of φ {t p , ω).
Pour une source donnée émettant un signal Sj dont la direction d'arrivée est notée θj, ledit signal Si arrive à l'un des deux points Oi ou O2 avec un décalage temporel τ par rapport à l'autre point Oi ou O2. Le décalage temporelle τ peut être estimé à — avec d la distance entre les points Oi For a given Sj source emitting a signal whose arrival direction is denoted θj, said signal S arrives at one of two points Oi and O 2 with a time lag τ with respect to the other point Oi or O 2. The time offset τ can be estimated at - with the distance between the points Oi
c  vs
ou O2 et c la célérité du signal Si dans l'espace E. Il en découle que la détermination de la différence de phase φ(t,ω) permet l'obtention de la direction d'arrivée θj pour chaque source. or O 2 and c the celerity of the signal Si in the space E. It follows that the determination of the phase difference φ (t, ω) makes it possible to obtain the direction of arrival θj for each source.
Dans une étape 54, on obtient la première probabilité p en calculant le niveau de corrélation dans le domaine vectoriel complexe d'une fonction de coût portant sur le rapport R entre les observations Xi et X2. La probabilité p peut être obtenue en appliquant la formule mathématique suivante : In a step 54, the first probability p is obtained by calculating the correlation level in the complex vector domain of a cost function relating to the ratio R between the observations Xi and X 2. The probability p can be obtained by applying the following mathematical formula:
où la fonction p est une loi de probabilité, par exemple une loi de Poisson ou de Gauss, et G(ω) est une fonction de pondération permettant d'accorder plus de poids à certaines fréquence en fonction de la configuration de l'espace. where the function p is a law of probability, for example a law of Poisson or Gauss, and G (ω) is a weighting function allowing to give more weight to certain frequencies according to the configuration of the space.
Dans un premier mode de réalisation, la deuxième probabilité μ, pour une direction donnée, calculée au cours de la deuxième étape 60, peut quant à elle être obtenue en identifiant le maximum de la première probabilité p sur la fenêtre temporelle F, ce qui peut se traduire par l'expression mathématique suivante : μ{τ) - max p(τ,t) . In a first embodiment, the second probability μ, for a given direction, calculated during the second step 60, can in turn be obtained by identifying the maximum of the first probability p over the time window F, which can result in the following mathematical expression: μ {τ) - max p (τ, t).
le F  the F
Dans un deuxième mode de réalisation, la deuxième probabilité μ, pour une direction donnée, calculée au cours de la deuxième étape 60, peut quant à elle être obtenue en déterminant pour chaque trame temporelle la direction d'arrivée dominante égale à la position du maximum sur les directions étudiées r(f) = argmax /?(r,f) et en calculant la probabilité de cette dominance égale à la r In a second embodiment, the second probability μ, for a given direction, calculated during the second step 60, can in turn be obtained by determining for each time frame the dominant arrival direction equal to the position of the maximum on the directions studied r (f) = argmax / ? (r, f) and calculating the probability of this dominance equal to r
valeur de ce maximum m(t ) = max p(τ,ή . value of this maximum m (t) = max p (τ, ή.
Ainsi, la deuxième probabilité est donnée par l'histogramme pondéré calculé à partir de l'ensemble des directions d'arrivées dominantes et leur probabilité de dominance. μ(τ) =∑m(ή \ τ-ε≤τ(ή < τ+ε avec ε une valeur  Thus, the second probability is given by the weighted histogram computed from the set of dominant arrival directions and their probability of dominance. μ (τ) = Σm (ή \ τ-ε≤τ (ή <τ + ε with ε a value
IeT  EIT
définissant le degré de lissage sur l'histogramme. defining the degree of smoothing on the histogram.
La figure 4 montre, sur un schéma de principe, un dispositif 100 d'estimation de la direction d'arrivée de signaux, selon un mode de réalisation de la présente invention. Le dispositif 100 est notamment adapté à la mise en œuvre du procédé selon l'invention. FIG. 4 shows, in a schematic diagram, a device 100 for estimating the direction of arrival of signals, according to an embodiment of the present invention. The device 100 is particularly suitable for implementing the method according to the invention.
Il comporte une entrée 100 lui permettant de recevoir les observations Xi, X2 des signaux S-i, S2, S3, sur la plage temporelle P. Une unité de transformation Temps-Fréquence 106, par exemple une unité adaptée à la mise en œuvre d'une transformée de Fourrier rapide communément appelée « FFT », permet par la suite de travailler sur les observations dans le domaine fréquentiel, les observations notées X1, X2 dans le domaine temporel étant notées classiquement X1, X2 dans le domaine fréquentiel. It comprises an input 100 enabling it to receive the observations Xi, X 2 of the signals Si, S 2 , S 3 , over the time range P. A Time-Frequency transformation unit 106, for example a unit adapted to the implementation of a Fast Fourier Transform commonly known as "FFT", then makes it possible to work on the observations in the frequency domain, the observations noted X 1 , X 2 in the time domain being classically noted X 1 , X 2 in the domain frequency.
Il comporte une unité de calcul de la direction d'arrivée 110. Cette dernière est reliée à l'unité de transformation Temps-Fréquence 106. Elle est adaptée au calcul de la première probabilité p de présence d'une des sources S pour chaque direction de l'espace E à partir des observations X1, X2. It comprises a calculation unit of the arrival direction 110. The latter is connected to the Time-Frequency transformation unit 106. It is adapted to calculate the first probability p of presence of one of the sources S for each direction. space E from observations X 1 , X 2 .
Le dispositif 100 comprend une unité de regroupement temporel 125, coopérant avec l'unité de calcul de la direction d'arrivée 110. Cette unité de regroupement 125 est adaptée au calcul de la deuxième probabilité μ de présence d'une des sources pour chaque direction de l'espace, en fonction de la première probabilité p, et sur la fenêtre temporelle F.  The device 100 comprises a temporal grouping unit 125, cooperating with the calculation unit of the arrival direction 110. This grouping unit 125 is adapted to calculate the second probability μ of presence of one of the sources for each direction. of space, as a function of the first probability p, and on the time window F.
Le dispositif 100 comporte une unité d'identification 130, coopérant avec l'unité de regroupement temporel 125, adaptée à identifier des directions pour lesquelles il existe un maximum local de la deuxième probabilité μ. L'unité d'identification 130 est reliée à la sortie 140 du dispositif 100 de sorte à pouvoir délivrer les directions identifiées correspondant aux directions d'arrivée 6> des signaux Sj. The device 100 comprises an identification unit 130, cooperating with the temporal grouping unit 125, adapted to identify directions for which there is a local maximum of the second probability μ. The identification unit 130 is connected to the output 140 of the device 100 so as to be able to deliver the identified directions corresponding to the arrival directions 6> of the signals Sj.
Le dispositif peut également comporter des moyens de comptage 135 pour délivrer sur la sortie 140 le premier nombre N de sources en dénombrant le nombre de maxima locaux de la deuxième probabilité μ.  The device may also include counting means 135 for outputting on the output 140 the first number N of sources by counting the number of local maxima of the second probability μ.
Le dispositif peut également comporter des moyens de paramétrage The device may also comprise parameterization means
120 adaptés à modifier, au niveau de l'unité de regroupement temporel 125, le deuxième nombre g de trames T de manière inversement proportionnelle à la vitesse à laquelle les sources sont susceptibles de se déplacer dans l'espace120 adapted to modify, at the level of the temporal grouping unit 125, the second number g of frames T inversely proportional to the speed at which the sources are likely to move in space
E. E.
La figure 5, illustre par un synoptique, un dispositif de décodage audio, selon un mode de réalisation de la présente invention. FIG. 5 illustrates, by a block diagram, an audio decoding device, according to an embodiment of the present invention.
Un tel dispositif est par exemple conçu pour notamment créer des flux de type 5.1 à partir d'un flux stéréo sans information auxiliaire.  Such a device is for example designed to notably create 5.1 type streams from a stereo stream without auxiliary information.
Le dispositif de décodage 210 reçoit en entrée des observations x-i,..., XN, typiquement un signal stéréo issu du codeur de type AAC par exemple et contenant des signaux Si émis par une pluralité de sources. Le dispositif de décodage comporte un dispositif 100 d'estimation de la direction d'arrivée de signaux selon l'invention, recevant lui aussi les observations X1,..., xN. A partir des informations fournies par le dispositif 100, le dispositif de décodage audio comporte les moyens de traitement 215 nécessaires pour générer des flux multiples spatialisés sur une sortie 220 à partir des directions d'arrivée des signaux et éventuellement du nombre de sources. The decoding device 210 receives, as input, observations xi,..., X N , typically a stereo signal derived from the AAC coder for example and containing Si signals emitted by a plurality of sources. The decoding device comprises a device 100 for estimating the direction of arrival of signals according to the invention, also receiving the observations X 1 ,..., X N. From the information provided by the device 100, the audio decoding device comprises the processing means 215 needed to generate multiple spatialized streams on an output 220 from the directions of arrival of the signals and possibly the number of sources.

Claims

REVENDICATIONS
1. Procédé de détermination de la direction d'arrivée (#, ) d'un premier nombre1. Method of determining the direction of arrival (#,) of a first number
(N) de signaux sonores (Si) émis par des sources (10), au cours d'une plage temporelle (P) subdivisée en trames (T), dans un espace (E), à partir de la connaissance d'au moins deux observations (xi, X2) obtenues à l'aide de capteurs, caractérisé en ce qu'il comporte les étapes suivantes : (N) of sound signals (Si) transmitted by sources (10), over a time range (P) subdivided into frames (T), in a space (E), from the knowledge of at least two observations (xi, X 2 ) obtained using sensors, characterized in that it comprises the following steps:
/a/ pour chaque trame (T), on calcule (50), à partir des observations (X1 , X2), pour chaque direction d'un ensemble de directions de l'espace (E), une première probabilité (p) de présence d'une des sources ; IbI pour un deuxième nombre (g) de trames (T) d'une fenêtre temporelle/ a / for each frame (T), we compute (50), from the observations (X 1 , X 2 ), for each direction of a set of directions of the space (E), a first probability (p ) the presence of one of the sources; IbI for a second number (g) of frames (T) of a time window
(F), on calcule (60) une deuxième probabilité (μ) de présence d'une des sources (10) dans chaque direction d'un ensemble de directions de l'espace (E) en fonction de la première probabilité (p) ; Ici on recherche (70) les directions pour lesquelles il existe un maximum local de la deuxième probabilité (μ), lesdites directions correspondant chacune à la direction d'arrivée (U1 ) d'un des signaux (Si) ; (F), calculating (60) a second probability (μ) of presence of one of the sources (10) in each direction of a set of directions of the space (E) as a function of the first probability (p) ; Here we search (70) directions for which there is a local maximum of the second probability (μ), said directions each corresponding to the direction of arrival (U 1 ) of one of the signals (Si);
2. Procédé selon la revendication 1 , dans lequel au cours de l'étape Ici, seules les directions correspondant à un maximum local supérieur à un seuil sont considérées comme des directions d'arrivée (θ, ) d'un des signaux (Si). 2. Method according to claim 1, wherein during the step Here, only the directions corresponding to a local maximum greater than a threshold are considered as directions of arrival (θ,) of one of the signals (Si) .
3. Procédé selon l'une quelconque des revendications précédentes comportant en outre une étape IeI où l'on détermine (80) le premier nombre (N) de sources (10) en dénombrant le nombre de maxima locaux de la deuxième probabilité (μ). 3. Method according to any one of the preceding claims further comprising a step IeI where the first number (N) of sources (10) is determined by counting the number of local maxima of the second probability (μ). .
4. Procédé selon l'une quelconque des revendications précédentes, dans lequel la première probabilité (p) est calculée (50) en réalisant les étapes suivantes : The method of any one of the preceding claims, wherein the first probability (p) is calculated (50) by performing the following steps:
IdJ on détermine (52) les différences de phase (φ{t,ω)) entre les observations (x-i, x2) ; IdJ we determine (52) the phase differences (φ {t, ω)) between the observations (xi, x 2 );
IeI on obtient (54) la première probabilité (p), en calculant une fonction de coût (p) basée sur le niveau de corrélation dans le domaine vectoriel complexe du rapport (R ) entre les observations (xi, x2) et un modèle théorique de ce rapport. IeI gives (54) the first probability (p), by calculating a cost function (p) based on the correlation level in the complex vector domain of the ratio (R) between the observations (xi, x 2 ) and a model theoretical of this report.
5. Procédé selon la revendication 4, dans lequel la première probabilité (p) est calculée, en définissant une fonction de pondération de plages de fréquences (G(ω)) et à l'aide de l'expression mathématique suivante : The method of claim 4, wherein the first probability (p) is calculated by defining a frequency range weighting function (G (ω)) and using the following mathematical expression:
6. Procédé selon l'une quelconque des revendications précédentes, dans lequel on calcule (60) pour chaque direction de l'espace (E) la deuxième probabilité (μ) en déterminant le maximum de la première probabilité (p) sur la fenêtre temporelle (F).  6. Method according to any one of the preceding claims, in which one calculates (60) for each direction of space (E) the second probability (μ) by determining the maximum of the first probability (p) over the time window. (F).
7. Procédé selon l'une quelconque des revendications 1 à 5, dans lequel on calcule (60) la deuxième probabilité (μ) en : 7. Method according to any one of claims 1 to 5, wherein one calculates (60) the second probability (μ) in:
• déterminant, pour chaque trame temporelle, la direction d'arrivée dominante r(f) = argmaχ /?(r,/) ;  • determining, for each time frame, the dominant direction of arrival r (f) = argmaχ /? (R, /);
r  r
• calculant une probabilité de dominance m(t) = m xa* p(τ,ή ; Calculating a probability of dominance m (t) = m × a * p (τ, ή;
• appliquant, pour obtenir la deuxième probabilité, et pour une valeur (ε) définissant un degré de lissage, l'expression mathématique suivante : Applying, to obtain the second probability, and for a value (ε) defining a degree of smoothing, the following mathematical expression:
μ(τ) =∑m(t) \ r-ε≤τ(ή < τ + ε . μ (τ) = Σm (t) \ r-ε≤τ (ή <τ + ε.
8. Dispositif (100) d'estimation de la direction d'arrivée (U1 ), au cours d'une plage temporelle (P) subdivisée en trames (T), dans un espace (E), d'un premier nombre (N) de signaux (Si) émis respectivement par un même premier nombre (N) de sources (10) caractérisé en ce qu'il comporte : 8. Device (100) for estimating the direction of arrival (U 1 ), during a time range (P) subdivided into frames (T), in a space (E), of a first number ( N) of signals (Si) emitted respectively by the same first number (N) of sources (10), characterized in that it comprises:
• une entrée (105) pour recevoir au moins deux observations (Xi, X2) desdits signaux (Si) sur la plage temporelle (P) ; An input (105) for receiving at least two observations (Xi, X 2 ) of said signals (Si) over the time range (P);
• une unité de calcul de la direction d'arrivée (110), apte à recevoir les observations (xi, X2), ladite unité (1 10) étant adaptée au calcul d'une première probabilité (p) de présence d'une des sources pour chaque direction d'un ensemble de directions de l'espace (E); A unit for calculating the arrival direction (110), able to receive the observations (xi, X 2 ), said unit (1 10) being adapted to calculate a first probability (p) of presence of a sources for each direction of a set of directions of space (E);
• une unité de regroupement temporel (125), coopérant avec l'unité de calcul de la direction d'arrivée (110), adaptée au calcul d'une deuxième probabilité (μ) de présence d'une des sources (10) pour chaque direction d'un ensemble de directions de l'espace (E), en fonction de la première probabilité (p), et sur une fenêtre temporelle A temporal grouping unit (125), cooperating with the computing unit of the arrival direction (110), adapted to calculate a second probability (μ) of the presence of one of the sources (10) for each direction of a set of directions of space (E), as a function of the first probability (p), and over a temporal window
(F) composée d'un deuxième nombre (g) de trames (T); (F) composed of a second number (g) of frames (T);
• une unité d'identification (130), coopérant avec l'unité de regroupement temporel (125), adaptée à identifier des directions pour lesquelles il existe un maximum local de la deuxième probabilité (μ), lesdites directions correspondant chacune à la direction d'arrivée (U1 ) d'un des signaux (Si) et étant délivrées sur une sortie (140). An identification unit (130), cooperating with the temporal grouping unit (125), adapted to identify directions for which there is a local maximum of the second probability (μ), said directions each corresponding to the direction of arrival (U 1 ) of one of the signals (Si) and being delivered on an output (140).
9. Dispositif selon la revendication 8, comportant en outre des moyens de comptage (135) pour délivrer sur la sortie (140) le premier nombre (N) de sources (10) en dénombrant le nombre de maxima locaux de la deuxième probabilité (μ). 9. Device according to claim 8, further comprising counting means (135) for delivering the first number (N) of sources (10) to the output (140) by counting the number of local maxima of the second probability (μ). ).
10. Dispositif selon l'une quelconque des revendications 8 à 9, comportant des moyens de paramétrage (120) adaptés à modifier, au niveau de l'unité de regroupement temporel (125), le deuxième nombre (g) de trames (T) de manière inversement proportionnelle à la vitesse à laquelle les sources (10) sont susceptibles de se déplacer dans l'espace (E). 10. Device according to any one of claims 8 to 9, comprising setting means (120) adapted to modify, at the temporal grouping unit (125), the second number (g) of frames (T). of inversely proportional to the speed at which the sources (10) are able to move in the space (E).
1 1. Dispositif de décodage audio comportant une entrée pour recevoir au moins deux observations (X1, X2) de signaux (Si) émis par des sources (10), ledit dispositif comportant un dispositif d'estimation de la direction d'arrivée (θt ) selon l'une quelconque des revendications 8 à 10. 1 1. Audio decoding device comprising an input for receiving at least two observations (X 1 , X 2 ) of signals (Si) emitted by sources (10), said device comprising a device for estimating the direction of arrival (θ t ) according to any one of claims 8 to 10.
12. Programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé selon l'une quelconque des revendications 1 à 7 lorsque ce programme est exécuté par un processeur. 12. Computer program comprising instructions for implementing the method according to any one of claims 1 to 7 when the program is executed by a processor.
EP10751985A 2009-07-10 2010-07-08 Source location Withdrawn EP2452293A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0954814A FR2947931A1 (en) 2009-07-10 2009-07-10 LOCATION OF SOURCES
PCT/FR2010/051451 WO2011012789A1 (en) 2009-07-10 2010-07-08 Source location

Publications (1)

Publication Number Publication Date
EP2452293A1 true EP2452293A1 (en) 2012-05-16

Family

ID=42224326

Family Applications (1)

Application Number Title Priority Date Filing Date
EP10751985A Withdrawn EP2452293A1 (en) 2009-07-10 2010-07-08 Source location

Country Status (3)

Country Link
EP (1) EP2452293A1 (en)
FR (1) FR2947931A1 (en)
WO (1) WO2011012789A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2969803A1 (en) * 2010-12-23 2012-06-29 France Telecom SOUND DATA PROCESSING FOR SEPARATION OF SOURCES.
GB2501058A (en) * 2012-03-05 2013-10-16 Eads Uk Ltd A speaker diarization system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2011012789A1 *

Also Published As

Publication number Publication date
WO2011012789A1 (en) 2011-02-03
FR2947931A1 (en) 2011-01-14

Similar Documents

Publication Publication Date Title
EP2898707B1 (en) Optimized calibration of a multi-loudspeaker sound restitution system
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
EP3441966A1 (en) System and method for determining audio context in augmented-reality applications
EP3807669B1 (en) Location of sound sources in a given acoustic environment
EP3052958B1 (en) Method for locating a sound source, and humanoid robot using such a method
EP3899701B1 (en) High-precision temporal measurement of vibro-acoustic events in synchronisation with a sound signal on a touch-screen device
EP3040989A1 (en) Improved method of separation and computer program product
EP3635718A1 (en) Processing of sound data for separating sound sources in a multichannel signal
EP3895446B1 (en) Method for interpolating a sound field and corresponding computer program product and device
FR3014237A1 (en) METHOD OF DETECTING THE VOICE
US20190057705A1 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
KR102188620B1 (en) Sinusoidal interpolation across missing data
EP2452293A1 (en) Source location
EP4046390A1 (en) Improved location of an acoustic source
EP0410826B1 (en) Iterative motion estimation process, between a reference image and a current image, and device for canying out the process
WO2023156316A1 (en) Locating a moving acoustic source
EP3627510A1 (en) Filtering of an audio signal acquired by a voice recognition system
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
FR3078196A1 (en) METHOD AND DEVICE FOR SYNCHRONIZING RECORDINGS COMPRISING AN AUDIO SIGNAL FROM DIFFERENT CO-LOCALIZED ACQUISITION DEVICES
WO2022106765A1 (en) Improved location of an acoustic source
US11835625B2 (en) Acoustic-environment mismatch and proximity detection with a novel set of acoustic relative features and adaptive filtering
US20240046927A1 (en) Methods and systems for voice control
FR3051959A1 (en) METHOD AND DEVICE FOR ESTIMATING A DEREVERBERE SIGNAL
Choudhary et al. Inter-sensor time delay estimation using cepstrum of sum and difference signals in underwater multipath environment
EP4315328A1 (en) Estimating an optimized mask for processing acquired sound data

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20120208

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

17Q First examination report despatched

Effective date: 20170719

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20171130