EP3635718A1 - Processing of sound data for separating sound sources in a multichannel signal - Google Patents

Processing of sound data for separating sound sources in a multichannel signal

Info

Publication number
EP3635718A1
EP3635718A1 EP18737650.4A EP18737650A EP3635718A1 EP 3635718 A1 EP3635718 A1 EP 3635718A1 EP 18737650 A EP18737650 A EP 18737650A EP 3635718 A1 EP3635718 A1 EP 3635718A1
Authority
EP
European Patent Office
Prior art keywords
components
descriptors
sources
sound
direct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP18737650.4A
Other languages
German (de)
French (fr)
Other versions
EP3635718B1 (en
Inventor
Mathieu BAQU
Alexandre Guerin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of EP3635718A1 publication Critical patent/EP3635718A1/en
Application granted granted Critical
Publication of EP3635718B1 publication Critical patent/EP3635718B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present invention relates to the field of audio or acoustic signal processing and more particularly to the processing of real multichannel sound contents to separate sound sources.
  • a blind separation of the sources consists, from a number M of observations from distributed sensors in this space E r to count and extract the number N of sources.
  • each observation is obtained using a sensor that records the signal up to a point in the space where the sensor is located.
  • the recorded signal then results from the mixing and propagation in the space E of the signals 5 / and is therefore affected by different disturbances specific to the medium traversed, such as for example noise, reverberation, interference, etc.
  • x is the vector of the M registered channels, s the vector of N sources and A a matrix called “mixing matrix" of dimension MxN the contributions of each source to each
  • matrix A can take different forms.
  • A is a simple matrix of gains.
  • the matrix A becomes a filter matrix.
  • we usually express the relation in the frequent domain x (f) As (f), where A is expressed as a matrix of complex coefficients,
  • the analysis ie, the identification of the number of sources and their positions
  • the decomposition of the scene into objects ie the sources
  • ACI independent component analysis algorithm
  • the preliminary step of estimating the dimension of the problem ie the estimation of the size of the separation matrix, ie the number of sources N, is conventionally done by calculating the rank of the observation covariance matrix, which is , in this case anechoic, equal to
  • An example of beamforming to extract three sources positioned at respectively 0 °, 90 ° and -120 ° of azimuth is illustrated in FIG. 1. Each of the directivities formed corresponds to the extraction of one of the sources of sys-
  • the total acoustic field can be modeled as the sum of the direct field of the sources of interest (represented in 1 in Figure 2), the first reflections (secondary sources, represented in 2 in Figure 2) and a diffuse field (represented in 3 in Figure 2).
  • the covariance matrix of the observations is then of full rank, regardless of the actual number of active sources in the mixture: this means that one can no longer use the rank of Co to estimate the number of sources.
  • the separation matrix B of size MxM is obtained, generating at output M sources in the place of the desired N, the last MN components essentially containing the reverberated field, by matricial topatlon:
  • each additional component induces constraints on the directivities formed and generally degrades the directivity factor with the consequence of raising the level of reverberation in the extracted signals.
  • the source / active is estimated as follows:
  • a representation in space of all couples is performed in the form of a histogram, the clustering is then performed on the maximum likelihood histogram, a function of the position of the zone and the assumed position of the associated source, assuming a Gaussian distribution of the estimated positions of the each area around the actual position of the sources.
  • the parsimony hypothesis of the sources in the time-frequency domain is often faulted, which constitutes a significant limitation of these approaches for the enumeration of sources, because the directions of arrival pointed for each zone then result from a combination of contributions from multiple sources and clustering is no longer working properly.
  • the presence of reverberation can on the one hand degrade the location of sources and on the other hand generate an over-estimation of the number of real sources when initial reflections reach a level sufficient energy to be perceived as secondary sources.
  • the present invention improves the situation.
  • the method is such that it comprises the following steps:
  • classification of the components of the set of M components according to two classes of components, a first class of N so-called direct components corresponding to the N direct sound sources and a second class of MN components referred to as reverberated, by a calculation of probability of belonging. to one of the two classes, a function of the sets of first and second descriptors.
  • the set of first bivariate descriptors makes it possible to determine, on the one hand, whether the components of a pair of the set of components obtained following the source separation step belong to the same class of components. or a different class while the set of second univariate descriptors allows to define for a component, if it has more probability to belong to such or such class. This makes it possible to determine the probability of membership of a component to one of the two classes and thus to determine the N direct sound sources corresponding to the N components classified in the first class.
  • calculating a bivariate descriptor comprises calculating a coherence score between two components. This descriptor calculation makes it possible to know whether a pair of components corresponds to two direct components (2 sources) or if at least one of the components comes from a reverberant effect.
  • determining a delay between the two components of the pair comprises determining a delay between the two components of the pair. This determination of the delay and the sign associated with this delay makes it possible to determine, for a pair of components, which component corresponds more probably to the direct signal and which component more probably corresponds to the reverberated signal.
  • the delay between two components is determined by taking into account the delay maximizing an inter-correlation function between the two components of the pair.
  • This method of obtaining the delay provides a determination of a reliable bi-varied descriptor.
  • the determination of the delay between two components of a pair is associated with an indicator of reliability of the sign of the delay, a function of the coherence between the components of the pair.
  • the determination of the delay between two components of a pair is associated with a reliability indicator of the sign of the retord, a function of the ratio of the maximum of an inter-correlation function for delays of opposite sign.
  • the calculation of a unvaried descriptor is a function of a mapping between mixing coefficients of a mixture matrix estimated from the source separation step and the characteristics of encoding a source of the type plane wave. This descriptor calculation allows for a single component, to estimate the probability that the component is direct or reverberated.
  • the classification of the components of the set of M components takes place by taking into account of the M components, and by calculating the
  • the most likely combination is calculated by determining a maximum of the likelihood values expressed as the product of the conditional probabilities associated with the descriptors / for the possible M classification combinations. components.
  • a step of pre-selecting the possible combinations is performed based on the only unl-varlated descriptors before the step of calculating the most probable combination.
  • a component pre-selection step is performed based on the only unl-varlated descriptors before the step of calculating the bivariate descriptors.
  • the multichannel signal is an ambisonic signal.
  • the invention also relates to a sound data processing device implemented to perform a separation processing of N sound sources of a multichannel sound signal picked up by a plurality of sensors in real environment.
  • the device is such that it comprises:
  • an input interface for receiving the signals picked up by a plurality of sensors, the multichannel sound signal
  • a processing circuit comprising a processor and able to implement:
  • a source separation processing module applied to the multichannel signal picked up to obtain a
  • a calculator able to compute a set of first descriptors called bhvariates, representative of statistical relations between the components of the pairs of the set of M components obtained and a set of second descriptors said uni-varied representative of encoding characteristics of the components of the set of M components obtained;
  • an output interface for delivering the classification information of the components.
  • the invention also applies to a computer program comprising code instructions for implementing the steps of the processing method as described above, when these instructions are executed by a processor and to a storage medium, readable by a processor, on which is recorded a computer program comprising code instructions for performing the steps of the processing method as described.
  • the device, program and storage medium have the same advantages as the method described above, which they implement. Other characteristics and advantages of the invention will appear more clearly on reading the following description, given solely for
  • FIG. 1 illustrates a channel formation for extracting three sources according to a method of source separation of the state of the art as described above;
  • FIG. 2 illustrates an impulse response with room effect as previously described
  • FIG. 3 illustrates, in flowchart form, the main steps of a processing method according to one embodiment of the invention
  • FIG. 4 illustrates, as a function of frequency, coherence functions representing bi-varied descriptors between two components according to one embodiment of the invention, and according to different pairs of components;
  • FIG. 5 illustrates the probability densities of the average coherences representing the bivariate descriptors according to one embodiment of the invention and for different pairs of components and different numbers of sources;
  • FIG. 6 illustrates inter-correlation functions between two different class components according to one embodiment of the invention and according to the number of sources;
  • FIG. 7 illustrates the probability densities of a plane wave criterion as a function of the class of the component, of the ambisonic order and of the number of sources, for a particular embodiment of the invention
  • FIG. 8 illustrates a hardware representation of a processing device according to one embodiment of the invention, implementing a processing method according to one embodiment of the invention.
  • FIG. 9 illustrates an exemplary probability law calculation for a criterion of coherence between a direct component and a reverberated component according to one embodiment of the invention.
  • FIG. 3 illustrates the main steps of a sound data processing method for a separation of N sound sources from a muitican sound signal captured in a real medium in one embodiment of the invention.
  • the method implements a step E310 blind separation of sound sources (SAS).
  • SAS blind separation of sound sources
  • the step of blind separation of sources can be implemented, for example using an independent component analysis algorithm (or "ACI"), or a component analysis algorithm. main.
  • ACI independent component analysis algorithm
  • Ambisia consists of a projection of the acoustic field on a basis of spherical harmonic functions, to obtain a spatial representation of the sound stage.
  • the function is the harmonic
  • a real ambisonic encoding is done from a network of sensors, generally distributed over a sphere.
  • the captured signals are combined to synthesize an ambisonic content whose channels respect the directivity of spherical harmonics.
  • the basic principles of ambisonic encoding are described below.
  • Ambisonic formalism initially limited to the representation of spherical harmonic functions of order 1, was later extended to higher orders.
  • Ambisonic formalism with a larger number of components is commonly referred to as “Higher Order Ambisonlcs” (or “HOA” hereinafter),
  • a content of order m contains a total of (m + 1) 2 channels (4 channels at order 1, 9 channels at order 2, 16 channels at order 3, and so on).
  • ambient components is understood to mean the ambisonic signal in each ambisonic channel, with reference to the “vector components” in a vector base that would be formed by each spherical harmonic function. For example, we can count:
  • step E310 The blind separation of sources is therefore performed in step E310 as explained above.
  • the components obtained at the output of the source separation step can be classified according to two classes of components: a first class of direct components corresponding to the sources direct sound and a second class of so-called reverberated components corresponding to the reflections of the sources.
  • step E32Q a computation of descriptors of the M components (si, S2, ... s M ) resulting from the source separation step is implemented, descriptors which will make it possible to associate with each component extracted the corresponding class: direct component or reverberated component.
  • bi-variant descriptors that involve pairs of components and univariate descriptors calculated for a component 3 ⁇ 4.
  • a set of first bi-variate descriptors is calculated. These descriptors are representative of statistical relations between the components of the pairs of the set of M components obtained.
  • an average coherence between two components is calculated here.
  • This type of descriptor represents a statistical relationship between the components of a couple and provides an indication of the presence of at least one reverberated component in a pair of components.
  • each direct component consists mainly of the direct field of a source, comparable to a plane wave, plus a residual reverberation whose energy contribution is lower than that of the direct field. Since the sources are statistically independent by nature, there is therefore a weak correlation between the extracted direct components.
  • each reverberated component consists of early reflections, delayed and filtered versions of the direct field (s), and late reverberation, so that the reverberated components exhibit a significant correlation with the direct components, and usually a group delay identifiable in relation to the direct components.
  • the coherence function informs about the existence of a correlation
  • Consistency is ideally zero when are the direct fields from independent sources but it takes a high value when are two contributions from the same source; the direct field and a first reflection or two reflections. such a coherence function indicates
  • the interspectres and aulospectres can be calculated by segmenting the extracted components in K frames (adjacent or overlapped), by applying a short-term Fourier transform to each frame k of these K frames to produce the instantaneous spectra and by means of observations on K fields;
  • the descriptor used for a broadband signal is the average over all the frequencies of the coherence function between two components, namely:
  • the coherence value dy is less than 0.3 while in the second case d y reaches 0.7 in the presence of a single active source.
  • step E330 of FIG. 3 a probability calculation is deduced from the descriptor thus described.
  • the probability densities of FIGS. 5 and 7 described below, and more generally all the probability densities of the descriptors, are learned in a statistical manner on databases comprising various acoustic (reverberant / masts) and different acoustic conditions.
  • sources male / female voice, French / English languages .
  • the components are classified informally: to each source is associated the extracted component closest spatially, the remaining being classified as reverberated components.
  • To calculate the position of the component we use the first 4 coefficients of its mixing vector from matrix A (ie, order 1), which is the inverse of the separation matrix 8. Assuming that this vector follows the rule of encoding of a plane wave is:
  • arctan2 is the arctangent function which makes it possible to remove the ambiguity of sign of the arctangent function.
  • FIG. 9 shows an example of law calculation for the criterion of coherence between a direct component and a reverberated component: the lognormal law has been selected from among ten laws because it minimizes the Kullback-Leibler divergence.
  • FIG. 5 represents the distributions (probability density or pdf for "Probability density function") associated with the value of the average coherence between two components.
  • the coherence estimators are degraded, whether it is the direct / reverberated or reverberated / reverberated pairs (in the presence of a single source, the direct / direct pair does not exist).
  • This descriptor is therefore relevant for detecting whether a pair of extracted components corresponds to two direct components (2 true sources) or if at least one of the two components originates from the room effect.
  • step E320 another type of bi-varied descriptor is calculated in step E320. Either this descriptor is calculated in place of the coherence type descriptor described above, or in addition to it.
  • This descriptor will make it possible to determine, for a pair (direct / reverberated) which component is more likely the direct signal and which corresponds to the reverberated signal, based on the simple assumption that the first reflections are delayed and attenuated versions of the signal. direct.
  • Delay is defined as the delay that maximizes the intercorrelation function
  • the average coherence between the components makes it possible to evaluate the pertinence of the reflected-reverberation pair as seen previously. If it is strong, we can hope that the group delay will be a reliable descriptor.
  • Figure 6 illustrates the emerging character of the autocorrelation peak between a direct component and a reverberated component.
  • the maximum inter-correlation clearly emerges from the inter-correlation remainder, reliably indicating that one of the components is lagging behind the other. It emerges in particular with respect to the values of the autocorrelation function for signs opposite to that of
  • a second indicator of reliability of the sign of the delay called emergence is defined, by calculating the ratio between the absolute value of the intercorrelation to and that of the maximum correlation for r's of sign opposite to that of :
  • This ratio which we call emergence, is an ad hoc criterion whose relevance is verified in practice: it takes values close to 1 for independent signals, l.e. 2 direct components, and higher values for correlated signals as a direct component and a reverberated component. In the aforementioned case of curve (1) of FIG. 6, the emergence value is 4.
  • this descriptor is sensitive to noise, and in particular to the presence of several simultaneous sources, as illustrated in curve (2) of FIG. 6: in the presence of two sources, even if the maximum correlation still emerges, its relative value - 2.6 - is less because of the presence of an interfering source which reduces the correlation between the extracted components.
  • the reliability of the sign of the delay will be measured as a function of the value of the emergence, which will be weighted by the number of sources to be detected a priori.
  • a probability of belonging to a first class of direct components or a second class of reverberant components for a pair of components is calculated in step E330.
  • Sj identified as being in advance on% the probability that 3 ⁇ 4 either direct and reverberated by a two-dimensional law.
  • the sign of delay is a reliable indicator when both consistency and emergence have medium or high values.
  • a weak emergence or a weak coherence will make the couples direct / reverberated or reverberated / direct equiprobables.
  • step E320 a set of second unidimensional descriptors representative of encoding characteristics of the components of the set of M components obtained is also calculated.
  • the encoding of a source coming from a given direction is done with mixing coefficients depending, among other things, on the directivity of the sensors.
  • the source can be considered as point and where the wavelengths are large compared to the size of the antenna, one can consider the source as a plane wave. This assumption is generally true in the case of an ambisonic microphone that is small, provided that the source is sufficiently far from the microphone (in practice, one meter is enough).
  • the j th column of the estimated mixing matrix A obtained by inverting the separation matrix B, will contain the mixture of coefficients associated therewith. If this component is direct, that is to say that it corresponds to a single source, the mixing coefficients of the column Aj will tend towards the characteristics of the microphone encoding for a plane wave. In the case of a reverberated component, the sum of several reflections and a diffuse field, the estimated mixing coefficients will be more random and not encoding a single source
  • N3D is carried out according to the formula:
  • plane wave criterion which illustrates the conformity between the estimated mixing coefficients and the theoretical equation of an encoded plane wave alone:
  • the criterion c op is by definition equal to 1 in the case of a plane wave.
  • the plane wave criterion will remain very close to the value 1, conversely, in the case of a reverberated component, the multitude of contributions (first reflections and late) with energy levels
  • the distribution associated and calculated in E330 knows a certain variability, according in particular according to the level of noise present in the extracted components.
  • This noise consists mainly of residual reverberation and contributions from interfering sources that have not been perfectly canceled.
  • the probability laws (probability density) associated with this descriptor can be observed in FIG. 7, as a function of the number of active sources simultaneously (1 or 2) and of the ambisonic order of the content analyzed (orders 1 to 2). According to the initial hypothesis, the value of the plane wave criterion is concentrated around the value 1 for the direct components. For reverberated components, the distribution is more uniform, but with a slightly asymmetrical shape, because of the descriptor itself, which is asymmetric, with a 1 / x form.
  • the distance between the distributions of the two classes allows a fairly reliable discrimination between the components of the flat wave type and those more diffuse.
  • the descriptors calculated in step E320 and exposed id are based on both the extracted component statistics (average coherence and group delay) and on the estimated mixing matrix (plane wave criterion). These make it possible to determine conditional probabilities of belonging of a component to one of the two classes C d or C r .
  • the problem is ultimately to choose from a total of 2 M potential configurations assumed equiprobable.
  • the rule of the posterior maximum is applied: knowing the likelihood of the configuration, the configuration chosen will be the one with the maximum likelihood, ie:
  • the chosen approach can be exhaustive and then consists in estimating the likelihood of all the possible configurations, from the descriptors determined in step E320 and the distributions associated with them which are calculated in step E330.
  • a pre-selection of the configurations can be performed to reduce the number of configurations to be tested, and therefore the complexity of the implementation of the solution.
  • This pre-selection can be done for example according to the plane wave criterion alone by classifying certain components in the category when the value of their criterion away from the theoretical value of a plane wave 1: in the case of ambisonic signals, we can see on the distributions of Figure 7 that we can, whatever the configuration (order or number of sources) and a priori without loss of robustness, classify in the category c T the components whose checks one of the following inequalities:
  • Another possibility for further reducing the complexity is to exclude the pre-classified components of the computation of the bi-varied descriptors and the likelihood calculation, which reduces the number of bi-varied criteria to be calculated and therefore even more complexity. treatment.
  • Likelihood is expressed as the product of the conditional probabilities associated with each of the K descriptors, assuming that they are independent: where d is the vector of the descriptors and C is a vector representing a configuration (ie the combination of the supposed classes of the M components), as defined above.
  • a number K1 of univariate descriptors is used for each of the components, while a number / type of bi-varied descriptors is used for each pair of components. Since the laws of descriptor probabilities are established according to the number of supposed sources and the number of channels (the index m represents the ambisonic order, in the case of a capture of this type), we formulate the final expression. likelihood:
  • - is the value of the bi-varied descriptor of index k for the components 3 ⁇ 4 and si;
  • Ci are the supposed classes of the components Jet /;
  • log-likelihood This equation is the one ultimately used to determine the most likely configuration in the Bayesian classifier described here for this embodiment.
  • Bayesian classifier presented here is only one example of implementation, it could be replaced, inter alia, by a carrier vector machine or a neural network.
  • the processing described here is performed in the time domain, but may also be, in an alternative embodiment, applied in a transformed domain.
  • the method as described with reference to FIG. 3 then being implemented by frequency subbands after passing through the transformed domain of the signals picked up.
  • the useful bandwidth can be reduced according to the potential imperfections of the captaBon system, in high frequencies (presence of spatial folding) or at low frequencies (impossibility to find the theoretical directivities of the microphonic encoding).
  • FIG. 8 represents here an embodiment of a processing device (DIS) according to an embodiment of the invention.
  • Sensors represented here in the form of a spherical microphone MIC make it possible to acquire, in a real medium, thus reverberant, M mixing signals from a multichannel signal.
  • sensors can be integrated in the DIS device or outside the device / the resulting signals are then transmitted to the processing device that receives them via its input interface 840. Alternatively, these signals can simply be obtained beforehand and imported. in memory of the DIS device.
  • This memory may include a computer program including code instructions for the implementation of steps of the processing method as described for example with reference to Figure 3 and in particular the steps of applying a source separation process to the multichannel signal captured and obtaining a set of M sound components, with M ⁇ N , calculating a set of first descriptors said bivariate, representative of statistical relations between the components of the pairs of the set of M components obtained and a set of second descriptors said uni-varied representative of encoding characteristics components of the set of M components obtained and of classification of the components of the set of M components, according to two classes of components, a p first class of N so-called direct components corresponding to the N direct sound sources and a second class of M-N components called reverberated, by a calculation of probability of belonging to one of the two classes, a function of the sets of first and second descriptors.
  • the device comprises a source separation processing module 810 applied to the multichannel signal picked up to obtain a set of M sound components. with M ⁇ N.
  • the M components are provided at the input of a calculator 820 capable of calculating a set of first so-called bi-varied descriptors, representative of statistical relations between the components of the pairs of the set of M components obtained and a set of second descriptors said to be uni -variés of encoding features of the compo
  • a classification module 830 or classifier able to classify components of the set of M components, according to two classes of components, a first class of N so-called direct components corresponding to N direct sound sources and a second class of MN components called reverberated.
  • the classification module comprises a module 831 for calculating the probability of belonging to one of the two classes of the components of the set M, which is a function of the sets of first and second descriptors.
  • the classifier uses descriptors related to the correlation between the components to determine which are direct signals (ie true sources) and which are reverb residues. It also uses descriptors related to SAS-estimated mixing coefficients, to evaluate the conformity between the theoretical encoding of a single source and the estimated encoding of each component. Some of the descriptors are therefore a function of a pair of components (for the correlation), and others are functions of a single component (for the conformity of the estimated microphonic encoding).
  • a likelihood calculation module 832 makes it possible to determine, in one embodiment, the most probable combination of the classifications of the M components by a calculation of likelihood values according to the probabilities calculated in module 831 and for the possible combinations.
  • the device comprises an output interface 850 for outputting the classification information of the components, for example to another processing device that can use this information to enhance the sound of the discriminated sources, to denoise them or to perform a mixing from several discriminated sources.
  • Another possible treatment may also be to analyze or locate the sources to optimize the processing of a voice command.
  • the device can also be integrated in a communication terminal capable of processing signals picked up by a plurality of integrated or remote sensors of the terminal.

Abstract

The present invention pertains to a method for processing sound data for separating N sound sources of a multichannel sound signal sensed in a real medium. The method comprises the steps of applying (E310) a processing for separating sources to the sensed multichannel signal and obtaining a separation matrix and a set of M sound components, with M≥N, of calculating (E320) a set of so-called bi-variate first descriptors representative of statistical relations between the components of the pairs of the set obtained of M components, of calculating (E320) a set of so-called uni-variate second descriptors representative of characteristics of encoding of the components of the set obtained of M components and of classifying (E340) the components of the set of M components, according to two classes of components, a first class of N so-called direct components corresponding to the N direct sound sources and a second class of M-N so-called reverberated components, by a calculation (E330) of probability of membership in one of the two classes, dependent on the sets of first and second descriptors. The invention also pertains to a processing device implementing the method such as described.

Description

ement de données sonores pour une sépara of sound data for a separa
sonores dans un signal multicanal  sound in a multichannel signal
La présente invention se rapporte au domaine du traitement de signal audio ou acoustique et plus particulièrement au traitement de contenus sonores multicanal réels pour séparer les sources sonores. The present invention relates to the field of audio or acoustic signal processing and more particularly to the processing of real multichannel sound contents to separate sound sources.
La séparation de sources dans un signal sonore multicanal permet de multiples applications. Elle peut par exemple être utilisée :  The separation of sources in a multichannel sound signal allows multiple applications. It can for example be used:
o Pour le divertissement (karaoké : suppression de la voix), o Pour la musique (mixage des sources séparées dans un contenu multicanal),  o For entertainment (karaoke: deleting the voice), o For music (mixing separate sources in multichannel content),
o Pour les télécommunications (rehaussement de la voix, débruitage),  o For telecommunications (voice enhancement, denoising),
o Pour la domotique (commande vocale),  o For home automation (voice control),
o Pour le codage audio multicanal,  o For multi-channel audio coding,
o Pour la localisation de sources et cartographie en Imagerie, Dans un espace E dans lequel un nombre N de sources émettent un signal s,-, une séparation aveugle des sources consiste, à partir d'un nombre M d'observations issues de capteurs répartis dans cet espace Er à dénombrer et extraire le nombre N de sources. En pratique, chaque observation est obtenue à l'aide d'un capteur qui enregistre le signai parvenu jusqu'en un point de l'espace où se situe le capteur. Le signal enregistré résulte alors du mélange et de la propagation dans l'espace E des signaux 5/ et se trouve donc affecté de différentes perturbations propres au milieu traversé comme par exemple le bruit, la réverbération, les interférences, etc... o For the location of sources and cartography in Imaging, In a space E in which a number N of sources emit a signal s, -, a blind separation of the sources consists, from a number M of observations from distributed sensors in this space E r to count and extract the number N of sources. In practice, each observation is obtained using a sensor that records the signal up to a point in the space where the sensor is located. The recorded signal then results from the mixing and propagation in the space E of the signals 5 / and is therefore affected by different disturbances specific to the medium traversed, such as for example noise, reverberation, interference, etc.
La captation multicanal d'un nombre N de sources sonores Si se propageant en champ libre et considérées comme ponctuelles se formalise comme une opération matricielle : The multichannel capture of a number N of sound sources If propagating in a free field and considered as punctual is formalized as a matrix operation:
Où x est le vecteur des M canaux enregistrés, s le vecteur des N sources et A une matrice dite « matrice de mélange » de dimension MxN les contributions de chaque source à chaque Where x is the vector of the M registered channels, s the vector of N sources and A a matrix called "mixing matrix" of dimension MxN the contributions of each source to each
* symbolise la convoluOon linéaire. Selon le milieu de propagation et le format de l'antenne, la matrice A peut prendre différentes formes. Dans le cas d'une antenne coïncidente (tous les microphones de l'antenne sont concentrés en un même point de l'espace) en milieu anéchoïque, A est une simple matrice de gains. Dans le cas d'une antenne non coïncidente, en milieu anéchoïque ou réverbérant, la matrice A devient une matrice de filtre. Dans ce cas, on exprime généralement la relation dans le domaine fréquentïel x(f) = As(f), où A s'exprime comme une matrice de coefficients complexes,  * symbolizes the linear convolution. Depending on the propagation medium and the antenna format, matrix A can take different forms. In the case of a coincident antenna (all microphones of the antenna are concentrated at the same point of space) in anechoic medium, A is a simple matrix of gains. In the case of a non-coincident antenna, in anechoic or reverberant medium, the matrix A becomes a filter matrix. In this case, we usually express the relation in the frequent domain x (f) = As (f), where A is expressed as a matrix of complex coefficients,
Dans le cas où la captation du signal sonore se fait dans un environnement anéchoïque, et si l'on se place dans l'hypothèse où le nombre de sources N est inférieur au nombre d'observations M, l'analyse (i.e, l'identification du nombre de sources et de leurs positions) et la décomposition de la scène en objets, i.e. les sources, peuvent être facilement réalisées de manière conjointe par un algorithme d'analyse en composantes indépendantes (ou « ACI » ci-après). Ces algorithmes permettent d'identifier la matrice B de séparation de dimensions NxM, pseudo-inverse de A, qui permet de déduire les sources à partir des observations grâce à l'équation suivante : In the case where the sound signal is captured in an anechoic environment, and if we assume that the number of sources N is smaller than the number of observations M, the analysis (ie, the identification of the number of sources and their positions) and the decomposition of the scene into objects, ie the sources, can be easily performed jointly by an independent component analysis algorithm (or "ACI" hereinafter). These algorithms make it possible to identify the matrix B of NxM size separation, pseudo-inverse of A, which makes it possible to deduce the sources from the observations thanks to the following equation:
L'étape préalable d'estimation de la dimension du problème, i.e. l'estimation de la taille de la matrice de séparation, soit du nombre de sources N, est classiquement fait en calculant le rang de la matrice de covariance des observations, qui est, dans ce cas anéchoïque, égal au The preliminary step of estimating the dimension of the problem, ie the estimation of the size of the separation matrix, ie the number of sources N, is conventionally done by calculating the rank of the observation covariance matrix, which is , in this case anechoic, equal to
nombre de sources : number of sources:
Quant à la localisation des sources, elle peut être déduite de la matrice d'encodage A = B-1 et de la connaissance des propriétés spatiales de l'antenne utilisée, notamment la distance entre les capteurs et leurs directivités. As for the location of the sources, it can be deduced from the encoding matrix A = B -1 and the knowledge of the spatial properties of the antenna used, in particular the distance between the sensors and their directivities.
Parmi les algorithmes les plus connus d'ACI, on peut citer JADE de j.F Cardoso et A. Souloumlac. ("ΒΙind beamforming for non-gaussian signals" proœedings F - Radar and Signal Processing", Among the most well-known ACI algorithms are JF Cardoso and A. Souloumlac. ("ΒΙind beamforming for non-gaussian signals" p roœe dings F - Radar and Signal Processing "
Dec. 1993) ou Infomax d'Amarl et. al. ("A new learnlng algoritfim for blind signal séparation, Advances" dans "neural information processing Systems", 1996).  Dec. 1993) or Amarl and Infomax. al. ("A new learnlng algoritfim for blind signal separation, Advances" in "Neural Information Processing Systems", 1996).
En pratique, dans certaines conditions, l'étape de séparation s = Bx revient à faire de la formation de voies sous contrainte (ou « beamforming » ci-après) : la combinaison de différents canaux donnée par la matrice B consiste à appliquer un filtre spatial dont la directivité revient à imposer un gain unité dans la direction de la source que l'on veut extraire, et un gain nul dans la direction des sources interférentes. Un exemple de beamforming pour extraire trois sources positionnées à respectivement 0°, 90° et -120° d'azimuth est illustré à la figure 1. Chacune des directivités formées correspond à l'extraction d'une des sources de s- In practice, under certain conditions, the separation step s = Bx amounts to making the formation of channels under constraint (or "beamforming" hereafter): the combination of different channels given by the matrix B consists in applying a filter spatial whose directivity amounts to imposing a unit gain in the direction of the source that we want to extract, and a zero gain in the direction of the interfering sources. An example of beamforming to extract three sources positioned at respectively 0 °, 90 ° and -120 ° of azimuth is illustrated in FIG. 1. Each of the directivities formed corresponds to the extraction of one of the sources of sys-
En présence d'un mélange de sources capté dans des conditions réelles, l'effet de salle va générer un champ sonore dit réverbéré, noté xr , qui va s'ajouter aux champs directs des sources : In the presence of a mixture of sources captured in real conditions, the room effect will generate a so-called reverberant sound field, denoted x r , which will be added to the direct fields of the sources:
Le champ acoustique total peut être modélisé comme la somme du champ direct des sources d'intérêt (représenté en 1 sur la figure 2), des premières réflexions (sources secondaires, représentées en 2 sur la figure 2) et d'un champ diffus (représenté en 3 sur la figure 2). La matrice de covariance des observations est alors de rang plein, quel que soit le nombre réel de sources actives dans le mélange : cela signifie que l'on ne peut plus utiliser le rang de Co pour estimer le nombre de sources.  The total acoustic field can be modeled as the sum of the direct field of the sources of interest (represented in 1 in Figure 2), the first reflections (secondary sources, represented in 2 in Figure 2) and a diffuse field ( represented in 3 in Figure 2). The covariance matrix of the observations is then of full rank, regardless of the actual number of active sources in the mixture: this means that one can no longer use the rank of Co to estimate the number of sources.
Ainsi, lorsqu'on utilise un algorithme de SAS pour séparer des sources en milieu réverbérant, la matrice de séparation B de taille MxM est obtenue, générant en sortie M sources au Heu des N désirées, les M-N dernières composantes contenant essentiellement du champ réverbéré, par Topératlon matricielle :Thus, when using an SAS algorithm for separating sources in a reverberant medium, the separation matrix B of size MxM is obtained, generating at output M sources in the place of the desired N, the last MN components essentially containing the reverberated field, by matricial topatlon:
Ces composantes supplémentaires posent plusieurs problèmes : pour l'ana|yse de scène : on ne sait pas a composantes relatives aux sources et les composantes induites par l'effet de salle. These additional components pose several problems: for the stage act: we do not know a source and component components induced by the room effect.
pour la séparation des sources par formation de voies : chaque composante supplémentaire induit des contraintes sur les directivités formées et dégrade généralement le facteur de directivité avec pour conséquence un rehaussement du niveau de réverbération dans les signaux extraits.  for the separation of sources by channel formation: each additional component induces constraints on the directivities formed and generally degrades the directivity factor with the consequence of raising the level of reverberation in the extracted signals.
Les méthodes existantes de comptage de sources pour des contenus multicanal sont souvent basées sur une hypothèse de parcimonie dans le domaine temps-fréquence, c'est-à-dire sur le fait que pour chaque zone temps-fréquence, une seule source ou un nombre limité de sources va avoir une contribution énergétique non-négligeable. Pour la plupart d'entre-elles, une étape de localisation de la source la plus énergétique est effectuée pour chaque zone (ou « bin » en anglais), puis les zones sont agrégées (étape dite de « clusterlng » en anglais) pour reconstruire la contribution totale de chaque source.  Existing methods of source counting for multi-channel content are often based on a sparse time-frequency hypothesis, ie, for each time-frequency zone, a single source or a number limited sources will have a non-negligible energy contribution. For most of them, a step of locating the most energetic source is performed for each zone (or "bin" in English), then the zones are aggregated (so-called "clusterlng" stage) to reconstruct the total contribution of each source.
L'approche DUET (Pour « Dégénérais Unmixing Estimation Technique ») décrite par exemple dans le document « Blind séparation of disjoint orthogonal signais: Demixing n sources from 2 mixtures.» des auteurs A, Jourjine, S. Rickard, et 0, Yilmaz, publié en 2000 dans ICASSPOO, permet de localiser et extraire N sources en conditions anéchoïques à partir de seulement deux observations non coïncidentes, en faisant l'hypothèse que les sources ont des supports fréquentiels disjoints, soit The DUET approach (for "Degenerate Unmixing Technical Estimation") described for example in the document "Blind separation of disjoint orthogonal signed: Demixing n sources from 2 mixtures." Authors A, Jourjine, S. Rickard, and 0, Yilmaz, published in 2000 in ICASSPOO, makes it possible to locate and extract N sources in anechoic conditions from only two non-coincident observations, by assuming that the sources have disjoint frequency carriers, either
pour tout f dès lors que for any f since
Après une décomposition des observations en sous-bandes fréquentielles, typiquement réalisée via une transformée de Fourier à court- terme, une amplitude a, et un retard ¾ sont estimés pour chaque sous-bande en se basant sur l'équation de mélange théorique : chaque bande de fréquence f, un coupleAfter a decomposition of observations into frequency subbands, typically performed via a short-term Fourier transform, an amplitude a, and a delay ¾ are estimated for each subband based on the theoretical mixing equation: each frequency band f, a couple
la source /active est estimée de la façon suivante : the source / active is estimated as follows:
Une représentation dans l'espace de l'ensemble des couples est effectuée sous forme d'histogramme, le « clustering » est alors effectuée sur l'histogramme par maximum de vraisemblance, fonction de la position de la zone et de la position supposée de la source associée, en supposant une distribution gaussienne des positions estimées de chaque zone autour de la position réelle des sources. A representation in space of all couples is performed in the form of a histogram, the clustering is then performed on the maximum likelihood histogram, a function of the position of the zone and the assumed position of the associated source, assuming a Gaussian distribution of the estimated positions of the each area around the actual position of the sources.
En pratique, l'hypothèse de parcimonie des sources dans le domaine temps-fréquence est souvent mise en défaut, ce qui constitue une limitation importante de ces approches pour le dénombrement de sources, car les directions d'arrivée pointées pour chaque zone résultent alors d'une combinaison des contributions de plusieurs sources et le « clustering » ne s'effectue plus correctement. De plus, pour l'analyse de contenus captés en conditions réelles, la présence de réverbération peut d'une part dégrader la localisation des sources et d'autre part engendrer une sur-estimation du nombre de sources réelles lorsque des premières réflexions atteignent un niveau énergétique suffisant pour être perçues comme des sources secondaires.  In practice, the parsimony hypothesis of the sources in the time-frequency domain is often faulted, which constitutes a significant limitation of these approaches for the enumeration of sources, because the directions of arrival pointed for each zone then result from a combination of contributions from multiple sources and clustering is no longer working properly. In addition, for the analysis of content captured in real conditions, the presence of reverberation can on the one hand degrade the location of sources and on the other hand generate an over-estimation of the number of real sources when initial reflections reach a level sufficient energy to be perceived as secondary sources.
La présente invention vient améliorer la situation.  The present invention improves the situation.
Elle propose à cet effet, un procédé de traitement de données sonores pour une séparation de N sources sonores d'un signal sonore multicanal capté en milieu réel. Le procédé est tel qu'il comporte les étapes suivantes :  To this end, it proposes a method for processing sound data for separating N sound sources from a multichannel sound signal picked up in a real medium. The method is such that it comprises the following steps:
- application d'un traitement de séparation de sources au signal multicanal capté et obtention d'une matrice de séparation et d'un ensemble de M composantes sonores, avec M≥N ;  - application of a source separation process to the captured multichannel signal and obtaining a separation matrix and a set of M sound components, with M≥N;
calcul d'un ensemble de premiers descripteurs dit bi-variés, représentatifs de relations statistiques entre les composantes des couples de l'ensemble des M composantes obtenu ; calculating a set of first descriptors said to be bivariate, representative of statistical relations between the components of the pairs of the set of M components obtained;
représentatifs de caractéristiques d'encodage des composantes de l'ensemble des M composantes obtenu ;  representative of encoding characteristics of the components of the set of M components obtained;
- classification des composantes de l'ensemble des M composantes, selon deux classes de composantes, une première classe de N composantes dites directes correspondant aux N sources sonores directes et une deuxième classe de M-N composantes dites réverbérées, par un calcul de probabilité d'appartenance à une des deux classes, fonction des ensembles de premiers et seconds descripteurs.  classification of the components of the set of M components, according to two classes of components, a first class of N so-called direct components corresponding to the N direct sound sources and a second class of MN components referred to as reverberated, by a calculation of probability of belonging. to one of the two classes, a function of the sets of first and second descriptors.
Cette méthode permet donc de discriminer les composantes issues de sources directes et les composantes issues de réverbération des sources lorsque la captation du signal sonore multlcanal s'effectue dans un milieu réverbérant, c'est-à-dire avec effet de salle. Ainsi, l'ensemble de premiers descripteurs bi- variés permet de déterminer d'une part si les composantes d'un couple de l'ensemble de composantes obtenues suite à l'étape de séparation de sources font partie d'une même classe de composantes ou d'une classe différente alors que l'ensemble de seconds descripteurs uni-variés permet de définir pour une composante, si elle a plus de probabilité d'appartenir à telle ou telle classe. Ceci permet donc de déterminer la probabilité d'appartenance d'une composante à une des deux classes et ainsi de déterminer les N sources sonores directes correspondant aux N composantes classées dans la première classe.  This method thus makes it possible to discriminate the components coming from direct sources and the components resulting from reverberation of the sources when the capture of the multi-channel sound signal takes place in a reverberant medium, that is to say with room effect. Thus, the set of first bivariate descriptors makes it possible to determine, on the one hand, whether the components of a pair of the set of components obtained following the source separation step belong to the same class of components. or a different class while the set of second univariate descriptors allows to define for a component, if it has more probability to belong to such or such class. This makes it possible to determine the probability of membership of a component to one of the two classes and thus to determine the N direct sound sources corresponding to the N components classified in the first class.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de traitement défini ci-dessus.  The various particular embodiments mentioned below may be added independently or in combination with each other, to the steps of the treatment method defined above.
Dans un mode de réalisation particulier, le calcul d'un descripteur bi- varié comporte le calcul d'un score de cohérence entre deux composantes. Ce calcul de descripteur permet de façon pertinente de savoir si un couple de composantes correspond à deux composantes directes (2 sources) ou si au moins une des composantes provient d'un effet réverbérant. In a particular embodiment, calculating a bivariate descriptor comprises calculating a coherence score between two components. This descriptor calculation makes it possible to know whether a pair of components corresponds to two direct components (2 sources) or if at least one of the components comes from a reverberant effect.
comporte la détermination d'un retard entre les deux composantes du couple. Cette détermination du retard et du signe associé à ce retard permet de déterminer, pour un couple de composantes, quelle composante correspond plus probablement au signal direct et quelle composante correspond plus probablement au signal réverbéré.  comprises determining a delay between the two components of the pair. This determination of the delay and the sign associated with this delay makes it possible to determine, for a pair of components, which component corresponds more probably to the direct signal and which component more probably corresponds to the reverberated signal.
Selon une Implémentatlon possible de ce calcul de descripteur, le retard entre deux composantes est déterminé par la prise en compte du retard maximisant une fonction d'inter-corrélation entre les deux composantes du couple.  According to a possible implementation of this descriptor calculation, the delay between two components is determined by taking into account the delay maximizing an inter-correlation function between the two components of the pair.
Cette méthode d'obtention du retard offre une détermination d'un descripteur bi-varié fiable.  This method of obtaining the delay provides a determination of a reliable bi-varied descriptor.
Dans un mode de réalisation particulier, la détermination du retard entre deux composantes d'un couple est associée à un indicateur de fiabilité du signe du retard, fonction de la cohérence entre les composantes du couple.  In a particular embodiment, the determination of the delay between two components of a pair is associated with an indicator of reliability of the sign of the delay, a function of the coherence between the components of the pair.
Dans une variante de réalisation, la détermination du retard entre deux composantes d'un couple est associée à un indicateur de fiabilité du signe du retord, fonction du rapport du maximum d'une fonction d'inter-corrélation pour des retards de signe opposé.  In an alternative embodiment, the determination of the delay between two components of a pair is associated with a reliability indicator of the sign of the retord, a function of the ratio of the maximum of an inter-correlation function for delays of opposite sign.
Ces indicateurs de fiabilité permettent de rendre plus fiable la probabilité, pour un couple de composantes appartenant à une classe différente, que chaque composante du couple soit la composante directe ou la composante réverbérée.  These reliability indicators make it possible to make more reliable the probability, for a pair of components belonging to a different class, that each component of the pair is the direct component or the reverberated component.
Selon un mode de réalisation, le calcul d'un descripteur uni-varié est fonction d'une mise en correspondance entre des coefficients de mélange d'une matrice de mélange estimée à partir de l'étape de séparation de sources et des caractéristiques d'encodage d'une source de type onde plane. Ce calcul de descripteur permet pour une composante seule, d'estimer la probabilité que la composante soit directe ou réverbérée.  According to one embodiment, the calculation of a unvaried descriptor is a function of a mapping between mixing coefficients of a mixture matrix estimated from the source separation step and the characteristics of encoding a source of the type plane wave. This descriptor calculation allows for a single component, to estimate the probability that the component is direct or reverberated.
Dans un mode de réalisation, la classification des composantes de l'ensemble des M composantes s'effectue par la prise en compte de des M composantes, et par le calcul de laIn one embodiment, the classification of the components of the set of M components takes place by taking into account of the M components, and by calculating the
probable des classifications des M composantes.  likely classifications of the M components.
Dans une implémentaGon possible de cette approche globale, le calcul de la combinaison la plus probable s'effectue par la détermination d'un maximum des valeurs de vraisemblance exprimées comme le produit des probabilités conditionnelles associées aux descripteurs/ pour les combinaisons possibles de classification des M composantes. In a possible implementation of this global approach, the most likely combination is calculated by determining a maximum of the likelihood values expressed as the product of the conditional probabilities associated with the descriptors / for the possible M classification combinations. components.
Dans un mode de réalisation particulier, une étape de pré-selection des combinaisons possibles est effectuée en se basant sur les seuls descripteurs unl-varlés avant l'étape de calcul de la combinaison la plus probable.  In a particular embodiment, a step of pre-selecting the possible combinations is performed based on the only unl-varlated descriptors before the step of calculating the most probable combination.
Cela diminue ainsi les calculs de vraisemblance à effectuer sur les combinaisons possibles puisque ce nombre de combinaisons est restreint par cette étape de pré-sélection.  This thus reduces the likelihood calculations to be performed on the possible combinations since this number of combinations is restricted by this pre-selection step.
Dans une variante de réalisation, une étape de pré-selection des composantes est effectuée en se basant sur les seuls descripteurs unl-varlés avant l'étape de calcul des descripteurs bi-variés.  In an alternative embodiment, a component pre-selection step is performed based on the only unl-varlated descriptors before the step of calculating the bivariate descriptors.
Ainsi, le nombre de descripteurs bi-variés à calculer est restreint, ce qui diminue la complexité du procédé.  Thus, the number of bi-varied descriptors to be calculated is limited, which reduces the complexity of the process.
Dans un exemple de réalisation, le signal multicanai est un signal ambisonique.  In an exemplary embodiment, the multichannel signal is an ambisonic signal.
Cette méthode de traitement ainsi décrite s'applique parfaitement à ce type de signaux.  This method of treatment thus described applies perfectly to this type of signal.
L'invention se rapporte également à un dispositif de traitement de données sonores mis en œuvre pour effectuer un traitement de séparation de N sources sonores d'un signal sonore multicanai capté par une pluralité de capteurs en milieu réel. Le dispositif est tel qu'il comporte :  The invention also relates to a sound data processing device implemented to perform a separation processing of N sound sources of a multichannel sound signal picked up by a plurality of sensors in real environment. The device is such that it comprises:
- une interface d'entrée pour recevoir les signaux captés par une pluralité de capteurs, du signal sonore multicanai;  an input interface for receiving the signals picked up by a plurality of sensors, the multichannel sound signal;
- un circuit de traitement comportant un processeur et apte à mettre en œuvre:  a processing circuit comprising a processor and able to implement:
o un module de traitement de séparation de sources appliqué au signal multicanai capté pour obtenir une a source separation processing module applied to the multichannel signal picked up to obtain a
sonores, avec M≥N ;  sound, with M≥N;
o un calculateur apte à calculer un ensemble de premiers descripteurs dit bhvariés, représentatifs de relations statistiques entre les composantes des couples de l'ensemble des M composantes obtenu et un ensemble de seconds descripteurs dit uni-variés représentatifs de caractéristiques d'encodage des composantes de l'ensemble des M composantes obtenu ;  a calculator able to compute a set of first descriptors called bhvariates, representative of statistical relations between the components of the pairs of the set of M components obtained and a set of second descriptors said uni-varied representative of encoding characteristics of the components of the set of M components obtained;
o un module de classification des composantes de l'ensemble des M composantes, selon deux classes de composantes, une première classe de N composantes dites directes correspondant aux N sources sonores directes et une deuxième classe de M-N composantes dites réverbérées, par un calcul de probabilité d'appartenance à une des deux classes, fonction des ensembles de premiers et seconds descripteurs ;  o a module for classifying the components of the set of M components, according to two classes of components, a first class of N so-called direct components corresponding to the N direct sound sources and a second class of MN components called reverberated, by a probability calculation belonging to one of the two classes, a function of the sets of first and second descriptors;
- une interface de sortie pour délivrer l'information de classification des composantes.  an output interface for delivering the classification information of the components.
L'invention s'applique également à un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de traitement tel que décrit précédemment, lorsque ces instructions sont exécutées par un processeur et à un support de stockage, lisible par un processeur, sur lequel est enregistré un programme informatique comprenant des instructions de code pour l'exécution des étapes du procédé de traitement tel que décrit.  The invention also applies to a computer program comprising code instructions for implementing the steps of the processing method as described above, when these instructions are executed by a processor and to a storage medium, readable by a processor, on which is recorded a computer program comprising code instructions for performing the steps of the processing method as described.
Le dispositif, programme et support de stockage présentent les mêmes avantages que le procédé décrit précédemment, qu'ils mettent en œuvre. D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre The device, program and storage medium have the same advantages as the method described above, which they implement. Other characteristics and advantages of the invention will appear more clearly on reading the following description, given solely for
lesquels :  which :
- la figure 1 illustre une formation de voie pour extraire trois sources selon une méthode de séparation de sources de l'état de l'art tel que décrit précédemment ;  FIG. 1 illustrates a channel formation for extracting three sources according to a method of source separation of the state of the art as described above;
- la figure 2 illustre une réponse impulsionnelle avec effet de salle tel que décrit précédemment ;  FIG. 2 illustrates an impulse response with room effect as previously described;
- la figure 3 illustre sous forme d'organigramme, les étapes principales d'un procédé de traitement selon un mode de réalisation de l'invention ;  FIG. 3 illustrates, in flowchart form, the main steps of a processing method according to one embodiment of the invention;
- la figure 4 illustre en fonction de la fréquence, des fonctions de cohérence représentant des descripteurs bi-variés entre deux composantes selon un mode de réalisation de l'Invention, et selon différents couples de composantes ;  FIG. 4 illustrates, as a function of frequency, coherence functions representing bi-varied descriptors between two components according to one embodiment of the invention, and according to different pairs of components;
- la figure 5 illustre les densités de probabilités des cohérences moyennes représentants des descripteurs bi-variés selon un mode de réalisation de l'invention et pour différents couples de composantes et différents nombres de sources ;  FIG. 5 illustrates the probability densities of the average coherences representing the bivariate descriptors according to one embodiment of the invention and for different pairs of components and different numbers of sources;
la figure 6 illustre des fonctions d'inter-corrélation entre deux composantes de classe différentes selon un mode de réalisation de l'invention et selon le nombre de sources ;  FIG. 6 illustrates inter-correlation functions between two different class components according to one embodiment of the invention and according to the number of sources;
- la figure 7 illustre les densités de probabilité d'un critère d'onde plane en fonction de la classe de la composante, de l'ordre ambisonique et du nombre de sources, pour un mode de réalisation particulier de l'invention ;  FIG. 7 illustrates the probability densities of a plane wave criterion as a function of the class of the component, of the ambisonic order and of the number of sources, for a particular embodiment of the invention;
- la figure 8 illustre une représentation matérielle d'un dispositif de traitement selon un mode de réalisation de l'invention, mettant en œuvre un procédé de traitement selon un mode de réalisation de l'invention ; et  FIG. 8 illustrates a hardware representation of a processing device according to one embodiment of the invention, implementing a processing method according to one embodiment of the invention; and
- La figure 9 illustre un exemple de calcul de loi de probabilité pour un critère de cohérence entre une composante directe et une composante réverbérée selon un mode de réalisation de l'invention. La figure 3 illustre les principales étapes d'un procédé de traitement de données sonores pour une séparation de N sources sonores d'un signal sonore muiticanal capté en milieu réel dans un mode de réalisation de l'invention. FIG. 9 illustrates an exemplary probability law calculation for a criterion of coherence between a direct component and a reverberated component according to one embodiment of the invention. FIG. 3 illustrates the main steps of a sound data processing method for a separation of N sound sources from a muitican sound signal captured in a real medium in one embodiment of the invention.
Ainsi, à partir d'un signal muiticanal capté par une pluralité de capteurs placés dans un milieu réel, c'est-à-dire réverbérant, et délivrant un nombre M d'observations issues de ces capteurs (x (xv ...txM)), le procédé met en œuvre une étape E310 de séparation aveugle de sources sonores (SAS). On suppose ici, dans ce mode de réalisation que le nombre d'observations est égal ou supérieur au nombre de sources actives. Thus, from a muiticanal signal captured by a plurality of sensors placed in a real medium, that is to say reverberant, and delivering a number M of observations from these sensors (x (x v ... t x M )), the method implements a step E310 blind separation of sound sources (SAS). In this embodiment, it is assumed here that the number of observations is equal to or greater than the number of active sources.
L'utilisation d'un algorithme de séparation aveugle de sources appliqué aux M observations, permet dans le cas d'un milieu réverbérant, d'extraire par formation de voies M composantes sonores associées à une matrice de mélange estimée AMXM, soit : The use of a blind source separation algorithm applied to the M observations allows, in the case of a reverberant medium, to extract by formation of M sound components associated with an estimated mixing matrix A MXM , that is:
s = Bxavec x \e vecteur des M observations, B la matrice de séparation estimée par la séparation en aveugle de sources, de dimensions MxM et s le vecteur des M composantes sonores extraites. Parmi celles-ci se trouvent théoriquement N sources sonores et M-N composantes résiduelles correspondant à de la réverbération.  s = Bx with x \ e vector of M observations, B the separation matrix estimated by the blind separation of sources, MxM dimensions and s the vector of M extracted sound components. Among these are theoretically N sound sources and M-N residual components corresponding to reverberation.
Pour obtenir la matrice B de séparation, l'étape de séparation aveugle de sources peut être mise en œuvre, par exemple en utilisant un algorithme d'analyse en composantes indépendantes (ou « ACI »), ou encore un algorithme d'analyse en composantes principales.  To obtain the separation matrix B, the step of blind separation of sources can be implemented, for example using an independent component analysis algorithm (or "ACI"), or a component analysis algorithm. main.
Dans un exemple de réalisation, on s'intéresse aux signaux muiticanal de type ambisonique.  In an exemplary embodiment, we are interested in ambisonic-type muiticanal signals.
L'ambisonie consiste en une projection du champ acoustique sur une base de fonctions harmoniques sphériques, pour obtenir une représentation spatialisée de la scène sonore. La fonction est l'harmonique Ambisia consists of a projection of the acoustic field on a basis of spherical harmonic functions, to obtain a spatial representation of the sound stage. The function is the harmonic
sphérique d'ordre m et d'indice net, dépendant des coordonnées sphériques (θ,ψ), définie avec la formule suivante : où est une fonction polaire impliquant le polynôme de spherical of order m and net index, dependent on the spherical coordinates (θ, ψ), defined with the following formula: where is a polar function involving the polynomial of
Legendre : Legendre:
pour n > 1 for n> 1
En pratique, un encodage ambisonique réel se fait à partir d'un réseau de capteurs, généralement répartis sur une sphère. Les signaux capturés sont combinés pour synthétiser un contenu ambisonique dont les canaux respectent au mieux les directivités des harmoniques sphériques. On décrit ci- après les principes de base de l'encodage ambisonique.  In practice, a real ambisonic encoding is done from a network of sensors, generally distributed over a sphere. The captured signals are combined to synthesize an ambisonic content whose channels respect the directivity of spherical harmonics. The basic principles of ambisonic encoding are described below.
Le formalisme ambisonique, initialement limité à la représentation de fonctions harmoniques sphériques d'ordre 1, a par la suite été étendu aux ordres supérieurs. Le formalisme ambisonique avec un nombre de composantes plus important est communément nommé « Higher Order Ambisonlcs» (ou « HOA » ci-après),  Ambisonic formalism, initially limited to the representation of spherical harmonic functions of order 1, was later extended to higher orders. Ambisonic formalism with a larger number of components is commonly referred to as "Higher Order Ambisonlcs" (or "HOA" hereinafter),
A chaque ordre m correspondent 2m+l fonctions harmoniques sphériques. Ainsi, un contenu d'ordre m contient un total de (m+1)2 canaux (4 canaux à l'ordre 1, 9 canaux à l'ordre 2, 16 canaux à l'ordre 3, et ainsi de suite). At each order m correspond 2m + l spherical harmonic functions. Thus, a content of order m contains a total of (m + 1) 2 channels (4 channels at order 1, 9 channels at order 2, 16 channels at order 3, and so on).
Oh entend ci-après par « composantes ambisonlques » le signal ambisonique dans chaque canal ambisonique, en référence aux « composantes vectorielles » dans une base vectorielle qui serait formée par chaque fonction harmonique sphérique. Ainsi par exemple, on peut compter :  Hereinafter "ambient components" is understood to mean the ambisonic signal in each ambisonic channel, with reference to the "vector components" in a vector base that would be formed by each spherical harmonic function. For example, we can count:
- une composante ambisonique pour l'ordre m=0,  an ambisonic component for the order m = 0,
- trois composantes ambisoniques pour l'ordre m=1,  three ambisonic components for the order m = 1,
- cinq composantes ambisoniques pour l'ordre m=2,  five ambisonic components for the order m = 2,
- sept composantes ambisoniques pour l'ordre m=3, etc. - seven ambisonic components for the order m = 3, etc.
sont alors répartis sur un nombre M de canaux qui se déduit de l'ordre maximum m qu'il est prévu de capter dans la scène sonore. Par exemple, si une scène sonore est captée avec un microphone amblsonique à 20 capsules piézoélectriques, alors l'ordre amblsonique maximum capté est m=3, afin qu'il n'y ait pas plus de 20 canaux M=(m+1)2, le nombre de composantes amblsoniques considérées est 7+5+3+1 = 16 et le nombre M de canaux est M=16, donné par ailleurs par la relation M=(m+1)2, avec m=3. are then distributed on a number M of channels which is deduced from the maximum order m that it is expected to capture in the sound scene. For example, if a sound scene is captured with an amblonic microphone with 20 piezoelectric capsules, then the maximum ampsonic order picked up is m = 3, so that there are not more than 20 channels M = (m + 1) 2 , the number of amblsonic components considered is 7 + 5 + 3 + 1 = 16 and the number M of channels is M = 16, given otherwise by the relation M = (m + 1) 2 , with m = 3.
Ainsi dans l'exemple dlmplémentation où le signal multicanal est un signal amblsonique, l'étape E310 reçoit les signaux x {x 1.,.. , x1... , xM\ captés par un microphone réel, en milieu réverbérant et qui reçoit des trames de contenus sonores ambisonlques sur M= (m+1)2 canaux et contenant N sources. Thus in the example of implementation where the multichannel signal is an amsonic signal, step E310 receives the signals x {x 1 . , .., x 1 ..., x M \ picked up by a real microphone, in a reverberant environment and which receives frames of ambisonic sound content on M = (m + 1) 2 channels and containing N sources.
La séparation en aveugle de sources est donc effectuée à l'étape E310 comme expliqué précédemment.  The blind separation of sources is therefore performed in step E310 as explained above.
Cette étape permet à la fois d'extraire M composantes et la matrice de mélange estimée- Les composantes obtenues en sortie de l'étape de séparation de sources peuvent être classées selon deux classes de composantes : une première classe de composantes dites directes correspondant aux sources sonores directes et une deuxième classe de composantes dites réverbérées correspondants aux réflexions des sources.  This step makes it possible both to extract M components and the estimated mixing matrix. The components obtained at the output of the source separation step can be classified according to two classes of components: a first class of direct components corresponding to the sources direct sound and a second class of so-called reverberated components corresponding to the reflections of the sources.
A l'étape E32Q, un calcul de descripteurs des M composantes (si, S2, ...sM) issues de l'étape de séparation des sources est mis en œuvre, descripteurs qui vont permettre d'associer à chaque composante extraite la classe qui lui correspond : composante directe ou composante réverbérée. In step E32Q, a computation of descriptors of the M components (si, S2, ... s M ) resulting from the source separation step is implemented, descriptors which will make it possible to associate with each component extracted the corresponding class: direct component or reverberated component.
Deux types de descripteurs sont calculés ici : des descripteurs bi-varîés qui font intervenir des couples de composantes et des descripteurs uni- variés calculés pour une composante ¾. Two types of descriptors are computed here: bi-variant descriptors that involve pairs of components and univariate descriptors calculated for a component ¾.
Ainsi, un ensemble de premiers descripteurs bi-varîés est calculé. Ces descripteurs sont représentatifs de relations statistiques entre les composantes des couples de l'ensemble des M composantes obtenu. Thus, a set of first bi-variate descriptors is calculated. These descriptors are representative of statistical relations between the components of the pairs of the set of M components obtained.
respectives des composantes :  respective components:
- Les deux composantes sont des champs directs,  - The two components are direct fields,
- L'une des deux composantes est directe et l'autre est réverbérée, - One of the two components is direct and the other is reverberated,
- Les deux composantes sont réverbérées. - Both components are reverberated.
Selon un mode de réalisation, on calcule ici une cohérence moyenne entre deux composantes. Ce type de descripteur représente une relation statistique entre les composantes d'un couple et fournit une indication sur la présence d'au moins une composante réverbérée dans un couple de composantes. According to one embodiment, an average coherence between two components is calculated here. This type of descriptor represents a statistical relationship between the components of a couple and provides an indication of the presence of at least one reverberated component in a pair of components.
En effet, chaque composante directe est principalement constituée du champ direct d'une source, assimilable à une onde plane, auquel s'ajoute une réverbération résiduelle dont la contribution énergétique est inférieure à celle du champ direct. Les sources étant par nature statistiquement indépendantes, il y a donc une faible corrélation entre les composantes directes extraites.  Indeed, each direct component consists mainly of the direct field of a source, comparable to a plane wave, plus a residual reverberation whose energy contribution is lower than that of the direct field. Since the sources are statistically independent by nature, there is therefore a weak correlation between the extracted direct components.
A (Inverse, chaque composante réverbérée est constituée de premières réflexions, versions retardées et filtrées du ou des champs directs, et d'une réverbération tardive. Ainsi, les composantes réverbérées présentent une corrélation significative avec les composantes directes, et généralement un retard de groupe identifiable par rapport aux composantes directes.  A (Inverse, each reverberated component consists of early reflections, delayed and filtered versions of the direct field (s), and late reverberation, so that the reverberated components exhibit a significant correlation with the direct components, and usually a group delay identifiable in relation to the direct components.
La fonction de cohérence renseigne sur l'existence d'une corrélation The coherence function informs about the existence of a correlation
entre deux signaux et s'exprime suivant la formule : between two signals and expresses himself according to the formula:
où est l'interspectre entre sj et si et sont les autospectres where is the interspectre between sj and if and are the autospectres
respectifs de respective
La cohérence est idéalement nulle lorsque sont les champs directs de sources indépendantes mais elle prend une valeur élevée lorsque sont deux contributions d'une même source ; le champ direct et une première réflexion ou bien deux réflexions. telle fonction de cohérenœ indique donc Consistency is ideally zero when are the direct fields from independent sources but it takes a high value when are two contributions from the same source; the direct field and a first reflection or two reflections. such a coherence function indicates
deux composantes directes ou deux contributions d'une même source (directe/réverbérée ou première réflexion/réflexions ultérieures).  two direct components or two contributions from the same source (direct / reverberated or first reflection / later reflections).
En pratique, les interspectres et aulospectres pourront être calculés en segmentant les composantes extraites en K trames (adjacentes ou avec recouvrement), en appliquant une transformée à Fourier à court-terme à chaque trame k de ces K trames pour produire les spectres instantanés et en moyennant les observations sur les K trames ; In practice, the interspectres and aulospectres can be calculated by segmenting the extracted components in K frames (adjacent or overlapped), by applying a short-term Fourier transform to each frame k of these K frames to produce the instantaneous spectra and by means of observations on K fields;
Le descripteur utilisé pour un signal large bande est la moyenne sur l'ensemble des fréquences de la fonction de cohérence entre deux composantes, soit : The descriptor used for a broadband signal is the average over all the frequencies of the coherence function between two components, namely:
La cohérence étant bornée entre 0 et 1, la cohérence moyenne sera également comprise dans cet intervalle, tendant vers 0 pour des signaux parfaitement indépendants et vers 1 pour des signaux fortement corrélés. La figure 4 donne un aperçu des valeurs de cohérence en fonction de la fréquence pour les cas suivants : Consistency being bounded between 0 and 1, the average coherence will also be in this range, tending towards 0 for perfectly independent signals and towards 1 for strongly correlated signals. Figure 4 gives an overview of consistency values as a function of frequency for the following cases:
- Cas N°1 où les valeurs de cohérence sont obtenues pour deux composantes directes issues de 2 sources distinctes.  - Case N ° 1 where the coherence values are obtained for two direct components coming from 2 distinct sources.
- Cas N°2 où les valeurs de cohérence sont obtenues pour un couple de composantes directes et réverbérée pour une seule source active.  Case No. 2 where the coherence values are obtained for a pair of direct components and reverberated for a single active source.
- Cas N°3 où les valeurs de cohérence sont obtenues pour un couple de composantes directe et réverbérée mais lorsque deux sources sont actives simultanément.  Case No. 3 where the coherence values are obtained for a pair of direct and reverberant components but when two sources are active simultaneously.
On remarque que dans le premier cas, la valeur de cohérence dy est inférieur à 0.3 alors que dans le second cas dy atteint 0,7 en présence d'une seule source active. Ces valeurs reflètent bien à la fois l'indépendance des signaux directs et la relation liant un signal direct et le même signal réverbéré, en l'absence d'interférences. Cependant en incorporant une seconde source active dans le mélange initial (Cas N°3), la cohérence du œs direct/réverbéré descend à 0.55 et Note that in the first case, the coherence value dy is less than 0.3 while in the second case d y reaches 0.7 in the presence of a single active source. These values reflect both the independence of the direct signals and the relationship between a direct signal and the same reverberated signal, in the absence of interference. However, by incorporating a second active source in the initial mixture (Case No. 3), the coherence the direct / reverberated ow goes down to 0.55 and
dépendante du contenu spectral et du niveau énergétique des différentes sources, Ici, la concurrence des différentes sources lait chuter la cohérence en basses fréquences, tandis que les valeurs sont plus élevées au-dessus de 5500 Hz en raison d'une plus faible contribution de la source interférante.  depending on the spectral content and the energy level of the different sources, Here the competition from the different sources of milk drop coherence at low frequencies, while the values are higher above 5500 Hz due to a smaller contribution from the interfering source.
On remarque donc que la détermination d'une probabilité d'appartenance à une même classe ou à une classe différente pour un couple de composante, peut dépendre du nombre de sources a priori actives. Pour l'étape de classification E340 décrite ultérieurement, ce paramètre pourra être pris en compte dans un mode particulier de réalisation,  We therefore note that the determination of a probability of belonging to the same class or a different class for a component pair may depend on the number of sources that are in principle active. For the classification step E340 described later, this parameter can be taken into account in a particular embodiment,
A l'étape E330 de la figure 3, un calcul de probabilité est déduit du descripteur ainsi décrit  In step E330 of FIG. 3, a probability calculation is deduced from the descriptor thus described.
En pratique, les densités de probabilités des figures 5 et 7 décrites ci- après, et plus généralement toutes les densités de probabilité des descripteurs, sont apprises de manière statistique sur des bases de données comprenant des conditions acoustiques variées (réverbérantes/mâtes) et différentes sources (voix d'homme/femme, langues française/anglaise/...). Les composantes sont classées de manière informée : à chaque source est associée la composante extraite la plus proche spatialement, les restantes étant classées comme composantes réverbérées. Pour calculer la position de la composante, on utilise les 4 premiers coefficients de son vecteur de mélange issu de la matrice A (soit Tordre 1), inverse de la matrice de séparation 8. En faisant l'hypothèse que ce vecteur suit la règle d'encodage d'une onde plane soit : In practice, the probability densities of FIGS. 5 and 7 described below, and more generally all the probability densities of the descriptors, are learned in a statistical manner on databases comprising various acoustic (reverberant / masts) and different acoustic conditions. sources (male / female voice, French / English languages ...). The components are classified informally: to each source is associated the extracted component closest spatially, the remaining being classified as reverberated components. To calculate the position of the component, we use the first 4 coefficients of its mixing vector from matrix A (ie, order 1), which is the inverse of the separation matrix 8. Assuming that this vector follows the rule of encoding of a plane wave is:
où (θ,φ) représentent les coordonnées sphériques, azimuth/élévation, de la source, il est possible de déduire par simple calcul trigonométriques la position de la composantes extraite par le jeu d'équations suivant : where (θ, φ) represent the spherical coordinates, azimuth / elevation, of the source, it is possible to deduce by simple trigonometric computation the position of the component extracted by the following set of equations:
où arctan2 est la fonction arctangente qui permet de lever l'ambiguïté de signe de la fonction arctangente. where arctan2 is the arctangent function which makes it possible to remove the ambiguity of sign of the arctangent function.
Une fois les signaux classés, les différents descripteurs sont calculés. Du nuage de points - issus de la base de données - pour une classe donnée est extrait un histogramme de valeurs du descripteur à partir duquel une densité de probabilité est choisie parmi une collection de densités de probabilité, sur la base d'une distance, généralement la divergence de Kullback-Leibler. La figure 9 montre un exemple de calcul de loi pour le critère de cohérence entre une composante directe et une composante réverbérée : la loi log- normale a été sélectionnée parmi une dizaine de lois car elle minimise la divergence de Kullback-Leibler.  Once the signals are classified, the different descriptors are calculated. From the point cloud - from the database - for a given class is extracted a histogram of values of the descriptor from which a probability density is selected from a collection of probability densities, based on a distance, generally the divergence of Kullback-Leibler. FIG. 9 shows an example of law calculation for the criterion of coherence between a direct component and a reverberated component: the lognormal law has been selected from among ten laws because it minimizes the Kullback-Leibler divergence.
Pour l'exemple d'un signal ambisonique, la figure 5 représente les distributions (densité de probabilité ou pdf pour « Probability density function » en anglais) associées à la valeur de la cohérence moyenne entre deux composantes.  For the example of an ambisonic signal, FIG. 5 represents the distributions (probability density or pdf for "Probability density function") associated with the value of the average coherence between two components.
Les lois de probabilité représentées ici sont présentées pour une captation microphonique ambisonique à 4 canaux (ambisonie ordre 1) ou 9 canaux (ambisonie d'ordre 2), dans le cas d'une ou deux sources actives simultanément. On observe tout d'abord que la cohérence moyenne d? prend des valeurs nettement plus faibles pour des couples de composantes directes par rapport aux cas où au moins une des composantes est réverbérée, et cette observation est d'autant plus marquée que l'ordre ambisonique est élevé. Cela est dû à une meilleure sélectivité de la formation de voies lorsque le nombre de canaux est plus important, et donc à une meilleure séparation des composantes extraites.  The probability laws represented here are presented for an ambisonic microphone capture with 4 channels (ambisonie order 1) or 9 channels (ambisonie with order 2), in the case of one or two active sources simultaneously. We first observe that the average consistency d? takes significantly lower values for pairs of direct components compared to cases where at least one of the components is reverberated, and this observation is all the more marked as the ambisonic order is high. This is due to a better selectivity of channel formation when the number of channels is larger, and therefore to a better separation of extracted components.
On constate également qu'en présence de deux sources actives, lés estimateurs de cohérence se dégradent, que ce soient les couples direct/réverbéré ou réverbéré/réverbéré (en présence d'une seule source, le couple direct/direct n'existe pas). It can also be seen that, in the presence of two active sources, the coherence estimators are degraded, whether it is the direct / reverberated or reverberated / reverberated pairs (in the presence of a single source, the direct / direct pair does not exist). .
du nombre de sources dans le mélange, et du nombre de capteurs à disposition.  the number of sources in the mix, and the number of sensors available.
Ce descripteur est donc pertinent pour détecter si un couple de composantes extraites correspond à deux composantes directes (2 vraies sources) ou si au moins l'une des deux composantes provient de l'effet de salle.  This descriptor is therefore relevant for detecting whether a pair of extracted components corresponds to two direct components (2 true sources) or if at least one of the two components originates from the room effect.
Dans un mode de réalisation de l'invention, un autre type de descripteur bi-varié est calculé à l'étape E320. Soit ce descripteur est calculé à la place du descripteur de type cohérence décrit précédemment, soit en complément de celui-ci .  In one embodiment of the invention, another type of bi-varied descriptor is calculated in step E320. Either this descriptor is calculated in place of the coherence type descriptor described above, or in addition to it.
Ce descripteur va permettre de déterminer, pour un couple (direct/réverbéré) quelle composante est plus probablement le signal direct et laquelle correspond au signal réverbéré, en se basant sur l'hypothèse simple que les premières réflexions sont des versions retardées et atténuées du signal direct.  This descriptor will make it possible to determine, for a pair (direct / reverberated) which component is more likely the direct signal and which corresponds to the reverberated signal, based on the simple assumption that the first reflections are delayed and attenuated versions of the signal. direct.
Ce descripteur est basé sur une autre relation statistique entre les composantes, le retard entre les deux composantes du couple. On définit le retard comme le retard qui maximise la fonction d'intercorrélatlon This descriptor is based on another statistical relationship between the components, the delay between the two components of the couple. Delay is defined as the delay that maximizes the intercorrelation function
entre les composantes d'un couple de composantes between the components of a couple of components
: :
Lorsque ¾ est un signal direct et ¾ une réflexion associée, le tracé de la fonction d'intercorrélatlon fera généralement apparaître un négatif. When ¾ is a direct signal and ¾ an associated reflection, the plot of the intercorrelation function will usually show a negative.
Ainsi, si l'on sait que l'on est en présence d'un couple de composantes direct/réverbéré, on peut ainsi théoriquement attribuer la dasse à chacune des composantes grâce au signe de Thus, if we know that we are in the presence of a pair of direct / reverberant components, we can theoretically attribute the dash to each of the components thanks to the sign of
En pratique, l'estimation du signe de est souvent très.bruitée, In practice, the estimate of the sign of is often very noisy,
voire même parfois inversée :  sometimes even reversed:
- Lorsque la scène est constituée d'une seule source, il n'y a pas forcément de délai de groupe qui émerge distinctement si le champ - When the scene consists of a single source, there is not necessarily a group delay that emerges distinctly if the field
tardive. De plus les composantes directes extraites par SAS contiennent toujours un résidu d'effet de salle plus ou moins important, qui va bruiter la mesure du délai.  late. Moreover the direct components extracted by SAS always contain a more or less important room effect residue, which will noise the measurement of the delay.
- Lorsque plusieurs sources sont présentes, les interférences viennent perturber la mesure, à plus forte raison si les trames d'analyse sont courtes et que tous les champs directs n'ont pas été parfaitement séparés.  - When several sources are present, the interferences disturb the measurement, all the more so if the analysis frames are short and all the direct fields have not been perfectly separated.
Pour ces raisons, on peut choisir de fiabiliser le signe de utilisé For these reasons, one can choose to make reliable the sign of used
comme descripteur, grâce à un indicateur de robustesse ou de fiabilité.  as a descriptor, thanks to an indicator of robustness or reliability.
La cohérence moyenne entre les composantes permet d'évaluer la pertinence du couple dlrectyréverbéré comme vu précédemment. Si celle-ci est forte, on peut espérer que le délai de groupe sera un descripteur fiable.  The average coherence between the components makes it possible to evaluate the pertinence of the reflected-reverberation pair as seen previously. If it is strong, we can hope that the group delay will be a reliable descriptor.
D'autre part, la valeur relative du pic d'ïntercorrélation aux On the other hand, the relative value of the peak of inter-correlation at
autres valeurs de la fonction d'ïntercorrélation renseigne également sur other values of the inter-correlation function also informs about
la fiabilité du délai de groupe. La figure 6 illustre le caractère émergent du pic d'autocorrélation entre une composante directe et une composante réverbérée. Sur la partie haute (1) de la figure 6 où une seule source est présente, le maximum dlntercorrélation émerge clairement du reste de llntercorrélation, indiquant de manière fiable que l'une des composantes est en retard par rapport à l'autre. Il émerge notamment par rapport aux valeurs de la fonction d'autocorrélation pour des signes opposés à celui de the reliability of the group delay. Figure 6 illustrates the emerging character of the autocorrelation peak between a direct component and a reverberated component. On the upper part (1) of Fig. 6 where only one source is present, the maximum inter-correlation clearly emerges from the inter-correlation remainder, reliably indicating that one of the components is lagging behind the other. It emerges in particular with respect to the values of the autocorrelation function for signs opposite to that of
(celle des r positifs sur la figure 6) qui sont très faibles, quelle que soit la valeur de r. (that of the r positive in Figure 6) which are very small, whatever the value of r.
Dans une réalisation particulière, on définit un second indicateur de fiabilité du signe du retard appelé émergence, en calculant le rapport entre la valeur absolue de l'intercorrélatlon à et celle du maximum de corrélation pour des r de signe opposé à celui de : In a particular embodiment, a second indicator of reliability of the sign of the delay called emergence is defined, by calculating the ratio between the absolute value of the intercorrelation to and that of the maximum correlation for r's of sign opposite to that of :
où est défini par : where is defined by:
Ce ratio, que l'on nomme émergence, est un critère ad hoc dont la pertinence se vérifie en pratique : il prend des valeurs proches de 1 pour des signaux indépendants, l.e. 2 composantes directes, et des valeurs plus élevées pour des signaux corrélées comme une composante directe et une composante réverbérée. Dans le cas précité de la courbe (1) de la figure 6, la valeur d'émergence est de 4.  This ratio, which we call emergence, is an ad hoc criterion whose relevance is verified in practice: it takes values close to 1 for independent signals, l.e. 2 direct components, and higher values for correlated signals as a direct component and a reverberated component. In the aforementioned case of curve (1) of FIG. 6, the emergence value is 4.
On a donc un descripteur qui détermine, pour chaque couple supposé direct/réverbéré, la probabilité pour chaque composante du couple d'être la composante directe ou la composante réverbérée. Ce descripteur est fonction du signe de de la cohérence moyenne entre les composantes So we have a descriptor which determines, for each pair supposed to be direct / reverberated, the probability for each component of the couple to be the direct component or the reverberated component. This descriptor is a function of the sign of the average coherence between the components
et de l'émergence du maximum d'intercorrélation. and the emergence of maximum intercorrelation.
Il faut noter que ce descripteur est sensible au bruit, et notamment à la présence de plusieurs sources simultanées, comme illustré sur la courbe (2) de la figure 6 : en présence de 2 sources, même si le maximum de corrélation émerge toujours, sa valeur relative - 2.6 - est moindre du fait de la présence d'une source interférente qui réduit la corrélation entre les composantes extraites. Dans une réalisation particulière, on mesurera la fiabilité du signe du retard en fonction de la valeur de l'émergence, que l'on pondérera par le nombre a priori de sources à détecter.  It should be noted that this descriptor is sensitive to noise, and in particular to the presence of several simultaneous sources, as illustrated in curve (2) of FIG. 6: in the presence of two sources, even if the maximum correlation still emerges, its relative value - 2.6 - is less because of the presence of an interfering source which reduces the correlation between the extracted components. In a particular embodiment, the reliability of the sign of the delay will be measured as a function of the value of the emergence, which will be weighted by the number of sources to be detected a priori.
Avec ce descripteur, on calcule à l'étape E330 une probabilité d'appartenance à une première classe de composantes directes ou une seconde classe de composants réverbérées pour un couple de composantes, Pour Sj identifiée comme étant en avance sur % on estime la probabilité que ¾ soit directe et si réverbérée par une loi à deux dimensions.  With this descriptor, a probability of belonging to a first class of direct components or a second class of reverberant components for a pair of components is calculated in step E330. For Sj identified as being in advance on%, the probability that ¾ either direct and reverberated by a two-dimensional law.
Logiquement, on estime alors la probabilité que Sj soit réverbérée et directe alors même que sj est en avance de phase comme le complément à 1 du cas direct/réverbéré : Logically, we then estimate the probability that Sj is reverberated and direct even though sj is in advance of phase as the complement to 1 of the direct / reverberated case:
sont les classes respectives des composantes or are the respective classes of the components
étant la première classe de composantes dites directes correspondant aux N sonores directes et Cr, la deuxième classe de Mbeing the first class of so-called direct components corresponding to the N direct sound and C r , the second class of M
réverbérées.  reverberated.
Ce descripteur n'est utilisable que pour les couples direct/réverbéré. Les couples direct/direct et réverbéré/réverbéré ne sont pas concernés par ce descripteur, on les considère donc comme équiprobables : This descriptor can only be used for direct / reverberant couples. Direct / direct and reverberated / reverberated couples are not concerned by this descriptor, so we consider them as equiprobable:
Le signe du retard est un indicateur fiable lorsqu'à la fois la cohérence et l'émergence ont des valeurs moyennes ou élevées. Une émergence faible ou une cohérence faible vont rendre les couples direct/réverbéré ou réverbéré/direct équiprobables. The sign of delay is a reliable indicator when both consistency and emergence have medium or high values. A weak emergence or a weak coherence will make the couples direct / reverberated or reverberated / direct equiprobables.
A l'étape E320, est également calculé un ensemble de seconds descripteurs dit uni-variés représentatifs de caractéristiques d'encodage des composantes de l'ensemble des M composantes obtenu.  In step E320, a set of second unidimensional descriptors representative of encoding characteristics of the components of the set of M components obtained is also calculated.
Connaissant le système de captation utilisé, l'encodage d'une source provenant d'une direction donnée s'effectue avec des coefficients de mélange dépendant, entre autres, de la directivité des capteurs. Dans le cas où la source peut être considérée comme ponctuelle et où les longueurs d'onde sont grandes par rapport à la taille de l'antenne, on peut considérer la source comme une onde plane. Cette hypothèse se vérifie généralement dans le cas d'un microphone ambisonique qui est de petite taille, pour peu que la source soit suffisamment éloignée du microphone (en pratique, un mètre suffit).  Knowing the capture system used, the encoding of a source coming from a given direction is done with mixing coefficients depending, among other things, on the directivity of the sensors. In the case where the source can be considered as point and where the wavelengths are large compared to the size of the antenna, one can consider the source as a plane wave. This assumption is generally true in the case of an ambisonic microphone that is small, provided that the source is sufficiently far from the microphone (in practice, one meter is enough).
Pour une composante Sj extraite par SAS, la jème colonne de la matrice de mélange estimée A, obtenue par inversion de la matrice de séparation B, va contenir les coefficients de mélange associés à celle-ci. Si cette composante est directe, c'est-à-dire qu'elle correspond à une seule source, les coefficients de mélange de la colonne Aj vont tendre vers les caractéristiques de l'encodage microphoniques pour une onde plane. Dans le cas d'une composante réverbérée, somme de plusieurs réflexions et d'un champ diffus, les coefficients de mélange estimés seront plus aléatoires et ne pas à l'encodage d'une seule sourceFor Sj component extracted by SAS, the j th column of the estimated mixing matrix A, obtained by inverting the separation matrix B, will contain the mixture of coefficients associated therewith. If this component is direct, that is to say that it corresponds to a single source, the mixing coefficients of the column Aj will tend towards the characteristics of the microphone encoding for a plane wave. In the case of a reverberated component, the sum of several reflections and a diffuse field, the estimated mixing coefficients will be more random and not encoding a single source
d'arrivée précise.  precise arrival.
On peut donc se servir de la conformité entre les coefficients de mélange estimés et les coefficients de mélange théoriques pour une source seule pour estimer une probabilité que la composante soit directe ou réverbérée.  One can therefore use the conformity between the estimated mixing coefficients and the theoretical mixing coefficients for a single source to estimate a probability that the component is direct or reverberated.
Dans le cas d'une captatlon microphonique ambisonique d'ordre 1, l'encodage d'une onde plane Sj d'incidence au format ambisonique dit In the case of an ambisonic microphonic captatlon of order 1, the encoding of a plane wave Sj of incidence in ambisonic format says
N3D s'effectue suivant la formule : N3D is carried out according to the formula:
 Or
Il existe en effet plusieurs formats ambisoniques, qui se différencient notamment par la normalisation des différentes composantes regroupées en ordre. On considère ici le format connu N3D. Les différents formats sont par exemple décrits au lien suivant :  There are indeed several ambisonic formats, which differ in particular by the standardization of the various components grouped in order. Here we consider the known format N3D. The different formats are for example described at the following link:
https://en.wikipedia.org/wiki/Ambisonic data exchange formats. On peut ainsi déduire des coefficients d'encodage d'une source un critère, nommé critère onde plane, qui illustre la conformité entre les coefficients de mélange estimés et l'équation théorique d'une onde plane encodée seule : https://en.wikipedia.org/wiki/Ambisonic data exchange formats. It is thus possible to deduce from the encoding coefficients of a source a criterion, called plane wave criterion, which illustrates the conformity between the estimated mixing coefficients and the theoretical equation of an encoded plane wave alone:
Le critère cop est par définition égal à 1 dans le cas d'une onde plane. En présence d'un champ direct correctement identifié, le critère onde plane restera très proche de la valeur 1, A l'inverse, dans le cas d'une composante réverbérée, la multitude des contributions (premières réflexions et tardive) avec des niveaux énergétjque The criterion c op is by definition equal to 1 in the case of a plane wave. In the presence of a correctly identified direct field, the plane wave criterion will remain very close to the value 1, conversely, in the case of a reverberated component, the multitude of contributions (first reflections and late) with energy levels
généralement éloigner le critère onde plane de sa valeur idéale.  generally move the plane wave criterion away from its ideal value.
Pour ce descripteur comme pour les autres, la distribution associée et calculé en E330, connaît une certaine variabilité, en fonction notamment du niveau de bruit présent dans les composantes extraites. Ce bruit est constitué principalement de la réverbération résiduelle et des contributions des sources Interférantes qui n'auront pas été parfaitement annulées. On peut donc choisir, pour affiner l'analyse, d'estimer la distribution des descripteurs en fonction :  For this descriptor as for the others, the distribution associated and calculated in E330, knows a certain variability, according in particular according to the level of noise present in the extracted components. This noise consists mainly of residual reverberation and contributions from interfering sources that have not been perfectly canceled. One can thus choose, to refine the analysis, to estimate the distribution of the descriptors according to:
- Du nombre de canaux utilisés (donc ici de l'ordre ambisonlque), qui influe sur la sélectivité du « beamforming » et donc sur le niveau de bruit résiduel,  - The number of channels used (therefore here the order of the atmosphere), which influences the selectivity of the "beamforming" and therefore the residual noise level,
- du nombre de sources contenues dans le mélange (comme pour les descripteurs précédents), dont l'augmentation entraine mécaniquement une hausse du niveau de bruit et une plus grande variance dans l'estimation de la matrice de séparation B, donc de A,  the number of sources contained in the mixture (as for the previous descriptors), the increase of which mechanically causes a rise in the noise level and a greater variance in the estimation of the separation matrix B, hence of A,
On peut observer sur la figure 7 les lois de probabilités (densité de probabilité) associées à ce descripteur, en fonction du nombre de sources actives simultanément (1 ou 2) et de l'ordre ambisonique du contenu analysé (ordres l à 2). Conformément à l'hypothèse initiale, la valeur du critère onde plane est concentrée autour de la valeur 1 pour les composantes directes. Pour les composantes réverbérées, la distribution est plus uniforme, avec cependant une forme légèrement asymétrique, à cause du descripteur lui- même qui est asymétrique, avec une forme en 1/x.  The probability laws (probability density) associated with this descriptor can be observed in FIG. 7, as a function of the number of active sources simultaneously (1 or 2) and of the ambisonic order of the content analyzed (orders 1 to 2). According to the initial hypothesis, the value of the plane wave criterion is concentrated around the value 1 for the direct components. For reverberated components, the distribution is more uniform, but with a slightly asymmetrical shape, because of the descriptor itself, which is asymmetric, with a 1 / x form.
La distance entre les distributions des deux classes permet une discrimination assez fiable entre les composantes de type ondes planes et celles plus diffuses.  The distance between the distributions of the two classes allows a fairly reliable discrimination between the components of the flat wave type and those more diffuse.
Ainsi, les descripteurs calculés à l'étape E320 et exposés id sont basés à la fois sur les statistiques des composantes extraites (cohérence moyenne et retard de groupe) et sur la matrice de mélange estimée (critère onde plane). Ceux-ci permettent de déterminer des probabilités conditionnelles d'appartenance d'une composante à une des deux classes Cd ou Cr. Thus, the descriptors calculated in step E320 and exposed id are based on both the extracted component statistics (average coherence and group delay) and on the estimated mixing matrix (plane wave criterion). These make it possible to determine conditional probabilities of belonging of a component to one of the two classes C d or C r .
E340 de déterminer une classification des composantes de l'ensemble des M composantes, selon les deux classes.  E340 to determine a classification of the components of the set of M components, according to the two classes.
Pour une composante sj, on note Cj la classe correspondante. S'agissant de classer l'ensemble des M composantes extraites, on nomme "configuration" le vecteur des classes C de dimension lxM tel que : For a component s j , we denote by Cj the corresponding class. In order to classify the set of M components extracted, we call the "configuration" the vector of classes C of dimension lxM such that:
Sachant qu'il existe deux classes possibles pour chaque composante, le problème revient finalement à choisir parmi un total de 2M configurations potentielles supposées équiprobables. Pour ce faire, la règle du maximum a posteriori est appliquée : connaissant la vraisemblance de la configuration, la configuration retenue sera celle possédant la vraisemblance maximale, c'est-à-dire :Knowing that there are two possible classes for each component, the problem is ultimately to choose from a total of 2 M potential configurations assumed equiprobable. To do this, the rule of the posterior maximum is applied: knowing the likelihood of the configuration, the configuration chosen will be the one with the maximum likelihood, ie:
L'approche choisie peut être exhaustive et consiste alors à estimer la vraisemblance de toutes les configurations possibles, à partir des descripteurs déterminés à l'étape E320 et des distributions qui leur sont associées et qui sont calculés à l'étape E330.  The chosen approach can be exhaustive and then consists in estimating the likelihood of all the possible configurations, from the descriptors determined in step E320 and the distributions associated with them which are calculated in step E330.
Selon une autre approche, une pré-sélection des configurations peut être effectuée pour réduire le nombre de configuration è tester, et donc la complexité de la mise en œuvre de la solution. Cette pré-sélection peut se faire par exemple selon le critère onde plane seul en classant certaines composantes dans la catégorie dès lors que la valeur de leur critère s'éloigne trop de la valeur théorique d'une onde plane 1 : dans le cas de signaux ambisoniques, on peut voir sur les distributions de la figure 7 que l'on peut, quelle que soit la configuration (ordre ou nombre de sources) et a priori sans perte de robustesse, classer dans la catégorie cT les composantes dont le vérifie l'une des Inégalités suivantes : According to another approach, a pre-selection of the configurations can be performed to reduce the number of configurations to be tested, and therefore the complexity of the implementation of the solution. This pre-selection can be done for example according to the plane wave criterion alone by classifying certain components in the category when the value of their criterion away from the theoretical value of a plane wave 1: in the case of ambisonic signals, we can see on the distributions of Figure 7 that we can, whatever the configuration (order or number of sources) and a priori without loss of robustness, classify in the category c T the components whose checks one of the following inequalities:
tester en pré-classant certaines composantes, en excluant les configurations qui impose la classe cd à ces composantes pré-classées. test by pre-classifying certain components, excluding configurations that impose class c d on these pre-classified components.
Une autre possibilité pour réduire plus encore la complexité est d'exclure les composantes pré-classées du calcul des descripteurs bi-variés et du calcul de la vraisemblance, ce qui réduit le nombre de critères bi-variés à calculer et donc encore plus ia complexité de traitement.  Another possibility for further reducing the complexity is to exclude the pre-classified components of the computation of the bi-varied descriptors and the likelihood calculation, which reduces the number of bi-varied criteria to be calculated and therefore even more complexity. treatment.
Pour estimer la vraisemblance de chaque configuration à l'aide des descripteurs calculés, une approche naïve bayésienne peut être utilisée. Dans ce type d'approche, on se donne un ensemble de descripteurs du pour chaque composante sj .Pour chaque descripteur, on formule la probabilité pour la composante sj d'appartenir à la classe grâce à la loi de Bayes : To estimate the likelihood of each configuration using the calculated descriptors, a naive Bayesian approach can be used. In this type of approach, we give ourselves a set of descriptors for each component sj. For each descriptor, we formulate the probability for the component sj to belong to the class thanks to the law of Bayes:
Les deux classes étant supposées équi probables, il en découle Both classes being assumed to be equitable, it follows
ainsi que as well as
On obtient alors : We then obtain:
où le terme est abrégé en pour alléger les notations, S'agissant ici de rechercher le maximum de vraisemblance, le terme au dénominateur de chaque probabilité conditionnelle est constant quelle que soit la configuration évaluée. Aussi, on peut par la suite en simplifier l'expression: un descripteur bi-varié (comme par exemplewhere the term is abbreviated To lighten the notations, In this case to find the maximum likelihood, the denominator term of each conditional probability is constant regardless of the evaluated configuration. Also, we can later simplify the expression: a bi-varied descriptor (as for example
intervenir deux composantes sj et sl et leurs classes respectives supposées, on étend l'expression précédente: to intervene two components sj and sl and their respective classes supposed, one extends the preceding expression:
et ainsi de suite.  And so on.
La vraisemblance s'exprime comme le produit des probabilités conditionnelles associées à chacun des K descripteurs, si l'on suppose que ceux-ci sont indépendants : où d est le vecteur des descripteurs et C un vecteur représentant une configuration (c'est à dire la combinaison des classes supposées des M composantes), comme définit ci-dessus. Likelihood is expressed as the product of the conditional probabilities associated with each of the K descriptors, assuming that they are independent: where d is the vector of the descriptors and C is a vector representing a configuration (ie the combination of the supposed classes of the M components), as defined above.
Plus précisément, un nombre K1 de descripteurs uni-variés est mis à profit pour chacune des composantes, tandis qu'un nombre /fede descripteurs bi-variés est utilisé pour chaque paire de composantes. Les lois de probabilités des descripteurs étant établies en fonction du nombre de sources supposé et du nombre de canaux (l'indice m représente l'ordre ambisonique, dans le cas d'une captation de ce type), on formule alors l'expression finale de la vraisemblance : More precisely, a number K1 of univariate descriptors is used for each of the components, while a number / type of bi-varied descriptors is used for each pair of components. Since the laws of descriptor probabilities are established according to the number of supposed sources and the number of channels (the index m represents the ambisonic order, in the case of a capture of this type), we formulate the final expression. likelihood:
 or
- est la valeur du descripteur d'indice k pour la composante Sj ;- is the value of the index descriptor k for the component Sj;
- est la valeur du descripteur bi-varié d'indice k pour les composantes ¾ et si ; - is the value of the bi-varied descriptor of index k for the components ¾ and si;
- C) et Ci sont les classes supposées des composantes Jet /;  - C) and Ci are the supposed classes of the components Jet /;
- /Vest le nombre de sources actives associé à la configuration évaluée : Pour des raisons calculatoires, on préfère à la vraisemblance sa version logarithmique (log-vraisemblance) : Cette équation est celle utilisée en définitive pour déterminer la configuration la plus vraisemblable dans le classificateur bayésien décrit ici pour ce mode de réalisation. - / Vis the number of active sources associated with the evaluated configuration: For computational reasons, likelihood is preferred by its logarithmic version (log-likelihood): This equation is the one ultimately used to determine the most likely configuration in the Bayesian classifier described here for this embodiment.
Le classificateur bayésien présenté ici n'est qu'un exemple dlmplémentation, il pourrait être remplacé, entre autres, par une machine à vecteurs de support ou un réseau de neurones.  The Bayesian classifier presented here is only one example of implementation, it could be replaced, inter alia, by a carrier vector machine or a neural network.
Au final, la configuration présentant le maximum de vraisemblance est retenue, indiquant la classe directe ou réverbérée associée à chacune des M composantes Finally, the configuration presenting the maximum likelihood is retained, indicating the direct or reverberant class associated with each of the M components.
De cette combinaison, il est donc déduit les N composantes correspondant aux N sources directes actives.  From this combination, the N components corresponding to the N active direct sources are deduced.
Le traitement décrit ici est effectué dans le domaine temporel, mais peut aussi être, dans une variante de réalisation, appliqué dans un domaine transformé.  The processing described here is performed in the time domain, but may also be, in an alternative embodiment, applied in a transformed domain.
Le procédé tel que décrit en référence à la figure 3 étant alors mis en œuvre par sous-bandes de fréquence après passage dans le domaine transformé des signaux captés.  The method as described with reference to FIG. 3 then being implemented by frequency subbands after passing through the transformed domain of the signals picked up.
Par ailleurs, la bande passante utile peut être réduite en fonction des imperfections potentielles du système de captaBon, en hautes fréquences (présence de repliement spatial) ou en basses fréquences (impossibilité de retrouver les directivités théoriques de l'encodage microphonique).  Moreover, the useful bandwidth can be reduced according to the potential imperfections of the captaBon system, in high frequencies (presence of spatial folding) or at low frequencies (impossibility to find the theoretical directivities of the microphonic encoding).
La figure 8 représente ici une forme de réalisation d'un dispositif (DIS) de traitement selon un mode de réalisation de l'Invention.  FIG. 8 represents here an embodiment of a processing device (DIS) according to an embodiment of the invention.
Des capteurs représentés ici sous la forme d'un microphone sphérique MIC permettent d'acquérir, dans un milieu réel, donc réverbérant, M signaux de mélange à partir d'un signal multicanal.Sensors represented here in the form of a spherical microphone MIC make it possible to acquire, in a real medium, thus reverberant, M mixing signals from a multichannel signal.
entendu, d'autres formes de microphones ou heard, other forms of microphones or
être prévues. Ces capteurs peuvent être intégrés au dispositif DIS ou bien en dehors du dispositif/ les signaux en résultant étant alors transmis au dispositif de traitement qui les reçoit via son interface d'entrée 840, Dans une variante, ces signaux peuvent simplement être obtenus préalablement et importés en mémoire du dispositif DIS. to be planned. These sensors can be integrated in the DIS device or outside the device / the resulting signals are then transmitted to the processing device that receives them via its input interface 840. Alternatively, these signals can simply be obtained beforehand and imported. in memory of the DIS device.
Ces M signaux sont alors traités par un circuit de traitement et des moyens informatiques tels qu'un processeur PROC en 860 et une mémoire de travail MEM en 870. Cette mémoire peut comporter un programme Informatique comportant les instructions de code pour la mise en œuvre des étapes du procédé de traitement tel que décrit par exemple en référence à la figure 3 et notamment les étapes d'application d'un traitement de séparation de sources au signal multicanal capté et obtention d'un ensemble de M composantes sonores, avec M≥N, de calcul d'un ensemble de premiers descripteurs dit bi-variés, représentatifs de relations statistiques entre les composantes des couples de l'ensemble des M composantes obtenu et d'un ensemble de seconds descripteurs dit uni-variés représentatifs de caractéristiques d'encodage des composantes de l'ensemble des M composantes obtenu et de classification des composantes de l'ensemble des M composantes, selon deux classes de composantes, une première classe de N composantes dites directes correspondant aux N sources sonores directes et une deuxième classe de M-N composantes dites réverbérées, par un calcul de probabilité d'appartenance à une des deux classes, fonction des ensembles de premiers et seconds descripteurs.  These M signals are then processed by a processing circuit and computer means such as a PROC processor 860 and a working memory MEM 870. This memory may include a computer program including code instructions for the implementation of steps of the processing method as described for example with reference to Figure 3 and in particular the steps of applying a source separation process to the multichannel signal captured and obtaining a set of M sound components, with M≥N , calculating a set of first descriptors said bivariate, representative of statistical relations between the components of the pairs of the set of M components obtained and a set of second descriptors said uni-varied representative of encoding characteristics components of the set of M components obtained and of classification of the components of the set of M components, according to two classes of components, a p first class of N so-called direct components corresponding to the N direct sound sources and a second class of M-N components called reverberated, by a calculation of probability of belonging to one of the two classes, a function of the sets of first and second descriptors.
Ainsi, le dispositif comporte un module 810 de traitement de séparation de sources appliqué au signal multicanal capté pour obtenir un ensemble de M composantes sonores avec M≥N. Les M composantes sont fournies en entrée d'un calculateur 820 apte à calculer un ensemble de premiers descripteurs dit bi-variés, représentatifs de relations statistiques entre les composantes des couples de l'ensemble des M composantes obtenu et un ensemble de seconds descripteurs dit uni-variés de caractéristiques d'encodage des compoThus, the device comprises a source separation processing module 810 applied to the multichannel signal picked up to obtain a set of M sound components. with M≥N. The M components are provided at the input of a calculator 820 capable of calculating a set of first so-called bi-varied descriptors, representative of statistical relations between the components of the pairs of the set of M components obtained and a set of second descriptors said to be uni -variés of encoding features of the compo
des M composantes obtenu.  M components obtained.
Ces descripteurs sont utilisés par un module de classification 830 ou classificateur, apte à classer des composantes de l'ensemble des M composantes, selon deux classes de composantes, une première classe de N composantes dites directes correspondant aux N sources sonores directes et une deuxième classe de M-N composantes dites réverbérées.  These descriptors are used by a classification module 830 or classifier, able to classify components of the set of M components, according to two classes of components, a first class of N so-called direct components corresponding to N direct sound sources and a second class of MN components called reverberated.
Pour cela, le module de classification comporte un module 831 de calcul de probabilité d'appartenance à une des deux classes des composantes de l'ensemble M, fonction des ensembles de premiers et seconds descripteurs.  For this purpose, the classification module comprises a module 831 for calculating the probability of belonging to one of the two classes of the components of the set M, which is a function of the sets of first and second descriptors.
Le classificateur utilise des descripteurs liés à la corrélation entre les composantes pour déterminer lesquelles sont des signaux directs (c'est à dire des vraies sources) et lesquelles sont des résidus de réverbération. Ii utilise également des descripteurs liés aux coefficients de mélange estimés par SAS, pour évaluer la conformité entre l'encodage théorique d'une source seule et l'encodage estimé de chaque composante. Certains des descripteurs sont donc fonction d'un couple de composantes (pour la corrélation), et d'autres sont fonctions d'une composante seule (pour la conformité de l'encodage microphonique estimé).  The classifier uses descriptors related to the correlation between the components to determine which are direct signals (ie true sources) and which are reverb residues. It also uses descriptors related to SAS-estimated mixing coefficients, to evaluate the conformity between the theoretical encoding of a single source and the estimated encoding of each component. Some of the descriptors are therefore a function of a pair of components (for the correlation), and others are functions of a single component (for the conformity of the estimated microphonic encoding).
Un module 832 de calcul de vraisemblance permet de déterminer, dans un mode de réalisation, la combinaison le plus probable des classifications des M composantes par un calcul de valeurs de vraisemblance fonction des probabilités calculées au module 831 et pour les combinaisons possibles.  A likelihood calculation module 832 makes it possible to determine, in one embodiment, the most probable combination of the classifications of the M components by a calculation of likelihood values according to the probabilities calculated in module 831 and for the possible combinations.
Enfin, le dispositif comporte une interface de sortie 850 pour délivrer l'information de classification des composantes, par exemple à un autre dispositif de traitement qui peut utiliser cette information pour rehausser le son des sources discriminés, pour les débruiter ou bien pour effectuer un mixage de plusieurs sources discriminées. Un autre traitement possible peut également être d'analyser ou de localiser les sources pour optimiser le traitement d'une commande vocale.  Finally, the device comprises an output interface 850 for outputting the classification information of the components, for example to another processing device that can use this information to enhance the sound of the discriminated sources, to denoise them or to perform a mixing from several discriminated sources. Another possible treatment may also be to analyze or locate the sources to optimize the processing of a voice command.
Bien d'autres applications utilisant (Information de classification ainsi déterminée, sont alors possibles. Many other applications using (classification information thus determined, are then possible.
pour effectuer par exemple des captatlons de scènes sonores ou pour une prise de son de commande vocale. Le dispositif peut également être intégré dans un terminal de communication apte à traiter des signaux captés par une pluralité de capteurs intégrés ou déportés du terminal.  for example, capturing sound scenes or for voice command sound recording. The device can also be integrated in a communication terminal capable of processing signals picked up by a plurality of integrated or remote sensors of the terminal.

Claims

REVENDICATIONS
1. Procédé de traitement de données sonores pour une séparation de N sources sonores d'un signal sonore multicanal capté en milieu réel, caractérisé en ce qu'il comporte les étapes suivantes : 1. A method of processing sound data for a separation of N sound sources of a multichannel sound signal captured in real environment, characterized in that it comprises the following steps:
- application (E310) d'un traitement de séparation de sources au signal multicanal capté et obtention d'une matrice de séparation et d'un ensemble de M composantes sonores, avec M>N ;  - applying (E310) a source separation process to the captured multichannel signal and obtaining a separation matrix and a set of M sound components, with M> N;
- calcul (E320) d'un ensemble de premiers descripteurs dit bi- variés, représentatifs de relations statistiques entre les composantes des couples de l'ensemble des M composantes obtenu ;  calculating (E320) a set of first so-called bivariate descriptors, representative of statistical relations between the components of the pairs of the set of M components obtained;
- calcul (E320) d'un ensemble de seconds descripteurs dit uni- variés représentatifs de caractéristiques d'encodage des composantes de l'ensemble des M composantes obtenu ;  calculating (E320) a set of second so-called univariate descriptors representative of encoding characteristics of the components of the set of M components obtained;
- classification (E340) des composantes de l'ensemble des M composantes, selon deux classes de composantes, une première classe de N composantes dites directes correspondant aux N sources sonores directes et une deuxième classe de M-N composantes dites réverbérées, par un calcul (E330) de probabilité d'appartenance à une des deux classes, fonction des ensembles de premiers et seconds descripteurs.  classification (E340) of the components of the set of M components, according to two classes of components, a first class of N so-called direct components corresponding to the N direct sound sources and a second class of MN components called reverberated, by a calculation (E330 ) of the probability of belonging to one of the two classes, a function of the sets of first and second descriptors.
2. Procédé selon la revendication 1, dans lequel le calcul d'un descripteur bi-varié comporte le calcul d'un score de cohérence entre deux composantes. 2. Method according to claim 1, wherein the calculation of a bi-varied descriptor comprises calculating a coherence score between two components.
3. Procédé selon l'une des revendications 1 à 2, dans lequel le calcul d'un descripteur bi-varié comporte la détermination d'un retard entre les deux composantes du couple. 3. Method according to one of claims 1 to 2, wherein the calculation of a bi-varied descriptor comprises determining a delay between the two components of the pair.
4. procédé selon la revendication 3, dans lequel 4. The process according to claim 3, wherein
composantes est déterminé par la prise en compte du retard maximisant une fonction d'inter-corrélation entre les deux composants du couple.  components is determined by taking into account the delay maximizing an inter-correlation function between the two components of the couple.
5. Procédé selon l'une des revendications 3 ou 4, dans lequel la détermination du retard entre deux composantes d'un couple est associée à un indicateur de fiabilité du signe du retard, fonction de la cohérence entre les composantes du couple. 5. Method according to one of claims 3 or 4, wherein the determination of the delay between two components of a pair is associated with a reliability indicator of the sign of the delay, a function of the consistency between the components of the couple.
6. Procédé selon l'une des revendications 3 ou 5, dans lequel la détermination du retard entre deux composantes d'un couple est associée à un indicateur de fiabilité du signe du retard, fonction du rapport du maximum d'une fonction d'inter-corrélation pour des retards de signe opposé. 6. Method according to one of claims 3 or 5, wherein the determination of the delay between two components of a pair is associated with an indicator of reliability of the sign of the delay, a function of the ratio of the maximum of a function of inter -correlation for delays of opposite sign.
7. Procédé selon l'une des revendications 1 à 6, dans lequel le calcul d'un descripteur uni-varié est fonction d'une mise en correspondance entre des coefficients de mélange d'une matrice de mélange estimée à partir de l'étape de séparation de sources et des caractéristiques d'encodage d'une source de type onde plane. 7. Method according to one of claims 1 to 6, wherein the calculation of a unvaried descriptor is a function of a matching between mixing coefficients of a mixture matrix estimated from the step of source separation and encoding characteristics of a plane wave source.
8. Procédé selon l'une des revendications 1 à 7, dans lequel la classification des composantes de l'ensemble des M composantes s'effectue par la prise en compte de l'ensemble des M composantes, et par le calcul de la combinaison la plus probable des classifications des M composantes. 8. Method according to one of claims 1 to 7, wherein the classification of the components of the set of M components is effected by taking into account all the M components, and by calculating the combination of more likely classifications of the M components.
9. Procédé selon la revendication 8, dans lequel le calcul de la combinaison la plus probable s'effectue par la détermination d'un maximum des valeurs de vraisemblance exprimées comme le produjt des probabilités conditionnelles associéThe method of claim 8, wherein the calculation of the most likely combination is made by determining a maximum of the likelihood values expressed as the produces associated conditional probabilities
pour les combinaisons possibles de classification des M composantes.  for possible combinations of classification of the M components.
10. Procédé selon la revendication 8, dans lequel une étape de présélection des combinaisons possibles est effectuée en se basant sur les seuls descripteurs uni-variés avant l'étape de calcul de la combinaison la plus probable. The method of claim 8, wherein a step of preselecting the possible combinations is performed based on the univariate descriptors only before the step of calculating the most likely combination.
11. Procédé selon l'une des revendications précédentes, dans lequel une étape de pré-sélection des composantes est effectuée en se basant sur les seuls descripteurs uni-variés avant l'étape de calcul des descripteurs bi-variés. 11. The method as claimed in one of the preceding claims, in which a step of pre-selecting the components is performed based on the only univariate descriptors before the step of calculating the bi-varied descriptors.
12. Procédé selon l'une des revendications précédentes, dans lequel le signal multicanal est un signal ambisonique. 12. Method according to one of the preceding claims, wherein the multichannel signal is an ambisonic signal.
13. Dispositif de traitement de données sonores mis en œuvre pour effectuer un traitement de séparation de N sources sonores d'un signal sonore multicanal capté par une pluralité de capteurs en milieu réel, caractérisé en ce qu'il comporte : 13. A sound data processing device implemented for performing a separation processing of N sound sources of a multichannel sound signal picked up by a plurality of sensors in real environment, characterized in that it comprises:
- une interface d'entrée pour recevoir les signaux captés par une pluralité de capteurs, du signal sonore multicanal;  an input interface for receiving the signals picked up by a plurality of sensors, of the multichannel sound signal;
- un circuit de traitement comportant un processeur et apte à contrôler:  a processing circuit comprising a processor and able to control:
o un module de traitement de séparation de sources appliqué au signal multicanal capté pour obtenir une matrice de séparation et un ensemble de M composantes sonores, avec M≥N ;  a source separation processing module applied to the multichannel signal picked up to obtain a separation matrix and a set of M sound components, with M≥N;
o un calculateur apte à calculer un ensemble de premiers descripteurs dit bi-variés, représentatifs de relations statistiques entre les composantes des couples de l'ensemble des M composantes obtenu et un ensemble de seconds descripteurs dit uni-varié de caractéristiques d'encodage des composantes de l'ensemble des M composantes obtenu ; a calculator capable of calculating a set of first descriptors said to be bivariate, representative of statistical relations between the components of the pairs of the set of M components obtained and a set of second descriptors said uni-varied encoding characteristics of the components of the set of M components obtained;
o un module de classification des composantes de l'ensemble des M composantes, selon deux classes de composantes, une première classe de N composantes dites directes correspondant aux N sources sonores directes et une deuxième classe de M-N composantes dites réverbérées, par un calcul de probabilité d'appartenance à une des deux classes, fonction des ensembles de premiers et seconds descripteurs ;  o a module for classifying the components of the set of M components, according to two classes of components, a first class of N so-called direct components corresponding to the N direct sound sources and a second class of MN components called reverberated, by a probability calculation belonging to one of the two classes, a function of the sets of first and second descriptors;
- une interface de sortie pour délivrer l'information de classification des composantes,  an output interface for delivering the classification information of the components,
14. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de traitement selon l'une des revendications 1 à 12, lorsque ces Instructions sont exécutées par un processeur. 14. Computer program comprising code instructions for implementing the steps of the processing method according to one of claims 1 to 12, when these Instructions are executed by a processor.
15. Support de stockage, lisible par un processeur, sur lequel est enregistré un programme informatique comprenant des instructions de code pour l'exécution des étapes du procédé de traitement selon l'un des revendications 1 à 12, 15. A storage medium, readable by a processor, on which is stored a computer program comprising code instructions for performing the steps of the processing method according to one of claims 1 to 12,
EP18737650.4A 2017-06-09 2018-05-24 Processing of sound data for separating sound sources in a multichannel signal Active EP3635718B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1755183A FR3067511A1 (en) 2017-06-09 2017-06-09 SOUND DATA PROCESSING FOR SEPARATION OF SOUND SOURCES IN A MULTI-CHANNEL SIGNAL
PCT/FR2018/000139 WO2018224739A1 (en) 2017-06-09 2018-05-24 Processing of sound data for separating sound sources in a multichannel signal

Publications (2)

Publication Number Publication Date
EP3635718A1 true EP3635718A1 (en) 2020-04-15
EP3635718B1 EP3635718B1 (en) 2023-06-28

Family

ID=59746081

Family Applications (1)

Application Number Title Priority Date Filing Date
EP18737650.4A Active EP3635718B1 (en) 2017-06-09 2018-05-24 Processing of sound data for separating sound sources in a multichannel signal

Country Status (5)

Country Link
US (1) US11081126B2 (en)
EP (1) EP3635718B1 (en)
CN (1) CN110709929B (en)
FR (1) FR3067511A1 (en)
WO (1) WO2018224739A1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473566A (en) * 2019-07-25 2019-11-19 深圳壹账通智能科技有限公司 Audio separation method, device, electronic equipment and computer readable storage medium
EP4107723A4 (en) * 2020-02-21 2023-08-23 Harman International Industries, Incorporated Method and system to improve voice separation by eliminating overlap
CN113450823B (en) * 2020-03-24 2022-10-28 海信视像科技股份有限公司 Audio-based scene recognition method, device, equipment and storage medium
FR3116348A1 (en) * 2020-11-19 2022-05-20 Orange Improved localization of an acoustic source
CN112599144B (en) * 2020-12-03 2023-06-06 Oppo(重庆)智能科技有限公司 Audio data processing method, audio data processing device, medium and electronic equipment

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US20040086130A1 (en) * 2002-05-03 2004-05-06 Eid Bradley F. Multi-channel sound processing systems
US7809145B2 (en) * 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
KR100647286B1 (en) * 2004-08-14 2006-11-23 삼성전자주식회사 Postprocessing apparatus and method for removing cross-channel interference and apparatus and method for separating multi-channel sources employing the same
JP5053849B2 (en) * 2005-09-01 2012-10-24 パナソニック株式会社 Multi-channel acoustic signal processing apparatus and multi-channel acoustic signal processing method
JP2009529699A (en) * 2006-03-01 2009-08-20 ソフトマックス,インコーポレイテッド System and method for generating separated signals
FR2899424A1 (en) * 2006-03-28 2007-10-05 France Telecom Audio channel multi-channel/binaural e.g. transaural, three-dimensional spatialization method for e.g. ear phone, involves breaking down filter into delay and amplitude values for samples, and extracting filter`s spectral module on samples
FR2903562A1 (en) * 2006-07-07 2008-01-11 France Telecom BINARY SPATIALIZATION OF SOUND DATA ENCODED IN COMPRESSION.
US20080208538A1 (en) * 2007-02-26 2008-08-28 Qualcomm Incorporated Systems, methods, and apparatus for signal separation
KR101422745B1 (en) * 2007-03-30 2014-07-24 한국전자통신연구원 Apparatus and method for coding and decoding multi object audio signal with multi channel
US8131542B2 (en) * 2007-06-08 2012-03-06 Honda Motor Co., Ltd. Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
GB0720473D0 (en) * 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
JP5195652B2 (en) * 2008-06-11 2013-05-08 ソニー株式会社 Signal processing apparatus, signal processing method, and program
JP4816711B2 (en) * 2008-11-04 2011-11-16 ソニー株式会社 Call voice processing apparatus and call voice processing method
US20110058676A1 (en) * 2009-09-07 2011-03-10 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
KR101567461B1 (en) * 2009-11-16 2015-11-09 삼성전자주식회사 Apparatus for generating multi-channel sound signal
US9165565B2 (en) * 2011-09-09 2015-10-20 Adobe Systems Incorporated Sound mixture recognition
US9654894B2 (en) * 2013-10-31 2017-05-16 Conexant Systems, Inc. Selective audio source enhancement

Also Published As

Publication number Publication date
US11081126B2 (en) 2021-08-03
CN110709929A (en) 2020-01-17
CN110709929B (en) 2023-08-15
EP3635718B1 (en) 2023-06-28
FR3067511A1 (en) 2018-12-14
WO2018224739A1 (en) 2018-12-13
US20200152222A1 (en) 2020-05-14

Similar Documents

Publication Publication Date Title
EP3635718B1 (en) Processing of sound data for separating sound sources in a multichannel signal
EP3807669B1 (en) Location of sound sources in a given acoustic environment
JP4406428B2 (en) Signal separation device, signal separation method, signal separation program, and recording medium
EP2898707B1 (en) Optimized calibration of a multi-loudspeaker sound restitution system
EP3281026B1 (en) Method of separating sources for parsimonious signals
US20160180865A1 (en) Video-based sound source separation
EP2517037A1 (en) Method for estimating the number of incident sources in a sensor array by means of estimating noise statistics
EP3292819B1 (en) Noisy signal identification from non-stationary audio signals
CN113409771B (en) Detection method for forged audio frequency, detection system and storage medium thereof
EP4046390A1 (en) Improved location of an acoustic source
EP3559947B1 (en) Processing in sub-bands of an actual ambisonic content for improved decoding
Cobos et al. Two-microphone separation of speech mixtures based on interclass variance maximization
EP4248231A1 (en) Improved location of an acoustic source
Kressner et al. Outcome measures based on classification performance fail to predict the intelligibility of binary-masked speech
Zohny et al. Modelling interaural level and phase cues with Student's t-distribution for robust clustering in MESSL
WO2022219558A1 (en) System and method for estimating direction of arrival and delays of early room reflections
EP3385899A1 (en) Method and device for real-time detection of a scene
FR3011086A1 (en) METHOD FOR JOINTLY SYNCHRONIZING, IDENTIFYING, MEASURING, ESTIMATING THE PROPAGATION FILTER AND LOCATING USEFUL AND INTERFERING TRANSMITTERS
EP1949548B1 (en) Method for detecting paths in pulse transmission and a device for carrying out said method
EP1359685A1 (en) Source separation for cyclostationary signals
WO2011012789A1 (en) Source location
US20230296767A1 (en) Acoustic-environment mismatch and proximity detection with a novel set of acoustic relative features and adaptive filtering
EP4315328A1 (en) Estimating an optimized mask for processing acquired sound data
JP2023122018A (en) Signal processor, signal processing program and signal processing method

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20191210

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20211006

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20230310

RIN1 Information on inventor provided before grant (corrected)

Inventor name: GUERIN, ALEXANDRE

Inventor name: BAQUE, MATHIEU

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 1583444

Country of ref document: AT

Kind code of ref document: T

Effective date: 20230715

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602018052425

Country of ref document: DE

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG9D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230928

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20230628

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 1583444

Country of ref document: AT

Kind code of ref document: T

Effective date: 20230628

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230929

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231028

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231030

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231028

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230628

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT