EP3895446A1 - Procédé d'interpolation d'un champ sonore, produit programme d'ordinateur et dispositif correspondants - Google Patents

Procédé d'interpolation d'un champ sonore, produit programme d'ordinateur et dispositif correspondants

Info

Publication number
EP3895446A1
EP3895446A1 EP19816809.8A EP19816809A EP3895446A1 EP 3895446 A1 EP3895446 A1 EP 3895446A1 EP 19816809 A EP19816809 A EP 19816809A EP 3895446 A1 EP3895446 A1 EP 3895446A1
Authority
EP
European Patent Office
Prior art keywords
microphones
sound field
interpolation
field
interpolated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP19816809.8A
Other languages
German (de)
English (en)
Other versions
EP3895446B1 (fr
Inventor
Alexandre GUÉRIN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fondation B Com
Original Assignee
Fondation B Com
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fondation B Com filed Critical Fondation B Com
Publication of EP3895446A1 publication Critical patent/EP3895446A1/fr
Application granted granted Critical
Publication of EP3895446B1 publication Critical patent/EP3895446B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • TITLE Sound field interpolation process, computer program product and corresponding device.
  • the field of the invention is that of the interpolation of a sound (or acoustic) field having been emitted by one or more sources and having been picked up by a finite set of microphones.
  • the invention has many applications, in particular, but not exclusively, in the field of virtual reality, for example to allow a listener to move in a sound scene which is returned to him, or in the field of analysis of sound scene, for example to determine the number of sound sources present in the analyzed scene, or in the field of the reproduction of a multichannel scene, for example within an MPEG-H 3D decoder, etc.
  • a classic approach consists in estimating the sound field at the given position using linear interpolation between the fields as captured and encoded by the different stage microphones.
  • the interpolation coefficients are estimated by minimizing a cost function.
  • an ambisonic microphone encodes and delivers the sound field which it picks up in an ambisonic format.
  • the ambisonic format is characterized by components which consist of the projection of the sound field according to different directivities. These components are grouped in order. The zero order encodes the instantaneous sound pressure picked up by the microphone, the one order encodes the three pressure gradients along the three axes of space, etc. The higher the order, the greater the spatial resolution of the representation of the field.
  • the ambisonic format in its complete representation makes it possible to encode the field at any point inside the maximum sphere free of sound sources, and having as center the physical location of the microphone having performed the capture.
  • Such encoding of the sound field theoretically makes it possible, from a single microphone, to move within the zone delimited by the source closest to the microphone, without however being able to bypass any of the sources in question.
  • Such microphones thus make it possible to represent the sound field in three dimensions via a decomposition of the latter into spherical harmonics.
  • This decomposition is particularly suitable for navigation called 3DoF (from the English "Degree of Freedom”), eg navigation according to the three dimensions. It is this format that was chosen for immersive content on the virtual reality channel of YouTube or on Facebook-360.
  • the method must allow the sound field at the interpolation position to be estimated so that the field in question is consistent with the position of the sound sources. For example, a listener in the interpolation position must have the impression that the interpolated field actually arrives towards the sound source (s) of the sound scene which, when the field in question is returned (eg to allow the listener to navigate the sound scene).
  • a method of interpolating a sound field picked up by a plurality of N microphones each delivering the encoded sound field in a form comprising at least one sensed pressure and a vector of gradients. associated pressure comprises an interpolation of the sound field at an interpolation position delivering an interpolated encoded sound field expressed as a linear combination of the N encoded sound fields each weighted by a corresponding weighting factor.
  • the method further comprises an estimation of the N weighting factors from at least:
  • the invention proposes a new and inventive solution for carrying out an interpolation of a sound field picked up by at least two microphones, for example in a scene comprising one or more sound source (s).
  • the proposed method takes advantage of the encoding of the sound field in a form giving access to the vector of pressure gradients in addition to the pressure.
  • the vector of pressure gradients of the interpolated field remains consistent with that of the sound field as emitted by the source or sources of the scene at the interpolation position.
  • a listener in the interpolation position and listening to the interpolated field has the impression that the field which is restored to it is coherent with the sound source (s) (ie that the field which is returned actually arrives in the direction of the sound source (s) in question).
  • the use of an estimated power of the sound field at the interpolation position to estimate the weighting factors makes it possible to keep a low computational complexity. This allows for example a real-time implementation on devices with limited computing capacity.
  • the estimation implements a resolution of the equation
  • the equation in question is solved in the sense of minimizing the mean square error, eg by minimizing the cost function .
  • the resolution method eg the Simplex algorithm
  • the overdetermined character more equations than microphones
  • under determined more microphones than equations
  • the resolution is carried out under the constraint that
  • the resolution is also carried out under the constraint that the N weighting factors a ⁇ ⁇ t) are all positive or harmful. Thus phase reversals are avoided, thereby leading to improved results. In addition, the resolution of the above equation is accelerated.
  • the estimation also implements a resolution of homogenization factor.
  • the homogenization factor a is proportional to the standard L-2 of the vector x a (t).
  • the estimate includes:
  • the estimate l / a 2 (t) of the power of the sound field at the interpolation position is estimated from the instantaneous sound power W 2 (t) picked up by that of the N most microphones close to the interpolation position or from the estimate W 2 (t) of the instantaneous sound power W 2 (t) picked up by that of the N microphones closest to the interpolation position.
  • the estimate l / a 2 (t) of the power of the sound field at the interpolation position is estimated from a barycenter of the N instantaneous sound powers W 2 t) picked up by the N microphones , respectively from a barycenter of the N estimates W 2 (t) of the N instantaneous sound powers W 2 (t) picked up by the N microphones.
  • a coefficient weighting the instantaneous sound power W 2 (t), respectively weighting the estimate W 2 (t) of the instantaneous sound power W 2 (t) picked up by the microphone with index /, in the barycenter is inversely proportional to a normalized version of the distance between the position of the index / delivery microphone M ⁇ (t) and the interpolation position. The distance is expressed in the sense of a standard Lp.
  • the interpolation method further comprises, prior to the interpolation, a selection of the N microphones from Nt microphones, Nt> N.
  • the weighting factors can be obtained via a system of determined or overdetermined equations, thus making it possible to avoid or at least minimize the changes in timbre perceptible to the ear on the interpolated sound field.
  • the N microphones selected are the closest to the interpolation position among the Nt microphones.
  • the selection includes:
  • the microphones are selected so as to be distributed around the interpolation position.
  • the median vector Uu (t) is expressed as with x a (t) the vector representative of the interpolation position, Xi (t) a vector representative of the position of the microphone of index h, and; 2 (t) a vector representative of the position of the microphone of index 12.
  • the index 13 of the third microphone is an index different from ii and 12 which minimizes the dot product among the Nt indices of microphones.
  • the interpolation method further comprises, for an encoded sound field given from among the N encoded sound fields delivered by the N microphones, a transformation of the encoded sound field given by application of a bank of reconstruction filters perfect delivering M field frequency components associated with the given encoded sound field, each field frequency component among the M field frequency components being located in a separate frequency sub-band.
  • the repeated transformation for the N encoded sound fields delivers N corresponding sets of M frequency field components.
  • the interpolation delivers a frequency component of field interpolated in the position of interpolation and located in the given frequency sub-band, the frequency component of interpolated field is expressed as a linear combination of the N frequency components of field, among the N sets, located in the given frequency sub-band.
  • the repeated interpolation for the M frequency sub-bands delivers M frequency components of the interpolated field in the interpolation position, each frequency component of the interpolated field among the M frequency components of the interpolated field being located in a separate frequency sub-band.
  • the results are improved in the case where the sound field is generated by a plurality of sound sources.
  • the interpolation method further comprises a transformation opposite to said transformation.
  • the inverse transformation applied to the M frequency components of interpolated field delivers the encoded sound field interpolated in the interpolation position.
  • the bank of filters with perfect reconstruction belongs to the group comprising:
  • MDCT from “Modified Discrt Cosine Transform”.
  • the invention also relates to a method for restoring a sound field.
  • Such a method includes:
  • the invention also relates to a computer program, comprising program code instructions for the implementation of an interpolation or restitution method as described above, according to any one of its different embodiments, when said program is executed by a processor.
  • a device for interpolating a sound field picked up by a plurality of N microphones each delivering the encoded sound field in a form comprising at least one sensed pressure and a vector of associated pressure gradients comprises a reprogrammable calculation machine or a dedicated calculation machine, capable of and configured to implement the steps of the interpolation method described above (according to any one of its different embodiments).
  • FIG. 1 represents a sound scene in which a listener moves, a sound field having been diffused by sound sources and having been picked up by microphones;
  • FIG. 2 represents the stages of a process of interpolation of the sound field picked up by the microphones of [fig. 1] according to one embodiment of the invention
  • FIG. 3a represents a scene in which a sound field is diffused by a single sound source and is picked up by four microphones according to a first configuration
  • [fig. 3b] represents a map of the opposite of the normalized acoustic intensity in the 2D plane generated by the sound source of the scene in [fig. 3a] as well as a map of the opposite of the normalized acoustic intensity as estimated by a known method from the quantities picked up by the four microphones of [fig. 3a];
  • [fig. 3c] represents a map of the opposite of the normalized acoustic intensity in the 2D plane generated by the sound source of the scene in [fig. 3a] as well as a map of the opposite of the normalized acoustic intensity as estimated by the method of the figure [fig. 2] from the quantities picked up by the four microphones in [fig. 3a];
  • [fig. 4a] represents another scene in which a sound field is diffused by a single sound source and is picked up by four microphones according to a second configuration;
  • [fig. 4b] represents a map of the opposite of the normalized acoustic intensity in the 2D plane generated by the sound source of the scene in [fig. 4a] as well as a cartography of the opposite of the normalized acoustic intensity of the sound field as estimated by a known method from the quantities picked up by the four microphones of [fig. 4a];
  • [fig. 4c] represents a map of the opposite of the normalized acoustic intensity in the 2D plane generated by the sound source of the scene in [fig. 4a] as well as a map of the opposite of the normalized acoustic intensity of the sound field as estimated by the method in Figure [fig. 2] from the quantities picked up by the four microphones in [fig. 4a];
  • FIG. 5 represents the stages of a process of interpolation of the sound field picked up by the microphones of [fig. 1] according to another embodiment of the invention
  • FIG. 6 represents the stages of a restitution process, to the listener of [fig. 1], of the sound field picked up by the microphones in [fig. 1] according to one embodiment of the invention
  • FIG. 7 shows an example of an interpolation device structure according to an embodiment of the invention.
  • the general principle of the invention is based on the encoding of the sound field by the microphones picking up the sound field in question in a form comprising at least one sensed pressure and an associated pressure gradient.
  • the pressure gradient of the field interpolated via a linear combination of the sound fields encoded by the microphones remains consistent with that of the sound field as emitted by the source (s) of the scene at the interpolation position.
  • the method according to the invention bases the estimation of the weighting factors involved in the linear combination in question on an estimation of the power of the sound field at the interpolation position.
  • a low computational complexity is obtained.
  • encoding (or coding) terminology is used to designate the operation of representing a physical sound field picked up by a given microphone according to one or more quantities according to a predefined representation format.
  • a predefined representation format is for example the ambisonic format described above in relation to the section "Prior art and its drawbacks”.
  • the reverse operation is then similar to a restitution of the sound field, e.g. on a loudspeaker type device which converts samples of the sound field in the predefined representation format into a physical sound field; and
  • compression terminology is used to designate processing aimed at reducing the amount of data necessary to represent a given amount of information. This is, for example, a processing of the “entropy coding” type (eg according to the MP3 standard) applied to samples of the encoded sound field.
  • the decompression terminology thus corresponds to the reverse operation.
  • the listener 110 is provided with a headset equipped with HOhp speakers allowing the restitution of the interpolated sound field at the interpolation position which it occupies.
  • a headset equipped with HOhp speakers allowing the restitution of the interpolated sound field at the interpolation position which it occupies.
  • This is for example a Hi-Fi headset, or a virtual reality headset like the Oculus, the HTC Vive or the Samsung Gear.
  • the sound field is here interpolated and restored by implementing the reproduction process described below in relation to [fig. 6]
  • the sound field picked up by the 100m microphones is encoded in a form comprising a captured pressure and an associated pressure gradient.
  • the sound field picked up by the microphones is encoded in a form comprising the pressure picked up, the vector of the associated pressure gradients as well as all or part of the higher order components of the sound field in format. ambisonic.
  • the perception of the direction of arrival of the wave front of the sound field is directly correlated with an acoustic intensity vector / (t) which measures the instantaneous flow of acoustic energy through an elementary surface.
  • the intensity vector in question is equal to the product of the instantaneous sound pressure W (t) by the particle velocity, which is opposite to the vector of the pressure gradients B (t).
  • This vector of gradients pressure can be expressed in 2D or 3D depending on whether you want to move and / or perceive sounds in 2D or 3D. In the following, we place our in the 3D case, the derivation of the 2D case being immediate.
  • this vector is orthogonal to the wave front and points in the direction of the propagation of the sound wave, ie opposite to the position of the emitting source: in this sense, it is directly correlated with perception of the wave front. This is particularly obvious if we consider a field generated by a single point and distant source s (t) propagating in an anechoic medium.
  • the theory of ambinosia stipulates that, for such a plane wave of incidence (q, f), where é? Is the azimuth and elevation, the first order sound field is given by the following equation:
  • the full-band acoustic intensity / (t) is equal (to within a multiplying coefficient), to:
  • the method according to the invention implements the resolution of systems of equations (ie [Math 4] in different constraint alternatives (ie hyperplane and / or weighting factors) and [Math 5]).
  • systems of equations ie [Math 4] in different constraint alternatives (ie hyperplane and / or weighting factors) and [Math 5]).
  • the resolution of the systems in question in the case where they are under-determined (case which corresponds to the configuration where there are more 100m microphones than equations to be solved) leads to solutions which , over time, may favor different sets of microphones. If the location of the sources 100s as perceived via the interpolated sound field always remains consistent, it nevertheless results in changes in timbre perceptible to the ear.
  • N microphones 100m are selected by reducing to a determined, even over-determined, mixture. For example, in the case of a 3D interpolation, it will be possible to select up to three microphones from among the Nt 100m microphones.
  • the N microphones 110m closest to the position to be interpolated are selected. This solution is to be preferred when a large number Nt of 110m microphones is present in the scene. However, in certain cases, the choice of the N closest 110m microphones may prove to be "unbalanced" with regard to the position of interpolation with respect to the source 100s and lead to a complete inversion of the direction of arrival: c 'is particularly the case when the source 100s is placed between the microphones 100m and the interpolation position.
  • step E200 includes for example:
  • a (t) (x a (t) y a ⁇ t) z a (t)) T a vector representative of the interpolation position (ie the position of the listener 110 in the embodiment shown in [ fig. 1]);
  • Xi (t) (Xi 1 vector representative of the position of the microphone of index ii;
  • the index of said third microphone is for example an index different from ii and which minimizes the dot product among the Nt microphone indices
  • the dot product in question varies between -1 and +1, and it is minimal when the vectors Uu (t) and are opposite, that is to say when the 3 microphones selected from the Nt microphones 110m surround the interpolation position.
  • the selection step E200 is not implemented and the steps E210 and E210a described below are implemented on the basis of the sound fields encoded by all of the Nt microphones 100m.
  • N Nt for the implementation of steps E210 and E210a in the other embodiments in question.
  • the method comprises a step E210 of interpolation of the sound field in an interpolation position, delivering an encoded interpolated sound field expressed as a linear combination of the N sound fields encoded by the N selected microphones 100m, the N fields encoded sound signals are each weighted by a corresponding weighting factor.
  • the interpolation method according to the invention applies in the same way in order to estimate the weighting factors a * (t).
  • the first order components are inversely proportional to the distance between the active source 100s and the measurement point, eg the microphone 100m with index /, and points from the active source 100s to the microphone 100m index / in question.
  • x s (t) (x s (t) y s (t) z s (t)) T a vector representative of the position of the active source 100s;
  • d (xi (t), x s (t)) is the distance between the microphone 100m with index / and the active source 100s.
  • the first order component (i.e. the vector of pressure gradients) of the encoded sound field is oriented in the “source-point of capture” direction;
  • the amplitude of the sound field decreases linearly with distance.
  • the different positions mentioned above (eg of the active source 100s, microphones 100m, of the interpolation position, etc.) vary over time.
  • the factors of weighting a ⁇ t) are generally a function of time.
  • Estimating the weighting factors a ⁇ ⁇ t) amounts to solving a system of three linear equations (written above as a single vector equation in [Math 3]). So that the interpolation remains consistent over time with the interpolation position which can vary over time (eg if the position in question corresponds to the position of the listener 110 which is caused to move), it is carried out at different times with a time resolution T a adapted to the speed of change of the interpolation position.
  • Wa the square of the sound pressure at the interpolation position, Wa (t ⁇ also called instantaneous acoustic power (or more simply instantaneous power), is an unknown, as well as the vector representative of the position x s (t) of the active 100s source.
  • an estimate M 2 (t) of the sound power at the level of the interpolation position is for example obtained.
  • a first approach consists in approaching the instantaneous sound power by that picked up by the microphone 100m closest to the interpolation position in question, i.e.:
  • the instantaneous sound power Wj * (t) can vary rapidly over time, which can lead to a noisy estimate of the weighting factors a ⁇ ⁇ t) and to an instability of the interpolated scene.
  • the average or effective power picked up by the microphone 100m closest to the interpolation position over a time window around the instant is calculated, by averaging the instantaneous power over a frame of T samples:
  • T corresponds to a duration of a few tens of milliseconds, or even be equal to the temporal resolution of the refreshment of the weighting factors a ⁇ t.
  • a w is determined in such a way as to integrate the power over a few tens of milliseconds.
  • values from 0.95 to 0.98 for signal sampling frequencies ranging from 8 kHz to 48 kHz achieves a good compromise between the robustness of the interpolation and its reactivity to changes in position of the source.
  • the instantaneous acoustic power V a 2 (t) at the interpolation position is estimated as a barycenter of the N estimates W t 2 (t) of the N instantaneous powers l / 2 (t) of the N pressures picked up by the N selected 100m microphones.
  • W t 2 (t) of the N instantaneous powers l / 2 (t) of the N pressures picked up by the N selected 100m microphones is more relevant when the 100m microphones are spaced from each other.
  • a coefficient weighting the estimate W t 2 (f) of the instantaneous power W 2 t) of the pressure sensed by the microphone 110m of index /, in the barycentric expression above is inversely proportional to a normalized version of the distance, within the meaning of the Lp standard, between the position of the index microphone / delivering the pressure W ⁇ t and the interpolation position.
  • the instantaneous acoustic power M 2 (t) at the interpolation position is estimated directly as a barycenter of the N instantaneous powers W 2 t) of the N pressures picked up by the N microphones 100m. In practice, this amounts to substituting W 2 t) for W 2 (t) in the above equation.
  • weighting factors a ⁇ t are estimated from:
  • the resolution method e.g. the Simplex algorithm
  • the character is overdetermined (more equations than microphones) or underdetermined (more microphones than equations).
  • W t 2 (t) and l / a 2 (t) are for example estimated according to one of the variants proposed here. - above
  • the resolution of such a linear system under linear stress can be carried out by the Simplex algorithm or any other algorithm of minimization under stress.
  • the coefficient a makes it possible to homogenize the units of the quantities l / a 2 (t) a (t) and
  • Wa (t) the quantities in question are not homogeneous and, depending on the unit chosen for the position coordinates (meter, centimeter, ...), the solutions will favor either
  • the coefficient a is for example chosen equal to the standard L-2 of the vector
  • weighting factors W ( ( ⁇ ) are estimated from:
  • the four microphones 300m are placed at the four corners of a room and the source 300s is placed in the center of the room.
  • the room has an average reverberation, with a reverberation time or Teo of around 500ms.
  • the sound field picked up by the 300m microphones is encoded in a form comprising a captured pressure and the associated pressure gradient vector.
  • the method comprises the step E200 of selecting N microphones from among the Nt microphones of the scene 100 described above in relation to [fig. 2].
  • the selection step E200 is not implemented and the steps E500, E210 and E510 discussed below, are implemented on the basis of the sound fields encoded by all of the Nt microphones 100m.
  • N Nt in these other embodiments.
  • the embodiment in question is found to be suitable for the case where several sources among the sources 100s are active simultaneously.
  • the hypothesis of a full band field resembling a plane wave is no longer valid. Indeed, even in an anechoic medium, the mixture of two plane waves is not a plane wave - except in the very specific case of the same source emitting from 2 points in space equidistant from the point of capture.
  • the “full band” field reconstruction procedure adapts to the preponderant source in the frame used for the calculation of the effective powers. This produces rapid variations in directivity, and sometimes inconsistencies in the location of sources: when one source is more energetic than another, the two sources in question are estimated to be located at the position of the most energetic source.
  • [fig. 5] exploits the parsimony of signals in the frequency domain.
  • speech signals for example, it is statistically proven that the frequency carriers of several speech signals are globally disjoint: that is to say that most of the time, only one source is present in each band frequency.
  • the embodiment of [fig. 2] (according to any one of the aforementioned variants) can thus be applied to the signal present in each frequency band.
  • a transformation of the given encoded sound field is carried out by application of a time-frequency transformation like the transform Fourier or a bank of filters with perfect or almost perfect reconstruction, such as quadrature or QMF mirror filters.
  • a transformation delivers M frequency components of field associated with the given encoded sound field, each frequency component of field among the M frequency components of field being located in a distinct frequency sub-band.
  • the encoded field vector, y ⁇ delivered by the microphone with index /, / from 1 to N, is segmented into frames of index n, of size T compatible with the stationarity of the sources present in the scene:
  • Y ⁇ (h) [y ⁇ ( ⁇ h - T + 1) xl i (t n - T + 2) ⁇ > i (tn)] ⁇
  • the frame rate is for example the rhythm of updating T weighting factors a * (t), ie:
  • each component of the vector y ⁇ representing the sound field encoded by the microphone 100m of index / (ie is applied to the sensed pressure, to the components of the vector of the pressure gradients, as well as to the components of higher order present in the sound field encoded if necessary, to produce a time-frequency representation.
  • the transformation in question is a direct Fourier transformation. So, we obtain for the / -th component in of the vector Y ⁇
  • M the number of frequency components M is equal to the size of the analysis frame T.
  • the vector consisting of the set of components i /; ⁇ ; (h, w), (or Yu (h, k)) for the different / represents the frequency component of the field y ⁇ in the frequency sub-band w (or k) considered.
  • the transformation applied in step E500 is not a Fourier transform, but a bank of filters with (almost) perfect reconstruction, for example a bank of filters:
  • MDCT from “Modified Discrt Cosine Transform”.
  • step E500 is repeated for the N sound fields encoded by the N microphones 100m selected, delivering N corresponding sets of M frequency field components.
  • steps E210 and E210a described above in relation to [fig. 2] are implemented for each frequency sub-band among the M frequency sub-bands. More particularly, for a given frequency sub-band among the M frequency sub-bands, the interpolation delivers a frequency component of field interpolated in the position of interpolation and located in the given frequency sub-band.
  • the interpolated field frequency component is expressed as a linear combination of the N field frequency components, among the N sets, located in the given frequency sub-band.
  • the resolution of the systems of equations making it possible to determine the weighting factors is performed in each of the frequency sub-bands to produce a set of weighting factors per frequency sub-band a ⁇ h, w (or W ( (h, k)).
  • the effective power in each frequency sub-band is estimated either by sliding average:
  • the repeated interpolation for the M frequency sub-bands delivers M frequency components of the interpolated field in the interpolation position, each frequency component of the interpolated field among the M frequency components of the interpolated field being located in a separate frequency sub-band.
  • a reverse transformation to the transformation applied during step E500 is applied to the M frequency components of interpolated field delivering the encoded sound field interpolated in the interpolation position.
  • the reverse transformation applied during step E510 is an inverse Fourier transform.
  • the sound field is picked up by the microphones 110m, each microphone among the microphones 110m delivering a corresponding picked up sound field.
  • each of the captured sound fields is encoded in a form comprising the captured pressure and an associated pressure gradient vector.
  • the sound field picked up by the 110m microphones is encoded in a form comprising the sensed pressure, an associated pressure gradient vector as well as all or part of the higher order components of the decomposed sound field. in ambisonic format.
  • the restitution method comprises an interpolation phase E620 corresponding to the implementation of the interpolation method according to the invention (according to any of the embodiments and / or variants described below) above in relation to [fig. 2] and [fig. 5]) delivering the encoded sound field interpolated in the interpolation position, eg the position of the listener 110.
  • the interpolated encoded sound field is compressed, e.g. by implementing entropy coding.
  • a compressed interpolated encoded sound field is thus delivered.
  • the compression step E630 is implemented by the device 700 (described below in relation to FIG. 7) which is removed from the 11Ohp rendering device.
  • the compressed interpolated encoded sound field delivered by the device 700 is transmitted to the playback device 11Ohp.
  • the compressed interpolated encoded sound field is transmitted to another device having a calculation capacity making it possible to decompress compressed content, eg a smartphone, a computer, or any other connected terminal with sufficient computing capacity, for later transmission.
  • the compressed interpolated encoded sound field received by the llOhp playback device is decompressed in order to deliver the samples of the interpolated encoded sound field in the coding format used (ie in the format comprising at least the pressure sensed by the corresponding microphone 110m, the components of the pressure gradient vector, as well as the higher order components present in the sound field encoded if necessary).
  • the coding format used ie in the format comprising at least the pressure sensed by the corresponding microphone 110m, the components of the pressure gradient vector, as well as the higher order components present in the sound field encoded if necessary.
  • step E660 the interpolated encoded sound field is restored on the llOhp reproduction device.
  • the interpolation position corresponds to the physical position of the listener 110
  • the latter has the impression that the sound field which is restored to him is consistent with the sound sources 100s (ie that the field which is restored to him arrives effectively towards sound sources 100s).
  • steps E630 of compression and E650 of decompression are not implemented.
  • it is the raw samples of the interpolated encoded sound field which are transmitted to the llOhp reproduction device.
  • the device 700 implementing at least the interpolation phase E620 is embedded in the 11Ohp rendering device.
  • it is the samples of the encoded sound field (once compressed or not depending on the variants) which are transmitted to the llOhp playback device during step E640, and not the samples of the interpolated encoded sound field (once compressed or not depending on the variants).
  • step E640 is implemented just after the steps E600 and E610 of capture and encoding.
  • the device 700 comprises a random access memory 703 (for example a RAM memory), a processing unit 702 equipped for example with a processor, and controlled by a computer program stored in a read-only memory 701 (for example a ROM memory or a hard disc). On initialization, the code instructions of the computer program are for example loaded into the random access memory 703 before being executed by the processor of the processing unit 702.
  • a random access memory 703 for example a RAM memory
  • a processing unit 702 equipped for example with a processor
  • a computer program stored in a read-only memory 701 for example a ROM memory or a hard disc
  • This [fig. 7] illustrates only one particular way, among several possible, of producing the device 700 so that it performs certain steps of the interpolation method according to the invention (according to any one of the embodiments and / or variants described above in relation to [fig. 2] and [fig. 5]). Indeed, these steps can be carried out indifferently on a reprogrammable calculation machine (a PC computer, a DSP processor or a microcontroller) executing a program comprising a sequence of instructions, or on a dedicated calculation machine (for example a set of logic gates like an FPGA or an ASIC, or any other hardware module).
  • a reprogrammable calculation machine a PC computer, a DSP processor or a microcontroller
  • a program comprising a sequence of instructions
  • a dedicated calculation machine for example a set of logic gates like an FPGA or an ASIC, or any other hardware module.
  • the corresponding program (that is to say the sequence of instructions) may be stored in a removable storage medium (such as for example a floppy disk, CD-ROM or DVD-ROM) or not, this storage medium being partially or completely readable by a computer or a processor.
  • a removable storage medium such as for example a floppy disk, CD-ROM or DVD-ROM
  • the device 700 is also configured to implement all or part of the additional steps of the restitution process of [fig. 6] (e.g. steps E600, E610, E630, E640, E650 or E660).
  • the device 700 is included in the llOhp rendering device.
  • the device 700 is included in one of the microphones 110m or is duplicated in several of the microphones 110m.
  • the device 700 is included in a remote device for both the 110m microphones and the llOhp playback device.
  • the remote equipment is an MPEG-H 3D decoder, a content server, a computer, etc.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

L'invention concerne un procédé d'interpolation d'un champ sonore capté par une pluralité de N microphones délivrant chacun le champ sonore encodé sous une forme comprenant au moins une pression captée et un vecteur de gradients de pression associé. Un tel procédé comprenant une interpolation du champ sonore en une position d'interpolation délivrant un champ sonore encodé interpolé s'exprimant comme une combinaison linéaire des N champs sonores encodés pondérés chacun par un facteur de pondération correspondant. L'interpolation comprend une estimation des N facteurs de pondération à partir au moins : - de la position d'interpolation; - d'une position de chacun des N microphones; - des N pressions captées par les N microphones; et - d'une puissance estimée du champ sonore à la position d'interpolation.

Description

DESCRIPTION
TITRE : Procédé d'interpolation d'un champ sonore, produit programme d'ordinateur et dispositif correspondants.
Domaine de l'invention
Le domaine de l'invention est celui de l'interpolation d'un champ sonore (ou acoustique) ayant été émis par une ou plusieurs sources et ayant été capté par un ensemble fini de microphones.
L'invention a de nombreuses applications, notamment, mais non exclusivement, dans le domaine de la réalité virtuelle, par exemple pour permettre à un auditeur de se déplacer dans une scène sonore qui lui est restituée, ou dans le domaine de l'analyse de scène sonore, par exemple pour déterminer le nombre de sources sonores présentes dans la scène analysée, ou dans le domaine de la restitution d'une scène multicanal, par exemple au sein d'un décodeur MPEG-H 3D, etc.
Art antérieur et ses inconvénients
Afin d'interpoler un champ sonore en une position donnée d'une scène sonore, une approche classique consiste à estimer le champ sonore à la position donnée à l'aide d'une interpolation linéaire entre les champs tels que captés et encodés par les différents microphones de la scène. Les coefficients d'interpolation sont estimés en minimisant une fonction de coût.
Dans une telle approche, les techniques connues privilégient une captation du champ sonore par des microphones dits ambisoniques. Plus particulièrement, un microphone ambisonique encode et délivre le champ sonore qu'il capte dans un format ambisonique. Le format ambisonique se caractérise par des composantes qui consistent en la projection du champ sonore suivant différentes directivités. Ces composantes sont regroupées par ordre. L'ordre zéro encode la pression acoustique instantanée captée par le microphone, l'ordre un encode les trois gradients de pression suivant les trois axes de l'espace, etc. Plus on monte dans les ordres, plus la résolution spatiale de la représentation du champ est importante. Le format ambisonique dans sa représentation complète, i.e. à l'ordre infini, permet d'encoder le champ en tout point à l'intérieur de la sphère maximale exempte de sources sonores, et ayant comme centre l'emplacement physique du microphone ayant effectué la captation. Un tel encodage du champ sonore permet en théorie, à partir d'un seul microphone, de se déplacer à l'intérieur de la zone délimitée par la source la plus proche du microphone, sans pouvoir cependant contourner aucune des sources en question.
De tels microphones permettent ainsi de représenter le champ sonore en trois dimensions via une décomposition de ce dernier en harmoniques sphériques. Cette décomposition est particulièrement adaptée à la navigation dite 3DoF (de l'anglais « Degree of Freedom »), e.g. une navigation suivant les trois dimensions. C'est d'ailleurs ce format qui a été retenu pour les contenus immersifs sur la chaîne de réalité virtuelle de Youtube ou encore sur Facebook-360.
Cependant, les méthodes d'interpolation de l'état de l'art supposent généralement qu'il existe un couple de microphones à égale distance de la position de l'auditeur comme dans la méthode divulguée dans l'article de conférence de A. Southern, J. Wells et D. Murphy : « Rendering walk-through auralisations using wave-based acoustical models », 17th European Signal Processing Conférence, 2009, p. 715-719 ». Une telle condition d'égalité des distances est impossible à garantir en pratique. Par ailleurs, de telles approches ne donnent de résultats intéressants que lorsque le réseau de microphones est dense dans la scène, ce qui est rarement le cas en pratique.
Il existe ainsi un besoin pour une méthode améliorée d'interpolation de champ sonore. En particulier, la méthode doit permettre d'estimer le champ sonore à la position d'interpolation de manière à ce que le champ en question soit cohérent avec la position des sources sonores. Par exemple, un auditeur se situant à la position d'interpolation doit avoir l'impression que le champ interpolé arrive effectivement en direction de la ou des source(s) sonore(s) de la scène sonore qui lorsque le champ en question lui est restitué (e.g. pour permettre à l'auditeur de naviguer dans la scène sonore).
Il existe également un besoin pour que la complexité calculatoire de la méthode d'interpolation soit maîtrisée, par exemple pour permettre une implémentation en temps-réel sur des dispositifs à capacité de calcul limitée (e.g. sur un terminal portable, un casque de réalité virtuelle, etc.).
Exposé de l'invention
Dans un mode de réalisation de l'invention, il est proposé un procédé d'interpolation d'un champ sonore capté par une pluralité de N microphones délivrant chacun le champ sonore encodé sous une forme comprenant au moins une pression captée et un vecteur de gradients de pression associé. Un tel procédé comprend une interpolation du champ sonore en une position d'interpolation délivrant un champ sonore encodé interpolé s'exprimant comme une combinaison linéaire des N champs sonores encodés pondérés chacun par un facteur de pondération correspondant. Le procédé comprend en outre une estimation des N facteurs de pondération à partir au moins :
de la position d'interpolation ;
d'une position de chacun desdits N microphones ; desdites N pressions captées par lesdits N microphones ; et
d'une puissance estimée dudit champ sonore à ladite position d'interpolation.
Ainsi, l'invention propose une solution nouvelle et inventive pour réaliser une interpolation d'un champ sonore capté par au moins deux microphones, par exemple dans une scène comprenant une ou plusieurs source(s) sonore(s).
Plus particulièrement, la méthode proposée tire parti de l'encodage du champ sonore sous une forme donnant accès au vecteur de gradients de pression en plus de la pression. De la sorte, le vecteur de gradients de pression du champ interpolé reste cohérent avec celui du champ sonore tel qu'émis par la ou les source(s) de la scène à la position d'interpolation. Par exemple, un auditeur se situant à la position d'interpolation et écoutant le champ interpolé a l'impression que le champ qui lui est restitué est cohérent avec le ou les source(s) sonore(s) (i.e. que le champ qui lui est restitué arrive effectivement en direction de la ou des source(s) sonore(s) en question).
Par ailleurs, l'utilisation d'une puissance estimée du champ sonore à la position d'interpolation pour estimer les facteurs de pondération permet de conserver une complexité calculatoire faible. Ceci permet par exemple une implémentation en temps-réel sur des dispositifs à capacité de calcul limitée.
Selon un mode de réalisation, l'estimation met en oeuvre une résolution de l'équation
((t) un vecteur représentatif de la position du microphone d'indice / parmi les N microphones ;
xa(t ) un vecteur représentatif de la position d'interpolation ;
Wa 2(t) l'estimation de la puissance du champ sonore à la position d'interpolation ; et
M^2(t) une estimation de la puissance instantanée W (t) de la pression captée par le microphone d'indice /.
Par exemple, l'équation en question est résolue au sens de la minimisation de l'erreur quadratique moyenne, e.g. par minimisation de la fonction de coût . En pratique, la méthode de resolution (e.g. l'algorithme du Simplexe) est choisie en fonction du caractère surdéterminé (plus d'équations que de microphones) ou sous-déterminé (plus de microphones que d'équations).
Selon un mode de réalisation, la résolution est effectuée sous la contrainte que
Selon un mode de réalisation, la résolution est en outre effectuée sous la contrainte que les N facteurs de pondération a^Çt) sont tous positifs ou nuis. Ainsi les inversions de phases sont évitées, conduisant par là-même à des résultats améliorés. Par ailleurs, la résolution de l'équation précitée se trouve accélérée.
Selon un mode de réalisation, l'estimation met également en oeuvre une résolution de facteur d'homogénéisation.
Selon un mode de réalisation, le facteur d'homogénéisation a est proportionnel à la norme L-2 du vecteur xa(t).
Selon un mode de réalisation, l'estimation comprend :
un moyennage temporel de ladite puissance instantanée W2 t) sur une durée temporelle prédéterminée délivrant ladite estimation W2 (t) ; ou
un filtrage autorégressif d'échantillons temporels de ladite puissance instantanée W2 (t), délivrant ladite estimation W2 (t).
Ainsi, en utilisant la puissance efficace, les variations de la puissance instantanée W2 t) sont lissées dans le temps. De la sorte, le bruit pouvant entacher les facteurs de pondération est réduit lors de leur estimation. Le champ sonore interpolé se trouve ainsi plus stable.
Selon un mode de réalisation, l'estimation l/ a 2 (t) de la puissance du champ sonore à la position d'interpolation est estimée à partir de la puissance sonore instantanée W2 (t) captée par celui des N microphones le plus proche de la position d'interpolation ou à partir de l'estimation W2 (t) de la puissance sonore instantanée W2 (t) captée par celui des N microphones le plus proche de la position d'interpolation.
Selon un mode de réalisation, l'estimation l/ a 2 (t) de la puissance du champ sonore à la position d'interpolation est estimée à partir d'un barycentre des N puissances sonores instantanées W2 t) captées par les N microphones, respectivement à partir d'un barycentre des N estimations W2 (t) des N puissances sonores instantanées W2 (t) captées par les N microphones. Un coefficient pondérant la puissance sonore instantanée W2 (t), respectivement pondérant l'estimation W2 (t) de la puissance sonore instantanée W2 (t) captée par le microphone d'indice /, dans le barycentre est inversement proportionnel à une version normalisée de la distance entre la position du microphone d'indice / délivrant la pression M^ (t) et la position d'interpolation. La distance est exprimée au sens d'une norme L-p.
Ainsi, la pression du champ sonore à la position d'interpolation est estimée de manière précise sur la base des pressions délivrés par les microphones. Notamment, lorsque p est choisi égal à deux, la loi de décroissance de la pression du champ sonore est respectée, conduisant à de bons résultats quelle que soit la configuration de la scène. Selon un mode de réalisation, le procédé d'interpolation comprend en outre, préalablement à l'interpolation, une sélection des N microphones parmi Nt microphones, Nt>N.
Ainsi, les facteurs de pondération peuvent être obtenus via un système d'équations déterminé ou surdéterminé, permettant ainsi d'éviter ou du moins minimiser les changements de timbres perceptibles à l'oreille sur le champ sonore interpolé.
Selon un mode de réalisation, les N microphones sélectionnés sont les plus proches de la position d'interpolation parmi les Nt microphones.
Selon un mode de réalisation, la sélection comprend :
une sélection de deux microphones d'indices ii et (2 les plus proches de ladite position d'interpolation parmi lesdits Nt microphones ;
un calcul d'un vecteur médian Uu(t) ayant pour origine ladite position d'interpolation et pointant entre les positions des deux microphones d'indices ii et 12 ; et
une détermination d'un troisième microphone d'indices 13 différent desdits deux microphones d'indices ii et 12 parmi les Nt microphones et dont la position est la plus à l'opposé du vecteur médian Uu(t).
Ainsi, les microphones sont sélectionnés de manière à être répartis autour de la position d'interpolation.
Selon un mode de réalisation, le vecteur médian Uu(t) s'exprime comme avec xa(t) le vecteur représentatif de la position d'interpolation, Xi (t) un vecteur représentatif de la position du microphone d'indice h, et ;2 (t) un vecteur représentatif de la position du microphone d'indice 12. L'indice 13 du troisième microphone est un indice différent de ii et 12 qui minimise le produit scalaire parmi les Nt indices de microphones.
Selon un mode de réalisation, le procédé d'interpolation comprend en outre, pour un champ sonore encodé donné parmi les N champs sonores encodés délivrés par les N microphones, une transformation du champ sonore encodé donné par application d'un banc de filtres à reconstruction parfaite délivrant M composantes fréquentielles de champ associées au champ sonore encodé donné, chaque composante fréquentielle de champ parmi les M composantes fréquentielles de champ étant localisée dans une sous-bande fréquentielle distincte. La transformation répétée pour les N champs sonores encodés délivre N jeux correspondants de M composantes fréquentielles de champ. Pour une sous-bande fréquentielle donnée parmi les M sous-bandes fréquentielles, l'interpolation délivre une composante fréquentielle de champ interpolée en la position d'interpolation et localisée dans la sous-bande fréquentielle donnée, la composante fréquentielle de champ interpolée s'exprime comme une combinaison linéaire des N composantes fréquentielles de champ, parmi les N jeux, localisées dans la sous-bande fréquentielle donnée. L'interpolation répétée pour les M sous-bandes fréquentielles délivre M composantes fréquentielles de champ interpolées en la position d'interpolation, chaque composante fréquentielle de champ interpolée parmi les M composantes fréquentielles de champ interpolées étant localisée dans une sous-bande fréquentielle distincte.
Ainsi, les résultats sont améliorés dans le cas où le champ sonore est généré par une pluralité de sources sonores.
Selon un mode de réalisation, le procédé d'interpolation comprend en outre une transformation inverse à ladite transformation. La transformation inverse appliquée aux M composantes fréquentielles de champ interpolées délivre le champ sonore encodé interpolé en la position d'interpolation.
Selon un mode de réalisation, le banc de filtres à reconstruction parfaite appartient au groupe comprenant :
DFT (de l'anglais « Discrète Fourier Transform ») ;
QMF (de l'anglais « Quadrature Mirror Filter ») ;
PQMF (de l'anglais « Pseudo - Quadrature Mirror Filter ») ; et
MDCT (de l'anglais « Modified Discrète Cosine Transform »).
L'invention concerne également un procédé de restitution d'un champ sonore. Un tel procédé comprend :
une captation du champ sonore par une pluralité de N microphones délivrant chacun un champ sonore capté correspondant ;
un encodage de chacun des champs sonores captés délivrant un champ sonore encodé correspondant sous une forme comprenant au moins une pression captée et un vecteur de gradients de pression associé ;
une phase interpolation mettant en oeuvre le procédé d'interpolation décrit ci-dessus (selon l'un quelconque des modes de réalisation précités) délivrant le champ sonore encodé interpolé en la position d'interpolation ;
une compression du champ sonore encodé interpolé délivrant un champ sonore encodé interpolé compressé ;
une transmission du champ sonore encodé interpolé compressé à au moins un dispositif de restitution ;
une décompression du champ sonore encodé interpolé compressé reçu ; et
une restitution du champ sonore encodé interpolé sur ledit au moins un dispositif de restitution. L'invention concerne également un programme d'ordinateur, comprenant des instructions de code de programme pour la mise en oeuvre d'un procédé d'interpolation ou de restitution tel que décrit précédemment, selon l'un quelconque de ses différents modes de réalisation, lorsque ledit programme est exécuté par un processeur.
Dans un autre mode de réalisation de l'invention, il est proposé un dispositif d'interpolation d'un champ sonore capté par une pluralité de N microphones délivrant chacun le champ sonore encodé sous une forme comprenant au moins une pression captée et un vecteur de gradients de pression associé. Un tel dispositif d'interpolation comprend une machine de calcul reprogrammable ou une machine de calcul dédiée, apte à et configurée pour mettre en oeuvre les étapes du procédé d'interpolation décrit précédemment (selon l'un quelconque de ses différents modes de réalisation).
Ainsi, les caractéristiques et avantages de ce dispositif sont les mêmes que ceux du procédé d'interpolation décrit précédemment. Par conséquent, ils ne sont pas détaillés plus amplement.
Liste des figures
D'autres buts, caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée à titre de simple exemple illustratif, et non limitatif, en relation avec les figures, parmi lesquelles :
[fig. 1] représente une scène sonore dans laquelle un auditeur se déplace, un champ sonore ayant été diffusé par des sources sonores et ayant été capté par des microphones ;
[fig. 2] représente les étapes d'un procédé d'interpolation du champ sonore capté par les microphones de la [fig. 1] selon un mode de réalisation de l'invention ;
[fig. 3a] représente une scène dans laquelle un champ sonore est diffusé par une source sonore unique et est capté par quatre microphones selon une première configuration ;
[fig. 3b] représente une cartographie de l'opposé de l'intensité acoustique normalisée dans le plan 2D générée par la source sonore de la scène de la [fig. 3a] ainsi qu'une cartographie de l'opposé de l'intensité acoustique normalisée tel qu'estimée par une méthode connue à partir des grandeurs captées par les quatre microphones de la [fig. 3a] ;
[fig. 3c] représente une cartographie de l'opposé de l'intensité acoustique normalisée dans le plan 2D générée par la source sonore de la scène de la [fig. 3a] ainsi qu'une cartographie de l'opposé de l'intensité acoustique normalisée tel qu'estimée par la méthode de la figure [fig. 2] à partir des grandeurs captées par les quatre microphones de la [fig. 3a] ; [fig. 4a] représente une autre scène dans laquelle un champ sonore est diffusé par une source sonore unique et est capté par quatre microphones selon une deuxième configuration ;
[fig. 4b] représente une cartographie de l'opposé de l'intensité acoustique normalisée dans le plan 2D générée par la source sonore de la scène de la [fig. 4a] ainsi qu'une cartographie de l'opposé de l'intensité acoustique normalisée du champ sonore tel qu'estimée par une méthode connue à partir des grandeurs captées par les quatre microphones de la [fig. 4a] ;
[fig. 4c] représente une cartographie de l'opposé de l'intensité acoustique normalisée dans le plan 2D générée par la source sonore de la scène de la [fig. 4a] ainsi qu'une cartographie de l'opposé de l'intensité acoustique normalisée du champ sonore tel qu'estimée par la méthode de la figure [fig. 2] à partir des grandeurs captées par les quatre microphones de la [fig. 4a] ;
[fig. 5] représente les étapes d'un procédé d'interpolation du champ sonore capté par les microphones de la [fig. 1] selon un autre mode de réalisation de l'invention;
[fig. 6] représente les étapes d'un procédé de restitution, à l'auditeur de la [fig. 1], du champ sonore capté par les microphones de la [fig. 1] selon un mode de réalisation de l'invention ;
[fig. 7] représente un exemple de structure de dispositif d'interpolation selon un mode de réalisation de l'invention.
Description détaillée de modes de réalisation de l'invention
Sur toutes les figures du présent document, les éléments et étapes identiques sont désignés par une même référence.
Le principe général de l'invention repose sur l'encodage du champ sonore par les microphones captant le champ sonore en question sous une forme comprenant au moins une pression captée et un gradient de pression associé. De la sorte, le gradient de pression du champ interpolé via une combinaison linéaire des champs sonores encodés par les microphones reste cohérent avec celui du champ sonore tel qu'émis par la ou les source(s) de la scène à la position d'interpolation. Par ailleurs, la méthode selon l'invention base l'estimation des facteurs de pondération mis en jeu dans la combinaison linéaire en question sur une estimation de la puissance du champ sonore à la position d'interpolation. Ainsi, une complexité calculatoire faible est obtenue.
On s'intéresse dans la suite à décrire un exemple particulier d'application de l'invention au contexte de la navigation d'un auditeur dans une scène sonore. On notera que l'invention n'est bien sûr pas limitée à ce type d'application et peut être avantageusement utilisée dans d'autres domaines comme celui de la restitution d'une scène multicanal, de la compression d'une scène multicanal, etc.
Par ailleurs, dans la présente demande :
la terminologie d'encodage (ou de codage) est utilisée pour désigner l'opération de représentation d'un champ sonore physique capté par un microphone donné suivant une ou plusieurs grandeurs selon un format de représentation prédéfini. Un tel format est par exemple le format ambisonique décrit ci-dessus en relation avec la section « Art antérieur et ses inconvénients ». L'opération inverse s'apparente alors à une restitution du champs sonore, e.g. sur un dispositif du type haut-parleur qui convertit des échantillons du champs sonore au format de représentation prédéfini en un champs acoustique physique ; et
la terminologie de compression est quant à elle utilisée pour désigner un traitement visant à réduire la quantité de données nécessaire à représenter une quantité d'information donnée. Il s'agit par exemple d'un traitement du type « codage entropique » (e.g. selon le standard MP3) appliqué aux échantillons du champ sonore encodé. La terminologie de décompression correspond ainsi à l'opération inverse.
On présente désormais en relation avec la [fig. 1] une scène sonore 100 dans laquelle un auditeur 110 se déplace, un champ sonore ayant été diffusé par des sources sonores 100s et ayant été capté par des microphones 100m.
Plus particulièrement, l'auditeur 110 est muni d'un casque équipé de haut-parleurs HOhp permettant la restitution du champ sonore interpolé à la position d'interpolation qu'il occupe. Il s'agit par exemple d'un casque Hi-Fi, ou d'un casque de réalité virtuelle comme l'Oculus, le HTC Vive ou encore le Samsung Gear. Le champ sonore est ici interpolé et restitué par mise en oeuvre du procédé de restitution décrit ci-dessous en relation avec la [fig. 6]
Par ailleurs, le champ sonore capté par les microphones 100m est encodé sous une forme comprenant une pression captée et un gradient de pression associé.
Dans d'autres modes de réalisation non illustrés, le champ sonore capté par les microphones est encodé sous une forme comprenant la pression captée, le vecteur des gradients de pression associé ainsi que tout ou partie des composantes d'ordres supérieurs du champ sonore au format ambisonique.
De retour à la [fig. 1], la perception de la direction d'arrivée du front d'onde du champ sonore est directement corrélée avec un vecteur intensité acoustique /(t) qui mesure le flux instantané d'énergie acoustique à travers une surface élémentaire. Le vecteur intensité en question est égal au produit de la pression acoustique instantanée W(t) par la vélocité particulaire, qui est opposée au vecteur des gradients de pression B(t). Ce vecteur des gradients de pression peut être exprimé en 2D ou 3D selon que l'on désire se déplacer et/ou percevoir les sons en 2D ou 3D. Dans la suite, on se place dans le cas 3D, la dérivation du cas 2D étant immédiate. Dans ce cas le vecteur des gradients s'exprime comme un vecteur de dimension 3 : B(t) = [ (t) 7(t) Z(t)]T. Ainsi, dans le formalisme considéré où le champ sonore est encodé sous une forme comprenant la pression captée et le vecteur des gradients de pression associé (à un coefficient multiplicateur près) :
On montre que ce vecteur est orthogonal au front d'onde et pointe dans la direction de la propagation de l'onde sonore, soit à l'opposé de la position de la source émettrice : en ce sens, il est directement corrélé avec la perception du front d'onde. C'est particulièrement évident si on considère un champ généré par une seule source ponctuelle et lointaine s(t) se propageant dans un milieu anéchoïque. La théorie de l'ambinosie stipule que, pour une telle onde plane d'incidence (q , f), où é?est l'azimut et l'élévation, le champ sonore au premier ordre est donné par l'équation suivante :
Dans ce cas, l'intensité acoustique pleine-bande /(t) est égale (à un coefficient multiplicateur près), à :
On voit donc qu'il pointe à l'opposé de la direction de la source émettrice et la direction d'arrivée ( q , f) du front d'onde peut être estimée par les relations trigonométriques suivantes :
On présente désormais, en relation avec la [fig. 2], un procédé d'interpolation du champ sonore capté par les microphones 100m de la scène 100 selon un mode de réalisation de l'invention.
Un tel procédé comprend une étape E200 de sélection de N microphones parmi les Nt microphones de la scène 100. On notera que dans le mode de réalisation représenté sur la [fig. 1], Nt=4. Cependant, dans d'autres modes de réalisation non illustrés, la scène considérée peut comprendre un nombre Nt différent de microphones.
Plus particulièrement, comme discuté ci-dessous en relation avec les étapes E210 et E210a, le procédé selon l'invention met en oeuvre la résolution de systèmes d'équations (i.e. [Math 4] dans différentes alternatives de contraintes (i.e. hyperplan et/ou positivité des facteurs de pondération) et [Math 5]). En pratique, il s'avère que la résolution des systèmes en question dans le cas où ils sont sous-déterminés (cas qui correspond à la configuration où il y a plus de microphones 100m que d'équations à résoudre) amène à des solutions qui, au cours du temps, peuvent privilégier différents ensembles de microphones. Si la localisation des sources 100s telle que perçue via le champ sonore interpolé reste toujours cohérente, il en résulte cependant des changements de timbres perceptibles à l'oreille. Ces différences sont dues : i) à la coloration de la réverbération qui est différente d'un microphone 100m à un autre ; ii) au filtrage en peigne induit par le mélange de microphones 100m non coïncidents, filtrage qui a des caractéristiques différentes d'un ensemble de microphones à un autre.
Pour éviter de tels changements de timbres, on sélectionne N microphones 100m en se ramenant à un mélange déterminé, voire sur-déterminé. Par exemple, dans le cas d'une interpolation en 3D, on pourra sélectionner jusqu'à trois microphones parmi les Nt microphones 100m.
Dans une variante, on sélectionne les N microphones 110m les plus proches de la position à interpoler. Cette solution est à privilégier lorsqu'un grand nombre Nt de microphones 110m est présent dans la scène. Cependant, dans certains cas, le choix des N microphones 110m les plus proches peut s'avérer « déséquilibré » en regard de la position d'interpolation par rapport à la source 100s et amener à une inversion complète de la direction d'arrivée : c'est notamment le cas lorsque la source 100s est placée entre les microphones 100m et la position d'interpolation.
Pour éviter cette situation, dans une autre variante les N microphones sont choisis de manière répartie autour de la position d'interpolation. Par exemple, on sélectionne les deux microphones d'indices ii et les plus proches de la position d'interpolation parmi les Nt microphones 100m, puis on cherche parmi les microphones restants celui qui maximise « l'enveloppement » de la position d'interpolation. Pour réaliser ceci, l'étape E200 comprend par exemple :
une sélection de deux microphones d'indices ii et les plus proches de la position d'interpolation parmi les Nt microphones 110m ;
un calcul d'un vecteur médian Uu(t) ayant pour origine la position d'interpolation et pointant entre les positions des deux microphones d'indices ii et ; et
une détermination d'un troisième microphone d'indices différent des deux microphones d'indices ii et /2 parmi les Nt microphones 110m et dont la position est la plus à l'opposé du vecteur médian Uu(t).
Par exemple, le vecteur médian Uu(t) s'exprime comme :
avec :
a(t) = (xa(t) y a{t) za(t))T un vecteur représentatif de la position d'interpolation (i.e. la position de l'auditeur 110 dans le mode de réalisation représenté sur la [fig. 1]) ;
Xi (t) = (Xi1 vecteur représentatif de la position du microphone d'indice ii ; et
Xi2(t) = zÎ2 (i))T un vecteur représentatif de la position du microphone d'indice /2,
les vecteurs en question étant exprimés dans un repère donné.
Dans ce cas, l'indice dudit troisième microphone est par exemple un indice différent de ii et qui minimise le produit scalaire parmi les Nt indices de microphones
100m. En effet, le produit scalaire en question varie entre -1 et +1, et il est minimal lorsque les vecteurs Uu(t) et sont opposés, c'est-à-dire lorsque les 3 microphones sélectionnés parmi les Nt microphones 110m entourent la position d'interpolation.
Dans d'autres modes de réalisation non illustrés sur la [fig. 2], l'étape E200 de sélection n'est pas mise en oeuvre et les étapes E210 et E210a décrites ci-dessous sont mises en oeuvre sur la base des champs sonores encodés par l'ensemble des Nt microphones 100m. En d'autres termes, N=Nt pour la mise en oeuvre des étapes E210 et E210a dans les autres modes de réalisation en question.
De retour à la [fig. 2], le procédé comprend une étape E210 d'interpolation du champ sonore en une position d'interpolation, délivrant un champ sonore encodé interpolé s'exprimant comme une combinaison linéaire des N champs sonores encodés par les N microphones 100m sélectionnés, les N champs sonores encodés étant pondérés chacun par un facteur de pondération correspondant.
Ainsi, dans le mode de réalisation discuté ci-dessus en relation avec la [fig. 1], dans lequel le champ sonore capté par les N microphones 100m sélectionnés est encodé sous une forme comprenant une pression captée et le vecteur des gradients de pression associé, on peut écrire la combinaison linéaire des N champs sonores encodés sous la forme :
[Math 1] avec :
(Wi(t) Xi(t ) Yi(t ) ((i))T le vecteur colonne du champ au format encodé délivré par le microphone d'indice /, / un entier de 1 à N ;
( a t) a(t) Ya t ) Za{t))T le vecteur colonne du champ au format encodé au niveau de la position d'interpolation (e.g. la position de l'auditeur 110 dans le mode de réalisation illustré sur la [fig. 1]) ; et
W((ί) le facteur de pondération pondérant le champ au format encodé délivré par le microphone d'indice / dans la combinaison linéaire donnée par [Math 1]
Dans d'autres modes de réalisation non illustrés sur la [fig. 1] où le champ sonore capté par les microphones est encodé sous une forme comprenant la pression captée, le vecteur des gradients de pression associé ainsi que tout ou partie des composantes d'ordres supérieurs du champ sonore décomposé au format ambisonique, la combinaison linéaire donnée par [Math 1] se réécrit de manière plus générale comme :
où les pointillés désignent les composantes d'ordres supérieurs du champ sonore décomposé au format ambisonique.
Quel que soit le mode de réalisation considéré pour l'encodage du champ sonore, le procédé d'interpolation selon l'invention s'applique de la même manière afin d'estimer les facteurs de pondération a*(t).
Pour ce faire, le procédé de la [fig. 2] comprend une étape E210a d'estimation des N facteurs de pondération a^t de manière à avoir les gradients de pression estimés à la position d'interpolation, représentés par le vecteur Ba = (¾(t) ¾t) Z^(t))T, qui soient cohérents relativement à la position des sources 100s présentes dans la scène sonore 100.
Plus particulièrement, dans le mode de réalisation de la [fig. 2], on suppose qu'une seule des sources 100s est active en même temps. En effet, dans ce cas et tant que la réverbération est suffisamment contenue, le champ capté en tout point de la scène 100 peut être assimilé à une onde plane. De la sorte, les composantes d'ordre un (i.e. les gradients de pression) sont inversement proportionnelles à la distance entre la source 100s active et le point de mesure, e.g. le microphone 100m d'indice /, et pointe depuis la source 100s active vers le microphone 100m d'indice / en question. On peut ainsi écrire que le vecteur du gradient de pression capté par le microphone 100m d'indice / vérifie :
[Math 2]
avec :
((t) = ( j(t) y;(t) zi(t) T un vecteur représentatif de la position du microphone 100m d'indice / ;
xs(t) = (xs(t) ys(t) zs(t))T un vecteur représentatif de la position de la source 100s active ; et
d(xi(t), xs(t)) est la distance entre le microphone 100m d'indice / et la source 100s active.
L'équation [Math 2] traduit ici simplement que pour une onde plane :
La composante du premier ordre (i.e. le vecteur des gradients de pression) du champ sonore encodé est orienté dans la direction « source-point de captation » ; et
L'amplitude du champ sonore décroit linéairement avec la distance.
La distance d( i(t), s(t)) est a priori inconnue, mais on peut observer que, dans l'hypothèse d'une onde plane unique, la pression acoustique instantanée W t au niveau du microphone 100m d'indice / est, elle-aussi, inversement proportionnelle à cette distance. Ainsi :
1
Wt ( %—? - 7
d(xit), xs(t))
En substituant cette relation dans [Math 2], on obtient la relation de proportionnalité suivante :
En remplaçant la relation cette dernière relation dans [Math 1], on obtient l'équation suivante :
avec xa(t ) = (xa(t) y t) za(t))T un vecteur représentatif de la position d'interpolation dans le repère précité. En réorganisant, on obtient :
[Math 3]
En général, les différentes positions précitées (e.g. de la source 100s active, des microphones 100m, de la position d'interpolation, etc.) varient dans le temps. Ainsi les facteurs de pondération a^t) sont de manière générale fonction du temps. Estimer les facteurs de pondération a^Çt) revient à résoudre un système de trois équations linéaires (écrites ci-dessus sous forme d'une seule équation vectorielle dans [Math 3]). Pour que l'interpolation reste cohérente au cours du temps avec la position d'interpolation qui peut varier dans le temps (e.g. si la position en question correspond à la position de l'auditeur 110 qui est amené à se déplacer), elle est réalisée à différents instants avec une résolution temporelle Ta adaptée à la vitesse de changement de la position d'interpolation. En pratique, une fréquence de rafraîchissement fa = est largement inférieure à la fréquence d'échantillonnage fs des signaux acoustiques. Par exemple, une mise-à-jour des coefficients d'interpolation a^t toutes les Ta = 100ms est tout à fait suffisante.
Dans [Math 3], le carré de la pression sonore au niveau de la position d'interpolation, Wa (t\ également appelée puissance acoustique instantanée (ou plus simplement puissance instantanée), est une inconnue, ainsi que le vecteur représentatif de la position xs(t) de la source 100s active.
Afin de pouvoir estimer les facteurs de pondération at(t) sur la base d'une résolution de [Math 3], une estimation M 2(t) de la puissance acoustique au niveau de la position d'interpolation est par exemple obtenue.
Une première approche consiste à approcher la puissance acoustique instantanée par celle captée par le microphone 100m le plus proche de la position d'interpolation en question, i.e. :
M 2(t) = W£(t), o\i k = arg min (d(xi(t), a(t)))).
En pratique, la puissance acoustique instantanée Wj* (t) peut varier rapidement au cours du temps, ce qui peut amener à une estimation bruitée des facteurs de pondération a^Çt) et à une instabilité de la scène interpolée. Ainsi, dans des variantes on calcule la puissance moyenne ou efficace captée par le microphone 100m le plus proche de la position d'interpolation sur une fenêtre temporelle autour de l'instant considéré, en moyennant la puissance instantanée sur une trame de T échantillons :
où T correspond à une durée de quelques dizaines de millisecondes, ou encore être égale à la résolution temporelle du rafraîchissement des facteurs de pondération a^t .
Dans d'autres variantes, on peut estimer la puissance efficace par lissage autorégressif de la forme :
où le facteur d'oubli aw est déterminé de telle manière à intégrer la puissance sur quelques dizaines de millisecondes. En pratique, des valeurs de 0.95 à 0.98 pour des fréquences d'échantillonnage du signal allant de 8kHz à 48kHz réalise un bon compromis entre la robustesse de l'interpolation et sa réactivité aux changements de position de la source.
Dans une deuxième approche, la puissance acoustique instantanée V a 2(t) au niveau de la position d'interpolation est estimée comme un barycentre des N estimations Wt 2(t) des N puissances instantanées l/ 2(t) des N pressions captées par les N microphones 100m sélectionnés. Une telle approche s'avère plus pertinente lorsque les microphones 100m sont espacés les uns des autres. Par exemple, on détermine les coefficients barycentriques en fonction de la distance — xa(f \\pt où p est un réel positif et est la norme L-p, entre la position d'interpolation et le microphone 110m d'indice / parmi les N microphones 100m. Ainsi, selon cette deuxième approche :
est la version normalisée de a( 11r telle que åi d(xi(t), xa(t))
1. Ainsi, un coefficient pondérant l'estimation Wt 2(f) de la puissance instantanée W2 t) de la pression captée par le microphone 110m d'indice /, dans l'expression barycentrique ci-dessus est inversement proportionnel à une version normalisée de la distance, au sens de la norme L-p, entre la position du microphone d'indice / délivrant la pression W^t et la position d'interpolation.
Dans des alternatives, la puissance acoustique instantanée M 2(t) au niveau de la position d'interpolation est estimée directement comme un barycentre des N puissances instantanées W2 t) des N pressions captées par les N microphones 100m. En pratique, cela revient à substituer W2 t) à W2(t) dans l'équation ci-dessus.
Par ailleurs, différents choix de la norme p peuvent être envisagés. Par exemple une valeur faible de p tend à moyenner la puissance sur toute la zone délimitée par les microphones 100m, tandis qu'une valeur élevée tend à privilégier le microphone 100m le plus proche de la position d'interpolation, le cas p = ¥ revenant à l'estimation par celle du microphone 100m le plus proche. Par exemple, lorsque p est choisi égal à deux, la loi de décroissance de la pression du champ sonore est respectée, conduisant à de bons résultats quelle que soit la configuration de la scène. Par ailleurs, l'estimation des facteurs de pondération a^t) sur la base d'une résolution de [Math 3] nécessite d'adresser la problématique de la non connaissance du vecteur représentatif de la position s(t) de la source 100s active.
Dans une première variante, on estime les facteurs de pondération a^Çt) en négligeant le terme contenant la position de la source que l'on ne connaît pas, i.e. le membre de droite dans [Math 3] Par ailleurs, à partir de l'estimation de la puissance M/a 2(t) et de l'estimation Wt 2(t) de la puissance instantanée W2(t) captée par les microphones 100m, une telle négligence du membre de droite de [Math 3] revient à résoudre le système de trois équations linéaires suivant, écrit ici sous forme vectorielle :
[Math 4]
Ainsi, il apparaît que les facteurs de pondération a^t) sont estimés à partir :
de la position d'interpolation, représentée par le vecteur a(t) ;
de la position de chacun des N microphones 100m , représentée par le vecteur ;(t) correspondant, / de 1 à N, dans le repère précité;
des N pressions W^t , / de 1 à N, captées par les N microphones ; et
de la puissance estimée M/a 2(t) du champ sonore à la position d'interpolation,
M7( 2(t) étant effectivement estimée à partir des grandeurs en question comme décrit ci-dessus.
Par exemple, [Math 4] est résolue au sens de la minimisation de l'erreur quadratique
2 moyenne, e.g. par minimisation de la fonction de coût
En pratique, la méthode de résolution (e.g. l'algorithme du Simplexe) est choisie en fonction du caractère surdéterminé (plus d'équations que de microphones) ou sous-déterminé (plus de microphones que d'équations).
Dans une deuxième variante, on estime les facteurs de pondération a^t non plus en négligeant le terme contenant la position de la source que l'on ne connaît pas, i.e. le membre de droite de [Math 3], mais en contraignant la recherche des coefficients a^t autour de l'hyperplan W((ί)I/^2(ί) = Wa (t). En effet, dans le cas où l'estimation l/ a 2(t) est une estimation fiable de la puissance réelle M 2(t)< imposer que les coefficients a^Çt) respectent « au mieux » la relation W((ί)M^2(ί) = W2 t) implique que le membre de droite dans [Math 3] est faible, et par suite toute solution qui résout le système d'équations [Math 4] reconstruit correctement les gradients de pression. Ainsi, dans cette deuxième variante, les facteurs de pondération a^t) sont estimés par résolution du système [Math 4] sous la contrainte que å; W((ί)M^2(ί) = l/ a 2(t). Dans le système en question, Wt 2(t) et l/ a 2(t) sont par exemple estimés selon une des variantes proposées ci- dessus. En pratique, la résolution d'un tel système linéaire sous contrainte linéaire peut être réalisée par l'algorithme du Simplexe ou tout autre algorithme de minimisation sous contrainte.
Pour accélérer la recherche, on peut ajouter une contrainte de positivité des facteurs de pondération a^t). Dans ce cas, les facteurs de pondération a^t sont estimés par résolution du système [Math 4] sous la double contrainte que åi a-ii W2 (t) = l/ a 2(t), et que Vf, a^t) > 0. Par ailleurs, la contrainte de positivité des facteurs de pondération a t permet d'éviter les inversions de phases, conduisant par là-même à des résultats d'estimation améliorés.
Alternativement, afin de réduire le temps de calcul, une autre implémentation consiste à intégrer directement la contrainte de l'hyperplan (t) dans le système [Math 4], ce qui revient au final à la résolution du système linéaire :
[Math 5]
Ici, le coefficient a permet d'homogénéiser les unités des grandeurs l/ a 2(t) a(t) et
Wa (t). En effet, les grandeurs en question ne sont pas homogènes et, en fonction de l'unité choisie pour les coordonnées de position (mètre, centimètre, ...), les solutions vont privilégier soit
Wa (t). Afin de rendre ces grandeurs homogènes, le coefficient a est par exemple choisi égal à la norme L-2 du vecteur
pratique, il peut être intéressant de contraindre plus fortement les coefficients d'interpolation à respecter la contrainte de l'hyperplan åi ai(t W2 (t) = Wa t) . Ce peut être obtenu en pondérant le coefficient a par un facteur d'amplification l > 1. Les résultats montrent qu'un facteur d'amplification A de 2 à 10 rend plus robuste la prédiction des gradients de pression.
On note ainsi que dans cette deuxième variante également, les facteurs de pondération W((ί) sont estimés à partir :
de la position d'interpolation, représentée par le vecteur a(t) ;
de la position de chacun des N microphones 100m , représentées chacune par le vecteur ((t) correspondant, / de 1 à N; des N pressions M^(ί), i de 1 à N, captées par les N microphones ; et
de la puissance estimée l/ a 2(t) du champ sonore à la position d'interpolation,
Wt 2(f) étant effectivement estimée à partir des grandeurs en question comme décrit ci-dessus.
On présente désormais, en relation avec les [fig. 3a], [fig. 3b] et [fig. 3c] les performances du procédé de la [fig. 2] appliqué à une scène 300 comprenant quatre microphones 300m et une source 300s disposée dans une configuration symétrique par rapport à la scène 300 et aux quatre microphones 300m.
Plus particulièrement, les quatre microphones 300m sont disposés aux quatre coins d'une pièce et la source 300s est disposée au centre de la pièce. La pièce présente une réverbération moyenne, avec un temps de réverbération ou Teo d'environ 500ms. Le champ sonore capté par les microphones 300m est encodé sous une forme comprenant une pression captée et le vecteur de gradients de pression associé.
Les résultats obtenus par application du procédé de la [fig. 2] sont comparés avec ceux obtenus par application de la méthode du barycentre proposée dans l'article de conférence de A. Southern, J. Wells et D. Murphy précité et qui présente un coût de calcul d'un même ordre de grandeur. Le calcul des coefficients a^Çt) est adapté en fonction de la distance de la position d'interpolation à la position du microphone 300m d'indice / correspondant :
Les simulations montrent que cette formule heuristique donne de meilleurs résultats que la méthode avec des poids fixes proposée dans la littérature.
Pour mesurer la performance de l'interpolation du champ, on utilise le vecteur intensité /(t) qui doit en théorie pointer dans la direction opposée à la source 300s active. Sur les [fig. 3b] et [fig. 3c] sont respectivement tracés les vecteurs intensité normés fa)/P( || réels et estimés par la méthode de l'état de l'art et par le procédé de la [fig. 2] Dans la configuration symétrique de la scène 300, on note un biais plus faible du procédé de la [fig. 2] par rapport à la méthode de l'état de l'art, notamment à la frontière entre deux microphones 300m et en dehors de la zone délimitée par les microphones 300m.
On présente désormais, en relation avec les [fig. 4a], [fig. 4b] et [fig. 4c] les performances du procédé de la [fig. 2] appliqué à une scène 400 comprenant quatre microphones 400m et une source 400s disposée dans une configuration non symétrique par rapport à la scène 400 et aux quatre microphones 400m. Plus particulièrement, par rapport à la configuration de la scène 300 de la [fig. 3a], les quatre microphones 400m restent ici disposés aux quatre coins d'une pièce alors que la source 400s est maintenant décentrée par rapport au centre de la pièce.
Sur les [fig. 4b] et [fig. 4c] sont respectivement tracés les vecteurs intensité normés
?(t)/ (t)|| réels et estimés par la méthode de l'état de l'art et par le procédé de la [fig. 2] pour la configuration de la scène 400. On constate la robustesse de la méthode proposée : le champ sonore interpolé par le procédé de la [fig. 2] est cohérent sur tout l'espace, y compris en dehors de la zone délimitée par les microphones 400m (proches des murs). Au contraire, le champ interpolé par la méthode de l'état de l'art est incohérent sur quasiment la moitié de l'espace de la scène 400 si l'on se réfère à la divergence entre l'intensité acoustique réelle et estimée représentées sur la [fig. 4b].
On présente désormais, en relation avec la [fig. 5], un autre mode de réalisation du procédé d'interpolation du champ sonore capté par les microphones 100m de la scène 100.
Selon le mode de réalisation de la [fig. 5], le procédé comprend l'étape E200 de sélection de N microphones parmi les Nt microphones de la scène 100 décrite ci-dessus en relation avec la [fig. 2].
Cependant, dans d'autres modes de réalisation non illustrés sur la [fig. 5], l'étape E200 de sélection n'est pas mise en oeuvre et les étapes E500, E210 et E510 discutées ci-dessous, sont mises en oeuvre sur la base des champs sonores encodés par l'ensemble des Nt microphones 100m. En d'autres termes, N=Nt dans ces autres modes de réalisation.
De retour à la [fig. 5], le mode de réalisation en question se trouve être adapté au cas où plusieurs sources parmi les sources 100s sont actives simultanément. Dans ce cas, l'hypothèse d'un champ pleine bande ressemblant à une onde plane n'est plus valide. En effet, même en milieu anéchoïque, le mélange de deux ondes planes n'est pas une onde plane - sauf dans le cas bien particulier d'une même source émettant depuis 2 points de l'espace équidistants du point de captation. En pratique, la procédure de reconstruction du champ « plein bande » s'adapte à la source prépondérante dans la trame utilisée pour le calcul des puissances efficaces. Ceci produit des variations rapides de directivité, et parfois des incohérences de localisation des sources : lorsqu'une source est plus énergétique qu'une autre, les deux sources en question sont estimées comme étant localisées à la position de la source la plus énergétique.
Pour éviter ceci, le mode de réalisation de la [fig. 5] exploite la parcimonie des signaux dans le domaine fréquentiel. Pour des signaux de parole par exemple, il est prouvé statistiquement que les supports fréquentiels de plusieurs signaux de parole sont globalement disjoints : c'est à dire que la majorité du temps, une seule source est présente dans chaque bande de fréquence. Le mode de réalisation de la [fig. 2] (selon l'une quelconque des variantes précitées) peut ainsi s'appliquer au signal présent dans chaque bande de fréquences.
Ainsi, lors d'une étape E500, pour un champ sonore encodé donné parmi les N champs sonores encodés délivrés par les N microphones 100m sélectionnés, une transformation du champ sonore encodé donné est effectuée par application d'une transformation temps-fréquence comme la transformée de Fourier ou d'un banc de filtres à reconstruction parfaite ou presque parfaite, comme les filtres miroirs en quadrature ou QMF. Une telle transformation délivre M composantes fréquentielles de champ associées au champ sonore encodé donné, chaque composante fréquentielle de champ parmi les M composantes fréquentielles de champ étant localisée dans une sous-bande fréquentielle distincte.
Par exemple, le vecteur de champs encodé, yί, délivré par le microphone d'indice /, / de 1 à N, est segmenté en trames d'indice n, de taille T compatible avec la stationnarité des sources présentes dans la scène :
Yί (h) = [yί (ίh - T + 1) xl i(tn - T + 2) ··· >i(tn)]·
Le rythme trame correspond par exemple au rythme de réactualisation Ta des facteurs de pondération a*(t), i.e. :
où 7s = 1 /fs est la fréquence d'échantillonnage des signaux et £[.] désigne la partie entière.
La transformation est ainsi appliquée à chaque composante du vecteur yί représentant le champ sonore encodé par le microphone 100m d'indice / (i.e. est appliquée à la pression captée, aux composantes du vecteur des gradients de pression, ainsi qu'aux composantes d'ordre supérieur présentes dans le champ sonore encodé le cas échant), pour produire une représentation temps-fréquence. Par exemple, la transformation en question est une transformation de Fourier directe. De sorte, on obtient pour la /-è me composante i n du vecteur Yί
où j = V— 1, et w la pulsation normalisée.
En pratique, on peut choisir T comme une puissance de deux (e.g. immédiatement supérieure à Ta) et choisir w = 2nk/T , 0 < k < T de sorte à implémenter la transformation de Fourier sous forme d'une transformée de Fourier rapide Dans ce cas, le nombre de composantes fréquentielles M est égal à la taille de la trame d'analyse T. Lorsque T > Ta, on peut également appliquer la technique du zero-padding afin d'appliquer la transformation de Fourier rapide. Ainsi, pour une sous-bande fréquentielle w (ou k dans le cas d'une transformée de Fourier rapide) considérée, le vecteur constitué de l'ensemble des composantes i/;ί ;(h, w), (ou Yu(h, k)) pour les différents /, représente la composante fréquentielle du champ yί dans la sous-bande fréquentielle w (ou k) considérée.
Par ailleurs, dans d'autres variantes, la transformation appliquée à l'étape E500 n'est pas une transformée de Fourier, mais un banc de filtres à reconstruction (presque) parfaite, par exemple un banc de filtres :
QMF (de l'anglais « Quadrature Mirror Filter ») ;
PQMF (de l'anglais « Pseudo - Quadrature Mirror Filter ») ; ou
MDCT (de l'anglais « Modified Discrète Cosine Transform »).
De retour à la [fig. 5], la transformation mise en oeuvre lors de l'étape E500 est répétée pour les N champs sonores encodés par les N microphones 100m sélectionnés, délivrant N jeux correspondants de M composantes fréquentielles de champ.
De la sorte, les étapes E210 et E210a décrites ci-dessus en relation avec la [fig. 2] (selon l'une quelconque des variantes précitées) sont mises en oeuvre pour chaque sous-bande fréquentielle parmi les M sous-bandes fréquentielles. Plus particulièrement, pour une sous-bande fréquentielle donnée parmi les M sous-bandes fréquentielles, l'interpolation délivre une composante fréquentielle de champ interpolée en la position d'interpolation et localisée dans la sous-bande fréquentielle donnée. La composante fréquentielle de champ interpolée s'exprime comme une combinaison linéaire des N composantes fréquentielles de champ, parmi les N jeux, localisées dans la sous-bande fréquentielle donnée. En d'autres termes, la résolution des systèmes d'équations permettant de déterminer les facteurs de pondération (i.e. [Math 4] dans les alternatives de contraintes précitées (i.e. hyperplan et/ou positivité des facteurs de pondération) et [Math 5]) est effectuée dans chacune des sous-bande fréquentielles pour produire un ensemble de facteurs de pondération par sous-bande fréquentielle a^h, w (ou W((h, k)).
Par exemple, afin de mettre en oeuvre la résolution des systèmes [Math 4] ou [Math 5], la puissance efficace dans chaque sous-bande fréquentielle est estimée soit par moyenne glissante :
soit par filtrage autorégressif : Ainsi, l'interpolation répétée pour les M sous-bandes fréquentielles délivre M composantes fréquentielles de champ interpolées en la position d'interpolation, chaque composante fréquentielle de champ interpolée parmi les M composantes fréquentielles de champ interpolées étant localisée dans une sous-bande fréquentielle distincte.
Ainsi, lors d'une étape E510, une transformation inverse à la transformation appliquée lors de l'étape E500 est appliquée aux M composantes fréquentielles de champ interpolées délivrant le champ sonore encodé interpolé en la position d'interpolation.
Par exemple, reconsidérant l'exemple donné ci-dessus où la transformation appliquée lors de l'étape E500 est une transformée de Fourier directe, la transformation inverse appliquée lors de l'étape E510 est une transformée de Fourier inverse.
On présente désormais, en relation avec la [fig. 6], un procédé de restitution du champ sonore capté par les microphones 100m de la [fig. 1] à l'auditeur 110 selon un mode de réalisation de l'invention.
Plus particulièrement, lors d'une étape E600, le champ sonore est capté par les microphones 110m, chaque microphone parmi les microphones 110m délivrant un champ sonore capté correspondant.
Lors d'une étape E610, chacun des champs sonores captés est encodé sous une forme comprenant la pression captée et un vecteur de gradients de pression associé.
Dans d'autres modes de réalisation non illustrés, le champ sonore capté par les microphones 110m est encodé sous une forme comprenant la pression captée, un vecteur de gradients de pression associé ainsi que tout ou partie des composantes d'ordres supérieurs du champ sonore décomposé au format ambisonique.
De retour à la [fig. 6], le procédé de restitution comprend une phase d'interpolation E620 correspondant à la mise en oeuvre du procédé d'interpolation selon l'invention (selon l'un quelconque des modes de réalisation et/ou variantes décrit(e)s ci-dessus en relation avec les [fig. 2] et [fig. 5]) délivrant le champ sonore encodé interpolé en la position d'interpolation, e.g. la position de l'auditeur 110.
Lors d'une étape E630, le champ sonore encodé interpolé est compressé, e.g. par mise en oeuvre d'un codage entropique. Un champ sonore encodé interpolé compressé est ainsi délivré. Par exemple, l'étape E630 de compression est mise en oeuvre par le dispositif 700 (décrit ci- dessous en relation avec la figure 7) qui se trouve déporté du dispositif de restitution llOhp.
Ainsi, lors d'une étape E640, le champ sonore encodé interpolé compressé délivré par le dispositif 700 est transmis au dispositif de restitution llOhp. Dans d'autres modes de réalisation, le champ sonore encodé interpolé compressé est transmis à un autre dispositif disposant d'une capacité de calcul permettant de décompresser un contenu compressé, e.g. un smartphone, un ordinateur, ou tout autre terminal connecté disposant d'une capacité de calcul suffisante, en vue d'une transmission ultérieure.
De retour à la [fig. 6], lors d'une étape E650, le champ sonore encodé interpolé compressé reçu par le dispositif de restitution llOhp est décompressé afin de délivrer les échantillons du champ sonore encodé interpolé au format de codage utilisé (i.e. au format comprenant au moins la pression captée par le microphone 110m correspondant, les composantes du vecteur gradient de pression, ainsi que les composantes d'ordre supérieur présentes dans le champ sonore encodé le cas échant).
Lors d'une étape E660, le champ sonore encodé interpolé est restitué sur le dispositif de restitution llOhp.
Ainsi, lorsque la position d'interpolation correspond à la position physique de l'auditeur 110, ce dernier a l'impression que le champ sonore qui lui est restitué est cohérent avec les sources sonores 100s (i.e. que le champ qui lui est restitué arrive effectivement en direction des sources sonores 100s).
Dans certains modes de réalisation non illustrés sur la [fig. 6], les étapes E630 de compression et E650 de décompression ne sont pas mises en oeuvre. Dans ces modes de réalisation, ce sont les échantillons bruts du champ sonore encodé interpolé qui sont transmis au dispositif de restitution llOhp.
Dans d'autres modes de réalisation non illustrés sur la [fig. 6], le dispositif 700 mettant en oeuvre au moins la phase d'interpolation E620 est embarqué dans le dispositif de restitution llOhp. Dans ce cas, ce sont les échantillons du champ sonore encodé (une fois compressés ou non selon les variantes) qui sont transmis au dispositif de restitution llOhp lors de l'étape E640, et non pas les échantillons du champ sonore encodé interpolé (une fois compressés ou non selon les variantes). En d'autres termes, dans ces modes de réalisation, l'étape E640 est mise en oeuvre juste après les étapes E600 et E610 de captation et d'encodage.
On présente désormais, en relation avec la [fig. 7], un exemple de structure de dispositif 700 d'interpolation selon un mode de réalisation de l'invention.
Le dispositif 700 comprend une mémoire vive 703 (par exemple une mémoire RAM), une unité de traitement 702 équipée par exemple d'un processeur, et pilotée par un programme d'ordinateur stocké dans une mémoire morte 701 (par exemple une mémoire ROM ou un disque dur). A l'initialisation, les instructions de code du programme d'ordinateur sont par exemple chargées dans la mémoire vive 703 avant d'être exécutées par le processeur de l'unité de traitement 702.
Cette [fig. 7] illustre seulement une manière particulière, parmi plusieurs possibles, de réaliser le dispositif 700 afin qu'il effectue certaines étapes du procédé d'interpolation selon l'invention (selon l'un quelconque des modes de réalisation et/ou variantes décrit(e)s ci-dessus en relation avec les [fig. 2] et [fig. 5]). En effet, ces étapes peuvent être réalisées indifféremment sur une machine de calcul reprogrammable (un ordinateur PC, un processeur DSP ou un microcontrôleur) exécutant un programme comprenant une séquence d'instructions, ou sur une machine de calcul dédiée (par exemple un ensemble de portes logiques comme un FPGA ou un ASIC, ou tout autre module matériel).
Dans le cas où le dispositif 700 est réalisé avec une machine de calcul reprogrammable, le programme correspondant (c'est-à-dire la séquence d'instructions) pourra être stocké dans un médium de stockage amovible (tel que par exemple une disquette, un CD-ROM ou un DVD-ROM) ou non, ce médium de stockage étant lisible partiellement ou totalement par un ordinateur ou un processeur.
Par ailleurs, dans certains modes de réalisation discutés ci-dessus en relation avec la [fig. 6], le dispositif 700 est également configuré pour mettre en oeuvre tout ou partie des étapes supplémentaires du procédé de restitution de la [fig. 6] (e.g. les étapes E600, E610, E630, E640, E650 ou E660).
Ainsi, dans certains modes de réalisation, le dispositif 700 est inclus dans le dispositif de restitution llOhp.
Dans d'autres modes de réalisation, le dispositif 700 est inclus dans un des microphones 110m ou bien est dupliqué dans plusieurs des microphones 110m.
Dans encore d'autres modes de réalisation, le dispositif 700 est inclus dans un équipement déporté à la fois des microphones 110m ainsi que du dispositif de restitution llOhp. Par exemple, l'équipement déporté est un décodeur MPEG-H 3D, un serveur de contenus, un ordinateur, etc.

Claims

REVENDICATIONS
1. Procédé d'interpolation d'un champ sonore capté par une pluralité de N microphones délivrant chacun ledit champ sonore encodé sous une forme comprenant au moins une pression captée et un vecteur de gradients de pression associé,
ledit procédé comprenant une interpolation dudit champ sonore en une position d'interpolation délivrant un champ sonore encodé interpolé s'exprimant comme une combinaison linéaire desdits N champs sonores encodés pondérés chacun par un facteur de pondération correspondant,
caractérisé en ce que ladite interpolation comprend une estimation desdits N facteurs de pondération à partir au moins :
- de ladite position d'interpolation ;
- d'une position de chacun desdits N microphones ;
- desdites N pressions captées par lesdits N microphones ; et
- d'une puissance estimée dudit champ sonore à ladite position d'interpolation.
2. Procédé selon la revendication 1 dans lequel ladite estimation met en oeuvre une résolution
- ;(t) un vecteur représentatif de ladite position du microphone d'indice / parmi lesdits N microphones ;
- a(t) un vecteur représentatif de ladite position d'interpolation ;
- Wa (t) ladite estimation de la puissance dudit champ sonore à ladite position d'interpolation ; et
- l^2 (t) une estimation de la puissance instantanée W? (t) de ladite pression captée par ledit microphone d'indice /.
3. Procédé selon la revendication 2 dans lequel ladite résolution est effectuée sous la contrainte que
4. Procédé selon la revendication 3 dans lequel ladite résolution est en outre effectuée sous la contrainte que les N facteurs de pondération a^t) sont tous positifs ou nuis.
5. Procédé selon la revendication 2 dans lequel ladite estimation met également en oeuvre une résolution de l'équation W((ί)M^2(ί) = aWa (t), avec <7un facteur d'homogénéisation.
6. Procédé selon l'une quelconque des revendications 2 à 5 dans lequel ladite estimation comprend :
- un moyennage temporel de ladite puissance instantanée W (t) sur une durée temporelle prédéterminée délivrant ladite estimation Wt 2(t) ; ou
- un filtrage autorégressif d'échantillons temporels de ladite puissance instantanée W2(t), délivrant ladite estimation M^2(t).
7. Procédé selon l'une quelconque des revendications 2 à 6 dans lequel ladite estimation l/ a 2(t) de la puissance dudit champ sonore à ladite position d'interpolation est estimée à partir de ladite puissance sonore instantanée W2 t) captée par celui desdits N microphones le plus proche de ladite position d'interpolation ou à partir de ladite estimation W2 t de ladite puissance sonore instantanée W2 t) captée par celui desdits N microphones le plus proche de ladite position d'interpolation.
8. Procédé selon l'une quelconque des revendications 2 à 6 dans lequel ladite estimation l/ a 2(t) de la puissance dudit champ sonore à ladite position d'interpolation est estimée à partir d'un barycentre desdites N puissances sonores instantanées W2 t) captées par lesdits N microphones, respectivement à partir d'un barycentre desdites N estimations W2 t desdites N puissances sonores instantanées W2 t) captées par lesdits N microphones,
un coefficient pondérant la puissance sonore instantanée l/ 2(t), respectivement pondérant l'estimation W2 t de la puissance sonore instantanée W2 t) captée par ledit microphone d'indice /, dans ledit barycentre étant inversement proportionnel à une version normalisée de la distance entre la position dudit microphone d'indice / délivrant ladite pression W^t et ladite position d'interpolation,
ladite distance étant exprimée au sens d'une norme L-p.
9. Procédé selon l'une quelconque des revendications 1 à 8 comprenant en outre, préalablement à ladite interpolation, une sélection desdits N microphones parmi Nt microphones, Nt>N.
10. Procédé selon la revendication 9 dans lequel les N microphones sélectionnés sont les plus proches de ladite position d'interpolation parmi lesdits Nt microphones.
11. Procédé selon la revendication 9 dans lequel N=3, ladite sélection comprenant : - une sélection de deux microphones d'indices ii et 12 les plus proches de ladite position d'interpolation parmi lesdits Nt microphones ;
- un calcul d'un vecteur médian Uu(t) ayant pour origine ladite position d'interpolation et pointant entre les positions des deux microphones d'indices ii et 12 ; et
- une détermination d'un troisième microphone d'indices 13 différent desdits deux microphones d'indices ii et 12 parmi les Nt microphones et dont la position est la plus à l'opposé du vecteur médian Uu(t).
12. Procédé selon l'une quelconque des revendications 1 à 11 comprenant en outre, pour un champ sonore encodé donné parmi lesdits N champs sonores encodés délivrés par lesdits N microphones, une transformation dudit champ sonore encodé donné par application d'un banc de filtres à reconstruction parfaite délivrant M composantes fréquentielles de champ associées audit champ sonore encodé donné, chaque composante fréquentielle de champ parmi lesdites M composantes fréquentielles de champ étant localisée dans une sous-bande fréquentielle distincte,
ladite transformation répétée pour lesdits N champs sonores encodés délivrant N jeux correspondants de M composantes fréquentielles de champ,
dans lequel, pour une sous-bande fréquentielle donnée parmi lesdites M sous-bandes fréquentielles, ladite interpolation délivre une composante fréquentielle de champ interpolée en ladite position d'interpolation et localisée dans ladite sous-bande fréquentielle donnée, ladite composante fréquentielle de champ interpolée s'exprimant comme une combinaison linéaire desdites N composantes fréquentielles de champ, parmi lesdits N jeux, localisées dans ladite sous-bande fréquentielle donnée,
ladite interpolation répétée pour lesdites M sous-bandes fréquentielles délivrant M composantes fréquentielles de champ interpolées en ladite position d'interpolation, chaque composante fréquentielle de champ interpolée parmi lesdites M composantes fréquentielles de champ interpolées étant localisée dans une sous-bande fréquentielle distincte.
13. Procédé selon la revendication 12 comprenant en outre une transformation inverse à ladite transformation, ladite transformation inverse appliquée auxdites M composantes fréquentielles de champ interpolées délivrant ledit champ sonore encodé interpolé en ladite position d'interpolation.
14. Procédé de restitution d'un champ sonore caractérisé en ce qu'il comprend : - une captation dudit champ sonore par une pluralité de N microphones délivrant chacun un champ sonore capté correspondant ;
- un encodage de chacun desdits champs sonores captés délivrant un champ sonore encodé correspondant sous une forme comprenant au moins une pression captée et un vecteur de gradients de pression associé ;
- une phase interpolation selon l'une quelconque des revendications 1 à 13 délivrant ledit champ sonore encodé interpolé en ladite position d'interpolation ;
- une compression dudit champ sonore encodé interpolé délivrant un champ sonore encodé interpolé compressé ;
- une transmission dudit champ sonore encodé interpolé compressé à au moins un dispositif de restitution ;
- une décompression dudit champ sonore encodé interpolé compressé reçu ; et
- une restitution dudit champ sonore encodé interpolé sur ledit au moins un dispositif de restitution.
15. Produit programme d'ordinateur, comprenant des instructions de code de programme pour la mise en oeuvre d'un procédé selon l'une quelconque des revendications 1 à 15, lorsque ledit programme est exécuté sur un ordinateur.
16. Dispositif d'interpolation d'un champ sonore capté par une pluralité de N microphones délivrant chacun ledit champ sonore encodé sous une forme comprenant au moins une pression captée et un vecteur de gradients de pression associé,
ledit dispositif comprenant une machine de calcul reprogrammable ou une machine de calcul dédiée, configurée pour interpoler ledit champ sonore en une position d'interpolation délivrant un champ sonore encodé interpolé s'exprimant comme une combinaison linéaire desdits N champs sonores encodés pondérés chacun par un facteur de pondération correspondant,
caractérisé en ce que ladite machine de calcul reprogrammable ou ladite machine de calcul dédiée est en outre configurée pour estimer lesdits N facteurs de pondération à partir au moins :
- de ladite position d'interpolation ;
- d'une position de chacun desdits N microphones ;
- desdites N pressions captées par lesdits N microphones, et
- d'une estimation de la puissance dudit champ sonore à ladite position d'interpolation.
EP19816809.8A 2018-12-14 2019-12-13 Procede d'interpolation d'un champ sonore, produit programme d'ordinateur et dispositif correspondants. Active EP3895446B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1872951A FR3090179B1 (fr) 2018-12-14 2018-12-14 Procédé d’interpolation d’un champ sonore, produit programme d’ordinateur et dispositif correspondants.
PCT/EP2019/085175 WO2020120772A1 (fr) 2018-12-14 2019-12-13 Procédé d'interpolation d'un champ sonore, produit programme d'ordinateur et dispositif correspondants

Publications (2)

Publication Number Publication Date
EP3895446A1 true EP3895446A1 (fr) 2021-10-20
EP3895446B1 EP3895446B1 (fr) 2023-01-25

Family

ID=66530214

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19816809.8A Active EP3895446B1 (fr) 2018-12-14 2019-12-13 Procede d'interpolation d'un champ sonore, produit programme d'ordinateur et dispositif correspondants.

Country Status (4)

Country Link
US (1) US11736882B2 (fr)
EP (1) EP3895446B1 (fr)
FR (1) FR3090179B1 (fr)
WO (1) WO2020120772A1 (fr)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2588801A (en) * 2019-11-08 2021-05-12 Nokia Technologies Oy Determination of sound source direction
FR3131164B1 (fr) 2021-12-16 2023-12-22 Fond B Com Procédé d’estimation d’une pluralité de signaux représentatifs du champ sonore en un point, dispositif électronique et programme d’ordinateur associés
US20240098439A1 (en) * 2022-09-15 2024-03-21 Sony Interactive Entertainment Inc. Multi-order optimized ambisonics encoding

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9716959B2 (en) * 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
WO2018064528A1 (fr) * 2016-09-29 2018-04-05 The Trustees Of Princeton University Navigation ambisonique dans des champs sonores à partir d'un réseau de microphones

Also Published As

Publication number Publication date
FR3090179A1 (fr) 2020-06-19
WO2020120772A1 (fr) 2020-06-18
US11736882B2 (en) 2023-08-22
EP3895446B1 (fr) 2023-01-25
US20220132262A1 (en) 2022-04-28
FR3090179B1 (fr) 2021-04-09

Similar Documents

Publication Publication Date Title
EP2898707B1 (fr) Calibration optimisee d&#39;un systeme de restitution sonore multi haut-parleurs
EP3895446B1 (fr) Procede d&#39;interpolation d&#39;un champ sonore, produit programme d&#39;ordinateur et dispositif correspondants.
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2002424B1 (fr) Dispositif et procede de codage scalable d&#39;un signal audio multi-canal selon une analyse en composante principale
EP3427260B1 (fr) Codage et décodage optimisé d&#39;informations de spatialisation pour le codage et le décodage paramétrique d&#39;un signal audio multicanal
EP3807669B1 (fr) Localisation de sources sonores dans un environnement acoustique donné
CA2925934C (fr) Procede de localisation d&#39;une source sonore et robot humanoide utilisant un tel procede
WO2013166439A1 (fr) Systèmes et procédés pour la séparation de signaux sources
WO2003073791A2 (fr) Procédé et dispositif de pilotage d&#39;un ensemble de restitution d&#39;un champ acoustique
EP1502475B1 (fr) Procede et systeme de representation d un champ acoustique
EP3400599B1 (fr) Encodeur ambisonique ameliore d&#39;une source sonore a pluralite de reflexions
EP2517201A1 (fr) Signal audio épars
WO2018115666A1 (fr) Traitement en sous-bandes d&#39;un contenu ambisonique réel pour un décodage perfectionné
FR3009158A1 (fr) Spatialisation sonore avec effet de salle
FR3051959A1 (fr) Procede et dispositif pour estimer un signal dereverbere
EP2452293A1 (fr) Localisation de sources
WO2024126242A1 (fr) Obtention d&#39;une réponse impulsionnelle d&#39;une salle
Sharma et al. Development of a speech separation system using frequency domain blind source separation technique
FR2943867A1 (fr) Traitement d&#39;egalisation de composantes spatiales d&#39;un signal audio 3d
WO2022207994A1 (fr) Estimation d&#39;un masque optimise pour le traitement de donnees sonores acquises
WO2009081002A1 (fr) Traitement d&#39;un flux audio 3d en fonction d&#39;un niveau de presence de composantes spatiales

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20210521

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20220804

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 1546591

Country of ref document: AT

Kind code of ref document: T

Effective date: 20230215

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602019024868

Country of ref document: DE

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG9D

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20230125

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 1546591

Country of ref document: AT

Kind code of ref document: T

Effective date: 20230125

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230525

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230425

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230525

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230426

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602019024868

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20231026

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20231229

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20231219

Year of fee payment: 5

Ref country code: DE

Payment date: 20231221

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230125