EP2901718B1 - Procede et systeme de restitution d'un signal audio - Google Patents

Procede et systeme de restitution d'un signal audio Download PDF

Info

Publication number
EP2901718B1
EP2901718B1 EP13779299.0A EP13779299A EP2901718B1 EP 2901718 B1 EP2901718 B1 EP 2901718B1 EP 13779299 A EP13779299 A EP 13779299A EP 2901718 B1 EP2901718 B1 EP 2901718B1
Authority
EP
European Patent Office
Prior art keywords
playback
sound
spatial
window
restitution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP13779299.0A
Other languages
German (de)
English (en)
Other versions
EP2901718A1 (fr
Inventor
Khoa-Van NGUYEN
Etienne Corteel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sonic Emotion Labs
Original Assignee
Sonic Emotion Labs
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sonic Emotion Labs filed Critical Sonic Emotion Labs
Publication of EP2901718A1 publication Critical patent/EP2901718A1/fr
Application granted granted Critical
Publication of EP2901718B1 publication Critical patent/EP2901718B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Definitions

  • the invention relates to the general field of acoustic processing and sound spatialization.
  • It relates more particularly to the rendering of a multichannel audio signal on a determined rendering device, equipped with a plurality of loudspeakers arranged at fixed locations of the rendering device.
  • the invention applies in a preferred but non-limiting manner to an acoustic speaker type rendering device, also known as a "baffling structure" (or “baffling structure” in English).
  • acoustic chamber is, in a known manner, consisting of a single or monobloc structure, integrating the various speakers used for the reproduction of the audio signal (the speakers can not be separated from the speaker).
  • An example of an acoustic speaker is in particular a sound bar in which the various speakers are integrated.
  • the invention also has a particular interest when it is applied to a so-called compact acoustic enclosure or more generally to a compact retrieval device.
  • a compact rendering device is a device of small dimensions (in particular with respect to the dimensions of the room or the room in which the reproduction device is intended to be placed), and in which the loudspeakers are mounted relatively close to each other.
  • this device can be monobloc (as an acoustic speaker) or alternatively be composed of several elements, grouped together to form a compact assembly, each element being equipped with one or more speakers.
  • the largest dimension of a compact rendering device generally does not exceed 2 meters, whereas the spacing between the loudspeakers, two by two, is less than 50 centimeters.
  • This method is based on a spatial analysis of the multichannel audio signal that is to be restored, making it possible to extract and locate the sound objects of the audio signal located inside a sound reproduction window defined from the the physical position of the speakers of the playback device and the extended listening area.
  • the extracted sound objects are restored inside the sound reproduction window, according to their location in this window, using a first rendering process.
  • This first rendering process is, for example, a synthesis of the acoustic field (or WFS treatment for "Wave Field Synthesis” in English), known per se.
  • the other components of the multichannel audio signal are also restored inside the sound reproduction window, according to a second rendering process (such as, for example, an intensity panoramic effect).
  • a second rendering process such as, for example, an intensity panoramic effect.
  • a compact reproduction device has certain constraints, in particular in terms of the size of the listening area that can be envisaged and the sound reproduction window related to the physical arrangement of the speakers on the device. restitution, which are generally smaller than with a restitution device consisting of several entities scattered throughout the room or room in which the device is placed, and as envisaged in the document WO 2012/025580 .
  • step (respectively means) of restitution on loudspeakers is meant here the step (respectively the means) which consists of generating and supplying signals intended to supply the speakers of the rendering device. These signals will then be broadcast (i.e. transmitted) by the speakers of the playback device so as to reproduce the multichannel audio signal.
  • reference spatial position here is meant both a point in the space characterizing the position of a target listener of the audio signal, and a larger area of the space in which is (are) susceptible ( s) to find one or more auditors.
  • reference spatial position here is meant both a point in the space characterizing the position of a target listener of the audio signal, and a larger area of the space in which is (are) susceptible ( s) to find one or more auditors.
  • the invention therefore proposes to implement a spatial analysis of the multichannel audio signal to be reproduced in order to separate the sound objects composing the audio signal as a function, on the one hand, of their localized character in space (ie discrete, generated by a localizable source) or diffuse, and secondly, their position relative to the sound reproduction window defined by the reference spatial position and the physical location of the speakers on (or in ) the rendering device with respect to this reference spatial position.
  • This separation of sound objects is exploited, in accordance with the invention, by applying rendering processes to the extracted objects which take into account their localized or diffuse characters, as well as the positions of the sources at the origin of these objects. inside or outside the sound reproduction window.
  • the invention links the restitution processes applied to the sound objects of the multichannel signal to be restored, directly to the spatial characteristics of these objects extracted during the spatial analysis of the multichannel signal.
  • the sound objects identified during the spatial analysis step as being diffuse or positioned outside the restitution space window of the rendering device are advantageously restored via the speakers of the device. restitution, outside this window, through the implementation of a rendering processing including the creation of virtual sources outside this window.
  • the restitution processing applied to this sound object during the restitution step is preferentially able to restore this sound object within the sound reproduction space window of the rendering device, at the location of the source at the origin of this sound object.
  • This restitution inside the spatial window of sound reproduction can be done directly, by diffusing the sound objects on the speakers of the rendering device without resorting to complex spatial filtering processes. For example, it diffuses the object as is on one or more speakers, or by simply applying a panning effect (or "panning" in English). Such techniques are known per se and relatively simple to implement.
  • the rendering processing inside the reproduction space window can comprise the creation of one or more virtual sources from the speakers of the rendering device, inside the restitution space window. sound of the rendering device. This may be a type of WFS or derivative processing.
  • the direction or position of the virtual sources, as well as, if appropriate, their amplitude, are then determined from the estimated position of the sources at the origin of the localized sound objects extracted from the multichannel signal and their contribution (ex. sound level terms) in the multichannel signal.
  • the application, during the restitution step, of the aforementioned restitution treatments chosen according to the characteristics of the sound objects determined during the spatial analysis step, makes it possible to remove the objects that are diffuse or coming from the outside the rendering window, objects located inside the window (such objects typically include voice or dialogues).
  • the listener has the feeling of being immersed in the sound stage (perception of envelopment in the sound stage).
  • the invention takes advantage of a phenomenon well known in psycho-acoustics under the name “cocktail party effect” or “cocktail party effect” in English, which reflects the ability of the human auditory system to select a sound source in a noisy environment and to treat sounds even if they are not at the heart of the object of human attention.
  • the invention thus allows a rendering the multichannel audio signal of very good quality, including on a compact playback device, while preserving the accuracy and clarity of signal sound objects located and coming from within the rendering window. It can be applied to any multichannel signal format, such as a stereo signal, 5.1, 7.1, 10.2, Higher Order Ambisonics (HOA), and so on.
  • a stereo signal such as a stereo signal, 5.1, 7.1, 10.2, Higher Order Ambisonics (HOA), and so on.
  • HOA Higher Order Ambisonics
  • processing generally carried out by the invention does not in itself aim to modify the characteristics of the sound scene of the multichannel audio signal, but promotes the intelligibility of the sound objects located in the sound reproduction window and allows to immerse the listener in the sound stage.
  • the spatial analysis step further comprises estimating the position of the sound object with respect to the center of the spatial sound reproduction window of the rendering device.
  • the invention has a preferred application, but not limited to, when the rendering device is an acoustic chamber in which the plurality of loudspeakers is arranged.
  • Such an acoustic speaker is for example a sound bar equipped with several speakers.
  • the spatial analysis step comprises a decomposition of the received audio signal into a plurality of frequency sub-bands, the extraction of said at least one sound object being performed on at least one sub-band. -frequency band.
  • frequency sub-bands eg in octave, third octave or auditory bands
  • the spatial analysis of the audio signal is in fact carried out by frequency subband: it is thus possible to better isolate the sound objects composing the multichannel audio signal. In particular, it is possible to isolate several sound objects in the multichannel audio signal, for example one per frequency subband.
  • the diffuse or localized nature of the extracted sound object is estimated from at least one evaluated correlation between two distinct channels of the multichannel audio signal.
  • the position of the extracted sound object with respect to the sound reproduction spatial window can be estimated from at least one evaluated difference in levels between two distinct channels of the multichannel audio signal.
  • the determination of the characteristics associated with each sound object extracted from the multichannel audio signal can therefore be performed very simply, by means of calculating correlations and differences. of levels between the signals distributed on the different channels of the multichannel signal.
  • the spatial analysis step comprises the determination of a Gerzon vector representative of the multichannel audio signal.
  • the Gerzon vector of a multichannel audio signal is derived from the respective contributions (direction and intensity or energy) of the different channels of the multichannel signal to the sound scene perceived by the listener. the reference position.
  • the determination of such a vector for a multichannel audio signal is described for example in the document US 2007/0269063 .
  • the Gerzon vector of a multichannel audio signal reflects the spatial location of the multichannel audio signal as perceived by the listener from the reference position.
  • the determination of this Gerzon vector makes it possible to dispense with the calculation of correlations between the different channels of the multichannel signal in order to determine the diffuse or localized nature of the sound objects extracted from the signal.
  • the spatial analysis step comprises a spatial decomposition of the multichannel signal into spherical harmonics.
  • Such spatial decomposition is known to those skilled in the art and described for example in the document WO 2012/025580 . It allows a very precise spatial analysis of the multichannel audio signal and the sound objects composing it. Thus, in particular, several sound objects can be determined for the same frequency subband.
  • the restitution processing applied to this sound object uses a transaural technique of restitution of this sound object on the loudspeakers side of the rendering device.
  • This first embodiment has a preferred application in the case of a playback device equipped with a reduced number of speakers, for example a central speaker and two side speakers.
  • the plurality of speakers of the playback device comprises a central speaker and side speakers
  • this sound object is broadcast, during the restitution step, by the rendering processing, on the central loudspeaker of the device of restitution.
  • a sound object centered with respect to the reference spatial position is attached to the center of the rendering device so as to optimize its intelligibility. It is preferably restored in a direct way (that is to say without filtering spatial) on the central speaker of the playback device, so as to benefit from the natural directivity properties of the center speaker.
  • the rendering process applied during the rendering step broadcasts this sound object on the speakers of the rendering device using a panoramic effect of intensity.
  • the sound objects located and positioned inside the acoustic window are also attached to the playback device, and restored directly (that is to say without spatial filtering), within the window of playback through the intensity panning effect applied to the speakers.
  • This panoramic intensity effect applied to all the speakers of the rendering device makes it possible to better distinguish the sound objects located and positioned inside the acoustic window of the sound objects located in the center of the window.
  • the invention is however not limited to the application of the aforementioned restitution treatments; it is also possible to use more complex rendering processes, including spatial filtering of sound objects on the speakers of the playback device.
  • the creation of at least one virtual source outside the restitution space window of the rendering device may comprise the formation of at least one beam directed towards the outside of the beamforming space window.
  • the restitution processing applied to this object sound during the restitution step may comprise the formation of a beam directed towards the reference spatial position.
  • the creation of virtual sources allows better control and better accuracy of the sound reproduction of an audio signal than a "direct" sound reproduction (ie without spatial filtering) on the speakers of the playback device, limited by itself by the capacity of the speakers of the rendering device. It offers the possibility of having better control of the directivity of reconstructed sound sources.
  • beamforming is particularly well suited for the reproduction of signals on dense speaker networks (eg playback device equipped with 6 or more speakers), for which we have a better precision to create the sources virtual because of the existence of a larger number of degrees of freedom (related to the presence of a larger number of speakers).
  • the various steps of the rendering method are determined by computer program instructions.
  • the invention also relates to a program on an information carrier, this program being capable of being implemented in a rendering system or more generally in a computer, this program comprising instructions adapted to the implementation steps of a restitution process as described above.
  • This program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other form desirable shape.
  • the invention also relates to a computer-readable or microprocessor-readable information medium, and comprising instructions of a program as mentioned above.
  • the information carrier may be any entity or device capable of storing the program.
  • the medium may comprise a means of storage, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a diskette (floppy disc) or a hard disk.
  • the information medium may be a transmissible medium such as an electrical or optical signal, which may be conveyed via an electrical or optical cable, by radio or by other means.
  • the program according to the invention can be downloaded in particular on an Internet type network.
  • the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
  • the invention also relates to an acoustic enclosure comprising a restitution system according to the invention.
  • the method, the restitution system and the acoustic enclosure according to the invention present in combination all or part of the aforementioned characteristics.
  • the figure 1 represents, in its environment, a system 1 for rendering a multi-channel audio signal S on a reproduction device 2, according to the invention, in a particular embodiment.
  • the playback device 2 is equipped with a plurality of loudspeakers 2-1, 2-2, ..., 2-N (N> 1). This is, in the example shown on the figure 1 , a compact restitution device.
  • the playback device 2 is here a compact acoustic enclosure, in other words a single unit structure or single closed box, integrating all the speakers 2-1, 2-2, ..., 2-N.
  • the rendering device 2 is for example a horizontal sound bar, of length not exceeding one or two meters, inside (or on) which are arranged in fixed and close positions ( within 50cm of each other), speakers 2-1, 2-2, ..., 2-N.
  • the invention also applies to other types of rendering devices.
  • the invention also applies to a modular compact reproduction device consisting of several separate elements each integrating one or more speakers.
  • compact restitution device designates a device of small dimensions, in particular with respect to the dimensions of the room or the room in which one consider the reproduction of the audio signal using this device, and on or in which the speakers are mounted relatively close to each other.
  • the largest dimension of a compact rendering device does not generally exceed 2 meters, while the loudspeakers are mounted on the rendering device with a spacing of less than 50 cm.
  • the physical location of the loudspeakers 2-1, 2-2,..., 2-N defines, in a known manner, a spatial window W of sound reproduction with respect to a so-called referenced position Pref, placed in front of the rendering device 2 (in relation to the orientation of all or part of the loudspeakers and to the diffusion of sounds), and modeling the position of a listener in the space taken as a reference to optimize the reproduction of the audio signal S.
  • reference position Pref The actual choice of reference position Pref depends on several factors known to those skilled in the art, and will not be described here. For a compact rendering device, this reference position Pref is chosen generally point.
  • the figure 2 illustrates the spatial window W of sound reproduction defined by the loudspeakers 2-1, 2-2, ..., 2-N of the playback device 2 and the reference position Pref.
  • the physical location of the speakers 2-1, 2-2, ..., 2-N on the playback device 2 (and more precisely the two speakers 2-1 and 2-N located at the ends of the reproduction device 2), associated with the reference position Pref, define an angular opening ⁇ of sound reproduction.
  • the subspace delimited by this angular aperture ⁇ corresponds to the spatial window W of sound reproduction associated with the reproduction device 2 and the reference position Pref.
  • the invention proposes a processing of a multichannel audio signal in two stages: firstly, the multichannel audio signal to be restored is analyzed spatially; then, the spatial characteristics of the signal resulting from this spatial analysis are used to optimize the restitution of the signal on the rendering device 2.
  • the rendering means 4 are able to apply the processing processes T-A1, T-A2, TB and TC to the sound objects extracted from the signal S, as a function of the characteristics determined by the means 3 of spatial analysis.
  • the rendering system 1 no limitation is attached to the number of different treatments that can be applied by the rendering system 1.
  • the T-A1, T-A2, TB and TC treatments may be of the same nature (ie based on the same techniques, such as example a WFS technique or "beamforming"). However, they are adapted to the spatial characteristics of the sound objects to which they are applied and differ in that sense from each other. For example, they do not broadcast the signals on the same speakers, do not envisage the creation of virtual sources in the same subspaces (or having similar characteristics in terms of position / direction and / or amplitude ), the created beams can be dimensioned differently (eg of different widths), etc.
  • the spatial analysis means 3 and the audio signal reproduction means 4 are software means.
  • the rendering system 1 has the hardware architecture of a computer, as illustrated in FIG. figure 4 .
  • It comprises in particular a processor (or microprocessor) 5, a random access memory 6, a read-only memory 7, a non-volatile flash memory 8 as well as communication means 9 able to transmit and receive signals.
  • processor or microprocessor
  • the communication means 9 comprise, on the one hand, an interface (wired or wireless) with the loudspeakers 2-1,..., 2-N of the reproduction device 2, as well as means for receiving a multichannel audio signal, such as the signal S for example. These means are known to those skilled in the art and will not be described further here.
  • the read-only memory 7 of the reproduction system 1 constitutes a recording medium in accordance with the invention, readable by the (micro) processor 5 and on which is recorded a computer program according to the invention, comprising instructions for performing the steps of a restitution process described later with reference to the figure 5 .
  • the reproduction system 1 may be in the form of a computer or alternatively of an electronic chip or of an integrated circuit, in which the computer program comprising the instructions for the execution of the method of restitution according to the invention is incorporated.
  • system 1 of restitution may be an entity separate from the device 2 of restitution, or conversely, be integrated within the device 2 restitution.
  • the multi-channel audio signal S is supplied to the rendering system 1 via its communication means 9.
  • the format and structure of such an audio signal is known to those skilled in the art and will not be described. right here.
  • the reproduction system 1 Upon reception of the signal S (step E10), the reproduction system 1 initiates a first phase ⁇ I of spatial analysis of the signal S carried out using its spatial analysis means 3.
  • the signal denoted Si resulting from the decomposition of the signal S and associated with the frequency subband BWi is itself a multichannel signal.
  • each sub-band No limitation is attached to the width of each sub-band: one can for example consider a decomposition in octave, in third of octave, or in auditory bands (ie adapted to the hearing), according to a compromise complexity / accuracy in particular.
  • the frequency subband decomposition of the signal S is carried out via a Fourier transformation applied to the signal S, and does not present any difficulty per se for the skilled person.
  • the amplitudes of the extracted sound objects are contained directly in the signals Si, and correspond respectively to the levels of the frequency subbands.
  • the spatial analysis means 3 of the rendering system 1 implement a time analysis of the multichannel signal Si.
  • the rendering system 1 can simply evaluate a normalized correlation between two distinct channels of the multichannel signal Si for only a selection of pairs of predetermined channels of the signal Si.
  • this selection may comprise only four pairs of channels, namely, the pair consisting of L and R channels, the pair consisting of Ls and Rs channels, the pair consisting of L and Ls channels. and the pair consisting of R and Rs channels.
  • Each correlation R x, y thus evaluated is then compared to a predefined threshold denoted THR.
  • the reproduction system 1 estimates that the signal Si (and thus a fortiori the signal S) contains a localized sound object.
  • the reproduction system 1 estimates that the signal Si contains a diffuse sound object.
  • the value of the THR threshold is determined empirically: it is preferably chosen between 0.5 and 0.8.
  • a sound object When a sound object is estimated as located by the playback system 1, it estimates the position of this sound object with respect to the sound reproduction window W (by definition, a diffuse object has no precise position or identifiable in space, so it is not necessary to estimate its position with respect to the spatial window W of restitution).
  • the reproduction system 1 here estimates the reproduction window W from the reference position Pref and the physical locations of the speakers of the playback device 2.
  • the spatial window W can be determined geometrically by the reproduction system 1, in terms of angular excursion with respect to the axis ⁇ passing through the center of the rendering device 2 and the reference position Pref, from the knowledge of the position Pref and physical locations of the speakers of the device 2 placed at the ends (ie 2-1 and 2-N).
  • the spatial window W is associated by the reproduction system 2 with an angular excursion of ⁇ / 2 with respect to the axis ⁇ .
  • the position Pref and the physical locations of the loudspeakers of the device can be previously configured in the nonvolatile flash memory 7 of the reproduction system 1, for example during the construction of the reproduction system 1 if it is integrated in the device. 2 or during a preliminary step of setting up the reproduction system 1.
  • the window W may be estimated by the reproduction system 1 using a technique similar or identical to that described in the document of FIG. E. Corteel entitled “Equalization in an extended area using multichannel inversion and wave field synthesis", Journal of the Audio Engineering Society No. 54 (12), December 2006 when the Pref position is an extended area.
  • the spatial window W may be predetermined, and stored for example in the nonvolatile flash memory 7 of the reproduction system 1.
  • This direction is evaluated here in terms of angular excursion with respect to the ⁇ axis.
  • the system 1 of reproduction associates with a predefined difference in levels between two channels, for example -30 dB (respectively 30 dB), a direction of the sound object of 90 ° (respectively -90 °) compared to the axis ⁇ .
  • the directions between -90 ° and 90 ° are then estimated from an increasing interpolation function (eg an increasing linear function) defined between the two values -90 ° and 90 °.
  • the reproduction system 1 compares the direction of the sound object thus evaluated with respect to the angular excursion ⁇ / 2 defining the spatial window W, in order to determine whether the object is inside or outside.
  • the spatial window W thus, a sound object for which a direction in absolute value greater than ⁇ / 2 has been estimated with respect to the axis ⁇ , is considered by the system 1 as outside the spatial window W , while a sound object for which a direction in absolute value less than or equal to ⁇ / 2 with respect to the ⁇ axis has been estimated, is considered by the system 1 to be positioned inside the spatial window W .
  • the rendering system 1 also uses the estimated direction of the sound object to determine if this object is in the center of the spatial window W (to a delta of precision), in order to better distinguish during the restitution, the objects located in the center of the window W of the other objects located in the window W (step E40).
  • an object is considered by the rendering system 1 to be positioned in the center of the spatial window W if its direction is within an interval [0; ⁇ ] around the axis ⁇ , where ⁇ denotes a predefined angle, for example 2.5 °.
  • This step is however optional.
  • the spatial analysis phase ⁇ I comprises the determination of a Gerzon vector representative of each multichannel audio signal Si (a vector is estimated for each frequency subband BWi).
  • the Gerzon vector of a multichannel audio signal is derived from the respective contributions (direction and intensity or energy) of the different channels of the multichannel signal to the sound scene perceived by the listener located at the reference position Pref.
  • the determination of such a vector for a multichannel audio signal is described in the document US 2007/0269063 and will not be described in more detail here. It is assumed here that in the second variant embodiment, the reproduction system 1 proceeds in the same manner as described in this document.
  • the Gerzon vector of a multichannel audio signal reflects the spatial location of the multichannel audio signal as perceived by the listener from the reference position.
  • the determination of this Gerzon vector makes it possible to dispense with the calculation of correlations between the different channels of the multichannel signal in order to determine the diffuse or localized nature of the sound objects extracted from the signal, and the position of these objects with respect to the spatial window W .
  • the Gerzon vector associated with a multichannel signal Si is written in the form of a directional vector, giving the direction of the sound object associated with the frequency subband BWi, and a non-directional vector (ie diffuse ).
  • the sound reproduction system 1 is able to extract the localized and diffuse sound objects composing the signal S, and to determine the position of the localized objects with respect to the spatial window.
  • W from the direction of the Gerzon vectors, and in particular "directional" vectors
  • amplitude determined from the norm of the Gerzon vectors and from the contribution of the directional / non-directive vectors.
  • the amplitude associated with each sound object thus extracted is then derived from the amplitude of the corresponding directional or non-directive vector.
  • the diffuse and localized objects given by the non-directive vector and the directional vector derived from the Gerzon vector are extracted both (no prior comparison with respect to a threshold to estimate if the contribution of the one and / or or the other is significant enough to be restored) to be restored on the speakers of the device 2 restitution.
  • the direction of the vectors (i.e. directional) corresponding to the extracted sound objects is then compared with respect to the angular excursion ⁇ / 2, in order to determine their position with respect to the window W.
  • the rendering system 1 can identify the objects located in the center of the spatial window W, so as to better distinguish them during the restitution compared to the other objects located inside. of the W. space window
  • Gerzon vectors do not provide the ability to extract more than one localized sound object per frequency subband.
  • the spatial analysis means 3 of the reproduction system 1 use, to extract the sound objects from the signals Si and to estimate their characteristics during the steps E30. and E40, a technique based on a spatial decomposition of each multichannel signal Si in spherical harmonics.
  • the spatial analysis means 3 apply, for example, the technique of extracting sound objects from a multichannel signal from its spatial decomposition into spherical harmonics described in the document. WO 2012/025580 .
  • This technique is based on a representation of the matrix B ( ⁇ , t ), built from the coefficients B mn ( ⁇ ) of the spherical harmonic decomposition to which we have applied a Fourier transform STFT (for "Short Time Fourier Transform ) At time t, in the form of a sum of two terms, ie, a first term modeling the localized sound objects included in the signal Si, and a second term modeling diffuse sound objects.
  • STFT Short Time Fourier Transform
  • the localized sound objects are extracted, their contribution is deduced from the signal Si so as to obtain, if necessary, the diffuse sound objects contained in the signal.
  • lower and upper thresholds can be introduced to limit the extraction of sound objects of sufficient amplitude.
  • the amplitude associated with the localized sound objects is determined from the sum of the spherical harmonic coefficients associated with these objects as a function of the estimated direction.
  • the amplitude of diffuse objects is estimated from residual spherical harmonic coefficients obtained after subtracting the contribution of localized sound objects.
  • the reproduction system 1 proceeds in a manner similar to that described in the first variant for the temporal analysis of the signals Si, by comparison of their direction with respect to the angular excursion ⁇ / 2.
  • the rendering system 1 can identify the objects located in the center of the spatial window W, so as to better distinguish them during the restitution compared to the other objects located inside. of the W. space window
  • the system 1 of restitution does not strictly concern the position of the sound objects extracted from the signals Si by relative to the rendering device 2, ie, it does not distinguish between the sound objects according to whether they are behind or in front of the playback device 2 with respect to the reference position Pref.
  • the spatial analysis performed by the rendering system 1 may be limited to sound objects located behind the rendering device 2, regardless of the spatial analysis technique selected among the aforementioned techniques in particular.
  • a frequency subband decomposition of the multichannel signal S is carried out, then the reproduction system 1 examines each frequency subband to extract the sound objects from the multichannel signal S. This allows extract more precisely the sound objects constituting the signal S (we can identify more particular sound objects).
  • this hypothesis is not limiting and one could envisage in the context of the invention to work directly on the multichannel signal S without performing decomposition into frequency subbands.
  • the system 1 of restitution also has, for the first and second categories of sound objects, the position of these objects in the spatial window W.
  • the reproduction system 1 has also identified, within the category of sound objects OBJLocIntW, the sound objects coming from sources positioned in the center of the spatial window W.
  • All of this information is for example stored in the RAM 6 or in the nonvolatile flash memory 7 of the system 1 for rendering in order to be used in real time.
  • the system 1 will restore the sound objects extracted from the signal S according to their category, and the characteristics of these determined objects during steps E30 and E40.
  • the means 4 for restitution of the rendering system 1 apply four distinct processes T-A1, TA-2, TB and TC selected according to the characteristics of the sound objects extracted by the means 3 d spatial analysis of the rendering system 1 during the phase ⁇ I (step E50).
  • the sound objects identified as belonging to the first category OBJLocIntW are restored by the means 4 of restitution (and more precisely by the means 4A), by applying the treatments TA1 or T-A2 according to if they are respectively located in the center or not of the spatial window W (step E51).
  • the processing T-A1 and T-A2 restore the sound objects of the category OBJLocIntW inside the spatial window W.
  • T-A1 and T-A2 treatments can be envisaged for such a reproduction. These treatments may or may not implement filtering of sound objects before they are broadcast on all or part of the speakers of the playback device 2.
  • the T-A1 and / or T-A2 rendering processes applied to the sound objects located inside the spatial window W may be more complex spatial filtering processes including, for example, the creation of virtual sources 10 to from the speakers of the rendering device 2 inside the spatial window W, the virtual sources being positioned in accordance with the characteristics of the sound objects estimated at steps E30 and / or E40 (that is, in directions and where appropriate, according to the amplitudes estimated in steps E30 and E40).
  • a rendering process including the creation of virtual sources at the positions identified during steps E30 and / or E40 is for example an acoustic field synthesis processing also known as WFS treatment known to those skilled in the art or a beam forming technique ( or "beamforming" in English), the beam being directed for example towards the reference position.
  • the sound objects belonging respectively to the categories OBJLocExtW and OBJDiff are restored outside the spatial window W by the means 4 of restitution (respectively by the means 4-B and 4-C), by applying the treatments TB and TC (steps E52 and E53).
  • the rendering processes TB and TC comprise the creation of at least one virtual source 11, 12 outside the spatial window W for restitution of the rendering device 2.
  • these virtual sources 11 are reconstituted from the positions of the sound objects identified in step E30, for example via a transaural technique (particularly well suited for a configuration of the device 2 of FIG. playback with a center speaker and two side speakers), a WFS or derivative technique, as described for example in the European patent application EP 1 116 572.0 unpublished, or the formation of a beam directed towards the outside of the spatial window of restitution, and whose width can be configured so as to optimize the sound reproduction.
  • a transaural technique particularly well suited for a configuration of the device 2 of FIG. playback with a center speaker and two side speakers
  • a WFS or derivative technique as described for example in the European patent application EP 1 116 572.0 unpublished, or the formation of a beam directed towards the outside of the spatial window of restitution, and whose width can be configured so as to optimize the sound reproduction.
  • the T-C treatment makes it possible to create diffuse virtual sources 12.
  • beamforming CT techniques will preferably be used to create these virtual sources, for which the orientation and the width of the beams are easily controlled so as to create reflections on the walls of the room in which the device is positioned. 2 of restitution and thus create more enveloping feeling for the listener placed at the reference position.
  • the playback device 2 is a horizontal soundbar-type loudspeaker equipped with three loudspeakers 2-1, 2-2 and 2-3 (a central loudspeaker and two loudspeakers). side speakers).
  • the position Pref is chosen punctually, centered with respect to the device 2 of restitution.
  • the multichannel signal S supplied to the playback system 1 during step E10 is a stereo audio signal, that is, composed of two separate channels.
  • the rendering device 2 is a compact acoustic loudspeaker of the horizontal soundbar type equipped with 15 loudspeakers 2-1, 2-2,... about 1m.
  • the position Pref is chosen punctually, centered with respect to the device 2 of restitution.
  • the multichannel signal S supplied to the rendering system 1 during step E10 is an audio signal 5.1.
  • a signal already contains intrinsically spatialization information.
  • the ITU-R BS.775-1 standard defining the 5.1 signal format implies a center at 0 °, left L and right R channels located +/- 30 ° from the center, and left rear channels Ls and right rear Rs located at +/- 110 ° with respect to the center.
  • the rendering device 2 is a compact acoustic loudspeaker equipped with 8 loudspeakers 2-1, 2-2,..., 2-8, about 80 cm wide, with four front speakers. 2-1, ..., 2-4, and two speakers 2-5 and 2-6, respectively 2-7 and 2-8, located on each side of the device 2 (device similar to the device 2 "shown in FIG. the figure 3B ).
  • the position Pref is chosen punctually, centered with respect to the device 2 of restitution.
  • the multichannel signal S supplied to the rendering system 1 during step E10 is an audio signal composed of four distinct channels.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

    Arrière-plan de l'invention
  • L'invention se rapporte au domaine général des traitements acoustiques et de la spatialisation sonore.
  • Elle concerne plus particulièrement la restitution d'un signal audio multicanal sur un dispositif de restitution déterminé, équipé d'une pluralité de haut-parleurs disposés à des emplacements fixes du dispositif de restitution.
  • L'invention s'applique de façon privilégiée mais non limitative à un dispositif de restitution de type enceinte acoustique, aussi appelée « structure bafflante » (ou « baffling structure » en anglais). Une telle enceinte acoustique est, de façon connue, constituée d'une structure unique ou monobloc, intégrant les différents haut-parleurs utilisés pour la restitution du signal audio (les haut-parleurs ne peuvent être séparés de l'enceinte). Un exemple d'enceinte acoustique est notamment une barre de son dans laquelle sont intégrés les différents haut-parleurs.
  • L'invention présente par ailleurs un intérêt particulier lorsqu'elle est appliquée à une enceinte acoustique dite compacte ou plus généralement à un dispositif de restitution compact.
  • De façon connue en soi, un dispositif de restitution compact est un dispositif de petites dimensions (notamment par rapport aux dimensions de la pièce ou de la salle dans laquelle on envisage de placer le dispositif de restitution), et dans lequel les haut-parleurs sont montés relativement proches les uns des autres.
  • Il convient de noter que ce dispositif peut être monobloc (comme une enceinte acoustique) ou en variante être composé de plusieurs éléments, regroupés de sorte à former un ensemble compact, chaque élément étant équipé d'un ou de plusieurs haut-parleurs.
  • A titre illustratif, la plus grande dimension d'un dispositif de restitution compact n'excède pas en général 2 mètres, tandis que l'espacement entre les haut-parleurs, deux à deux, est inférieur à 50 centimètres.
  • Il existe dans l'état de la technique, différentes méthodes s'employant à optimiser la restitution d'un signal audio multicanal sur un dispositif de restitution, tout en prenant en compte les limites physiques du dispositif de restitution, du fait notamment de la répartition des haut-parleurs du dispositif de restitution dans l'espace.
  • Un exemple d'une telle méthode est décrit dans le document WO 2012/025580 en référence à plusieurs dispositifs de restitution équipés d'une pluralité de haut-parleurs répartis à divers endroits d'une pièce de sorte à couvrir une zone (spatiale) d'écoute étendue (cette zone d'écoute modélise les positions des auditeurs).
  • Cette méthode s'appuie sur une analyse spatiale du signal audio multicanal que l'on souhaite restituer, permettant d'extraire et de localiser les objets sonores du signal audio situés à l'intérieur d'une fenêtre de restitution sonore définie à partir de la position physique des haut-parleurs du dispositif de restitution et de la zone d'écoute étendue.
  • Les objets sonores extraits sont restitués à l'intérieur de la fenêtre de restitution sonore, en fonction de leur localisation dans cette fenêtre, à l'aide d'un premier traitement de restitution. Ce premier traitement de restitution est par exemple un traitement de synthèse du champ acoustique (ou traitement WFS pour « Wave Field Synthesis » en anglais), connu en soi.
  • Les autres composantes du signal audio multicanal sont également restituées à l'intérieur de la fenêtre de restitution sonore, selon un second traitement de restitution (tel que par exemple, un effet panoramique d'intensité). Si le document WO 2012/025580 prend en compte, lors de l'analyse spatiale et lors de la restitution du signal audio multicanal, la répartition des haut-parleurs du dispositif de restitution par l'intermédiaire notamment de la notion de fenêtre de restitution sonore, il se restreint toutefois à l'étude de dispositifs de restitution ayant des haut-parleurs éparpillés dans l'ensemble de la pièce dans laquelle on souhaite restituer le signal, et destinés à une restitution dans une zone d'écoute étendue.
  • Mais le document WO 2012/025580 ne s'intéresse pas à proprement parler à la restitution d'un signal audio multicanal sur un dispositif de restitution compact.
  • Or, l'utilisation d'un dispositif de restitution compact présente certaines contraintes, notamment en termes de dimensions de la zone d'écoute pouvant être envisagée et de la fenêtre de restitution sonore liée à la disposition physique des haut-parleurs sur le dispositif de restitution, qui sont en général plus réduites qu'avec un dispositif de restitution composé de plusieurs entités éparpillées dans l'ensemble de la pièce ou de la salle dans laquelle est placé le dispositif, et tel qu'envisagé dans le document WO 2012/025580 .
  • Il existe donc un besoin d'une méthode de restitution d'un signal audio multicanal qui soit particulièrement bien adaptée aux dispositifs de restitution compacts et notamment aux enceintes acoustiques compactes, et qui permette d'optimiser le rendu du signal audio tout en maintenant l'intelligibilité et la clarté des composantes de ce signal.
  • Objet et résumé de l'invention
  • L'invention répond notamment à ce besoin en proposant un procédé de restitution d'un signal audio multicanal sur un dispositif de restitution équipé d'une pluralité de haut-parleurs, ces haut-parleurs étant disposés à des emplacements fixes du dispositif de restitution et définissant une fenêtre spatiale de restitution sonore par rapport à une position spatiale dite de référence. Le procédé de restitution selon l'invention est remarquable en ce qu'il comprend :
    • une étape d'analyse spatiale du signal audio multicanal comprenant :
      • ∘ l'extraction d'au moins un objet sonore du signal, et
      • ∘ pour chaque objet sonore extrait, l'estimation d'un caractère diffus ou localisé de cet objet sonore, et d'une position de cet objet sonore par rapport à la fenêtre spatiale de restitution sonore du dispositif de restitution ; et
    • une étape de restitution du signal audio sur la pluralité de haut-parleurs du dispositif de restitution, au cours de laquelle on applique, à chaque objet sonore extrait du signal audio, un traitement de restitution sur au moins un haut-parleur de la pluralité de haut-parleurs du dispositif de restitution, ce traitement de restitution dépendant du caractère diffus ou localisé de l'objet sonore et de sa position par rapport à la fenêtre spatiale de restitution sonore estimés au cours de l'étape d'analyse spatiale, le traitement de restitution comprenant la création d'au moins une source virtuelle à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution, à partir des haut-parleurs du dispositif de restitution, lorsque l'objet sonore est estimé au cours de l'étape d'analyse spatiale comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution.
  • Corrélativement, l'invention vise également un système de restitution d'un signal audio multicanal sur un dispositif de restitution équipé d'une pluralité de haut-parleurs, ces haut-parleurs étant disposés à des emplacements fixes du dispositif de restitution et définissant une fenêtre spatiale de restitution sonore par rapport à une position de référence, ce système de restitution comprenant :
    • des moyens d'analyse spatiale du signal audio multicanal comprenant :
      • ∘ des moyens d'extraction d'au moins un objet sonore du signal, et
      • ∘ des moyens d'estimation, pour chaque objet sonore extrait, d'un caractère diffus ou localisé de cet objet sonore, et d'une position de cet objet sonore par rapport à la fenêtre spatiale de restitution sonore du dispositif de restitution ; et
    • des moyens de restitution du signal audio sur la pluralité de haut-parleurs du dispositif de restitution, aptes à appliquer à chaque objet sonore extrait du signal audio, un traitement de restitution sur au moins un haut-parleur de la pluralité de haut-parleurs du dispositif de restitution, ce traitement de restitution dépendant du caractère diffus ou localisé de l'objet sonore et de sa position par rapport à la fenêtre spatiale de restitution sonore estimés au cours de l'étape d'analyse spatiale,
    le traitement de restitution comprenant la création d'au moins une source virtuelle à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution, à partir des haut-parleurs du dispositif de restitution, lorsque l'objet sonore est estimé par les moyens d'analyse spatiale comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution.
  • Par étape (respectivement moyens) de restitution sur des haut-parleurs, on entend ici l'étape (respectivement les moyens) qui consiste à générer et à fournir des signaux destinés à alimenter les haut-parleurs du dispositif de restitution. Ces signaux seront ensuite diffusés (i.e. émis) par les haut-parleurs du dispositif de restitution de sorte à restituer le signal audio multicanal.
  • Par ailleurs, par position spatiale de référence, on entend ici aussi bien un point de l'espace caractérisant la position d'un auditeur cible du signal audio, qu'une zone plus étendue de l'espace dans laquelle est (sont) susceptible(s) de se trouver un ou plusieurs auditeurs. Pour un dispositif de restitution compact, on s'orientera préférentiellement vers une position spatiale de référence ponctuelle même si le procédé de restitution selon l'invention permet d'atteindre une zone d'écoute particulièrement étendue.
  • L'invention propose donc de mettre en oeuvre une analyse spatiale du signal audio multicanal à restituer visant à séparer les objets sonores composant le signal audio en fonction d'une part, de leur caractère localisé dans l'espace (c'est-à-dire discret, généré par une source localisable) ou diffus, et d'autre part, de leur position par rapport à la fenêtre de restitution sonore définie par la position spatiale de référence et par l'emplacement physique des haut-parleurs sur (ou dans) le dispositif de restitution par rapport à cette position spatiale de référence.
  • Cette séparation des objets sonores est mise à profit, conformément à l'invention, en appliquant des traitements de restitution aux objets extraits qui prennent en compte leurs caractères localisés ou diffus, ainsi que les positions des sources à l'origine de ces objets à l'intérieur ou à l'extérieur de la fenêtre de restitution sonore. Autrement dit, l'invention lie les traitements de restitution appliqués aux objets sonores du signal multicanal à restituer, directement aux caractéristiques spatiales de ces objets extraites lors de l'analyse spatiale du signal multicanal.
  • Plus précisément, les objets sonores identifiés au cours de l'étape d'analyse spatiale comme étant diffus ou positionnés à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution, sont avantageusement restitués par l'intermédiaire des haut-parleurs du dispositif de restitution, à l'extérieur de cette fenêtre, via la mise en oeuvre d'un traitement de restitution comprenant la création de sources virtuelles à l'extérieur de cette fenêtre.
  • En revanche, lorsqu'un objet sonore extrait est estimé comme étant localisé et positionné à l'intérieur de la fenêtre spatiale de restitution sonore du dispositif de restitution, le traitement de restitution appliqué à cet objet sonore au cours de l'étape de restitution est préférentiellement apte à restituer cet objet sonore à l'intérieur de la fenêtre spatiale de restitution sonore du dispositif de restitution, à l'emplacement de la source à l'origine de cet objet sonore.
  • Cette restitution à l'intérieur de la fenêtre spatiale de restitution sonore peut se faire de façon directe, en diffusant les objets sonores sur les haut-parleurs du dispositif de restitution sans recourir à des procédés complexes de filtrage spatial. Par exemple, on diffuse l'objet tel quel sur un ou plusieurs haut-parleurs, ou en appliquant simplement un effet panoramique (ou « panning » en anglais) d'intensité. De telles techniques sont connues en soi et relativement simples à mettre en oeuvre.
  • En variante, le traitement de restitution à l'intérieur de la fenêtre spatiale de restitution peut comprendre la création d'une ou de plusieurs sources virtuelles à partir des haut-parleurs du dispositif de restitution, à l'intérieur de la fenêtre spatiale de restitution sonore du dispositif de restitution. Il peut s'agir notamment d'un traitement de type WFS ou dérivé.
  • La direction ou la position des sources virtuelles, ainsi que, le cas échéant, leur amplitude, sont alors déterminées à partir de la position estimée des sources à l'origine des objets sonores localisés extraits du signal multicanal et de leur contribution (ex. en termes de niveau sonore) dans le signal multicanal.
  • Un tel traitement de restitution basé sur la création de sources virtuelles permet de mieux contrôler la directivité des objets sonores ainsi restitués.
  • L'application, au cours de l'étape de restitution, des traitements de restitution précités choisis en fonction des caractéristiques des objets sonores déterminées au cours de l'étape d'analyse spatiale, permet d'éloigner les objets diffus ou en provenance de l'extérieur de la fenêtre de restitution, des objets localisés à l'intérieur de la fenêtre (de tels objets incluent typiquement la voix ou les dialogues).
  • On augmente ainsi la largeur apparente de la scène sonore vue par l'auditeur (ou les auditeurs) situé(s) au niveau de la position spatiale de référence par rapport à la fenêtre de restitution sonore nominale offerte par le dispositif de restitution, fenêtre particulièrement limitée dans le cas d'un dispositif de restitution compact. Autrement dit, en dépit de la compacité du dispositif de restitution, l'auditeur a le sentiment d'être immergé dans la scène sonore (perception d'enveloppement dans la scène sonore).
  • Par ailleurs, outre cet élargissement de la scène sonore perçue par l'auditeur, on établit un contraste plus marqué entre les objets sonores localisés et situés à l'intérieur de la fenêtre de restitution sonore par rapport aux objets diffus ou localisés à l'extérieur de la fenêtre. Les objets localisés et déterminés comme étant positionnés à l'intérieur de la fenêtre de restitution sont, de ce fait, restitués avec une plus grande précision et une meilleure directivité. Le contraste établi par l'invention favorise par conséquent la clarté et l'intelligibilité de ces objets sonores pour l'auditeur à la position de référence.
  • En d'autres mots, l'invention tire profit d'un phénomène bien connu en psycho-acoustique sous le nom d'effet « cocktail party » ou « cocktail party effect » en anglais, qui reflète la capacité du système auditif humain à sélectionner une source sonore dans un environnement bruyant et à traiter des sons même s'ils ne sont pas au coeur de l'objet de l'attention humaine.
  • En liant les caractéristiques des objets sonores extraits du signal audio lors de l'analyse spatiale aux traitements de restitution appliqués au cours de l'étape de restitution pour restituer ces objets sur les haut-parleurs du dispositif de restitution, l'invention permet donc une restitution du signal audio multicanal de très bonne qualité, y compris sur un dispositif de restitution compact, tout en préservant la précision et la clarté des objets sonores du signal localisés et provenant de l'intérieur de la fenêtre de restitution. Elle peut s'appliquer à n'importe quel format de signal multicanal, comme par exemple à un signal stéréo, 5.1, 7.1, 10.2, HOA (Higher Order Ambisonics), etc.
  • Il convient de noter que le traitement réalisé de manière générale par l'invention ne vise pas en soi à modifier les caractéristiques de la scène sonore du signal audio multicanal, mais favorise l'intelligibilité des objets sonores localisés dans la fenêtre de restitution sonore et permet d'immerger l'auditeur dans la scène sonore.
  • Dans une variante de réalisation, l'étape d'analyse spatiale comprend en outre l'estimation de la position de l'objet sonore par rapport au centre de la fenêtre spatiale de restitution sonore du dispositif de restitution.
  • De cette sorte, on peut appliquer, au cours de l'étape de restitution, un traitement de restitution distinct selon si l'objet sonore se trouve au centre de la fenêtre spatiale de restitution sonore ou à une position distincte du centre mais dans la fenêtre spatiale de restitution sonore, de sorte à mieux isoler le centre des autres objets sonores. On obtient ainsi un meilleur contraste et une meilleure intelligibilité du centre par rapport aux autres objets situés à l'intérieur de la fenêtre. On notera que le centre est souvent associé aux objets sonores tels que la voix ou les dialogues.
  • Comme mentionné précédemment, l'invention a une application privilégiée, mais non limitative, lorsque le dispositif de restitution est une enceinte acoustique dans laquelle est disposée la pluralité de haut-parleurs. Une telle enceinte acoustique est par exemple une barre son équipée de plusieurs haut-parleurs.
  • Dans un mode particulier de réalisation de l'invention, l'étape d'analyse spatiale comprend une décomposition du signal audio reçu en une pluralité de sous-bandes fréquentielles, l'extraction dudit au moins un objet sonore étant réalisée sur au moins une sous-bande fréquentielle.
  • Cette décomposition en sous-bandes fréquentielles (ex. en octave, en tiers d'octave ou en bandes auditives) facilite et améliore l'extraction des objets sonores constituant le signal audio. L'analyse spatiale du signal audio est en effet réalisée par sous-bande fréquentielle : on peut ainsi mieux isoler les objets sonores composant le signal audio multicanal. On a notamment la possibilité d'isoler plusieurs objets sonores dans le signal audio multicanal, par exemple un par sous-bande fréquentielle.
  • Selon une variante de réalisation de l'invention, le caractère diffus ou localisé de l'objet sonore extrait est estimé à partir d'au moins une corrélation évaluée entre deux canaux distincts du signal audio multicanal.
  • Par ailleurs, la position de l'objet sonore extrait par rapport à la fenêtre spatiale de restitution sonore peut être estimée à partir d'au moins une différence de niveaux évaluée entre deux canaux distincts du signal audio multicanal.
  • La détermination des caractéristiques associées à chaque objet sonore extrait du signal audio multicanal (i.e. caractère diffus ou localisé, position par rapport à la fenêtre de restitution) peut par conséquent être réalisée de manière très simple, par le biais de calcul de corrélations et de différences de niveaux entre les signaux répartis sur les différents canaux du signal multicanal.
  • Selon une autre variante de réalisation, l'étape d'analyse spatiale comprend la détermination d'un vecteur de Gerzon représentatif du signal audio multicanal.
  • De façon connue de l'homme du métier, le vecteur de Gerzon d'un signal audio multicanal est dérivé à partir des contributions respectives (direction et intensité ou énergie) des différents canaux du signal multicanal à la scène sonore perçue par l'auditeur à la position de référence. La détermination d'un tel vecteur pour un signal audio multicanal est décrite par exemple dans le document US 2007/0269063 .
  • Le vecteur de Gerzon d'un signal audio multicanal reflète la localisation spatiale du signal audio multicanal telle qu'elle est perçue par l'auditeur depuis la position de référence. La détermination de ce vecteur de Gerzon permet de s'affranchir du calcul de corrélations entre les différents canaux du signal multicanal pour déterminer le caractère diffus ou localisé des objets sonores extraits du signal.
  • Selon une autre variante de réalisation, l'étape d'analyse spatiale comprend une décomposition spatiale du signal multicanal en harmoniques sphériques.
  • Une telle décomposition spatiale est connue de l'homme du métier et décrite par exemple dans le document WO 2012/025580 . Elle permet une analyse spatiale très précise du signal audio multicanal et des objets sonores le composant. Ainsi, notamment, plusieurs objets sonores peuvent être déterminés pour une même sous-bande fréquentielle.
  • Différents traitements peuvent être envisagés dans le cadre de l'invention pour la restitution des objets sonores extraits lors de l'analyse spatiale, à l'intérieur ou à l'extérieur de la fenêtre spatiale de restitution.
  • Ainsi, selon une première variante de réalisation de l'invention, dans laquelle la pluralité de haut-parleurs du dispositif de restitution comprend un haut-parleur central et des haut-parleurs latéraux, lorsque l'objet sonore extrait est estimé au cours de l'étape d'analyse spatiale comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution, le traitement de restitution appliqué à cet objet sonore utilise une technique transaurale de restitution de cet objet sonore sur les haut-parleurs latéraux du dispositif de restitution.
  • Cette première variante de réalisation a une application privilégiée dans le cas d'un dispositif de restitution équipé d'un nombre réduit de haut-parleurs, par exemple un haut-parleur central et deux haut-parleurs latéraux.
  • Selon une deuxième variante de réalisation de l'invention dans laquelle la pluralité de haut-parleurs du dispositif de restitution comprend un haut-parleur central et des haut-parleurs latéraux, lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale comme étant localisé et positionné au centre de la fenêtre spatiale de restitution du dispositif de restitution, cet objet sonore est diffusé, au cours de l'étape de restitution, par le traitement de restitution, sur le haut-parleur central du dispositif de restitution.
  • Autrement dit, un objet sonore centré par rapport à la position spatiale de référence est rattaché au centre du dispositif de restitution de sorte à optimiser son intelligibilité. Il est préférentiellement restitué de façon directe (c'est-à-dire sans filtrage spatial) sur le haut-parleur central du dispositif de restitution, de sorte à bénéficier des propriétés de directivité naturelles du haut-parleur central.
  • D'autres techniques de restitution d'un objet sonore centré par rapport à la position spatiale de référence peuvent bien entendu être envisagées pour maximiser son intelligibilité. Ainsi, par exemple, on peut envisager la formation d'un faisceau (aussi connu sous le nom de « beamforming ») dirigé vers la position spatiale de référence ou une technique transaurale.
  • Selon une troisième variante de réalisation, lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale comme étant localisé et positionné à l'intérieur de la fenêtre spatiale de restitution du dispositif de restitution en une position distincte du centre de la fenêtre, le traitement de restitution appliqué au cours de l'étape de restitution diffuse cet objet sonore sur les haut-parleurs du dispositif de restitution en utilisant un effet panoramique d'intensité.
  • Ainsi, les objets sonores localisés et positionnés à l'intérieur de la fenêtre acoustique sont également rattachés au dispositif de restitution, et restitués de manière directe (c'est-à-dire sans filtrage spatial), à l'intérieur de la fenêtre de restitution par le biais de l'effet panoramique d'intensité appliqué sur les haut-parleurs. Cet effet panoramique d'intensité appliqué sur l'ensemble des haut-parleurs du dispositif de restitution permet de mieux distinguer les objets sonores localisés et positionnés à l'intérieur de la fenêtre acoustique des objets sonores situés au centre de la fenêtre.
  • L'invention ne se limite toutefois pas à l'application des traitements de restitution précités ; on peut également recourir à des traitements de restitution plus complexes, mettant en oeuvre notamment un filtrage spatial des objets sonores sur les haut-parleurs du dispositif de restitution.
  • Ainsi, par exemple, lorsque l'objet sonore extrait est estimé au cours de l'étape d'analyse spatiale comme étant positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution, la création d'au moins une source virtuelle à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution peut comprendre la formation d'au moins un faisceau dirigé vers l'extérieur de la fenêtre spatiale de restitution (« beamforming »).
  • De façon similaire, lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale comme étant localisé et positionné à l'intérieur de la fenêtre spatiale de restitution du dispositif de restitution, le traitement de restitution appliqué à cet objet sonore au cours de l'étape de restitution, peut comprendre la formation d'un faisceau dirigé vers la position spatiale de référence.
  • De manière générale, la création de sources virtuelles permet un meilleur contrôle et une meilleure précision de la restitution sonore d'un signal audio qu'une restitution sonore « directe » (i.e. sans filtrage spatial) sur les haut-parleurs du dispositif de restitution, limitée quant à elle par la seule capacité des haut-parleurs du dispositif de restitution. Elle offre en effet la possibilité d'avoir un meilleur contrôle de la directivité des sources sonores reconstituées.
  • Par ailleurs, la formation d'un faisceau (« beamforming ») pour créer une source virtuelle à l'intérieur ou à l'extérieur de la fenêtre de restitution, permet de contrôler aisément la largeur de la source virtuelle ainsi créée. Le « beamforming » est particulièrement bien adapté pour la restitution de signaux sur des réseaux de haut-parleurs denses (ex. dispositif de restitution équipé de 6 haut-parleurs ou plus), pour lesquels on dispose d'une meilleure précision pour créer les sources virtuelles du fait de l'existence d'un nombre plus important de degrés de liberté (lié à la présence d'un nombre de haut-parleurs plus important).
  • On peut en outre, lors de la restitution des objets sonores, interagir plus facilement via l'utilisation de techniques de « beamforming » avec les dimensions de la pièce ou de la salle dans laquelle est placé le dispositif de restitution. Ainsi par exemple, lorsque le faisceau est dirigé vers l'extérieur de la fenêtre de restitution, on peut, en jouant sur la largeur du faisceau, élargir la surface réfléchie par les murs de la pièce et créer pour l'auditeur une meilleure sensation d'enveloppement dans la scène sonore.
  • Dans un mode particulier de réalisation, les différentes étapes du procédé de restitution sont déterminées par des instructions de programmes d'ordinateur.
  • En conséquence, l'invention vise aussi un programme sur un support d'informations, ce programme étant susceptible d'être mis en oeuvre dans un système de restitution ou plus généralement dans un ordinateur, ce programme comportant des instructions adaptées à la mise en oeuvre des étapes d'un procédé de restitution tel que décrit ci-dessus.
  • Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
  • L'invention vise aussi un support d'informations lisible par un ordinateur ou par un microprocesseur, et comportant des instructions d'un programme tel que mentionné ci-dessus.
  • Le support d'informations peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy disc) ou un disque dur.
  • D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
  • Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.
  • Selon un autre aspect, l'invention vise également une enceinte acoustique comprenant un système de restitution conforme à l'invention.
  • On peut également envisager, dans d'autres modes de réalisation, que le procédé, le système de restitution et l'enceinte acoustique selon l'invention présentent en combinaison tout ou partie des caractéristiques précitées.
  • Brève description des dessins
  • D'autres caractéristiques et avantages de la présente invention ressortiront de la description faite ci-dessous, en référence aux dessins annexés qui en illustrent des exemples de réalisation dépourvus de tout caractère limitatif.
  • Sur les figures :
    • la figure 1 représente un système de restitution conforme à l'invention, dans un mode particulier de réalisation ;
    • les figures 2, 3A et 3B illustrent des exemples de fenêtres spatiales de restitution sonore pour divers dispositifs de restitution et positions de référence ;
    • la figure 4 représente schématiquement l'architecture matérielle du système de restitution de la figure 1 ; et
    • la figure 5 représente les principales étapes d'un procédé de restitution selon l'invention, telles qu'elles sont mises en oeuvre, dans un mode particulier de réalisation, par le système de restitution de la figure 1.
    Description détaillée de l'invention
  • La figure 1 représente, dans son environnement, un système de restitution 1 d'un signal audio S multicanal sur un dispositif 2 de restitution, conforme à l'invention, dans un mode particulier de réalisation.
  • Le dispositif 2 de restitution est équipé d'une pluralité de haut-parleurs 2-1, 2-2, ..., 2-N (N>1). Il s'agit, dans l'exemple représenté sur la figure 1, d'un dispositif de restitution compact.
  • Plus précisément, le dispositif 2 de restitution est ici une enceinte acoustique compacte, autrement dit une structure monobloc ou boîte fermée unique, intégrant l'ensemble des haut-parleurs 2-1, 2-2, ..., 2-N.
  • Le dispositif de restitution 2 est par exemple une barre de son montée horizontale, de longueur n'excédant pas un ou deux mètres, à l'intérieur de (ou sur) laquelle sont disposés, à des emplacements fixes et rapprochés les uns des autres (à moins de 50cm les uns des autres), les haut-parleurs 2-1, 2-2,..., 2-N.
  • Ces hypothèses ne sont toutefois pas limitatives, et l'invention s'applique également à d'autres types de dispositifs de restitution. Ainsi, notamment l'invention s'applique aussi à un dispositif de restitution compact modulaire constitué de plusieurs éléments séparés intégrant chacun un ou plusieurs haut-parleurs.
  • Il convient de noter que la notion de dispositif de restitution compact est connue de l'homme du métier : un dispositif de restitution compact désigne en effet un dispositif de petites dimensions, notamment par rapport aux dimensions de la pièce ou de la salle dans laquelle on envisage la restitution du signal audio à l'aide de ce dispositif, et sur ou dans lequel les haut-parleurs sont montés relativement proches les uns des autres. A titre illustratif, la plus grande dimension d'un dispositif de restitution compact n'excède pas en général 2 mètres, tandis que les haut-parleurs sont montés sur le dispositif de restitution avec un espacement inférieur à 50 cm.
  • L'emplacement physique des haut-parleurs 2-1, 2-2, ..., 2-N définit, de façon connue, une fenêtre spatiale W de restitution sonore par rapport à une position dite de référence notée Pref, placée devant le dispositif de restitution 2 (par rapport notamment à l'orientation de tout ou partie des haut-parleurs et à la diffusion des sons), et modélisant la position d'un auditeur dans l'espace pris comme référence pour optimiser la restitution du signal audio S.
  • Le choix à proprement parler de la position de référence Pref dépend de plusieurs facteurs connus de l'homme du métier, et ne sera pas décrit ici. Pour un dispositif de restitution compact, cette position de référence Pref est choisie généralement ponctuelle.
  • La figure 2 illustre la fenêtre spatiale W de restitution sonore définie par les haut-parleurs 2-1, 2-2, ..., 2-N du dispositif de restitution 2 et la position de référence Pref.
  • De façon connue, l'emplacement physique des haut-parleurs 2-1, 2-2, ..., 2-N sur le dispositif de restitution 2 (et plus précisément des deux haut-parleurs 2-1 et 2-N situés aux extrémités du dispositif de restitution 2), associé à la position de référence Pref, définissent une ouverture angulaire Ω de restitution sonore.
  • Le sous-espace délimité par cette ouverture angulaire Ω correspond à la fenêtre spatiale W de restitution sonore associée au dispositif de restitution 2 et à la position de référence Pref.
  • Il convient de noter que :
    • la fenêtre W dépend de la position de référence Pref. Dans l'exemple de la figure 2, la position Pref est alignée par rapport au centre du dispositif de restitution 2, de sorte que la fenêtre spatiale W est définie par l'excursion angulaire Ω/2 par rapport à l'axe Δ reliant le centre du dispositif 2 de restitution à la position de référence Pref ; et
    • seul l'emplacement physique des haut-parleurs du dispositif de restitution 2 (et notamment des haut-parleurs situés aux extrémités du dispositif de restitution 2) par rapport à la position Pref est prise en compte dans la notion de fenêtre spatiale de restitution sonore. On ne s'attache pas à la puissance des haut-parleurs du dispositif de restitution 2 ou à d'autres caractéristiques qui pourraient influencer leur capacité à restituer un signal audio.
  • Les figures 3A et 3B illustrent respectivement, à titre d'exemples :
    • la fenêtre spatiale W' de restitution sonore d'un dispositif de restitution 2' de type barre de son montée horizontale, muni de trois haut-parleurs 2-1', 2-2', 2-3' par rapport à une position spatiale Pref' de référence étendue ; et
    • la fenêtre spatiale W" de restitution sonore d'un dispositif de restitution 2" muni de 8 haut-parleurs 2-1", 2-2", ..., 2-8" par rapport à une position spatiale Pref" de référence ponctuelle, les haut-parleurs 2-1" à 2-4" étant frontaux tandis que les haut-parleurs 2-5", 2-6" et 2-7", 2-8" sont disposés de chaque côté du dispositif de restitution 2".
  • Comme mentionné précédemment, l'invention propose un traitement d'un signal audio multicanal en deux temps : dans un premier temps, le signal audio multicanal à restituer est analysé spatialement ; puis, les caractéristiques spatiales du signal résultant de cette analyse spatiale sont utilisées pour optimiser la restitution du signal sur le dispositif de restitution 2.
  • Ainsi, le système 1 de restitution selon l'invention comprend :
    • des moyens 3 d'analyse spatiale du signal audio S multicanal comprenant notamment des moyens d'extraction d'au moins un objet sonore du signal, et d'estimation, pour chaque objet sonore extrait, d'un caractère diffus ou localisé de cet objet sonore, et d'une position de cet objet sonore par rapport à la fenêtre spatiale W de restitution sonore du dispositif de restitution 2 (l'extraction des objets sonores et l'estimation de leurs caractéristiques sont en général réalisées conjointement) ; et
    • des moyens 4 de restitution du signal S audio sur la pluralité de haut-parleurs 2-1, ..., 2-N du dispositif de restitution 2, aptes à appliquer à chaque objet sonore extrait du signal audio, un traitement de restitution sur au moins un haut-parleur de la pluralité de haut-parleurs du dispositif de restitution 2-1, ..., 2-N, ce traitement de restitution dépendant du caractère diffus ou localisé de l'objet sonore et de sa position par rapport à la fenêtre spatiale de restitution sonore estimés au cours de l'étape d'analyse spatiale.
  • Plus précisément, dans l'exemple envisagé ici, les moyens 4 de restitution sont aptes à appliquer les traitements de restitution T-A1, T-A2, T-B et T-C, sur les objets sonores extraits du signal S, en fonction des caractéristiques déterminées par les moyens 3 d'analyse spatiale. Aucune limitation n'est toutefois attachée au nombre de traitements différents pouvant être appliqués par le système 1 de restitution.
  • Il convient de noter que les traitements T-A1, T-A2, T-B et T-C, bien que dépendant des caractéristiques des objets sonores extraits, peuvent être de même nature (c'est-à-dire basés sur les mêmes techniques, comme par exemple une technique WFS ou « beamforming »). Toutefois, ils sont adaptés aux caractéristiques spatiales des objets sonores auxquels ils sont appliqués et diffèrent en ce sens les uns des autres. Ainsi par exemple, ils ne diffusent pas les signaux sur les mêmes haut-parleurs, n'envisagent pas la création de sources virtuelles dans les mêmes sous-espaces (ou ayant des caractéristiques similaires en termes de position/direction et/ou d'amplitude), les faisceaux créés peuvent être dimensionnés différemment (ex. de largeurs différentes), etc.
  • Ainsi, les moyens 4 de restitution comprennent ici :
    • des moyens de traitement 4A aptes à appliquer un ou plusieurs traitements de restitution sur les objets sonores du signal audio S déterminés comme étant localisés et dans la fenêtre W de restitution sonore. Dans l'exemple envisagé à la figure 1, les moyens de traitement 4A sont aptes à appliquer un traitement T-A1 sur les objets sonores générés par des sources placées au centre de la fenêtre W, et un traitement T-A2 sur les objets sonores placés à l'intérieur de la fenêtre W en une position distincte du centre ;
    • des moyens de traitement 4B aptes à appliquer un traitement T-B sur les objets sonores du signal audio S déterminés comme diffus ; et
    • des moyens de traitement 4C aptes à appliquer un traitement T-C sur les objets sonores du signal audio S déterminés comme localisés et à l'extérieur de la fenêtre W de restitution sonore.
  • Les traitements de restitution T-A1, T-A2, T-B et T-C seront décrits plus en détails ultérieurement et illustrés par des exemples.
  • Dans le mode de réalisation décrit ici, les moyens 3 d'analyse spatiale et les moyens 4 de restitution du signal audio sont des moyens logiciels.
  • Plus précisément, dans le mode de réalisation décrit ici, le système de restitution 1 dispose de l'architecture matérielle d'un ordinateur, telle qu'illustrée à la figure 4 .
  • Il comporte notamment un processeur (ou micro-processeur) 5, une mémoire vive 6, une mémoire morte 7, une mémoire flash non volatile 8 ainsi que des moyens de communication 9 aptes à émettre et à recevoir des signaux.
  • Ainsi, les moyens de communication 9 comprennent d'une part, une interface (filaire ou sans fil) avec les haut-parleurs 2-1, ..., 2-N du dispositif de restitution 2, ainsi que des moyens de réception d'un signal audio multicanal, tel que le signal S par exemple. Ces moyens sont connus de l'homme du métier et ne seront pas décrits davantage ici.
  • La mémoire morte 7 du système 1 de restitution constitue un support d'enregistrement conforme à l'invention, lisible par le (micro-)processeur 5 et sur lequel est enregistré un programme d'ordinateur conforme à l'invention, comportant des instructions pour l'exécution des étapes d'un procédé de restitution décrites ultérieurement en référence à la figure 5.
  • Il convient de noter qu'aucune limitation n'est attachée à la nature à proprement parler du système 1 de restitution. Ainsi, notamment, le système 1 de restitution peut se présenter sous la forme d'un ordinateur ou en variante d'une puce électronique ou d'un circuit intégré, dans lequel le programme d'ordinateur comprenant les instructions pour l'exécution du procédé de restitution selon l'invention est incorporé.
  • Par ailleurs, le système 1 de restitution peut être une entité distincte du dispositif 2 de restitution, ou au contraire, être intégré à l'intérieur du dispositif 2 de restitution.
  • Nous allons maintenant décrire, en référence à la figure 5 , les différentes étapes du procédé de restitution selon l'invention, dans un mode particulier de réalisation dans lequel il est mis en oeuvre par le système 1 de restitution pour la restitution du signal audio S multicanal sur les haut-parleurs 2-1, ..., 2-N du dispositif 2 de restitution.
  • On suppose que le signal audio S multicanal est fourni au système 1 de restitution par l'intermédiaire de ses moyens de communication 9. Le format et la structure d'un tel signal audio est connue de l'homme du métier et ne sera pas décrite ici.
  • Sur réception du signal S (étape E10), le système 1 de restitution initie une première phase ∑I d'analyse spatiale du signal S réalisée à l'aide de ses moyens 3 d'analyse spatiale.
  • Plus précisément, dans le mode de réalisation décrit ici, au cours de cette première phase ∑I, le système 1 de restitution décompose le signal S multicanal en une pluralité K de sous-bandes fréquentielles désignées par BW1, ..., BWK (étape E20), chaque sous-bande fréquentielle BWi, i=1, ..., K intégrant les différents canaux composant le signal S. Autrement dit, le signal noté Si résultant de la décomposition du signal S et associé à la sous-bande fréquentielle BWi est lui-même un signal multicanal.
  • Aucune limitation n'est attachée à la largeur de chaque sous-bande : on peut par exemple envisager une décomposition en octave, en tiers d'octave, ou encore en bandes auditives (i.e. adaptées à l'audition), en fonction d'un compromis complexité/précision notamment.
  • La décomposition en sous-bandes fréquentielles du signal S est effectuée par l'intermédiaire d'une transformation de Fourier appliquée au signal S, et ne présente pas de difficulté en soi pour l'homme du métier.
  • Suite à cette décomposition, le système 1 de restitution analyse les signaux Si, i=1, ..., K associés à chaque sous-bande fréquentielle BWi, i=1, ..., K.
  • Durant cette analyse, pour chaque sous-bande fréquentielle BWi, il extrait les objets sonores compris dans le signal Si (c'est-à-dire de manière équivalente les sons ou les éléments sonores présents dans le signal Si), et estime, pour chaque objet sonore extrait (étape E30) :
    • s'il s'agit d'un objet localisé (l'objet est créé par une source localisée et identifiable dans l'espace) ou diffus (i.e. l'objet ne vient pas d'une source localisable, mais semble provenir de tout autour l'auditeur) ; et
    • lorsqu'il s'agit d'un objet localisé, sa position (i.e. la position de la source à l'origine de cet objet) par rapport à la fenêtre spatiale W de restitution sonore.
  • Dans le mode de réalisation décrit ici, les amplitudes des objets sonores extraits sont contenues directement dans les signaux Si, et correspondent respectivement aux niveaux des sous-bandes fréquentielles.
  • L'extraction des objets sonores et l'estimation des caractéristiques précitées de chaque objet (localisé/diffus, position par rapport à la fenêtre spatiale W) sont réalisées conjointement par les moyens 3 d'analyse spatiale.
  • Différentes techniques peuvent être utilisées à cette fin par les moyens 3 du système 1 de restitution.
  • Ainsi, selon une première variante de réalisation de l'invention, les moyens 3 d'analyse spatiale du système 1 de restitution mettent en oeuvre une analyse temporelle du signal multicanal Si.
  • Lors de cette analyse temporelle, le système 1 de restitution évalue, pour chaque paire de canaux distincts du signal multicanal Si, la corrélation normalisée entre ces canaux (i.e. entre les signaux représentatifs des canaux), définie par l'équation suivante : R x , y p = { 1 M m = 0 M p 1 x m + p y * m pour p 0 R x , y * p pour p < 0
    Figure imgb0001
    où x et y désignent respectivement deux canaux distincts du signal multicanal Si, [.]* désigne l'opérateur de conjugaison complexe, et M est une constante définissant le nombre d'échantillons de signal sur lequel la corrélation est évaluée.
  • De façon alternative, lors de l'analyse temporelle, le système 1 de restitution peut se contenter d'évaluer une corrélation normalisée entre deux canaux distincts du signal multicanal Si pour une sélection seulement de paires de canaux prédéterminés du signal Si.
  • Par exemple, pour un signal multicanal de format 5.1, composé d'un centre à 0°, de canaux gauche L et droite R situés à +/- 30° par rapport au centre, et de canaux arrière gauche Ls et arrière droit Rs situés à +/-110° par rapport au centre, cette sélection peut comprendre uniquement quatre paires de canaux, à savoir, la paire constituée des canaux L et R, la paire constituée des canaux Ls et Rs, la paire constituée des canaux L et Ls et la paire constituée des canaux R et Rs.
  • Chaque corrélation Rx,y ainsi évaluée est ensuite comparée à un seuil prédéfini noté THR.
  • Si la corrélation est supérieure au seuil THR, le système 1 de restitution estime que le signal Si (et donc a fortiori le signal S) contient un objet sonore localisé.
  • Au contraire, si la corrélation est inférieure au seuil THR, le système 1 de restitution estime que le signal Si contient un objet sonore diffus.
  • La valeur du seuil THR est déterminée de façon empirique : elle est choisie préférentiellement entre 0.5 et 0.8.
  • On peut donc ainsi extraire autant d'objets sonores du signal Si que de paires de canaux examinées ou de façon équivalente, que de corrélations évaluées entre les canaux du signal Si.
  • Lorsqu'un objet sonore est estimé comme localisé par le système 1 de restitution, celui-ci estime la position de cet objet sonore par rapport à la fenêtre spatiale W de restitution sonore (par définition, un objet diffus n'a pas de position précise ou identifiable dans l'espace. Il n'est donc pas nécessaire d'estimer sa position par rapport à la fenêtre W spatiale de restitution).
  • A cet effet, le système 1 de restitution estime ici la fenêtre spatiale W de restitution à partir de la position de référence Pref et des emplacements physiques des haut-parleurs du dispositif 2 de restitution.
  • La fenêtre spatiale W peut être déterminée géométriquement par le système 1 de restitution, en termes d'excursion angulaire par rapport à l'axe Δ passant par le centre du dispositif 2 de restitution et la position de référence Pref, à partir de la connaissance de la position Pref et des emplacements physiques des haut-parleurs du dispositif 2 placés aux extrémités (i.e. 2-1 et 2-N). Dans l'exemple représenté à la figure 2, la fenêtre spatiale W est associée par le système 2 de restitution à une excursion angulaire de Ω/2 par rapport à l'axe Δ.
  • La position Pref et les emplacements physiques des haut-parleurs du dispositif peuvent être préalablement configurés dans la mémoire flash 7 non volatile du système 1 de restitution, par exemple lors de la construction du système 1 de restitution si celui-ci est intégré dans le dispositif 2 ou lors d'une étape préalable de configuration du système 1 de restitution.
  • En variante, la fenêtre W peut être estimée par le système 1 de restitution à l'aide d'une technique similaire ou identique à celle décrite dans le document d'E. Corteel intitulé « Equalization in extended area using multichannel inversion and wave field synthesis », Journal of the Audio Engineering Society n°54(12), décembre 2006, lorsque la position Pref est une zone étendue.
  • D'autres techniques connues de l'homme du métier peuvent bien entendu être utilisées en variante des deux techniques précitées. Par ailleurs, dans une autre variante encore, la fenêtre spatiale W peut être prédéterminée, et stockée par exemple dans la mémoire flash 7 non volatile du système 1 de restitution.
  • Le système 1 de restitution évalue également, pour chaque paire de canaux distincts du signal Si, la différence de niveaux (ou d'énergie), entre ces canaux, par exemple en décibels, selon l'équation suivante : 10 log 10 p = p 0 P x 2 p p = p 0 P y 2 p
    Figure imgb0002
    où x et y désignent respectivement deux canaux distincts du signal multicanal Si, ||x|| désigne la norme du signal x, P et p0 désignant des constantes encadrant le nombre d'échantillons de signal sur lequel l'énergie est évaluée.
  • Les différences de niveaux ainsi obtenues lui permettent de déterminer la direction de l'objet localisé par rapport à la position de référence.
  • Cette direction est évaluée ici en termes d'excursion angulaire par rapport à l'axe Δ.
  • A cette fin, le système 1 de restitution associe à une différence de niveaux prédéfinie entre deux canaux, par exemple -30dB (respectivement de 30dB), une direction de l'objet sonore de 90° (respectivement de -90°) par rapport à l'axe Δ. Les directions comprises entre -90° et 90° sont ensuite estimées à partir d'une fonction d'interpolation croissante (ex. une fonction linéaire croissante) définie entre les deux valeurs -90° et 90°.
  • Le système 1 de restitution compare ensuite la direction de l'objet sonore ainsi évaluée par rapport à l'excursion angulaire Ω/2 définissant la fenêtre spatiale W, afin de déterminer si l'objet se trouve à l'intérieur ou à l'extérieur de la fenêtre spatiale W : ainsi, un objet sonore pour lequel on a estimé une direction en valeur absolue supérieure à Ω/2 par rapport à l'axe Δ, est considéré par le système 1 comme à l'extérieur de la fenêtre spatiale W, tandis qu'un objet sonore pour lequel on a estimé une direction en valeur absolue inférieure ou égale à Ω/2 par rapport à l'axe Δ, est considéré par le système 1 comme étant positionné à l'intérieur de la fenêtre spatiale W.
  • Dans le mode de réalisation décrit ici, le système 1 de restitution utilise également la direction estimée de l'objet sonore pour déterminer si cet objet se trouve au centre de la fenêtre spatiale W (à un delta de précision près), afin de mieux distinguer lors de la restitution, les objets situés au centre de la fenêtre W des autres objets situés dans la fenêtre W (étape E40).
  • Ainsi, un objet est considéré par le système 1 de restitution comme étant positionné au centre de la fenêtre spatiale W si sa direction est comprise dans un intervalle [0 ; δ] autour de l'axe Δ, où δ désigne un angle prédéfini, par exemple 2.5°.
  • Cette étape est toutefois optionnelle.
  • Des techniques alternatives peuvent être utilisées en variante pour extraire les objets sonores des signaux Si et estimer leurs caractéristiques (caractère diffus ou localisé, direction et position par rapport à la fenêtre W, et le cas échéant, amplitude) au cours des étapes E30 et E40.
  • Ainsi selon une deuxième variante de réalisation, la phase d'analyse spatiale ∑I comprend la détermination d'un vecteur de Gerzon représentatif de chaque signal Si audio multicanal (un vecteur est estimé pour chaque sous-bande fréquentielle BWi).
  • De façon connue de l'homme du métier, le vecteur de Gerzon d'un signal audio multicanal est dérivé à partir des contributions respectives (direction et intensité ou énergie) des différents canaux du signal multicanal à la scène sonore perçue par l'auditeur situé à la position de référence Pref. La détermination d'un tel vecteur pour un signal audio multicanal (ou de façon équivalente d'un vecteur de Gerzon normalisé) est décrite dans le document US 2007/0269063 et ne sera pas décrite plus en détail ici. On suppose ici que dans la deuxième variante de réalisation, le système 1 de restitution procède de manière identique à celle décrite dans ce document.
  • Le vecteur de Gerzon d'un signal audio multicanal reflète la localisation spatiale du signal audio multicanal telle qu'elle est perçue par l'auditeur depuis la position de référence. La détermination de ce vecteur de Gerzon permet de s'affranchir du calcul de corrélations entre les différents canaux du signal multicanal pour déterminer le caractère diffus ou localisé des objets sonores extraits du signal, et la position de ces objets par rapport à le fenêtre spatiale W.
  • Comme décrit dans le document US 2007/0269063 , le vecteur de Gerzon associé à un signal multicanal Si s'écrit sous la forme d'un vecteur directif, donnant la direction de l'objet sonore associée à la sous-bande fréquentielle BWi, et d'un vecteur non directif (i.e. diffus).
  • Autrement dit, à partir des vecteurs de Gerzon associés aux signaux Si, le système 1 de restitution sonore est capable d'extraire les objets sonores localisés et diffus composant le signal S, et de déterminer la position des objets localisés par rapport à la fenêtre spatiale W (à partir de la direction des vecteurs de Gerzon, et notamment des vecteurs « directifs »), ainsi que leur amplitude (déterminée à partir de la norme des vecteurs de Gerzon et de la contribution des vecteurs directif/non directif).
  • Il procède à cet effet de manière similaire à celle décrite pour l'analyse temporelle des signaux Si, par comparaison de la norme des vecteurs par rapport à un ou plusieurs seuils prédéfinis, et de leur direction par rapport à l'excursion angulaire Ω/2.
  • Plus précisément, pour chaque vecteur de Gerzon normalisé, la norme du vecteur directif et la norme du vecteur non directif sont comparées à un seuil dit inférieur, noté THR_inf, et à un seuil dit supérieur, noté THR_sup :
    • si les normes des vecteurs directif et non directif du vecteur de Gerzon normalisé sont toutes les deux comprises entre THR_inf et THR_sup, les deux objets sonores (i.e. l'objet localisé correspondant au vecteur directif et l'objet diffus correspondant au vecteur non directif) sont extraits et restitués ;
    • si, en revanche, l'un des vecteurs a une norme supérieure à THR_sup, seul l'objet correspondant à ce vecteur est extrait et restitué (i.e. on restitue uniquement un objet localisé ou un objet totalement diffus).
  • Les seuils THR_inf et THR_sup sont choisis de manière empirique, en fonction du compromis complexité versus perception de l'auditeur souhaité. Par exemple, THR_inf = 0.3 et THR_sup = 0.7 pour des amplitudes normalisées.
  • L'amplitude associée à chaque objet sonore ainsi extrait est alors dérivée de l'amplitude du vecteur directif ou non directif correspondant.
  • De façon alternative, les objets diffus et localisé donnés par le vecteur non directif et le vecteur directif dérivés du vecteur de Gerzon sont extraits tous les deux (pas de comparaison préalable par rapport à un seuil pour estimer si la contribution de l'un et/ou l'autre est suffisamment significative pour être restituée) afin d'être restitués sur les haut-parleurs du dispositif 2 de restitution.
  • La direction des vecteurs (i.e. directifs) correspondant aux objets sonores extraits est ensuite comparée par rapport à l'excursion angulaire Ω/2, afin de déterminer leur position par rapport à la fenêtre W.
  • Par ailleurs, de façon similaire à l'analyse temporelle, le système 1 de restitution peut identifier les objets situés au centre de la fenêtre spatiale W, de sorte à mieux les distinguer lors de la restitution par rapport aux autres objets localisés à l'intérieur de la fenêtre spatiale W.
  • Il convient de noter que les techniques d'analyse s'appuyant sur la détermination des vecteurs de Gerzon n'offrent pas la possibilité d'extraire plus d'un objet sonore localisé par sous-bande fréquentielle.
  • Pour remédier à cette limitation, dans une troisième variante de réalisation de l'invention, les moyens 3 d'analyse spatiale du système 1 de restitution mettent en oeuvre, pour extraire les objets sonores des signaux Si et estimer leurs caractéristiques au cours des étapes E30 et E40, une technique s'appuyant sur une décomposition spatiale de chaque signal multicanal Si en harmoniques sphériques.
  • De façon connue, pour chaque bande de fréquence, le champ sonore p(r,ω) dérivé de chaque signal multicanal Si peut être décomposé selon le formalisme des harmoniques sphériques, de la façon suivante : p r ω = n = 0 + i n j n kr m = n n B mn ω Y mn ϕ θ ,
    Figure imgb0003
    Ymn (ϕ,θ) désigne l'harmonique sphérique de degré m et d'ordre n définie par : Y mn ϕ θ = 2 n + 1 ε n n m ! n + m ! P mn sin θ × { cos si m 0 sin si m < 0 ,
    Figure imgb0004
    Bmn (ω) désigne le coefficient (à la fréquence ω) associé à l'harmonique sphérique Ymn (ϕ,θ) dans la décomposition, et : i 2 = 1 ,
    Figure imgb0005
    k est une constante, ε n = { 1 si n = 0 2 sinon
    Figure imgb0006
    jn (kr) est une fonction sphérique de Bessel de première espèce d'ordre n, Pmn (sinθ) est la fonction de Legendre associée définie par : P mn sin θ = dP n sin θ d sin θ m
    Figure imgb0007
    Pn (sinθ) désigne le polynôme de Legendre de première espèce d'ordre n.
  • Dans le cas particulier d'une onde plane de magnitude 0pw en provenance d'une direction (ϕpwpw ), les coefficients Bmn (ω) de la décomposition en harmoniques sphériques sont donnés par : B mn ω = O pw 4 π
    Figure imgb0008
    et sont indépendants de la fréquence.
  • Ainsi, dans cette troisième variante de réalisation, les moyens 3 d'analyse spatiale appliquent par exemple la technique d'extraction des objets sonores d'un signal multicanal à partir de sa décomposition spatiale en harmoniques sphériques décrite dans le document WO 2012/025580 .
  • Cette technique s'appuie sur une représentation de la matrice B(ω,t), construite à partir des coefficients Bmn (ω) de la décomposition en harmoniques sphériques auxquels on a appliqué une transformée de Fourier STFT (pour « Short Time Fourier Transform ») à l'instant t, sous la forme d'une somme de deux termes, i.e., un premier terme modélisant les objets sonores localisés compris dans le signal Si, et un second terme modélisant les objets sonores diffus.
  • Les directions des objets sonores localisés sont obtenues à partir de matrice de corrélation SBB (ω,t) = E{B(ω,t)BH (ω,t)}.
  • Une fois les objets sonores localisés extraits, leur contribution est retranchée du signal Si de sorte à obtenir, le cas échéant, les objets sonores diffus contenus dans le signal. Comme dans la deuxième variante basée sur la représentation du signal selon un vecteur de Gerzon, des seuils inférieur et supérieur peuvent être introduits pour se limiter à l'extraction d'objets sonores d'amplitude suffisante.
  • L'amplitude associée aux objets sonores localisés est déterminée à partir de la somme des coefficients d'harmoniques sphériques associés à ces objets en fonction de la direction estimée. L'amplitude des objets diffus est estimée à partir des coefficients des harmoniques sphériques résiduels obtenus après avoir retranché la contribution des objets sonores localisés.
  • Cette technique étant décrite dans le détail dans le document WO 2012/025580 , elle ne sera pas détaillée davantage ici.
  • Pour déterminer la position des objets sonores localisés par rapport à la fenêtre spatiale W, le système 1 de restitution procède de manière similaire à celle décrite dans la première variante pour l'analyse temporelle des signaux Si, par comparaison de leur direction par rapport à l'excursion angulaire Ω/2.
  • Par ailleurs, de façon similaire à l'analyse temporelle, le système 1 de restitution peut identifier les objets situés au centre de la fenêtre spatiale W, de sorte à mieux les distinguer lors de la restitution par rapport aux autres objets localisés à l'intérieur de la fenêtre spatiale W.
  • Il convient de noter que dans le mode de réalisation décrit ici (quelle que soit la technique retenue pour l'analyse spatiale), le système 1 de restitution ne s'attache pas à proprement parler à la position des objets sonores extraits des signaux Si par rapport au dispositif 2 de restitution, i.e., il n'établit pas de distinction entre les objets sonores selon si ceux-ci se situent derrière ou devant le dispositif 2 de restitution par rapport à la position de référence Pref. De façon alternative, l'analyse spatiale effectuée par le système 1 de restitution peut se limiter aux objets sonores situés derrière le dispositif 2 de restitution, quelle que soit la technique d'analyse spatiale retenue parmi les techniques précitées notamment.
  • Par ailleurs, dans le mode de réalisation décrit ici, une décomposition en sous-bandes fréquentielles du signal multicanal S est réalisée, puis le système 1 de restitution examine chaque sous-bande fréquentielle pour extraire les objets sonores du signal multicanal S. Ceci permet d'extraire plus précisément les objets sonores constituant le signal S (on peut identifier plus d'objets sonores notamment). Toutefois, cette hypothèse n'est pas limitative et on pourrait envisager dans le cadre de l'invention de travailler directement sur le signal multicanal S sans réaliser de décomposition en sous-bandes fréquentielles.
  • A l'issue de l'analyse spatiale ∑I, le système 1 de restitution a extrait et identifié plusieurs catégories d'objets sonores dans le signal multicanal S, à savoir :
    • une première catégorie d'objets sonores, notée OBJLocIntW, regroupant les objets sonores localisés et situés à l'intérieur de la fenêtre spatiale W ;
    • une deuxième catégorie d'objets sonores, notée OBJLocExtW, regroupant les objets sonores localisés et situés à l'extérieur de la fenêtre spatiale W ; et
    • une troisième catégorie d'objets sonores, notée OBJDiff, regroupant les objets sonores diffus.
  • Le système 1 de restitution dispose par ailleurs, pour la première et la deuxième catégorie d'objets sonores, de la position de ces objets dans la fenêtre spatiale W.
  • Dans le mode de réalisation décrit ici, le système 1 de restitution a également identifié, au sein de la catégorie d'objets sonores OBJLocIntW, les objets sonores en provenance de sources positionnées au centre de la fenêtre spatiale W.
  • L'ensemble de ces informations est par exemple stocké dans la mémoire vive 6 ou dans la mémoire flash 7 non volatile du système 1 de restitution afin de pouvoir être utilisé en temps réel.
  • Comme mentionné précédemment, conformément à l'invention, selon une seconde phase ∑II dite de restitution du signal audio multicanal S, le système 1 va restituer les objets sonores extraits du signal S en fonction de leur catégorie, et des caractéristiques de ces objets déterminées au cours des étapes E30 et E40.
  • Plus précisément, dans le mode de réalisation décrit ici, les moyens 4 de restitution du système 1 de restitution appliquent quatre traitements distincts T-A1, TA-2, T-B et T-C sélectionnés en fonction des caractéristiques des objets sonores extraits par les moyens 3 d'analyse spatiale du système 1 de restitution au cours de la phase ∑I (étape E50).
  • Ainsi, dans le mode de réalisation décrit ici, les objets sonores identifiés comme appartenant à la première catégorie OBJLocIntW, sont restitués par les moyens 4 de restitution (et plus précisément par les moyens 4A), en appliquant les traitements TA1 ou T-A2 selon s'ils sont situés respectivement au centre ou non de la fenêtre spatiale W (étape E51).
  • Conformément à l'invention, les traitements T-A1 et T-A2 restituent les objets sonores de la catégorie OBJLocIntW à l'intérieur de la fenêtre spatiale W.
  • Différents types de traitements T-A1 et T-A2 peuvent être envisagés pour une telle restitution. Ces traitements peuvent mettre en oeuvre ou non un filtrage des objets sonores avant leur diffusion sur tout ou partie des haut-parleurs du dispositif 2 de restitution.
  • Ainsi, par exemple, lorsque le dispositif 2 de restitution comprend un haut-parleur central et des haut-parleurs latéraux :
    • le traitement T-A1 peut être apte à diffuser les objets sonores extraits du signal S identifiés au centre de la fenêtre spatiale W, directement sur le haut-parleur central du dispositif 2 ; et
    • le traitement de restitution T-A2 peut être apte à diffuser les objets sonores extraits du signal S et positionnés à une position distincte du centre de la fenêtre spatiale W sur l'ensemble des haut-parleurs du dispositif 2 de restitution en utilisant un effet panoramique d'intensité, choisi de sorte à préserver la position des objets sonores perçue par l'auditeur à la position de référence.
  • En variante, les traitements de restitution T-A1 et/ou T-A2 appliqué sur les objets sonores localisés à l'intérieur de la fenêtre spatiale W peuvent être des traitements plus complexes de filtrage spatial comprenant par exemple la création de sources virtuelles 10 à partir des haut-parleurs du dispositif 2 de restitution à l'intérieur de la fenêtre spatiale W, les sources virtuelles étant positionnées en accord avec les caractéristiques des objets sonores estimées aux étapes E30 et/ou E40 (c'est-à-dire dans les directions et le cas échéant, selon les amplitudes estimées aux étapes E30 et E40).
  • La création de sources virtuelles à partir de haut-parleurs d'un dispositif de restitution est connue de l'homme du métier et ne sera pas décrite ici. Un traitement de restitution comprenant la création de sources virtuelles aux positions identifiées lors des étapes E30 et/ou E40 est par exemple un traitement de synthèse de champ acoustique aussi appelé traitement WFS connu de l'homme du métier ou une technique de formation de faisceau (ou « beamforming » en anglais), le faisceau étant dirigé par exemple vers la position de référence.
  • Les objets sonores appartenant respectivement aux catégories OBJLocExtW et OBJDiff sont restitués à l'extérieur de la fenêtre spatiale W par les moyens 4 de restitution (respectivement par les moyens 4-B et 4-C), en appliquant les traitements T-B et T-C (étapes E52 et E53).
  • Plus précisément, conformément à l'invention, les traitements de restitution T-B et T-C comprennent la création d'au moins une source virtuelle 11, 12 à l'extérieur de la fenêtre spatiale W de restitution du dispositif 2 de restitution.
  • Pour les objets sonores de la catégorie OBJLocExtW (étape E52), ces sources virtuelles 11 sont reconstituées à partir des positions des objets sonores identifiées à l'étape E30, via par exemple une technique transaurale (particulièrement bien adaptée pour une configuration du dispositif 2 de restitution avec un haut-parleur central et deux haut-parleurs latéraux), une technique WFS ou dérivée, telle que décrite par exemple dans la demande de brevet européen EP 1 116 572.0 non publiée, ou encore la formation d'un faisceau dirigé vers l'extérieur de la fenêtre spatiale de restitution, et dont la largeur peut être configurée de sorte à optimiser le rendu sonore.
  • Pour les objets sonores de la catégorie OBJDiff (étape E53), le traitement T-C permet la création de sources virtuelles 12 diffuses. On utilisera préférentiellement à cette fin des techniques T-C de « beamforming » pour créer ces sources virtuelles, pour lesquelles on contrôle aisément l'orientation et la largeur des faisceaux de sorte à créer des réflexions sur les murs de la pièce dans laquelle est positionnée le dispositif 2 de restitution et ainsi créer davantage de sensation d'enveloppement pour l'auditeur placé à la position de référence.
  • Afin de mieux comprendre l'invention, nous allons maintenant décrire trois exemples de mise en oeuvre, illustrant notamment différentes techniques d'analyse spatiale et différents traitements de restitution pouvant être envisagées au cours des différentes étapes de la figure 5.
  • Exemple 1 :
  • Dans ce premier exemple, on suppose que le dispositif 2 de restitution est une enceinte acoustique de type barre de son horizontale équipée de trois haut-parleurs 2-1, 2-2 et 2-3 (un haut-parleur central et deux haut-parleurs latéraux).
  • La position Pref est choisie ponctuelle, centrée par rapport au dispositif 2 de restitution.
  • On suppose par ailleurs que le signal multicanal S fourni au système 1 de restitution au cours de l'étape E10 est un signal audio stéréo, autrement dit, composé de deux canaux distincts.
  • Dans ce premier exemple, les étapes suivantes sont mises en oeuvre par le système 1 de restitution à partir du signal S :
    1. (1) Décomposition du signal S en sous-bandes fréquentielles à l'étape E20 à l'aide d'une transformée de Fourier appliquée au signal S, chaque sous-bande fréquentielle comprenant un signal Si composé de deux canaux.
    2. (2) Analyse spatiale ∑I du signal S, ou de façon équivalente de chaque signal Si sur chaque sous-bande fréquentielle comprenant une analyse temporelle du signal Si au cours de l'étape E30 permettant d'extraire un objet sonore du signal Si, cette analyse temporelle incluant notamment :
      • ∘ l'évaluation de la corrélation normalisée entre les deux canaux du signal Si et la comparaison de cette corrélation par rapport au seuil prédéfini THR afin d'estimer le caractère local ou diffus de l'objet sonore inclus dans le signal Si ;
      • ∘ l'évaluation de la différence de niveaux entre les deux canaux du signal Si, et la transformation de cette différence de niveaux en excursion angulaire par rapport à l'axe Δ reliant la position Pref au centre du dispositif 2 de restitution. On considère dans ce premier exemple qu'une différence de niveaux de -30dB (respectivement 30dB) correspond à une excursion angulaire de 90°, (respectivement -90°C), les valeurs intermédiaires étant estimées à l'aide d'une fonction linéaire entre ces deux bornes ;
      • ∘ l'estimation de la fenêtre spatiale W de restitution sonore (et de l'excursion angulaire associée à cette fenêtre), définie par la position de référence Pref et les haut-parleurs latéraux du dispositif 2 de restitution. A titre illustratif, si l'on considère une position de référence Pref placée à une distance de 2 à 4m du dispositif 2 de restitution et un dispositif de restitution de largeur 1m, les haut-parleurs latéraux de ce dispositif étant placés aux extrémités du dispositif, l'excursion angulaire Ω/2 correspondant à la fenêtre spatiale W est comprise entre 7 et 15° ; et
      • ∘ à partir de l'excursion angulaire obtenue pour l'objet sonore extrait du signal Si et l'excursion angulaire Ω/2 correspondant à la fenêtre spatiale W, la détermination de la direction de l'objet sonore et de sa position par rapport à la fenêtre W. Ainsi, si l'objet sonore extrait de Si présente une excursion angulaire inférieure ou égale à Ω/2, il est estimé comme étant positionné dans la fenêtre spatiale W. Inversement, si l'objet sonore extrait de Si a présente une excursion angulaire supérieure à Ω/2, il est estimé comme étant positionné à l'extérieur de la fenêtre spatiale W.

      L'amplitude de chaque objet sonore extrait sur chaque sous-bande fréquentielle est donnée par le niveau du signal Si sur cette sous-bande.
      L'analyse spatiale du signal S comprend également, dans le premier exemple envisagé ici, l'identification E40 des objets sonores localisés au centre de la fenêtre spatiale W en comparant l'excursion angulaire associée à chaque objet sonore extrait des signaux Si à l'intervalle [0 ; 2.5°], un objet sonore étant considéré comme étant au centre de la fenêtre si son excursion angulaire est comprise entre 0 et 2.5° (en valeur absolue).
    3. (3) Restitution ∑II/E50 du signal S, et plus précisément des objets sonores extraits lors de l'analyse spatiale ∑I :
      • ∘ au cours de l'étape E51, restitution à l'intérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'intérieur de la fenêtre spatiale W (catégorie OBJLocIntW), à l'aide des traitements de restitution T-A1 et T-A2 suivants :
        • ▪ traitement T-A1 appliqué aux objets sonores estimés au centre de la fenêtre spatiale W : diffusion des objets sonores directement (i.e. sans filtrage spatial) sur le haut-parleur central du dispositif 2 de restitution, autrement dit, les objets sonores ainsi restitués sont rattachés au centre du dispositif 2 de restitution ;
        • ▪ traitement T-A2 appliqué aux objets sonores non centrés localisés dans la fenêtre spatiale W : diffusion des objets sonores sur les trois haut-parleurs du dispositif 2 de restitution en utilisant un effet panoramique d'intensité ;
      • ∘ au cours de l'étape E52, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'extérieur de la fenêtre spatiale W (catégorie OBJLocExtW), à l'aide d'une technique de restitution T-B transaurale. Plus précisément, on crée, à l'aide des deux haut-parleurs latéraux du dispositif 2 de restitution, des sources virtuelles transaurales placées en dehors de la fenêtre W, par exemple à 30° et 60° (respectivement à -30° et -60°) par rapport à l'axe Δ. Les objets sonores de la catégorie OBJLocExtW sont alors diffusés à travers ces sources virtuelles, dans les directions déterminées à l'étape E30 ;
      • ∘ au cours de l'étape E53, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores diffus (catégorie OBJDiff), à l'aide d'une technique de restitution T-C transaurale. Plus précisément, on crée à l'aide des deux haut-parleurs latéraux du dispositif 2 de restitution, des sources virtuelles transaurales placées en dehors de la fenêtre W, à un angle supérieur à 60° (respectivement inférieur à -60°) par rapport à l'axe Δ. Les objets sonores de la catégorie OBJDiff sont alors diffusés à travers ces sources virtuelles.
      Les techniques de restitution transaurales sont connues de l'homme du métier, et décrites par exemple dans le document de J. Bauck et D.H. Cooper, intitulé « Generalized Transaural Stereo and Applications », Journal Audio Engineering Society, vol. 44 n° 9, 1996. De telles techniques consistent à appliquer un filtre sur chacun des haut-parleurs latéraux du dispositif 2 de restitution, chaque filtre comprenant un filtre de spatialisation et un filtre d'annulation de la propagation croisée entre les deux haut-parleurs.
    Exemple 2 :
  • Dans ce deuxième exemple, on suppose que le dispositif 2 de restitution est une enceinte acoustique compacte de type barre de son horizontale équipée de 15 haut-parleurs 2-1, 2-2, ..., 2-15 d'une longueur d'environ 1m.
  • La position Pref est choisie ponctuelle, centrée par rapport au dispositif 2 de restitution.
  • On suppose par ailleurs que le signal multicanal S fourni au système 1 de restitution au cours de l'étape E10 est un signal audio 5.1. Un tel signal contient déjà intrinsèquement une information de spatialisation. Plus spécifiquement, la norme ITU-R BS.775-1 définissant le format des signaux 5.1 sous-entend un centre situé à 0°, des canaux gauche L et droite R situés à +/- 30° par rapport au centre, et des canaux arrière gauche Ls et arrière droit Rs situés à +/-110° par rapport au centre.
  • Dans ce deuxième exemple, les étapes suivantes sont mises en oeuvre par le système 1 de restitution à partir du signal S :
    1. (1) Décomposition du signal S en sous-bandes fréquentielles à l'étape E20 à l'aide d'une transformée de Fourier appliquée au signal S, chaque sous-bande fréquentielle comprenant un signal Si composé de cinq canaux.
    2. (2) Analyse spatiale ∑I du signal S, ou de façon équivalente de chaque signal Si sur chaque sous-bande fréquentielle comprenant, au cours de l'étape E30, la détermination d'un vecteur de Gerzon associé à chaque signal Si, de façon similaire à celle décrite dans le document US2007269063 .
      Les objets sonores situés au centre de la fenêtre spatiale W sont présents dans le canal central par définition du format 5.1. Ils sont donc « extraits » aisément à partir de ce canal central déjà isolé.
      Le système 1 de restitution considère ensuite le signal Si' composé des quatre canaux L, R, Ls et Rs du signal Si, et les quatre vecteurs « canaux » reliant la position de référence Pref aux quatre canaux L, R, Ls et Rs. Il affecte à chaque vecteur canal un poids correspondant à l'énergie du canal associé. Le vecteur de Gerzon associé au signal Si' (ou de façon équivalente au signal Si) est défini comme le barycentre des points L, R, Ls et Rs ainsi pondérés.
      Le vecteur de Gerzon ainsi défini s'écrit sous la forme d'un vecteur directif (égal à la somme des deux vecteurs canaux adjacents au vecteur de Gerzon : ainsi par exemple, si la direction du vecteur de Gerzon est de 15° par rapport à l'axe Δ, le vecteur directif est la somme des vecteurs canaux associés respectivement aux canaux L et R), et d'un vecteur non directif.
      Le vecteur directif caractérise un objet sonore localisé du signal Si et sa position (donnée par la direction du vecteur) par rapport à la fenêtre W. Le système 1 de restitution compare cette position par rapport à l'excursion angulaire Ω/2 de façon similaire à l'exemple 1, pour estimer si l'objet sonore ainsi identifié appartient à la catégorie OBJLocIntW ou à la catégorie OBJLocExtW.
      Le vecteur non directif caractérise un objet sonore diffus du signal Si, classé par le système 1 de restitution dans la catégorie OBJDiff.
      Le système 1 de restitution associe à chaque objet sonore extrait une amplitude évaluée à partir de l'amplitude du vecteur correspondant (directif ou non directif et composant le vecteur de Gerzon).
    3. (3) Restitution II/E50 du signal S, et plus précisément des objets sonores extraits lors de l'analyse spatiale ∑I, selon les directions et amplitudes estimées à l'étape E30 :
      • ∘ au cours de l'étape E51, restitution à l'intérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'intérieur de la fenêtre spatiale W (catégorie OBJLocIntW), à l'aide des traitements de restitution T-A1 et T-A2 suivants :
        • ▪ traitement T-A1 appliqué aux objets sonores estimés au centre de la fenêtre spatiale W (i.e. objets contenus dans le canal central du signal S) : diffusion des objets sonores directement (i.e. sans filtrage spatial) sur le haut-parleur central du dispositif 2 de restitution, autrement dit, les objets sonores ainsi restitués sont rattachés au centre du dispositif 2 de restitution ;
        • ▪ traitement T-A2 appliqué aux objets sonores non centrés localisés dans la fenêtre spatiale W : diffusion des objets sonores à l'aide d'une technique WFS de synthèse de champ acoustique comprenant la création de sources virtuelles via les haut-parleurs du dispositif 2 de restitution, ces sources virtuelles étant positionnées (en agissant sur les retards et les gains appliqués à chaque haut-parleur) dans les directions estimées par les vecteurs directifs extraits des vecteurs de Gerzon dérivés lors de l'analyse spatiale de sorte à respecter la même organisation spatiale que lors du mixage du signal multicanal. Les amplitudes des objets sonores restitués sont conformes aux amplitudes évaluées à l'étape E30 ;
      • ∘ au cours de l'étape E52, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'extérieur de la fenêtre spatiale W (catégorie OBJLocExtW), à l'aide d'une technique WFS comprenant la création de six sources virtuelles entourant la position de référence Pref :
        • ▪ deux sources virtuelles sont positionnées aux extrémités du dispositif 2 de restitution,
        • ▪ quatre sources virtuelles sont positionnées à l'extérieur de la fenêtre spatiale W, parmi lesquelles : deux sources virtuelles sont positionnées entre 30°C et 60°C par rapport à l'axe Δ, et entre -30° et -60°, par exemple à l'aide de deux ondes places dirigées vers les murs latéraux de la pièce dans laquelle est placé le dispositif 2 de restitution ; et deux sources virtuelles sont positionnées entre entre 135° et 150° et entre -135° et -150°, par exemple à l'aide de deux ondes places dirigées vers les murs arrière de la pièce dans laquelle est placé le dispositif 2 de restitution.
        Les sources virtuelles ainsi positionnées sont utilisées pour restituer les objets sonores de la catégorie OBJLocExtW selon les directions et les amplitudes estimées à l'étape E30 ;
      • ∘ au cours de l'étape E53, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores diffus (catégorie OBJDiff), à l'aide d'une technique WFS de restitution T-C, comprenant la création de quatre sources virtuelles à l'extérieur de la fenêtre W à l'aide par exemple de quatre ondes planes dirigées vers les murs de la pièce dans laquelle est placé le dispositif 2 de restitution de manière à créer deux réflexions sur les murs latéraux situés entre 60° et 80° (respectivement -60° et -80°) par rapport à l'axe Δ.
      Les techniques de synthèse de champ acoustique ou WFS sont connues de l'homme du métier, et décrites par exemple dans le document de A.J. Berkhout et al. intitulé « A holographic approach to acoustic control », J. Audio. Eng. Soc. Vol. 36, 1988. De telles techniques consistent à appliquer gain et un retard à chaque haut-parleur du dispositif 2 de restitution. Elles reposent uniquement sur la position relative des sources virtuelles que l'on souhaite créer (i.e. sources ponctuelles ou ondes planes) par rapport à la position physique des différents haut-parleurs du dispositif 2 de restitution.
    Exemple 3 :
  • Dans ce troisième exemple, on suppose que le dispositif 2 de restitution est une enceinte acoustique compacte équipée de 8 haut-parleurs 2-1, 2-2, ..., 2-8 de largeur environ 80cm, avec quatre haut-parleurs frontaux 2-1,..., 2-4, et deux haut-parleurs 2-5 et 2-6, respectivement 2-7 et 2-8, situés de chaque côté du dispositif 2 (dispositif similaire au dispositif 2" illustré à la figure 3B).
  • La position Pref est choisie ponctuelle, centrée par rapport au dispositif 2 de restitution.
  • On suppose par ailleurs que le signal multicanal S fourni au système 1 de restitution au cours de l'étape E10 est un signal audio composé de quatre canaux distincts.
  • Dans ce troisième exemple, les étapes suivantes sont mises en oeuvre par le système 1 de restitution à partir du signal S :
    1. (1) Décomposition du signal S en sous-bandes fréquentielles à l'étape E20 à l'aide d'une transformée de Fourier appliquée au signal S, chaque sous-bande fréquentielle comprenant un signal Si composé de quatre canaux.
    2. (2) Analyse spatiale ∑I du signal S, ou de façon équivalente de chaque signal Si sur chaque sous-bande fréquentielle comprenant, au cours de l'étape E30 :
      • ∘ la décomposition spatiale en harmoniques sphériques
      • ∘ de chaque signal Si, l'extraction des objets sonores diffus et localisés de chaque signal ainsi que la détermination de leurs caractéristiques (directions et amplitudes) selon la technique décrite dans le document WO 2012/025580 (cette étape peut éventuellement inclure le codage du signal Si dans un format audio de type HOA, connu en soi) ;
      • ∘ la séparation des objets sonores localisés détectés lors du balayage selon les catégories OBJLocIntW et OBJLocExtW en comparant la direction examinée dans laquelle ces objets ont été détectés par rapport à l'excursion angulaire Ω/2 associés à la fenêtre spatiale W, comme décrit précédemment pour les exemples 1 et 2 ;
    3. (3) Restitution ∑II/E50 du signal S, et plus précisément des objets sonores extraits lors de l'analyse spatiale ∑I :
      • ∘ au cours de l'étape E51, restitution à l'intérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'intérieur de la fenêtre spatiale W (catégorie OBJLocIntW), à l'aide d'un traitement T-A de restitution combinant une technique WFS et un contrôle de rayonnement prenant en compte le rayonnement de chaque haut-parleur et l'influence de l'enceinte acoustique à proprement parler contenant les différents haut-parleurs. Le champ de restitution sonore de chaque objet est contrôlé par l'intermédiaire de filtrages. Un tel traitement est décrit notamment dans la demande de brevet européen non encore publiée EP 1116572.0 .
        Ainsi, plus précisément, dans ce troisième exemple, le traitement T-A comprend la création de sources virtuelles derrière le dispositif 2 de restitution via la technique WFS, et l'application d'un filtrage aux haut-parleurs 2-1, ..., 2-8 du dispositif 2 déterminé de sorte que l'énergie des objets sonores restitués par ces sources virtuelles est dirigée vers la position de référence et est en accord avec les amplitudes déterminées à l'étape E30 ;
      • ∘ au cours de l'étape E52, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'extérieur de la fenêtre spatiale W (catégorie OBJLocExtW), à l'aide d'un traitement de restitution T-B telle que décrit dans la demande de brevet européen non encore publiée EP 1116572.0 et combinant :
        • ▪ une technique WFS comprenant la création de sources virtuelles à l'extérieur de la fenêtre spatiale W via la formation de deux faisceaux fins se réfléchissant sur les murs latéraux de la pièce dans laquelle est installée le dispositif 2 de restitution à une position ponctuelle prédéterminée ; et
        • ▪ un filtrage appliqué aux haut-parleurs 2-1, ..., 2-8 du dispositif 2 déterminé de sorte que l'énergie des objets sonores restitués par ces sources virtuelles est dirigée concentrée vers les murs latéraux de la pièce.
        Les sources virtuelles ainsi positionnées sont utilisées pour restituer les objets sonores de la catégorie OBJLocExtW selon les directions et les amplitudes estimées à l'étape E30 ;
      • ∘ au cours de l'étape E53, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores diffus (catégorie OBJDiff), à l'aide d'un traitement de restitution T-C telle que décrit dans la demande de brevet européen non encore publiée EP 1116572.0 et combinant :
        • ▪ une technique WFS comprenant la création de sources virtuelles à l'extérieur de la fenêtre spatiale W via la formation de deux faisceaux larges se réfléchissant sur une zone étendue prédéterminée des murs latéraux de la pièce dans laquelle est installée le dispositif 2 de restitution ; et
        • ▪ un filtrage appliqué aux haut-parleurs 2-1, ..., 2-8 du dispositif 2 déterminé de sorte que l'énergie des objets sonores restitués par ces sources virtuelles est dirigée concentrée vers les murs latéraux de la pièce.
  • Bien entendu, ces trois exemples ne sont donnés qu'à titre illustratif et d'autres configurations de dispositif de restitution, ainsi que d'autres techniques d'analyse spatiale et d'autres traitements de restitution peuvent être utilisés dans le cadre de l'invention.

Claims (17)

  1. Procédé de restitution d'un signal audio (S) multicanal sur un dispositif (2) de restitution équipé d'une pluralité de haut-parleurs (2-1,...,2-N), lesdits haut-parleurs étant disposés à des emplacements fixes du dispositif de restitution et définissant une fenêtre spatiale (W) de restitution sonore par rapport à une position spatiale (Pref) dite de référence, ledit procédé de restitution comprenant :
    - une étape (∑I) d'analyse spatiale du signal audio (S) multicanal comprenant :
    ∘ l'extraction (E30) d'au moins un objet sonore du signal, et
    ∘ pour chaque objet sonore extrait, l'estimation (E30) d'un caractère diffus ou localisé de cet objet sonore, et d'une position de cet objet sonore par rapport à la fenêtre spatiale de restitution sonore du dispositif de restitution ; et ledit procédé étant caractérisé par
    - une étape (∑II,E50,E51,E52,E53) de restitution du signal audio sur la pluralité (2-1,...,2-N) de haut-parleurs du dispositif de restitution (2), au cours de laquelle on applique, à chaque objet sonore extrait du signal audio, un traitement (T-A1, T-A2,T-B,T-C) de restitution sur au moins un haut-parleur de la pluralité de haut-parleurs du dispositif de restitution (2), ce traitement de restitution dépendant du caractère diffus ou localisé de l'objet sonore et de sa position par rapport à la fenêtre spatiale de restitution sonore estimés au cours de l'étape d'analyse spatiale,
    le traitement de restitution (T-B,T-C) comprenant la création d'au moins une source virtuelle (11,12) à l'extérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution, à partir des haut-parleurs du dispositif de restitution, lorsque l'objet sonore est estimé au cours de l'étape d'analyse spatiale (E50) comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution.
  2. Procédé selon la revendication 1 dans lequel ledit dispositif de restitution (2) est une enceinte acoustique (2) dans laquelle est disposée ladite pluralité de haut-parleurs (2-1,...,2-N).
  3. Procédé selon la revendication 1 ou 2 dans lequel l'étape d'analyse spatiale (∑I) comprend en outre l'estimation (E40) de la position de l'objet sonore par rapport au centre de la fenêtre spatiale (W) de restitution sonore du dispositif de restitution (2).
  4. Procédé selon l'une quelconque des revendications 1 à 3 dans lequel l'étape d'analyse spatiale (∑I) comprend une décomposition (E20) du signal audio reçu en une pluralité de sous-bandes fréquentielles, l'extraction (E30) dudit au moins un objet sonore étant réalisée sur au moins une sous-bande fréquentielle.
  5. Procédé selon l'une quelconque des revendications 1 à 4 dans lequel le caractère diffus ou localisé de l'objet sonore extrait est estimé à partir d'au moins une corrélation évaluée entre deux canaux distincts du signal (S) audio multicanal.
  6. Procédé selon l'une quelconque des revendications 1 à 5 dans lequel la position de l'objet sonore extrait par rapport à la fenêtre spatiale (W) de restitution sonore est estimée à partir d'au moins une différence de niveaux évaluée entre deux canaux distincts du signal (S) audio multicanal.
  7. Procédé selon l'une quelconque des revendications 1 à 5 dans lequel l'étape d'analyse spatiale (∑I) comprend la détermination d'un vecteur de Gerzon représentatif du signal audio multicanal.
  8. Procédé selon l'une quelconque des revendications 1 à 4 dans lequel l'étape d'analyse spatiale (∑I) comprend une décomposition spatiale du signal multicanal (S) en harmoniques sphériques.
  9. Procédé selon l'une quelconque des revendications 1 à 8 dans lequel lorsqu'un objet sonore extrait est estimé comme étant localisé et positionné à l'intérieur de la fenêtre spatiale (W) de restitution sonore du dispositif de restitution, le traitement de restitution (T-A1, T-A2) appliqué à cet objet sonore au cours de l'étape de restitution est apte à restituer cet objet sonore à l'intérieur de la fenêtre spatiale (W) de restitution sonore du dispositif de restitution.
  10. Procédé selon la revendication 9 dans lequel ledit traitement de restitution (T-A1, T-A2) comprend la création d'au moins une source virtuelle (10) à partir des haut-parleurs (2-1,...,2-N) du dispositif de restitution (2) à l'intérieur de la fenêtre spatiale (W) de restitution sonore du dispositif de restitution.
  11. Procédé selon l'une quelconque des revendications 1 à 10 dans lequel lorsque l'objet sonore extrait est estimé au cours de l'étape d'analyse spatiale (∑I) comme étant positionné à l'extérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution (2), la création (T-B) d'au moins une source virtuelle (11) à l'extérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution comprend la formation d'au moins un faisceau dirigé vers l'extérieur de la fenêtre spatiale de restitution.
  12. Procédé selon l'une quelconque des revendications 1 à 11 dans lequel :
    - la pluralité de haut-parleurs (2-1,...,2-N) du dispositif de restitution (2) comprend un haut-parleur central et des haut-parleurs latéraux ; et
    - lorsque l'objet sonore extrait est estimé au cours de l'étape d'analyse spatiale (∑I) comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution, le traitement de restitution (T-B, T-C) appliqué à cet objet sonore utilise une technique transaurale de restitution de cet objet sonore sur les haut-parleurs latéraux du dispositif de restitution.
  13. Procédé selon l'une quelconque des revendications 1 à 12 dans lequel lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale (∑I) comme étant localisé et positionné à l'intérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution (2), le traitement (T-A1, T-A2) de restitution appliqué à cet objet sonore au cours de l'étape de restitution (E50,E51), comprend la formation d'un faisceau dirigé vers ladite position spatiale (Pref) de référence.
  14. Procédé selon l'une quelconque des revendications 1 à 12 dans lequel :
    - la pluralité (2-1,...,2-N) de haut-parleurs du dispositif de restitution comprend un haut-parleur central et des haut-parleurs latéraux ; et
    - lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale (∑I) comme étant localisé et positionné au centre de la fenêtre spatiale (W) de restitution du dispositif de restitution, cet objet sonore est diffusé, au cours de l'étape de restitution (E50,E51), par le traitement de restitution (T-A1), sur le haut-parleur central du dispositif de restitution.
  15. Procédé selon l'une quelconque des revendications 1 à 12 et 14 dans lequel lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale (∑I) comme étant localisé et positionné à l'intérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution (2) en une position distincte du centre de la fenêtre (W), le traitement de restitution (T-A2) appliqué au cours de l'étape de restitution (E50,E51) diffuse cet objet sonore sur les haut-parleurs (2-1,...,2-N) du dispositif de restitution en utilisant un effet panoramique d'intensité.
  16. Programme comportant des instructions pour l'exécution des étapes du procédé de restitution selon l'une quelconque des revendications 1 à 15 lorsque ledit programme est exécuté par un ordinateur ou par un microprocesseur.
  17. Système (1) de restitution d'un signal (S) audio multicanal sur un dispositif (2) de restitution équipé d'une pluralité de haut-parleurs (2-1,...,2-N), lesdits haut-parleurs étant disposés à des emplacements fixes du dispositif de restitution (2) et définissant une fenêtre spatiale (W) de restitution sonore par rapport à une position de référence (Pref), ledit système de restitution comprenant :
    - des moyens (3) d'analyse spatiale du signal (S) audio multicanal comprenant :
    ∘ des moyens d'extraction d'au moins un objet sonore du signal, et
    ∘ des moyens d'estimation, pour chaque objet sonore extrait, d'un caractère diffus ou localisé de cet objet sonore, et d'une position de cet objet sonore par rapport à la fenêtre spatiale (W) de restitution sonore du dispositif de restitution ; et ledit système étant caractérisé par
    - des moyens (4,4A,4B,4C) de restitution du signal (S) audio sur la pluralité de haut-parleurs (2-1,...,2-N) du dispositif de restitution (2), aptes à appliquer à chaque objet sonore extrait du signal audio, un traitement (T-A1,T-A2,T-B,T-C) de restitution sur au moins un haut-parleur de la pluralité de haut-parleurs du dispositif de restitution, ce traitement de restitution dépendant du caractère diffus ou localisé de l'objet sonore et de sa position par rapport à la fenêtre spatiale (W) de restitution sonore estimés par les moyens d'analyse spatiale,
    le traitement de restitution (T-B,T-C) comprenant la création d'au moins une source virtuelle (11,12) à l'extérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution, à partir des haut-parleurs du dispositif de restitution, lorsque l'objet sonore est estimé par les moyens (3) d'analyse spatiale comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution.
EP13779299.0A 2012-09-27 2013-09-25 Procede et systeme de restitution d'un signal audio Active EP2901718B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1259132A FR2996094B1 (fr) 2012-09-27 2012-09-27 Procede et systeme de restitution d'un signal audio
PCT/FR2013/052254 WO2014049267A1 (fr) 2012-09-27 2013-09-25 Procede et systeme de restitution d'un signal audio

Publications (2)

Publication Number Publication Date
EP2901718A1 EP2901718A1 (fr) 2015-08-05
EP2901718B1 true EP2901718B1 (fr) 2016-12-21

Family

ID=47594912

Family Applications (1)

Application Number Title Priority Date Filing Date
EP13779299.0A Active EP2901718B1 (fr) 2012-09-27 2013-09-25 Procede et systeme de restitution d'un signal audio

Country Status (5)

Country Link
US (1) US9426597B2 (fr)
EP (1) EP2901718B1 (fr)
CN (1) CN104919821B (fr)
FR (1) FR2996094B1 (fr)
WO (1) WO2014049267A1 (fr)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105448312B (zh) * 2014-06-12 2019-02-19 华为技术有限公司 音频同步播放方法、装置及系统
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
EP3357259B1 (fr) * 2015-09-30 2020-09-23 Dolby International AB Procédé et appareil de génération de contenu audio 3d provenant de contenu stéréo à deux canaux
EP3239981B1 (fr) * 2016-04-26 2018-12-12 Nokia Technologies Oy Procédés, appareils et programmes d'ordinateur pour la modification d'une caractéristique associée avec un signal séparé
US10728691B2 (en) * 2016-08-29 2020-07-28 Harman International Industries, Incorporated Apparatus and method for generating virtual venues for a listening room
EP3297298B1 (fr) * 2016-09-19 2020-05-06 A-Volute Procédé de reproduction de sons répartis dans l'espace
WO2019023853A1 (fr) * 2017-07-31 2019-02-07 华为技术有限公司 Procédé de traitement audio, et dispositif de traitement audio
CN114009064A (zh) * 2019-03-04 2022-02-01 斯蒂尔赛瑞斯法国公司 用于音频分析的装置和方法
CN109978034B (zh) * 2019-03-18 2020-12-22 华南理工大学 一种基于数据增强的声场景辨识方法
GB2584630A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing
KR20210017169A (ko) 2019-08-07 2021-02-17 주식회사 엘지화학 표면 요철 구조를 갖는 전지팩 커버 및 이를 포함하는 전지팩
CN113068056B (zh) * 2021-03-18 2023-08-22 广州虎牙科技有限公司 音频播放方法、装置、电子设备和计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001001388A (ja) 1999-06-24 2001-01-09 Idemitsu Petrochem Co Ltd ブロー成形方法、ブロー成形品およびブロー成形金型
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2485504B1 (fr) * 2011-02-07 2013-10-09 Deutsche Telekom AG Production de zones silencieuses à l'intérieur de la zone d'auditeurs d'un système de retransmission à plusieurs canaux

Also Published As

Publication number Publication date
CN104919821B (zh) 2017-04-05
US20150256958A1 (en) 2015-09-10
FR2996094A1 (fr) 2014-03-28
CN104919821A (zh) 2015-09-16
FR2996094B1 (fr) 2014-10-17
EP2901718A1 (fr) 2015-08-05
US9426597B2 (en) 2016-08-23
WO2014049267A1 (fr) 2014-04-03

Similar Documents

Publication Publication Date Title
EP2901718B1 (fr) Procede et systeme de restitution d&#39;un signal audio
EP1992198B1 (fr) Optimisation d&#39;une spatialisation sonore binaurale a partir d&#39;un encodage multicanal
EP1836876B1 (fr) Procédé et dispositif d&#39;individualisation de hrtfs par modélisation
EP1999998B1 (fr) Procede de synthese binaurale prenant en compte un effet de salle
EP2898707B1 (fr) Calibration optimisee d&#39;un systeme de restitution sonore multi haut-parleurs
EP2042001B1 (fr) Spatialisation binaurale de donnees sonores encodees en compression
WO2010076460A1 (fr) Codage perfectionne de signaux audionumériques multicanaux
WO2004086818A1 (fr) Procede pour traiter un signal electrique de son
EP3475943A1 (fr) Procede de conversion, d&#39;encodage stereophonique, de decodage et de transcodage d&#39;un signal audio tridimensionnel
FR2776461A1 (fr) Procede de perfectionnement de reproduction sonore tridimensionnelle
EP3559947B1 (fr) Traitement en sous-bandes d&#39;un contenu ambisonique réel pour un décodage perfectionné
EP3025514B1 (fr) Spatialisation sonore avec effet de salle
FR3065137A1 (fr) Procede de spatialisation sonore
EP3384688B1 (fr) Décompositions successives de filtres audio
EP2901717B1 (fr) Procede et dispositif de generation de signaux audio destines a etre fournis a un systeme de restitution sonore
EP2957110B1 (fr) Procede et dispositif de generation de signaux d&#39;alimentation destines a un systeme de restitution sonore
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
EP3108670B1 (fr) Procédé et dispositif de restitution d&#39;un signal audio multicanal dans une zone d&#39;écoute
WO2005096268A2 (fr) Procede de traitement de donnees sonores, en particulier en contexte ambiophonique
EP3934282A1 (fr) Procédé de conversion d&#39;un premier ensemble de signaux représentatifs d&#39;un champ sonore en un second ensemble de signaux et dispositif électronique associé
WO2009081002A1 (fr) Traitement d&#39;un flux audio 3d en fonction d&#39;un niveau de presence de composantes spatiales
FR3136072A1 (fr) Procédé de traitement de signal

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20150312

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

RIN1 Information on inventor provided before grant (corrected)

Inventor name: NGUYEN, KHOA-VAN

Inventor name: CORTEEL, ETIENNE

DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20160629

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 856405

Country of ref document: AT

Kind code of ref document: T

Effective date: 20170115

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602013015671

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170321

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170322

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 856405

Country of ref document: AT

Kind code of ref document: T

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170421

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170321

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170421

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602013015671

Country of ref document: DE

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20170922

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20170925

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20170930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170925

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170930

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170925

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170930

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170925

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 602013015671

Country of ref document: DE

Owner name: SENNHEISER ELECTRONIC GMBH CO. KG, DE

Free format text: FORMER OWNER: SONIC EMOTION LABS, PARIS, FR

Ref country code: DE

Ref legal event code: R081

Ref document number: 602013015671

Country of ref document: DE

Owner name: SENNHEISER ELECTRONIC GMBH & CO. KG, DE

Free format text: FORMER OWNER: SONIC EMOTION LABS, PARIS, FR

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170930

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 6

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20130925

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230919

Year of fee payment: 11

Ref country code: DE

Payment date: 20230906

Year of fee payment: 11