EP2489206A1 - Processing of sound data encoded in a sub-band domain - Google Patents

Processing of sound data encoded in a sub-band domain

Info

Publication number
EP2489206A1
EP2489206A1 EP10781956A EP10781956A EP2489206A1 EP 2489206 A1 EP2489206 A1 EP 2489206A1 EP 10781956 A EP10781956 A EP 10781956A EP 10781956 A EP10781956 A EP 10781956A EP 2489206 A1 EP2489206 A1 EP 2489206A1
Authority
EP
European Patent Office
Prior art keywords
ear
channel
lateral
virtual
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP10781956A
Other languages
German (de)
French (fr)
Inventor
Marc Emerit
Rozenn Nicol
Grégory PALLONE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP2489206A1 publication Critical patent/EP2489206A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the invention relates to a sound data processing.
  • a sound data processing In the context of processing sound data in a multichannel format (5.1 or more), we seek to provide a 3D spatialization effect called "Virtual Surround".
  • Such treatments involve filters that aim to reproduce a sound field at the entrances of a person's ear canals. Indeed, a listener is able to locate the sounds in the space with a certain precision, thanks to the perception of the sounds by his two ears.
  • the signals emitted by the sound sources undergo acoustic transformations by spreading to the ears. These acoustic transformations are characteristic of the acoustic channel established between a sound source and a point of the auditory canal of the individual.
  • Each ear has its own acoustic channel, and these acoustic channels depend on the position and orientation of the source relative to the listener, the shape of the head and ear of the listener, but also the acoustic environment (eg a reverberation due to a room effect).
  • These acoustic channels can be modeled by filters commonly called “Head Impulse Responses” or “Head Related Impulse Responses” (HRIR), or “Head Transfer Functions” or HRTF (“Head Related Transfer Functions”). "in English) according to whether we give respectively a representation in the time domain or frequency. Referring to FIG.
  • the HRTFs functions for the left ear and for the right ear are identical for the sources which lie in the median plane (plane P which separates the left half of the right half of the body as illustrated in figure 2).
  • Acoustic indices exploited by the brain to locate sounds are often classified into two families of indices:
  • transaural playback means listening on two remote speakers of audio content initially in a multi-channel format.
  • a stamping channels hereinafter referred to as “downmix” or “downmix”.
  • Downmix processing is a matrix processing that allows to go from N channels to M channels with N> M. It will be considered in the following that a “Downmix” treatment (since it does not take into account spatialisation effects) does not involve a filter based on HRTF functions.
  • "Downmix” processing matrices used in sound reproduction devices (PC, DVD, TV, etc.) have constant coefficients that are independent of time and frequency.
  • SG and SR are respectively left and right stereo output signals
  • EAVG and EAVD are respectively input signals which would have been intended to supply left side speakers AVG and right AVD (illustrated in FIG. 2)
  • E ARG and E ARD are respectively input signals that would have been intended to supply left rear ARG loudspeakers and right ARD rear speakers, located behind the AU listener of FIG. 2,
  • Ec is an input signal that would have been intended to power a central loudspeaker C located in front of the AU listener, and
  • the treatment referred to below as "ITU Downmix” does not allow the precise spatial perception of sound events.
  • a "Downmix” type treatment in general, does not allow spatial perception since it does not involve an HRTF filter.
  • the feeling of immersion that multi-channel content can offer is then lost with headphone listening compared to listening on a system with more than two speakers (for example in the format 5.1 as illustrated in the figure 2).
  • a sound supposed to be emitted by a moving source from the front to the back of the listener is not correctly reproduced on a simply stereo system (on a headset or a pair of high Speakers).
  • a sound present only in the S-channel G (OR SR) and processed by the downmix ITU submix is only output in the left (or right, respectively) atrium in the case of listening. on the headphones, whereas in the case of listening on a system with more than two speakers (for example in the 5.1 format), the right ear (or left, respectively) also perceives a diffraction signal.
  • Downmix binaural a binaural format
  • the virtual loudspeakers are created by the so-called “binaural synthesis” technique.
  • This technique consists in applying sound transfer functions of the head (HRTF) to audio signals monophonic, to obtain a binaural signal that allows, when listening to the headphones, to have the feeling that sound sources come from a particular direction of space.
  • the signal of the right ear is obtained by filtering the monophonic signal by the HRTF function of the right ear and the signal of the left ear is obtained by filtering this same monophonic signal by the HRTF function of the left ear.
  • the resulting binaural signal is then available for headphone listening.
  • FIG. 3A A transfer function defined by a filter is associated with each acoustic path between an ear of the listener and a virtual speaker (placed as recommended in the multi-channel format 5.1 in the example shown).
  • a transfer function defined by a filter is associated with each acoustic path between an ear of the listener and a virtual speaker (placed as recommended in the multi-channel format 5.1 in the example shown).
  • HCg (respectively HCd) is the filter corresponding to an HRTF for the path between the central loudspeaker C and the left ear OG (respectively right OD) of the listener,
  • HGg (respectively HDd) is the filter corresponding to an HRTF called "ipsi- lateral" (ear “illuminated” by the loudspeaker) for the direct path (solid line) between the AVG left lateral loudspeaker (respectively right lateral AVD) and the left ear OG (respectively right OD) of the listener,
  • HGd (respectively HDg) is the filter corresponding to a so-called “contralateral” HRTF (ear in the "shadow” of the head) for the indirect path (in dashed lines) between the left lateral loudspeaker AVG (respectively right lateral AVD) and the right ear OD (respectively left OG) of the listener,
  • HGSg (respectively HDSd) is the filter corresponding to an ipsi-lateral HRTF for the direct path (solid line) between the ARG left rear speaker
  • HDSg is the filter corresponding to a contralateral HRTF for the indirect path (in dashed lines) between the ARG left rear loudspeaker (ARD right rear respectively) and the right OD ear
  • this standard provides an embodiment in which a multi-channel signal is transported in the form of stereo downmix and spatialization parameters (CLD for Channel Level Difference, ICC for Inter-channel). Channel Coherence ", and CPC for" Channel Prediction Coefficient ").
  • CLD Stereo Downmix and spatialization parameters
  • ICC Inter-channel
  • CPC Channel Prediction Coefficient
  • These parameters make it possible, in a first step, to implement stereo expansion downmix processing to three L ', R' and C signals.
  • they allow the expansion of L signals. , R 'and C to obtain 5.1 signals (denoted L, Ls, R, Rs, C and LFE for "Low Frequency Effect").
  • the C and LFE signals are not separated.
  • Signal C is used for binaural Downmix processing. So here, from two monophonic signals, three signals are first constructed (for respective left channels L ', right R' and center C ').
  • channels L and Ls respectively, of the left and right surround virtual speakers in 5.1 format, for sample 1 of the frequency band m in time-frequency transform
  • - is the expression of the spectrum of the HRTF for a path between a right speaker in 5.1 format and the right ear
  • - is the expression of the spectrum of the HRTF for a path between a left loudspeaker in 5.1 format and the left ear
  • the present invention improves the situation.
  • the applied matrix filtering comprises a multiplicative coefficient defined by the spectrum, in the field of the subbands, of the second transfer function deconvolved by the first transfer function.
  • a first advantage that arises from such a construction is the significant reduction in the complexity of the treatments.
  • central virtual speaker transfer functions no longer need to be taken into account.
  • the coefficients of the matrix are no longer expressed as a function of the HRTFs spectra but simply as a function of the spatialization gains of the M channels on the N virtual speakers located in a field. hemisphere around a first ear.
  • the N-channel representation comprises, by hemisphere around an ear, at least one direct virtual speaker and a virtual ambience speaker as in the "virtual surround"
  • the coefficients of the matrix s' expressing, in a domain of time-frequency transform subbands (for example of the "P MF” type for "Pseudo-Quadrature Mirror Filters"), by:
  • contra-lateral relative to the right ear of the listener, deconvolved by an ipsi-lateral transfer function, relating to the left ear, for a virtual left speaker, direct or respectively ambient,
  • contra-lateral relative to the left ear of the listener, deconvolved by an ipsi-lateral transfer function, relative to the right ear, for a virtual right speaker, direct or respectively ambient,
  • ipsi-lateral corresponding to selected interaural delays, and - are selected weights.
  • the coefficient g may have an advantageous value of 0.707 (corresponding to the root of 1/2, when a half energy distribution of the signal of the central loudspeaker is provided on the side loudspeakers), as recommended in the "Downmix ITU" treatment.
  • the matrix filtering is expressed according to a product of matrices of type:
  • the filtering of the contralateral component defined by the counter-lateral transfer function deconvolved by the ipsilateral transfer function makes it possible to reduce the stamp distortion provided by the binauralization processing.
  • a filtering returns to a low-pass filtering delayed by a value corresponding to the interaural delay.
  • the brain perceives, on one ear, the original signal (without treatment) and, on the other ear, the delayed and filtered signal passes low. Beyond the cutoff frequency, the difference in perceived level compared to the diotic listening of the attenuated moose signal of 6dB, is minimal. On the other hand, under the cutoff frequency, the signal is perceived twice as strong. For signals containing frequencies below the cutoff frequency, the difference in timbre will therefore consist of an amplification of the low frequencies.
  • Such de-stamping may advantageously be eliminated simply by high-pass filtering, which may be the same for all HRTFs transfer functions (speaker directions).
  • high-pass filtering which may be the same for all HRTFs transfer functions (speaker directions).
  • the above-mentioned de-stamping can advantageously be applied to the binaural stereo signal resulting from the submixing.
  • an automatic gain control can be advantageously provided at the end of the treatment, so that so that the levels that the Downmix processing and the Binauralization process would deliver in the sense of the invention are Similar.
  • there is provided at the end of the processing chain a high-pass filter and an automatic gain control.
  • a selected gain is also applied to two left-channel and right-channel signals in two-channel representation (binaural or transaural®), before restitution, the selected gain being controlled to limit a signal energy. of left and right channels, at most, to a signal energy of the virtual loudspeakers.
  • preferential automatic gain control is applied to the two left and right channel signals, downstream from the application of the variable frequency weighting factor.
  • the coefficients of the aforementioned matrix and intervening in the matrix filtering vary according to the frequency, according to a weighting of a factor (Gain) chosen and less than one, if the frequency is lower than a threshold chosen, and one if not.
  • the factor is about 0.5 and the chosen frequency threshold is about 500 Hz to eliminate a color distortion.
  • Another advantage provided by the invention is the transport of the encoded signal and its processing with a decoder to improve its sound quality, for example a decoder type MPEG Surround ®.
  • a decoder type MPEG Surround ® for example a decoder type MPEG Surround ®.
  • no transfer function is applied for the direct paths (ipsi-lateral contributions) and additional processing is provided on the indirect paths (spectrum of the counter-lateral transfer function deconvolved by the function ipsi-lateral transfer)
  • the untreated part of the stereo submix ipsilateral contributions
  • the above can be generalized to any type of downmix processing.
  • downmix processing to two channels usually involves applying weighting to the channels (virtual speakers), then summing the N channels to two output signals.
  • Applying binaural spatialization processing to Downmix processing involves applying to the N weighted channels the HRTF filters corresponding to the positions of the N virtual speakers. Since these filters are equal to 1 for the ipsi-lateral contributions, we find the Downmix treatment by applying the sum of the ipsi-lateral contributions.
  • the signals obtained by a binauralization processing in the sense of the invention are presented as being derived from a sum of Downmix type signals and a stereo signal comprising the localization indices necessary for the brain to perceive the spatialization of the sounds.
  • This second signal is hereinafter referred to as "Downmix Binaural Additionnel", so that the treatment in the sense of the invention here called “Downmix Binaural” is such that:
  • a can be a coefficient between 0 and 1.
  • a listener user can choose the level of coefficient a between 0 and 1, continuously or by switching between 0 and 1 (in "ON-OFF" mode). . So, we can choose a a weighting of the second treatment "Downmix Binaural Additional" global processing using matrix filtering within the meaning of the invention.
  • This embodiment has the advantage of requiring only a low bandwidth for the transmission of the results of Downmix and DBA processing, from an encoder to a decoder as shown in FIG. 7 described below, by only requesting the bit rate if the result of the DBA treatment is significant compared to the result of the Downmix.
  • 0; 0.25; 0.5; 0.75; 1.
  • This additional signal requires only a small amount of flow to transport it. Indeed, it presents itself as a residual signal, filtered low-pass and thus a priori much less energetic than the Downmix signal. In addition, it has redundancies with the Downmix signal. This property can be exploited advantageously in conjunction with Dolby Surround, Dolby Prologic or MPEG Surround type codecs.
  • the "Downmix Binaural Additional" signal can then be compressed and transported additionally and / or scalable to the Downmix signal, with little bit rate.
  • the addition of the two stereo signals allows the listener to take full advantage of the binaural signal with a quality very close to a 5.1 format.
  • matrix filtering within the meaning of the invention consists in applying, in an advantageous embodiment:
  • a second processing leading when executed in conjunction with the first processing, to a spatialization of the N virtual loudspeakers respectively associated with the N channels to obtain a bi-channel, binaural or transaural representation.
  • the application of the second processing is decided optionally (for example as a function of the bit rate, the spatialized rendering capabilities of a terminal, or others).
  • the first aforementioned treatment can be applied in an encoder communicating with a decoder, while the second treatment is advantageously applied to the decoder.
  • the treatment management in the sense of the invention may advantageously be conducted by a computer program comprising instructions for implementing the method according to the invention, when this program is executed by a processor, for example with a decoder in particular .
  • the invention also aims at such a program.
  • the present invention also relates to a module equipped with a processor and a memory and capable of executing this computer program.
  • a module in the sense of the invention for the processing of sound data encoded in a subband domain, for binaural or transaural® bi-channel rendering, then comprises means for applying matrix filtering to switch from a representation.
  • N channel sound with N> 0, to a two-channel representation.
  • the N-channel sound representation consists of considering N virtual loudspeakers surrounding a listener's head, and, for each virtual loudspeaker of at least part of the loudspeakers:
  • the applied matrix filtering comprises a multiplicative coefficient defined by the spectrum, in the field of the subbands, of the second transfer function deconvolved by the first transfer function.
  • Such a module may advantageously be a decoder of the MPEG Surround® type and furthermore include decoding means of the MPEG Surround® type, or may alternatively be implanted in such a decoder.
  • FIG. 1 shows schematically a restitution on two speakers around the head of a listener
  • FIG. 2 shows schematically a reproduction of five speakers in 5.1 multi-channel format
  • FIG. 3A schematically represents the ipsilateral (solid lines) and counter-lateral (dashed lines) paths in multi-channel 5.1 format;
  • FIG. 3B shows a prior art processing scheme for switching from a multi-channel 5.1 format illustrated in Fig. 3A to a binaural or transaural format
  • FIG. 4A schematically represents the ipsilateral (solid lines) and contra-lateral (dashed lines) paths in multi-channel 5.1 format, with the ipsilateral and counter-lateral paths of the central loudspeaker;
  • FIG. 4B represents a processing diagram for the transition from a multi-channel 5.1 format illustrated in FIG. 4A to a binaural or transaural format, with only four filters in an embodiment within the meaning of the invention;
  • FIG. 5 illustrates a treatment equivalent to the application of one of the filters of FIG. 4B
  • FIG. 6 illustrates an additional processing of high pass filtering and automatic gain control to be applied to the outputs SG and SD to avoid a color distortion and a difference in tone between a "downmix" treatment and a treatment according to the invention. invention
  • FIG. 7 illustrates the situation of a treatment in the sense of the invention, made with the encoder in an exemplary embodiment of the invention, particularly in the case of an additional DBA treatment to be combined with the Downmix treatment.
  • FIG. 4A is firstly described to describe an example of implementation of the processing to switch from a multi-channel representation (format 5.1 in the example described) to a binaural or transaural stereo two-channel representation. .
  • a multi-channel representation format 5.1 in the example described
  • a binaural or transaural stereo two-channel representation format 5.1 in the example described
  • five speakers configured in 5.1 format are illustrated:
  • the channels associated with speaker positions for example the AVG and ARG loudspeakers of FIG. 4A
  • speaker positions for example the AVG and ARG loudspeakers of FIG. 4A
  • first hemisphere with respect to the listener that of the left ear OG
  • second hemisphere relative to the listener that of his right ear OD
  • first and second hemispheres are separated by the median plane of the listener.
  • the additional treatment preferably comprises the application of filtering (C / I) AVG, (C / I) A VD, (C / I) ARG, (C / I) ARD (FIG. 4B) defined, in the coded domain (or transformed) by the spectrum of a counter-lateral acoustic transfer function deconvolved by an ipsilateral transfer function.
  • the ipsi-lateral transfer function is associated with a direct acoustic path Uvc IAVD, RG, URD (FIG.
  • the spatialization of the virtual speaker is provided by a pair of transfer functions HRTF (expressed in the frequency domain) or HRIR (expressed in the time domain). These transfer functions translate the ipsi-lateral path (direct path between the loudspeaker and the closest ear in solid lines in FIG. 4 A) and the contra-lateral path (path between the loudspeaker and the ear masked by the listener's head in dashed lines in Figure 4A).
  • the filter associated with the ipsi-lateral path is advantageously omitted and a filter corresponding to the transfer function is used for the contra-lateral path. counter-lateral deconvolved by the ipsilateral transfer function. Thus, for each virtual speaker (except the central speaker C), only one filter is used.
  • the referenced filter (C / I) ARG is defined, in the transformed domain, by the spectrum of the counter-lateral transfer function of the path between the rear left speaker ARG and the right ear OD deconvolved by the function of ipsi-lateral transfer of the path between the left rear loudspeaker ARG and the left ear OG of the individual, - the filter referenced (C / I) A RD is defined, in the transformed domain, by the spectrum of the function counter-lateral transfer of the path between the rear right speaker
  • a VG is defined in the transformed domain, by the spectrum of the counter-lateral transfer function of the path between the left lateral loudspeaker AVG and the right ear OD deconvolved by the ipsilateral transfer function of the path between the AVG left lateral speaker and the left ear OG of the individual, and
  • the referenced filter (C / I) AVD is defined, in the transformed domain, by the spectrum of the counter-lateral transfer function of the path between the right lateral loudspeaker AVD and the left ear OG deconvolved by the function of ipsilateral lateral transfer of the path between the right lateral speaker AVD and the right ear OD of the individual.
  • the signal which, in encoding 5.1, is intended to supply the central loudspeaker C (in the median plane of symmetry of the listener's head), is distributed in two fractions (preferably equal to 50% and 50%) on two channels adding to two respective channels of the left and right side speakers.
  • the associated signal is mixed with the signals associated with the ARG left rear speaker and ARD right rear speaker.
  • central loudspeakers front speaker for a reproduction of the midrange frequencies, front speaker for a reproduction of low frequencies, or other
  • the channel associated with a central speaker position C, in the median plane is divided into a first and a second signal fraction, respectively added to the AVG speaker channel in the first hemisphere (around the ear left OG) and to the AVD loudspeaker channel in the second hemisphere (around the right ear OD), it is not necessary to provide for filtering by the transfer functions associated with the loudspeakers in the plane median, without any change in the perception of the spatialization of the sound stage in binaural or transaural restitution.
  • the processing complexity is greatly reduced since the filters associated with the loudspeakers located in the median plane are removed. Another advantage is that the coloring effect of the associated signals is reduced.
  • the spectrum of the contralateral transfer function deconvolved by the ipsilateral transfer function can be defined in the transformed domain by:
  • the spectrum of the contralateral transfer function deconvolved by the ipsilateral transfer function can be defined, in the transformed domain, by: and being the gain and the phase of the
  • each filter is equivalent to applying:
  • an equalizer filter 1 preferably of the low-pass type
  • interaural delay (or "ITD") 10 to take account of the differences in path between a virtual source and each ear
  • the unfiltered signal components possibly an attenuation 12 with respect to the unfiltered signal components (for example the AVG component on the SG channel of FIG. 4B).
  • the applied ITD delay is “substantially” interaural, the term “substantially” referring in particular to the fact that the strict morphology of the listener may not be rigorously taken into account (eg if HRTFs are used by default, including HRTFs called “Kemar head”).
  • the binaural synthesis of a virtual loudspeaker consists simply of playing without modification the input signal on the relative ipsi-lateral channel (channel SG in FIG. 4B) and to apply to the signal to be played on the counter-lateral channel (SD channel in FIG. 4B) a corresponding AVG filter (C / I) in application of delay, attenuation and low-pass filtering.
  • the resulting signal is delayed, attenuated and filtered by eliminating the high frequencies, which results, from the point of view of auditory perception, in masking the signal received by the "counter-lateral" ear (OD, in the example where the virtual speaker is the left side AVG), relative to the signal received by the "ipsi-lateral” ear (OG).
  • the coloration that can be perceived is therefore directly that of the signal received by the ipsilateral ear.
  • this signal undergoes no transformation and, therefore, the treatment in the sense of the invention should provide only a weak coloration.
  • a processing of the output signals SG and SD of FIG. 4B can be provided consisting in applying a high-pass filter FPH followed by an automatic gain control AGC.
  • the high-pass filter is equivalent to applying the "Gain" factor described above, with:
  • Gain 0.5 if the frequency f is less than 500 Hz and
  • this factor is applied globally at the output of the signals SG and SD, alternatively from an individual application to each coefficient of the matrix explained below.
  • the automatic gain control is calibrated on the overall intensity of the signals corresponding to the Downmix treatment, given by:
  • the gains g and g s are applied globally to the signal C for the gain g and to the signals ARG and ARD for the gain g s .
  • the energy of the left channel signals S'G and the right channel S ' D is thus limited at the end of this treatment, to the maximum, to the overall energy I D 2 of the signals from the top virtual speakers.
  • the recovered signals S 'G and S'D can finally be routed to a sound reproduction device in binaural stereophonic mode.
  • the overall intensity of the signals is usually calculated directly from the energy of the input signals.
  • this data will be taken into account for the estimation of the intensity l D.
  • the implementation of the invention results in a suppression of monaural location indices.
  • the more a source deviates from the median plane the more the interaural indices become predominant to the detriment of the monaural indices.
  • the angle between the side speakers (or between the rear speakers) is greater than 60 °, Monaural clues have little influence on the perceived position of the virtual speakers.
  • the difference perceived here is less than the difference that the listener could perceive from the fact that the HRTFs used would not be specific to him (for example models of HRTFs drawn from the so-called "Kemar head” technique). .
  • the spatial perception of the signal is respected, and this, without bringing color and retaining the timbre of the sound sources.
  • the solution within the meaning of the present invention divides the number of filters to provide substantially by two and further corrects the coloring effects.
  • the choice of the position of the virtual loudspeakers can significantly influence the quality of the result of the spatialization. Indeed, it has proved preferable to place the virtual speakers side and rear +/- 45 ° with respect to the median plane, rather than +/- 30 ° of the median plane according to the configuration recommended by the International Telecommunications Union (ITU). Indeed, when the virtual speakers approach the median plane, the ipsi-lateral and contra-lateral HRTF functions tend to resemble each other and the previous simplifications may no longer give a satisfactory spatialization.
  • ITU International Telecommunications Union
  • the position of a lateral loudspeaker is advantageously in an angular sector of 10 ° to 90 ° and preferably 30 to 60 ° from a plane of symmetry P and facing the face of the listener. More particularly, the position of a lateral loudspeaker will preferably be close to 45 ° from the plane of symmetry.
  • a processing module within the meaning of the invention 72 intervenes directly downstream of an encoder 71, to deliver, as indicated previously, processed data according to a treatment of the type:
  • Downmix + ⁇ DBA (with DBA for "Downmix Binaural Additional").
  • DBA Downmix Binaural Additional
  • the coefficients of the matrix are such that:
  • the global processing matrix H 1 1, k is still expressed as the sum of two matrices:, with
  • the matrix consists of applying function-based filtering
  • the present invention is not limited to the embodiment described before by way of example; it extends to other variants.
  • it has been described above the case of a processing of two initial stereo signals to encode and spatialize to binaural stereo and passing through a 5.1 spatialization.
  • the SG and SD channels of FIG. 4B may furthermore undergo dynamic low-pass filtering of the Dolby® or other type.
  • the present invention also relates to a MOD module (FIG. 4B) for processing sound data, for the transition from a multi-channel format to a binaural or transaural format, in the transformed domain, the elements of which could be those illustrated in FIG. 4B.
  • a module then comprises processing means, such as a PROC processor and a MEM working memory, for the implementation of the invention. It can be implemented in any type of decoder, including a sound reproduction device (PC, walkman, mobile phone, or other) and possibly movie viewing. Alternatively, the module may be designed to operate separately from the restitution, for example to prepare binaural or transaural format content, for subsequent decoding.
  • the present invention also relates to a computer program, downloadable via a telecommunication network and / or stored in a memory of a processing module of the aforementioned type and / or stored on a memory medium intended to cooperate with a reader of such a module processing, and comprising instructions for the implementation of the invention, when they are executed by a processor of said module.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

The invention relates to the processing of sound data encoded in a sub-band domain, for dual-channel playback of binaural or transaural® type, in which a matrix filtering is applied in order to go from a sound representation with N channels with N>0, to a dual-channel representation. This sound representation with N channels consists in considering N virtual loudspeakers surrounding the head of a listener, and, for each virtual loudspeaker of some at least of the loudspeakers: a first transfer function specific to an ipsi-lateral path from the loudspeaker (AVG) to a first ear (OG) of the listener, facing the loudspeaker, and a second transport function specific to a contra-lateral path from said loudspeaker (AVG) to the second ear (OD) of the listener, masked from the loudspeaker by the head of the listener. The matrix filtering applied within the meaning of the invention comprises a multiplicative coefficient ((C/I)AVG) defined by the spectrum, in the sub-band domain, of the second transfer function deconvolved with the first transfer function.

Description

Traitement de données sonores encodées dans un domaine de sous-bandes  Processing encoded sound data in a subband domain
L'invention concerne un traitement de données sonores. Dans le contexte du traitement de données sonores dans un format multicanal (5.1 ou plus), on cherche à procurer un effet de spatialisation 3D appelé « Virtual Surround ». De tels traitements impliquent des filtres qui visent à reproduire un champ sonore aux entrées des conduits auditifs d'une personne. En effet, un auditeur est capable de localiser les sons dans l'espace avec une certaine précision, grâce à la perception des sons par ses deux oreilles. Les signaux émis par les sources sonores subissent des transformations acoustiques en se propageant jusqu'aux oreilles. Ces transformations acoustiques sont caractéristiques du canal acoustique s'établissant entre une source sonore et un point du conduit auditif de l'individu. Chaque oreille possède son propre canal acoustique, et ces canaux acoustiques dépendent de la position et de l'orientation de la source relativement à l'auditeur, de la forme de la tête et de l'oreille de l'auditeur, mais aussi de l'environnement acoustique (par exemple une réverbération due à un effet de salle). Ces canaux acoustiques peuvent être modélisés par des filtres appelés communément "Réponses Impulsionnelles de la tête" ou HRIR (pour "Head Related Impulse Responses" en anglais), ou encore "Fonctions de transferts de la tête" ou HRTF ("Head Related Transfer Functions" en anglais) selon que l'on en donne respectivement une représentation dans le domaine temporel ou encore fréquentiel. En référence à la figure 1, on a représenté un chemin "direct" CD d'une source HPl à l'oreille (gauche) OG de l'auditeur AU (vu de dessus), cette oreille OG étant située directement en regard de la source HPl. On a représenté aussi un chemin "croisé" CC entre une source HP2 et cette même oreille OG de l'auditeur AU, le chemin CC traversant la tête TET de l'auditeur AU car la source HP2 est disposée de l'autre côté du plan médian P par rapport à la source HP2. Dans un milieu sans réverbération (par exemple une chambre anéchoïque), en considérant que les visages humains sont symétriques, les fonctions HRTFs pour l'oreille gauche et pour l'oreille droite (dites ci-après respectivement "HRTF gauche" et "HRTF droite") sont identiques pour les sources qui se situent dans le plan médian (plan P qui sépare la moitié gauche de la moitié droite du corps comme illustré sur la figure 2). Les indices acoustiques exploités par le cerveau pour localiser les sons sont souvent classés en deux familles d'indices : The invention relates to a sound data processing. In the context of processing sound data in a multichannel format (5.1 or more), we seek to provide a 3D spatialization effect called "Virtual Surround". Such treatments involve filters that aim to reproduce a sound field at the entrances of a person's ear canals. Indeed, a listener is able to locate the sounds in the space with a certain precision, thanks to the perception of the sounds by his two ears. The signals emitted by the sound sources undergo acoustic transformations by spreading to the ears. These acoustic transformations are characteristic of the acoustic channel established between a sound source and a point of the auditory canal of the individual. Each ear has its own acoustic channel, and these acoustic channels depend on the position and orientation of the source relative to the listener, the shape of the head and ear of the listener, but also the acoustic environment (eg a reverberation due to a room effect). These acoustic channels can be modeled by filters commonly called "Head Impulse Responses" or "Head Related Impulse Responses" (HRIR), or "Head Transfer Functions" or HRTF ("Head Related Transfer Functions"). "in English) according to whether we give respectively a representation in the time domain or frequency. Referring to FIG. 1, there is shown a "direct" CD path from a source HP1 to the ear (left) OG of the listener AU (seen from above), this ear OG being situated directly opposite the HPl source. There is also shown a "crossed" path CC between a source HP2 and this same ear OG of the listener AU, the path CC crossing the head TET of the listener AU because the source HP2 is disposed on the other side of the plane median P with respect to the source HP2. In a medium without reverberation (for example an anechoic chamber), considering that the human faces are symmetrical, the HRTFs functions for the left ear and for the right ear (hereinafter "left HRTF" and "right HRTF" respectively ") are identical for the sources which lie in the median plane (plane P which separates the left half of the right half of the body as illustrated in figure 2). Acoustic indices exploited by the brain to locate sounds are often classified into two families of indices:
les indices dits "monauraux" concernant la localisation d'un son à partir d'une seule oreille, et  the so-called "monaural" indices concerning the location of a sound from a single ear, and
- les indices dits " interauraux" concernant la localisation d'un son par le cerveau en exploitant les différences entre les signaux perçus à l'oreille gauche et l'oreille droite. - The so-called "interaural" indices concerning the location of a sound by the brain by exploiting the differences between the signals perceived in the left ear and the right ear.
On décrit ci-après des techniques connues de traitement de données sonores au format multi-canal (par exemple à plus de deux haut-parleurs) en vue d'une restitution sur deux haut-parleurs seulement, par exemple sur un casque avec un effet de spatialisation 3D. Hereinafter are described known techniques for processing sound data in multi-channel format (for example with more than two speakers) for playback on two speakers only, for example on a headset with an effect 3D spatialization.
On entend alors par les termes « restitution binaurale » l'écoute sur casque de contenus audio initialement au format multi-canal (par exemple au format 5.1 , ou d'autres formats délivrant plus de deux voies), ces contenus audio étant traités notamment avec un mixage des canaux pour délivrer seulement deux signaux alimentant, en configuration dite "binaurale", les deux mini haut-parleurs (ou "oreillettes") d'un casque classique stéréophonique). Ainsi, dans la transformation d'un format "multi- canal" vers un format "binaural", on cherche à offrir une qualité de spatialisation et d'immersion au casque proche ou équivalente à celle obtenue avec un système de restitution multi-canal comportant autant de haut-parleurs distants que de canaux. Par ailleurs, on entend par les termes « restitution transaurale® » l'écoute sur deux haut- parleurs distants de contenus audio initialement dans un format multi-canal. Classiquement, pour une écoute d'un contenu audio au format multi-canal 5.1 sur un casque stéréophonique ou sur une paire de haut-parleurs, on effectue un matriçage des canaux, appelé ci-après "sous-mixage" ou "Downmix". Un traitement "Downmix" est un traitement matriciel qui permet de passer de N canaux à M canaux avec N>M. On considérera dans la suite qu'un traitement "Downmix" (dès lors qu'il ne tient pas compte d'effets de spatialisation) ne fait pas intervenir de filtre à base de fonctions HRTF. En général, les matrices du traitement "Downmix" utilisées dans des appareils de restitution sonore (ordinateur PC, lecteur de DVD, télévision, ou autres) ont des coefficients constants qui ne dépendent ni du temps ni de la fréquence. Des traitements "Downmix" récents présentent maintenant des matrices dont les coefficients dépendent du temps et de la fréquence et sont ajustés à chaque instant en fonction d'une représentation temps et fréquence des signaux d'entrée. Ce type de matrice permet par exemple d'éviter que les signaux d'entrées s'annulent en s'additionnant. Une version à matrice constante d'un traitement de type "Downmix", nommé "Downmix ITU", a été normalisée par l'Union Internationale des Télécommunications ou "ITU" (pour "International Télécommunication Union"). Ce traitement est appliqué par la mise en œuvre des équations suivantes : By the terms "binaural rendering", it is then understood that headphones listen to audio contents initially in the multi-channel format (for example in the 5.1 format, or other formats delivering more than two channels), these audio contents being processed in particular with a mix of channels to deliver only two signals supplying, in so-called "binaural" configuration, the two mini-speakers (or "headsets") of a conventional stereophonic headphones). Thus, in the transformation of a "multi-channel" format to a "binaural" format, it is sought to offer a quality of spatialization and immersion in headphones that is close to or equivalent to that obtained with a multi-channel rendering system comprising as many distant speakers as channels. Furthermore, the term "transaural playback" means listening on two remote speakers of audio content initially in a multi-channel format. Conventionally, for listening to audio content in 5.1 multi-channel format on a stereo headset or on a pair of speakers, it performs a stamping channels, hereinafter referred to as "downmix" or "downmix". "Downmix" processing is a matrix processing that allows to go from N channels to M channels with N> M. It will be considered in the following that a "Downmix" treatment (since it does not take into account spatialisation effects) does not involve a filter based on HRTF functions. In general, "Downmix" processing matrices used in sound reproduction devices (PC, DVD, TV, etc.) have constant coefficients that are independent of time and frequency. Recent "Downmix" processes now have matrices whose coefficients depend on time and frequency and are adjusted at each instant according to a time and frequency representation of the input signals. This type of matrix makes it possible, for example, to prevent the input signals from canceling each other by adding up. A constant matrix version of a "Downmix" type of processing, named "ITU Downmix", has been standardized by the International Telecommunication Union or "ITU" (for "International Telecommunication Union"). This treatment is applied by implementing the following equations:
SG = EAVG + Ec * 0,707 + EARG * 0,707 S G = EAVG + E c * 0.707 + EARG * 0.707
SR = EAVD + Ec * 0,707 + EARD * 0,707, S R = EAVD + E c * 0.707 + E ARD * 0.707,
où : or :
SG et SR sont respectivement des signaux stéréo de sortie de gauche et de droite, EAVG et EAVD sont respectivement des signaux d'entrée qui auraient été destinés à alimenter des haut-parleurs latéraux gauche AVG et droit AVD (illustrés sur la figure 2),  SG and SR are respectively left and right stereo output signals, EAVG and EAVD are respectively input signals which would have been intended to supply left side speakers AVG and right AVD (illustrated in FIG. 2),
- EARG et EARD sont respectivement des signaux d'entrée qui auraient été destinés à alimenter des haut-parleurs arrière gauche ARG et arrière droit ARD, situés derrière l'auditeur AU de la figure 2, - E ARG and E ARD are respectively input signals that would have been intended to supply left rear ARG loudspeakers and right ARD rear speakers, located behind the AU listener of FIG. 2,
Ec est un signal d'entrée qui aurait été destiné à alimenter un haut-parleur central C situé en face de l'auditeur AU, et  Ec is an input signal that would have been intended to power a central loudspeaker C located in front of the AU listener, and
- 0,707 représente une approximation de la racine carrée de 1/2. On peut considérer de tels gains comme des gains appliqués aux haut-parleurs. - 0.707 represents an approximation of the square root of 1/2. Such gains can be considered as gains applied to loudspeakers.
A titre d'exemple, le traitement dit ci-après "Downmix ITU" ne permet pas la perception spatiale précise des événements sonores. Comme indiqué précédemment d'ailleurs, un traitement de type "Downmix", de façon générale, ne permet pas la perception spatiale puisqu'il ne fait pas intervenir de filtre HRTF. Le sentiment d'immersion que peuvent offrir les contenus au format multi-canal est alors perdu avec une écoute au casque par rapport à l'écoute sur un système à plus de deux haut-parleurs (par exemple au format 5.1 comme illustré sur la figure 2). A titre d'exemple, un son supposé être émis par une source mobile de l'avant vers l'arrière de l'auditeur, n'est pas correctement restitué sur un système simplement stéréo (sur un casque à oreillettes ou une paire de haut-parleurs). En outre, un son présent uniquement dans le canal SG (OU SR) et traité par le sous-mixage " Downmix ITU" n'est restitué que dans l'oreillette gauche (ou droite, respectivement) dans le cas d'une écoute au casque, alors que dans le cas d'une écoute sur un système à plus de deux haut-parleurs (par exemple au format 5.1), l'oreille droite (ou gauche, respectivement) perçoit, elle aussi, un signal par diffraction. By way of example, the treatment referred to below as "ITU Downmix" does not allow the precise spatial perception of sound events. As indicated above, moreover, a "Downmix" type treatment, in general, does not allow spatial perception since it does not involve an HRTF filter. The feeling of immersion that multi-channel content can offer is then lost with headphone listening compared to listening on a system with more than two speakers (for example in the format 5.1 as illustrated in the figure 2). For example, a sound supposed to be emitted by a moving source from the front to the back of the listener, is not correctly reproduced on a simply stereo system (on a headset or a pair of high Speakers). In addition, a sound present only in the S-channel G (OR SR) and processed by the downmix ITU submix is only output in the left (or right, respectively) atrium in the case of listening. on the headphones, whereas in the case of listening on a system with more than two speakers (for example in the 5.1 format), the right ear (or left, respectively) also perceives a diffraction signal.
Afin de pallier ces inconvénients, le procédé de sous-mixage vers un format binaural, dit "Downmix binaural", a été développé. Il consiste à placer virtuellement cinq (ou plus) haut-parleurs dans un environnement sonore restitué sur deux voies seulement, comme si cinq sources (ou plus) étaient à spatialiser pour une restitution binaurale.In order to overcome these disadvantages, the downmixing process to a binaural format, called "Downmix binaural", has been developed. It consists of placing virtually five (or more) speakers in a sound environment restored on two channels only, as if five sources (or more) were to spatialize for a binaural restitution.
Ainsi, un contenu au format multi-canal est diffusé sur des haut-parleurs "virtuels" dans un contexte de restitution binaurale. Les utilisations d'une telle technique se retrouvent actuellement principalement dans les lecteurs DVD (sur ordinateurs PC, sur des télévisions, sur des lecteurs de salon, ou autres), et bientôt sur les terminaux mobiles pour la lecture de données télévisuelles ou vidéo. Thus, content in multi-channel format is broadcast on "virtual" speakers in a context of binaural playback. The uses of such a technique are currently found mainly in DVD players (on PCs, on television sets, on lounge readers, or others), and soon on mobile terminals for reading television or video data.
Dans le procédé "Downmix binaural", les haut-parleurs virtuels sont créés par la technique dite de "synthèse binaurale". Cette technique consiste à appliquer des fonctions de transfert acoustique de la tête (HRTF), à des signaux audio monophoniques, afin d'obtenir un signal binaural qui permet, lors d'une écoute au casque, d'avoir la sensation que les sources sonores proviennent d'une direction particulière de l'espace. Le signal de l'oreille droite est obtenu en filtrant le signal monophonique par la fonction HRTF de l'oreille droite et le signal de l'oreille gauche est obtenu en filtrant ce même signal monophonique par la fonction HRTF de l'oreille gauche. Le signal binaural résultant est alors disponible pour une écoute sur casque. In the "Downmix binaural" process, the virtual loudspeakers are created by the so-called "binaural synthesis" technique. This technique consists in applying sound transfer functions of the head (HRTF) to audio signals monophonic, to obtain a binaural signal that allows, when listening to the headphones, to have the feeling that sound sources come from a particular direction of space. The signal of the right ear is obtained by filtering the monophonic signal by the HRTF function of the right ear and the signal of the left ear is obtained by filtering this same monophonic signal by the HRTF function of the left ear. The resulting binaural signal is then available for headphone listening.
Cette mise en œuvre est illustrée sur la figure 3A. Une fonction de transfert définie par un filtre est associée à chaque chemin acoustique entre une oreille de l'auditeur et un haut-parleur virtuel (placé comme préconisé dans le format multi-canal 5.1 dans l'exemple représenté). Ainsi, en référence à la figure 3B, pour dix chemins acoustiques en tout : This implementation is illustrated in Figure 3A. A transfer function defined by a filter is associated with each acoustic path between an ear of the listener and a virtual speaker (placed as recommended in the multi-channel format 5.1 in the example shown). Thus, with reference to FIG. 3B, for ten acoustic paths in all:
- HCg (respectivement HCd) est le filtre correspondant à une HRTF pour le chemin entre le haut-parleur central C et l'oreille gauche OG (respectivement droite OD) de l'auditeur,  HCg (respectively HCd) is the filter corresponding to an HRTF for the path between the central loudspeaker C and the left ear OG (respectively right OD) of the listener,
HGg (respectivement HDd) est le filtre correspondant à une HRTF dite "ipsi- latérale" (oreille "éclairée" par le haut-parleur) pour le chemin direct (en trait plein) entre le haut-parleur latéral gauche AVG (respectivement latéral droit AVD) et l'oreille gauche OG (respectivement droite OD) de l'auditeur,  HGg (respectively HDd) is the filter corresponding to an HRTF called "ipsi- lateral" (ear "illuminated" by the loudspeaker) for the direct path (solid line) between the AVG left lateral loudspeaker (respectively right lateral AVD) and the left ear OG (respectively right OD) of the listener,
- HGd (respectivement HDg) est le filtre correspondant à une HRTF dite "contra- latérale" (oreille dans "l'ombre" de la tête) pour le chemin indirect (en traits pointillés) entre le haut-parleur latéral gauche AVG (respectivement latéral droit AVD) et l'oreille droite OD (respectivement gauche OG) de l'auditeur, - HGd (respectively HDg) is the filter corresponding to a so-called "contralateral" HRTF (ear in the "shadow" of the head) for the indirect path (in dashed lines) between the left lateral loudspeaker AVG (respectively right lateral AVD) and the right ear OD (respectively left OG) of the listener,
HGSg (respectivement HDSd) est le filtre correspondant à une HRTF ipsi-latérale pour le chemin direct (en trait plein) entre le haut-parleur arrière gauche ARG HGSg (respectively HDSd) is the filter corresponding to an ipsi-lateral HRTF for the direct path (solid line) between the ARG left rear speaker
(respectivement arrière droit ARD) et l'oreille gauche OG (respectivement droite OD) de l'auditeur, et (respectively back right ARD) and the left ear OG (respectively right OD) of the listener, and
- HGSd (respectivement HDSg) est le filtre correspondant à une HRTF contra- latérale pour le chemin indirect (en traits pointillés) entre le haut-parleur arrière gauche ARG (respectivement arrière droit ARD) et l'oreille droite OD- HGSd (respectively HDSg) is the filter corresponding to a contralateral HRTF for the indirect path (in dashed lines) between the ARG left rear loudspeaker (ARD right rear respectively) and the right OD ear
(respectivement gauche OG) de l'auditeur. Un inconvénient de cette technique est sa complexité puisqu'il faut deux filtres binauraux par haut-parleur virtuel (une HRTF ipsi-latérale et une HRTF contra- latérale), donc dix filtres en tout dans le cas d'un format 5.1. (respectively left OG) of the listener. A disadvantage of this technique is its complexity since two binaural filters per virtual loudspeaker (an ipsilateral HRTF and a contralateral HRTF), thus ten filters in all in the case of a 5.1 format, are required.
Le problème est accru lorsqu'il s'agit de manipuler ces fonctions de transfert au cours de différents traitements tels que ceux selon la norme MPEG et en particulier le traitement appelé « MPEG surround » ®. En effet, en référence au point 6.1 1.4.2.2.2 du document « Information technology— MPEG audio technologies— Part 1: MPEG Surround », ISO/IEC JTC 1/SC 29 (21 juillet 2006), on prévoit un filtrage matriciel, dans le domaine des sous-bandes m (notées aussi k(k) ici), du type : The problem is increased when it comes to manipulating these transfer functions during different treatments such as those according to the MPEG standard and in particular the processing called "MPEG surround" ®. Indeed, with reference to point 6.1 1.4.2.2.2 of the document "Information technology- MPEG audio technologies Part 1: MPEG Surround", ISO / IEC JTC 1 / SC 29 (July 21, 2006), matrix filtering is provided, in the field of subbands m (also denoted by k (k) here), of the type:
pour passer de deux signaux monophoniques à des signaux stéréophoniques en représentation binaurale. to go from two monophonic signals to stereophonic signals in binaural representation.
En effet, cette norme prévoit un mode de réalisation dans lequel un signal multi-canal est transporté sous la forme d'un mixage (downmix) stéréo et de paramètres de spatialisation (notés CLD pour "Channel Level Différence", ICC pour "Inter-Channel Cohérence", et CPC pour "Channel Prédiction Coefficient"). Ces paramètres permettent dans une première étape de mettre en œuvre un traitement d'expansion du mixage (ou « downmix ») stéréo vers trois signaux L', R' et C. Dans une seconde étape, ils permettent l'expansion des signaux L', R' et C pour obtenir des signaux 5.1 (notés L, Ls, R, Rs, C et LFE pour « Low Frequency Effect »). Dans le mode binaural, les signaux C et LFE ne sont pas séparés. Le signal C est utilisé pour le traitement de Downmix binaural. Donc ici, à partir de deux signaux monophoniques, on construit d'abord trois signaux (pour des canaux respectifs gauche L', droit R' et centre C'). Ainsi, la notationIndeed, this standard provides an embodiment in which a multi-channel signal is transported in the form of stereo downmix and spatialization parameters (CLD for Channel Level Difference, ICC for Inter-channel). Channel Coherence ", and CPC for" Channel Prediction Coefficient "). These parameters make it possible, in a first step, to implement stereo expansion downmix processing to three L ', R' and C signals. In a second step, they allow the expansion of L signals. , R 'and C to obtain 5.1 signals (denoted L, Ls, R, Rs, C and LFE for "Low Frequency Effect"). In the binaural mode, the C and LFE signals are not separated. Signal C is used for binaural Downmix processing. So here, from two monophonic signals, three signals are first constructed (for respective left channels L ', right R' and center C '). Thus, the notation
désigne une matrice de traitement d'expansion de signaux stéréo vers ces trois canaux. Les traitements suivants sont ensuite : designates an expansion processing matrix of stereo signals to these three channels. The following treatments are then:
* un traitement d'expansion de ces trois canaux vers N canaux en configuration multi- canal, par exemple 5 canaux en format 5.1, et  an expansion treatment of these three channels towards N channels in multi-channel configuration, for example 5 channels in 5.1 format, and
* un traitement de spatialisation de N haut-parleurs virtuels respectivement associés à ces N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®, avec :  a spatialization processing of N virtual loudspeakers respectively associated with these N channels to obtain a bi-channel, binaural or transaural representation, with:
, pour le trajet d'un haut-parleur central associé au canal précité C , for the path of a central loudspeaker associated with the aforementioned channel C
vers l'oreille gauche, , pour le trajet du haut-parleur associé au to the left ear,, for the path of the speaker associated with the
central C vers l'oreille droite, our les trajets ipsi-latéraux vers l'oreille gauche, , pour les trajets contra-latéraux vers central C to the right ear, or the ipsilateral paths to the left ear, , for contra-lateral paths to
l'oreille gauche,  the left ear,
¾ , pour les trajets contra-latéraux vers ¾, for counter-lateral paths to
l'oreille droite, , pour les trajets ipsi-latéraux vers l'oreille the right ear,, for ipsilateral trips to the ear
droite,  right,
où :  or :
et représentent des gains relatifs à appliquer au signal du canal L' pour and represent relative gains to apply to the L 'channel signal for
définir des canaux L et Ls respectivement des haut-parleurs virtuels gauche direct et gauche d'ambiance au format 5.1, pour l'échantillon l de la bande de fréquence m en transformée temps-fréquence,  define channels L and Ls, respectively, of the left and right surround virtual speakers in 5.1 format, for sample 1 of the frequency band m in time-frequency transform,
- ou représentent des gains relatifs à appliquer au signal du canal R' pour - or represent relative gains to be applied to the signal of the channel R 'for
définir des canaux R et Rs des haut-parleurs virtuels droit direct et droit d'ambiance au format 5.1, pour l'échantillon / de la bande de fréquence m en transformée temps-fréquence,define R and Rs channels of virtual speakers right and right in the 5.1 format, for the sample / frequency band m in time-frequency transform,
et sont des déphasages correspondant à des retards interauraux, et sont des pondérations telles que : and are phase shifts corresponding to interaural delays, and are weights such as:
On retiendra en particulier que : We note in particular that:
- est l'expression du spectre de la fonction de transfert de type HRTF pour un trajet entre un haut-parleur central au format 5.1 et l'oreille gauche d'un auditeur, - est l'expression du spectre de la fonction de transfert de type HRTF pour un trajet entre un haut-parleur central au format 5.1 et l'oreille droite d'un auditeur, - est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur is the expression of the spectrum of the HRTF transfer function for a path between a central loudspeaker in 5.1 format and the left ear of a listener, is the expression of the spectrum of the transfer function of type HRTF for a path between a 5.1 format center speaker and the right ear of a listener, - is the expression of the spectrum of the HRTF for a path between a loudspeaker
gauche d'ambiance au format 5.1 et l'oreille gauche,  Ambient left in 5.1 format and left ear,
- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur gauche d'ambiance au format 5.1 et l'oreille droite, - is the expression of the spectrum of the HRTF for a path between a left surround speaker in 5.1 format and the right ear,
- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur droit d'ambiance au format 5.1 et l'oreille gauche, - is the expression of the spectrum of the HRTF for a path between a right surround speaker in 5.1 format and the left ear,
- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur - is the spectrum expression of the HRTF for a path between a speaker
droit d'ambiance au format 5.1 et l'oreille droite,  Ambient right in 5.1 format and the right ear,
est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur - droit au format 5.1 et l'oreille gauche, et  is the spectrum expression of the HRTF for a path between a right-hand speaker in 5.1 format and the left ear, and
- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur droit au format 5.1 et l'oreille droite, - est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur gauche au format 5.1 et l'oreille gauche, et - is the expression of the spectrum of the HRTF for a path between a right speaker in 5.1 format and the right ear, - is the expression of the spectrum of the HRTF for a path between a left loudspeaker in 5.1 format and the left ear, and
- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur - is the spectrum expression of the HRTF for a path between a speaker
gauche au format 5.1 et l'oreille droite.  left in 5.1 and the right ear.
On retrouve ainsi dix filtres associés aux fonctions de transfert HRTFs précitées pour le format 5.1 vers une représentation binaurale dans cet exemple. Il s'en suit le problème complexité que pose cette technique, nécessitant deux filtres binauraux par haut-parleur virtuel (une HRTF ipsi-latérale et une HRTF contra-latérale). There are thus ten filters associated with the aforementioned HRTFs transfer functions for the 5.1 format to a binaural representation in this example. It follows the complexity problem posed by this technique, requiring two binaural filters per virtual speaker (an ipsi-lateral HRTF and a contra-lateral HRTF).
La présente invention vient améliorer la situation. The present invention improves the situation.
A cet effet, elle propose tout d'abord un procédé de traitement de données sonores encodées dans un domaine de sous-bandes, pour une restitution bi-canal de type binaurale ou transaurale®, dans lequel on applique un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal, cette représentation sonore à N canaux consistant à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs : For this purpose, it first proposes a method for processing sound data encoded in a subband domain, for a bi-channel reproduction of binaural or transaural® type, in which a matrix filtering is applied to pass from an N channel sound representation with N> 0, at a bi-channel representation, this N channel sound representation of considering N virtual speakers surrounding the listener's head, and for each virtual speaker of at least part of the speakers:
- une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur vers une première oreille de l'auditeur, face au haut-parleur, et a first transfer function specific to an ipsi-lateral path from the loudspeaker to a first ear of the listener, facing the loudspeaker, and
- une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur vers la seconde oreille de l'auditeur, masquée du haut-parleur par la tête de l'auditeur. a second transfer function specific to a contra-lateral path of said loudspeaker towards the second ear of the listener, masked from the loudspeaker by the head of the listener.
Avantageusement, le filtrage matriciel appliqué comporte un coefficient multiplicatif défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert. Advantageously, the applied matrix filtering comprises a multiplicative coefficient defined by the spectrum, in the field of the subbands, of the second transfer function deconvolved by the first transfer function.
Un premier avantage qui découle d'une telle construction est la réduction significative de la complexité des traitements. Déjà, comme on le verra en détail plus loin, les fonctions de transfert du haut-parleur virtuel central n'ont plus besoin d'être prises en compte. Ainsi, il n'est pas nécessaire de prendre en compte les fonctions de transfert de tous les haut-parleurs virtuels, mais d'une partie seulement des haut-parleurs virtuels. A first advantage that arises from such a construction is the significant reduction in the complexity of the treatments. Already, as will be seen in detail below, central virtual speaker transfer functions no longer need to be taken into account. Thus, it is not necessary to take into account the transfer functions of all the virtual speakers, but only a part of the virtual speakers.
Une autre simplification qui découle de la construction au sens de l'invention est qu'il n'est plus nécessaire de prévoir de fonction de transfert pour les trajets ipsi-latéraux. Par exemple, dans le cas d'un filtrage matriciel pour passer d'une représentation sonore à M canaux, avec M>0, à une représentation bi-canal (binaurale ou transaurale), en passant par une représentation intermédiaire sur les N canaux, avec N>2, comme dans le cas de la norme décrite ci-avant, les coefficients de la matrice s'expriment, pour un trajet contra- latéral, notamment en fonction de gains de spatialisation respectifs des M canaux sur les N haut-parleurs virtuels situés dans un hémisphère autour d'une première oreille, et des spectres de fonction de transfert contra-latérale, relative à la deuxième oreille de l'auditeur, déconvoluée par la fonction de transfert ipsi-latérale, relative à la première oreille. Toutefois, de façon avantageuse, pour un trajet ipsi-latéral, les coefficients de la matrice ne s'expriment plus en fonction des spectres de HRTFs mais simplement en fonction de gains de spatialisation des M canaux sur les N haut-parleurs virtuels situés dans un hémisphère autour d'une première oreille. Another simplification that follows from the construction in the sense of the invention is that it is no longer necessary to provide a transfer function for the ipsi-lateral paths. For example, in the case of a matrix filtering to go from a sound representation to M channels, with M> 0, to a bi-channel representation (binaural or transaural), passing through an intermediate representation on the N channels, with N> 2, as in the case of the standard described above, the coefficients of the matrix are expressed, for a lateral path, notably as a function of respective spatialization gains of the M channels on the N loudspeakers virtual images located in a hemisphere around a first ear, and spectra of contra-lateral transfer function, relative to the second ear of the listener, deconvolved by the ipsilateral transfer function, relative to the first ear. However, advantageously, for an ipsi-lateral path, the coefficients of the matrix are no longer expressed as a function of the HRTFs spectra but simply as a function of the spatialization gains of the M channels on the N virtual speakers located in a field. hemisphere around a first ear.
Ainsi, si la représentation à N canaux comporte, par hémisphère autour d'une oreille, au moins un haut-parleur virtuel direct et un haut-parleur virtuel d'ambiance comme dans le « virtual surround », les coefficients de la matrice s'exprimant, dans un domaine de sous-bandes en transformée temps-fréquence (par exemple de type « P MF » pour « Pseudo-Quadrature Mirror Filters »), par : Thus, if the N-channel representation comprises, by hemisphere around an ear, at least one direct virtual speaker and a virtual ambience speaker as in the "virtual surround", the coefficients of the matrix s' expressing, in a domain of time-frequency transform subbands (for example of the "P MF" type for "Pseudo-Quadrature Mirror Filters"), by:
Si les fonctions HRTF sont symétriques on a If the HRTF functions are symmetrical we have
- pour les trajets contra- latéraux vers - for counter-lateral paths to
l'oreille gauche ; the left ear;
- , pour les trajets contra- latéraux vers -, for the counter-lateral paths to
l'oreille droite ; " seulement, pour les trajets ipsi-latéraux vers l'oreille the right ear; "only, for ipsilateral trips to the ear
gauche ; left;
- seulement, pour les trajets ipsi-latéraux vers l'oreille droite, - only, for ipsi-lateral trips to the right ear,
où : or :
- et représentent des gains relatifs à appliquer à un même premier signal - and represent relative gains to apply to the same first signal
(par exemple le signal du canal L' dans une configuration initiale à trois canaux, comme décrit ci-avant) pour définir des canaux L et Ls respectivement des haut- parleurs virtuels gauche direct et gauche d'ambiance, pour l'échantillon / de la bande de fréquence m en transformée temps-fréquence, (eg the L 'channel signal in an initial three-channel configuration, as described above) to define L and Ls channels respectively of the left and right virtual surround speakers, for the sample / of the frequency band m in time-frequency transform,
- ou représentent des gains relatifs à appliquer à un même deuxième signal (par exemple le canal R') pour définir des canaux R et Rs des haut-parleurs virtuels droit direct et droit d'ambiance, pour l'échantillon l de la bande de fréquence m en transformée temps-fréquence, - or represent relative gains to apply to the same second signal (for example the channel R ') to define R and Rs channels of the virtual right and right surround speakers, for the sample 1 of the frequency band m in time-frequency transform,
- ou est l'expression du spectre de la fonction de transfert de type HRTF - or is the spectrum expression of the HRTF transfer function
contra-latérale, relative à l'oreille droite de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille gauche, pour un haut-parleur virtuel gauche, direct ou respectivement d'ambiance, contra-lateral, relative to the right ear of the listener, deconvolved by an ipsi-lateral transfer function, relating to the left ear, for a virtual left speaker, direct or respectively ambient,
- ou est l'expression du spectre de la fonction de transfert de type HRTF - or is the spectrum expression of the HRTF transfer function
contra-latérale, relative à l'oreille gauche de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille droite, pour un haut-parleur virtuel droit, direct ou respectivement d'ambiance, contra-lateral, relative to the left ear of the listener, deconvolved by an ipsi-lateral transfer function, relative to the right ear, for a virtual right speaker, direct or respectively ambient,
- et sont des déphasages entre fonctions de transfert contra-latérale et - and are phase shifts between counter-lateral transfer functions and
ipsi-latérale correspondant à des retards interauraux choisis, et - sont des pondérations choisies. ipsi-lateral corresponding to selected interaural delays, and - are selected weights.
Typiquement, le coefficient g peut avoir une valeur avantageuse de 0,707 (correspondant à la racine de 1/2, lorsqu'on prévoit une répartition en énergie de moitié du signal du haut-parleur central sur les haut-parleurs latéraux), comme préconisé dans le traitement « Downmix ITU ».  Typically, the coefficient g may have an advantageous value of 0.707 (corresponding to the root of 1/2, when a half energy distribution of the signal of the central loudspeaker is provided on the side loudspeakers), as recommended in the "Downmix ITU" treatment.
Plus précisément, par la mise en œuvre de l'invention, le filtrage matriciel s'exprime selon un produit de matrices de type : More precisely, by the implementation of the invention, the matrix filtering is expressed according to a product of matrices of type:
ou : or :
- Wl,m représente la matrice de traitement d'expansion de signaux stéréo vers M' cana x, avec M'>2 (par exemple M'=3), et représente un traitement matriciel - W l, m represents the expansion processing matrix of stereo signals to M 'cana x, with M'> 2 (for example M '= 3), and represents a matrix treatment
global comportant : global comprising:
* un traitement d'expansion de M' canaux vers les N canaux, avec N>3 (par exemple 5, pour un format 5.1), et  an expansion process of M 'channels towards the N channels, with N> 3 (for example 5, for a format 5.1), and
* un traitement de spatial isation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®. Un autre inconvénient du procédé "Downmix binaural" au sens de l'art antérieur est qu'il ne respecte pas le timbre du son initial, que restitue bien le traitement "Downmix", car les filtres du traitement binaural résultant des HRTFs modifient fortement le spectre des signaux et apportent ainsi des effets de "coloration" en comparaison du "Downmix". La grande majorité des utilisateurs préfèrent d'ailleurs le "Downmix" même si le "Downmix binaural" procure effectivement une perception spatiale extracrânienne des sons. L'inconvénient du dé-timbrage (ou "coloration") apporté par le "Downmix Binaural" n'est pas compensé par l'apport des effets de spatialisation, selon le ressenti des utilisateurs. a spatial processing of the N virtual speakers respectively associated with the N channels to obtain a bi-channel, binaural or transaural® representation. Another disadvantage of the "Downmix binaural" method in the sense of the prior art is that it does not respect the tone of the initial sound, which is well reproduced by the "Downmix" treatment, because the binaural processing filters resulting from the HRTFs strongly modify the signal spectrum and thus provide "coloring" effects compared to "Downmix". The vast majority of users prefer the "Downmix" even if the "Downmix binaural" actually provides an extracranial spatial perception of sounds. The disadvantage of the de-stamping (or "coloring") provided by the "Downmix Binaural" is not compensated by the contribution of spatialisation effects, according to the feeling of the users.
Là encore, la construction au sens de la présente invention vient améliorer la situation. La mise en œuvre de l'invention telle que décrite ci-avant permet de préserver de toute distorsion le timbre perçu des sources sonores. Here again, the construction in the sense of the present invention improves the situation. The implementation of the invention as described above makes it possible to preserve any perceived distortion of the sound sources from any distortion.
En effet, le filtrage de la composante contra-latérale défini par la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale permet de réduire la distorsion de timbre apportée par le traitement de binauralisation. Comme on le verra plus loin, un tel filtrage revient à un filtrage passe-bas retardé d'une valeur correspondant au retard interaural. On peut choisir avantageusement une fréquence de coupure du filtre passe-bas pour tous les couples de HRTF à environ 500 Hz, avec une pente de filtre très importante. Le cerveau perçoit, sur une oreille, le signal original (sans traitement) et, sur l'autre oreille, le signal retardé et filtré passe bas. Au-delà de la fréquence de coupure, la différence de niveau perçue par rapport à l'écoute diotique du signal orignal atténué de 6dB, est minime. En revanche, sous la fréquence de coupure, le signal est perçu deux fois plus fort. Pour les signaux contenant des fréquences sous la fréquence de coupure, la différence de timbre consistera donc en une amplification des basses fréquences. Indeed, the filtering of the contralateral component defined by the counter-lateral transfer function deconvolved by the ipsilateral transfer function makes it possible to reduce the stamp distortion provided by the binauralization processing. As will be seen below, such a filtering returns to a low-pass filtering delayed by a value corresponding to the interaural delay. It is advantageous to choose a cut-off frequency of the low-pass filter for all the HRTF pairs at about 500 Hz, with a very large filter slope. The brain perceives, on one ear, the original signal (without treatment) and, on the other ear, the delayed and filtered signal passes low. Beyond the cutoff frequency, the difference in perceived level compared to the diotic listening of the attenuated moose signal of 6dB, is minimal. On the other hand, under the cutoff frequency, the signal is perceived twice as strong. For signals containing frequencies below the cutoff frequency, the difference in timbre will therefore consist of an amplification of the low frequencies.
Un tel dé-timbrage peut avantageusement être éliminé simplement par un filtrage passe-haut, qui peut être le même pour toutes les fonctions de transfert HRTFs (directions de haut-parleurs). Dans le cas d'un traitement pour une restitution binaurale, le dé-timbrage précité peut avantageusement être appliqué sur le signal stéréo binaural résultant du sous-mixage. Pour éviter en outre une différence de sonie entre les résultats d'un traitement de type « Downmix » et un traitement de binauralisation au sens de l'invention, on peut avantageusement prévoir en outre un contrôle de gain automatique en fin de traitement, pour faire en sorte que les niveaux que délivreraient le traitement Downmix et le traitement de binauralisation au sens de l'invention soient similaires. A cet effet, comme on le verra en détail plus loin, on prévoit en bout de chaîne de traitement un filtre passe-haut et un contrôle automatique de gain. Such de-stamping may advantageously be eliminated simply by high-pass filtering, which may be the same for all HRTFs transfer functions (speaker directions). In the case of a treatment for a binaural reproduction, the above-mentioned de-stamping can advantageously be applied to the binaural stereo signal resulting from the submixing. In addition, to avoid a loudness difference between the results of a "Downmix" type of treatment and a binauralization treatment within the meaning of the invention, an automatic gain control can be advantageously provided at the end of the treatment, so that so that the levels that the Downmix processing and the Binauralization process would deliver in the sense of the invention are Similar. For this purpose, as will be seen in detail below, there is provided at the end of the processing chain a high-pass filter and an automatic gain control.
Ainsi, en termes plus génériques, on applique en outre un gain choisi à deux signaux de voie gauche et de voie droite en représentation bi-canal (binaurale ou transaurale®), avant restitution, le gain choisi étant contrôlé pour limiter une énergie des signaux de voie gauche et de voie droite, au maximum, à une énergie de signaux des haut-parleurs virtuels. Dans une mise en œuvre pratique, on applique préférentiellement un contrôle automatique de gain aux deux signaux de voie gauche et de voie droite, en aval de l'application du facteur de pondération variable en fréquence. Thus, in more generic terms, a selected gain is also applied to two left-channel and right-channel signals in two-channel representation (binaural or transaural®), before restitution, the selected gain being controlled to limit a signal energy. of left and right channels, at most, to a signal energy of the virtual loudspeakers. In a practical implementation, preferential automatic gain control is applied to the two left and right channel signals, downstream from the application of the variable frequency weighting factor.
On tire avantage en outre du traitement au sens de l'invention pour éliminer la distorsion de coloration apportée par le traitement de binauralisation habituel. Π apparaît en effet que le traitement de réduction de distorsion de coloration est très simple à réaliser lorsqu'il est mis en œuvre dans le domaine transformé des sous- bandes. En effet, les équations ci-avant donnant les coefficients de matrices deviennent simplement : It is furthermore advantageous to use the process according to the invention to eliminate the color distortion provided by the usual binauralization treatment. Indeed, it appears that the treatment for reducing color distortion is very simple to perform when it is used in the transformed domain of the subbands. Indeed, the equations above giving the matrix coefficients simply become:
La pondération « Gain » dans les équations ci-dessus étant telle que, dans un exemple de réalisation :  The "Gain" weighting in the above equations being such that, in one exemplary embodiment:
Gain = 0,5 si la bande de fréquence d'indice m est telle que m < 9 (ou si la fréquence f est elle-même inférieure à 500 Hz) et Gain = 1, sinon. Gain = 0.5 if the frequency band of index m is such that m <9 (or if the frequency f is itself less than 500 Hz) and Gain = 1, otherwise.
Ainsi, en termes plus génériques, les coefficients de la matrice précitée et intervenant dans le filtrage matriciel varient en fonction de la fréquence, selon une pondération d'un facteur (Gain) choisi et inférieur à un, si la fréquence est inférieure à un seuil choisi, et de un sinon. Dans l'exemple de réalisation donné ci- avant, le facteur est de 0,5 environ et le seuil de fréquence choisi est de 500 Hz environ pour éliminer une distorsion de coloration. Thus, in more generic terms, the coefficients of the aforementioned matrix and intervening in the matrix filtering vary according to the frequency, according to a weighting of a factor (Gain) chosen and less than one, if the frequency is lower than a threshold chosen, and one if not. In the embodiment given above, the factor is about 0.5 and the chosen frequency threshold is about 500 Hz to eliminate a color distortion.
Il est possible aussi d'appliquer ce gain directement en sortie de traitement, en particulier aux signaux de sortie avant restitution sur haut-parleurs ou oreillettes, en appliquant aux équations : It is also possible to apply this gain directly at the output of processing, in particular to the output signals before playback on speakers or earphones, by applying to the equations:
gain précité, comme suit aforementioned gain, as follows
La pondération « Gain » et le contrôle automatique de gain peuvent aussi être intégrés dans un même traitement, comme suit : "Gain" weighting and automatic gain control can also be integrated into a single treatment, as follows:
si la bande de fréquence d'indice m est telle que m < 9 (ou si la fréquence  if the frequency band of index m is such that m <9 (or if the frequency
même inférieure à 500 Hz) et , sinon. even less than 500 Hz) and, if not.
Un autre avantage que procure l'invention est le transport du signal encodé et son traitement auprès d'un décodeur pour améliorer sa qualité sonore, par exemple un décodeur de type MPEG Surround ®. Dans le contexte de l'invention où aucune fonction de transfert n'est appliquée pour les trajets directs (contributions ipsi-latérales) et un traitement supplémentaire est prévu sur les trajets indirects (spectre de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale), il est intéressant de constater qu'en appliquant un gain de 0,707 aux signaux des canaux central, et d'ambiance (arrière- gauche et arrière-droit), alors la partie non traitée du sous-mixage stéréo (les contributions ipsi- latérales) présente la même forme que le résultat d'un traitement de type Downmix ITU. On peut généraliser ce qui précède à tout type de traitement de sous-mixage (Downmix). En effet, un traitement Downmix vers deux canaux consiste généralement à appliquer une pondération aux canaux (des haut-parleurs virtuels), puis à sommer les N canaux vers deux signaux de sortie. Appliquer un traitement de spatialisation binaurale au traitement Downmix consiste à appliquer aux N canaux pondérés les filtres HRTF correspondant aux positions des N haut-parleurs virtuels. Comme ces filtres sont égaux à 1 pour les contributions ipsi-latérales, on retrouve bien le traitement de Downmix en appliquant la somme des contributions ipsi-latérales. Another advantage provided by the invention is the transport of the encoded signal and its processing with a decoder to improve its sound quality, for example a decoder type MPEG Surround ®. In the context of the invention where no transfer function is applied for the direct paths (ipsi-lateral contributions) and additional processing is provided on the indirect paths (spectrum of the counter-lateral transfer function deconvolved by the function ipsi-lateral transfer), it is interesting to note that by applying a gain of 0.707 to the signals of the center, and surround (left and right) channels, then the untreated part of the stereo submix (ipsilateral contributions) has the same form as the result of ITU Downmix processing. The above can be generalized to any type of downmix processing. Indeed, downmix processing to two channels usually involves applying weighting to the channels (virtual speakers), then summing the N channels to two output signals. Applying binaural spatialization processing to Downmix processing involves applying to the N weighted channels the HRTF filters corresponding to the positions of the N virtual speakers. Since these filters are equal to 1 for the ipsi-lateral contributions, we find the Downmix treatment by applying the sum of the ipsi-lateral contributions.
Donc, les signaux obtenus par un traitement de binauralisation au sens de l'invention se présentent comme étant issus d'une somme de signaux de type Downmix et d'un signal stéréo comprenant les indices de localisation nécessaires au cerveau pour percevoir la spatialisation des sons. Ce second signal est appelé ci- après "Downmix Binaural Additionnel" , de sorte que le traitement au sens de l'invention appelé ici "Downmix Binaural" est tel que : Thus, the signals obtained by a binauralization processing in the sense of the invention are presented as being derived from a sum of Downmix type signals and a stereo signal comprising the localization indices necessary for the brain to perceive the spatialization of the sounds. . This second signal is hereinafter referred to as "Downmix Binaural Additionnel", so that the treatment in the sense of the invention here called "Downmix Binaural" is such that:
"Downmix Binaural" = "Downmix" + "Downmix Binaural Additionnel" .  "Downmix Binaural" = "Downmix" + "Downmix Binaural Additional".
Cette dernière équation peut être généralisée à : This last equation can be generalized to:
"Downmix Binaural" = "Downmix"+ a "Downmix Binaural Additionnel"  "Downmix Binaural" = "Downmix" + a "Downmix Binaural Additionnel"
Dans cette équation, a peut être un coefficient compris entre 0 et 1. Par exemple, un utilisateur auditeur peut choisir le niveau du coefficient a entre 0 et 1, continûment ou en basculant entre 0 et 1 (en mode « ON - OFF »). Ainsi, on peut choisir une pondération a du deuxième traitement "Downmix Binaural Additionnel" traitement global utilisant le filtrage matriciel au sens de l'invention. In this equation, a can be a coefficient between 0 and 1. For example, a listener user can choose the level of coefficient a between 0 and 1, continuously or by switching between 0 and 1 (in "ON-OFF" mode). . So, we can choose a a weighting of the second treatment "Downmix Binaural Additional" global processing using matrix filtering within the meaning of the invention.
On peut considérer aussi la pondération a dans cette équation comme une fonction de quantification, par exemple basée sur un seuillage en énergie du résultat du traitement DBA pour « Downmix Binaural Additionnel » (avec par exemple, α=0 si le résultat du traitement DBA présente, dans une bande spectrale donnée, une énergie inférieure à un seuil, et =1, sinon, pour cette même bande spectrale). Cette réalisation présente l'avantage de ne requérir qu'une faible bande passante pour la transmission des résultats des traitements Downmix et DBA, d'un codeur à un décodeur comme représenté sur la figure 7 décrite plus loin, en ne sollicitant du débit que si le résultat du traitement DBA est significatif par rapport au résultat du Downmix. Bien entendu, on peut prévoir différents seuils avec par exemple α=0 ; 0,25 ; 0,5; 0,75 ; 1. Ce signal additionnel ne nécessite que peu de débit pour le transporter. En effet, il se présente comme un signal résiduel, filtré passe-bas et donc a priori beaucoup moins énergétique que le signal Downmix. En outre, il présente des redondances avec le signal Downmix. Cette propriété peut être exploitée avantageusement conjointement avec des codées de type Dolby Surround, Dolby Prologic ou MPEG Surround. We can also consider the a-weighting in this equation as a quantization function, for example based on an energy thresholding of the result of the DBA treatment for "Downmix Binaural Additional" (with for example, α = 0 if the result of the DBA treatment presents , in a given spectral band, an energy below a threshold, and = 1, otherwise, for this same spectral band). This embodiment has the advantage of requiring only a low bandwidth for the transmission of the results of Downmix and DBA processing, from an encoder to a decoder as shown in FIG. 7 described below, by only requesting the bit rate if the result of the DBA treatment is significant compared to the result of the Downmix. Of course, it is possible to provide different thresholds with, for example, α = 0; 0.25; 0.5; 0.75; 1. This additional signal requires only a small amount of flow to transport it. Indeed, it presents itself as a residual signal, filtered low-pass and thus a priori much less energetic than the Downmix signal. In addition, it has redundancies with the Downmix signal. This property can be exploited advantageously in conjunction with Dolby Surround, Dolby Prologic or MPEG Surround type codecs.
Le signal "Downmix Binaural Additionnel" peut alors être compressé et transporté de manière additionnelle et/ou scalable au signal Downmix, avec peu de débit. Lors d'une écoute au casque, l'addition des deux signaux stéréo permet à l'auditeur de profiter pleinement du signal binaural avec une qualité très proche d'un format 5.1. The "Downmix Binaural Additional" signal can then be compressed and transported additionally and / or scalable to the Downmix signal, with little bit rate. When listening to the headphones, the addition of the two stereo signals allows the listener to take full advantage of the binaural signal with a quality very close to a 5.1 format.
Ainsi, il suffit de décoder le signal "Downmix Binaural Additionnel" et de l'ajouter directement au signal Downmix. On peut prévoir de réaliser un codeur scalable, transportant par exemple par défaut un signal stéréo sans effet de binauralisation, et, si le débit le permet, transportant en outre une surcouche de signal additionnel pour la binauralisation. Dans le cas du codeur MPEG Surround, dans lequel il est prévu actuellement, dans l'un de ses modes opératoires, de transporter un signal stéréo (de type Downmix) et de réaliser le traitement de binauralisation dans le domaine codé (ou transformé), on obtient une complexité réduite et une meilleure qualité de rendu. Dans le cas d'un rendu sur casque, le décodeur a simplement à calculer le signal "Downmix Binaural Additionnel". La complexité est donc réduite, sans aucun risque de dégradation du signal de type Downmix. La qualité sonore n'en peut être qu'améliorée. Thus, it is enough to decode the signal "Downmix Binaural Additionnel" and add it directly to the downmix signal. It is possible to provide a scalable encoder, carrying for example by default a stereo signal without binauralizing effect, and, if the bit rate allows, carrying further an additional signal overlay for binauralization. In the case of the MPEG Surround encoder, in which it is currently planned, in one of its operating modes, to carry a stereo signal (Downmix type) and perform binaural processing in the coded (or transformed) domain, we obtain a reduced complexity and a better rendering quality. In the case of a headset rendering, the decoder simply has to calculate the signal "Downmix Binaural Additional". The complexity is reduced, without any risk of degradation of the Downmix type signal. The sound quality can only be improved.
De telles caractéristiques se résument comme suit : le filtrage matriciel au sens de l'invention consiste à appliquer, dans un mode de réalisation avantageux : Such characteristics are summarized as follows: matrix filtering within the meaning of the invention consists in applying, in an advantageous embodiment:
- un premier traitement de sous-mixage des N canaux vers deux signaux stéréo (par exemple de type Downmix), et a first process of downmixing the N channels to two stereo signals (for example of the Downmix type), and
- un deuxième traitement menant, lorsqu'il est exécuté conjointement avec le premier traitement, à une spatialisation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®. a second processing leading, when executed in conjunction with the first processing, to a spatialization of the N virtual loudspeakers respectively associated with the N channels to obtain a bi-channel, binaural or transaural representation.
Avantageusement, l'application du deuxième traitement est décidée en option (par exemple en fonction du débit, des capacités de restitution spatialisée d'un terminal, ou autres). Le premier traitement précité peut être appliqué dans un codeur communiquant avec un décodeur, tandis que le second traitement est avantageusement appliqué auprès du décodeur. Advantageously, the application of the second processing is decided optionally (for example as a function of the bit rate, the spatialized rendering capabilities of a terminal, or others). The first aforementioned treatment can be applied in an encoder communicating with a decoder, while the second treatment is advantageously applied to the decoder.
La gestion des traitements au sens de l'invention peut avantageusement être menée par un programme informatique comportant des instructions pour la mise en œuvre du procédé selon l'invention, lorsque ce programme est exécuté par un processeur, par exemple auprès d'un décodeur notamment. A ce titre, l'invention vise aussi un tel programme. La présente invention vise aussi un module équipé d'un processeur et d'une mémoire et susceptible d'exécuter ce programme informatique. Un module au sens de l'invention, pour le traitement de données sonores encodées dans un domaine de sous- bandes, en vue d'une restitution bi-canal de type binaurale ou transaurale®, comporte alors des moyens pour appliquer un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal. La représentation sonore à N canaux consiste à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs : The treatment management in the sense of the invention may advantageously be conducted by a computer program comprising instructions for implementing the method according to the invention, when this program is executed by a processor, for example with a decoder in particular . In this respect, the invention also aims at such a program. The present invention also relates to a module equipped with a processor and a memory and capable of executing this computer program. A module in the sense of the invention, for the processing of sound data encoded in a subband domain, for binaural or transaural® bi-channel rendering, then comprises means for applying matrix filtering to switch from a representation. N channel sound with N> 0, to a two-channel representation. The N-channel sound representation consists of considering N virtual loudspeakers surrounding a listener's head, and, for each virtual loudspeaker of at least part of the loudspeakers:
- une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur vers une première oreille de l'auditeur, face au haut-parleur, et  a first transfer function specific to an ipsi-lateral path from the loudspeaker to a first ear of the listener, facing the loudspeaker, and
- une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur vers la seconde oreille de l'auditeur, masquée du haut-parleur par la tête de l'auditeur.  a second transfer function specific to a contra-lateral path of said loudspeaker towards the second ear of the listener, masked from the loudspeaker by the head of the listener.
Le filtrage matriciel appliqué comporte un coefficient multiplicatif défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert.  The applied matrix filtering comprises a multiplicative coefficient defined by the spectrum, in the field of the subbands, of the second transfer function deconvolved by the first transfer function.
Un tel module peut avantageusement être un décodeur de type MPEG Surround® et comporter en outre des moyens de décodage de type MPEG Surround®, ou peut, en variante, être implanté dans un tel décodeur. D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels : Such a module may advantageously be a decoder of the MPEG Surround® type and furthermore include decoding means of the MPEG Surround® type, or may alternatively be implanted in such a decoder. Other features and advantages of the invention will appear on examining the detailed description below, and the attached drawings in which:
- la figure 1 représente schématiquement une restitution sur deux haut-parleurs autour de la tête d'un auditeur ; - Figure 1 shows schematically a restitution on two speakers around the head of a listener;
- la figure 2 représente schématiquement une restitution sur cinq haut-parleurs en format multi-canal 5.1 ; - Figure 2 shows schematically a reproduction of five speakers in 5.1 multi-channel format;
- la figure 3A représente schématiquement les trajets ipsi-latéraux (traits pleins) et contra- latéraux (traits pointillés) en format multi-canal 5.1 ; FIG. 3A schematically represents the ipsilateral (solid lines) and counter-lateral (dashed lines) paths in multi-channel 5.1 format;
la figure 3B représente un schéma de traitement de l'art antérieur pour le passage d'un format multi-canal 5.1 illustré sur la figure 3 A à un format binaural ou transaural ; - la figure 4A représente schématiquement les trajets ipsi-latéraux (traits pleins) et contra-latéraux (traits pointillés) en format multi-canal 5.1, avec en outre les trajets ipsi-latéraux et contra-latéraux du haut-parleur central ; Fig. 3B shows a prior art processing scheme for switching from a multi-channel 5.1 format illustrated in Fig. 3A to a binaural or transaural format; FIG. 4A schematically represents the ipsilateral (solid lines) and contra-lateral (dashed lines) paths in multi-channel 5.1 format, with the ipsilateral and counter-lateral paths of the central loudspeaker;
la figure 4B représente un schéma de traitement pour le passage d'un format multi- - canal 5.1 illustré sur la figure 4 A à un format binaural ou transaural, à quatre filtres seulement dans une réalisation au sens de l'invention ;  FIG. 4B represents a processing diagram for the transition from a multi-channel 5.1 format illustrated in FIG. 4A to a binaural or transaural format, with only four filters in an embodiment within the meaning of the invention;
- la figure 5 illustre un traitement équivalant à l'application de l'un des filtres de la figure 4B ; FIG. 5 illustrates a treatment equivalent to the application of one of the filters of FIG. 4B;
- la figure 6 illustre un traitement additionnel de filtrage passe-haut et de contrôle automatique de gain à appliquer aux sorties SG et SD pour éviter une distorsion de coloration et une différence de timbre entre un traitement "Downmix" et un traitement au sens de l'invention ; FIG. 6 illustrates an additional processing of high pass filtering and automatic gain control to be applied to the outputs SG and SD to avoid a color distortion and a difference in tone between a "downmix" treatment and a treatment according to the invention. invention;
- la figure 7 illustre la situation d'un traitement au sens de l'invention, réalisé auprès du codeur dans un exemple de réalisation possible de l'invention, en particulier dans le cas d'un traitement additionnel DBA à combiner au traitement Downmix. - Figure 7 illustrates the situation of a treatment in the sense of the invention, made with the encoder in an exemplary embodiment of the invention, particularly in the case of an additional DBA treatment to be combined with the Downmix treatment.
On se réfère tout d'abord à la figure 4A pour décrire un exemple de mise en œuvre du traitement pour passer d'une représentation multi-canal (format 5.1 dans l'exemple décrit) à une représentation bi-canal stéréo binaurale ou transaurale®. Sur cette figure, cinq haut-parleurs en configuration selon le format 5.1 sont illustrés : FIG. 4A is firstly described to describe an example of implementation of the processing to switch from a multi-channel representation (format 5.1 in the example described) to a binaural or transaural stereo two-channel representation. . In this figure, five speakers configured in 5.1 format are illustrated:
- un haut-parleur frontal C situé face à l'auditeur, dans un plan médian (plan P de la figure 2),  a front loudspeaker C situated facing the listener, in a median plane (plane P of FIG. 2),
- un haut-parleur latéral gauche AVG, - an AVG left-side speaker,
un haut-parleur latéral droit AVD, et  a right side speaker AVD, and
- un haut-parleur arrière gauche ARG pour produire un effet dit "surround", an ARG left rear loudspeaker to produce a so-called "surround" effect,
- un haut-parleur arrière droit ARD pour produire aussi un effet dit "surround". - an ARD right rear speaker to produce a so-called "surround" effect.
En référence maintenant à la figure 4B, la restitution du contenu audio en contexte binaural ou transaural est destinée à être effectuée sur une première voie SG et une deuxième voie SD, ce contenu étant initialement encodé dans un format multi-canal (à N canaux avec N=5 dans l'exemple décrit) dans lequel chaque canal est associé à une position de haut-parleur par rapport à l'auditeur (figure 4A). Referring now to FIG. 4B, the reproduction of the audio content in binaural or transaural context is intended to be performed on a first channel SG and a second channel SD, this content being initially encoded in a multi-channel format (to N channels with N = 5 in the example described) in which each channel is associated with a loudspeaker position relative to the listener (Figure 4A).
Avantageusement, les canaux associés à des positions de haut-parleurs (par exemple les haut-parleurs AVG et ARG de la figure 4A) dans un premier hémisphère par rapport à l'auditeur (celui de l'oreille gauche OG) sont regroupés et appliqués directement à la voie SQ de la figure 4B. Les canaux associés aux positions des haut- parleurs AVD et ARD dans un second hémisphère par rapport à l'auditeur (celui de son oreille droite OD) sont regroupés et appliqués directement à l'autre voie SD de la figure 4B. On précise que les premier et second hémisphères sont séparés par le plan médian de l'auditeur. Ces composantes de signaux AVG, ARG étant directement appliquées à la voie SQ, d'une part, et les composantes de signaux AVD, ARD étant directement appliquées à la voie SD, d'autre part, on relèvera, dans l'exemple de la figure 4B, qu'aucun traitement particulier ne leur est appliqué. Advantageously, the channels associated with speaker positions (for example the AVG and ARG loudspeakers of FIG. 4A) in a first hemisphere with respect to the listener (that of the left ear OG) are grouped together and applied. directly to the SQ channel of Figure 4B. The channels associated with the positions of the AVD and ARD loudspeakers in a second hemisphere relative to the listener (that of his right ear OD) are grouped together and applied directly to the other SD channel of Figure 4B. It is specified that the first and second hemispheres are separated by the median plane of the listener. Since these signal components AVG, ARG are directly applied to the SQ channel, on the one hand, and the signal components AVD, ARD are directly applied to the SD channel, on the other hand, it will be noted, in the example of FIG. Figure 4B, that no particular treatment is applied to them.
En référence à nouveau à la figure 4B, les canaux AVG et ARG associés à des positions du premier hémisphère sont regroupés et appliqués aussi à la deuxième voie SD, et les canaux AVD et ARD associés à des positions du second hémisphère sont regroupés et appliqués aussi à la première voie SG- Ici, on prévoit un traitement supplémentaire à appliquer : Referring back to FIG. 4B, the AVG and ARG channels associated with positions of the first hemisphere are grouped and also applied to the second SD path, and the AVD and ARD channels associated with positions of the second hemisphere are grouped together and applied as well. to the first SG-way Here, we plan an additional treatment to apply:
- à chaque canal AVG et ARG du premier hémisphère destiné à la seconde voie SD, et at each AVG and ARG channel of the first hemisphere destined for the second path SD, and
- à chaque canal AVD et ARD du second hémisphère destiné à la première voie SQ. Le traitement supplémentaire comporte préférentiellement l'application d'un filtrage (C/I)AVG, (C/I)AVD, (C/I)ARG, (C/I)ARD (figure 4B) défini, dans le domaine codé (ou transformé) par le spectre d'une fonction de transfert acoustique contra-latérale déconvoluée par une fonction de transfert ipsi-latérale. Plus précisément, la fonction de transfert ipsi-latérale est associée à un chemin acoustique direct Uvc IAVD, RG, URD (figure 4A) entre une position de haut-parleur et une oreille de l'auditeur et la fonction de transfert contra-latérale est associée à un chemin acoustique CAVG, CAVD, CARG* CARD (figure 4A) traversant la tête de l'auditeur, entre la position de haut-parleur précitée et l'autre oreille de l'auditeur. each AVD and ARD channel of the second hemisphere for the first SQ channel. The additional treatment preferably comprises the application of filtering (C / I) AVG, (C / I) A VD, (C / I) ARG, (C / I) ARD (FIG. 4B) defined, in the coded domain (or transformed) by the spectrum of a counter-lateral acoustic transfer function deconvolved by an ipsilateral transfer function. Specifically, the ipsi-lateral transfer function is associated with a direct acoustic path Uvc IAVD, RG, URD (FIG. 4A) between a speaker position and an ear of the listener and the counter-lateral transfer function is associated with an acoustic path CAVG, CAVD, CARG * CARD (Figure 4A) passing through the listener's head, between the above speaker position and the other ear of the listener.
Ainsi, pour chaque canal associé à un haut-parleur virtuel situé en dehors du plan médian (donc tous les haut-parleurs sauf le haut-parleur frontal), la spatialisation du haut-parleur virtuel est assurée par une paire de fonctions de transfert HRTF (exprimées dans le domaine des fréquences) ou HRIR (exprimées dans le domaine temporel). Ces fonctions de transfert traduisent le trajet ipsi-latéral (trajet direct entre le haut-parleur et l'oreille la plus proche en trait plein sur la figure 4 A) et le trajet contra-latéral (trajet entre le haut-parleur et l'oreille masquée par la tête de l'auditeur en traits pointillés sur la figure 4A). Thus, for each channel associated with a virtual speaker located outside the median plane (so all the speakers except the front speaker), the spatialization of the virtual speaker is provided by a pair of transfer functions HRTF (expressed in the frequency domain) or HRIR (expressed in the time domain). These transfer functions translate the ipsi-lateral path (direct path between the loudspeaker and the closest ear in solid lines in FIG. 4 A) and the contra-lateral path (path between the loudspeaker and the ear masked by the listener's head in dashed lines in Figure 4A).
Plutôt que d'utiliser des fonctions de transfert brutes pour chaque trajet comme au sens de l'art antérieur, on supprime avantageusement le filtre associé au trajet ipsi-latéral et on utilise pour le trajet contra-latéral un filtre correspondant à la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale. Ainsi, pour chaque haut-parleur virtuel (hormis le haut-parleur central C), un seul filtre est utilisé. Rather than using raw transfer functions for each path as in the meaning of the prior art, the filter associated with the ipsi-lateral path is advantageously omitted and a filter corresponding to the transfer function is used for the contra-lateral path. counter-lateral deconvolved by the ipsilateral transfer function. Thus, for each virtual speaker (except the central speaker C), only one filter is used.
Ainsi, en référence à la figure 4B : Thus, with reference to FIG. 4B:
- le filtre référencé (C/I)ARG est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra-latérale du trajet entre le haut-parleur arrière gauche ARG et l'oreille droite OD déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur arrière gauche ARG et l'oreille gauche OG de l'individu, - le filtre référencé (C/I)ARD est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra-latérale du trajet entre le haut-parleur arrière droitthe referenced filter (C / I) ARG is defined, in the transformed domain, by the spectrum of the counter-lateral transfer function of the path between the rear left speaker ARG and the right ear OD deconvolved by the function of ipsi-lateral transfer of the path between the left rear loudspeaker ARG and the left ear OG of the individual, - the filter referenced (C / I) A RD is defined, in the transformed domain, by the spectrum of the function counter-lateral transfer of the path between the rear right speaker
ARD et l'oreille gauche OG déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur arrière droit ARD et l'oreille droite OD de l'individu, - le filtre référencé (C/I)AVG est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra-latérale du trajet entre le haut-parleur latéral gauche AVG et l'oreille droite OD déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur latéral gauche AVG et l'oreille gauche OG de l'individu, et ARD and the left ear OG deconvoluted by the ipsi-lateral transfer function of the path between the rear right speaker ARD and the right ear OD of the individual, - the referenced filter (C / I) A VG is defined in the transformed domain, by the spectrum of the counter-lateral transfer function of the path between the left lateral loudspeaker AVG and the right ear OD deconvolved by the ipsilateral transfer function of the path between the AVG left lateral speaker and the left ear OG of the individual, and
- le filtre référencé (C/I)AVD est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra- latérale du trajet entre le haut-parleur latéral droit AVD et l'oreille gauche OG déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur latéral droit AVD et l'oreille droite OD de l'individu.  the referenced filter (C / I) AVD is defined, in the transformed domain, by the spectrum of the counter-lateral transfer function of the path between the right lateral loudspeaker AVD and the left ear OG deconvolved by the function of ipsilateral lateral transfer of the path between the right lateral speaker AVD and the right ear OD of the individual.
Par ailleurs, le signal qui, en encodage 5.1, est destiné à alimenter le haut-parleur central C (dans le plan médian de symétrie de la tête de l'auditeur), est distribué en deux fractions (préférentiellement de manière égale à 50% et 50%) sur deux voies s'additionnant sur deux voies respectives des haut-parleurs latéraux gauche et droit. De la même façon, s'il est prévu un haut-parleur arrière dans le plan médian, le signal associé est mixé avec les signaux associés aux haut-parleurs arrière gauche ARG et arrière droit ARD. Bien entendu, s'il existe plusieurs haut-parleurs centraux (haut- parleur frontal pour une restitution des fréquences médium, haut-parleur frontal pour une restitution des fréquences basses, ou autres) leurs signaux sont additionnés et répartis encore sur les signaux associés aux haut-parleurs latéraux. Furthermore, the signal which, in encoding 5.1, is intended to supply the central loudspeaker C (in the median plane of symmetry of the listener's head), is distributed in two fractions (preferably equal to 50% and 50%) on two channels adding to two respective channels of the left and right side speakers. Similarly, if a rear speaker is provided in the middle plane, the associated signal is mixed with the signals associated with the ARG left rear speaker and ARD right rear speaker. Of course, if there are several central loudspeakers (front speaker for a reproduction of the midrange frequencies, front speaker for a reproduction of low frequencies, or other) their signals are added and distributed again on the signals associated with the side speakers.
Comme le canal associé à une position centrale C de haut-parleur, dans le plan médian, est réparti en une première et une seconde fraction de signal, respectivement additionnée au canal du haut-parleur AVG dans le premier hémisphère (autour de l'oreille gauche OG) et au canal du haut-parleur AVD dans le second hémisphère (autour de l'oreille droite OD), il n'est pas nécessaire de prévoir des filtrages par les fonctions de transfert associées aux haut-parleurs se trouvant dans le plan médian, et ce sans changement de la perception de la spatialisation de la scène sonore en restitution binaurale ou transaurale®. As the channel associated with a central speaker position C, in the median plane, is divided into a first and a second signal fraction, respectively added to the AVG speaker channel in the first hemisphere (around the ear left OG) and to the AVD loudspeaker channel in the second hemisphere (around the right ear OD), it is not necessary to provide for filtering by the transfer functions associated with the loudspeakers in the plane median, without any change in the perception of the spatialization of the sound stage in binaural or transaural restitution.
Bien entendu, il est possible aussi de prévoir un traitement de passage d'un format multi-canal à N canaux, avec N plus grand encore que 5 (format 7.1 ou autres) à un format binaural. A cet effet, il suffit, en ajoutant deux haut-parleurs latéraux supplémentaires, de prévoir les mêmes types de filtres (représentés par la HRTF contra-latérale déconvoluée par la HRTF ipsi-latérale) par exemple pour deux haut- parleurs supplémentaires dans le format initial 7.1. Of course, it is also possible to provide a transition processing from a multi-channel format to N channels, with N still greater than 5 (format 7.1 or others) to a binaural format. For this purpose, it is sufficient, by adding two additional side speakers, to provide the same types of filters (represented by the HRTF contra-lateral deconvolved by the ipsi-lateral HRTF) for example for two additional speakers in the original 7.1 format.
La complexité de traitement est largement réduite puisque les filtres associés aux haut- parleurs situés dans le plan médian sont supprimés. Un autre avantage consiste en ce que l'effet de coloration des signaux associés est réduit. The processing complexity is greatly reduced since the filters associated with the loudspeakers located in the median plane are removed. Another advantage is that the coloring effect of the associated signals is reduced.
Le spectre de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale peut être défini, dans le domaine transformé, par : The spectrum of the contralateral transfer function deconvolved by the ipsilateral transfer function can be defined in the transformed domain by:
- le gain de la transformée de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale, et the gain of the transform of the counter-lateral transfer function deconvolved by the ipsilateral transfer function, and
- le retard défini par la différence des phases respectives des fonctions de transfert contra-latérale et ipsi-latérale, the delay defined by the difference of the respective phases of the counter-lateral and ipsilateral transfer functions,
et éventuellement en fonction d'une estimation de cohérence entre la voie gauche - et la voie droite, notamment dans le cas d'une seule source mono initiale à spatialiser au format 5.1 puis au format binaural (ce cas étant décrit plus loin).  and possibly according to an estimate of coherence between the left channel - and the right channel, in particular in the case of a single initial mono source to be spatialized in format 5.1 then in binaural format (this case being described later).
En première approximation, on peut simplement considérer que le rapport des gains respectifs des transformées des fonctions de transfert, dans chaque bande de fréquences considérée, est voisin du gain de la transformée la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale. Les gains des transformées des fonctions de transfert contra-latérale et ipsi-latérale, ainsi que leurs phases, dans chaque bande spectrale, sont données par exemple à l'annexe C de la norme précitée « Information technology— MPEG audio technologies— Part 1: MPEG Surround », ISO/ŒC JTC 1/SC 29 (21 juillet 2006), pour une transformée PQMF dans 64 sous-bandes. As a first approximation, one can simply consider that the ratio of the respective gains of the transforms of the transfer functions, in each frequency band considered, is close to the gain of the transform the counter-lateral transfer function deconvolved by the ipsit transfer function. lateral. The gains of the transforms of the counter-lateral and ipsilateral transfer functions, as well as their phases, in each spectral band, are given, for example, in Appendix C of the above-mentioned standard "Information technology- MPEG audio technologies-Part 1: MPEG Surround, "ISO / EC JTC 1 / SC 29 (July 21, 2006), for a PQMF transform in 64 subbands.
Ainsi, en première approximation, pour un trajet contra- latéral et dans une bande spectrale m donnée, le spectre de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale peut être défini, dans le domaine transformé, par : et étant le gain et la phase de la Thus, as a first approximation, for a contralateral path and in a given spectral band m, the spectrum of the contralateral transfer function deconvolved by the ipsilateral transfer function can be defined, in the transformed domain, by: and being the gain and the phase of the
fonction de transfert contra- latérale et et étant le gain et la phase de la counter-lateral transfer function and and being the gain and the phase of the
fonction de transfert ipsi- latérale. En référence à la figure 5, chaque filtre est équivalent à appliquer : ipsilateral transfer function. With reference to FIG. 5, each filter is equivalent to applying:
- un filtrage égaliseur 1 1, préférentiellement de type passe-bas, an equalizer filter 1 1, preferably of the low-pass type,
avantageusement un retard interaural (ou « ITD ») 10, pour tenir compte des - différences de trajet entre une source virtuelle et chaque oreille, et  advantageously an interaural delay (or "ITD") 10, to take account of the differences in path between a virtual source and each ear, and
éventuellement une atténuation 12 par rapport aux composantes de signaux non - filtrées (par exemple la composante AVG sur la voie SG de la figure 4B).  possibly an attenuation 12 with respect to the unfiltered signal components (for example the AVG component on the SG channel of FIG. 4B).
Il convient d'indiquer ici que le retard ITD appliqué est "sensiblement" interaural, le terme "sensiblement" se référant notamment au fait qu'il peut ne pas être rigoureusement tenu compte de la morphologie stricte de l'auditeur (par exemple si des HRTFs sont utilisées par défaut, notamment des HRTFs dites "de la tête de Kemar").  It should be noted here that the applied ITD delay is "substantially" interaural, the term "substantially" referring in particular to the fact that the strict morphology of the listener may not be rigorously taken into account (eg if HRTFs are used by default, including HRTFs called "Kemar head").
Ainsi, la synthèse binaurale d'un haut-parleur virtuel (AVG par exemple) consiste simplement à jouer sans modification le signal d'entrée sur la voie relative ipsi-latérale (voie SG sur la figure 4B) et appliquer au signal à jouer sur la voie contra-latérale (voie SD sur la figure 4B) un filtre (C/I)AVG correspondant en l'application d'un retard, d'une atténuation et d'un filtrage passe-bas. Ainsi, le signal résultant est retardé, atténué et filtré en éliminant les fréquences aiguës, ce qui se traduit, du point de vue de la perception auditive, par un masquage du signal reçu par l'oreille "contra-latérale" (OD, dans l'exemple où le haut-parleur virtuel est le latéral gauche AVG), relativement au signal reçu par l'oreille "ipsi-latérale" (OG). Thus, the binaural synthesis of a virtual loudspeaker (AVG for example) consists simply of playing without modification the input signal on the relative ipsi-lateral channel (channel SG in FIG. 4B) and to apply to the signal to be played on the counter-lateral channel (SD channel in FIG. 4B) a corresponding AVG filter (C / I) in application of delay, attenuation and low-pass filtering. Thus, the resulting signal is delayed, attenuated and filtered by eliminating the high frequencies, which results, from the point of view of auditory perception, in masking the signal received by the "counter-lateral" ear (OD, in the example where the virtual speaker is the left side AVG), relative to the signal received by the "ipsi-lateral" ear (OG).
La coloration qui peut être perçue est donc directement celle du signal reçu par l'oreille ipsi-latérale. Or, de façon avantageuse, ce signal ne subit aucune transformation et, par conséquent, le traitement au sens de l'invention ne devrait apporter qu'une faible coloration. Toutefois, à titre de précaution complémentaire, en référence à la figure 6, on peut prévoir un traitement des signaux de sortie SG et SD de la figure 4B consistant à appliquer un filtre passe-haut FPH, suivi d'un contrôle automatique de gain CAG. The coloration that can be perceived is therefore directly that of the signal received by the ipsilateral ear. However, advantageously, this signal undergoes no transformation and, therefore, the treatment in the sense of the invention should provide only a weak coloration. However, as a supplementary precaution, with reference to FIG. a processing of the output signals SG and SD of FIG. 4B can be provided consisting in applying a high-pass filter FPH followed by an automatic gain control AGC.
Le filtre passe-haut revient à appliquer le facteur « Gain » décrit ci-avant, avec : The high-pass filter is equivalent to applying the "Gain" factor described above, with:
Gain = 0,5 si la fréquence f est inférieure à 500 Hz et  Gain = 0.5 if the frequency f is less than 500 Hz and
Gain = 1 sinon.  Gain = 1 otherwise.
Avantageusement, dans cette réalisation, ce facteur est appliqué globalement en sortie des signaux SG et SD, en variante d'une application individuelle à chaque coefficient de la matrice explicitée plus loin. Advantageously, in this embodiment, this factor is applied globally at the output of the signals SG and SD, alternatively from an individual application to each coefficient of the matrix explained below.
Avantageusement, le contrôle automatique de gain est calé sur l'intensité globale des signaux correspondant au traitement Downmix, donnée par :  Advantageously, the automatic gain control is calibrated on the overall intensity of the signals corresponding to the Downmix treatment, given by:
I > OU SOnt leS I > OR SO
énergies respectives des signaux des canaux avant gauche, avant droit, arrière gauche, arrière droit et centre, d'un format 5.1. Les gains g et gs sont des appliqués globalement au signal C pour le gain g et aux signaux ARG et ARD pour le gain gs. En d'autres termes, on limite ainsi l'énergie des signaux de voie gauche S'G et de voie droite S 'D à l'issue de ce traitement, au maximum, à l'énergie ID 2 globale des signaux des haut-parleurs virtuels. Les signaux récupérés S 'G et S'D peuvent être finalement acheminés vers un dispositif de restitution sonore, en mode stéréophonique binaural. respective energies of the signals of the left front, right front, left back, right rear and center channels, of a 5.1 format. The gains g and g s are applied globally to the signal C for the gain g and to the signals ARG and ARD for the gain g s . In other words, the energy of the left channel signals S'G and the right channel S ' D is thus limited at the end of this treatment, to the maximum, to the overall energy I D 2 of the signals from the top virtual speakers. The recovered signals S 'G and S'D can finally be routed to a sound reproduction device in binaural stereophonic mode.
En pratique, dans un codeur notamment de type MPEG Surround, l'intensité globale des signaux est habituellement calculée directement à partir de l'énergie des signaux d'entrée. Ainsi, dans une variante cette donnée sera prise en compte pour l'estimation de l'intensité lD . In practice, in an encoder particularly of the MPEG Surround type, the overall intensity of the signals is usually calculated directly from the energy of the input signals. Thus, in a variant this data will be taken into account for the estimation of the intensity l D.
La mise en œuvre de l'invention résulte alors en une suppression des indices de localisation monauraux. Or, plus une source s'écarte du plan médian, plus les indices interauraux deviennent prédominants au détriment des indices monauraux. Compte tenu du fait que dans la recommandation ITU-R BS.775 concernant la disposition des haut-parleurs du système 5.1, l'angle entre les haut-parleurs latéraux (ou entre les haut- parleurs arrière) est supérieure à 60°, la suppression des indices monauraux n'a que peu d'influence sur la position perçue des haut-parleurs virtuels. D'ailleurs, la différence perçue ici est inférieure à la différence que pourrait percevoir l'auditeur du fait que les HRTFs utilisées ne lui seraient pas propres (par exemple des modèles de HRTFs tirés de la technique dite de la « tête de Kemar »). The implementation of the invention then results in a suppression of monaural location indices. However, the more a source deviates from the median plane, the more the interaural indices become predominant to the detriment of the monaural indices. Account in view of the ITU-R BS.775 recommendation for 5.1 speaker layout, the angle between the side speakers (or between the rear speakers) is greater than 60 °, Monaural clues have little influence on the perceived position of the virtual speakers. Moreover, the difference perceived here is less than the difference that the listener could perceive from the fact that the HRTFs used would not be specific to him (for example models of HRTFs drawn from the so-called "Kemar head" technique). .
Ainsi, la perception spatiale du signal est respectée, et ce, sans apporter de coloration et en conservant le timbre des sources sonores. Thus, the spatial perception of the signal is respected, and this, without bringing color and retaining the timbre of the sound sources.
Plus encore, la solution au sens de la présente invention divise le nombre de filtres à prévoir sensiblement par deux et corrige en outre les effets de coloration. Par ailleurs, il a été observé que le choix de la position des haut-parleurs virtuels peut notablement influencer la qualité du résultat de la spatialisation. En effet, il s'est avéré préférable de placer les haut-parleurs virtuels latéraux et arrières à +/- 45° par rapport au plan médian, plutôt qu'à +/- 30° du plan médian selon la configuration recommandée par l'Union Internationale des Télécommunications (ITU). En effet, lorsque les haut-parleurs virtuels se rapprochent du plan médian, les fonctions HRTFs ipsi-latérale et contra-latérale tendent à se ressembler et les simplifications précédentes peuvent ne plus donner une spatialisation satisfaisante. More so, the solution within the meaning of the present invention divides the number of filters to provide substantially by two and further corrects the coloring effects. In addition, it has been observed that the choice of the position of the virtual loudspeakers can significantly influence the quality of the result of the spatialization. Indeed, it has proved preferable to place the virtual speakers side and rear +/- 45 ° with respect to the median plane, rather than +/- 30 ° of the median plane according to the configuration recommended by the International Telecommunications Union (ITU). Indeed, when the virtual speakers approach the median plane, the ipsi-lateral and contra-lateral HRTF functions tend to resemble each other and the previous simplifications may no longer give a satisfactory spatialization.
Ainsi, en termes génériques, en considérant un format multi-canal initial définissant au moins quatre positions : Thus, in generic terms, considering an initial multi-channel format defining at least four positions:
de deux haut-parleurs latéraux, symétriques par rapport au plan médian, et de deux haut-parleurs arrière, symétriques par rapport au plan médian,  two side speakers, symmetrical with respect to the median plane, and two rear loudspeakers, symmetrical with respect to the median plane,
la position d'un haut-parleur latéral est avantageusement comprise dans un secteur angulaire de 10° à 90° et préférentiellement de 30 à 60° à partir d'un plan de symétrie P et face au visage de l'auditeur. Plus particulièrement, la position d'un haut-parleur latéral sera préférentiellement voisine de 45° à partir du plan de symétrie. On se réfère maintenant à la figure 7 pour décrire une réalisation possible de l'invention dans laquelle le traitement au sens de l'invention intervient après l'étape de codage des données sonores, par exemple avant la transmission via un réseau 73 vers un décodeur 74. Ici, un module de traitement au sens de l'invention 72 intervient directement en aval d'un codeur 71, pour délivrer, comme indiqué précédemment, des données traitées selon un traitement du type : the position of a lateral loudspeaker is advantageously in an angular sector of 10 ° to 90 ° and preferably 30 to 60 ° from a plane of symmetry P and facing the face of the listener. More particularly, the position of a lateral loudspeaker will preferably be close to 45 ° from the plane of symmetry. Referring now to Figure 7 to describe a possible embodiment of the invention in which the treatment in the sense of the invention occurs after the step of encoding the sound data, for example before transmission via a network 73 to a decoder 74. Here, a processing module within the meaning of the invention 72 intervenes directly downstream of an encoder 71, to deliver, as indicated previously, processed data according to a treatment of the type:
Downmix + α DBA (avec DBA pour "Downmix Binaural Additionnel"). On décrit ci-après une réalisation possible d'un tel traitement.  Downmix + α DBA (with DBA for "Downmix Binaural Additional"). A possible embodiment of such a treatment is described below.
En partant d'un signal 5.0 (L, R, C, Ls, Rs) à coder et transporter, on considère traitement de Downmix global de type : Starting from a signal 5.0 (L, R, C, Ls, Rs) to be encoded and transported, we consider global downmix processing of type:
Les signaux et correspondent donc aux deux signaux stéréo, sans effet de The signals and therefore correspond to the two stereo signals, without any effect of
spatialisation, que pourrait délivrer un décodeur pour alimenter deux haut-parleurs en restitution sonore.  spatialization, that could deliver a decoder to power two speakers in sound reproduction.
Le calcul du traitement de Downmix, sans filtrage de binauralisation, devrait donc permettre de retrouver ces deux signaux et , ce qui s'exprime alors par The computation of the Downmix processing, without binaural filtering, should thus make it possible to find these two signals and, what is then expressed by
exemple comme suit : example as follows:
En appliquant maintenant un filtrage binaural et en répartissant le signal du haut- parleur central sur les canaux L et R de manière égale avec le gain g, on obtient : By now applying binaural filtering and distributing the signal of the center loudspeaker on the L and R channels equally with gain g, we obtain:
Si on utilise pour le filtrage contra-latéral les fonctions HRTF contra-latérales déconvoluées par les fonctions HRTF ipsi-latérales, on a , If the contra-lateral contra-lateral HRTF functions deconvolved by the ipsi-lateral HRTF functions are used for counter-lateral filtering, we have,
et  and
et donc :  and so :
Le Downmix binaural additionnel s'écrit :  The additional Binaural Downmix is written:
En reprenant l'exemple d'un filtrage matriciel s'exprimant selon un produit de matrices de type : où W représente une matrice de Taking again the example of a matrix filtering expressing according to a product of matrices of type: where W represents a matrix of
traitement d'expansion de deux signaux stéréo vers M' canaux, avec M'>2 (par exemple M'=3), cette matrice W s'exprimant comme une matrice 2x6 du type : expansion processing of two stereo signals to M 'channels, with M'> 2 (for example M '= 3), this matrix W expressing itself as a 2x6 matrix of the type:
En particulier, dans la norme MPEG Surround précitée, les coefficients de la matrice sont tels que : In particular, in the aforementioned MPEG Surround standard, the coefficients of the matrix are such that:
En développant ce produit, on trouve  In developing this product, we find
En cherchant une addition de deux matrices distinctes, on trouve :  Looking for an addition of two distinct matrices, we find:
ce qui s'écrira ci-après : avec pour le traitement Downmix et pour Ie traitement Downmix Binaural Additionnel. what will be written below: with for Downmix treatment and for the additional Downmix Binaural treatment.
On peut considérer, dans ce mode de réalisation, que les coefficients de la matrice sont bien donnés par : In this embodiment, it can be considered that the coefficients of the matrix are given by:
comme exposé précédemment.  as previously stated.
On peut considérer en première approximation qu'un canal latéral (droit ou gauche) et le canal latéral arrière correspondant (droit ou gauche respectivement) sont décorrélés entre eux. Cette hypothèse est raisonnable dans la mesure où le canal arrière ne fait que reprendre en général la réverbération de salle ou autre (retardée dans le temps) du signal du canal latéral. Dans ce cas, les canaux L et Ls et les canaux R et Rs ont des supports temps fréquences disjoints et on a alors , et :It can be considered as a first approximation that a lateral channel (right or left) and the corresponding rear lateral channel (right or left respectively) are decorrelated between them. This assumption is reasonable insofar as the rear channel usually only takes over the room reverb or other (delayed in time) signal from the side channel. In this case, the channels L and Ls and the channels R and Rs have disjoint frequency time carriers and then:
L'hypothèse ci-avant ne peut pas être vérifiée en revanche pour tous les signaux. Dans le cas où les signaux auraient un support temps fréquence commun, il est préférable de chercher à conserver les énergies des signaux. Cette précaution est préconisée d'ailleurs dans la norme MPEG Surround. En effet, l'addition de signaux en opposition de phase s'annule. Comme indiqué ci-avant, une telle situation n'intervient jamais en pratique si l'on considère le cas d'une salle avec un effet de réverbération sur les canaux Surround. The hypothesis above can not be verified on the other hand for all the signals. In the case where the signals have a common time-frequency support, it is preferable to seek to conserve the energies of the signals. This precaution is recommended elsewhere in the MPEG Surround standard. Indeed, the addition of signals in opposition of phase cancels. As indicated above, such a situation never occurs in practice if one considers the case of a room with a reverberation effect on the surround channels.
Néanmoins, dans l'exemple décrit ci-après, on utilise des variantes des formules ci- avant pour préserver l'énergie des signaux dans le traitement Downmix, comme suit : Nevertheless, in the example described below, variants of the above formulas are used to preserve the energy of the signals in the Downmix processing, as follows:
La matrice de traitement global H1 l,k s'exprime encore comme la somme de deux matrices : , avecThe global processing matrix H 1 1, k is still expressed as the sum of two matrices:, with
et avec :and with:
La matrice Η^'" ne contient aucun terme relatif aux coefficients de filtrage HRTF.The matrix Η ^ '"contains no term relating to the filter coefficients HRTF.
Cette matrice traite globalement les opérations de spatialisation de deux canaux (M=2) vers cinq canaux (N=5) et les opérations de sous-mixage de ces cinq canaux vers deux canaux. Dans un mode de réalisation particulier dans lequel on transporte un signal "Downmix" issu des signaux 5.0 à coder, les coefficients g, wij , et This matrix deals globally with the spatialization operations from two channels (M = 2) to five channels (N = 5) and the downmixing operations of these five channels into two channels. In a particular embodiment in which a signal "Downmix" derived from the signals 5.0 to be encoded is carried, the coefficients g, w ij , and
peuvent être calculés par le codeur pour que cette matrice s'approche de la matrice unité. En effet, on doit avoir :  can be calculated by the encoder for this matrix to approach the unit matrix. Indeed, we must have:
La matrice consiste quant à elle à appliquer des filtrages basés sur des fonctions The matrix consists of applying function-based filtering
HRTF contra-latérales déconvoluées par des fonctions ipsi-latérales. On notera que passer par un traitement Downmix décrit ci-dessus est un mode de réalisation particulier. L'invention peut être mise en œuvre aussi avec d'autres types de matrices de Downmix.  Contra-lateral HRTF deconvolved by ipsilateral functions. Note that going through a Downmix process described above is a particular embodiment. The invention can be implemented also with other types of Downmix matrices.
D'ailleurs, la réalisation introduite ci-avant est décrite à titre d'exemple. Il apparaît en effet qu'il n'est pas nécessaire, en pratique, de cherche à estimer les signaux Lo et Ro par l'application de la matrice " car ces signaux sont transmis du codeur au Moreover, the embodiment introduced above is described by way of example. It appears in fact that it is not necessary, in practice, to try to estimate the signals Lo and Ro by the application of the matrix "since these signals are transmitted from the encoder to the
décodeur, lequel dispose bien de ces signaux et , et éventuellement des paramètres de spatialisation, pour reconstruire les signaux pour la restitution sonore (éventuellement binaurale si le décodeur a bien reçu les paramètres de spatialisation). Cette dernière réalisation présente deux avantages. D'une part, le nombre de traitements à réaliser pour retrouver les signaux Lo et R0 est ainsi réduit. D'autre part, on améliore la qualité des signaux de sortie : le passage au domaine transformé et retour au domaine de départ, ainsi que l'application de la matrice Η'0"' , dégradent nécessairement les signaux. Une réalisation avantageuse consiste donc à appliquer le traitement suivant : decoder, which has these signals and, if necessary, spatialization parameters, to reconstruct the signals for the sound reproduction (possibly binaural if the decoder has received the spatialization parameters). This latter embodiment has two advantages. On the one hand, the number of treatments to be performed to find the signals Lo and R 0 is thus reduced. On the other hand, the quality of the output signals is improved: the transition to the transformed domain and return to the starting domain, as well as the application of the matrix Η ' 0 "', necessarily degrade the signals. to apply the following treatment:
Il apparaît en outre que la matrice peut encore être simplifiée. En effet, en revenant à l'expression : , on peut calculer les expressions des It also appears that the matrix can still be simplified. Indeed, returning to the expression:, we can calculate the expressions of
cinq signaux intermédiaires avec le traitement de Downmix binaural comme suit  five intermediate signals with binaural Downmix processing as follows
Avec encore , on parvient à : With still, we manage to:
et and
Ces expressions sont simplifiées par rapport à leur calcul habituel. On peut néanmoins, encore ici, prendre la précaution de ne pas mener à une annulation de signaux en opposition de phase en cherchant à préserver les niveaux d'énergie des différents signaux dans le traitement Downmix, comme préconisé ci-avant. On obtient alors : These expressions are simplified compared to their usual calculation. However, here again, we can take the precaution of not leading to cancellation of signals in phase opposition by seeking to preserve the energy levels of the different signals in the Downmix process, as recommended above. We then obtain:
ave ave
L'expression de la matrice est alors la suivante : The expression of the matrix is then the following:
Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite avant à titre d'exemple ; elle s'étend à d'autres variantes. Ainsi, on a décrit ci-avant le cas d'un traitement de deux signaux stéréo initiaux à encoder et spatialiser vers du stéréo binaural et en passant par une spatialisation 5.1. Néanmoins, l'invention s'applique en outre au traitement d'un signal mono initial (cgs- N=l dans l'expression générale N>0 donnée ci-avant et s' appliquant au nombre de canaux initiaux à traiter). En reprenant par exemple le cas de la norme « Information technology— MPEG audio technologies— Part 1: MPEG Surround », ISO/BEC JTC 1/SC 29 (21 juillet 2006), les équations présentées au point 6.11.4.1.3.1, pour le cas d'un premier traitement du type mono - spatialisation 5.1 - binauralisation (noté « 5-1- 5i » et consistant à traiter d'emblée les voies surround avant la voie centrale), se simplifient en : Of course, the present invention is not limited to the embodiment described before by way of example; it extends to other variants. Thus, it has been described above the case of a processing of two initial stereo signals to encode and spatialize to binaural stereo and passing through a 5.1 spatialization. Nevertheless, the invention also applies to the processing of an initial mono signal (cgs-N = 1 in the general expression N> 0 given above and applying to the number of initial channels to be treated). For example, in the case of the "Information technology- MPEG audio technologies- Part 1: MPEG Surround" standard, ISO / BEC JTC 1 / SC 29 (July 21, 2006), the equations presented in 6.11.4.1.3.1, for the case of a first treatment of the 5.1 - binauralization type (denoted "5-1-5i" and consisting of treating the surround channels immediately before the central channel), is simplified by:
De même, les équations présentées au point 6.1 1.4.1.3.2, pour le cas d'un premier traitement du type mono - spatialisation 5.1 - binauralisation (noté « 5-1-5 » et consistant à traiter d'emblée la voie centrale, puis à traiter l'effet surround sur chaque voie gauche et droite), se simplifient en : Similarly, the equations presented in point 6.1 1.4.1.3.2, for the case of a first mono - spatialization 5.1 - binauralisation type treatment (denoted "5-1-5" and consisting of processing the central channel immediately, then treating the surround effect on each left and right channel), are simplified by:
et and
Plus généralement, il est possible de prévoir d'autres traitements des signaux ou de composantes de signaux destinés à être restitués en format binaural ou transaural. Par exemple, les voies SG et SD de la figure 4B peuvent subir en outre un filtrage passe-bas dynamique de type Dolby® ou autres. More generally, it is possible to provide further processing signals or signal components to be returned in binaural or transaural format. For example, the SG and SD channels of FIG. 4B may furthermore undergo dynamic low-pass filtering of the Dolby® or other type.
La présente invention vise aussi un module MOD (figure 4B) de traitement de données sonores, pour le passage d'un format multi-canal vers un format binaural ou transaural, dans le domaine transfonné, dont les éléments pourraient être ceux illustrés sur la figure 4B. Un tel module comporte alors des moyens de traitement, tels qu'un processeur PROC et une mémoire de travail MEM, pour la mise en œuvre de l'invention. Il peut être implanté dans tout type de décodeur, notamment d'un dispositif de restitution sonore (ordinateur PC, baladeur, téléphone mobile, ou autre) et éventuellement de visionnage de film. En variante, le module peut être conçu pour opérer séparément de la restitution, par exemple pour préparer des contenus au format binaural ou transaural, en vue d'un décodage ultérieur. The present invention also relates to a MOD module (FIG. 4B) for processing sound data, for the transition from a multi-channel format to a binaural or transaural format, in the transformed domain, the elements of which could be those illustrated in FIG. 4B. Such a module then comprises processing means, such as a PROC processor and a MEM working memory, for the implementation of the invention. It can be implemented in any type of decoder, including a sound reproduction device (PC, walkman, mobile phone, or other) and possibly movie viewing. Alternatively, the module may be designed to operate separately from the restitution, for example to prepare binaural or transaural format content, for subsequent decoding.
La présente invention vise aussi un programme informatique, téléchargeable via un réseau de télécommunication et/ou stocké dans une mémoire d'un module de traitement du type précité et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur d'un tel module de traitement, et comportant des instructions pour la mise en œuvre de l'invention, lorsqu'elles sont exécutées par un processeur dudit module. The present invention also relates to a computer program, downloadable via a telecommunication network and / or stored in a memory of a processing module of the aforementioned type and / or stored on a memory medium intended to cooperate with a reader of such a module processing, and comprising instructions for the implementation of the invention, when they are executed by a processor of said module.

Claims

Revendications claims
1. Procédé de traitement de données sonores encodées dans un domaine de sous- bandes, pour une restitution bi-canal de type binaurale ou transaurale®, dans lequel on applique un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal, A method for processing encoded sound data in a subband domain, for binaural or transaural® bi-channel rendering, in which matrix filtering is applied to switch from a N channel sound representation with N> 0, at a two-channel representation,
ladite représentation sonore à N canaux consistant à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs : said N-channel sound representation of considering N virtual loudspeakers surrounding a listener's head, and, for each virtual speaker of at least a portion of the loudspeakers:
- une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur (AVG) vers une première oreille (OG) de l'auditeur, face au haut-parleur, et une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur (AVG) vers la seconde oreille (OD) de l'auditeur, masquée du haut-parleur par la tête de l'auditeur, a first transfer function specific to an ipsi-lateral path of the loudspeaker (AVG) towards a first ear (OG) of the listener, facing the loudspeaker, and a second transfer function specific to a contrary path; side of said speaker (AVG) to the second ear (OD) of the listener, masked from the loudspeaker by the listener's head,
le filtrage matriciel appliqué comportant un coefficient multiplicatif ((C/I)AVG) défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert. the applied matrix filtering comprising a multiplicative coefficient ((C / I) AVG ) defined by the spectrum, in the subband domain, of the second transfer function deconvolved by the first transfer function.
2. Procédé selon la revendication 1, dans lequel on applique un filtrage matriciel pour passer d'une représentation sonore à M canaux, avec M>0, à une représentation bi- canal, en passant par une représentation intermédiaire sur lesdits N canaux, avec N>2, et dans lequel les coefficients de la matrice s'expriment, pour un trajet contra-latéral, au moins en fonction de gains de spatialisation respectifs des M canaux sur les N haut- parleurs virtuels situés dans un hémisphère autour d'une première oreille, et des spectres de fonction de transfert contra-latérale, relative à la deuxième oreille de l'auditeur, déconvoluée par la fonction de transfert ipsi-latérale, relative à la première oreille, 2. The method according to claim 1, wherein a matrix filtering is applied to switch from a sound representation to M channels, with M> 0, to a two-channel representation, passing through an intermediate representation on said N channels, with N> 2, and in which the coefficients of the matrix are expressed, for a contra-lateral path, at least as a function of respective spatialization gains of the M channels on the N virtual loudspeakers located in a hemisphere around a first ear, and counter-lateral transfer function spectra, relative to the second ear of the listener, deconvolved by the ipsilateral transfer function, relative to the first ear,
tandis que pour un trajet ipsi-latéral, les coefficients de la matrice s'expriment en fonction de gains de spatialisation des M canaux sur les N haut-parleurs virtuels situés dans un hémisphère autour d'une première oreille. while for an ipsi-lateral path, the coefficients of the matrix are expressed as a function of the spatialization gains of the M channels on the N virtual speakers located in a hemisphere around a first ear.
3. Procédé selon la revendication 2, dans lequel la représentation à N canaux comporte, par hémisphère autour d'une oreille, au moins un haut-parleur virtuel direct et un haut- parleur virtuel d'ambiance, les coefficients de la matrice s 'exprimant, dans un domaine de sous-bandes en transformée temps-fréquence (PQMF), par : 3. A method according to claim 2, wherein the N-channel representation comprises, by hemisphere around an ear, at least one direct virtual speaker and a virtual ambience speaker, the coefficients of the matrix s'. expressing, in a domain of time-frequency transform subbands (PQMF), by:
- pour les trajets d'un haut-parleur virtuel central vers l'oreille - for trips from a central virtual speaker to the ear
gauche, left,
- pour les trajets d'un haut-parleur virtuel central vers l'oreille - for trips from a central virtual speaker to the ear
droite, right,
- P ur les trajets contra-latéraux - For counter-lateral paths
vers l'oreille gauche ; to the left ear;
- pour les trajets contra-latéraux vers - for counter-lateral paths to
l'oreille droite ; the right ear;
- , Pour les trajets ipsi-latéraux vers l'oreille gauche ;-, for ipsilateral trips to the left ear;
- , pour les trajets ipsi-latéraux vers l'oreille droite ;-, for ipsi-lateral trips to the right ear;
où : or :
- g est un gain de répartition de mixage d'un canal de haut-parleur virtuel central vers des canaux de haut-parleurs directs gauche et droit,  g is a mix distribution gain of a central virtual speaker channel to left and right direct speaker channels,
- et représentent des gains relatifs à appliquer à un même premier signal - and represent relative gains to apply to the same first signal
pour définir des canaux L et Ls respectivement des haut-parleurs virtuels gauche direct et gauche d'ambiance, pour l'échantillon / de la bande de fréquence m en transformée temps-fréquence, to define L and Ls channels respectively of the virtual left and right surround speakers, for the sample / of the frequency band m in time-frequency transform,
- ou représentent des gains relatifs à appliquer à un même deuxième signal pour définir des canaux R et Rs des haut-parleurs virtuels droit direct et droit d'ambiance, pour l'échantillon l de la bande de fréquence m en transformée temps- fréquence, - ou i. est l'expression du spectre de la fonction de transfert de type HRTF - or represent relative gains to apply to the same second signal to define R and Rs channels of the virtual right and right surround virtual speakers, for the sample 1 of the frequency band m in time-frequency transform, - or i . is the spectrum expression of the HRTF transfer function
contra-latérale, relative à l'oreille droite de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille gauche, pour un haut-parleur virtuel gauche, direct ou respectivement d'ambiance, contra-lateral, relative to the right ear of the listener, deconvolved by an ipsi-lateral transfer function, relating to the left ear, for a virtual left speaker, direct or respectively ambient,
- ou est l'expression du spectre de la fonction de transfert de type HRTF - or is the spectrum expression of the HRTF transfer function
contra-latérale, relative à l'oreille gauche de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille droite, pour un haut-parleur virtuel droit, direct ou respectivement d'ambiance, contra-lateral, relative to the left ear of the listener, deconvolved by an ipsi-lateral transfer function, relative to the right ear, for a virtual right speaker, direct or respectively ambient,
- sont des déphasages entre fonctions de transfert contra-latérale et - are phase shifts between counter-lateral transfer functions and
ipsi-latérale correspondant à des retards interauraux choisis, et ipsi-lateral corresponding to selected interaural delays, and
- sont des pondérations choisies. - are selected weights.
4. Procédé selon l'une des revendications précédentes, dans lequel les coefficients de la matrice varient en fonction de la fréquence, selon une pondération d'un facteur choisi et inférieur à un, si la fréquence est inférieure à un seuil choisi, et de un sinon. 4. Method according to one of the preceding claims, wherein the coefficients of the matrix vary according to the frequency, according to a weighting of a selected factor and less than one, if the frequency is below a chosen threshold, and one if not.
5. Procédé selon la revendication 4, dans lequel le facteur est de 0,5 environ et le seuil de fréquence choisi est de 500 Hz environ pour éliminer une distorsion de coloration. The method of claim 4, wherein the factor is about 0.5 and the selected frequency threshold is about 500 Hz to eliminate color distortion.
6. Procédé selon l'une des revendications précédentes, dans lequel on applique en outre un gain choisi à deux signaux de voie gauche et de voie droite en représentation bi- canal, avant restitution, le gain choisi étant contrôlé pour limiter une énergie des signaux de voie gauche et de voie droite, au maximum, à une énergie de signaux des haut-parleurs virtuels. 6. Method according to one of the preceding claims, wherein a selected gain is further applied to two left channel and right channel signals in two-channel representation, before restitution, the selected gain being controlled to limit a signal energy. of left and right channels, at most, to a signal energy of the virtual loudspeakers.
7. Procédé selon la revendication 6, prise en combinaison avec l'une des revendications 4 et 5, dans lequel on applique un contrôle automatique de gain aux deux signaux de voie gauche et de voie droite, en aval de l'application du facteur de pondération variable en fréquence. 7. The method of claim 6, taken in combination with one of claims 4 and 5, wherein an automatic gain control is applied to both left and right channel signals, downstream of the application of the variable frequency weighting.
8. Procédé selon l'une des revendications 3 à 7, dans lequel le filtrage matriciel s'exprime selon un produit de matrices de type : ou : 8. Method according to one of claims 3 to 7, wherein the matrix filtering is expressed according to a product of matrices of type: or:
- W l'm représente une matrice de traitement d'expansion de signaux stéréo vers M' canaux, avec M'>2, et - W 's m is a stereo signal expansion processing to matrix M' channels, with M> 2, and
1 0 0 0 0 0  1 0 0 0 0 0
représente un traitement matriciel global represents a global matrix treatment
comportant :  comprising:
* un traitement d'expansion de M' canaux vers lesdits N canaux, avec N>3, et  an expansion process of M 'channels to said N channels, with N> 3, and
* un traitement de spatialisation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®, avec :  a spatialization treatment of the N virtual loudspeakers respectively associated with the N channels to obtain a bi-channel, binaural or transaural representation, with:
9. Procédé selon l'une des revendications précédentes, dans lequel le filtrage matriciel consiste à appliquer : 9. Method according to one of the preceding claims, wherein the matrix filtering consists of applying:
- un premier traitement (DOWNMIX) de sous-mixage des N canaux vers deux signaux stéréo, et a first downmix processing (DOWNMIX) of the N channels to two stereo signals, and
- un deuxième traitement (DBA) menant, lorsqu'il est exécuté conjointement avec le premier traitement, à une spatialisation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®. a second processing (DBA) leading, when executed together with the first processing, to a spatialization of the N virtual loudspeakers respectively associated with the N channels for a bi-channel, binaural or transaural® representation.
10. Procédé selon la revendication 9, dans lequel on choisit une pondération (a) du deuxième traitement dans ledit filtrage matriciel. 10. The method of claim 9, wherein a weighting (a) of the second processing is chosen in said matrix filtering.
11. Procédé selon la revendication 10, dans lequel le premier traitement est appliqué dans un codeur communiquant avec un décodeur, et le second traitement est appliqué dans ledit décodeur. 11. The method of claim 10, wherein the first processing is applied in an encoder communicating with a decoder, and the second processing is applied in said decoder.
12. Procédé selon l'une des revendications 9 à 11, prises en combinaison avec la revendication 8, dans lequel la matrice : Method according to one of claims 9 to 11, taken in combination with claim 8, wherein the matrix:
s'écrit comme une somme de matrices avec : is written as a sum of matrices with:
- une première matrice représentant le premier traitement s 'exprimant par :  a first matrix representing the first treatment expressed by:
- et une deuxième matrice représentant le deuxième traitement s 'exprimant par , avec : and a second matrix representing the second treatment expressed by, with:
13. Programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé selon l'une des revendications précédentes, lorsque ce programme est exécuté par un processeur. 13. Computer program comprising instructions for implementing the method according to one of the preceding claims, when the program is executed by a processor.
14. Module de traitement de données sonores encodées dans un domaine de sous- bandes, pour une restitution bi-canal de type binaurale ou transaurale®, 14. Module for processing sound data encoded in a subband domain, for binaural or transaural® bi-channel reproduction,
le module comportant des moyens pour appliquer un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal, ladite représentation sonore à N canaux consistant à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs : the module comprising means for applying a matrix filtering to pass from a N channel sound representation with N> 0, to a two-channel representation, said N channel sound representation consisting of considering N virtual speakers surrounding the sound head; 'a listener, and, for each virtual loudspeaker of at least part of the loudspeakers:
une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur (AVG) vers une première oreille (OG) de l'auditeur, face au haut-parleur, et a first transfer function specific to an ipsi-lateral path of the loudspeaker (AVG) to a first ear (OG) of the listener, facing the loudspeaker, and
- une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur (AVG) vers la seconde oreille (OD) de l'auditeur, masquée du haut-parleur par la tête de l'auditeur, a second transfer function specific to a contra-lateral path of said loudspeaker (AVG) towards the second ear (OD) of the listener, masked from the loudspeaker by the listener's head,
le filtrage matriciel appliqué comportant un coefficient multiplicatif ((C/I)AVG) défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert. the applied matrix filtering comprising a multiplicative coefficient ((C / I) AVG) defined by the spectrum, in the subband domain, of the second transfer function deconvolved by the first transfer function.
15. Module selon la revendication 14, comportant en outre des moyens de décodage de type MPEG Surround®. 15. Module according to claim 14, further comprising decoding means of the MPEG Surround® type.
EP10781956A 2009-10-12 2010-10-08 Processing of sound data encoded in a sub-band domain Withdrawn EP2489206A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0957118 2009-10-12
PCT/FR2010/052119 WO2011045506A1 (en) 2009-10-12 2010-10-08 Processing of sound data encoded in a sub-band domain

Publications (1)

Publication Number Publication Date
EP2489206A1 true EP2489206A1 (en) 2012-08-22

Family

ID=42145029

Family Applications (1)

Application Number Title Priority Date Filing Date
EP10781956A Withdrawn EP2489206A1 (en) 2009-10-12 2010-10-08 Processing of sound data encoded in a sub-band domain

Country Status (3)

Country Link
US (1) US8976972B2 (en)
EP (1) EP2489206A1 (en)
WO (1) WO2011045506A1 (en)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR122021021487B1 (en) * 2012-09-12 2022-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V APPARATUS AND METHOD FOR PROVIDING ENHANCED GUIDED DOWNMIX CAPABILITIES FOR 3D AUDIO
FR3012247A1 (en) * 2013-10-18 2015-04-24 Orange SOUND SPOTLIGHT WITH ROOM EFFECT, OPTIMIZED IN COMPLEXITY
EP2995095B1 (en) 2013-10-22 2018-04-04 Huawei Technologies Co., Ltd. Apparatus and method for compressing a set of n binaural room impulse responses
CN104681034A (en) 2013-11-27 2015-06-03 杜比实验室特许公司 Audio signal processing method
DE102014214052A1 (en) * 2014-07-18 2016-01-21 Bayerische Motoren Werke Aktiengesellschaft Virtual masking methods
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9749757B2 (en) 2014-09-02 2017-08-29 Oticon A/S Binaural hearing system and method
US9596544B1 (en) * 2015-12-30 2017-03-14 Gregory Douglas Brotherton Head mounted phased focused speakers
EP3453190A4 (en) * 2016-05-06 2020-01-15 DTS, Inc. Immersive audio reproduction systems
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
WO2018182274A1 (en) * 2017-03-27 2018-10-04 가우디오디오랩 주식회사 Audio signal processing method and device
CN108156561B (en) * 2017-12-26 2020-08-04 广州酷狗计算机科技有限公司 Audio signal processing method and device and terminal
TWI740206B (en) * 2019-09-16 2021-09-21 宏碁股份有限公司 Correction system and correction method of signal measurement
US11212631B2 (en) * 2019-09-16 2021-12-28 Gaudio Lab, Inc. Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor
JP7286876B2 (en) * 2019-09-23 2023-06-05 ドルビー ラボラトリーズ ライセンシング コーポレイション Audio encoding/decoding with transform parameters
CN112653985B (en) * 2019-10-10 2022-09-27 高迪奥实验室公司 Method and apparatus for processing audio signal using 2-channel stereo speaker
CN115865688A (en) * 2022-11-25 2023-03-28 天津光电通信技术有限公司 Double-channel high-speed analog acquisition playback equipment

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004103023A1 (en) * 1995-09-26 2004-11-25 Ikuichiro Kinoshita Method for preparing transfer function table for localizing virtual sound image, recording medium on which the table is recorded, and acoustic signal editing method using the medium
US6931291B1 (en) * 1997-05-08 2005-08-16 Stmicroelectronics Asia Pacific Pte Ltd. Method and apparatus for frequency-domain downmixing with block-switch forcing for audio decoding functions
US6442277B1 (en) * 1998-12-22 2002-08-27 Texas Instruments Incorporated Method and apparatus for loudspeaker presentation for positional 3D sound
US7505601B1 (en) 2005-02-09 2009-03-17 United States Of America As Represented By The Secretary Of The Air Force Efficient spatial separation of speech signals
KR100983286B1 (en) * 2006-02-07 2010-09-24 엘지전자 주식회사 Apparatus and method for encoding/decoding signal
BRPI0707969B1 (en) * 2006-02-21 2020-01-21 Koninklijke Philips Electonics N V audio encoder, audio decoder, audio encoding method, receiver for receiving an audio signal, transmitter, method for transmitting an audio output data stream, and computer program product
JP4572945B2 (en) * 2008-03-28 2010-11-04 ソニー株式会社 Headphone device, signal processing device, and signal processing method
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2011045506A1 *

Also Published As

Publication number Publication date
WO2011045506A1 (en) 2011-04-21
US20120201389A1 (en) 2012-08-09
US8976972B2 (en) 2015-03-10

Similar Documents

Publication Publication Date Title
WO2011045506A1 (en) Processing of sound data encoded in a sub-band domain
EP2042001B1 (en) Binaural spatialization of compression-encoded sound data
EP1600042B1 (en) Method for the treatment of compressed sound data for spatialization
JP4874555B2 (en) Rear reverberation-based synthesis of auditory scenes
CA2820199C (en) Signal generation for binaural signals
EP1566077A1 (en) Equalisation of the output in a stereo widening network
WO2007101958A2 (en) Optimization of binaural sound spatialization based on multichannel encoding
EP1886535B1 (en) Method of producing a plurality of time signals
CN101855917A (en) Method and apparatus for generating a stereo signal with enhanced perceptual quality
EP2000002A2 (en) Method and device for efficient binaural sound spatialization in the transformed domain
EP2005420A1 (en) Device and method for encoding by principal component analysis a multichannel audio signal
EP4135350A1 (en) Monophonic signal processing in a 3d audio decoder rendering binaural content
JP7286876B2 (en) Audio encoding/decoding with transform parameters
US11470435B2 (en) Method and device for processing audio signals using 2-channel stereo speaker
WO2006075079A1 (en) Method for encoding audio tracks of a multimedia content to be broadcast on mobile terminals
CA3142575A1 (en) Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same
EP3920552A1 (en) Centralised processing of an input audio stream
EP3108670B1 (en) Method and device for rendering of a multi-channel audio signal in a listening zone
Toledo et al. The role of spectral features in sound localization
KR20060004529A (en) Apparatus and method for creating 3d sound
WO2017032946A1 (en) Method of measuring phrtf filters of a hearer, booth for implementing the method, and methods making it possible to culminate in the restitution of a personalized multichannel sound band
FR3002406A1 (en) METHOD AND DEVICE FOR GENERATING POWER SIGNALS FOR A SOUND RECOVERY SYSTEM

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20120403

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

17Q First examination report despatched

Effective date: 20141217

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20150824

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20160105