EP2374124A1 - Codage perfectionne de signaux audionumériques multicanaux - Google Patents

Codage perfectionne de signaux audionumériques multicanaux

Info

Publication number
EP2374124A1
EP2374124A1 EP09803839A EP09803839A EP2374124A1 EP 2374124 A1 EP2374124 A1 EP 2374124A1 EP 09803839 A EP09803839 A EP 09803839A EP 09803839 A EP09803839 A EP 09803839A EP 2374124 A1 EP2374124 A1 EP 2374124A1
Authority
EP
European Patent Office
Prior art keywords
sources
sound
module
data
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP09803839A
Other languages
German (de)
English (en)
Other versions
EP2374124B1 (fr
Inventor
Florent Jaillet
David Virette
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP2374124A1 publication Critical patent/EP2374124A1/fr
Application granted granted Critical
Publication of EP2374124B1 publication Critical patent/EP2374124B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Definitions

  • the present invention relates to the field of encoding / decoding multichannel digital audio signals. More particularly, the present invention relates to the parametric encoding / decoding of multichannel audio signals.
  • This type of coding / decoding is based on the extraction of spatialization parameters so that at decoding, the spatial perception of the listener can be reconstituted.
  • Such a coding technique is known as "Binaural Cue
  • Coding in English (BCC) which aims on the one hand to extract and then code the auditory spatialization indices and on the other hand to code a monophonic or stereophonic signal from a mastering of the original multichannel signal.
  • This parametric approach is a low rate coding.
  • the main advantage of this coding approach is to allow a better compression rate than conventional multi-channel digital audio compression methods while ensuring the backward compatibility of the compressed format obtained with the existing coding formats and broadcasting systems.
  • FIG. 1 describes such a coding / decoding system in which the coder 100 constructs a sum signal ("downmix" in English) S s by matrixing in
  • the 110 channels of the original multichannel signal S and provides via a parameter extraction module 120, a reduced set of parameters P which characterize the spatial content of the original multichannel signal.
  • the multichannel signal is reconstructed (S ') by a synthesis module 160 which takes into account both the sum signal and the transmitted parameters P.
  • the sum signal has a reduced number of channels. These channels can be encoded by a conventional audio encoder before transmission or storage.
  • the sum signal has two channels and is compatible with conventional stereo broadcasting. Before transmission or storage, this sum signal can thus be encoded by any conventional stereo encoder. The signal thus coded is then compatible with the devices comprising the corresponding decoder which reconstruct the sum signal while ignoring the spatial data.
  • the sum signal contains two channels
  • a stereophonic reproduction must make it possible to respect the relative position of the sound sources in the reconstructed sound space.
  • the left / right positioning of the sound sources must be able to be respected.
  • the resulting sum signal is then transmitted to the decoder in the form of a time signal.
  • the transition from time-frequency space to time space involves interactions between frequency bands and near time frames that introduce troublesome artifacts and artifacts.
  • There is therefore a need for a frequency band parametric coding / decoding technique which makes it possible to limit the defects introduced by the passage of the time-frequency domain signals to the time domain and to control the spatial coherence between the multichannel audio signal and the sum signal resulting from a mastering of sound sources.
  • the present invention improves the situation. For this purpose, it proposes a method of encoding a multichannel audio signal representing a sound scene comprising a plurality of sound sources. The method is such that it comprises a step of decomposing the multichannel signal into frequency bands and the following steps per frequency band: obtaining data representative of the direction of the sound sources of the sound scene;
  • the mixing matrix takes into account source direction information data. This makes it possible to adapt the resulting sum signal, for a good sound reproduction in the space during the reconstruction of this signal to the decoder.
  • the sum signal is thus adapted to the multichannel signal reproduction characteristics and to the possible recoveries of the positions of the sound sources.
  • the spatial coherence between the sum signal and the multichannel signal is thus respected.
  • the data representative of the direction are directivity information representative of the distribution of the sound sources in the sound scene.
  • the directivity information associated with a source gives not only the direction of the source but also the shape, or spatial distribution, of the source, ie the interaction that this source can have with other sources of the sound stage.
  • Knowing this directivity information associated with the sum signal will allow the decoder to obtain a signal of better quality which takes into account interchannel redundancies in a global manner and the probable phase oppositions between channels.
  • the coding of the directivity information is performed by a parametric representation method.
  • This method is of low complexity and adapts particularly to the case of synthetic sound scenes representing an ideal coding situation.
  • the coding of the directivity information is performed by a principal component analysis method delivering basic directivity vectors associated with gains allowing the reconstruction of the initial directivities. This thus makes it possible to code the directivities of complex sound scenes whose coding can not easily be represented by a model.
  • the coding of the directivity information is performed by a combination of a principal component analysis method and a parametric representation method.
  • the method further includes encoding secondary sources among the unselected sources of the sound scene and inserting coding information of the secondary sources into the bit stream.
  • the coding of the secondary sources will thus make it possible to provide additional precision on the decoded signal, in particular for complex signals of the type, for example, ambiophonic ones.
  • the present invention also relates to a method for decoding a multichannel audio signal representing a sound scene comprising a plurality of sound sources, from a bit stream and a sum signal.
  • the method is such that it comprises the following steps: extraction in the bit stream and decoding of data representative of the direction of the sound sources in the sound scene;
  • the decoded direction data will thus make it possible to find the inverse mixing matrix of that used at the encoder.
  • This mixing matrix makes it possible to find, from the sum signal, the main sources that will be rendered in space with a good spatial coherence.
  • the adaptation step thus makes it possible to find the directions of the sources to be spatialized so as to obtain a restitution of the sound which is coherent with the rendering system.
  • the reconstructed signal is then well adapted to the characteristics of restitution of the multichannel signal while avoiding possible recoveries of the positions of the sound sources.
  • the decoding method further comprises the following steps:
  • decoding the secondary sources from the extracted coding information - grouping secondary sources with the main sources for spatialization.
  • the present invention also relates to an encoder of a multichannel audio signal representing a sound scene having a plurality of sound sources.
  • the encoder is such that it comprises: a module for decomposing the multichannel signal into a frequency band;
  • a mastering module for the main sources selected by the determined matrix to obtain a sum signal with a reduced number of channels
  • a coding module for data representative of the direction of the sound sources
  • the decoder is such that it comprises:
  • a means of storage readable by a computer or a processor, whether or not integrated into the encoder, possibly removable, stores a computer program implementing an encoding method and / or a decoding method according to the invention.
  • FIG. 2 illustrates an encoder and a coding method according to one embodiment of the invention
  • FIG. 3a illustrates a first embodiment of the coding of the directivities according to the invention
  • FIG. 3b illustrates a second embodiment of the coding of the directivities according to the invention
  • FIG. 4 illustrates a flowchart representing the steps of determining a mixing matrix according to one embodiment of the invention
  • FIG. 5a illustrates an example of distribution of sound sources around a listener
  • FIG. 5b illustrates the adaptation of the distribution of sound sources around a listener to adapt the direction data of the sound sources according to one embodiment of the invention
  • FIG. 6 illustrates a decoder and a decoding method according to one embodiment of the invention
  • FIGS. 7a and 7b respectively represent an example of a device comprising an encoder and an exemplary device comprising a decoder according to the invention.
  • FIG. 2 illustrates in the form of a block diagram, an encoder according to one embodiment of the invention as well as the steps of a coding method according to one embodiment of the invention.
  • the encoder thus illustrated comprises a time-frequency transform module 210 which receives as input an original multichannel signal representing a sound scene comprising a plurality of sound sources.
  • This module therefore performs a step T of calculating the time-frequency transform of the original multichannel signal S m .
  • This transform is carried out for example by a short-term Fourier transform.
  • each of the n x channels of the original signal is window on the current time frame, then the Fourier transform F of the window signal is computed using a fast calculation algorithm on nm-points.
  • FFT X n x a complex X matrix of size ⁇ FFT X n x containing the coefficients of the original multichannel signal in the frequency space.
  • the subsequent processing by the encoder is done by frequency band. This is done by cutting the matrix of coefficients X into a set of sub-matrices X j each containing the frequency coefficients in the j th band.
  • the signal is thus obtained for a given frequency band S Q.
  • a module for obtaining data of directions of the sound sources 220 makes it possible to determine, by a step OBT, on the one hand, the direction data associated with each of the sources of the sound stage and, on the other hand, to determine the sources of the sound stage for the given frequency band.
  • the direction data can be for example arrival direction data of a source that corresponds to the position of the source. Data of this type are for example described in the document of M.
  • the direction data is intensity difference data between the sound sources. These differences in intensity make it possible to define average positions of the sources. They take for example the CLD (for "Channel Level Differences" in English) for the standard encoder MPEG Surround.
  • the data representative of the directions of the sources are directional information.
  • the directivity information is representative of the spatial distribution of the sound sources in the sound scene.
  • the directivities are vectors of the same dimension as the number n s of channels of the multichannel signal S m .
  • Each source is associated with a vector of directivity.
  • the directivity vector associated with a source corresponds to the weighting function to be applied to this source before playing it on a loudspeaker, so as to reproduce at best a direction of arrival and a width of source.
  • the directivity vector makes it possible to faithfully represent the radiation of a sound source.
  • the vector of directivity is obtained by the application of an inverse spherical Fourier transform on the components of the ambiophonic orders.
  • the ambiophonic signals correspond to a decomposition into spherical harmonics, hence the direct correspondence with the directivity of the sources.
  • the set of directivity vectors therefore constitutes a large amount of data that would be too expensive to transmit directly for low coding rate applications.
  • two methods of representing the directivities can for example be used.
  • the Cod.Di coding module 230 for directivity information can thus implement one of the two methods described below or a combination of the two methods.
  • a first method is a parametric modeling method that makes it possible to exploit knowledge a priori on the signal format used. It consists of transmitting only a very small number of parameters and reconstructing the directivities according to known coding schemes.
  • the associated directivity is known as a function of the direction of arrival of the sound source.
  • a search for peaks in the directivity diagram by analogy with sinusoidal analysis, as explained for example in the document "Computer modeling of musical sound (analysis. transformation, synthesis) "Sylvain Marchand, PhD thesis, University Bordeaux 1, allows to detect relatively accurately the direction of arrival.
  • a parametric representation can also use a simple form dictionary to represent the directivities.
  • a simple form dictionary to represent the directivities.
  • one associates with an element of the dictionary a datum for example the corresponding azimuth and a gain allowing to play on the amplitude of this vector of directivity of the dictionary. It is thus possible, from a dictionary of directivity form, to deduce the best form or the combination of forms that will best reconstruct the initial directivity.
  • the directivity coding module 230 comprises a parametric modeling module which outputs P directionality parameters. These parameters are then quantized by the quantization module 240.
  • This first method makes it possible to obtain a very good level of compression when the scene corresponds to an ideal coding. This will be particularly the case on synthetic soundtracks.
  • the representation of the directivity information is in the form of a linear combination of a limited number of basic directivities.
  • This method is based on the fact that the set of directivities at a given moment generally has a reduced dimension. Indeed, only a small number of sources is active at a given moment and the directivity for each source varies little with the frequency. It is thus possible to represent all the directivities in a group of frequency bands from a very small number of well-chosen basic directivities.
  • the parameters transmitted are then the basic directivity vectors for the group of bands considered, and for each directivity to be coded, the coefficients to be applied to the basic directivities to reconstruct the directivity considered.
  • This method is based on a principal component analysis (PCA or PCA) method.
  • PCA Principal component analysis
  • This tool is largely developed by LT. Jolliffe in "Principal Component Analysis", Springer, 2002.
  • the representation of the directivities is therefore done from basic directivities.
  • the matrix of directivities Di is written as the linear combination of these basic directivities.
  • Di G D D B
  • D B the matrix of the basic directivities for all the bands
  • G D the matrix of the associated gains.
  • the number of rows of this matrix represents the total number of sources of the sound stage and the number of columns represents the number of basic directivity vectors.
  • basic directivities are sent by group of considered bands, in order to more accurately represent the directivities.
  • group of considered bands in order to more accurately represent the directivities.
  • two directivity groups of base one for low frequencies and one for high frequencies.
  • the limit between these two groups can for example be chosen between 5 and 7 kHz.
  • the coding module 230 comprises a main component analysis module delivering basic directivity vectors D B and associated coefficients or gain vectors G D -
  • a limited number of directivity vectors will be encoded and transmitted.
  • the number of basic vectors to be transmitted may be fixed, or else selected by the coder by using, for example, a threshold on the mean square error between the original directivity and the reconstructed directivity. Thus, if the error is below the threshold, the base vector (s) hitherto selected (s) are sufficient, it is then not necessary to code an additional base vector.
  • the coding of the directivities is achieved by a combination of the two representations listed above.
  • FIG. 3a illustrates in a detailed manner, the directivity coding block 230, in a first variant embodiment.
  • This coding mode uses the two diagrams of representation of the directivities.
  • a module 310 performs parametric modeling as previously explained to provide directional parameters (P).
  • a module 320 performs principal component analysis to provide both basic directivity vectors (D B ) and associated coefficients (G D ).
  • a selection module 330 selects frequency band per frequency band, the best mode of coding for the directivity by choosing the best compromise reconstruction of the directivities / flow.
  • the choice of the representation chosen (parametric representation or by linear combination of basic directivities) is done in order to optimize the efficiency of the compression.
  • a selection criterion is, for example, the minimization of the mean squared error.
  • a perceptual weighting may possibly be used for the choice of the directivity coding mode. This weighting is intended for example to promote the reconstruction of the directivities in the frontal area, for which the ear is more sensitive.
  • the error function to be minimized in the case of the ACP encoding model can be in the following form:
  • the directivity parameters from the selection module are then quantized by the quantization module 240 of FIG.
  • a parametric modeling module 340 performs a modeling for a certain number of directivities and outputs at the same time directivity parameters (P) for the modeled directivities and unmodelled directivities or residual directivities DiR .
  • D residual directivities
  • main component analysis module 350 which outputs basic directional vectors (D B ) and associated coefficients (G D ).
  • the directivity parameters, the basic directivity vectors as well as the coefficients are provided at the input of the quantization module 240 of FIG. 2.
  • Quantization Q is performed by reducing the accuracy as a function of perception data and then applying entropy coding. Also, the possibility of exploiting the redundancy between frequency bands or between successive frames can reduce the flow. Intra-frame or inter-frame predictions on the parameters can therefore be used. In general, the standard methods of quantification can be used. On the other hand, the vectors to be quantified being orthonormed, this property can be exploited during the scalar quantization of the components of the vector. Indeed, for a N dimension vector, only NI components will need to be quantified, the last component can be recalculated.
  • the parameters thus intended for the decoder are decoded by the internal decoding module 235 to find the same information as that which the decoder will have after receiving the data of directions. coded for the main sources selected by the module 260 described later. We thus obtain principal directions.
  • direction data in the form of direction of arrival of the sources, the information can be taken into account as it is.
  • the module 235 determines a unique position by source by averaging the directivities. This average can for example be calculated as the barycenter of the directivity vector. These single positions or principal directions are then used by the module 275. This first determines the directions of the main sources and adapts them according to spatial coherence criterion, knowing the multichannel signal reproduction system.
  • the restitution takes place by two loudspeakers located at the front of the listener.
  • the steps implemented by the module 275 are described with reference to FIG.
  • Figure 5a represents an original sound scene with 4 sound sources (A, B, C and D) distributed around the listener.
  • Sources C and D are located behind the listener centered in the center of the circle. Sources C and D are brought to the front of the stage by symmetry.
  • Figure 5b illustrates in the form of arrows, this operation.
  • Step E 31 of FIG. 4 carries out a test to know if the preceding operation generates a recovery of the positions of the sources in space.
  • this is for example the case for sources B and D which after the operation of step E30 are located at a distance that does not differentiate them.
  • step E32 modifies the position of one of the two sources in question to position it at a minimum distance e mm that allows the listener to differentiate these interlocutors.
  • the spacing is symmetrically with respect to the equidistant point of the two sources to minimize the displacement of each. If the sources are placed too close to the limit of the sound image (extreme left or right), we position the source closest to this limit to this limit position, and place the other source with the minimum spacing by report to the first source. In the example illustrated in FIG. 5b, it is the source B that is shifted so that the distance e mm separates the sources B and D.
  • step E31 If the test of step E31 is negative, the positions of the sources are maintained and step E33 is implemented. This step consists of constructing a mixing matrix from the source position information thus defined in the previous steps.
  • step E30 In the case of a signal reproduction by a 5.1 type system, the speakers are distributed around the listener. It is then not necessary to implement step E30 which brings the sources located at the rear of the listener forward.
  • step E32 of modifying the distances between two sources is possible. Indeed, when you want to position a sound source between two loudspeakers 5.1 speakers, there may be two sources at a distance that does not allow the listener to differentiate them.
  • the directions of the sources are therefore modified to obtain a minimum distance between two sources, as explained above.
  • the mixing matrix is thus determined in step E33, as a function of the directions obtained after or without modifications.
  • This matrix is constructed in such a way as to ensure the spatial coherence of the sum signal, ie if it is rendered alone, the sum signal already makes it possible to obtain a sound scene where the relative position of the sound sources is respected: a frontal source in the original scene will be well perceived in front of the listener, a source on the left will be seen on the left, a source on the left will also be perceived more to the left, likewise on the right.
  • weighting coefficients set to 1 for the left channel and 0 for the right channel to represent the signal at the -45 ° position and vice versa to represent the 45 ° signal.
  • the matrixing coefficients for the left channel and the right channel must be equal.
  • the encoder as described herein further comprises a selection module 260 able to select in the step Select main sources (S pr jn c ) from the sources of the sound stage to be encoded. (S to t).
  • a particular embodiment uses a principal component analysis method, ACP, in each frequency band in block 220 to extract all the sources of the sound scene (S tot ).
  • ACP principal component analysis method
  • the sources of greater importance are then selected by the module 260 to constitute the main sources (S P ri nC ), which are then stamped by the module 270, by the matrix M as defined by the module 275, to construct a signal sum (S Sf ,) (or "downmix" in English).
  • This sum signal per frequency band undergoes an inverse time-frequency transformation T 1 by the inverse transform module 290 in order to provide a time sum signal (S s ).
  • This sum signal is then encoded by a speech coder or an audio coder of the state of the art (for example: G.729.1 or MPEG-4 AAC).
  • Secondary sources (S sec ) may be encoded by a coding module 280 and added to the bitstream in the bitstream building module 250. For these secondary sources, that is to say the sources that are not transmitted directly in the sum signal, there are different alternatives of treatments.
  • the coding module 280 which may in one embodiment be a short-term Fourier transform coding module. These sources can then be separately encoded using the aforementioned audio or speech coders. In a variant of this coding, the coefficients of the transform of these secondary sources can be coded directly only in the bands considered to be important.
  • the secondary sources can be encoded by parametric representations, these representations can be in the form of spectral envelope or temporal envelope.
  • This module performs a base change step in order to express the sound scene using the plane wave decomposition of the acoustic field.
  • the original surround signal is seen as the angular Fourier transform of a sound field.
  • the first plane wave decomposition operation therefore corresponds to taking the omnidirectional component of the ambiophonic signal as representing the zero angular frequency (this component is therefore a real component).
  • the following surround components are combined to obtain the complex coefficients of the angular Fourier transform.
  • the first component represents the real part
  • the second component represents the imaginary part.
  • O For a two-dimensional representation, for an order O, we obtain O + 1 complex components.
  • a Short Term Fourier Transform (on the time dimension) is then applied to obtain the Fourier transforms (in the frequency domain) of each angular harmonic. This step then integrates the transformation step T of the module 210. the complete angular transform by recreating the harmonics of negative frequencies by Hermitian symmetry.
  • an inverse Fourier transform is carried out on the dimension of the angular frequencies to pass in the domain of the directivities.
  • This preprocessing step P allows the coder to work in a signal space whose physical and perceptual interpretation is simplified, which makes it possible to more effectively exploit the knowledge of spatial auditory perception and thus to improve the coding performances.
  • the encoding of the surround signals remains possible without this pre-processing step.
  • Figure 6 now describes a decoder and a decoding method in one embodiment of the invention.
  • This decoder receives as input the bit stream F b as constructed by the encoder described above as well as the sum signal S s . In the same way as for the encoder, all the processing is done by time frame. To simplify the notations, the description of the decoder which follows only describes the processing performed on a fixed time frame and does not show the temporal dependence in the notations. In the decoder, however, this same processing is successively applied to all the time frames of the signal.
  • the decoder thus described comprises a decoding module 650 Decod.Fb information contained in the bit stream Fb received.
  • the direction information and more particularly here, direct officerss are extracted from the bit stream.
  • this decoding module of the bitstream depend on the coding methods of the directivities used in the coding. They can be in the form of basic directivity vectors D B and associated coefficients G D and / or modeling parameters P. These data are then transmitted to a directional information reconstruction module 660 which decodes the information of directivities by operations opposite to those performed at the coding.
  • the number of directivity to be reconstructed is equal to the number n tot of sources in the frequency band considered, each source being associated with a directivity vector.
  • the matrix of directivities Di is written as the linear combination of these basic directivities.
  • Di G D D B
  • D B is the matrix of the basic directivities for all the bands
  • G D the matrix of the associated gains.
  • This gain matrix has a number of lines equal to the total number of sources n tot , and a number of columns equal to the number of basic directivity vectors.
  • basic directivities are decoded by group of frequency bands considered, in order to more accurately represent the directivities.
  • group of frequency bands considered in order to more accurately represent the directivities.
  • a vector of gains associated with the basic directivities is then decoded for each band.
  • a module 690 for defining the principal directions of the sources and for determining the mixing matrix N receives this information of directions or decoded directivities.
  • This module first calculates the main directions by, for example, averaging the directivities received to find the directions. In function of these directions, a mixing matrix, inverse to that used for the coding is determined. Knowing the panning laws used for the mixing matrix at the encoder, the decoder is able to reconstruct the inverse mixing matrix with the directions information corresponding to the directions of the main sources.
  • the directivity information is transmitted separately for each source.
  • the directivities relative to the main sources and the directivities of the secondary sources are well identified.
  • this decoder does not need any other information to calculate this matrix since it depends on the direction information received in the bit stream.
  • the number of rows of the matrix N corresponds to the number of channels of the sum signal, and the number of columns corresponds to the number of main sources transmitted.
  • the inverse matrix N as defined is then used by the demosaicing module 620.
  • the decoder thus receives in parallel the bit stream, the sum signal S s . This undergoes a first step of time-frequency transform by the transform T 610 module to obtain a sum signal by frequency band, S Sf i.
  • This transform is carried out using, for example, the short-term Fourier transform. It should be noted that other transforms or filterbanks may also be used, including non-uniform filterbanks according to a perception scale (e.g. Bark). It may be noted that in order to avoid discontinuities during the reconstruction of the signal from this transform, a recovery addition method is used. For the time frame considered, the step of calculating the transform of
  • the entire processing is done in frequency bands.
  • the matrix coefficients F is cut into a plurality of submatrices F j each containing the frequency coefficients in the j th band.
  • Different choices for the frequency division of the bands are possible.
  • symmetrical bands with respect to the zero frequency in the Fourier transform are chosen in the short term.
  • the description of the decoding steps performed by the decoder will be made for a given frequency band. The steps are of course carried out for each of the frequency bands to be processed.
  • the frequency coefficients of the signal transform sum of the frequency band considered are matrixed by the module 620 by the matrix N determined according to the determination step described above so as to find the main sources of the sound scene. More precisely, the matrix S princ of the frequency coefficients for the current frequency band of the n main sources p ⁇ nc is obtained according to the relation:
  • N is of dimension n f xn prmc and B is a matrix of dimension n bin xn f where n b m is the number of components (or bins) frequency retained in the frequency band considered.
  • the lines of B are the frequency components in the current frequency band, the columns correspond to the channels of the sum signal.
  • the lines of S prmt are the frequency components in the current frequency band, and each column corresponds to a main source.
  • additional or secondary sources are coded and then decoded from the bitstream for the current band by the module 650 for decoding the bitstream.
  • This decoding module then decodes, in addition to the directional information, the secondary sources.
  • the decoding of the secondary sources is carried out by the inverse operations that those which were carried out with the coding.
  • the corresponding data are decoded to reconstruct the dry matrix S of the frequency coefficients in the current band of the n sec secondary sources.
  • the shape of the dry matrix S is similar to the matrix S p ⁇ nc , that is to say that the lines are the frequency components in the current frequency band, and each column corresponds to a secondary source.
  • the frequency coefficients of the multichannel signal reconstructed in the band are calculated in the spatialization module 630, according to the relation:
  • Y SD T , where Y is the reconstructed signal in the band.
  • the rows of the matrix Y are the frequency components in the current frequency band, and each column corresponds to a channel of the multichannel signal to be reconstructed.
  • the corresponding time signals are then obtained by inverse Fourier transform T 1 , using a fast algorithm implemented by the inverse transform module 640. This gives the multichannel signal S m on the current time frame.
  • the different time frames are then combined by conventional overlap-add (or overlap-add) method to reconstruct the complete multichannel signal.
  • temporal or frequency smoothing of the parameters can be used both for analysis and synthesis to ensure smooth transitions in the sound scene.
  • a sign of sudden change of the sound stage may be reserved in the bit stream to avoid smoothing the decoder in the case of detection of a rapid change in the composition of the sound stage.
  • conventional methods of adapting the resolution of the time-frequency analysis can be used (change in the size of the analysis and synthesis windows over time).
  • a base change module can perform a pre-processing to obtain a plane wave decomposition of the signals
  • a base change module 670 performs the inverse operation P "1 from the signals. in plane waves to find the original multichannel signal.
  • the encoders and decoders as described with reference to FIGS. 2 and 6 can be integrated in a multimedia equipment of the living room decoder type, computer or communication equipment such as a mobile telephone or personal electronic organizer.
  • FIG. 7a represents an example of such multimedia equipment or coding device comprising an encoder according to the invention. This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the device comprises an input module adapted to receive a multi-channel signal representing a sound scene, either by a communication network, or by reading a content stored on a storage medium.
  • This multimedia equipment may also include means for capturing such a multichannel signal.
  • the memory block BM may advantageously comprise a computer program comprising code instructions for implementing the steps of the coding method within the meaning of the invention, when these instructions are executed by the processor PROC, and in particular the steps of decomposition of the multichannel signal in frequency bands and the following steps per frequency band:
  • FIG. 2 repeats the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
  • the device comprises an output module capable of transmitting a bit stream Fb and a sum signal Ss resulting from the coding of the multichannel signal.
  • FIG. 7b illustrates an example of multimedia equipment or decoding device comprising a decoder according to the invention.
  • This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the device comprises an input module adapted to receive a bit stream Fb and a sum signal S s coming for example from a communication network. These input signals can come from a reading on a storage medium.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the decoding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps of extraction in the bitstream and decoding of data representative of the direction of the sound sources in the sound scene;
  • FIG. 6 shows the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
  • the device comprises an output module capable of transmitting a multichannel signal decoded by the decoding method implemented by the equipment.
  • This multimedia equipment may also include speaker-type reproduction means or communication means capable of transmitting this multi-channel signal.
  • Such multimedia equipment may include both the encoder and the decoder according to the invention. The input signal then being the original multichannel signal and the output signal, the decoded multichannel signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

La présente invention se rapporte à un procédé de codage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores. Le procédé est tel qu'il comporte une étape de décomposition (T) du signal multicanal en bandes de fréquence et les étapes effectuées par bande de fréquence, d'obtention (OBT) de données représentatives de la direction des sources sonores de la scène sonore, de sélection (Select) d'un ensemble de sources sonores constituant des sources principales, d'adaptation (DiA_M) des données représentatives de la direction des sources principales sélectionnées, en fonction de caractéristiques de restitution du signal multicanal, de détermination d'une matrice de mixage des sources principales en fonction des données adaptées, de matriçage (M) des sources principales par la matrice déterminée pour obtenir un signal somme avec un nombre réduit de canaux et de codage (Cod.Di) des données représentatives de la direction des sources sonores et de formation d'un flux binaire comportant les données codées, le flux binaire étant apte à être transmis parallèlement au signal somme. La présente invention se rapporte également à un procédé de décodage apte à décoder le signal somme et les informations de directions pour déterminer une matrice de mixage et obtenir un signal multicanal, à un codeur et décodeur adaptés.

Description

Codage perfectionné de signaux audionumériques multicanaux
La présente invention se rapporte au domaine du codage/décodage de signaux audionumériques multicanaux. Plus particulièrement, la présente invention se rapporte au codage/décodage paramétrique de signaux audio multicanaux.
Ce type de codage/décodage se base sur l'extraction de paramètres de spatialisation pour qu'au décodage, la perception spatiale de l'auditeur puisse être reconstituée. Une telle technique de codage est connu sous le nom de "Binaural Cue
Coding" en anglais (BCC) qui vise d'une part à extraire puis à coder les indices de spatialisation auditive et d'autre part à coder un signal monophonique ou stéréophonique issu d'un matriçage du signal multicanal original.
Cette approche paramétrique est un codage à bas débit. Le principal intérêt de cette approche de codage est de permettre un taux de compression meilleur que les méthodes classiques de compression de signaux audionumériques multicanaux tout en assurant la rétrocompatibilité du format compressé obtenu avec les formats de codage et les systèmes de diffusions déjà existants.
La norme MPEG Surround décrite dans le document de la norme MPEG ISO/IEC 23003-1 :2007 et dans le document de "Breebaart, J. and Hotho, G. and
Koppens, J. and Schuijers, E. and Oomen, W. and van de Par, S.," intitulé
"Background, concept, and architecture for the récent MPEG surround standard on multichannel audio compression" dans Journal of the Audio Engineering Society 55-
5 (2007) 331-351, décrit une structure de codage paramétrique tel que représentée en figure 1.
Ainsi, la figure 1 décrit un tel système de codage/décodage dans lequel le codeur 100 construit un signal somme ("downmix" en anglais) Ss par matriçage en
110 des canaux du signal multicanal original S et fournit via un module d'extraction de paramètres 120, un ensemble réduit de paramètres P qui caractérisent le contenu spatial du signal multicanal original. Au décodeur 150, le signal multicanal est reconstruit (S') par un module de synthèse 160 qui prend en compte à la fois le signal somme et les paramètres P transmis.
Le signal somme comporte un nombre réduit de canaux. Ces canaux peuvent être codés par un codeur audio classique avant transmission ou stockage.
Typiquement, le signal somme comporte deux canaux et est compatible avec une diffusion stéréo classique. Avant transmission ou stockage, ce signal somme peut ainsi être codé par n'importe quel codeur stéréo classique. Le signal ainsi codé est alors compatible avec les dispositifs comportant le décodeur correspondant qui reconstruisent le signal somme en ignorant les données spatiales.
Lorsque ce type de codage par matriçage d'un signal multicanal pour obtenir un signal somme, s'effectue après transformation dans l'espace fréquentiel du signal multicanal, des problèmes de reconstruction du signal multicanal peuvent survenir.
En effet, dans ce cas de figure, il n'y a pas nécessairement de cohérence spatiale entre le signal somme et le système de restitution sur lequel le signal peut être reproduit. Par exemple, lorsque le signal somme contient deux canaux, une restitution stéréophonique doit permettre de respecter la position relative des sources sonores dans l'espace sonore reconstruit. Le positionnement gauche/droit des sources sonores doit pouvoir être respecté. De plus, après matriçage par bande de fréquence, le signal somme résultant est ensuite transmis au décodeur sous la forme d'un signal temporel.
Le passage de l'espace temps-fréquence à l'espace temporel implique des interactions entre les bandes fréquentiel les et les trames temporelles proches qui introduisent des défauts et artefacts gênants. II existe donc un besoin d'une technique de codage/décodage paramétrique par bande de fréquence qui permette de limiter les défauts introduits par les passages des signaux du domaine temps-fréquence au domaine temporel et de contrôler la cohérence spatiale entre le signal audio multicanal et le signal somme issu d'un matriçage de sources sonores. La présente invention vient améliorer la situation. A cet effet, elle propose un procédé de codage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores. Le procédé est tel qu'il comporte une étape de décomposition du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence: - obtention de données représentatives de la direction des sources sonores de la scène sonore;
- sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
-adaptation des données représentatives de la direction des sources principales sélectionnées, en fonction de caractéristiques de restitution du signal multicanal, par modification de la position des sources pour obtenir un écartement minimum entre deux sources;
- détermination d'une matrice de mixage des sources principales en fonction des données adaptées; - matriçage des sources principales par la matrice déterminée pour obtenir un signal somme avec un nombre réduit de canaux;
- codage des données représentatives de la direction des sources sonores et formation d'un flux binaire comportant les données codées, le flux binaire étant apte à être transmis parallèlement au signal somme. Ainsi, pour l'obtention du signal somme, la matrice de mixage prend en compte des données d'informations de direction des sources. Ceci permet d'adapter le signal somme résultant, pour une bonne restitution du son dans l'espace lors de la reconstruction de ce signal au décodeur. Le signal somme est ainsi adapté aux caractéristiques de restitution du signal multicanal et aux éventuels recouvrements des positions des sources sonores. La cohérence spatiale entre le signal somme et le signal multicanal est ainsi respectée.
L'adaptation des données modifiant la position des sources pour obtenir un écartement minimum entre deux sources permet ainsi, aux deux sources qui seraient après restitution sonore trop proches l'une de l'autre d'être écartées pour que la restitution du signal permette à l'auditeur de différencier la position de ces sources. - A -
En codant séparément les données de direction et les sources sonores par bande de fréquence, on exploite le fait que le nombre de sources actives dans une bande de fréquence est généralement faible, ce qui augmente les performances de codage. II n'est pas nécessaire de transmettre d'autres données de reconstruction de la matrice de mixage au décodeur puisque celle-ci sera déterminée à partir des données de directions codées.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de codage défini ci-dessus.
Dans un mode de réalisation, les données représentatives de la direction sont des informations de directivités représentatives de la répartition des sources sonores dans la scène sonore.
Les informations de directivité associées à une source donnent non seulement la direction de la source mais également la forme, ou la répartition spatiale, de la source, c'est-à-dire l'interaction que peut avoir cette source avec les autres sources de la scène sonore.
La connaissance de ces informations de directivités associée au signal somme va permettre au décodeur d'obtenir un signal de meilleur qualité qui prend en compte les redondances intercanales de manière globale et les probables oppositions de phase entre canaux.
Dans un mode particulier de réalisation, le codage des informations de directivités s'effectue par une méthode de représentation paramétrique.
Cette méthode est de faible complexité et s'adapte particulièrement au cas de scènes sonores de synthèse représentant une situation de codage idéal.
Dans un autre mode de réalisation, le codage des informations de directivité s'effectue par une méthode d'analyse en composante principale délivrant des vecteurs de directivité de base associés à des gains permettant la reconstruction des directivités initiales. Ceci permet ainsi de coder les directivités de scènes sonores complexes dont le codage ne peut pas être représenté facilement par un modèle. Dans encore un autre mode de réalisation le codage des informations de directivité s'effectue par une combinaison d'une méthode d'analyse en composante principale et d'une méthode de représentation paramétrique.
Ainsi, il est par exemple possible d'effectuer en parallèle le codage par les deux méthodes et de choisir celle qui répond à un critère d'optimisation du débit de codage par exemple.
Il est également possible d'effectuer ces deux méthodes en cascade de façon à coder simplement une partie des directivités par la méthode de codage paramétrique et pour celle qui ne sont pas modélisées, d'effectuer un codage par la méthode d'analyse en composante principale, de façon à représenter au mieux, toutes les directivités. La répartition du débit entre les deux modèles d'encodage des directivités pouvant être choisie selon un critère de minimisation de l'erreur de reconstruction des directivités.
Dans un mode de réalisation de l'invention, le procédé comporte en outre le codage de sources secondaires parmi les sources non sélectionnées de la scène sonore et d'insertion d'informations de codage des sources secondaires dans le flux binaire.
Le codage des sources secondaires va ainsi permettre d'apporter une précision supplémentaire sur le signal décodé, notamment pour les signaux complexes de type par exemple ambiophoniques.
La présente invention se rapporte également à un procédé de décodage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, à partir d'un flux binaire et d'un signal somme. Le procédé est tel qu'il comporte les étapes suivantes: - extraction dans le flux binaire et décodage de données représentatives de la direction des sources sonores dans la scène sonore;
- adaptation d'au moins une partie des données de direction en fonction de caractéristiques de restitution du signal multicanal, par modification de la position des sources obtenues par les données de direction, pour obtenir un écartement minimum entre deux sources; - détermination d'une matrice de mixage du signal somme en fonction des données adaptées et calcul d'une matrice de mixage inverse;
- dématriçage du signal somme par la matrice de mixage inverse pour obtenir un ensemble de sources principales; - reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les données extraites décodées.
Les données de directions décodées vont ainsi permettre de retrouver la matrice de mixage inverse de celle utilisée au codeur. Cette matrice de mixage permet de retrouver à partir du signal somme, les sources principales qui seront restituées dans l'espace avec une bonne cohérence spatiale.
L'étape d'adaptation permet ainsi de retrouver les directions des sources à spatialiser de façon à obtenir une restitution du son qui soit cohérente avec le système de restitution.
Le signal reconstruit est alors bien adapté aux caractéristiques de restitution du signal multicanal en évitant les éventuels recouvrements des positions des sources sonores.
Deux sources trop proches sont ainsi écartées pour être restituées de façon à ce qu'un auditeur puisse les différencier.
Dans un mode de réalisation, le procédé de décodage comporte en outre les étapes suivantes:
- extraction du flux binaire, d'informations de codage de sources secondaires codées;
- décodage des sources secondaires à partir des informations de codage extraites; - regroupement des sources secondaires aux sources principales pour la spatialisation.
Le décodage de sources secondaires apporte alors plus de précision sur la scène sonore.
La présente invention se rapporte également à un codeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores. Le codeur est tel qu'il comporte: - un module de décomposition du signal multicanal en bande de fréquence;
- un module d'obtention de données représentatives de la direction des sources sonores de la scène sonore;
- un module de sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
- un module d'adaptation des données représentatives de la direction des sources principales sélectionnées, en fonction de caractéristiques de restitution du signal multicanal, par des moyens de modification de la position des sources pour obtenir un écartement minimum entre deux sources; - un module de détermination d'une matrice de mixage des sources principales en fonction des données issues du module d'adaptation;
- un module de matriçage des sources principales sélectionnées par la matrice déterminée pour obtenir un signal somme avec un nombre réduit de canaux;
- un module de codage des données représentatives de la direction des sources sonores; et
- un module de formation d'un flux binaire comportant les données codées, le flux binaire étant apte à être transmis parallèlement au signal somme.
Elle se rapporte aussi à un décodeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, recevant en entrée un flux binaire et un signal somme. Le décodeur est tel qu'il comporte:
- un module d'extraction et de décodage de données représentatives de la direction des sources sonores dans la scène sonore;
- un module d'adaptation d'au moins une partie des données de direction en fonction de caractéristiques de restitution du signal multicanal, par des moyens de modification de la position des sources obtenues par les données de direction, pour obtenir un écartement minimum entre deux sources;
- un module de détermination d'une matrice de mixage du signal somme en fonction des données issues du module d'adaptation et de calcul d'une matrice de mixage inverse; - un module de dématriçage du signal somme par la matrice de mixage inverse pour obtenir un ensemble de sources principales; - un module de reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les données extraites décodées.
Elle se rapporte enfin à un programme informatique comportant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage tel que décrit et/ou d'un procédé de décodage tel que décrit, lorsque ces instructions sont exécutées par un processeur.
De manière plus générale, un moyen de stockage, lisible par un ordinateur ou un processeur, intégré ou non au codeur, éventuellement amovible, mémorise un programme informatique mettant en œuvre un procédé de codage et/ou un procédé de décodage selon l'invention.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels: - la figure 1 illustre un système de codage/décodage de l'état de l'art de type système normalisé MPEG Surround;
- la figure 2 illustre un codeur et un procédé de codage selon un mode de réalisation de l'invention;
- la figure 3 a illustre un premier mode de réalisation du codage des directivités selon l'invention;
- la figure 3b illustre un second mode de réalisation du codage des directivités selon l'invention;
- la figure 4 illustre un organigramme représentant les étapes de la détermination d'une matrice de mixage selon un mode de réalisation de l'invention; - la figure 5a illustre un exemple de répartition de sources sonores autour d'un auditeur;
- la figure 5b illustre l'adaptation de la répartition de sources sonores autour d'un auditeur pour adapter les données de direction des sources sonores selon un mode de réalisation de l'invention; - la figure 6 illustre un décodeur et un procédé de décodage selon un mode de réalisation de l'invention; et - les figures 7a et 7b représentent respectivement un exemple de dispositif comprenant un codeur et un exemple de dispositif comprenant un décodeur selon l'invention.
La figure 2 illustre sous forme de bloc diagramme, un codeur selon un mode de réalisation de l'invention ainsi que les étapes d'un procédé de codage selon un mode de réalisation de l'invention.
L'ensemble des traitements dans ce codeur est effectué par trame temporelle. Par soucis de simplification, la représentation et la description du codeur tel que représenté en figure 2 est faite en considérant le traitement effectué sur une trame temporelle fixée, sans faire apparaître la dépendance temporelle dans les notations.
Un même traitement est cependant successivement appliqué à l'ensemble des trames temporelles du signal.
Le codeur ainsi illustré comporte un module de transformée temps- fréquence 210 qui reçoit en entrée un signal multicanal original représentant une scène sonore comportant une pluralité de sources sonores.
Ce module effectue donc une étape T de calcul de la transformée temps- fréquence du signal multicanal original Sm. Cette transformée est réalisée par exemple par une transformée de Fourier à court terme. Pour cela, chacun des nx canaux du signal original est fenêtre sur la trame temporelle courante, puis la transformée de Fourier F du signal fenêtre est calculée à l'aide d'un algorithme de calcul rapide sur nm- points. On obtient ainsi une matrice X complexe de taille ΠFFT X nx contenant les coefficients du signal multicanal original dans l'espace fréquentiel. Les traitements effectués ensuite par le codeur sont effectués par bande de fréquence. Pour cela, on découpe la matrice des coefficients X en un ensemble de sous-matrices Xj contenant chacune les coefficients fréquentiels dans la jeme bande.
Différents choix pour le découpage fréquentiel des bandes sont possibles.
Afin d'assurer que le traitement s'applique sur des signaux réels, on choisit des bandes symétriques par rapport à la fréquence nulle dans la transformée de Fourier à court terme. De plus, afin d'optimiser l'efficacité de codage, on privilégie le choix de bandes de fréquences approchant des échelles fréquentielles perceptives, par exemple en choisissant des largeurs de bande constantes dans les échelles ERB (pour "Equivalent Rectangular Bandwidth" en Anglais) ou Bark.
Par soucis de simplification, la description des étapes de codage effectuée par le codeur sera faite pour une bande de fréquence donnée. Les étapes sont bien entendu effectuées pour chacune des bandes de fréquence à traiter.
En sortie du module 210, on obtient donc le signal pour une bande de fréquence donné SQ.
Un module d'obtention de données de directions des sources sonores 220, permet de déterminer par une étape OBT, d'une part, les données de direction associées à chacune des sources de la scène sonore et d'autre part de déterminer les sources de la scène sonore pour la bande de fréquence donnée.
Les données de directions peuvent être par exemple des données de direction d'arrivée d'une source qui correspondent à la position de la source. Les données de ce type sont par exemple décrites dans le document de M.
Goodwin, J-M. Jot, "Analysis and synthesis for universal spatial audio coding", 121st AES Convention, October 2006.
Dans un autre mode de réalisation, les données de directions sont des données de différences d'intensité entre les sources sonores. Ces différences d'intensité permettent de définir des positions moyennes des sources. Ils prennent par exemple l'appellation CLD (pour "Channel Level Différences" en Anglais) pour le codeur normalisé MPEG Surround.
Dans le mode de réalisation décrit ici plus en détails, les données représentatives des directions des sources sont des informations de directivités. Les informations de directivités sont représentatives de la répartition spatiale des sources sonores dans la scène sonore.
Les directivités sont des vecteurs de même dimension que le nombre ns de canaux du signal multicanal Sm.
Chaque source est associée à un vecteur de directivité. Pour un signal multicanal, le vecteur de directivité associé à une source correspond à la fonction de pondération à appliquer à cette source avant de la jouer sur un haut-parleur, de manière à reproduire au mieux une direction d'arrivée et une largeur de source.
On comprend aisément que pour un nombre très important de haut-parleurs régulièrement espacés, le vecteur de directivité permet de représenter fidèlement le rayonnement d'une source sonore. En présence d'un signal ambiophonique, le vecteur de directivité est obtenu par l'application d'une transformée de Fourier sphérique inverse sur les composantes des ordres ambiophoniques. En effet, les signaux ambiophoniques correspondent à une décomposition en harmoniques sphériques, d'où la correspondance directe avec la directivité des sources. L'ensemble des vecteurs de directivité constitue donc une importante quantité de données qu'il serait trop coûteux de transmettre directement pour des applications à faible débit de codage. Pour réduire la quantité d'information à transmettre, deux méthodes de représentation des directivités peuvent par exemple être utilisées. Le module 230 de codage Cod.Di des informations de directivités peut ainsi mettre en œuvre une des deux méthodes décrites ci-après ou encore une combinaison des deux méthodes.
Une première méthode est une méthode de modélisation paramétrique qui permet d'exploiter les connaissances a priori sur le format de signal utilisé. Elle consiste à ne transmettre qu'un nombre très réduit de paramètres et à reconstruire les directivités en fonction de modèles de codage connus.
Par exemple, il s'agit d'exploiter les connaissances sur le codage des ondes planes pour des signaux de type ambiophonique pour ne transmettre que la valeur de la direction (azimut et élévation) de la source. Avec ces informations, il est alors possible de reconstruire la directivité correspondant à une onde plane provenant de cette direction.
Par exemple, pour un ordre ambiophonique défini, on connaît la directivité associée en fonction de la direction d'arrivée de la source sonore. Il existe plusieurs méthodes d'estimation des paramètres du modèle. Ainsi une recherche de pics dans le diagramme de directivité (par analogie avec l'analyse sinusoïdale, comme expliqué par exemple dans le document "Modélisation informatique du son musical (analyse. transformation, synthèse)" de Sylvain Marchand, PhD thesis, Université Bordeaux 1, permet de détecter relativement fidèlement la direction d'arrivée.
D'autres méthodes comme le "matching pursuit", comme présenté dans S. Mallat, Z. Zhang, Matching pursuit with time-frequency dictionaries, IEEE Transactions on Signal Processing 41 (1993) 3397-3415, ou l'analyse spectrale paramétrique peuvent aussi être utilisées dans ce contexte.
Une représentation paramétrique peut également utiliser un dictionnaire de forme simple pour représenter les directivités. Lors du codage des directivités, on associe à un élément du dictionnaire, une donnée par exemple l'azimut correspondant et un gain permettant de jouer sur l'amplitude de ce vecteur de directivité du dictionnaire. On peut ainsi, à partir d'un dictionnaire de forme de directivité, en déduire la meilleure forme ou la combinaison de formes qui permettra de reconstruire au mieux la directivité initiale.
Pour la mise en œuvre de cette première méthode, le module 230 de codage des directivités comporte un module de modélisation paramétrique qui donne en sortie des paramètres de directivités P. Ces paramètres sont ensuite quantifiés par le module de quantification 240.
Cette première méthode permet d'obtenir un très bon niveau de compression lorsque la scène correspond bien à un codage idéal. Ceci sera particulièrement le cas sur les scènes sonores de synthèse.
Cependant pour des scènes complexes ou issues de prises de son microphoniques, il est nécessaire d'utiliser des modèles de codage plus génériques, impliquant la transmission d'une plus grande quantité d'informations.
La deuxième méthode décrite ci-dessous permet de s'affranchir de cet inconvénient. Dans cette deuxième méthode, la représentation des informations de directivité s'effectue sous forme de combinaison linéaire d'un nombre limité de directivités de base. Cette méthode s'appuie sur le fait que l'ensemble des directivités à un instant donné a généralement une dimension réduite. En effet, seul un nombre réduit de sources est active à un instant donné et la directivité pour chaque source varie peu avec la fréquence. On peut ainsi représenter l'ensemble des directivités dans un groupe de bandes de fréquences à partir d'un nombre très réduit de directivités de base bien choisies. Les paramètres transmis sont alors les vecteurs de directivité de base pour le groupe de bandes considérées, et pour chaque directivité à coder, les coefficients à appliquer aux directivités de base pour reconstruire la directivité considérée.
Cette méthode est basée sur une méthode d'analyse en composante principale (ACP ou PCA en anglais pour "Principal Component Analysis"). Cet outil est largement développé par LT. Jolliffe dans "Principal Component Analysis", Springer, 2002. L'application de l'analyse en composante principale au codage des directivités s'effectue de la manière suivante: tout d'abord, on forme une matrice des directivités initiales Di, dont le nombre de lignes correspond au nombre total de sources de la scène sonore, et le nombre de colonne correspond au nombre de canaux du signal multicanal original. Ensuite, on effectue à proprement dit l'analyse en composante principale qui correspond à la diagonalisation de la matrice de covariance, et qui donne la matrice des vecteurs propres. Enfin, on sélectionne les vecteurs propres porteurs de la part d'information la plus importante et qui correspondent aux valeurs propres de plus forte valeur. Le nombre de vecteurs propres à conserver peut être fixe ou variable dans le temps en fonction du débit disponible. Cette nouvelle base donne donc la matrice DβT. Les coefficients de gain associés à cette base sont facilement calculés à partir de GD = Di.DB T.
Dans ce mode de réalisation, la représentation des directivités s'effectue donc à partir de directivités de base. La matrice des directivités Di s'écrit comme la combinaison linaire de ces directivités de base. Ainsi on peut écrire Di = GDDB, OÙ DB est la matrice des directivités de base pour l'ensemble des bandes et GD la matrice des gains associés. Le nombre de lignes de cette matrice représente le nombre total de sources de la scène sonore et le nombre de colonnes représente le nombre de vecteurs de directivité de base.
Dans une variante de ce mode de réalisation, des directivités de base sont envoyées par groupe de bandes considérées, afin de représenter plus fidèlement les directivités. Il est possible par exemple de fournir deux groupes de directivité de base: une pour les basses fréquences et une pour les hautes fréquences. La limite entre ces deux groupes peut par exemple être choisie entre 5 et 7 kHz.
Pour chaque bande de fréquence, on transmet ainsi, le vecteur de gain associé aux directivités de base. Pour ce mode de réalisation, le module de codage 230 comprend un module d'analyse en composante principale délivrant des vecteurs de directivités de base DB et des coefficients ou vecteurs de gain associés GD-
Ainsi, après ACP, un nombre limité de vecteurs de directivité sera codé et transmis. Pour cela, on utilise une quantification scalaire effectué par le module de quantification 240, des coefficients et des vecteurs de directivités de base. Le nombre de vecteurs de base à transmettre pourra être fixé, ou bien sélectionné au codeur en utilisant par exemple un seuil sur l'erreur quadratique moyenne entre la directivité originale et la directivité reconstruite. Ainsi, si l'erreur est inférieure au seuil, le ou les vecteur(s) de base jusqu'alors sélectionné(s) sont suffisant, il n'est alors pas nécessaire de coder un vecteur de base supplémentaire.
Dans des variantes de réalisation, le codage des directivités est réalisé par une combinaison des deux représentations listées ci-dessus. La figure 3a illustre de façon détaillée, le bloc de codage de directivités 230, dans une première variante de réalisation. Ce mode de codage utilise les deux schémas de représentation des directivités. Ainsi, un module 310 effectue une modélisation paramétrique comme expliqué précédemment pour fournir des paramètres de directivités (P).
Un module 320 effectue une analyse en composante principale pour fournir à la fois des vecteurs de directivités de base (DB) et des coefficients associés (GD). Dans cette variante un module de sélection 330 choisit bande de fréquence par bande de fréquence, le meilleur mode de codage pour la directivité en choisissant le meilleur compromis reconstruction des directivités/débit.
Pour chaque directivité, le choix de la représentation retenue (représentation paramétrique ou par combinaison linéaire de directivités de base) se fait de manière à optimiser l'efficacité de la compression. Un critère de sélection est par exemple la minimisation de l'erreur quadratique moyenne. Une pondération perceptuelle peut éventuellement être utilisée pour le choix du mode de codage de la directivité. Cette pondération a pour but par exemple de favoriser la reconstruction des directivités dans la zone frontale, pour laquelle l'oreille est plus sensible. Dans ce cas, la fonction d'erreur à minimiser dans le cas du modèle de codage par ACP peut se mettre sous la forme suivante:
E = (W(Di - GDDB))2
Avec Di, les directivités originales et W, la fonction de pondération perceptuelle. Les paramètres de directivités issus du module de sélection sont ensuite quantifiés par le module de quantification 240 de la figure 2.
Dans une seconde variante du bloc de codage 230, les deux modes de codage sont cascades. La figure 3b illustre en détails ce bloc de codage. Ainsi, dans cette variante de réalisation, un module 340 de modélisation paramétrique effectue une modélisation pour un certain nombre de directivités et fournit en sortie à la fois des paramètres de directivités (P) pour les directivités modélisés et des directivités non modélisés ou directivités résiduelles DiR.
Ces directivités résiduelles (DiR) sont codées par un module d'analyse en composante principale 350 qui fournit en sortie des vecteurs de directivités de base (DB) et des coefficients associés (GD).
Les paramètres de directivités, les vecteurs de directivités de base ainsi que les coefficients sont fournis en entrée du module de quantification 240 de la figure 2.
La quantification Q est effectuée en réduisant la précision en fonction de données sur la perception, puis en appliquant un codage entropique. Aussi, des possibilités d'exploitation de la redondance entre bandes fréquentielles ou entre trames successives peuvent permettre de réduire le débit. Des prédictions intra- trames ou inter-trames sur les paramètres peuvent donc être utilisées. De manière générale, les méthodes classiques de quantification pourront être utilisées. D'autre part, les vecteurs à quantifier étant orthonormés, cette propriété pourra être exploitée lors de la quantification scalaire des composantes du vecteur. En effet, pour un vecteur de dimension N, seul N-I composantes devront être quantifiées, la dernière composante pouvant être recalculée.
A la sortie du module de codage 230 des données de directions Di de la figure 2, les paramètres ainsi destinés au décodeur sont décodés par le module de décodage interne 235 pour retrouver les mêmes informations que celles que le décodeur aura après réception des données de directions codées pour les sources principales sélectionnées par le module 260 décrit ultérieurement. On obtient ainsi des directions principales.
Lorsqu'il s'agit de données de directions sous la forme de direction d'arrivée des sources, l'information peut être prise en compte telle quelle.
Lorsque que les données sont sous la forme de différence d'intensité entre les sources, une étape de calcul de la position moyenne des sources est effectuée pour utiliser cette information dans le module de détermination de la matrice de mixage 275. Enfin, lorsque les données sont des informations de directivités, le module
235 détermine une position unique par source en effectuant une moyenne des directivités. Cette moyenne peut par exemple être calculée comme le barycentre du vecteur de directivité. Ces positions uniques ou directions principales sont ensuite utilisées par le module 275. Celui-ci détermine dans un premier temps, les directions des sources principales et les adapte en fonction de critère de cohérence spatiale, en ayant connaissance du système de restitution du signal multicanal.
Dans le cas d'une restitution stéréophonique par exemple, la restitution s'effectue par deux haut-parleurs situés à l'avant de l'auditeur. Dans ce cas de figure, les étapes mises en œuvre par le module 275 sont décrites en référence à la figure 4.
Ainsi, à partir des informations sur la position des sources ainsi que la connaissance des caractéristiques de restitution, les sources positionnées à l'arrière de l'auditeur sont ramenées vers l'avant à l'étape E30 de la figure 4. En référence aux figures 5a et 5b, les étapes d'adaptation de la position des sources sont illustrées. Ainsi, la figure 5a représente une scène sonore originale avec 4 sources sonores (A, B, C et D) reparties autour de l'auditeur.
Les sources C et D sont situés à l'arrière de l'auditeur centré au centre du cercle. Les sources C et D sont ramenées à l'avant de la scène par symétrie.
La figure 5b illustre sous forme de flèches, cette opération.
L'étape E 31 de la figure 4 effectue un test pour savoir si l'opération précédente engendre un recouvrement des positions des sources dans l'espace. Dans l'exemple de la figure 5b, ceci est par exemple le cas pour les sources B et D qui après l'opération de l'étape E30, sont situées à une distance qui ne permet pas de les différencier.
S'il existe des sources dans une telle situation (test positif de l'étape E31), l'étape E32, modifie la position d'une des deux sources en question pour la positionner à une distance minimale emm qui permette à l'auditeur de différencier ces interlocuteurs. L'écartement se fait symétriquement par rapport au point équidistant des deux sources pour minimiser le déplacement de chacune. Si les sources sont placées trop près de la limite de l'image sonore (extrême gauche ou droite), on positionne la source la plus proche de cette limite sur cette position limite, et on place l'autre source avec l'écartement minimum par rapport à la première source. Dans l'exemple illustré à la figure 5b, c'est la source B qui est décalée de façon à ce que la distance emm sépare les sources B et D.
Si le test de l'étape E31 est négatif, les positions des sources sont maintenues et l'étape E33 est mise en œuvre. Cette étape consiste à construire une matrice de mixage à partir des informations de positions des sources ainsi définies aux étapes antérieures.
Dans le cas d'une restitution du signal par un système de type 5.1 , les haut- parleurs sont répartis autour de l'auditeur. Il n'est alors pas nécessaire de mettre en œuvre l'étape E30 qui ramène les sources situées à l'arrière de l'auditeur vers l'avant.
Par contre, l'étape E32 de modification des distances entre deux sources est possible. En effet, lorsque l'on veut positionner une source sonore entre deux haut- parleurs du système de restitution 5.1, il se peut que deux sources soient situées à une distance qui ne permet pas à l'auditeur de les différencier.
Les directions des sources sont donc modifiées pour obtenir une distance minimale entre deux sources, comme expliquée précédemment. La matrice de mixage est donc déterminée à l'étape E33, en fonction des directions obtenues après ou sans modifications.
Cette matrice est construite de manière à assurer la cohérence spatiale du signal somme, c'est à dire que s'il est restitué seul, le signal somme permet déjà d'obtenir une scène sonore où la position relative des sources sonores est respectée : une source frontale dans la scène originale sera bien perçue en face de l'auditeur, une source à gauche sera perçue à gauche, une source plus à gauche sera également perçue plus à gauche, de même à droite.
Avec ces nouvelles valeurs d'angle, on construit une matrice inversible.
Les différentes variantes de choix de matrice de mixage sont liées aux différentes lois de répartition spatiale ou "panning" en Anglais (loi sinus, tangente, etc ..) présentées dans "Spatial sound génération and perception by amplitude panning techniques", PhD thesis, Helsinki University of Technology, Espoo, Finland,
2001, V. Pulkki.
On peut par exemple, avantageusement choisir de représenter les voies de droite par une forme en sinus et les voies de gauche par une forme en cosinus, de façon à rendre réversible cette matrice.
D'autre part, pour que les positions extrêmes (-45° et 45°) soient bien représentées, on peut par exemple choisir des coefficients de pondération mis à 1 pour la voie de gauche et à 0 pour la voie de droite pour représenter le signal à la position -45° et inversement pour représenter le signal à 45°.
Pour que la position centrale, à 0° soit bien représentée, les coefficients de matriçage pour la voie de gauche et pour la voie de droite doivent être égaux.
Un exemple de détermination de la matrice de mixage est expliqué ci- dessous. En choisissant la loi de "panning" comme étant une loi tangente, les gains associés à une source pour un signal somme stéréophonique (2 canaux) sont calculés de la manière suivante: θsi θsi étant l'angle entre la source 1 et le haut-parleur gauche, en considérant l'ouverture entre les haut-parleurs de 90°.
Le signal somme SSf, est donc obtenu par l'opération suivante:
^sfi — ^princ "I
En revenant à la description de la figure 2, le codeur tel que décrit ici comprend en outre un module de sélection 260 apte à sélectionner à l'étape Select des sources principales (Sprjnc) parmi les sources de la scène sonore à coder (Stot).
Pour cela, un mode de réalisation particulier utilise une méthode d'analyse en composante principale, ACP, dans chaque bande de fréquence dans le bloc 220 pour extraire toutes les sources de la scène sonore (Stot). Cette analyse permet de classer les sources en sous-bandes par ordre d'importance selon le niveau d'énergie par exemple.
Les sources de plus grande importance (donc de plus grande énergie) sont alors sélectionnées par le module 260 pour constituer les sources principales (SPrinC), qui sont ensuite matricées par le module 270, par la matrice M telle que définie par le module 275, pour construire un signal somme (SSf,) (ou "downmix" en anglais).
Ce signal somme par bande de fréquence subit une transformée temps- fréquence inverse T1 par le module de transformée inverse 290 afin de fournir un signal somme temporel (Ss). Ce signal somme est ensuite encodé par un codeur de parole ou un codeur audio de l'état de l'art (par exemple: G.729.1 ou MPEG-4 AAC). Des sources secondaires (Ssec) peuvent être codées par un module de codage 280 et ajoutées au flux binaire dans le module de construction de flux binaire 250. Pour ces sources secondaires, c'est-à-dire les sources qui ne sont pas transmises directement dans le signal somme, il existe différentes alternatives de traitements.
Ces sources étant considérées comme non essentielles à la scène sonore, elles peuvent ne pas être transmises.
Il est cependant possible de coder une partie ou la totalité de ces sources secondaires par le module de codage 280 qui peut dans un mode de réalisation être un module de codage par transformée de Fourier à court terme. Ces sources peuvent ensuite être codées séparément en utilisant les codeurs audio ou de parole précités. Dans une variante de ce codage, on peut ne coder directement les coefficients de la transformée de ces sources secondaires que dans les bandes dont on estime qu'elles sont importantes.
Les sources secondaires peuvent être codées par des représentations paramétriques, ces représentations peuvent être sous la forme d'enveloppe spectrale ou d'enveloppe temporelle.
Ces représentations sont codées à l'étape Cod.Ssec du module 280 et insérées à l'étape Con.Fb du module 250, dans le flux binaire avec les informations de directivités codées quantifiées. Ces représentations paramétriques constituent alors des informations de codage des sources secondaires. Dans le cas de certains signaux multicanaux notamment de type ambiophonique, le codeur tel que décrit met en œuvre une étape supplémentaire de pré-traitement P par un module de pré-traitement 215.
Ce module effectue une étape de changement de base afin d'exprimer la scène sonore en utilisant la décomposition en onde planes du champ acoustique. Le signal ambiophonique original est vue comme la transformée de Fourier angulaire d'un champ sonore. Ainsi les différentes composantes représentent les valeurs pour les différentes fréquences angulaires. La première opération de décomposition en ondes planes correspond donc à prendre la composante omnidirectionnelle du signal ambiophonique comme représentant la fréquence angulaire nulle (cette composante est donc bien une composante réelle). Ensuite, les composantes ambiophonique suivantes (ordre 1, 2, 3, etc ..) sont combinées pour obtenir les coefficients complexes de la transformée de Fourier angulaire.
Pour une description plus précise du format ambiophonique, on pourra se référer à la thèse de Jérôme Daniel, intitulé "Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia" 2001, Paris 6.
Ainsi, pour chaque ordre ambiophonique supérieur à 1 (en 2-dimensions), la première composante représente la partie réelle, et la deuxième composante représente la partie imaginaire. Pour une représentation bidimensionnelle, pour un ordre O, on obtient O+l composantes complexes. Une Transformée de Fourier à Court Terme (sur la dimension temporelle) est ensuite appliquée pour obtenir les transformées de Fourier (dans le domaine fréquentiel) de chaque harmonique angulaire cette étape intègre alors l'étape de transformation T du module 210. Ensuite, on construit la transformée angulaire complète en recréant les harmoniques de fréquences négatives par symétrie hermitienne. Enfin, on effectue une transformée de Fourier inverse sur la dimension des fréquences angulaires pour passer dans le domaine des directivités.
Cette étape de pré-traitement P permet au codeur de travailler dans un espace de signaux dont l'interprétation physique et perceptive est simplifiée, ce qui permet d'exploiter plus efficacement les connaissances sur la perception auditive spatiale et ainsi améliorer les performances de codage. Le codage des signaux ambiophoniques reste cependant possible sans cette étape de pré-traitement.
Pour les signaux non-issus des techniques ambiophoniques, cette étape n'est pas nécessaire. Pour ces signaux, la connaissance du système de captation ou de restitution associé au signal permet d'interpréter directement les signaux comme une décomposition en ondes planes du champ acoustique.
La figure 6 décrit à présent un décodeur et un procédé de décodage dans un mode de réalisation de l'invention.
Ce décodeur reçoit en entrée le flux binaire Fb tel que construit par le codeur décrit précédemment ainsi que le signal somme Ss. De la même façon que pour le codeur, l'ensemble des traitements est effectué par trame temporelle. Pour simplifier les notations, la description du décodeur qui suit décrit uniquement le traitement effectué sur une trame temporelle fixée et ne fait pas apparaître la dépendance temporelle dans les notations. Dans le décodeur, ce même traitement est cependant successivement appliqué à l'ensemble des trames temporelles du signal.
Le décodeur ainsi décrit comprend un module 650 de décodage Decod.Fb des informations contenues dans le flux binaire Fb reçu.
Les informations de directions et plus particulièrement ici, de directivités sont donc extraites du flux binaire.
Les sorties possibles de ce module de décodage du flux binaire dépendent des méthodes de codage des directivités utilisées au codage. Elles peuvent être sous forme de vecteurs de directivités de base DB et de coefficients associés GD et/ou des paramètres de modélisation P. Ces données sont alors transmises à un module de reconstruction des informations de directivités 660 qui effectue le décodage des informations de directivités par des opérations inverses de celles effectuées au codage.
Le nombre de directivité à reconstruire est égal au nombre ntot de sources dans la bande de fréquence considérée, chaque source étant associée à un vecteur de directivité.
Dans le cas de la représentation des directivités à partir de directivité de base, la matrice des directivités Di s'écrit comme la combinaison linaire de ces directivités de base. Ainsi on peut écrire Di = GDDB, OÙ DB est la matrice des directivités de base pour l'ensemble des bandes et GD la matrice des gains associés. Cette matrice de gain a un nombre de lignes égal au nombre total de sources ntot, et un nombre de colonnes égal au nombre de vecteurs de directivité de base.
Dans une variante de ce mode de réalisation, des directivités de base sont décodées par groupe de bandes de fréquence considérées, afin de représenter plus fidèlement les directivités. Comme expliqué pour le codage, on peut par exemple fournir deux groupes de directivités de base: un pour les basses fréquences et un pour les hautes fréquences. Un vecteur de gains associés aux directivités de base est ensuite décodé pour chaque bande.
Au final on reconstruit autant de directivités que de sources. Ces directivités sont regroupées dans une matrice Di où les lignes correspondent aux valeurs d'angle (autant de valeur d'angle que de canaux dans le signal multicanal à reconstruire), et chaque colonne correspond à la directivité de la source correspondante, c'est à dire que la colonne r de Di donne la directivité de la source qui est dans la colonne r de S.
Un module 690 de définition des directions principales des sources et de détermination de la matrice N de mixage reçoit ces informations de directions ou de directivités décodées.
Ce module calcule tout d'abord les directions principales en effectuant par exemple une moyenne des directivités reçues pour trouver les directions. En fonctions de ces directions, une matrice de mixage, inverse à celle utilisée pour le codage est déterminée. Connaissant les lois de "panning" utilisées pour la matrice de mixage au codeur, le décodeur est capable de reconstruire la matrice de mixage inverse avec les informations de directions correspondant aux directions des sources principales.
L'information de directivité est transmise séparément pour chaque source. Ainsi, dans le flux binaire, on identifie bien les directivités relatives aux sources principales et les directivités des sources secondaires.
Il est à noter que ce décodeur n'a pas besoin d'autres informations pour calculer cette matrice puisqu'elle est fonction des informations de directions reçues dans le flux binaire.
Le même algorithme que celui décrit en référence à la figure 4 est alors mis en œuvre dans le module 690 pour retrouver la matrice de mixage adaptée à la restitution prévue pour le signal somme.
Le nombre de lignes de la matrice N correspond au nombre de canaux du signal somme, et le nombre de colonnes correspond au nombre de sources principales transmises. La matrice inverse N telle que définie est ensuite utilisé par le module de dématriçage 620. Le décodeur reçoit donc en parallèle du flux binaire, le signal somme Ss. Celui-ci subit une première étape de transformée temps-fréquence T par le module de transformée 610 pour obtenir un signal somme par bande de fréquence, SSfi.
Cette transformée est réalisée en utilisant par exemple la transformée de Fourier à court terme. Il faut noter que d'autres transformées ou bancs de filtres peuvent être également utilisés, et notamment des bancs de filtres non uniformes suivant une échelle de perception (e.g. Bark). On peut noter que de manière à éviter des discontinuités lors de la reconstruction du signal à partir de cette transformée, on utilise une méthode d'addition recouvrement. Pour la trame temporelle considérée, l'étape de calcul de la transformée de
Fourier à court terme consiste à fenêtrer chacun des nf canaux du signal somme Ss à l'aide d'une fenêtre w de longueur supérieure à la trame temporelle, puis à calculer la transformée de Fourier du signal fenêtre à l'aide d'un algorithme de calcul rapide sur nFFT points. On obtient ainsi une matrice F complexe de taille nFFτ x nf contenant les coefficients du signal somme dans l'espace fréquentiel.
Dans la suite, l'ensemble du traitement s'effectue par bandes de fréquence. Pour cela, on découpe la matrice des coefficients F en un ensemble de sous-matrices Fj contenant chacune les coefficients fréquentiels dans la jeme bande. Différents choix pour le découpage fréquentiel des bandes sont possibles. Afin d'assurer que le traitement s'applique sur des signaux réels, on choisit des bandes symétriques par rapport à la fréquence nulle dans la transformée de Fourier à court terme. De plus, afin d'optimiser l'efficacité de décodage, on privilégie le choix de bandes de fréquences approchant des échelles fréquentielles perceptives, par exemple en choisissant des largeurs de bande constante dans les échelles ERB ou Bark. Par soucis de simplification, la description des étapes de décodage effectuée par le décodeur sera faite pour une bande de fréquence donnée. Les étapes sont bien entendu effectuées pour chacune des bandes de fréquence à traiter.
Les coefficients fréquentiels de la transformée du signal somme de la bande de fréquence considérée sont matrices par le module 620 par la matrice N déterminée selon l'étape de détermination décrite précédemment de façon à retrouver les sources principales de la scène sonore. Plus précisément, la matrice Sprinc des coefficients fréquentiels pour la bande de fréquence courante des npπnc sources principales est obtenue selon la relation :
SPπnc=BN, où N est de dimension nf x nprmc et B est une matrice de dimension nbinx nf où nbm est le nombre de composantes (ou bins) fréquentielles retenues dans la bande de fréquence considérée.
Les lignes de B sont les composantes fréquentielles dans la bande de fréquence courante, les colonnes correspondent aux canaux du signal somme. Les lignes de Sprmt sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à une source principale. Lorsque la scène est complexe, il peut arriver que le nombre de sources à reconstruire dans la bande de fréquence courante pour obtenir une reconstruction satisfaisante de la scène soit supérieur au nombre de canaux du signal somme.
Dans ce cas, des sources supplémentaires ou secondaires sont codées puis décodées à partir du flux binaire pour la bande courante par le module 650 de décodage du flux binaire.
Ce module de décodage décode alors, en plus des informations de directivités, les sources secondaires.
Le décodage des sources secondaires s'effectue par les opérations inverses que celles qui ont été effectuées au codage. Quelque soit la méthode de codage qui a été retenue pour les sources secondaires, si des données de reconstruction des sources secondaires ont été transmises dans le flux binaire pour la bande courante, les données correspondantes sont décodées pour reconstruire la matrice Ssec des coefficients fréquentiels dans la bande courante des nsec sources secondaires. La forme de la matrice Ssec est similaire à la matrice Spπnc, c'est à dire que les lignes sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à une source secondaire.
On peut ainsi construire la matrice complète S en 680, des coefficients fréquentiels de l'ensemble des ntot=npπnc+nsec sources nécessaires à la reconstruction du signal multicanal dans la bande considérée, obtenue en regroupant les deux matrices Spπnc et Ssupp suivant la relation S = [Spnm Ssιφp ) - S est donc une matrice de dimension nt,m x ntot. Aussi, la forme est identique aux matrices Spnnc et SSUpp : les lignes sont les composantes fréquentielles dans la bande de fréquence courante, chaque colonne est une source, avec ntot sources au totale.
A partir de la matrice S des coefficients des sources et de la matrice Di des directivités associées les coefficients fréquentiels du signal multicanal reconstruit dans la bande sont calculés dans le module de spatialisation 630, selon la relation:
Y=SDT, où Y est le signal reconstruit dans la bande. Les lignes de la matrice Y sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à un canal du signal multicanal à reconstruire. En reproduisant le même traitement dans chacune des bandes fréquentielles, on reconstruit les transformées de Fourier complètes des canaux du signal à reconstruire pour la trame temporelle courante. Les signaux temporels correspondants sont alors obtenues par transformée de Fourier inverse T1, à l'aide d'un algorithme rapide mis en œuvre par le module de transformée inverse 640. On obtient ainsi le signal multicanal Sm sur la trame temporelle courante. Les différentes trames temporelles sont ensuite combinées par méthode classique d'addition avec recouvrement (ou "overlap-add" en anglais) pour reconstruire le signal multicanal complet.
De manière générale, des lissages temporels ou fréquentiels des paramètres pourront être utilisés aussi bien à l'analyse qu'à la synthèse pour assurer des transitions douces dans la scène sonore. Une signalisation de changement brutal de la scène sonore pourra être réservée dans le flux binaire pour éviter les lissages du décodeur dans le cas d'une détection d'un changement rapide de la composition de la scène sonore. D'autre part, des méthodes classiques d'adaptation de la résolution de l'analyse temps-fréquence peuvent être utilisées (changement de taille des fenêtres d'analyse et de synthèse au cours du temps).
De la même manière qu'au codeur, un module de changement de base peut effectuer un pré-traitement pour obtenir une décomposition en ondes planes des signaux, un module de changement de base 670 effectue l'opération inverse P"1 à partir des signaux en ondes planes pour retrouver le signal multicanal original. Les codeurs et décodeurs tels que décrit en référence aux figures 2 et 6 peuvent être intégrés à un équipement multimédia de type décodeur de salon, ordinateur ou encore équipement de communication tel qu'un téléphone mobile ou agenda électronique personnel. La figure 7a représente un exemple d'un tel équipement multimédia ou dispositif de codage comportant un codeur selon l'invention. Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Le dispositif comporte un module d'entrée apte à recevoir un signal multi canal représentant une scène sonore, soit par un réseau de communication, soit par lecture d'un contenu stocké sur un support de stockage. Cet équipement multimédia peut également comporter des moyens de capture d'un tel signal multicanal.
Le bloc mémoire BM peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de décomposition du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence:
- obtention de données représentatives de la direction des sources sonores de la scène sonore;
- sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
-adaptation des données représentatives de la direction des sources principales sélectionnées, en fonction de caractéristiques de restitution du signal multicanal;
- détermination d'une matrice de mixage des sources principales en fonction des données adaptées;
- matriçage des sources principales par la matrice déterminée pour obtenir un signal somme avec un nombre réduit de canaux; - codage des données représentatives de la direction des sources sonores et formation d'un flux binaire comportant les données codées, le flux binaire étant apte à être transmis parallèlement au signal somme.
Typiquement, la description de la figure 2 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement.
Le dispositif comporte un module de sortie apte à transmettre un flux binaire Fb et un signal somme Ss issus du codage du signal multicanal. De la même façon, la figure 7b illustre un exemple d'équipement multimédia ou dispositif de décodage comportant un décodeur selon l'invention.
Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Le dispositif comporte un module d'entrée apte à recevoir un flux binaire Fb et un signal somme Ss provenant par exemple d'un réseau de communication. Ces signaux d'entrée peuvent provenir d'une lecture sur un support de stockage.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes d'extraction dans le flux binaire et de décodage de données représentatives de la direction des sources sonores dans la scène sonore;
- d'adaptation d'au moins une partie des données de direction en fonction de caractéristiques de restitution du signal multicanal; - de détermination d'une matrice de mixage du signal somme en fonction des données adaptées et de calcul d'une matrice de mixage inverse;
- de dématriçage du signal somme par la matrice de mixage inverse pour obtenir un ensemble de sources principales;
- de reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les données extraites décodées. Typiquement, la description de la figure 6 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement. Le dispositif comporte un module de sortie apte à transmettre un signal multicanal décodé par le procédé de décodage mis en œuvre par l'équipement.
Cet équipement multimédia peut également comporter des moyens de restitution de type haut-parleur ou des moyens de communication apte à transmettre ce signal multi-canal. Bien évidemment, un tel équipement multimédia peut comporter à la fois le codeur et le décodeur selon l'invention. Le signal d'entrée étant alors le signal multicanal original et le signal de sortie, le signal multicanal décodé.

Claims

REVENDICATIQNS
1. Procédé de codage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, caractérisé en ce qu'il comporte une étape de décomposition (T) du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence:
- obtention (OBT) de données représentatives de la direction des sources sonores de la scène sonore;
- sélection (Select) d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
-adaptation (DiA_M) des données représentatives de la direction des sources principales sélectionnées, en fonction de caractéristiques de restitution du signal multicanal, par modification de la position des sources pour obtenir un écartement minimum entre deux sources; - détermination (DiA_M) d'une matrice de mixage des sources principales en fonction des données adaptées;
- matriçage (M) des sources principales par la matrice déterminée pour obtenir un signal somme avec un nombre réduit de canaux;
- codage (Cod.Di) des données représentatives de la direction des sources sonores et formation d'un flux binaire comportant les données codées, le flux binaire étant apte à être transmis parallèlement au signal somme.
2. Procédé selon la revendication 1, caractérisé en ce que les données représentatives de la direction sont des informations de directivités représentatives de la répartition des sources sonores dans la scène sonore.
3. Procédé selon la revendication 2, caractérisé en ce que le codage des informations de directivités s'effectue par une méthode de représentation paramétrique.
4. Procédé selon la revendication 2, caractérisé en ce que le codage des informations de directivité s'effectue par une méthode d'analyse en composante principale délivrant des vecteurs de directivité de base associés à des gains permettant la reconstruction des directivités initiales.
5. Procédé selon la revendication 2, caractérisé en ce que le codage des informations de directivité s'effectue par une combinaison d'une méthode d'analyse en composante principale et d'une méthode de représentation paramétrique.
6. Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre le codage de sources secondaires parmi les sources non sélectionnées de la scène sonore et d'insertion d'informations de codage des sources secondaires dans le flux binaire.
7. Procédé de décodage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, à partir d'un flux binaire et d'un signal somme, caractérisé en ce qu'il comporte les étapes suivantes:
- extraction (Decod. Fb) dans le flux binaire et décodage de données représentatives de la direction des sources sonores dans la scène sonore; - adaptation (DiA_N) d'au moins une partie des données de direction en fonction de caractéristiques de restitution du signal multicanal, par modification de la position des sources obtenues par les données de direction, pour obtenir un écartement minimum entre deux sources;
- détermination (DiA_N) d'une matrice de mixage du signal somme en fonction des données adaptées et calcul d'une matrice de mixage inverse;
- dématriçage (N) du signal somme par la matrice de mixage inverse pour obtenir un ensemble de sources principales;
- reconstruction (SPAT.) du signal audio multicanal par spatialisation au moins des sources principales avec les données extraites décodées.
8. Procédé de décodage selon la revendication 7, caractérisé en ce qu'il comporte en outre les étapes suivantes:
- extraction du flux binaire, d'informations de codage de sources secondaires codées; - décodage des sources secondaires à partir des informations de codage extraites;
- regroupement des sources secondaires aux sources principales pour la spatialisation.
9. Codeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, caractérisé en ce qu'il comporte:
- un module (210) de décomposition du signal multicanal en bande de fréquence;
- un module (220) d'obtention de données représentatives de la direction des sources sonores de la scène sonore;
- un module (260) de sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
- un module (275) d'adaptation des données représentatives de la direction des sources principales sélectionnées, en fonction de caractéristiques de restitution du signal multicanal, par des moyens de modification de la position des sources pour obtenir un écartement minimum entre deux sources;
- un module (275) de détermination d'une matrice de mixage des sources principales en fonction des données issues du module d'adaptation;
- un module (270) de matriçage des sources principales sélectionnées par la matrice déterminée pour obtenir un signal somme avec un nombre réduit de canaux;
- un module (230) de codage des données représentatives de la direction des sources sonores; et
- un module (250) de formation d'un flux binaire comportant les données codées, le flux binaire étant apte à être transmis parallèlement au signal somme.
10. Décodeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, recevant en entrée un flux binaire et un signal somme, caractérisé en ce qu'il comporte:
- un module (650) d'extraction et de décodage de données représentatives de la direction des sources sonores dans la scène sonore;
- un module (690) d'adaptation d'au moins une partie des données de direction en fonction de caractéristiques de restitution du signal multicanal, par des moyens de modification de la position des sources obtenues par les données de direction, pour obtenir un écartement minimum entre deux sources; - un module (690) de détermination d'une matrice de mixage du signal somme en fonction des données issues du module d'adaptation et de calcul d'une matrice de mixage inverse;
- un module (620) de dématriçage du signal somme par la matrice de mixage inverse pour obtenir un ensemble de sources principales; - un module (630) de reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les données extraites décodées.
11. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage selon l'une des revendications 1 à 6 et/ou d'un procédé de décodage selon l'une des revendications 7 à 8, lorsque ces instructions sont exécutées par un processeur.
EP09803839.1A 2008-12-15 2009-12-11 Codage perfectionne de signaux audionumériques multicanaux Active EP2374124B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0858563 2008-12-15
PCT/FR2009/052492 WO2010076460A1 (fr) 2008-12-15 2009-12-11 Codage perfectionne de signaux audionumériques multicanaux

Publications (2)

Publication Number Publication Date
EP2374124A1 true EP2374124A1 (fr) 2011-10-12
EP2374124B1 EP2374124B1 (fr) 2013-05-29

Family

ID=40763760

Family Applications (1)

Application Number Title Priority Date Filing Date
EP09803839.1A Active EP2374124B1 (fr) 2008-12-15 2009-12-11 Codage perfectionne de signaux audionumériques multicanaux

Country Status (4)

Country Link
US (1) US8817991B2 (fr)
EP (1) EP2374124B1 (fr)
ES (1) ES2435792T3 (fr)
WO (1) WO2010076460A1 (fr)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011104463A1 (fr) * 2010-02-26 2011-09-01 France Telecom Compression de flux audio multicanal
EP2661746B1 (fr) * 2011-01-05 2018-08-01 Nokia Technologies Oy Codage et/ou décodage de multiples canaux
EP2770506A4 (fr) * 2011-10-19 2015-02-25 Panasonic Ip Corp America Dispositif de codage et procédé de codage
EP2665208A1 (fr) 2012-05-14 2013-11-20 Thomson Licensing Procédé et appareil de compression et de décompression d'une représentation de signaux d'ambiophonie d'ordre supérieur
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
PT2880654T (pt) * 2012-08-03 2017-12-07 Fraunhofer Ges Forschung Descodificador e método para um conceito paramétrico generalizado de codificação de objeto de áudio espacial para caixas de downmix/upmix multicanal
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9980074B2 (en) * 2013-05-29 2018-05-22 Qualcomm Incorporated Quantization step sizes for compression of spatial components of a sound field
US9338573B2 (en) 2013-07-30 2016-05-10 Dts, Inc. Matrix decoder with constant-power pairwise panning
JP6612753B2 (ja) * 2013-11-27 2019-11-27 ディーティーエス・インコーポレイテッド 高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
CN109036441B (zh) * 2014-03-24 2023-06-06 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
US9852737B2 (en) * 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9847087B2 (en) * 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
DK3007467T3 (da) * 2014-10-06 2017-11-27 Oticon As Høreapparat, der omfatter en lydkildeadskillelsesenhed med lav latenstid
CN106297820A (zh) 2015-05-14 2017-01-04 杜比实验室特许公司 具有基于迭代加权的源方向确定的音频源分离
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
MC200185B1 (fr) * 2016-09-16 2017-10-04 Coronal Audio Dispositif et procédé de captation et traitement d'un champ acoustique tridimensionnel
MC200186B1 (fr) 2016-09-30 2017-10-18 Coronal Encoding Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel
CN110114826B (zh) 2016-11-08 2023-09-05 弗劳恩霍夫应用研究促进协会 使用相位补偿对多声道信号进行下混合或上混合的装置和方法
FR3060830A1 (fr) * 2016-12-21 2018-06-22 Orange Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
KR102675420B1 (ko) 2018-04-05 2024-06-17 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 컴포트 노이즈 생성 지원
CN109258509B (zh) * 2018-11-16 2023-05-02 太原理工大学 一种生猪异常声音智能监测系统与方法
CN116978387A (zh) * 2019-07-02 2023-10-31 杜比国际公司 用于离散指向性数据的表示、编码和解码的方法、设备和系统
WO2021107941A1 (fr) * 2019-11-27 2021-06-03 Vitalchains Corporation Procédé et système de séparation de sons à partir de différentes sources

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101339854B1 (ko) 2006-03-15 2014-02-06 오렌지 주 성분 분석에 의해 다중채널 오디오 신호를 인코딩하기 위한 장치 및 방법
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2010076460A1 *

Also Published As

Publication number Publication date
ES2435792T3 (es) 2013-12-23
US8817991B2 (en) 2014-08-26
EP2374124B1 (fr) 2013-05-29
US20110249822A1 (en) 2011-10-13
WO2010076460A1 (fr) 2010-07-08

Similar Documents

Publication Publication Date Title
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2002424B1 (fr) Dispositif et procede de codage scalable d'un signal audio multi-canal selon une analyse en composante principale
EP2898707B1 (fr) Calibration optimisee d'un systeme de restitution sonore multi haut-parleurs
EP2691952B1 (fr) Allocation par sous-bandes de bits de quantification de paramètres d'information spatiale pour un codage paramétrique
EP2539892B1 (fr) Compression de flux audio multicanal
EP3427260B1 (fr) Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal
EP2304721B1 (fr) Synthese spatiale de signaux audio multicanaux
EP1600042B1 (fr) Procede de traitement de donnees sonores compressees, pour spatialisation
FR2966634A1 (fr) Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP2143102B1 (fr) Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
EP2168121B1 (fr) Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
WO2017103418A1 (fr) Traitement de réduction de canaux adaptatif pour le codage d'un signal audio multicanal
EP2489039A1 (fr) Codage/décodage paramétrique bas débit optimisé
FR3049084A1 (fr)
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
WO2024213555A1 (fr) Traitement optimisé de réduction de canaux d'un signal audio stéréophonique
EP2198425A1 (fr) Procede, module et programme d'ordinateur avec quantification en fonction des vecteurs de gerzon
WO2023232823A1 (fr) Titre: codage audio spatialisé avec adaptation d'un traitement de décorrélation
FR3112015A1 (fr) Codage optimisé d’une information représentative d’une image spatiale d’un signal audio multicanal
WO2009081002A1 (fr) Traitement d'un flux audio 3d en fonction d'un niveau de presence de composantes spatiales

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20110708

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
RIN1 Information on inventor provided before grant (corrected)

Inventor name: VIRETTE, DAVID

Inventor name: JAILLET, FLORENT

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 614840

Country of ref document: AT

Kind code of ref document: T

Effective date: 20130615

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602009016110

Country of ref document: DE

Effective date: 20130725

REG Reference to a national code

Ref country code: CH

Ref legal event code: PUE

Owner name: ORANGE, FR

Free format text: FORMER OWNER: FRANCE TELECOM, FR

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: ORANGE

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 614840

Country of ref document: AT

Kind code of ref document: T

Effective date: 20130529

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130830

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130829

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130929

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130930

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20130529

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130829

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2435792

Country of ref document: ES

Kind code of ref document: T3

Effective date: 20131223

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20140303

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602009016110

Country of ref document: DE

Effective date: 20140303

BERE Be: lapsed

Owner name: FRANCE TELECOM

Effective date: 20131231

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20131231

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20131231

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20131231

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20091211

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130529

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 7

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 8

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 9

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20221122

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20231121

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20231122

Year of fee payment: 15

Ref country code: DE

Payment date: 20231121

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20240102

Year of fee payment: 15