EP3427260B1 - Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal - Google Patents
Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal Download PDFInfo
- Publication number
- EP3427260B1 EP3427260B1 EP17713746.0A EP17713746A EP3427260B1 EP 3427260 B1 EP3427260 B1 EP 3427260B1 EP 17713746 A EP17713746 A EP 17713746A EP 3427260 B1 EP3427260 B1 EP 3427260B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- coding
- spatialization
- signal
- itd
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims description 60
- 238000012545 processing Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013139 quantization Methods 0.000 description 14
- 238000001228 spectrum Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 230000008447 perception Effects 0.000 description 6
- 208000029523 Interstitial Lung disease Diseases 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000004807 localization Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- LNEPOXFFQSENCJ-UHFFFAOYSA-N haloperidol Chemical compound C1CC(O)(C=2C=CC(Cl)=CC=2)CCN1CCCC(=O)C1=CC=C(F)C=C1 LNEPOXFFQSENCJ-UHFFFAOYSA-N 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Definitions
- the present invention relates to the field of encoding / decoding digital signals.
- the coding and decoding according to the invention is suitable in particular for the transmission and / or storage of digital signals such as audio-frequency signals (speech, music or others).
- the present invention relates to the parametric multichannel encoding and decoding of multichannel audio signals.
- the invention is therefore concerned with multichannel signals, and in particular with binaural signals which are sound signals recorded with microphones placed at the entrance to the duct of each ear (of a person or of a mannequin) or else synthesized. artificially through filters known as HRIR (Head-Related Impulse Response) filters in the time domain or HRTF (Head-Related Transfer Function) in the frequency domain, which are a function of the direction and distance of the sound source and morphology of the subject.
- HRIR Head-Related Impulse Response
- HRTF Head-Related Transfer Function
- a stereo signal is also made up of two channels, but in general it does not allow perfect reproduction of the sound scene in 3D.
- a stereo signal can be built by taking a given signal on the left channel and a zero signal on the right channel, listening such a signal will give a sound source location on the left but in a natural environment this artifice is not possible because the signal to the right ear is a filtered version (including a time shift and attenuation) of the signal to the left ear depending on the body type of the person.
- Parametric multichannel coding is based on the extraction and coding of parameters of spatial information so that in decoding these spatial characteristics can be used to recreate the same spatial image as in the original signal. Examples of codecs based on this principle can be found in the 3GPP e-AAC + or MPEG Surround standards.
- a parametric stereo encoding / decoding technique is for example described in the document of J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, entitled "Parametric Coding of Stereo Audio” in EURASIP Journal on Applied Signal Processing 2005: 9, pp. 1305-1322 . This example is repeated with reference to figures 1 and 2 describing respectively an encoder and a parametric stereo decoder.
- FIG 1 describes a stereo encoder receiving two audio channels, a left channel (denoted L for Left in English) and a right channel (denoted R for Right in English).
- the time signals L ( n ) and R ( n ), where n is the integer index of the samples, are processed by the blocks 101, 102, 103 and 104 which perform a short-term Fourier analysis.
- the transformed signals L [ k ] and R [ k ] , where k is the integer index of the frequency coefficients, are thus obtained.
- Spatial information parameter extraction is also performed in block 105.
- the extracted parameters are as follows.
- ITD InterChannel Time Difference
- the ICLD and ICPD parameters are extracted by analysis of the stereo signals, by block 105.
- the ICTD or ICC parameters can also be extracted by sub-band from the spectra L [ k ] and R [ k ]; however, their extraction is generally simplified by assuming an identical inter-channel time shift for each sub-band and in this case a parameter can be extracted from the time channels L ( n ) and R ( n ).
- the mono signal M [k] is transformed in the time domain (blocks 106 to 108) after short-term Fourier synthesis (inverse FFT, windowing and addition-overlap known as OverLap-Add or OLA in English) and a mono coding (block 109) is then carried out.
- the stereo parameters are quantized and coded in block 110.
- the spectrum of the signals ( L [ k ], R [ k ]) is divided according to a non-linear frequency scale of the ERB ( Equivalent Rectangular Bandwidth ) or Bark type.
- the parameters (ICLD, ICPD, ICC, ITD) are coded by scalar quantization possibly followed by entropy coding and / or differential coding.
- the ICLD is encoded by a non-uniform quantizer (ranging from -50 to +50 dB) with differential entropy coding.
- the non-uniform quantization step exploits the that the greater the value of the ICLD, the lower the hearing sensitivity to variations in this parameter.
- PCM Coded Pulse Modulation
- ADPCM Modulation by Coded Pulse Adaptive Differential
- CELP Code Excited Linear Prediction
- DTX discontinuous transmission mode
- SID frames SID Primary or SID AMR-WB IO
- the mono signal is decoded (block 201), a de-correlator is used (block 202) to produce two versions M ⁇ ( n ) and M ⁇ ' ( n ) of the decoded mono signal.
- This decorrelation necessary only when the ICC parameter is used, makes it possible to increase the spatial width of the mono source M ⁇ ( n ).
- These two signals M ⁇ ( n ) and M ⁇ ' ( n ) are passed into the frequency domain (blocks 203 to 206) and the decoded stereo parameters (block 207) are used by the stereo synthesis (or shaping) (block 208) to reconstruct the left and right channels in the frequency domain. These channels are finally reconstructed in the time domain (blocks 209 to 214).
- a parametric stereo codec developed with a specific mode for encoding binaural signals is given by the G.722 Annex D standard, in particular in the R1ws wideband stereo encoding mode at 56 + 8 kbit / s.
- This codec works with "short" frames of 5 ms according to 2 modes: a "transient” mode where ICLDs are coded on 38 bits and a "normal” mode where ICLDs are coded on 24 bits with a full band ITD / IPD on 5 bits.
- the details of estimating the ITD, coding of the ICLD and ITD parameters are not included here. It will be noted that the ICLDs are coded by “decimation” by distributing the coding of the ICLDs over several successive frames, by coding only a subset of the parameters of a given frame.
- This rate of approximately 7 kbit / s can be reduced on average by using variable rate entropy coding, for example Huffman coding; however, the flow reduction cannot be drastic in most cases.
- the encoder of the figure 1 is a stereo encoder operating for example at bit rates of 16.4, 24.4, 32, 48, 64, 96, 128 kbit / s and that it is based on a downmix encoded by a mono EVS codec, then for the lowest bit rates , for example 16.4 kbit / s in stereo, if the downmix is encoded with the 13.2 kbit / s mono EVS codec, only 3.2 kbit / s remains to encode all the spatial parameters in order to faithfully represent a spatial image. If it is necessary to encode not only ICLD parameters, but also other spatial parameters, it will be understood that the encoding of the ICLD parameters described above requires too much bit rate.
- the invention improves the state of the art.
- the method of encoding spatialization information is based on a model-based approach which makes it possible to approximate the spatial information.
- the coding of a plurality of spatial information is reduced to the coding of an angle parameter, which considerably reduces the coding rate compared with the direct coding of the spatial information.
- the bit rate required for coding this parameter is therefore reduced.
- the spatialization information is defined by frequency sub-bands of the multichannel audio signal and at least one angle parameter per sub-band is determined and coded.
- the method further comprises the steps of calculating reference spatialization information and coding this reference spatialization information.
- the encoding of reference information can improve the quality of decoding.
- the coding rate of this reference information does not require too high a rate.
- This method is particularly well suited to the coding of spatial information of the inter-channel time shift (ITD) type and / or of the inter-channel intensity difference (ILD) type.
- a model of representation by spatialization information is obtained. It can be fixed and stored in memory.
- This fixed and registered model is, for example, a sine-shaped model.
- This type of model is adapted to the form of the information ITD or ILD according to the position of the source.
- obtaining a model of representation of the spatialization information is performed by the selection from a table of models defined for different values of the spatialization information.
- the index of the chosen model can then be, in one embodiment, encoded and transmitted.
- a representation model common to several spatialization information items is obtained.
- this method based on the use of a model of representation of spatialization information makes it possible to find the information with good quality without it being necessary to have too high a bit rate. .
- a plurality of spatialization information is recovered by the decoding of a simple angle parameter.
- the method comprises a step of receiving and decoding a model table index and obtaining at least one model of representation of the spatialization information to be decoded from the decoded index.
- the encoder has the same advantages as the method which it implements.
- the decoder has the same advantages as the method which it implements.
- the invention relates to a computer program comprising code instructions for implementing the steps of a coding method according to the invention, when these instructions are executed by a processor, to a computer program comprising instructions code for implementing the steps of a decoding method according to the invention, when these instructions are executed by a processor.
- the invention finally relates to a storage medium readable by a processor on which is recorded a computer program comprising code instructions for the execution of the steps of the encoding method as described and / or of the decoding method as described.
- a two-channel parametric signal encoder according to one embodiment of the invention, delivering both a mono binary stream and spatial information parameters of the input signal is now described.
- This figure presents both the entities, hardware or software modules controlled by a processor of the coding device and the steps implemented by the coding method according to one embodiment of the invention.
- the encoder described in figure 3 will be called a "stereo encoder” even if it allows the encoding of binaural signals.
- the parameters ICLD, ICTD, ICPD will be respectively denoted ILD, ITD, IPD even if the signal is not binaural.
- This parametric stereo encoder uses EVS mono encoding according to 3GPP TS 26.442 (fixed point source code) or TS 26.443 (floating point source code) specifications, it works with stereo or multichannel signals sampled at frequency d.
- the invention applies equally to other types of mono coding (eg: IETF OPUS, UIT-T G.722) operating at identical sampling frequencies or not.
- Each time channel (L (n) and R (n)) sampled at 16 kHz is first pre-filtered by a high pass filter (HPF for High Pass Filter English) typically eliminating components below 50 Hz ( blocks 301 and 302).
- HPF High Pass Filter English
- This pre-filtering is optional, but it can be used to avoid DC bias in estimating parameters such as ICTD or ICC.
- the channels L ' ( n ) and R' ( n ) coming from the pre-filtering blocks are analyzed in frequencies by discrete Fourier transform with sinusoidal windowing with 50% overlap of length 40 ms or 640 samples (blocks 303 to 306) .
- the 40 ms analysis window covers the current frame and the future frame.
- the future frame corresponds to a “future” signal segment commonly called a “lookahead” of 20 ms.
- other windows could be used, for example an asymmetric window with low delay called “ALDO” in the EVS codec.
- the analysis windowing could be made adaptive according to the current frame, in order to use an analysis with a long window on stationary segments and an analysis with short windows on transient / non-transient segments. stationary, possibly with transition windows between long and short windows.
- the coefficients of index 0 ⁇ k ⁇ 160 are complex and correspond to a sub-band of width 25 Hz centered on the frequency of k.
- the L [ k ] and R [ k ] spectra are combined in block 307 to obtain a mono signal (downmix) M [k] in the frequency domain.
- This signal is time-converted by inverse FFT and windowing-overlap with the "lookahead" part of the previous frame (blocks 308 to 310).
- the phase of the L channel for each frequency sub-band is chosen as the reference phase
- R ' [ k ] is the aligned R channel
- k is the index of a coefficient in the b th frequency sub-band
- ICPD [ b ] is the inter-channel phase difference in the b th frequency sub-band given by equation (2).
- Alignment in phase therefore makes it possible to conserve energy and avoid attenuation problems by eliminating the influence of phase.
- the lookahead for the calculation of the mono signal (20 ms) and the mono encoding / decoding delay at which is added the delay T to align the mono synthesis (20 ms) correspond to an additional delay of 2 frames (40 ms) compared to the current frame.
- the shifted mono signal is then encoded (block 312) by the mono EVS encoder for example at a rate of 13.2, 16.4 or 24.4 kbit / s.
- the coding could be carried out directly on the non-shifted signal; in this case the shift can be performed after decoding.
- block 313 introduces a delay of two frames on the spectra L [ k ] , R [ k ] and M [k] in order to obtain the spectra L buf [ k ], R buf [ k ] and M buf [ k ] .
- the coding of the spatial information is implemented in the blocks 315 to 319 according to a coding method of the invention. Furthermore, the coding comprises an optional step of classifying the input signal in block 321.
- This classification block depending on the multichannel signal to be coded, can make it possible to switch from one coding mode to another.
- One of the coding modes being that implementing the invention for coding spatialization information.
- the other coding modes are not detailed here, but conventional stereo or multichannel coding techniques can be used, including parametric coding techniques with ILD, ITD, IPD, ICC parameters.
- the classification is indicated here with the time signals L and R at the input, possibly the signals in the frequency domain and the stereo or multichannel parameters can also be used for the classification.
- the classification can also be used to apply the invention to a given spatial parameter (for example to encode the ITD or the ILD), in other words, to switch the type of coding of spatial parameters with a possible choice between a coding method according to a model as in the invention or an alternative coding method of the state of the art.
- a given spatial parameter for example to encode the ITD or the ILD
- the spatial parameters are extracted (block 314) from the spectra L [ k ], R [ k ] and M [k] shifted by two frames: L buf [ k ] , R buf [ k ] and M buf [ k ] and coded (blocks 315 to 319) according to a coding method described with reference to figures 4a to 4c and detailing blocks 315 and 317.
- the spectra L buf [ k ] and R buf [ k ] are for example split into frequency sub-bands.
- the ITD and ICC parameters are extracted in the time domain (block 320).
- these parameters can be extracted in the frequency domain (block 314), which is not shown on the diagram. figure 3 so as not to weigh down the figure.
- An example of how to estimate the ITD in the frequency domain is given in standard ITU-T G.722 Annex D from the smoothed product L [ k ] .R ⁇ [ k ].
- the ITD and ICC parameters are estimated as follows.
- the ITD obtained according to equation (3) is then smoothed to attenuate its temporal variations.
- the advantage of smoothing is to attenuate the fluctuations of the instantaneous ITD which can degrade the quality of the spatial synthesis at the decoder.
- the smoothing method adopted goes beyond the scope of the invention and is not detailed here.
- the ICC is also calculated according to equation (4) defined above.
- the parameters or spatial information ILD and ITD are coded according to a method forming the subject of the invention and described with reference to figures 4a to 4c which detail blocks 315 and 317 of the figure 3 according to different embodiments of the invention.
- These blocks 315 and 317 implement methods based on models of respective representations of the information ITD and ILD.
- Certain parameters of the respective models obtained at the output of blocks 315 and 317 are then coded in 316 and 318, for example according to a scalar quantization method.
- All the spatialization information thus coded is multiplexed by the multiplexer 322 before being transmitted.
- FIG. 5a To the figure 5a is illustrated a median plane M, a frontal plane F and a horizontal plane H, relative to the head of a listener.
- Sound perception allows a 3D localization of a sound source, this localization is typically identified by spherical coordinates (r, ⁇ , ⁇ ) according to the figure 5b ; in the case of a stereo signal, the perception takes place on a horizontal plane and in this case polar coordinates ( r , ⁇ ) are sufficient to locate the source in 2D.
- a stereo signal only allows reproduction on a line between 2 loudspeakers on the horizontal plane, whereas a binaural signal normally allows 3D perception.
- the signal is considered to include a sound source located in the horizontal plane.
- the angle ⁇ is defined between the front axis 530 of the listener and the source axis 520.
- the two ears of the listener are represented in 550R for the right ear and in 550L for the left ear.
- the time offset information between the two channels of a binaural signal is associated with the interaural time difference, that is to say the time difference that a sound takes to reach both ears. If the source is directly in front of the listener, the wave reaches both ears at the same time and the ITD information is zero.
- This law is independent of the frequency, and it is known to give good results in terms of spatial localization.
- ITD max can for example correspond to 630 ⁇ s, which is the limit of perceptual separation between two pulses. For larger ITD values the subject will hear two different sounds and will not be able to interpret the sounds as a single sound source.
- the block 315 which receives inter-channel time shift information (ITD) by the extraction module 320, comprises a module 410 for obtaining a model of representation of the inter-channel time shift information.
- the ITD max value can be made flexible by coding either this value directly, or by coding the difference between this value and a predetermined value. This approach indeed makes it possible to extend the application of the ITD model to more general cases, but it has the drawback of requiring an additional throughput.
- block 412 appears in dotted lines at the end of the figure 4a .
- a module 411 for determining the angle ⁇ as defined above is implemented to obtain the angle defined by the sound source. More precisely, this module searches for the azimuth parameter ⁇ which makes it possible to get as close as possible to the extracted ITD.
- the asin function can be approximated.
- the values of ⁇ are discretized, for example with a step of 1 ° over the search interval.
- the angle parameter ⁇ determined in block 411 is then coded according to a conventional coding method, for example by scalar quantization on 4 bits by block 316.
- the number of bits allocated to the coding of the azimuth could be different, and the quantization levels could be non-uniform to take account of the perceptual limits of the location of a sound source according to the azimuth.
- this parameter which makes it possible to encode the time shift information ITD, possibly with the encoding of ITD max (block 412) as additional information if the value predetermined by the ITD model must be adapted.
- the spatialization information will therefore be found on decoding by decoding the angle parameter, possibly by decoding ITD max , and by applying the same model of representation of the ITD.
- the bit rate required for encoding this angle parameter is low (for example 4 bits per frame) when no correction of the ITD max value pre-defined in the model is encoded.
- the coding of this spatialization information (ITD) consumes little bit rate.
- the encoding of a single angle ⁇ can be implemented to encode the spatialization information of a binaural signal.
- an ITD per frequency band for example by taking a cut in B sub-bands defined above.
- an angle ⁇ per frequency band is coded and transmitted to the decoder, which for the example of B sub-bands gives B angles to be transmitted.
- the ITD estimate can be omitted for very low frequencies.
- a sub-band cutting with a resolution other than 25 Hz could be used; one will thus be able to regroup certain sub-bands because the cut in 1/3 octave or the ERB scale can be too fine for the coding of the ITD. This avoids coding too many angles per frame.
- the ITD is then converted to an angle as in the case of a single angle described above with a bit allocation which can be either fixed or variable depending on the importance of the sub- bandaged.
- vector quantization can be implemented in block 316.
- the figure 4b represents an alternative embodiment of the invention which can replace the mode described in figure 4a .
- the principle of this variant is to combine in particular the blocks 411 and 316 into a block 432.
- the model as defined for the inter-channel time shift (ITD) information may not be fixed and be configurable.
- Each model defines a set of ITD values as a function of an angle parameter: the sine law and Woodworth's law are two examples of models.
- N M is the number of models in the ITD model table
- N ⁇ ( m ) is the number of azimuth angles considered for the m- th model
- M ITD ( m , t ) corresponds to a precise value of ITD information.
- the angle index t corresponds in fact to an angle ⁇ covering the interval ] - ⁇ 2 , ⁇ 2 ] with a step of ⁇ 8 .
- the model M ITD ( m , t ) is implicitly a function of the azimuth angle, insofar as the index t in fact represents a quantization index of the angle ⁇ .
- the M ITD ( m , t ) model is an efficient way to combine the relationship between ITD and ⁇ , and the quantization of ⁇ on N ⁇ ( m ) levels, and potentially use several models (at least one), indexed by m opt when more than one model is used.
- m opt is then encoded on ⁇ log 2 N M ⁇ bits and transmitted to the decoder in addition to the azimuth angle t opt encoded on ⁇ log 2 N ⁇ ⁇ bits.
- t opt on 4 bits.
- the coding of a correction information of the value ITD max is optional, thus the block 312 is indicated in dotted lines.
- the budget of bits allocated to the coding of ITD max is zero, the value of ITD max pre-defined in the representation model of the ITD will therefore be taken.
- the representation model of the ITD could be generalized to be reduced only to the horizontal plane but also to include the elevation. In this case, two angles are determined, the azimuth angle ⁇ and the elevation angle ⁇ .
- block 316 of figure 4b can encode and multiplex in different ways with fixed or variable bit rate coding m opt , t opt , p opt and ITD max information only when these must be transmitted.
- Another sample model is based on the ORTF stereo microphone setup shown in figure 6b .
- the model defined in equation 35 applies not only to the case of a total (or global) ILD but also to the sub-band ILD; in this case the parameter ILD max (or a proportional version) will be dependent on the sub-band in the form ILD [ b ] max .
- the block 317 which receives an information of inter-channel intensity difference (ILD) by the extraction module 314, comprises a module 420 for obtaining a model of representation of the inter-channel intensity difference (ILD) information.
- This model is for example the model as defined above in equation (30) or with other models described in this document.
- the angle parameter ⁇ already defined in 411 is re-used at the decoder to find the global ILD or the ILD in sub-bands as defined by equation (30), (31) or (35); this makes it possible to “mutualize” the coding of the ITD and the ILD. If the ILD max value is not fixed, it is determined in 423 and coded.
- a module 421 for estimating inter-channel intensity difference information is implemented on the one hand from the angle parameter obtained by block 411 to encode the offset information.
- the module 422 calculates a residue of the ILD information, that is to say the difference between the actual inter-channel intensity difference (ILD) information extracted at 314 and the difference information of Inter-channel intensity (ILD) estimated at 421 from the ILD model.
- This residue can be encoded at 318 for example by a conventional scalar quantization method.
- the quantization table can for example be limited to a dynamic range of +/- 12 dB with a step of 3 dB.
- This ILD residue makes it possible to improve the quality of decoding of the ILD information in the case where the ILD model is too specific and only applies to the signal to be encoded in the current frame; it is recalled that a classification can optionally be used at the encoder to avoid such cases, however in the general case it may be useful to code an ILD residue.
- the coding of these parameters as well as that of the angle of the ITD makes it possible to find at the decoder the information on the inter-channel intensity difference (ILD) of the binaural audio signal with good quality.
- ILD inter-channel intensity difference
- the spatialization information (global or by sub-bands) will therefore be found on decoding by applying the same representation model and by decoding, if necessary, the residual and ILD parameters of reference.
- the bit rate required for encoding these parameters is lower than if the ILD information itself were encoded, in particular when the ILD residue does not have to be transmitted and when using the ILD max parameter (s) pre-defined in the ILD model (s).
- the coding of this spatialization information (ILD) can be bit rate consuming.
- the model of representation of the ILD is therefore extended to several sub-bands. This extension applies to the invention described in figure 4a , however the associated description is given below in the context of figure 4b to avoid too much redundancy.
- the model is a function of the angle ⁇ and possibly of the elevation; this model can be the same in all the sub-bands, or vary according to the sub-bands.
- N M is the number of models in the ILD model table
- N ⁇ ( m ) is the number of azimuth angles considered for the m - th model
- M ILD ( m , t ) corresponds to a precise value of the information ILD
- dist ( .,. ) is a criterion of distance between vectors of ILD.
- this search could be simplified by using the angle information already obtained in block 432 for the ITD model.
- FIG. 6c to 6g An example of a DLI model is shown in figures 6c to 6g for several frequency bands.
- the corresponding values (in dB) are not given here in the form of tables so as not to overload the text, approximate values can be taken from the graphs of the figures 6c to 6g .
- This figure considers the case of a 1/3 octave cut already defined previously.
- each figure represents the ILD for the frequency band defined by the third octave number defined in Table 1 above with a central frequency fc depending on the band.
- Each point marked with a circle on each sub-figure corresponds to a value M ILD ( m , t ); in addition to defining the table of ILD associated with the model, we have also shown the sine law scaled by a pre-defined parameter ILD max and depending on the sub-band.
- the representation model of the DLI could be generalized so as not to be reduced only to the horizontal plane but also to include the elevation.
- the multidimensional table M ILD ( m , t, p) can be seen as a directivity model brought back to the domain of the ILD.
- An index of the selected law m opt is then encoded and transmitted to the decoder at 318.
- an ILD residue can be calculated (blocks 421 and 422) and coded.
- M ITD ITD ( m , t, p ) and M ILD ( m , t, p )
- M ITD, ILD m , t, p
- ILD ILD
- the distance measure used for the search must combine the distance on the ITD and the distance on the ILD, however it is still possible to perform a separate search.
- an index of the selected law m opt , of the azimuth angle t opt and of the elevation angle p opt determined in 453, are coded in 331 and transmitted to the decoder, in the same way for the figures 4a and 4b , the parameters ITD max , ILD max and the residual ILD can be determined and coded.
- FIG 8 A variant of the encoder shown in figure 3 implementing the joint model of figure 4c is illustrated in the figure 8 . It will be noted that in this variant of the encoder, the ITD and ICC parameters are estimated in the block 314. In addition, we consider here the general case where IPD parameters are also extracted and coded in the block 332. The blocks 330 and 331 correspond to the blocks. indicated and detailed in figure 4c .
- This decoder comprises a demultiplexer 701 in which the coded mono signal is extracted to be decoded at 702 by a mono EVS decoder (according to the 3GPP TS 26.442 or TS 26.443 specifications) in this example.
- the part of the binary train corresponding to the mono EVS encoder is decoded according to the bit rate used at the encoder. It is assumed here that there is no loss of frames or of binary errors on the binary train to simplify the description, however known techniques for correcting the loss of frames can obviously be implemented in the decoder.
- the decoded mono signal corresponds to M ⁇ ( n ) in the absence of channel errors.
- a short-term discrete Fourier transform analysis with the same windowing as in the encoder is performed on M ⁇ ( n ) (blocks 703 and 704) to obtain the spectrum M ⁇ [ k ].
- a decorrelation in the frequency domain (block 720) is also applied. This decorrelation could also be applied in the time domain.
- synthesis block 708 it is for example possible to reconstruct a two-channel signal with the following processing on the decoded mono signal and transformed into frequencies:
- c 10 ILD [ b ] / 10 (with b the index of the sub-band containing the line of index k )
- vs 1 2 vs 1 + vs
- vs 2 2 1 + vs
- ITD is the decoded ITD for line k (if only one ITD is coded, this value is identical for the different lines of index k)
- NFFT is the length of the FFT and of the inverse FFT (blocks 704, 709, 712).
- the ICC parameter decoded in 718 can also be taken into account to recreate a non-localized sound environment (background noise) in order to improve the quality.
- the spectra L ⁇ [ k ] and R ⁇ [ k ] are thus calculated and then converted into the time domain by inverse FFT, windowing, addition and overlap (blocks 709 to 714) to obtain the synthesized channels L ⁇ ( n ) and R ⁇ ( n ) .
- the parameters which have been encoded to obtain the spatialization information are decoded in 705, 715 and 718.
- the angle parameter ⁇ which is decoded with possibly a value ITD max .
- the module 706 for obtaining a model of representation of an inter-channel time shift information item is implemented to obtain this model.
- this model can be defined by equation (15) defined above. So, from this model and the decoded angle parameter, it is possible for the module 707 to determine the inter-channel time shift (ITD) information of the multi-channel signal.
- inter-channel intensity difference (ILD) information are encoded, they are decoded by the module for decoding these parameters at 715, at the decoder.
- the module 716 for obtaining a model for representing information on the difference in inter-channel intensity is implemented in order to obtain this model.
- this model can be defined by equation (30) defined above.
- the encoder If at the encoder the coding parameters of the ILD have been broken down by frequency band, then these various parameters by frequency bands are decoded to define the ILD information by frequency or frequency bands.
- the decoder of the figure 7 is related to the encoder of the figure 4a . It will be understood that if the coding according to the invention is carried out according to the figures 4b or 4c , the decoder will be modified accordingly to decode in particular model and angle indices in the form m opt , t opt , p opt and reconstruct the values of ITD and ILD according to the model used and the associated indices to reconstruction values
- the decoder of the figure 7 is thus modified as illustrated in figure 9 .
- the decoded ILD and ITD parameters are not directly reconstructed.
- Stereo synthesis (block 708) is replaced by binaural synthesis (block 920).
- the decoding of the ILD and ITD information is reduced to a decoding (block 910) of the angular coordinates.
- HRTFs By using a predefined base of HRTFs (block 930) it is therefore possible to decode a binaural signal and not a stereo signal.
- the HRTFs filters can be applied in the time domain.
- the encoder presented with reference to figure 3 and the decoder presented with reference to figure 7 have been described in the particular case of stereo coding and decoding.
- the invention has been described on the basis of a decomposition of the stereo channels by discrete Fourier transform.
- the invention also applies to other complex representations, such as for example the MCLT decomposition (Modulated Complex Lapped Transform) combining a modified discrete cosine transform (MDCT) and discrete modified sine transform (MDST), as well as the case of Pseudo-Quadrature Mirror Filter (PQMF) type filter banks.
- MDCT modified discrete cosine transform
- MDST discrete modified sine transform
- PQMF Pseudo-Quadrature Mirror Filter
- Encoders and decoders as described with reference to figures 3 and 7 can be integrated into multimedia equipment such as living room decoder, "set top box” or audio or video content player. They can also be integrated into communication equipment of the mobile phone or communication gateway type.
- the figure 10 represents an exemplary embodiment of such equipment in which an encoder as described with reference to figures 3 , 8 and 4a to 4c or a decoder as described with reference to figure 7 or 9 , according to the invention is integrated.
- This device comprises a processor PROC cooperating with a memory block BM comprising a storage and / or working memory MEM.
- the memory block can advantageously comprise a computer program comprising code instructions for implementing the steps of the encoding method within the meaning of the invention, when these instructions are executed by the processor PROC, and in particular the steps of extracting a plurality of spatialization information from the multichannel signal, of obtaining at least one representation model of the extracted spatialization information, of determining at least one angle parameter. a model obtained and encoding of at least one angle parameter determined to encode the spatialization information extracted during the encoding of spatialization information.
- the memory block can advantageously comprise a computer program comprising code instructions for the implementation of the steps of the decoding method within the meaning of the invention, when these instructions are executed by the processor PROC, and in particular the steps of receiving and decoding at least one coded angle parameter, of obtaining at least one model of representation of spatialization information and of determining a plurality of spatialization information of the multichannel signal from the at least one model obtained and from the at least one decoded angle parameter.
- the memory MEM can store the model or models of representation of various spatialization information which are used in the encoding and decoding methods according to the invention.
- references to figures 3 , 4 on the one hand and 7 on the other hand repeat the steps of an algorithm of such a computer program respectively for the encoder and for the decoder.
- the computer program can also be stored on a memory medium readable by a reader of the device or equipment or downloadable in the memory space thereof.
- Such equipment as an encoder comprises an input module capable of receiving a multichannel signal, for example a binaural signal comprising the R and L channels for right and left, either by a communication network, or by reading stored content. on a storage medium.
- This multimedia equipment can also include means for capturing such a binaural signal.
- the device as an encoder comprises an output module capable of transmitting a mono signal M resulting from a channel reduction processing and at least an angle parameter ⁇ making it possible to apply a model for the representation of information of spatialization to find this spatial information. If necessary, other parameters such as the residual parameters of ILD, ILD or reference ITD (ILDmax or ITDmax) are also transmitted via the output module.
- Such equipment as a decoder comprises an input module capable of receiving a mono signal M coming from a channel reduction processing and at least one angle parameter ⁇ making it possible to apply an information representation model. spatialization to find this spatial information. If necessary, to find the spatialization information, other parameters such as the residual parameters of ILD, ILD or reference ITD (ILDmax or ITDmax) are also received via the input module E.
- the device as a decoder comprises an output module capable of transmitting a multichannel signal, for example a binaural signal comprising the R and L channels for right and left.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Description
La présente invention concerne le domaine du codage/décodage des signaux numériques.The present invention relates to the field of encoding / decoding digital signals.
Le codage et le décodage selon l'invention est adapté notamment pour la transmission et/ou le stockage de signaux numériques tels que des signaux audiofréquences (parole, musique ou autres).The coding and decoding according to the invention is suitable in particular for the transmission and / or storage of digital signals such as audio-frequency signals (speech, music or others).
Plus particulièrement, la présente invention se rapporte au codage et au décodage multicanal paramétrique de signaux audio multicanaux.More particularly, the present invention relates to the parametric multichannel encoding and decoding of multichannel audio signals.
L'invention s'intéresse donc aux signaux multicanaux, et en particulier aux signaux binauraux qui sont des signaux sonores enregistrés avec des microphones placés à l'entrée du conduit de chaque oreille (d'une personne ou d'un mannequin) ou bien synthétisés artificiellement par le biais de filtres connus sous le nom de filtres HRIR (Head-Related Impulse Response) dans le domaine temporel ou HRTF (Head-Related Transfer Function) dans le domaine fréquentiel, qui sont fonction de la direction et de la distance de la source sonore et de la morphologie du sujet. Les signaux binauraux sont associés à une écoute typiquement au casque ou oreillette et présentent l'avantage de représenter une image spatiale donnant l'illusion d'être naturellement au milieu d'une scène sonore; il s'agit donc d'une reproduction de la scène sonore en 3D avec seulement 2 canaux. On notera qu'il est possible d'écouter un son binaural sur des haut-parleurs moyennant des traitements complexes pour inverser les filtres HRIR/HRTF et reconstituer des signaux binauraux.The invention is therefore concerned with multichannel signals, and in particular with binaural signals which are sound signals recorded with microphones placed at the entrance to the duct of each ear (of a person or of a mannequin) or else synthesized. artificially through filters known as HRIR (Head-Related Impulse Response) filters in the time domain or HRTF (Head-Related Transfer Function) in the frequency domain, which are a function of the direction and distance of the sound source and morphology of the subject. Binaural signals are associated with listening typically through headphones or earphones and have the advantage of representing a spatial image giving the illusion of being naturally in the middle of a sound scene; it is therefore a reproduction of the soundstage in 3D with only 2 channels. It will be noted that it is possible to listen to binaural sound on loudspeakers by means of complex processing operations to invert the HRIR / HRTF filters and to reconstitute binaural signals.
On distingue ici les signaux binauraux des signaux stéréo. Un signal stéréo est aussi constitué de deux canaux mais il ne permet pas en général une reproduction parfaite de la scène sonore en 3D. Par exemple, un signal stéréo peut être construit en prenant un signal donné sur le canal gauche et un signal nul sur le canal droit, à l'écoute un tel signal donnera une localisation de source sonore sur la gauche mais dans un environnement naturel cet artifice n'est pas possible car le signal à l'oreille droite est une version filtrée (incluant un décalage temporel et une atténuation) du signal à l'oreille gauche en fonction de la morphologie de la personne.A distinction is made here between binaural signals and stereo signals. A stereo signal is also made up of two channels, but in general it does not allow perfect reproduction of the sound scene in 3D. For example, a stereo signal can be built by taking a given signal on the left channel and a zero signal on the right channel, listening such a signal will give a sound source location on the left but in a natural environment this artifice is not possible because the signal to the right ear is a filtered version (including a time shift and attenuation) of the signal to the left ear depending on the body type of the person.
Le codage multicanal paramétrique se base sur l'extraction et le codage de paramètres d'information spatiale afin qu'au décodage ces caractéristiques spatiales puissent être utilisées pour recréer la même image spatiale que dans le signal original. Des exemples de codecs basés sur ce principe se trouvent dans les standards 3GPP e-AAC+ ou MPEG Surround.Parametric multichannel coding is based on the extraction and coding of parameters of spatial information so that in decoding these spatial characteristics can be used to recreate the same spatial image as in the original signal. Examples of codecs based on this principle can be found in the 3GPP e-AAC + or MPEG Surround standards.
On considère ici à titre d'exemple le cas du codage stéréo paramétrique avec N=2 canaux, dans la mesure où sa description est plus simple que dans le cas de N>2 canaux.We consider here by way of example the case of parametric stereo coding with N = 2 channels, insofar as its description is simpler than in the case of N> 2 channels.
Une technique de codage/décodage stéréo paramétrique est par exemple décrite dans le document de
Ainsi, la
Les signaux temporels L(n) et R(n), où n est l'indice entier des échantillons, sont traités par les blocs 101, 102, 103 et 104 qui effectuent une analyse de Fourier court-terme. Les signaux transformés L[k] et R[k], où k est l'indice entier des coefficients fréquentiels, sont ainsi obtenus.The time signals L ( n ) and R ( n ), where n is the integer index of the samples, are processed by the
Le bloc 105 effectue un traitement de réduction de canaux ou "downmix" en anglais pour obtenir dans le domaine fréquentiel à partir des signaux gauche et droit, un signal monophonique ci-après nommé signal mono. Plusieurs techniques ont été développées pour le traitement de réduction des canaux ou "downmix" stéréo à mono. Ce "downmix" peut être effectué dans le domaine temporel ou fréquentiel. On distingue en général :
- Le "downmix" passif qui correspond à un matriçage direct des canaux stéréo pour les combiner en un seul signal - les coefficients de la matrice de downmix sont en général réels et de valeurs prédéterminées (fixes);
- Le "downmix" actif (adaptatif) qui inclut un contrôle de l'énergie et/ou de la phase en plus de la combinaison des deux canaux stéréo.
- The passive "downmix" which corresponds to a direct matrixing of the stereo channels to combine them into a single signal - the coefficients of the downmix matrix are generally real and of predetermined (fixed) values;
- The active (adaptive) downmix which includes energy and / or phase control in addition to the combination of the two stereo channels.
Une extraction de paramètres d'information spatiale est également effectuée dans le bloc 105. Les paramètres extraits sont les suivants.Spatial information parameter extraction is also performed in
Les paramètres ICLD ou ILD ou CLD (pour "InterChannel / Channel Level Difference" en anglais), encore appelés différences d'intensité intercanal, caractérisent les ratios d'énergie par sous-bande fréquentielle entre les canaux gauche et droit. Ces paramètres permettent de positionner des sources sonores dans le plan horizontal stéréo par "panning". Ils sont définis en dB par la formule suivante:
Les paramètres ICPD ou IPD (pour "InterChannel Phase Difference" en anglais), encore appelés différences de phase, sont définis suivant la relation suivante:
On peut également définir de façon équivalente à l'ICPD, un décalage temporel intercanal appelé ICTD ou ITD (pour "InterChannel Time Difference" en anglais). L'ITD peut être mesuré par exemple comme le retard maximisant l'intercorrélation entre L et R:
A la différence des paramètres ICLD, ICPD et ICTD qui sont des paramètres de localisation, le paramètre ICC (pour "InterChannel Coherence" en anglais) représente le niveau de corrélation (ou cohérence) inter-canal et est associé à la largeur spatiale d'une source sonore; l'ICC peut être défini comme :
Il est noté dans l'article de Breebart et al. que les paramètres ICC ne sont pas nécessaires dans les sous-bandes réduites à un seul coefficient fréquentiel - en effet les différences d'amplitude et de phase décrivent complètement la spatialisation dans ce cas "dégénéré".It is noted in the article by Breebart et al. that the ICC parameters are not necessary in the sub-bands reduced to a single frequency coefficient - indeed the amplitude and phase differences completely describe the spatialization in this "degenerate" case.
Les paramètres ICLD et ICPD sont extraits par analyse des signaux stéréo, par le bloc 105. Les paramètres ICTD ou ICC peuvent également être extraits par sous-bande à partir des spectres L[k] et R[k] ; cependant leur extraction est en général simplifiée en supposant un décalage temporel intercanal identique pour chaque sous-bande et dans ce cas un paramètre peut être extrait à partir des canaux temporels L(n) et R(n).The ICLD and ICPD parameters are extracted by analysis of the stereo signals, by
Le signal mono M[k] est transformé dans le domaine temporel (blocs 106 à 108) après synthèse de Fourier court-terme (FFT inverse, fenêtrage et addition-recouvrement dite OverLap-Add ou OLA en anglais) et un codage mono (bloc 109) est ensuite réalisé. En parallèle les paramètres stéréo sont quantifiés et codés dans le bloc 110.The mono signal M [k] is transformed in the time domain (
En général le spectre des signaux (L[k], R[k]) est divisé suivant une échelle fréquentielle non-linéaire de type ERB (Equivalent Rectangular Bandwidth) ou Bark. Les paramètres (ICLD, ICPD, ICC, ITD) sont codés par quantification scalaire éventuellement suivie d'un codage entropique et/ou d'un codage différentiel. Par exemple, dans l'article précédemment cité, l'ICLD est codée par un quantificateur non-uniforme (allant de -50 à +50 dB) avec codage entropique différentiel. Le pas de quantification non-uniforme exploite le fait que plus la valeur de l'ICLD est grande plus la sensibilité auditive aux variations de ce paramètre est faible.In general, the spectrum of the signals ( L [ k ], R [ k ]) is divided according to a non-linear frequency scale of the ERB ( Equivalent Rectangular Bandwidth ) or Bark type. The parameters (ICLD, ICPD, ICC, ITD) are coded by scalar quantization possibly followed by entropy coding and / or differential coding. For example, in the article cited above, the ICLD is encoded by a non-uniform quantizer (ranging from -50 to +50 dB) with differential entropy coding. The non-uniform quantization step exploits the that the greater the value of the ICLD, the lower the hearing sensitivity to variations in this parameter.
Pour le codage du signal mono (bloc 109), plusieurs techniques de quantification avec ou sans mémoire sont possibles, par exemple le codage à "Modulation par Impulsions Codées" (MIC), sa version avec prédiction adaptative dite "Modulation par Impulsions Codées Différentielle Adaptative" (MICDA) ou des techniques plus évoluées comme le codage perceptuel par transformée ou le codage "Code Excited Linear Prédiction" (CELP) ou un codage multi-modes.For the coding of the mono signal (block 109), several quantization techniques with or without memory are possible, for example coding with "Coded Pulse Modulation" (PCM), its version with adaptive prediction called "Modulation by Coded Pulse Adaptive Differential "(ADPCM) or more advanced techniques such as perceptual transform coding or" Code Excited Linear Prediction "(CELP) coding or multi-mode coding.
On s'intéresse ici plus particulièrement au standard 3GPP EVS (Pour « Enhanced Voice Services ») qui utilise un codage multi-modes. Les détails algorithmiques du codec EVS sont fournis dans les spécifications 3GPP TS 26.441 à 26.451 et ils ne sont donc pas repris ici. Par la suite, on fera référence à ces spécifications par la dénomination EVS.We are more particularly interested here in the 3GPP EVS standard (for “Enhanced Voice Services”) which uses multi-mode coding. Algorithmic details of the EVS codec are provided in 3GPP TS 26.441 to 26.451 specifications and are therefore not repeated here. Hereafter, these specifications will be referred to by the name EVS.
Le signal d'entrée du codec EVS (mono) est échantillonné à la fréquence de 8, 16, 32 ou 48 kHz et le codec peut représenter des bandes audio téléphoniques (narrowband, NB), élargie (wideband, WB), super-élargie (super-wideband, SWB) ou pleine bande (fullband, FB). Les débits du codec EVS sont divisés en deux modes:
- o "EVS Primary":
- o débits fixes: 7.2, 8, 9.6, 13.2, 16.4, 24.4, 32, 48, 64, 96, 128
- o mode à débit variable (VBR) avec un débit moyen proche de 5.9 kbit/s pour la parole active
- o mode "channel-aware" à 13.2 en WB et SWB uniquement
- o "EVS AMR-WB IO" dont les débits sont identiques au codec 3GPP AMR-WB (9 modes)
- o "EVS Primary":
- o fixed flow rates: 7.2, 8, 9.6, 13.2, 16.4, 24.4, 32, 48, 64, 96, 128
- o Variable bit rate mode (VBR) with an average bit rate close to 5.9 kbit / s for active speech
- o "channel-aware" mode at 13.2 in WB and SWB only
- o "EVS AMR-WB IO" whose bit rates are identical to the 3GPP AMR-WB codec (9 modes)
A cela s'ajoute le mode de transmission discontinue (DTX) dans lequel les trames détectées comme inactives sont remplacées par des trames SID (SID Primary ou SID AMR-WB IO) qui sont transmises de façon intermittente, environ une fois toutes les 8 trames.Added to this is the discontinuous transmission mode (DTX) in which the frames detected as inactive are replaced by SID frames (SID Primary or SID AMR-WB IO) which are transmitted intermittently, approximately once every 8 frames .
Au décodeur 200, en référence à la
Un exemple de codage stéréo paramétrique cherchant à représenter des signaux binauraux (sans respecter la nature des filtres HRTF) est décrit dans l'article de
Un autre exemple de codec stéréo paramétrique développé avec un mode spécifique pour coder des signaux binauraux est donné par la norme G.722 Annexe D, en particulier dans le mode de codage stéréo R1ws en bande élargie à 56+8 kbit/s. Ce codec fonctionne avec des trames "courtes" de 5 ms selon 2 modes: un mode "transitoire" où des ICLD sont codés sur 38 bits et un mode "normal" où des ICLD sont codés sur 24 bits avec un ITD /IPD pleine bande sur 5 bits. Les détails d'estimation de l'ITD, de codage des paramètres ICLD et ITD ne sont pas repris ici. On notera que les ICLD sont codés par « décimation » en distribuant le codage des ICLDs sur plusieurs trames successives, en ne codant qu'un sous-ensemble des paramètres d'une trame donnée.Another example of a parametric stereo codec developed with a specific mode for encoding binaural signals is given by the G.722 Annex D standard, in particular in the R1ws wideband stereo encoding mode at 56 + 8 kbit / s. This codec works with "short" frames of 5 ms according to 2 modes: a "transient" mode where ICLDs are coded on 38 bits and a "normal" mode where ICLDs are coded on 24 bits with a full band ITD / IPD on 5 bits. The details of estimating the ITD, coding of the ICLD and ITD parameters are not included here. It will be noted that the ICLDs are coded by “decimation” by distributing the coding of the ICLDs over several successive frames, by coding only a subset of the parameters of a given frame.
Dans les deux exemples il est important de noter qu'il ne s'agit pas de codecs binauraux, mais de codecs stéréo cherchant à reproduire une image spatiale similaire à un signal binaural.In both examples it is important to note that these are not binaural codecs, but stereo codecs seeking to reproduce a spatial image similar to a binaural signal.
On notera que le cas du codage multicanal paramétrique avec N>2 suit le même principe du cas N=2, cependant en général le downmix peut ne pas être mono mais stéréo et les paramètres inter-canaux doivent couvrir plus que 2 canaux. Un exemple de réalisation est donné dans le standard MPEG Surround où des paramètres ICLD, ICTD et ICC sont codés. On notera aussi que le décodeur MPEG Surround inclut une restitution binaurale, paramétrée par des filtres HRTFs.Note that the case of parametric multichannel coding with N> 2 follows the same principle of the N = 2 case, however in general the downmix may not be mono but stereo and the inter-channel parameters must cover more than 2 channels. An exemplary embodiment is given in the MPEG Surround standard where parameters ICLD, ICTD and ICC are coded. It will also be noted that the MPEG Surround decoder includes binaural restitution, parameterized by HRTFs filters.
Considérons à présent le cas d'un codage et décodage stéréo de paramètres de type ICLD tel que décrit aux
Selon l'état de l'art, le codage d'un bloc de 35 ICLD d'une trame donnée peut être réalisé par exemple avec:
- 5 bits pour le premier paramètre ICLD (codé en absolu),
- 4 bits pour les 32 paramètres ICLD suivants (codés en différentiel),
- 3 bits pour les 2 derniers paramètres ICLD (codés en différentiel).
- 5 bits for the first ICLD parameter (absolute coded),
- 4 bits for the following 32 ICLD parameters (differential coded),
- 3 bits for the last 2 ICLD parameters (differential coded).
Ce débit d'approximativement 7 kbit/s peut être réduit en moyenne en utilisant un codage entropique à débit variable, par exemple un codage de Huffman; cependant la réduction de débit ne pourra pas être drastique dans la plupart des cas.This rate of approximately 7 kbit / s can be reduced on average by using variable rate entropy coding, for example Huffman coding; however, the flow reduction cannot be drastic in most cases.
Pour diviser le débit du codage des paramètres ICLD par 2, il serait possible d'utiliser l'approche de codage alterné décrit précédemment dans le cas du codage G.722 stéréo. Cependant, le débit associé reste important pour un codage avec 35 sous-bandes et 20 ms de trame; de plus, la résolution temporelle du codage serait réduite ce qui peut être problématique dans le cas de signaux non stationnaires. Une autre approche consisterait à réduire le nombre de sous-bandes pour aller de 35 à par exemple 20 sous-bandes. Cela réduirait le débit associé aux paramètres ICLD, mais dégraderait en général la fidélité de l'image spatiale synthétisée.To divide the encoding rate of the ICLD parameters by 2, it would be possible to use the alternate encoding approach described previously in the case of G.722 stereo encoding. However, the associated bit rate remains high for coding with 35 sub-bands and 20 ms of frame; moreover, the temporal resolution of the coding would be reduced, which can be problematic in the case of non-stationary signals. Another approach would be to reduce the number of subbands from 35 to for example 20 subbands. This would reduce the throughput associated with the ICLD parameters, but would generally degrade the fidelity of the synthesized spatial image.
Si on suppose que le codeur de la
Il existe donc un besoin pour représenter les paramètres spatiaux d'un signal multicanal de façon efficace, à un débit aussi faible que possible et avec une qualité acceptable.There is therefore a need to represent the spatial parameters of a multichannel signal efficiently, at a bit rate as low as possible and with an acceptable quality.
L'invention vient améliorer la situation de l'état de l'art.The invention improves the state of the art.
A cet effet, elle propose un procédé de codage paramétrique d'un signal audionumérique multicanal comportant une étape de codage d'un signal issu d'un traitement de réduction de canaux appliqué au signal multicanal et de codage d'informations de spatialisation du signal multicanal. Le procédé est tel qu'il comporte les étapes suivantes :
- extraction d'une pluralité d'informations de spatialisation du signal multicanal d'au moins deux types ;
- obtention d'au moins un modèle de représentation des informations de spatialisation extraites ;
- détermination d'au moins un paramètre d'angle d'un modèle obtenu ;
- codage du au moins un paramètre d'angle déterminé pour coder les aux moins deux types d'informations de spatialisation extraites lors du codage d'informations de spatialisation.
- extracting a plurality of spatialization information from the multichannel signal of at least two types;
- obtaining at least one representation model of the extracted spatialization information;
- determination of at least one angle parameter of a model obtained;
- encoding of the at least one angle parameter determined to encode the at least two types of spatialization information extracted during the encoding of spatialization information.
La méthode de codage des informations de spatialisation s'appuie sur une approche basée modèle qui permet d'approximer les informations spatiales. Ainsi le codage d'une pluralité d'informations spatiales se réduit au codage d'un paramètre d'angle ce qui réduit considérablement le débit de codage par rapport au codage direct de l'information spatiale. Le débit nécessaire au codage de ce paramètre est donc réduit.The method of encoding spatialization information is based on a model-based approach which makes it possible to approximate the spatial information. Thus, the coding of a plurality of spatial information is reduced to the coding of an angle parameter, which considerably reduces the coding rate compared with the direct coding of the spatial information. The bit rate required for coding this parameter is therefore reduced.
Dans un mode particulier de réalisation en sous bandes, les informations de spatialisation sont définies par sous-bandes de fréquence du signal audio multicanal et au moins un paramètre d'angle par sous-bande est déterminé et codé.In a particular sub-band embodiment, the spatialization information is defined by frequency sub-bands of the multichannel audio signal and at least one angle parameter per sub-band is determined and coded.
Dans un mode de réalisation particulier, le procédé comporte en outre les étapes de calcul d'une information de spatialisation de référence et de codage de cette information de spatialisation de référence.In a particular embodiment, the method further comprises the steps of calculating reference spatialization information and coding this reference spatialization information.
Ainsi, le codage d'une information de référence peut améliorer la qualité de décodage. Le débit de codage de cette information de référence ne nécessite pas un débit trop important.Thus, the encoding of reference information can improve the quality of decoding. The coding rate of this reference information does not require too high a rate.
Cette méthode est particulièrement bien adaptée au codage de l'information spatiale de type décalage temporel intercanal (ITD) et/ou de type différence d'intensité intercanale (ILD).This method is particularly well suited to the coding of spatial information of the inter-channel time shift (ITD) type and / or of the inter-channel intensity difference (ILD) type.
Pour améliorer encore la qualité de décodage de l'information de type ILD, le procédé comporte en outre les étapes suivantes:
- estimation d'une information de différence d'intensité intercanale à partir du modèle obtenu et du paramètre d'angle déterminé ;
- codage de la différence entre l'information de différence d'intensité intercanale extraite et estimée.
- estimation of inter-channel intensity difference information on the basis of the model obtained and the determined angle parameter;
- coding of the difference between the extracted and estimated inter-channel intensity difference information.
Le codage de ce résidu nécessite un débit de codage supplémentaire mais cette méthode apporte toujours un gain en débit par rapport au codage direct de l'information de spatialisation ILD.The coding of this residue requires an additional coding rate but this method always brings a gain in rate compared to the direct coding of the spatialization information ILD.
Dans un mode particulier de réalisation, un modèle de représentation par information de spatialisation est obtenu. Il peut être fixé et stocké en mémoire.In a particular embodiment, a model of representation by spatialization information is obtained. It can be fixed and stored in memory.
Ce modèle fixé et enregistré est par exemple un modèle de forme en sinus. Ce type de modèle est adapté à la forme de l'information ITD ou ILD selon la position de la source.This fixed and registered model is, for example, a sine-shaped model. This type of model is adapted to the form of the information ITD or ILD according to the position of the source.
Dans une variante de réalisation, l'obtention d'un modèle de représentation des informations de spatialisation est effectuée par la sélection dans une table de modèles définis pour différentes valeurs des informations de spatialisation.In an alternative embodiment, obtaining a model of representation of the spatialization information is performed by the selection from a table of models defined for different values of the spatialization information.
Plusieurs modèles peuvent être sélectionnables en fonction de caractéristiques du signal multicanal. Cela permet d'adapter au mieux le modèle d'information de spatialisation au signal.Several models can be selectable depending on the characteristics of the multichannel signal. This makes it possible to best adapt the spatialization information model to the signal.
L'index du modèle choisi peut alors être dans un mode de réalisation, codé et transmise.The index of the chosen model can then be, in one embodiment, encoded and transmitted.
Dans une variante de réalisation un modèle de représentation commun à plusieurs informations de spatialisation est obtenu.In an alternative embodiment, a representation model common to several spatialization information items is obtained.
Cela permet de mutualiser la sélection d'un modèle à plusieurs informations de spatialisation, ce qui réduit les opérations de traitement à effectuer.This makes it possible to pool the selection of a model with several spatialization information, which reduces the processing operations to be carried out.
L'invention se rapporte également à un procédé de décodage paramétrique d'un signal audionumérique multicanal comportant une étape de décodage d'un signal issu d'un traitement de réduction de canaux appliqué au signal multicanal et codé et de décodage d'informations de spatialisation du signal multicanal. Le procédé est tel qu'il comporte les étapes suivantes pour décoder au moins une information de spatialisation :
- réception et décodage d'au moins un paramètre d'angle codé ;
- obtention d'au moins un modèle de représentation d'informations de spatialisation ;
- détermination d'une pluralité d'informations de spatialisation d'au moins deux types du signal multicanal à partir du au moins un modèle obtenu et du au moins un paramètre d'angle décodé.
- receiving and decoding at least one encoded angle parameter;
- obtaining at least one spatialization information representation model;
- determination of a plurality of spatialization information of at least two types of the multichannel signal on the basis of the at least one model obtained and of the at least one decoded angle parameter.
De la même façon que pour le codage, cette méthode basée sur l'utilisation d'un modèle de représentation des informations de spatialisation permet de retrouver l'information avec une bonne qualité sans qu'il ne soit nécessaire d'avoir un trop grand débit. A débit réduit, un epluralité d'informations de spatialisation est retrouvée par le décodage d'un simple paramètre d'angle.In the same way as for coding, this method based on the use of a model of representation of spatialization information makes it possible to find the information with good quality without it being necessary to have too high a bit rate. . At reduced bit rate, a plurality of spatialization information is recovered by the decoding of a simple angle parameter.
Dans un mode particulier de réalisation, le procédé comporte une étape de réception et de décodage d'un index de table de modèles et d'obtention du au moins un modèle de représentation des informations de spatialisation à décoder à partir de l'index décodé.In a particular embodiment, the method comprises a step of receiving and decoding a model table index and obtaining at least one model of representation of the spatialization information to be decoded from the decoded index.
Ainsi, il est possible d'adapter le modèle à utiliser selon les caractéristiques du signal multicanal.Thus, it is possible to adapt the model to be used according to the characteristics of the multichannel signal.
L'invention se rapporte à un codeur paramétrique d'un signal audionumérique multicanal comportant un module de codage d'un signal issu d'un module de traitement de réduction de canaux appliqué au signal multicanal et des modules de codage d'informations de spatialisation du signal multicanal. Le codeur est tel qu'il comporte :
- un module d'extraction d'une pluralité d'informations de spatialisation du signal multicanal d'au moins deux types ;
- un module d'obtention d'au moins un modèle de représentation des informations de spatialisation extraites ;
- un module de détermination d'au moins un paramètre d'angle d'un modèle obtenu ;
- un module de codage du au moins un paramètre d'angle déterminé pour coder les au moins deux types d'informations de spatialisation extraites lors du codage d'informations de spatialisation.
- a module for extracting a plurality of spatialization information from the multichannel signal of at least two types;
- a module for obtaining at least one model of representation of the extracted spatialization information;
- a module for determining at least one angle parameter of a model obtained;
- a module for encoding the at least one angle parameter determined to encode the at least two types of spatialization information extracted during the encoding of spatialization information.
Le codeur présente les mêmes avantages que le procédé qu'il met en œuvre.The encoder has the same advantages as the method which it implements.
L'invention se rapporte à un décodeur paramétrique d'un signal audionumérique multicanal comportant un module de décodage d'un signal issu d'un traitement de réduction de canaux appliqué au signal multicanal et codé et un module de décodage d'informations de spatialisation du signal multicanal. Le décodeur est tel qu'il comporte :
- un module de réception et décodage d'au moins un paramètre d'angle codé ;
- un module d'obtention d'au moins un modèle de représentation des informations de spatialisation ;
- un module de détermination d'une pluralité d'informations de spatialisation d'au moins deux types du signal multicanal à partir du au moins un modèle obtenu et du au moins un paramètre d'angle décodé.
- a module for receiving and decoding at least one coded angle parameter;
- a module for obtaining at least one model of representation of spatialization information;
- a module for determining a plurality of spatialization information of at least two types of the multichannel signal from the at least one model obtained and from the at least one decoded angle parameter.
Le décodeur présente les mêmes avantages que le procédé qu'il met en œuvre.The decoder has the same advantages as the method which it implements.
Enfin, l'invention se rapporte à un programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage selon l'invention, lorsque ces instructions sont exécutées par un processeur, à un programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de décodage selon l'invention, lorsque ces instructions sont exécutées par un processeur.Finally, the invention relates to a computer program comprising code instructions for implementing the steps of a coding method according to the invention, when these instructions are executed by a processor, to a computer program comprising instructions code for implementing the steps of a decoding method according to the invention, when these instructions are executed by a processor.
L'invention se rapporte enfin à support de stockage lisible par un processeur sur lequel est enregistré un programme informatique comprenant des instructions de code pour l'exécution des étapes du procédé de codage tel que décrit et /ou du procédé de décodage tel que décrit.The invention finally relates to a storage medium readable by a processor on which is recorded a computer program comprising code instructions for the execution of the steps of the encoding method as described and / or of the decoding method as described.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:
- la
figure 1 illustre un codeur mettant en œuvre un codage paramétrique connu de l'état de l'art et précédemment décrit; - la
figure 2 illustre un décodeur mettant en œuvre un décodage paramétrique connu de l'état de l'art et précédemment décrit; - la
figure 3 illustre un codeur paramétrique selon un mode de réalisation de l'invention; - les
figures 4a ,4b et4c illustrent les étapes du procédé de codage selon différents modes de réalisation de l'invention par une illustration détaillée des blocs de codage d'informations spatiales; - les
figures 5a, 5b illustrent les notions de perception sonore en 3D et 2D et lafigure 5c illustre une représentation schématique de coordonnées polaires (distance, azimuth) d'une source audio dans le plan horizontal par rapport à un auditeur, dans le cas binaural ; - la
figure 6a illustre des représentations de modèles d'énergie totale de HRTFs adaptés à représenter des informations spatiales de type ILD ; - la
figure 6b illustre une configuration de microphones stéréo de type ORTF captant un exemple de signal à deux canaux à coder selon un mode de réalisation du procédé de codage de l'invention ; - les
figures 6c à 6g illustrent des représentations d'un modèle d'information MILD(m,t) (pour m =0 et t correspondant à un azimuth de 0 à 360°) de spatialisation de type ILD par sous-bandes dans une découpe en 1/3 d'octave, en fonction de l'angle d'azimuth ;
- la
figure 8 illustre une variante de réalisation d'un codeur paramétrique selon l'invention; - la
figure 9 illustre une variante de réalisation d'un décodeur paramétrique selon l'invention ; et - la
figure 10 illustre un exemple matériel d'un équipement incorporant un codeur apte à mettre en œuvre le procédé de codage selon un mode de réalisation de l'invention ou un décodeur apte à mettre en œuvre le procédé de décodage selon un mode de réalisation de l'invention.
- the
figure 1 illustrates an encoder implementing a parametric encoding known from the state of the art and described above; - the
figure 2 illustrates a decoder implementing a parametric decoding known from the state of the art and described above; - the
figure 3 illustrates a parametric encoder according to one embodiment of the invention; - the
figures 4a ,4b and4c illustrate the steps of the coding method according to various embodiments of the invention with a detailed illustration of the spatial information coding blocks; - the
figures 5a, 5b illustrate the concepts of sound perception in 3D and 2D and thefigure 5c illustrates a schematic representation of polar coordinates (distance, azimuth) of an audio source in the horizontal plane relative to a listener, in the binaural case; - the
figure 6a illustrates representations of total energy models of HRTFs adapted to represent spatial information of ILD type; - the
figure 6b illustrates a configuration of ORTF type stereo microphones picking up an example of a two-channel signal to be encoded according to an embodiment of the encoding method of the invention; - the
figures 6c to 6g illustrate representations of an information model M ILD ( m, t ) (for m = 0 and t corresponding to an azimuth of 0 to 360 °) of spatialization of the ILD type by sub-bands in a cut in 1/3 octave, depending on the azimuth angle;
- the
figure 8 illustrates an alternative embodiment of a parametric encoder according to the invention; - the
figure 9 illustrates an alternative embodiment of a parametric decoder according to the invention; and - the
figure 10 illustrates a hardware example of equipment incorporating an encoder capable of implementing the coding method according to an embodiment of the invention or a decoder capable of implementing the decoding method according to an embodiment of the invention .
En référence à la
On décrit ici le cas d'un signal à deux canaux. L'invention s'applique également au cas d'un signal multicanal avec un nombre de canaux supérieur à 2.The case of a two-channel signal is described here. The invention also applies to the case of a multichannel signal with a number of channels greater than 2.
Pour éviter d'alourdir le texte, le codeur décrit à la
Ce codeur stéréo paramétrique tel qu'illustré utilise un codage mono EVS selon les spécifications 3GPP TS 26.442 (code source en virgule fixe) ou TS 26.443 (code source en virgule flottante), il fonctionne avec des signaux stéréo ou multicanaux échantillonnés à la fréquence d'échantillonnage Fs de 8, 16, 32 et 48 kHz, avec des trames de 20 ms. Par la suite, sans perte de généralité, la description est principalement donnée pour le cas Fs =16 kHz et pour le cas N=2 canaux.This parametric stereo encoder as illustrated uses EVS mono encoding according to 3GPP TS 26.442 (fixed point source code) or TS 26.443 (floating point source code) specifications, it works with stereo or multichannel signals sampled at frequency d. F s sampling of 8, 16, 32 and 48 kHz, with frames of 20 ms. Subsequently, without loss of generality, the description is mainly given for the case F s = 16 kHz and for the case N = 2 channels.
Il est à noter que le choix d'une longueur de trames de 20 ms n'est en aucun cas restrictif dans l'invention qui s'applique pareillement dans des variantes du mode de réalisation où la longueur de trames est différente, par exemple de 5 ou 10 ms, avec un autre codec qu'EVS.It should be noted that the choice of a frame length of 20 ms is in no way restrictive in the invention which applies similarly in variants of the embodiment where the frame length is different, for example from 5 or 10 ms, with a codec other than EVS.
Par ailleurs, l'invention s'applique pareillement à d'autres types de codage mono (ex : IETF OPUS, UIT-T G.722) opérant à des fréquences d'échantillonnage identiques ou non.Moreover, the invention applies equally to other types of mono coding (eg: IETF OPUS, UIT-T G.722) operating at identical sampling frequencies or not.
Chaque canal temporel (L(n) et R(n)) échantillonné à 16 kHz est d'abord pré-filtré par un filtre passe-haut (HPF pour High Pass Filter en anglais) éliminant typiquement les composantes en dessous de 50 Hz (blocs 301 et 302). Ce pré-filtrage est optionnel, mais il peut être utilisé pour éviter le biais dû à la composante continue (DC) dans l'estimation de paramètres comme l'ICTD ou l'ICC.Each time channel (L (n) and R (n)) sampled at 16 kHz is first pre-filtered by a high pass filter (HPF for High Pass Filter English) typically eliminating components below 50 Hz (
Les canaux L'(n) et R'(n) issus des blocs de pré-filtrage sont analysés en fréquences par transformée de Fourier discrète avec fenêtrage sinusoïdal à recouvrement de 50% de longueur 40 ms soit 640 échantillons (blocs 303 à 306). Pour chaque trame, le signal (L'(n), R'(n)) est donc pondéré par une fenêtre d'analyse symétrique couvrant 2 trames de 20 ms soit 40 ms (soit 640 échantillons pour Fs =16 kHz). La fenêtre d'analyse de 40 ms couvre la trame courante et la trame future. La trame future correspond à un segment de signal "futur" communément appelé "lookahead" de 20 ms. Dans des variantes de l'invention, d'autres fenêtres pourront être utilisées, par exemple une fenêtre asymétrique à bas retard appelée "ALDO" dans le codec EVS. De plus, dans des variantes, le fenêtrage d'analyse pourra être rendu adaptatif en fonction de la trame courante, afin d'utiliser une analyse avec une fenêtre longue sur des segments stationnaires et une analyse avec des fenêtres courtes sur des segments transitoires/non stationnaires, avec éventuellement des fenêtres de transition entre fenêtres longue et courte.The channels L ' ( n ) and R' ( n ) coming from the pre-filtering blocks are analyzed in frequencies by discrete Fourier transform with sinusoidal windowing with 50% overlap of length 40 ms or 640 samples (
Pour la trame courante de 320 échantillons (20 ms à Fs =16 kHz), les spectres obtenus, L[k] et R[k] (k=0...320), comprennent 321 coefficients complexes, avec une résolution de 25 Hz par coefficient fréquentiel. Le coefficient d'indice k=0 correspond à la composante continue (0 Hz), il est réel. Le coefficient d'indice k=320 correspond à la fréquence de Nyquist (8000 Hz pour Fs =16 kHz), il est aussi réel. Les coefficients d'indice 0 < k <160 sont complexes et correspondent à une sous-bande de largeur 25 Hz centrée sur la fréquence de k. For the current frame of 320 samples (20 ms at F s = 16 kHz), the spectra obtained, L [k] and R [k] (k = 0 ... 320), include 321 complex coefficients, with a resolution of 25 Hz by frequency coefficient. The coefficient of index k = 0 corresponds to the continuous component (0 Hz), it is real. The coefficient of index k = 320 corresponds to the Nyquist frequency (8000 Hz for F s = 16 kHz), it is also real. The coefficients of
Les spectres L[k] et R[k] sont combinés dans le bloc 307 pour obtenir un signal mono (downmix) M[k] dans le domaine fréquentiel. Ce signal est converti en temps par FFT inverse et fenêtrage-recouvrement avec la partie "lookahead" de la trame précédente (blocs 308 à 310).The L [ k ] and R [ k ] spectra are combined in
Un exemple de technique de « downmix » fréquentiel est décrit dans le document intitulé "
Plus précisément, la phase du canal L pour chaque sous-bande fréquentielle est choisie comme la phase de référence, le canal R est aligné selon la phase du canal L pour chaque sous-bande par la formule suivante:
A noter que lorsque la sous-bande d'indice b est réduite à un coefficient fréquentiel, on trouve:
Finalement le signal mono obtenu par le "downmix" du document de Samsudin et al. cité précédemment est calculé en moyennant le canal L et le canal R' aligné, selon l'équation suivante:
L'alignement en phase permet donc de conserver l'énergie et d'éviter les problèmes d'atténuation en éliminant l'influence de la phase. Ce "downmix" correspond au "downmix" décrit dans le document de Breebart et al. où:
D'autres méthodes de « downmix » peuvent bien sûr être choisies sans modifier la portée de l'invention.Other “downmix” methods can of course be chosen without modifying the scope of the invention.
Le retard algorithmique du codec EVS est de 30,9375 ms à Fs =8 kHz et 32 ms pour les autres fréquences Fs =16, 32 ou 48 kHz. Ce retard inclut la trame courante de 20 ms, le retard supplémentaire par rapport à la longueur de trame est donc de 10,9375 ms à Fs =8 kHz et 12 ms pour les autres fréquences (soit 192 échantillons à Fs =16 kHz), le signal mono est retardé (bloc 311) de T= 320-192= 128 échantillons pour que le retard accumulé entre le signal mono décodé par EVS et les canaux stéréo originaux devienne un multiple de la longueur de trames (320 échantillons). Par suite, pour synchroniser l'extraction de paramètres stéréo (bloc 314) et la synthèse spatiale à partir du signal mono effectué au décodeur, le lookahead pour le calcul du signal mono (20 ms) et le retard de codage/décodage mono auquel est ajouté le retard T pour aligner la synthèse mono (20 ms) correspondent à un retard supplémentaire de 2 trames (40 ms) par rapport à la trame courante. Ce retard de 2 trames est spécifique à la mise en œuvre détaillée ici, en particulier il est lié aux fenêtres symétriques sinusoïdales de 20 ms. Ce retard pourrait être différent. Dans une variante de réalisation, on pourrait obtenir un retard d'une trame avec une fenêtre optimisée avec un recouvrement plus faible entre fenêtres adjacentes avec un bloc 311 n'introduisant pas de retard (T=0).The algorithmic delay of the EVS codec is 30.9375 ms at F s = 8 kHz and 32 ms for the other frequencies F s = 16, 32 or 48 kHz. This delay includes the current 20 ms frame, the additional delay compared to the frame length is therefore 10.9375 ms at F s = 8 kHz and 12 ms for the other frequencies ( i.e. 192 samples at F s = 16 kHz), the mono signal is delayed (block 311) of T = 320-192 = 128 samples so that the delay accumulated between the mono signal decoded by EVS and the original stereo channels becomes a multiple of the frame length (320 samples). Consequently, to synchronize the extraction of stereo parameters (block 314) and the spatial synthesis from the mono signal performed at the decoder, the lookahead for the calculation of the mono signal (20 ms) and the mono encoding / decoding delay at which is added the delay T to align the mono synthesis (20 ms) correspond to an additional delay of 2 frames (40 ms) compared to the current frame. This delay of 2 frames is specific to the implementation detailed here, in particular it is related to the symmetrical sinusoidal windows of 20 ms. This delay could be different. In an alternative embodiment, one could obtain a delay of one frame with an optimized window with a lower overlap between adjacent windows with a
Le signal mono décalé est ensuite codé (bloc 312) par le codeur EVS mono par exemple à un débit de 13,2, 16,4 ou 24,4 kbit/s. Dans des variantes, le codage pourra être effectué directement sur le signal non décalé ; dans ce cas le décalage pourra être effectué après décodage.The shifted mono signal is then encoded (block 312) by the mono EVS encoder for example at a rate of 13.2, 16.4 or 24.4 kbit / s. In variants, the coding could be carried out directly on the non-shifted signal; in this case the shift can be performed after decoding.
On considère dans un mode particulier de réalisation de l'invention, illustré ici à la
On pourrait de façon plus avantageuse en termes de quantité de données à stocker, décaler les sorties du bloc 314 d'extraction des paramètres ou encore les sorties des blocs de quantification 318, 316 et 319. On pourrait également introduire ce décalage au décodeur à la réception du train binaire du codeur stéréo.In terms of the quantity of data to be stored, one could more advantageously shift the outputs of the
Parallèlement au codage mono, le codage de l'information spatiale est mis en œuvre dans les blocs 315 à 319 selon un procédé de codage de l'invention. Par ailleurs, le codage comprend une étape optionnelle de classification du signal d'entrée dans le bloc 321.In parallel with the mono coding, the coding of the spatial information is implemented in the
Ce bloc de classification, selon le signal multicanal à coder peut permettre de passer d'un mode de codage à un autre. Un des modes de codage étant celui mettant en œuvre l'invention pour le codage des informations de spatialisation. Les autres modes de codage ne sont pas détaillés ici, mais on pourra utiliser des techniques classiques de codage stéréo ou multicanal dont des techniques de codage paramétrique avec des paramètres ILD, ITD, IPD, ICC. La classification est ici indiquée avec les signaux temporels L et R en entrée, éventuellement les signaux dans le domaine fréquentiel et les paramètres stéréo ou multicanal pourront aussi servir à la classification. On pourra également utiliser la classification pour appliquer l'invention à un paramètre spatial donné (par exemple pour coder l'ITD ou l'ILD), autrement dit pour commuter le type de codage de paramètres spatiaux avec un choix possible entre une méthode de codage selon un modèle comme dans l'invention ou une méthode de codage alternative de l'état de l'art.This classification block, depending on the multichannel signal to be coded, can make it possible to switch from one coding mode to another. One of the coding modes being that implementing the invention for coding spatialization information. The other coding modes are not detailed here, but conventional stereo or multichannel coding techniques can be used, including parametric coding techniques with ILD, ITD, IPD, ICC parameters. The classification is indicated here with the time signals L and R at the input, possibly the signals in the frequency domain and the stereo or multichannel parameters can also be used for the classification. The classification can also be used to apply the invention to a given spatial parameter (for example to encode the ITD or the ILD), in other words, to switch the type of coding of spatial parameters with a possible choice between a coding method according to a model as in the invention or an alternative coding method of the state of the art.
Les paramètres spatiaux sont extraits (bloc 314) à partir des spectres L[k], R[k] et M[k] décalés de deux trames: Lbuf [k], Rbuf [k] et Mbuf [k] et codés (blocs 315 à 319) selon un procédé de codage décrit en référence aux
Pour l'extraction des paramètres ILD (bloc 314), les spectres Lbuf [k] et Rbuf [k] sont par exemple découpés en sous-bandes de fréquences.For the extraction of the ILD parameters (block 314), the spectra L buf [ k ] and R buf [ k ] are for example split into frequency sub-bands.
Dans un mode de réalisation, on prendra une découpe en sous-bandes en 1/3 d'octave définie au tableau 1 ci-dessous :
Ce tableau couvre tous les cas de fréquence d'échantillonnage, par exemple pour un codeur avec une fréquence d'échantillonnage à 16kHz on retiendra uniquement les B=20 premières sous-bandes. Ainsi, on pourra définir le tableau :
Le tableau ci-dessus délimite (en indice de raies de Fourier) les sous-bandes fréquentielles d'indice b = 0 à B-1 pour le cas Fs =16 kHz. Chaque sous-bande d'indice b comprend les coefficients kb =0 à k b+1 - 1. La raie fréquentielle d'indice k =320 qui correspond à la fréquence de Nyquist n'est pas prise en compte ici.The above table defines (in Fourier line index) the frequency sub-bands with index b = 0 to B-1 for the case F s = 16 kHz. Each sub-band of index b comprises the coefficients k b = 0 to k b +1 - 1. The frequency line of index k = 320 which corresponds to the Nyquist frequency is not taken into account here.
Dans des variantes, on pourra utiliser une autre découpe en sous-bandes, par exemple selon l'échelle ERB ; dans ce cas, on pourra utiliser B=35 sous-bandes, celles-ci sont définies par les frontières suivantes dans le cas où le signal d'entrée est échantillonné à 16 kHz:
Le tableau ci-dessus délimite (en indice de raies de Fourier) les sous-bandes fréquentielles d'indice b = 0 à B-1. Par exemple la première sous-bande (b=0) va du coefficient kb =0 à k b+1 - 1 = 0; elle est donc réduite à un seul coefficient qui représente 25 Hz. De même, la dernière sous-bande (k=34) va du coefficient kb =307 à k b+1 - 1 = 319, elle comprend 12 coefficients (300 Hz). La raie fréquentielle d'indice k =320 qui correspond à la fréquence de Nyquist n'est pas prise en compte ici.The above table defines (in Fourier line index) the frequency sub-bands with index b = 0 to B-1. For example the first sub-band ( b = 0) goes from the coefficient k b = 0 to k b +1 - 1 = 0; it is therefore reduced to a single coefficient which represents 25 Hz. Similarly, the last sub-band ( k = 34) goes from the coefficient k b = 307 to k b +1 - 1 = 319, it includes 12 coefficients (300 Hz ). The frequency line of index k = 320 which corresponds to the Nyquist frequency is not taken into account here.
Pour chaque trame, l'ILD de la sous-bande b=0,...,B-1 est calculée suivant les équations (5) et (6) reprises ici:
Selon un mode de réalisation particulier, les paramètres ITD et ICC sont extraits dans le domaine temporel (bloc 320). Dans des variantes de l'invention ces paramètres pourront être extraits dans le domaine fréquentiel (bloc 314), ce qui n'est pas représenté sur la
Dans un mode de réalisation les paramètres ITD et ICC sont estimés de la façon suivante. L'ITD est recherché par intercorrélation selon l'équation (3) reprise ici :
L'ITD obtenu selon l'équation (3) est ensuite lissé pour atténuer ses variations temporelles. L'intérêt du lissage est d'atténuer les fluctuations de l'ITD instantané qui peuvent dégrader la qualité de la synthèse spatiale au décodeur. La méthode de lissage retenue dépasse le cadre de l'invention et elle n'est pas détaillée ici.The ITD obtained according to equation (3) is then smoothed to attenuate its temporal variations. The advantage of smoothing is to attenuate the fluctuations of the instantaneous ITD which can degrade the quality of the spatial synthesis at the decoder. The smoothing method adopted goes beyond the scope of the invention and is not detailed here.
Lors du calcul de l'ITD on calcule aussi l'ICC selon l'équation (4) définie ci-avant.When calculating the ITD, the ICC is also calculated according to equation (4) defined above.
Les paramètres ou informations spatiales ILD et ITD sont codés selon une méthode faisant l'objet de l'invention et décrite en référence aux
Ces blocs 315 et 317 mettent en œuvre des méthodes basées sur des modèles de représentations respectives des informations ITD et ILD.These
Certains paramètres des modèles respectifs obtenus à la sortie des blocs 315 et 317 sont ensuite codés en 316 et 318 par exemple selon une méthode de quantification scalaire.Certain parameters of the respective models obtained at the output of
Toutes les informations de spatialisation ainsi codées sont multiplexées par le multiplexeur 322 avant d'être transmises.All the spatialization information thus coded is multiplexed by the
On rappelle aux
Dans un mode de réalisation on considère que le signal comprend une source sonore située dans le plan horizontal.In one embodiment, the signal is considered to include a sound source located in the horizontal plane.
Dans le cas d'un signal binaural, il peut être utile de définir la position d'une source virtuelle associée au signal multicanal à coder. Comme illustré à la
L'angle θ est défini entre l'axe frontal 530 de l'auditeur et l'axe de la source 520. Les deux oreilles de l'auditeur sont représentées en 550R pour l'oreille droite et en 550L pour l'oreille gauche. L'information de décalage temporel entre les deux canaux d'un signal binaural est associée avec la différence interaurale de temps, c'est-à-dire la différence de temps que met un son à arriver aux deux oreilles. Si la source est directement devant l'auditeur, l'onde arrive au même moment aux deux oreilles et l'information d'ITD est nulle.The angle θ is defined between the front axis 530 of the listener and the
La différence interaurale de temps (ITD) peut être simplifiée en utilisant une approximation géométrique sous la forme de la loi en sinus suivante:
Une source sonore virtuelle peut donc être localisée avec un angle θ et l'information ITD peut être déduite par la formule suivante:
La valeur donnée à ITDmax peut par exemple correspondre à 630 µs, qui est la limite de séparation perceptuelle entre deux impulsions. Pour des valeurs d'ITD plus grandes le sujet entendra deux sons différents et ne pourra pas interpréter les sons comme une seule source sonore.The value given to ITD max can for example correspond to 630 μs, which is the limit of perceptual separation between two pulses. For larger ITD values the subject will hear two different sounds and will not be able to interpret the sounds as a single sound source.
Dans des variantes de l'invention la loi en sinus pourra être remplacée par le modèle d'ITD de Woodworth défini dans l'ouvrage de
Dans des variantes, il serait possible de définir un facteur multiplicatif qui ne représente pas la valeur maximale de l'ITD mais une valeur proportionnelle par exemple le facteur a/c. L'invention s'applique également dans ce cas. Par exemple, pour simplifier l'expression de la loi de Woodworth il est possible d'écrire :
Dans ce cas la valeur de ITDmax ne représente pas la valeur maximale de l'ITD. Par la suite, cet « écart de notation » sera utilisé.In this case the value of ITD max does not represent the maximum value of ITD. Subsequently, this “rating gap” will be used.
Ainsi, en référence à la
Ce modèle est par exemple le modèle tel que défini ci-dessus à l'équation (15) avec un valeur ITDmax =630µs prédéfinie dans le modèle ou le modèle de l'équation (20).This model is for example the model as defined above in equation (15) with a value ITD max = 630 μs predefined in the model or the model of equation (20).
Dans des variantes, la valeur ITDmax pourra être rendue flexible en codant soit cette valeur directement, soit en codant la différence entre cette valeur et une valeur pré-déterminée. Cette approche permet en effet d'étendre l'application du modèle d'ITD à des cas plus généraux, mais elle a pour inconvénient de nécessiter un débit supplémentaire. Pour indiquer que le codage explicite de la valeur ITDmax est optionnelle, le bloc 412 apparaît en pointillés à la
Un module 411 de détermination de l'angle θ tel que défini ci-dessus est mis en œuvre pour obtenir l'angle défini par la source sonore. Plus précisément ce module recherche le paramètre d'azimuth θ qui permet de s'approcher au plus près de l'ITD extrait. Quand la loi est connue comme à l'équation (15), cet angle peut être obtenu de façon analytique :
Dans des variantes, la fonction asin pourra être approximée.In variants, the asin function can be approximated.
Une approche équivalente pour déterminer l'azimuth peut être mise en œuvre dans le bloc 411. Selon cette approche, la détermination de l'angle θ pour la loi en sinus fait appel à une recherche à l'aide du modèle d'ITD, de la valeur la plus proche en fonction des valeurs possibles d'azimuth:
Cette recherche peut être effectuée en pré-stockant les différentes valeurs candidates de ITDmax.sin(θ) issues du modèle d'ITD dans une table MITD pour un intervalle de recherche qui peut être T = [-π/2,π/2] en supposant que l'ITD est symétrique lorsque la source est devant ou derrière le sujet. Dans ce cas, les valeurs de θ sont discrétisées, par exemple avec un pas de 1° sur l'intervalle de recherche.This search can be performed by pre-storing the different candidate values of ITD max .sin ( θ ) from the ITD model in an M ITD table for a search interval which can be T = [- π / 2, π / 2] assuming ITD is symmetrical when the source is in front of or behind the subject. In this case, the values of θ are discretized, for example with a step of 1 ° over the search interval.
Dans le cas de la loi de Woodworth, on peut également suivre la même approche que ci-dessus pour la loi en sinus. L'expression analytique de la fonction inverse de sin(θ) + θ n'étant pas triviale, on pourra préférer la recherche :
Le paramètre d'angle θ déterminé dans le bloc 411 est ensuite codé selon une méthode de codage classique par exemple par quantification scalaire sur 4 bits par le bloc 316. Ce bloc réalise une recherche de l'indice de quantification
Dans des variantes, le nombre de bits alloué au codage de l'azimuth pourra être différent, et les niveaux de quantification pourront être non uniformes pour tenir compte des limites perceptuelles de la localisation d'une source sonore selon l'azimuth.In variants, the number of bits allocated to the coding of the azimuth could be different, and the quantization levels could be non-uniform to take account of the perceptual limits of the location of a sound source according to the azimuth.
C'est le codage de ce paramètre qui permet de coder l'information de décalage temporel ITD, avec éventuellement le codage de ITDmax (bloc 412) comme information supplémentaire si la valeur pré-déterminée par le modèle d'ITD doit être adaptée. L'information de spatialisation sera donc retrouvée au décodage en décodant le paramètre d'angle, éventuellement en décodant ITDmax, et en appliquant le même modèle de représentation de l'ITD. Le débit nécessaire au codage de ce paramètre d'angle est faible (par exemple 4 bits par trame) lorsqu'aucune correction de la valeur ITDmax pré-définie dans le modèle n'est codée. Ainsi, le codage de cette information de spatialisation (ITD) est peu consommateur en débit.It is the encoding of this parameter which makes it possible to encode the time shift information ITD, possibly with the encoding of ITD max (block 412) as additional information if the value predetermined by the ITD model must be adapted. The spatialization information will therefore be found on decoding by decoding the angle parameter, possibly by decoding ITD max , and by applying the same model of representation of the ITD. The bit rate required for encoding this angle parameter is low (for example 4 bits per frame) when no correction of the ITD max value pre-defined in the model is encoded. Thus, the coding of this spatialization information (ITD) consumes little bit rate.
A très bas débit, le codage d'un seul angle θ peut être mis en œuvre pour coder l'information de spatialisation d'un signal binaural.At very low bit rate, the encoding of a single angle θ can be implemented to encode the spatialization information of a binaural signal.
Dans une variante de réalisation, on pourra estimer un ITD par bande de fréquences, par exemple en prenant une découpe en B sous-bandes définie précédemment. Dans ce cas, un angle θ par bande de fréquence est codé et transmis au décodeur, ce qui pour l'exemple de B sous-bandes donne B angles à transmettre.In an alternative embodiment, it is possible to estimate an ITD per frequency band, for example by taking a cut in B sub-bands defined above. In this case, an angle θ per frequency band is coded and transmitted to the decoder, which for the example of B sub-bands gives B angles to be transmitted.
Dans une autre variante, on pourra ignorer l'estimation de l'ITD pour certaines bandes de fréquences hautes pour lesquelles les différences de phases ne sont pas perceptibles. De même, on pourra omettre l'estimation de l'ITD pour des très basses fréquences. Par exemple, l'ITD pourra ne pas être estimé pour les bandes supérieures à 1 kHz, et pour une découpe en sous-bande comme définie précédemment on pourra retenir les bandes b = 0 à 11 dans le mode de réalisation utilisant le 1/3 d'octave et 1 à 16 dans les variantes utilisant l'échelle ERB (la première bande b =0 étant omise dans ce dernier cas car il s'agit de fréquences inférieures à 25 Hz). Dans des variantes de l'invention, une découpe en sous-bande avec une résolution différente de 25 Hz pourra être utilisée ; on pourra ainsi regrouper certaines sous-bandes car la découpe en 1/3 d'octave ou l'échelle ERB peut être trop fine pour le codage de l'ITD. Ceci évite de coder trop d'angles par trame. Pour chaque bande fréquentielle, l'ITD est ensuite converti en un angle comme dans le cas d'un angle unique décrit ci-dessus avec une allocation de bits qui peut être soit fixe, soit variable en fonction de l'importance de la sous-bande. Dans toutes ces variantes où plusieurs angles sont déterminés et codés, une quantification vectorielle pourra être mise en œuvre dans le bloc 316.In another variant, it is possible to ignore the estimate of the ITD for certain high frequency bands for which the phase differences are not perceptible. Likewise, the ITD estimate can be omitted for very low frequencies. For example, the ITD could not be estimated for the bands greater than 1 kHz, and for a sub-band cut as defined previously, the bands b = 0 to 11 could be retained in the embodiment using the 1/3 octave and 1 to 16 in the variants using the ERB scale (the first band b = 0 being omitted in the latter case because these are frequencies below 25 Hz). In variants of the invention, a sub-band cutting with a resolution other than 25 Hz could be used; one will thus be able to regroup certain sub-bands because the cut in 1/3 octave or the ERB scale can be too fine for the coding of the ITD. This avoids coding too many angles per frame. For each frequency band, the ITD is then converted to an angle as in the case of a single angle described above with a bit allocation which can be either fixed or variable depending on the importance of the sub- bandaged. In all these variants where several angles are determined and coded, vector quantization can be implemented in
La
Dans cette variante de réalisation, on considère la définition de plusieurs modèles « concurrents » pour coder l'ITD, sachant que l'invention s'applique aussi lorsqu'un seul modèle d'ITD est défini.In this variant embodiment, the definition of several “concurrent” models for coding the ITD is considered, knowing that the invention also applies when a single ITD model is defined.
Ainsi, le modèle tel que défini pour l'information de décalage temporel intercanal (ITD) peut ne pas être fixé et être paramétrable. Chaque modèle définit un ensemble de valeurs d'ITD en fonction d'un paramètre d'angle : la loi en sinus et la loi de Woodworth constituent deux exemples de modèles. Dans cette variante, pour le codage, à partir d'une table de modèles d'ITD obtenue en 430, on détermine dans le bloc 432 un indice de modèle et un indice d'angle (encore appelé paramètre d'angle) à coder selon l'équation suivante :
Un exemple de modèle MITD(m,t) est donné ci-dessous dans le cas d'un modèle d'indice m = 0 suivant une loi de Woodworth comme à l'équation 20 avec ITDmax = 0.2551 ms :
Cette table peut également être ramené à des échantillons par exemple dans le cas d'un échantillonnage à 16 kHz on obtient de façon équivalente :
Dans ce cas, Nθ (m)=8 et N M=1. Il est donc possible de coder l'information ITD sur 3 bits avec ce modèle unique.In this case, N θ ( m ) = 8 and N M = 1. It is therefore possible to encode the ITD information on 3 bits with this unique model.
On remarquera que pour un indice de modèle m donné, le modèle MITD(m,t) est implicitement fonction de l'angle d'azimuth, dans la mesure où l'indice t représente en fait un indice de quantification de l'angle θ. Ainsi, le modèle MITD(m, t) est un moyen efficace de combiner la relation entre ITD et θ, et la quantification de θ sur Nθ (m) niveaux, et d'utiliser potentiellement plusieurs modèles (au moins un), indexés par mopt lorsque plus d'un modèle est utilisé.Note that for a given model index m, the model M ITD ( m , t ) is implicitly a function of the azimuth angle, insofar as the index t in fact represents a quantization index of the angle θ . Thus, the M ITD ( m , t ) model is an efficient way to combine the relationship between ITD and θ , and the quantization of θ on N θ ( m ) levels, and potentially use several models (at least one), indexed by m opt when more than one model is used.
On considère par exemple dans un mode de réalisation le cas de deux modèles différents :
- m=0 : Un modèle binaural défini précédemment avec la loi de Woodworth avec ITD(θ) = ITDmax (sin(θ) + θ) et ITDmax = 10 (échantillons à 16 kHz) m=1 : Un modèle selon une loi en sinus comme à l'équation (15) mais pour un micro A-B (2 microphones omnidirectionnels séparés d'une distance a). La loi en sinus s'applique ici aussi, seul le paramètre a dépend de la distance entre les microphones : ITD(θ) = ITDmaxsin(θ) et ITDmax = 30 (échantillons à 16 kHz)
- m = 0: A binaural model defined previously with Woodworth's law with ITD ( θ ) = ITD max ( sin ( θ ) + θ ) and ITD max = 10 (samples at 16 kHz) m = 1: A model according to a law in sine as in equation (15) but for a microphone AB (2 omnidirectional microphones separated by a distance a). The sine law also applies here, only the parameter a depends on the distance between the microphones: ITD ( θ ) = ITD max sin ( θ ) and ITD max = 30 (samples at 16 kHz)
On remarquera que la taille Nθ (m) peut être identique pour tous les modèles, mais dans le cas général il est possible que des tailles différentes soient utilisées. Par exemple on pourra définir Nθ (m) = 16 et N M=2. Il est donc possible de coder l'information ITD sur 4+1=5 bits.Note that the size N θ ( m ) can be identical for all models, but in the general case it is possible that different sizes are used. For example, we can define N θ ( m ) = 16 and N M = 2. It is therefore possible to encode the ITD information on 4 + 1 = 5 bits.
Un index de la loi sélectionnée mopt est alors codé sur ┌log2NM┐ bits et transmis au décodeur en plus de l'angle d'azimuth topt codé sur ┌log 2 Nθ ┐ bits. Dans l'exemple pris ci-dessus, on pourra coder mopt sur 1 bit, et topt sur 4 bits.An index of the selected law m opt is then encoded on ┌log 2 N M ┐ bits and transmitted to the decoder in addition to the azimuth angle t opt encoded on ┌ log 2 N θ ┐ bits. In the example taken above, we can code m opt on 1 bit, and t opt on 4 bits.
Dans une variante, on pourra remplacer le modèle m=0 par une table d'ITD en fonction de l'azimuth issue de mesures réelles de HRTFs, sans loi paramétrique, mais avec des valeurs d'ITD estimées sur les données réelles ; dans ce cas, la taille Nθ (m) pourra dépendre de la résolution angulaire utilisée pour mesurer des HRTFs (en supposant qu'aucune interpolation angulaire n'a été appliquée).In a variant, the model m = 0 could be replaced by an ITD table as a function of the azimuth resulting from real measurements of HRTFs, without a parametric law, but with ITD values estimated on the real data; in this case, the size N θ ( m ) may depend on the angular resolution used to measure HRTFs (assuming that no angular interpolation has been applied).
Comme à la
Dans une variante de l'invention le modèle de représentation de l'ITD pourra être généralisé pour se réduire uniquement au plan horizontal mais aussi inclure l'élévation. Dans ce cas, deux angles sont déterminés, l'angle d'azimuth θ et l'angle d'élévation ϕ.In a variant of the invention, the representation model of the ITD could be generalized to be reduced only to the horizontal plane but also to include the elevation. In this case, two angles are determined, the azimuth angle θ and the elevation angle ϕ.
La recherche des deux angles peut se faire selon l'équation suivante :
Dans l'invention, on cherche aussi à réduire le débit de codage d'autres informations de spatialisation que l'ITD, comme l'information de spatialisation de différence d'intensité intercanale (ILD). On notera que le bloc 316 de la
Ainsi, de la même façon que pour l'ITD on peut recourir à une paramétrisation de l'ILD. Dans le cas binaural, d'après la thèse de
En définissant une ILD relative ILDmax il est possible sous certaines conditions de réduire cette approximation à l'équation:
La loi ci-dessus n'est qu'une approximation correspondant au niveau global des HRTFs à un azimuth donné ; elle ne permet pas de caractériser complètement la coloration spectrale donnée par les HRTFs mais elle caractérise uniquement leur niveau global.The above law is only an approximation corresponding to the global level of HRTFs at a given azimuth; it does not make it possible to completely characterize the spectral coloration given by the HRTFs but it only characterizes their overall level.
L'ILD de référence peut être définie - en temps différé, lors de la définition du modèle d'ILD, en prenant une base de signaux normalisés ou une base de filtres HRTFs - en prenant le maximum de l'ILD total d'un signal binaural. On considère dans l'invention que cette loi en sinus s'applique non seulement à l'ILD totale (ou globale) mais aussi à l'ILD par sous-bandes ; dans ce cas, le paramètre ILDmax dépend de l'indice de la sous-bande et le modèle devient :
Expérimentalement, on peut vérifier que si l'on calcule l'énergie des filtres HRTFs (illustrée en référence à la
On notera que même si la symétrie du demi-plan frontral (azimuth dans [0, 180] degrés) et le demi-plan à l'arrière de la tête (azimuth dans [180,360] degrés) n'est en général pas totalement valable, cette loi en sinus est utilisée dans l'invention pour coder et décoder l'ILD.Note that even if the symmetry of the front half-plane (azimuth in [0, 180] degrees) and the half-plane behind the head (azimuth in [180,360] degrees) is generally not fully valid , this sine law is used in the invention to encode and decode the ILD.
Comme pour le cas de l'ITD où une valeur ITDmax a été définie, on peut donc soit transmettre le paramètre ILDmax, soit utiliser une valeur ILDmax pré-déterminée et stockée, pour en dériver une valeur ILDglob (θ) selon l'équation (30) et ainsi appliquer un ILD global, valable sur tout le spectre du signal pour obtenir une location rudimentaire (globale).As for the case of the ITD where an ITD max value has been defined, we can therefore either transmit the ILD max parameter, or use a predetermined and stored ILD max value, to derive from it an ILD glob ( θ ) value according to equation (30) and thus apply a global ILD, valid over the entire signal spectrum to obtain a rudimentary (global) location.
Un autre exemple de modèle s'appuie sur la configuration de microphones stéréo ORTF illustrée à la
Dans cet exemple, le modèle d'ILD en sous-bandes pourra être défini en rapport avec une configuration de microphones ORTF comme suit :
Il est possible d'écrire ce modèle également sous la forme :
On peut là encore définir une valeur ILDmax qui correspond à :
Là encore, on suppose que le modèle défini à l'équation 35 s'applique non seulement au cas d'un ILD total (ou global) mais aussi à l'ILD en sous-bandes ; dans ce cas le paramètre ILDmax (ou une version proportionnelle) sera dépendant de la sous-bande sous la forme ILD[b] max. Here again, it is assumed that the model defined in equation 35 applies not only to the case of a total (or global) ILD but also to the sub-band ILD; in this case the parameter ILD max (or a proportional version) will be dependent on the sub-band in the form ILD [ b ] max .
Ainsi, en référence à la
Ce modèle est par exemple le modèle tel que défini ci-dessus à l'équation (30) ou avec d'autres modèles décrits dans ce document.This model is for example the model as defined above in equation (30) or with other models described in this document.
Le paramètre d'angle θ déjà défini en 411 est ré-utilisé au décodeur pour retrouver l'ILD global ou l'ILD en sous-bandes tel que défini par l'équation (30), (31) ou (35) ; cela permet en effet de « mutualiser » le codage de l'ITD et de l'ILD. Dans le cas où la valeur ILDmax n'est pas fixée, celle-ci est déterminée en 423 et codée.The angle parameter θ already defined in 411 is re-used at the decoder to find the global ILD or the ILD in sub-bands as defined by equation (30), (31) or (35); this makes it possible to “mutualize” the coding of the ITD and the ILD. If the ILD max value is not fixed, it is determined in 423 and coded.
Dans un mode de réalisation particulier, un module 421 d'estimation d'une information de différence d'intensité intercanale est mis en œuvre à partir d'une part du paramètre d'angle obtenu par le bloc 411 pour coder l'information de décalage temporel (ITD) et d'autre part du modèle de représentation de l'équation (30), (31) ou (35). De façon optionnelle, le module 422 calcule un résidu de l'information ILD, c'est-à-dire la différence entre l'information de différence d'intensité intercanale (ILD) réelle extraite en 314 et l'information de différence d'intensité intercanale (ILD) estimée en 421 à partir du modèle d'ILD.In a particular embodiment, a
Ce résidu peut être codé en 318 par exemple par une méthode classique de quantification scalaire. Cependant, contrairement au codage d'un ILD direct, la table de quantification peut être par exemple limitée à une dynamique de +/-12 dB avec un pas de 3 dB.This residue can be encoded at 318 for example by a conventional scalar quantization method. However, unlike the coding of a direct ILD, the quantization table can for example be limited to a dynamic range of +/- 12 dB with a step of 3 dB.
Ce résidu ILD permet d'améliorer la qualité de décodage de l'information ILD dans le cas où le modèle d'ILD est trop spécifique et ne s'applique qu'au signal à coder dans la trame courante ; on rappelle qu'une classification peut éventuellement être utilisée au codeur pour éviter de tels cas, cependant dans le cas général il peut être utile de coder un résidu d'ILD.This ILD residue makes it possible to improve the quality of decoding of the ILD information in the case where the ILD model is too specific and only applies to the signal to be encoded in the current frame; it is recalled that a classification can optionally be used at the encoder to avoid such cases, however in the general case it may be useful to code an ILD residue.
Ainsi, le codage de ces paramètres ainsi que celui d'angle de l'ITD permet de retrouver au décodeur l'information de différence d'intensité intercanale (ILD) du signal audio binaural avec une bonne qualité.Thus, the coding of these parameters as well as that of the angle of the ITD makes it possible to find at the decoder the information on the inter-channel intensity difference (ILD) of the binaural audio signal with good quality.
De la même façon que pour l'ITD, l'information de spatialisation (globale ou par sous-bandes) sera donc retrouvée au décodage en appliquant le même modèle de représentation et en décodant le cas échéant les paramètres de résidu et d'ILD de référence. Le débit nécessaire au codage de ces paramètres est plus faible que si l'information ILD elle-même était codée, en particulier lorsque le résidu ILD n'a pas à être transmis et qu'on utilise le ou les paramètre(s) ILDmax pré-définis dans le ou les modèle(s) d'ILD. Ainsi, le codage de cette information de spatialisation (ILD) est peut consommateur en débit.In the same way as for the ITD, the spatialization information (global or by sub-bands) will therefore be found on decoding by applying the same representation model and by decoding, if necessary, the residual and ILD parameters of reference. The bit rate required for encoding these parameters is lower than if the ILD information itself were encoded, in particular when the ILD residue does not have to be transmitted and when using the ILD max parameter (s) pre-defined in the ILD model (s). Thus, the coding of this spatialization information (ILD) can be bit rate consuming.
Ce modèle d'ILD n'utilisant qu'une valeur d'ILD globale est cependant très simpliste car en général l'ILD est défini sur plusieurs sous-bandes.This model of ILD using only one value of total ILD is however very simplistic because in general the ILD is defined on several sub-bands.
Dans le codeur décrit précédemment, B sous-bandes suivant une découpe en 1/3 d'octave ou suivant l'échelle ERB ont été définies. Pour permettre de représenter plus qu'un paramètre d'ILD total (ou global) le modèle de représentation de l'ILD est donc étendu à plusieurs sous-bandes. Cette extension s'applique à l'invention décrite à la
On considère la variante de réalisation décrite à la
Cependant, dans une variante de réalisation, cette recherche pourra être simplifiée en utilisant l'information d'angle déjà obtenue dans le bloc 432 pour le modèle d'ITD. On notera que les valeurs t = 0, ..., Nθ (m) - 1 pour le modèle d'ILD ne correspondent pas forcément au même ensemble de valeurs que pour le modèle d'ITD, cependant il est avantageux d'harmoniser ces ensembles pour avoir une cohérence entre modèles de représentation pour l'ILD et l'ITD.However, in an alternative embodiment, this search could be simplified by using the angle information already obtained in
On pourra par exemple prendre comme critères possibles de distance :
Un exemple de modèle d'ILD est illustré aux
Dans une variante de l'invention le modèle de représentation de l'ILD pourra être généralisé pour ne pas se réduire uniquement au plan horizontal mais aussi inclure l'élévation. Dans ce cas, la recherche de deux angles devient :
Dans une variante, un exemple de modèle MILD(m, t, p) peut être obtenu à partir d'un jeu de HRTFs de la façon suivante. Etant donnés les filtres HRTFs pour θ et ϕ, on peut :
- calculer les ILDs par sous-bande entre canaux gauche et droit par sous-bande
- éventuellement normaliser les ILDs
- stocker les IlDs et déterminer la valeur de ILDmax dans chaque sous-bande pour ajuster un facteur de dilatation des ILD
- calculate ILDs per sub-band between left and right channels per sub-band
- possibly standardize ILDs
- store the IlDs and determine the value of ILD max in each sub-band to adjust an expansion factor of the ILDs
La table multidimensionnelle MILD(m, t, p) peut être vue comme un modèle de directivité ramené au domaine de l'ILD.The multidimensional table M ILD ( m , t, p) can be seen as a directivity model brought back to the domain of the ILD.
Un index de la loi sélectionnée mopt est alors codé et transmis au décodeur en 318.An index of the selected law m opt is then encoded and transmitted to the decoder at 318.
De la même façon que pour la
Jusqu'ici des modèles séparés ont été considérés pour l'ITD et l'ILD, même s'il a été noté que la détermination de l'angle peut être « mutualisée ». Par exemple, l'azimuth peut être déterminé en utilisant le modèle d'ITD et ce même angle est directement utilisé pour le modèle d'ILD. On considère maintenant une autre variante de réalisation faisant appel à un « modèle intégré » (conjoint). Cette variante est décrite à la
Dans cette variante, plutôt que d'avoir des modèles séparés pour l'ITD et l'ILD ( MITD (m, t, p) et MILD(m, t, p) ) on pourra définir un modèle conjoint dans le bloc 450 : MITD,ILD (m, t, p) dont les entrées comprennent des valeurs candidates d'ITD et d'ILD ; ainsi, pour différentes valeurs discrètes réprésentant θ et ϕ des « vecteurs » (ITD, ILD) sont définis. Dans ce cas, la mesure de distance utilisée pour la recherche doit combiner la distance sur l'ITD et la distance sur l'ILD, cependant il est encore possible d'effectuer une recherche séparée.In this variant, rather than having separate models for the ITD and the ILD (M ITD ( m , t, p ) and M ILD ( m , t, p )) we can define a joint model in the block 450: M ITD, ILD ( m , t, p ) whose entries include candidate values of ITD and ILD; thus, for different discrete values representing θ and ϕ “vectors” (ITD, ILD) are defined. In this case, the distance measure used for the search must combine the distance on the ITD and the distance on the ILD, however it is still possible to perform a separate search.
Ainsi, un index de la loi sélectionnée mopt, de l'angle d'azimuth topt et de l'angle d'élévation popt déterminés en 453, sont codés en 331 et transmis au décodeur, de même pour les
Une variante du codeur illustré à la
En référence à la
Ce décodeur comporte un démultiplexeur 701 dans lequel le signal mono codé est extrait pour être décodé en 702 par un décodeur EVS mono (selon les spécifications 3GPP TS 26.442 ou TS 26.443) dans cet exemple. La partie du train binaire correspondant au codeur EVS mono est décodée selon le débit utilisé au codeur. On suppose ici qu'il n'y a pas de perte de trames ni d'erreurs binaires sur le train binaire pour simplifier la description, cependant des techniques connues de correction de perte de trames peuvent bien évidemment être mises en œuvre dans le décodeur.This decoder comprises a
Le signal mono décodé correspond à M̂(n) en l'absence d'erreurs de canal. Une analyse par transformée de Fourier discrète à court-terme avec le même fenêtrage qu'au codeur est réalisée sur M̂(n) (blocs 703 et 704) pour obtenir le spectre M̂[k]. On considère ici qu'une décorrélation dans le domaine fréquentiel (bloc 720) est également appliquée. Cette décorrélation pourra également été appliquée dans le domaine temporel.The decoded mono signal corresponds to M̂ ( n ) in the absence of channel errors. A short-term discrete Fourier transform analysis with the same windowing as in the encoder is performed on M̂ ( n ) (
Les détails de mise en œuvre du bloc 708 pour la synthèse du signal stéréo ne sont pas présentés ici car ils dépassent le cadre de l'invention, mais les techniques classiques de synthèse connues de l'état de l'art pourront être utilisées.The details of the implementation of the
Dans le bloc de synthèse 708, il est par exemple possible de reconstruire un signal à deux canaux avec le traitement suivant sur le signal mono décodé et transformé en fréquences:
On peut également prendre en compte le paramètre ICC décodé en 718 pour recréer une ambiance sonore (bruit de fond) non localisée pour améliorer la qualité.The ICC parameter decoded in 718 can also be taken into account to recreate a non-localized sound environment (background noise) in order to improve the quality.
Les spectres L̂[k] et R̂[k] sont ainsi calculés et ensuite convertis dans le domaine temporel par FFT inverse, fenêtrage, addition et recouvrement (blocs 709 à 714) pour obtenir les canaux synthétisés L̂(n) et R̂(n).The spectra L̂ [ k ] and R̂ [ k ] are thus calculated and then converted into the time domain by inverse FFT, windowing, addition and overlap (
Les paramètres qui ont été codés pour obtenir les informations de spatialisation sont décodés en 705, 715 et 718.The parameters which have been encoded to obtain the spatialization information are decoded in 705, 715 and 718.
En 718, ce sont les informations ICCq [b] qui sont décodés si toutefois elles ont été codées.In 718, it is the ICC information q [ b ] which is decoded if however they have been coded.
En 705, c'est le paramètre d'angle θ qui est décodé avec éventuellement une valeur ITDmax. A partir de ce paramètre, le module 706 d'obtention d'un modèle de représentation d'une information de décalage temporel intercanal est mis en œuvre pour obtenir ce modèle. Comme pour le codeur, ce modèle peut être défini par l'équation (15) défini ci-dessus. Ainsi, à partir de ce modèle et du paramètre d'angle décodé, il est possible au module 707 de déterminer l'information de décalage temporel intercanal (ITD) du signal multicanal.In 705, it is the angle parameter θ which is decoded with possibly a value ITD max . From this parameter, the
Si au décodeur un angle par fréquence ou par bande de fréquence est codé, alors ces différents angles par fréquence ou bandes de fréquences sont décodés pour définir les informations ITD par fréquence ou bandes de fréquence.If at the decoder an angle by frequency or by frequency band is coded, then these different angles by frequency or frequency bands are decoded to define the ITD information by frequency or frequency bands.
De la même façon, dans le cas où des paramètres permettant de coder l'information de différence d'intensité intercanale (ILD) sont codés, ils sont décodés par le module de décodage de ces paramètres en 715, au décodeur.Likewise, in the case where parameters making it possible to encode the inter-channel intensity difference (ILD) information are encoded, they are decoded by the module for decoding these parameters at 715, at the decoder.
Ainsi, les paramètres de résidu (Resid. ILD) et d'ILD de référence (ILDmax ) sont décodés en 715.Thus, the parameters of residue (Resid. ILD) and of reference ILD (ILD max ) are decoded in 715.
A partir de ces paramètres, le module 716 d'obtention d'un modèle de représentation d'une information de différence d'intensité intercanale est mis en œuvre pour obtenir ce modèle. Comme pour le codeur, ce modèle peut être défini par l'équation (30) défini ci-dessus.On the basis of these parameters, the
Ainsi, à partir de ce modèle, des paramètres de résidu d'ILD (c'est-à-dire la différence entre l'information de différence d'intensité intercanale (ILD) réelle et l'information de différence d'intensité intercanale (ILD) estimée avec le modèle), du paramètre d'ILD de référence (ILDmax ) et du paramètre d'angle décodé en 705 pour l'information ITD, il est possible au module 717 de déterminer l'information de différence d'intensité intercanale (ILD) du signal multicanal.Thus, from this model, residual parameters of ILD (i.e. the difference between the actual inter-channel intensity difference (ILD) information and the inter-channel intensity difference information ( ILD) estimated with the model), the reference ILD parameter ( ILD max ) and the angle parameter decoded in 705 for the ITD information, it is possible for the
Si au codeur les paramètres de codage de l'ILD ont été déclinés par bande de fréquence, alors ces différents paramètres par bandes de fréquences sont décodés pour définir les informations ILD par fréquence ou bandes de fréquence.If at the encoder the coding parameters of the ILD have been broken down by frequency band, then these various parameters by frequency bands are decoded to define the ILD information by frequency or frequency bands.
On notera que le décodeur de la
Dans une variante de l'invention le décodeur de la
Le codeur présenté en référence à la
Les codeurs et décodeurs tels que décrits en référence aux
La
Dans le cas d'un codeur, le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes d'extraction d'une pluralité d'informations de spatialisation du signal multicanal, d'obtention d'au moins un modèle de représentation des informations de spatialisation extraites, de détermination d'au moins un paramètre d'angle d'un modèle obtenu et de codage du au moins un paramètre d'angle déterminé pour coder les informations de spatialisation extraites lors du codage d'informations de spatialisation.In the case of an encoder, the memory block can advantageously comprise a computer program comprising code instructions for implementing the steps of the encoding method within the meaning of the invention, when these instructions are executed by the processor PROC, and in particular the steps of extracting a plurality of spatialization information from the multichannel signal, of obtaining at least one representation model of the extracted spatialization information, of determining at least one angle parameter. a model obtained and encoding of at least one angle parameter determined to encode the spatialization information extracted during the encoding of spatialization information.
Dans le cas d'un décodeur, le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de réception et décodage d'au moins un paramètre d'angle codé, d'obtention d'au moins un modèle de représentation d'informations de spatialisation et de détermination d'une pluralité d'informations de spatialisation du signal multicanal à partir du au moins un modèle obtenu et du au moins un paramètre d'angle décodé.In the case of a decoder, the memory block can advantageously comprise a computer program comprising code instructions for the implementation of the steps of the decoding method within the meaning of the invention, when these instructions are executed by the processor PROC, and in particular the steps of receiving and decoding at least one coded angle parameter, of obtaining at least one model of representation of spatialization information and of determining a plurality of spatialization information of the multichannel signal from the at least one model obtained and from the at least one decoded angle parameter.
La mémoire MEM peut stocker le ou les modèles de représentation de différentes informations de spatialisation qui sont utilisés dans les procédés de codage et de décodage selon l'invention.The memory MEM can store the model or models of representation of various spatialization information which are used in the encoding and decoding methods according to the invention.
Typiquement, les descriptions des
Un tel équipement en tant que codeur comporte un module d'entrée apte à recevoir un signal multicanal par exemple un signal binaural comportant les canaux R et L pour droit et gauche, soit par un réseau de communication, soit par lecture d'un contenu stocké sur un support de stockage. Cet équipement multimédia peut également comporter des moyens de capture d'un tel signal binaural.Such equipment as an encoder comprises an input module capable of receiving a multichannel signal, for example a binaural signal comprising the R and L channels for right and left, either by a communication network, or by reading stored content. on a storage medium. This multimedia equipment can also include means for capturing such a binaural signal.
Le dispositif en tant que codeur comporte un module de sortie apte à transmettre un signal mono M issu d'un traitement de réduction de canaux et au minimum, un paramètre d'angle θ permettant d'appliquer un modèle de représentation d'une information de spatialisation pour retrouver cette information spatiale. Le cas échéant, d'autres paramètres comme les paramètres de résidu d'ILD, d'ILD ou d'ITD de référence (ILDmax ou ITDmax) sont aussi transmis via le module de sortie.The device as an encoder comprises an output module capable of transmitting a mono signal M resulting from a channel reduction processing and at least an angle parameter θ making it possible to apply a model for the representation of information of spatialization to find this spatial information. If necessary, other parameters such as the residual parameters of ILD, ILD or reference ITD (ILDmax or ITDmax) are also transmitted via the output module.
Un tel équipement en tant que décodeur comporte un module d'entrée apte à recevoir un signal mono M issu d'un traitement de réduction de canaux et au minimum un paramètre d'angle θ permettant d'appliquer un modèle de représentation de l'information de spatialisation pour retrouver cette information spatiale. Le cas échéant, pour retrouver l'information de spatialisation, d'autres paramètres comme les paramètres de résidu d'ILD, d'ILD ou d'ITD de référence (ILDmax ou ITDmax) sont également reçues via le module d'entrée E.Such equipment as a decoder comprises an input module capable of receiving a mono signal M coming from a channel reduction processing and at least one angle parameter θ making it possible to apply an information representation model. spatialization to find this spatial information. If necessary, to find the spatialization information, other parameters such as the residual parameters of ILD, ILD or reference ITD (ILDmax or ITDmax) are also received via the input module E.
Le dispositif en tant que décodeur comporte un module de sortie apte à transmettre un signal multicanal par exemple un signal binaural comportant les canaux R et L pour droit et gauche.The device as a decoder comprises an output module capable of transmitting a multichannel signal, for example a binaural signal comprising the R and L channels for right and left.
Claims (15)
- Method of parametric coding of a multichannel digital audio signal comprising a step (312) of coding a signal (M) arising from a channels reduction processing (307) applied to the multichannel signal and of coding spatialization cues in respect of the multichannel signal, characterized in that it comprises the following steps:- extraction (314, 320) of a plurality of spatialization cues in respect of the multichannel signal of at least two types;- obtaining (315, 317) of at least one representation model of the spatialization cues extracted;- determination (315, 411) of at least one angle parameter of a model obtained;- coding (316, 318) of the at least one determined angle parameter so as to code the at least two types of spatialization cues extracted during the coding of spatialization cues.
- Coding method according to Claim 1, characterized in that the spatialization cues are defined by frequency sub-bands of the multichannel audio signal and in that at least one angle parameter per sub-band is determined and coded.
- Method according to one of Claims 1 and 2, characterized in that it furthermore comprises the steps of calculating a reference spatialization cue and of coding this reference spatialization cue.
- Coding method according to one of the preceding claims, characterized in that one of the spatialization cues of a first type is an interchannel time shift (ITD) cue.
- Coding method according to one of the preceding claims, characterized in that one of the spatialization cues of a second type is an interchannel intensity difference (ILD) cue.
- Method according to Claim 5, characterized in that it furthermore comprises the following steps for coding an interchannel intensity difference cue:- estimation of an interchannel intensity difference cue on the basis of the model obtained and of the angle parameter determined;- coding of the difference between the interchannel intensity difference cue extracted and estimated.
- Method according to one of the preceding claims, characterized in that a spatialization-cue-based representation model is obtained.
- Method according to one of the preceding claims, characterized in that a representation model common to several spatialization cues is obtained.
- Coding method according to one of Claims 1 to 8, characterized in that the obtaining of a representation model of the spatialization cues is performed by selecting from a table of models defined for various values of the spatialization cues.
- Method according to Claim 9, characterized in that an index of the table corresponding to the selected model is coded.
- Method of parametric decoding of a multichannel digital audio signal comprising a step (702) of decoding a coded signal arising from a channels reduction processing applied to the multichannel signal and of decoding (705, 715) spatialization cues in respect of the multichannel signal, characterized in that it comprises the following steps for decoding at least one spatialization cue:- reception and decoding (705, 715) of at least one coded angle parameter;- obtaining (706, 716) of at least one representation model of spatialization cues;- determination (707, 717) of a plurality of spatialization cues of at least two types in respect of the multichannel signal on the basis of the at least one model obtained and of the at least one decoded angle parameter.
- Decoding method according to Claim 11, characterized in that it comprises a step of receiving and decoding an index of table of models and of obtaining the at least one representation model of the spatialization cues to be decoded on the basis of the decoded index.
- Parametric coder of a multichannel digital audio signal comprising a module (312) for coding a signal (M) arising from a module for channels reduction processing (307) applied to the multichannel signal and modules (315, 317, 316, 318) for coding spatialization cues in respect of the multichannel signal, characterized in that it comprises:- a module (314, 320) for extracting a plurality of spatialization cues of at least two types in respect of the multichannel signal;- a module (315, 317) for obtaining at least one representation model of the spatialization cues extracted;- a module (411) for determining at least one angle parameter of a model obtained;- a module (316, 318) for coding the at least one angle parameter determined so as to code the at least two types of spatialization cues extracted during the coding of spatialization cues.
- Parametric decoder of a multichannel digital audio signal comprising a module (702) for decoding a coded signal arising from a channels reduction processing applied to the multichannel signal and a module (705, 7015) for decoding spatialization cues in respect of the multichannel signal, characterized in that it comprises:- a module (705, 715) for receiving and decoding at least one coded angle parameter;- a module (706, 716) for obtaining at least one representation model of the spatialization cues;- a module (707, 717) for determining a plurality of spatialization cues of at least two types in respect of the multichannel signal on the basis of the at least one model obtained and of the at least one decoded angle parameter.
- Storage medium readable by a processor on which is recorded a computer program comprising code instructions for the execution of the steps of the coding method according to one of Claims 1 to 10 and/or of the decoding method according to one of Claims 11 and 12.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1652034A FR3048808A1 (en) | 2016-03-10 | 2016-03-10 | OPTIMIZED ENCODING AND DECODING OF SPATIALIZATION INFORMATION FOR PARAMETRIC CODING AND DECODING OF A MULTICANAL AUDIO SIGNAL |
PCT/FR2017/050547 WO2017153697A1 (en) | 2016-03-10 | 2017-03-10 | Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
EP3427260A1 EP3427260A1 (en) | 2019-01-16 |
EP3427260B1 true EP3427260B1 (en) | 2021-04-28 |
Family
ID=56008743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP17713746.0A Active EP3427260B1 (en) | 2016-03-10 | 2017-03-10 | Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal |
Country Status (6)
Country | Link |
---|---|
US (2) | US10930290B2 (en) |
EP (1) | EP3427260B1 (en) |
CN (1) | CN108885876B (en) |
ES (1) | ES2880343T3 (en) |
FR (1) | FR3048808A1 (en) |
WO (1) | WO2017153697A1 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201718341D0 (en) | 2017-11-06 | 2017-12-20 | Nokia Technologies Oy | Determination of targeted spatial audio parameters and associated spatial audio playback |
GB2572650A (en) | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
GB2572761A (en) * | 2018-04-09 | 2019-10-16 | Nokia Technologies Oy | Quantization of spatial audio parameters |
GB2574239A (en) * | 2018-05-31 | 2019-12-04 | Nokia Technologies Oy | Signalling of spatial audio parameters |
GB2575305A (en) * | 2018-07-05 | 2020-01-08 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
GB2576769A (en) * | 2018-08-31 | 2020-03-04 | Nokia Technologies Oy | Spatial parameter signalling |
FR3101741A1 (en) * | 2019-10-02 | 2021-04-09 | Orange | Determination of corrections to be applied to a multichannel audio signal, associated encoding and decoding |
JP7491376B2 (en) * | 2020-06-24 | 2024-05-28 | 日本電信電話株式会社 | Audio signal encoding method, audio signal encoding device, program, and recording medium |
WO2021260826A1 (en) * | 2020-06-24 | 2021-12-30 | 日本電信電話株式会社 | Sound signal decoding method, sound signal decoding device, program, and recording medium |
CN115691514A (en) * | 2021-07-29 | 2023-02-03 | 华为技术有限公司 | Coding and decoding method and device for multi-channel signal |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1307612C (en) * | 2002-04-22 | 2007-03-28 | 皇家飞利浦电子股份有限公司 | Parametric representation of spatial audio |
ATE339759T1 (en) * | 2003-02-11 | 2006-10-15 | Koninkl Philips Electronics Nv | AUDIO CODING |
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
EP1914722B1 (en) * | 2004-03-01 | 2009-04-29 | Dolby Laboratories Licensing Corporation | Multichannel audio decoding |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
PL1754222T3 (en) * | 2005-04-19 | 2008-04-30 | Dolby Int Ab | Energy dependent quantization for efficient coding of spatial audio parameters |
US8090587B2 (en) * | 2005-09-27 | 2012-01-03 | Lg Electronics Inc. | Method and apparatus for encoding/decoding multi-channel audio signal |
US8712061B2 (en) * | 2006-05-17 | 2014-04-29 | Creative Technology Ltd | Phase-amplitude 3-D stereo encoder and decoder |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US8345899B2 (en) * | 2006-05-17 | 2013-01-01 | Creative Technology Ltd | Phase-amplitude matrixed surround decoder |
FR2903562A1 (en) * | 2006-07-07 | 2008-01-11 | France Telecom | BINARY SPATIALIZATION OF SOUND DATA ENCODED IN COMPRESSION. |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
EP2201566B1 (en) * | 2007-09-19 | 2015-11-11 | Telefonaktiebolaget LM Ericsson (publ) | Joint multi-channel audio encoding/decoding |
US8583424B2 (en) * | 2008-06-26 | 2013-11-12 | France Telecom | Spatial synthesis of multichannel audio signals |
CN102084418B (en) * | 2008-07-01 | 2013-03-06 | 诺基亚公司 | Apparatus and method for adjusting spatial cue information of a multichannel audio signal |
WO2010076460A1 (en) * | 2008-12-15 | 2010-07-08 | France Telecom | Advanced encoding of multi-channel digital audio signals |
KR101646650B1 (en) * | 2009-10-15 | 2016-08-08 | 오렌지 | Optimized low-throughput parametric coding/decoding |
KR101710113B1 (en) * | 2009-10-23 | 2017-02-27 | 삼성전자주식회사 | Apparatus and method for encoding/decoding using phase information and residual signal |
US8923995B2 (en) * | 2009-12-22 | 2014-12-30 | Apple Inc. | Directional audio interface for portable media device |
CN102714036B (en) * | 2009-12-28 | 2014-01-22 | 松下电器产业株式会社 | Audio encoding device and audio encoding method |
EP2355559B1 (en) * | 2010-02-05 | 2013-06-19 | QNX Software Systems Limited | Enhanced spatialization system with satellite device |
EP2596494B1 (en) * | 2010-07-20 | 2020-08-05 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Audio decoder, audio decoding method and computer program |
CN103262159B (en) * | 2010-10-05 | 2016-06-08 | 华为技术有限公司 | For the method and apparatus to encoding/decoding multi-channel audio signals |
FR2966634A1 (en) * | 2010-10-22 | 2012-04-27 | France Telecom | ENHANCED STEREO PARAMETRIC ENCODING / DECODING FOR PHASE OPPOSITION CHANNELS |
EP2477188A1 (en) * | 2011-01-18 | 2012-07-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of slot positions of events in an audio signal frame |
FR2973551A1 (en) * | 2011-03-29 | 2012-10-05 | France Telecom | QUANTIZATION BIT SOFTWARE ALLOCATION OF SPATIAL INFORMATION PARAMETERS FOR PARAMETRIC CODING |
CN104464742B (en) * | 2014-12-31 | 2017-07-11 | 武汉大学 | A kind of comprehensive non-uniform quantizing coded system of 3D audio spaces parameter and method |
CN111970629B (en) * | 2015-08-25 | 2022-05-17 | 杜比实验室特许公司 | Audio decoder and decoding method |
-
2016
- 2016-03-10 FR FR1652034A patent/FR3048808A1/en active Pending
-
2017
- 2017-03-10 WO PCT/FR2017/050547 patent/WO2017153697A1/en active Application Filing
- 2017-03-10 CN CN201780015676.XA patent/CN108885876B/en active Active
- 2017-03-10 EP EP17713746.0A patent/EP3427260B1/en active Active
- 2017-03-10 US US16/083,741 patent/US10930290B2/en active Active
- 2017-03-10 ES ES17713746T patent/ES2880343T3/en active Active
-
2020
- 2020-12-22 US US17/130,567 patent/US11664034B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20210110835A1 (en) | 2021-04-15 |
ES2880343T3 (en) | 2021-11-24 |
WO2017153697A1 (en) | 2017-09-14 |
EP3427260A1 (en) | 2019-01-16 |
FR3048808A1 (en) | 2017-09-15 |
US20190066701A1 (en) | 2019-02-28 |
CN108885876A (en) | 2018-11-23 |
US10930290B2 (en) | 2021-02-23 |
US11664034B2 (en) | 2023-05-30 |
CN108885876B (en) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3427260B1 (en) | Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal | |
JP6626581B2 (en) | Apparatus and method for encoding or decoding a multi-channel signal using one wideband alignment parameter and multiple narrowband alignment parameters | |
EP2374123B1 (en) | Improved encoding of multichannel digital audio signals | |
EP2374124B1 (en) | Advanced encoding of multi-channel digital audio signals | |
EP2002424B1 (en) | Device and method for scalable encoding of a multichannel audio signal based on a principal component analysis | |
EP2691952B1 (en) | Allocation, by sub-bands, of bits for quantifying spatial information parameters for parametric encoding | |
CN108369810B (en) | Adaptive channel reduction processing for encoding multi-channel audio signals | |
WO2012052676A1 (en) | Improved stereo parametric encoding/decoding for channels in phase opposition | |
EP2489039B1 (en) | Optimized low-throughput parametric coding/decoding | |
WO2007104882A1 (en) | Device and method for encoding by principal component analysis a multichannel audio signal | |
WO2020177981A1 (en) | Spatialized audio coding with interpolation and quantification of rotations | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
WO2011073600A1 (en) | Parametric stereo encoding/decoding having downmix optimisation | |
WO2011045549A1 (en) | Optimized parametric stereo decoding | |
EP4042418B1 (en) | Determining corrections to be applied to a multichannel audio signal, associated coding and decoding | |
Jansson | Stereo coding for the ITU-T G. 719 codec | |
WO2023232823A1 (en) | Title: spatialized audio encoding with configuration of a decorrelation processing operation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: UNKNOWN |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE |
|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE |
|
17P | Request for examination filed |
Effective date: 20180807 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
AX | Request for extension of the european patent |
Extension state: BA ME |
|
DAV | Request for validation of the european patent (deleted) | ||
DAX | Request for extension of the european patent (deleted) | ||
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: ORANGE |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: GRANT OF PATENT IS INTENDED |
|
INTG | Intention to grant announced |
Effective date: 20210115 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE PATENT HAS BEEN GRANTED |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: REF Ref document number: 1387999 Country of ref document: AT Kind code of ref document: T Effective date: 20210515 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 602017037554 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: FRENCH |
|
RAP4 | Party data changed (patent owner data changed or rights of a patent transferred) |
Owner name: ORANGE |
|
REG | Reference to a national code |
Ref country code: LT Ref legal event code: MG9D |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: MK05 Ref document number: 1387999 Country of ref document: AT Kind code of ref document: T Effective date: 20210428 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: BG Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210728 Ref country code: HR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: LT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FG2A Ref document number: 2880343 Country of ref document: ES Kind code of ref document: T3 Effective date: 20211124 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210729 Ref country code: LV Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210828 Ref country code: PL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210830 Ref country code: NO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210728 Ref country code: RS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: MP Effective date: 20210428 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: SM Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: RO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: CZ Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: EE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R097 Ref document number: 602017037554 Country of ref document: DE |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed |
Effective date: 20220131 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210828 Ref country code: AL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
REG | Reference to a national code |
Ref country code: BE Ref legal event code: MM Effective date: 20220331 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20220310 Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20220331 Ref country code: IE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20220310 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20220331 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20220331 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: ES Payment date: 20230403 Year of fee payment: 7 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: HU Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO Effective date: 20170310 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20210428 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20240220 Year of fee payment: 8 Ref country code: GB Payment date: 20240220 Year of fee payment: 8 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IT Payment date: 20240220 Year of fee payment: 8 Ref country code: FR Payment date: 20240220 Year of fee payment: 8 |