EP2656342A1 - Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase - Google Patents

Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase

Info

Publication number
EP2656342A1
EP2656342A1 EP11785726.8A EP11785726A EP2656342A1 EP 2656342 A1 EP2656342 A1 EP 2656342A1 EP 11785726 A EP11785726 A EP 11785726A EP 2656342 A1 EP2656342 A1 EP 2656342A1
Authority
EP
European Patent Office
Prior art keywords
channel
stereo
signal
phase difference
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP11785726.8A
Other languages
German (de)
English (en)
Inventor
Stéphane RAGOT
Thi Minh Nguyet Hoang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of EP2656342A1 publication Critical patent/EP2656342A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to the field of coding / decoding of digital signals.
  • the coding and decoding according to the invention is particularly suitable for the transmission and / or storage of digital signals such as audio-frequency signals (speech, music or other).
  • the present invention relates to the parametric encoding / decoding of multichannel audio signals, especially stereophonic signals hereinafter called stereo signals.
  • This type of coding / decoding is based on the extraction of spatial information parameters so that at decoding, these spatial characteristics can be reconstructed for the listener, in order to recreate the same spatial image as in the original signal.
  • Such a parametric coding / decoding technique is for example described in the document by J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, titled "Parametric Coding of Stereo Audio” in EURASIP Journal on Applied Signal Processing 2005 : 9, 1305-1322. This example is repeated with reference to FIGS. 1 and 2 respectively describing an encoder and a parametric stereo decoder.
  • FIG. 1 describes an encoder receiving two audio channels, a left channel
  • the temporal channels L (n) and R (n), where n is the entire subscript of the samples, are processed by the blocks 101, 102, 103 and 104 respectively which perform a short-term Fourier analysis.
  • the transformed signals L [j] and R [j], where j is the integer index of the frequency coefficients, are thus obtained.
  • Block 105 performs a channel reduction processing or "downmix" in English to obtain in the frequency domain from the left and right signals, a monophonic signal hereinafter called mono signal which is here a sum signal.
  • Extraction of spatial information parameters is also performed in block 105.
  • the extracted parameters are as follows.
  • the ICLD InterChannel Level Difference
  • interchannel intensity differences characterize the energy ratios per frequency subband between the left and right channels.
  • L j] and R j] correspond to the spectral (complex) coefficients of the L and R channels
  • the values B [k] and B [k + 1] for each frequency band of index k, define the slot under -bands of the discrete spectrum and the symbol * indicates the complex conjugate.
  • ICTD InterChannel Time Difference
  • the ICC for "InterChannel Coherence" parameters represent inter-channel correlation (or coherence) and are associated with the spatial width of the sound sources; their definition is not recalled here, but it is noted in the article by Breebart et al. that the ICC parameters are not necessary in the subbands reduced to a single frequency coefficient - in fact the amplitude and phase differences completely describe the spatialization in this "degenerate" case.
  • ICLD, ICPD and ICC parameters are extracted by analysis of the stereo signals, by the block 105. If the ICTD parameters were also coded, these could also be extracted by subband from the spectra L [j] and R [ j]; however, the extraction of the ICTD parameters is in general simplified by assuming an identical inter-channel time shift for each sub-band and in this case these parameters can be extracted from the time channels L (n) and R (n) via inter-correlations.
  • the mono signal M [j] is transformed in the time domain (blocks 106 to 108) after short-term Fourier synthesis (inverse FFT, windowing and OverLap-Add or overlay) and a mono coding (block 109) is then realized.
  • the stereo parameters are quantized and coded in block 110.
  • the spectrum of the signals (L j ' J, R j ' J) is divided according to a nonlinear frequency scale of ERB (equivalent Rectangular Bandwidth) or Bark type, with a number of subbands typically ranging from 20 to 34 for a sampled signal of 16 to 48 kHz. This scale defines the values of B [k] and B [k + 1] for each subband k.
  • the parameters (ICLD, ICPD, ICC) are encoded by scalar quantization possibly followed by entropy coding and / or differential coding.
  • the ICLD is encoded by a non-uniform quantizer (ranging from -50 to +50 dB) with differential entropy coding.
  • the non-uniform quantization step exploits the fact that the higher the value of the ICLD, the lower the auditory sensitivity to variations of this parameter.
  • coding For the coding of the mono signal (block 109), several quantization techniques with or without memory are possible, for example coding with “Coded Pulse Modulation” (MIC), its adaptive version called “Adaptive Differential Coded Pulse Modulation” (ADPCM) or more advanced techniques such as transform perceptual coding or Code Excited Linear Prediction (CELP) coding.
  • MIC Coded Pulse Modulation
  • ADPCM Adaptive Differential Coded Pulse Modulation
  • CELP Code Excited Linear Prediction
  • ITU-T Recommendation G.722 which uses ADPCM for Adaptive Differential Pulse Code Modulation (ADPCM).
  • ADPCM Adaptive Differential Pulse Code Modulation
  • the input signal of a G.722-type encoder is in an expanded band with a minimum bandwidth of [50-7000 Hz] with a sampling frequency of 16 kHz.
  • This signal is decomposed into two sub-bands [0-4000 Hz] and [4000-8000 Hz] obtained by decomposition of the signal by Quadrature Mirror Filters (QMF) quadrature mirror filters in English, then each of the subbands is encoded separately by an ADPCM encoder.
  • QMF Quadrature Mirror Filters
  • the low band is coded by a 6, 5 and 4 bit nested code ADPCM coding while the high band is coded by a 2 bit ADPCM coder per sample.
  • the total bit rate is 64, 56 or 48 bit / s depending on the number of bits used for decoding the low band.
  • a quantized signal frame according to the G.722 standard consists of 6, 5 or 4-bit coded quantization indices per low-band sample (0-4000 Hz) and 2 bits per high-band sample (4000-8000 Hz). ). Since the transmission frequency of the scalar indices is 8 kHz in each subband, the bit rate is 64, 56 or 48 kbit / s.
  • the mono signal is decoded (block 201), a de-correlator is used (block 202) to produce two versions M (n) and M '(n) of the decoded mono signal.
  • This decorrelation makes it possible to increase the spatial width of the mono source M (n) and thus to avoid being punctual.
  • These two signals M (n) and M '(n) are passed in the frequency domain (blocks 203 to 206) and the decoded stereo parameters (block 207) are used by the stereo synthesis (or formatting) (block 208) to reconstruct the left and right channels in the frequency domain. These channels are finally reconstructed in the time domain (blocks 209 to 214).
  • the block 105 performs a channel reduction processing or "downmix” by combining the stereo channels (left, right) to obtain a mono signal which is then encoded by a mono encoder.
  • the spatial parameters ICLD, ICPD, ICC, (7) are extracted from the stereo channels and transmitted in addition to the bitstream from the mono encoder.
  • the passive "downmix" which corresponds to a direct matrixing of the stereo channels to combine them into a single signal
  • the compensation parameter can be set as follows:
  • the gains w: w 2 are in general adapted to the short-term signal in particular to align the phases.
  • the phase of the channel L for each frequency sub-band is chosen as the reference phase
  • the channel R is aligned according to the phase of the channel L for each sub-band by the following formula:
  • R '[k] e i ICPDÎb] .R [k] (8)
  • OR l V- L
  • R' [k] is the aligned R-channel
  • k is the index of a coefficient in the b th - frequency band
  • ICPD [b] is the inter-channel phase difference in the b th frequency subband given by:
  • phase alignment therefore conserves energy and avoids attenuation problems by eliminating the influence of the phase.
  • This "downmix” corresponds to the "downmix” described in the document by Breebart et al. or:
  • An ideal conversion of a stereo signal to a mono signal should avoid attenuation problems for all frequency components of the signal.
  • This "downmix" operation is important for parametric stereo coding because the decoded stereo signal is only a spatial shaping of the decoded mono signal.
  • the downmix technique in the frequency domain described above retains the energy level of the stereo signal in the mono signal by aligning the R channel and the L channel before processing. This phase alignment avoids situations where the channels are in phase opposition.
  • the phase of the mono signal after "downmix” becomes constant, and the mono-result signal will generally be bad. quality; similarly, if the reference channel is a random signal (ambient noise, etc.), the phase of the mono signal may become random or be poorly conditioned with again a mono signal which will generally be of poor quality.
  • the amplitude of M [k] is the average of the amplitudes of the L and R channels.
  • the phase of M [k] is given by the phase of the signal summing the two stereo channels (L + R).
  • the method of Hoang et al. preserves the energy of the mono signal as the Samsudin et al. method, and it avoids the problem of total dependence of one of the stereo channels (L or
  • the invention improves the situation of the state of the art.
  • the method proposes a method of parametric coding of a stereo audio signal comprising a step of coding a mono signal resulting from a channel reduction processing applied to the stereo signal and coding signal spatialization information. stereo.
  • the method is such that the channel reduction process comprises the following steps:
  • the channel reduction processing makes it possible to solve at the same time the problems related to the stereo channels in quasi-phase opposition and the problem of possible dependence of the processing on the phase of a reference channel (L or R). Indeed, since this processing involves a modification of one of the stereo channels by rotation of an angle less than the value of the phase difference of the stereo channels (ICPD), to obtain an intermediate channel, it makes it possible to obtain an angular interval adapted to the calculation of a mono signal whose phase (by frequency subband) does not depend on a reference channel. Indeed, the channels thus modified are not aligned in phase.
  • the quality of obtaining the mono signal from the channel reduction processing is improved, especially in the case where the stereo signals are in phase opposition or close to the phase opposition.
  • the mono signal is determined according to the following steps:
  • the intermediate mono signal has a phase that does not depend on a reference channel because the channels from which it is obtained are not aligned in phase.
  • the channels from which the intermediate mono signal is obtained are also not in phase opposition, even if the original stereo channels are, the resulting lower quality problem is solved.
  • the intermediate channel is obtained by rotation of the first predetermined channel by half (ICPD [j] / 2) of the determined phase difference.
  • the spatialization information includes a first information on the amplitude of the stereo channels and a second information on the phase of the stereo channels, the second information comprising, by frequency subband, the phase difference defined between the mono signal and a first predetermined stereo channel.
  • the phase difference between the mono signal and the predetermined stereo channel is a function of the phase difference between the intermediate mono signal and the second channel of the stereo signal.
  • the first predetermined channel is the so-called dominant channel whose amplitude is the highest among the channels of the stereo signal.
  • the dominant channel is determined in the same way to the encoder and the decoder without exchange of information.
  • This dominant channel then serves as a reference for determining the phase differences useful for the channel reduction processing at the encoder or for the synthesis of the stereo signals at the decoder.
  • the first predetermined channel is the so-called dominant channel for which the amplitude of the locally decoded corresponding channel is the highest among the channels of the stereo signal.
  • the determination of the dominant channel is done on locally decoded values to the coding and are therefore identical to those decoded at the decoder.
  • the amplitude of the mono signal is calculated as a function of amplitude values of the locally decoded stereo channels.
  • the amplitude values thus correspond to the real decoded values and make it possible to obtain at decoding a better quality of spatialization.
  • the first piece of information is coded by a first coding layer and the second piece of information is coded by a second coding layer.
  • the present invention also relates to a method for parametric decoding of a stereo audio signal comprising a step of decoding a received mono signal, resulting from a channel reduction processing applied to the original stereo signal and to decoding information.
  • spatialization of the original stereo signal is such that the spatialization information includes a first information on the amplitude of the stereo channels and a second information on the phase of the stereo channels, the second piece of information comprising, by frequency subband, the phase difference defined between the signal mono and a first predetermined stereo channel.
  • the method also comprises the following steps: from the phase difference defined between the mono signal and a first predetermined stereo channel, calculating a phase difference between an intermediate mono channel and the first predetermined channel for a set of frequency subbands;
  • the spatialization information makes it possible to find the phase differences adapted to perform the synthesis of the stereo signals.
  • the signals obtained have a conserved energy compared to the original stereo signals over the entire frequency spectrum, with good quality even for original signals in phase opposition.
  • the first predetermined stereo channel is the so-called dominant channel whose amplitude is the strongest among the channels of the stereo signal.
  • the first information on the amplitude of the stereo channels is decoded by a first decoding layer and the second information is decoded by a second decoding layer.
  • the invention also relates to a parametric encoder of a stereo audio signal comprising a coding module of a mono signal from a channel reduction processing module applied to the stereo signal and information coding modules of spatialization of the stereo signal.
  • the encoder is such that the channel reduction processing module comprises:
  • a parametric decoder of a digital audio signal of a stereo audio signal comprising a decoding module of a received mono signal, resulting from a channel reduction processing applied to the original stereo signal and decoding modules.
  • spatialization information of the original stereo signal is such that the spatialization information includes a first information on the amplitude of the stereo channels and a second information on the phase of the stereo channels, the second piece of information comprising, by frequency subband, the phase difference defined between the signal mono and a first predetermined stereo channel.
  • the decoder comprises:
  • the invention relates to a computer program comprising code instructions for implementing the steps of a coding method according to the invention and / or a decoding method according to the invention.
  • the invention finally relates to a storage means readable by a processor storing a computer program as described.
  • FIG. 1 illustrates an encoder implementing a parametric coding known from the state of the art and previously described
  • FIG. 2 illustrates a decoder implementing a parametric decoding known from the state of the art and previously described
  • FIG. 3 illustrates a stereo parametric encoder according to one embodiment of the invention
  • FIGS. 4a and 4b illustrate, in the form of flowcharts, the steps of a coding method according to alternative embodiments of the invention
  • FIG. 5 illustrates a method of calculating spatialization information in a particular embodiment of the invention
  • FIGS. 6a and 6b illustrate the bitstream of spatialization information coded in a particular embodiment
  • FIGS. 7a and 7b illustrate in one case the non-linearity of the phase of the mono signal in an example of coding not implementing the invention and in the other case in a coding implementing the invention;
  • FIG. 8 illustrates a decoder according to one embodiment of the invention
  • FIG. 9 illustrates a calculation mode according to one embodiment of the invention, phase differences for the synthesis of the stereo signals at the decoder, on the basis of the spatialization information
  • FIGS. 10a and 10b illustrate, in the form of flowcharts, the steps of a decoding method according to alternative embodiments of the invention
  • FIGS. 1a and 11b respectively illustrate a hardware example of a device incorporating an encoder and a decoder able to implement the coding method and the decoding method, according to one embodiment of the invention.
  • This parametric stereo encoder uses a G.722 mono coding at 56 or
  • Each time channel (L (n) and (n)) sampled at 16 kHz is first pre-filtered by a high pass filter (HPF) eliminating components below 50 Hz (blocks 301). and 302).
  • the channels L '(n) and' (n) coming from the pre-filtering blocks are analyzed in frequencies by discrete Fourier transform with overlapping sinusoidal windowing of 50% length 10 ms or 160 samples (blocks 303 to 306).
  • the signal (L '(n), R' (n)) is weighted by a symmetric analysis window covering 2 frames of 5 ms or 10 ms (160 samples).
  • the 10ms analysis window covers the current frame and the future frame.
  • the future frame corresponds to a "future" signal segment commonly called "lookahead" of 5 ms.
  • the index coefficients 0 ⁇ j ⁇ 80 are complex and correspond to a 100 Hz wide subband centered on the frequency of j.
  • Spectra L [j] and R [j] are combined in block 307 described later to obtain a mono (downmix) signal M [j] in the frequency domain.
  • This signal is converted into time by inverse FFT and windowing-overlap with the "lookahead" part of the previous frame (blocks 308-310).
  • a delay of 2 frames must be introduced into the codec-decoder.
  • the delay of 2 frames is specific to the detailed implementation here, in particular it is related to symmetrical sinusoidal windows of 10 ms.
  • This delay could be different.
  • it would be possible to obtain a delay of one frame with an optimized window with a smaller overlap between adjacent windows with a block 311 not introducing a delay (T 0).
  • the block 313 introduces a delay of two frames on the spectra L [j], R [j] and M j] in order to obtain the spectra L buf [j], R bUf [j] and M buf [j].
  • the coding of the stereo spatial information is implemented in the blocks 314 to 316.
  • the stereo parameters are extracted (block 314) and coded (blocks 315 and 316) from the spectrums L [j], R j] and M [j] offset by two frames: L buf [j], R buf lj] and M buf [j].
  • the channel reduction processing block 307 or "downmix" is now described in more detail.
  • the latter performs a "downmix" in the frequency domain to obtain a mono signal M [j].
  • the principle of channel reduction processing is carried out according to steps E400 to E404 or according to steps E410 to E414 illustrated in FIGS. 4a and 4b. These figures show two equivalent variants from a result point of view.
  • a first step E400 determines the phase difference, by frequency line j, between the L and R channels defined in the frequency domain.
  • This phase difference corresponds to the ICPD parameters as described above and defined by the following formula:
  • step E401 a modification of the stereo channel R is performed to obtain an intermediate channel R '.
  • the determination of this intermediate channel is effected by rotating the channel R by an angle obtained by reducing the phase difference determined in step E400.
  • the modification is effected by rotating an angle of ICPD / 2 of the initial channel R to obtain the channel R 'according to the following formula:
  • the phase difference between the two channels of the stereo signal is reduced by half to obtain the intermediate channel R '.
  • the rotation is at a different angle, for example, an angle of 3.ICPD [j] / 4.
  • the phase difference between the two channels of the stereo signal is reduced by 3/4 to obtain the intermediate channel R '
  • step E 402 an intermediate mono signal is calculated from the channels L [J] and R [j]. This calculation is done by frequency coefficient.
  • the amplitude of the intermediate mono signal is obtained by the average of the amplitudes of the intermediate channel R 'and of the channel L and the phase is obtained by the phase of the signal summing the second channel L and the intermediate channel R' (L + R ') according to the following formula:
  • step E403 the phase difference (a '[j]) between the intermediate mono signal and the second channel of the stereo signal, here the channel L, is calculated. This difference is expressed as follows:
  • step E404 determines the mono signal M by rotation of the intermediate mono signal of the angle.
  • the mono signal M is calculated according to the following formula:
  • FIG. 5 illustrates the phase differences mentioned in the method described in FIG. 4a and thus shows the mode of calculating these phase differences.
  • FIG. 4b shows a second variant of the "downmix" method, in which the modification of the stereo channel is performed on the channel L (instead of R) rotated by an angle of -ICPD / 2 (instead of ICPD / 2) to obtain an intermediate channel L '(instead of R').
  • Steps E410 to E414 are not presented here in detail because they correspond to steps E400 to E404 adapted to the fact that the modified channel is no longer R 'but L'.
  • the mono signals M obtained from the channels L and R 'or the channels R and L' are identical.
  • the mono signal M is independent of the stereo channel to be modified (L or R) for a modification angle of ICPD / 2.
  • M j] is directly calculated in the form:
  • the mono signal M can be deduced from the following calculation:
  • the preceding variants have considered different ways of calculating the mono signal according to FIGS. 4a or 4b.
  • the mono signal can be calculated either directly through its amplitude and its phase, or indirectly by rotation of the intermediate mono channel M '.
  • the determination of the phase of the mono signal is made from the phase of the signal summing the intermediate channel and the second stereo signal and from a phase difference between on the one hand the signal summing the intermediate channel and the second channel and secondly the second channel of the stereo signal.
  • the X and Y channels are defined from the locally decoded channels L [j] and R [j] such that
  • I [j] ratio is available at the decoder and at the encoder (by local decoding).
  • the local decoding of the coder is not shown in FIG. 3 for the sake of clarity.
  • the X and Y channels are defined from the original channels L [j] and R [j] such that
  • the mono signal M can be calculated from X and Y by modifying one of the channels (X or Y).
  • the calculation of M from X and Y is deduced from FIGS. 4a and 4b as follows:
  • I [j] represents the amplitude ratio between the decoded L [j] and R [j] channels.
  • the ratio [j] is available to the decoder as to the encoder (by local decoding).
  • the mono signal is calculated by the following formula:
  • step E 402 an intermediate mono signal is calculated from the channels L j] and R [j] with:
  • the mono signal M ' will be calculated as follows:
  • step E 402 This calculation replaces step E 402, while the other steps are preserved (steps 400, 401, 403, 404).
  • step E 412 The difference between this calculation of the intermediate "downmix" M 'and the calculation presented previously resides solely in the amplitude
  • the "downmix" according to the invention differs from the technique of Samsudin et al. in the sense that a channel (L, R or X) is rotated by an angle less than the ICPD value, this rotation angle is obtained by reducing the ICPD by a factor ⁇ 1, the typical value is 1 ⁇ 2 - even if the example of 3 ⁇ 4 was also given without restricting the possibilities.
  • the fact that the factor applied to the ICPD is of value strictly less than 1 makes it possible to qualify the angle of rotation as the result of a "reduction" of the phase difference ICPD.
  • the invention is based on a “downmix” said “intermediate downmix” two essential variants have been presented. This intermediate downmix produces a mono signal whose phase (by frequency line) does not depend on a reference channel (except in the trivial case where one of the stereo channels is zero, which is an extreme case which is not not relevant in the general case).
  • the spectra L bu f [j] and Rbuflj] are divided into 20 sub-frequency bands. These subbands are defined by the following boundaries:
  • ⁇ T L [fc] and ⁇ X s [fc] represent the energy of the left channel (L buf ) and the right channel (R bu f) respectively:
  • the ICLD parameters are coded by differential non-uniform scalar quantization (block 315) on 40 bits per frame. This quantification will not be detailed here because it goes beyond the scope of the invention.
  • phase information for frequencies below 1.5-2 kHz is particularly important for obtaining good stereo quality.
  • the frequency coefficients where the phase information is the most perceptually important are identified, and the associated phases are coded (block 316) by a technique detailed below. after referring to Figures 6a and 6b using a budget of 40 bits per frame.
  • Figures 6a and 6b show the structure of the bitstream for the encoder in a preferred embodiment. It is a hierarchical binary bit structure derived from scalable coding with G.722 coding for core coding.
  • the mono signal is thus encoded by a G.722 coder at 56 or 64 kbit / s.
  • the G.722 core coding operates at 56 kbit / s and a first stereo extension layer (Ext.stereo 1) is added.
  • the G.722 core coding operates at 64 kbit / s and two stereo extension layers (Ext.stereo 1 and Ext.stereo 2) are added.
  • the encoder thus operates according to two possible modes (or configurations):
  • bit stream shown in FIG. 6a includes the information on the amplitude of the stereo channels, for example the ICLD parameters as described above.
  • a 4-bit ICTD parameter is also encoded in the first coding layer.
  • the bit stream shown in Fig. 6b includes both the stereo channel amplitude information in the first extension layer (and a variant ICTD parameter) and the stereo channel phase information in the second layer. extension.
  • the splitting into two extension layers shown in FIGS. 6a and 6b could become generalized in the case where at least one of the two extension layers comprises both a portion of the amplitude information and a portion of the amplitude information. information on the phase.
  • a dominant channel X and a secondary channel Y are determined for each Fourier line of index j from the L channels.
  • î [j] corresponds to the amplitude ratio of the stereo channels, calculated from the ICLD parameters according to the formula:
  • the channels used are the original channels L buf [j] and R buf [j] shifted by a number of frames; since it involves calculating angles, the fact that the amplitude of these channels is the original amplitude or the amplitude decoded locally has no influence.
  • I buf [j] the information for distinguishing between X and Y, so that the encoders and decoders use the same conventions for calculating / decoding the angle ⁇ [.
  • the information [ bu ] [j] is available to the encoder (by local decoding) and offset a number of frames.
  • the decision criterion 1 buf [j] used for the encoding and decoding of e? [J] is therefore identical for the encoder and the decoder.
  • the differentiation between the dominant and secondary channels in the preferred embodiment is motivated mainly by the fact that the fidelity of the stereo synthesis is different depending on whether the angles transmitted by the encoder are X buf [j] or [j] as a function of the ratio of amplitude between L and R.
  • the channels X buf [j], Y buf [j] will not be defined, but one will calculate ⁇ [adaptively as:
  • the coded parameters will be the parameters ⁇ ' [defined by:
  • the ICLD parameters of 20 subbands are encoded by non-uniform scalar quantization (block 315) on 40 bits per frame.
  • the angles ⁇ [are calculated for j 2, .., 9 and encoded by uniform scalar quantization of PI / 16 over 5 bits.
  • the budget allocated to code this phase information is only one particular example of achievement. It can be lower and in this case take into account only one reduced number of frequency lines or on the contrary higher and can allow to code a greater number of frequency lines.
  • these spatialization information on two extension layers is a particular embodiment.
  • the invention is also applicable in the case where this information is coded in a single improvement coding layer.
  • FIGS 7a and 7b now illustrate the advantages that the channel reduction process of the invention can provide over other methods.
  • FIG. 7a illustrates the variation of ⁇ [j] for the channel reduction process described with reference to FIG. 4, as a function of ICLD [J] and j].
  • phase of the mono signal M is quasi-linear as a function of Z.R [j]
  • phase ⁇ [j] of the mono signal is non-linear as a function of Z.R [j];
  • Z.M [j] takes values around 0, PI / 2, or +/- PI according to the values of the parameter
  • ICLD [j] For these signals in phase opposition and close to the phase opposition, the quality of the mono signal may become poor because of the non-linear behavior of the phase of the mono signal ⁇ [j] ⁇
  • the limiting case corresponds to opposite channels
  • the advantage of the invention is to contract the angular interval in order to restrict the calculation of the intermediate mono signal on the interval [-PI 2, PI / 2] for which the phase of the mono signal has a quasi-linear behavior.
  • the mono signal obtained from the intermediate signal then has a linear phase throughout the interval [-PI, PI] even for signals in phase opposition.
  • phase difference OC buf [j] it will be possible to systematically code the phase difference OC buf [j] between the L and M channels, instead of coding ⁇ [; this variant does not distinguish the dominant and secondary channels, it is therefore simpler to achieve but it gives a lower stereo synthesis quality.
  • the decoder can directly decode the angle OC buf [j] between L and M but it will have to "estimate” the angle buf [j] between R and M missing (uncoded); it can be shown that the accuracy of this "estimate" is less good when the L channel is dominant than when the L channel is secondary.
  • the implementation of the encoder presented previously relied on a "downmix” using a reduction of the phase difference ICPD by a factor 1/2.
  • the "downmix” uses another reduction factor ( ⁇ 1), for example of value 3/4, the principle of the coding of the stereo parameters will remain unchanged.
  • the second enhancement layer will comprise the phase difference ( ⁇ [or GC buf [j]) defined between the mono signal and a first predetermined stereo channel.
  • This decoder comprises a demultiplexer 501 in which the coded mono signal is extracted to be decoded at 502 by a G.722 decoder in this example.
  • the portion of the bit stream (scalable) corresponding to G.722 is decoded at 56 or 64 kbit / s depending on the selected mode. It is assumed here that there is no loss of frames or bit errors on the bit stream to simplify the description, however, known frame loss correction techniques can obviously be implemented in the decoder.
  • the decoded mono signal corresponds to M (n) in the absence of channel errors.
  • a short-term discrete Fourier transform analysis with the same windowing as the encoder is performed on M (n) (blocks 503 and 504) to obtain the spectrum M [j]
  • the part of the bit stream associated with the stereo extension is also de-multiplexed. ICLD parameters 505). The details of
  • the amplitudes of the left and right channels are reconstructed (block 507) by applying the decoded ICLD parameters by subband.
  • the amplitudes of the left and right channels are decoded (block 507) by applying the decoded ICLD parameters by subband.
  • the ICLD parameter is coded / decoded by sub-bands and not by frequency band. It is considered here that the frequency lines of index j belonging to the same subband of index k (hence in the interval [B [k], ..., B [k + 1] -l]) have as their ICLD value the ICLD value of the subband.
  • ij] corresponds to the ratio between the two scale factors:
  • This ratio is obtained from the information encoded in the first 8 kbit / s stereo enhancement layer.
  • the associated encodings and decodings are not detailed here, but for a budget of 40 bits per frame it can be considered that this ratio is coded by subband and not frequency line, with a non-uniform subband cut.
  • a 4-bit ICTD parameter is decoded from the first coding layer.
  • FIG. 9 geometrically illustrates the phase differences (angles) decoded according to the invention.
  • the L channel is the secondary channel (Y) and the R channel is the dominant channel (X).
  • Y the secondary channel
  • X the dominant channel
  • the intermediate angle fi ⁇ j ⁇ is defined as the phase difference between M 'and R' as follows:
  • phase difference between M and R is defined by:
  • FIG. 9 would still be valid, but with approximations on the fidelity of the reconstructed L and R channels, and in general a lower quality of stereo synthesis.
  • the spectra R [j] and L [j] are then converted into the time domain by inverse FFT, windowing, addition and overlap (blocks 508 to 513) to obtain the synthesized channels R (n) and L (n).
  • step E1001 the spectrum of the mono signal is M [j] is decoded.
  • the angle a represents the phase difference between a first predetermined channel of the stereo channels, here the L channel and the mono signal.
  • step El 004 an intermediate phase difference ⁇ 'between the second channel of the modified or intermediate stereo signal, here R' and the intermediate mono signal M ', is determined from the calculated phase difference a' and from the information on the amplitude of the stereo channels, decoded in the first extension layer, at block 505 of FIG.
  • step El 005 the phase difference ⁇ between the second channel R and the mono signal M is determined from the intermediate phase difference ⁇ '.
  • steps E1006 and E1007 the synthesis of the stereo signals, by frequency coefficient, is performed from the decoded mono signal and the phase differences determined between the mono signal and the stereo channels.
  • Figure 10b presents the general case where the angle ⁇ [j] adaptively corresponds to the angle â [j] or / # [./].
  • step El 101 the spectrum of the mono signal is M [j] is decoded.
  • the angle [[j] represents the phase difference between a first predetermined channel of the stereo channels (here the secondary channel) and the mono signal.
  • the other phase difference is deduced by exploiting the geometric properties of the downmix used in the invention. Since the downmix can be calculated by indifferently modifying L or R to use a modified channel L 'or R', it is assumed here at the decoder that the decoded mono signal has been obtained by modifying the dominant channel X. Thus we define as to FIG. 9 the intermediate phase difference ( ⁇ 'or ⁇ ') between the secondary channel and the signal intermediate mono M '; this phase difference can be determined from and information on the amplitude [i] of the decoded stereo channels in the first extension layer at block 505 of FIG.
  • step El 111 the phase difference ⁇ between the second channel R and the mono signal M is determined from the intermediate phase difference ⁇ '.
  • step El 112 the synthesis of the stereo signals, by frequency coefficient, is performed from the decoded mono signal and phase differences determined between the mono signal and the stereo channels.
  • the spectra R [j] and £ [J] are thus calculated and then converted into the time domain by inverse FFT, windowing, addition and overlap (blocks 508 to 513) to obtain the synthesized channels R (n) and L (n). .
  • the implementation of the decoder presented previously relied on a "downmix” using a reduction of the phase difference ICPD by a factor 1/2.
  • the "downmix” uses another reduction factor ( ⁇ 1), for example of value 3/4, the principle of the decoding of the stereo parameters will remain unchanged.
  • the second enhancement layer will include the phase difference ( ⁇ [or GC buf [j]) defined between the mono signal and a first predetermined stereo channel.
  • the decoder can deduce the phase difference between the mono signal and the second stereo channel from this information.
  • the encoder presented with reference to FIG. 3 and the decoder presented with reference to FIG. 8 have been described in the case of a particular application of hierarchical coding and decoding.
  • the invention can also be applied in the case where the spatialization information is transmitted and received to the decoder in the same coding layer and for the same bit rate.
  • the invention has been described from a decomposition of stereo channels by discrete Fourier transform.
  • the invention is also applicable to other complex representations, such as for example the Modulated Complex Lapped Transform (MCLT) decomposition combining a modified discrete cosine transform (MDCT) and a discrete modified sinus transform (MDST), as well as the case of Pseudo- Quadrature Mirror Filter (PQMF) filter banks.
  • MCLT Modulated Complex Lapped Transform
  • MDCT modified discrete cosine transform
  • MDST discrete modified sinus transform
  • PQMF Pseudo- Quadrature Mirror Filter
  • the encoders and decoders as described with reference to FIGS. 3 and 8 may be integrated in multimedia equipment of the set-top box type or audio or video content player. They can also be integrated into communication equipment of the mobile phone or communication gateway type.
  • FIG. 11a shows an exemplary embodiment of such an equipment in which an encoder according to the invention is integrated.
  • This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the coding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the coding steps of a mono signal from a channel reduction processing applied to the stereo signal and spatialization information coding of the stereo signal.
  • the channel reduction processing includes determining for a predetermined set of frequency subbands, a phase difference between two stereo channels, obtaining an intermediate channel by rotating a first channel.
  • the phase of the mono signal from the phase of the signal summing the intermediate channel and the second stereo signal and from a difference of phase between on the one hand the signal summing the intermediate channel and the second channel and on the other hand the second channel of the stereo signal.
  • the program may include the steps implemented to code the information adapted to this treatment.
  • the descriptions of FIGS. 3, 4a, 4b and 5 show the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium readable by a reader of the device or equipment or downloadable in the memory space thereof.
  • Such equipment or encoder comprises an input module adapted to receive a stereo signal comprising the R and L channels for right and left, either by a communication network, or by reading a content stored on a storage medium.
  • This multimedia equipment may also include means for capturing such a stereo signal.
  • the device comprises an output module capable of transmitting the coded spatial information parameters P c and a mono signal M originating from the coding of the stereo signal.
  • FIG. 11b illustrates an example of multimedia equipment or decoding device comprising a decoder according to the invention.
  • This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the memory block can advantageously comprise a computer program comprising code instructions for implementing the steps of the decoding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the decoding steps of a received mono signal, resulting from a channel reduction processing applied to the original stereo signal and decoding spatialization information of the original stereo signal, the spatialization information including first information on the amplitude of the stereo channels and a second information on the phase of the stereo channels, the second information comprising, by frequency subband, the phase difference defined between the mono signal and a first predetermined stereo channel.
  • the decoding method comprises from the phase difference defined between the mono signal and a first predetermined stereo channel, calculating a phase difference between an intermediate mono channel and the first predetermined channel for a set of frequency sub-bands.
  • FIGS. 8, 9 and 10 repeats the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
  • the device comprises an input module able to receive the coded spatial information parameters P c and a mono signal M coming for example from a communication network. These input signals can come from a reading on a storage medium.
  • the device comprises an output module capable of transmitting a stereo signal, L and R, decoded by the decoding method implemented by the equipment.
  • This multimedia equipment may also include speaker type reproduction means or communication means capable of transmitting this stereo signal.
  • Such multimedia equipment may include both the encoder and the decoder according to the invention.
  • the input signal then being the original stereo signal and the output signal, the decoded stereo signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L'invention se rapporte un procédé de codage paramétrique d'un signal audionumérique stéréo comportant une étape de codage (312) d'un signal mono (M) issu d'un traitement de réduction de canaux (307) appliqué au signal stéréo et de codage d'informations de spatialisation (315,316) du signal stéréo. Le traitement de réduction de canaux comporte les tapes de détermination (E400) pour un ensemble prédéterminé de sous-bandes fréquentielles, d'une différence de phase (ICPD[j]) entre deux canaux stéréo (L, R), d'obtention (E401) d'un canal intermédiaire (R'[j], L'[j]) par rotation d'un premier canal prédéterminé (R[j], L[j]) du signal stéréo, d'un angle obtenu par réduction de ladite différence de phase, de détermination de la phase du signal mono (E402 à 404) partir de la phase du signal sommant le canal intermédiaire et le second signal stéréo (∠ L + R'), ( ∠ L' + R) et à partir d'une différence de phase ( α'[j] ) entre d'une part le signal sommant le canal intermédiaire et le second canal (L+R', L'+R) et d'autre part le second canal du signal stéréo (L, R). L'invention se rapporte également au procédé de décodage correspondant, au codeur et décodeur mettant en ouvre ces procédés respectifs.

Description

Codage/Décodage paramétrique stéréo amélioré pour les canaux en opposition de phase
La présente invention concerne le domaine du codage/décodage des signaux numériques.
Le codage et le décodage selon l'invention est adapté notamment pour la transmission et/ou le stockage de signaux numériques tels que des signaux audiofréquences (parole, musique ou autres).
Plus particulièrement, la présente invention se rapporte au codage/décodage paramétrique de signaux audio multicanaux, notamment de signaux stéréophoniques ci-après nommés signaux stéréo.
Ce type de codage/décodage se base sur l'extraction de paramètres d'information spatiale pour qu'au décodage, ces caractéristiques spatiales puissent être reconstituées pour l'auditeur, afin de recréer la même image spatiale que dans le signal original.
Une telle technique de codage/décodage paramétrique est par exemple décrite dans le document de J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, intitulé "Parametric Coding of Stereo Audio" dans EURASIP Journal on Applied Signal Processing 2005:9, 1305- 1322. Cet exemple est repris en référence aux figures 1 et 2 décrivant respectivement un codeur et un décodeur stéréo paramétrique.
Ainsi, la figure 1 décrit un codeur recevant deux canaux audio, un canal gauche
(noté L pour Left en anglais) et un canal droit (noté R pour Right en anglais).
Les canaux temporels L(n) et R(n), où n est l'indice entier des échantillons, sont traités par les blocs 101, 102, 103 et 104 respectivement qui effectuent une analyse de Fourier court-terme. Les signaux transformés L[j] et R[j], où j est l'indice entier des coefficients fréquentiels, sont ainsi obtenus.
Le bloc 105 effectue un traitement de réduction de canaux ou "downmix" en anglais pour obtenir dans le domaine fréquentiel à partir des signaux gauche et droit, un signal monophonique ci-après nommé signal mono qui est ici un signal somme.
Une extraction de paramètres d'information spatiale est également effectuée dans le bloc 105. Les paramètres extraits sont les suivants.
Les paramètres ICLD (pour "InterChannel Level Différence" en anglais), encore appelés différences d'intensité intercanal, caractérisent les ratios d'énergie par sous-bande fréquentielle entre les canaux gauche et droit. Ces paramètres permettent de positionner des sources sonores dans le plan horizontal stéréo par "panning". Ils sont définis en dB par la formule suivante:
où L j] et R j] correspondent aux coefficients spectraux (complexes) des canaux L et R, les valeurs B[k] et B[k+1], pour chaque bande de fréquence d'indice k, définissent la découpe en sous-bandes du spectre discret et le symbole * indique le conjugué complexe.
Les paramètres ICPD (pour " InterChannel Phase Différence" en anglais), encore appelés di la relation suivante:
(2)
où Z. indique l'argument (la phase) de l'opérande complexe.
On peut également définir de façon équivalente à l'ICPD, un décalage temporel intercanal appelé ICTD (pour "InterChannel Time Différence" en anglais) et dont la définition connue de l'homme de l'art n'est pas rappelée ici.
A contrario des paramètres ICLD, ICPD et ICTD qui sont des paramètres de localisation, les paramètres ICC (pour "InterChannel Cohérence" en anglais) représentent quant à eux la corrélation (ou cohérence) intercanal et sont associés à la largeur spatiale des sources sonores; leur définition n'est pas rappelée ici, mais il est noté dans l'article de Breebart et al. que les paramètres ICC ne sont pas nécessaires dans les sous-bandes réduites à un seul coefficient fréquentiel - en effet les différences d'amplitude et de phase décrivent complètement la spatialisation dans ce cas "dégénéré".
Ces paramètres ICLD, ICPD et ICC sont extraits par analyse des signaux stéréo, par le bloc 105. Si les paramètres ICTD étaient également codés, ceux-ci pourraient également être extraits par sous-bande à partir des spectres L[j] et R[j] ; cependant l'extraction des paramètres ICTD est en général simplifiée en supposant un décalage temporel intercanal identique pour chaque sous-bande et dans ce cas ces paramètres peuvent être extraits à partir des canaux temporels L(n) et R(n) par le biais d'inter-corrélations.
Le signal mono M[j] est transformé dans le domaine temporel (blocs 106 à 108) après synthèse de Fourier court-terme (FFT inverse, fenêtrage et addition-recouvrement dite OverLap-Add ou OLA en anglais) et un codage mono (bloc 109) est ensuite réalisé. En parallèle les paramètres stéréo sont quantifiés et codés dans le bloc 110.
général le spectre des signaux ( L j'J , R j'J ) est divisé suivant une échelle fréquentielle non-linéaire de type ERB (Equivalent Rectangular Bandwidth) ou Bark, avec un nombre de sous-bandes allant typiquement de 20 à 34 pour un signal échantillonné de 16 à 48 kHz. Cette échelle définit les valeurs de B[k] et B[k+1] pour chaque sous-bande k. Les paramètres (ICLD, ICPD, ICC) sont codés par quantification scalaire éventuellement suivie d'un codage entropique et/ou d'un codage différentiel. Par exemple, dans l'article précédemment cité, l'ICLD est codée par un quantificateur non-uniforme (allant de -50 à +50 dB) avec codage entropique différentiel. Le pas de quantification non-uniforme exploite le fait que plus la valeur de l'ICLD est grande plus la sensibilité auditive aux variations de ce paramètre est faible.
Pour le codage du signal mono (bloc 109), plusieurs techniques de quantification avec ou sans mémoire sont possibles, par exemple le codage à "Modulation par Impulsions Codées" (MIC), sa version adaptative dite "Modulation par Impulsions Codées Différentielle Adaptative" (MICDA) ou des techniques plus évoluées comme le codage perceptuel par transformée ou le codage "Code Excited Linear Prédiction" (CELP).
On s'intéresse ici plus particulièrement à la recommandation UIT-T G.722 qui utilise le codage MICDA à codes imbriqués en sous-bandes (ou ADPCM pour "Adaptive Differential Puise Code Modulation" en anglais).
Le signal d'entrée d'un codeur de type G.722 est en bande élargie de largeur de bande minimale de [50-7000 Hz] avec une fréquence d'échantillonnage de 16 kHz. Ce signal est décomposé en deux sous-bandes [0-4000 Hz] et [4000-8000 Hz] obtenues par décomposition du signal par des filtres miroir en quadrature dit Quadrature Mirror Filters (QMF) en anglais, puis chacune des sous-bandes est codée séparément par un codeur MICDA.
La bande basse est codée par un codage MICDA à codes imbriqués sur 6, 5 et 4 bits tandis que la bande haute est codée par un codeur MICDA de 2 bits par échantillon. Le débit total est de 64, 56 ou 48 bit/s suivant le nombre de bits utilisé pour le décodage de la bande basse.
La recommandation G.722 datant de 1988 a d'abord été utilisée dans le RNIS (Réseau Numérique à Intégration de Services) pour des applications d'audio et vidéoconférence. Depuis plusieurs années, ce codeur est utilisé dans les applications de téléphonie améliorée de qualité voix HD (Haute Définition) ou HD voice en anglais sur réseau IP fixe.
Une trame de signal quantifié selon la norme G.722 est constituée d'indices de quantification codés sur 6, 5 ou 4 bits par échantillon en bande basse (0-4000 Hz) et 2 bits par échantillon en bande haute (4000-8000 Hz). La fréquence de transmission des indices scalaires étant de 8 kHz dans chaque sous-bande, le débit est de 64, 56 ou 48 kbit/s.
Au décodeur 200, en référence à la figure 2, le signal mono est décodé (bloc 201), un dé-corrélateur est utilisé (bloc 202) pour produire deux versions M(n) et M'(n) du signal mono décodé. Cette décorrélation permet d'augmenter la largeur spatiale de la source mono M(n) et d'éviter ainsi qu'elle soit ponctuelle. Ces deux signaux M(n) et M'(n) sont passés dans le domaine fréquentiel (blocs 203 à 206) et les paramètres stéréo décodés (bloc 207) sont utilisés par la synthèse (ou mise en forme) stéréo (bloc 208) pour reconstruire les canaux gauche et droit dans le domaine fréquentiel. Ces canaux sont enfin reconstruits dans le domaine temporel (blocs 209 à 214).
Ainsi, comme mentionné pour le codeur, le bloc 105 effectue un traitement de réduction des canaux ou "downmix" en combinant les canaux stéréo (gauche, droit) pour obtenir un signal mono qui est ensuite codé par un codeur mono. Les paramètres spatiaux (ICLD, ICPD, ICC, ...) sont extraits à partir des canaux stéréo et transmis en plus du train binaire issu du codeur mono.
Plusieurs techniques ont été développées pour le traitement de réduction des canaux ou "downmix" stéréo à mono. Ce "downmix" peut être effectué dans le domaine temporel ou fréquentiel. On distingue en général deux types de "downmix":
- Le "downmix" passif qui correspond à un matriçage direct des canaux stéréo pour les combiner en un seul signal;
- Le "downmix" actif (adaptatif) qui inclut un contrôle de l'énergie et/ou de la phase en plus de la combinaison des deux canaux stéréo.
L'exemple le plus simple de "downmix" passif est donné par le matriçage temporel suivant:
Ce type de "downmix" a cependant l'inconvénient de ne pas bien conserver l'énergie des signaux après la conversion stéréo à mono lorsque les canaux L et R ne sont pas en phase: dans le cas extrême où L(n)= - R(n), le signal mono est nul, ce qui n'est pas souhaitable.
Un mécanisme de "downmix" actif améliorant la situation est donné par l'équation suivante:
«Μ= Χ») ¾";* (4) où γ{ή) est un facteur qui vient compenser une éventuelle perte d'énergie.
Cependant, le fait de combiner les signaux L(n) et R(n) dans le domaine temporel ne permet pas de contrôler finement (avec suffisamment de résolution fréquentielle) les différences de phase éventuelles entre canaux L et R; lorsque les canaux L et R ont des amplitudes comparables et de phases quasiment opposées, des phénomènes d' " effacement " ou "atténuation" (perte d' "énergie") sur le signal mono peuvent être observés par sous-bandes fréquentielles par rapport aux canaux stéréo.
C'est pourquoi il est souvent plus avantageux en termes de qualité de réaliser le "downmix" dans le domaine fréquentiel, même si cela implique de calculer des transformées temps/fréquence et induit un retard et une complexité additionnels par rapport à un "downmix" temporel.
On peut ainsi transposer le "downmix" actif précédent avec les spectres des canaux gauche et droit, de la façon suivante:
Mlk] = m≡±≡ï (5)
où k correspond à l'indice d'un coefficient fréquentiel (coefficient de Fourier par exemple représentant une sous-bande fréquentielle). On peut fixer le paramètre de compensation, comme suit:
On s'assure ainsi que l'énergie globale du "downmix" est la somme des énergies des canaux gauche et droit. Le facteur y[k] est ici saturé à une amplification de 6dB.
La technique de "downmix" stéréo à mono du document de Breebaart et al. cité précédemment est effectuée dans le domaine fréquentiel. Le signal mono M [fc] est obtenu par une combinaison linéaire des canaux L et R suivant l'équation:
M [k] = wlL[k] + w2R [k] (7)
où w1 , w2 sont des gains à valeur complexe. Si wl = w2 = 0.5 , le signal mono est considéré comme une moyenne des deux canaux L et R. Les gains w: , w2 sont en général adaptés en fonction du signal court-terme en particulier pour aligner les phases.
Un cas particulier de cette technique de "downmix" fréquentiel est proposé dans le document intitulé "A stereo to mono downmixing scheme for MPEG-4 parametric stereo encoder" par Samsudin, E. Kurniawati, N. Boon Poh, F. Sattar, S. George, dans IEEE Trans., ICASSP 2006. Dans ce document, les canaux L et R sont alignés en phase avant d'effectuer le traitement de réduction des canaux.
Plus précisément, la phase du canal L pour chaque sous-bande fréquentielle est choisie comme la phase de référence, le canal R est aligné selon la phase du canal L pour chaque sous-bande par la formule suivante:
R '[k] = ei ICPDÎb] .R [k] (8) OU l = V- L , R '[k] est le canal R aligné, k est l'indice d'un coefficient dans la bieme sous- bande fréquentielle, ICPD[b] est la différence de phase inter-canal dans la bieme sous-bande fréquentielle donnée par:
lCPD [*] = (∑^-1L[fc] . î* [fc]) (9) où kb définit les intervalles fréquentiels de la sous-bande correspondante et * est le conjugué complexe. A noter que lorsque la sous-bande d'indice b est réduite à un coefficient fréquentiel, on trouve:
R '[fc] = |R [fc]| .e;' L[t] (10)
Finalement le signal mono obtenu par le "downmix" du document de Samsudin et al. cité précédemment est calculé en moyennant le canal L et le canal R' aligné, selon l'équation suivante:
L'alignement en phase permet donc de conserver l'énergie et d'éviter les problèmes d'atténuation en éliminant l'influence de la phase. Ce "downmix" correspond au "downmix" décrit dans le document de Breebart et al. où:
M [k] = w1L[k] + w2R [k] avec wl = ^ et w2 = I P^b^ (i2)
Une conversion idéale d'un signal stéréo à un signal mono doit éviter les problèmes d'atténuation pour toutes les composantes fréquentielles du signal.
Cette opération de "downmix" est importante pour le codage stéréo paramétrique car le signal stéréo décodé n'est qu'une mise en forme spatiale du signal mono décodé.
La technique de "downmix" dans le domaine fréquentiel décrite précédemment conserve bien le niveau d'énergie du signal stéréo dans le signal mono en alignant le canal R et le canal L avant d'effectuer le traitement. Cet alignement de phase permet d'éviter les situations où les canaux sont en opposition de phase.
La méthode de Samsudin et al. repose cependant sur une dépendance totale du traitement de "downmix" au canal (L ou R) choisi pour fixer la phase de référence.
Dans les cas extrêmes, si le canal de référence est nul (silence "total") et que l'autre canal est non nul, la phase du signal mono après "downmix" devient constante, et le signal mono résultat sera en général de mauvaise qualité ; de même, si le canal de référence est un signal aléatoire (bruit ambiant, etc .), la phase du signal mono peut devenir aléatoire ou être mal conditionnée avec là encore un signal mono qui sera en général de mauvaise qualité.
Une technique de downmix fréquentiel alternative a été proposée dans le document intitulé " Parametric stereo extension of ITU-T G.722 based on a new downmixing scheme" par T.M.N Hoang, S. Ragot, B. Kovësi, P. Scalart, Proc. IEEE MMSP, 4-6 Oct. 2010. Ce document propose une technique de "downmix" qui résout des inconvénients du "downmix" proposé par Samsudin et al.. Selon ce document, le signal mono M[k] est calculé à partir des canaux stéréo L[k] et R[k] par la formule suivante:
où l'ampli pour chaque sous-bande sont définis par:
L'amplitude de M[k] est la moyenne des amplitudes des canaux L et R. La phase de M[k] est donnée par la phase du signal sommant les deux canaux stéréo (L+R).
La méthode de Hoang et al. préserve l'énergie du signal mono comme la méthode de Samsudin et al., et elle évite le problème de dépendance totale d'un des canaux stéréo (L ou
R) pour le calcul de phase ΔΜ [k . Cependant, elle présente un désavantage quand les canaux L et R sont en quasi-opposition de phase dans certaines sous-bandes (avec comme cas extrême L = -R). Dans ces conditions, le signal mono résultant sera de mauvaise qualité.
Il existe ainsi un besoin d'une méthode de codage/décodage qui permette de combiner des canaux en gérant les signaux stéréo en opposition de phase ou dont la phase est mal conditionnée pour éviter les problèmes de qualité que ces signaux peuvent créer.
L'invention vient améliorer la situation de l'état de l'art.
A cet effet, elle propose un procédé de codage paramétrique d'un signal audionumérique stéréo comportant une étape de codage d'un signal mono issu d'un traitement de réduction de canaux appliqué au signal stéréo et de codage d'informations de spatialisation du signal stéréo. Le procédé est tel que le traitement de réduction de canaux comporte les étapes suivantes:
- détermination pour un ensemble prédéterminé de sous-bandes fréquentielles, d'une différence de phase entre deux canaux stéréo;
- obtention d'un canal intermédiaire par rotation d'un premier canal prédéterminé du signal stéréo, d'un angle obtenu par réduction de ladite différence de phase;
- détermination de la phase du signal mono à partir de la phase du signal sommant le canal intermédiaire et le second signal stéréo et à partir d'une différence de phase entre d'une part le signal sommant le canal intermédiaire et le second canal et d'autre part le second canal du signal stéréo. Ainsi, le traitement de réduction des canaux permet de résoudre à la fois les problèmes liés aux canaux stéréo en quasi-opposition de phase et le problème de dépendance éventuelle du traitement à la phase d'un canal référence (L ou R). En effet, ce traitement comportant une modification d'un des canaux stéréo par rotation d'un angle inférieur à la valeur de la différence de phase des canaux stéréo (ICPD), pour obtenir un canal intermédiaire, il permet d'obtenir un intervalle angulaire adapté au calcul d'un signal mono dont la phase (par sous-bande fréquentielle) ne dépend pas d'un canal de référence. En effet, les canaux ainsi modifiés ne sont pas alignés en phase.
La qualité d'obtention du signal mono issu du traitement de réduction de canaux en est améliorée, notamment dans le cas où les signaux stéréo sont en opposition de phase ou proche de l'opposition de phase.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de codage défini ci-dessus.
Dans un mode particulier de réalisation, le signal mono est déterminé selon les étapes suivantes:
- obtention, par bande de fréquence, d'un signal mono intermédiaire à partir dudit canal intermédiaire et du second canal du signal stéréo;
- détermination du signal mono par rotation dudit signal mono intermédiaire de la différence de phase entre le signal mono intermédiaire et le second canal du signal stéréo.
Dans ce mode de réalisation, le signal mono intermédiaire a une phase qui ne dépend pas d'un canal référence du fait que les canaux à partir duquel il est obtenu, ne sont pas alignés en phase. De plus, les canaux à partir duquel le signal mono intermédiaire est obtenu n'étant pas non plus en opposition de phase, même si les canaux stéréo d'origine le sont, le problème de moindre qualité en résultant est résolu. Dans un mode particulier, le canal intermédiaire est obtenu par rotation du premier canal prédéterminé de la moitié (ICPD[j]/2) de la différence de phase déterminée.
Ceci permet d'obtenir un intervalle angulaire dans lequel la phase du signal mono est linéaire pour des signaux stéréo en opposition de phase ou proches de l'opposition de phase.
Pour s'adapter à ce traitement de réduction de canaux, les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par sous-bande fréquentielle, la différence de phase définie entre le signal mono et un premier canal stéréo prédéterminé. Ainsi, seules les informations de spatialisation utiles pour la reconstruction du signal stéréo, sont codées. Un codage bas débit est alors possible tout en permettant d'obtenir au décodeur un signal stéréo de bonne qualité.
Dans un mode particulier de réalisation, la différence de phase entre le signal mono et le canal stéréo prédéterminé est fonction de la différence de phase entre le signal mono intermédiaire et le second canal du signal stéréo.
Ainsi, il n'est pas utile, pour le codage de l'information de spatialisation, de déterminer une autre différence de phase que celle déjà utilisée dans le traitement de réduction de canaux. Ceci apporte donc un gain en capacité et en temps de traitement.
Dans une variante de réalisation, le premier canal prédéterminé est le canal dit dominant dont l'amplitude est la plus forte parmi les canaux du signal stéréo.
Ainsi, le canal dominant se détermine de la même façon au codeur et au décodeur sans échange d'informations. Ce canal dominant sert alors de référence pour la détermination des différences de phases utiles pour le traitement de réduction de canaux au codeur ou pour la synthèse des signaux stéréo au décodeur.
Dans une autre variante de réalisation, pour au moins un ensemble prédéterminé de sous-bandes fréquentielles, le premier canal prédéterminé est le canal dit dominant pour lequel l'amplitude du canal correspondant décodé localement est la plus forte parmi les canaux du signal stéréo.
Ainsi, la détermination du canal dominant se fait sur des valeurs décodées localement au codage et sont donc identiques à celles qui seront décodées au décodeur.
De même, l'amplitude du signal mono est calculé en fonction de valeurs d'amplitude des canaux stéréo décodées localement.
Les valeurs d'amplitude correspondent ainsi aux vraies valeurs décodées et permettent d'obtenir au décodage une meilleure qualité de spatialisation.
Dans une variante de réalisation de tous les modes, adaptée à un codage hiérarchique, la première information est codée par une première couche de codage et la seconde information est codée par une seconde couche de codage.
La présente invention se rapport également à un procédé de décodage paramétrique d'un signal audionumérique stéréo comportant une étape de décodage d'un signal mono reçu, issu d'un traitement de réduction de canaux appliqué au signal stéréo original et de décodage d'informations de spatialisation du signal stéréo original. Le procédé est tel que les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par sous-bande fréquentielle, la différence de phase définie entre le signal mono et un premier canal stéréo prédéterminé. Le procédé comporte également les étapes suivantes: - à partir de la différence de phase définie entre le signal mono et un premier canal stéréo prédéterminé, calcul d'une différence de phase entre un canal mono intermédiaire et le premier canal prédéterminé pour un ensemble de sous-bandes fréquentielles;
- détermination d'une différence de phase intermédiaire entre le deuxième canal du signal stéréo modifié et un signal mono intermédiaire à partir de la différence de phase calculée et de la première information décodée;
- détermination de la différence de phase entre le deuxième canal et le signal mono à partir de la différence de phase intermédiaire;
- synthèse des signaux stéréo, par coefficient fréquentiel, à partir du signal mono décodé et des différences de phases déterminées entre le signal mono et les canaux stéréo.
Ainsi au décodage, les informations de spatialisation permettent de retrouver les différences de phase adaptées pour effectuer la synthèse des signaux stéréo.
Les signaux obtenus ont une énergie conservée par rapport aux signaux stéréo originaux sur tout le spectre fréquentiel, avec une bonne qualité même pour des signaux originaux en opposition de phase.
Selon un mode de réalisation particulier, le premier canal stéréo prédéterminé est le canal dit dominant dont l'amplitude est la plus forte parmi les canaux du signal stéréo.
Ceci permet de retrouver au décodeur, le canal stéréo utilisé pour l'obtention d'un canal intermédiaire au codeur sans transmission d'informations supplémentaires.
Dans une variante de réalisation de tous les modes, adaptée au décodage hiérarchique, la première information sur l'amplitude des canaux stéréo est décodée par une première couche de décodage et la seconde information est décodée par une seconde couche de décodage.
L'invention se rapporte également à un codeur paramétrique d'un signal audionumérique stéréo comportant un module de codage d'un signal mono issu d'un module de traitement de réduction de canaux appliqué au signal stéréo et des modules de codage d'informations de spatialisation du signal stéréo. Le codeur est tel que le module de traitement de réduction de canaux comporte:
- des moyens de détermination pour un ensemble prédéterminé de sous-bandes fréquentielles, d'une différence de phase entre les deux canaux du signal stéréo;
- des moyens d'obtention d'un canal intermédiaire par rotation d'un premier canal prédéterminé du signal stéréo, d'un angle obtenu par réduction de ladite différence de phase déterminée;
- des moyens de détermination de la phase du signal mono à partir de la phase du signal sommant le canal intermédiaire et le second signal stéréo et à partir d'une différence de phase entre d'une part le signal sommant le canal intermédiaire et le second canal et d'autre part le second canal du signal stéréo.
Elle se rapporte aussi à un décodeur paramétrique d'un signal audionumérique d'un signal audionumérique stéréo comportant un module de décodage d'un signal mono reçu, issu d'un traitement de réduction de canaux appliqué au signal stéréo original et des modules de décodage d'informations de spatialisation du signal stéréo original. Le décodeur est tel que les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par sous-bande fréquentielle, la différence de phase définie entre le signal mono et un premier canal stéréo prédéterminé. Le décodeur comporte:
- des moyens de calcul d'une différence de phase ou entre un canal mono intermédiaire et le premier canal prédéterminé pour un ensemble de sous-bandes fréquentielles, à partir de la différence de phase définie entre le signal mono et un premier canal stéréo prédéterminé,;
- des moyens de détermination d'une différence de phase intermédiaire entre le deuxième canal du signal stéréo modifié et un signal mono intermédiaire à partir de la différence de phase calculée et de la première information décodée;
- des moyens de détermination de la différence de phase entre le deuxième canal et le signal mono à partir de la différence de phase intermédiaire;
- des moyens de synthèse des signaux stéréo, par sous-bande fréquentielle, à partir du signal mono décodé et des différences de phases déterminées entre le signal mono et les canaux stéréo.
Enfin, l'invention se rapporte à un programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage selon l'invention et/ou d'un procédé de décodage selon l'invention.
L'invention se rapporte enfin à un moyen de stockage lisible par un processeur mémorisant un programme informatique tel que décrit.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:
- la figure 1 illustre un codeur mettant en œuvre un codage paramétrique connu de l'état de l'art et précédemment décrit;
- la figure 2 illustre un décodeur mettant en œuvre un décodage paramétrique connu de l'état de l'art et précédemment décrit; - la figure 3 illustre un codeur paramétrique stéréo selon un mode de réalisation de l'invention;
- les figures 4a et 4b illustrent sous forme d'organigrammes, les étapes d'un procédé de codage selon des variantes de réalisation de l'invention;
- la figure 5 illustre un mode de calcul des informations de spatialisation dans un mode de réalisation particulier de l'invention;
- les figures 6a et 6b illustrent le train binaire des informations de spatialisation codés dans un mode particulier de réalisation;
- les figures 7a et 7b illustrent dans un cas la non linéarité de la phase du signal mono dans un exemple de codage ne mettant pas en œuvre l'invention et dans l'autre cas dans un codage mettant en œuvre l'invention;
- la figure 8 illustre un décodeur selon un mode de réalisation de l'invention;
- la figure 9 illustre un mode de calcul selon un mode de réalisation de l'invention, des différences de phase pour la synthèse des signaux stéréo au décodeur, à partie des informations de spatialisation;
- les figures 10a et 10b illustrent sous forme d'organigrammes, les étapes d'un procédé de décodage selon des variantes de réalisation de l'invention;
- les figures l ia et 11b illustrent respectivement un exemple matériel d'un équipement incorporant un codeur et un décodeur aptes à mettre en œuvre le procédé de codage et le procédé de décodage, selon un mode de réalisation de l'invention.
En référence à la figure 3, un codeur paramétrique de signaux stéréo selon un mode de réalisation de l'invention, délivrant à la fois un signal mono et des paramètres d'information spatiale du signal stéréo est maintenant décrit.
Ce codeur stéréo paramétrique tel qu'illustré utilise un codage mono G.722 à 56 ou
64 kbit/s et étend ce codage en opérant en bande élargie avec des signaux stéréo échantillonnés à 16 kHz avec des trames de 5 ms. Il est à noter que le choix d'une longueur de trames de 5 ms n'est en aucun cas restrictif dans l'invention qui s'applique pareillement dans des variantes du mode de réalisation où la longueur de trames est différente, par exemple de 10 ou 20 ms. Par ailleurs, l'invention s'applique pareillement à d'autres types de codage mono, tels qu'une version améliorée et interopérable de G.722, ou d'autres codeurs opérant à la même fréquence d'échantillonnage (par exemple G.711.1) ou à d'autres fréquences (par exemple 8 ou 32 kHz).
Chaque canal temporel (L(n) et (n)) échantillonné à 16 kHz est d'abord pré-filtré par un filtre passe-haut (HPF pour High Pass Filter en anglais) éliminant les composantes en dessous de 50 Hz (blocs 301 et 302). Les canaux L'(n) et '(n) issus des blocs de pré-filtrage sont analysés en fréquences par transformée de Fourier discrète avec fenêtrage sinusoïdal à recouvrement de 50% de longueur 10 ms soit 160 échantillons (blocs 303 à 306). Pour chaque trame, le signal (L'(n), R'(n)) est donc pondéré par une fenêtre d'analyse symétrique couvrant 2 trames de 5 ms soit 10 ms (160 échantillons). La fenêtre d'analyse de 10 ms couvre la trame courante et la trame future. La trame future correspond à un segment de signal "futur" communément appelé "lookahead" de 5 ms.
Pour la trame courante de 80 échantillons (5 ms à 16 kHz), les spectres obtenus, L[j] et R j] (/=0.. .80), comprennent 81 coefficients complexes, avec une résolution de 100 Hz par coefficient fréquentiel. Le coefficient d'indice j=0 correspond à la composante continue (0 Hz), il est réel. Le coefficient d'indice j=80 correspond à la fréquence de Nyquist (8000 Hz), il est aussi réel. Les coefficients d'indice 0 < j <80 sont complexes et correspondent à une sous- bande de largeur 100 Hz centrée sur la fréquence de j.
Les spectres L[j] et R[j] sont combinés dans le bloc 307 décrit ultérieurement pour obtenir un signal mono (downmix) M[j] dans le domaine fréquentiel. Ce signal est converti en temps par FFT inverse et fenêtrage-recouvrement avec la partie "lookahead" de la trame précédente (blocs 308 à 310).
Puisque le retard algorithmique de G.722 est de 22 échantillons, le signal mono est retardé (bloc 311) de T = 80-22 échantillons de sorte que le retard accumulé entre le signal mono décodé par G.722 et les canaux stéréo originaux devient un multiple de la longueur de trames (80 échantillons). Par suite, pour synchroniser l'extraction de paramètres stéréo (bloc 314) et la synthèse spatiale à partir du signal mono effectué au décodeur, il faut introduire dans le codeur-décodeur un retard de 2 trames. Le retard de 2 trames est spécifique à la mise en œuvre détaillée ici, en particulier il est lié aux fenêtres symétriques sinusoïdales de 10 ms.
Ce retard pourrait être différent. Dans une variante de réalisation, on pourrait obtenir un retard d'une trame avec une fenêtre optimisée avec un recouvrement plus faible entre fenêtres adjacentes avec un bloc 311 n'introduisant pas de retard (T=0).
On considère dans un mode particulier de réalisation de l'invention, illustré ici à la figure 3, que le bloc 313 introduit un retard de deux trames sur les spectres L[j] , R[j] et M j] afin d'obtenir les spectres Lbuf[j], RbUf[j] et Mbuf[j].
On pourrait de façon plus avantageuse en termes de quantité de données à stocker, décaler les sorties du bloc 314 d'extraction des paramètres ou encore les sorties des blocs de quantification 315 et 316. On pourrait également introduire ce décalage au décodeur à la réception des couches d'amélioration stéréo.
Parallèlement au codage mono, le codage de l'information spatiale stéréo est mis en œuvre dans les blocs 314 à 316. Les paramètres stéréo sont extraits (bloc 314) et codés (blocs 315 et 316) à partir des spectres L[j] , R j] et M[j] décalés de deux trames: Lbuf[j], Rbuflj] et Mbuf[j].
Le bloc de traitement de réduction de canaux 307 ou "downmix" est maintenant décrit plus en détails.
Celui-ci réalise selon un mode de réalisation de l'invention, un "downmix" dans le domaine fréquentiel pour obtenir un signal mono M [j] .
Selon l'invention, le principe de traitement de réduction de canaux s'effectue selon les étapes E400 à E404 ou selon les étapes E410 à E414 illustrées aux figures 4a et 4b. Ces figures montrent deux variantes équivalentes d'un point de vue résultat.
Ainsi, selon la variante de la figure 4a, une première étape E400 détermine la différence de phase, par raie fréquentielle j , entre les canaux L et R définis dans le domaine fréquentiel. Cette différence de phase correspond aux paramètres ICPD tels que décrits précédemment et définis par la formule suivante:
ICPO [j] = z(L[j] .R [j]* ) (13) où j=0, .. . ,80 et (.) représente la phase (argument complexe).
A l'étape E401 , une modification du canal stéréo R est effectuée pour obtenir un canal intermédiaire R'. La détermination de ce canal intermédiaire s'effectue par rotation du canal R d'un angle obtenu par réduction de la différence de phase déterminée à l'étape E400.
Dans un mode particulier de réalisation décrit ici, la modification s'effectue par une rotation d'un angle de ICPD/2 du canal initial R pour obtenir le canal R' selon la formule suivante:
R [j] = R [j} c !CPD^2 (14)
Ainsi, la différence de phase entre les deux canaux du signal stéréo est réduite de moitié pour obtenir le canal intermédiaire R'.
Dans un autre mode de réalisation, la rotation se fait avec un angle différent par exemple, un ang le de 3.ICPD[j] /4 . Dans ce cas la différence de phase entre les deux canaux du signal stéréo est réduite de 3/4 pour obtenir le canal intermédiaire R'
A l'étape E 402, un signal mono intermédiaire est calculé à partir des canaux L [ J] et R [ j] . Ce calcul est effectué par coefficient fréquentiel. L'amplitude du signal mono intermédiaire est obtenue par la moyenne des amplitudes du canal intermédiaire R' et du canal L et la phase est obtenue par la phase du signal sommant le second canal L et le canal intermédiaire R' (L+R'), selon la formule suivante:
où l.l représente l'amplitude (module complexe).
A l'étape E403, la différence de phase (a'[j]) entre le signal mono intermédiaire et le second canal du signal stéréo, ici le canal L, est calculé. Cette différence s'exprime de la façon suivante:
a'[j] = z(L[j] .M '[j ) (16)
A partir de cette différence de phase, l'étape E404 détermine le signal mono M par rotation du signal mono intermédiaire de l'angle '.
Le signal mono M se calcule selon la formule suivante:
M[j] = M '[j].e~ia'U] (17)
A noter que si le canal modifié R' avait été obtenu par rotation de R d'un angle
3.ICPD[ j] / 4 , alors une rotation de M' d'un angle de 3. ' serait nécessaire pour obtenir M; le signal mono M serait cependant différent du signal mono calculé à l'équation 17.
La figure 5 illustre les différences de phase mentionnées dans le procédé décrit à la figure 4a et montre ainsi le mode de calcul de ces différences de phase.
L'illustration est faite ici avec les valeurs suivantes: ICLD=-12dB et ICPD=165°. Les signaux L et R sont donc en quasi opposition de phase.
Ainsi, on peut remarquer l'angle ICPD/2 entre le canal R et le canal intermédiaire R', l'angle a' entre le canal mono intermédiaire M' et le canal L. On peut ainsi voir que l'angle a' est aussi la différence entre le canal mono intermédiaire M' et le canal mono M, par construction du canal mono.
Ainsi, comme représenté sur la figure 5, la différence de phase entre le canal L et le canal mono
a[j] = Z(L[j].M[jî ) (18)
vérifie la relation: α= 2α'.
Ainsi, le procédé tel que décrit en référence à la figure 4a requiert le calcul de trois angles ou différences de phase:
- la différence de phase entre les deux canaux stéréo d'origine L et R (ICPD)
- la phase du signal mono intermédiaire ZM'[j]
- l'angle a'[ j] pour appliquer la rotation de M' pour obtenir M.
La figure 4b montre une seconde variante du procédé de "downmix", dans laquelle la modification du canal stéréo est effectuée sur le canal L (au lieu de R) tourné d'un angle de -ICPD/2 (au lieu de ICPD/2) pour obtenir un canal intermédiaire L' (au lieu de R'). Les étapes E410 à E414 ne sont pas présentées ici en détails car elles correspondent aux étapes E400 à E404 adaptées au fait que le canal modifié n'est plus R' mais L'. On peut montrer que les signaux mono M obtenu à partir des canaux L et R' ou les canaux R et L' sont identiques. Ainsi, le signal mono M est indépendant du canal stéréo à modifier (L ou R) pour un angle de modification de ICPD/2.
On peut également remarquer d'autres variantes mathématiquement équivalentes au procédé illustré aux figures 4a et 4b sont possibles.
Dans une variante équivalente, l'amplitude M [ j]| et la phase ZM [ j] de M' ne sont pas calculés explicitement. En effet il suffit de calculer directement M' sous la forme:
Ainsi seuls deux angles (ICPD) et X'[j] doivent être calculés. Cependant cette variante requiert de calculer l'amplitude de L+R' et d'effectuer une division et la division est une opération souvent coûteuse en pratique.
Dans une autre variante équivalente, on calcule directement M j] sous la forme:
ou de façon équivalente:
On peut montrer mathématiquement que le calcul de ZM [ j] donne un résultat identique aux procédés des figures 4a et 4b. Cependant, dans cette variante l'angle X'[j] n'est pas calculé, ce qui est un désavantage car cet angle est utilisé par la suite dans le codage des paramètres stereo.
Dans une autre variante, le signal mono M pourra être déduit à partir du calcul suivant:
ZM [j] = ZL[j] - 2.a'[j]
Les variantes précédentes ont considéré différentes façons de calculer le signal mono suivant les figures 4a ou 4b. On remarque que le signal mono peut être calculé soit directement au travers de son amplitude et de sa phase, soit indirectement par rotation du canal mono intermédiaire M'.
Dans tous les cas, la détermination de la phase du signal mono s'effectue à partir de la phase du signal sommant le canal intermédiaire et le second signal stéréo et à partir d'une différence de phase entre d'une part le signal sommant le canal intermédiaire et le second canal et d'autre part le second canal du signal stéréo.
Une variante générale du calcul du "downmix" est maintenant présentée où l'on distingue un canal dominant X et un canal secondaire Y. La définition de X et Y est différente suivant les raies j considérées:
o pour j=2, 9, les canaux X et Y sont définis à partir des canaux localement décodés L[ j] et R[j] tels que
et
ou litude entre les canaux L[j] et R[j] décodés; le
rapport I[j] est disponible au décodeur comme au codeur (par décodage local). Le décodage local du codeur n'est pas représenté sur la figure 3 par souci de clarté.
La définition exacte du rapport î[j] est donnée plus loin dans la description détaillée du décodeur. On notera qu'en particulier les amplitudes des canaux L et R décodés donnent: C2 U
o Pour j en dehors de l'intervalle [2,9], les canaux X et Y sont définis à partir des canaux ori inaux L[j] et R[j] tels que
et
Cette distinction entre raies d'indice j dans l'intervalle [2,9] ou en dehors est justifiée par le codage/décodage des paramètres stéréo décrit plus loin.
Dans ce cas, le signal mono M peut être calculé à partir de X et Y en modifiant l'un des canaux (X ou Y). Le calcul de M à partir de X et Y se déduit des figures 4a et 4b comme suit:
Quand I[j] < l (j=2,. an < 1 (autres valeurs de j), on applique le
R[j]
"downmix" explicité à la figure 4a en remplaçant respectivement L et R par Y et X o Quand I[j]≥l (j=2,...9) ou an > 1 (autres valeurs de j), on applique le
R[j]
"downmix" explicité à la figure 4b en remplaçant respectivement L et R par X et Y
Cette variante, plus complexe à mettre en œuvre, est strictement équivalente au procédé de "downmix" détaillé précédemment pour les raies fréquentielles d'indice j en dehors de l'intervalle [2,9] ; par contre pour les raies d'indice j=2, 9, cette variante "déforme" les canaux L et R en prenant des valeurs d'amplitude décodées c j] pour L et c2[j] pour R - cette "distorsion" d'amplitude a pour effet de légèrement dégrader le signal mono pour les raies considérées mais en retour elle permet d'adapter le "downmix" au codage/décodage des paramètres stéréo décrit plus loin et par la même d'améliorer la qualité de la spatialisation au décodeur.
Dans une autre variante du calcul du "downmix", le calcul est effectué suivant les raies j considérées:
o pour j=2,..., 9, le signal mono est calculé par la formule suivante:
où I[j] représente le rapport d'amplitude entre les canaux L[j] et R[j] décodés. Le rapport î[j] est disponible au décodeur comme au codeur (par décodage local).
o pour j en dehors de l'intervalle [2,9], le signal mono est calculé par la formule suivante:
Cette variante est strictement équivalente au procédé de "downmix" détaillé précédemment pour les raies fréquentielles d'indice j en dehors de l'intervalle [2,9]; par contre pour les raies d'indice j=2, 9, elle utilise le rapport des amplitudes décodées pour adapter le "downmix" au codage/décodage des paramètres stéréo décrit plus loin. Ceci permet d'améliorer la qualité de la spatialisation au décodeur.
Afin de rendre compte d'autres variantes rentrant dans le cadre de l'invention, on mentionne également ici un autre exemple de "downmix" appliquant les principes exposés précédemment. On ne répète pas ici les étapes préliminaires de calcul de la différence (ICPD) de phase entre les canaux stéréo (L et R) et la modification d'un canal prédéterminé. Dans le cas de la figure 4a, à l'étape E 402, un signal mono intermédiaire est calculé à partir des canaux L j] et R [ j] avec:
Dans une variante possible, on calculera plutôt le signal mono M' comme suit:
, r . L [j] + R '[j]
Ce calcul remplace l'étape E 402, par contre les autres étapes sont préservées (étapes 400, 401, 403, 404). Dans le cas de la figure 4b, on pourrait de la même façon calculer le signal M' comme suit (en remplacement de l'étape E 412): La différence entre ce calcul du "downmix" intermédiaire M' et le calcul présenté précédemment réside uniquement dans l'amplitude |M [J]| du signal mono M' qui sera ici légèrement différente de J !! '- ou J !! '- . Cette variante est donc moins
2 2
avantageuse car elle ne préserve pas complètement Γ " énergie " des composantes des signaux stéréo, par contre elle est moins complexe à mettre en œuvre. Il est intéressant de remarquer que la phase du signal mono résultant reste cependant identique ! Ainsi, les codage et décodage des paramètres stéréo présentés par la suite restent inchangés si cette variante du "downmix" est mise en œuvre puisque les angles codés et décodés restent les mêmes.
Ainsi, le "downmix" suivant l'invention diffère de la technique de Samsudin et al. dans le sens où un canal (L, R ou X) est modifié par rotation d'un angle inférieur à la valeur d'ICPD, cet angle de rotation est obtenu par réduction de l'ICPD d'un facteur <1, dont la valeur typique est de ½ - même si l'exemple de ¾ a été également donné sans restreindre les possibilités. Le fait que le facteur appliqué à l'ICPD soit de valeur strictement inférieur à 1 permet de qualifier l'angle de rotation comme le résultat d'une "réduction" de la différence de phase ICPD. De plus l'invention s'appuie sur un "downmix" dit "downmix intermédiaire" dont deux variantes essentielles ont été présentés. Ce downmix intermédiaire produit un signal mono dont la phase (par raie fréquentielle) ne dépend pas d'un canal de référence (sauf dans le cas trivial où l'un des canaux stéréo est nul, ce qui est un cas extrême qui n'est pas pertinent dans le cas général).
Pour adapter les paramètres de spatialisation au signal mono tel qu'obtenu par le traitement de "downmix" décrit ci-dessus, une extraction particulière des paramètres par le bloc 314 est maintenant décrite en référence à la figure 3.
Pour l'extraction des paramètres ICLD (bloc 314), les spectres Lbuf[j] et Rbuflj] sont découpés en 20 sous-bandes de fréquences. Ces sous-bandes sont définies par les frontières suivantes :
{ B[k] }fe0,..,20 = [0, 1 , 2, 3, 4, 5, 6, 7, 9, 1 1 , 13, 16, 19, 23, 27, 31 , 37, 44, 52, 61 , 80]
Le tableau ci-dessus délimite (en nombre de coefficients de Fourier) les sous-bandes fréquentielles d'indice k = 0 à 19. Par exemple la première sous-bande (k=0) va du coefficient B[k]=0 à B[k+1]A = 0; elle est donc réduite à un seul coefficient qui représente 100 Hz (en réalité 50 Hz si on ne prend que les fréquences positives). De même, la dernière sous-bande (k=l9) va du coefficient B[k]=6l à B[k+l]-\ = 79, elle comprend 19 coefficients (1900 Hz). La raie fréquentielle d'indice j=80 qui correspond à la fréquence de Nyquist n'est pas prise en compte ici. Pour chaque trame, l'ICLD de la sous-bande k=0,...,19 est calculée suivant l'équation:
ICLD [fe] = 10.1og1 dB (21)
où <TL[fc] et <Xs[fc] représentent respectivement l'énergie du canal gauche (Lbuf) et du canal droit (Rbuf):
Selon un mode de réalisation particulier, dans une première couche d'extension stéréo (+8 kbit/s), les paramètres ICLD sont codés par une quantification scalaire non- uniforme différentielle (bloc 315) sur 40 bits par trame. Cette quantification ne sera pas détaillée ici car elle dépasse le cadre de l'invention.
On sait selon l'ouvrage J. Blauert, "Spatial Hearing: The Psychophysics of Human Sound Localization", revised édition, MIT Press, 1997 que l'information de phase pour les fréquences inférieures à 1.5-2 kHz est particulièrement importante pour obtenir une bonne qualité stéréo. L'analyse temps -fréquence réalisée ici donne 81 coefficients fréquentiels complexe par trame, avec une résolution de 100 Hz par coefficient. Le budget de bits étant de 40 bits et l'allocation étant, comme expliqué plus loin, de 5 bits par coefficient, seules 8 raies peuvent être codées. Par expérimentation les raies d'indice j=2 à 9 ont été choisies pour ce codage de l'information de phase. Ces raies correspondent à une bande de fréquences de 150 à 950 Hz.
Ainsi, pour la seconde couche d'extension stéréo (+8 kbit/s) les coefficients fréquentiels où l'information de phase est la plus importante perceptuellement sont identifiés, et les phases associées sont codées (bloc 316) par une technique détaillée ci-après en référence aux figures 6a et 6b en utilisant un budget de 40 bits par trame.
Les figures 6a et 6b présentent la structure du train binaire pour le codeur dans un mode de réalisation privilégié. Il s'agit d'une structure de train binaire hiérarchique issue du codage scalable avec pour codage cœur, le codage de type G.722.
Le signal mono est ainsi codé par un codeur G.722 à 56 ou 64 kbit/s.
A la figure 6a, le codage cœur G.722 fonctionne à 56 kbit/s et une première couche d'extension stéréo (Ext.stereo 1) est ajoutée. A la figure 6b, le codage cœur G.722 fonctionne à 64 kbit/s et deux couches d'extension stéréo (Ext.stereo 1 et Ext.stereo 2) sont ajoutées.
Le codeur fonctionne donc selon deux modes (ou configurations) possibles:
- un mode avec un débit de 56+8 kbit/s (figure 6a) avec un codage du signal mono (downmix) par un codage G.722 à 56 kbit/s et une extension stéréo de 8 kbit/s.
- un mode avec un débit de 64+16 kbit/s (figure 6b) avec un codage du signal mono (downmix) par un codage G.722 à 64 kbit/s et une extension stéréo de 16 kbit/s.
Pour ce deuxième mode, on suppose que les 16 kbit/s additionnels sont divisés en deux couches de 8 kbit/s dont la première est identique en termes de syntaxe (i.e. paramètres codés) à la couche d'amélioration du mode 56+8 kbit/s.
Ainsi le train binaire représenté en figure 6a comporte l'information sur l'amplitude des canaux stéréo, par exemple les paramètres ICLD tels que décrits ci-dessus. Dans une variante du mode de réalisation privilégié du codeur, un paramètre ICTD de 4 bits est également codé dans la première couche de codage.
Le train binaire représenté en figure 6b comporte à la fois l'information sur l'amplitude des canaux stéréo dans la première couche d'extension (et un paramètre ICTD dans une variante) et l'information de phase des canaux stéréo dans la deuxième couche d'extension. Le découpage en deux couches d'extension montré aux figures 6a et 6b pourrait se généraliser au cas où au moins l'une des deux couches d'extension comprend à la fois une partie de l'information sur l'amplitude et une partie de l'information sur la phase.
Dans le mode de réalisation décrit précédemment, les paramètres qui sont transmis dans la deuxième couche d'amélioration stéréo sont des différences de phase θ[ pour chaque raie j=2, 9 codés sur 5 bits dans l'intervalle [-π, π] suivant une quantification scalaire uniforme de pas π /16. On décrit dans les paragraphes suivant comment ces différences de phase é?[j] sont calculées et codées pour former la deuxième couche d'extension après multiplexage des indices de chaque raie j=2, 9.
Dans le mode de réalisation privilégié des blocs 314 et 316, on détermine un canal dominant X et un canal secondaire Y pour chaque raie de Fourier d'indice j à partir des canaux L
et où î[j] correspond au rapport d'amplitude des canaux stéréo, calculé à partir des paramètres ICLD suivant la formule:
;1= io/ŒD W/2° (23) où ICLD^ fouj [k] est Ie paramètre ICLD décodé (q comme quantifié) pour la sous-bande d'indice k dans laquelle se situe la raie fréquentielle d'indice j.
A noter que dans la définition de Xbuf [ j] , Ybuf [ j] , et îbuf [j] ci-dessus, les canaux utilisés sont les canaux originaux Lbuf [j] et Rbuf [j] décalés d'un certain nombre de trames; puisqu'il s'agit de calculer des angles, le fait que l'amplitude de ces canaux soit l'amplitude originale ou l'amplitude décodée localement n'a pas d'influence. Par contre il est important d'utiliser comme critère de distinction entre X et Y l'information îbuf [j] de sorte que les codeur et décodeur utilisent les mêmes conventions de calcul/décodage de l'angle θ[ . L'information îbuf [j] est disponible au codeur (par décodage local) et décalage d'un certain nombre de trames. Le critère de décision îbuf [j] utilisé pour le codage et le décodage de é?[j] est donc identique pour le codeur et le décodeur.
A partir de Xbuf [ j] , Ybuf [ j] on peut définir la différence de phase entre le canal secondaire Ybuf [ j] et le signal mono comme
0[j] = Z(Ybuf [j].Mbuf [jÎ )
La différentiation entre canaux dominant et secondaire dans le mode de réalisation privilégié est motivée principalement par le fait que la fidélité de la synthèse stéréo est différente selon que les angles transmis par le codeur sont Xbuf [j] ou [j] en fonction du rapport d'amplitude entre L et R.
Dans une variante de réalisation, on ne définira pas les canaux Xbuf [ j] , Ybuf [ j] mais on calculera θ[ de façon adaptative comme:
= z(Lbuf [j].Mbuf [jî ) si îbuf [j] < 1
= Z(Rbuf [j].Mbuf [jî ) si îbuf [j]≥ 1
Par ailleurs, dans le cas où le signal mono est calculé suivant la variante distinguant les canaux X et Y, on pourra réutiliser l'angle é?[j] déjà disponible à partir du calcul du downmix (à un décalage d'un certain nombre de trames près). A l'illustration de la figure 5, le canal L est secondaire et en appliquant l'invention on trouve θ[ = OCbuf [j] - pour alléger les notations des figures, l'indice "buf n'est pas présenté à la figure 5 qui sert à la fois à illustrer le calcul du "downmix" et l'extraction des paramètres stéréo. Il faut cependant noter que les spectres Lbuf [ j] et Rbuf [ j] sont décalés de 2 trames par rapport à L[ J] et R [ J] . Dans une variante de l'invention dépendante du fenêtrage utilisé (blocs 303, 304) et du retard appliqué au "downmix" (bloc 311) ce décalage n'est que d'une trame.
Pour une raie j donnée, les angles a[ j] et ?[ j] vérifient:
\βΐ = 2β\
où les angles X'[j] et sont les différences de phase entre le canal secondaire (ici L) et le canal mono intermédiaire (Μ') et entre le canal dominant retourné (ici R') et le canal mono intermédiaire (Μ') respectivement (figure 5):
Ainsi il est possible pour le codage de X[j] de réutiliser le calcul de X'[j] effectué lors du calcul du downmix (bloc 307), et ainsi éviter de calculer un angle supplémentaire; à noter qu'il faut dans ce cas appliquer un décalage de deux trames aux paramètres X'[j] ou a[ j] calculés dans le bloc 307. Dans une variante les paramètres codés seront les paramètres θ '[ définis ar:
[j].Mbuf [jî) si î[j] < 1
[j
].Mbuf [jÎ ) si î[j]≥ 1
Le budget total de la deuxième couche étant de 40 bits par trame, on ne code donc que les paramètres θ[ associés à 8 raies fréquentielles, de façon préférentielle pour les raies d'indice j=2 à 9.
En résumé, dans la première couche d'extension stéréo, les paramètres ICLD de 20 sous-bandes sont codés par quantification scalaire non-uniforme (bloc 315) sur 40 bits par trame. Dans la seconde couche d'extension stéréo, les angles θ[ sont calculés pour j=2,..,9 et codés par quantification scalaire uniforme de PI / 16 sur 5 bits.
Le budget alloué pour coder cette information de phase n'est qu'un exemple particulier de réalisation. Il peut être inférieur et dans ce cas ne prendre en compte qu'un nombre réduit de raies fréquentielles ou au contraire supérieur et peut permettre de coder un plus grand nombre de raies fréquentielles.
De même le codage de ces informations de spatialisation sur deux couches d'extension est un mode de réalisation particulier. L'invention s'applique également au cas où ces informations sont codées dans une seule couche de codage d'amélioration.
Les figures 7a et 7b illustrent à présent les avantages que peuvent apporter le traitement de réduction de canaux de l'invention par rapport à d'autres méthodes.
Ainsi, la figure 7a illustre la variation de ΔΜ [ j] pour le traitement de réduction de canaux décrit en référence à la figure 4, en fonction de ICLD [ J] et j]■ Pour faciliter la lecture, on pose ici L[ j] = 0 ce qui donne deux degrés de libertés restants: ICLD [ J] et R [ j] (qui correspond alors à—ICPD [ J] ). Il apparaît que la phase du signal mono M est quasi-linéaire en fonction de Z.R [ j] sur tout l'intervalle [-PI, PI].
Ceci ne serait pas vérifié dans le cas où le traitement de réduction de canaux se ferait sans modifier le canal R en canal intermédiaire par une diminution de la différence de phase ICLD.
En effet, dans ce cas de figure, et comme illustré à la figure 7b qui correspond au "downmix" de Hoang et al. (voir le document IEEE MMSP cité précédemment), on voit que:
Quand la phase j] est dans l'intervalle [-PI/2, PI/2], la phase du signal mono M est quasi-linéaire en fonction de Z.R [ j]
En dehors de l'intervalle [-PI/2, PI/2], la phase ΔΜ [ j] du signal mono est non- linéaire en fonction de Z.R [ j] ;
Ainsi, quand les canaux L et R sont quasiment en opposition de phase (+/-PI), Z.M [ j] prend des valeurs autour de 0, PI/2, ou +/-PI suivant les valeurs du paramètre
ICLD[j]. Pour ces signaux en opposition de phase et proche de l'opposition de phase, la qualité du signal mono peut devenir médiocre à cause du comportement non-linéaire de la phase du signal mono ΔΜ [j] ■ Le cas limite correspond à des canaux opposés
( R [j] =— L [J ] ) OÙ la phase du signal mono devient mathématiquement indéfinie (en pratique constante, de valeur nulle).
On comprend bien ainsi que l'intérêt de l'invention est de contracter l'intervalle angulaire afin de restreindre le calcul du signal mono intermédiaire sur l'intervalle [-PI 2, PI/2] pour lequel la phase du signal mono a un comportement quasi-linéaire. Le signal mono obtenu à partir du signal intermédiaire a alors une phase linéaire dans tout l'intervalle [-PI, PI] même pour des signaux en opposition de phase.
Ceci améliore donc la qualité du signal mono pour ce type de signaux.
Dans une variante de réalisation du codeur, on pourra coder systématiquement la différence de phase OCbuf [j] entre les canaux L et M, au lieu de coder θ[ ; cette variante ne distingue pas les canaux dominant et secondaire, elle est donc plus simple à réaliser mais elle donne une qualité de synthèse stéréo moindre. En effet, si la différence de phase transmise au codeur est OCbuf [j] (au lieu de θ[ ), le décodeur pourra décoder directement l'angle OCbuf [j] entre L et M mais il devra "estimer" l'angle buf [j] entre R et M manquant (non codé); on peut montrer que la précision de cette "estimation" est moins bonne lorsque le canal L est dominant que lorsque le canal L est secondaire.
On notera également que la mise en œuvre du codeur présentée précédemment s'est appuyée sur un "downmix" utilisant une réduction de la différence de phase ICPD par un facteur 1/2. Lorsque le "downmix" utilise un autre facteur de réduction (<1) , par exemple de valeur 3/4, le principe du codage des paramètres stéréo restera inchangé. Au codeur, la seconde couche d'amélioration comportera la différence de phase ( θ[ ou GCbuf [j] ) définie entre le signal mono et un premier canal stéréo prédéterminé.
En référence à la figure 8 un décodeur selon un mode de réalisation de l'invention est maintenant décrit.
Ce décodeur comporte un démultiplexeur 501 dans lequel le signal mono codé est extrait pour être décodé en 502 par un décodeur de type G.722 dans cet exemple. La partie du train binaire (scalable) correspondant à G.722 est décodée à 56 ou 64 kbit/s suivant le mode sélectionné. On suppose ici qu'il n'y a pas de perte de trames ni d'erreurs binaires sur le train binaire pour simplifier la description, cependant des techniques connues de correction de perte de trames peuvent bien évidemment être mises en œuvre dans le décodeur.
Le signal mono décodé correspond à M (n) en l'absence d'erreurs de canal. Une analyse par transformée de Fourier discrète à court-terme avec le même fenêtrage qu'au codeur est réalisée sur M(n) (blocs 503 et 504) pour obtenir le spectre M[j]■
La partie du train binaire associée à l'extension stéréo est aussi dé-multiplexée. Les paramètres ICLD 505). Les détails de
mise en œuvre du bloc 505 ne sont pas présentés ici car ils dépassent le cadre de l'invention. La différence de phase entre le canal L et le signal M par raie fréquentielle est décodée pour les raies fréquentielles d'indice j = 2,.. ,9 (bloc 506) pour obtenir θ [ j] selon un premier mode de réalisation.
Les amplitudes des canaux gauche et droit sont reconstruites (bloc 507) en appliquant les paramètres ICLD décodés par sous-bande. Les amplitudes des canaux gauche et droit sont décodées (bloc 507) en appliquant les paramètres ICLD décodés par sous-bande.
A 56+8 kbit/s la synthèse stéréo est réalisée comme suit pour j = 0,...,80 : où cl [ j] et c2 [ j] sont les facteurs qui sont calculés à partir des valeurs d'ICLD par sous- bande. Ces facteurs c [ j] et c2 [ j] sont sous la forme:
où / [j] = 10/ŒD? m 20 et k est l'indice de la sous-bande dans laquelle se trouve la raie d'indice j.
A noter que le paramètre ICLD est codé/décodé par sous-bandes et non par raie fréquentielle. On considère ici que les raies fréquentielles d'indice j appartenant à la même sous-bande d'indice k (donc dans l'intervalle [B[k],...,B[k+l]-l]) ont pour valeur d'ICLD la valeur d'ICLD de la sous-bande.
On remarque que î j] correspond au rapport entre les deux facteurs d'échelle:
et donc au paramètre ICLD décodé (sur une échelle linéaire et non logarithmique).
Ce rapport est obtenu à partir des informations codées dans la première couche d'amélioration stéréo à 8 kbit/s. Les codages et décodages associés ne sont pas détaillés ici, mais pour un budget de 40 bits par trame on peut considérer que ce rapport est codé par sous-bande et non pas raie fréquentielle, avec une découpe en sous-bandes non uniforme.
Dans une variante du mode de réalisation privilégié, un paramètre ICTD de 4 bits est décodé à partir de la première couche de codage. Dans ce cas, la synthèse stéréo est modifiée pour les raies j=0,...,15 correspondant aux fréquences inférieures à 1.5 kHz et est sous la forme: .j.ICTD
L[j] = c1[j].M[j].e N , (2?)
R[j] = c2[j].M[j]
où ICTD est le décalage temporel entre L et R en nombre d'échantillons pour la trame courante et N est la longueur de la transformée de Fourier (ici N=160). Si le décodeur fonctionne à 64+16 kbit/s, le décodeur reçoit en plus les informations codées dans la deuxième couche d'amélioration stéréo, ce qui permet de décoder les paramètres θ[ j] pour les raies d'indice j=2 à 9 et d'en déduire le paramètre â[ j] et β[ j] comme expliqué maintenant en référence à la figure 9.
La figure 9 illustre de façon géométrique les différences de phase (angles) décodés suivant l'invention. Pour simplifier la présentation, on considère ici que le canal L est le canal secondaire (Y) et le canal R est le canal dominant (X). Le cas inverse se déduit facilement des développements qui suivent. Ainsi on a: é?[j] = à[j'J j=2,..,9. De plus, on retrouve la définition des angles â[j et '[./] du codeur, avec comme seules différences l'utilisation ici de la notation Λ pour indiquer des paramètres décodés.
L'angle intermédiaire â j] entre L et M ' est déduit à partir de l'angle â[ j] par la relation:
L'angle intermédiaire fi \j~ est défini comme la différence de phase entre M' et R' comme suit:
[j] = z(R <[j].M <[j]* ) (28)
et la différence de phase entre M et R est définie par:
fi[j] = Z(R[j].M[jt ) (29)
A noter que dans le cas de la figure 9, on suppose que les relations géométriques définies à la figure 5 pour le codage sont encore valides, que le codage de M[j] est quasiment parfait et que les angles OC [ j] sont aussi codés très précisément. Ces hypothèses sont en général vérifiées pour le codage G.722 dans la zone de fréquences j=2, 9 et pour un codage de OC [ j] avec un pas de quantification assez fin. Dans la variante où le "downmix" est calculé en distinguant les raies dont l'indice est dans l'intervalle [2,9] ou non, cette hypothèse est vérifiée car les canaux L et R sont "déformés" en amplitude pour que le rapport d'amplitude entre L et R corresponde au rapport î [ j] utilisé au décodeur.
Dans le cas contraire la figure 9 resterait toujours valable, mais avec des approximations sur la fidélité des canaux L et R reconstruits, et en général une qualité de synthèse stéréo moindre.
Comme illustré sur la figure 9, à partir des valeurs connues R[j] , L[j] et â'[ j] , on peut déduire l'angle fi\j~ par projection de R' sur la droite reliant 0 et L+R', où on trouve la relation trigonomé trique:
L[ j]| .|sin β '[ j]| = |R '[ j]| .|sin â'[ j]\ = â'[ j]\
Donc on peut trouver l'angle j avec la relation:
soit
où s = +1 ou -1 de sorte que le signe de soit opposé à celui de â'[ j] , plus précisémen
La différence de phase entre le canal R et le signal M est déduite par la relation:
Enfin, le canal R est reconstruit à partir de la formule:
R[j] = c2[j].M[j]ei n (33)
Le décodage (ou "estimation") de â[ j] et L[ j] à partir de 0[_/] = dans le cas où le canal L est le canal dominant (X) et le canal R est le canal secondaire (Y) suit la même démarche et n'est pas détaillé ici.
Ainsi à 64+16 kbit/s la synthèse stéréo est réalisée par le bloc 507 de la figure 8 comme suit pour j=2,..,9:
et sinon identique à la synthèse stéréo précédente pour j=0,...,80 en dehors de 2,...,9.
Les spectres R[j] et L[j] sont ensuite convertis dans le domaine temporel par FFT inverse, fenêtrage, addition et recouvrement (blocs 508 à 513) pour obtenir les canaux synthétisés R (n) et L(n) .
Ainsi, le procédé mis en œuvre au décodage est représenté pour des variantes de réalisation par des organigrammes illustrés en référence aux figures 10a et 10b, en supposant qu'un débit de 64+16 kbit/s est disponible.
Comme dans la description détaillée précédente associée à la figure 9, on présente d'abord le cas simplifié de la figure 10a où le canal L est le canal secondaire (Y) et le canal R est le canal dominant (X), et donc θ[ j] = â[ j] .
A l'étape E1001, le spectre du signal mono est M [ j] est décodé.
Les angles â[ j] pour les coefficients fréquentiels j=2,..,9 sont décodés à l'étape
E1002, à partir de la deuxième couche d'extension stéréo. L'angle a représente la différence de phase entre un premier canal prédéterminé des canaux stéréo, ici le canal L et le signal mono.
Les angles ^[j] sont ensuite calculés à l'étape E1003 à partir des angles â[j décodés. La relation est telle que â'[ j] = â[ j /2 .
A l'étape El 004, une différence de phase intermédiaire β' entre le deuxième canal du signal stéréo modifié ou intermédiaire, ici R' et le signal mono intermédiaire M' est déterminé à partir de la différence de phase a' calculée et de l'information sur l'amplitude des canaux stéréos, décodée dans la première couche d'extension , au bloc 505 de la figure 8.
Le calcul est illustré à la figure 9, les angles sont ainsi déterminés selon les équations suivantes:
(35)
A l'étape El 005, la différence de phase β entre le deuxième canal R et le signal mono M, est déterminé à partir de la différence de phase intermédiaire β'.
Les angles sont déduits par l'équation suivante: Âj] =
Enfin, aux étapes E1006 et E1007 la synthèse des signaux stéréo, par coefficient fréquentiel, est effectué à partir du signal mono décodé et des différences de phases déterminées entre le signal mono et les canaux stéréo.
Les spectres R [j] et L[ J] sont ainsi calculés.
La figure 10b présente le cas général où l'angle θ[ j] correspond de façon adaptative à l'angle â[j] ou /#[./] .
A l'étape El 101, le spectre du signal mono est M [ j] est décodé.
Les angles ê[j] pour les coefficients fréquentiels j=2,..,9 sont décodés à l'étape
El 102, à partir de la deuxième couche d'extension stéréo. L'angle ê[j] représente la différence de phase entre un premier canal prédéterminé des canaux stéréo (ici le canal secondaire) et le signal mono.
On distingue ensuite le cas où le canal L est dominant ou secondaire à l'étape El 103. La différentiation entre canal secondaire et dominant est appliquée pour identifier quelle différence de phase â[j] ou a été transmise par le codeur: â[j] = ê[j] si /[J] < 1
La suite de la description suppose que le canal L est secondaire.
Les angles ^'[j] sont ensuite calculés à l'étape El 109 à partir des angles â[j décodés à l'étape El 108. La relation est telle que â'[ j] = â[ .
L'autre différence de phase est déduite en exploitant les propriétés géométriques du downmix utilisé dans l'invention. Comme le downmix peut être calculé en modifiant de façon indifférente L ou R pour utiliser un canal modifié L' ou R', on suppose ici au décodeur que le signal mono décodé a été obtenu en modifiant le canal dominant X. Ainsi on définit comme à la figure 9 la différence de phase intermédiaire (α' ou β') entre le canal secondaire et le signal mono intermédiaire M' ; cette différence de phase peut être déterminée à partir de et de l'information sur l'amplitude î[j] des canaux stéréo décodée dans la première couche d'extension, au bloc 505 de la figure 8.
Le calcul est illustré à la figure 9 en supposant que L est secondaire et R dominant, ce qui revient à déterminer les angles à partir de '[./] (bloc El 110). Ces angles sont calculés suivant l'équation suivante:
PXj] = s. arcsin (35)
A l'étape El 111, la différence de phase β entre le deuxième canal R et le signal mono M, est déterminé à partir de la différence de phase intermédiaire β'.
Les ang nte:
Âj] =
et
-1 si $[j]â[j]≥0
1 si $[j]â[j] < 0
Enfin, à l'étape El 112 la synthèse des signaux stéréo, par coefficient fréquentiel, est effectuée à partir du signal mono décodé et des différences de phases déterminées entre le signal mono et les canaux stéréo.
Les spectres R [j] et £[ J] sont ainsi calculés et ensuite convertis dans le domaine temporel par FFT inverse, fenêtrage, addition et recouvrement (blocs 508 à 513) pour obtenir les canaux synthétisés R (n) et L(n) .
On notera également que la mise en œuvre du décodeur présentée précédemment s'est appuyée sur un "downmix" utilisant une réduction de la différence de phase ICPD par un facteur 1/2. Lorsque le "downmix" utilise un autre facteur de réduction (<1), par exemple de valeur 3/4, le principe du décodage des paramètres stéréo restera inchangé. Au décodeur, la seconde couche d'amélioration comportera la différence de phase (θ[ ou GCbuf [j] ) définie entre le signal mono et un premier canal stéréo prédéterminé. Le décodeur pourra déduire la différence de phase entre le signal mono et le deuxième canal stéréo à partir de cette information. Le codeur présenté en référence à la figure 3 et le décodeur présenté en référence à la figure 8 ont été décrits dans le cas d'application particulière de codage et décodage hiérarchique. L'invention peut également s'appliquer dans le cas où les informations de spatialisation sont transmises et reçues au décodeur dans une même couche de codage et pour un même débit.
De plus, l'invention a été décrite à partir d'une décomposition des canaux stéréo par transformée de Fourier discrète. L'invention s'applique également à d'autres représentations complexes, comme par exemple la décomposition MCLT (Modulated Complex Lapped Transform) combinant une transformée discrète en cosinus modifiée (MDCT) et transformée discrète en sinus modifiée (MDST), ainsi qu'au cas de bancs de filtres de type Pseudo- Quadrature Mirror Filter (PQMF). Ainsi le terme de "coefficient fréquentiel" utilisé dans la description détaillé peut être étendu à la notion de "sous-bande" ou de "bande de fréquence", sans changer la nature de l'invention.
Les codeurs et décodeurs tels que décrits en référence aux figures 3 et 8 peuvent être intégrés dans des équipements multimédia de type décodeur de salon, "set top box" ou lecteur de contenu audio ou vidéo. Ils peuvent également être intégré dans des équipements de communication de type téléphone mobile ou passerelle de communication.
La figure lia représente un exemple de réalisation d'un tel équipement dans lequel un codeur selon l'invention est intégré. Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de codage d'un signal mono issu d'un traitement de réduction de canaux appliqué au signal stéréo et de codage d'informations de spatialisation du signal stéréo. Lors de ces étapes, le traitement de réduction des canaux comporte la détermination pour un ensemble prédéterminé de sous-bandes fréquentielles, d'une différence de phase entre deux canaux stéréo, l'obtention d'un canal intermédiaire par rotation d'un premier canal prédéterminé du signal stéréo, d'un angle obtenu par réduction de ladite différence de phase, la détermination de la phase du signal mono à partir de la phase du signal sommant le canal intermédiaire et le second signal stéréo et à partir d'une différence de phase entre d'une part le signal sommant le canal intermédiaire et le second canal et d'autre part le second canal du signal stéréo.
Le programme peut comporter les étapes mises en œuvre pour coder les informations adaptées à ce traitement. Typiquement, les descriptions des figures 3, 4a, 4b et 5 reprennent les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou équipement ou téléchargeable dans l'espace mémoire de celui-ci.
Un tel équipement ou codeur comporte un module d'entrée apte à recevoir un signal stéréo comportant les canaux R et L pour droit et gauche, soit par un réseau de communication, soit par lecture d'un contenu stocké sur un support de stockage. Cet équipement multimédia peut également comporter des moyens de capture d'un tel signal stéréo.
Le dispositif comporte un module de sortie apte à transmettre les paramètres d'informations spatiales codées Pc et un signal mono M issus du codage du signal stéréo.
De la même façon, la figure 11b illustre un exemple d'équipement multimédia ou dispositif de décodage comportant un décodeur selon l'invention.
Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de décodage d'un signal mono reçu, issu d'un traitement de réduction de canaux appliqué au signal stéréo original et de décodage d'informations de spatialisation du signal stéréo original, les informations de spatialisation comportant une première information sur l'amplitude des canaux stéréo et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par sous-bande fréquentielle, la différence de phase définie entre le signal mono et un premier canal stéréo prédéterminé. Le procédé de décodage comporte à partir de la différence de phase définie entre le signal mono et un premier canal stéréo prédéterminé, le calcul d'une différence de phase entre un canal mono intermédiaire et le premier canal prédéterminé pour un ensemble de sous-bandes fréquentielles, la détermination d'une différence de phase intermédiaire entre le deuxième canal du signal stéréo modifié et un signal mono intermédiaire à partir de la différence de phase calculée et de la première information décodée, la détermination de la différence de phase entre le deuxième canal et le signal mono à partir de la différence de phase intermédiaire, la synthèse des signaux stéréo, par coefficient fréquentiel, à partir du signal mono décodé et des différences de phases déterminées entre le signal mono et les canaux stéréo.
Typiquement, la description des figures 8, 9 et 10 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement. Le dispositif comporte un module d'entrée apte à recevoir les paramètres d'information spatiale codés Pc et un signal mono M provenant par exemple d'un réseau de communication. Ces signaux d'entrée peuvent provenir d'une lecture sur un support de stockage.
Le dispositif comporte un module de sortie apte à transmettre un signal stéréo, L et R, décodé par le procédé de décodage mis en œuvre par l'équipement.
Cet équipement multimédia peut également comporter des moyens de restitution de type haut-parleur ou des moyens de communication apte à transmettre ce signal stéréo.
Bien évidemment, un tel équipement multimédia peut comporter à la fois le codeur et le décodeur selon l'invention. Le signal d'entrée étant alors le signal stéréo original et le signal de sortie, le signal stéréo décodé.

Claims

REVENDICATIONS
1. Procédé de codage paramétrique d'un signal audionumérique stéréo comportant une étape de codage (312) d'un signal mono (M) issu d'un traitement de réduction de canaux (307) appliqué au signal stéréo et de codage d'informations de spatialisation (315,316) du signal stéréo,
caractérisé en ce que le traitement de réduction de canaux comporte les étapes suivantes:
- détermination (E400) pour un ensemble prédéterminé de sous-bandes fréquentielles, d'une différence de phase (ICPD[j]) entre deux canaux stéréo (L, R);
- obtention (E401) d'un canal intermédiaire (R'Q], L'[j]) par rotation d'un premier canal prédéterminé (R[j], L[j]) du signal stéréo, d'un angle obtenu par réduction de ladite différence de phase;
- détermination de la phase du signal mono (E402 à E404) à partir de la phase du signal sommant le canal intermédiaire et le second signal stéréo ( .(L + R') , .(L'+R) ) et à partir d'une différence de phase ( X'[ j] ) entre d'une part le signal sommant le canal intermédiaire et le second canal (L+R', L'+R) et d'autre part le second canal du signal stéréo (L, R).
2. Procédé selon la revendication 1, caractérisé en ce que le signal mono est déterminé selon les étapes suivantes:
- obtention (E402), par bande de fréquence, d'un signal mono intermédiaire (Μ') à partir dudit canal intermédiaire et du second canal du signal stéréo;
- détermination du signal mono (M) (E404) par rotation dudit signal mono intermédiaire de la différence de phase entre le signal mono intermédiaire et le second canal du signal stéréo (E403).
3. Procédé selon la revendication 1, caractérisé en ce que le canal intermédiaire est obtenu par rotation du premier canal prédéterminé de la moitié (ICPD[j]/2) de la différence de phase déterminée.
4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce que les informations de spatialisation comportent une première information (ICLD) sur l'amplitude des canaux stéréo et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par sous-bande fréquentielle, la différence de phase ( #[j] ) définie entre le signal mono et un premier canal stéréo prédéterminé.
5. Procédé selon la revendication 4, caractérisé en ce que la différence de phase entre le signal mono et le canal stéréo prédéterminé est fonction de la différence de phase entre le signal mono intermédiaire et le second canal du signal stéréo.
6. Procédé selon la revendication 1, caractérisé en ce que le premier canal prédéterminé est le canal dit dominant dont l'amplitude est la plus forte parmi les canaux du signal stéréo.
7. Procédé selon la revendication 1, caractérisé en ce que pour au moins un ensemble prédéterminé de sous-bandes fréquentielles, le premier canal prédéterminé est le canal dit dominant pour lequel l'amplitude du canal correspondant décodé localement est la plus forte parmi les canaux du signal stéréo.
8. Procédé selon la revendication 7, caractérisé en ce que l'amplitude du signal mono est calculé en fonction de valeurs d'amplitude des canaux stéréo décodées localement.
9. Procédé selon la revendication 4, caractérisé en ce que la première information est codée par une première couche de codage et la seconde information est codée par une seconde couche de codage.
10. Procédé de décodage paramétrique d'un signal audionumérique stéréo comportant une étape de décodage (502) d'un signal mono reçu, issu d'un traitement de réduction de canaux appliqué au signal stéréo original et de décodage (505, 506) d'informations de spatialisation du signal stéréo original,
caractérisé en ce que les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo (ICLD[j]) et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par sous-bande fréquentielle, la différence de phase ( cx[ j] ou β[ ) définie entre le signal mono ( M[j] ) et un premier canal stéréo prédéterminé ( L[j] , R[j] ) et en ce que le procédé comporte les étapes suivantes:
- à partir de la différence de phase définie entre le signal mono et un premier canal stéréo prédéterminé, calcul (E1003) d'une différence de phase ( a'[j] ou β'[ ) entre un canal mono intermédiaire ( M'[j] ) et le premier canal prédéterminé pour un ensemble de sous-bandes fréquentielles; - détermination (E1004) d'une différence de phase intermédiaire ( β'[ ou entre le deuxième canal du signal stéréo modifié ( R'[j] , L'[j] ) et un signal mono intermédiaire à partir de la différence de phase calculée et de la première information décodée;
- détermination (E1005) de la différence de phase ( β[ j] ou Cx[ j] ) entre le deuxième canal ( R[j] , L[j] ) et le signal mono à partir de la différence de phase intermédiaire;
- synthèse (El 006 et El 007) des signaux stéréo, par coefficient fréquentiel, à partir du signal mono décodé et des différences de phases déterminées entre le signal mono et les canaux stéréo.
11. Procédé selon la revendication 10, caractérisé en ce que la première information est décodée par une première couche de décodage et la seconde information est décodée par une seconde couche de décodage.
12. Procédé selon la revendication 10, caractérisé en ce que le premier canal stéréo prédéterminé est le canal dit dominant dont l'amplitude est la plus forte parmi les canaux du signal stéréo.
13. Codeur paramétrique d'un signal audionumérique stéréo comportant un module de codage (312) d'un signal mono (M) issu d'un module de traitement de réduction de canaux (307) appliqué au signal stéréo et des modules de codage d'informations de spatialisation (315,316) du signal stéréo,
caractérisé en ce que le module de traitement de réduction de canaux comporte:
- des moyens de détermination pour un ensemble prédéterminé de sous-bandes fréquentielles, d'une différence de phase (ICPD[j]) entre les deux canaux du signal stéréo;
- des moyens d'obtention d'un canal intermédiaire (R'Q], L'[j]) par rotation d'un premier canal prédéterminé (Rjj], L[j]) du signal stéréo, d'un angle obtenu par réduction de ladite différence de phase déterminée;
- des moyens de détermination de la phase du signal mono (M) à partir de la phase du signal sommant le canal intermédiaire et le second signal stéréo
( Z(L + R') , Z(V+R) ) et à partir d'une différence de phase ( a'[j] ) entre d'une part le signal sommant le canal intermédiaire et le second canal (L+R', L'+R) et d'autre part le second canal du signal stéréo (L, R).
14. Décodeur paramétrique d'un signal audionumérique d'un signal audionumérique stéréo comportant un module de décodage (502) d'un signal mono reçu, issu d'un traitement de réduction de canaux appliqué au signal stéréo original et des modules de décodage (505, 506) d'informations de spatialisation du signal stéréo original,
caractérisé en ce que les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo (ICLD[j]) et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par sous-bande fréquentielle, la différence de phase ( cx[ j] ou β[ ) définie entre le signal mono ( M[j] ) et un premier canal stéréo prédéterminé ( L[j] ) et en ce que le décodeur comporte:
- des moyens de calcul d'une différence de phase ( a'[j] ou ) entre un canal mono intermédiaire ( M'[j] ) et le premier canal prédéterminé pour un ensemble de sous- bandes fréquentielles, à partir de la différence de phase définie entre le signal mono et un premier canal stéréo prédéterminé,;
- des moyens de détermination d'une différence de phase intermédiaire ( β'[ ou Gc'[j] ) entre le deuxième canal du signal stéréo modifié ( R'[j] ) et un signal mono intermédiaire à partir de la différence de phase calculée et de la première information décodée;
- des moyens de détermination de la différence de phase ( ?[j] ou C [ j] ) entre le deuxième canal ( R[j] )et le signal mono à partir de la différence de phase intermédiaire;
- des moyens de synthèse des signaux stéréo, par sous-bande fréquentielle, à partir du signal mono décodé et des différences de phases déterminées entre le signal mono et les canaux stéréo.
15. Programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage selon l'une des revendications 1 à 9 et/ou d'un procédé de décodage selon l'une des revendications 10 à 12, lorsque celles-ci sont exécutées par un processeur.
EP11785726.8A 2010-10-22 2011-10-18 Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase Withdrawn EP2656342A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1058687A FR2966634A1 (fr) 2010-10-22 2010-10-22 Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
PCT/FR2011/052429 WO2012052676A1 (fr) 2010-10-22 2011-10-18 Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase

Publications (1)

Publication Number Publication Date
EP2656342A1 true EP2656342A1 (fr) 2013-10-30

Family

ID=44170214

Family Applications (1)

Application Number Title Priority Date Filing Date
EP11785726.8A Withdrawn EP2656342A1 (fr) 2010-10-22 2011-10-18 Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase

Country Status (7)

Country Link
US (1) US9269361B2 (fr)
EP (1) EP2656342A1 (fr)
JP (1) JP6069208B2 (fr)
KR (1) KR20140004086A (fr)
CN (1) CN103329197B (fr)
FR (1) FR2966634A1 (fr)
WO (1) WO2012052676A1 (fr)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768175B2 (en) * 2010-10-01 2014-07-01 Nec Laboratories America, Inc. Four-dimensional optical multiband-OFDM for beyond 1.4Tb/s serial optical transmission
KR101580240B1 (ko) * 2012-02-17 2016-01-04 후아웨이 테크놀러지 컴퍼니 리미티드 다채널 오디오 신호를 인코딩하는 파라메트릭 인코더
TWI774136B (zh) 2013-09-12 2022-08-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
EP4120699A1 (fr) * 2013-09-17 2023-01-18 Wilus Institute of Standards and Technology Inc. Procédé et appareil de traitement de signaux multimédia
KR102160254B1 (ko) 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
ES2955962T3 (es) 2015-09-25 2023-12-11 Voiceage Corp Método y sistema que utiliza una diferencia de correlación a largo plazo entre los canales izquierdo y derecho para mezcla descendente en el dominio del tiempo de una señal de sonido estéreo en canales primarios y secundarios
FR3045915A1 (fr) * 2015-12-16 2017-06-23 Orange Traitement de reduction de canaux adaptatif pour le codage d'un signal audio multicanal
CA3011915C (fr) * 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Appareil et procede pour estimer une difference de temps inter-canaux
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
EP3246923A1 (fr) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Appareil et procédé de traitement d'un signal audio multicanal
FI3539125T3 (fi) * 2016-11-08 2023-03-21 Fraunhofer Ges Forschung Laite ja menetelmä monikanavasignaalin koodaamiseksi ja dekoodaamiseksi käyttäen sivuvahvistusta ja jäännösvahvistusta
ES2830954T3 (es) 2016-11-08 2021-06-07 Fraunhofer Ges Forschung Mezclador descendente y método para la mezcla descendente de al menos dos canales y codificador multicanal y decodificador multicanal
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
CN109389984B (zh) 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN109389985B (zh) 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN114898761A (zh) 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
CN117292695A (zh) 2017-08-10 2023-12-26 华为技术有限公司 时域立体声参数的编码方法和相关产品
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10306391B1 (en) 2017-12-18 2019-05-28 Apple Inc. Stereophonic to monophonic down-mixing
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
EP3550561A1 (fr) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mélangeur abaisseur, codeur audio, procédé et programme informatique appliquant une valeur de phase à une valeur d'amplitude
GB2574239A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
CN112233682A (zh) * 2019-06-29 2021-01-15 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
CN111200777B (zh) * 2020-02-21 2021-07-20 北京达佳互联信息技术有限公司 信号处理方法及装置、电子设备和存储介质
KR102217832B1 (ko) * 2020-09-18 2021-02-19 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
KR102290417B1 (ko) * 2020-09-18 2021-08-17 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19959156C2 (de) * 1999-12-08 2002-01-31 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals
AU2003201097A1 (en) * 2002-02-18 2003-09-04 Koninklijke Philips Electronics N.V. Parametric audio coding
DE60311794C5 (de) * 2002-04-22 2022-11-10 Koninklijke Philips N.V. Signalsynthese
JP2005143028A (ja) * 2003-11-10 2005-06-02 Matsushita Electric Ind Co Ltd モノラル信号再生方法及び音響信号再生装置
US7756713B2 (en) * 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
JP4479644B2 (ja) * 2005-11-02 2010-06-09 ソニー株式会社 信号処理装置および信号処理方法
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
US8385556B1 (en) * 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
RU2443075C2 (ru) * 2007-10-09 2012-02-20 Конинклейке Филипс Электроникс Н.В. Способ и устройство для генерации бинаурального аудиосигнала
KR101444102B1 (ko) * 2008-02-20 2014-09-26 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
MX2010012580A (es) * 2008-05-23 2010-12-20 Koninkl Philips Electronics Nv Aparato de mezcla ascendente estereo parametrico, decodificador estereo parametrico, aparato de mezcla descendente estereo parametrico, codificador estereo parametrico.
EP2144229A1 (fr) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Utilisation efficace d'informations de phase dans un codage et décodage audio
US8233629B2 (en) * 2008-09-04 2012-07-31 Dts, Inc. Interaural time delay restoration system and method
EP2214162A1 (fr) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mélangeur élévateur, procédé et programme informatique pour effectuer un mélange élévateur d'un signal audio de mélange abaisseur

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2012052676A1 *

Also Published As

Publication number Publication date
FR2966634A1 (fr) 2012-04-27
JP6069208B2 (ja) 2017-02-01
JP2013546013A (ja) 2013-12-26
WO2012052676A1 (fr) 2012-04-26
CN103329197A (zh) 2013-09-25
US20130262130A1 (en) 2013-10-03
US9269361B2 (en) 2016-02-23
KR20140004086A (ko) 2014-01-10
CN103329197B (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
WO2012052676A1 (fr) Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP3427260B1 (fr) Codage et décodage optimisé d&#39;informations de spatialisation pour le codage et le décodage paramétrique d&#39;un signal audio multicanal
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP2002424B1 (fr) Dispositif et procede de codage scalable d&#39;un signal audio multi-canal selon une analyse en composante principale
EP2489039B1 (fr) Codage/décodage paramétrique bas débit optimisé
EP2691952B1 (fr) Allocation par sous-bandes de bits de quantification de paramètres d&#39;information spatiale pour un codage paramétrique
EP2452337B1 (fr) Allocation de bits dans un codage/décodage d&#39;amélioration d&#39;un codage/décodage hiérarchique de signaux audionumériques
EP3391370A1 (fr) Traitement de réduction de canaux adaptatif pour le codage d&#39;un signal audio multicanal
WO2007104882A1 (fr) Dispositif et procede de codage par analyse en composante principale d&#39;un signal audio multi-canal
EP2304721A1 (fr) Synthese spatiale de signaux audio multicanaux
FR2947944A1 (fr) Codage/decodage perfectionne de signaux audionumeriques
WO2011073600A1 (fr) Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux
WO2011045549A1 (fr) Decodage parametrique stereo optimise
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
FR3112015A1 (fr) Codage optimisé d’une information représentative d’une image spatiale d’un signal audio multicanal
FR2980620A1 (fr) Traitement d&#39;amelioration de la qualite des signaux audiofrequences decodes

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20130523

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20170726

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20171206