EP2489039A1 - Codage/décodage paramétrique bas débit optimisé - Google Patents

Codage/décodage paramétrique bas débit optimisé

Info

Publication number
EP2489039A1
EP2489039A1 EP10785120A EP10785120A EP2489039A1 EP 2489039 A1 EP2489039 A1 EP 2489039A1 EP 10785120 A EP10785120 A EP 10785120A EP 10785120 A EP10785120 A EP 10785120A EP 2489039 A1 EP2489039 A1 EP 2489039A1
Authority
EP
European Patent Office
Prior art keywords
parameters
signal
coding
spatial information
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP10785120A
Other languages
German (de)
English (en)
Other versions
EP2489039B1 (fr
Inventor
Thi Minh Nguyet Hoang
Stéphane RAGOT
Balazs Kovesi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP2489039A1 publication Critical patent/EP2489039A1/fr
Application granted granted Critical
Publication of EP2489039B1 publication Critical patent/EP2489039B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Definitions

  • the present invention relates to the field of coding / decoding of digital signals.
  • the coding and decoding according to the invention is particularly suitable for the transmission and / or storage of digital signals such as audio-frequency signals (speech, music or other).
  • the present invention relates to the parametric encoding / decoding of multichannel audio signals.
  • This type of coding / decoding is based on the extraction of spatial information parameters so that at decoding, these spatial characteristics can be reconstructed for the listener.
  • This type of parametric encoding applies in particular for a stereo signal.
  • a coding / decoding technique is for example described in the document by Breebaart, J. and van de Par, S and Kohlrausch, A. and Schuijers, titled "Parametric Coding of Stereo Audio” in EURASIP Journal on Applied Signal Processing 2005: 9, 1305-1322. This example is repeated with reference to FIGS. 1 and 2 respectively describing an encoder and a parametric stereo decoder.
  • FIG. 1 describes an encoder receiving two audio channels, a left channel (denoted L for Left in English) and a right channel (denoted R for Right in English).
  • the channels L (n) and R (n) are processed by the blocks 101, 102 and 103, 104 respectively which perform a short-term Fourier analysis.
  • the transformed signals L [jJ and R [j] are thus obtained.
  • the block 105 performs a channel reduction matrix or "Downmix” in English to obtain from the left and right signals, a sum signal, a mono signal in this case, in the frequency domain.
  • ICLD InterChannel Level Difference
  • interchannel intensity differences characterize the energy ratios per frequency subband between the left and right channels.
  • L [j] and R [j] correspond to the spectral (complex) coefficients of the L and R channels
  • the values B [k] and B [k + 1], for each frequency band k define the sub-division.
  • spectrum band and the symbol * indicates the complex conjugate.
  • a parameter of ICPD type (for "InterChannel Phase Difference” in English) also called phase difference by frequency subband, is defined according to the following relation:
  • An interchannel time lag called ICTD (for "interchannel time difference") can also be defined equivalent to ICPD.
  • An interchannel coherence parameter ICC (for "InterChannel Cohêt" in English) represents inter-channel correlation.
  • the mono signal is passed in the time domain (blocks 106 to 108) after short-term Fourier synthesis (inverse FFT, windowing and OverLap-Add or OLA) and a mono coding (block 109) is realized. .
  • the stereo parameters are quantized and coded in block 110.
  • the spectrum of the signals (L [y], /? []) Is divided according to a nonlinear frequency scale of the ERB (Rectangular Bandwidth Equivalent) or Bark type, with a number of subbands typically ranging from 20 to 34. This scale defines the values of B (k) and B (k + 1) for each subband k.
  • the settings (ICLD, ICPD, ICC) are encoded by scalar quantization possibly followed by entropy coding or differential coding.
  • the ICLD is encoded by a non-uniform quantizer (ranging from -50 to +50 dB) with differential coding; the non-uniform quantization step exploits the fact that the higher the value of the ICLD, the lower the auditory sensitivity to variations of this parameter.
  • a non-uniform quantizer ranging from -50 to +50 dB
  • the mono signal is decoded (block 201), a de-correlator is used (block 202) to produce two versions M (n) and M '(n) of the decoded mono signal. These two signals passed in the frequency domain (blocks 203 to 206) and the decoded stereo parameters (block 207) are used by the stereo synthesis (block 208) to reconstruct the left and right channels in the frequency domain. These channels are finally reconstructed in the time domain (blocks 209 to 214).
  • a stereo intensity coding technique (Intensity Stereo Coding) consists of coding the sum (M) channel as well as the ICLD energy ratios as defined above.
  • Stereo intensity coding exploits the fact that the perception of high frequency components is mainly related to the temporal (energy) envelopes of the signal.
  • MIC Coded Pulse Modulation
  • ADPCM Adaptive Differential Coded Pulse Modulation
  • ITU-T Recommendation G.722 which uses ADAPM for Adaptive Differential Pulse Code Modulation (ADPCM).
  • ADPCM Adaptive Differential Pulse Code Modulation
  • the input signal of a G.722-type encoder is in an expanded band with a minimum bandwidth of [50-7000 Hz] with a sampling frequency of 16 kHz.
  • This signal is decomposed into two sub-bands [0-4000 Hz] and [4000-8000 Hz] obtained by decomposition of the signal by so-called quadrature mirror filters.
  • Quadrature Mirror Filters (QMF) in English then each of the subbands is separately encoded by an ADPCM encoder.
  • the low band is coded by a 6, 5 and 4 bit nested code ADPCM coding while the high band is coded by a 2 bit ADPCM coder per sample.
  • the total bit rate is 64, 56 or 48 bit / s depending on the number of bits used for decoding the low band.
  • Recommendation G.722 was first used in the Integrated Services Digital Network (ISDN) and then in the enhanced HD voice telephony (HD) or HD voice enhanced telephony applications in English.
  • ISDN Integrated Services Digital Network
  • HD enhanced HD voice telephony
  • HD voice enhanced telephony applications in English.
  • a quantized signal frame according to the G.722 standard consists of 6, 5 or 4 bit low band (0-4000 Hz) and 2 high band (4000-8000 Hz) coded quantization indices. Since the transmission frequency of the scalar indices is 8 kHz in each subband, the bit rate is 64, 56 or 48 kbit / s. In the G.722 standard, the 8 bits are distributed as follows: 2 bits for the high band, 6 bits for the low band. The last or last two bits of the low band can be "stolen" or replaced by data.
  • G.722- SWB a standardization activity called G.722- SWB (as part of the Q.10 / 16 question described for example in document ITU-T: Annex Q10.J Terms of Reference ( ITU-T G.722 and ITU-T G.711WB, January 2009, WD04_G722G71 1SWBToRr3.doc) Extending the G.722 Recommendation in two ways:
  • SWB Superwideband
  • This stereo extension can extend wide-band mono coding or super-wide band mono coding.
  • G.722 coding operates with short 5 ms frames. We are particularly interested here in the stereo extension of the G.722 broadband coding
  • the spatial information represented by the ICLD or other parameters requires a bit rate (additional stereo extension) all the more important as the coding frames are short.
  • This example thus illustrates the difficulty of performing a stereo extension of an encoder such as G.722 with short frames (of 5 ms).
  • Direct encoding of the ICLD gives an additional bit rate (stereo extension) around 16 kbit / s which is already the maximum possible bit rate for the G.722 extension.
  • a parametric encoding method of a multichannel digital audio signal comprising a coding step (G.722 Cod) of a signal resulting from a channel reduction matrix for the multichannel signal.
  • the method is such that it further comprises the following steps:
  • the spatial information parameters are divided into several blocks, coded over several frames.
  • the coding rate is therefore spread over several frames, the coding of this information is therefore at a lower rate.
  • the spatial information parameters are obtained by the following steps:
  • FFT Frequency transformation
  • the division of spatial information parameters is performed according to the frequency sub-bands obtained by cutting.
  • This block distribution is performed according to the defined frequency subbands, so as to optimize the use of these parameters and minimize the impact on the multichannel signal quality.
  • said spatial information parameters are defined as the energy ratio between the channels of the multichannel signal.
  • the coding of a block of spatial information parameters is performed by non-uniform scalar quantization.
  • This quantization is adapted to use a minimum of additional bit rate to a multichannel extension of the coding.
  • the parameter division step makes it possible to obtain two blocks, a first block corresponding to the parameters of the first frequency sub-bands and a second block corresponding to the parameters of the last frequency sub-bands obtained by cutting.
  • the step of dividing the parameters makes it possible to obtain two blocks interleaving the parameters of the different frequency sub-bands.
  • the coding of the first block and the second block is performed according to whether the frame to be coded is of even index or odd index.
  • the refreshing of the parameters is carried out according to a short rhythm, which makes it possible not to bring about perceptual degradation during the decoding.
  • the method further includes a main component analysis step for obtaining the spatial information parameters including a rotation angle parameter and an energy ratio between a main component and a signal of a component. atmosphere.
  • the invention also applies to a parametric decoding method of a multichannel digital audio signal comprising a step of decoding (G.722 Dec) a signal resulting from a channel reduction matrix for the multichannel signal.
  • the method is such that it further comprises the following steps:
  • the spatial information parameters are received on several successive frames and are decoded successively without requiring too much extra bitrate.
  • the decoded and stored parameters of a preceding frame correspond to the parameters of the first frequency sub-bands of the decoding frequency band and the decoded parameters of the current frame correspond to the parameters of the last sub-bands of frequencies obtained by cutting or vice versa.
  • the invention also relates to an encoder implementing the coding method comprising a coding module (304) of a signal resulting from a channel reduction matrix for the multichannel signal.
  • the encoder is such that it further comprises:
  • a module for selecting a parameter block according to the index of the current frame an encoding module of the parameter block selected for the current frame.
  • the invention also relates to a decoder implementing the decoding method and comprising a module for decoding a signal from a channel reduction matrix for the multichannel signal.
  • the decoder further comprises:
  • a spatial information parameter decoding module received for a current frame of predetermined length of decoded signal
  • a module for obtaining the decoded and stored parameters of at least one preceding frame and for associating these parameters with those decoded for the current frame;
  • a module for reconstructing the multichannel signal from the decoded signal and the combination of parameters obtained for the current frame a module for reconstructing the multichannel signal from the decoded signal and the combination of parameters obtained for the current frame.
  • It also relates to a computer program comprising code instructions for implementing the steps of the encoding method as described and to a computer program comprising code instructions for implementing the steps of a decoding method. as described, when these are executed by a processor.
  • the invention finally relates to a storage means readable by a processor storing a computer program as described.
  • FIG. 1 illustrates an encoder implementing a parametric coding known from the state of the art and previously described
  • FIG. 2 illustrates a decoder implementing a parametric decoding known from the state of the art and previously described
  • FIG. 3 illustrates an encoder according to one embodiment of the invention, implementing a coding method according to one embodiment of the invention
  • FIG. 4 illustrates a decoder according to one embodiment of the invention, implementing a decoding method according to one embodiment of the invention
  • FIG. 5 illustrates the division of a digital audio signal into frames in an encoder implementing a coding method according to one embodiment of the invention
  • FIG. 6 illustrates a coding method and an encoder according to another embodiment of the invention.
  • FIGS. 7a and 7b respectively illustrate a device able to implement the coding method and the decoding method according to one embodiment of the invention.
  • This parametric stereo encoder operates in wideband with stereo signals sampled at 16 kHz with 5 ms frames.
  • Each channel (L and R) is first pre-filtered by a high pass filter (HPF) eliminating the components below 50 Hz (blocks 301 and 302).
  • HPF high pass filter
  • M mono signal
  • This signal is encoded (block 304) by a G.722 type encoder, as described, for example, in ITU-T Recommendation G.722, 7 kHz audio-coding within 64 kbit / s, Nov. 1988.
  • the delay introduced in the G.722 type coding is 22 samples at 16 kHz.
  • FIG. 5 The division of the signal into frames is defined with reference to FIG. 5.
  • This figure illustrates the fact that the analysis window (solid line) of 10 ms covers the current frame of index t and the future frame of index t. +1 and the fact that a 50% overlap is used between the window of the current frame and the window (dotted line) of the previous frame.
  • the block 31 1 for extracting spatial information parameters is now detailed.
  • the latter comprises, in the case of the processing in the frequency domain, a first module 313 for cutting the spectra L [t, j] and? [, ./ ' ] in a predetermined number of frequency subbands, for example here in 20 subbands according to the scale defined below:
  • This scale delimits (in number of Fourier coefficients) the frequency subbands of index k - 0 to 19.
  • the module 314 comprises means for obtaining the spatial information parameters of the stereo signal.
  • the parameters obtained are the interchannel intensity difference parameters, ICLD.
  • al [t, k] and a R 2 [t, k ⁇ represent the energy of the left channel respectively
  • these energies are calculated as follows:
  • This formula amounts to combining the energy of two successive frames, which corresponds to a temporal support of 10 ms (15 ms if we count the effective temporal support of two successive windows).
  • the module 314 therefore produces a series of ICLD parameters defined previously.
  • ICLD parameters are divided into the division module 315, into several blocks.
  • the parameters are divided into two blocks according to the following two parts: ⁇ 1CLD i, fcl] and ⁇ ICLD [f, A: 1]
  • the module 316 then makes a selection (St.) of a block to be encoded according to the index of the current frame to be coded.
  • the coding of these blocks at 312 is carried out for example by non-uniform scalar quantization.
  • the coding of an ICLD block is achieved with: • 5 bits for the first ICLD parameter,
  • This bit rate is therefore not too great and is sufficient to efficiently transmit the stereo parameters.
  • Two successive frames suffice in this embodiment to obtain the spatial information parameters of the multichannel signal, the length of two frames being most often the length of an analysis window for a 50% overlap frequency transformation. .
  • a shorter recovery window could be used to reduce the delay introduced.
  • the coder described with reference to FIG. 3 implements a method of parametric encoding of a multichannel digital audio signal comprising a coding step (G.722 Cod) of a signal resulting from a channel reduction mastering of the channel. multichannel signal.
  • the method further comprises the following steps:
  • the encoder may operate at other frequencies (such as 32 kHz) and with different subband cutting.
  • 37 bits are used for frames of even t-index and 40 bits for frames of odd t-indexes.
  • the coding method thus described is easily generalized in the case where the parameters are divided into more than 2 blocks.
  • the ICLD parameters are divided into 4 blocks:
  • the coding of the ICLD parameters is then distributed over 4 successive frames with storage of the parameters decoded in the previous frames during the decoding.
  • the calculation of the ICLD must then be modified to include more than 2 frames in the calculation of the energies [t, k].
  • the coding of the ICLD parameters can then use the following allocation:
  • this variant may however introduce audible spatialization defects.
  • the encoding method thus described applies to the encoding of other parameters than the ICLD parameter.
  • the coherence parameter (ICC) can be calculated and transmitted selectively in a manner similar to the ICLD.
  • the two parameters can also be calculated and coded according to the coding method described above.
  • FIG. 4 illustrates a decoder in one embodiment of the invention as well as the decoding method that it implements.
  • the portion of bit stream scalable and received from the G.722 encoder is demultiplexed and decoded by a G.722 type decoder (block 401) in 56 or 64 kbit / s mode.
  • the synthesized signal obtained corresponds to the mono signal M (n) in the absence of transmission errors.
  • the part of the bit stream associated with the stereo extension is also demultiplexed at block 404.
  • lCLD q [f, *]] 9 is decoded in the module 404 and these decoded parameters are stored in the module 412.
  • tab_ild_q5 [31] ⁇ -50, -45, -40, -35, -30, -25, -22, -19, -16, -13, -10, -8, -6, -4, -2 , 0, 2, 4, 6, 8, 10, 13, 16, 19, 22, 25, 30, 35, 40, 45, 50) the decoding of a 5-bit index is to synthesize the parameter ICLD 4 [ t, k
  • tab_ild_q4 [15] ⁇ - 16, -13, -10, -8, -6, -4, -2, 0, 2, 4, 6, 8, 10, 13, 16 ⁇ the decoding of an index i to 4 bits is to synthesize the ICLD parameter q [t, k] as
  • the missing part of the parameters is used in the module, the stored values jlCLD q [t -
  • the parameters for each of the frequency bands are thus obtained.
  • the spectra of the left and right channels are reconstructed by the synthesis module 414 by applying the parameters jlCLD q [/ - l, *] J thus decoded by subband. This synthesis is carried out for example as follows:
  • the left and right channels L (n) and R (n) are reconstructed by inverse discrete Fourier transform (blocks 406 and 409) of the respective spectra L [j] and R [j] and addition-overlap (blocks 408 and 411) with sinusoidal windowing (blocks 407 and 410).
  • the method further comprises the following steps:
  • Memorization of the decoded parameters for the current frame
  • the bit rate of the stereo extension is therefore reduced and obtaining these parameters makes it possible to reconstruct a stereo signal of good quality.
  • This module in this embodiment makes it possible to obtain other stereo parameters by applying a principal component analysis (PCA) such as that described in the article by Manuel Briand, David Virette and Nadine Martin entitled “Parametric coding of stereo audio based principal component analysis "published in the DAFX conference, 1991.
  • PCA principal component analysis
  • a principal component analysis is performed by subbands.
  • the left and right channels thus analyzed are then rotated to obtain a main component and a qualified environment sub component.
  • the stereo analysis produces, for each subband, a rotation angle parameter ( ⁇ ) and an energy ratio between the main component and the ambient signal ⁇ PCAR which stands for Principal Component to Ambience energy Ratio).
  • the stereo parameters then consist of the angle of rotation parameter and the energy ratio ( ⁇ and PCAR).
  • FIG. 6 illustrates another embodiment of an encoder according to the invention.
  • the block 303 for stamping or "downmix" Compared to the encoder of FIG. 3, it is here the block 303 for stamping or "downmix" that differs.
  • the "downmix" operation has the advantage of being instantaneous and of minimal complexity.
  • the "downmix” operation here consists of the blocks 603a, 603b, 603c and 603d for the passage in the frequency domain.
  • Blocks 603f, 603g and 603h make it possible to bring the mono signal back into the time domain in order to be coded by block 304 as for the encoder illustrated in FIG.
  • This offset makes it possible to synchronize the time frames of the left / right channels and those of the decoded mono signal.
  • the invention has been described here in the case of a G.722 encoder / decoder. it can obviously apply in the case of a modified G.722 encoder, for example including mechanisms of noise reduction ("noise feedback" in English) or including a scalable extension of G.722 with additional information.
  • the invention can also be applied in the case of another mono encoder than the G.722 type such as for example a G.711.1 type encoder. In the latter case, the delay T must be adjusted to take into account the delay of the G.711.1 encoder.
  • time-frequency analysis of the embodiment described with reference to FIG. 3 could be replaced according to different variants:
  • MDCT modified discrete cosine transform
  • the embodiment of the invention also extends to the more general case of the coding of multichannel signals (with more than 2 audio channels) starting from a mono or even stereo downmix.
  • the coding of spatial information involves the coding and transmission of spatial information parameters. This is for example the case of 5.1 channel signals including a left channel (L), right (R), center (C), left rear (Ls for Left surround), right rear (Rs for Right surround), and subwoofer (LFE for Low Frequency Effects).
  • the spatial information parameters of the multichannel signal then take into account the differences or the coherences between the different channels.
  • the encoders and decoders as described with reference to FIGS. 3, 4 and 6 may be integrated in a multimedia equipment of the living room decoder type, computer or communication equipment such as a mobile telephone or personal electronic organizer.
  • FIG. 7a represents an example of such multimedia equipment or coding device comprising an encoder according to the invention.
  • This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the coding method within the meaning of the invention, when these instructions are executed by the processor PROC, and in particular the steps:
  • FIG. 3 shows the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
  • the device comprises an input module adapted to receive a multichannel signal S m representing a sound scene, either by a communication network, or by reading a content stored on a storage medium.
  • This multimedia equipment may also include means for capturing such a multichannel signal.
  • the device comprises an output module capable of transmitting the coded spatial information parameters P c and a sum signal Ss resulting from the coding of the multichannel signal.
  • FIG. 7b illustrates an example of multimedia equipment or decoding device comprising a decoder according to the invention.
  • This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the decoding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps of:
  • FIG. 4 repeats the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
  • the device comprises an input module able to receive the coded spatial information parameters P c and a sum signal S s originating, for example, from a communication network. These input signals can come from a reading on a storage medium.
  • the device comprises an output module capable of transmitting a multichannel signal decoded by the decoding method implemented by the equipment.
  • This multimedia equipment may also include speaker-type reproduction means or communication means capable of transmitting this multi-channel signal.
  • Such multimedia equipment may include both the encoder and the decoder according to the invention.
  • the input signal then being the original multichannel signal and the output signal, the decoded multichannel signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

La présente invention se rapporte à un procédé de codage paramétrique d'un signal audionumérique multicanal comportant une étape de codage d'un signal issu d'un matriçage de réduction de canaux du signal multicanal. Le procédé de codage comporte en outre les étapes suivantes: obtention, par trame de longueur prédéterminée, de paramètres d'information spatiale du signal multicanal; division des paramètres d'information spatiale en une pluralité de blocs de paramètres; sélection d'un bloc de paramètres en fonction de l'indice de la trame courante; codage du bloc de paramètres sélectionné pour la trame courante. L'invention se rapporte également à un procédé de décodage du signal multicanal par décodage des blocs de paramètres reçus par trame. Elle se rapporte un codeur et décodeur mettant en œuvre les procédés de codage et décodage respectifs.

Description

Codage/Décodage paramétrique bas débit optimisé
La présente invention concerne le domaine du codage/décodage des signaux numériques.
Le codage et le décodage selon l'invention est adapté notamment pour la transmission et/ou le stockage de signaux numériques tels que des signaux audiofréquences (parole, musique ou autres).
Plus particulièrement, la présente invention se rapporte au codage/décodage paramétrique de signaux audio multicanaux.
Ce type de codage/décodage se base sur l'extraction de paramètres d'information spatiale pour qu'au décodage, ces caractéristiques spatiales puissent être reconstituées pour l'auditeur.
Ce type de codage paramétrique s'applique notamment pour un signal stéréo. Une telle technique de codage/décodage est par exemple décrite dans le document de Breebaart, J. and van de Par, S and Kohlrausch,A. and Schuijers, intitulé "Parametric Coding of Stereo Audio" dans EURASIP Journal on Applied Signal Processing 2005:9, 1305-1322. Cet exemple est repris en référence aux figures 1 et 2 décrivant respectivement un codeur et un décodeur stéréo paramétrique.
Ainsi, la figure 1 décrit un codeur recevant deux canaux audio, un canal gauche (noté L pour Left en anglais) et un canal droit (noté R pour Right en anglais).
Les canaux L(n) et R(n) sont traités par les blocs 101 , 102 et 103, 104 respectivement qui effectuent une analyse de Fourier court terme. Les signaux transformés L[jJ et R[j] sont ainsi obtenus.
Le bloc 105 effectue un matriçage de réduction de canaux ou "Downmix" en anglais pour obtenir à partir des signaux gauche et droit, un signal somme, un signal mono dans le cas présent, dans le domaine fréquentiel.
Une extraction de paramètres d'information spatiale est également effectuée dans le bloc 105. Les paramètres de type ICLD (pour "InterChannel Level Différence" en anglais) encore appelés différences d'intensité intercanal, caractérisent les ratios d'énergie par sous-bande fréquentielle entre les canaux gauche et droit.
Ils sont définis en dB par la formule suivante:
où L[j] et R[j] correspondent aux coefficients spectraux (complexes) des canaux L et R, les valeurs B[k] et B[k+1], pour chaque bande de fréquence k, définissent la découpe en sous-bande du spectre et le symbole * indique le conjugué complexe.
Un paramètre de type ICPD (pour "InterChannel Phase Différence" en anglais) encore appelé différence de phase par sous-bande fréquentielle, est définie suivant la relation suivante:
icPD[.] = (∑ ; ;l i-l L[y] . /? * [ ]) (2) où indique l'argument (la phase) de l'opérande complexe.
On peut également définir de façon équivalente à l'ICPD, un décalage temporel intercanal appelé ICTD (pour "interchannel time différence" en anglais).
Un paramètre de cohérence intercanal ICC (pour "InterChannel Cohérence" en anglais) représente quant à lui, la corrélation intercanal.
Ces paramètres ICLD, ICPD et ICC sont extraits des signaux stéréo, par le bloc 105.
Le signal mono est passé dans le domaine temporel (blocs 106 à 108) après synthèse de Fourier court-terme (FFT inverse, fenêtrage et addition-recouvrement dite OverLap-Add ou OLA en anglais) et un codage mono (bloc 109) est réalisé. En parallèle les paramètres stéréo sont quantifiés et codés dans le bloc 110.
En général le spectre des signaux ( L [y] , /?[ ] ) est divisé suivant une échelle fréquentielle non-linéaire de type ERB {Equivalent Rectangular Bandwidth) ou Bark, avec un nombre de sous-bandes allant typiquement de 20 à 34. Cette échelle définit les valeurs de B(k) et B(k+1) pour chaque sous-bande k. Les paramètres (ICLD, ICPD, ICC) sont codés par quantification scalaire éventuellement suivie d'un codage entropique ou d'un codage différentiel. Par exemple, dans l'article précédemment cité, l'ICLD est codée par un quantificateur non-uniforme (allant de - 50 à +50 dB) avec codage différentiel ; le pas de quantification non-uniforme exploite le fait que plus la valeur de l'ICLD est grande plus la sensibilité auditive aux variations de ce paramètre est faible.
Au décodeur 200, le signal mono est décodé (bloc 201), un dé-corrélateur est utilisé (bloc 202) pour produire deux versions M(n) et M'(n) du signal mono décodé. Ces deux signaux passés dans le domaine fréquentiel (blocs 203 à 206) et les paramètres stéréo décodés (bloc 207) sont utilisés par la synthèse stéréo (bloc 208) pour reconstruire les canaux gauche et droit dans le domaine fréquentiel. Ces canaux sont enfin reconstruits dans le domaine temporel (blocs 209 à 214).
Dans les techniques de codage de signal stéréo, une technique de codage stéréo d'intensité (Intensity Stereo Coding en anglais) consiste à coder le canal somme (M) ainsi que les ratios d'énergie ICLD tels que définis ci-dessus.
Le codage stéréo d'intensité exploite le fait que la perception des composantes hautes fréquences est principalement liée aux enveloppes temporelles (énergétiques) du signal.
Pour les signaux mono, il existe d'autre part des techniques de quantification avec ou sans mémoire comme le codage à "Modulation par Impulsions Codées" (MIC) ou sa version adaptative dite "Modulation par Impulsions Codées Différentielle Adaptative" (MICDA).
On s'intéresse ici plus particulièrement à la recommandation UIT-T G.722 qui utilise le codage MICDA à code imbriqués en sous-bandes (ou ADPCM pour "Adaptive Differential Puise Code Modulation" en anglais).
Le signal d'entrée d'un codeur de type G.722 est en bande élargie de largeur de bande minimale de [50-7000 Hz] avec une fréquence d'échantillonnage de 16 kHz. Ce signal est décomposé en deux sous-bandes [0-4000 Hz] et [4000-8000 Hz] obtenues par décomposition du signal par des filtres miroir en quadrature dit Quadrature Mirror Filters (QMF) en anglais, puis chacune des sous-bandes est codée séparément par un codeur MICDA.
La bande basse est codée par un codage MICDA à codes imbriqués sur 6, 5 et 4 bits tandis que la bande haute est codée par un codeur MICDA de 2 bits par échantillon. Le débit total est de 64, 56 ou 48 bit/s suivant le nombre de bits utilisé pour le décodage de la bande basse.
La recommandation G.722 a d'abord été utilisé dans le RNIS (Réseau Numérique à Intégration de Services) puis dans les applications de téléphonie améliorée sur réseau DP de qualité voix HD (Haute Définition) ou HD voice en anglais.
Une trame de signal quantifié selon la norme G.722 est constituée d'indices de quantification codés sur 6, 5 ou 4 bits en bande basse (0-4000 Hz) et 2 bits en bande haute (4000-8000 Hz). La fréquence de transmission des indices scalaires étant de 8 kHz dans chaque sous-bande, le débit est de 64, 56 ou 48 kbit/s. Dans la norme G.722, les 8 bits sont répartis de la façon suivante: 2 bits pour la bande haute, 6 bits pour la bande basse. Le dernier ou les deux derniers bits de la bande basse peuvent être « volés » ou remplacés par des données.
L'UIT-T a récemment lancé une activité de normalisation appelé G.722- SWB (dans le cadre de la question Q.10/16 décrit par exemple dans le document: document UIT-T : Annex Q10.J Terms of Référence (ToR) and time schedule for the super wideband extension to ITU-T G.722 and ITU-T G.711WB, janvier 2009, WD04_G722G71 1SWBToRr3.doc) qui consiste à étendre la recommandation G.722 de 2 façons:
- Une extension de la bande acoustique de 50-7000 Hz (bande élargie) à 50- 14000 Hz (bande super-élargie). En anglais la bande super-élargie est appelée
Superwideband (SWB).
- Une extension de mono à stéréo. Cette extension stéréo peut étendre un codage mono en bande élargie ou un codage mono en bande super-élargie.
Dans le contexte de G.722-SWB, le codage G.722 opère avec des trames courtes de 5 ms. Nous nous intéressons ici plus particulièrement à l'extension stéréo du codage G.722 en bande élargie
Deux modes d'extension stéréo de G.722 sont à tester dans la normalisation G.722-SWB:
- Une extension stéréo de G.722 à 56 kbit/s avec un débit additionnel de 8 kbit/s, soit 64 kbit/s au total
- Une extension de G.722 à 64 kbit/s avec un débit additionnel de 16 kbit/s, soit 80 kbit/s au total
L'information spatiale représentée par les paramètres ICLD ou autres requiert un débit (additionnel d'extension stéréo) d'autant plus important que les trames de codage sont courtes.
A titre d'exemple, dans le contexte de la normalisation G.722-SWB, si l'on suppose qu'une extension stéréo de G.722 (bande élargie) est réalisée par la technique du codage d'intensité, on obtient le débit d'extension stéréo suivant.
Pour un signal somme (mono) codé par G.722 avec une trame de 5 ms et une découpe du spectre en bande élargie (0-8000 Hz) en 20 sous-bandes, on obtient 20 paramètres ICLD à transmettre toutes les 5 ms. On peut supposer que ces paramètres ICLD sont codés avec un débit (moyen) de l'ordre de 4 bits par sous- bande. Le débit d'extension stéréo de G.722 devient donc de 20 x 4 bits / 5 ms = 16 kbit/s. Ainsi l'extension stéréo de G.722 par ICLD avec 20 sous-bandes conduit à un débit additionnel de l'ordre de 16 kbit/s. Or d'après l'état de l'art le codage de l'ICLD seul n'est en général pas suffisant pour atteindre une bonne qualité stéréo.
Cet exemple illustre donc la difficulté de réaliser une extension stéréo d'un codeur comme G.722 avec des trames courtes (de 5 ms).
Un codage direct de l'ICLD (sans autres paramètres) donne un débit additionnel (d'extension stéréo) autour de 16 kbit/s qui est déjà le débit maximum d'extension possible pour l'extension G.722.
Il existe donc un besoin pour représenter un signal stéréo ou plus généralement multicanal, de façon efficace, à un débit aussi faible que possible, avec une qualité acceptable, lorsque les trames de codage sont courtes. La présente invention vient améliorer la situation.
A cet effet, elle propose dans un mode de réalisation, un procédé de codage paramétrique d'un signal audionumérique multicanal comportant une étape de codage (G.722 Cod) d'un signal issu d'un matriçage de réduction de canaux du signal multicanal. Le procédé est tel qu'il comporte en outre les étapes suivantes:
- obtention (Obt.), par trame de longueur prédéterminée, de paramètres d'information spatiale du signal multicanal;
- division (Div.) des paramètres d'information spatiale en une pluralité de blocs de paramètres;
- sélection (St.) d'un bloc de paramètres en fonction de l'indice de la trame courante;
- codage (Q) du bloc de paramètres sélectionné pour la trame courante.
Ainsi, les paramètres d'informations spatiales sont divisés en plusieurs blocs, codés sur plusieurs trames. Le débit de codage est donc répartis sur plusieurs trames, le codage de ces informations se fait donc à un débit plus faible.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé défini ci-dessus.
Dans un mode de réalisation, les paramètres d'information spatiale sont obtenus par les étapes suivantes:
- transformation fréquentielle (Fen., FFT) du signal multicanal pour obtenir les spectres du signal multicanal, par trame;
-découpage (D), par trame, des spectres du signal multicanal, en une pluralité de sous-bandes de fréquence,
- calcul des paramètres d'information spatiale par sous-bandes de fréquence.
La division des paramètres d'information spatiale s'effectue en fonction des sous-bandes de fréquences obtenues par découpage.
Cette répartition par blocs est effectuée en fonction des sous-bandes de fréquence définies, de façon à optimiser l'utilisation de ces paramètres et minimiser l'impact sur la qualité du signal multicanal. Avantageusement, lesdits paramètres d'information spatiale sont définis comme le rapport d'énergie entre les canaux du signal multicanal.
Ces paramètres permettent de définir au mieux les directions des sources sonores et donc de définir par exemple pour un signal stéréo, les caractéristiques des signaux gauche et droit reconstruits au décodage.
Dans un mode particulier de réalisation, le codage d'un bloc de paramètres d'informations spatiales est réalisé par quantification scalaire non-uniforme.
Cette quantification est adaptée pour utiliser un minimum de débit additionnel à une extension multicanal du codage.
Dans un premier mode de réalisation, l'étape de division des paramètres permet d'obtenir deux blocs, un premier bloc correspondant aux paramètres des premières sous-bandes de fréquence et un deuxième bloc correspondant aux paramètres des dernières sous-bandes de fréquence obtenues par découpage.
Dans un autre mode particulier de réalisation, l'étape de division des paramètres permet d'obtenir deux blocs entrelaçant les paramètres des différentes sous-bandes de fréquence.
Cette répartition des paramètres est donc effectuée de façon simple et efficace. La répartition des paramètres sur deux blocs contigus apporte l'avantage de pouvoir faire un codage différentiel classique.
De façon avantageuse, le codage du premier bloc et du deuxième bloc s'effectue selon que la trame à coder est d'indice pair ou d'indice impair.
Ainsi, le rafraîchissement des paramètres s'effectue selon un rythme court, ce qui permet de ne pas apporter de dégradation perceptuelle lors du décodage.
Dans un autre mode de réalisation, le procédé comporte en outre une étape d'analyse en composante principale pour obtenir les paramètres d'information spatiale comprenant un paramètre d'angle de rotation et un rapport d'énergie entre un composant principal et un signal d'ambiance.
Ce mode particulier d'obtention de paramètres d'informations spatiales permet de prendre également en compte les corrélations existantes entre différents canaux du signal multicanal. L'invention s'applique également à un procédé de décodage paramétrique d'un signal audionumérique multicanal comportant une étape de décodage (G.722 Dec) d'un signal issu d'un matriçage de réduction de canaux du signal multicanal. Le procédé est tel qu'il comporte en outre les étapes suivantes:
- décodage de paramètres d'information spatiale reçus pour une trame courante de longueur prédéterminée de signal décodé;
- mémorisation des paramètres décodés pour la trame courante;
- obtention des paramètres décodés et mémorisés d'au moins une trame précédente et association de ces paramètres à ceux décodés pour la trame courante;
- reconstruction du signal multicanal à partir du signal décodé et de l'association de paramètres obtenus pour la trame courante.
Ainsi, au décodage, les paramètres d'informations spatiales sont reçus sur plusieurs trames successives et sont décodés successivement sans nécessiter de débit supplémentaire trop important.
L'obtention de ces paramètres spatiaux permet d'obtenir la reconstruction de bonne qualité du signal multicanal.
De la même façon que pour le procédé de codage, les paramètres décodés et mémorisés d'une trame précédente correspondent aux paramètres des premières sous- bandes de fréquence de la bande de fréquence de décodage et les paramètres décodés de la trame courante correspondent aux paramètres des dernières sous-bandes de fréquences obtenues par découpage ou vice versa.
L'invention se rapporte également à un codeur mettant en œuvre le procédé de codage comportant un module de codage (304) d'un signal issu d'un matriçage de réduction de canaux du signal multicanal. Le codeur est tel qu'il comporte en outre:
- un module d'obtention, par trame de longueur prédéterminée, de paramètres d'information spatiale du signal multicanal;
- un module de division des paramètres d'information spatiale en une pluralité de blocs de paramètres;
- un module de sélection d'un bloc de paramètres en fonction de l'indice de la trame courante; - un module de codage du bloc de paramètres sélectionné pour la trame courante.
L'invention se rapporte aussi à un décodeur mettant en œuvre le procédé de décodage et comportant un module de décodage d'un signal issu d'un matriçage de réduction de canaux du signal multicanal. Le décodeur comporte en outre:
- un module de décodage de paramètres d'information spatiale reçus pour une trame courante de longueur prédéterminée de signal décodé;
- un espace de stockage pour mémoriser des paramètres décodés pour la trame courante;
- un module d'obtention des paramètres décodés et mémorisés d'au moins une trame précédente et d'association de ces paramètres à ceux décodés pour la trame courante;
- un module de reconstruction du signal multicanal à partir du signal décodé et de l'association de paramètres obtenus pour la trame courante.
Elle se rapporte aussi à un programme informatique comprenant des instructions de code pour la mise en œuvre des étapes du procédé de codage tel que décrit et à un programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de décodage tel que décrit, lorsque celles-ci sont exécutées par un processeur.
L'invention se rapporte enfin à un moyen de stockage lisible par un processeur mémorisant un programme informatique tel que décrit.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:
- la figure 1 illustre un codeur mettant en œuvre un codage paramétrique connu de l'état de l'art et précédemment décrit;
- la figure 2 illustre un décodeur mettant en œuvre un décodage paramétrique connu de l'état de l'art et précédemment décrit;
- la figure 3 illustre un codeur selon un mode de réalisation de l'invention, mettant en œuvre un procédé de codage selon un mode de réalisation de l'invention; - la figure 4 illustre un décodeur selon un mode de réalisation de l'invention, mettant en œuvre un procédé de décodage selon un mode de réalisation de l'invention;
- la figure 5 illustre la division d'un signal audio numérique en trames dans un codeur mettant en œuvre un procédé de codage selon un mode de réalisation de l'invention;
- la figure 6 illustre un procédé de codage et un codeur selon un autre mode de réalisation de l'invention; et
- les figures 7a et 7b illustrent respectivement un dispositif apte à mettre en œuvre le procédé de codage et le procédé de décodage selon un mode de réalisation de l'invention.
En référence à la figure 3, un premier mode de réalisation d'un codeur de signaux stéréo mettant en œuvre un procédé de codage selon un premier mode de réalisation est maintenant décrit.
Ce codeur stéréo paramétrique opère en bande élargie avec des signaux stéréo échantillonnés à 16 kHz avec des trames de 5 ms. Chaque canal (L et R) est d'abord pré-filtré par un filtre passe-haut (HPF pour High Pass Filter en anglais) éliminant les composantes en dessous 50 Hz (blocs 301 et 302). Ensuite un signal mono (M) est calculé par le bloc 303, dont un exemple de réalisation est donné sous la forme:
M(n) = ^(L '(n) + R '(n))
Ce signal est codé (bloc 304) par un codeur de type G.722, tel que décrit par exemple dans la recommendation UIT-T G.722, 7 kHz audio-coding within 64 kbit/s, Nov. 1988..
Le retard introduit dans le codage de type G.722 est de 22 échantillons à 16 kHz. Les canaux L et R sont alignés dans le temps (blocs 305 et 308) avec un retard de T = 22 échantillons et analysés en fréquentiel par transformée, par exemple par transformée en Fourier discrète avec fenêtrage sinusoïdal à recouvrement qui dans l'exemple ici est de 50% (blocs 306, 307 et 309, 310). Chaque fenêtre couvre ainsi 2 trames de 5 ms soit 10 ms (160 échantillons).
La division du signal en trames est définie en référence à la figure 5. Cette figure illustre le fait que la fenêtre d'analyse (en trait plein) de 10 ms couvre la trame courante d'indice t et la trame future d'indice t+1 et le fait qu'un recouvrement de 50% est utilisé entre la fenêtre de la trame courante et la fenêtre (en trait pointillé) de la trame précédente.
La prise en compte de la trame future induit donc un retard algorithmique supplémentaire de 5 ms au codeur.
Pour la trame t, les spectres obtenus, L[t, j] et R [ , ./] (j=0.. 9), en sortie des blocs 307 et 310 de la figure 3, comprennent 80 échantillons complexes, avec une résolution de 100 Hz par raie fréquentielle.
Le bloc 31 1 d'extraction de paramètres d'informations spatiales est maintenant détaillé.
Celui-ci comprend, dans le cas du traitement dans le domaine fréquentiel, un premier module 313 de découpage des spectres L[t, j] et ? [ , ./'] en un nombre prédéterminé de sous-bandes de fréquence, par exemple ici en 20 sous-bandes suivant l'échelle définie ci-dessous:
{ B(k) } =o,..,2o = [0, 1, 2, 3, 4, 5, 6, 7, 9, 1 1 , 13, 16, 19, 23, 27, 31 , 37, 44, 52, 61, 80]
Cette échelle délimite (en nombre de coefficients de Fourier) les sous- bandes fréquentielles d'indice k - 0 à 19. Par exemple la première sous-bande (k=0) va du coefficient B(k)=0 à B(k+l)-l = 0; elle est donc réduite à un seul coefficient ( 100 Hz).
De même la dernière sous-bande (k=l9) va du coefficient B(k)=6 l h B(k+l )-
1 = 79, elle comprend 19 coefficients (1900 Hz).
Le module 314 comprend des moyens d'obtention des paramètres d'informations spatiales du signal stéréo.
Par exemple, les paramètres obtenus sont les paramètres de différence d'intensité intercanal, ICLD. Pour chaque trame d'indice t, l'ICLD de la sous-bande k=0,...,19 est calculé suivant l'équation:
ICLD [/, Â:] = 10.1og dB (3)
où al[t,k] et aR 2[t,k\ représentent respectivement l'énergie du canal gauche
(L) et du canal droit (R).
Dans un mode de réalisation particulier, ces énergies sont calculées comme suit:
Cette formule revient à combiner l'énergie de 2 trames successives, ce qui correspond à un support temporel de 10 ms (15 ms si l'on compte le support temporel effectif de deux fenêtres successives).
Le module 314 produit donc une série de paramètres ICLD définis précédemment.
Ces paramètres ICLD sont divisés dans le module 315 de division, en plusieurs blocs. Dans le mode de réalisation illustré ici, les paramètres sont divisés en deux blocs suivant les deux parties suivantes: {lCLD i,fcl] et { ICLD [f, A:l]
La division des paramètres ICLD en blocs contigus permet d'effectuer un codage différentiel des indices de quantification scalaire.
Le module 316 effectue ensuite une sélection (St.) d'un bloc à coder en fonction d'indice de la trame courante à coder.
Dans l'exemple décrit ici, pour les trames t d'indice pair, le bloc { lCLD [i, £])t=0 g est codé en 312 et transmis, pour les trames r d'indice impair, le bloc
{ lCLD [i, À: ]}i=io est codé en 312 et transmis.
Le codage de ces blocs en 312 s'effectue par exemple par quantification scalaire non uniforme.
Ainsi, le codage d'un bloc de 10 ICLD est réalisé avec: • 5 bits pour le premier paramètre ICLD,
• 4 bits pour les 8 paramètres ICLD suivants,
• 3 bits pour le dernier (dixième) paramètre ICLD.
Un exemple plus détaillé de réalisation est par exemple comme ci-dessous:
Pour la table de quantification:
tab_ild_q5[31] = {-50, -45, -40, -35, -30, -25, -22, -19, -16, -13, -10, -8, -6, - 4, -2, 0, 2, 4, 6, 8, 10, 13, 16, 19, 22, 25, 30, 35, 40, 45, 50} la quantification à 5 bits de ICLD[t,k] consiste à trouver l'indice de quantification i tel que
i = arg minj=0...30| ICLD[t,k] - tab_ild_q5[j]|A2 De même pour la table de quantification:
tab_ild_q4[15] = {-16, -13, -10, -8, -6, -4, -2, 0, 2, 4, 6, 8, 10, 13, 16} la quantification à 4 bits de ICLD[t,k] consiste à trouver l'indice de quantification i tel que
i = arg minj=0...15 | ICLD[t,k] - tab_ild_q4|j]|A2 Enfin pour la table de quantification tab_ild_q3[7] = { -16, -8, -4, 0, 4, 8, 16 } la quantification à 3 bits de ICLD[t,k] consiste à trouver l'indice de quantification tel que
i = arg minj=0...15 | ICLD[t,k] - tab_ild_q3[jJ|A2
Au total 5 + 8x4 +3 = 40 bits sont donc nécessaires pour le codage d'un bloc de 10 ICLD. La trame étant de 5 ms, on obtient donc 40 bits / 5 ms = 8 kbit/s comme débit supplémentaire pour l'extension de codage stéréo.
Ce débit n'est donc pas trop important et suffit pour transmettre de façon efficace les paramètres stéréo.
Deux trames successives suffisent dans cet exemple de réalisation, pour obtenir les paramètres d'informations spatiales du signal multicanal, la longueur de deux trames étant la plupart du temps la longueur d'une fenêtre d'analyse pour une transformation fréquentielle à recouvrement de 50%. Dans une variante, une fenêtre plus courte de recouvrement pourrait être utilisée pour réduire le retard introduit.
Ainsi, le codeur décrit en référence à la figure 3 met en œuvre un procédé de codage paramétrique d'un signal audionumérique multicanal comportant une étape de codage (G.722 Cod) d'un signal issu d'un matriçage de réduction de canaux du signal multicanal. Le procédé comporte en outre les étapes suivantes:
- obtention (Obt.), par trame de longueur prédéterminée, de paramètres d'information spatiale du signal multicanal;
- division (Div.) des paramètres d'information spatiale en une pluralité de blocs de paramètres;
- sélection (St.) d'un bloc de paramètres en fonction de l'indice de la trame courante;
- codage (Q) du bloc de paramètres sélectionné pour la trame courante.
Dans le mode de réalisation décrit ci-dessus, on se situait dans le contexte d'un codeur en bande élargie fonctionnant avec une fréquence d'échantillonnage de 16 kHz et une découpe en sous-bande particulière.
Dans un autre mode de réalisation possible, le codeur peut opérer à d'autres fréquences (comme 32 kHz) et avec une découpe en sous-bandes différente.
On peut également exploiter le fait que le paramètre ICLD [i, jt] pour k=0 peut être négligé. Son calcul et donc son codage peuvent être évités. Dans ce cas le codage des paramètres ICLD devient:
- pour les trames d'indice t pair: codage d'un bloc de 9 paramètres { lCLD j/. λ:]}^ par quantification scalaire non-uniforme avec:
• 5 bits pour le premier paramètre ICLD [Î,£] avec fc=l
• 4 bits pour les 8 paramètres ICLD suivants
- pour les trames d'indice t impair: codage d'un bloc de 10 paramètres {lCLD[f, À: ]}t comme présenté précédemment
• 5 bits pour le premier paramètre ICLD, • 4 bits pour les 8 paramètres ICLD suivants,
• 3 bits pour le dernier (dixième) paramètre ICLD.
On utilise ainsi, dans ce mode de réalisation, 37 bits pour les trames d'indice t pair et 40 bits pour les trames d'indices t impair.
De même, dans une variante de réalisation, au lieu de diviser les paramètres
ICLD en blocs contigus, on peut diviser ces paramètres différemment, par exemple en entrelacement pour obtenir 2 parties: {lCLD [r, 2À:]}^ et { lCLD [f, 2£ + l]}t=Q .
A noter que le procédé de codage ainsi décrit se généralise facilement au cas où les paramètres sont divisés en plus de 2 blocs. Dans une variante de réalisation, les 20 paramètres ICLD sont divisés en 4 blocs:
{ lCLD[U]}t=lJ 19.
Le codage des paramètres ICLD est alors réparti sur 4 trames successives avec mémorisation des paramètres décodés dans les trames précédentes lors du décodage. Le calcul des ICLD doit alors être modifié afin d'inclure plus de 2 trames dans le calcul des énergies [t, k] .
Dans cette variante de réalisation, le codage des paramètres ICLD peut alors utiliser l'allocation suivante:
• 5 bits pour le premier paramètre ICLD
· 4 bits pour les 4 paramètres ICLD suivants
avec un total de 21 bits par trame. Le débit est donc plus faible encore que dans le mode de réalisation précédent, la contrepartie étant que les paramètres ICLD sont remis à jour dans au moins un bloc toutes les 20 ms au lieu de toutes les 10 ms. Pour certains paramètres stéréo et suivant le type de signal, cette variante peut cependant introduire des défauts de spatialisation audible.
Cependant l'intérêt de transmettre les paramètres stéréo ou spatiaux à un rythme plus faible que celui des trames est toujours grand. On exploite ainsi la perception auditive imparfaite des variations énergétiques intercanal. Enfin le procédé de codage ainsi décrit s'applique au codage d'autres paramètres que le paramètre ICLD. Par exemple le paramètre de cohérence (ICC) peut être calculé et transmis de façon sélective de manière similaire à l'ICLD.
Les deux paramètres peuvent également être calculés et codés selon le procédé de codage décrit précédemment.
La figure 4 illustre un décodeur dans un mode de réalisation de l'invention ainsi que le procédé de décodage qu'il met en œuvre.
La partie du train binaire scalable en débit et reçu du codeur G.722 est démultiplexée et décodée par un décodeur de type G.722 (bloc 401) au mode de 56 ou 64 kbit/s. Le signal synthétisé obtenu correspond au signal mono M (n) en l'absence d'erreurs de transmission.
Une analyse par transformée de Fourier discrète à court-terme avec le même fenêtrage qu'au codeur est réalisée surM(n) (blocs 402 et 403) pour obtenir le spectre M[j] .
La partie du train binaire associée à l'extension stéréo est aussi démultiplexée au bloc 404.
Le fonctionnement du bloc 405 de synthèse est maintenant détaillé.
Pour les trames t d'indice pair, on décode dans le module 404 un premier bloc de paramètres |lCLDq [f,*]] 9 et on mémorise dans le module 412 ces paramètres décodés. Pour les trames / d'indice impair on décode dans le module 404 un deuxième bloc de paramètres { ICLDq [f,£]}^ ^ et on mémorise dans le module
412 ces paramètres décodés.
Un exemple plus détaillé de réalisation est par exemple comme ci-dessous:
Pour la table de quantification:
tab_ild_q5[31] = { -50, -45, -40, -35, -30, -25, -22, -19, -16, -13, -10, -8, -6, - 4, -2, 0, 2, 4, 6, 8, 10, 13, 16, 19, 22, 25, 30, 35, 40, 45, 50} le décodage d'un indice à 5 bits consiste à synthétiser le paramètre ICLD4[t,k| comme
ICLDq[t,kJ = tab_ild_q5(i) De même pour la table de quantification:
tab_ild_q4[ 15] = { - 16, - 13, -10, -8, -6, -4, -2, 0, 2, 4, 6, 8, 10, 13, 16 } le décodage d'un indice i à 4 bits consiste à synthétiser le paramètre ICLDq[t,k] comme
ICLDq[t,kJ = tab_ild_q4(i)
Enfin pour la table de quantification tab_ild_q3[7] = { - 16, -8, -4, 0, 4, 8, 16 } le décodage d'un indice à 3 bits consiste à synthétiser le paramètre ICLDq[t,k] comme
ICLDq[t,k] = tab_ild_q3(i)
Dans les trames d'indice pair, on utilise alors dans le module la partie manquante des paramètres, les valeurs mémorisées jlCLDq [t -
la trame précédente, soit: ICLDq [i, & ] = ICLDq [î - 1, £ ] pour £=10...19. De façon similaire, dans les trames d'indice impair, on utilise pour la partie manquante |lCLDq [f - les valeurs mémorisées dans la trame précédente.
Les paramètres pour chacune des bandes de fréquences sont ainsi obtenus. Les spectres des canaux gauche et droit sont reconstruits par le module de synthèse 414 en appliquant les paramètres jlCLDq [/ - l, *]J ainsi décodés par sous-bande. Cette synthèse est réalisée par exemple comme suit:
rL[j] = Cl[î, k].M[jl
= B(k)...B(k + l) - l (5)
R[j] = c2[t, k]M[j]
avec
ou
c[tM = Q,cw[,Mno A noter que le calcul des facteurs d'échelle ci-dessus est donné à titre d'exemple. D'autres moyens d'expression des facteurs d'échelle existent et peuvent être mis en œuvre pour la présente invention.
Les canaux gauche et droit L(n) et R(n) sont reconstruits par transformée de Fourier discrète inverse (blocs 406 et 409) des spectres respectifs L[j] et R[j] et addition-recouvrement (blocs 408 et 411) avec fenêtrage sinusoïdal (blocs 407 et 410).
Ainsi, le décodeur décrit en référence à la figure 4, dans le mode particulier de réalisation au décodage de signaux stéréo, met en œuvre un procédé de décodage paramétrique d'un signal audionumérique multicanal comportant une étape de décodage (G.722 Dec) d'un signal issu d'un matriçage de réduction de canaux du signal multicanal. Le procédé comporte en outre les étapes suivantes:
- décodage (Q"1) de paramètres d'information spatiale reçus pour une trame courante de longueur prédéterminée de signal décodé;
- mémorisation (Mem) des paramètres décodés pour la trame courante;
- obtention (Comp.P) des paramètres décodés et mémorisés d'au moins une trame précédente et association de ces paramètres à ceux décodés pour la trame courante;
- reconstruction (Synth.) du signal multicanal à partir du signal décodé et de l'association de paramètres obtenus pour la trame courante.
Dans le cas d'une division en plus de deux blocs des paramètres d'informations spatiales, par exemple en 4 blocs comme dans une variante de réalisation décrite précédemment, on obtient tous les blocs de paramètres décodés pour 4 trames décodées.
Le débit de l'extension stéréo est donc réduit et l'obtention de ces paramètres permet de reconstruire un signal stéréo de bonne qualité.
On peut aussi noter que des techniques alternatives au codage des paramètres (ICLD, ICPD, ICC) peuvent être adoptées pour mettre œuvre le procédé de codage selon l'invention. Ainsi dans une variante de réalisation, le module 314 du bloc d'extraction de paramètres de la figure 3 diffère.
Ce module dans ce mode de réalisation permet d'obtenir d'autres paramètres stéréo en appliquant une analyse en composante principale (ACP) comme celle décrite dans l'article de Manuel Briand, David Virette et Nadine Martin intitulé "Parametric coding of stereo audio based on principal component analysis" paru dans la conférence DAFX, 1991.
Ainsi, une analyse en composante principale est effectuée par sous-bandes. Les canaux gauche et droit ainsi analysés sont ensuite modifiés par rotation afin d'obtenir un composant principal et un composant secondaire qualifié d'ambiance. L'analyse stéréo produit, pour chaque sous-bande, un paramètre d'angle de rotation ( Θ) et un ratio d'énergie entre le composant principal et le signal d'ambiance {PCAR qui signifie Principal Component to Ambience energy Ratio).
Les paramètres stéréo sont alors constitués du paramètre d'angle de rotation et du ratio d'énergie ( Θ et PCAR).
La figure 6 illustre un autre mode de réalisation d'un codeur selon l'invention.
Par rapport au codeur de la figure 3, c'est ici le bloc 303 de matriçage ou "downmix" qui diffère. Dans l'exemple de la figure 3, l'opération de "downmix" a l'avantage d'être instantanée et de complexité minimale.
Cependant, cette opération ne permet pas nécessairement une conservation de l'énergie. Une amélioration de cette opération de "downmix" est possible dans le domaine temporel, par exemple avec un calcul de la forme M (n) = ,L(n) + w2R(n) et des poids wl et w2 adaptatifs, ou encore en fréquentiel comme représenté ici en référence à la figure 6.
L'opération de "downmix" est ici constituée des blocs 603a, 603b, 603c et 603d pour le passage dans le domaine fréquentiel.
Le calcul du signal mono s'effectue dans le bloc 603e de "downmix" dans lequel le signal est calculé dans le domaine fréquentiel par la formule suivante:
où|.| représente l'amplitude (module complexe) et Z(.) la phase (argument complexe).
Les blocs 603f, 603g et 603h permettent de ramener le signal mono dans le domaine temporel afin d'être codé par le bloc 304 comme pour le codeur illustré en figure 3.
Un décalage de T' = 80+T échantillons est alors obtenu, soit un décalage de 80+80+22 = 182 échantillons.
Ce décalage permet de synchroniser les trames temporelles des canaux gauche/droit et ceux du signal mono décodé.
L'invention a été décrite ici dans le cas d'un codeur/décodeur G.722. elle peut bien évidemment s'appliquer dans le cas d'un codeur G.722 modifié, par exemple incluant des mécanismes de réduction de bruit ("noise feedback" en anglais) ou incluant une extension scalable de G.722 avec informations supplémentaires. L'invention peut également s'appliquer dans le cas d'un autre codeur mono que celui de type G.722 comme par exemple un codeur de type G.711.1. Dans ce dernier cas, le retard T doit être ajusté pour prendre en compte le retard du codeur G.711.1.
De même, l'analyse temps-fréquence du mode de réalisation décrit en référence à la figure 3 pourrait être remplacée suivant différentes variantes:
- un autre fenêtrage que le fenêtrage sinusoïdal pourrait être utilisé,
- un autre recouvrement que le recouvrement à 50% entre fenêtres successives pourrait être utilisé
- une autre transformée fréquentielle que la transformée de Fourier, par exemple la transformée en cosinus discret modifiée (MDCT en anglais) pourrait être utilisée.
Les modes de réalisation décrit précédemment traitaient du cas d'un signal multicanal de type signal stéréo, la réalisation de l'invention s'étend également au cas plus général du codage de signaux multicanaux (avec plus de 2 canaux audio) à partir d'un "downmix" mono ou même stéréo. Dans ce cas le codage de l'information spatiale implique le codage et la transmission de paramètres d'information spatiale. C'est par exemple le cas de signaux à 5.1 canaux comprenant un canal gauche (L), droit (R), centre (C), arrière gauche (Ls pour Left surround), arrière droit (Rs pour Right surround), et subwoofer (LFE pour Low Frequency Effects). Les paramètres d'information spatiale du signal multicanal prennent alors en compte les différences ou les cohérences entre les différents canaux.
Les codeurs et décodeurs tels que décrit en référence aux figures 3, 4 et 6 peuvent être intégrés à un équipement multimédia de type décodeur de salon, ordinateur ou encore équipement de communication tel qu'un téléphone mobile ou agenda électronique personnel.
La figure 7a représente un exemple d'un tel équipement multimédia ou dispositif de codage comportant un codeur selon l'invention. Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes:
- d'obtention, par trame de longueur prédéterminée, de paramètres d'information spatiale du signal multicanal;
- de division des paramètres d'information spatiale en une pluralité de blocs de paramètres;
- de sélection d'un bloc de paramètres en fonction de l'indice de la trame courante;
- de codage du bloc de paramètres sélectionné pour la trame courante.
Typiquement, la description de la figure 3 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement. Le dispositif comporte un module d'entrée apte à recevoir un signal multicanal Sm représentant une scène sonore, soit par un réseau de communication, soit par lecture d'un contenu stocké sur un support de stockage. Cet équipement multimédia peut également comporter des moyens de capture d'un tel signal multicanal.
Le dispositif comporte un module de sortie apte à transmettre les paramètres d'informations spatiales codées Pc et un signal somme Ss issus du codage du signal multicanal.
De la même façon, la figure 7b illustre un exemple d'équipement multimédia ou dispositif de décodage comportant un décodeur selon l'invention.
Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de:
- décodage de paramètres d'information spatiale reçus pour une trame courante de longueur prédéterminée de signal décodé;
- mémorisation des paramètres décodés pour la trame courante;
- obtention des paramètres décodés et mémorisés d'au moins une trame précédente et association de ces paramètres à ceux décodés pour la trame courante;
- reconstruction du signal multicanal à partir du signal décodé et de l'association de paramètres obtenus pour la trame courante.
Typiquement, la description de la figure 4 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement.
Le dispositif comporte un module d'entrée apte à recevoir les paramètres d'information spatiale codés Pc et un signal somme Ss provenant par exemple d'un réseau de communication. Ces signaux d'entrée peuvent provenir d'une lecture sur un support de stockage.
Le dispositif comporte un module de sortie apte à transmettre un signal multicanal décodé par le procédé de décodage mis en œuvre par l'équipement.
Cet équipement multimédia peut également comporter des moyens de restitution de type haut-parleur ou des moyens de communication apte à transmettre ce signal multi-canal.
Bien évidemment, un tel équipement multimédia peut comporter à la fois le codeur et le décodeur selon l'invention. Le signal d'entrée étant alors le signal multicanal original et le signal de sortie, le signal multicanal décodé.

Claims

REVENDICATIONS
1. Procédé de codage paramétrique d'un signal audionumérique multicanal comportant une étape de codage (G.722 Cod) d'un signal issu d'un matriçage de réduction de canaux du signal multicanal, caractérisé en ce qu'il comporte en outre les étapes suivantes:
- obtention (Obt.), par trame de longueur prédéterminée, de paramètres d'information spatiale du signal multicanal;
- division (Div.) des paramètres d'information spatiale en une pluralité de blocs de paramètres;
- sélection (St.) d'un bloc de paramètres en fonction de l'indice de la trame courante;
- codage (Q) du bloc de paramètres sélectionné pour la trame courante.
2. Procédé de codage selon la revendication 1, caractérisé en ce que les paramètres d'information spatiale sont obtenus par les étapes suivantes:
- transformation fréquentielle (Fen., FFT) du signal multicanal pour obtenir les spectres du signal multicanal, par trame;
-découpage (D), par trame, des spectres du signal multicanal, en une pluralité de sous-bandes de fréquence,
- calcul des paramètres d'information spatiale par sous-bandes de fréquence.
3. Procédé selon la revendication 2, caractérisé en ce que la division des paramètres d'information spatiale s'effectue en fonction des sous-bandes de fréquences obtenues par découpage.
4. Procédé selon la revendication 1, caractérisé en ce que lesdits paramètres d'information spatiale sont définis comme le rapport d'énergie entre les canaux du signal multicanal.
5. Procédé selon la revendication 1, caractérisé en ce que le codage d'un bloc de paramètres d'informations spatiales est réalisé par quantification scalaire non- uniforme.
6. Procédé selon la revendication 3, caractérisé en ce que l'étape de division des paramètres permet d'obtenir deux blocs, un premier bloc correspondant aux paramètres des premières sous-bandes de fréquence et un deuxième bloc correspondant aux paramètres des dernières sous-bandes de fréquence obtenues par découpage.
7. Procédé selon la revendication 3, caractérisé en ce que l'étape de division des paramètres permet d'obtenir deux blocs entrelaçant les paramètres des différentes sous-bandes de fréquence.
8. Procédé selon l'une des revendications 6 ou 7, caractérisé en ce que le codage du premier bloc et du deuxième bloc s'effectue selon que la trame à coder est d'indice pair ou d'indice impair.
9. Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape d'analyse en composante principale pour obtenir les paramètres d'information spatiale comprenant un paramètre d'angle de rotation et un rapport d'énergie entre un composant principal et un signal d'ambiance.
10. Procédé de décodage paramétrique d'un signal audionumérique multicanal comportant une étape de décodage (G.722 Dec) d'un signal issu d'un matriçage de réduction de canaux du signal multicanal, caractérisé en ce qu'il comporte en outre les étapes suivantes:
- décodage (Q 1) de paramètres d'information spatiale reçus pour une trame courante de longueur prédéterminée de signal décodé;
- mémorisation (Mem) des paramètres décodés pour la trame courante; - obtention (Comp.P) des paramètres décodés et mémorisés d'au moins une trame précédente et association de ces paramètres à ceux décodés pour la trame courante;
- reconstruction (Synth.) du signal multicanal à partir du signal décodé et de l'association de paramètres obtenus pour la trame courante.
11. Procédé selon la revendication 10, caractérisé en ce que les paramètres décodés et mémorisés d'une trame précédente correspondent aux paramètres des premières sous-bandes de fréquence de la bande de fréquence de décodage et les paramètres décodés de la trame courante correspondent aux paramètres des dernières sous-bandes de fréquences obtenues par découpage ou vice versa.
12. Programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage selon l'une des revendications 1 à 9, lorsque celles-ci sont exécutées par un processeur.
13. Programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de décodage selon l'une des revendications 10 à 11, lorsque celles-ci sont exécutées par un processeur.
14. Codeur paramétrique d'un signal audionumérique multicanal comportant un module de codage (304) d'un signal issu d'un matriçage de réduction de canaux du signal multicanal, caractérisé en ce qu'il comporte en outre:
- un module d'obtention (314), par trame de longueur prédéterminée, de paramètres d'information spatiale du signal multicanal;
- un module de division (315) des paramètres d'information spatiale en une pluralité de blocs de paramètres;
- un module de sélection (316) d'un bloc de paramètres en fonction de l'indice de la trame courante; - un module de codage (312) du bloc de paramètres sélectionné pour la trame courante.
15. Décodeur paramétrique d'un signal audionumérique multicanal comportant un module de décodage (401) d'un signal issu d'un matriçage de réduction de canaux du signal multicanal, caractérisé en ce qu'il comporte en outre:
- un module de décodage (404) de paramètres d'information spatiale reçus pour une trame courante de longueur prédéterminée de signal décodé;
- un espace de stockage (412) pour mémoriser des paramètres décodés pour la trame courante;
- un module d'obtention (413) des paramètres décodés et mémorisés d'au moins une trame précédente et d'association de ces paramètres à ceux décodés pour la trame courante;
- un module de reconstruction (414) du signal multicanal à partir du signal décodé et de l'association de paramètres obtenus pour la trame courante.
EP10785120.6A 2009-10-15 2010-10-15 Codage/décodage paramétrique bas débit optimisé Active EP2489039B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0957254 2009-10-15
PCT/FR2010/052192 WO2011045548A1 (fr) 2009-10-15 2010-10-15 Codage/decodage parametrique bas debit optimise

Publications (2)

Publication Number Publication Date
EP2489039A1 true EP2489039A1 (fr) 2012-08-22
EP2489039B1 EP2489039B1 (fr) 2015-08-12

Family

ID=42109842

Family Applications (1)

Application Number Title Priority Date Filing Date
EP10785120.6A Active EP2489039B1 (fr) 2009-10-15 2010-10-15 Codage/décodage paramétrique bas débit optimisé

Country Status (7)

Country Link
US (1) US9167367B2 (fr)
EP (1) EP2489039B1 (fr)
JP (1) JP5752134B2 (fr)
KR (1) KR101646650B1 (fr)
CN (1) CN102656628B (fr)
BR (1) BR112012008793B1 (fr)
WO (1) WO2011045548A1 (fr)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2489040A1 (fr) * 2009-10-16 2012-08-22 France Telecom Decodage parametrique stereo optimise
CN103854650A (zh) * 2012-11-30 2014-06-11 中兴通讯股份有限公司 立体声音频编码的方法及装置
WO2014108738A1 (fr) * 2013-01-08 2014-07-17 Nokia Corporation Encodeur de paramètres de multiples canaux de signal audio
US10199044B2 (en) 2013-03-20 2019-02-05 Nokia Technologies Oy Audio signal encoder comprising a multi-channel parameter selector
WO2014191793A1 (fr) * 2013-05-28 2014-12-04 Nokia Corporation Codeur de signaux audio
KR101841380B1 (ko) 2014-01-13 2018-03-22 노키아 테크놀로지스 오와이 다중-채널 오디오 신호 분류기
EP3067885A1 (fr) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Appareil et procédé pour le codage ou le décodage d'un signal multicanal
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
CN105895108B (zh) * 2016-03-18 2020-01-24 南京青衿信息科技有限公司 一种全景声处理方法
CN105895106B (zh) * 2016-03-18 2020-01-24 南京青衿信息科技有限公司 一种全景声编码方法
CN105898669B (zh) * 2016-03-18 2017-10-20 南京青衿信息科技有限公司 一种声音对象的编码方法
CN107452387B (zh) * 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
US20180213340A1 (en) * 2017-01-26 2018-07-26 W. L. Gore & Associates, Inc. High throughput acoustic vent structure test apparatus
EP3706119A1 (fr) * 2019-03-05 2020-09-09 Orange Codage audio spatialisé avec interpolation et quantification de rotations

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340099A (ja) * 1997-04-11 1998-12-22 Matsushita Electric Ind Co Ltd オーディオデコーダ装置及び信号処理装置
US7006555B1 (en) * 1998-07-16 2006-02-28 Nielsen Media Research, Inc. Spectral audio encoding
JP4387001B2 (ja) * 1999-08-27 2009-12-16 三菱電機株式会社 移動局および通信方法
DE60323331D1 (de) * 2002-01-30 2008-10-16 Matsushita Electric Ind Co Ltd Verfahren und vorrichtung zur audio-kodierung und -dekodierung
KR101008520B1 (ko) * 2002-11-28 2011-01-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 코딩
JP2006259291A (ja) * 2005-03-17 2006-09-28 Matsushita Electric Ind Co Ltd オーディオエンコーダ
US7991610B2 (en) * 2005-04-13 2011-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Adaptive grouping of parameters for enhanced coding efficiency
KR100878371B1 (ko) * 2005-04-19 2009-01-15 돌비 스웨덴 에이비 공간적 오디오 파라미터들의 효율적인 부호화를 위한에너지 종속 양자화
JP5461835B2 (ja) * 2005-05-26 2014-04-02 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化/復号化方法及び符号化/復号化装置
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007040361A1 (fr) * 2005-10-05 2007-04-12 Lg Electronics Inc. Procede et appareil de traitement de signal, procede de codage et de decodage, et appareil associe
CN101390443B (zh) * 2006-02-21 2010-12-01 皇家飞利浦电子股份有限公司 音频编码和解码
CN101188878B (zh) * 2007-12-05 2010-06-02 武汉大学 立体声音频信号的空间参数量化及熵编码方法和所用系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2011045548A1 *

Also Published As

Publication number Publication date
KR101646650B1 (ko) 2016-08-08
WO2011045548A1 (fr) 2011-04-21
CN102656628A (zh) 2012-09-05
JP5752134B2 (ja) 2015-07-22
EP2489039B1 (fr) 2015-08-12
BR112012008793A2 (pt) 2020-09-15
US20120207311A1 (en) 2012-08-16
BR112012008793B1 (pt) 2021-02-23
JP2013508743A (ja) 2013-03-07
US9167367B2 (en) 2015-10-20
KR20120095920A (ko) 2012-08-29
CN102656628B (zh) 2014-08-13

Similar Documents

Publication Publication Date Title
EP2489039B1 (fr) Codage/décodage paramétrique bas débit optimisé
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP1600042B1 (fr) Procede de traitement de donnees sonores compressees, pour spatialisation
EP3427260B1 (fr) Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal
EP2691952B1 (fr) Allocation par sous-bandes de bits de quantification de paramètres d'information spatiale pour un codage paramétrique
EP2002424B1 (fr) Dispositif et procede de codage scalable d'un signal audio multi-canal selon une analyse en composante principale
WO2012052676A1 (fr) Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase
EP2319037B1 (fr) Reconstruction de données audio multicanal
EP3391370A1 (fr) Traitement de réduction de canaux adaptatif pour le codage d'un signal audio multicanal
FR2903562A1 (fr) Spatialisation binaurale de donnees sonores encodees en compression.
EP2304721A1 (fr) Synthese spatiale de signaux audio multicanaux
WO2014207362A1 (fr) Extension améliorée de bande de fréquence dans un décodeur de signaux audiofréquences
EP2979266B1 (fr) Mixage partiel optimisé de flux audio codés selon un codage par sous-bandes
WO2023165946A1 (fr) Codage et décodage optimisé d'un signal audio utilisant un auto-encodeur à base de réseau de neurones
WO2011073600A1 (fr) Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux
EP2126905B1 (fr) Procédés et dispositifs d'encodage et décodage de signaux audio, signal audio encodé
EP2489040A1 (fr) Decodage parametrique stereo optimise
FR2980620A1 (fr) Traitement d'amelioration de la qualite des signaux audiofrequences decodes

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20120507

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
RIN1 Information on inventor provided before grant (corrected)

Inventor name: HOANG, THI MINH NGUYET

Inventor name: RAGOT, STEPHANE

Inventor name: KOVESI, BALAZS

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

17Q First examination report despatched

Effective date: 20130909

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 602010026664

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0019000000

Ipc: G10L0019008000

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 19/16 20130101ALN20150309BHEP

Ipc: G10L 19/008 20130101AFI20150309BHEP

Ipc: H04S 3/00 20060101ALI20150309BHEP

INTG Intention to grant announced

Effective date: 20150325

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 742758

Country of ref document: AT

Kind code of ref document: T

Effective date: 20150815

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602010026664

Country of ref document: DE

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 6

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 742758

Country of ref document: AT

Kind code of ref document: T

Effective date: 20150812

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20150812

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20151113

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20151112

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20151214

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20151212

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602010026664

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20151015

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

26N No opposition filed

Effective date: 20160513

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20151031

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20151031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 7

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20151015

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20101015

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20151031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 8

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 9

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150812

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20230920

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230920

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20230920

Year of fee payment: 14