EP1987513B1 - Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants - Google Patents

Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants Download PDF

Info

Publication number
EP1987513B1
EP1987513B1 EP07731577A EP07731577A EP1987513B1 EP 1987513 B1 EP1987513 B1 EP 1987513B1 EP 07731577 A EP07731577 A EP 07731577A EP 07731577 A EP07731577 A EP 07731577A EP 1987513 B1 EP1987513 B1 EP 1987513B1
Authority
EP
European Patent Office
Prior art keywords
frame
frames
duration
base level
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP07731577A
Other languages
German (de)
English (en)
Other versions
EP1987513A2 (fr
Inventor
Pierrick Philippe
Patrice Collen
Christophe Veaux
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1987513A2 publication Critical patent/EP1987513A2/fr
Application granted granted Critical
Publication of EP1987513B1 publication Critical patent/EP1987513B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the field of the invention is that of the compression and transmission of digital audio signals and more specifically the coding and decoding of digital audio signals.
  • the invention more specifically applies to the encoding and decoding of digital audio signals in a scalable manner (or "scalable"), which can be put into a bit stream having a hierarchical structure in layers, or levels.
  • the invention proposes in particular the shaping of a bitstream, formed of frames, or access units, belonging to the different layers, within the framework of a coding / decoding system of digital audio signals.
  • Hierarchical coding / decoding systems make it possible to prioritize the information to be transmitted or decoded from a digital signal in the form of a bit stream.
  • the entire train or only a part of the train is transmitted or decoded while ensuring that, in any case, essential information is transmitted and decoded.
  • the current hierarchical audio coding techniques operate in frame-to-frame mode and the generated bit streams include access units describing signal portions as indicated in the reference document for the "MPEG-4 audio" standard referenced to ISO IEC SC29 WG11 International standard 14496-3: 2001.
  • the figure 1 presents a diagram of a bit stream 10 formatted from frames belonging to three levels 111, 112, 113 of a hierarchical coding classic.
  • the frames are thus organized into a base layer 111 and two or more enhancement or enhancement layers 112 and 113 comprising frames 101 to 109 of the same duration.
  • the frames of the coded bit stream 10 are read along the time axis t, and then from the lowest level to the highest raising level (along the Q axis), that is to say from the frame 101 to the frame 109.
  • the priority orders of the frames are implicit.
  • the units have a time stamp “cts” (for "Composition Time Stamp”).
  • the two stamps correspond to the clock times for which the packets must be restored after decoding by the reader terminal:
  • Each unit of the same cts can be truncated (typically by a transmission device or routing), the quality restored to the decoder will be proportional to the number of layers received.
  • This conventional hierarchical coding / decoding technique considers only the transmission of entities whose transmission priority imposes a single hierarchy: either the units are of equal durations or the basic hierarchy level lasts less than the other levels ( example enrichment of a CELP layer by a scalable AAC layer as indicated in the reference document concerning the "MPEG-4 audio" standard mentioned above).
  • the patent application EP 1 533 789 A1 discloses a multi-level digital audio decoding and decoding method for base layer enhancement, which levels have a smaller frame length than that of the base layer.
  • the arrangement of the frames is fixed, and the order of the sequences is predefined so as to be used identically by the coding and decoding steps.
  • the invention particularly aims to overcome these disadvantages of the prior art.
  • an object of the invention is to provide a technique for encoding a different audio signal, and more effective than the known techniques.
  • Another objective of the invention in at least one of its embodiments, is to provide such a technique, which makes it possible to define several strategies for formatting the bitstream.
  • a hierarchical encoding method of a source audio signal in the form of a data stream comprising a base and at least two levels of hierarchical enhancement, each of said levels being organized in successive frames.
  • such a method is such that at least one frame of at least one enhancement level is of less duration than the duration of at least one frame of said base level, and the method comprises a step inserting in said stream at least one information representative of an order used for a set of frames corresponding to the duration of at least one frame of said base level.
  • the general principle of the invention is to code hierarchically the sinusoidal components of an audio signal in the form of basic frames, at least some of which have a duration greater than at least some enhancement frames coding complementary components of the signal.
  • the coding technique according to the invention makes it possible to obtain a high compression ratio and particularly for the basic level, which makes it possible to transmit the coded signal with a reduced bit rate compared with conventional coding techniques.
  • the information representative of an order used is intended for the decoder to enable it to adopt the technique of demultiplexing the bitstream adapted to the multiplexing adopted.
  • this coding technique leads to smaller grains of the coded bitstream resulting from the coding of the audio signal.
  • the duration of a base level frame is a multiple of the duration of a frame of at least one of said enhancement levels.
  • base level frames can all have the same duration or different durations.
  • the frames of the same level of enhancement can all have the same duration or different durations.
  • the frames of different levels of enhancement can all have the same duration or different duration.
  • the residual signal can be obtained from the difference between the source audio signal and a reconstructed signal using the sinusoidal components.
  • said step of coding a residual signal implements a bank of analysis filters.
  • the analysis filter bank provides a quantized version of each of the enhancement level frames.
  • the high frequency envelope of the source audio signal spectrum as well as the noise energy levels on at least a portion of the spectrum of this signal are band extension information that enriches the spectrum of the signal. signal decoded especially when the high frequencies are missing.
  • the method according to the invention comprises a step of constructing the stream, sequencing the frames in a so-called horizontal order, according to which a frame of said basic level is taken into account and then, for each of said levels of successively raising all the frames of said enhancement level covering the duration of said base level frame.
  • the method according to the invention comprises a step of constructing said stream, sequencing said frames in a so-called vertical order, according to which a frame of said basic level is taken into account and then the first frame of each of said frames. levels of enhancement, then the following frames, starting from a lower level to a higher level in chronological order, for all of the frames of all levels of enhancement covering the duration of said frame of the basic level .
  • this second embodiment of the frame scheduling makes it possible to transmit access units of short duration and thus offers the possibility of emptying the memory more quickly.
  • the method according to the invention comprises a step of constructing said stream, sequencing said frames in a so-called combined order, according to which a frame of said basic level is taken into account and, for the frames of the set of enhancement levels covering the duration of said base level frame, a predetermined selection order.
  • this third embodiment of the frame scheduling may consist of taking into account the base level and then several frames of an enhancement level covering the time duration of the lower level enhancement frame (in this case optionally the enhancement frames are encoded in the stream by encoding all the associated enhancement frames at the first instant before encoding the frames associated with the next instant to cover the duration of the lower level enhancement frame) and then the second frame of the first enhancement level and all the frames of all enhancement levels associated with this second enhancement frame and so on until 'taking into account all levels of enhancement covering the duration of the basic level.
  • the step of constructing a stream implements at least two types of scheduling, according to at least two of the orders belonging to the group comprising the orders horizontal, vertical and combined, according to at least one selection criterion. predetermined.
  • the invention also relates to a computer program product downloadable from a communication network and / or stored on a computer readable medium and / or executable by a microprocessor, comprising program code instructions for the implementation of the method of coding as described above.
  • the invention also relates to a hierarchical encoding device of a source audio signal in the form of a data stream comprising a base level and at least two hierarchical enhancement levels, each of said levels being organized in successive frames.
  • the coding device comprises coding means for said frames, delivering at least one frame of at least one enhancement level which is of a duration less than the duration of a frame of said level. base, and according to which is inserted in said stream at least one information representative of an order used for a set of frames corresponding to the duration of at least one frame of said base level.
  • Such a device can in particular implement the coding method as described above.
  • the invention also relates to a data signal representative of a source audio signal and being in the form of a data stream comprising a basic level and at least two hierarchical enhancement levels, each of said levels being organized in successive frames. .
  • At least one frame of at least one enhancement level is shorter than the duration of a frame of said base level, and said stream carries at least one information representative of an order used for scheduling said frames, for a set of frames corresponding to the duration of at least one frame of said base level.
  • Such a data signal may in particular represent a data stream coded according to the coding method described above.
  • This signal may of course include the various features relating to the coding method according to the invention described above.
  • the decoding method comprises a step of reconstructing said source audio signal, taking into account, for a frame of said base level, at least two frames of at least one of said enhancement levels each extending over a portion of the duration of said base level frame.
  • the method also includes a step of reading information representative of an order used for the scheduling of said frames, for a set of frames corresponding to the duration of at least one frame of said basic level, and a processing step said frames according to said order.
  • the terminal adapts its demultiplexing to the multiplexing implemented in the coding.
  • Such a decoding method is particularly suitable for decoding a data stream coded according to the coding method described above.
  • the decoding method implements steps of reconstructing a signal corresponding to the source audio signal, which is the reverse of the steps implemented during coding.
  • the invention also relates to a computer program product downloadable from a communication network and / or stored on a computer readable medium and / or executable by a microprocessor, comprising program code instructions for the implementation of the decoding method previously described.
  • the invention also relates to a device for decoding a data signal representative of a source audio signal and which is in the form of a data stream comprising a basic level and at least two hierarchical enhancement levels, each of said levels being organized in successive frames, at least one frame of at least one level of enhancement being of a duration less than the duration of a frame of said base level, said stream carrying at least one information representative of an order used for the scheduling of said frames, for a set of frames corresponding to the duration of at least one frame of said base level.
  • the decoding device comprises means for reconstructing said source audio signal, taking into account, for a frame of said base level, at least two frames of at least one of said enhancement levels each extending over a portion of the duration of said base level frame.
  • the device also comprises means for reading the information representative of an order used for the scheduling of said frames, for a set of frames corresponding to the duration of at least one frame of said basic level, and processing means said frames according to said order.
  • Such a decoding device may in particular implement the decoding method as described above. It is therefore adapted to receive a data stream encoded by the encoding device described above.
  • Hierarchical encoding and decoding of digital audio signals implemented by hierarchical coding and decoding devices according to a preferred embodiment of the invention are described below. These methods combine sinusoidal analysis / synthesis techniques, techniques subband coding, as well as spectrum enrichment and stereophonic techniques.
  • the hierarchical coding method (implemented by the hierarchical coding device) according to the invention is first described, allowing the coding of an initial digital audio signal in the form of a hierarchical binary train. coded (or coded digital audio signal) in the form of different layers (or levels).
  • the encoding method described hereinafter comprises an analysis process which allows the estimation and coding of the sinusoidal components of a signal, the coding of a residual signal in subbands (or layers or levels), the coding information related to extension techniques, band and coding information conversion from a monophonic signal to a multi-channel signal eg "Parametric Stereo" as defined in the reference document for the standard "MPEG -4 audio "above.
  • the base level is derived from a sinusoidal encoder
  • the enhancement levels are derived from a band-extension encoder (eg SBR), a sinusoidal encoder, a a parametric stereo enrichment, a transform coding of the residue after subtraction of the sinusoids of the signal.
  • SBR band-extension encoder
  • FIG. 2 a diagram of the processing unit 20 of a coding device (as illustrated below in connection with the Figure 7A ) according to a preferred embodiment of the invention.
  • the initial multi-channel audio signal (consisting of m channels) is injected into a module for obtaining the mono signal 205 which delivers on the one hand a mono audio signal (for monophonic) x (t) 2051 (or more generally n channels). audio) and on the other hand reconstruction data 2052 for reconstructing one or more (m greater than n) channels, representative of the initial audio signal.
  • the reconstruction data 2052 is then transmitted to the formatting module 206 described hereinafter.
  • the mono audio signal x (t) 2051 is injected into a sinusoidal analysis module 201 whose purpose is to extract sinusoidal components of the mono signal. It is recalled that sinusoidal modeling is based on the principle of decomposition of a signal under a sum of sinusoids of frequency, amplitude, and variable phase in time.
  • a partial of several seconds can be advantageously modeled by a small set of parameters and for particular signals, this so-called “long-term” sinusoidal modeling becomes more efficient (in terms of flow) than the modeling in subfolded (or layers or levels) so-called “short term” which cuts the signal into a fixed length frame of a few tens of milliseconds.
  • the partials of the audio signal x (t) are transmitted by the sinusoidal analysis module 201 to a shaping module 206 described hereinafter.
  • a sinusoidal synthesis module 203 makes it possible, by means of a subtraction device 204, to subtract from the audio signal x (t) the sinusoidal components of the audio signal x (t) in order to obtain the residual signal r (t) .
  • the residual signal r (t) is then injected into a subband analysis module 202 described below in connection with the figure 3 .
  • This module 202 comprises an analysis filter bank (ABF) 2021.
  • ABSF analysis filter bank
  • the analysis filter bank 2021 provides a quantized component of each of the subbands (subband 0 referenced 20221, subband 1 referenced 20222, subband 2 referenced 20223, ... in band N-1 referenced 20224 where N is an integer) of the residual signal r (t) which are then injected into an analysis and coding module 2023.
  • the analysis and coding module 2023 delivers to the formatting module 206 described below, in addition to the quantized components of each of the sub-bands of the residual signal r (t), band extension information (high frequency envelope 2024 and 2025 noise levels), as well as reconstruction information of the different channels of the original audio signal (which is for example a stereo audio signal or in 5.1) from the monophonic signal (stereo parameters 2026).
  • the hierarchical bit stream 200 may also include ancillary information indicating to the decoding device according to the invention which implements the decoding method according to the invention (described hereinafter) the reading mode of the hierarchical bit stream 200.
  • the frames of the base layer 207 (or base level) corresponding to the sinusoidal information describe portions of the signal longer than the frames of the layers (or levels ) raising 208, the frames of the enhancement layers being of the same length.
  • the frames of the enhancement levels may have different lengths depending on their position in the same level of enhancement or as a function of the enhancement levels to which they belong.
  • the transmission order of the enhancement frames is indicated by the encoder in the stream in the form of an initialization information for the decoder.
  • the hierarchical decoding method (implemented by the hierarchical decoding device) which, starting from the received coded (or hierarchical) bitstream 200, makes it possible to reconstruct an audio signal is described. digital synthesized approaching the original digital audio signal previously coded.
  • the hierarchical bit stream 200 obtained by means of the hierarchical coding method previously described is transmitted via a transmission channel and then received by the decoding device implementing the hierarchical decoding method according to the invention described below.
  • FIG. 4 a simplified diagram of the processing unit 50 of a decoding device (as illustrated below in connection with the Figure 7B ) according to a preferred embodiment of the invention.
  • the processing unit 50 is then responsible for demultiplexing the different layers of the hierarchical bit stream and for decoding the information useful for the sinusoidal synthesis module 51, for the module for decoding the residual signal into sub-bands 52 and for the band extension modules 53 and for the stereo.
  • the information extracted from the base layer (sinusoidal elements) is injected into the sinusoidal synthesis module 51, which from the information received (frequencies, phases and amplitudes of each of the partials or a set of partials) synthesizes the signal. corresponding to the sum of the partials transmitted.
  • the information extracted from the enhancement layers (or levels) 208 modeling the residual signal are injected into the decoding module of the residual signal in sub-bands 52.
  • the signals at the output of the sinusoidal synthesis modules 51 and the decoding of the residual signal in the sub-bands 52 are summed by an addition device 54, then the sum is applied at the input of the band extension module 53.
  • band extension elements modeling the high frequency envelope and the subband noise energy levels (called band extension elements) are fed into the extension module band 53 (also called spectrum enrichment module) which allows, from the signals reconstructed by the two previous modules, to synthesize the output signal.
  • extension module band 53 also called spectrum enrichment module
  • the conversion module of the mono signal into a stereo signal is not represented on this figure 4 .
  • a demultiplexing module 55 demultiplexes the different layers (or levels) of the hierarchical bit stream 200.
  • the information contained in the base level 207 allows the sinusoidal synthesis module 51 to synthesize the different partials contained in the previously encoded initial audio signal x (t).
  • the partials thus synthesized are then injected into a sinusoidal extension module 510 whose purpose is to synthesize, from the transmitted partials, partials at multiples of the frequency of each of these transmitted partials.
  • This operation corresponds to an interpolation of a truncated harmonic series, according to the following equations (3) and (4).
  • the phases and frequencies of the synthesized partials are thus directly calculated by the sinusoidal synthesis module 51, it remains to adjust their amplitudes.
  • the envelope information transmitted in the hierarchical bit stream 200 in the band extension level 209 (modeling the high frequency envelope and the subband noise energy levels) makes it possible to adjust the amplitude partial sinuses thus synthesized.
  • this high frequency envelope information is transmitted in the band extender layer 209 (which is a "short term” layer).
  • this envelope information is transmitted in the "long-term" base layer 207 describing the sinusoidal part of the signal.
  • the signal at the output of the sinusoidal expansion module 510 is then injected into a sub-band analysis module 511.
  • the information contained in the various enhancement layers 208 describing the residual signal r (t) in sub-bands is injected into the residual decoding module 52.
  • the capacity of the transmission channel is sufficient to transmit all the enhancement layers 208 describing the residual signal r (t) (favorable case).
  • the enhancement layers 208 can not all be received by the processing unit 50 (a moderately favorable case), and sometimes even none of the layers of enhancement is not received (adverse case).
  • the sub-bands from residual decoding modules 52 and sub-band analysis 511 are then summed before being injected into the band extension module 53.
  • the information retrieved in the hierarchical binary train 200 does not make it possible to synthesize the signal audio x (t) in full band, thus, the sub-high frequency bands are then missing.
  • the role of the band extension module 53 is here to synthesize the high frequency subbands from the low frequency subbands, according to the technique described in Martin Dietz's document, Lars Liljeryd, Kristofer Kjörling and Oliver Kunz who is titled "Spectral Band Replication - A Novel Approach in Audio Coding", 112nd AES convention, Kunststoff 2002.
  • noise is added to each of the subbands by the noise generation module 56.
  • the noise energy levels to be injected in each of the subbands are received in the bit stream. hierarchical 200 in the band extender layer 209.
  • the resulting subband energies are then adjusted by an envelope adjustment module 57.
  • the energy levels of each of the subbands are also received in the hierarchical bit stream 200 in the band extender layer 209. .
  • the resulting subbands are then injected into a synthesis filter bank called a subband synthesis module 58.
  • This sub-band synthesis module 58 is then summed to the sinusoidal portion coming from the sinusoidal synthesis module 51 and, optionally, from the sinusoidal extension module 510 (the means implementing this last step are not represented on the figure 5 ).
  • This first reading example ( Figure 6B ) is to read the base level followed by all the frames of the first level of enhancement covering the duration of the basic level, followed by all the frames of the second level of enhancement covering the duration of the basic level and so on until to the transmission of all levels of enhancement covering the duration of the basic level.
  • a frame corresponding to a level of enhancement n is read after the level of enhancement n-1 is completely read for the duration of the base level.
  • Cts for composition time stamp fields, which delimit system level layers and make it possible to indicate to the decoding device the time of composition of the transmitted units, are integrated in the bitstream 640.
  • FIG. 6C a second example according to the reading invention ( Figure 6C ) of the hierarchical binary train 200 of the Figure 6A .
  • This second example called “vertical” offers the possibility of transmitting access units of short duration and thus offers the possibility of performing a low delay decoding.
  • This second reading example ( Figure 6C ) is to read the first frame of the basic level then the first frames of the first, second, third level of enhancement, then the second frames of the first, second, third level of raising and so on to cover the duration of the level basic. Then, reading the second frame of the base level is implemented and so on.
  • the second demultiplexed hierarchical bit stream 650 is thus obtained.
  • the order of organization of the different layers of the hierarchical binary train must be known to the decoder. To do this, the information (eg, initialization information generated by the encoding device) is transmitted in a special syntactic field that is transmitted in the hierarchical bit stream.
  • the information eg, initialization information generated by the encoding device
  • Appendix 1 presents a table illustrating a syntax for reading the information concerning the mode of demultiplexing or reading (for example the first and second examples of reading above) that must adopt the decoding device.
  • the duration of each enhancement level is known to the decoder using the configuration information specific to the different fields (sinusConfig (), transformConfig (), BandwidthExtensionConfig (), StereoExtension ()).
  • the coding method of the invention can be implemented in many devices, such as stream servers, intermediate nodes of a network, transmitters, data storage devices, etc.
  • FIG. 7A The simplified general structure of such a coding device is schematically illustrated by the Figure 7A . It comprises a memory M 1000, a processing unit 1010 (such as the processing unit 20 described in connection with the figure 2 ), equipped for example with a microprocessor, and controlled by the computer program Pg 1020.
  • a processing unit 1010 such as the processing unit 20 described in connection with the figure 2
  • a microprocessor equipped for example with a microprocessor
  • the code instructions of the computer program 1020 are for example loaded into a RAM memory before being executed by the processor of the processing unit 1010.
  • the processing unit 1010 receives at input 1050 a audio signal 1030.
  • the microprocessor ⁇ P of the processing unit 1010 implements the method described above, according to the instructions of the program Pg 1020.
  • the processing unit 1010 outputs 1060 a hierarchical bit stream 1040 (corresponding to the encoded audio signal).
  • the decoding method of the invention can be implemented in many devices, such as stream servers, intermediate nodes of a network, transmitters, data storage devices, etc.
  • FIG. 7B The simplified general structure of such a decoding device is schematically illustrated by the Figure 7B . It comprises a memory M 1100, a processing unit 1110 (such as the processing unit 50 described in connection with the figure 5 ), equipped for example with a microprocessor, and controlled by the computer program Pg 1120.
  • a processing unit 1110 such as the processing unit 50 described in connection with the figure 5
  • a microprocessor equipped for example with a microprocessor
  • the code instructions of the computer program 1120 are for example loaded into a RAM memory before being executed by the processor of the processing unit 1110.
  • the processing unit 1110 receives at the input 1150 a hierarchical bit stream 1130.
  • the microprocessor ⁇ P of the processing unit 1110 implements the method described above, according to the instructions of the program Pg 1120.
  • the processing unit 1110 outputs 1160 a decoded audio signal 1140.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

    1. Domaine de l'invention
  • Le domaine de l'invention est celui de la compression et de la transmission des signaux audionumériques et plus précisément du codage et du décodage de signaux audionumériques.
  • L'invention s'applique plus précisément au codage et au décodage de signaux audionumériques de façon échelonnables (ou « scalables.»), pouvant être mis sous une forme de train binaire présentant une structure hiérarchique en couches, ou en niveaux.
  • L'invention propose notamment la mise en forme d'un train binaire, formé de trames, ou unités d'accès, appartenant aux différentes couches, dans le cadre d'un système de codage/décodage de signaux audionumériques.
  • 2. Solutions de l'art antérieur
  • Les systèmes de codage/décodage hiérarchiques permettent de hiérarchiser l'information à transmettre ou à décoder d'un signal numérique sous la forme d'un train binaire. Ainsi, en fonction de la bande passante instantanée du canal de transmission ou de la capacité de traitement du terminal de lecture du train binaire, tout le train ou seulement une partie du train est transmise ou décodée tout en assurant que, dans tous les cas, l'information essentielle est transmise et décodée.
  • Ces systèmes hiérarchiques permettent également d'assurer une protection canal différenciée des données conduisant à une transmission plus robuste.
  • Les techniques actuelles de codage audio hiérarchique fonctionnent en mode trame à trame et les trains binaires générés comportent des unités d'accès décrivant des portions de signal tel qu'indiqué dans le document de référence concernant la norme « MPEG-4 audio » référencé ISO IEC SC29 WG11 International standard 14496-3 :2001.
  • La figure 1 présente un schéma d'un train binaire 10 mis en forme à partir de trames appartenant à trois niveaux 111, 112, 113 d'un codage hiérarchique classique. Les trames sont donc organisées en une couche de base 111 et deux ou _ plusieurs couches de rehaussement ou d'enrichissement 112 et 113 comprenant des trames 101 à 109 de même durée.
  • Pour la construction d'un tel train binaire 10, une seule stratégie est classiquement envisagée. Tel qu'illustrée par la figure 1, les trames du train binaire codé 10 sont lues selon l'axe temporel t, puis selon du niveau le plus bas vers le niveau de rehaussement le plus haut (selon l'axe Q), c'est-à-dire de la trame 101 à la trame 109.
  • Les ordres de priorité des trames sont implicites.
  • Les unités sont assorties d'une estampille temporelle "cts" (pour « Composition Time Stamp »). Les deux estampilles correspondent aux temps d'horloge pour lesquels les paquets doivent être restitués après décodage par le terminal lecteur:
  • Chaque unité de même cts peut être tronquée (typiquement par un dispositif d'émission ou de routage), la qualité reconstituée au décodeur sera alors proportionnelle au nombre de couches reçues.
  • Cette technique de codage / décodage hiérarchique classique ne considère que la transmission d'entités dont la priorité d'émission impose une hiérarchie unique : soit les unités sont de durées égales, soit le niveau de hiérarchie de base dure moins longtemps que les autres niveaux (exemple enrichissement d'une couche CELP par une couche AAC. scalable tel qu'indiqué dans le document de référence concernant la norme « MPEG-4 audio » précité).
  • La demande de brevet EP 1 533 789 A1 décrit un procédé de codage et décodage audionumérique utilisant des niveaux multiples pour le rehaussement d'une couche de base, ces niveaux ayant une longueur de trame inférieure par rapport à celle de la couche de base. L'agencement des trames est fixe, et l'ordre des séquences est prédéfini afin d'être utilisé de manière identique par les étapes de codage et décodage.
  • 3. Objectifs de l'invention
  • L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
  • Plus précisément, un objectif de l'invention est de fournir une technique de codage d'un signal audio différente, et plus efficace, que les techniques connues. Un autre objectif de l'invention, dans au moins un de ses modes de réalisation, est de fournir une telle technique, qui permette de définir plusieurs stratégie de mise en forme du train binaire.
  • 4. Exposé de l'invention
  • Au moins certains de ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé de codage hiérarchique d'un signal audio source sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives.
  • Selon l'invention, un tel procédé est tel qu'au moins une trame d'au moins un niveau de rehaussement est d'une durée inférieure à la durée d'au moins une trame dudit niveau de base, et le procédé comprend une étape d'insertion dans ledit flux d'au moins une information représentative d'un ordre utilisé pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base.
  • Le principe général de l'invention consiste à coder de manière hiérarchique les composantes sinusoïdales d'un signal audio sous la forme de trames de base dont au moins certaines présentent une durée supérieure à au moins certaines trames de rehaussement codant les composantes complémentaires du signal.
  • Ainsi, la technique de codage selon l'invention permet d'obtenir un taux de compression important et particulièrement pour le niveau de base, ce qui permet de transmettre le signal codé avec un débit réduit par rapport aux techniques classiques de codage.
  • L'information représentative d'un ordre utilisé est destinée au décodeur pour lui permettre d'adopter la technique de démultiplexage du flux binaire adaptée au multiplexage adopté.
  • Par ailleurs, cette technique de codage conduit à des grains plus petits du train binaire codé résultant du codage du signal audio.
  • Avantageusement, la durée d'une trame de niveau de base est un multiple de la durée d'une trame d'au moins un desdits niveaux de rehaussement.
  • Ainsi, les trames du niveau de base peuvent toutes avoir la même durée ou des durées différentes. De même les trames d'un même niveau de rehaussement peuvent toutes avoir la même durée ou des durées différentes. Ensuite les trames de différents niveaux de rehaussement peuvent toutes avoir la même durée ou des durée différentes.
  • Préférentiellement, ledit procédé de codage comprend :
    • une étape de décomposition sinusoïdale dudit signal audio source, délivrant des composantes sinusoïdales formant ledit niveau de base ;
    • une étape de codage d'un signal résiduel, délivrant des composantes complémentaires formant au moins un niveau de rehaussement.
  • Par exemple, le signal résiduel peut être obtenu à partir de la différence entre le signal audio source et un signal reconstruit à l'aide des composantes sinusoïdales.
  • Selon une caractéristique avantageuse de l'invention, ladite étape de codage d'un signal résiduel met en oeuvre un banc de filtres d'analyse.
  • Ainsi, le banc de filtres d'analyse fournit une version quantifiée de chacune des trames des niveaux de rehaussement.
  • Avantageusement le procédé de codage comprend, pour le codage d'au moins un desdits niveaux de rehaussement, au moins une des étapes suivantes :
    • codage d'une enveloppe haute fréquence du spectre dudit signal audio source ;
    • codage d'au moins un niveau d'énergie de bruit sur au moins une partie du spectre dudit signal audio source ;
    • codage de données de reconstruction d'au moins une voie complémentaire dudit signal audio source à partir d'un signal mono ;
    • transmission de paramètres associés à une étape de duplication du spectre dudit signal audio source.
  • L'enveloppe haute fréquence du spectre du signal audio source ainsi que les niveaux d'énergie de bruit sur au moins une partie du spectre de ce signal sont des informations d'extension de bande qui permettent d'enrichir le spectre du signal décodé notamment lorsque les hautes fréquences sont manquantes.
  • Selon un premier mode de réalisation avantageux, le procédé selon l'invention comprend une étape de construction du flux, ordonnançant les trames selon un ordre dit horizontal, selon lequel on prend en compte une trame dudit niveau de base puis, pour chacun desdits niveaux de rehaussement successivement, l'ensemble des trames dudit niveau de rehaussement couvrant la durée de ladite trame du niveau de base.
  • Selon un deuxième mode de réalisation avantageux, le procédé selon l'invention comprend une étape de construction dudit flux, ordonnançant lesdites trames selon un ordre dit vertical, selon lequel on prend en compte une trame dudit niveau de base puis la première trame de chacun desdits niveaux de rehaussement, puis les trames suivantes, en partant d'un niveau inférieur vers un niveau supérieur en respectant un ordre chronologique, pour l'ensemble des trames de l'ensemble des niveaux de rehaussement couvrant la durée de ladite trame du niveau de base.
  • Ainsi, ce second mode de réalisation de l'ordonnancement des trames permet de transmettre des unités d'accès de petite durée et offre ainsi la possibilité de vider la mémoire plus rapidement.
  • Selon un troisième mode de réalisation avantageux, le procédé selon l'invention comprend une étape de construction dudit flux, ordonnançant lesdites trames selon un ordre dit combiné, selon lequel on prend en compte une trame dudit niveau de base puis, pour les trames de l'ensemble des niveaux de rehaussement couvrant la durée de ladite trame du niveau de base, un ordre de sélection prédéterminé.
  • Par exemple, ce troisième mode de réalisation de l'ordonnancement des trames peut consister à prendre en compte le niveau de base puis plusieurs trames d'un niveau de rehaussement couvrant la durée temporelle de la trame de rehaussement de niveau inférieure (dans ce cas optionnellement les trames de rehaussement sont codées dans le flux en codant toutes les trames de rehaussement associées à premier instant avant de coder les trames associées à l'instant suivant jusqu'à couvrir la durée de la trame de rehaussement du niveau inférieur) puis la deuxième trame du premier niveau de rehaussement et toutes les trames de tous les niveaux de rehaussement associées à cette deuxième trame de rehaussement et ainsi de suite jusqu'à la prise en compte de tous les niveaux de rehaussement couvrant la durée du niveau de base.
  • Avantageusement, l'étape de construction d'un flux met en oeuvre au moins deux types d'ordonnancement, selon au moins deux des ordres appartenant au groupe comprenant les ordres horizontal, vertical et combiné, en fonction d'au moins un critère de sélection prédéterminé.
  • Selon une caractéristique préférentielle de l'invention, ledit critère de sélection prédéterminé est obtenu selon au moins une des techniques appartenant au groupe comprenant :
    • une analyse dudit signal audio source ;
    • une analyse des capacités de traitement et/ou de stockage d'un récepteur ;
    • une analyse d'un débit de transmission disponible ;
    • une instruction de sélection émise par un terminal ;
    • une analyse des capacités d'un réseau de transmission dudit flux.
  • L'invention concerne également un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, comprenant des instructions de code de programme pour la mise en oeuvre du procédé de codage tel décrit précédemment.
  • L'invention concerne également un dispositif de codage hiérarchique d'un signal audio source sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives.
  • Selon l'invention, le dispositif de codage comprend des moyens de codage desdites trames, délivrant au moins une trame d'au moins un niveau de rehaussement qui est d'une durée inférieure à la durée d'une trame dudit niveau de base, et selon lesquels est insérée dans ledit flux au moins une information représentative d'un ordre utilisé pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base.
  • Un tel dispositif peut notamment mettre en oeuvre le procédé de codage tel que décrit précédemment.
  • Ainsi, selon une caractéristique avantageuse de l'invention, le dispositif de codage comprend notamment :
    • des moyens de décomposition sinusoïdale dudit signal audio source, délivrant des composantes sinusoïdales formant ledit niveau de base ; et
    • des moyens de codage d'un signal résiduel, délivrant des composantes complémentaires formant au moins un niveau de rehaussement.
  • L'invention concerne également un signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives.
  • Selon l'invention, au moins une trame d'au moins un niveau de rehaussement est d'une durée inférieure à la durée d'une trame dudit niveau de base, et ledit flux porte au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base.
  • Un tel signal de données peut notamment représenter un flux de données codé selon le procédé de codage décrit ci-dessus. Ce signal pourra bien sûr comporter les différentes caractéristiques relatives au procédé de codage selon l'invention précédemment décrit.
  • Ainsi, un tel signal de données peut être obtenu au moyen notamment :
    • de moyens de décomposition sinusoïdale dudit signal audio source, délivrant des composantes sinusoïdales formant ledit niveau de basé ; et
    • de moyens de codage d'un signal résiduel, délivrant des composantes complémentaires formant au moins un niveau de rehaussement.
    L'invention concerne également un procédé de décodage d'un signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives, au moins une trame d'au moins un niveau de rehaussement étant d'une durée inférieure à la durée d'une trame dudit niveau de base, ledit flux portant au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base.
  • Selon l'invention, le procédé de décodage comprend une étape de reconstruction dudit signal audio source, en prenant en compte, pour une trame dudit niveau de base, au moins deux trames d'au moins un desdits niveaux de rehaussement s'étendant chacune sur une portion de la durée de ladite trame du niveau de base. Le procédé comprend également une étape de lecture de l'information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base, et une étape de traitement desdites trames selon ledit ordre.
  • Ainsi, le terminal adapte son démultiplexage au multiplexage mis en oeuvre au codage.
  • Un tel procédé de décodage est notamment adapté pour décoder un flux de données codé selon le procédé de codage décrit précédemment.
  • Ainsi, un tel procédé de décodage peut comprendre les étapes suivantes :
    • réception d'un signal codé tel que décrit ci-dessus, et extraction d'une part d'un niveau de base formée de composantes sinusoïdales et d'autre part d'un signal résiduel, formé de composantes complémentaires formant au moins un niveau de rehaussement ;
    • reconstruction d'un signal basique, à partir desdites composantes sinusoïdales formant ledit niveau de base ;
    • reconstruction d'un signal amélioré, à partir dudit signal basique et desdites composantes complémentaires formant au moins un niveau de rehaussement.
  • Plus généralement, le procédé de décodage met en oeuvre des étapes de reconstruction d'un signal correspondant au signal audio source, inverse des étapes mises en oeuvre lors du codage.
  • L'invention concerne également un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, comprenant des instructions de code de programme pour la mise en du procédé de décodage décrit précédemment.
  • L'invention concerne également un dispositif de décodage d'un signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives,
    au moins une trame d'au moins un niveau de rehaussement étant d'une durée inférieure à la durée d'une trame dudit niveau de base, ledit flux portant au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base.
  • Selon l'invention, le dispositif de décodage comprend des moyens de reconstruction dudit signal audio source, en prenant en compte, pour une trame dudit niveau de base, au moins deux trames d'au moins un desdits niveaux de rehaussement s'étendant chacune sur une portion de la durée de ladite trame du niveau de base. Le dispositif comprend également des moyens de lecture de l'information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base, et des moyens de traitement desdites trames selon ledit ordre.
  • Un tel dispositif de décodage peut notamment mettre en oeuvre le procédé de décodage tel que décrit précédemment. Il est par conséquent adapté à recevoir un flux de données codé par le dispositif de codage décrit précédemment.
  • 5. Liste des figures
  • D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de mise en oeuvre préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels :
    • la figure 1 présente un schéma d'un train binaire mis en forme par un codage hiérarchique classique ;
    • la figure 2 présente un schéma de l'unité de traitement d'un dispositif de codage selon un mode de mise en oeuvre préférentiel de l'invention ;
    • la figure 3 présente un schéma d'un module d'analyse en sous-bandes selon le mode de mise en oeuvre préférentiel de l'invention ;
    • la figure 4 présente un schéma simplifié de l'unité de traitement d'un dispositif de décodage selon le mode de mise en oeuvre préférentiel de l'invention ;
    • la figure 5 est un schéma complet de l'unité de traitement du dispositif de décodage de la figure 4 ;
    • les figures 6A à 6D illustrent des premier (figure 6B), second (figure 6C) et troisième (figure 6D) exemples, conformes à l'invention, de lecture d'un train binaire hiérarchique présenté à la figure 6A ;
    • les figures 7A et 7B sont des schémas de la structure générale simplifiée du dispositif de codage (figure 7A) et de décodage (figure 7B) selon l'invention.
    6. Description d'un mode de réalisation de l'invention
  • On décrit dans la suite des procédés de codage et décodage hiérarchique de signaux audio numériques mis en oeuvre par des dispositifs de codage et décodage hiérarchique selon un mode de mise en oeuvre préférentiel de l'invention. Ces procédés associent des techniques d'analyse/synthèse sinusoïdale, des techniques de codage en sous-bandes, ainsi que des techniques d'enrichissement de spectre et stéréophoniques.
  • 6.1 codage
  • Dans la suite, on décrit dans un premier temps le procédé de codage hiérarchique (mis en oeuvre par le dispositif de codage hiérarchique) selon l'invention, permettant le codage d'un signal audio numérique initial sous la forme d'un train binaire hiérarchique codé (ou signal audio numérique codé) sous la forme de différentes couches (ou niveaux).
  • Le procédé de codage décrit ci-après comprend un processus d'analyse qui permet l'estimation et le codage des composantes sinusoïdales d'un signal, le codage d'un signal résiduel en sous-bandes (ou couches ou niveaux), le codage d'informations liées aux techniques d'extension, de bande et le codage des informations de conversion d'un signal monophonique en un signal à plusieurs voies par exemple du « Parametric Stéréo » tel que défini dans le document de référence concernant la norme « MPEG-4 audio » précité.
  • Selon un mode de réalisation de l'invention, le niveau de base est issu d'un codeur sinusoïdal, les niveaux de rehaussement sont issus d'un codeur à extension de bande (ex: SBR), d'un codeur sinusoïdal, d'un enrichissement stéréo paramétrique, d'un codage par transformée du résidu après soustraction des sinusoïdes du signal.
  • On présente, en relation avec la figure 2, un schéma de l'unité de traitement 20 d'un dispositif de codage (tel qu'illustré ci-après en relation avec la figure 7A) selon un mode de mise en oeuvre préférentiel de l'invention.
  • Le signal audio multi-canal (constitué de m voies) initial est injecté dans un module d'obtention du signal mono 205 qui délivre d'une part un signal audio mono (pour monophonique) x(t) 2051 (ou plus généralement n voies audio) et d'autre part des données de reconstruction 2052 permettant de reconstruire une ou plusieurs (m supérieur à n) voies, représentatifs du signal audio initial.
  • Les données de reconstruction 2052 sont ensuite transmises au module de mise en forme 206 décrit ci-après.
  • Le signal audio mono x(t) 2051 est quant à lui injecté dans un module d'analyse sinusoïdale 201 dont le but est d'extraire des composantes sinusoïdales du signal mono. On rappelle que la modélisation sinusoïdale se base sur le principe de décomposition d'un signal sous une somme de sinusoïdes de fréquence, d'amplitude, et de phase variable dans le temps.
  • Ainsi, le signal audio x(t) peut s'écrire sous la forme suivante : x t = i = 1 M A i t cos φ i t + r t
    Figure imgb0001

    où:
    • r(t) représente le signal résiduel
    • M correspond au nombre de partiels retenus par l'analyse
    • Ai(t) et φi(t) représentent respectivement l'amplitude et la phase du partiel (ou composante sinusoïdale du signal audio x(t)) d'indice i.
  • La phase φi(t) du partiel d'indice i dépend de la fréquence fi du partiel et de sa phase initiale φ0i(t) selon l'expression suivante : φ i t = φ 0 i + 2 π 0 t f i τ
    Figure imgb0002
  • Un partiel de plusieurs secondes peut être avantageusement modélisé par un petit jeu de paramètres et pour des signaux particuliers, cette modélisation sinusoïdale dite "long terme" devient plus efficace (en terme de débit) que la modélisation en sous bandés (ou couches ou niveaux) dite "court terme" qui découpe le signal en trame de longueur fixe de quelques dizaines de millisecondes.
  • Les partiels du signal audio x(t) sont transmises par le module d'analyse sinusoïdale 201 à un module de mise en forme 206 décrit ci-après.
  • Un module de synthèse sinusoïdale 203 permet, à l'aide d'un dispositif de soustraction 204, de retrancher au signal audio x(t) les composantes sinusoïdales du signal audio x(t) afin d'obtenir le signal résiduel r(t).
  • Le signal résiduel r(t) est ensuite injecté dans un module d'analyse en sous-bandes 202 décrit ci-après en relation avec la figure 3.
  • On présente, en relation avec la figure 3, un schéma du module d'analyse en sous-bandes 202 selon le mode de mise en oeuvre préférentiel de l'invention. Ce module 202 comprend un banc de filtres d'analyses (ABF) 2021.
  • Dans le cadre de ce mode de mise en oeuvre préférentiel de l'invention, le banc de filtres d'analyse 2021 fournit une composante quantifiée de chacune des sous-bandes (sous bande 0 référencée 20221, sous bande 1 référencée 20222, sous bande 2 référencée 20223, ... sous bande N-1 référencée 20224 où N est un entier) du signal résiduel r(t) qui sont ensuite injectées dans un module d'analyse et codage 2023.
  • Le module d'analyse et codage 2023 délivre au module de mise en forme 206 décrit ci-après, outre les composantes quantifiées de chacune des sous-bande du signal résiduel r(t), des informations d'extension de bande (enveloppe haute fréquence 2024 et niveaux de bruit 2025), ainsi que des informations de reconstruction des différentes voies du signal audio initial (qui est par exemple un signal audio stéréo ou en 5.1) à partir du signal monophonique (paramètres stéréo 2026).
  • Le module de mise en forme 206 construit ensuite un train binaire hiérarchique (ou codé) 200 composé des trames des différentes couches (ou niveaux) suivantes :
    • une couche de base 207 (autrement appelée niveau de base) dite "long terme" décrivant les composantes sinusoïdales (ou partiels) du signal audio x(t) à transmettre. Cette couche 207 modélise typiquement des unités longues du signal x(t) correspondant aux partiels. Chaque partiel est décrit par un temps de départ, sa durée, et les paramètres d'amplitude, de fréquence et de phase variables dans le temps. Selon ce mode de mise en oeuvre préférentiel de l'invention, la taille de ces couches "long terme" décriant les composantes sinusoïdales du signal est inférieure à 3kbit/s. Optionnellement, une information d'enveloppe hautes-fréquences est également transmise dans cette couche de base afin d'ajuster les amplitudes des sinus reconstruit lors de la mise en oeuvre du procédé de décodage selon l'invention (décrit ci-après) par le module d'extension sinusoïdale décrit ci-après.
    • différentes couches de rehaussement 208 (autrement appelées niveaux de rehaussement) dites "court terme" modélisant le signal résiduel en sous-bandes à différents degrés de précision (par exemple, on a représenté, sur cette figure 2, le train binaire hiérarchique 200 avec deux niveaux de rehaussement 208, cependant tout autre nombre de niveaux de rehaussement peut être envisagé dans le cadre de la présente invention). Selon ce mode de mise en oeuvre préférentiel de l'invention, la taille de chacune des couches de rehaussement 208 est comprise entre 4 et 16 kbit/s ;
    • une couche d'extension de bande 209 dite "court terme" modélisant l'enveloppe hautes-fréquences du spectre de signal audio x(t) à coder, ainsi que les niveaux d'énergie de bruit en sous-bandes sur tout, ou une partie du spectre du signal x(t). Les enveloppes hautes fréquence pour les sinusoïdes peuvent être transmises dans ce champ. Selon ce mode de mise en oeuvre particulier de l'invention, la taille de cette couche 209 est de l'ordre de quelques kbit/s ;
    • une couche 210 dite "court terme" permettant de reconstruire les différents voies du signal audio (stéréo voire 5.1) à partir du signal mono (paramètres basés par exemple sur des différences temporelles et de niveau inter orales). Selon ce mode de mise en oeuvre particulier de l'invention, la taille de cette couche est de l'ordre de quelques kbit/s.
  • Le train binaire hiérarchique 200 peut également comprendre une information annexe indiquant au dispositif de décodage selon l'invention qui met en oeuvre le procédé de décodage selon l'invention (décrit ci-après) le mode de lecture du train binaire hiérarchique 200.
  • Avantageusement, chacune des couches (ou niveaux) du train binaire hiérarchique 200 peut être également décomposée en différents niveaux d'enrichissement ou de rehaussement sous formes de trames d'amélioration (ou de rehaussement) :
    • les sinusoïdes peuvent être organisées par bandes de fréquences, chaque bande de fréquence étant transmise dans différentes unités (ou trames) ;
    • le signal résiduel peut être découpé en différentes bandes et enrichissement de précision chacune de ces entités pouvant être associées à autant de différentes trames d'enrichissement complémentaires ;
    • les informations hautes fréquences pour l'enrichissement spectral peuvent elles-mêmes être organisées en différentes bandes d'enrichissement, par exemple 3,4 kHz-7 kHz puis 7 kHz -15 kHz afin d'obtenir progressivement une bande hi-fi.
    • les informations stéréo peuvent également être organisées en plusieurs couches : au départ une couche paramétrique est transmise puis progressivement c'est le signal différence des voies gauches et droites qui est transmis afin de recréer la stéréo de façon fidèle.
  • Avantageusement, tel que cela est illustré par la figure 2, dans le cadre de ce mode de mise en oeuvre préférentiel de l'invention, les trames de la couche de base 207 (ou niveau de base) correspondant aux informations sinusoïdales décrivent des portions du signal plus longues que les trames des couches (ou niveaux) de rehaussement 208, les trames des couches de rehaussement étant de même longueur. Bien entendu, dans des variantes de ce mode de mise en oeuvre, les trames des niveaux de rehaussement peuvent présenter des longueurs différentes en fonction de leur position dans un même niveau de rehaussement ou en fonction des niveaux de rehaussement auxquels elles appartiennent.
  • La transmission ou le stockage de ces informations sont réalisés suivant les options suivantes (illustrées au moyen des figures 6A à 6D décrites plus en détail ci-après) :
    • Une première option de lecture en mode dit "vertical" (illustré ci-après par les figures 6A et 6C) qui consiste à transmettre le niveau de base puis, successivement les premières trames de tous les niveaux de rehaussement, puis les autres trames des niveaux de rehaussement supérieur en partant des niveaux inférieurs vers les niveaux supérieurs et en respectant l'ordre chronologique ;
    • Une seconde option de lecture en mode dit "horizontal" (illustré ci-après par les figures 6A et 6B) qui consiste à transmettre le niveau de base suivi de toutes les trames du premier niveau de rehaussement couvrant la durée du niveau de base, suivi de toutes les trames du deuxième niveau de rehaussement couvrant la durée du niveau de base et ainsi de suite jusqu'à la transmission de tous les niveaux de rehaussement couvrant la durée du niveau de base ;
    • Une troisième option de lecture en mode dit "combiné" (illustré ci-après par les figures 6A et 6D) qui consiste à transmettre le niveau de base puis plusieurs trames d'un niveau de rehaussement couvrant la durée temporelle de la trame de rehaussement de niveau inférieure (dans ce cas optionnellement les trames de rehaussement sont codées dans le flux en codant toutes les trames de rehaussement associées à premier instant avant de coder les trames associées à l'instant suivant jusqu'à couvrir la durée de la trame de rehaussement du niveau inférieur) puis la deuxième trame du premier niveau de rehaussement et toutes les trames de tous les niveaux de rehaussement associées à cette deuxième trame de rehaussement et ainsi de suite jusqu'à la transmission de tous les niveaux de rehaussement couvrant la durée du niveau de base.
  • L'ordre de transmission des trames de rehaussement est indiqué par le codeur dans le flux suivant la forme d'une information d'initialisation pour le décodeur.
  • 6.2 décodage
  • On décrit dans un second temps, le procédé de décodage hiérarchique (mis en oeuvre par le dispositif de décodage hiérarchique) qui, à partir du train binaire codé (ou hiérarchique) 200 reçu, permet de reconstruire un signal audio numérique synthétisé approchant au mieux le signal audio numérique initial précédemment codé.
  • Le train binaire hiérarchique 200 obtenu au moyen du procédé de codage hiérarchique précédemment décrit (mis en oeuvre par l'unité de traitement 20 du dispositif de codagedécrit en relation avec la figure 2) est transmis via un canal de transmission puis reçu par le dispositif de décodage mettant en oeuvre le procédé de décodage hiérarchique selon l'invention ci-après décrit.
  • On présente, en relation avec la figure 4, un schéma simplifié de l'unité de traitement 50 d'un dispositif de décodage (tel qu'illustré ci-après en relation avec la figure 7B) selon un mode de mise en oeuvre préférentiel de l'invention.
  • A la réception du train binaire hiérarchique 200, l'unité de traitement 50 se charge alors de démultiplexer les différentes couches du train binaire hiérarchique et de décoder les informations utiles pour le module de synthèse sinusoïdale 51, pour le module de décodage du signal résiduel en sous-bandes 52 et pour les modules d'extension de bande 53 et pour la stéréo.
  • Les informations extraites de la couche de base (éléments sinusoïdaux) sont injectées dans le module de synthèse sinusoïdale 51, qui à partir des informations reçues (fréquences; phases et amplitudes de chacun des partiels ou d'un ensemble de partiels), synthétise le signal correspondant à la somme des partiels transmis.
  • Les informations extraites des couches (ou niveaux) de rehaussement 208 modélisant le signal résiduel (également appelées éléments résiduels) sont injectées dans le module de décodage du signal résiduel en sous-bandes 52.
  • Les signaux en sortie des modules de synthèse sinusoïdale 51 et de décodage du signal résiduel en sous-bandes 52 sont sommés par un dispositif d'addition 54, puis la somme est appliquée en entrée du module d'extension de bande 53.
  • Les informations de la couche d'extension de bande 209 modélisant l'enveloppe hautes-fréquences et les niveaux d'énergie de bruit en sous-bandes (appelés éléments extension de Bande) sont injectées dans le module d'extension de bande 53 (autrement appelé module d'enrichissement de spectre) qui permet, à partir des signaux reconstruits par les deux modules précédents, de synthétiser le signal de sortie.
  • Pour des raisons de lisibilité des schémas, le module de conversion du signal mono en signal stéréo (ou 5.1) n'est pas représenté sur cette figure 4.
  • On présente, en relation avec la figure 5, un schéma complet de l'unité de traitement 50 du dispositif de décodage selon le mode de mise en oeuvre préférentiel de l'invention.
  • On décrit ci-après, en relation avec l'unité de traitement 50 du dispositif de décodage de cette figure 5, les étapes du procédé de décodage et de mise en forme du train binaire selon le mode de mise en oeuvre préférentiel de l'invention.
  • A la réception du train binaire hiérarchique 200 (par exemple avec trois niveaux de rehaussement 208) un module de démultiplexage 55 se charge de démultiplexer les différentes couches (ou niveaux) du train binaire hiérarchique 200.
  • Les informations contenues dans le niveau de base 207 permettent au module de synthèse sinusoïdale 51 de synthétiser les différents partiels contenus dans le signal audio initial x(t) précédemment codé.
  • Dans un mode de réalisation préférentiel de ce mode de mise en oeuvre préférentiel, les partiels ainsi synthétisés sont ensuite injectés dans un module d'extension sinusoïdale 510 dont le but est de synthétiser, à partir des partiels transmis, des partiels aux multiples de la fréquence de chacun de ces partiels transmis. Cette opération correspond en fait à une interpolation d'une série harmonique tronquée, conformément aux équations (3) et (4) suivantes.
  • A partir d'un partiel transmis vérifiant l'équation suivante : p 0 t = cos φ 0 + 2 π 0 t f i τ
    Figure imgb0003
  • On synthétise la série harmonique vérifiant l'équation suivante : P t = n = 1 N - 1 cos φ n + 2 π 0 t n f i τ
    Figure imgb0004

    où φn est soit égal à φ0 soit égal à un nombre aléatoire.
  • Les phases et les fréquences des partiels synthétisés étant ainsi directement calculés par le module de synthèse sinusoïdal 51, il reste à ajuster leurs amplitudes. L'information d'enveloppe transmise dans le train binaire hiérarchique 200 dans le niveau d'extension de bande 209 (modélisant l'enveloppe hautes-fréquences et les niveaux d'énergie de bruit en sous-bandes) permet d'ajuster l'amplitude des sinus des partiels ainsi synthétisés.
  • Ainsi, dans le cadre du présent mode de mise en oeuvre préférentiel de l'invention, cette information d'enveloppe hautes-fréquences est transmise dans la couche d'extension de bande 209 (qui est une couche « court terme »). Dépendant dans une variante non illustrée de ce mode de mise en oeuvre préférentiel, on transmet cette information d'enveloppe dans la couche de base 207 "long terme" décrivant la partie sinusoïdale du signal.
  • Dans le cadre du mode de réalisation préférentiel; le signal en sortie du module d'extension sinusoïdal 510 est ensuite injecté dans un module d'analyse en sous-bandes 511.
  • Les informations contenues dans les différentes couches de rehaussement 208 décrivant le signal résiduel r(t) en sous-bandes sont injectée dans le module de décodage résiduel 52.
  • On suppose, dans le cadre du présent mode de mise en oeuvre préférentiel, que la capacité du canal de transmission est suffisante pour transmettre toutes les couches de rehaussement 208 décrivant le signal résiduel r(t) (cas favorable).
  • Dans des variantes de ce mode de mise en oeuvre préférentiel, par exemple lorsque la bande passante est limitée, les couches de rehaussement 208 ne peuvent pas être toutes reçues par l'unité de traitement 50 (cas moyennement favorable), et parfois même aucune des couches de rehaussement n'est reçue (cas défavorable).
  • Les sous-bandes issues des modules de décodage résiduel 52 et d'analyse en sous-bandes 511 sont ensuite sommées avant d'être injectée dans le module d'extension de bande 53.
  • Dans le cas moyennement favorable précité, les informations récupérées dans le train binaire hiérarchique 200 ne permettent pas de synthétiser le signal audio x(t) en pleine bande, ainsi, les sous bandes hautes-fréquences sont alors manquantes. Le rôle du module d'extension de bande 53 est ici de synthétiser les sous-bandes hautes fréquences à partir des sous-bandes basses fréquences, conformément à la technique décrite dans le document de Martin Dietz, Lars Liljeryd, Kristofer Kjörling et Oliver Kunz qui s'intitule " Spectral Band Réplication - A Novel Approach in Audio Coding ", 112nd AES convention, Munich 2002.
  • En sortie du module d'extension de bande 53, du bruit est ajouté à chacune des sous-bandes grâce au module génération de bruit 56. Les niveaux d'énergie de bruit à injecter dans chacune des sous-bandes sont reçus dans le train binaire hiérarchique 200 dans la couche d'extension de bande 209.
  • Les énergies des sous-bandes résultantes sont ensuite ajustées par un module d'ajustement d'enveloppe 57. Les niveaux d'énergies de chacune des sous-bandes sont également reçus dans le train binaire hiérarchique 200 dans la couche d'extension de bande 209.
  • Les sous-bandes résultantes sont ensuite injectées dans un banc de filtres de synthèse appelé module de synthèse en sous-bandes 58.
  • Le signal en sortie de ce module de synthèse en sous-bandes 58 est ensuite sommé à la partie sinusoïdale issue du module de synthèse sinusoïdale 51 et, optionnellement du module d'extension sinusoïdal 510 (les moyens mettant en oeuvre cette dernière étape ne sont pas représentés sur la figure 5).
  • On obtient ainsi un signal audio numérique synthétisé approchant au mieux le signal audio initial x(t).
  • Selon les informations reçues par le dispositif de décodage via le train binaire hiérarchique 200, le signal audio numérique synthétisé peut ainsi correspondre notamment à :
    • soit à la somme des sinus transmis et éventuellement des sinus interpolés et ajustés par le module d'extension sinusoïdale 510, et du bruit si aucune des couches de rehaussement 208 (décrivant le signal résiduel en sous-bandes) ne sont reçues par le dispositif de décodage ;
    • soit à la somme des sinus, des sous-bandes basses fréquences transmises et des signaux dupliqués en hautes fréquences par le module d'extension de bande 53 ;
    • soit à la somme des sinus transmis, des sinus interpolés et ajustés par le module d'extension sinusoïdale 510, des sous-bandes basses fréquences transmises, des sous-bandes basses fréquences dupliquées en hautes fréquences par le module d'extension de bande 53, et à du bruit mis en forme sur toute la bande, et à la reconstruction des m voies (par exemple 2 pour un système stéréo) à partir des n voies transmises (par exemple 1 voie mono).
  • On décrit ci-après, deux exemples de démultiplexage ou lecture selon l'invention d'un train binaire hiérarchique.
  • On présente, en relation avec les figures 6A et 6B, un premier exemple, conforme à l'invention, de lecture (figure 6B) du train binaire hiérarchique 200 issu de la structure de la figure 6A. Ce premier exemple de lecture, dit "horizontal", est plus coûteux en ressource mémoire, mais optimal du point de vue de la qualité si tous les niveaux ne sont pas recus.
  • Le train binaire hiérarchique 200 comprend un niveau de base 207, et des premier, deuxième et troisième niveaux de rehaussement 208 à 210. Une trame 00 ou 40 du niveau de base 207 est suivie de :
    • 4 trames 01, 11, 21, 31 ou 41, 51, 61, 71 du premier niveau de rehaussement 208 ; puis de
    • 4 trames 02, 12, 22, 32 ou 42, 52, 62, 72 du deuxième niveau de rehaussement 209 ; puis de
    • 4 trames 03, 13, 23, 33 ou 43, 53, 63, 73 du troisième niveau de rehaussement 210.
  • Ce premier exemple de lecture (figure 6B) consiste donc à lire le niveau de base suivi de toutes les trames du premier niveau de rehaussement couvrant la durée du niveau de base, suivi de toutes les trames du deuxième niveau de rehaussement couvrant la durée du niveau de base et ainsi de suite jusqu'à la transmission de tous les niveaux de rehaussement couvrant la durée du niveau de base.
  • Ainsi, une trame correspondant à un niveau de rehaussement n est lue après que le niveau de rehaussement n-1 soit complètement lu pour la durée du niveau de base.
  • On obtient ainsi le train binaire hiérarchique démultiplexé 640.
  • Des champs cts (pour « composition time stamp »), qui délimitent des couches de niveau système et permettent d'indiquer au dispositif de décodage l'instant de composition des unités transmises, sont intégrés au train binaire 640.
  • On présente, en relation avec les figures 6A et 6C, un second exemple conforme à l'invention de lecture (figure 6C) du train binaire hiérarchique 200 de la figure 6A. Ce second exemple, dit "vertical" offre la possibilité, de transmettre des unités d'accès de petite durée et offre ainsi la possibilité de réaliser un décodage à faible retard.
  • Ce second exemple de lecture (figure 6C) consiste à lire la première trame du niveau de base puis les premières trames des premier, deuxième, troisième niveaux de rehaussement, puis les deuxièmes trames des premier, deuxième, troisième niveaux de réhaussement et ainsi de suite de manière à couvrir la durée du niveau de base. Ensuite, la lecture de la seconde trame du niveau de base est mise en oeuvre et ainsi de suite.
  • On obtient ainsi le second train binaire hiérarchique démultiplexé 650.
  • Bien entendu, d'autres modes de lecture selon l'invention de trains binaires hiérarchisés peuvent être obtenus par combinaison des exemples de lecture dit « vertical » et « horizontal ».
  • L'ordre d'organisation des différentes couches du train binaire hiérarchique doit être connu du décodeur. Pour ce faire, l'information (par exemple une information d'initialisation générée par le dispositif de codage) est transmise dans un champ syntaxique spécial qui est transmis dans le train binaire hiérarchique.
  • On présente, en annexe 1, un tableau illustrant une syntaxe de lecture de l'information concernant le mode de démultiplexage ou de lecture (par exemple les premier et second exemples de lecture précités) que doit adopter le dispositif de décodage.
  • Dans le cadre du présent mode de mise en oeuvre préférentiel de l'invention, ce mode de lecture est indiqué dans un champ de 2 bits appelé « framingMode »..
    • si le champ framingMode prend la valeur 0x00, alors le dispositif de décodage adopte le premier exemple de lecture, dit "horizontal," tel que précédemment décrit en relation avec la figure 6B (ce mode de lecture est implicite) ;
    • si le champ framingMode prend la valeur 0x01, alors le dispositif de décodage adopte le second exemple de lecture, dit "vertical" tel que précédemment décrit en relation avec la figure 6C (ce mode de lecture est implicite) ;
    • si le champ framingMode prend la valeur 0x10, alors le décodeur analyse un champ additionnel (appelé « advancedFramingInformation ») qui précise le mode de lecture. Ce champ additionnel qui permet des tramages spécifiques est présenté ci-dessous.
    • si la champ framingMode prend la valeur 0x11, alors on est dans le cadre d'un mode réservé.
  • On présente, en annexe 2, un tableau illustrant une syntaxe de lecture du tramage dans le cas d'une mise en trames non implicite.
  • Le nombre de niveaux de rehaussement est lu au préalable. Ensuite pour chacun des niveaux (sauf le dernier) est indiqué l'ordre de lecture du niveau suivant : par couche de rehaussement (layerOrganization[layer]=0) ou par instant temporel jusqu'à ce que soit complètement parcourue la durée du niveau de rehaussement précédent (layerOrganization[layer]=1).
  • La durée de chaque niveau de rehaussement est connue du décodeur à l'aide des informations de configuration spécifiques aux différents champs (sinusConfig(), transformConfig(), BandwidthExtensionConfig(), StereoExtension()).
  • Le procédé de codage de l'invention peut être mis en oeuvre dans de nombreux dispositifs, tels que des serveurs de flux, des noeuds intermédiaires d'un réseau, des émetteurs, des dispositifs de stockage de données,...
  • La structure générale simplifiée d'un tel dispositif de codage est illustrée schématiquement par la figure 7A. Il comprend une mémoire M 1000, une unité de traitement 1010 (telle que l'unité de traitement 20 décrit en relation avec la figure 2), équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur Pg 1020.
  • A l'initialisation, les instructions de code du programme d'ordinateur 1020 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 1010. L'unité de traitement 1010 reçoit en entrée 1050 un signal audio 1030. Le microprocesseur µP de l'unité de traitement 1010 met en oeuvre le procédé décrit ci-dessus, selon les instructions du programme Pg 1020. L'unité de traitement 1010 délivre en sortie 1060 un flux binaire hiérarchique 1040 (correspondant au signal audio codé).
  • Le procédé de décodage de l'invention peut être mis en oeuvre dans de nombreux dispositifs, tels que des serveurs de flux, des noeuds intermédiaires d'un réseau, des émetteurs, des dispositifs de stockage de données,...
  • La structure générale simplifiée d'un tel dispositif de décodage est illustrée schématiquement par la figure 7B. Il comprend une mémoire M 1100, une unité de traitement 1110 (telle que l'unité de traitement 50 décrit en relation avec la figure 5), équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur Pg 1120.
  • A l'initialisation, les instructions de code du programme d'ordinateur 1120 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 1110. L'unité de traitement 1110 reçoit en entrée 1150 un train binaire hiérarchique 1130. Le microprocesseur µP de l'unité de traitement 1110 met en oeuvre le procédé décrit ci-dessus, selon les instructions du programme Pg 1120. L'unité de traitement 1110 délivre en sortie 1160 un signal audio décodé 1140.
  • ANNEXE 1
  • Syntaxe No. of bits Mnemonic
    decoderSpecificConfiguration()
    {
    FramingMode 2 uimsbf
    if (framingMode == 0x10)
    advancedFramingInformation();
    sinusConfig() // elements pour initialisation
    transformConfig() // elements pour initialisation
    BandwidthExtensionConfig() // elements pour initialisation
    StereoExtension() // éléments pour initialisation
    }
  • ANNEXE 2
  • Syntaxe No. of bits Mnemonic
    advancedFramingInformation()
    {
    nELayers 4 uimsbf
    for(layer =0; layer <nELayers-1 layer++)
    layerOrganization[layer] 1 uimsbf
    }

Claims (16)

  1. Procédé de codage hiérarchique d'un signal audio source sous la forme d'un flux de données (200) comprenant un niveau de base, (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives,
    ledit flux ayant au moins une trame d'au moins un niveau de rehaussement (208, 209, 210, 211) d'une durée inférieure à la durée d'au moins une trame dudit niveau de base (207), et caractérisé
    en ce qu'il comprend une étape d'insertion dans ledit flux d'au moins une information représentative d'un ordre utilisé pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207).
  2. Procédé de codage selon la revendication 1, caractérisé en ce que la durée d'une trame de niveau de base (207) est un multiple de la durée d'une trame d'au moins un desdits niveaux de rehaussement (208, 209, 210, 211).
  3. Procédé de codage selon l'une quelconque des revendications 1 et 2, caractérisé en ce que ledit procédé de codage comprend :
    - une étape de décomposition sinusoïdale dudit signal audio source, délivrant des composantes sinusoïdales formant ledit niveau de base (207) ;
    - une étape de codage d'un signal résiduel, délivrant des composantes complémentaires formant au moins un niveau de rehaussement (208, 209, 210, 211).
  4. Procédé de codage selon la revendication 3, caractérisé en ce que ladite étape de codage d'un signal résiduel met en oeuvre un banc de filtres d'analyse (2021).
  5. Procédé de codage selon l'une quelconque des revendications 1 à 4, caractérisé en ce qu'il comprend, pour le codage d'au moins un desdits niveaux de rehaussement (208, 209, 210, 211), au moins une des étapes suivantes :
    - codage d'une enveloppe haute fréquence du spectre dudit signal audio source ;
    - codage d'au moins un niveau d'énergie de bruit sur au moins une partie du spectre dudit signal audio source ;
    - codage de données de reconstruction d'au moins une voie complémentaire dudit signal audio source à partir d'un signal mono ;
    - transmission de paramètres associés à une étape de duplication du spectre dudit signal audio source.
  6. Procédé de codage selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comprend une étape de construction dudit flux (200), ordonnançant lesdites trames selon un ordre dit horizontal, selon lequel on prend en compte une trame dudit niveau de base (207) puis, pour chacun desdits niveaux de rehaussement (208, 209, 210, 211) successivement, l'ensemble des trames dudit niveau de rehaussement couvrant la durée de ladite trame du niveau de base.
  7. Procédé de codage selon l'une quelconque des revendications 1 à 5; caractérisé en ce qu'il comprend une étape de construction dudit flux (200), ordonnançant lesdites trames selon un ordre dit vertical, selon lequel on prend en compte une trame dudit niveau de base (207) puis la première trame de chacun desdits niveaux de rehaussement (208, 209, 210, 211), puis les trames suivantes, en partant d'un niveau inférieur vers un niveau supérieur en respectant un ordre chronologique, pour l'ensemble des trames de l'ensemble des niveaux de rehaussement couvrant la durée de ladite trame du niveau de base.
  8. Procédé de codage selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comprend une étape de construction dudit flux (200), ordonnançant lesdites trames selon un ordre dit combiné, selon lequel on prend en compte une trame dudit niveau de base (207) puis, pour les trames de l'ensemble des niveaux de rehaussement (208, 209, 210, 211) couvrant la durée de ladite trame du niveau de base, un ordre de sélection prédéterminé.
  9. Procédé de codage selon l'une quelconque des revendications 6 à 8, caractérisé en ce que ladite étape de construction d'un flux met en oeuvre au moins deux types d'ordonnancement, selon au moins deux des ordres appartenant au groupe comprenant les ordres horizontal, vertical et combiné, en fonction d'au moins un critère de sélection prédéterminé.
  10. Procédé de codage selon la revendication 9, caractérisé en ce que ledit critère de sélection prédéterminé est obtenu selon au moins une des techniques appartenant au groupe comprenant :
    - une analyse dudit signal audio source ;
    - une analyse des capacités de traitement et/ou de stockage d'un récepteur ;
    - une analyse d'un débit de transmission disponible ;
    - une instruction de sélection émise par un terminal ;
    - une analyse des capacités d'un réseau de transmission dudit flux.
  11. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en oeuvre d'au moins une des revendications 1 à 10.
  12. Dispositif de codage hiérarchique d'un signal audio source sous la forme d'un flux de données (200) comprenant un niveau de base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives,
    comprenant des moyens de codage (20) desdites trames, selon lesquels au moins une trame d'au moins un niveau de rehaussement (208, 209, 210, 211) est d'une durée inférieure à la durée d'une trame dudit niveau de base (207), étant caractérisé par lesdits moyens de codage étant adaptés pour insérer dans ledit flux au moins une information représentative d'un ordre utilisé pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207).
  13. Signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux de données (200) comprenant un niveau de base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives,
    comprenant au moins une trame d'au moins un niveau de rehaussement (208, 209, 210, 211) d'une durée inférieure à la durée d'une trame dudit niveau de base (207), et caractérisé
    en ce que ledit flux porte au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207).
  14. Procédé de décodage d'un signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux (200) de données comprenant un niveau de base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives, au moins une trame d'au moins un niveau de rehaussement (208, 209, 210, 211) étant d'une durée inférieure à la durée d'une trame dudit niveau de base (207), ledit flux portant au moins une information représentative d'un ordre utilise pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207),
    comprenant une étape de reconstruction dudit signal audio source, en prenant en compte, pour une trame dudit niveau de base (207), au moins deux trames d'au moins un desdits niveaux de rehaussement (208, 209, 210, 211) s'étendant chacune sur une portion de la durée de ladite trame du niveau de base (207), et caractérisé
    en ce qu'il comprend également une étape de lecture de l'information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base, et une étape de traitement desdites trames selon ledit ordre.
  15. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en oeuvre de la revendication 14.
  16. Dispositif de décodage d'un signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux de données (200) comprenant un niveau de base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives, au moins une trame d'au moins un niveau de rehaussement étant d'une durée inférieure à la durée d'une trame dudit niveau de base, ledit flux portant au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207),
    comprenant des moyens de reconstruction (50) dudit signal audio source, en prenant en compte, pour une trame dudit niveau de base (207), au moins deux trames d'au moins un desdits niveaux de rehaussement (208, 209, 210, 211) s'étendant chacune sur une portion de la durée de ladite trame du niveau de base, et caractérisé
    en ce qu'il comprend également des moyens de lecture de l'information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base, et des moyens de traitement desdites trames selon ledit ordre.
EP07731577A 2006-02-06 2007-02-05 Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants Active EP1987513B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0601067 2006-02-06
PCT/FR2007/050751 WO2007090988A2 (fr) 2006-02-06 2007-02-05 Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants

Publications (2)

Publication Number Publication Date
EP1987513A2 EP1987513A2 (fr) 2008-11-05
EP1987513B1 true EP1987513B1 (fr) 2009-09-09

Family

ID=37228079

Family Applications (1)

Application Number Title Priority Date Filing Date
EP07731577A Active EP1987513B1 (fr) 2006-02-06 2007-02-05 Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants

Country Status (5)

Country Link
US (1) US8321230B2 (fr)
EP (1) EP1987513B1 (fr)
AT (1) ATE442645T1 (fr)
DE (1) DE602007002385D1 (fr)
WO (1) WO2007090988A2 (fr)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
JP5520967B2 (ja) * 2009-02-16 2014-06-11 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 適応的正弦波コーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
WO2011058752A1 (fr) * 2009-11-12 2011-05-19 パナソニック株式会社 Appareil d'encodage, appareil de décodage et procédés pour ces appareils
US8489403B1 (en) * 2010-08-25 2013-07-16 Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission
US9026450B2 (en) 2011-03-09 2015-05-05 Dts Llc System for dynamically creating and rendering audio objects
US9558785B2 (en) 2013-04-05 2017-01-31 Dts, Inc. Layered audio coding and transmission
JP6345780B2 (ja) * 2013-11-22 2018-06-20 クゥアルコム・インコーポレイテッドQualcomm Incorporated ハイバンドコーディングにおける選択的位相補償
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
CN108140392B (zh) 2015-10-08 2023-04-18 杜比国际公司 用于压缩声音或声场表示的分层编解码
SG10202001597WA (en) 2015-10-08 2020-04-29 Dolby Int Ab Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations
MX2020011754A (es) 2015-10-08 2022-05-19 Dolby Int Ab Codificacion en capas para representaciones de sonido o campo de sonido comprimidas.
CN114708874A (zh) 2018-05-31 2022-07-05 华为技术有限公司 立体声信号的编码方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
DE10328777A1 (de) 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US20060023748A1 (en) * 2004-07-09 2006-02-02 Chandhok Ravinder P System for layering content for scheduled delivery in a data network

Also Published As

Publication number Publication date
EP1987513A2 (fr) 2008-11-05
WO2007090988A3 (fr) 2007-11-08
US20090171672A1 (en) 2009-07-02
DE602007002385D1 (de) 2009-10-22
WO2007090988A2 (fr) 2007-08-16
US8321230B2 (en) 2012-11-27
ATE442645T1 (de) 2009-09-15

Similar Documents

Publication Publication Date Title
EP1987513B1 (fr) Procede et dispositif de codage hierarchique d&#39;un signal audio source, procede et dispositif de decodage, programmes et signal correspondants
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2277172B1 (fr) Dissimulation d&#39;erreur de transmission dans un signal audionumerique dans une structure de decodage hierarchique
EP2005420B1 (fr) Dispositif et procede de codage par analyse en composante principale d&#39;un signal audio multi-canal
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP2304721B1 (fr) Synthese spatiale de signaux audio multicanaux
JP6190942B2 (ja) オーディオ・エンコーダおよびデコーダ
CA2512179C (fr) Procede de codage et de decodage audio a debit variable
EP1905010A2 (fr) Dispositif de codage/decodage hierarchique
WO2007104883A1 (fr) Dispositif et procede de codage gradue d&#39;un signal audio multi-canal selon une analyse en composante principale
EP1997103B1 (fr) Procede de codage d&#39;un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d&#39;ordinateur correspondants
WO2012052676A1 (fr) Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase
FR2761801A1 (fr) Methode de codage audio et dispositif
FR2947945A1 (fr) Allocation de bits dans un codage/decodage d&#39;amelioration d&#39;un codage/decodage hierarchique de signaux audionumeriques
WO2003036624A1 (fr) Procede de transmission de signaux audio a large bande sur une voie de transmission a largeur de bande reduite
EP3175443A1 (fr) Détermination d&#39;un budget de codage d&#39;une trame de transition lpd/fd
KR101786863B1 (ko) 고 주파수 복원 알고리즘들을 위한 주파수 대역 테이블 설계
WO2007006958A2 (fr) Procédé et dispositif d&#39;atténuation des échos d&#39;un signal audionumérioue issu d&#39;un codeur multicouches
WO2011073600A1 (fr) Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux
Saoudi et al. High quality low delay (5 ms) sub-band audio coder (20 hz-15 khz) at low bit rate (64 kbit/s)

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20080905

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

REF Corresponds to:

Ref document number: 602007002385

Country of ref document: DE

Date of ref document: 20091022

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
LTIE Lt: invalidation of european patent or patent extension

Effective date: 20090909

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100111

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20091220

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100109

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

26N No opposition filed

Effective date: 20100610

BERE Be: lapsed

Owner name: FRANCE TELECOM

Effective date: 20100228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20100301

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20091210

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20100228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110228

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20100205

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090909

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 10

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 11

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 12

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230119

Year of fee payment: 17

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20240123

Year of fee payment: 18

Ref country code: GB

Payment date: 20240123

Year of fee payment: 18