EP2168121B1 - Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe - Google Patents
Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe Download PDFInfo
- Publication number
- EP2168121B1 EP2168121B1 EP08806144.5A EP08806144A EP2168121B1 EP 2168121 B1 EP2168121 B1 EP 2168121B1 EP 08806144 A EP08806144 A EP 08806144A EP 2168121 B1 EP2168121 B1 EP 2168121B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- quantization
- function
- components
- module
- audio signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 35
- 238000011002 quantification Methods 0.000 title description 13
- 238000006243 chemical reaction Methods 0.000 title description 2
- 238000013139 quantization Methods 0.000 claims description 87
- 230000009466 transformation Effects 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 27
- 230000000873 masking effect Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 description 16
- 239000013598 vector Substances 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Definitions
- the present invention relates to audio signal coding devices, intended in particular to take place in applications for transmission or storage of digitized and compressed audio signals.
- the invention relates more specifically to the quantization modules included in these audio coding devices.
- a 3D sound scene also called spatialized sound, comprises a plurality of audio channels each corresponding to monophonic signals.
- a signal coding technique for a sound stage used in the "MPEG Audio Surround” encoder includes the extraction and coding of spatial parameters from the set of monophonic audio signals on the different channels. These signals are then mixed to obtain a monophonic or stereophonic signal, which is then compressed by a conventional mono or stereo encoder (for example of the MPEG-4 AAC, HE-AAC type, etc.). At the level of the decoder, the synthesis of the rendered 3D sound scene is made from the spatial parameters and the decoded mono or stereo signal.
- the coding of the multichannel signals in certain cases requires the introduction of a transformation (KLT, Ambiophonic, DCT, etc.) making it possible to better take into account the interactions that may exist between the different signals of the sound scene to be encoded.
- KLT KLT, Ambiophonic, DCT, etc.
- the object of the invention is to find an improvement for the quantization in a multichannel system. This object is solved by the independent claims.
- the invention proposes a method for quantifying components, at least some of these components being each determined according to a plurality of audio signals of a scene. sound and calculable by applying a linear transformation on said audio signals.
- a quantization function is determined to be applied to said components in a given frequency band by testing a condition relating to at least one audio signal and depending at least on a comparison made between a psychoacoustic masking threshold relative to the audio signal. in the given frequency band, and a value determined according to the inverse linear transformation and quantization errors of the components by said function on the given frequency band.
- Such a method therefore makes it possible to determine a quantization function which makes it possible to mask, in the playback listening field, the noise introduced with respect to the audio signal of the initial sound scene.
- the sound scene restored after the coding and decoding operations thus presents a better audio quality.
- the introduction of a multichannel transform transforms the real signals into a new domain different from the listening domain.
- the quantification of the components resulting from this transform according to the methods of the state of the art, based on a perceptual criterion (ie respecting the masking threshold on the latter), does not guarantee a minimal distortion on the real signals restored in the listening domain.
- the calculation of the quantization function according to the invention makes it possible to guarantee that the quantization noises induced on the real signals by the quantization of the transformed components are minimal in the sense of a perceptual criterion. The condition of a maximum improvement of the perceptual quality of the signals in the listening domain is then verified.
- the condition is relative to several audio signals and depends on several comparisons, each comparison being made between a psychoacoustic masking threshold relative to a respective audio signal in the given frequency band, and a value determined according to the inverse linear transformation and quantization errors of the components by said function.
- This arrangement further enhances the audio quality of the restored sound stage.
- the determination of the quantization function is repeated when updating the values of the components to be quantized. This arrangement also makes it possible to increase the audio quality of the restored sound scene, by adapting the quantization over time according to the characteristics of the signals.
- the condition relating to an audio signal is tested at least by comparing the psychoacoustic masking threshold relative to the audio signal and an element representing the value.
- a quantization function is determined to apply components in the given frequency band using an iterative process generating at each iteration a parameter of the candidate quantization function satisfying the condition and associated with a corresponding flow rate, the iteration being stopped when the flow rate is below a given threshold.
- Such an arrangement thus makes it possible to simply determine a quantization function based on the determined parameters, allowing the noise to be masked in the playback listening domain while reducing the coding bit rate below a given threshold.
- the linear transformation is an ambiophonic transformation.
- the linear transformation is an ambiophonic transformation (called “ambisonic").
- ambisonic ambiophonic transformation
- This arrangement makes it possible on the one hand to reduce the number of data to be transmitted since, in general, the N signals can be very satisfactorily described by a reduced number of ambiophonic components (for example, a number equal to 3 or 5). , which is smaller than N.
- This arrangement also allows coding adaptability to any type of sound rendering system, since it is sufficient at the decoder level to apply an inverse surround transform of size Q'x (2p '+ 1). , (where Q 'is equal to the number of loudspeakers of the sound rendering system used at the output of the decoder and 2p' + 1 the number of received surround components), to determine the signals to be supplied to the sound rendering system.
- the invention can be implemented with any linear transformation, for example the DCT or the KLT (in English "Karhunen Loeve Transform") transform which corresponds to a decomposition on principal components in a space representing the statistics of the signals and allows to distinguish the most energetic components from the least energy components.
- any linear transformation for example the DCT or the KLT (in English "Karhunen Loeve Transform") transform which corresponds to a decomposition on principal components in a space representing the statistics of the signals and allows to distinguish the most energetic components from the least energy components.
- the invention proposes a quantization module adapted to quantify components, at least some of these components being each determined according to a plurality of audio signals of a sound scene and calculable by application of a transformation. linearly on said audio signals, said quantization module being adapted to implement the steps of a method according to the first aspect of the invention.
- the invention proposes a computer program to be installed in a quantization module, said program comprising instructions for implementing the steps of a method according to the first aspect of the invention during an execution. of the program by means of processing said module.
- the invention proposes coding data, determined following the implementation of a quantization method according to the first aspect of the invention.
- the figure 1 represents an audio coder 1 in one embodiment of the invention. It relies on the technology of perceptual audio coders, for example MPEG-4 AAC type.
- the encoder 1 comprises a time / frequency transformation module 2, a linear transformation module 3, a quantization module 4, a Huffman entropy coding module 5 and a masking curve calculation module 6, for transmission.
- a bit stream ⁇ representing the signals supplied at the input of the encoder 1.
- a 3D sound scene comprises N channels on each a respective audio signal S 1 , ..., S N is delivered.
- the figure 2 represents an audio decoder 100 in one embodiment of the invention.
- the decoder 100 comprises a bit sequence reading module 101, an inverse quantization module 102, an inverse linear transformation module 103, a frequency / time transformation module 104.
- the decoder 100 is adapted to receive as input the bitstream ⁇ transmitted by the encoder 1 and to output Q 'signals S' 1 , ..., S ' Q , for supplying the Q' speakers H1, H2 ..., HQ 'of a sound rendering system 105.
- the time / frequency conversion module 2 of the encoder 1 receives as input the N signals S 1 ,... S N of the 3D sound scene to be encoded, in the form of successive blocks.
- Each block m received has N time frames each indicating different values taken over time by a respective signal.
- the time / frequency transformation module 2 On each time frame of each of the signals, the time / frequency transformation module 2 performs a time / frequency transformation, in this case a modified discrete cosine transform (MDCT).
- MDCT modified discrete cosine transform
- the coding of multichannel signals comprises in the case considered a linear transformation, making it possible to take into account the interactions between the different audio signals to be coded, before the monophonic coding, by the quantization module 4, of the components resulting from the linear transformation.
- the linear transformation module 3 is adapted to perform a linear transformation of the coefficients of the spectral representations ( X i ) 1 i i N N provided. In one embodiment, it is adapted to perform spatial transformation. It then determines the spatial components of the signals ( X i ) 1 i i ⁇ N , in the frequency domain, resulting from the projection on a spatial reference system depending on the order of the transformation. The order of a spatial transformation is related to the angular frequency according to which it "scans" the sound field.
- Each of the ambiophonic components is therefore determined according to several signals ( S i ) 1 i i ⁇ N.
- the masking curve calculation module 6 is adapted to determine the spectral masking curve of each frame of a signal Si considered individually in the block m, using its spectral representation Xi and a psychoacoustic model.
- the masking curve calculation module 6 thus calculates a masking threshold M T m s , i , relating to the frame of each signal ( S i ) 1 i i ⁇ N in the block m, for each frequency band s considered during the quantization.
- Each frequency band s is part of a set of frequency bands including for example the bands as normalized for the MPEG-4 AAC encoder.
- Masking thresholds M T m s , i for each signal S i and each frequency band s are delivered to the quantization module 4.
- the quantization module 4 is adapted to quantize the components ( Y j ) 1 j j ⁇ r that are input to it, so as to reduce the bit rate required for transmission. Respective quantization functions are determined by the quantization module 4 on each frequency band s.
- the quantization module 4 quantizes each spectral coefficient Y j , t 1 ⁇ i ⁇ r 0 ⁇ t ⁇ M - 1 such that the frequency F t is an element of the frequency band s. It thus determines a quantization index i (k) for each spectral coefficient Y j , t 1 ⁇ i ⁇ r 0 ⁇ t ⁇ M - 1 such that the frequency F t is an element of the frequency band s.
- k takes the values of the set ⁇ k min, s , k min + 1 , s , ... k max , s ⁇ , and ( k max , s - k min + 1 , s + 1) is equal to the number of spectral coefficients to be quantified in the band s for all the surround components.
- Arr is a rounding function that delivers an integer value.
- Arr (x) is for example the function providing the integer closest to the variable x, or the function "integer part" of the variable x, etc.
- the quantization module 4 is adapted to determine a quantization function to be applied on a frequency band that verifies that the masking threshold M T m s , i of each signal S i in the listening domain, with 1 ⁇ i ⁇ N, is greater than the power of the error made, on an audio signal restored in the listening domain corresponding to the channel i (and not in the linear transformation domain), by the quantization errors made to the ambiophonic components.
- the quantization module 4 is therefore adapted to determine, during the processing of a block m of signals, the quantization function defined using the scale parameters.
- B j m s 1 ⁇ j ⁇ r relating to each band s, such that, for all i, 1 ⁇ i ⁇ N, the error introduced on the signal S i in the band s by the quantification of the surround components is less than the masking threshold M T m s , i of the signal S i on the band s.
- a problem to be solved by the quantization module 4 is therefore to determine, on each band s, the set of scaling coefficients.
- B j m s 1 ⁇ j ⁇ r verifying the following formula (1): B j m / P e m s , i ⁇ M T m s , i , 1 ⁇ i ⁇ NOT 1 ⁇ j ⁇ r or P e m s , i is the error power introduced on the signal S i following the quantization errors introduced by the quantization, defined by the scaling coefficients B j m s 1 ⁇ j ⁇ r , ambiophonic components.
- B j (s) is a parameter characterizing the quantization function s in the band on the j-th component.
- the choice of B j ( s ) determines in a bijective manner the quantization function used.
- This arrangement has the effect that the noise brought into the listening domain by the quantization on the components resulting from the linear transformation remains masked by the signal in the listening domain, which contributes to a better quality of the signals restored in the listening domain.
- the problem indicated above by the formula (1) is translated as the following formula (2): B j m / Probability P e m s , i ⁇ M T m s , i ⁇ ⁇ , 1 ⁇ i ⁇ NOT 1 ⁇ j ⁇ r , where ⁇ is a fixed rate of compliance with the masking threshold.
- the probability is calculated for the frame relating to the signal S i of the block m considered and on all the frequency bands s.
- Arr (x) is the function providing the integer closest to the variable x
- e R is equal to 0.5
- Arr (x) is the function "integer part" of the variable x, e R is equal to 1.
- This last equation represents a sufficient condition for the noise corresponding to the channel i to be masked at the output in the listening domain.
- the quantization module 4 is adapted to determine using the latter equation, for a block m of current frames, scaling coefficients. B j m s 1 ⁇ j ⁇ r ensuring that noise in the listening domain is hidden.
- the quantization module 4 is adapted to determine, for a block m of current frames, scaling coefficients.
- B j m s 1 ⁇ j ⁇ r guaranteeing that the noise in the listening domain is masked and furthermore making it possible to respect a flow constraint.
- D j m ⁇ s D j m s or D j m s is the bit rate assigned to the surround component Y j in the band s.
- the resolution of this constrained optimization problem is for example carried out using the Lagrangian method.
- the Lagrangian function is written in the following form:
- the iterative relative gradient method (see in particular the Derrien document) is used to solve this system.
- the vector m is chosen equal to: 1 M T m s , 1 ⁇ 1 M T m s , NOT
- the quantization module 4 is adapted to implement the steps of the method described below with reference to FIG. figure 3 on each quantization band s when quantizing a block m of signals ( S i ) 1 i i ⁇ N.
- the method is based on an iterative algorithm comprising instructions for implementing the steps described below during the execution of the algorithm on the calculation means of the quantization module 4.
- the steps of the iterative loop for a (k + 1) th iteration, with k integer greater than or equal to 0, are as follows.
- the value of the function F is calculated on the band s, representing the corresponding bit rate for the band s:
- a step e / the calculated value F ( s ) is compared with the given threshold D.
- the value of the Lagrange vector ⁇ for the (k + 1) th iteration is calculated in a step f / using the equation (4 ) indicated above and the Lagrange vector calculated during the k th iteration.
- a step g / the index k is incremented by one unit and the steps b /, c /, d / and e / are repeated.
- the quantization function thus determined for the respective s-bands and respective surround components is then applied to the spectral coefficients of the surround components.
- the quantization indices as well as definition elements of the quantization function are provided to the Huffman coding module.
- the coding data delivered by the Huffman coding module 5 is then transmitted as a bit stream ⁇ to the decoder 100.
- the bit sequence reading module 101 is adapted to extract coding data present in the stream ⁇ received by the decoder and to deduce, in each band s, quantization indices i (k) and scale coefficients.
- the inverse quantization module 102 is adapted to determine the spectral coefficients, relative to the band s, of the corresponding ambiophonic components as a function of the quantization indices i (k) and the scale coefficients.
- Ambiophonic decoding is then applied to the decoded surround components, so as to determine the signals S ' 1 , S' 2 ,..., S ' Q , for the speakers H1, H2 ..., HQ. .
- the quantization noise at the output of the decoder 100 is a constant which depends only on the transform R used and the quantization module 4 because the psychoacoustic data used during the coding do not take into account the processing performed during the rendering by the decoder. Indeed, the psychoacoustic model does not take into account the acoustic interactions between the different signals, but calculates the masking curve of a signal as if it were the only one listened to. The error calculated on this signal therefore remains constant and masked for any surround decoding matrix used. This surround decoding matrix will simply change the distribution of the error on the different speakers output.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- La présente invention concerne les dispositifs de codage de signaux audio, destinés notamment à prendre place dans des applications de transmission ou de stockage de signaux audio numérisés et compressés.
- L'invention est relative plus précisément aux modules de quantification compris dans ces dispositifs de codage audio.
- L'invention concerne plus particulièrement le codage de scène sonore 3D. Une scène sonore 3D, encore appelée son spatialisé, comprend une pluralité de canaux audio correspondant chacun à des signaux monophoniques.
- Une technique de codage de signaux d'une scène sonore utilisée dans le codeur « MPEG Audio Surround » (cf. « Text of ISO/IEC FDIS 23003-1, MPEG Surround », ISO/IEC JTC1 / SC29 / WG11 N8324, July 2006, Klagenfurt, Austria), comprend l'extraction et le codage de paramètres spatiaux à partir de l'ensemble des signaux audio monophoniques sur les différents canaux. Ces signaux sont ensuite mélangés pour obtenir un signal monophonique ou stéréophonique, qui est alors comprimé par un codeur mono ou stéréo classique (par exemple de type MPEG-4 AAC, HE-AAC, etc). Au niveau du décodeur, la synthèse de la scène sonore 3D restituée se fait à partir des paramètres spatiaux et du signal mono ou stéréo décodé.
- Le codage des signaux multicanaux nécessite dans certains cas l'introduction d'une transformation (KLT, Ambiophonique, DCT...) permettant de mieux prendre en compte les interactions qui peuvent exister entre les différents signaux de la scène sonore à coder.
- Il est toujours besoin d'accroitre la qualité audio des scènes sonores restituées après une opération de codage et décodage.
- DERRIEN O & DUHAMEL P: "Une approche statistique pour l'optimisation du MPEG-2/4 AAC (Advanced Audio Coder) en mode stéréophonique matricé (MS stéréo)",ACTES DE COLLOQUES DU GROUPE D'ETUDES DU TRAITEMENT DU SIGNAL ET DES IMAGES (GRETSI), 2003, pages 1-4, divulgue un procédé de quantification de composantes dans un système MS stéréo.
- L'objet de l'invention est de trouver une amélioration pour la quantification dans un système multicanaux. Cet objet est résolu par les revendication indépendantes. Suivant un premier aspect, l'invention propose un procédé de quantification de composantes, certaines au moins de ces composantes étant déterminées chacune en fonction d'une pluralité de signaux audio d'une scène sonore et calculables par application d'une transformation linéaire sur lesdits signaux audio.
- Selon le procédé, on détermine une fonction de quantification à appliquer audites composantes dans une bande de fréquence donnée en testant une condition relative à au moins un signal audio et dépendant au moins d'une comparaison effectuée entre un seuil de masquage psychoacoustique relatif au signal audio dans la bande de fréquence donnée, et une valeur déterminée en fonction de la transformation linéaire inverse et d'erreurs de quantification des composantes par ladite fonction sur la bande de fréquence donnée.
- Un tel procédé permet donc de déterminer une fonction de quantification qui permette de masquer, dans le domaine d'écoute de restitution, le bruit introduit par rapport au signal audio de la scène sonore initiale. La scène sonore restituée après les opérations de codage et décodage présente donc une meilleure qualité audio.
- En effet, l'introduction d'une transformée multicanal (par exemple de type ambiophonique) transforme les signaux réels dans un nouveau domaine différent du domaine d'écoute. La quantification des composantes résultant de cette transformée selon les méthodes de l'état de l'art, basées sur un critère perceptuel (i.e. respectant le seuil de masquage sur ces derniers), ne garantit pas une distorsion minimale sur les signaux réels restitués dans le domaine d'écoute. En effet, le calcul de la fonction de quantification selon l'invention permet de garantir que les bruits de quantification induits sur les signaux réels par la quantification des composantes transformées sont minimaux au sens d'un critère perceptuel. La condition d'une amélioration maximale de la qualité perceptuelle des signaux dans le domaine d'écoute est alors vérifiée.
- Dans un mode de réalisation la condition est relative à plusieurs signaux audio et dépend de plusieurs comparaisons, chaque comparaison étant effectuée entre un seuil de masquage psychoacoustique relatif à un signal audio respectif dans la bande de fréquence donnée, et une valeur déterminée en fonction de la transformation linéaire inverse et d'erreurs de quantification des composantes par ladite fonction.
- Cette disposition accroît encore la qualité audio de la scène sonore restituée.
- Dans un mode de réalisation, la détermination de la fonction de quantification est réitérée lors de l'actualisation des valeurs des composantes à quantifier. Cette disposition permet également d'accroître la qualité audio de la scène sonore restituée, en adaptant la quantification dans le temps en fonction des caractéristiques des signaux.
- Dans un mode de réalisation, on teste la condition relative à un signal audio au moins en comparant le seuil de masquage psychoacoustique relatif au signal audio et un élément représentant la valeur
- Dans un mode de réalisation, on détermine une fonction de quantification à appliquer audites composantes dans la bande de fréquence donnée à l'aide d'un processus itératif générant à chaque itération un paramètre de la fonction de quantification candidat vérifiant la condition et associé à un débit correspondant, l'itération étant stoppée lorsque le débit est inférieur à un seuil donné.
- Une telle disposition permet ainsi de déterminer simplement une fonction de quantification à partir des paramètres déterminés, permettant le masquage du bruit dans le domaine d'écoute de restitution tout en réduisant le débit de codage en dessous d'un seuil donné.
- Dans un mode de réalisation, la transformation linéaire est une transformation ambiophonique.
- Dans un mode de réalisation particulier, la transformation linéaire est une transformation ambiophonique (appelée en anglais « ambisonic »). Cette disposition permet d'une part de réduire le nombre de données à transmettre puisque, en général, les N signaux peuvent être décrits d'une manière très satisfaisante par un nombre de composantes ambiophoniques réduit (par exemple, un nombre égal à 3 ou 5), inférieur à N. Cette disposition permet en outre une adaptabilité du codage à tout type de système de rendu sonore, puisqu'il suffit au niveau du décodeur, d'appliquer une transformée ambiophonique inverse de taille Q'x(2p'+1), (où Q' est égal au nombre de haut-parleurs du système de rendu sonore utilisé en sortie du décodeur et 2p'+1 le nombre de composantes ambiophoniques reçues), pour déterminer les signaux à fournir au système de rendu sonore.
- L'invention peut être mise en oeuvre avec toute transformation linéaire, par exemple la DCT ou encore la transformée KLT (en anglais « Karhunen Loeve Transform ») qui correspond à une décomposition sur des composantes principales dans un espace représentant les statistiques des signaux et permet de distinguer les composantes les plus énergétiques des composantes les moins énergétiques.
- Suivant un deuxième aspect, l'invention propose un module de quantification adapté pour quantifier des composantes, certaines au moins de ces composantes étant déterminées chacune en fonction d'une pluralité de signaux audio d'une scène sonore et calculables par application d'une transformation linéaire sur lesdits signaux audio, ledit module de quantification étant adapté pour mettre en oeuvre les étapes d'un procédé suivant le premier aspect de l'invention.
- Suivant un troisième aspect, l'invention propose un codeur audio adapté pour coder une scène audio comprenant plusieurs signaux respectifs en un flux binaire de sortie, comprenant :
- un module de transformation adapté pour calculer par application d'une transformation linéaire sur lesdits signaux audio, des composantes dont certaines au moins sont déterminées chacune en fonction d'une pluralité des signaux audio d'une scène sonore ; et
- un module de quantification suivant le deuxième aspect de l'invention adapté pour déterminer au moins une fonction de quantification sur au moins une bande de fréquence donnée et pour quantifier les composantes sur la bande de fréquence donnée en fonction d'au moins la fonction de quantification déterminée ;
- le codeur audio étant adapté pour constituer un flux binaire en fonction au moins de données de quantification délivrées par le module de quantification.
- Suivant un quatrième aspect, l'invention propose un programme d'ordinateur à installer dans un module de quantification, ledit programme comprenant des instructions pour mettre en oeuvre les étapes d'un procédé suivant le premier aspect de l'invention lors d'une exécution du programme par des moyens de traitement dudit module.
- Suivant un cinquième aspect, l'invention propose des données de codage, déterminées suite à la mise en oeuvre d'un procédé de quantification suivant le premier aspect de l'invention.
- D'autres caractéristiques et avantages de l'invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels :
- la
figure 1 représente un codeur dans un mode de réalisation de l'invention ; - la
figure 2 représente un décodeur dans un mode de réalisation de l'invention ; - la
figure 3 est un organigramme représentant des étapes d'un procédé dans un mode de réalisation de l'invention. - La
figure 1 représente un codeur audio 1 dans un mode de réalisation de l'invention. Il s'appuie sur la technologie des codeurs audio perceptuels, par exemple de type MPEG-4 AAC. - Le codeur 1 comprend un module 2 de transformation temps/fréquence, un module 3 de transformation linéaire, un module 4 de quantification, un module 5 de codage entropique de Huffman et un module 6 de calcul de courbe de masquage, en vue de la transmission d'un flux binaire Φ représentant les signaux fournis en entrée du codeur 1.
- Une scène sonore 3D comprend N canaux sur chacun un signal audio respectif S 1, ..., SN est délivré.
- La
figure 2 représente un décodeur audio 100 dans un mode de réalisation de l'invention. - Le décodeur 100 comprend un module 101 de lecture de séquence binaire, un module 102 de quantification inverse, un module 103 de transformation linéaire inverse, un module 104 de transformation fréquence/temps.
- Le décodeur 100 est adapté pour recevoir en entrée le flux binaire Φ transmis par le codeur 1 et pour délivrer en sortie Q' signaux S'1, ..., S'Q , destinés à alimenter les Q' haut-parleurs H1, H2 ..., HQ' respectifs d'un système de rendu sonore 105.
- Le module 2 de transformation temps/fréquence du codeur 1 reçoit en entrée les N signaux S 1, ..., SN de la scène sonore 3D à coder, sous forme de blocs successifs.
- Chaque bloc m reçu comporte N trames temporelles indiquant chacune différentes valeurs prises au cours du temps par un signal respectif.
- Sur chaque trame temporelle de chacun des signaux, le module 2 de transformation temps/fréquence effectue une transformation temps/fréquence, dans le cas présent, une transformée en cosinus discrète modifiée (MDCT).
- Ainsi, suite à la réception d'un nouveau bloc comportant une nouvelle trame pour chacun des signaux Si , il détermine, pour chacun des signaux Si , i=1 à N, sa représentation spectrale Xi, caractérisée par M coefficients MDCT Xi,t, avec t = 0 à M-1. Un coefficient MDCT Xi,t représente ainsi le spectre du signal Si pour une fréquence Fi.
- Les représentations spectrales Xi des signaux Si , i= 1 à N, sont fournies en entrée du module 3 de transformation linéaire.
- Les représentations spectrales Xi des signaux Si , i= 1 à N, sont en outre fournies en entrée du module 6 de calcul des courbes de masquage.
- Le codage de signaux multicanaux comporte dans le cas considéré une transformation linéaire, permettant de prendre en compte les interactions entre les différents signaux audio à coder, avant le codage monophonique, par le module 4 de quantification, des composantes résultant de la transformation linéaire.
- Le module 3 de transformation linéaire est adapté pour effectuer une transformation linéaire des coefficients des représentations spectrales (Xi ) 1≤i≤N fournis. Dans un mode de réalisation, il est adapté pour effectuer une transformation spatiale. Il détermine alors les composantes spatiales des signaux (Xi )1≤i≤N , dans le domaine fréquentiel, résultant de la projection sur un référentiel spatial dépendant de l'ordre de la transformation. L'ordre d'une transformation spatiale se rattache à la fréquence angulaire selon laquelle elle « scrute » le champ sonore.
- Dans le mode de réalisation considéré, le module 3 de transformation linéaire effectue une transformation ambiophonique d'ordre p (par exemple p=1), qui donne une représentation spatiale compacte d'une scène sonore 3D, en réalisant des projections du champ sonore sur les fonctions harmoniques sphériques ou cylindriques associées.
- Pour plus d'information sur les transformations ambiophoniques, on pourra se référer aux documents suivants : « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Thèse de doctorat de l'université Paris 6, Jérôme DANIEL, 31 juillet 2001, « A highly scalable spherical microphone array based on an orthonormal décomposition of the sound field », Jens Meyer - Gary Elko, Vol. Il - pp. 1781-1784 in Proc. ICASSP 2002.
- Le module 3 de transformation spatiale délivre ainsi r (r= 2p+1) composantes ambiophoniques (Yj )1≤j≤r. Chaque composante ambiophonique Yj considérées dans le domaine fréquentiel, comporte M paramètres spectraux Yj,t pour t = 0 à M-1. Le paramètre spectral Yj,t se rapporte à la fréquence Ft pour t = 0 à M-1.
-
- Chacune des composantes ambiophoniques est donc déterminée en fonction de plusieurs signaux (Si )1≤i≤N.
- Le module 6 de calcul de courbe de masquage est adapté pour déterminer la courbe de masquage spectral de chaque trame d'un signal Si considéré individuellement dans le bloc m, à l'aide de sa représentation spectrale Xi et d'un modèle psychoacoustique.
- Le module 6 de calcul de courbe de masquage calcule ainsi un seuil de masquage
-
- Le module 4 de quantification est adapté pour quantifier les composantes (Yj )1≤j≤r qui lui sont fournies en entrée, de manière à réduire le débit nécessaire à la transmission. Des fonctions de quantification respectives sont déterminées par le module 4 de quantification sur chaque bande de fréquence s.
- Dans une bande s quelconque, le module 4 de quantification quantifie chaque coefficient spectral
- Pour une bande s considérée, k prend les valeurs de l'ensemble {k min, s,k min+1 ,s,...k max,s }, et (k max ,s - k min+1,s +1) est égal au nombre de coefficients spectraux à quantifier dans la bande s pour l'ensemble des composantes ambiophoniques.
- La fonction de quantification Qm appliquée par le module 4 de quantification pour les coefficients
- Arr est une fonction d'arrondi délivrant une valeur entière. Arr(x) est par exemple la fonction fournissant l'entier le plus proche de la variable x, ou encore la fonction « partie entière » de la variable x, etc.
- Le module 4 de quantification est adapté pour déterminer une fonction de quantification à appliquer sur une bande de fréquence s vérifiant que le seuil de masquage
- Le module 4 de quantification est donc adapté pour déterminer, lors du traitement d'un bloc m de signaux, la fonction de quantification définie à l'aide des paramètres d'échelle
- Un problème à résoudre par le module 4 de quantification est donc de déterminer, sur chaque bande s, l'ensemble des coefficients d'échelle
- Ainsi, Bj (s) représente un paramètre caractérisant la fonction de quantification dans la bande s relative à la jème composante. Le choix de Bj (s) détermine de manière bijective la fonction de quantification utilisée.
- Cette disposition a pour effet que le bruit apporté dans le domaine d'écoute par la quantification sur les composantes issues de la transformation linéaire reste masqué par le signal dans le domaine d'écoute, ce qui contribue à une meilleure qualité des signaux restitués dans le domaine d'écoute.
-
- La probabilité est calculée pour la trame relative au signal Si du bloc m considéré et sur l'ensemble des bandes de fréquence s.
- La justification de cette traduction est réalisée dans le document « Optimisation de la quantification par modèles statistiques dans le codeur MPEG Advanced Audio coder (AAC) - Application à la spatialisation d'un signal comprimé en environnement MPEG-4 », Thèse de doctorat de Olivier Derrien - ENST Paris, 22 novembre 2002, nommé ci-après « document Derrien ». Selon ce document, on cherche à modifier la quantification de manière à diminuer la distorsion perçue par l'oreille d'un signal résultant d'un filtrage de spatialisation HRTF (en anglais « Head Related Transfer Function » encore appelé filtre de tête modélisant l'effet de chemin de propagation entre la position de la source sonore et l'oreille humaine et prenant en compte l'effet dû à la tête et au torse d'un auditeur, appliqué après le décodage.
-
-
-
- On effectue les hypothèses suivantes :
- les erreurs de quantification
- les erreurs de quantification
- le nombre d'échantillons dans une bande s est suffisamment grand ;
- le codeur 1 travaille à haute résolution.
- Sous ces hypothèses et par application du théorème de la limite centrale, la puissance
-
-
-
-
-
-
-
-
-
-
- Si Arr(x) est par exemple la fonction fournissant l'entier le plus proche de la variable x, eR est égale à 0,5. Si Arr(x) est la fonction « partie entière » de la variable x, eR est égale à 1.
-
-
- Cette dernière équation représente une condition suffisante pour que le bruit correspondant au canal i soit masqué en sortie dans le domaine d'écoute.
-
-
- Dans un mode de réalisation, les conditions à respecter sont les suivantes :
- Minimiser le débit global
- Sous la contrainte :
-
-
-
- Pour résoudre le problème de quantification par bande en minimisant le débit global sous la contrainte (3), il faut donc minimiser la fonction F sous la contrainte (3).
-
-
-
-
-
- On utilise la méthode itérative de gradient relatif (cf. notamment le document Derrien) pour résoudre ce système.
- L'équation générale (formule (4)) de mise à jour du vecteur de Lagrange lors d'une (k+1)ième itération de la méthode s'écrit alors sous la forme suivante :
-
- Dans le mode de réalisation considéré, le module 4 de quantification est adapté pour mettre en oeuvre les étapes du procédé décrit ci-dessous en référence à la
figure 3 sur chaque bande de quantification s lors de la quantification d'un bloc m de signaux (Si )1≤i≤N . - Le procédé est basé sur un algorithme itératif comprenant des instructions pour mettre en oeuvre les étapes décrites ci-dessous lors de l'exécution de l'algorithme sur des moyens de calcul du module 4 de quantification.
- Dans une étape a/ d'initialisation (k=0) : on définit la valeur du pas d'itération ρ, une valeur D représentant un seuil de débit et la valeur des coordonnées (λ 1, ...λN ) du vecteur de Lagrange initial avec λj = λ 0, 1 ≤ j ≤ N.
- Les étapes de la boucle itérative pour une (k+1)ème itération, avec k entier supérieur ou égal à 0, sont les suivantes.
-
-
-
- Dans une étape e/, on compare la valeur F(s) calculée avec le seuil donné D.
- Si la valeur F(s) calculée est supérieure au seuil donné D, on calcule, dans une étape f/, la valeur du vecteur de Lagrange λ pour la (k+1)ème itération à l'aide de l'équation (4) indiquée ci-dessus et du vecteur de Lagrange calculé lors de la kème itération.
- Puis, dans une étape g/, on incrémente l'indice k d'une unité et on réitère les étapes b/, c/, d/ et e/.
- Si la valeur F(s) calculée à l'étape e/, est inférieure au seuil donné D, on stoppe les itérations. On a alors déterminé des coefficients d'échelle
- On applique ensuite la fonction de quantification ainsi déterminée pour les bandes s respectives et composantes ambiophoniques respectives aux coefficients spectraux des composantes ambiophoniques. Les indices de quantification ainsi que des éléments de définition de la fonction de quantification sont fournis au module 5 de codage de Huffman.
- Les données de codage délivrées par le module 5 de codage de Huffman sont ensuite transmises sous forme de flux binaire Φ au décodeur 100.
-
-
-
- Un décodage ambiophonique est ensuite appliqué aux r composantes ambiophoniques décodées, de manière à déterminer Q' signaux S'1, S'2, ..., S'Q, destinés aux Q' haut-parleurs H1, H2 ..., HQ'.
- Le bruit de quantification à la sortie du décodeur 100 est une constante qui ne dépend que de la transformée R utilisée et du module 4 de quantification car les données psychoacoustiques utilisées lors du codage ne prennent pas en considération les traitements effectués lors de la restitution par le décodeur. En effet, le modèle psychoacoustique ne prend pas en compte les interactions acoustiques entre les différents signaux, mais calcule la courbe de masquage d'un signal comme s'il était le seul écouté. L'erreur calculée sur ce signal reste donc constante et masquée pour toute matrice de décodage ambiophonique utilisée. Cette matrice de décodage ambiophonique va simplement modifier la distribution de l'erreur sur les différents haut-parleurs en sortie.
Claims (9)
- Procédé de quantification de composantes, certaines au moins desdites composantes ((Yj )1≤j≤r ) étant déterminées chacune en fonction d'une pluralité de signaux audio ((Sj )1≤j≤N ) d'une scène sonore et calculées par application d'une transformation linéaire multicanal, ambiophonique et à plus de deux canaux, sur lesdits signaux audio,
selon lequel on détermine une fonction de quantification (Qm) à appliquer audites composantes dans une bande de fréquence donnée (s) en testant une condition relative à au moins un signal audio (Si ) et dépendant au moins d'une comparaison effectuée entre :- un seuil de masquage psychoacoustique- une valeur déterminée en fonction de la transformation linéaire multicanal inverse et d'erreurs de quantification des composantes par ladite fonction sur la bande de fréquence donnée. - Procédé selon la revendication 1, selon lequel la condition est relative à plusieurs signaux audio et dépend de plusieurs comparaisons, chaque comparaison étant effectuée entre un seuil de masquage psychoacoustique relatif à un signal audio respectif dans la bande de fréquence donnée, et une valeur déterminée en fonction de la transformation linéaire multicanal inverse et d'erreurs de quantification des composantes par ladite fonction.
- Procédé selon la revendication 1 ou la revendication 2, selon laquelle la détermination de la fonction de quantification (Qm) est réitérée lors de l'actualisation des valeurs des composantes à quantifier.
- Procédé selon l'une quelconque des revendications précédentes, selon lequel on teste la condition relative à un signal audio au moins en comparant le seuil de masquage psychoacoustique relatif au signal audio et un élément représentant la valeur mathématique
- Procédé selon l'une quelconque des revendications précédentes, selon lequel on détermine une fonction de quantification à appliquer audites composantes dans la bande de fréquence donnée à l'aide d'un processus itératif générant à chaque itération un paramètre de la fonction de quantification candidat vérifiant la condition et associé à un débit correspondant, l'itération étant stoppée lorsque le débit est inférieur à un seuil donné.
- Module (4) de quantification adapté pour quantifier au moins des composantes ((Yj )1≤j≤r ) déterminées chacune en fonction d'une pluralité de signaux audio ((Sj )1≤j≤N ) d'une scène sonore et calculées par application d'une transformation linéaire multicanal sur lesdits signaux audio, ledit module de quantification étant adapté pour mettre en oeuvre les étapes d'un procédé selon l'une quelconque des revendications 1 à 5.
- Codeur audio (1) adapté pour coder une scène audio comprenant plusieurs signaux audio respectifs ((Sj )1≤j≤N ) en un flux binaire de sortie (Φ), comprenant :- un module (3) de transformation adapté pour calculer par application d'une transformation linéaire multicanal sur lesdits signaux audio, des composantes ((Yj )1≤j≤r) dont au moins certaines sont déterminées chacune en fonction d'une pluralité des signaux audio ; et- un module (4) de quantification selon la revendication 6 adapté pour déterminer au moins une fonction de quantification (Qm) sur au moins une bande de fréquence donnée (s) et pour quantifier les composantes sur la bande de fréquence donnée en fonction d'au moins la fonction de quantification déterminée ;ledit codeur étant adapté pour constituer un flux binaire en fonction au moins de données de quantification délivrées par le module de quantification.
- Programme d'ordinateur à installer dans un module (4) de quantification, ledit programme comprenant des instructions pour mettre en oeuvre les étapes d'un procédé selon l'une quelconque des revendications 1 à 5 lors d'une exécution du programme par des moyens de traitement dudit module.
- Données de codage (Φ), déterminées suite à la mise en oeuvre d'un procédé de quantification selon l'une quelconque des revendications 1 à 5.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0704794 | 2007-07-03 | ||
PCT/FR2008/051220 WO2009007639A1 (fr) | 2007-07-03 | 2008-07-01 | Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe |
Publications (2)
Publication Number | Publication Date |
---|---|
EP2168121A1 EP2168121A1 (fr) | 2010-03-31 |
EP2168121B1 true EP2168121B1 (fr) | 2018-06-06 |
Family
ID=38799400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP08806144.5A Active EP2168121B1 (fr) | 2007-07-03 | 2008-07-01 | Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe |
Country Status (3)
Country | Link |
---|---|
US (1) | US8612220B2 (fr) |
EP (1) | EP2168121B1 (fr) |
WO (1) | WO2009007639A1 (fr) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2469741A1 (fr) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Procédé et appareil pour coder et décoder des trames successives d'une représentation d'ambiophonie d'un champ sonore bi et tridimensionnel |
JP6267860B2 (ja) * | 2011-11-28 | 2018-01-24 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声信号送信装置、音声信号受信装置及びその方法 |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9883312B2 (en) | 2013-05-29 | 2018-01-30 | Qualcomm Incorporated | Transformed higher order ambisonics audio data |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9502045B2 (en) * | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US9620137B2 (en) * | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
EP3067886A1 (fr) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codeur audio de signal multicanal et décodeur audio de signal audio codé |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5583962A (en) * | 1991-01-08 | 1996-12-10 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
-
2008
- 2008-07-01 WO PCT/FR2008/051220 patent/WO2009007639A1/fr active Application Filing
- 2008-07-01 US US12/667,401 patent/US8612220B2/en active Active
- 2008-07-01 EP EP08806144.5A patent/EP2168121B1/fr active Active
Non-Patent Citations (1)
Title |
---|
None * |
Also Published As
Publication number | Publication date |
---|---|
EP2168121A1 (fr) | 2010-03-31 |
US8612220B2 (en) | 2013-12-17 |
WO2009007639A1 (fr) | 2009-01-15 |
US20100198585A1 (en) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2168121B1 (fr) | Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe | |
US11962990B2 (en) | Reordering of foreground audio objects in the ambisonics domain | |
EP2374123B1 (fr) | Codage perfectionne de signaux audionumeriques multicanaux | |
EP2374124B1 (fr) | Codage perfectionne de signaux audionumériques multicanaux | |
EP2002424B1 (fr) | Dispositif et procede de codage scalable d'un signal audio multi-canal selon une analyse en composante principale | |
CN105917408B (zh) | 指示用于译码向量的帧参数可重用性 | |
JP5922684B2 (ja) | マルチチャネルの復号化装置 | |
RU2439718C1 (ru) | Способ и устройство для обработки звукового сигнала | |
EP2143102B1 (fr) | Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes | |
US20030233236A1 (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
JP2009524108A (ja) | 拡張帯域周波数コーディングによる複素変換チャネルコーディング | |
JP2013506164A (ja) | オーディオ信号デコーダ、オーディオ信号エンコーダ、アップミックス信号表現の生成方法、ダウンミックス信号表現の生成方法、コンピュータプログラム、及び共通するオブジェクト間相関パラメータ値を用いるビットストリーム | |
CN102968996A (zh) | 利用频域维纳滤波对空间音频编码进行时间包络整形 | |
EP2145167B1 (fr) | Procédé de codage audio, codeur audio, signal codé et programme d'ordinateur associés | |
EP3935629A1 (fr) | Codage audio spatialisé avec interpolation et quantification de rotations | |
EP2476114B1 (fr) | Codage de signaux audio utilisant la réduction de la redondance temporelle et entre voies | |
FR3049084A1 (fr) | ||
WO2010016270A1 (fr) | Dispositif de quantification, dispositif de codage, procédé de quantification et procédé de codage | |
JP2022536676A (ja) | DirACベースの空間オーディオ符号化のためのパケット損失隠蔽 | |
EP2198425A1 (fr) | Procede, module et programme d'ordinateur avec quantification en fonction des vecteurs de gerzon | |
EP4042418B1 (fr) | Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés | |
FR3112015A1 (fr) | Codage optimisé d’une information représentative d’une image spatiale d’un signal audio multicanal | |
Cantzos et al. | Quality Enhancement of Compressed Audio Based on Statistical Conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20091224 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MT NL NO PL PT RO SE SI SK TR |
|
AX | Request for extension of the european patent |
Extension state: AL BA MK RS |
|
17Q | First examination report despatched |
Effective date: 20100512 |
|
DAX | Request for extension of the european patent (deleted) | ||
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: ORANGE |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
INTG | Intention to grant announced |
Effective date: 20180118 |
|
GRAJ | Information related to disapproval of communication of intention to grant by the applicant or resumption of examination proceedings by the epo deleted |
Free format text: ORIGINAL CODE: EPIDOSDIGR1 |
|
GRAJ | Information related to disapproval of communication of intention to grant by the applicant or resumption of examination proceedings by the epo deleted |
Free format text: ORIGINAL CODE: EPIDOSDIGR1 |
|
GRAJ | Information related to disapproval of communication of intention to grant by the applicant or resumption of examination proceedings by the epo deleted |
Free format text: ORIGINAL CODE: EPIDOSDIGR1 |
|
GRAL | Information related to payment of fee for publishing/printing deleted |
Free format text: ORIGINAL CODE: EPIDOSDIGR3 |
|
GRAR | Information related to intention to grant a patent recorded |
Free format text: ORIGINAL CODE: EPIDOSNIGR71 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
INTG | Intention to grant announced |
Effective date: 20180118 |
|
INTG | Intention to grant announced |
Effective date: 20180426 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MT NL NO PL PT RO SE SI SK TR |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP Ref country code: AT Ref legal event code: REF Ref document number: 1006935 Country of ref document: AT Kind code of ref document: T Effective date: 20180615 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: FRENCH |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 602008055549 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 11 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: MP Effective date: 20180606 |
|
REG | Reference to a national code |
Ref country code: LT Ref legal event code: MG4D |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: BG Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180906 Ref country code: LT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: NO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180906 Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180907 Ref country code: HR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: LV Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: MK05 Ref document number: 1006935 Country of ref document: AT Kind code of ref document: T Effective date: 20180606 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20181006 Ref country code: EE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: RO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: CZ Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: SK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: PL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R097 Ref document number: 602008055549 Country of ref document: DE |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180701 Ref country code: MC Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 |
|
REG | Reference to a national code |
Ref country code: BE Ref legal event code: MM Effective date: 20180731 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: MM4A |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180701 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180731 Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180731 |
|
26N | No opposition filed |
Effective date: 20190307 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180731 Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20180606 Ref country code: HU Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO Effective date: 20080701 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20230621 Year of fee payment: 16 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20230620 Year of fee payment: 16 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20230620 Year of fee payment: 16 |