FR2853804A1 - Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant - Google Patents

Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant Download PDF

Info

Publication number
FR2853804A1
FR2853804A1 FR0308577A FR0308577A FR2853804A1 FR 2853804 A1 FR2853804 A1 FR 2853804A1 FR 0308577 A FR0308577 A FR 0308577A FR 0308577 A FR0308577 A FR 0308577A FR 2853804 A1 FR2853804 A1 FR 2853804A1
Authority
FR
France
Prior art keywords
signal
scene
received signal
audio
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR0308577A
Other languages
English (en)
Inventor
Jean Bernard Rault
Pierrick Philippe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0308577A priority Critical patent/FR2853804A1/fr
Publication of FR2853804A1 publication Critical patent/FR2853804A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

L'invention concerne un procédé de décodage d'un signal reçu dans le domaine temporel, permettant de reconstituer une scène sonore à partir dudit signal et d'au moins un paramètre représentatif de ladite scène sonore.Selon l'invention, un tel procédé comprend :- une étape de transformation fréquentielle permettant de calculer le spectre dudit signal reçu ;- à l'issue de ladite étape de transformation fréquentielle, une étape de construction, à partir dudit spectre dudit signal reçu, d'un signal décorrélé dudit signal reçu ;- une étape de combinaison dudit signal reçu et dudit signal décorrélé permettant de générer des signaux représentatifs de ladite scène sonore.

Description

Procédé de décodage d'un signal permettant de reconstituer une scène
sonore et dispositif de décodage correspondant.
Le domaine de l'invention est celui du décodage de signaux, et notamment de signaux représentatifs d'une scène sonore. L'invention s'inscrit notamment, 5 mais non exclusivement, dans le cadre de la norme MPEG-4 Audio (et plus précisément MPEG-4 Extension 2) pour le codage audionumérique haute qualité à faible débit.
Une scène sonore est classiquement constituée d'un ensemble d'objets sonores, d'intensités différentes, caractérisés par leur position au sein de la scène. 10 On peut ainsi imaginer une scène sonore représentative d'un orchestre, dans lequel les violons, les clarinettes et le piano sont chacun associés à un emplacement précis de la scène. En outre, les sons issus de chacun des instruments sont plus ou moins puissants, en fonction de l'instrument considéré et de la partition jouée.
Afin de restituer fidèlement une telle scène sonore, après enregistrement et transmission par exemple, il est donc nécessaire de reconstruire les effets stéréophoniques associés à cette scène.
Les techniques actuelles mises en oeuvre pour la représentation paramétrique des effets stéréophoniques reposent sur l'extraction, dans un signal 20 complexe, des objets sonores dominants et de leurs indices de localisation dans la scène sonore.
Les indices de localisation ainsi extraits sont donnés, le plus souvent, sous la forme de différences d'intensité et de déphasages temporels entre les différents objets sonores de la scène, encore appelés différences d'intensité et déphasages 25 temporels " interauraux ".
Au lieu de construire un signal complexe correspondant à la somme brute de tous les sons de la scène sonore, on peut utiliser ces indices pour combiner les objets constituants la scène sonore afin de former un signal moins complexe que le signal analysé. On peut ainsi réduire le nombre de canaux en passant d'un signal 30 stéréophonique à deux canaux à un signal monophonique.
2 2853804 A l'inverse, lorsque l'on cherche à restituer la scène sonore à partir du signal ainsi construit, il est possible de re-séparer les objets sonores à partir du signal combiné pour reconstituer une scène sonore proche de l'originale.
Ces techniques, en permettant une réduction du nombre de canaux à traiter, 5 typiquement de deux vers un, pour un surcoût faible par rapport à une approche purement monophonique, sont particulièrement avantageuses pour réaliser une compression audionumérique.
Ce surcoût, de l'ordre de 2 à 4 kbit/s, est principalement lié à l'encodage et à la transmission des indices de localisation extraits et ayant servi à construire le 10 signal combiné. Il est ainsi possible, grâce à ces techniques, de disposer d'un signal codé en stéréo à très bas débit (c'est-à-dire en deçà de 24 kbit/s).
Ces techniques font l'objet de la phase dite MPEG-4 Extension 2 pour le codage audionumérique haute qualité à faible débit (24 kbit/s par voie pleine bande) du comité MPEG (pour " Moving Picture Experts Group ", en français 15 " Groupe d'Experts en Codage d'Images ") de l'ISO (pour " International Standardisation Organisation ", en français " Organisation de normalisation internationale ").
Notamment, une technique, appelée " Parametric Stereo " (PS, en français " Stéréo paramétrique ") s'appuie sur un codage paramétrique de type sinusoïdal 20 (SSC pour " SinuSoidal Coding ", en français " codage sinusoïdal ") pour encoder le signal combiné qui est monophonique.
Par rapport aux techniques traditionnelles, le PS permet de prendre aussi en compte la corrélation inter objets sonores, en plus de leurs indices de localisation. Le schéma générique de fonctionnement de cette technique est 25 illustré sur la figure 1.
On capture, à partir de la scène sonore, les signaux 1(n) et r(n) correspondant respectivement aux échantillons temporels gauche et droite du signal sonore global associé à la scène.
Ces signaux l(n) et r(n) sont analysés par un bloc d'analyse 10, afin 30 d'identifier quels sont les objets sonores dominants, quelles sont les corrélations 3 2853804 existant entre les différents objets de la scène, ainsi que leurs indices de localisation.
En sortie du bloc d'analyse 10, on récupère ainsi les paramètres ild, itd et rho, qui sont respectivement les différences de niveaux, les déphasages temporels 5 et les corrélations interauraux. Ces paramètres sont donnés par bande de fréquences (b) et par trame (nT).
Ils alimentent, avec les signaux l(n) et r(n), une matrice 11, délivrant en sortie un signal simple, par exemple monophonique m(n), et un signal décorrélé d(n) obtenu par filtrage du signal m(n).
Le signal m(n) et les paramètres ild, itd et rho sont ensuite codés par le codeur SSC 12, et transmis le long d'un canal de transmission qui n'a pas été représenté sur la figure 1.
Le signal transmis est ensuite reçu et décodé par le décodeur SSC 13, qui en extrait une estimation ild', itd' et rho' des paramètres ild, itd et rho, ainsi qu'un 15 signal estimé m'(n).
Par filtrage du signal m'(n) dans le décorrélateur 14, on récupère un signal décorrélé d'(n) qui, avec le signal m'(n) et les paramètres ild', itd' et rho', alimente une matrice 15 inverse de la matrice 11 utilisée lors du codage. Cette matrice inverse 15 délivre en sortie les signaux droite et gauche r'(n) et l'(n) 20 estimés permettant de reconstruire la scène sonore.
La figure 2 illustre plus en détail le principe mis en oeuvre lors du décodage du signal reçu, en vue de la restitution de la scène sonore.
Le signal d(n) qui était présent à l'encodeur, est reconstruit au décodeur par décorrélation temporelle 14 du signal m(n) décodé, i.e. m'(n) . Ensuite les deux 25 signaux m'(n) et d'(n) sont traités à l'aide d'une transformée de Fourier (FFI) 20, 21 par signal afin de calculer leur spectre M'(k) et D'(k).
Les spectres M'(k) et D'(k) sont fournis, avec les paramètres ild', itd' et rho', en entrée de la matrice inverse M 15, qui délivre les spectres des signaux gauche et droite L'(k) et R'(k). Ces spectres subissent ensuite une transformée de Fourier inverse IFFIT 22, 23, permettant de récupérer les échantillons temporels gauche et droite 1' (n) et r' (n).
L'opération de dé-corrélation 14 du signal m'(n) et le calcul des deux spectres M'(k) et D'(k) mettent donc en oeuvre un filtrage temporel, suivi de deux 5 opérateurs de Fourier 20, 21. La mise en oeuvre de la décorrélation 14 dans le domaine temporel est justifiée par le fait que, lors des transitoires, il faut limiter l'étalement temporel de ces transitoires dans d'(n).
Cependant, cette approche présente pour inconvénient d'être très complexe en terme du nombre d'opérations à effectuer: en effet, il est nécessaire de réaliser, 10 d'une part, une convolution temporelle, et d'autre part, deux FFI' (classiquement d'ordre 12, donc opérant sur des blocs de 4096 échantillons temporels).
Elle présente également pour inconvénient d'être très complexe en terme de mémoire de stockage, puisqu'elle nécessite, d'une part une mémoire pour les filtres, et d'autre part, des tampons de calculs intermédiaires.
L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
Plus précisément, un objectif de l'invention est de fournir une technique de décodage d'un signal permettant de reconstituer une scène sonore, qui soit plus simple à mettre en oeuvre que les techniques de l'art antérieur.
Notamment, l'invention a pour objectif de fournir une telle technique qui permette, par rapport aux techniques de l'art antérieur, une réduction du nombre d'opérations à effectuer sur le signal, ainsi qu'une réduction de la capacité mémoire nécessaire.
L'invention a également pour objectif de mettre en oeuvre une telle 25 technique qui permette d'obtenir des signaux de reconstitution de la scène sonore de qualité similaire à ceux obtenus selon les techniques de l'art antérieur.
Notamment, l'invention a pour objectif qu'aucune dégradation de la qualité de la scène sonore ne soit audible par rapport aux techniques de l'art antérieur.
Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à 30 l'aide d'un procédé de décodage d'un signal reçu dans le domaine temporel, 2853804 permettant de reconstituer une scène sonore à partir dudit signal et d'au moins un paramètre représentatif de ladite scène sonore.
Selon l'invention, un tel procédé comprend: - une étape de transformation fréquentielle permettant de calculer le spectre dudit signal reçu; - à l'issue de ladite étape de transformation fréquentielle, une étape de construction, à partir dudit spectre dudit signal reçu, d'un signal décorrélé dudit signal reçu; - une étape de combinaison dudit signal reçu et dudit signal décorrélé permettant de générer des signaux représentatifs de ladite scène sonore.
Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive du décodage d'un signal, en vue de la restitution ultérieure d'une scène sonore.
En effet, contrairement aux techniques de l'art antérieur, on procède à la décorrélation dans le domaine fréquentiel du signal reçu, c'est-à-dire après que le 15 signal m'(n) ait subi une transformation fréquentielle (de type FNT par exemple On travaille donc par blocs d'échantillons). On réduit ainsi considérablement la complexité du décodage effectué (et donc aussi du décodeur associé). En effet, le produit de convolution nécessaire à la réalisation du filtrage temporel selon les techniques de l'art antérieur est remplacé par une simple multiplication complexe 20 dans le domaine fréquentiel, ce qui permet ainsi d'économiser de la mémoire de stockage et des opérations de multiplications et d'additions. De plus, cette mise en oeuvre permet de n'utiliser qu'un seul opérateur de Fourier, au lieu des deux opérateurs nécessaires selon l'art antérieur.
En outre, des tests d'écoute sur des séquences sonores types n'ont révélé 25 aucune dégradation audible du signal par rapport aux techniques de l'art antérieur.
Il est à noter que l'approche de l'invention n'était nullement évidente pour l'Homme du Métier, qui n'était pas du tout incité à procéder à la construction du signal décorrélé du signal reçu dans le domaine fréquentiel. En effet, il existe un préjugé fort à l'encontre de la solution de l'invention: pour l'Homme du Métier, 30 il existe un risque que la réalisation de la décorrélation dans le domaine fréquentiel génère un pré-écho, et entraîne un étalement du signal utile sur toute la fenêtre de filtrage, et donc une dégradation forte de la qualité du signal. Ce préjugé est confirmé par le fait que, dans le projet de normalisation MPEG4 Audio Extension 2 (ISO/IEC 14496-3:2002/PDAM 2 (Parametric coding for 5 High Quality Audio)), l'Homme du Métier a choisi de construire le signal décorrélé du signal reçu dans le domaine temporel.
Les inventeurs de la présente demande de brevet ont cependant confirmé, en allant à l'encontre de ce préjugé, que le signal sonore obtenu selon l'invention, bien que différent du signal obtenu selon les techniques de l'art antérieur, n'était 10 pas de moins bonne qualité.
Avantageusement, ladite étape de construction d'un signal décorrélé met en oeuvre une multiplication complexe dudit spectre dudit signal reçu par un spectre de décorrélation.
Une telle multiplication est relativement simple à mettre en oeuvre, et peu 15 coûteuse en termes de ressources de calcul, par rapport aux techniques de l'art antérieur.
Préférentiellement, ledit spectre de décorrélation est choisi parmi au moins deux spectres de décorrélation en fonction d'au moins un critère prédéterminé.
On peut ainsi adapter la construction du signal décorrélé du signal reçu en 20 fonction, par exemple, de la nature du signal reçu.
De façon avantageuse, ledit au moins un critère tient compte de la présence de composantes transitoires dans ledit signal reçu.
Ainsi, lorsque le signal comprend des composantes transitoires, le spectre de décorrélation utilisé est construit à partir d'un filtre temporel court (à 32 25 coefficients par exemple). Inversement, lorsque le signal reçu ne comprend pas de composantes transitoires, on choisit un spectre de décorrélation élaboré sur la base d'un filtre temporel long (à 512 coefficients par exemple).
De manière préférentielle, ladite étape de transformation fréquentielle met en oeuvre une transformée de Fourier rapide (FFTl).
On peut bien sûr également envisager d'utiliser tout autre type de 7 2853804 transformation fréquentielle sans sortir du cadre de la présente invention.
Selon une caractéristique avantageuse de l'invention, ledit signal reçu est un signal monophonique.
Préférentiellement, ladite étape de combinaison comprend une étape de 5 synthèse des effets stéréophoniques de ladite scène sonore à partir des spectres desdits signaux reçu et décorrélé et dudit au moins un paramètre représentatif de ladite scène sonore.
Ainsi, en ne transmettant qu'un signal monophonique, accompagné de l'ensemble des paramètres interauraux de la scène, on peut reconstruire les effets 10 stéréophoniques de la scène sonore, en recréant les voies gauche et droite de la scène.
Avantageusement, ledit au moins un paramètre représentatif de ladite scène sonore appartient au groupe comprenant: - une information de corrélation entre au moins deux objets sonores de ladite scène; - un paramètre de différence d'intensité entre au moins deux objets sonores de ladite scène; - un paramètre de déphasage temporel entre au moins deux objets sonores de ladite scène.
On notera bien sûr le rôle particulièrement important joué par les informations de corrélation entre les différents objets sonores de la scène, qui rendent nécessaires la construction d'un signal décorrélé du signal reçu. C'est à partir des spectres des signaux décorrélé et reçu, et des informations de corrélation inter-objets que l'on peut ensuite générer les voies gauche et droite de la scène 25 sonore.
De façon avantageuse, ledit signal reçu est conforme à la norme MPEG4 Audio.
L'invention concerne aussi un dispositif de décodage d'un signal reçu dans le domaine temporel, permettant de reconstituer une scène sonore à partir dudit 30 signal et d'au moins un paramètre représentatif de ladite scène sonore.
8 2853804 Selon l'invention, un tel dispositif comprend - des moyens de transformation fréquentielle permettant de calculer le spectre dudit signal reçu; - des moyens, mis en oeuvre à l'issue de ladite transformation fréquentielle, de construction, à partir dudit spectre dudit signal reçu, d'un signal décorrélé dudit signal reçu; - des moyens de combinaison dudit signal reçu et dudit signal décorrélé permettant de générer des signaux représentatifs de ladite scène sonore.
D'autres caractéristiques et avantages de l'invention apparaîtront plus 10 clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels: - la figure 1, déjà commentée en relation avec l'art antérieur, présente un synoptique du schéma de codage-décodage mis en oeuvre selon la 15 technique dite de PS, proposée dans le cadre de la norme MPEG; - la figure 2 illustre plus en détail le principe de décodage mis en oeuvre dans le schéma de la figure 1; - la figure 3 présente un synoptique d'un décodeur de la présente invention; - la figure 4 illustre plus précisément la décorrélation mise en oeuvre dans le synoptique de la figure 3; - la figure 5 décrit plus en détail le choix du filtre utilisé lors de la décorrélation de la figure 4.
Le principe général de l'invention repose sur la décorrélation dans le domaine fréquentiel du signal temporel reçu.
On présente, en relation avec la figure 3, un mode de réalisation d'un décodeur de l'invention.
Le signal temporel reçu m'(n) subit une transformation fréquentielle de type FFT 30. Le spectre M'(k) du signal subit ensuite une décorrélation 14, permettant d'obtenir le spectre D'(k) du signal décorrélé. Les spectres M'(k) et 30 D'(k) alimentent, avec les paramètres ild', itd' et rho' (qui sont respectivement les différences de niveaux, les déphasages temporels et les corrélations interauraux), la matrice M-' 15 inverse de la matrice utilisée lors du codage de la scène sonore.
En sortie de la matrice M-' 15, on récupère les spectres des signaux gauche et droite L'(k) et R'(k), qui subissent une transformation inverse 22 et 23 5 respectivement de type IFFT (" Inverse Fast Fourier Transform ", pour " transformée de Fourier rapide inverse "). Les signaux temporels l'(n) et r'(n) permettent ensuite de restituer les effets stéréophoniques de la scène sonore.
La mise en oeuvre de l'invention a deux conséquences importantes au niveau de la complexité de décodeur de la figure 3. D'une part, le produit de 10 convolution nécessaire à la réalisation du filtrage temporel est remplacé par une simple multiplication complexe dans le domaine fréquentiel, économisant ainsi de la mémoire de stockage et des opérations de multiplications et d'additions. D'autre part, cette mise en oeuvre permet, contrairement aux techniques de l'art antérieur, de n'utiliser qu'un seul opérateur de Fourier.
Le signal D'(k) ainsi obtenu en sortie de la décorrélation 14 est différent de celui obtenu selon les techniques de l'art antérieur. Cependant, il est parfaitement adapté à la re-synthèse des effets stéréophoniques à partir des coefficients de localisation et décorrélation décodés, ild', itd' et rho', par un choix judicieux des coefficients de décorrélation fréquentiels, ainsi que l'ont montré des tests 20 subjectifs par écoutes comparées des méthodes de l'invention et de l'art antérieur.
Deux spectres de décorrélation différents, CI(k) et Cs(k), peuvent être utilisés dans le bloc de décorrélation 14, ainsi qu'illustré par la figure 4. Le choix de l'un ou l'autre des filtres CI(k) ou Cs(k) est fonction de la nature du signal m'(n).
En effet, un signal sonore peut être considéré comme la somme de composantes harmoniques, de composantes transitoires, et de résidus. Lorsqu'un signal est très harmonique, il peut être vu comme une somme de composantes sinusoïdales, et est donc facile à compresser: on utilise alors un filtre long Cl(k).
En revanche, lorsque le signal m'(n) présente des transitoires, on utilise de 30 préférence un filtre court Cs(k).
La décorrélation 14 apparaît comme une simple multiplication du filtre Cl(k) ou Cs(k) par le spectre M' (k) du signal pour obtenir le spectre décorrélé D'(k).
Ainsi qu'illustré par la figure 4, les seules opérations mises en oeuvre dans le décodeur de l'invention sont donc une transformation fréquentielle de type FFT et une multiplication complexe. Selon les techniques de l'art antérieur en revanche, il était nécessaire de réaliser 32 à 512 multiplications pour le filtrage temporel du signal m'(n), suivies de deux transformées FFT 20 et 21 permettant d'obtenir respectivement les spectres M' (k) et D'(k).
On présente désormais plus précisément, en relation avec la figure 5, le choix du filtre C(k) utilisé lors de la décorrélation 14. Le signal m'(n) reçu est par exemple décomposé en blocs de 4096 échantillons temporels.
On notera qu'un tel choix de 4096 échantillons permet d'obtenir une très bonne résolution fréquentielle, et donc de suivre l'échelle psychoacoustique de 15 l'oreille humaine. On pourrait aussi travailler par exemple sur la base de 2048 échantillons.
Lors d'une étape référencée 50, on détermine si le signal temporel reçu m'(n) présente ou non des composantes transitoires. Dans l'affirmative, on sélectionne le filtre court Cs(k) sur 2048 échantillons. Dans le cas contraire, on 20 choisit le filtre long Cl(k), sur 2048 échantillons également.
Les filtres fréquentiels Cl(k) et Cs(k) sont obtenus par transformée de Fourier directe d'ordre 12 à partir de filtres temporels long cl(n) et court cs(n) complétés par respectivement (4096-512) et (4096-32) échantillons nuls: Cl(k)=DFT4o96[cl(n),0] (o DFT est l'abréviation de "Discrete Fourier 25 Transform", ou en français "transformée de Fourier discrète") Cs(k)=DFT4o96[cs(n),0], o cl(n)=2.Re(IFFT512(S512(k))) et cs(n)= 2.Re(IFFTl32(S32(k))) avec SL(0)=0,5 SL(k)=e2(k)(k'l)/L pour ke]O, L/2] et SL(k)=O pour ke [L12+1,L[.
ilh 2853804 Le spectre M'(k) du signal reçu m'(n) est quant à lui obtenu par FFT d'ordre 12 référencée 30.
Le spectre décorrélé D'(k) est donc obtenu par multiplication complexe du spectre du signal M'(k) par le filtre long ou court C(k) sous la forme: D'(k)=M'(k).C(k).
L'invention permet donc de recréer une image stéréophonique à deux voies proche de l'originale à partir d'un signal monophonique et d'indices de localisation pour différentes bandes de fréquence.
On utilise les coefficients de corrélation entre canaux et un signal dit 10 "décorrélé", obtenu par filtrage du signal monophonique à l'aide de séquences de décorrélation. L'opération de décorrélation est réalisée directement dans le domaine fréquentiel par multiplication du spectre du signal monophonique par la réponse en fréquence des séquences de décorrélation.
12 2853804

Claims (11)

REVENDICATIONS
1. Procédé de décodage d'un signal reçu dans le domaine temporel, permettant de reconstituer une scène sonore à partir dudit signal et d'au moins un paramètre représentatif de ladite scène sonore, caractérisé en ce qu'il comprend: - une étape de transformation fréquentielle permettant de calculer le spectre dudit signal reçu; - à l'issue de ladite étape de transformation fréquentielle, une étape de construction, à partir dudit spectre dudit signal reçu, d'un signal décorrélé 10 dudit signal reçu; une étape de combinaison dudit signal reçu et dudit signal décorrélé permettant de générer des signaux représentatifs de ladite scène sonore.
2. Procédé de décodage selon la revendication 1, caractérisé en ce que ladite étape de construction d'un signal décorrélé met en oeuvre une multiplication 15 complexe dudit spectre dudit signal reçu par un spectre de décorrélation.
3. Procédé de décodage selon l'une quelconque des revendications 1 et 2, caractérisé en ce que ledit spectre de décorrélation est choisi parmi au moins deux spectres de décorrélation en fonction d'au moins un critère prédéterminé.
4. Procédé de décodage selon la revendication 3, caractérisé en ce que ledit 20 au moins un critère tient compte de la présence de composantes transitoires dans ledit signal reçu.
5. Procédé de décodage selon l'une quelconque des revendications 1 à 4, caractérisé en ce que ladite étape de transformation fréquentielle met en oeuvre une transformée de Fourier rapide (FFT1).
6. Procédé de décodage selon l'une quelconque des revendications 1 à 5, caractérisé en ce que ledit signal reçu est un signal monophonique.
7. Procédé de décodage selon l'une quelconque des revendications 1 à 6, caractérisé en ce que ladite étape de combinaison comprend une étape de synthèse des effets stéréophoniques de ladite scène sonore à partir des spectres desdits 30 signaux reçu et décorrélé et dudit au moins un paramètre représentatif de ladite 13 2853804 scène sonore.
8. Procédé de décodage selon l'une quelconque des revendications 1 à 7, caractérisé en ce que ledit au moins un paramètre représentatif de ladite scène sonore appartient au groupe comprenant: - une information de corrélation entre au moins deux objets sonores de ladite scène; - un paramètre de différence d'intensité entre au moins deux objets sonores de ladite scène; - un paramètre de déphasage temporel entre au moins deux objets sonores de ladite scène.
9. Procédé de décodage selon l'une quelconque des revendications 1 à 8, caractérisé en ce que ledit signal reçu est conforme à la norme MPEG4 Audio.
10. Dispositif de décodage d'un signal reçu dans le domaine temporel, permettant de reconstituer une scène sonore à partir dudit signal et d'au moins un 15 paramètre représentatif de ladite scène sonore, caractérisé en ce qu'il comprend - des moyens de transformation fréquentielle permettant de calculer le spectre dudit signal reçu; - des moyens, mis en oeuvre à l'issue de ladite transformation fréquentielle, de construction, à partir dudit spectre dudit signal reçu, d'un signal décorrélé dudit signal reçu; - des moyens de combinaison dudit signal reçu et dudit signal décorrélé permettant de générer des signaux représentatifs de ladite scène sonore.
11. Programme d'ordinateur comprenant des instructions de code de 25 programme pour l'exécution des étapes du procédé de décodage selon l'une quelconque des revendications 1 à 9 lorsque ledit programme est exécuté sur un ordinateur.
FR0308577A 2003-07-11 2003-07-11 Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant Pending FR2853804A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR0308577A FR2853804A1 (fr) 2003-07-11 2003-07-11 Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0308577A FR2853804A1 (fr) 2003-07-11 2003-07-11 Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant

Publications (1)

Publication Number Publication Date
FR2853804A1 true FR2853804A1 (fr) 2004-10-15

Family

ID=33042035

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0308577A Pending FR2853804A1 (fr) 2003-07-11 2003-07-11 Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant

Country Status (1)

Country Link
FR (1) FR2853804A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798866A (zh) * 2020-07-13 2020-10-20 商汤集团有限公司 音频处理网络的训练及立体声重构方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0656737A1 (fr) * 1993-11-10 1995-06-07 Phonak Ag Prothèse auditive avec suppression du couplage acoustique
WO2001019138A2 (fr) * 1999-09-04 2001-03-15 Central Research Laboratories Limited Procede et appareil de generation d'un second signal audio a partir d'un premier signal audio
WO2003007656A1 (fr) * 2001-07-10 2003-01-23 Coding Technologies Ab Codage stereo parametrique efficace et echelonnable pour applications a debit binaire reduit
WO2003090208A1 (fr) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Representation parametrique d'un signal audio spatial

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0656737A1 (fr) * 1993-11-10 1995-06-07 Phonak Ag Prothèse auditive avec suppression du couplage acoustique
WO2001019138A2 (fr) * 1999-09-04 2001-03-15 Central Research Laboratories Limited Procede et appareil de generation d'un second signal audio a partir d'un premier signal audio
WO2003007656A1 (fr) * 2001-07-10 2003-01-23 Coding Technologies Ab Codage stereo parametrique efficace et echelonnable pour applications a debit binaire reduit
WO2003090208A1 (fr) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Representation parametrique d'un signal audio spatial

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FIRST IEEE BENELUX WORKSHOP ON AUDIO CODING, 15 November 2002 (2002-11-15), Leuven, pages 1 - 7, XP002273314, Retrieved from the Internet <URL:http://www.esat.kuleuven.ac.be/~spch/mpca/> [retrieved on 20040310] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798866A (zh) * 2020-07-13 2020-10-20 商汤集团有限公司 音频处理网络的训练及立体声重构方法和装置

Similar Documents

Publication Publication Date Title
EP2002424B1 (fr) Dispositif et procede de codage scalable d&#39;un signal audio multi-canal selon une analyse en composante principale
EP2005420B1 (fr) Dispositif et procede de codage par analyse en composante principale d&#39;un signal audio multi-canal
EP1794748B1 (fr) Procédé de traitement de données par passage entre domaines différents de sous-bandes
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
JP5032978B2 (ja) ステレオコーディング及びデコーディングの方法及び装置
EP3427260B1 (fr) Codage et décodage optimisé d&#39;informations de spatialisation pour le codage et le décodage paramétrique d&#39;un signal audio multicanal
WO2012052676A1 (fr) Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase
EP3391370A1 (fr) Traitement de réduction de canaux adaptatif pour le codage d&#39;un signal audio multicanal
KR20070098930A (ko) 근접-투명 또는 투명 멀티-채널 인코더/디코더 구성
EP2691952A1 (fr) Allocation par sous-bandes de bits de quantification de paramètres d&#39;information spatiale pour un codage paramétrique
WO2011045548A1 (fr) Codage/decodage parametrique bas debit optimise
KR20120016115A (ko) 오디오 디코딩 방법 및 오디오 디코더
FR2891098A1 (fr) Procede et dispositif de mixage de flux audio numerique dans le domaine compresse.
WO2010004155A1 (fr) Synthese spatiale de signaux audio multicanaux
EP2232489A1 (fr) Codage/decodage par transformee, a fenetres adaptatives
FR2853804A1 (fr) Procede de decodage d&#39;un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant
EP2126905B1 (fr) Procédés et dispositifs d&#39;encodage et décodage de signaux audio, signal audio encodé
WO2011073600A1 (fr) Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux
FR2857552A1 (fr) Procede de decodage d&#39;un signal permettant de reconstituer une scene sonore a transformation temps-frequence faible complexite, et dispositif correspondant
EP1362344A1 (fr) Procede et dispositif de reconstruction spectrale de signaux a plusieurs voies
WO2011045549A1 (fr) Decodage parametrique stereo optimise
WO2023232823A1 (fr) Titre: codage audio spatialisé avec adaptation d&#39;un traitement de décorrélation