FR2990551A1 - Codage/decodage parametrique d'un signal audio multi-canal, en presence de sons transitoires - Google Patents

Codage/decodage parametrique d'un signal audio multi-canal, en presence de sons transitoires Download PDF

Info

Publication number
FR2990551A1
FR2990551A1 FR1255033A FR1255033A FR2990551A1 FR 2990551 A1 FR2990551 A1 FR 2990551A1 FR 1255033 A FR1255033 A FR 1255033A FR 1255033 A FR1255033 A FR 1255033A FR 2990551 A1 FR2990551 A1 FR 2990551A1
Authority
FR
France
Prior art keywords
transient
temporal
parameters
audio signal
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1255033A
Other languages
English (en)
Inventor
Julien Capobianco
Gregory Pallone
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR1255033A priority Critical patent/FR2990551A1/fr
Publication of FR2990551A1 publication Critical patent/FR2990551A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L'invention se rapporte à un procédé de codage paramétrique d'un signal audio multicanal. Ce codage comporte une étape de réduction de canaux du signal audio pour obtenir un signal réduit et une étape d'estimation des paramètres spatiaux associés au signal audio multi-canal selon une résolution temporelle de base prédéterminée et est remarquable en qu'il comporte en outre les étapes de détection (Ti) dans le signal audio réduit représenté dans le domaine temps-fréquence, de positions temporelles de débuts de sons transitoires, d'application (Ri) d'une résolution temporelle de transitoire, inférieure à la résolution temporelle de base, pour déterminer les ensembles de paramètres spatiaux à partir des positions temporelles des débuts de sons transitoires détectés et de codage(Cod.) des ensembles de paramètres ainsi déterminés. L'invention se rapporte également à un procédé de décodage permettant, selon une résolution temporelle adaptée à la position de transitoires, de calculer les coefficients d'une matrice d'augmentation de canaux à partir des paramètres spatiaux décodés. L'invention vise également un dispositif de codage et un dispositif de décodage mettant en oeuvre respectivement les procédés de codage et de décodage.

Description

Codage/décodage paramétrique d'un signal audio multi-canal, en présence de sons transitoires La présente invention se rapporte au codage et décodage paramétrique de signaux audio multicanaux (stéréo ou supérieur, comme 5.1, 7.1...). Ce type de codage/décodage se base sur l'extraction de paramètres d'information spatiale qui sont utilisés au décodage pour que les caractéristiques spatiales puissent être restituées. Le codage paramétrique se décompose généralement en 2 étapes : Une étape d'analyse au niveau du codeur, générant un ensemble de paramètres spatiaux (typiquement ICLD de l'anglais "Inter-Channel Level Difference", ICTD de l'anglais "Inter-Channel Time Difference", ICC de l'anglais "Inter-Channel Coherence"), et un signal réduit ("downmix" en anglais) obtenu après un traitement de réduction de canaux appliqué au signal audio multicana I d'origine.
Par exemple, un signal réduit ou signal "downmix" peut être composé d'un seul canal lorsqu'il est créé à partir d'un signal stéréo (de 2 canaux), ou encore il peut être composé de 2 canaux lorsqu'il est créé à partir d'un signal comportant plus de 2 canaux. Au décodage, une étape de synthèse permet alors la reconstruction de l'image spatiale (i.e des canaux originaux) à partir des paramètres spatiaux et du signal "downmix".
Le signal "downmix" est généralement transmis du codeur au décodeur après avoir été compressé par un codeur audio générique habituellement appelé « codeur coeur », et les paramètres spatiaux sont transmis après avoir été également compressés. Une adéquation entre ces deux étapes est à assurer, les étapes étant toutes les deux réalisées dans la même représentation temps-fréquence du signal, par exemple le domaine PQMF (de l'anglais "Pseudo Quadrature Mirror Filter"), le domaine MDCT (de l'anglais "Modified Discrete Cosine Transform") ou d'autres types de représentation temps-fréquence. Pour permettre un gain de codage significatif, les paramètres spatiaux transmis ont une résolution fréquentielle et/ou temporelle inférieure à celles du signal audio dans le domaine temps-fréquence utilisé. Cette baisse de résolution est couramment obtenue par intégration temporelle et/ou fréquentielle. Dans les méthodes de l'état de l'art, le codeur estime des ensembles de paramètres spatiaux selon un échantillonnage déterminé, selon le plan KpxNp avec Kr)1< (Kp étant le nombre de bandes fréquentielles de la représentation temps-fréquence des paramètres spatiaux et K le nombre de bandes fréquentielles de la représentation temps fréquence des signaux audio) et Npl\J (Np étant le nombre d'échantillons temporels de la représentation temps-fréquence des paramètres spatiaux et N le nombre d'échantillons temporels de la représentation temps-fréquence des signaux audio).
Ainsi, à une colonne temporelle d'une trame de signal, est assignée un ensemble de paramètres estimés sur une fenêtre d'estimation de taille généralement constante mais qui selon certaines méthodes de l'état de l'art, peut être variable. Le codeur transmet alors au décodeur l'indice de la colonne temporelle où se situe l'ensemble de paramètres estimés.
Généralement, les ensembles de paramètres sont estimés selon une résolution temporelle minimum pour une qualité de restitution optimale au décodeur. Ainsi, il est courant d'obtenir au moins un ensemble de paramètres par trame de signal. La figure 1 illustre un exemple de réalisation d'une méthode de l'état de l'art, où on peut voir une représentation de plusieurs ensembles de paramètres estimés (sous forme de ronds) Pl, P2, P3 et P4, sur des colonnes temporelles définies dans plusieurs trames de signal. Dans cette figure, un ensemble de paramètres par trame de signal est représenté. Ainsi, on appellera régions spatiales RS, les régions temporelles contiguës et contenant chacune un ensemble de paramètres. Ces régions spatiales définissent donc la résolution temporelle appliquée au signal audio pour estimer les ensembles de paramètres spatiaux. Dans l'exemple illustré sur la figure 1, ces régions spatiales sont constantes et correspondent à une longueur de trame de signal. La résolution temporelle correspondante est donc également constante. Cette figure représente également les fenêtres d'estimations F des paramètres qui sont utilisées au codeur pour déterminer les différents ensembles de paramètres, sous forme d'accolades. Ces fenêtres sont ici de taille constante et sont centrées sur la colonne temporelle assignée à l'ensemble de paramètres. On peut remarquer que lors de l'analyse, une pré-exploration du signal futur est nécessaire, induisant une latence supplémentaire lors de l'étape d'encodage. On peut voir également sur cette figure 1 que la présence de sons transitoires comme celui représenté en T1, n'influence pas la méthode d'estimation des paramètres. Au décodeur, connaissant l'indice I des colonnes temporelles assignées à des ensembles de paramètres, il est possible de reconstruire la matrice "upmix", d'augmentation de canaux en effectuant des interpolations des valeurs des coefficients de la matrice "upmix" obtenues à partir des paramètres aux indices I, pour que la matrice obtenue soit compatible avec le domaine temps-fréquence du signal "downmix". Pour éviter des discontinuités entre les valeurs des coefficients de la matrice "upmix" obtenues à partir des paramètres, une interpolation linéaire est réalisée entre ces coefficients. Cette interpolation linéaire des coefficients de la matrice "upmix" est représentée sur la figure 1 par un trait continu entre les coefficients représentés aux mêmes colonnes temporelles que les ensembles de paramètres qui ont permis de les déterminer. On remarque que la présence de sons transitoires n'influence pas la méthode d'interpolation des coefficients de la matrice d'augmentation de canaux.
Certaines méthodes de l'état de l'art cherchent à utiliser la présence de sons transitoires pour estimer de façon différente les paramètres spatiaux. Ainsi, selon l'annexe informative F du standard MPEG Surround (ISO/IEC 230031:2007. « MPEG-D, Part 1: MPEG Surround », 2007), les fenêtres d'analyse F, pour estimer les paramètres spatiaux, sont adaptées en fonction des sons transitoires détectés. La figure 2 illustre un exemple de réalisation de cette recommandation. On peut remarquer que les fenêtres d'analyse s'arrêtent à la position temporelle précédant le début d'un transitoire (par exemple F1 et F2, avant le début du transitoire T1) et commence à la position temporelle d'un début de transitoire (par exemple F3 à la position temporelle du transitoire T1). La taille des fenêtres d'analyse est constante lorsqu'il n'y a pas de transitoires détectés et est adaptée sinon à la présence de transitoires. Ainsi, sur la figure 2, les fenêtres F3, F4 et F5 sont constantes et permettent d'estimer respectivement les ensembles de paramètres P3, P4 et P5, alors que les fenêtres F1 et F2 adaptées à la position du transitoire T1 permettent d'estimer respectivement les ensembles de paramètres P1 et P2. A chaque trame de signal correspond au moins un ensemble de paramètres estimé. Les régions spatiales sont donc de tailles différentes selon la présence de transitoire. On peut remarquer que la présence de transitoires engendre de petites régions spatiales, notamment celles représentées en RS2 et RS3, soit donc des résolutions temporelles correspondantes, grandes.
Cette méthode prenant en compte les transitoires pour estimer les ensembles de paramètres améliore la qualité d'encodage de ces signaux mais augmente cependant significativement le débit nécessaire pour transmettre ces ensembles de paramètres estimés. Plus le nombre de sons transitoires est important dans le signal audio et plus le débit de paramètres spatiaux nécessaire sera important.
Il existe donc un besoin de pouvoir bénéficier d'une bonne qualité d'encodage des signaux audio multicanaux par la prise en compte de l'existence de sons transitoires dans le signal sans pour autant que le débit nécessaire pour coder les paramètres spatiaux soit trop important. La présente invention vient améliorer la situation.
Elle propose à cet effet, un procédé de codage paramétrique d'un signal audio multi- canal comportant une étape de réduction de canaux du signal audio pour obtenir un signal réduit et une étape d'estimation des paramètres spatiaux associés au signal audio multi-canal selon une résolution temporelle de base prédéterminée. Le procédé est tel qu'il comporte en outre les étapes suivantes: - détection dans le signal audio réduit représenté dans le domaine temps- fréquence, de positions temporelles de débuts de sons transitoires; - application d'une résolution temporelle de transitoire, inférieure à la résolution temporelle de base, pour déterminer les ensembles de paramètres spatiaux à partir des positions temporelles des débuts de sons transitoires détectés; et - codage des ensembles de paramètres ainsi déterminés.
Ainsi, le débit nécessaire au codage des paramètres spatiaux est réduit quand le signal présente des sons transitoires puisque la résolution temporelle de ces paramètres spatiaux est réduite. Le nombre d'ensembles de paramètres spatiaux à coder est donc réduit. Plus le signal présente des sons transitoires et plus le gain en débit est important. La qualité de ce codage n'est pas pour autant dégradée puisque cette diminution de la résolution temporelle est effectuée juste après l'apparition d'un transitoire dans le signal. L'effet de précédence du son transitoire masque la perception auditive de la localisation des sons qui suivent directement ce transitoire. Il est alors possible de réduire la résolution temporelle des paramètres spatiaux à coder pendant un temps prédéterminé où seule la perception de la localisation du son transitoire est obtenue par un auditeur.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de codage défini ci-dessus. Dans un mode particulier de réalisation, la résolution temporelle de transitoire est de l'ordre d'un ensemble de paramètres pour 100 ms de signal.
Cette valeur de résolution temporelle est bien adaptée au phénomène de précédence expliquée ci-dessus. Des tests auditifs ont permis de montrer que pendant ces 100ms après l'apparition d'un transitoire, seule la localisation du transitoire était perçu par l'oreille humaine par rapport à la localisation des autres sons qui suivent directement ce transitoire. Dans une variante de réalisation, la résolution temporelle de transitoire est fonction du type de transitoire détecté. Selon le type de transitoire détecté (par exemple le son correspondant ou son amplitude), il est alors possible de faire varier la résolution temporelle pour prendre en compte au mieux un effet de précédence adapté au transitoire détecté. Selon un mode de réalisation de l'invention, le procédé comporte une étape de détermination de fenêtres d'analyse à appliquer au signal audio pour estimer les ensembles de paramètres spatiaux, une fenêtre d'analyse précédant un transitoire détecté se terminant à la position temporelle précédent celle du transitoire et une fenêtre d'analyse comprenant le transitoire détecté commençant à partir de la position temporelle de la transition détectée. Les fenêtres d'analyse ainsi déterminées permettent d'estimer les ensembles de paramètres spatiaux en fonction de la présence ou non d'un son transitoire. Ces paramètres estimés codés puis décodés, vont permettre au décodage de reconstruire les coefficients de la matrice d'augmentation de canaux en tenant compte des transitoires, ce qui améliore la qualité de restitution du signal audio.
L'invention se rapporte également à un procédé de décodage paramétrique d'un signal audio multi-canal comportant une étape d'obtention d'ensembles de paramètres spatiaux décodés selon une résolution temporelle de base prédéterminée, de détermination, à partir de ces paramètres spatiaux décodés, de coefficients d'une matrice d'augmentation de canaux à appliquer à un signal audio réduit décodé. Le procédé est tel qu'il comporte en outre les étapes suivantes: - obtention de positions temporelles de débuts de transitoires dans une représentation temps-fréquence du signal audio réduit décodé; - application d'une résolution temporelle de transitoire, inférieure à la résolution temporelle de base, pour obtenir les coefficients de la matrice d'augmentation à partir des ensembles de paramètres spatiaux décodés, pour les positions temporelles postérieures à celles des débuts de sons transitoires détectés. Ceci permet donc d'obtenir les informations de spatialisation sans pour autant avoir besoin d'un débit important au décodeur. La prise en compte des transitoires pour adapter la résolution temporelle des ensembles de paramètres spatiaux permet ce gain en débit et permet au décodage d'obtenir les informations spatiales suffisantes pour reconstruire la matrice d'augmentation des canaux qui permettra de spatialiser le signal audio avec une bonne qualité. Selon un mode de réalisation particulier du procédé de décodage, les coefficients de la matrice d'augmentation appliqués aux positions temporelles postérieures à la position temporelle d'un transitoire sont obtenus par interpolation constante sur une longueur déterminée par la région spatiale correspondant à la résolution temporelle de transitoire. Ainsi, pour obtenir les coefficients des positions temporelles où il n'y a pas d'ensembles de paramètres décodés correspondants, on effectue une interpolation constante, au moins sur une région spatiale ou durée prédéterminée correspondant à celle pour lequel le phénomène de précédence s'applique. Ainsi, il n'y a pas d'artefacts audibles pendant cette durée et seule la localisation du transitoire détecté est restituée pendant cette durée. Selon une variante de réalisation du procédé de décodage, les coefficients de la matrice d'augmentation appliqués aux positions temporelles postérieures à la position temporelle d'un transitoire sont obtenus par interpolation constante sur une longueur déterminée par la région spatiale correspondant à la résolution temporelle de base puis par interpolation linéaire jusqu'à la position temporelle du prochain coefficient de la matrice d'augmentation. Dans ce mode de réalisation, une interpolation linéaire est mise en oeuvre avant que la durée correspondant au phénomène de précédence soit expirée. L'interpolation constante est alors effectuée pendant la durée correspondant à une résolution temporelle de base. L'interpolation linéaire entre le coefficient de la matrice correspondant à l'ensemble de paramètres décodé et défini à partir du transitoire et le coefficient correspondant à l'ensemble de paramètres décodé suivant, selon la résolution temporelle de transitoire appliquée, permet d'assurer une meilleure reconstruction de la forme d'onde du signal audio. Le signal audio restitué est donc plus proche du signal d'origine. Le délai de décodage est cependant plus important puisque dans ce mode de réalisation, il faut attendre le décodage de l'ensemble de paramètres suivant pour pouvoir interpoler. Dans un mode de réalisation particulier pris indépendamment ou en combinaison avec les modes de réalisation précédents, une discontinuité est appliquée pour les coefficients de la matrice d'augmentation, à la position temporelle d'un début de transitoire détecté, la discontinuité étant déterminée par la différence entre la valeur du coefficient déterminé à partir de l'ensemble de paramètres estimé pour une fenêtre d'estimation incluant le transitoire et la valeur du coefficient déterminé à partir de l'ensemble de paramètres estimé par la fenêtre d'estimation précédent le transitoire. Ainsi, la discontinuité introduite à la position temporelle d'un transitoire permet de reconstruire une matrice d'augmentation de canaux qui puisse spatialiser de façon nette l'évènement sonore qui est brusquement apparu dans la scène sonore. La discontinuité introduite n'engendre pas d'artefacts gênants puisque ceux-ci sont inaudibles grâce à un phénomène de masquage du transitoire connu sous le nom d'illusion de continuité. La présente invention vise également un dispositif de codage paramétrique d'un signal audio multi-canal comportant un module de réduction de canaux du signal audio multi- canal pour obtenir un signal audio réduit, un module d'estimation des paramètres spatiaux associés au signal audio multi-canal selon une résolution temporelle de base prédéterminée. Le dispositif est tel qu'il comporte en outre: - un module de détection dans le signal audio réduit représenté dans un domaine temps-fréquence, de positions de débuts de sons transitoires; - un module d'application d'une résolution temporelle de transitoire, inférieure à la résolution temporelle de base, pour déterminer les ensembles de paramètres spatiaux à partir des positions temporelles des débuts de sons transitoires détectés; et un module de codage des ensembles de paramètres déterminés.
Elle vise un dispositif de décodage paramétrique d'un signal audio multi-canal comportant un module d'obtention d'ensembles de paramètres spatiaux décodés selon une résolution temporelle de base prédéterminée, un module de détermination, à partir de ces paramètres spatiaux décodés, de coefficients d'une matrice d'augmentation de canaux à appliquer à un signal audio réduit décodé. Le dispositif est tel qu'il comporte en outre: - un module d'obtention de positions de débuts de sons transitoires dans une représentation temps-fréquence du signal audio réduit décodé; - un module d'application d'une résolution temporelle de transitoire, inférieure à la résolution temporelle de base, pour obtenir les coefficients de la matrice d'augmentation à partir des ensembles de paramètres spatiaux décodés, pour les positions temporelles postérieures à celles des débuts de sons transitoires détectés. Ces dispositifs présentent les mêmes avantages que les procédés décrits précédemment, qu'ils mettent en oeuvre. L'invention vise un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de codage et/ou de décodage tel que décrit, lorsque ces instructions sont exécutées par un processeur. Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif de codage ou de décodage, éventuellement amovible, mémorisant un programme informatique mettant en oeuvre un procédé de codage ou de décodage tels que décrits précédemment. D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels : - la figure 1 illustre une méthode de l'état de l'art décrite précédemment ; - la figure 2 illustre une autre méthode de l'état de l'art décrite précédemment - la figure 3 illustre sous forme de bloc diagramme à la fois le dispositif de codage et le dispositif de décodage selon un mode de réalisation de l'invention, ainsi que les procédés de codage et de décodage respectivement mis en oeuvre selon un mode de réalisation de l'invention; - les figures 4a, 4b et 4c illustrent des exemples de réalisation possibles pour mettre en oeuvre l'application d'une résolution temporelle pour les ensembles de paramètres spatiaux en fonction des transitoires détectés au codage et au décodage ainsi que l'interpolation au décodage des coefficients de la matrice d'augmentation de canaux déterminés à partir de ces paramètres ; - la figure 5 illustre sous forme d'organigramme, les étapes mises en oeuvre pour déterminer au codage les ensembles de paramètres spatiaux par rapport aux transitoires du signal ; - la figure 6 illustre sous forme d'organigramme, les étapes mises en oeuvre au codage pour déterminer les fenêtres d'analyses utilisées pour estimer les paramètres spatiaux ; et - la figure 7 illustre un exemple de réalisation matérielle d'un dispositif de codage ou d'un dispositif de décodage selon un mode de réalisation de l'invention.
La figure 3 décrite maintenant, représente à la fois la partie codage et la partie décodage selon un mode de réalisation de l'invention. Ainsi, au codage représenté en 300, le signal multi-canal représenté ici comme un signal stéréo à deux canaux, x1 et x2, est transformé par un module de transformation temps-fréquence 301. Les signaux en sortie X1 et X2 sont donc représentés dans le domaine temps-fréquence sur un nombre prédéterminé de bandes fréquentielles, par exemple K bandes fréquentielles et sur un nombre d'échantillons temporels (par exemple N). Ce codage peut bien évidemment s'appliquer à des signaux multi-canaux avec un nombre de canaux supérieur à deux. Dans ce cas, les signaux en entrée sont des signaux xi, représentés sous forme de matrice dans le domaine temps-fréquence par des matrices Xi de dimension K*N. Ces signaux X1 et X2 sont ensuite traités par un module de traitement de réduction de canaux 302, encore appelé "downmix". Le nombre de canaux résultant est donc inférieur au nombre de canaux en entrée de ce module. Dans cet exemple illustré à la figure 3, le nombre de canaux en sortie du "downmix" est égal à 1 (D). Ce signal audio réduit D est ensuite codé en 306 par un codeur coeur classique comme par exemple un codeur de type normalisé à l'ITU-T G.722. A partir de ce signal audio réduit D, une étape d'estimation des paramètres spatiaux (Pi) associés au signal audio multi-canal est effectué par le module 305 selon une résolution temporelle de base prédéterminée. Des ensembles de paramètres spatiaux sont ainsi estimés selon une résolution définie de façon optimale pour que ces paramètres définissent la spatialisation du signal audio multi-canal. De façon usuelle, l'espace temporel de base (Nrnax) entre deux ensembles de paramètres spatiaux, encore appelé région spatiale, est de l'ordre de 40 ms. La résolution temporelle correspondante est donc d'un ensemble de paramètre spatiaux pour 40 ms de signal. D'autres valeurs peuvent bien évidemment définir cette résolution temporelle de base. A partir du signal audio réduit D, une étape (Ti) de détection de sons transitoires est effectuée par le module de détection 303. Pour détecter la présence de transitoires dans le signal, plusieurs méthodes sont possibles. Cette détection peut par exemple être basée sur un seuil statique appliqué à une mesure de « contenu haute fréquence » (« High Frequency Content » en anglais). Cette mesure peut être définie comme une intégration fréquentielle de l'énergie du spectre pondéré par une fonction proportionnelle à la fréquence. La fonction résultante cp[n] est définie selon la formule suivante, avec E l'énergie d'un point temps- fréquence du spectre: cp[n] = 71 EL° k . E [n][k] Ainsi, si cette fonction est supérieure à un seuil prédéterminé, le module 303 détecte la position temporelle d'un début de son transitoire dans le signal. Dans un mode particulier de réalisation, la détection de transitoires peut également prendre en compte le bruit de fond présent dans le signal audio. Pour cela, le rapport entre l'énergie du transitoire détecté et celui du bruit de fond, est comparé à un seuil.
La mesure de « contenu haute fréquence » tel que défini ci-dessus, est sensible au rapport de l'énergie du transitoire sur l'énergie du bruit de fond. Si le bruit de fond est élevé, la mesure reste faible en présence de transitoire et le seuil de détection n'est pas dépassé. Ainsi, selon ce mode de réalisation, les transitoires détectés se différencient suffisamment du bruit de fond. A partir des positions temporelles définies pour ces transitoires, une étape d'application (Ri) d'une résolution temporelle de transitoire, inférieure à la résolution temporelle de base est effectuée par le module 304 pour déterminer les ensembles de paramètres spatiaux à partir des positions temporelles des débuts de sons transitoires détectés. En effet, la position temporelle d'un transitoire va déterminer la résolution temporelle à utiliser pour coder les ensembles de paramètres spatiaux. On utilise ici l'effet de précédence que produit un son transitoire pour réduire la résolution temporelle des paramètres spatiaux à coder. Ainsi, le débit nécessaire pour coder ces paramètres est réduit par la présence de sons transitoires. Plus le nombre de transitoires dans le signal audio est important et plus le gain en débit de codage des paramètres spatiaux est important. En effet, l'effet de précédence du son transitoire masque la perception auditive de la localisation des sons qui suivent directement ce transitoire. Une diminution de la résolution temporelle des paramètres spatiaux à coder pendant un temps prédéterminé est alors possible puisque seule la perception de la localisation du son transitoire est perçue par un auditeur. La localisation des sons qui suivent immédiatement le son transitoire n'est pas perçue par l'auditeur. L'estimation des ensembles de paramètres Pi est alors effectuée selon cette résolution temporelle de transitoire. Pour cette estimation, le module 305 peut utiliser des fenêtres d'estimations adaptées également à la présence de sons transitoires. Ces fenêtres d'analyse peuvent par exemple être déterminées (Fi) en fonction de la position temporelle d'un début de transitoire qui va conditionner la position et la taille d'une fenêtre d'analyse. Ainsi, la fenêtre d'analyse qui précède la position d'un transitoire, se terminera à la position temporelle précédant la position du transitoire et la fenêtre d'analyse qui comporte le transitoire commencera à la position temporelle du transitoire. La taille d'une fenêtre d'analyse est par défaut de taille prédéfinie, par exemple Nmax. Cette taille de fenêtre correspond par exemple à la largeur moyenne d'un transitoire. Dans un mode de réalisation particulier, cette largeur peut correspondre à la longueur d'une trame de signal mais ceci n'est pas obligatoire. Ces ensembles de paramètres spatiaux ainsi estimés, peuvent être assignés à des positions temporelles pour être codés (cod.) en 307. Le module de codage 307 peut coder ainsi les ensembles de paramètres Pi avec un échantillonnage (P) inférieur à l'échantillonnage (N) utilisé pour représenter le signal réduit dans le domaine temps fréquence. Les indices des positions temporelles des ensembles de paramètres peuvent êtres codés également mais pas nécessairement. De même une information sur les positions temporelles des transitoires peut également être codée pour être transmise à un décodeur. Ceci n'est en rien obligatoire puisque le décodeur pourra lui même retrouver cette information, par exemple en effectuant la même détection de transitoire que dans l'encodeur. Le codage de ces ensembles de paramètres peut s'effectuer par quantification scalaire classique ou toute autre méthode de codage d'informations. La figure 5 représente un algorithme détaillé des étapes possibles mises en oeuvre pour déterminer le nombre d'ensembles de paramètres à coder et le découpage des régions concernées par ces ensembles de paramètres, en fonction des transitoires détectés. Ainsi une étape E501 initialise les indices idx (indice courant d'une région spatiale) et n (indice courant de position temporelle) à 0. Tant que le signal audio n'est pas entièrement analysé (E502), l'étape E503 détermine si un transitoire a été détecté sur une largeur prédéfinie Nmax encore appelée région spatiale de base. Dans les exemples illustrés ci-après, cette région spatiale de base est de l'ordre de 40 ms, ce qui correspond environ à une longueur de trame de signal. Si un transitoire est détecté sur cette largeur prédéfinie (état 1 de l'étape E503), l'étape E504 est mise en oeuvre. A cette étape, on définit la région concernée par l'ensemble de paramètres courant comme allant jusqu'à l'indice temporel précédent le transitoire, tel que PS[idx]=pt(n)-1. PS[idx] représente la largeur de la région spatiale, une région spatiale étant une zone temporelle dans laquelle un ensemble de paramètres est utilisé pour spatialiser toute cette région. A une région spatiale correspond un ensemble de paramètres. La région spatiale définit aussi la résolution temporelle des ensembles de paramètres. pt(n) représente la position temporelle du transitoire détecté relativement à n. Les figures 4a et 4b illustrent parfaitement ces cas de figures. Ainsi, sur ces figures, on voit qu'un transitoire T1 est présent sur une largeur inférieure à Nmax après la première trame et le premier ensemble de paramètres Pl. La région R52 concernée par l'ensemble de paramètres P2 s'arrête alors avant le transitoire Tl.
A l'étape E504 de la figure 5, on indique que l'ensemble de paramètres suivant sera dans une région spatiale démarrant sur un transitoire (T[idx+1]=1) La position temporelle correspondante à la position du transitoire, fait alors partie de la région décrite par l'ensemble de paramètres suivant. L'étape E504 incrémente de 1 l'indice des régions spatiales (idx=idx+1) et place l'indice temporel courant à la position temporelle du transitoire (n=n+pt(n)). Dans le cas où aucun transitoire n'a été détecté dans une largeur Nmax (E503 à 0), l'étape E505 est mise en oeuvre.
A cette étape, si l'ensemble de paramètre courant est relatif à un transitoire (état 1 de E505), alors on applique l'étape E506 qui détecte la présence d'un transitoire dans une largeur Nt>Nm'. Dans le cas où il n'y a pas de transitoire (E506 à 0), l'étape E507 est mise en oeuvre. A cette étape, la longueur de la région spatiale est fixée à une valeur PS[idx]=Nt. On applique ainsi une résolution temporelle d'un ensemble de paramètres pour une région spatiale de longueur supérieure à Nmax, ici de longueur au moins égale à Nt, Nt étant par exemple de l'ordre de 100ms, durée correspondant à l'effet de précédence qui peut exister après un transitoire. Ceci est illustré aux figures 4a et 4b où on voit qu'après le transitoire T1 où l'ensemble de paramètre P3 est associé, une région spatiale RS3 de longueur Nt donc supérieure à Nmax (correspondant à la longueur de RS1), est appliquée de façon à diminuer la résolution temporelle. A l'étape E507, on incrémente alors de 1 l'indice des régions spatiales et on place l'indice temporel courant à la position temporelle précédent la largeur Nt (n=n+Nt(n)-1) puis on revient à l'étape E502. Si à l'étape E506, on détecte un transitoire dans la largeur Nt (E506 à 1), alors l'étape E508 est mise en oeuvre. A cette étape, on indique que l'ensemble de paramètres suivant sera dans une région spatiale démarrant sur un transitoire (T[idx+1]=1). La région spatiale suivante démarre donc à la position du transitoire. L'indice des régions spatiales est incrémenté de 1 (idx=idx+1) et l'indice temporel courant est placé à la position temporelle du transitoire (n=n+pt(n)). Si à l'étape E505, l'ensemble de paramètre courant n'est pas relatif à un transitoire (E505 à 0), alors l'étape E509 est mise en oeuvre. Cette étape détermine la région spatiale pour le prochain ensemble de paramètres courant comme étant de largeur Nmax (PS[idx]= Nmax) correspondant à la résolution temporelle de base. L'indice courant des régions spatiales est incrémenté de 1 (idx=idx+1) et l'indice temporel courant est placé à l'indice temporel précédant celui défini par la largeur Nmax (n=n+ Nmax -1). Sur la figure 4a, on voit bien qu'après l'application de la région spatiale R53, une autre région spatiale R54 de longueur Nmax est appliquée. Ceci correspond donc à la mise en oeuvre de l'étape E509 de la figure 5. Sur la figure 4b, on voit par contre qu'un transitoire T2 est détecté. Une région spatiale R54 est alors définie en fonction de ce transitoire par la mise en oeuvre de l'étape E504.
Une variante de réalisation non représentée à la figure 5 est illustrée à la figure 4c. Dans cet exemple, à partir de l'ensemble de paramètres défini par la position du transitoire détecté T1, on applique également une résolution temporelle de transitoire mais cette fois ci, on commence par appliquer une région spatiale de base correspondant à Nmax, illustrée ici en RS3 sur la figure 4c, puis on regarde sur une longueur de Nt>N,' illustrée en figure 4c en RS4, l'existence d'un transitoire. En l'absence de transitoire, on applique une région spatiale de longueur Nt avant de définir le prochain ensemble de paramètres illustré en figure 4c en P4. On obtient donc une diminution de la résolution temporelle sur la largeur globale des régions RS3 et RS4, après la position d'un transitoire. RS4 étant de largeur Nt> Nmax, on a bien une résolution temporelle inférieure à la résolution temporelle de base. La figure 6 illustre en détails les étapes mises en oeuvre dans un mode de réalisation possible, pour déterminer les fenêtres d'analyse qui permettent d'estimer ces ensembles de paramètres.
Ainsi une étape E601 initialise les indices idx (indice courant d'un ensemble de paramètres spatiaux à déterminer) et n (indice courant de position temporelle) à O. Tant que le signal audio n'est pas entièrement analysé (E602), l'étape E603 détermine si l'ensemble de paramètres courant ou l'ensemble de paramètres suivant est dans une région spatiale comportant un transitoire (T[idx] OU T[idx+1] = 1). Dans la positive (1 en E603), l'étape E604 est mise en oeuvre. Dans cette étape, on détermine le début de la fenêtre d'analyse à la position temporelle courante (winstart=n) et la fin de la fenêtre à la position temporelle correspondant à la largeur de la région concernée par l'ensemble de paramètres courant, tel que défini par l'algorithme de la figure 5 (winst0p=n+PS(idx)-1). Ce cas de figure se retrouve sur les figures 4a et 4b dans le cas où l'ensemble de paramètres courant est par exemple P2. La région concernée par P2 ne contient pas de transitoire mais celle concernée par l'ensemble de paramètres suivant (P3), contient un transitoire Ti. Ainsi, la fenêtre d'analyse F2 pour P2 est définie par le début à l'indice temporel courant, c'est-à-dire juste après l'indice temporel de l'ensemble de paramètres précédent (P1) et se termine juste avant le transitoire Ti, région déterminée par l'étape E504 de la figure 5. Dans le cas où l'indice courant de l'ensemble de paramètres ne fait pas partie d'une zone comportant un transitoire (0 en E603), l'étape E605 est mise en oeuvre. Cette étape vérifie que la largeur de la région concernée par l'ensemble de paramètres suivant est inférieure à la moitié de la largeur de la région concernée par l'ensemble de paramètres 30 courant. Dans la positive (1 à E605), l'étape E606 est mise en oeuvre. A cette étape, le début de la fenêtre d'analyse est positionné avec un décalage correspondant à la largeur de la région du paramètre suivant (winstart=n+PS[idx+1]) et la fin de la fenêtre est définie par la largeur de la région concernée par l'ensemble de paramètres courant 35 (win --stop Ce cas de figure n'est pas illustré sur les figures 4a à 4c. Dans la négative (0 en E605), l'étape E607 est mise en oeuvre. Cette étape positionne le début de la fenêtre d'analyse avec un décalage correspondant à une moitié de largeur de =n+PS[idx]+PS[idx+1]-1). la région concernée par l'ensemble de paramètres (winstan=n+PS[idx]/2) et la fin de la fenêtre est définie par la largeur de la région de l'ensemble de paramètres courant (win5t0p=n+PS[idx]+PS[idx]/2-1). Ce cas est par exemple illustré à la figure 4a où on peut voir que la fenêtre F4 est décalée du début de la région RS4 de RS4/2, soit encore Nmax/2. Enfin, l'étape E608 décale l'indice temporel courant de la distance correspondant à la largeur de la région concernée par l'ensemble de paramètres courant, incrémente l'ensemble de paramètres courant de 1 et effectue une estimation des paramètres spatiaux dans les fenêtres d'analyse ainsi déterminées.
Les figures 4a à 4c illustrent donc des exemples de réalisation pour la mise en oeuvre des procédés de codage et de décodage selon l'invention. Ces figures montrent les fenêtres d'analyse (F1 à F4) utilisées pour estimer les ensembles de paramètres et les transitoires Ti. et T2 détectés. On voit ainsi que la fenêtre F1 se termine avant la position du transitoire Ti ainsi que la fenêtre F2. Ces deux fenêtres permettent d'estimer deux ensembles de paramètres P1 et P2. La fenêtre d'analyse F3 commence à la position du transitoire T1 et possède une largeur prédéfinie de Nmax puisqu'aucun transitoire n'est présent dans cette largeur. Les fenêtres F4 et F5 sont de longueur Nmax prédéfinie et définissent les ensembles de paramètres P4 et P5. De retour à la figure 3, nous allons à présent décrire les étapes mises en oeuvre au décodeur 310. Au décodage, le signal réduit, encore appelé "Downmix", est décodé en 306 par un décodage correspondant au codage (par exemple G.722). Le signal réduit décodé D est mis en entrée d'un module 311 de traitement d'augmentation de canaux ou "upmix". Les signaux (il et g-2) issus de ce module de traitement sont ensuite transformés par le module de transformation inverse temps-fréquence 312 pour donner des signaux temporels (xl_ et x2). Pour pouvoir effectuer ce traitement "upmix", les coefficients Coef. de cette matrice sont obtenus par le module 315 à partir des paramètres Pi décodés en 307 par un décodage correspondant à celui utilisé pour le codage de ces paramètres. Ce module 315 obtient les positions temporelles des ensembles de paramètres. A partir des paramètres décodés Pi, aux positions temporelles retrouvées, les coefficients pour la matrice d'augmentation de canaux ("upmix") sont obtenus, aux mêmes positions temporelles. La façon d'obtenir ces coefficients de matrice à partir des paramètres décodés est bien connue de l'homme de l'art et ne sera pas décrite ici plus en détails.
Les distances séparant les ensembles de paramètres entre eux peuvent également avoir été codées et sont alors décodées en 307. De même, les positions temporelles des ensembles de paramètres peuvent également avoir été codées et sont ainsi obtenues au décodeur.
Enfin, une information concernant les positions temporelles des transitoires détectés lors du codage peut également être obtenue dans le bloc 307. Dans tous les cas, une étape d'obtention (Ti) des positions temporelles de débuts de sons transitoires dans la représentation temps-fréquence du signal audio réduit décodé est effectuée dans le module 315 du dispositif de décodage. Dans le cas où seules les valeurs des ensembles de paramètres sont décodés, les transitoires sont obtenus par une étape de détection identique à celle effectuée au codage et expliquée à cette occasion. Dans le cas où les distances temporelles entre deux ensembles de paramètres, sont décodés, une déduction des positions temporelles des transitoires est alors effectuée, connaissant l'algorithme mis en oeuvre pour déterminer ces ensembles de paramètres et les résolutions temporelles utilisées comme par exemple l'algorithme décrit en référence à la figure 5. Dans le cas, bien sûr où l'information sur les positions temporelles des transitoires est transmise, l'obtention de ces positions est alors immédiate, par simple lecture de l'information. A partir de ces informations, une étape (R,) d'application d'une résolution temporelle de transitoire inférieure à la résolution temporelle de base est effectuée par le module 314 pour obtenir les coefficients de la matrice d'augmentation à partir des ensembles de paramètres spatiaux décodés et pour les positions temporelles postérieures à celles des débuts de sons transitoires détectés. Cette étape utilise la même méthode que celle effectuée au codage, à partir des positions de transitoires. Ainsi, l'algorithme illustré à la figure 5 s'applique également au décodage dans ce mode de réalisation.
Les fenêtres d'estimation adaptées à la position des transitoires sont retrouvées de la même façon que lors du codage, par exemple par l'algorithme décrit en référence à la figure 6. A partir de ces fenêtres d'estimation, dans un mode de réalisation particulier, une étape d'application d'une discontinuité (disc.) pour les coefficients de la matrice d'augmentation, est effectuée en 314, à la position temporelle d'un transitoire détecté. En effet, à cette position, indiquant le début d'un son transitoire, on souhaite qu'à la restitution spatiale, le changement soudain de la scène sonore soit rétabli avec le plus de netteté possible. Ainsi, les coefficients de la matrice d'augmentation des canaux doivent révéler cette transition avec netteté.
La discontinuité introduite est donc égale à la différence entre la valeur du coefficient déterminé à partir de l'ensemble de paramètres estimé pour la fenêtre d'estimation incluant le transitoire et la valeur du coefficient déterminé à partir de l'ensemble de paramètres estimés par la fenêtre d'estimation précédant le transitoire.
Cette discontinuité est illustrée en référence aux figures 4a à 4c, par exemple aux positions temporelles des transitoires T1 et T2. On y voit en effet un saut entre la valeur du coefficient précédent la position temporelle d'un transitoire et celle du coefficient défini pour la position temporelle du transitoire.
Cette discontinuité introduite n'est alors pas perceptible puisqu'elle est masquée par le transitoire lui-même. A partir de cette discontinuité, une étape d'interpolation (Int) est effectuée par le module 313 qui interpole donc les coefficients de la matrice "upmix" sur les positions temporelles pour lesquelles aucun coefficient n'a été assigné.
L'interpolation dépend également de la présence ou non d'un transitoire. L'interpolation va permettre de ramener la matrice "upmix" au même échantillonnage temps-fréquence que le signal audio réduit décodé. Les figures 4a et 4b décrivent un mode de réalisation où une interpolation constante est effectuée à partir du coefficient de la matrice "upmix" défini par l'ensemble de paramètres de la position temporelle du transitoire. Cette interpolation constante est par exemple effectuée sur une longueur supérieure à Nmax, typiquement NT correspondant à la région spatiale RS3. La valeur interpolée est donc celle du coefficient défini par la discontinuité appliquée à la position temporelle du transitoire. Ensuite, une interpolation linéaire est réalisée jusqu'à la position temporelle du prochain coefficient, soit à une distance correspondant à la région spatiale RS4 des figures 4a et 4b. Dans une variante de réalisation illustrée à la figure 4c, l'interpolation constante du coefficient défini à la position temporelle du transitoire s'effectue sur une longueur de base de Nin-bu, correspondant à la région spatiale RS3 de la figure 4c et une interpolation linéaire est effectuée jusqu'au prochain coefficient, c'est-à-dire à une distance correspondant à la région spatiale RS4 de la figure 4c, ici NT. Ce mode de réalisation permet d'assurer généralement une meilleure reconstruction de la forme d'onde du signal audio. Le signal audio restitué est donc généralement plus proche du signal d'origine. Le délai de décodage est cependant plus important puisque dans ce mode de réalisation, il faut attendre le décodage de l'ensemble de paramètres suivant pour pouvoir interpoler. La figure 7 illustre à présent un exemple de réalisation matérielle d'un dispositif de codage ou de décodage selon un mode de réalisation de l'invention. Ces dispositifs peuvent être intégrés dans des équipements multimédia de type décodeur de salon, "set top box" ou lecteur de contenu audio ou vidéo. Ils peuvent également être intégrés dans des équipements de communication de type téléphone mobile ou passerelle de communication. Ce type de dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Dans le cas d'un dispositif de codage, le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de réduction de canaux du signal audio pour obtenir un signal réduit, d'estimation des paramètres spatiaux associés au signal audio multi-canal selon une résolution temporelle de base prédéterminée, de détection dans le signal audio réduit représenté dans le domaine temps-fréquence, de positions temporelles de débuts de sons transitoires, d'application d'une résolution temporelle de transitoire inférieure à la résolution temporelle de base pour déterminer les ensembles de paramètres spatiaux à partir des positions temporelles des débuts de sons transitoires détectés, et de codage des ensembles de paramètres ainsi déterminés. Typiquement, la description de la figure 3 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci. Dans le cas d'un dispositif de décodage, le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes d'obtention d'ensembles de paramètres spatiaux décodés selon une résolution temporelle de base prédéterminée, de détermination, à partir de ces paramètres spatiaux décodés, de coefficients d'une matrice d'augmentation de canaux à appliquer à un signal audio réduit décodé, d'obtention de positions temporelles de débuts de transitoires dans une représentation temps-fréquence du signal audio réduit décodé, d'application d'une résolution temporelle de transitoire inférieure à la résolution temporelle de base pour obtenir les coefficients de la matrice d'augmentation à partir des ensembles de paramètres spatiaux décodés, pour les positions temporelles postérieures à celles des débuts de sons transitoires détectés. Typiquement, la description de la figure 3 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci. La mémoire MEM enregistre de manière générale, toutes les données nécessaires à la mise en oeuvre du procédé de codage ou du procédé de décodage. Un tel dispositif comporte un module d'entrée E apte à recevoir un signal multi-canal (xl et x2) et à partir d'un signal audio réduit D d'obtenir des ensembles de paramètres Pi qui seront codés et transmis par le module de sortie S, en même temps que le signal réduit D.
Dans le cas d'un dispositif de décodage, le module d'entrée E reçoit à la fois le signal audio réduit D codé et les paramètres Pi codés pour obtenir en sortie, un signal multi- canal (x1 et x2).

Claims (12)

  1. REVENDICATIONS1. Procédé de codage paramétrique d'un signal audio multi-canal comportant une étape de réduction de canaux du signal audio pour obtenir un signal réduit et une étape d'estimation des paramètres spatiaux associés au signal audio multi-canal selon une résolution temporelle de base prédéterminée, caractérisé en ce qu'il comporte en outre les étapes suivantes: - détection (Ti) dans le signal audio réduit représenté dans le domaine temps- fréquence, de positions temporelles de débuts de sons transitoires; - application (Ri) d'une résolution temporelle de transitoire, inférieure à la résolution temporelle de base, pour déterminer les ensembles de paramètres spatiaux à partir des positions temporelles des débuts de sons transitoires détectés; et - codage(Cod.) des ensembles de paramètres ainsi déterminés.
  2. 2. Procédé de codage selon la revendication 1, caractérisé en ce que la résolution temporelle de transitoire est de l'ordre d'un ensemble de paramètres pour 100 ms de signal.
  3. 3. Procédé de codage selon la revendication 1, caractérisé en ce que la résolution temporelle de transitoire est fonction du type de transitoire détecté.
  4. 4. Procédé de codage selon la revendication 1, caractérisé en ce qu'il comporte une étape de détermination de fenêtres d'analyse à appliquer au signal audio pour estimer les ensembles de paramètres spatiaux, une fenêtre d'analyse précédant un transitoire détecté se terminant à la position temporelle précédent celle du transitoire et une fenêtre d'analyse comprenant le transitoire détecté commençant à partir de la position temporelle de la transition détectée.
  5. 5. Procédé de décodage paramétrique d'un signal audio multi-canal comportant une étape d'obtention d'ensembles de paramètres spatiaux décodés selon une résolution temporelle de base prédéterminée, de détermination, à partir de ces paramètres spatiaux décodés, de coefficients d'une matrice d'augmentation de canaux à appliquer à un signal audio réduit décodé, caractérisé en ce qu'il comporte en outre les étapes suivantes: - obtention (Ti) de positions temporelles de débuts de transitoires dans une représentation temps-fréquence du signal audio réduit décodé;- application (Ri) d'une résolution temporelle de transitoire, inférieure à la résolution temporelle de base, pour obtenir les coefficients de la matrice d'augmentation à partir des ensembles de paramètres spatiaux décodés, pour les positions temporelles postérieures à celles des débuts de sons transitoires détectés.
  6. 6. Procédé de décodage selon la revendication 5, caractérisé en ce que les coefficients de la matrice d'augmentation appliqués aux positions temporelles postérieures à la position temporelle d'un transitoire sont obtenus par interpolation constante sur une longueur déterminée par la région spatiale correspondant à la résolution temporelle de transitoire.
  7. 7. Procédé de décodage selon la revendication 5, caractérisé en ce que les coefficients de la matrice d'augmentation appliqués aux positions temporelles postérieures à la position temporelle d'un transitoire sont obtenus par interpolation constante sur une longueur déterminée par la région spatiale correspondant à la résolution temporelle de base puis par interpolation linéaire jusqu'à la position temporelle du prochain coefficient de la matrice d'augmentation.
  8. 8. Procédé de décodage selon la revendication 5, caractérisé en ce qu'une discontinuité est appliquée pour les coefficients de la matrice d'augmentation, à la position temporelle d'un début de transitoire détecté, la discontinuité étant déterminée par la différence entre la valeur du coefficient déterminé à partir de l'ensemble de paramètres estimé pour une fenêtre d'estimation incluant le transitoire et la valeur du coefficient déterminé à partir de l'ensemble de paramètres estimé par la fenêtre d'estimation précédent le transitoire.
  9. 9. Dispositif de codage paramétrique d'un signal audio multi-canal comportant un module de réduction de canaux (202) du signal audio multi-canal pour obtenir un signal audio réduit, un module d'estimation des paramètres spatiaux associés au signal audio multi-canal selon une résolution temporelle de base prédéterminée, caractérisé en ce qu'il comporte en outre: - un module de détection (203) dans le signal audio réduit représenté dans un domaine temps-fréquence, de positions de débuts de sons transitoires; - un module d'application (204) d'une résolution temporelle de transitoire, inférieure à la résolution temporelle de base, pour déterminer les ensembles de paramètres spatiaux à partir des positions temporelles des débuts de sons transitoires détectés; et- un module de codage (207) des ensembles de paramètres déterminés.
  10. 10. Dispositif de décodage paramétrique d'un signal audio multi-canal comportant un module d'obtention d'ensembles de paramètres spatiaux décodés (207) selon une résolution temporelle de base prédéterminée, un module de détermination, à partir de ces paramètres spatiaux décodés, de coefficients d'une matrice d'augmentation de canaux à appliquer à un signal audio réduit décodé, caractérisé en ce qu'il comporte en outre: - un module d'obtention (215) de positions de débuts de sons transitoires dans une représentation temps-fréquence du signal audio réduit décodé; - un module d'application d'une résolution temporelle de transitoire, inférieure à la résolution temporelle de base, pour obtenir les coefficients de la matrice d'augmentation à partir des ensembles de paramètres spatiaux décodés, pour les positions temporelles postérieures à celles des débuts de sons transitoires détectés.
  11. 11. Programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de codage selon l'une des revendications 1 à 4, lorsque ces instructions sont exécutées par un processeur.
  12. 12. Programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de décodage selon l'une des revendications 5 à 8, lorsque ces instructions sont exécutées par un processeur.25
FR1255033A 2012-05-31 2012-05-31 Codage/decodage parametrique d'un signal audio multi-canal, en presence de sons transitoires Pending FR2990551A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1255033A FR2990551A1 (fr) 2012-05-31 2012-05-31 Codage/decodage parametrique d'un signal audio multi-canal, en presence de sons transitoires

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1255033A FR2990551A1 (fr) 2012-05-31 2012-05-31 Codage/decodage parametrique d'un signal audio multi-canal, en presence de sons transitoires

Publications (1)

Publication Number Publication Date
FR2990551A1 true FR2990551A1 (fr) 2013-11-15

Family

ID=46785612

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1255033A Pending FR2990551A1 (fr) 2012-05-31 2012-05-31 Codage/decodage parametrique d'un signal audio multi-canal, en presence de sons transitoires

Country Status (1)

Country Link
FR (1) FR2990551A1 (fr)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004008806A1 (fr) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Codage audio

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004008806A1 (fr) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Codage audio

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BREEBAART JEROEN ET AL: "MPEG Surround ÃÂ Â the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding", AES CONVENTION 122; MAY 2007, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 1 May 2007 (2007-05-01), XP040508156 *
JULIEN CAPOBIANCO ET AL: "Dynamic strategy for window splitting, parameters estimation and interpolation in spatial parametric audio coders", 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2012) : KYOTO, JAPAN, 25 - 30 MARCH 2012 ; [PROCEEDINGS], IEEE, PISCATAWAY, NJ, 25 March 2012 (2012-03-25), pages 397 - 400, XP032227144, ISBN: 978-1-4673-0045-2, DOI: 10.1109/ICASSP.2012.6287900 *

Similar Documents

Publication Publication Date Title
EP2691952B1 (fr) Allocation par sous-bandes de bits de quantification de paramètres d&#39;information spatiale pour un codage paramétrique
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2898707B1 (fr) Calibration optimisee d&#39;un systeme de restitution sonore multi haut-parleurs
EP2002424B1 (fr) Dispositif et procede de codage scalable d&#39;un signal audio multi-canal selon une analyse en composante principale
EP3427260B1 (fr) Codage et décodage optimisé d&#39;informations de spatialisation pour le codage et le décodage paramétrique d&#39;un signal audio multicanal
EP2304721B1 (fr) Synthese spatiale de signaux audio multicanaux
FR2966634A1 (fr) Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
FR3007564A3 (fr) Decodeur audio avec metadonnees d&#39;informations de programme
EP2319037B1 (fr) Reconstruction de données audio multicanal
WO2011045548A1 (fr) Codage/decodage parametrique bas debit optimise
EP2005420A1 (fr) Dispositif et procede de codage par analyse en composante principale d&#39;un signal audio multi-canal
WO2017103418A1 (fr) Traitement de réduction de canaux adaptatif pour le codage d&#39;un signal audio multicanal
EP3427259A1 (fr) Procédé et appareil pour augmenter la stabilité d&#39;un paramètre de différence de temps inter-canaux
FR2990551A1 (fr) Codage/decodage parametrique d&#39;un signal audio multi-canal, en presence de sons transitoires
EP2126905B1 (fr) Procédés et dispositifs d&#39;encodage et décodage de signaux audio, signal audio encodé
EP4184505A1 (fr) Spatialisation sonore avec effet de salle, optimisee en complexite
FR2980619A1 (fr) Codage/decodage parametrique d&#39;un signal audio multi-canal, en presence de sons transitoires
WO2023232823A1 (fr) Titre: codage audio spatialisé avec adaptation d&#39;un traitement de décorrélation
WO2009081002A1 (fr) Traitement d&#39;un flux audio 3d en fonction d&#39;un niveau de presence de composantes spatiales
FR3018942A1 (fr) Estimation d&#39;un bruit de codage introduit par un codage en compression de type micda
WO2014199055A1 (fr) Controle du traitement d&#39;attenuation d&#39;un bruit de quantification introduit par un codage en compresssion