EP2539892B1 - Compression de flux audio multicanal - Google Patents

Compression de flux audio multicanal Download PDF

Info

Publication number
EP2539892B1
EP2539892B1 EP11708920.1A EP11708920A EP2539892B1 EP 2539892 B1 EP2539892 B1 EP 2539892B1 EP 11708920 A EP11708920 A EP 11708920A EP 2539892 B1 EP2539892 B1 EP 2539892B1
Authority
EP
European Patent Office
Prior art keywords
sources
source
space
spatial
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP11708920.1A
Other languages
German (de)
English (en)
Other versions
EP2539892A1 (fr
Inventor
Adrien Daniel
Rozenn Nicol
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of EP2539892A1 publication Critical patent/EP2539892A1/fr
Application granted granted Critical
Publication of EP2539892B1 publication Critical patent/EP2539892B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Description

  • La présente invention se rapporte de manière générale à la compression de flux audio multicanal - c'est-à-dire comprenant une pluralité de signaux audio - destinés à être traités par un système audio comprenant une pluralité de haut-parleurs afin de reproduire une scène sonore spatialisée. En particulier, les moyens de compression s'appliquent aux flux audio encodés selon un format de codage multicanal de type 5.1, 6.1, 7.1, 10.2, 22.2, ou encore selon un format de codage ambiophonique communément désigné par l'acronyme anglo-saxon « HOA » pour «Higher Order Ambisonics ». Le format d'encodage ambiophonique HOA est notamment détaillé dans le document Daniel, J., Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia. 2000, Thèse de l'Université Pierre et Marie Curie (Paris VI): Paris. La compression opérée sur les flux audio peut notamment être introduite préalablement à une étape de transmission, de diffusion, ou de stockage par exemple sur un disque optique.
  • Pour réduire la quantité d'information nécessaire pour représenter un flux audio multicanal, il est possible de coder séparément les différents signaux constitutifs dudit flux selon un schéma conventionnel de compression de flux audio, exploitant généralement les propriétés de masquage fréquentiel observées dans la perception d'un signal sonore par un auditeur. On peut citer à titre d'exemple le codage « MPEG-1/2 Audio Layer 3 », plus généralement désigné par son acronyme MP3, ou encore le codage audio avancé ou « AAC » pour « Advanced Audio Coding » en anglais. Les signaux étant considérés séparément, les éventuelles redondances entre les signaux sont peu exploitées. Cette solution est adaptée à l'encodage de flux audio multicanaux à haut débit, typiquement ayant un débit supérieur ou égal à 128 kbit/s par canal dans le cas du MP3, 64 kbits/s par canal dans le cas de l'AAC. Ainsi, l'encodage séparé des signaux d'un flux n'est pas adapté à la production de flux, dont le débit est de l'ordre typiquement de 64 kbits/s pour 5 à 7 canaux, sans réduction significative du niveau de qualité sonore.
  • Une autre alternative possible consiste à mélanger les différents flux pour obtenir un signal mono ou stéréo. Cette technique est notamment employée dans le codage « MPEG Surround » en bas débit, c'est-à-dire dont le débit est de l'ordre typiquement de 64 kbits/s pour 5 à 7 canaux. Cette opération est conventionnellement qualifiée de « downmix » en anglais. Le signal mono ou stéréo peut alors être codé selon un schéma conventionnel de compression pour obtenir un flux compressé. Des informations spatiales sont en outre calculées puis ajoutées au flux compressé. Ces informations spatiales sont par exemple le retard entre deux canaux (en anglais, « ICTD » pour « Inter-Channei Time Difference »), la différence d'énergie entre deux canaux ( en anglais « ICLD » pour « Inter-Channel Level Difference »), la corrélation entre deux canaux (en anglais « ICC » pour « Inter-Channel Coherence »).
  • Le codage du signal mono ou stéréo issu de l'opération de "downmix" est effectué en se basant sur l'hypothèse inadaptée d'une perception monophonique ou stéréophonique et ne prend donc pas en compte les caractéristiques propres à une perception spatiale du signal multi-canal, notamment dans le cas où le flux audio comporte un nombre important de canaux, typiquement supérieur ou égal à 7.
  • Ainsi, la dégradation inaudible sur le signal issu de l'opération de "downmix" peut devenir audible sur un dispositif de restitution multi haut-parleurs du flux multi-canal résultant du traitement de "upmix", notamment en raison du phénomène de démasquage binaural, décrit notamment dans le document Saberi, K., Dostal, L., Sadralodabai, T., and Bull, V., "Free-field release from masking," Journal of the Acoustical Society of America, vol. 90, 1991, pp. 1355-1370.
  • Le document WO2009/067741 décrit un procédé de codage de représentations paramétriques de champs sonores. Le champ de pression échantillonné temporellement et spatialement dans une zone cible tridimensionnelle peut être premièrement paramétré par une décomposition par des fonctions d'une base orthogonale et deuxièmement paramétré en utilisant les corrélations spatiales et temporelles entre les paramètres du premier jeu de paramètres.
  • Il existe donc un besoin pour compresser plus efficacement des flux audio spatialisés tout en conservant une qualité sonore perçue au moins équivalente aux techniques de l'état de l'art.
  • La présente invention vise à améliorer la situation.
  • Selon un premier aspect, il est proposé un procédé de compression d'un flux audio comprenant une pluralité de signaux. Le flux audio décrit une scène sonore produite par une pluralité de sources dans un espace. Le procédé comporte les étapes suivantes :
    • à partir du flux audio, identification des sources ;
    • détermination pour chacune des sources identifiées d'une bande de fréquences, d'un niveau d'énergie et d'une position spatiale dans l'espace;
    • détermination, pour chaque source identifiée, d'une résolution spatiale correspondant à une variation de position de ladite source dans l'espace la plus faible qu'un auditeur est susceptible de percevoir, en fonction :
      • ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite source ; et,
      • ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale des autres sources identifiées ;
    • génération d'un flux compressé comportant les informations nécessaires pour restituer chaque source identifiée avec au moins la résolution spatiale correspondante
  • Le procédé de compression propose une solution pour exploiter les propriétés psychoperceptives et cognitives de perception audio spatialisée d'un auditeur pour compresser le flux audio multicanal. Parmi ces propriétés, on peut citer le masquage spatial d'une source prédominante sur les autres sources, réduisant la capacité d'un auditeur à localiser ces dernières. sonores non exploitées par le système auditif de l'auditeur, sans présenter de risques d'introduction d'artefacts audibles dans le système de restitution spatialisée, contrairement aux techniques de compression de l'art antérieur.
  • En outre, le procédé selon l'invention permet d'exploiter les interactions entre les différentes sources, puisque la résolution spatiale de chaque source est déterminée, non seulement en fonction des caractéristiques de ladite source, mais encore en fonction de celles des autres sources de l'espace. En comparaison des autres techniques de compression traitant chaque signal séparément, le taux de compression obtenu s'avère potentiellement plus important.
  • Il est possible d'identifier, dans l'espace, seulement les sources audibles par un auditeur, ce qui permet de réduire encore ainsi les informations à coder. Par exemple, à l'aide d'une analyse de masquage énergétique simultané prenant en compte le démasquage binaural, un sous-ensemble des sources sonores est répertorié. En effet, les sources non-audibles n'ont pas nécessairement besoin d'être considérées dans la mise en oeuvre du modèle psycho-acoustique de masquage spatial. Ainsi, la complexité, au sens algorithmique du terme, du procédé peut être diminuée.
  • Dans un mode de réalisation, les signaux du flux audio comprennent des informations représentant la scène sonore dans une base d'harmoniques sphériques. Alternativement, le procédé peut comporter une étape de transposition des informations comprises dans les signaux du flux audio représentant la scène sonore dans une base d'harmoniques sphériques, permettant ainsi de convertir le flux.
  • Dans ce mode de réalisation, le flux compressé peut également être généré en subdivisant l'espace en sous-espaces, et en tronquant, pour chacun des sous-espaces, un ordre de représentation des signaux dans la base des harmoniques sphériques, jusqu'à obtenir une résolution spatiale sensiblement égale à la valeur maximale des résolutions spatiales associées aux sources présentes dans le sous-espace considéré.
  • La troncature de l'ordre de représentation des signaux permet de diminuer la résolution spatiale de la représentation des signaux. Dans le cas d'une représentation HOA, la scène sonore peut être décrite par un ensemble de signaux correspondant aux coefficients de la décomposition de l'onde acoustique sur la base des harmoniques sphériques. Cette représentation possède la propriété de scalabilité, au sens où les coefficients sont hiérarchisés et que les coefficients des premiers ordres contiennent une description complète de la scène sonore. Les coefficients des ordres supérieurs ne font que préciser l'information spatiale. La troncature de l'ordre de représentation revient en ce cas à éliminer les composantes des ordres supérieurs jusqu'à atteindre la résolution déterminée.
  • Dans ce mode de réalisation, la subdivision de l'espace en sous-espaces peut être dynamique au cours du temps. Une subdivision dynamique permet de regrouper dans un même sous-espace des sources adjacentes de résolutions spatiales perçues de manière similaire.
  • Dans un mode particulier de réalisation, les différentes étapes des procédés de compression sont déterminées par des instructions de programmes d'ordinateurs.
  • En conséquence, l'invention vise aussi des programmes d'ordinateur sur un support d'informations, ces programmes étant susceptibles d'être mis en oeuvre respectivement dans un ordinateur, ces programmes comportant respectivement des instructions adaptées à la mise en oeuvre des étapes des procédés de compression qui viennent d'être décrits.
  • Ces programmes peuvent utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
  • L'invention vise aussi un support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus.
  • Le support d'informations peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy disc) ou un disque dur.
  • D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
  • Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution des procédés en question.
  • Selon un deuxième aspect, il est proposé un dispositif de compression de flux audio multicanal, adapté à la mise en oeuvre du procédé selon le premier aspect. Le dispositif comprend une entrée pour recevoir un flux audio multicanal décrivant une scène sonore produite par une pluralité de sources dans un espace, et une sortie pour délivrer un flux compressé. Le dispositif comporte en outre :
    • une unité d'identification des sources, couplée à l'entrée, adaptée pour identifier les sources, à partir du flux, et pour déterminer pour chacune des sources identifiées une bande de fréquence, un niveau d'énergie et une position spatiale dans l'espace ;
    • une unité de détermination de résolution spatiale, couplée à l'unité d'identification, adaptée pour déterminer, pour chaque source identifiée, une résolution spatiale correspondant à une variation de position de ladite source dans l'espace la plus faible qu'un auditeur est susceptible de percevoir, en fonction
      • ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite source ; et,
      • ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale des autres sources identifiées ;
    • une unité de génération du flux compressé, couplée à l'unité de détermination de résolution spatiale, adaptée pour former le flux compressé à partir des informations nécessaires pour restituer chaque source identifiée avec au moins la résolution spatiale correspondante, et délivrer le flux compressé sur la sortie.
  • L'unité d'identification peut être configurée pour identifier seulement les sources audibles.
  • Dans un mode de réalisation, l'unité de génération peut être adaptée pour produire le flux compressé à partir dès signaux lorsque ces derniers comportent des informations représentant la scène sonore dans une base d'harmoniques sphériques en :
    • subdivisant l'espace en sous-espaces, et
    • tronquant, pour chacun des sous-espaces, un ordre de représentation des signaux dans la base des harmoniques sphériques, jusqu'à obtenir une résolution spatiale sensiblement égale à la valeur maximale des résolutions spatiales associées aux sources présentes dans le sous-espace considéré.
  • L'unité de génération peut être configurée pour adapter la subdivision de l'espace en sous-espaces au cours du temps.
  • Dans un mode de réalisation, le dispositif comprend en outre une unité de conversion adaptée pour transposer des informations comprises dans les signaux du flux audio dans une base d'harmoniques sphériques.
  • D'autres aspects, buts et avantages de l'invention apparaîtront à la lecture de la description d'un de ses modes de réalisation.
  • L'invention sera également mieux comprise à l'aide des dessins, sur lesquels :
    • la figure 1 illustre, par un synoptique, les étapes principales du procédé de compression appliqué à un flux audio multicanal ;
    • la figure 2 illustre, par un synoptique, les étapes d'un mode de réalisation du procédé de compression, dans une base d'harmoniques sphériques, par exemple dans le domaine HOA, appliqué à un flux audio multicanal;
    • la figure 3 montre, par un schéma de principe, un dispositif de compression de flux audio multicanal ;
    • la figure 4 montre, par un schéma de principe, un dispositif de compression de flux audio multicanal, selon un autre mode de réalisation ;
    • la figure 5 illustre, par un schéma de principe, un dispositif de traitement pour mettre en oeuvre le procédé de compression.
  • Dans la présente description, on considère une scène sonore SCE, c'est-à-dire un champ acoustique réel, formé par des signaux sonores émis par une pluralité de sources SR, ou un champ acoustique synthétique obtenu par spatialisation artificielle de signaux monophoniques. Le signal émis par une source sonore ou source peut être représenté par une distribution spatiale d'énergie dans une bande de fréquences. Lorsque la distribution spatiale de l'énergie est corrélée et contigüe dans l'espace, la source correspondante est alors qualifiée de source étendue, dans le cas contraire la source est dite ponctuelle. La scène sonore est captée par un nombre limité de capteurs sonores, pour former un flux F audio multicanal comportant une pluralité de signaux S. Alternativement la scène peut être synthétisée par spatialisation de signaux monophoniques. Le flux F peut être subdivisé en trames T temporelles. Le flux F peut être considéré comme une description ou représentation au cours du temps de la scène sonore SCE. Les composantes spatiales de la scène sonore SCE peuvent être représentées dans le domaine HOA par des composantes spatiales projetés dans une base d'harmoniques sphériques. On définit par les termes encodage ambiophonique (traduction du mot anglais "ambisonic") l'étape consistant à obtenir ces composantes spatiales du champ dans la base d'harmoniques sphériques. Cet encodage permet ainsi de représenter la scène sonore sous forme de signaux ambiophoniques.
  • Sur la figure 1 sont représentées les étapes principales du procédé de compression appliqué au flux F.
  • Dans une étape 10, par analyse spatio-fréquentielle des signaux S, on identifie les sources SR, et on détermine, pour chaque source SR identifiée, une bande de fréquences de la source ou la fréquence centrale de ladite bande de fréquence, un niveau d'énergie et une position spatiale.
  • Pour identifier les sources, on pourra notamment procéder à une analyse temps/fréquence de chacun des signaux S constituant le flux F pour extraire un niveau d'énergie par bande de fréquences pour chaque trame T. Des résultats d'une analyse temps/fréquence réalisée préalablement à la mise en oeuvre du procédé selon l'invention, par exemple lors d'une compression éventuelle des signaux S par des techniques de masquage fréquentiel, pourront également être exploités au cours de l'étape 10 pour identifier les sources SR.
  • Au cours de l'étape 10, on associe à chaque source SR identifiée les grandeurs suivantes : sa bande de fréquences de la source ou la fréquence centrale de ladite bande de fréquence, son niveau d'énergie et sa position spatiale. En particulier, la bande de fréquences de la source ou la fréquence centrale de ladite bande de fréquence pourra être obtenue directement, suite à l'analyse temps/fréquence mise en oeuvre pour identifier chaque source SR.
  • Des méthodes d'identification ou de séparation de sources adaptées sont décrites dans le document Arberet, S. "Estimation robuste et apprentissage aveugle de modèles pour la séparation de sources sonores", Thèse de l'Université de Rennes 1, 2008, ou des méthodes de formation de faisceau, comme celle décrite dans le document Veen, B. D. V. & Buckley, K. M. "Beamforming: a versatile approach to spatial filtering" IEEE ASSP Magazine, 1988, 4-24. Si la source SR considérée est une source étendue, la position spatiale peut correspondre au barycentre spatial de ladite source étendue, et une mesure de la largeur de l'étendue spatiale de ladite source est également réalisée. De manière optionnelle, il est possible de ne sélectionner qu'un sous-ensemble des sources SR identifiées au cours de l'étape 10. Par exemple, ne seront sélectionnées que les sources SR audibles pour un auditeur moyen. Pour déterminer, si une source est audible, on pourra notamment mettre en oeuvre une analyse de masquage énergétique simultané prenant en compte le démasquage binaural, comme celle décrite notamment dans le document Saberi, K., Dostal, L., Sadralodabai, T., and Bull, V., "Free-field release from masking," Journal of the Acoustical Society of America, vol. 90,1991, pp. 1355--1370.
  • Dans une étape 20, on calcule une résolution spatiale RS pour chacune des sources SR identifiée au cours de l'étape 10, par mise en oeuvre d'un modèle psycho-acoustique. La résolution spatiale RS calculée pour une source correspond à une résolution optimale au-delà de laquelle un auditeur moyen ne perçoit pas une augmentation significative du niveau de précision dans la localisation de ladite source. La résolution spatiale RS correspond également à une dégradation spatiale maximale applicable à la source SR correspondante, sans dégradation sensible des capacités d'un auditeur à localiser ladite source SR, en présence des autres sources SR.
  • A titre d'exemple non limitatif, si la résolution spatiale RS est égale à 1 degré pour une des sources SR, on considérera que l'auditeur n'est pas en mesure de localiser ladite source SR avec une précision supérieure à 1 degré.
  • En fonction des caractéristiques de la source SR considérée, le modèle psycho-acoustique retourne une résolution spatiale adaptée. Ainsi à chaque source SR correspond une résolution spatiale RS propre. La résolution spatiale RS d'une des sources SR peut également être définie comme l'angle minimum audible associé à ladite source RS, au sens par exemple de l'expérience de Mills de 1958, présentée dans le document A.W. Mills, "On the Minimum Audible Angle", The Journal of the Acoustical Society of America, vol. 30, Apr. 1958, pp. 237-246. D'après cette définition, l'angle minimum audible de la source SR est sensiblement équivalent à la mesure réalisée, dans les mêmes conditions que celles décrites dans l'expérience de Mills, pour une source cible au sens de A.W. Mills, ayant les mêmes caractéristiques que la source RS.
  • La résolution spatiale RS associée à l'une des sources SR est fonction notamment des paramètres suivants :
    • la fréquence centrale de la bande de fréquences de la source SR ;
    • le niveau d'énergie de la source SR ;
    • la position spatiale de la source SR ;
    • la fréquence centrale de la bande de fréquences de chacune des autres sources SR ;
    • le niveau d'énergie de chacune des autres sources SR ;
    • la position spatiale de chacune des autres sources SR.
  • Le modèle psycho-acoustique peut donc être décrit par une fonction f(sc, sd1, sd2, ..., sdN), où sc représente la source SR pour laquelle on souhaite obtenir la résolution spatiale RS, et sd1, sd2, ..., sdN représente tout ou partie des autres sources SR. Les sources SR peuvent chacune être décrites par un quadruplet {fc, I, θ, ϕ}, où fc représente la fréquence centrale, I le niveau d'énergie, θ la position angulaire en azimut, et ϕ la position angulaire en élévation.
  • Le modèle psycho-acoustique peut en outre être construit à partir de modèles décrivant les capacités d'un auditeur en fonction des paramètres précédemment décrits, et/ou à partir de résultat de tests. Pour la construction du modèle, il est en outre possible de prendre l'hypothèse que l'auditeur fait toujours face à la source SR pour laquelle on calcule la résolution spatiale RS, cas dans lequel la capacité de l'auditeur à séparer les sources est maximale.
  • Dans une étape 30, on génère un flux compressé Fc comportant des signaux compressés Sc, de sorte que le flux compressé Fe comporte les informations nécessaires à la restitution de chaque source SR avec la résolution spatiale RS correspondante, calculée au cours de l'étape 20. Cela revient également à générer le flux compressé Fc en réduisant la quantité d'informations spatiales contenue initialement dans le flux F pour chaque source SR, jusqu'à conserver les informations nécessaires à la restitution de chaque source SR avec au moins la résolution spatiale RS correspondante. Il convient donc de noter que le flux compressé Fc comporte en conséquence une quantité d'informations inférieure au flux F.
  • A titre d'exemple non limitatif, si la résolution spatiale RS est égale à 1 degré pour une des sources SR, on considérera que ladite source SR devra être encodée dans le flux compressé Fc de sorte à permettre lors de sa restitution par un système audio à un auditeur moyen de localiser la source SR avec une précision de 1 degré. D'autre part, on notera dans cet exemple, qu'encoder la source SR avec une résolution supérieure, par exemple 0,5 degré, n'apportera pas un gain sensible dans la capacité de l'auditeur à localiser avec une précision supérieure la source SR. Par exemple, si le flux F comprend les informations nécessaires pour atteindre une résolution de 0,5 degré pour la source SR, le flux compressé Fc comportera seulement les informations nécessaires pour restituer la source SR avec une précision de 1 degré.
  • La figure 2 illustre les étapes d'un mode de réalisation du procédé de compression, dans une base d'harmoniques sphériques, par exemple dans le domaine HOA, appliqué au flux F.
  • Le procédé peut comporter une étape 100 de transformation, dans une base des harmoniques sphériques, du flux F. Cette étape 100 est optionnelle si le flux F est déjà encodé dans une base des harmoniques sphériques. Typiquement, cette transformation peut correspondre à une projection des informations comprises dans les signaux S dans une base d'harmoniques sphériques.
  • Dans un mode de réalisation de l'étape 100, on simule une onde acoustique correspondant à celle qui serait obtenue par un système de restitution audio alimenté par les signaux S du flux F. L'onde acoustique simulée est alors décomposée sur une base des harmoniques sphériques, par projection dans cette base, ou par simulation d'une captation sonore synthétique par un dispositif d'encodage HOA comme une sphère de microphones. Cette dernière possibilité est par exemple décrite dans le document Moreau, S. "Etude et réalisation d'outils avancés d'encodage spatial pour la technique de spatialisation sonore Higher Order Ambisonics: microphone 3D et contrôle de la distance" Université du Maine, Le Mans, France, 2006. On obtient ainsi des coefficients C de décomposition formant des signaux SHOA correspondant aux signaux S dans un format d'encodage HOA.
  • Le procédé comporte une étape 110 d'analyse temps/fréquence des signaux SHOA pour extraire, pour chaque signal SHOA, pour chaque trame T, et pour chaque bande de fréquences, un niveau d'énergie E.
  • Le procédé comporte une étape 120 au cours de laquelle on calcule, pour chaque trame T et pour chaque bande de fréquences, une projection spatiale Pr des niveaux d'énergie E sur une sphère. On obtient ainsi un modèle permettant de déterminer le niveau d'énergie E en fonction de la direction, pour chaque trame T et pour chaque bande de fréquences. On pourra notamment calculer la projection spatiale Pr des niveaux d'énergie E en procédant à une transformation inverse des signaux SHOA dans un domaine de variables d'espace. Par exemple, on reconstruit une onde acoustique correspondant aux signaux SHOA par combinaison linéaire des harmoniques sphériques pondérées par les valeurs des composantes HOA. On obtient ainsi une évolution spatiale de l'onde acoustique sur une sphère. La projection spatiale Pr des niveaux d'énergie est alors construite en échantillonnant spatialement la sphère, le nombre d'échantillons choisi étant fonction de la résolution souhaitée.
  • Le procédé comporte une étape 130 au cours de laquelle on identifie, pour chaque trame T, les sources SR, leur position spatiale et leur énergie respective. Pour cela, on recherche toutes les directions de la projection spatiale Pr pour lesquelles le niveau d'énergie E est non nul. Puis, pour chaque direction dans laquelle le niveau d'énergie est non nul, on calcule la corrélation avec les niveaux d'énergie présents dans les directions voisines. Par exemple, pour chaque bande de fréquences, on détermine les fluctuations d'énergie dans le temps, éventuellement en tenant compte des trames T précédant et/ou suivant ladite trame T, pour chaque direction. Pour augmenter la précision temporelle, il est possible de calculer la corrélation sur des plages temporelles se recouvrant, puis de sous-échantillonner les résultats ainsi obtenus pour la bande de fréquences.
  • Si le niveau d'énergie est corrélé pour un ensemble de directions, on identifie une source étendue dans lesdites directions, et on calcule le niveau d'énergie correspondant en additionnant les niveaux d'énergies associés à l'ensemble des directions. Si le niveau d'énergie n'est pas corrélé avec les niveaux d'énergie présents dans les directions voisines, on identifie une source et le niveau d'énergie correspond à celui donné par la projection spatiale Pr dans cette direction. A l'issue de l'étape 130, il est ainsi possible de décrire la scène sonore SCE sous la forme d'un ensemble de sources SR dont on connaît la position, l'étendue spatiale et l'énergie.
  • Dans une étape optionnelle 135, on sélectionne un sous-ensemble des sources SR identifiées au cours de l'étape 130. Par exemple, ne seront sélectionnées que les sources SR audibles pour un auditeur moyen. Pour déterminer, si une source est audible, on pourra notamment mettre en oeuvre une analyse de masquage énergétique simultané prenant en compte le démasquage binaural.
  • Dans une étape 140, on détermine, à l'aide d'un modèle psycho-acoustique de masquage spatial, pour chaque source SR identifiée au cours de l'étape 130 et éventuellement sélectionnée au cours de l'étape 135, la résolution spatiale RS correspondante. Typiquement, pour une trame T, on évalue le pouvoir masquant dans chaque région de l'espace et dans chaque bande de fréquences de chaque source SR identifiée sur les autres sources SR identifiées. Plus spécifiquement, pour chaque source SR identifiée, en fonction notamment de sa position, de la bande de fréquences, et de son niveau d'énergie, on détermine la résolution spatiale RS avec laquelle la source SR est perçue.
  • Dans une étape 150, on génère le flux compressé Fc comportant les signaux compressés Sc, de sorte que le flux compressé Fc comprenne les informations nécessaires à la restitution de chaque source SR avec au moins la résolution spatiale RS correspondante, calculée au cours de l'étape 140. Cette opération revient à compresser le flux F en adaptant la résolution spatiale des signaux SHOA en fonction de la résolution spatiale RS obtenue pour chaque source SR identifiée. Dans un mode de réalisation de l'étape 150, on décompose l'espace en un ensemble de sous-espaces, de sorte que l'union des sous-espaces soit sensiblement égale à l'espace. Pour chacun de ces sous-espaces, on construit une sous-base d'harmoniques sphériques. Par exemple, une méthode de construction adéquate peut être celle décrite dans le document Pomberger H. & Zotter F. "An Ambisonics format for flexible playback layouts" Ambisonics Symposium 2009, 2009. Les fonctions propres de la base d'harmoniques sphériques de l'espace complet sont recombinées pour former, pour chacun des sous-espaces, une sous-base de représentation de ce sous-espace uniquement. A partir des signaux obtenus à l'étape 110, pour une des trames T donnée et une bande de fréquences donnée, en projetant l'énergie dans cette bande de fréquences sur chacune des sous-bases de représentation des sous-espaces, on obtient un ensemble de représentations supplémentaires de la représentation d'origine, chacune restreinte à un des sous-espaces. La décomposition de l'espace peut soit être statique, soit varier d'une trame T à l'autre. Une décomposition dynamique présente l'avantage de pouvoir regrouper dans un même sous-espace des sources adjacentes dont la résolution spatiale perçue est sensiblement égale. On tronque alors, pour chacun des sous-espaces, l'ordre de représentation dans la base des harmoniques sphériques des signaux SHOA, jusqu'à obtenir une résolution spatiale correspondant à la valeur maximale des résolutions spatiales RS associées aux sources SR présentes dans le sous-espace considéré.
  • Il est également possible, en plus de la dégradation de résolution spatiale dans le flux compressé Fc par rapport au flux F, de compresser le flux compressé Fc en exploitant les informations de masquage énergétique. Toutefois, et pour prendre en compte les effets de démasquage binaural, il convient de se placer dans le cas le plus défavorable en termes de masquage en considérant :
    • d'une part le seuil de masquage le plus bas parmi ceux de toutes les sources SR en présence dans le sous-espace considéré. ;
    • et de façon conjointe, pour chaque source SR, son seuil de masquage le plus bas du fait de sa position spatiale dans le sous-espace considéré.
  • La figure 3 montre, sur un schéma de principe, un dispositif 200 de compression de flux audio multicanal, selon un mode de réalisation. Le dispositif 200 est notamment adapté à la mise en oeuvre du procédé selon l'invention.
  • Comme représenté sur la figure 3, le dispositif 200 comprend une entrée 210 pour recevoir le flux F audio multicanal décrivant la scène sonore SCE produite par une pluralité de sources SR dans un espace. Le dispositif 200 délivre sur une sortie 260 le flux compressé Fc.
  • Le dispositif 200 comprend une unité d'identification 220 des sources SR couplée à l'entrée 210 de sorte à recevoir le flux F. L'unité d'identification 220 est adaptée pour identifier les sources SR à partir du flux F, et pour déterminer pour chacune des sources SR identifiées une bande de fréquence, un niveau d'énergie et une position spatiale dans l'espace. L'unité d'identification 220 délivre, sur une sortie, la bande de fréquence, le niveau d'énergie et la position spatiale dans l'espace de chaque source SR identifiée. En particulier, l'unité d'identification 220 peut être configurée pour identifier seulement les sources SR audibles.
  • Le dispositif 200 comporte une unité de détermination 230 de la résolution spatiale RS, couplée à la sortie de l'unité d'identification 220, correspondant à la variation de position de ladite source dans l'espace la plus faible qu'un auditeur est susceptible de percevoir. L'unité de détermination 230, à l'aide par exemple d'un modèle psycho-acoustique 240, fournit sur une sortie la résolution spatiale RS pour chaque source SR identifiée, en fonction :
    • ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite source ; et,
    • ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale d'au moins un sous-ensemble des autres sources identifiées.
  • Le dispositif 200 comporte une unité de génération 250, couplée à la sortie de l'unité d'identification 220, adaptée pour former le flux compressé FC à partir des informations nécessaires pour restituer chaque source SR identifiée avec au moins la résolution spatiale RS correspondante.
  • La figure 4 montre, sur un schéma de principe, un dispositif 300 de compression de flux audio multicanal, selon un mode de réalisation. Comme représenté sur la figure 4, le dispositif 300 comprend une entrée 310 pour recevoir le flux F audio multicanal décrivant la scène sonore SCE produite par une pluralité de sources SR dans un espace. Le dispositif 300 délivre sur une sortie 390 le flux FC compressé.
  • Le dispositif 300 peut comprendre une unité de conversion 320 adaptée pour transposer des informations comprises dans les signaux S du flux F audio représentant la scène sonore SCE dans une base d'harmoniques sphériques, lorsque le flux F comprend des signaux S destinés à alimenter directement des haut-parleurs, comme par exemple des signaux S de type 5.1, 6.1, 7.1, 10.2, 22.2. L'unité de conversion 320 délivre en sortie des signaux SHOA décrits dans une base d'harmoniques sphériques.
  • Le dispositif 300 comporte une unité d'identification 330 des sources SR couplée à la sortie de l'unité de conversion 320 pour recevoir les signaux SHOA. L'unité d'identification 330 est adaptée pour identifier les sources SR à partir du flux F, et pour déterminer pour chacune des sources SR identifiées une bande de fréquence, un niveau d'énergie et une position spatiale dans l'espace. Pour cela, l'unité d'identification 330 est configurée pour calculer une projection spatiale des niveaux d'énergie des sources sur une sphère et pour rechercher les directions de la projection spatiale dont le niveau d'énergie est non nul. L'unité d'identification 330 délivre, sur une sortie, la bande de fréquence, le niveau d'énergie et la position spatiale dans l'espace de chaque source SR identifiée. En particulier, l'unité d'identification 330 peut être configurée pour identifier seulement les sources SR audibles.
  • Le dispositif 300 comporte une unité de détermination 340 de la résolution spatiale RS, couplée à la sortie de l'unité d'identification 330, correspondant à la variation de position de ladite source dans l'espace la plus faible qu'un auditeur est susceptible de percevoir. L'unité de détermination 340, à l'aide par exemple d'un modèle psycho-acoustique 350, délivre sur une sortie la résolution spatiale RS pour chaque source SR identifiée, en fonction :
    • ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite source ; et,
    • ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale d'au moins un sous-ensemble des autres sources identifiées.
  • Le dispositif 300 comporte une unité de génération 360, couplée à la sortie de l'unité d'identification 340, adaptée pour former le flux compressé FC à partir des informations nécessaires pour restituer chaque source SR identifiée avec au moins la résolution spatiale RS correspondante. L'unité de génération 360 est notamment adaptée pour produire le flux compressé Fc en subdivisant l'espace en sous-espaces, et en tronquant, pour chacun des sous-espaces, un ordre de représentation des signaux dans la base des harmoniques sphériques, jusqu'à obtenir une résolution spatiale sensiblement égale à la valeur maximale des résolutions spatiales associées aux sources présentes dans le sous-espace considéré. La subdivision de l'espace en sous-espaces peut en outre être dynamique au cours du temps.
  • La figure 5 représente un dispositif de traitement 400 pour mettre en oeuvre le procédé de compression selon l'invention.
  • Le dispositif 400 comprend une interface 420 couplée à une entrée 410 pour recevoir le flux F et une sortie F pour délivrer le flux compressé Fc. L'interface 420 est par exemple une interface pour accéder à un réseau de communication, à un dispositif de stockage, et/ou encore à un lecteur de support.
  • Le dispositif 400 comprend également un processeur 440 couplé à une mémoire 450. Le processeur 440 est configuré pour communiquer avec l'interface 420. En particulier, le processeur est adapté pour exécuter des programmes d'ordinateur, compris dans la mémoire 450, comportant respectivement des instructions adaptées à la mise en oeuvre des étapes des procédés de compression qui viennent d'être décrits. La mémoire 450 peut être une combinaison d'éléments choisie parmi la liste suivante : une RAM, une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette ou un disque dur, un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme d'ordinateur peut être en particulier téléchargé sur un réseau de type Internet. Alternativement, la mémoire 450 peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution des procédés en question.

Claims (13)

  1. Procédé de compression d'un flux audio comprenant une pluralité de signaux, ledit flux audio décrivant une scène sonore produite par une pluralité de sources dans un espace, caractérisé en ce qu'il comporte les étapes suivantes :
    • à partir du flux audio, identification (10; 120, 130, 135) des sources ;
    • détermination pour chacune des sources identifiées d'une bande de fréquences, d'un niveau d'énergie et d'une position spatiale dans l'espace;
    • détermination (20 ; 140), pour chaque source identifiée, d'une résolution spatiale correspondant à une variation de position de ladite source dans l'espace la plus faible qu'un auditeur est susceptible de percevoir, en fonction :
    ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite source ; et,
    ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale des autres sources identifiées ;
    • génération (30 ; 150) d'un flux compressé comportant les informations nécessaires pour restituer chaque source identifiée avec au moins la résolution spatiale correspondante.
  2. Procédé selon la revendication 1, dans lequel l'étape d'identification des sources comporte une étape d'identification seulement des sources audibles.
  3. Procédé selon la revendication 1 ou 2, dans lequel les signaux du flux audio comprennent des informations représentant la scène sonore dans une base d'harmoniques sphériques.
  4. Procédé selon la revendication 1 ou 2, caractérisé en ce qu'il comporte une étape de transposition (100) des informations comprises dans les signaux du flux audio représentant la scène sonore dans une base d'harmoniques sphériques.
  5. Procédé selon l'une quelconque des revendications 3 à 4, dans lequel l'étape de génération (150) du flux compressé est effectué en subdivisant l'espace en sous-espaces, et en tronquant, pour chacun des sous-espaces, un ordre de représentation des signaux dans la base des harmoniques sphériques, jusqu'à obtenir une résolution spatiale sensiblement égale à la valeur maximale des résolutions spatiales associées aux sources présentes dans le sous-espace considéré.
  6. Procédé selon la revendication 5, dans lequel la subdivision de l'espace en sous-espaces est dynamique au cours du temps.
  7. Programme d'ordinateur comportant des instructions pour la mise en oeuvre du procédé selon l'une quelconque des revendications 1 à 6 lorsque ce programme est exécuté par un processeur.
  8. Support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur selon la revendication 7.
  9. Dispositif (200 ; 300 ; 400) de compression de flux audio multicanal, comprenant une entrée (210 ; 310 ; 410) pour recevoir un flux audio multicanal décrivant une scène sonore produite par une pluralité de sources dans un espace, et une sortie (260 ; 390 ; 430) pour délivrer un flux compressé, caractérisé en ce qu'il comporte :
    • une unité d'identification (220 ; 330 ; 440, 450) des sources, couplée à l'entrée (210 ; 310 ; 410), adaptée pour identifier les sources, à partir du flux, et pour déterminer pour chacune des sources identifiées une bande de fréquences, un niveau d'énergie et une position spatiale dans l'espace ;
    • une unité de détermination (230 ; 340 ; 440, 450) de résolution spatiale, couplée à l'unité d'identification (220, 330 ; 440, 450), adaptée pour déterminer, pour chaque source identifiée, une résolution spatiale correspondant à une variation de position de ladite source dans l'espace la plus faible qu'un auditeur est susceptible de percevoir, en fonction
    ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite source ; et,
    ○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale des autres sources identifiées ;
    • une unité de génération (250 ; 360 ; 440, 450) du flux compressé, couplée à l'unité de détermination (230 ; 340 ; 440, 450) de résolution spatiale, adaptée pour former le flux compressé à partir des informations nécessaires pour restituer chaque source identifiée avec au moins la résolution spatiale correspondante, et délivrer le flux compressé sur la sortie (260 ; 390 ; 440, 450).
  10. Dispositif selon la revendication 9, dans lequel l'unité d'identification (220 ; 330 ; 440, 450) est configurée pour identifier seulement les sources audibles.
  11. Dispositif selon l'une quelconque des revendications 9 à 10, dans lequel l'unité de génération (360) est adaptée pour produire le flux compressé à partir des signaux lorsque ces derniers comportent des informations représentant la scène sonore dans une base d'harmoniques sphériques en:
    • subdivisant l'espace en sous-espaces, et
    • tronquant, pour chacun des sous-espaces, un ordre de représentation des signaux dans la base des harmoniques sphériques, jusqu'à obtenir une résolution spatiale sensiblement égale à la valeur maximale des résolutions spatiales associées aux sources présentes dans le sous-espace considéré.
  12. Dispositif selon la revendication 11, dans lequel l'unité de génération (360) est configurée pour adapter la subdivision de l'espace en sous-espaces au cours du temps.
  13. Dispositif selon l'une quelconque des revendications 11 à 12, comprenant en outre une unité de conversion (320) adaptée pour transposer des informations comprises dans les signaux du flux audio dans une base d'harmoniques sphériques.
EP11708920.1A 2010-02-26 2011-02-10 Compression de flux audio multicanal Active EP2539892B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1051420 2010-02-26
PCT/FR2011/050282 WO2011104463A1 (fr) 2010-02-26 2011-02-10 Compression de flux audio multicanal

Publications (2)

Publication Number Publication Date
EP2539892A1 EP2539892A1 (fr) 2013-01-02
EP2539892B1 true EP2539892B1 (fr) 2014-04-02

Family

ID=42670337

Family Applications (1)

Application Number Title Priority Date Filing Date
EP11708920.1A Active EP2539892B1 (fr) 2010-02-26 2011-02-10 Compression de flux audio multicanal

Country Status (3)

Country Link
US (1) US9058803B2 (fr)
EP (1) EP2539892B1 (fr)
WO (1) WO2011104463A1 (fr)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (fr) 2012-05-14 2013-11-20 Thomson Licensing Procédé et appareil de compression et de décompression d'une représentation de signaux d'ambiophonie d'ordre supérieur
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9685163B2 (en) * 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
US9384741B2 (en) * 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9466302B2 (en) * 2013-09-10 2016-10-11 Qualcomm Incorporated Coding of spherical harmonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
WO2019170955A1 (fr) * 2018-03-08 2019-09-12 Nokia Technologies Oy Codage audio
US11972769B2 (en) 2018-08-21 2024-04-30 Dolby International Ab Methods, apparatus and systems for generation, transportation and processing of immediate playout frames (IPFs)
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
CN115715470A (zh) 2019-12-30 2023-02-24 卡姆希尔公司 用于提供空间化声场的方法
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1906855B (zh) * 2004-01-30 2014-04-02 法国电信 空间矢量和可变分辨率量化
WO2009067741A1 (fr) * 2007-11-27 2009-06-04 Acouity Pty Ltd Compression de la bande passante de représentations paramétriques du champ acoustique pour transmission et mémorisation
ES2435792T3 (es) * 2008-12-15 2013-12-23 Orange Codificación perfeccionada de señales digitales de audio multicanal

Also Published As

Publication number Publication date
US9058803B2 (en) 2015-06-16
US20120314878A1 (en) 2012-12-13
WO2011104463A1 (fr) 2011-09-01
EP2539892A1 (fr) 2013-01-02

Similar Documents

Publication Publication Date Title
EP2539892B1 (fr) Compression de flux audio multicanal
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
AU2016266052B2 (en) Audio apparatus and audio providing method thereof
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
TWI744341B (zh) 使用近場/遠場渲染之距離聲相偏移
EP2005420B1 (fr) Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal
KR102516625B1 (ko) 몰입형 오디오를 캡처하고, 인코딩하고, 분산하고, 디코딩하기 위한 시스템 및 방법
CN102422348B (zh) 音频格式转码器
EP2304721B1 (fr) Synthese spatiale de signaux audio multicanaux
EP3427260B1 (fr) Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal
TR201811059T4 (tr) Ses kaynaklarının parametrik birleşik kodlaması.
FR2898725A1 (fr) Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale
EP3475943B1 (fr) Procede de conversion et d'encodage stereophonique d'un signal audio tridimensionnel
EP1992198A2 (fr) Optimisation d'une spatialisation sonore binaurale a partir d'un encodage multicanal
EP3079074A1 (fr) Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
Cobos et al. An overview of machine learning and other data-based methods for spatial audio capture, processing, and reproduction
FR3049084A1 (fr)
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
KR20220157848A (ko) 다채널 오디오 신호 처리 장치 및 방법
WO2023232823A1 (fr) Titre: codage audio spatialisé avec adaptation d'un traitement de décorrélation
WO2009081002A1 (fr) Traitement d'un flux audio 3d en fonction d'un niveau de presence de composantes spatiales
FR3034892A1 (fr) Procede de traitement de donnees pour l'estimation de parametres de mixage de signaux audio, procede de mixage, dispositifs, et programmes d'ordinateurs associes

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20120820

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

RIN1 Information on inventor provided before grant (corrected)

Inventor name: NICOL, ROZENN

Inventor name: DANIEL, ADRIEN

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 602011005897

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0019000000

Ipc: G10L0019008000

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: H04S 3/00 20060101ALI20131009BHEP

Ipc: G10L 19/008 20130101AFI20131009BHEP

Ipc: G10L 19/20 20130101ALI20131009BHEP

INTG Intention to grant announced

Effective date: 20131029

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 660536

Country of ref document: AT

Kind code of ref document: T

Effective date: 20140415

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602011005897

Country of ref document: DE

Effective date: 20140515

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 660536

Country of ref document: AT

Kind code of ref document: T

Effective date: 20140402

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20140402

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140702

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140802

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140703

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140702

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140804

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602011005897

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 5

26N No opposition filed

Effective date: 20150106

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602011005897

Country of ref document: DE

Effective date: 20150106

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20141119

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150210

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150228

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150228

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 6

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150210

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 7

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20110210

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 8

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230119

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20240123

Year of fee payment: 14

Ref country code: GB

Payment date: 20240123

Year of fee payment: 14