FR3101741A1 - Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés - Google Patents

Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés Download PDF

Info

Publication number
FR3101741A1
FR3101741A1 FR1910907A FR1910907A FR3101741A1 FR 3101741 A1 FR3101741 A1 FR 3101741A1 FR 1910907 A FR1910907 A FR 1910907A FR 1910907 A FR1910907 A FR 1910907A FR 3101741 A1 FR3101741 A1 FR 3101741A1
Authority
FR
France
Prior art keywords
signal
decoded
corrections
decoding
spatial image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1910907A
Other languages
English (en)
Inventor
Pierre Clément MAHE
Stéphane Ragot
Jérome Daniel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to FR1910907A priority Critical patent/FR3101741A1/fr
Priority to PCT/FR2020/051668 priority patent/WO2021064311A1/fr
Priority to US17/764,064 priority patent/US20220358937A1/en
Priority to KR1020227013459A priority patent/KR20220076480A/ko
Priority to EP20792467.1A priority patent/EP4042418B1/fr
Priority to JP2022520097A priority patent/JP2022550803A/ja
Priority to BR112022005783A priority patent/BR112022005783A2/pt
Priority to CN202080069491.9A priority patent/CN114503195A/zh
Priority to ES20792467T priority patent/ES2965084T3/es
Publication of FR3101741A1 publication Critical patent/FR3101741A1/fr
Priority to ZA2022/03157A priority patent/ZA202203157B/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés L'invention concerne un procédé de détermination d’un ensemble de corrections (Corr.) à apporter à un signal sonore multicanal, dans lequel l’ensemble de corrections est déterminé à partir d’une information représentative d’une image spatiale d’un signal multicanal d’origine (Inf.B) et d’une information représentative d’une image spatiale du signal multicanal d’origine codé puis décodé (Inf.). L’invention se rapporte également à un procédé de décodage et un procédé de codage mettant en œuvre le procédé de détermination, ainsi que les dispositifs de codage et de décodage associés. Figure pour l'abrégé : Figure 2

Description

Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
La présente invention concerne le codage/décodage de données sonores spatialisées, notamment en contexte ambiophonique (noté ci-après également « ambisonique »).
Les codeurs/décodeurs (ci-après appelés « codecs ») qui sont utilisés actuellement en téléphonie mobile sont mono (un seul canal de signal pour une restitution sur un seul haut-parleur). Le codec 3GPP EVS (pour « Enhanced Voice Services ») permet d’offrir une qualité « Super-HD » (aussi appelée voix « Haute Définition Plus » ou HD+) avec une bande audio en bande super-élargie (SWB pour « super-wideband » en anglais) pour des signaux échantillonnés à 32 ou 48 kHz  ou pleine bande (FB pour « Fullband ») pour des signaux échantillonnés à 48 kHz ; la largeur de bande audio est de 14,4 à 16 kHz en mode SWB (de 9,6 à 128 kbit/s) et de 20 kHz en mode FB (de 16,4 à 128 kbit/s).
La prochaine évolution de qualité dans les services conversationnels proposés par les opérateurs devrait être constituée par les services immersifs, en utilisant des terminaux tels que des smartphones équipés de plusieurs microphones ou des équipements de conférence audio spatialisée ou de visioconférence de type télé-présence ou vidéo 360°, ou encore des équipements de partage de contenus audio « live », avec un rendu sonore spatialisé en 3D autrement plus immersif qu’une simple restitution stéréo 2D. Avec les usages de plus en plus répandus d’écoute sur téléphone mobile avec un casque audio et l’apparition d’équipements audio avancés (accessoires tels qu’un microphone 3D, assistants vocaux avec antennes acoustiques, casques de réalité virtuelle, etc.) la captation et le rendu de scènes sonores spatialisées sont désormais assez communes pour offrir une expérience de communication immersive.
A ce titre, la future norme 3GPP « IVAS » (pour « Immersive Voice And Audio Services ») propose l’extension du codec EVS à l’immersif en acceptant comme format d’entrée du codec au moins les formats de son spatialisé listés ci-dessous (et leurs combinaisons):
- Format multicanal (channel-based en anglais) de type stéréo ou 5.1 où chaque canal vient alimenter un haut-parleur (par exemple L et R en stéréo ou L, R, Ls, Rs et C en 5.1) ;
- Format objet (object-based en anglais) où des objets sonores sont décrits comme un signal audio (en général mono) associé à des métadonnées décrivant les attributs de cet objet (position dans l’espace, largeur spatiale de la source, etc.),
- Format ambisonique (scene-based en anglais) qui décrit le champ sonore en un point donné, en général capté par un microphone sphérique ou synthétisé dans le domaine des harmoniques sphériques.
On s’intéresse ci-après typiquement au codage d’un son au format ambisonique, à titre d’exemple de réalisation (au moins certains aspects présentés en lien avec l’invention ci-après pouvant également s’appliquer à d’autres formats que de l’ambisonique).
L’ambisonique est une méthode d’enregistrement (« codage » au sens acoustique) de son spatialisé et un système de reproduction (« décodage » au sens acoustique). Un microphone ambisonique (à l’ordre 1) comprend au moins quatre capsules (typiquement de type cardioïde ou sous-cardioïde) arrangées sur une grille sphérique, par exemple les sommets d’un tétraèdre régulier. Les canaux audio associés à ces capsules s’appellent le « A-format ». Ce format est converti dans un « B-format », dans lequel le champ sonore est décomposé en quatre composantes (harmoniques sphériques) notées W, X, Y, Z, qui correspondent à quatre microphones virtuels coïncidents. La composante W correspond à une captation omnidirectionnelle du champ sonore alors que les composantes X, Y et Z, plus directives, sont assimilables à des microphones à gradients de pression orientés suivant les trois axes orthogonaux de l’espace. Un système ambisonique est un système flexible dans le sens où l’enregistrement et la restitution sont séparés et découplés. Il permet un décodage (au sens acoustique) sur une configuration quelconque de haut-parleurs (par exemple, binaural, son « surround » de type 5.1 ou périphonie (avec élévation) de type 7.1.4). L’approche ambisonique peut être généralisée à plus de quatre canaux en B-format et cette représentation généralisée est couramment nommée « HOA » (pour « Higher-Order Ambisonics »). Le fait de décomposer le son sur plus d’harmoniques sphériques améliore la précision spatiale de restitution lors d’un rendu sur haut-parleurs.
Un signal ambisonique à l’ordre M comprend K=(M+1)² composantes et, à l’ordre 1 (si M=1), on retrouve les quatre composantes W, X, Y, et Z, couramment appelé FOA (pour First-Order Ambisonics). Il existe aussi une variante dite « planaire » de l’ambisonique (W, X, Y) qui décompose le son défini dans un plan qui est en général le plan horizontal. Dans ce cas, le nombre de composantes est de K =2M+1 canaux. L’ambisonique d’ordre 1 (4 canaux : W, X, Y, Z), l’ambisonique d’ordre 1 planaire (3 canaux : W, X, Y), l’ambisonique d’ordre supérieur sont tous désignés ci-après par « ambisonique » indistinctement pour faciliter la lecture, les traitements présentés étant applicables indépendamment du type planaire ou non et du nombre de composantes ambisoniques.
Par la suite, on appellera « signal ambisonique » un signal en B-format à un ordre prédéterminé avec un certain nombre de composantes ambisoniques. Cela comprend également les cas hybrides, où par exemple à l’ordre 2 on ne dispose que de 8 canaux (au lieu de 9) – plus précisément, à l’ordre 2, on retrouve les 4 canaux de l’ordre 1 (W, X, Y, Z) auxquels on ajoute normalement 5 canaux (habituellement notés R, S, T, U, V), et on peut par exemple ignorer un des canaux d’ordre supérieur (par exemple R).
Les signaux à traiter par le codeur/décodeur se présentent comme des successions de blocs d’échantillons sonores appelés « trames » ou « sous-trames » ci-après.
En outre, ci-après, les notations mathématiques suivent la convention suivante :
- Scalaire : s ou N (minuscule pour les variables ou majuscule pour les constantes)
- l’opérateur Re(.) désigne la partie réelle d’un nombre complexe
- Vecteur :u (minuscule, gras)
- Matrice :A (majuscule, gras)
Les notationsA T etA H indique respectivement la transposition et la transposition hermitienne (transposée et conjuguée) deA.
- Un signal unidimensionnel à temps discret, s(i), défini sur un intervalle temporel i=0, …, L-1 de longueur L est représenté par un vecteur ligne
.
On pourra aussi écrire :s = [s0,…, sL-1] pour éviter l’usage des parenthèses.
- Un signal multidimensionnel à temps discret,b(i), défini sur un intervalle temporel i=0, …, L-1 de longueur L et à K dimensions est représenté par une matrice de taille LxK:
.
On pourra aussi noter :B = [Bij], i=0,…K-1, j=0…L-1, pour éviter l’usage des parenthèses.
- Un point 3D de coordonnées cartésiennes (x,y,z) peut être converti en coordonnées sphériques (r,,φ), où r est la distance à l’origine,est l’azimut et φ l’élévation. On utilise ici, sans perte de généralité, la convention mathématique où l’élévation est définie par rapport au plan horizontal (0xy) ; l’invention peut être facilement adaptée à d’autres définitions, dont la convention utilisée en physique où l’azimut est défini par rapport à l’axe Oz.
Par ailleurs, on ne rappelle pas ici les conventions connues de l’état de l’art en ambisonique concernant l’ordre des composantes ambisoniques (dont ACN pour Ambisonic Channel Number, SID pour Single Index Designation, FuMA pour Furse-Malham) et la normalisation des composantes ambisoniques (SN3D, N3D, maxN). Plus de détails peuvent être trouvés par exemple dans la ressource disponible en ligne : https://en.wikipedia.org/wiki/Ambisonic_data_exchange_formats
Par convention, la première composante d’un signal ambisonique correspond en général à la composante omnidirectionnelle W.
L’approche la plus simple pour coder un signal ambisonique consiste à utiliser un codeur mono et à l’appliquer en parallèle à tous les canaux avec éventuellement une allocation des bits différente selon les canaux. Cette approche est appelée ici « multi-mono ». On peut étendre l’approche multi-mono à du codage multi-stéréo (où des paires de canaux sont codées séparément par un codec stéréo) ou plus généralement à l’utilisation de plusieurs instances parallèles d’un même codec cœur.
Une telle réalisation est présentée à la figure 1. Le signal d’entrée est divisé en canaux (un canal mono ou plusieurs canaux) par le bloc 100. Ces canaux sont codés séparément par les blocs 120 à 122 en fonction d’une répartition et d’une allocation binaire prédéterminées. Leur train binaire est multiplexé (bloc 130) et après transmission et/ou stockage, il est démultiplexé (bloc 140) pour appliquer un décodage pour reconstruire les canaux décodés (blocs 150 à 152) qui sont recombinés (bloc 160).
La qualité associée varie selon le codage et le décodage cœur utilisé (blocs 120 à 122 et 150 à 152), et elle n’est en général satisfaisante qu’à très haut débit. Par exemple, dans le cas multimono, le codage EVS peut être jugé quasi-transparent (d’un point de vue perceptif) à un débit d’au moins 48 kbit/s par canal (mono); ainsi pour un signal ambisonique à l’ordre 1 on obtient un débit minimal de 4x48 = 192 kbit/s. L’approche de codage multi-mono ne prenant pas en compte la corrélation entre canaux, elle produit des déformations spatiales avec l’ajout de différents artéfacts comme l’apparition de sources sonores fantômes, de bruits diffus ou de déplacements des trajectoires de sources sonores. Ainsi, le codage d’un signal ambisonique selon cette approche engendre des dégradations de la spatialisation.
Une approche alternative au codage séparé de tous les canaux est donnée, pour un signal stéréo ou multicanal, par le codage paramétrique. Pour ce type de codage, le signal multicanal d’entrée est réduit en nombre plus faible de canaux, après un traitement appelé « downmix », ces canaux sont codés et transmis et des informations de spatialisation supplémentaires sont également codées. Le décodage paramétrique consiste à augmenter le nombre de canaux après décodage des canaux transmis, en utilisant un traitement appelé « upmix » (typiquement mis en œuvre par décorrélation) et une synthèse spatiale en fonction des informations de spatialisation supplémentaires décodées. Un exemple de codage paramétrique stéréo est donné par le codec 3GPP e-AAC+. On notera que l’opération de downmix engendre aussi des dégradations de la spatialisation ; dans ce cas, l’image spatiale est modifiée.
L'invention vient améliorer l'état de la technique.
Elle propose à cet effet, un procédé de détermination d’un ensemble de corrections à apporter à un signal sonore multicanal, dans lequel l’ensemble de corrections est déterminé à partir d’une information représentative d’une image spatiale d’un signal multicanal d’origine et d’une information représentative d’une image spatiale du signal multicanal d’origine codé puis décodé.
Ainsi, l’ensemble de corrections déterminé, à appliquer au signal multicanal décodé, permet de limiter les dégradations spatiales dues au codage et éventuellement à des opérations de réduction/augmentation de canaux. La mise en œuvre de la correction permet ainsi de retrouver une image spatiale du signal multicanal décodé la plus proche de l’image spatiale du signal multicanal d’origine.
Dans un mode de réalisation particulier, la détermination de l’ensemble de corrections est effectuée dans le domaine temporel en pleine bande (une bande de fréquence). Dans des variantes, elle est effectuée dans le domaine temporel par sous-bande de fréquence. Cela permet d’adapter les corrections selon les bandes de fréquences.
Dans d’autres variantes, elle est effectuée dans un domaine transformé réel ou complexe (typiquement fréquentiel) de type transformée de Fourier discrète court-terme (STFT), transformée en cosinus discrète modifiée (MDCT), ou autre.
L’invention se rapporte également à un procédé de décodage d’un signal sonore multicanal, comportant les étapes suivantes :
- réception d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et une information représentative d’une image spatiale du signal multicanal d’origine ;
- décodage du signal audio codé reçu et obtention d’un signal multicanal décodé ;
- décodage de l’information représentative d’une image spatiale du signal multicanal d’origine ;
- détermination d’une information représentative d’une image spatiale du signal multicanal décodé ;
- détermination d’un ensemble de corrections à apporter au signal décodé selon le procédé de détermination décrit ci-dessus ;
- correction du signal multicanal décodé par l’ensemble de corrections déterminé.
Ainsi, dans ce mode de réalisation, le décodeur est apte à déterminer les corrections à apporter au signal multicanal décodé, à partir d’une information représentative de l’image spatiale du signal multicanal d’origine, reçue du codeur. L’information reçue du codeur est ainsi limitée. C’est le décodeur qui prend en charge à la fois la détermination et l’application des corrections.
L’invention se rapporte également à un procédé de codage d’un signal sonore multicanal, comportant les étapes suivantes :
- codage d’un signal audio issu d’un signal multicanal d’origine;
- détermination d’une information représentative d’une image spatiale du signal multicanal d’origine ;
- décodage local du signal audio codé et obtention d’un signal multicanal décodé;
- détermination d’une information représentative d’une image spatiale du signal multicanal décodé ;
- détermination d’un ensemble de corrections à apporter au signal multicanal décodé selon le procédé de détermination décrit précédemment ;
- codage de l’ensemble de corrections déterminé.
Dans ce mode de réalisation, c’est le codeur qui détermine l’ensemble de corrections à apporter au signal multicanal décodé et qui le transmet au décodeur.
C’est donc le codeur qui est à l’initiative de cette détermination de corrections.
Dans un premier mode de réalisation particulier du procédé de décodage tel que décrit précédemment ou du procédé de codage tel que décrit précédemment, l’information représentative d’une image spatiale est une matrice de covariance et la détermination de l’ensemble de corrections comporte en outre les étapes suivantes :
- obtention d’une matrice de pondération comportant des vecteurs de pondération associés à un ensemble de haut-parleurs virtuels ;
- détermination d’une image spatiale du signal multicanal d’origine à partir de la matrice de pondération obtenue et à partir de la matrice de covariance du signal multicanal d’origine reçue ;
- détermination d’une image spatiale du signal multicanal décodé à partir de la matrice de pondération obtenue et à partir de la matrice de covariance du signal multicanal décodé déterminé;
- calcul d’un ratio entre l’image spatiale du signal multicanal d’origine et l’image spatiale du signal multicanal décodé aux directions des haut-parleurs de l’ensemble de haut-parleurs virtuels, pour obtenir un ensemble de gains.
Selon ce mode de réalisation, cette méthode utilisant le rendu sur haut-parleurs permet de ne transmettre qu’une quantité limitée de données du codeur vers le décodeur. En effet, pour un ordre donné M, K=(M+1)2coefficients à transmettre (associés à autant de haut-parleurs virtuels) peuvent être suffisants, mais pour une correction plus stable il peut être recommandé d’utiliser plus de haut-parleurs virtuels et donc de transmettre plus de points. De plus, la correction est facilement interprétable en termes de gains associés à des haut-parleurs virtuels.
Dans une autre variante de réalisation, dans le cas où le codeur détermine directement l’énergie du signal selon différentes directions et transmet cette image spatiale du signal multicanal d’origine au décodeur, la détermination de l’ensemble de corrections du procédé de décodage comporte en outre les étapes suivantes :
- obtention d’une matrice de pondération comportant des vecteurs de pondération associés à un ensemble de haut-parleurs virtuels ;
- détermination d’une image spatiale du signal multicanal décodé à partir de la matrice de pondération obtenue et à partir de l’information représentative d’une image spatiale du signal multicanal décodé déterminé;
- calcul d’un ratio entre l’image spatiale du signal multicanal d’origine et l’image spatiale du signal multicanal décodé aux directions des haut-parleurs de l’ensemble de haut-parleurs virtuels, pour obtenir un ensemble de gains.
Afin de garantir une valeur de correction qui ne soit pas trop brutale, le procédé de décodage ou le procédé de codage, comporte une étape de limitation des valeurs de gains obtenus selon au moins un seuil.
Cet ensemble de gains constitue l’ensemble de corrections et peut être par exemple sous la forme d’une matrice de correction comportant l’ensemble des gains ainsi déterminés.
Dans un deuxième mode de réalisation particulier du procédé de décodage ou du procédé de codage, l’information représentative d’une image spatiale est une matrice de covariance et la détermination de l’ensemble de corrections comporte une étape de détermination d’une matrice de transformation par décomposition matricielle des deux matrices de covariance, la matrice de transformation constituant l’ensemble des corrections.
Ce mode de réalisation a l’avantage d’apporter les corrections directement dans le domaine ambisonique dans le cas d’un signal multicanal ambisonique. Les étapes de transformation des signaux restitués sur haut-parleurs vers le domaine ambisonique étant ainsi évitées. Ce mode de réalisation permet de plus d’optimiser la correction pour qu’elle soit optimale mathématiquement même si elle nécessite la transmission d’un plus grand nombre de coefficients par rapport à la méthode avec rendu sur haut-parleurs. En effet, pour un ordre M et par conséquent un nombre de composantes K=(M+1)2, le nombre de coefficients à transmettre est de Kx(K+1)/2.
Afin d’éviter d’amplifier de manière trop importante sur certaines zones fréquentielles, un facteur de normalisation est déterminé et appliqué à la matrice de transformation.
Dans le cas où l’ensemble de corrections est représenté par une matrice de transformation ou une matrice de correction comme décrit ci-dessus, la correction du signal multicanal décodé par l’ensemble de corrections déterminé est effectuée par l’application de l’ensemble de corrections au signal multicanal décodé, c’est-à-dire directement dans le domaine ambisonique dans le cas d’un signal ambisonique.
Dans le mode de réalisation par rendu sur haut-parleurs mis en œuvre par le décodeur, la correction du signal multicanal décodé par l’ensemble de corrections déterminé est effectuée selon les étapes suivantes :
- décodage acoustique du signal multicanal décodé sur l’ensemble défini de haut-parleurs virtuels ;
- application de l’ensemble de gains obtenu aux signaux issus du décodage acoustique ;
- codage acoustique des signaux issus du décodage acoustique et corrigés pour obtenir des composantes du signal multicanal ;
- sommation des composantes du signal multicanal ainsi obtenues pour obtenir un signal multicanal corrigé.
Dans une variante de réalisation, les étapes de décodage, application de gains et codage/sommation ci-dessus sont regroupées en une opération de correction directe par une matrice de correction. Cette matrice de correction peut être appliquée directement au signal multicanal décodé, ce qui a l’avantage comme décrit ci-dessus d’apporter les corrections directement dans le domaine ambisonique.
Dans un deuxième mode de réalisation, où le procédé de codage met en œuvre le procédé de détermination de l’ensemble des corrections, le procédé de décodage comporte les étapes suivantes :
- réception d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et un ensemble codé de corrections à apporter au signal multicanal décodé, l’ensemble de corrections ayant été codé selon un procédé de codage décrit précédemment;
- décodage du signal audio codé reçu obtention d’un signal multicanal décodé;
- décodage de l’ensemble codé de corrections ;
- correction du signal multicanal décodé par l’application de l’ensemble de corrections décodé au signal multicanal décodé.
Dans ce mode de réalisation, c’est le codeur qui détermine les corrections à apporter sur le signal multicanal décodé, directement dans le domaine ambisonique et c’est le décodeur qui met en œuvre l’application de ces corrections sur le signal multicanal décodé, directement dans le domaine ambisonique.
L’ensemble de corrections peut être dans ce cas, une matrice de transformation ou bien une matrice de correction comportant un ensemble de gains.
Dans une variante de réalisation du procédé de décodage par rendu sur haut-parleurs, le procédé de décodage comporte les étapes suivantes :
- réception d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et un ensemble codé de corrections à apporter au signal multicanal décodé, l’ensemble de corrections ayant été codé selon un procédé de codage tel que décrit précédemment;
- décodage du signal audio codé reçu et obtention d’un signal multicanal décodé;
- décodage de l’ensemble codé de corrections ;
- correction du signal multicanal décodé par l’ensemble de corrections décodé selon les étapes suivantes :
. décodage acoustique du signal multicanal décodé sur l’ensemble défini de haut-parleurs virtuels;
. application de l’ensemble de gains obtenu aux signaux issus du décodage acoustique;
. codage acoustique des signaux issus du décodage acoustique et corrigés pour obtenir des composantes du signal multicanal ;
. sommation des composantes du signal multicanal ainsi obtenues pour obtenir un signal multicanal corrigé.
Dans ce mode de réalisation, c’est le codeur qui détermine les corrections à apporter sur les signaux issus du décodage acoustique sur un ensemble de haut-parleurs virtuels et c’est le décodeur qui met en œuvre l’application de ces corrections sur les signaux issus du décodage acoustique puis qui transforme ces signaux pour revenir dans le domaine ambisonique dans le cas d’un signal multicanal ambisonique.
Dans une variante de réalisation, les étapes de décodage, application de gains et codage/sommation ci-dessus sont regroupées en une opération de correction directe par une matrice de correction. La correction s’effectue alors directement par l’application d’une matrice de correction sur le signal multicanal décodé, par exemple le signal ambisonique. Comme décrit précédemment, ceci a l’avantage d’apporter les corrections directement dans le domaine ambisonique.
L’invention se rapporte également à un dispositif de décodage comportant un circuit de traitement pour la mise en œuvre des procédés de décodage tel que décrit précédemment.
L’invention se rapporte également à un dispositif de décodage comportant un circuit de traitement pour la mise en œuvre des procédés de codage tel que décrit précédemment.
L’invention se rapporte à un programme informatique comportant des instructions pour la mise en œuvre des procédés de décodage ou des procédés de codage tels que décrits précédemment, lorsqu’ils sont exécutés par un processeur.
Enfin, l’invention se rapporte à un support de stockage, lisible par un processeur, mémorisant un programme informatique comportant des instructions pour l’exécution des procédés de décodage ou des procédés de codage décrits précédemment.
D’autres caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description suivante de modes de réalisation particuliers, donnés à titre de simples exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :
La figure 1 illustre un codage multi-mono selon l’état de l’art et tel que décrit précédemment ;
La figure 2 illustre sous forme d’organigramme, les étapes d’un procédé de détermination d’un ensemble de corrections selon un mode de réalisation de l’invention ;
La figure 3 illustre un premier mode de réalisation d’un codeur et d’un décodeur, d’un procédé de codage et d’un procédé de décodage selon l’invention ;
La figure 4 illustre un premier mode de réalisation détaillé du bloc de détermination de l’ensemble de corrections ;
La figure 5 illustre un deuxième mode de réalisation détaillé du bloc de détermination de l’ensemble de corrections ;
La figure 6 illustre un deuxième mode de réalisation d’un codeur et d’un décodeur, d’un procédé de codage et d’un procédé de décodage selon l’invention ;et
La figure 7 illustre des exemples de réalisation structurelle d’un codeur et d’un décodeur selon un mode de réalisation de l’invention.
La méthode décrite ci-dessous repose sur la correction des dégradations spatiales, notamment pour s’assurer que l’image spatiale du signal décodé est la plus proche possible du signal d’origine. A l’opposé des approches de codage paramétrique connues pour les signaux stéréo ou multicanal, où des attributs perceptifs (« perceptual cues » en anglais) sont codés, l’invention ne repose pas sur une interprétation perceptuelle des informations d’image spatiale car le domaine ambisonique n’est pas directement « écoutable ».
Lafigure 2représente les étapes principales mises en œuvre pour déterminer un ensemble de corrections à appliquer au signal multicanal codé puis décodé.
Le signal multicanal d’origineBde dimension KxL (soit K composantes de L échantillons temporels ou fréquentiels) est en entrée du procédé de détermination. A l’étape S1 une information représentative d’une image spatiale du signal multicanal d’origine est extraite.
On s’intéresse ici au cas d’un signal multicanal en représentation ambisonique, tel que décrit précédemment. L’invention peut s’appliquer également pour d’autres types de signal multicanal comme un signal en B-format avec des modifications, comme par exemple la suppression de certaines composantes (ex : suppression de la composante R à l’ordre 2 pour ne garder que 8 canaux) ou le matriçage du B-format pour passer dans un domaine équivalent (appelé « Equivalent Spatial Domain ») comme décrit dans la spécification 3GPP TS 26.260 - un autre exemple de matriçage est donné par le « channel mapping 3 » du codec IETF Opus et dans la spécification 3GPP TS 26.918 (clause 6.1.6.3).
On appelle ici « image spatiale » la répartition de l’énergie sonore de la scène sonore ambisonique à différentes directions de l’espace ; dans des variantes, cette image spatiale décrivant la scène sonore correspond de façon générale à des grandeurs positives évaluées à différentes directions prédéterminées de l’espace, par exemple sous la forme d’un pseudo-spectre de type MUSIC (MUltiple SIgnal Classification) échantillonné à ces directions ou d’un histogramme de directions d’arrivée (où les directions d’arrivée sont décomptées selon la discrétisation donnée par les directions prédéterminées) ; ces grandeurs positives peuvent être interprétées comme des énergies et sont vues comme telles par la suite pour simplifier la description de l’invention.
Une image spatiale associée à une scène sonore ambisonique représente donc l’énergie sonore (ou plus généralement une grandeur positive) relative en fonction de différentes directions dans l’espace. Dans l’invention, une information représentative d’une image spatiale peut être par exemple une matrice de covariance calculée entre les canaux du signal multicanal ou bien une information d’énergie associée à des directions de provenance du son (associées à des directions de haut-parleurs virtuels répartis sur une sphère unité).
L’ensemble de corrections à appliquer à un signal multicanal est une information qui peut être définie par un ensemble de gains associés à des directions de provenance du son qui peuvent être sous la forme d’une matrice de corrections comportant cet ensemble de gains ou une matrice de transformation.
Une matrice de covariance d’un signal multicanalBest par exemple obtenue à l’étape S1. Comme décrit ultérieurement en référence aux figures 3 et 6, cette matrice est par exemple calculée comme suit :
C = B.B T à un facteur de normalisation près (dans le cas réel)
ou
C =Re(B.B H ) à un facteur de normalisation près (dans le cas complexe)
Dans des variantes, des opérations de lissage temporel de la matrice de covariance pourront être utilisées. Dans les cas d’un signal multicanal dans le domaine temporel, la covariance peut être estimée de façon récursive (échantillon par échantillon) sous la forme :
Cij(n) = n/(n+1) Cij(n-1) + 1/(n+1) bi(n) bj(n).
Dans une variante de réalisation, une information d’énergie est obtenue selon différentes directions (associées à des directions de haut-parleurs virtuels répartis sur une sphère unité). Pour cela, une méthode de type SRP (pour « Steered-Response Power » en anglais) décrite ultérieurement en référence à la figure 3 et 4 pourra par exemple être appliquée. Dans des variantes, d’autres méthodes de calcul d’image spatiale (pseudo-spectre MUSIC, histogramme de directions d’arrivée) peuvent être utilisées.
Plusieurs modes de réalisation sont envisageables et décrits ici pour coder le signal multicanal d’origine.
Dans un premier mode de réalisation, les différents canauxb k , k=0, .., K-1, deBsont codés, à l’étape S2, par un codage multi-mono, chaque canalb k étant codé séparément. Dans des variantes de réalisation, un codage multi-stéréo où les canauxb k sont codés par paires séparées est également possible. Un exemple classique pour un signal d’entrée 5.1 consiste à utiliser deux codages stéréo séparés de L / R et de Ls / Rs avec des codages mono de C et LFE (basses fréquences uniquement) ; pour le cas ambisonique, le codage multi-stéréo peut être appliqué aux composantes ambisoniques (B-format) ou à un signal multicanal équivalent obtenu après matriçage des canaux du B-format - par exemple à l’ordre 1 les canaux W, X, Y, Z peuvent être convertis en quatre canaux transformés et deux paires de canaux sont codées séparément et reconverties en B-format au décodage. Un exemple est donné dans les versions récentes du codec Opus (« channel mapping 3 ») et dans la spécification 3GPP TR 26.918 (clause 6.1.6.3).
Dans d’autres variantes, on pourra aussi utiliser à l’étape S2 un codage multicanal conjoint, comme par exemple le codec MPEG-H 3D Audio pour le format ambisonique (scene-based); dans ce cas, le codec réalise un codage des canaux d’entrée de façon conjointe. Dans l’exemple MPEG-H, ce codage conjoint se décompose pour un signal ambisonique en plusieurs étapes comme l’extraction et le codage de sources mono prédominantes, l’extraction d’une ambiance (typiquement réduit à un signal ambisonique d’ordre 1), le codage de tous les canaux extraits (appelés «  transport channels ») et de métadonnées décrivant les vecteurs de formation de faisceaux acoustiques (« beamforming » en anglais) pour l’extraction de canaux prédominants. Le codage multicanal conjoint permet d’exploiter les relations entre tous les canaux pour, par exemple, extraire des sources audio prédominantes et une ambiance ou effectuer une allocation globale des bits prenant en compte l’ensemble du contenu audio.
Dans le mode de réalisation privilégié, on prend comme exemple de réalisation de l’étape S2 un codage multi-mono qui est effectué en utilisant le codec 3GPP EVS tel que décrit précédemment. Cependant, la méthode selon l’invention peut ainsi être utilisée indépendamment du codec cœur (multi-mono, multi-stéréo, codage conjoint) utilisée pour représenter les canaux à coder.
Le signal ainsi codé sous forme de flux binaire (« bitstream » en anglais) peut être décodé à l’étape S3 soit par un décodeur local du codeur, soit par un décodeur après transmission. Ce signal est décodé pour retrouver les canaux du signal multicanal(par exemple par plusieurs instances de décodeur EVS selon un décodage multi-mono).
Les étapes S2a, S2b, S3a, S3b représentent une variante de réalisation du codage et du décodage du signal multicanalB. La différence avec le codage de l’étape S2 décrite ci-dessus réside dans l’utilisation de traitements additionnels de réduction du nombre de canaux (« downmix » en anglais) à l’étape S2a et d’augmentation du nombre de canaux (« upmix » en anglais) à l’étape S3b. Ces étapes de codage et décodage (S2b et S3a) sont similaires aux étapes S2 et S3 mis à part que le nombre de canaux respectifs en entrée et sortie est plus faible dans les étapes S2b et S3a.
Un exemple de downmix pour un signal d’entrée ambisonique d’ordre 1 consiste à ne garder que le canal W ; pour un signal d’entrée ambisonique d’ordre >1, on pourra prendre comme downmix les 4 premières composantes W, X, Y, Z (donc tronquer le signal à l’ordre 1). Dans des variantes, on pourra prendre comme downmix un sous-ensemble des composantes ambisoniques (par exemple 8 canaux à l’ordre 2 sans la composante R) et aussi considérer les cas de matriçage comme par exemple un downmix stéréo obtenu sous la forme : L = W-Y+0.3*X, R=W+Y+0.3*X (en n’utilisant que les canaux FOA).
Un exemple d’upmix d’un signal mono consiste à appliquer différentes réponses impulsionnelles spatiales de salle (SRIR pour « Spatial Room Impulse Response ») ou différents filtres décorrélateurs (de type passe-tout) dans le domaine temporel ou fréquentiel. Un exemple de réalisation de décorrélation dans un domaine fréquentiel est donné par exemple dans le document 3GPP S4-180975, pCR to 26.118 on Dolby VRStream audio profile candidate (clause X.6.2.3.5).
Le signalB’issu de ce traitement « downmix » est codé à l’étape S2b par un codec cœur (multi-mono, multi-stéréo, codage conjoint), par exemple par une approche mono ou multi-mono avec le codec 3GPP EVS. Le signal audio d’entrée de l’étape de codage S2b et de sortie de l’étape de décodage S3a un nombre de canaux inférieur au signal audio multicanal d’origine. Dans ce cas l’image spatiale représentée par le codec cœur est déjà sensiblement dégradée avant même le codage. Dans un cas extrême, le nombre de canaux est réduit à un seul canal mono, en ne codant que le canal W ; le signal d’entrée est alors limité à un seul canal audio et l’image spatiale est donc perdue. Le procédé selon l’invention permet de décrire et de reconstruire cette image spatiale la plus proche possible de celle du signal multicanal d’origine.
En sortie de l’étape d’upmix en S3b de cette variante de réalisation, on retrouve un signal multicanal décodé.
A partir du signal multicanal décodéselon les deux variantes (S2-S3 ou S2a-S2b-S3a-S3b), est extrait, à l’étape S4, une information représentative de l’image spatiale du signal multicanal décodé. Comme pour l’image originale, cette information peut être une matrice de covariance calculée sur le signal multicanal décodé ou bien une information d’énergie associée à des directions de provenance du son (ou de façon équivalente, à des points virtuels sur une sphère unité).
Ces informations représentatives du signal multicanal d’origine et du signal multicanal décodé sont utilisées à l’étape S5 pour déterminer un ensemble de corrections à apporter au signal multicanal décodé afin de limiter les dégradations spatiales.
Deux modes de réalisation seront détaillés par la suite en référence aux figures 4 et 5 pour illustrer cette étape.
Le procédé décrit à la figure 2 peut être mis en œuvre dans le domaine temporel, en pleine-bande de fréquence (avec une seule bande) ou bien par sous-bandes de fréquence (avec plusieurs bandes), cela ne change pas le fonctionnement du procédé, chaque sous-bande étant alors traitée de manière séparée. Si le procédé est effectué par sous-bande, l’ensemble de corrections est alors déterminé par sous-bande, ce qui occasionne un surcoût de calcul et de données à transmettre vers le décodeur par rapport au cas d’une seule bande. Le découpage en sous-bandes peut être uniforme ou non-uniforme. Par exemple on pourra diviser le spectre d’un signal échantillonné à 32 kHz selon différentes variantes :
- 4 bandes de largeur respective 1, 3, 4 et 8 kHz ou encore 2, 2, 4, 8 kHz
- 24 bandes de Bark (de largeur 100 Hz en basses fréquences à 3.5-4 kHz pour la dernière sous-bande)
- les 24 bandes de Bark peuvent être éventuellement regroupées par blocs de 4 ou 6 bandes successives pour former un ensemble de respectivement 6 ou 4 bandes « agglomérées ».
D’autres découpages sont possibles (par exemple bandes ERB – pour « equivalent rectangular bandwidth » en anglais - ou en 1/3 d’octave), y compris pour le cas d’une fréquence d’échantillonnage différente (par exemple 16 ou 48 kHz).
Dans des variantes, l’invention pourra aussi être mise en œuvre dans un domaine transformée, par exemple dans le domaine de la transformée de Fourier discrète court-terme (STFT) ou le domaine de la transformée en cosinus discrète modifiée (MDCT).
Plusieurs modes de réalisation sont maintenant décrits pour mettre en œuvre la détermination de cet ensemble de corrections et pour appliquer cet ensemble de corrections au signal décodé.
On rappelle ici la technique connue d’encodage d’une source sonore au format ambisonique. Une source sonore mono peut-être spatialisée artificiellement en multipliant son signal par les valeurs des harmoniques sphériques associées à sa direction de provenance (en supposant le signal porté par une onde plane) pour obtenir autant de composantes ambisoniques. Pour cela, on calcule les coefficients pour chaque harmonique sphérique pour une position déterminée en azimutet en élévation φ à l’ordre désiré :
sest le signal mono à spatialiser etY(,φ) est le vecteur d’encodage définissant les coefficients des harmoniques sphériques associées à la direction
(, φ) pour l’ordre M. Un exemple de vecteur d’encodage est donné ci-après pour l’ordre 1 avec la convention SN3D et l’ordre des canaux SID ou FuMa:
Dans des variantes, d’autres convention de normalisation (ex : maxN, N3D) et d’ordre des canaux (ex : ACN) pourront être utilisées et les différents modes de réalisation sont alors adaptés en fonction de la convention utilisée pour l’ordre des ou la normalisation des composantes ambisoniques (FOA ou HOA). Cela revient à modifier l’ordre des lignesY(,φ) ou multiplier ces lignes par des constantes prédéfinies.
Pour les ordres supérieurs, les coefficients Y(,φ) des harmoniques sphériques peuvent être trouvés dans le livre de B.Rafaely, Fundamentals of Spherical Array Processing, Springer, 2015. De manière générale pour un ordre M, les signaux ambisoniques sont au nombre de K=(M+1)2.
De même, on rappelle ici quelques notions sur le rendu ou restitution ambisonique par haut-parleurs. Un son ambisonique n’est pas fait pour être écouté tel quel ; pour une écoute immersive sur haut-parleurs ou sur casque, une étape de « décodage » au sens acoustique aussi appelé rendu (« renderer » en anglais) doit être faite. On considère le cas de N haut-parleurs (virtuels ou physiques) répartis sur une sphère – typiquement de rayon unité - et dont les directions (, φn), n=0, …, N-1, en termes d’azimut et d’élévation sont connues. Le décodage, tel qu’on le considère ici, est une opération linéaire qui consiste à appliquer une matriceDaux signaux ambisoniquesBpour obtenir les signauxs n des haut-parleurs, que l’on peut rassembler en une matriceS=[s 0, … s N-1 ],S=D.B
.
On peut décomposer la matriceDen vecteurs lignesd n , soit
d n peut être vu comme un vecteur de pondération pour le nième haut-parleur, utilisé pour recombiner les composantes du signal ambisonique et calculer le signal joué sur le nième haut-parleur :s n =d n .B.
Il existe de multiples méthodes de « décodage » au sens acoustique. La méthode dite de « décodage basique » également dénommée « mode-matching », se base sur la matrice d’encodageEassociée à l’ensemble des directions de haut-parleurs virtuels :
Selon cette méthode, la matriceDse définit typiquement comme la pseudo-inverse deE :D=pinv(E)=D T (D.D T ) -1
En alternative, la méthode que l’on peut appeler « de projection » donne des résultats similaires pour certaines distributions régulières de directions, et se décrit par l’équation :
Dans ce dernier cas, on voit que pour chaque direction d’indice n,
Dans le cadre de cette invention, de telles matrices serviront de matrice de formation de faisceaux directifs (« beamforming » en anglais) décrivant comment obtenir des signaux caractéristiques de directions de l’espace dans le but d’opérer une analyse et/ou des transformations spatiales.
Dans le cadre de la présente invention, il est utile de décrire la conversion réciproque pour passer du domaine des haut-parleurs vers le domaine ambisonique. Il convient que l’application successive des deux conversions reproduise de façon exacte les signaux ambisoniques d’origine si aucune modification intermédiaire n’est appliquée dans le domaine des haut-parleurs. On définit donc la conversion réciproque comme mettant en jeu la pseudo-inverse deD :
pinv (D).S=D T (D.D T ) -1 .S
Quand K=(M+1)2, la matriceDde taille KxK est inversible sous certaines conditions et dans ce cas :B=D -1 .S
Dans le cas de la méthode « mode-matching », il apparaît que pinv(D)=E. Dans des variantes, d’autres méthodes de décodage parDpourront être utilisées, avec la conversion inverseEcorrespondante ; la seule condition à vérifier est que la combinaison du décodage parDet de la conversion inverse parEdoit donner une reconstruction parfaite (quand aucun traitement intermédiaire n’est réalisé entre le décodage acoustique et l’encodage acoustique).
De telles variantes sont par exemple données par :
- le décodage « mode-matching » avec un terme de régulation sous la forme
D T (D.D TI) -1où ε est une faible valeur (par exemple 0.01),
- Les décodages «  in phase » ou « max-rE » connus de l’état de l’art
- ou des variantes où la répartition des directions des haut-parleurs n’est pas régulière sur la sphère.
Lafigure 3représente un premier mode de réalisation d’un dispositif de codage et d’un dispositif de décodage pour la mise en œuvre d’un procédé de codage et de décodage incluant un procédé de détermination d’un ensemble de corrections tel que décrit en référence à la figure 2.
Dans ce mode de réalisation, le codeur calcule l’information représentative de l’image spatiale du signal multicanal d’origine et la transmet au décodeur afin de lui permettre de corriger la dégradation spatiale engendrée par le codage. Cela permet lors du décodage, d’atténuer les artéfacts spatiaux dans le signal ambisonique décodé.
Ainsi, le codeur reçoit un signal d’entrée multicanal par exemple de représentation ambisonique FOA, ou HOA, ou une représentation hybride avec un sous-ensemble de composantes ambisoniques jusqu’à un ordre ambisonique partiel donné – ce dernier cas est en fait inclus de façon équivalente dans le cas FOA ou HOA où les composantes ambisoniques manquantes sont nulles et l’ordre ambisonique est donné par l’ordre minimal requis pour inclure toutes les composantes définies. Ainsi, sans perte de généralité on considère dans la suite de la description les cas FOA ou HOA.
Dans le mode de réalisation ainsi décrit, le signal d’entrée est échantillonné à 32 kHz. Le codeur fonctionne par trames qui sont de façon préférentielle d’une longueur de 20 ms, soit L=640 échantillons par trame à 32 kHz. Dans des variantes, d’autres longueurs de trame et fréquences d’échantillonnage sont possibles (par exemple L=480 échantillons par trame de 10 ms à 48 kHz).
Dans un mode de réalisation privilégié, le codage est effectué dans le domaine temporel (sur une ou plusieurs bandes), cependant dans des variantes, l’invention peut être mise en œuvre dans un domaine transformé, par exemple après transformée de Fourier discrète court-terme (STFT) ou transformée en cosinus discrète modifiée (MDCT).
Selon le mode de réalisation de codage utilisé, comme expliqué en référence à la figure 2, un bloc 310 de réduction du nombre de canaux (DMX) peut être mis en œuvre ; l’entrée du bloc 311 est le signalB’en sortie du bloc 310 quand le downmix est mis en œuvre ou le signalBdans le cas contraire. Dans un mode de réalisation, si le downmix est appliqué, il consiste par exemple pour un signal d’entrée ambisonique d’ordre 1 à ne garder que le canal W et pour un signal d’entrée ambisonique d’ordre >1, à ne garder que les 4 premières composantes ambisoniques W, X, Y, Z (donc à tronquer le signal à l’ordre 1). D’autres types de downmix (comme ceux décrits précédemment avec une sélection d’un sous-ensemble de canaux et/ou un matriçage) peuvent être mis en œuvres sans que cela ne modifie le procédé selon l’invention.
Le bloc 311 code le signal audiob’ kdeB’en sortie du bloc 310 dans le cas où l’étape de downmix est effectuée ou  le signal audiob kdu signal multicanal d’origineB.Ce signal correspond aux composantes ambisoniques du signal multicanal d’origine si aucun traitement de réduction du nombre de canaux n’a été appliqué.
Dans un mode de réalisation privilégié, le bloc 311 utilise un codage multi-mono (COD) avec une allocation fixe ou variable, où le codec cœur est le codec normalisé 3GPP EVS. Dans cette approche multi-mono, chaque canalb k oub’ kest codé séparément par une instance du codec ; cependant, dans des variantes d’autres méthodes de codage sont possibles, par exemple un codage multi-stéréo ou un codage multicanal conjoint. On obtient donc, en sortie de ce bloc de codage 311, un signal audio codé issu du signal multicanal d’origine, sous forme de train binaire qui est envoyé au multiplexeur 340.
De façon optionnelle, le bloc 320 réalise une division en sous-bandes. Dans des variantes, cette division en sous-bandes pourra réutiliser des traitements équivalents effectués dans les blocs 310 ou 311 ; la séparation du bloc 320 est ici fonctionnelle.
Dans un mode de réalisation privilégié, les canaux du signal audio multicanal d’origine sont découpés en 4 sous-bandes fréquentielles de largeur respective 1 kHz, 3 kHz, 4 kHz, 8 kHz (ce qui revient à un découpage des fréquences selon les 0-1000, 1000-4000, 4000-8000 et 8000-16000 Hz. Ce découpage peut être mis en œuvre par le biais d’une transformée de Fourier discrète à court-terme (STFT), filtrage passe-bande dans le domaine de Fourier (par application d’un masque fréquentiel), et transformée inverse avec addition recouvrement. Dans ce cas, les sous-bandes restent échantillonnées à la même fréquence d’origine et le traitement selon l’invention s’applique dans le domaine temporel ; dans des variantes, on pourra utiliser un banc de filtre avec un échantillonnage critique. On notera que l’opération de découpage en sous-bandes implique en général un retard de traitement qui est fonction du type de banc de filtres mis en œuvre ; selon l’invention un alignement temporel pourra être appliqué avant ou après codage-décodage et/ou avant l’extraction d’informations d’image spatiale, de sorte que les informations d’image spatiale soient bien synchronisées temporellement avec le signal corrigé.
Dans des variantes, un traitement pleine bande pourra être effectué, ou le découpage en sous-bandes pourra être différent comme expliqué précédemment.
Dans d’autres variantes, le signal issu d’une transformée du signal audio multicanal d’origine est directement utilisé et l’invention s’applique dans le domaine transformé avec un découpage en sous-bandes dans le domaine transformé.
Dans la suite de la description, on décrit les différentes étapes du codage et du décodage comme s’il s’agissait d’un traitement dans le domaine temporel ou fréquentiel (réel ou complexe) avec une seule bande de fréquence afin de simplifier la description.
On pourra également mettre en œuvre, de façon optionnelle, dans chaque sous-bande, un filtrage passe-haut (de fréquence de coupure typiquement à 20 ou 50 Hz), par exemple sous la forme d’un filtre IIR elliptique d’ordre 2 dont la fréquence de coupure est de façon privilégiée fixée à 20 ou 50 Hz (50Hz dans des variantes). Ce prétraitement évite un biais potentiel pour l’estimation ultérieure de covariance lors du codage ; sans ce prétraitement, la correction mise en œuvre dans le bloc 390 décrit ultérieurement, aura tendance à amplifier les basses fréquences lors d’un traitement pleine bande.
Le bloc 321 détermine (Inf.B) une information représentative d’une image spatiale du signal multicanal d’origine.
Dans un mode de réalisation, cette information est une information d’énergie associée à des directions de provenance du son (associées à des directions de haut-parleurs virtuels répartis sur une sphère unité).
Pour ce faire, on définit une sphère 3D virtuelle de rayon unité, cette sphère 3D est discrétisée par N points (haut-parleurs virtuels « ponctuels ») dont la position est définie en coordonnées sphériques par les directions (, φn) pour le nième haut-parleur. Les haut-parleurs sont typiquement placés de manière (quasi-)uniforme sur la sphère. Le nombre N de haut-parleurs virtuels est déterminé comme une discrétisation ayant au moins N=K points, avec M l’ordre ambisonique du signal et K=(M+1)2, soit N≥K. Une méthode de quadrature de type « Lebedev » peut par exemple être utilisée pour effectuer cette discrétisation, selon les références V.I. Lebedev, and D.N. Laikov, « A quadrature formula for the sphere of the 131st algebraic order of accuracy », Doklady Mathematics, vol. 59, no. 3, 1999, pp. 477-481 ou Pierre Lecomte, Philippe-Aubert Gauthier, Christophe Langrenne, Alexandre Garcia et Alain Berry, On the use of a Lebedev grid for Ambisonics, AES Convention 139, New York, 2015.
Dans des variantes on pourra utiliser d’autres discrétisations, comme par exemple une discrétisation de Fliege avec au moins N=K points (N≥K), comme décrit dans la référence J. Fliege und U. Maier, « A two-stage approach for computing cubature formulae for the sphere », Technical Report, Dortmund University, 1999 ou bien une discrétisation en prenant les points d’un « spherical t-design » comme décrit dans l’article de R. H. Hardin and N. J. A. Sloane, « McLaren's Improved Snub Cube and Other New Spherical Designs in Three Dimensions », Discrete and Computational Geometry, 15 (1996), pp. 429-441.
A partir de cette discrétisation, on peut déterminer l’image spatiale du signal multicanal. Une méthode possible est par exemple la méthode SRP (pour « Steered-Response Power » en anglais). En effet, cette méthode consiste à calculer l’énergie court-terme provenant de différentes directions définies en termes d’azimut et d’élévation. Pour cela, comme expliqué précédemment, de manière similaire au rendu sur N haut-parleurs, une matrice de pondération des composantes ambisoniques est calculée, puis cette matrice est appliquée au signal multicanal pour sommer la contribution des composantes et réaliser un ensemble de N faisceaux acoustiques (ou « beamformers » en anglais).
Le signal issu du faisceau acoustique pour la direction (, φn) du nième haut-parleur est donné par :s n =d n .B
d n est le vecteur (ligne) de pondération donnant les coefficients de formation du faisceau acoustique pour la direction donnée etBest une matrice de taille KxL représentant le signal ambisonique (B-format) à K composantes, sur intervalle temporel de longueur L.
L’ensemble des signaux issus des N faisceaux acoustiques conduit à l’équation :S=D.B
etSest une matrice de taille NxL représentant les signaux de N haut-parleurs virtuels sur un intervalle temporel de longueur L.
L’énergie court-terme sur le segment temporel de longueur L pour chaque direction (, φn) est :
C=B.B T (cas réel) ou Re(B.B H ) (cas complexe) est la matrice de covariance deB.
Chaque termepeut être calculé ainsi pour l’ensemble des directions
(, φn) qui correspondent à une discrétisation de la sphère 3D par des haut-parleurs virtuels.
L’image spatialeest alors donnée par :
D’autres variantes de calcul d’une image spatiale que la méthode SRP, peuvent être utilisées.
- Les valeursd n peuvent varier selon le type de formation de faisceau acoustique utilisé (delay-sum, MVDR, LCMV…). L’invention s’applique aussi pour ces variantes de calcul de la matrice et de l’image spatiale
- La méthode MUSIC (MUltiple Signal Classification) fournit également une autre façon de calculer une image spatiale, avec une approche sous-espaces.
L’invention s’applique aussi dans cette variante de calcul de l’image spatiale

qui correspond au pseudo-spectre MUSIC calculé en diagonalisant la matrice de covariance et évalué pour les directions (, φn).
- L’image spatiale peut être calculée à partir d’un histogramme du vecteur intensité (à l’ordre 1) comme par exemple dans l’article de S. Tervo, Direction estimation based on sound intensity vectors, Proc. EUSIPCO, 2009, ou sa généralisation en vecteur pseudo-intensité. Dans ce cas, l’histogramme (dont les valeurs sont le nombre d’occurrences de valeurs de directions d’arrivée selon les directions prédéterminées (, φn)) est interprété comme un ensemble d’énergies selon les directions prédéterminées.
Le bloc 330 réalise alors une quantification de l’image spatiale ainsi déterminée, par exemple avec une quantification scalaire sur de 16 bits par coefficients (en utilisant directement la représentation en virgule flottante tronquée sur 16 bits). Dans des variantes, d’autres méthodes de quantification scalaire ou vectorielle sont possibles.
Dans un autre mode de réalisation, l’information représentative de l’image spatiale du signal multicanal d’origine est une matrice de covariance (des sous-bandes) des canaux d’entréeB. Cette matrice est calculée comme :
C = B.B T à un facteur de normalisation près (dans le cas réel).
Si l’invention est mise en œuvre dans un domaine par transformée à valeurs complexes, cette covariance se calcule comme :
C=Re (B.B H )
à un facteur de normalisation près.
Dans des variantes, des opérations de lissage temporel de la matrice de covariance pourront être utilisés. Dans les cas d’un signal multicanal dans le domaine temporel, la covariance peut être estimée de façon récursive (échantillon par échantillon).
La matrice de covarianceC(de taille KxK) étant, par définition, symétrique, seul un des triangles inférieur ou supérieur est transmis au bloc de quantification 330 qui code (Q) coefficients, K étant le nombre de composantes ambisoniques.
Ce bloc 330 réalise une quantification de ces coefficients, par exemple avec une quantification scalaire sur 16 bits par coefficient (en utilisant directement la représentation en virgule flottante tronquée sur 16 bits). Dans des variantes, d’autres méthodes de quantification scalaire ou vectorielle de la matrice de covariance pourront être mises en œuvre. Par exemple, on pourra calculer la valeur maximale (variance maximale) de la matrice de covariance puis coder par quantification scalaire avec un pas logarithmique, sur un nombre de bits plus faible (par exemple 8 bits), les valeurs du triangle supérieur (ou inférieur) de la matrice de covariance normalisée par sa valeur maximale.
Dans des variantes, la matrice de covarianceCpourra être régularisée avant quantification sous la formeC+εI.
Les valeurs quantifiées sont envoyées au multiplexeur 340.
Dans ce mode de réalisation, le décodeur reçoit dans le bloc démultiplexeur 350, un flux binaire comportant un signal audio codé issu du signal multicanal d’origine et l’information représentative d’une image spatiale du signal multicanal d’origine.
Le bloc 360 décode (Q-1) la matrice de covariance ou une autre information représentative de l’image spatiale du signal d’origine. Le bloc 370 décode (DEC) le signal audio tel que représenté par le flux binaire.
Dans un mode de réalisation du codage et du décodage, ne mettant pas en œuvre les étapes de downmix et d’upmix, le signal multicanal décodéest obtenu à la sortie du bloc de décodage 370.
Dans le mode de réalisation où l’étape de downmix a été utilisée au codage, le décodage mis en œuvre dans le bloc 370 permet d’obtenir un signal audio décodé qui est envoyé en entrée du bloc 371 d’upmix.
Ainsi, le bloc 371 met en œuvre une étape optionnelle (UPMIX) d’augmentation du nombre de canaux. Dans un mode de réalisation de cette étape, pour le canal d’un signal mono, elle consiste à convoluer le signalpar différentes réponses impulsionnelles spatiales de salle (SRIR pour « Spatial Room Impulse Response »); ces SRIRs sont définis à l’ordre ambisonique d’origine deB. D’autres méthodes de décorrélation sont possibles, par exemple l’application de filtres décorrélateurs passe-tout aux différents canaux du signal.
Le bloc 372 met en œuvre une étape optionnelle (SB) de division en sous-bandes pour obtenir soit des sous-bandes dans le domaine temporel ou dans un domaine transformé. Une étape inverse, dans le bloc 391, regroupe les sous-bandes pour retrouver un signal multicanal en sortie.
Le bloc 375 détermine (Inf) une information représentative d’une image spatiale du signal multicanal décodé de manière similaire à que ce qui a été décrit pour le bloc 321 (pour le signal multicanal d’origine), appliqué cette fois-ci au signal multicanal décodéobtenu en sortie du bloc 371 ou du bloc 370 selon les modes de réalisation de décodage.
De la même façon que ce qui a été décrit pour le bloc 321, dans un mode de réalisation, cette information est une information d’énergie associée à des directions de provenance du son (associées à des directions de haut-parleurs virtuels répartis sur une sphère unité). Comme expliqué plus haut, une méthode de type SRP (ou autre) peut être utilisée pour déterminer l’image spatiale du signal multicanal décodé.
Dans un autre mode de réalisation, cette information est une matrice de covariance des canaux du signal multicanal décodé.
Cette matrice de covariance est alors obtenue comme suit :
(cas réel) ou
(cas complexe) à un facteur de normalisation près.
Dans des variantes, des opérations de lissage temporel de la matrice de covariance pourront être utilisées. Dans les cas d’un signal multicanal dans le domaine temporel, la covariance peut être estimée de façon récursive (échantillon par échantillon).
A partir des informations représentatives des images spatiales respectivement du signal multicanal d’origine (Inf.B) et du signal multicanal décodé (Inf. ), par exemple, les matrices de covarianceCetĈ,le bloc 380 met en œuvre le procédé de détermination (Det.Corr) d’un ensemble de corrections tel que décrit en référence à la figure 2.
Deux modes de réalisation particuliers de cette détermination sont décrits en référence aux figures 4 et 5.
Dans le mode de réalisation de la figure 4, une méthode utilisant le rendu (explicite ou non) sur haut-parleur virtuel est utilisée et dans le mode de réalisation de la figure 5, une méthode mise en œuvre basée sur une factorisation de type Cholesky est utilisée.
Le bloc 390 de la figure 3 met en œuvre une correction (CORR) du signal multicanal décodé par l’ensemble de corrections déterminé par le bloc 380 pour obtenir un signal multicanal décodé corrigé.
Lafigure 4représente donc un mode de réalisation de l’étape de détermination d’un ensemble de corrections. Ce mode de réalisation s’effectue par l’utilisation du rendu sur haut-parleurs virtuels.
Dans ce mode de réalisation, on considère dans un premier temps que les informations représentatives de l’image spatiale du signal multicanal d’origine et du signal multicanal décodé sont les matrices de covariance respectivesCetĈ.
Dans ce cas, les blocs 420 et 421 déterminent respectivement les images spatiales du signal multicanal d’origine et du signal multicanal décodé.
Pour ce faire, comme décrit précédemment, on discrétise une sphère 3D virtuelle de rayon unité, par N points (haut-parleurs virtuels « ponctuels ») dont la direction est définie en coordonnées sphériques par les directions (, φn) pour le nième haut-parleur.
Plusieurs méthodes de discrétisation ont été définies ci-dessus.
A partir de cette discrétisation, on peut déterminer l’image spatiale du signal multicanal. Comme décrit précédemment une méthode possible est la méthode SRP (ou autre) qui consiste à calculer l’énergie court-terme provenant de différentes directions définies en termes d’azimut et d’élévation.
Cette méthode ou d’autres types de méthodes telles que listées précédemment peuvent être utilisées pour déterminer les images spatialeset (ISBet IS) respectivement du signal multicanal d’origine, en 420 (IMGB) et du signal multicanal décodé en 421 (IMG).
Dans le cas où l’information représentative de l’image spatiale du signal d’origine (InfB) reçue et décodée en 360 par le décodeur est l’image spatiale elle-même, c’est-à-dire une information d’énergie (ou une grandeur positive) associée à des directions de provenance du son (associées à des directions de haut-parleurs virtuels répartis sur une sphère unité), il n’est alors plus nécessaire de la calculer en 420. Cette image spatiale est alors utilisée directement par le bloc 430 décrit ci-après.
De même, si la détermination en 375 de l’information représentative de l’image spatiale du signal multicanal décodé (Inf) est l’image spatiale elle-même du signal multicanal décodé, alors il n’est plus nécessaire de la calculer en 421. Cette image spatiale est alors utilisée directement par le bloc 430 décrit-ci-après.
A partir des images spatialeset , le bloc 430 calcule (Ratio) pour chaque point donné par (, φn), le ratio d’énergie entre l’énergieσ n 2=du signal d’origine et l’énergiedu signal décodé. Un ensemble de gains gnest ainsi obtenu selon l’équation suivante :
Le ratio d’énergie, selon la direction (, φn) et la bande de fréquence, peut être très important. Le bloc 440 permet, de façon optionnelle, de limiter (Limit gn) la valeur maximale que peut prendre un gain gn. On rappelle ici que les grandeurs positives notéesσ n 2etpeuvent correspondre plus généralement à des quantités issues d’un pseudo-spectre MUSIC ou des valeurs issues d’un histogramme de directions d’arrivée selon les directions discrétisées (, φn).
Dans une réalisation possible, un seuil est appliqué à la valeur de gn. Toute valeur supérieure à ce seuil est forcée à être égale à cette valeur seuil. Le seuil peut être par exemple fixé à 6 dB, de sorte qu’une valeur de gain en dehors de l’intervalle6 dB est saturé à6 dB.
Cet ensemble de gains gnconstitue donc l’ensemble de corrections à apporter au signal multicanal décodé.
Cet ensemble de gains est reçu en entrée du bloc 390 de correction de la figure 3.
Une matrice de correction directement applicable au signal multicanal décodé peut être définie, par exemple sous la formeG=E.diag([g0... gN-1]).DDetEsont les matrices de décodage et d’encodage acoustiques définies précédemment Cette matriceGest appliquée au signal multicanal décodépour obtenir le signal ambisonique de sortie corrigé (corr).
Une décomposition des étapes mises en œuvre pour la correction est maintenant décrit. Le bloc 390 applique pour chaque haut-parleur virtuel, le gain gncorrespondant, déterminé précédemment. L’application de ce gain permet d’obtenir, sur ce haut-parleur, la même énergie que le signal d’origine.
Le rendu sur chaque haut-parleur des signaux décodés est ainsi corrigé.
Une étape d’encodage acoustique, par exemple un encodage ambisonique par la matriceEest alors mise en œuvre pour obtenir des composantes du signal multicanal, par exemple des composantes ambisoniques. Ces composantes ambisoniques sont finalement sommées pour obtenir le signal multicanal de sortie, corrigé (Corr). On peut donc calculer explicitement les canaux associés aux haut-parleurs virtuels, leur appliquer un gain, puis recombiner les canaux traités, ou de façon équivalente appliquer la matriceGau signal à corriger.
Dans des variantes, à partir de la matrice de covariance du signal multicanal codé puis décodé et de la matrice de correctionGon peut calculer dans le bloc 390 la matrice de covariance du signal corrigé comme :

Seule la valeur du premier coefficientR 00 de la matriceR, correspondant à la composante omnidirectionnelle (canal W), est conservée pour être appliquée comme facteur de normalisation àRet éviter une augmentation du gain global due à la matrice de correctionG:

G norm =gnorm .G
avec
où Ĉ00correspond au premier coefficient de la matrice de covariance du signal multicanal décodé.
Dans des variantes, le facteur de normalisation gnormpourra être déterminé sans calculer toute la matriceR, car il suffit de ne calculer qu’un sous-ensemble d’éléments matriciels pour déterminer R00(et donc gnorm).
La matriceGouG norm ainsi obtenue correspond à l’ensemble de corrections à apporter au signal multicanal décodé.
Lafigure 5représente, à présent, un autre mode de réalisation du procédé de détermination de l’ensemble de corrections mis en œuvre dans le bloc 380 de la figure 3.
Dans ce mode de réalisation, on considère que les informations représentatives de l’image spatiale du signal multicanal d’origine et du signal multicanal décodé sont les matrices de covariance respectivesCetĈ.
Dans ce mode de réalisation, on ne cherche pas à faire un rendu sur haut-parleurs virtuels pour corriger l’image spatiale d’un signal multicanal. De façon particulière, pour un signal ambisonique, on cherche à calculer la correction de l’image spatiale directement dans le domaine ambisonique.
Pour cela, une matrice de transformationTà appliquer au signal décodé est déterminée, de sorte que l’image spatiale modifiée après application de la matrice de transformationTau signal décodésoit la même que celle du signal d’origineB.
On cherche donc une matriceTqui vérifie l’équation suivante :T.Ĉ.T T =C
C=B.B T est la matrice de covariance deBetest la matrice de covariance de, dans la trame courante.
Dans ce mode de réalisation, on utilise une factorisation dite factorisation de Cholesky pour résoudre cette équation.
Etant donnée une matriceAde taille n x n, la factorisation de Cholesky consiste à déterminer une matriceLtriangulaire (inférieure ou supérieure) telle queA=LL T (cas réel) etA=LL H (cas complexe). Pour que la décomposition soit possible, la matriceAdoit être une matrice symétrique définie positive (cas réel) ou hermitienne définie positive (cas complexe) ; dans le cas réel, les coefficients diagonaux deLsont strictement positifs.
Dans le cas réel, une matriceMtaille n x n est dite symétrique définie positive si elle est symétrique (M T =M) et définie positive (x T Mx>0pour tout).
Pour une matrice symétriqueM, il est possible de vérifier que la matrice est définie positive si toutes ses valeurs propres sont strictement positives (). Si les valeurs propres sont positives (), la matrice est dite semi-définie positive.
Une matriceMtaille n x n est dite hermitienne symétrique définie positive si elle est hermitienne (M H =M) et définie positive (z H Mzest un réel >0 pour tout).
La factorisation de Cholesky est par exemple utilisée pour trouver une solution à un système d’équation linaire du typeAx=b. Par exemple, dans le cas complexe, il est possible de transformerAenLL H par la factorisation de Cholesky, de résoudreLy=bpuis de résoudreL H x=y.
De façon équivalente, la factorisation de Cholesky peut s’écrire commeA=U T U(cas réel) etA=U H U(cas complexe), oùUest une matrice triangulaire supérieure.
Dans le mode de réalisation décrit ici, sans perte de généralité, on ne traite que le cas d’une factorisation de Cholesky par matrice triangulaireL.
Ainsi, la factorisation de Cholesky permet de décomposer une matriceC=L.L T en deux matrices triangulaires à la condition que la matriceCsoit symétrique définie positive. Cela donne l’équation suivante :
.
Par identification, on trouve :
Soit :
Les matrices de covarianceCetĈétant en général des matrice semi-définies positives, la factorisation de Cholesky ne peut pas être utilisée telle quelle.
On note ici quand les matricesLetsont triangulaires inférieures (respectivement supérieures), la matrice de transformation est aussi triangulaire inférieure (respectivement supérieure).
Ainsi, le bloc 510 force la matrice de covarianceCà être définie positive. Pour cela, une valeur ɛ est ajoutée (Fact.Cpour factorisation deC) sur les coefficients de la diagonale de la matrice pour garantir que la matrice soit bien définie positive :C=CI, où ε est une faible valeur fixée par exemple à 10-9etIest la matrice identité.
De manière similaire, le bloc 520 force la matrice de covarianceĈà être définie positive, en modifiant cette matrice sous la formeĈ= ĈI, où ε est une faible valeur fixée par exemple à 10-9etIest la matrice identité.
Une fois que les deux matrices de covarianceCetĈsont conditionnées pour être définies positives, le bloc 530 calcule les factorisations de Cholesky associées et trouve (Det.T) la matrice de transformation optimaleTsous la forme
.
Dans des variantes, une résolution alternative peut être faite avec une décomposition en valeurs propres.
La décomposition en valeurs propres (« eigen decomposition » en anglais) consiste à factoriser une matrice réelle ou complexeAde taille sous la forme :
A=Q Λ Q-1
Λest une matrice diagonale contenant les valeurs propres λietQest la matrice des vecteurs propres.
Si la matrice est réelle: A=Q Λ QT
Dans le cas complexe, la décomposition s’écrit: A=Q Λ Q H
Dans le cas présent, on cherche alors une matriceTtelle que :T.Ĉ.T T =C
où C= Q Λ Qt et
,
soit :
Par identification on trouve :
Soit :
La stabilité de la solution d’une trame à l’autre est typiquement moins bonne qu’avec une approche par factorisation par Cholesky. A cette instabilité s’ajoutent de plus importantes approximations de calcul potentiellement plus grandes lors de la décomposition en valeurs propres.
Dans des variantes le calcul de la matrice diagonale

,
pourra être effectué élément par élément sous la forme
où sgn(.) est une fonction de signe (+1 si positif, -1 autrement) et ɛ est un terme de régularisation (par exemple ɛ=10-9) pour éviter les divisions par zéro.
Dans ce mode de réalisation, il est possible que la différence relative d’énergie entre le signal ambisonique décodé et le signal ambisonique corrigé soit très importante, notamment au niveau des hautes fréquences qui peuvent être fortement détériorées par les codeurs tels que le codage EVS multi-mono. Pour éviter d’amplifier de manière trop importante certaines zones fréquentielles un terme de régularisation peut être ajouté. Le bloc 640 se charge de manière optionnelle de normaliser (Norm.T) cette correction.
Dans le mode de réalisation privilégié, un facteur de normalisation est donc calculé pour ne pas amplifier de zones fréquentielles.
A partir de la matrice de covarianceĈdu signal multicanal codé puis décodé et de la matrice de transformationTon peut calculer la matrice de covariance du signal corrigé comme :
Seule la valeur du premier coefficient R00 de la matriceR, correspondant à la composante omnidirectionnelle (canal W), est conservée pour être appliquée comme facteur de normalisation àTet éviter une augmentation du gain global due à la matrice de correctionT:

T norm =gnorm .T
avec
où Ĉ00correspond au premier coefficient de la matrice de covariance du signal multicanal décodé.
Dans des variantes, le facteur de normalisation gnormpourra être déterminé sans calculer toute la matriceR, car il suffit de ne calculer qu’un sous-ensemble d’éléments matriciels pour déterminer R00(et donc gnorm).
La matriceTouT norm ainsi obtenue correspond à l’ensemble de corrections à apporter au signal multicanal décodé.
Avec ce mode de réalisation le bloc 390 de la figure 3 effectue l’étape de correction du signal multicanal décodé par application de la matrice de transformationTouT norm directement au signal multicanal décodé, dans le domaine ambisonique, pour obtenir le signal ambisonique de sortie corrigé (corr).
On décrit à présent un deuxième mode de réalisation d’un codeur/décodeur selon l’invention dans lequel le procédé de détermination de l’ensemble de corrections est mis en œuvre au codeur. Lafigure 6décrit ce mode de réalisation. Cette figure représente donc un deuxième mode de réalisation d’un dispositif de codage et d’un dispositif de décodage pour la mise en œuvre d’un procédé de codage et de décodage incluant un procédé de détermination d’un ensemble de corrections tel que décrit en référence à la figure 2.
Dans ce mode de réalisation le procédé de détermination de l’ensemble de corrections (par exemple des gains associés à des directions) est effectué au codeur qui transmet alors au décodeur cet ensemble de corrections. Le décodeur décode cet ensemble de corrections pour l’appliquer au signal multicanal décodé. Ce mode de réalisation implique donc de mettre en œuvre un décodage local au codeur, ce décodage local est représenté par les blocs 612 à 613.
Les blocs 610, 611, 620 et 621 sont identiques respectivement aux blocs 310, 311, 320 et 321 décrits en référence à la figure 3.
On obtient ainsi, à la sortie du bloc 621, une information représentative de l’image spatiale du signal multicanal d’origine (Inf.B).
Le bloc 612 met en œuvre un décodage local (DEC_loc) en lien avec le codage effectué par le bloc 611.
Ce décodage local peut consister en un décodage complet à partir du train binaire issu du bloc 611 ou de façon préférentielle il peut être intégré au bloc 611.
Dans un mode de réalisation du codage et du décodage, ne mettant pas en œuvre les étapes de downmix et d’upmix, le signal multicanal décodéest obtenu à la sortie du bloc de décodage local 612.
Dans le mode de réalisation où l’étape de downmix en 610 a été utilisée au codage, le décodage local mis en œuvre dans le bloc 612 permet d’obtenir un signal audio décodéqui est envoyé en entrée du bloc 613 d’upmix.
Ainsi, le bloc 613 met en œuvre une étape optionnelle (UPMIX) d’augmentation du nombre de canaux. Dans un mode de réalisation de cette étape, pour le canal d’un signal mono, elle consiste à convoluer le signalpar différentes réponses impulsionnelles spatiales de salle (SRIR pour « Spatial Room Impulse Response »); ces SRIRs sont définis à l’ordre ambisonique d’origine deB. D’autres méthodes de décorrélation sont possibles, par exemple l’application de filtres décorrélateurs passe-tout aux différents canaux du signal.
Le bloc 614 met en œuvre une étape optionnelle (SB) de division en sous-bandes pour obtenir soit des sous-bandes dans le domaine temporel ou dans un domaine transformé.
Le bloc 615 détermine (Inf) une information représentative d’une image spatiale du signal multicanal décodé de manière similaire à que ce qui a été décrit pour les blocs 621 et 321 (pour le signal multicanal d’origine), appliqué cette fois-ci au signal multicanal décodéobtenu en sortie du bloc 612 ou du bloc 613 selon les modes de réalisation du décodage local. Ce bloc 615 est équivalent au bloc 375 de la figure 3.
De la même façon que pour les blocs 621 et 321, dans un mode de réalisation, cette information est une information d’énergie associée à des directions de provenance du son (associées à des directions de haut-parleurs virtuels répartis sur une sphère unité). Comme expliqué plus haut, une méthode de type SRP ou autre (comme les variantes décrites précédemment) peut être utilisée pour déterminer l’image spatiale du signal multicanal décodé.
Dans un autre mode de réalisation, cette information est une matrice de covariance des canaux du signal multicanal décodé.
Cette matrice de covariance est alors obtenue comme suit :
à un facteur de normalisation près (dans le cas réel)
ou

à un facteur de normalisation près (dans le cas complexe)
A partir des informations représentatives des images spatiales respectivement du signal multicanal d’origine (Inf.B) et du signal multicanal décodé (Inf.), par exemple, les matrices de covarianceCetĈ,le bloc 680 met en œuvre le procédé de détermination (Det.Corr) d’un ensemble de corrections tel que décrit en référence à la figure 2.
Deux modes de réalisation particuliers de cette détermination sont possibles et ont été décrits en référence aux figures 4 et 5.
Dans le mode de réalisation de la figure 4, une méthode utilisant le rendu sur haut-parleur est utilisé et dans le mode de réalisation de la figure 5, une méthode mise en œuvre directement dans le domaine ambisonique basée sur une factorisation de type Cholesky ou par décomposition en valeurs propres est utilisée.
Ainsi, si le mode de réalisation de la figure 4 est appliqué en 630, l’ensemble de corrections déterminé est un ensemble de gains gnpour un ensemble de directions
(, φn) définis par un ensemble de haut-parleurs virtuels. Cet ensemble de gains peut être déterminé sous la forme d’une matrice de correctionGcomme décrit en référence à la figure 4.
Cet ensemble de gains (Corr.) est alors codé en 640. Le codage de cet ensemble de gains peut consister au codage de la matrice de correctionG ou G norm .
On note que la matriceGde taille KxK est symétrique, ainsi selon l’invention il est possible de ne coder que le triangle inférieur ou supérieur deGouG norm , soit Kx(K+1)/2 valeurs. En général, les valeurs sur la diagonale sont positives. Dans un mode de réalisation le codage de la matriceGouG norm est effectué par quantification scalaire (avec ou sans bit de signe) selon que les valeurs sont hors diagonale ou non. Dans les variantes oùG norm est utilisée, on pourra omettre de coder et transmettre la première valeur de la diagonale (correspondant à la composante omnidirectionnelle) deG norm car elle est toujours à 1 ; par exemple dans le cas ambisonique d’ordre 1 à K=4 canaux cela revient à ne transmettre que 9 valeurs au lieu de Kx(K+1)/2=10 valeurs. Dans des variantes, d’autres méthodes de quantification scalaire ou vectorielle (avec ou sans prédiction) pourront être utilisées.
Si le mode de réalisation de la figure 5 est appliqué en 630, l’ensemble de corrections déterminé est une matrice de transformationTouT norm qui est alors codée en 640.
On note que la matriceTde taille KxK est triangulaire dans la variante utilisant factorisation de Cholesky et symétrique dans la variante utilisant la décomposition en valeurs propres; ainsi selon l’invention il est possible de ne coder que le triangle inférieur ou supérieur deTouT norm , soit Kx(K+1)/2 valeurs.
En général, les valeurs sur la diagonale sont positives. Dans un mode de réalisation le codage de la matriceTouT norm est effectué par quantification scalaire (avec ou sans bit de signe) selon que les valeurs sont hors diagonale ou non. Dans des variantes, d’autres méthodes de quantification scalaire ou vectorielle (avec ou sans prédiction) pourront être utilisées. Dans les variantes oùT norm est utilisée, on pourra omettre de coder et transmettre la première valeur de la diagonale (correspondant à la composante omnidirectionnelle) deT norm car elle est toujours à 1 ; par exemple dans le cas ambisonique d’ordre 1 à K=4 canaux cela revient à ne transmettre que 9 valeurs au lieu de Kx(K+1)/2=10 valeurs.
Le bloc 640 code ainsi l’ensemble de corrections déterminé et envoie l’ensemble codé de corrections au multiplexeur 650.
Le décodeur reçoit dans le bloc démultiplexeur 660, un flux binaire comportant un signal audio codé issu du signal multicanal d’origine et l’ensemble codé de corrections à appliquer au signal multicanal décodé.
Le bloc 670 décode (Q-1) l’ensemble codé de corrections. Le bloc 680 décode (DEC) le signal audio codé reçu dans le flux.
Dans un mode de réalisation du codage et du décodage, ne mettant pas en œuvre les étapes de downmix et d’upmix, le signal multicanal décodéest obtenu à la sortie du bloc de décodage 680.
Dans le mode de réalisation où l’étape de downmix a été utilisée au codage, le décodage mis en œuvre dans le bloc 680 permet d’obtenir un signal audio décodéqui est envoyé en entrée du bloc 681 d’upmix.
Ainsi, le bloc 681 met en œuvre une étape optionnelle (UPMIX) d’augmentation du nombre de canaux. Dans un mode de réalisation de cette étape, pour le canal d’un signal mono, elle consiste à convoluer le signalpar différentes réponses impulsionnelles spatiales de salle (SRIR pour « Spatial Room Impulse Response »); ces SRIRs sont définis à l’ordre ambisonique d’origine deB. D’autres méthodes de décorrélation sont possibles, par exemple l’application de filtres décorrélateurs passe-tout aux différents canaux du signal.
Le bloc 682 met en œuvre une étape optionnelle (SB) de division en sous-bandes pour obtenir soit des sous-bandes dans le domaine temporel ou dans un domaine transformé et le bloc 691 regroupe les sous-bandes pour retrouver le signal multicanal de sortie.
Le bloc 690 met en œuvre une correction (CORR) du signal multicanal décodé par l’ensemble de corrections décodé au bloc 670 pour obtenir un signal multicanal décodé corrigé (Corr).
Dans un mode de réalisation où l’ensemble de corrections est un ensemble de gains comme décrit en référence à la figure 4, cet ensemble de gains est reçu en entrée du bloc 690 de correction.
Si l’ensemble de gains est sous la forme d’une matrice de correction directement applicable au signal multicanal décodé, définie, par exemple sous la forme
G=E.diag([g0... gN-1]).Dou G norm=gnorm.G ,cette matriceGouG normest alors appliquée au signal multicanal décodé pour obtenir le signal ambisonique de sortie corrigé (Corr).
Si le bloc 690 reçoit un ensemble de gains gn, le bloc 690 applique pour chaque haut-parleur virtuel, le gain gncorrespondant. L’application de ce gain permet d’obtenir, sur ce haut-parleur, la même énergie que le signal d’origine.
Le rendu sur chaque haut-parleur des signaux décodés est ainsi corrigé.
Une étape d’encodage acoustique, par exemple un encodage ambisonique, est alors mise en œuvre pour obtenir des composantes du signal multicanal, par exemple des composantes ambisoniques. Ces composantes ambisoniques sont alors sommées pour obtenir le signal multicanal de sortie, corrigé (Corr).
Dans un mode de réalisation où l’ensemble de corrections est une matrice de transformation comme décrit en référence à la figure 5, la matrice de transformationTdécodée en 670 est reçue en entrée du bloc 690 de correction.
Avec ce mode de réalisation, le bloc 690 effectue l’étape de correction du signal multicanal décodé par application de la matrice de transformationTouT norm directement au signal multicanal décodé, dans le domaine ambisonique, pour obtenir le signal ambisonique de sortie corrigé (Corr).
Même si l’invention s’applique au cas ambisonique, dans des variantes on pourra convertir d’autres formats (multicanal, objet…) en ambisonique pour appliquer les procédés mis en œuvre selon les différents modes de réalisation décrits. Un exemple de réalisation d’une telle conversion d’un format multicanal ou objet à un format ambisonique est décrit à la figure 2 de la spécification 3GPP TS 26.259 (v15.0.0).
On a illustré sur lafigure 7un dispositif de codage DCOD et un dispositif de décodage DDEC, au sens de l’invention, ces dispositifs étant duals l’un de l’autre (dans le sens de « réversibles ») et reliés l’un à l’autre par un réseau de communication RES.
Le dispositif de codage DCOD comporte un circuit de traitement incluant typiquement :
- une mémoire MEM1 pour stocker des données d’instructions d’un programme informatique au sens de l’invention (ces instructions pouvant être réparties entre le codeur DCOD et le décodeur DDEC) ;
- une interface INT1 de réception d’un signal multicanal d’origineB, par exemple un signal ambisonique réparti sur différents canaux (par exemple quatre canaux W, Y, Z, X à l’ordre 1) en vue de son codage en compression au sens de l’invention ;
- un processeur PROC1 pour recevoir ce signal et le traiter en exécutant les instructions de programme informatique que stocke la mémoire MEM1, en vue de son codage ; et
- une interface de communication COM 1 pour transmettre les signaux codés via le réseau.
Le dispositif de décodage DDEC comporte un circuit de traitement propre, incluant typiquement :
- une mémoire MEM2 pour stocker des données d’instructions d’un programme informatique au sens de l’invention (ces instructions pouvant être réparties entre le codeur DCOD et le décodeur DDEC comme indiqué précédemment) ;
- une interface COM2 pour recevoir du réseau RES les signaux codés en vue de leur décodage en compression au sens de l’invention ;
- un processeur PROC2 pour traiter ces signaux en exécutant les instructions de programme informatique que stocke la mémoire MEM2, en vue de leur décodage ; et
- une interface de sortie INT2 pour délivrer les signaux décodés corrigés (Corr) par exemple sous forme de canaux ambisoniques W…X, en vue de leur restitution.
Bien entendu, cette figure 7 illustre un exemple d’une réalisation structurelle d’un codec (codeur ou décodeur) au sens de l’invention. Les figures 3 à 6 commentées ci-dessus décrivent en détails des réalisations plutôt fonctionnelles de ces codecs.

Claims (14)

  1. Procédé de détermination d’un ensemble de corrections (Corr.) à apporter à un signal sonore multicanal, dans lequel l’ensemble de corrections est déterminé à partir d’une information représentative d’une image spatiale d’un signal multicanal d’origine (Inf.B) et d’une information représentative d’une image spatiale du signal multicanal d’origine codé puis décodé (Inf.).
  2. Procédé selon l’une des revendications 1 ou 2, dans lequel la détermination de l’ensemble de corrections est effectuée par sous-bande de fréquence.
  3. Procédé de décodage d’un signal sonore multicanal, comportant les étapes suivantes :
    -réception (350) d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et une information représentative d’une image spatiale du signal multicanal d’origine ;
    - décodage (370) du signal audio codé reçu et obtention d’un signal multicanal décodé;
    - décodage (360) de l’information représentative d’une image spatiale du signal multicanal d’origine ;
    - détermination (375) d’une information représentative d’une image spatiale du signal multicanal décodé ;
    - détermination (380) d’un ensemble de corrections à apporter au signal décodé selon le procédé de détermination conforme à l’une des revendications 1 à 2 ;
    - correction (390) du signal multicanal décodé par l’ensemble de corrections déterminé.
  4. Procédé de codage d’un signal sonore multicanal, comportant les étapes suivantes :
    -codage (611) d’un signal audio issu d’un signal multicanal d’origine;
    - détermination (621) d’une information représentative d’une image spatiale du signal multicanal d’origine ;
    - décodage local (612) du signal audio codé et obtention d’un signal multicanal décodé;
    - détermination (615) d’une information représentative d’une image spatiale du signal multicanal décodé ;
    - détermination (630) d’un ensemble de corrections à apporter au signal multicanal décodé selon le procédé de détermination conforme à l’une des revendications 1 à 2 ;
    - codage (640) de l’ensemble de corrections déterminé.
  5. Procédé de décodage selon la revendication 3 ou procédé de codage selon la revendication 4, dans lesquels l’information représentative d’une image spatiale est une matrice de covariance et la détermination de l’ensemble de corrections comporte en outre les étapes suivantes :
    - obtention d’une matrice de pondération comportant des vecteurs de pondération associés à un ensemble de haut-parleurs virtuels;
    - détermination d’une image spatiale du signal multicanal d’origine à partir de la matrice de pondération obtenue et à partir de la matrice de covariance du signal multicanal d’origine ;
    - détermination d’une image spatiale du signal multicanal décodé à partir de la matrice de pondération obtenue et à partir de la matrice de covariance du signal multicanal décodé déterminé;
    - calcul d’un ratio entre l’image spatiale du signal multicanal d’origine et l’image spatiale du signal multicanal décodé aux directions des haut-parleurs de l’ensemble de haut-parleurs virtuels, pour obtenir un ensemble de gains.
  6. Procédé de décodage selon la revendication 3, dans lequel l’information représentative d’une image spatiale du signal multicanal d’origine reçue est l’image spatiale du signal multicanal d’origine et la détermination de l’ensemble de corrections comporte en outre les étapes suivantes :
    - obtention d’une matrice de pondération comportant des vecteurs de pondération associés à un ensemble de haut-parleurs virtuels;
    - détermination d’une image spatiale du signal multicanal décodé à partir de la matrice de pondération obtenue et à partir de l’information représentative d’une image spatiale du signal multicanal décodé déterminé;
    - calcul d’un ratio entre l’image spatiale du signal multicanal d’origine et l’image spatiale du signal multicanal décodé aux directions des haut-parleurs de l’ensemble de haut-parleurs virtuels, pour obtenir un ensemble de gains.
  7. Procédé de décodage selon la revendication 3 ou procédé de codage selon la revendication 4, dans lesquels l’information représentative d’une image spatiale est une matrice de covariance et la détermination de l’ensemble de corrections comporte une étape de détermination d’une matrice de transformation par décomposition matricielle des deux matrices de covariance, la matrice de transformation constituant l’ensemble des corrections.
  8. Procédé de décodage selon l’une des revendications 5 à 8, dans lequel la correction du signal multicanal décodé par l’ensemble de corrections déterminé est effectuée par l’application de l’ensemble des corrections au signal multicanal décodé.
  9. Procédé de décodage selon l’une des revendications 5 à 6, dans lequel la correction du signal multicanal décodé par l’ensemble de corrections déterminé est effectuée selon les étapes suivantes :
    - décodage acoustique du signal multicanal décodé sur l’ensemble défini de haut-parleurs virtuels ;
    - application de l’ensemble de gains obtenu aux signaux issus du décodage acoustique ;
    - codage acoustique des signaux issus du décodage acoustique et corrigés pour obtenir des composantes du signal multicanal ;
    - sommation des composantes du signal multicanal ainsi obtenues pour obtenir un signal multicanal corrigé.
  10. Procédé de décodage d’un signal sonore multicanal, comportant les étapes suivantes :
    -réception d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et un ensemble codé de corrections à apporter au signal multicanal décodé, l’ensemble de corrections ayant été codé selon un procédé de codage conforme à l’une des revendications 4,5 ou 7;
    - décodage du signal audio codé reçu et obtention d’un signal multicanal décodé;
    - décodage de l’ensemble codé de corrections ;
    - correction du signal multicanal décodé par l’application de l’ensemble de corrections décodé au signal multicanal décodé.
  11. Procédé de décodage d’un signal sonore multicanal, comportant les étapes suivantes :
    -réception d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et un ensemble codé de corrections à apporter au signal multicanal décodé, l’ensemble de corrections ayant été codé selon un procédé de codage conforme à la revendication 5;
    - décodage du signal audio codé reçu et obtention d’un signal multicanal décodé;
    - décodage de l’ensemble codé de corrections ;
    - correction du signal multicanal décodé par l’ensemble de corrections décodé selon les étapes suivantes :
    . décodage acoustique du signal multicanal décodé sur l’ensemble de haut-parleurs virtuels ;
    . application de l’ensemble de gains obtenu aux signaux issuq du décodage acoustique ;
    . codage acoustique des signaux issus du décodage acoustique et corrigés pour obtenir des composantes du signal multicanal ;
    . sommation des composantes du signal multicanal ainsi obtenues pour obtenir un signal multicanal corrigé.
  12. Dispositif de décodage comportant un circuit de traitement pour la mise en œuvre du procédé de décodage selon l’une des revendications 3 ou 5 à 11.
  13. Dispositif de codage comportant un circuit de traitement pour la mise en œuvre du procédé de codage selon l’une des revendications 4, 5 ou 7.
  14. Support de stockage, lisible par un processeur, mémorisant un programme informatique comportant des instructions pour l’exécution du procédé de décodage selon l’une des revendications 3 ou 5 à 11 ou du procédé de codage selon l’une des revendications 4,5 ou 7.
FR1910907A 2019-10-02 2019-10-02 Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés Pending FR3101741A1 (fr)

Priority Applications (10)

Application Number Priority Date Filing Date Title
FR1910907A FR3101741A1 (fr) 2019-10-02 2019-10-02 Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
JP2022520097A JP2022550803A (ja) 2019-10-02 2020-09-24 マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化
US17/764,064 US20220358937A1 (en) 2019-10-02 2020-09-24 Determining corrections to be applied to a multichannel audio signal, associated coding and decoding
KR1020227013459A KR20220076480A (ko) 2019-10-02 2020-09-24 다중채널 오디오 신호에 적용될 보정의 결정, 관련 코딩 및 디코딩
EP20792467.1A EP4042418B1 (fr) 2019-10-02 2020-09-24 Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
PCT/FR2020/051668 WO2021064311A1 (fr) 2019-10-02 2020-09-24 Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
BR112022005783A BR112022005783A2 (pt) 2019-10-02 2020-09-24 Determinar correções a serem aplicadas a um sinal de áudio multicanal, codificação e decodificação associadas
CN202080069491.9A CN114503195A (zh) 2019-10-02 2020-09-24 确定要应用于多声道音频信号的校正、相关编码和解码
ES20792467T ES2965084T3 (es) 2019-10-02 2020-09-24 Determinación de correcciones a aplicar a una señal de audio multicanal, codificación y decodificación asociadas
ZA2022/03157A ZA202203157B (en) 2019-10-02 2022-03-16 Determining corrections to be applied to a multichannel audio signal, associated coding and decoding

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1910907 2019-10-02
FR1910907A FR3101741A1 (fr) 2019-10-02 2019-10-02 Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés

Publications (1)

Publication Number Publication Date
FR3101741A1 true FR3101741A1 (fr) 2021-04-09

Family

ID=69699960

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1910907A Pending FR3101741A1 (fr) 2019-10-02 2019-10-02 Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés

Country Status (10)

Country Link
US (1) US20220358937A1 (fr)
EP (1) EP4042418B1 (fr)
JP (1) JP2022550803A (fr)
KR (1) KR20220076480A (fr)
CN (1) CN114503195A (fr)
BR (1) BR112022005783A2 (fr)
ES (1) ES2965084T3 (fr)
FR (1) FR3101741A1 (fr)
WO (1) WO2021064311A1 (fr)
ZA (1) ZA202203157B (fr)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010000313A1 (fr) * 2008-07-01 2010-01-07 Nokia Corporation Appareil et procédé pour ajuster des informations de repère spatial d'un signal audio à canaux multiples
EP2717261A1 (fr) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codeur, décodeur et procédés pour le codage d'objet audio spatial à multirésolution rétrocompatible
WO2015003027A1 (fr) * 2013-07-05 2015-01-08 Dolby International Ab Appareil et procédé de dissimulation de pertes de paquets, et système de traitement audio
EP3067886A1 (fr) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codeur audio de signal multicanal et décodeur audio de signal audio codé
WO2017153697A1 (fr) * 2016-03-10 2017-09-14 Orange Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007109338A1 (fr) * 2006-03-21 2007-09-27 Dolby Laboratories Licensing Corporation Codage et décodage audio à faible débit binaire
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
EP2175670A1 (fr) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rendu binaural de signal audio multicanaux
JP5608660B2 (ja) * 2008-10-10 2014-10-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) エネルギ保存型マルチチャネルオーディオ符号化
JP5656879B2 (ja) * 2010-07-30 2015-01-21 パナソニックIpマネジメント株式会社 画像復号化装置、画像復号化方法、画像符号化装置および画像符号化方法
CN105612766B (zh) * 2013-07-22 2018-07-27 弗劳恩霍夫应用研究促进协会 使用渲染音频信号的解相关的多声道音频解码器、多声道音频编码器、方法、以及计算机可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010000313A1 (fr) * 2008-07-01 2010-01-07 Nokia Corporation Appareil et procédé pour ajuster des informations de repère spatial d'un signal audio à canaux multiples
US20110103591A1 (en) * 2008-07-01 2011-05-05 Nokia Corporation Apparatus and method for adjusting spatial cue information of a multichannel audio signal
EP2717261A1 (fr) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codeur, décodeur et procédés pour le codage d'objet audio spatial à multirésolution rétrocompatible
WO2015003027A1 (fr) * 2013-07-05 2015-01-08 Dolby International Ab Appareil et procédé de dissimulation de pertes de paquets, et système de traitement audio
EP3067886A1 (fr) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codeur audio de signal multicanal et décodeur audio de signal audio codé
WO2017153697A1 (fr) * 2016-03-10 2017-09-14 Orange Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
J. FLIEGEU. MAIER: "Technical Report", 1999, DORTMUND UNIVERSITY, article "A two-stage approach for computing cubature formulae for the sphere"
PIERRE LECOMTEPHILIPPE-AUBERT GAUTHIERCHRISTOPHE LANGRENNEALEXANDRE GARCIAALAIN BERRY: "On the use of a Lebedev grid for Ambisonics", AES CONVENTION, vol. 139, 2015
R. H. HARDINN. J. A. SLOANE: "McLaren's Improved Snub Cube and Other New Spherical Designs in Three Dimensions", DISCRÈTE AND COMPUTATIONAL GEOMETRY, vol. 15, 1996, pages 429 - 441
V.I. LEBEDEVD.N. LAIKOV: "A quadrature formula for the sphere of the 131st algebraic order of accuracy", DOKLADY MATHEMATICS, vol. 59, no. 3, 1999, pages 477 - 481

Also Published As

Publication number Publication date
BR112022005783A2 (pt) 2022-06-21
ZA202203157B (en) 2022-11-30
JP2022550803A (ja) 2022-12-05
KR20220076480A (ko) 2022-06-08
EP4042418A1 (fr) 2022-08-17
WO2021064311A1 (fr) 2021-04-08
US20220358937A1 (en) 2022-11-10
EP4042418B1 (fr) 2023-09-06
ES2965084T3 (es) 2024-04-10
CN114503195A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
US11832080B2 (en) Spatial audio parameters and associated spatial audio playback
KR102427245B1 (ko) 고차 앰비소닉스 신호 표현의 압축 및 압축 해제 방법 및 장치
EP2002424B1 (fr) Dispositif et procede de codage scalable d'un signal audio multi-canal selon une analyse en composante principale
EP2143102B1 (fr) Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
US10553223B2 (en) Adaptive channel-reduction processing for encoding a multi-channel audio signal
EP3935629A1 (fr) Codage audio spatialisé avec interpolation et quantification de rotations
FR3049084A1 (fr)
WO2018162803A1 (fr) Procédé et agencement d'analyse paramétrique et traitement de scènes sonores spatiales codées de manière ambisonique
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
JP2022536676A (ja) DirACベースの空間オーディオ符号化のためのパケット損失隠蔽
KR101805327B1 (ko) 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
Mahé et al. First-order ambisonic coding with quaternion-based interpolation of PCA rotation matrices
FR3112015A1 (fr) Codage optimisé d’une information représentative d’une image spatiale d’un signal audio multicanal
WO2023232823A1 (fr) Titre: codage audio spatialisé avec adaptation d'un traitement de décorrélation
FR3118266A1 (fr) Codage optimisé de matrices de rotations pour le codage d’un signal audio multicanal
WO2023285748A1 (fr) Quantification vectorielle spherique optimisee

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210409