FR2916079A1

FR2916079A1 - Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes

Info

Publication number: FR2916079A1
Application number: FR0703349A
Authority: FR
Inventors: Adil Mouhssine; Touimi Abdellatif Benjelloun
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2007-05-10
Filing date: 2007-05-10
Publication date: 2008-11-14
Also published as: CN101730832A; CN101730832B; WO2008145893A3; WO2008145893A2; US8488824B2; EP2145167A2; ATE538369T1; EP2145167B1; US20100305952A1

Abstract

Procédé d'ordonnancement de composantes spectrales d'éléments à coder (A1,..., AQ) provenant d'une scène audio comprenant N signaux (Sii=1 à N), avec N>1, un élément à coder comportant des composantes spectrales se rapportant à des bandes spectrales respectives, caractérisé en ce qu'il comporte les étapes suivantes :- calcul de l'influence respective d'au moins certaines composantes spectrales calculables en fonction de paramètres spectraux issus de certains au moins des N signaux, sur des rapports masque à bruit déterminés sur les bandes spectrales en fonction d'un codage desdites composantes spectrales ;- attribution d'un ordre de priorité à au moins une composante spectrale en fonction de l'influence calculée pour ladite composante spectrale comparée aux autres influences calculées.

Description

PROCEDE DE CODAGE ET DECODAGE AUDIO, CODEUR AUDIO, DECODEUR AUDIO ET

PROGRAMMES D'ORDINATEUR ASSOCIES La présente invention concerne les dispositifs de codage de signaux audio, destinés notamment à prendre place dans des applications de transmission ou de stockage de signaux audio numérisés et compressés. L'invention est relative plus précisément aux systèmes de codage hiérarchique audio, ayant la capacité de fournir des débits variés, en répartissant les informations relatives à un signal audio à coder dans des sous-. ensembles hiérarchisés, de telle sorte qu'elles puissent être utilisées par ordre d'importance sur le plan de la qualité audio. Le critère pris en compte pour déterminer l'ordre est un critère d'optimisation (ou plutôt de moindre dégradation) de la qualité du signal audio codé. Le codage hiérarchique est particulièrement adapté à la transmission sur des réseaux hétérogènes ou présentant des débits disponibles variables au cours du temps, ou encore à la transmission à destination de terminaux présentant des caractéristiques différentes ou variables. L'invention concerne plus particulièrement le codage hiérarchique de scène sonore 3D. Une scène sonore 3D comprend une pluralité de canaux audio correspondant à des signaux monophoniques audio et est encore appelée son spatialisé. Une scène sonore codée est destinée à être reproduite sur un système de rendu sonore, qui peut comprendre un simple casque, deux haut-parleurs d'un ordinateur ou encore un système de type Cinéma maison 5.1 (en anglais Home Cinema ) avec cinq haut-parleurs (un haut-parleur au niveau de l'écran et à l'avant de l'auditeur théorique : un haut-parleur à gauche et un haut-parleur à droite ; à l'arrière de l'auditeur théorique : un haut-parleur à gauche et un haut-parleur à droite), etc.

Par exemple, considérons une scène sonore d'origine comportant trois sources sonores distinctes, localisées à différents endroits dans l'espace. Les signaux de description de cette scène sonore sont codés. Les données issues de ce codage sont transmises au décodeur, puis sont décodées. Les données décodées sont exploitées afin de générer cinq signaux destinés aux cinq haut-. 2 parleurs du système de rendu sonore. Chacun des cinq haut-parleurs diffusent un des signaux, l'ensemble des signaux diffusés par les haut-parleurs synthétisant la scène sonore 3D et donc positionnant dans l'espace trois sources sonores virtuelles.

Il existe différentes techniques de codage de scènes sonores. Par exemple, une technique utilisée comprend la détermination d'éléments de description de la scène sonore, puis des opérations de compression de chacun des signaux monophoniques. Les données issues de ces compressions et les éléments de description sont alors fournis au décodeur. L'adaptabilité (encore appelée scalabilité) en débit selon cette première technique est donc réalisable, en adaptant le débit lors des opérations de compression, mais elle est réalisée selon des critères d'optimisation de la qualité de chaque signal considéré individuellement.

Une autre technique de codage, qui est utilisée dans le codeur MPEG Audio Surround (cf. Text of ISO/IEC FDIS 23003-1, MPEG Surround , ISO/IEC JTC1 / SC29 / WG11 N8324, July 2006, Klagenfurt, Austria), comprend l'extraction et le codage de paramètres spatiaux à partir de l'ensemble des signaux audio monophoniques sur les différents canaux. Ces signaux sont ensuite mélangés pour obtenir un signal monophonique ou stéréophonique, qui est alors comprimé par un codeur mono ou stéréo classique (par exemple de type MPEG-4 AAC, HE-AAC, etc). Au niveau du décodeur, la synthèse de la scène sonore 3D se fait à partir des paramètres spatiaux et du signal mono ou stéréo décodé.

L'adaptabilité en débit avec cette autre technique est ainsi réalisable en utilisant un codeur mono ou stéréo hiérarchique, mais elle est réalisée selon un critère d'optimisation de la qualité du signal monophonique ou stérophonique. Par ailleurs, la méthode PSMAC (en anglais Progressive Syntax-rich Multichannel Audio Codec ) permet de coder les signaux de différents canaux en utilisant la transformée KLT (en anglais Karhunen Loeve Transform ), utile principalement pour la décorrélation des signaux et qui correspond à une décomposition sur des composantes principales dans un espace représentant 3 les statistiques des signaux. Elle permet de distinguer les composantes les plus énergétiques des composantes les moins énergétiques. L'adaptabilité en débit est basée sur une annulation des composantes les moins énergétiques. Toutefois, ces composantes peuvent parfois avoir une grande importance quant à la qualité audio globale. Ainsi, si les techniques connues donnent de bons résultats en termes d'adaptabilité en débit, aucune ne propose une méthode d'adaptabilité en débit pleinement satisfaisante sur la base d'un critère d'optimisation de la qualité audio globale, en vue de définir des données compressées optimisant la qualité audio globale perçue, lors de la restitution de la scène sonore 3D décodée. Par ailleurs, aucune des techniques de codage de scène sonore 3D connues ne permet d'adaptabilité en débit sur la base d'un critère d'optimisation de la résolution spatiale, lors de la restitution de la scène sonore 3D. Cette adaptabilité permet de garantir que chaque réduction de débit: dégradera le moins possible la précision de la localisation des sources sonores dans l'espace, ainsi que la dimension de la zone de restitution, qui doit être la plus large possible autour de la tête de l'auditeur. En outre, aucune des techniques de codage de scène sonore 3D connues ne permet d'adaptabilité en débit qui permette de garantir directement une qualité optimale quel que soit le système de rendu sonore utilisé pour la restitution de la scène sonore 3D. Les algorithmes de codage actuels sont définis pour optimiser la qualité par rapport à une configuration particulière dut système de rendu sonore. En effet, par exemple dans le cas du codeur MPEG Audio Surround décrit ci-dessus mis en oeuvre avec un codage hiérarchique, une écoute directe sur casque ou deux haut-parleurs, ou encore en monophonique est possible. Si on souhaite exploiter le flux binaire compressé avec un système de rendu sonore de type 5.1 ou 7.1, il faut mettre en oeuvre des traitements supplémentaires au niveau du décodeur, par exemple à l'aide de boîtiers OTT (en anglais One-To-Two ) pour générer les cinq signaux à partir des deux signaux décodés. Ces boîtiers permettent d'obtenir le nombre désiré de signaux dans le cas d'un système de rendu sonore de type 5.1 ou 7.1, mais ne permettent pas de reproduire l'aspect spatial réel. En outre, ces boîtiers ne garantissent pas l'adaptabilité à des systèmes de rendu sonores autres que ceux du type 5.1 et 7.1. La présente invention vient améliorer la situation. A cet effet la présente invention vise à proposer, suivant un premier aspect, un procédé d'ordonnancement de composantes spectrales d'éléments à coder provenant d'une scène audio comprenant N signaux avec N>1, un élément à coder comportant des composantes spectrales se rapportant à des bandes spectrales respectives. Le procédé comporte les étapes suivantes : calcul de l'influence respective d'au moins certaines composantes spectrales calculables en fonction de paramètres spectraux issus de certains au moins des N signaux, sur des rapports masque à bruit déterminés sur les bandes spectrales en fonction d'un codage desdites composantes spectrales ; attribution d'un ordre de priorité à au moins une composante spectrale en fonction de l'influence calculée pour ladite composante spectrale comparée aux autres influences calculées.

Un procédé selon l'invention permet ainsi d'ordonner par ordre d'importance quant à la qualité audio globale des composantes d'élément à coder. Une séquence binaire est constituée après comparaison entre elles des différentes composantes spectrales des différents éléments à coder de la scène globale comparées entre elles sur le plan de leur apport quant à la qualité audio globale perçue. L'interaction entre signaux est ainsi prise en compte pour les comprimer de façon conjointe. Le flux binaire peut ainsi être ordonné de manière à ce que chaque réduction de débit dégrade le moins possible la qualité audio globale perçue de, la scène sonore 3D, puisque les éléments les moins importants sur le plan de, leur apport au niveau de la qualité audio globale sont détectés, afin de pouvoir ne pas être insérés (lorsque le débit alloué pour la transmission est insuffisant: pour transmettre toutes les composantes des éléments à coder) ou être mis en fin de séquence binaire (permettant de minimiser les défauts générés par une troncature ultérieure). Dans un mode de réalisation, le calcul de l'influence d'une composante spectrale s'effectue selon les étapes : a- codage d'un premier ensemble de composantes spectrales d'éléments à coder selon un premier débit; b-détermination d'un premier rapport masque à bruit par bande spectrale; c-détermination d'un second débit inférieur au dit premier; d- suppression de ladite composante spectrale courante des éléments à 10 coder et codage des composantes spectrales restantes des éléments à coder selon le second débit; e- détermination d'un second rapport masque à bruit par bande spectrale; f- calcul d'une variation de rapport masque à bruit en fonction des écarts; déterminés entre les premier et second rapports masque à bruit pour le premier 15 et le second débit par bande spectrale; g- itération des étapes d à f pour chacune des composantes spectrales de l'ensemble de composantes spectrales d'éléments à coder à ordonner et détermination d'une variation de rapport masque à bruit minimum; l'ordre de priorité attribué à la composante spectrale correspondant à la variation 20 minimum étant un ordre de priorité minimum. Un tel processus permet ainsi de déterminer au moins une composante d'un élément à coder qui est la moins importante sur le plan de l'apport à la qualité audio globale, comparée à l'ensemble des autres composantes d'éléments à coder à ordonner. 25 Dans un mode de réalisation, on réitère les étapes a à g avec un ensemble de composantes spectrales d'éléments à coder à ordonner restreint par suppression des composantes spectrales pour lesquelles un ordre de priorité a été attribué. Dans un autre mode de réalisation, on réitère les étapes a à g avec un 30 ensemble de composantes spectrales d'éléments à coder à ordonner dans lequel les composantes spectrales pour lesquelles un ordre de priorité a été 6 attribué sont affectées d'un débit de quantification plus réduit lors de l'utilisation d'un quantificateur imbriqué. Dans un mode de réalisation, les éléments à coder comprennent les paramètres spectraux calculés pour les N canaux. Ce sont alors, par exemple, les composantes spectrales des signaux qui sont codées directement. Dans un autre mode de réalisation, les éléments à coder comprennent des éléments obtenus par transformation spatiale, par exemple de type ambiophonique, appelé en anglais ambisonic , des paramètres spectraux calculés pour les N signaux. Cette disposition permet d'une part de réduire le nombre de données à transmettre puisque, en général, les N signaux peuvent être décrits d'une manière très satisfaisante par un nombre de composantes ambiophoniques réduit (par exemple, un nombre égal à 3 ou 5), inférieur à N. Cette disposition permet en outre une adaptabilité à tout type de système de. rendu sonore, puisqu'il suffit au niveau du décodeur, d'appliquer une transformée ambiophonique inverse de taille Q'x(2p'+1), (où Q' est égal au nombre de haut-parleurs du système de rendu sonore utilisé en sortie du décodeur et 2p'+1 le nombre de composantes ambiophoniques reçues), pour déterminer les signaux à fournir au système de rendu sonore, tout en préservant la qualité audio globale.

Dans un mode de réalisation, on utilise à la place de la transformée spatiale d'autres transformées linéaires telles que KLT etc. Dans un mode de réalisation, on détermine les rapports masque à bruit en fonction des erreurs due au codage et relatives à des éléments à coder et en fonction en outre d'une matrice de transformation spatiale et d'une matrice déterminée en fonction de la transposée de ladite matrice de transformation spatiale. Dans un mode de réalisation, des éléments à coder sont des composantes ambiophoniques, certaines des composantes spectrales étant alors des paramètres spectraux de composantes ambiophoniques. Le procédé comporte les étapes suivantes: a. calcul de l'influence de certaines au moins desdites composantes spectrales, sur un vecteur d'angle défini en fonction de vecteurs d'énergie et de vélocité associés à des critères de Gerzon et calculés en fonction d'une transformation ambiophonique inverse sur lesdits composantes ambiophoniques quantifiés; b. attribution d'un ordre de priorité à au moins une composante spectrale en fonction de l'influence calculée pour ladite composante spectrale comparée aux autres influences calculées. Un procédé selon l'invention permet ainsi d'ordonner certains au moins des paramètres spectraux de composantes ambiophoniques de l'ensemble à ordonner, en fonction de leur importance relative sur le plan de l'apport à la précision spatiale. La résolution spatiale ou précision spatiale mesure la finesse de la localisation des sources sonores dans l'espace. Une résolution spatiale accrue permet une localisation plus fine des objets sonores dans la pièce et permet. d'avoir une zone de restitution plus large autour de la tête de l'auditeur. Les interactions entre signaux et leur conséquence sur le plan de la précision spatiale sont prises en compte pour les comprimer de façon conjointe. Le flux binaire peut ainsi être ordonné de manière à ce que chaque réduction de débit dégrade le moins possible la précision spatiale perçue de la scène sonore 3D, puisque les éléments les moins importants sur le plan de leur apport sont détectés, afin d'être mis en fin de séquence binaire (permettant de minimiser les défauts générés par une troncature ultérieure). Dans un mode de réalisation d'un tel procédé, on exploite, de la façon indiquée ci-dessous, les angles v et E associés aux vecteurs vélocité V et énergie É des critères de Gerzon pour identifier des éléments à coder les moins pertinents sur le plan de l'apport, en termes de précision spatiale, à la scène sonore 3D. Ainsi contrairement à l'usage habituel, les vecteurs vélocité V et énergie É ne sont pas utilisés pour optimiser un système de rendu 30 sonore considéré. Dans un mode de réalisation, le calcul de l'influence d'un paramètre spectral s'effectue selon les étapes suivantes : 8 a- codage d'un premier ensemble de paramètres spectraux de composantes ambiophoniques à coder selon un premier débit; b- détermination d'un premier vecteur d'angle par bande spectrale; c- détermination d'un second débit inférieur au dit premier; d-suppression dudit paramètre spectral courant des composantes à coder et codage des paramètres spectraux restants des composantes à coder selon le second débit; e- détermination d'un second vecteur d'angle par bande spectrale; f- calcul d'une variation de vecteur d'angle en fonction des écarts déterminés entre les premier et second vecteurs d'angle pour le premier et le second débit par bande spectrale; g- itération des étapes d à f pour chacun des paramètres spectraux de l'ensemble de paramètres spectraux de composantes à coder à ordonner et détermination d'une variation de vecteur d'angle minimum; l'ordre de priorité attribué au paramètre spectral correspondant à la variation minimum étant un ordre de priorité minimum. Cette disposition permet, en un nombre limité de calculs, de déterminer le paramètre spectral de la composante à déterminer dont l'apport à la précision spatiale est minimum. Dans un mode de réalisation, on réitère les étapes a à g avec un ensemble de paramètres spectraux de composantes à coder à ordonner restreint par suppression des paramètres spectraux pour lesquelles un ordre de priorité a été attribué.

Dans un autre mode de réalisation, on réitère les étapes a à g avec un ensemble de paramètres spectraux de composantes à coder à ordonner dans lequel les paramètres spectraux pour lesquels un ordre de priorité a été attribué sont affecté d'un débit de quantification plus réduit lors de l'utilisation d'un quantificateur imbriqué.

De tels processus itératifs permettent d'identifier successivement, parmi les paramètres spectraux des composantes ambiophoniques auxquels n'ont pas encore été affectés des ordres de priorité, ceux qui apportent le moins sur le plan de la précision spatiale.

Dans un mode de réalisation, une première coordonnée du vecteur

d'énergie est fonction de la formule '<i<QTi2 2 cos'' , une seconde coordonnée 1<i<QT1 du vecteur d'énergie est fonction de la formule Ti2 sin ù '<`<Q 2 i , une première 1G15Q Ti 1~i~Q Ti cosi coordonnée du vecteur de vélocité est fonction de la formule et 1<i<QTi

une seconde coordonnée du vecteur de vélocité est fonction de la formule E 1<i<Q Ti déterminés en fonction de la transformation ambiophonique inverse sur lesdits 10 paramètres spectraux quantifiés selon le débit considéré et les i=1 à Q, sont des angles déterminés. Dans un mode de réalisation, une première coordonnée d'un vecteur d'angle indique un angle fonction du signe de la deuxième coordonnée du vecteur de vélocité et de l'arccosinus de la première coordonnée du vecteur de 15 vélocité et selon lequel une deuxième coordonnée d'un vecteur d'angle indique un angle fonction du signe de la deuxième coordonnée du vecteur d'énergie et de l'arccosinus de la première coordonnée du vecteur d'énergie. Suivant un second aspect, l'invention propose un module d'ordonnancement comprenant des moyens pour mettre en oeuvre un procédé 20 suivant le premier aspect de l'invention. Suivant un troisième aspect, l'invention propose un codeur audio adapté pour coder une scène audio 3D comprenant N signaux respectifs en un flux binaire de sortie, avec N>1, comprenant : un module de transformation adapté pour déterminer, en 25 fonction des N signaux, des composantes spectrales se, rapportant à des bandes spectrales respectives; E "'`QTi sin " , dans lesquelles les Ti, i=1 à Q, représentent les signaux 10 un module d'ordonnancement suivant le deuxième aspect de l'invention, adapté pour ordonner au moins certaines des composantes spectrales se rapportant à des bandes spectrales respectives; un module de constitution d'une séquence binaire adapté pour constituer une séquence binaire comportant des données indiquant des composantes spectrales se rapportant à des bandes spectrales respectives en fonction de l'ordonnancement effectué par le module d'ordonnancement.

Suivant un quatrième aspect, l'invention propose un programme d'ordinateur à installer dans un module d'ordonnancement, ledit programme comprenant des instructions pour mettre en oeuvre les étapes d'un procédé suivant le premier aspect de l'invention lors d'une exécution du programme par des moyens de traitement dudit module.

Suivant un cinquième aspect, l'invention propose un procédé de décodage d'un flux binaire, codé selon un procédé suivant le premier aspect de l'invention, en vue de déterminer un nombre Q' de signaux audio pour la restitution d'une scène audio 3D à l'aide de Q' haut-parleurs, selon lequel : on reçoit une séquence binaire ; on extrait les données de codage et on détermine en fonction desdites données extraites un ensemble de paramètres qui se rapportent à des bandes spectrales respectives pour chacun des Q' canaux ; on détermine au moins une trame de signal en fonction de chaque ensemble de paramètres. Suivant un sixième aspect, l'invention propose un décodeur audio adapté pour décoder un flux binaire codé selon un procédé suivant le premier aspect de l'invention, en vue de déterminer un nombre Q' de signaux audio pour la restitution d'une scène audio 3D à l'aide de Q' haut-parleurs, comprenant des moyens pour mettre en oeuvre les étapes d'un procédé suivant le quatrième aspect de l'invention. 11 Suivant un septième aspect, l'invention propose un programme d'ordinateur à installer dans un décodeur adapté pour décoder un flux binaire codé selon un procédé suivant le premier aspect de l'invention, en vue de déterminer un nombre Q' de signaux audio pour la restitution d'une scène audio 3D à l'aide de Q' haut-parleurs, ledit programme comprenant des instructions pour mettre en oeuvre les étapes d'un procédé suivant le quatrième aspect de l'invention lors d'une exécution du programme par des moyens de traitement dudit décodeur. Suivant un huitième aspect, l'invention propose une séquence binaire comportant des composantes spectrales se rapportant à des bandes spectrales respectives d'éléments à coder provenant d'une scène audio comprenant N signaux avec N>1, caractérisé en ce que certaines au moins des composantes spectrales sont ordonnées selon un procédé d'ordonnancement suivant le premier aspect de l'invention.

D'autres caractéristiques et avantages de l'invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels : la figure 1 représente un codeur dans un mode de réalisation de l'invention ; la figure 2 représente un décodeur dans un mode de réalisation de l'invention ; - la figure 3 illustre la propagation d'une onde plane dans l'espace ; la figure 4 est un organigramme représentant des étapes d'un 25 premier processus Proc1 dans un mode de réalisation de l'invention ; la figure 5a représente une séquence binaire construite dans un mode de réalisation de l'invention ; la figure 5b représente une séquence binaire Seq construite 30 dans un autre mode de réalisation de l'invention ; la figure 6 est un organigramme représentant des étapes d'un second processus Proc2 dans un mode de réalisation de l'invention ; la figure 7 représente un exemple de configuration d'un système de rendu sonore comprenant 8 haut-parleurs h1, h2,..., h8 ; la figure 8 représente une chaîne de traitement ; la figure 9 comporte une deuxième chaîne de traitement ; la figure 10 représente une troisième chaîne de traitement ; la figure 11 est un organigramme représentant des étapes d'un processus Proc dans un mode de réalisation de l'invention.

La figure 1 représente un codeur audio 1 dans un mode de réalisation de l'invention. Le codeur 1 comprend un module 3 de transformation temps/fréquence, un module 7 de calcul de courbe de masquage, un module 4 de transformation spatiale, un module 5 de définition des éléments à coder les moins pertinents combiné avec un module 10 de quantification, un module 6 d'ordonnancement des éléments, un module 8 de constitution d'une séquence binaire, en vue de la transmission d'un flux binaire O. Une scène sonore 3D comprend N canaux sur chacun un signal respectif S1, ..., SN est délivré. La figure 2 représente un décodeur audio 100 dans un mode de réalisation de l'invention. Le décodeur 100 comprend un module 104 de lecture de séquence binaire, un module 105 de quantification inverse, un module 101 de transformation ambiophonique inverse, un module 102 de transformation fréquence/temps. Le décodeur 100 est adapté pour recevoir en entrée le flux binaire D transmis par le codeur 1 et pour délivrer en sortie Q' signaux S'1, S'2, ..., S'Q' destinés à alimenter les Q' haut-parleurs H1, H2 ..., HQ' respectifs d'un système de rendu sonore 103. A chaque haut-parleur Hi, i=1 à Q', est associé un angle iii indiquant l'angle de propagation acoustique depuis le haut-parleur. 13 Opérations réalisées au niveau du codeur : Le module 3 de transformation temps/fréquence du codeur 1 reçoit en entrée les N signaux Si,..., SN de la scène sonore 3D à coder. Chaque signal Si, i = 1 à N, est représenté par la variation de sa pression omnidirectionnelle acoustique Pi et l'angle 8i de propagation de l'onde acoustique dans l'espace de la scène 3D. Sur chaque trame temporelle de chacun de ces signaux indiquant les différentes valeurs prises au cours du temps par la pression acoustique Pi, le module 3 de transformation temps/fréquence effectue une transformation temps/fréquence, dans le cas présent, une transformée en cosinus discrète modifiée (MDCT). Ainsi il détermine, pour chacun des signaux Si, i=1 à N, sa représentation spectrale Xi, caractérisée par M coefficients MDCT X(i, j), avec j= 0 à M-1. Un coefficient MDCT X(i,j) représente ainsi le spectre du signal Sig pour la bande de fréquence Fj. Les représentations spectrales Xi des signaux Si, i= 1 à N, sont fournies en entrée du module 4 de transformation spatiale, qui reçoit en outre en entrée les angles 8i de propagation acoustique caractérisant les signaux d'entrée Si.

Les représentations spectrales Xi des signaux Si, i= 1 à N, sont en outre fournies en entrée du module 7 de calcul des courbes de masquage. Le module 7 de calcul de courbe de masquage est adapté pour déterminer la courbe de masquage spectrale de chaque signal Si considéré individuellement, à l'aide de sa représentation spectrale Xi et d'un modèle psychoacoustique, ce qui fournit un niveau de masquage pour chaque bande de fréquence Fj, j=0 à M-1 de chaque représentation spectrale Xi. Les éléments de définition de ces courbes de masquages sont délivrés au module 5 de définition des éléments à coder les moins pertinents. Le module 4 de transformation spatiale est adapté pour effectuer une transformation spatiale des signaux d'entrée fournies, c'est-à-dire déterminer les composantes spatiales de ces signaux résultant de la projection sur un référentiel spatial dépendant de l'ordre de la transformation. L'ordre d'une transformation spatiale se rattache à la fréquence angulaire selon laquelle elle scrute le champ sonore.

Dans un mode de réalisation, le module 4 de transformation spatiale effectue une transformation ambiophonique, qui donne une représentation spatiale compacte d'une scène sonore 3D, en réalisant des projections du champ sonore sur les fonctions harmoniques sphériques ou cylindriques associées.

Pour plus d'information sur les transformations ambiophoniques, on pourra se référer aux documents suivants : Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia , Thèse de doctorat de l'université Paris 6, Jérôme DANIEL, 31 juillet 2001, A highly scalable spherical microphone array based on an orthonormal decomposition of the sound field , Jens Meyer û Gary Elko, Vol. Il - pp. 1781-1784 in Proc. ICASSP 2002.

En référence à la figure 3, la formule suivante donne la décomposition en harmoniques cylindriques à un ordre infini d'un signal Si de la scène sonore : Si(r, <p) = Pi.[Jo(kr) + E2.jmJm(kr).(cosmn.0i.cosm.çp+sinm.0i.sinm.çp)I 1 <m 5co où (Jm) représentent les fonctions de Bessel, r la distance entre le centre du repère et la position d'un auditeur placé en un point M, Pi la pression acoustique du signal Si, Ai l'angle de propagation de l'onde acoustique correspondant au signal Si et cp l'angle entre la position de l'auditeur et l'axe du repère.

Si la transformation ambiophonique est d'ordre p (p entier positif quelconque), pour une transformation ambiophonique 2D (selon le plan horizontal), la transformée ambiophonique d'un signal Si exprimée dans le domaine temporel comprend alors les 2p+1 composantes suivantes : (Pi, Pi.cosei, Pi.sin8i, Pi.cos20i, Pi.sin2ei, Pi.cos36i, Pi.sin3Ai, ...,

Pi.cospei, Pi.sinp8i).

Dans ce qui suit, il a été considéré une transformation ambiophonique 2D. Néanmoins l'invention peut être mise en oeuvre avec une transformation ambiophonique 3D (dans un tel cas, on considère que les haut-parleurs sont disposés sur une sphère). Les composantes ambiophoniques Ak, k=1 à Q = 2p + 1, considérées dans le domaine fréquentiel, comportent chacune M paramètres spectraux A(k,j), j= 0 à M-1 se rapportant respectivement aux bandes Fj telles que : si A est la matrice comportant les composantes Ak, k=1 à Q issues de la transformation ambiophonique d'ordre p des signaux Si, i= 1 à N, Amb(p) est la matrice de transformation ambiophonique d'ordre p pour la scène sonore spatiale, et X est la matrice des composantes fréquentielles des signaux Si, i= 1 à N, alors : A(1,0) A(1,1) . . A(1, M -1) A(2,0) A(2, M -1) A(Q,O) A(Q,1) . . A(Q, M -1)

Amb(p)=[Amb(p)(i,j)], avec i=1 à Q et j=1 à N, avec : Amb(p)(1,j)= 1, Amb(p)(i,j)=àcos MO. si i pair et Amb(p)(i,j)=àsin MO si i impair, soit

1 1 1 àcose, àcos02 . . 1/L coseN à sine, à sin 02 . . 'sin GN J cos 20, f cos 202 . . J cos 20N Amb(p)= à sin 20, à sin 202 . à sin 20N à cos pe, à cos p02 . T cos pON à sin p01 à sin p02 . . sin peN - A= 16 X(1,0) X(1,1) X(1, M -1) X(2,0) X(2,1) . X(2,M-1) et X= X(N,O) . X (N, M -1) et on a A= Amb(p) x X Equation (1).

Le module 4 de transformation spatiale est adapté pour déterminer la matrice A, à l'aide de l'équation (1) en fonction des données X(i, j) et 8i (i=1 à N, j= 0 à M-1) qui lui sont fournies en entrée. Dans le cas particulier considéré, les composantes ambiophoniques Ak, k=1 à Q, soit les paramètres A(k, j), k=1 à Q et j=0 à M-1, de cette matrice A sont les éléments à coder par le codeur 1 dans une séquence binaire. Les composantes ambiophoniques Ak, k=1 à Q, sont délivrées au module 5 de définition des éléments les moins pertinents pour quantification et détermination d'un ordonnancement des composantes ambiophoniques. Ce module 5 de définition des éléments les moins pertinents est adapté pour mettre en oeuvre des opérations, suite à l'exécution sur des moyens de traitement du module 5, d'un premier algorithme et/ou un second algorithme, en vue de définir des éléments à coder les moins pertinents et d'ordonner les éléments à coder entre eux. Cet ordonnancement des éléments à coder est utilisé ultérieurement lors de la constitution d'une séquence binaire à transmettre. Le premier algorithme comprend des instructions adaptées pour mettre en oeuvre, lorsqu'elles sont exécutées sur les moyens de traitement du module 5, les étapes du processus Procl décrit cidessous en référence à la figure 4.

Processus Procl Le principe du processus Procl est le suivant : on calcule l'influence respective d'au moins certaines composantes spectrales calculables en fonction de paramètres spectraux issus de certains au moins des N signaux, sur des rapports masque à bruit déterminés sur les bandes spectrales en fonction d'un codage desdites composantes spectrales. Puis on attribue un ordre de priorité à au moins une composante spectrale en fonction de l'influence calculée pour ladite composante spectrale comparée aux autres influences calculées.

Dans un mode de réalisation, le processus Proc1 détaillé est le suivant:

Initialisation ^ Etape la: Dans cette étape, on définit un premier débit Do=Dmax et une allocation de parties de ce débit Do entre les éléments à coder A(k,j), (k, j) e E0 = {(k, j) tel que k =1 à Q et j = 0 à M -11. On nomme dk,i le débit attribué à l'élément à coder A(k,j), (k, j) E E0, lors de cette allocation (la somme de ces débits dk j lk =1 à Q, i=o à nn-1 est égale à Do) et 80 = min dk f pour (k, j) E Eo . 15 Puis les éléments à coder A(k,j), (k, j) e E0, sont quantifiés par le module 10 de quantification en fonction de l'allocation définie pour le débit Do. ^ Etape lb : Ensuite, on calcule le rapport entre le masque et l'erreur (ou bruit) de quantification ( Mask to noise Ratio en anglais ou MNR) pour chaque signal 20 Si et pour chaque sous-bande Fj, avec i= 1 à N et j = 0 à M-1, qui est égal à la puissance du masque du signal Si dans la bande Fj divisée par la puissance du bruit de quantification (E(i,j)) relative au signal Si dans cette bande Fj. Pour ce faire, on détermine d'abord l'erreur de quantification b(k,j) dans chaque bande Fj des éléments à coder A(k,j), (k, j) e E0, de la façon suivante : 25 b(k,j) = A(k,j) - A (k, j) , avec A(k, j) le résultat de la quantification, puis quantification inverse de l'élément A(k,j) (en général la quantification fournit un indice de quantification indiquant la valeur de l'élément quantifié dans un dictionnaire, le quantificateur inverse fournit la valeur de l'élément quantifié en fonction de l'indice). 30 Puis on détermine l'erreur de quantification E(i,j) dans chaque bande Fj pour chaque signal Si avec i= 1 à N et j = 0 à M-1, due à la quantification des éléments à coder selon le débit Do, en calculant la matrice E comportant les éléments E (i,j) : E = QZ (Amb(p).Amb(p)t)-1.Amb(p)t .B, Equation (2) où Q= 2p+1, Amb(p) est la matrice de transformation ambiophonique d'ordre p et

E(1,0) E(1,1) . E(1, M -1) E(2,0) E(2,1) . . E(2, M -1) = [E(i,j)] i=1 àN,j=OàM-1 et E(N,O) . E(N, M -1) b(1,0) b(1,1) . . b(1, M -1) b(2,0) b(2,M -1) = [b(k,j)Jk=1 à o, j=0 à M-1 b(Q,0) b(Q,1) . . b(Q, M -1) Puis le rapport entre le masque et l'erreur de quantification pour chaque signal Si et pour chaque bande Fj, avec i= 1 à N et j = 0 à M-1 est déterminé en fonction du bruit de quantification E(i,j) ainsi calculé relatif au signal Si dans cette bande Fj et du masque du signal Si dans la bande fourni par le module 7 de calcul de masque. On appelle MNR(O,Do) la matrice telle que l'élément (i,j) de la matrice MNR(O,Do), i= 1 à N et j = 0 à M-1, indique le rapport entre le masque et l'erreur de quantification pour le signal Si et pour la bande Fj pour la quantification précédemment effectuée.

Avant de décrire l'itération n 1 du processus Proc1, on indique ci-. dessous comment l'équation (2) a été déterminée. La figure 8 représente une chaîne de traitement 200 comportant un module 201 de transformation ambiophonique d'ordre p (similaire au module 4 de transformation ambiophonique d'ordre p de la figure 1) suivi d'un module E= B= 19 202 de transformation ambiophonique inverse d'ordre p. Le module 201 de transformation ambiophonique d'ordre p reçoit en entrée les représentations spectrales X1,..., XN des signaux S1, ..., SN, effectue sur ces signaux une transformation ambiophonique d'ordre p, délivre les signaux ambiophoniques obtenus Al à AQ au module 202 de transformation ambiophonique inverse d'ordre Q, lequel délivre N signaux de pressions acoustiques respectives ni, i=1 à N. (rn II2 X2 = Amblnv(p) x Amb(p) x ~1 ~ \XN) matrice de transformation ambiophonique d'ordre p et Amblnv(p) est la matrice de transformation ambiophonique inverse d'ordre p (encore appelée matrice de décodage ambiophonique) . La figure 9 représente une chaîne de traitement 210 comportant le module 201 de transformation ambiophonique d'ordre p suivi d'un module 203 de quantification, puis un module 204 de quantification inverse, et d'un module 202 de transformation ambiophonique inverse d'ordre p. Le module 201 de transformation ambiophonique d'ordre p en entrée de la chaîne de traitement 210 reçoit en entrée les représentations spectrales X1,... , XN des signaux SI, ..., SN et délivre les signaux ambiophoniques obtenus Al à AQ, qui sont fournis en entrée du module 203 de quantification. Les signaux A1, ..., AQ sont les signaux délivrés au module 202 de transformation ambiophonique inverse par le module 204 de quantification inverse, résultant de lai quantification inverse effectuées sur les signaux délivrés par le module 203 de quantification. Le module 202 de transformation ambiophonique inverse d'ordre Q délivre N signaux de pressions acoustiques respectives fl'i, i=1 à N.

La chaîne de traitement 210 de la figure 9 fournit les mêmes pressions acoustiques fl'i de sortie que la chaîne de traitement 211 représentée en figure 10, dans laquelle le module 201 de transformation ambiophonique d'ordre p se situe entre le module de quantification inverse 204 et le module 202 de transformation ambiophonique inverse d'ordre p. Dans la chaîne de traitement 211, le module 203 de quantification en entrée de la chaîne de traitement 211 On a alors , où Amb(p) est la reçoit en entrée les représentations spectrales X1, ... , XN, les quantifie puis délivre le résultat de cette quantification au module 204 de quantification inverse, qui délivre les N signaux X1, ..., IN. Ces signaux Xl , ... , XN sont ensuite fournis aux modules 201 et 202 de transformation ambiophonique et de transformation ambiophonique inverse mis en cascade. Le module 202 de transformation ambiophonique inverse d'ordre p délivre les N signaux de pressions acoustiques respectives fl'i, i=1 à N. ( IZ'1 (Xl On peut alors écrire : n'2 = Amblnv(p) x Amb(p) x X2 ) = Ambinv(p) x Amb(p) x E. \UN) ~XN/ XN ( n'r' (fil' 11'2 II2 Soit E _ (Ambinv(p) x Amb(p) )" ( ). ~H'Ni ~IW (II'll (rll (Al Al\ Par ailleurs, FI' 2 1-12 = Ambinv(p) x ( A2 A2 ) = Ambinv(p) x B. \f'N) ) `AQ, 15 Donc on en déduit : E = (Ambinv(p) x Amb(p) )-1 Ambinv(p) x B. Dans le cas où la matrice de décodage ambiophonique correspond à un système à haut-parleurs réguliers, on a Ambinv(p) = Amb(p)t (en fait, les erreurs de quantification E ou B ne dépendent que du codage effectué et non du décodage. Ce qui changera au niveau du décodage, en fonction de la 20 matrice de décodage utilisée correspondant au système de haut-parleurs utilisé, c'est la façon dont l'erreur sera répartie entre les haut-parleurs. Cela est ( II'l \ (ni (Xl\ 'Xl\ 1T2 112 = Ambinv(p) x Amb(p) x( X2 X2 dû au fait que la psychoacoustique utilisée ne prend pas en compte les interactions entre les signaux. Donc si le calcul est fait pour une matrice de décodage bien définie et que le module de quantification optimise l'erreur pour cette matrice, alors pour les autres matrices de décodage l'erreur sera sous- optimale). On en déduit donc l'équation (2).

Revenons à la description de la figure 4. Itération n 1 : ^ Etape l c : On définit maintenant un deuxième débit D1 de codage, avec D1=Do-80 , et une répartition de ce débit D1 bits de codage entre les éléments à coder A(k,j), k=1 à Q et j=0 à M-1. ^ Etape 1 d : Ensuite, pour chaque couple (k, j) e E0, considéré successivement depuis le couple (1,0) jusqu'au couple (Q,M-1) selon l'ordre de lecture lexicographique des couples de E0 , on réitère les opérations al à a7 suivantes : a1- on considère que la sous-bande (k,j) est supprimée pour les 20 opérations a2 à a5 ; a2- les éléments à coder A(i,n), avec (i,n) e E0 \(k, j) (c'est-à-dire (i,n) égal à chacun des couples de E0 à l'exception du couple (k,j)) sont quantifiés par le module 10 de quantification en fonction d'une répartition définie du débit D1 entre lesdits éléments à coder A(i,n), avec (i,n) E E0 \(k, j); 25 a3- de la même façon qu'indiquée à l'étape lb, on calcule à partir des éléments A (i,n), (i, n) E E0 \(k, j) issus des opérations de quantification effectuées à l'étape a2, la matrice MNRk,j(1,D1) = [MNRk,~(1,D1) (i, t)] i=1 àNett=o à M_1 telle que chaque élément MNRk,j(1,D1) (i, t) de la matrice indique le rapport entre le masque et l'erreur (ou bruit) de quantification pour chaque signal Si et 30 pour chaque sous-bande Ft, avec i= 1 à N et t = 0 à M-1 suite à la quantification effectuée à l'étape a2 (la sous-bande (k,j) étant considérée comme supprimée, le bruit de quantification b(k,j) a été considéré nul dans les calculs). On mémorise les valeurs prises par les éléments de cette matrice MNRk,i(1,D1) ; a4- puis, on calcule et on mémorise la matrice LMNRk,i(1) de variation de rapport entre le masque et l'erreur de quantification AMNRk j (1) = MNRk j (101) - MNRk, j (O,Do )I ; avec MNRk, j (O,Do) est la matrice MNR(O,Do) dont on a supprimé l'élément d'indice (k,j) a5- on calcule une norme 11AMNRkj(1) de cette matrice OMNRk,i(1). La valeur de cette norme évalue l'impact, sur l'ensemble des rapports signal à bruit des signaux Si, de la suppression de la composante A(k,j) parmi les éléments à coder A(i,n), avec (i,n) E E0 . La norme calculée permet de mesurer l'écart entre MNRk,i(1,DI) et MNRk,, (O,D0) et est par exemple égale à la racine carrée de la somme de chaque élément de la matrice OMNRk,i(1) élevé au carré. a6- on considère que la sous-bande (k,j) n'est plus supprimée ; a7- si (k,j) # maxEo = (Q,M-1), on incrémente le couple (k,j) dans E0 et on réitère les étapes al à a7 jusqu'à atteindre maxEo. ^ Etape le :

On détermine (i1,j1) correspondant à la valeur la plus petite parmi les valeurs I \MNRkj(1) , obtenues pour (k, j) e Eo, soit : (il, jl) = arg min IAMNRk,j (1)11. (k, j){Eo L'élément à coder A(i1,ji) est ainsi identifié comme l'élément le moins pertinent quant à la qualité audio globale parmi l'ensemble des éléments à coder A(i,j) avec (i, j) E Eo. ^ Etape 1 f :

L'identifiant du couple (i1,j1) est délivrée au module d'ordonnancement 6 en tant que résultat de la première itération du processus Proc1.30 ^ Etape 1 q : On supprime alors la bande (i1,]1), de l'ensemble des éléments à coder dans la suite du processus Proc1. On définit l'ensemble E, = E0 \ {(i,, j1)} .

Itération 2 et suivantes :

Des étapes similaires aux étapes l c à 1g sont effectuées pour chaque itération n, n>_2, comme décrit ci-après. ^ Etape 1 c : on définit maintenant un (n+1)ième débit Dr, de codage, avec Dn=tel que sn_,=min(d,j, pour (i,j) ^ Etape Id : ensuite, pour chaque couple (k, j)E En_, et considéré successivement selon l'ordre lexicographique, on réitère les opérations suivantes a1 à a7 : a1- on considère que la sous-bande (k,j) est supprimée dans les opérations a2 à a5 ; a2- les éléments à coder A(i,n), avec (i,n) E En_1 \{(k, j)} sont quantifiés par le module 10 de quantification en fonction d'une répartition du débit Dn entre les éléments à coder A(i,n), avec (i,n) E En_, \{(k, j)} ; a3- on calcule à partir des éléments A (i,n) , (i,n) E En_, \{(k, j)} déterminés en fonction de la quantification à l'étape a2, la matrice MNRki(n, Dn) indiquant le rapport entre le masque et l'erreur (ou bruit) de quantification pour chaque signal Si et pour chaque sous-bande Fj, avec i= 1 à N et j = 0 à M-1, suite à la quantification effectuée à l'étape a2 ; a4- puis on calcule et on mémorise la matrice de variation de rapport entre le masque et l'erreur de quantification AMNRk J (n) = IMNRk i (n,D.) - MNRk,; ) , avec MNRk,J (n-1,Dn_1) correspond à la matrice MNR(n-1,Dn_1) dont on a supprimé l'élément d'indice (k,j), et une norme I AMNRkj(n) I de cette matrice AMNRki(n). La valeur de cette norme évalue l'impact, sur l'ensemble des rapports signal à bruit des 24 signaux Si, de la suppression de la composante A(k,j) parmi les éléments à coder A(i,n), avec (i, n) E E,_, \{(k, j)} . a5- on considère que la sous-bande (k,j) n'est plus supprimée ; a6-- si (k, j) ≠maxEn_1, on incrémente le couple (k,j) dans En_1 et on réitère les étapes al à a6 jusqu'à atteindre maxEn_1. ^ Etape le : on détermine (in,jn) correspondant à la valeur la plus petite parmi les valeurs obtenues (AMNRkJ(n)II , pour (k, j) e En_, , soit (in, jä) = arg min 11MINRk, J (n) (k,J)EEä_1 On mémorise aussi la matrice 1. MNR(n,Dä) = MNR, J, (n,Dn) .

L'élément à coder A(in,jn) est ainsi identifié comme l'élément le moins pertinent quant à la qualité audio globale parmi l'ensemble des éléments à coder A(i,j), tels que (i, j) E En_, ^ Etape If : l'identifiant du couple (in,jn) est délivrée au module d'ordonnancement 6 en tant que résultat de la nième itération du processus Proc1. 1.6 Etape 1g : on supprime alors la bande (in,jn), de l'ensemble des éléments à coder dans la suite du processus Proc1. On définit l'ensemble En = En_1 \{(in, jä)} . On réitère le processus Proc1 r fois et au maximum Q*M-1 fois. Des indices de priorité sont ainsi ensuite attribués par le module 6 20 d'ordonnancement aux différentes bandes de fréquence, en vue de l'insertion des données de codage dans une séquence binaire.

Ordonnancement des éléments à coder et constitution d'une séquence binaire sur la base des résultats successivement fournies par les itérations 25 successives du processus Proc1 : Dans un mode de réalisation où l'ordonnancement des éléments à coder est réalisé par le module 6 d'ordonnancement sur la seule base des résultats successivement fournies par les itérations successives du processus Proc1 mis en oeuvre par le module 5 de définition des éléments à coder les, 30 moins pertinents à l'exclusion des résultats fournis par le processus Proc2, ce dernier définit un ordre desdits éléments à coder, traduisant l'importance des éléments à coder sur le plan de la qualité audio globale. En référence à la figure 5a, l'élément à coder A(ii,ji) correspondant au couple (ilà) déterminé lors de la première itération de Proc1 est considéré le moins pertinent sur le plan de la qualité audio globale. Il lui est donc affecté un indice de priorité minimale Priol par le module 5. L'élément à coder A(i2,f2) correspondant au couple (i2,f2) déterminé lors de la deuxième itération de Proc1, est considéré comme l'élément à coder le moins pertinent sur le plan de la qualité audio globale, après celui affecté à la priorité Prio1. II lui est donc affecté un indice de priorité minimale Prio2, avec Prio2 > Priol. Lorsque le nombre r d'itération du processus est strictement inférieur à Q*M-1, le module 6 d'ordonnancement ordonne ainsi successivement r éléments à coder affectés chacun à des indices de priorité croissants Priol, Prio2 à Prio r. Les éléments à coder n'ayant pas été affectés à un ordre de priorité au cours d'une itération du processus Proc1 sont plus importants sur le plan de la qualité audio globale que les éléments à coder auxquels ont été affectés des ordres de priorité. Lorsque r est égal à Q*M -1 fois, tous les éléments à coder sont ordonnées un à un.

Dans ce qui suit, on considère que le nombre d'itérations r du processus Proc1 effectuées est égal à Q*M -1 fois. L'ordre de priorité affecté à un élément à coder A(k,j) est également affecté à l'élément codé À(k, j) résultant d'une quantification de cet élément à coder.

Le module 8 de constitution de la séquence binaire constitue une séquence binaire correspondant à une trame de chacun des signaux Si, i=1 à N en y intégrant successivement des éléments codés Â(k, j) par ordre décroissant d'indices de priorité attribués, la séquence binaire étant à transmettre dans le flux binaire O.

Ainsi la séquence binaire constituée est ordonnée conformément à l'ordonnancement effectué par le module 6. La séquence binaire est ainsi constituée de composantes spectrales se rapportant à des bandes spectrales respectives, d'éléments à coder provenant 26 d'une scène audio comprenant N signaux avec N>1, et qui sont ordonnés en fonction de leur influence sur des rapports masque à bruit déterminés sur les bandes spectrales. Les composantes spectrales de la séquence binaire sont par exemple ordonnées selon le procédé de l'invention. Dans un mode de réalisation, seules certaines des composantes spectrales comprises dans la séquence binaire constituée sont ordonnées à l'aide d'un procédé selon l'invention. Dans le mode de réalisation considéré ci-dessus, une suppression d'une composante spectrale d'un élément à coder A(i,j) a lieu à chaque itération de l'algorithme Proc1. Dans un autre mode de réalisation, on utilise un quantificateur imbriqué pour les opérations de quantification. Dans un tel cas, la composante spectrale d'un élément à coder A(io,jo) identifié n'est pas supprimé, mais un débit réduit est affecté au codage de cette composante par rapport au codage des autres composantes spectrales d'éléments à coder restant à ordonner. Le codeur 1 est ainsi un codeur permettant une adaptabilité en débit prenant en compte les interactions entre les différents signaux monophoniques. Il permet de définir des données compressées optimisant la qualité audio globale perçue. Les opérations d'ordonnancement des éléments de la séquence binaire et de constitution de la séquence binaire à l'aide du processus Proc1 ont été décrites ci-dessus pour un mode de réalisation de l'invention dans lequel les éléments à coder comprennent les composantes ambiophoniques des signaux. Dans un autre mode de réalisation, un codeur selon l'invention ne code pas ces composantes ambiophoniques, mais les coefficients spectraux X(i,j), j= 0 à m, des signaux Si. Dans un tel cas, on affecte à la première itération du processus 1 par exemple, un indice de priorité minimum (minimum parmi les éléments restant à ordonner) à l'élément à coder X(ii, fi) tel que la suppression de la composante spectrale X(ii, ji) donne lieu à une variation minimale de rapport masque à bruit. Puis on réitère le processus Proc1.

Processus Proc2 Les critères de Gerzon sont généralement utilisés pour caractériser la localisation des sources sonores virtuelles synthétisées par la restitution de signaux depuis les haut-parleurs d'un système de rendu sonore donné. Ces critères reposent sur l'étude des vecteurs de vélocité et d'énergie des pressions acoustiques générées par un système de rendu sonore utilisé. Lorsqu'un système de rendu sonore comprend L haut-parleurs, les signaux, i=1 à L, générés par ces haut-parleurs, sont définies par une pression acoustique Ti et un angle de propagation acoustique ; . Le vecteur de vélocité est alors défini ainsi : E 1<,sL Ti cos E 1sisL Ti E 1<,<L Ti sin Yv = • 1<,< L Ti II existe un couple de coordonnées polaires (ru, ) tel que : 115,<L Ti cos xv = = rv cos v V • 15;<LTt Equation (3) E 1<;≤L Ti sin

Yv = = rv sinv • Ti Le vecteur d'énergie É est défini ainsi : E 1<,<LTi2 cos, E 1≤,≤L Ti z E 1<,,L Ti 2 sin YE = 2 E Ti Il existe un couple de coordonnées polaires (rE, 4E) tel que : E Ti2 cos ; xE = 2 = rE cosE É • 1<,<L Ti Equation (4) 1,;,L Ti 2 sin YE ù 2 = rE sin E 1<,<L Ti Les conditions nécessaires pour que la localisation des sources sonores virtuelles soit optimale se définissent en cherchant les angles caractérisant la position des haut-parleurs du système de rendu sonore considéré, vérifiant les critères ci-dessous, dits critères de Gerzon, qui sont : - critère 1, relatif à la précision de l'image sonore de la source S en basses fréquences : = ; où est l'angle de propagation de la source S réelle qu'on cherche à atteindre. - critère 2, relatif à la stabilité de l'image sonore de la source S en basses fréquences : r,, = 1 ; - critère 3, relatif à la précision de l'image sonore de la source S en hautes fréquences :E _ ; -critère 4, relatif à la stabilité de l'image sonore de la source S en hautes fréquences : rE = 1. Les opérations décrites ci-dessous dans un mode de réalisation de l'invention utilisent les vecteurs de Gerzon dans une application autre que celle consistant à rechercher les meilleurs angles caractérisant la position des haut-parleurs du système de rendu sonore considéré. Les critères de Gerzon reposent sur l'étude des vecteurs de vélocité et d'énergie des pressions acoustiques générées par un système de rendu sonore utilisé. Chacune des coordonnées xv, yv, XE, YE indiquées dans les équations 3 et 4 relatives aux vecteurs d'énergie et vélocité associés aux critères de Gerzon est élément de [-1,1 ]. Donc il existe un unique couple (,, ,E) vérifiant les équations suivantes, correspondant au cas parfait (rv , rE) = (1,1) : E 1,,<L Ti cos =cos E 1<_,,L Ti sin ; _sin v,v, E ,<,<L Ti E ,<,<L Ti E ,,,,E Ti 2 cos 4 ; =cos et E ,s,,L Ti 2 sin =sin E 2 E ' E ,<,<L Ti E ,<,<L Ti Les angles v et E de ce couple unique sont donc définis par les équations suivantes (équations (5)): 4 v = sign ( E l<,SL Ti sin arccos ( E '<;<L Ti cos ; ) E ,<;<L Ti E i<,5L Ti E E sign ( E ";≤L Ti 2 sin arccos ( 1<;<_L Ti z cos y; 1 1<,<L n2 E l <LTi2 1 \F./ Le deuxième algorithme comprend des instructions adaptées pour mettre en oeuvre, lorsqu'elles sont exécutées sur des moyens de traitement du module 5, les étapes du processus Proc2 décrit ci-dessous en référence à la figure 6. Le principe du processus Proc2 est le suivant : on calcule l'influence de chaque paramètre spectral, parmi un ensemble de paramètres spectraux à ordonner, sur un vecteur d'angle défini en fonction de vecteurs d'énergie et de vélocité associés à des critères de Gerzon et calculés en fonction d'une transformation ambiophonique inverse sur lesdits composantes ambiophoniques quantifiés. Et on attribue un ordre de priorité à au moins un paramètre spectral en fonction de l'influence calculée pour ledit paramètre spectral comparé aux autres influences calculées.

Dans un mode de réalisation, le processus Proc2 détaillé est le suivant: Initialisation (n=0) ^ Etape 2a : On définit un débit Do=Dmax et une allocation de ce débit entre les éléments à coder A(k,j), pour (k,j) e E0 = {(k,j) tel que k=1 à Q et j=0 à M-1 }. On nomme dk,i le débit attribué à l'élément à coder A(k,j), (k,j) e Eo, lors de cette allocation initiale (la somme de ces débits dk,l I; =1 à Q, i=o à m_1 est égale à Do) et 8a = min dk,j, pour (k,j) e Eo. ^ Etape 2b : On appellera par la suite vecteur d'angles de Gerzon généralisé le 7 vecteur e tel que e = `' Puis chaque élément à coder A(k,j), (k,j) e E0 est quantifié par le module 10 de quantification en fonction du débit dk,i qui lui a été alloué à l'étape 2a. A est la matrice des éléments A(k, j), k=1 à Q et j=0 à M-1. Chaque élément A(k, j) est le résultat de la quantification, avec le débit dk,J, du paramètre A(k,j), relative à la bande spectrale Fi, de la composante ambiophonique A(k). L'élément A(k, j) définit donc la valeur quantifiée de la représentation spectrale pour la bande de fréquence Fi, de la composante ambiophonique Ak considérée.

A (1,0) A (1,1) . . A (1, M - 1) A(2,0) A(2, M -1) A A(Q,0) A(Q,1) . . A(Q,M -1)

^ Etape 2c : Ensuite, on effectue sur ces composantes ambiophoniques quantifiées A(k, j), k=1 à Q et j=0 à M-1, un décodage ambiophonique d'ordre p tel que 2p+1=Q et qui correspond à un système régulier de N haut-parleurs, pour déterminer les pressions acoustiques T1 i = 1 à N, des N signaux sonores obtenus en résultat de ce décodage ambiophonique. Dans le cas considéré, Ambinv(p) est la matrice de transformation ambiophonique inverse d'ordre p (ou décodage ambiophonique d'ordre p) délivrant N signaux T11, ..., TIN correspondant à N haut-parleurs H'1, ..., H'N respectifs, disposés régulièrement autour d'un point. Par conséquent, la matrice Ambinv(p) se déduit de la transposition de la matrice Amb(p,N) qui est la matrice d'encodage ambiophonique résultante de l'encodage de la scène sonore définie par les N sources correspondant aux N haut-parleurs H'1, ..., H'N et disposés respectivement dans les positions , ... , N . Ainsi on peut écrire que : Ambinv(p) = N Amb(p,N)` .

Ti est la matrice des composants spectraux T1(i,j) des signaux T1 i, i=1 à N relatifs aux bandes de fréquences Fi, j= 0 à m-1. Ces composants spectraux sont issus de la transformation ambiophonique inverse d'ordre p appliquée sur les composantes ambiophonique quantifiées A(k, j), k=1 à Q et j=O à m-1. T1(1,0) T1(1,1) . . T1(1, M ù 1) T1(2,0) T1(2,1) . T1(2, M -1 T1= T1(N,0) . T1(N,M -1) et on a T1= AmbinvÇpl x A = i Amb(p,N)` x ÂEquation (6) Ainsi les composants T1(i,j), i=1 à N, dépendent de l'erreur de quantification relative à la quantification considérée des composantes ambiophoniques A(k,j), k=1 à Q et j=0 à M-1 (en effet, chaque élément quantifié A(k, j) est la somme du paramètre spectral A(k,j) de composante ambiophonique à quantifier et du bruit de quantification relatif audit paramètre). Pour chaque bande de fréquence Fj, j= 0 à M-1, on calcule alors, à l'aide des équations (5), le vecteur d'angles de Gerzon généralisé e, (0) à l'initialisation du processus Proc2 (n=0), en fonction des composantes spectrales T1(i,j), i =1 à N et j=0 à M-1 déterminées suite au décodage ambiophonique :; (0) = /v , avec ; = 27-c(N 1) , i =1 à N : \E. J) . arccos . arccos L 1<;<_N T1(i, j) sin E 1<,<N Tl(i, J) , 1,,,Q (T1(i, j)2 sin E Et on définit j (0) = j (0) . 1`<;<N T1(i, j) cos 1≤15N Tl(i, J) , 1<,<Q T1(i, i)2 cos e; 151<Q Tl(i, i)2 , =sign E, = sign 32 On notera qu'ici a été considérée une matrice de décodage ambiophonique pour un dispositif de rendu sonore régulier et qui comporte un nombre de haut-parleurs égal au nombre des signaux d'entrées, ce qui simplifie le calcul de la matrice de décodage ambiophonique. Néanmoins, cette étape peut être mise en oeuvre en considérant une matrice de décodage ambiophonique correspondant à des dispositifs de rendu sonore non réguliers et aussi pour un nombre de haut-parleurs différents du nombre des signaux d'entrée.

Itération n 1 (n=1)

^ Etape 2d : On définit un débit D1=Do -8o et une allocation de ce débit D1 entre les éléments à coder A(k,j), pour (k,j) e Eo.

^ Etape 2e : Puis chaque élément à coder A(k,j), (k,j) e Eo est quantifié par le module 10 de quantification en fonction du débit qui lui a été alloué à l'étape 20 2d. A est maintenant la matrice actualisée des éléments quantifiés A(k, j), (k,j) e Eo résultant chacun de cette dernière quantification selon le débit global D1, des paramètres A(k,j).

25 ^ Etape 2f : De façon similaire à celle décrite précédemment dans l'étape 2c, après calcul d'un nouveau décodage ambiophonique d'ordre p effectué en fonction des éléments quantifiés avec le débit global D1, on calcule, pour l'itération n 1 du processus Proc2, un premier vecteur d'angles de Gerzon généralisé , (1) 30 dans chaque bande fréquentielle Fi, en fonction des composantes spectrales T1(i,j), i =1 à N, j=0 à M-1 déterminées suite au nouveau décodage ambiophonique, à l'aide de l'équation (6).

On calcule ensuite le vecteur A e, (1) égal à la différence entre le vecteur d'angles de Gerzon , (0) calculé à l'étape 2c de l'initialisation et le vecteur d'angles de Gerzon généralisé e, (1) calculé à l'étape 2f de l'itération n 1 : A , (1) = 4 , (1) - 4 j (0) , j=0 à M-1. ^ Etape 2g : On calcule la norme MA (1) , dans chaque bande fréquentielle Fi, de la variation 41(1) , j=0 à M-1. Cette norme représente la variation du vecteur d'angles de Gerzon 10 généralisé suite à la réduction du débit de Do à DI dans chaque bande fréquentielle Fi.

On détermine ji l'indice de la bande fréquentielle F~ telle que la norme Aei (1) de la variation d'angle de Gerzon calculée dans la bande fréquentielle Fj soit inférieure ou égale à chaque norme MA (1)11, calculée pour chaque 15 bande fréquentielle Fi, j=0 à M-1. On a donc j1 = arg min Ve~ (1) j=O...M-1 ^ Etape 2h :

On considère maintenant les paramètres spectraux des composantes ambiophoniques relatifs à la bande spectrale F~ , soit les paramètres A(k, ii), 20 avec k e Fo=[1,Q]. Et on réitère les étapes 2h1 à 2h5 suivantes pour tout i e Fo considéré alternativement depuis 1 jusqu'à Q :

2h1- on considère que la sous-bande (i,jI) est supprimée pour les 25 opérations 2h2 à 2h4 : on considère donc que A(i,jI) est nul et que l'élément quantifié correspondant À(i, j;) est aussi nul ; 2h2- De façon similaire à celle décrite précédemment dans l'étape 2c, après calcul d'un décodage ambiophonique d'ordre p effectué en fonction des éléments quantifiés avec le débit global DI (À(i, j;) étant nul), on détermine le vecteur d'angles de Gerzon généralisé ej (A(i,j,) = 0, 1) dans la bande fréquentielle Fi en fonction des composantes spectrales T1(i,j), i =1 à N et j = 0 à M-1 déterminées suite audit décodage ambiophonique à l'aide de l'équation (6). 2h3- On calcule ensuite le vecteur Ae,j (1) représentant la différence dans la bande fréquentielle F~ entre le vecteur d'angles de Gerzon généralisé ej (A(i,j,) = 0,1) calculé ci-dessus et le vecteur d'angles de Gerzon généralisé e (1) calculé à l'étape 2f de l'itération n 1 ci-dessus : A eu (1) = ej (A(i,j,) = 0, 1) -~ (1) . Puis on calcule la norme IIAu (1) Il du vecteur A ,j (1) : IIA;~, (1) Il = Il ej (A(i,j,) = 0, 1) - ej (1) II. Cette norme représente la variation du vecteur d'angles de Gerzon généralisé dans la bande fréquentielle F~ lorsque pour un débit Dl, on supprime la composante ambiophonique fréquentielle A(i,jI). 2h4- Si i # max Fo, on considère que la sous-bande (i,j1) n'est plus supprimée et on passe à l'étape 2h5. Si i = max Fo, on considère que la sous-bande (i,j1) n'est plus supprimée et on passe à l'étape 2i. 2h5- On incrémente i dans l'ensemble Fo et on réitère les étapes 2h1 à 2h4 pour la valeur de i ainsi mise à jour jusqu'à i = max Fo.

On obtient ainsi Q valeurs de variation d'angle de Gerzon généralisé (1)I , pour chaque i e Fo=[l , Q]. ^ Etape 2i : On compare entre elles les valeurs Ae,~ (1)M , pour chaque i e Fo=[1, Q], on identifie la valeur minimale parmi ces valeurs et on détermine l'indice il e Fo correspondant à la valeur minimale, soit i, =argminl IEFA +>> (1)II 35 La composante A(i1, ji) est ainsi identifiée comme l'élément à coder de plus faible importance sur le plan de la précision spatiale, comparé aux autres éléments à coder A(k,j), (k,j) e E0. ^ Etape 2i : On redéfinit, pour chaque bande spectrale Fi, le vecteur d'angles de Gerzon généralisés (1) issu de l'itération 1, calculé pour un débit DI : j (1) _ j (1) si j e [O,M-1 ]\{j1} ; (1) = e,, (A(i1,J1) = 0,1) si j = j1.

Ce vecteur redéfini d'angles de Gerzon généralisé, établi pour un débit de quantification égal à DI, prend en compte la suppression de l'élément à coder A(ii, jl) et sera utilisé pour l'itération suivante du processus Proc2.

^ Etape 2k : L'identifiant du couple (i1,j1) est délivré au module d'ordonnancement 6 en tant que résultat de la 1ère itération du processus Proc2.

^ Etape 2m : On supprime alors l'élément à coder A(ii,ji) de l'ensemble des 20 éléments à coder dans la suite du processus Proc2. On définit l'ensemble El= Eo\(ii,ji). On définit 8, =min dk,i, pour (k,j) e El. Dans une itération n 2 du processus Proc2, on réitère des étapes similaires aux étapes 2d à 2n indiquées ci-dessus. 25 Le processus Proc2 est réitéré autant de fois que souhaité pour ordonner entre eux certains ou la totalité des éléments à coder A(k,j), (k,j) e El restant à ordonner.

30 Ainsi les étapes 2d à 2n décrites ci-dessus sont réitérées pour une nième itération : Itération n (n>1) : En_1= Eo\{(i1(in-1,Jn-1)ll J. Les éléments à coder A(k,j), pour (k,j) e Eo\En_1 ont été supprimés au cours des étapes 2m des itérations précédentes. ^ Etape 2d : On définit un débit Dn = Dn_1 et une allocation de ce débit Dn entre les éléments à coder A(k,j), pour (k,j) e En_1. Lors du calcul des décodages ambiophoniques effectués ci-après, on considère donc que les éléments quantifiés A(k, j), pour (k,j) e Eo\En-1 sont nuls.

^ Etape 2e : Puis chaque élément à coder A(k,j), (k,j) e En_1, est quantifié par le 15 module 10 de quantification en fonction du débit alloué à l'étape 2d ci-dessus. Le résultat de cette quantification de l'élément à coder A(k,j) est A(k, j), (k,j) e En-1.

^ Etape 2f : 20 De façon similaire à celle décrite précédemment pour l'itération 1, après calcul d'un décodage ambiophonique d'ordre p effectué en fonction des éléments quantifiés avec le débit global Dn (on a donc considéré lors de ce décodage ambiophonique que les composantes Â(i1, j,,_1)sont nulles), on calcule, pour l'itération n du processus Proc2, un premier vecteur 25 d'angles de Gerzon généralisé ei (n) dans chaque bande fréquentielle Fi en fonction des composantes spectrales T1 i =1 à N déterminées suite audit décodage ambiophonique, à l'aide de l'équation (6). On calcule ensuite le vecteur Aej.(n) égal à la différence entre le vecteur d'angles de Gerzon; (n-1) calculé à l'étape 2j de l'itération n-1 et le 30 vecteur d'angles de Gerzon généralisé j (n) calculé à la présente étape : A j(n)_ei(n) - ~(n-1), j=0 à M-1. ^ Etape 2g : On calcule la norme la variation A (n) , j=0 à M-1.

Cette norme représente la variation du vecteur d'angles de Gerzon généralisé dans chaque bande fréquentielle Fi, suite à la réduction de débit de Dn à Dn_1 (les paramètres A(i,, j,), et A(i,, j,), ) étant supprimés). On détermine jn l'indice de la bande fréquentielle Fin telle que la norme I ~i~ (n) de la variation du vecteur d'angles de Gerzon calculée dans la bande fréquentielle Fj est inférieure ou égale à chaque norme IA j(n)II , calculée pour chaque bande fréquentielle Fi, j=0 à M-1. On a donc jn = arg min IO4~ (n) j=O...Mù1 ^ Etape 2h :

On considère maintenant les paramètres spectraux des composantes ambiophoniques relatifs à la bande spectrale Fj, soit les paramètres A(k, jn), avec k e Fn_1= {i e [1,...,Q] tel que (i, jn) e En_1}.

Et on réitère les étapes 2h1 à 2h5 suivantes pour tout i e Fn_1 considéré alternativement depuis l'élément le plus petit de l'ensemble Fn_1 (min Fn.1) jusqu'à l'élément le plus grand de l'ensemble Fn_1 (max Fn_1)

2h1- on considère que la sous-bande (i,jn) est supprimée pour les opérations 2h2 à 2h4 : on considère donc que A(i,jn) est nul et que l'élément quantifié correspondant A(i, jn) est aussi nul ; 2h2- De façon similaire à celle décrite précédemment dans l'étape 2c, après calcul d'un décodage ambiophonique d'ordre p effectué en fonction des éléments quantifiés avec le débit global Dn (A(i, jn) étant nul), on calcule, le vecteur d'angles de Gerzon généralisé nommé (A(i,jä) = 0 ,n) dans la bande 37 oe,.(11) , dans chaque bande fréquentielle Fi, de 38 fréquentielle Fj. en fonction des composantes spectrales Tl(i,j) i =1 à N et j=0 à M-1 déterminées suite audit décodage ambiophonique, à l'aide de l'équation (6). 2h3- On calcule ensuite le vecteur A& (n) égal à la différence, dans la bande fréquentielle F~ , entre le vecteur d'angles de Gerzon généralisé &(A(i,jn) = 0,n) calculé ci-dessus en 2h2 et le vecteur d'angles de Gerzon généralisé ejn (n) calculé à l'étape 2f de l'itération n ci-dessus : A4 ,J (n) = ~n (A(i,jn) 0, n) - fin (n) Puis on calcule la norme IIA (n) II du vecteur Ae'u (n) : IIA &(n) Il = I Ih (A(l,j) =0, n) - , (n) II . Cette norme représente la variation, dans la bande fréquentielle du vecteur d'angles de Gerzon généralisé et pour un débit Dn, due à la suppression de la composante ambiophonique A(i,jn) lors de la nième itération du processus Proc2. 2h4- Si i 4 max Fn_1, on considère que la sous-bande (i,jn) n'est plus supprimée et on va à l'étape 2h5. Si i = max Fn_1, on considère que la sous-bande (i,jn) n'est plus supprimée et on va à l'étape 2i. 2h5- On incrémente i dans l'ensemble Fn_1 et on réitère les étapes 2h1 à 2h4 pour la valeur de i ainsi mise à jour jusqu'à i = max On obtient ainsi, pour chaque i e Fn_1, une valeur HA (n) II, représentant la variation du vecteur d'angles de Gerzon généralisé dans la bande fréquentielle F1 due à la suppression de la composante A(i,jn) . ^ Etape2i: On compare entre elles les valeurs IIA; (n) II, pour chaque i e Fn_i, on identifie la valeur minimale parmi ces valeurs et on détermine l'indice in e Fr, correspondant à la valeur minimale, soit in =argmin tEF(n) La composante A(in,jn) est ainsi identifiée comme l'élément à coder de plus faible importance sur le plan de la précision spatiale, comparé aux autres éléments à coder A(k,j), (k,j) e En_I. ^ Etape 2j : On redéfinit, pour chaque bande spectrale Fj, un vecteur d'angles de Gerzon généralisé (n) issu de l'itération n : i- (n)= 4(n) si j e [0,M-1 ]\{jn} ; ~- (n) = (A(1, jn) = 0,n) si j = jn.

Cet angle de Gerzon généralisé redéfini, établi pour un débit de quantification égal à Dn, prend en compte la suppression de l'élément à coder A(in, jn) et sera utilisé pour l'itération suivante.

^ Etape 2k : L'identifiant du couple (in,jn) est délivré au module d'ordonnancement 6 en tant que résultat de la nième itération du processus Proc2.

^ Etape 2m : On supprime alors la bande (in,jn) de l'ensemble des éléments à coder dans la suite du processus Proc2, c'est-à-dire qu'on supprime l'élément à coder A(in,jn). On définit l'ensemble En= En_1\(in,jn). Les éléments à coder A(i,j), avec (i,j) e En restent à ordonner. Les éléments à coder A(i,j), avec (i,j) e (in,jn)} ont déjà été ordonnés lors des itérations 1 à n.

On réitère le processus Proc2 r fois et au maximum Q*M-1 fois. Des indices de priorité sont ainsi ensuite attribués par le module 6 d'ordonnancement aux différents éléments à coder, en vue de l'insertion des données de codage dans une séquence binaire.30 Ordonnancement des éléments à coder et constitution d'une séquence binaire, sur la base des résultats successivement fournies par les itérations successives du processus Proc2 : Dans un mode de réalisation où l'ordonnancement des éléments à coder est réalisé par le module 6 d'ordonnancement sur la base des résultats successivement fournies par les itérations successives du processus Proc2 mis en oeuvre par le module 5 de définition des éléments à coder les moins pertinents (à l'exclusion des résultats fournis par le processus Proc1), le module 6 d'ordonnancement définit un ordre desdits éléments à coder, traduisant l'importance des éléments à coder sur le plan de la précision spatiale.

En référence à la figure 5b, l'élément à coder A(i1,ji) correspondant au couple (i11) déterminé lors de la première itération du processus Proc2 est considéré comme le moins pertinent sur le plan de la précision spatiale. II lui est donc affecté un indice de priorité minimale Priol par le module 5. L'élément à coder A(i2,f2) correspondant au couple (i2,f2) déterminé lors de la deuxième itération du processus Proc2, est considéré comme l'élément à coder le moins pertinent sur le plan de la précision spatiale, après celui affecté à la priorité Priol. II lui est donc affecté un indice de priorité minimale Prio2, avec Prio2 > Prio1. Le module 6 d'ordonnancement ordonne ainsi successivement r éléments à coder affectés chacun à des indices de priorité croissants Priol , Prio2 à Prio r. Les éléments à coder n'ayant pas été affectés à un ordre de priorité au cours d'une itération du processus Proc2 sont plus importants sur le plan de la précision spatiale que les éléments à coder auxquels à été affecté un ordre de priorité. Lorsque r est égal à Q*M -1 fois, l'ensemble des éléments à coder sont ordonnées un à un.

Dans ce qui suit, on considère que le nombre d'itérations r du processus Proc2 effectuées est égal à Q*M -1 fois. L'ordre de priorité affecté à un élément à coder A(k,j) est également affecté à l'élément codé en fonction du résultat Â(k, j) de la quantification de 41 cet élément à coder. On note ci-dessous également Â(k, j) l'élément codé correspondant à l'élément à coder A(k,j). Le module 8 de constitution de la séquence binaire constitue une séquence binaire Seq correspondant à une trame de chacun des signaux Si, i=1 à N en y intégrant successivement des éléments codés Â(k, j) par ordre décroissant d'indices de priorité attribués, la séquence binaire Seq étant à transmettre dans le flux binaire O. Ainsi la séquence binaire constituée Seq est ordonnée conformément à l'ordonnancement effectué par le module 6.

Dans le mode de réalisation considéré ci-dessus, une suppression d'une composante spectrale d'un élément à coder A(i,j) a lieu à chaque itération du processus Proc2. Dans un autre mode de réalisation, on utilise un quantificateur imbriqué pour les opérations de quantification. Dans un tel cas, la composante spectrale d'un élément à coder A(i,j) identifiée comme la moins importante sur le plan de la précision spatiale lors d'une itération du processus Proc2 n'est pas supprimée, mais un débit réduit est affecté au codage de cette composante par rapport au codage des autres composantes spectrales d'éléments à coder restant à ordonner. Le codeur 1 est ainsi un codeur permettant une adaptabilité en débit prenant en compte les interactions entre les différents signaux monophoniques. Il permet de définir des données compressées optimisant la précision spatiale perçue.

Combinaison des processus Proc1 et Proc2 Dans un mode de réalisation, on définit les éléments à coder les moins importants à l'aide d'un processus Proc combinant les processus Proc1 et Proc2 décrits ci-dessus, en fonction de critères prenant en compte la qualité audio globale et la pertinence spatiale. L'initialisation du processus Proc comporte les initialisations des processus Proc1 et Proc2 comment décrits plus haut. 42 Une itération n (n>1) d'un tel processus Proc va être maintenant décrite en référence à la figure 11, en considérant un (n+1)ième débit Dn de codage et un ensemble d'éléments à coder A(k,j) avec (k,j) e En_1 avec à ordonner.

Ces débit et ensemble d'éléments à coder sont déterminés lors d'itérations précédentes du processus Proc sur la base d'itérations précédentes du processus Proc à l'aide des processus Proc1 et Proc2. Les itérations précédentes ont permis la détermination d'éléments à coder déterminés les moins importants en fonction de critères définis.

Ces critères définis ont été établis en fonction de la qualité audio globale et de la précision spatiale souhaitées. On met en oeuvre sur cet ensemble d'éléments à ordonner en parallèle une itération des étapes 1d et le du processus Proc1, identifiant l'élément à coder A(in1, jni) le moins pertinent sur le plan de la qualité audio globale et une itération des étapes 2e à 2i du processus Proc2, identifiant l'élément à coder A(in2, jn2) le moins pertinent sur le plan de la précision spatiale. En fonction des critères définis, on sélectionne à l'étape 300, un seul des deux éléments à coder identifiés ou encore les deux éléments à coder identifiés. On repère par A(in, jn) celui ou chaque élément à coder sélectionné.

Puis, d'une part, on fournit le ou les identifiants du couple (in,jn) au module d'ordonnancement 6 en tant que résultat de la nième itération du processus Proc2, qui lui attribue une priorité Prion au vu des critères définis. La priorité Prion affectée est supérieure à la priorité des éléments à coder sélectionnés au cours des itérations précédentes du processus Proc en fonction des critères définis. Cette étape remplace les étapes 1f du processus Proc1 et 2k du processus Proc2 tels que décrits précédemment. Le ou les éléments à coder A(in,jn) sélectionnés sont ensuite insérés dans la séquence binaire à transmettre avant les éléments à coder sélectionnés au cours des itérations précédentes du processus Proc (car l'élément à coder A(in,jn) est plus important sur le plan des critères définis que les éléments à coder sélectionnés précédemment par le processus Proc). Le ou les éléments à coder A(in,jn) sélectionnés sont insérés dans la séquence binaire à transmettre après les autres éléments à coder de l'ensemble En_1 (car 43 l'élément à coder A(in,jn) est moins important sur le plan des critères définis que ces autres éléments à coder). D'autre part, dans une étape 301, on supprime le ou les éléments à coder A(in,jn) sélectionné pour l'itération suivante (itération n+1) du processus Proc (comprenant une itération n+1 pour les processus Proc1 et Proc2), qui s'appliqueront alors à l'ensemble des éléments à coder En = En_1 \ (A(in,jn), sur la base d'un débit réduit comme défini dans l'étape 1 c du processus Proc1 et l'étape 2n du processus Proc2. Cette étape 301 remplace les étapes 1g du processus Proc1 et 2m du 10 processus Proc2 tels que décrits précédemment. Les critères définis permettent de sélectionner celui ou ceux des éléments les moins pertinents identifiés respectivement lors de l'étape 300 du processus Proc. Par exemple, dans un mode de réalisation, on supprime l'élément 15 identifié par le processus Proc1 à chaque itération n, avec n pair et on supprime l'élément identifié par le processus Proc2 à chaque itération n avec n impair, ce qui permet de préserver au mieux la qualité audio globale et la précision spatiale. D'autres critères peuvent être utilisés. Un codage mettant en oeuvre un 20 tel processus Proc permet ainsi d'obtenir un flux binaire adaptable en débit sur le plan de la qualité audio et sur la plan de la précision spatiale.

Opérations réalisées au niveau du décodeur Le décodeur 100 comprend un module de lecture de séquence binaire, 25 104, un module de quantification inverse 105, un module 101 de transformation ambiophonique inverse et un module 102 de transformation fréquence/temps. Le décodeur 100 est adapté pour recevoir en entrée le flux binaire cl> transmis par le codeur 1 et pour délivrer en sortie Q' signaux S'1, S'2, ..., S'Q' destinés à alimenter les Q' haut-parleurs H1, ..., HQ' respectifs d'un système 30 de rendu sonore 103. Le nombre de haut-parleurs Q' peut dans un mode de réalisation être différent du nombre Q de composantes ambiophoniques transmises. 44 A titre d'exemple, la configuration d'un système de rendu sonore comprenant 8 haut-parleurs h1, h2,..., h8 est représentée en figure 7. Le module 104 de lecture de séquence binaire extrait de la séquence binaire l reçue des données indiquant les indices de quantification déterminés 5 pour des éléments A(k, j), k=1 à Q et j=0 à M-1 et les fournit en entrée du module 105 de quantification inverse. Le module 105 de quantification inverse effectue une opération de quantification inverse. Les éléments de la matrice A' des éléments A'(k, j), k=1 à Q et j=0 à 10 M-1, sont déterminés, tels que A'(k, j)=A(k, j) lorsque la séquence reçue comportait des données indiquant l'indice de quantification de l'élément A(k, j) issu du codage des paramètres A(k,j) des composantes ambiophoniques par le décodeur 100 et Â'(k, j)= 0 lorsque la séquence reçue ne comportait pas de données indiquant l'indice de quantification de l'élément A(k, j) (par exemple 15 ces données ont été coupés lors de la transmission de la séquence au niveau d'un serveur de streaming pour s'adapter au débit disponible dans le réseau et/ou aux caractéristiques du terminal).

Le module 101 de transformation spatiale inverse est adapté pour 20 déterminer les éléments X'(i, j), i=1 à Q', j= 0 à M-1, de la matrice X' définissant les M coefficients spectraux X'(i, j), i=1 à Q', j= 0 à M-1, de chacun des Q'i' signaux S'i, à partir des composantes ambiophoniques A'(k, j), k=1 à Q et j=0 à M-1, déterminées par le module 105 de quantification inverse.. Ambinv(p',Q') est la matrice de transformation ambiophonique inverse, 25 d'ordre p' pour la scène 3D adaptée pour déterminer les Q' signaux S'i, i= 1 à Q', destinés aux Q' haut-parleurs du système de rendu sonore associé au décodeur 100, à partir des Q composantes ambiophoniques reçues. Les angles 13i, pour i=1 à Q', indiquent l'angle de propagation acoustique depuis le haut-parleur Hi. Dans l'exemple représenté en figure 7, ces angles 30 correspondent aux angles entre l'axe de propagation d'un son émis par un haut-parleur et l'axe XX. 45 X' est la matrice des composants spectraux X'(i,j) des signaux Si', i=1 à Q' relatifs aux bandes de fréquences Fj, j= 0 à M-1. Ainsi : A' (1,0) A' (1,1) À 2,0) A' (1, M -1) A'(2,Mû1) A' (Q,0) A' (Q,1) . A'(Q,Mû1) 1 . si 1 n /31 . sin p' fl1 -J 2 .sin p' /32 . . :ri . sin p' fQ' X' (1,0) X' (1,1) . X' (1, M -1) X' (2,0) X' (2,1) . X' (2, M -1 X'= X' (Q',0) . X' (Q', M -1) et on a X' = Ambinv(p',Q') x A' Equation (7). Le module 101 de transformation spatiale inverse est adapté pour 10 déterminer les coefficients spectraux X'(i, j), i=1 à Q', j= 0 à M-1, éléments de la matrice X', à l'aide de l'équation (7). Ces éléments X'(i, j), i=1 à Q', j= 0 à M-1, une fois déterminés, sont délivrées en entrée du module 102 de transformation fréquence/temps. Le module 102 de transformation fréquence/temps du décodeur 100 15 effectue une transformation de l'espace de représentation fréquentielle vers l'espace de représentation temporelle sur la base des coefficients spectraux reçus X'(i, j), i=1 à Q', j= 0 à M-1 (cette transformation est dans le cas présent, Amblnv(p', Q')= 1 .cos!31 1 =.cos,Q2 et -1 ùrr.cos f3Q' _ A' _ 46 une MDCT inverse), et il détermine ainsi une trame temporelle de chacun des Q' signaux S'1,..., S'Q'. Chaque signal S'i, i = 1 à Q', est destiné au haut-parleur Hi du système de rendu sonore 103.

Certaines au moins des opérations effectuées par le décodeur sont dans un mode de réalisation mises en oeuvre suite à l'exécution sur des moyens de traitement du décodeur, d'instructions de programme d'ordinateur. Un avantage du codage des composantes issues de la transformation ambiophonique des signaux SI, ..., SN tel que décrit est que dans le cas où le nombre de signaux N de la scène sonore est grand, il est possible de les représenter par un nombre Q de composantes ambiophoniques bien inférieur à N, en dégradant très peu la qualité spatiale des signaux. Le volume de données à transmettre est donc réduit et ceci sans dégradation importante de la qualité audio de la scène sonore.

Un autre avantage d'un codage selon l'invention est qu'un tel codage permet une adaptabilité aux différents types de systèmes de rendu sonores, quels que soient le nombre, la disposition et le type de haut-parleurs dont le système de rendu sonore est muni. En effet, un décodeur recevant une séquence binaire comprenant Q composantes ambiophoniques opère sur celles-ci une transformation ambiophonique inverse d'ordre p' quelconque et correspondant au nombre Q'' de haut-parleurs du système de rendu sonore auquel sont destinés les signaux une fois décodés. Un codage tel qu'effectué par le codeur 1 permet d'ordonner les éléments à coder en fonction de leur apport respectif sur la qualité audio à l'aide du premier processus Proc1 et/ou en fonction de leur apport respectif sur la précision spatiale et le respect de la reproduction des directions contenus dans la scène sonore, à l'aide du deuxième processus Proc2. Pour s'adapter aux contraintes de débit imposées, il suffit de tronquer la séquence des éléments de priorités inférieures disposés dans la séquence. Il est garanti qu'alors la meilleure qualité audio globale (quand le processus Proc1 est mis en oeuvre) et/ou la meilleure précision spatiale (quand le processus Proc2 est mis en oeuvre) est fournie. En effet l'ordonnancement des éléments à été fait de façon à ce que les éléments qui apportent le moins à la qualité audio globale et/ou la précision spatiale soient mis à la fin de la séquence. Les processus Proc1 et Proc 2 peuvent être mis en oeuvre, suivant les 5 modes de réalisations, en combinaison ou alors seuls, indépendamment l'un de l'autre pour définir une séquence binaire.

Claims

REVENDICATIONS

1. Procédé d'ordonnancement de composantes spectrales d'éléments à coder (A1,..., AQ) provenant d'une scène audio comprenant N signaux (Sii=1 à N), avec N>1, un élément à coder comportant des composantes spectrales se rapportant à des bandes spectrales respectives, caractérisé en ce qu'il comporte les étapes suivantes : calcul de l'influence respective d'au moins certaines composantes spectrales calculables en fonction de paramètres spectraux issus de certains au moins des N signaux, sur des rapports masque à bruit déterminés sur les bandes spectrales en fonction d'un codage desdites composantes spectrales ; attribution d'un ordre de priorité à au moins une composante spectrale en fonction de l'influence calculée pour ladite composante spectrale comparée aux autres influences calculées. 20

2. Procédé selon la revendication 1, caractérisé en ce que le calcul de l'influence d'une composante spectrale s'effectue selon les étapes : a-codage d'un premier ensemble de composantes spectrales d'éléments à coder selon un premier débit; b- détermination d'un premier rapport masque à bruit par bande spectrale; 25 c- détermination d'un second débit inférieur au dit premier; d- suppression de ladite composante spectrale courante des éléments à coder et codage des composantes spectrales restantes des éléments à coder selon le second débit; e- détermination d'un second rapport masque à bruit par bande spectrale; 15f- calcul d'une variation de rapport masque à bruit en fonction des écarts déterminés entre les premier et second rapports masque à bruit pour le premier et le second débit par bande spectrale; g- itération des étapes d à f pour chacune des composantes spectrales de l'ensemble de composantes spectrales d'éléments à coder à ordonner et détermination d'une variation de rapport masque à bruit minimum; l'ordre de priorité attribué à la composante spectrale correspondant à la variation minimum étant un ordre de priorité minimum.

3. Procédé selon la revendication 2, caractérisé en ce que on réitère les étapes a à g avec un ensemble de composantes spectrales d'éléments à coder à ordonner restreint par suppression des composantes spectrales pour lesquelles un ordre de priorité a été attribué.

4. Procédé selon la revendication 2, caractérisé en ce que on réitère les étapes a à g avec un ensemble de composantes spectrales d'éléments à coder à ordonner dans lequel les composantes spectrales pour lesquelles un ordre de priorité a été attribué sont affectées d'un débit de quantification plus réduit lors de l'utilisation d'un quantificateur imbriqué.

5. Procédé selon l'une quelconque des revendications précédentes, selon lequel les éléments à coder comprennent les paramètres spectraux calculés pour les N signaux.

6. Procédé selon l'une quelconque des revendications précédentes, selon lequel les éléments à coder comprennent des éléments (A1,..., AQ) obtenus par transformation spatiale des paramètres spectraux calculés pour les N signaux.

7. Procédé selon la revendication 6, selon lequel la transformation spatiale est une transformation ambiophonique.

8. Procédé selon la revendication 6 ou 7, selon lequel on détermine les rapports masque à bruit en fonction des erreurs due au codage et relatives à des éléments à coder, d'une matrice de transformation spatiale et d'une matrice déterminée en fonction de la transposée de ladite matrice de transformation spatiale.

9. Procédé selon l'une quelconque des revendications précédentes et la revendication 6, certaines des composantes spectrales étant alors des paramètres spectraux de composantes ambiophoniques, ledit procédé comportant en outre les étapes suivantes : a. calcul de l'influence respective d'au moins certains desdits paramètres spectraux, sur un vecteur d'angle défini en fonction de vecteurs d'énergie et de vélocité associés à des critères de Gerzon et calculés en fonction d'une transformation ambiophonique inverse sur lesdits composantes ambiophoniques quantifiés; b. attribution d'un ordre de priorité (Prio0) à au moins un paramètre spectral en fonction de l'influence calculée pour ledit paramètre spectral comparé aux autres influences calculées.

10. Module d'ordonnancement (5) comprenant des moyens pour mettre en oeuvre un procédé selon l'une des revendications précédentes.

11. Codeur audio (1) adapté pour coder une scène audio 3D comprenant N signaux respectifs en un flux binaire de sortie, avec N>1, comprenant : un module (3,4) de transformation adapté pour déterminer, en fonction des N signaux, des composantes spectrales se rapportant à des bandes spectrales respectives; 30 51 un module (6) d'ordonnancement selon la revendication 10, adapté pour ordonner au moins certaines des composantes spectrales se rapportant à des bandes spectrales respectives; un module (8) de constitution d'une séquence binaire adapté pour constituer une séquence binaire comportant des données indiquant des composantes spectrales se rapportant à des bandes spectrales respectives en fonction de l'ordonnancement effectué par le module d'ordonnancement.

12. Programme d'ordinateur à installer dans un module d'ordonnancement (6), ledit programme comprenant des instructions pour mettre en oeuvre les étapes d'un procédé selon l'une quelconque des revendications 1 à 9 lors d'une exécution du programme par des moyens de traitement dudit module.

13. Séquence binaire comportant des composantes spectrales se rapportant à des bandes spectrales respectives d'éléments à coder provenant d'une scène audio comprenant N signaux avec N>1, caractérisé en ce que certaines au moins des composantes spectrales sont ordonnées selon un procédé d'ordonnancement conforme à l'une des revendications 1 à 9.