EP2145167B1

EP2145167B1 - Procédé de codage audio, codeur audio, signal codé et programme d'ordinateur associés

Info

Publication number: EP2145167B1
Application number: EP08788186A
Authority: EP
Inventors: Adil Mouhssine; Abdellatif Benjelloun Touimi
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2007-05-10
Filing date: 2008-04-16
Publication date: 2011-12-21
Anticipated expiration: 2028-04-16
Also published as: US8488824B2; ATE538369T1; CN101730832B; CN101730832A; FR2916079A1; EP2145167A2; WO2008145893A2; US20100305952A1; WO2008145893A3

Description

La présente invention concerne les dispositifs de codage de signaux audio, destinés notamment à prendre place dans des applications de transmission ou de stockage de signaux audio numérisés et compressés.
L'invention est relative plus précisément aux systèmes de codage hiérarchique audio, ayant la capacité de fournir des débits variés, en répartissant les informations relatives à un signal audio à coder dans des sous-ensembles hiérarchisés, de telle sorte qu'elles puissent être utilisées par ordre d'importance sur le plan de la qualité audio. Le critère pris en compte pour déterminer l'ordre est un critère d'optimisation (ou plutôt de moindre dégradation) de la qualité du signal audio codé. Le codage hiérarchique est particulièrement adapté à la transmission sur des réseaux hétérogènes ou présentant des débits disponibles variables au cours du temps, ou encore à la transmission à destination de terminaux présentant des caractéristiques différentes ou variables.
L'invention concerne plus particulièrement le codage hiérarchique de scène sonore 3D. Une scène sonore 3D comprend une pluralité de canaux audio correspondant à des signaux monophoniques audio et est encore appelée son spatialisé.
Une scène sonore codée est destinée à être reproduite sur un système de rendu sonore, qui peut comprendre un simple casque, deux haut-parleurs d'un ordinateur ou encore un système de type Cinéma maison 5.1 (en anglais « Home Cinema ») avec cinq haut-parleurs (un haut-parleur au niveau de l'écran et à l'avant de l'auditeur théorique : un haut-parleur à gauche et un haut-parleur à droite ; à l'arrière de l'auditeur théorique : un haut-parleur à gauche et un haut-parleur à droite), etc.
Par exemple, considérons une scène sonore d'origine comportant trois sources sonores distinctes, localisées à différents endroits dans l'espace. Les signaux de description de cette scène sonore sont codés. Les données issues de ce codage sont transmises au décodeur, puis sont décodées. Les données décodées sont exploitées afin de générer cinq signaux destinés aux cinq haut-parleurs du système de rendu sonore. Chacun des cinq haut-parleurs diffusent un des signaux, l'ensemble des signaux diffusés par les haut-parleurs synthétisant la scène sonore 3D et donc positionnant dans l'espace trois sources sonores virtuelles.
Il existe différentes techniques de codage de scènes sonores.
Par exemple, une technique utilisée comprend la détermination d'éléments de description de la scène sonore, puis des opérations de compression de chacun des signaux monophoniques. Les données issues de ces compressions et les éléments de description sont alors fournis au décodeur.
L'adaptabilité (encore appelée scalabilité) en débit selon cette première technique est donc réalisable, en adaptant le débit lors des opérations de compression, mais elle est réalisée selon des critères d'optimisation de la qualité de chaque signal considéré individuellement.
Une autre technique de codage, qui est utilisée dans le codeur « MPEG Audio Surround » (cf. « Text of ISO/IEC FDIS 23003-1, MPEG Surround », ISO/IEC JTC1 / SC29 / WG11 N8324, July 2006, Klagenfurt, Austria), comprend l'extraction et le codage de paramètres spatiaux à partir de l'ensemble des signaux audio monophoniques sur les différents canaux. Ces signaux sont ensuite mélangés pour obtenir un signal monophonique ou stéréophonique, qui est alors comprimé par un codeur mono ou stéréo classique (par exemple de type MPEG-4 AAC, HE-AAC, etc). Au niveau du décodeur, la synthèse de la scène sonore 3D se fait à partir des paramètres spatiaux et du signal mono ou stéréo décodé.
L'adaptabilité en débit avec cette autre technique est ainsi réalisable en utilisant un codeur mono ou stéréo hiérarchique, mais elle est réalisée selon un critère d'optimisation de la qualité du signal monophonique ou stérophonique.
Par ailleurs, la méthode PSMAC (en anglais « Progressive Syntax-rich Multichannel Audio Codec ») permet de coder les signaux de différents canaux en utilisant la transformée KLT (en anglais « Karhunen Loeve Transform »), utile principalement pour la décorrélation des signaux et qui correspond à une décomposition sur des composantes principales dans un espace représentant les statistiques des signaux. Elle permet de distinguer les composantes les plus énergétiques des composantes les moins énergétiques.
L'adaptabilité en débit est basée sur une annulation des composantes les moins énergétiques. Toutefois, ces composantes peuvent parfois avoir une grande importance quant à la qualité audio globale.
Ainsi, si les techniques connues donnent de bons résultats en termes d'adaptabilité en débit, aucune ne propose une méthode d'adaptabilité en débit pleinement satisfaisante sur la base d'un critère d'optimisation de la qualité audio globale, en vue de définir des données compressées optimisant la qualité audio globale perçue, lors de la restitution de la scène sonore 3D décodée.
Par ailleurs, aucune des techniques de codage de scène sonore 3D connues ne permet d'adaptabilité en débit sur la base d'un critère d'optimisation de la résolution spatiale, lors de la restitution de la scène sonore 3D. Cette adaptabilité permet de garantir que chaque réduction de débit dégradera le moins possible la précision de la localisation des sources sonores dans l'espace, ainsi que la dimension de la zone de restitution, qui doit être la plus large possible autour de la tête de l'auditeur.
En outre, aucune des techniques de codage de scène sonore 3D connues ne permet d'adaptabilité en débit qui permette de garantir directement une qualité optimale quel que soit le système de rendu sonore utilisé pour la restitution de la scène sonore 3D. Les algorithmes de codage actuels sont définis pour optimiser la qualité par rapport à une configuration particulière du système de rendu sonore. En effet, par exemple dans le cas du codeur « MPEG Audio Surround » décrit ci-dessus mis en oeuvre avec un codage hiérarchique, une écoute directe sur casque ou deux haut-parleurs, ou encore en monophonique est possible. Si on souhaite exploiter le flux binaire compressé avec un système de rendu sonore de type 5.1 ou 7.1, il faut mettre en oeuvre des traitements supplémentaires au niveau du décodeur, par exemple à l'aide de boîtiers OTT (en anglais « One-To-Two ») pour générer les cinq signaux à partir des deux signaux décodés. Ces boîtiers permettent d'obtenir le nombre désiré de signaux dans le cas d'un système de rendu sonore de type 5.1 ou 7.1, mais ne permettent pas de reproduire l'aspect spatial réel. En outre, ces boîtiers ne garantissent pas l'adaptabilité à des systèmes de rendu sonores autres que ceux du type 5.1 et 7.1.
La présente invention vient améliorer la situation.
A cet effet la présente invention vise à proposer, suivant un premier aspect tel que défini dans la revendication 1, un procédé d'ordonnancement de composantes spectrales d'éléments à coder provenant d'une scène audio comprenant N signaux avec N>1, un élément à coder comportant des composantes spectrales se rapportant à des bandes spectrales respectives.
Le procédé comporte les étapes suivantes :

calcul de l'influence respective d'au moins certaines composantes spectrales calculables en fonction de paramètres spectraux issus de certains au moins des N signaux, sur des rapports masque à bruit déterminés sur les bandes spectrales en fonction d'un codage desdites composantes spectrales ;
attribution d'un ordre de priorité à au moins une composante spectrale en fonction de l'influence calculée pour ladite composante spectrale comparée aux autres influences calculées.

Un procédé selon l'invention permet ainsi d'ordonner par ordre d'importance quant à la qualité audio globale des composantes d'élément à coder.
Une séquence binaire est constituée après comparaison entre elles des différentes composantes spectrales des différents éléments à coder de la scène globale comparées entre elles sur le plan de leur apport quant à la qualité audio globale perçue. L'interaction entre signaux est ainsi prise en compte pour les comprimer de façon conjointe.
Le flux binaire peut ainsi être ordonné de manière à ce que chaque réduction de débit dégrade le moins possible la qualité audio globale perçue de la scène sonore 3D, puisque les éléments les moins importants sur le plan de leur apport au niveau de la qualité audio globale sont détectés, afin de pouvoir ne pas être insérés (lorsque le débit alloué pour la transmission est insuffisant pour transmettre toutes les composantes des éléments à coder) ou être mis en fin de séquence binaire (permettant de minimiser les défauts générés par une troncature ultérieure).
Dans un mode de réalisation, le calcul de l'influence d'une composante spectrale s'effectue selon les étapes :

a- codage d'un premier ensemble de composantes spectrales d'éléments à coder selon un premier débit;
b- détermination d'un premier rapport masque à bruit par bande spectrale;
c- détermination d'un second débit inférieur au dit premier;
d- suppression de ladite composante spectrale courante des éléments à coder et codage des composantes spectrales restantes des éléments à coder selon le second débit;
e- détermination d'un second rapport masque à bruit par bande spectrale;
f- calcul d'une variation de rapport masque à bruit en fonction des écarts déterminés entre les premier et second rapports masque à bruit pour le premier et le second débit par bande spectrale;
g- itération des étapes d à f pour chacune des composantes spectrales de l'ensemble de composantes spectrales d'éléments à coder à ordonner et détermination d'une variation de rapport masque à bruit minimum; l'ordre de priorité attribué à la composante spectrale correspondant à la variation minimum étant un ordre de priorité minimum.

Un tel processus permet ainsi de déterminer au moins une composante d'un élément à coder qui est la moins importante sur le plan de l'apport à la qualité audio globale, comparée à l'ensemble des autres composantes d'éléments à coder à ordonner.
Dans un mode de réalisation, on réitère les étapes a à g avec un ensemble de composantes spectrales d'éléments à coder à ordonner restreint par suppression des composantes spectrales pour lesquelles un ordre de priorité a été attribué.
Dans un autre mode de réalisation, on réitère les étapes a à g avec un ensemble de composantes spectrales d'éléments à coder à ordonner dans lequel les composantes spectrales pour lesquelles un ordre de priorité a été attribué sont affectées d'un débit de quantification plus réduit lors de l'utilisation d'un quantificateur imbriqué.
Dans un mode de réalisation, les éléments à coder comprennent les paramètres spectraux calculés pour les N canaux. Ce sont alors, par exemple, les composantes spectrales des signaux qui sont codées directement.
Dans un autre mode de réalisation, les éléments à coder comprennent des éléments obtenus par transformation spatiale, par exemple de type ambiophonique, appelé en anglais « ambisonic », des paramètres spectraux calculés pour les N signaux. Cette disposition permet d'une part de réduire le nombre de données à transmettre puisque, en général, les N signaux peuvent être décrits d'une manière très satisfaisante par un nombre de composantes ambiophoniques réduit (par exemple, un nombre égal à 3 ou 5), inférieur à N. Cette disposition permet en outre une adaptabilité à tout type de système de rendu sonore, puisqu'il suffit au niveau du décodeur, d'appliquer une transformée ambiophonique inverse de taille Q'x(2p'+1), (où Q' est égal au nombre de haut-parleurs du système de rendu sonore utilisé en sortie du décodeur et 2p'+1 le nombre de composantes ambiophoniques reçues), pour déterminer les signaux à fournir au système de rendu sonore, tout en préservant la qualité audio globale.
Dans un mode de réalisation, on utilise à la place de la transformée spatiale d'autres transformées linéaires telles que KLT etc.
Dans un mode de réalisation, on détermine les rapports masque à bruit en fonction des erreurs due au codage et relatives à des éléments à coder et en fonction en outre d'une matrice de transformation spatiale et d'une matrice déterminée en fonction de la transposée de ladite matrice de transformation spatiale.
Dans un mode de réalisation, des éléments à coder sont des composantes ambiophoniques, certaines des composantes spectrales étant alors des paramètres spectraux de composantes ambiophoniques. Le procédé comporte les étapes suivantes:

a. calcul de l'influence de certaines au moins desdites composantes spectrales, sur un vecteur d'angle défini en fonction de vecteurs d'énergie et de vélocité associés à des critères de Gerzon et calculés en fonction d'une transformation ambiophonique inverse sur lesdits composantes ambiophoniques quantifiés;
b. attribution d'un ordre de priorité à au moins une composante spectrale en fonction de l'influence calculée pour ladite composante spectrale comparée aux autres influences calculées.

Un procédé selon l'invention permet ainsi d'ordonner certains au moins des paramètres spectraux de composantes ambiophoniques de l'ensemble à ordonner, en fonction de leur importance relative sur le plan de l'apport à la précision spatiale.
La résolution spatiale ou précision spatiale mesure la finesse de la localisation des sources sonores dans l'espace. Une résolution spatiale accrue permet une localisation plus fine des objets sonores dans la pièce et permet d'avoir une zone de restitution plus large autour de la tête de l'auditeur.
Les interactions entre signaux et leur conséquence sur le plan de la précision spatiale sont prises en compte pour les comprimer de façon conjointe.
Le flux binaire peut ainsi être ordonné de manière à ce que chaque réduction de débit dégrade le moins possible la précision spatiale perçue de la scène sonore 3D, puisque les éléments les moins importants sur le plan de leur apport sont détectés, afin d'être mis en fin de séquence binaire (permettant de minimiser les défauts générés par une troncature ultérieure).
Dans un mode de réalisation d'un tel procédé, on exploite, de la façon indiquée ci-dessous, les angles ξ _V et ξ _E associés aux vecteurs vélocité V et énergie E des critères de Gerzon pour identifier des éléments à coder les moins pertinents sur le plan de l'apport, en termes de précision spatiale, à la scène sonore 3D. Ainsi contrairement à l'usage habituel, les vecteurs vélocité V et énergie E ne sont pas utilisés pour optimiser un système de rendu sonore considéré.
Dans un mode de réalisation, le calcul de l'influence d'un paramètre spectral s'effectue selon les étapes suivantes :

a- codage d'un premier ensemble de paramètres spectraux de composantes ambiophoniques à coder selon un premier débit;
b- détermination d'un premier vecteur d'angle par bande spectrale;
c- détermination d'un second débit inférieur au dit premier;
d- suppression dudit paramètre spectral courant des composantes à coder et codage des paramètres spectraux restants des composantes à coder selon le second débit;
e- détermination d'un second vecteur d'angle par bande spectrale;
f- calcul d'une variation de vecteur d'angle en fonction des écarts déterminés entre les premier et second vecteurs d'angle pour le premier et le second débit par bande spectrale;
g- itération des étapes d à f pour chacun des paramètres spectraux de l'ensemble de paramètres spectraux de composantes à coder à ordonner et détermination d'une variation de vecteur d'angle minimum; l'ordre de priorité attribué au paramètre spectral correspondant à la variation minimum étant un ordre de priorité minimum.

Cette disposition permet, en un nombre limité de calculs, de déterminer le paramètre spectral de la composante à déterminer dont l'apport à la précision spatiale est minimum.
Dans un mode de réalisation, on réitère les étapes a à g avec un ensemble de paramètres spectraux de composantes à coder à ordonner restreint par suppression des paramètres spectraux pour lesquelles un ordre de priorité a été attribué.
Dans un autre mode de réalisation, on réitère les étapes a à g avec un ensemble de paramètres spectraux de composantes à coder à ordonner dans lequel les paramètres spectraux pour lesquels un ordre de priorité a été attribué sont affecté d'un débit de quantification plus réduit lors de l'utilisation d'un quantificateur imbriqué.
De tels processus itératifs permettent d'identifier successivement, parmi les paramètres spectraux des composantes ambiophoniques auxquels n'ont pas encore été affectés des ordres de priorité, ceux qui apportent le moins sur le plan de la précision spatiale.
Dans un mode de réalisation, une première coordonnée du vecteur d'énergie est fonction de la formule $\frac{\sum_{1 \leq i \leq Q} {Ti}^{2} \cos ξ_{i}}{\sum_{1 \leq i \leq Q} {Ti}^{2}},$
une seconde coordonnée du vecteur d'énergie est fonction de la formule $\frac{\sum_{1 \leq i \leq Q} {Ti}^{2} \sin ξ_{i}}{\sum_{1 \leq i \leq Q} {Ti}^{2}},$
une première coordonnée du vecteur de vélocité est fonction de la formule $\frac{\sum_{1 \leq i \leq Q} Ti \cos ξ_{i}}{\sum_{1 \leq i \leq Q} Ti}$
et une seconde coordonnée du vecteur de vélocité est fonction de la formule $\frac{\sum_{1 \leq i \leq Q} Ti \sin ξ_{i}}{\sum_{1 \leq i \leq Q} Ti},$
dans lesquelles les T_i, i=1 à Q, représentent les signaux déterminés en fonction de la transformation ambiophonique inverse sur lesdits paramètres spectraux quantifiés selon le débit considéré et les ξ _i i=1 à Q, sont des angles déterminés.
Dans un mode de réalisation, une première coordonnée d'un vecteur d'angle indique un angle fonction du signe de la deuxième coordonnée du vecteur de vélocité et de l'arccosinus de la première coordonnée du vecteur de vélocité et selon lequel une deuxième coordonnée d'un vecteur d'angle indique un angle fonction du signe de la deuxième coordonnée du vecteur d'énergie et de l'arccosinus de la première coordonnée du vecteur d'énergie.
Suivant un second aspect tel que défini dans la revendication 10, l'invention propose un codeur audio adapté pour coder une scène audio 3D comprenant N signaux respectifs en un flux binaire de sortie, avec N>1, comprenant :

un module de transformation adapté pour déterminer, en fonction des N signaux, des composantes spectrales se rapportant à des bandes spectrales respectives;
un module d'ordonnancement suivant le deuxième aspect de l'invention, adapté pour ordonner au moins certaines des composantes spectrales se rapportant à des bandes spectrales respectives;
un module de constitution d'une séquence binaire adapté pour constituer une séquence binaire comportant des données indiquant des composantes spectrales se rapportant à des bandes spectrales respectives en fonction de l'ordonnancement effectué par le module d'ordonnancement.

Suivant un troisième aspect tel que défini dans la revendication 11, l'invention propose un programme d'ordinateur à installer dans un module d'ordonnancement, ledit programme comprenant des instructions pour mettre en oeuvre les étapes d'un procédé suivant le premier aspect de l'invention lors d'une exécution du programme par des moyens de traitement dudit module.
Suivant un quatrième aspect tel que défini dans la revendication 12, l'invention propose un signal comportant des composantes spectrales se rapportant à des bandes spectrales respectives d'éléments à coder provenant d'une scène audio comprenant N signaux avec N>1, en ce en que lesdites composantes spectrales sont ordonnées pour la mise en oeuvre du procédé d'ordonnancement suivant le premier aspect de l'invention.
D'autres caractéristiques et avantages de l'invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels :

la figure 1 représente un codeur dans un mode de réalisation de l'invention ;
la figure 2 représente un décodeur dans un mode de réalisation de l'invention ;
la figure 3 illustre la propagation d'une onde plane dans l'espace ;
la figure 4 est un organigramme représentant des étapes d'un premier processus Proc1 dans un mode de réalisation de l'invention ;
la figure 5a représente une séquence binaire construite dans un mode de réalisation de l'invention ;
la figure 5b représente une séquence binaire Seq construite dans un autre mode de réalisation de l'invention ;
la figure 6 est un organigramme représentant des étapes d'un second processus Proc2 dans un mode de réalisation de l'invention ;
la figure 7 représente un exemple de configuration d'un système de rendu sonore comprenant 8 haut-parleurs h1, h2,..., h8 ;
la figure 8 représente une chaîne de traitement ;
la figure 9 comporte une deuxième chaîne de traitement ;
la figure 10 représente une troisième chaîne de traitement ;
la figure 11 est un organigramme représentant des étapes d'un processus Proc dans un mode de réalisation de l'invention.

La figure 1 représente un codeur audio 1 dans un mode de réalisation de l'invention.
Le codeur 1 comprend un module 3 de transformation temps/fréquence, un module 7 de calcul de courbe de masquage, un module 4 de transformation spatiale, un module 5 de définition des éléments à coder les moins pertinents combiné avec un module 10 de quantification, un module 6 d'ordonnancement des éléments, un module 8 de constitution d'une séquence binaire, en vue de la transmission d'un flux binaire Φ.
Une scène sonore 3D comprend N canaux sur chacun un signal respectif S1, ..., SN est délivré.
La figure 2 représente un décodeur audio 100 dans un mode de réalisation de l'invention.
Le décodeur 100 comprend un module 104 de lecture de séquence binaire, un module 105 de quantification inverse, un module 101 de transformation ambiophonique inverse, un module 102 de transformation fréquence/temps.
Le décodeur 100 est adapté pour recevoir en entrée le flux binaire Φ transmis par le codeur 1 et pour délivrer en sortie Q' signaux S'1, S'2, ..., S'Q' destinés à alimenter les Q' haut-parleurs H1, H2 ..., HQ' respectifs d'un système de rendu sonore 103.
A chaque haut-parleur Hi, i=1 à Q', est associé un angle βi indiquant l'angle de propagation acoustique depuis le haut-parleur.

Opérations réalisées au niveau du codeur :

Le module 3 de transformation temps/fréquence du codeur 1 reçoit en entrée les N signaux S1,..., SN de la scène sonore 3D à coder.
Chaque signal Si, i = 1 à N, est représenté par la variation de sa pression omnidirectionnelle acoustique Pi et l'angle θi de propagation de l'onde acoustique dans l'espace de la scène 3D.
Sur chaque trame temporelle de chacun de ces signaux indiquant les différentes valeurs prises au cours du temps par la pression acoustique Pi, le module 3 de transformation temps/fréquence effectue une transformation temps/fréquence, dans le cas présent, une transformée en cosinus discrète modifiée (MDCT).
Ainsi il détermine, pour chacun des signaux Si, i=1 à N, sa représentation spectrale Xi, caractérisée par M coefficients MDCT X(i, j), avec j= 0 à M-1. Un coefficient MDCT X(i,j) représente ainsi le spectre du signal Si pour la bande de fréquence Fj.
Les représentations spectrales Xi des signaux Si, i= 1 à N, sont fournies en entrée du module 4 de transformation spatiale, qui reçoit en outre en entrée les angles θi de propagation acoustique caractérisant les signaux d'entrée Si.
Les représentations spectrales Xi des signaux Si, i= 1 à N, sont en outre fournies en entrée du module 7 de calcul des courbes de masquage.
Le module 7 de calcul de courbe de masquage est adapté pour déterminer la courbe de masquage spectrale de chaque signal Si considéré individuellement, à l'aide de sa représentation spectrale Xi et d'un modèle psychoacoustique, ce qui fournit un niveau de masquage pour chaque bande de fréquence Fj, j=0 à M-1 de chaque représentation spectrale Xi. Les éléments de définition de ces courbes de masquages sont délivrés au module 5 de définition des éléments à coder les moins pertinents.
Le module 4 de transformation spatiale est adapté pour effectuer une transformation spatiale des signaux d'entrée fournies, c'est-à-dire déterminer les composantes spatiales de ces signaux résultant de la projection sur un référentiel spatial dépendant de l'ordre de la transformation. L'ordre d'une transformation spatiale se rattache à la fréquence angulaire selon laquelle elle « scrute » le champ sonore.
Dans un mode de réalisation, le module 4 de transformation spatiale effectue une transformation ambiophonique, qui donne une représentation spatiale compacte d'une scène sonore 3D, en réalisant des projections du champ sonore sur les fonctions harmoniques sphériques ou cylindriques associées.
Pour plus d'information sur les transformations ambiophoniques, on pourra se référer aux documents suivants : « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Thèse de doctorat de l'université Paris 6, Jérôme DANIEL, 31 juillet 2001, « A highly scalable spherical microphone array based on an orthonormal décomposition of the sound field », Jens Meyer - Gary Elko, Vol. Il - pp. 1781-1784 in Proc. ICASSP 2002.
En référence à la figure 3, la formule suivante donne la décomposition en harmoniques cylindriques à un ordre infini d'un signal Si de la scène sonore : $Si (r, ϕ) = Pi . [J_{0} (kr) + \sum_{1 \leq m \leq \infty} 2. j^{m} J_{m} (kr) . (\cos m . θi . \cos m . ϕ + \sin m . θi . \sin m . ϕ)]$

où (J_m) représentent les fonctions de Bessel, r la distance entre le centre du repère et la position d'un auditeur placé en un point M, Pi la pression acoustique du signal Si, θi l'angle de propagation de l'onde acoustique correspondant au signal Si et ϕ l'angle entre la position de l'auditeur et l'axe du repère.
Si la transformation ambiophonique est d'ordre p (p entier positif quelconque), pour une transformation ambiophonique 2D (selon le plan horizontal), la transformée ambiophonique d'un signal Si exprimée dans le domaine temporel comprend alors les 2p+1 composantes suivantes :

(Pi, Pi.cosθi, Pi.sinθi, Pi.cos2θi, Pi.sin2θi, Pi.cos3θi, Pi.sin3θi, ..., Pi.cospθi, Pi.sinpθi).

Dans ce qui suit, il a été considéré une transformation ambiophonique 2D. Néanmoins l'invention peut être mise en oeuvre avec une transformation ambiophonique 3D (dans un tel cas, on considère que les haut-parleurs sont disposés sur une sphère).
Les composantes ambiophoniques Ak, k=1 à Q = 2p + 1, considérées dans le domaine fréquentiel, comportent chacune M paramètres spectraux A(k,j), j= 0 à M-1 se rapportant respectivement aux bandes Fj telles que :

si A est la matrice comportant les composantes Ak, k=1 à Q issues de la transformation ambiophonique d'ordre p des signaux Si, i= 1 à N, Amb(p) est la matrice de transformation ambiophonique d'ordre p pour la scène sonore spatiale, et X est la matrice des composantes fréquentielles des signaux Si, i= 1 à N, alors : $\underset{̲}{A} = [\begin{matrix} A (1, 0) & A (1, 1) & . & . & . & A (1, M - 1) \\ A (2, 0) & A (2, M - 1) \\ . & . \\ . & . \\ A (Q, 0) & A (Q, 1) & . & . & . & A (Q, M - 1) \end{matrix}],$

Amb(p)

Amb (p) (i, j) = \sqrt{2} \cos [(\frac{i}{2}) θ_{j}]

Amb (p) (i, j) = \sqrt{2} \sin [(\frac{i - 1}{2}) θ_{j}]

\underset{̲}{Amb (p)} = [\begin{array}{l} 1 & 1 & . & . & 1 \\ \sqrt{2} \cos θ_{1} & \sqrt{2} \cos θ_{2} & . & . & \sqrt{2} \cos θ_{N} \\ \sqrt{2} \sin θ_{1} & \sqrt{2} \sin θ_{2} & . & . & \sqrt{2} \sin θ_{N} \\ \sqrt{2} \cos 2 θ_{1} & \sqrt{2} \cos 2 θ_{2} & . & . & \sqrt{2} \cos 2 θ_{N} \\ \sqrt{2} \sin 2 θ_{1} & \sqrt{2} \sin 2 θ_{2} & . & . & \sqrt{2} \sin 2 θ_{N} \\ . & . \\ . & . \\ \sqrt{2} \cos p θ_{1} & \sqrt{2} \cos p θ_{2} & . & . & \sqrt{2} \cos p θ_{N} \\ \sqrt{2} \sin p θ_{1} & \sqrt{2} \sin p θ_{2} & . & . & \sqrt{2} \sin p θ_{N} \end{array}]

et \underset{̲}{X} = [\begin{matrix} X (1, 0) & X (1, 1) & . & . & . & X (1, M - 1) \\ X (2, 0) & X (2, 1) & . & . & . & X (2, M - 1) \\ . & . \\ . & . \\ . & . \\ X (N, 0) & . & . & . & . & X (N, M - 1) \end{matrix}]

\underset{̲}{A} = \underset{̲}{Amb (p)} x \underset{̲}{X}

Le module 4 de transformation spatiale est adapté pour déterminer la matrice A, à l'aide de l'équation (1) en fonction des données X(i, j) et θi (i=1 à N, j= 0 à M-1) qui lui sont fournies en entrée.
Dans le cas particulier considéré, les composantes ambiophoniques Ak, k=1 à Q, soit les paramètres A(k, j), k=1 à Q et j=0 à M-1, de cette matrice A, sont les éléments à coder par le codeur 1 dans une séquence binaire.
Les composantes ambiophoniques Ak, k=1 à Q, sont délivrées au module 5 de définition des éléments les moins pertinents pour quantification et détermination d'un ordonnancement des composantes ambiophoniques.
Ce module 5 de définition des éléments les moins pertinents est adapté pour mettre en oeuvre des opérations, suite à l'exécution sur des moyens de traitement du module 5, d'un premier algorithme et/ou un second algorithme, en vue de définir des éléments à coder les moins pertinents et d'ordonner les éléments à coder entre eux.
Cet ordonnancement des éléments à coder est utilisé ultérieurement lors de la constitution d'une séquence binaire à transmettre.
Le premier algorithme comprend des instructions adaptées pour mettre en oeuvre, lorsqu'elles sont exécutées sur les moyens de traitement du module 5, les étapes du processus Proc1 décrit ci-dessous en référence à la figure 4.

Processus Proc1

Le principe du processus Proc1 est le suivant : on calcule l'influence respective d'au moins certaines composantes spectrales calculables en fonction de paramètres spectraux issus de certains au moins des N signaux, sur des rapports masque à bruit déterminés sur les bandes spectrales en fonction d'un codage desdites composantes spectrales. Puis on attribue un ordre de priorité à au moins une composante spectrale en fonction de l'influence calculée pour ladite composante spectrale comparée aux autres influences calculées.
Dans un mode de réalisation, le processus Proc1 détaillé est le suivant:

Initialisation

■ Etape 1a:

Dans cette étape, on définit un premier débit D₀=D_max et une allocation de parties de ce débit D₀ entre les éléments à coder A(k,j), (k,j) ∈ E₀={(k,j) tel que k=1 à Q et j=0 à M-1}. On nomme d_k,j le débit attribué à l'élément à coder A(k,j), (k, j) ∈ E₀, lors de cette allocation (la somme de ces débits d_k,j| k =1 à Q, j=0 à M-1 est égale à D₀) et δ₀ = min d_k,j pour (k, j) ∈ E₀ .
Puis les éléments à coder A(k,j), (k,j) ∈ E₀, sont quantifiés par le module 10 de quantification en fonction de l'allocation définie pour le débit D₀.

■ Etape 1b :

Ensuite, on calcule le rapport entre le masque et l'erreur (ou bruit) de quantification (« Mask to noise Ratio » en anglais ou MNR) pour chaque signal Si et pour chaque sous-bande Fj, avec i= 1 à N et j = 0 à M-1, qui est égal à la puissance du masque du signal Si dans la bande Fj divisée par la puissance du bruit de quantification (E(i,j)) relative au signal Si dans cette bande Fj.
Pour ce faire, on détermine d'abord l'erreur de quantification b(k,j) dans chaque bande Fj des éléments à coder A(k,j), (k,j) ∈ E_o, de la façon suivante :

b(k,j) = A(k,j) - A (k,j), avec A (k,j) le résultat de la quantification, puis quantification inverse de l'élément A(k,j) (en général la quantification fournit un indice de quantification indiquant la valeur de l'élément quantifié dans un dictionnaire, le quantificateur inverse fournit la valeur de l'élément quantifié en fonction de l'indice).

Puis on détermine l'erreur de quantification E(i,j) dans chaque bande Fj pour chaque signal Si avec i= 1 à N et j = 0 à M-1, due à la quantification des éléments à coder selon le débit D_o, en calculant la matrice E comportant les éléments E (i,j) : $\underset{̲}{E} = \frac{1}{Q^{2}} {(Amb (p) . Amb {(p)}^{t})}^{- 1} . {\underset{̲}{Amb (p)}}^{t} . \underset{̲}{B},$

où Q= 2p+1, Amb(p) est la matrice de transformation ambiophonique d'ordre p et $\underset{̲}{E} = [\begin{matrix} E (1, 0) & E (1, 1) & . & . & . & E (1, M - 1) \\ E (2, 0) & E (2, 1) & . & . & . & E (2, M - 1) \\ . & . \\ . & . \\ . & . \\ E (N, 0) & . & . & . & . & E (N, M - 1) \end{matrix}] = {[E (i, j)]}_{i = 1 à N, j = 0 à M - 1}$

et $\underset{̲}{B} = [\begin{matrix} b (1, 0) & b (1, 1) & . & . & . & b (1, M - 1) \\ b (2, 0) & b (2, M - 1) \\ . & . \\ . & . \\ b (Q, 0) & b (Q, 1) & . & . & . & b (Q, M - 1) \end{matrix}], = {[b (k, j)]}_{k = 1 à Q, j = 0 à M - 1} .$
Puis le rapport entre le masque et l'erreur de quantification pour chaque signal Si et pour chaque bande Fj, avec i= 1 à N et j = 0 à M-1 est déterminé en fonction du bruit de quantification E(i,j) ainsi calculé relatif au signal Si dans cette bande Fj et du masque du signal Si dans la bande Fj fourni par le module 7 de calcul de masque.
On appelle MNR(0,D₀) la matrice telle que l'élément (i,j) de la matrice MNR(0,D₀), i= 1 à N et j = 0 à M-1, indique le rapport entre le masque et l'erreur de quantification pour le signal Si et pour la bande Fj pour la quantification précédemment effectuée.
Avant de décrire l'itération n°1 du processus Proc1, on indique ci-dessous comment l'équation (2) a été déterminée.
La figure 8 représente une chaîne de traitement 200 comportant un module 201 de transformation ambiophonique d'ordre p (similaire au module 4 de transformation ambiophonique d'ordre p de la figure 1) suivi d'un module 202 de transformation ambiophonique inverse d'ordre p. Le module 201 de transformation ambiophonique d'ordre p reçoit en entrée les représentations spectrales X1,..., XN des signaux S1, ..., SN, effectue sur ces signaux une transformation ambiophonique d'ordre p, délivre les signaux ambiophoniques obtenus A1 à AQ au module 202 de transformation ambiophonique inverse d'ordre Q, lequel délivre N signaux de pressions acoustiques respectives Πi, i=1 à N.
On a alors $(\begin{matrix} Π 1 \\ Π 2 \\ Π N \end{matrix}) = AmbInv (p) \times Amb (p) \times (\begin{matrix} X 1 \\ X 2 \\ X N \end{matrix}),$
où Amb(p) est la matrice de transformation ambiophonique d'ordre p et Amblnv(p) est la matrice de transformation ambiophonique inverse d'ordre p (encore appelée matrice de décodage ambiophonique).
La figure 9 représente une chaîne de traitement 210 comportant le module 201 de transformation ambiophonique d'ordre p suivi d'un module 203 de quantification, puis un module 204 de quantification inverse, et d'un module 202 de transformation ambiophonique inverse d'ordre p. Le module 201 de transformation ambiophonique d'ordre p en entrée de la chaîne de traitement 210 reçoit en entrée les représentations spectrales X1,..., XN des signaux S1, ..., SN et délivre les signaux ambiophoniques obtenus A1 à AQ, qui sont fournis en entrée du module 203 de quantification. Les signaux A 1, ..., AQ sont les signaux délivrés au module 202 de transformation ambiophonique inverse par le module 204 de quantification inverse, résultant de la quantification inverse effectuées sur les signaux délivrés par le module 203 de quantification. Le module 202 de transformation ambiophonique inverse d'ordre Q délivre N signaux de pressions acoustiques respectives Π'i, i=1 à N.
La chaîne de traitement 210 de la figure 9 fournit les mêmes pressions acoustiques Π'i de sortie que la chaîne de traitement 211 représentée en figure 10, dans laquelle le module 201 de transformation ambiophonique d'ordre p se situe entre le module de quantification inverse 204 et le module 202 de transformation ambiophonique inverse d'ordre p. Dans la chaîne de traitement 211, le module 203 de quantification en entrée de la chaîne de traitement 211 reçoit en entrée les représentations spectrales X1, ..., XN, les quantifie puis délivre le résultat de cette quantification au module 204 de quantification inverse, qui délivre les N signaux X 1, ..., XN. Ces signaux X 1, ..., XN sont ensuite fournis aux modules 201 et 202 de transformation ambiophonique et de transformation ambiophonique inverse mis en cascade. Le module 202 de transformation ambiophonique inverse d'ordre p délivre les N signaux de pressions acoustiques respectives Π'i, i=1 à N.
On peut alors écrire : $(\begin{matrix} Πʹ 1 \\ Πʹ 2 \\ Πʹ N \end{matrix}) = AmbInv (p) \times Amb (p) \times (\begin{matrix} \overline{X} 1 \\ \overline{X} 2 \\ \overline{X} N \end{matrix})$
$(\begin{matrix} Πʹ 1 \\ Πʹ 2 \\ Πʹ N \end{matrix}) - (\begin{matrix} Π 1 \\ Π 2 \\ Π N \end{matrix}) = AmbInv (p) \times Amb (p) \times ((\begin{matrix} \overline{X} 1 \\ \overline{X} 2 \\ \overline{X} N \end{matrix}) - (\begin{matrix} X 1 \\ X 2 \\ X N \end{matrix})) = AmbInv (p) \times Amb (p) \times \underset{̲}{E .}$
Soit $\underset{̲}{E} = {(AmbInv (p) \times Amb (p))}^{- 1} ((\begin{matrix} Πʹ 1 \\ Πʹ 2 \\ Πʹ N \end{matrix}) - (\begin{matrix} Π 1 \\ Π 2 \\ Π N \end{matrix})) .$
Par ailleurs, $(\begin{matrix} Πʹ 1 \\ Πʹ 2 \\ Πʹ N \end{matrix}) - (\begin{matrix} Π 1 \\ Π 2 \\ Π N \end{matrix}) = AmbInv (p) \times ((\begin{matrix} \overline{A} 1 \\ \overline{A} 2 \\ \overline{A} Q \end{matrix}) - (\begin{matrix} A 1 \\ A 2 \\ AQ \end{matrix})) = AmbInv (p) \times \underset{̲}{B} .$
Donc on en déduit : E = (AmbInv(p) × Amb(p))^-1 AmbInv(p) × B.
Dans le cas où la matrice de décodage ambiophonique correspond à un système à haut-parleurs réguliers, on a $AmbInv (p) = \frac{1}{N} Amb {(p)}^{t}$
(en fait, les erreurs de quantification E ou B ne dépendent que du codage effectué et non du décodage. Ce qui changera au niveau du décodage, en fonction de la matrice de décodage utilisée correspondant au système de haut-parleurs utilisé, c'est la façon dont l'erreur sera répartie entre les haut-parleurs. Cela est dû au fait que la psychoacoustique utilisée ne prend pas en compte les interactions entre les signaux. Donc si le calcul est fait pour une matrice de décodage bien définie et que le module de quantification optimise l'erreur pour cette matrice, alors pour les autres matrices de décodage l'erreur sera sous-optimale).
On en déduit donc l'équation (2).
Revenons à la description de la figure 4.

Itération n°1 :

■ Etape 1c :

On définit maintenant un deuxième débit D₁ de codage, avec D₁=D₀-δ₀, et une répartition de ce débit D₁ bits de codage entre les éléments à coder A(k,j), k=1 à Q et j=0 à M-1.

■ Etape 1d :

Ensuite, pour chaque couple (k,j) ∈ E₀, considéré successivement depuis le couple (1,0) jusqu'au couple (Q,M-1) selon l'ordre de lecture lexicographique des couples de E₀, on réitère les opérations a1 à a7 suivantes :

a1- on considère que la sous-bande (k,j) est supprimée pour les opérations a2 à a5 ;
a2- les éléments à coder A(i,n), avec (i,n) ∈ E₀ \(k,j) (c'est-à-dire (i,n) égal à chacun des couples de E₀ à l'exception du couple (k,j)) sont quantifiés par le module 10 de quantification en fonction d'une répartition définie du débit D₁ entre lesdits éléments à coder A(i,n), avec (i,n) ∈ E₀ \(k, j);
a3- de la même façon qu'indiquée à l'étape 1b, on calcule à partir des éléments A (i,n), (i,n) ∈ E₀ / (k,j) issus des opérations de quantification effectuées à l'étape a2, la matrice MNR_k,j(1,D₁) = [MNR_k,j(1,D₁) (i, t)] _{i=1 à N et = 0 à M-1} telle que chaque élément MNR_k,j(1,D₁) (i, t) de la matrice indique le rapport entre le masque et l'erreur (ou bruit) de quantification pour chaque signal Si et pour chaque sous-bande Ft, avec i=1 à N et t = 0 à M-1 suite à la quantification effectuée à l'étape a2 (la sous-bande (k,j) étant considérée comme supprimée, le bruit de quantification b(k,j) a été considéré nul dans les calculs). On mémorise les valeurs prises par les éléments de cette matrice MNR_k,j(1,D₁);
a4- puis, on calcule et on mémorise la matrice ΔMNR_k,j(1) de variation de rapport entre le masque et l'erreur de quantification ΔMNR_k,j(1)=|MNR_k,j(1,D₁) - MNR _k,j(0,D₀)|; avec MNR _k,j(0,D₀) est la matrice MNR(0,D₀) dont on a supprimé l'élément d'indice (k,j)
a5- on calcule une norme ∥ΔMNR_k,j(1)∥ de cette matrice ΔMNR_k,j(1). La valeur de cette norme évalue l'impact, sur l'ensemble des rapports signal à bruit des signaux Si, de la suppression de la composante A(k,j) parmi les éléments à coder A(i,n), avec (i,n) ∈ E₀.
La norme calculée permet de mesurer l'écart entre MNR_k,j(1,D1) et MNR _k,j (0,D₀) et est par exemple égale à la racine carrée de la somme de chaque élément de la matrice ΔMNR_k,j(1) élevé au carré.
a6- on considère que la sous-bande (k,j) n'est plus supprimée ;
a7- si (k,j) ≠ max E₀ = (Q,M-1), on incrémente le couple (k,j) dans E₀ et on réitère les étapes a1 à a7 jusqu'à atteindre max E₀.

■ Etape 1e :

On détermine (i₁,j₁) correspondant à la valeur la plus petite parmi les valeurs ∥ΔMNR_k,j(1)∥, obtenues pour (k,j) ∈ E₀, soit :
L'élément à coder A(i₁,j₁) est ainsi identifié comme l'élément le moins pertinent quant à la qualité audio globale parmi l'ensemble des éléments à coder A(i,j) avec (i,j) ∈ E₀.

■ Etape 1f :

L'identifiant du couple (i₁,j₁) est délivrée au module d'ordonnancement 6 en tant que résultat de la première itération du processus Proc1.

■ Etape 1g:

On supprime alors la bande (i₁,j₁), de l'ensemble des éléments à coder dans la suite du processus Proc1. On définit l'ensemble E₁ = E₀ \{(i ₁,j ₁)}.

Itération 2 et suivantes :

Des étapes similaires aux étapes 1c à 1g sont effectuées pour chaque itération n, n≥2, comme décrit ci-après.

■ Etape 1c : on définit maintenant un (n+1)ième débit D_n de codage, avec D_n = D_n-1 -δ _n-1 tel que δ _n-1 = min (d_ij ), pour (i,j) ∈ E_n-1.
■ Etape 1d : ensuite, pour chaque couple (k,j) ∈ E_n-1 et considéré successivement selon l'ordre lexicographique, on réitère les opérations suivantes a1 à a7 :
- a1- on considère que la sous-bande (k,j) est supprimée dans les opérations a2 à a5 ;
- a2- les éléments à coder A(i,n), avec (i,n) ∈ E_n-1/{(k,j)} sont quantifiés par le module 10 de quantification en fonction d'une répartition du débit D_n entre les éléments à coder A(i,n), avec (i,n) ∈ E_n-1 \{(k,j)} ;
- a3- on calcule à partir des éléments A (i,n), (i,n) ∈ E_n-1\{(k,j)} déterminés en fonction de la quantification à l'étape a2, la matrice MNR_k,j(n, D_n) indiquant le rapport entre le masque et l'erreur (ou bruit) de quantification pour chaque signal Si et pour chaque sous-bande Fj, avec i= 1 à N et j = 0 à M-1, suite à la quantification effectuée à l'étape a2 ;
- a4- puis on calcule et on mémorise la matrice de variation de rapport entre le masque et l'erreur de quantification ΔMNR_k,j(n)=|MNR_k,j(n,D_n) - MNR _k,j(n-1,D_n-1)|, avec MNR _k,j(n-1,D_n-1) correspond à la matrice MNR (n-1,D_n-1) dont on a supprimé l'élément d'indice (k,j), et une norme ∥ΔMNR_k,j(n)∥ de cette matrice ΔMNR_k,j(n). La valeur de cette norme évalue l'impact, sur l'ensemble des rapports signal à bruit des signaux Si, de la suppression de la composante A(k,j) parmi les éléments à coder A(i,n), avec (i,n) ∈ E _n-1 \{(k,j)}.
- a5- on considère que la sous-bande (k,j) n'est plus supprimée ;
- a6-- si (k,j) ≠ max E_n-1, on incrémente le couple (k,j) dans E_n-1 et on réitère les étapes a1 à a6 jusqu'à atteindre max E_n-1.
■ Etape 1e : on détermine (i_n,j_n) correspondant à la valeur la plus petite parmi les valeurs obtenues ∥ΔMNR_k,j(n)∥, pour (k, j) ∈ E_n-1, soit $(i_{n}, j_{n}) = \arg \min_{(k, j) \in E_{n - 1}} ‖ Δ {MNR}_{k, j} (n) ‖ .$
On mémorise aussi la matrice $\overline{MNR} (n, D_{n}) = {MNR}_{i_{n}, j_{n}} (n, D_{n}) .$

L'élément à coder A(i_n,j_n) est ainsi identifié comme l'élément le moins pertinent quant à la qualité audio globale parmi l'ensemble des éléments à coder A(i,j), tels que (i,j) ∈ E_n-1.
■ Etape 1f : l'identifiant du couple (i_n,j_n) est délivrée au module d'ordonnancement 6 en tant que résultat de la nième itération du processus Proc1.
■ Etape 1g : on supprime alors la bande (i_n,j_n), de l'ensemble des éléments à coder dans la suite du processus Proc1. On définit l'ensemble E _n = E_n-1 \ {(i_n ,j_n )}.

On réitère le processus Proc1 r fois et au maximum Q*M-1 fois.
Des indices de priorité sont ainsi ensuite attribués par le module 6 d'ordonnancement aux différentes bandes de fréquence, en vue de l'insertion des données de codage dans une séquence binaire.
Ordonnancement des éléments à coder et constitution d'une séquence binaire sur la base des résultats successivement fournies par les itérations successives du processus Proc1 :
Dans un mode de réalisation où l'ordonnancement des éléments à coder est réalisé par le module 6 d'ordonnancement sur la seule base des résultats successivement fournies par les itérations successives du processus Proc1 mis en oeuvre par le module 5 de définition des éléments à coder les moins pertinents à l'exclusion des résultats fournis par le processus Proc2, ce dernier définit un ordre desdits éléments à coder, traduisant l'importance des éléments à coder sur le plan de la qualité audio globale.
En référence à la figure 5a, l'élément à coder A(i₁,j₁) correspondant au couple (i₁,j₁) déterminé lors de la première itération de Proc1 est considéré le moins pertinent sur le plan de la qualité audio globale. Il lui est donc affecté un indice de priorité minimale Prio1 par le module 5.
L'élément à coder A(i₂,j₂) correspondant au couple (i₂,j₂) déterminé lors de la deuxième itération de Proc1, est considéré comme l'élément à coder le moins pertinent sur le plan de la qualité audio globale, après celui affecté à la priorité Prio1. Il lui est donc affecté un indice de priorité minimale Prio2, avec Prio2 > Prio1. Lorsque le nombre r d'itération du processus est strictement inférieur à Q*M-1, le module 6 d'ordonnancement ordonne ainsi successivement r éléments à coder affectés chacun à des indices de priorité croissants Prio1, Prio2 à Prio r. Les éléments à coder n'ayant pas été affectés à un ordre de priorité au cours d'une itération du processus Proc1 sont plus importants sur le plan de la qualité audio globale que les éléments à coder auxquels ont été affectés des ordres de priorité.
Lorsque r est égal à Q*M -1 fois, tous les éléments à coder sont ordonnées un à un.
Dans ce qui suit, on considère que le nombre d'itérations r du processus Proc1 effectuées est égal à Q*M -1 fois.
L'ordre de priorité affecté à un élément à coder A(k,j) est également affecté à l'élément codé A (k,j) résultant d'une quantification de cet élément à coder.
Le module 8 de constitution de la séquence binaire constitue une séquence binaire correspondant à une trame de chacun des signaux Si, i=1 à N en y intégrant successivement des éléments codés A (k,j) par ordre décroissant d'indices de priorité attribués, la séquence binaire étant à transmettre dans le flux binaire Φ.
Ainsi la séquence binaire constituée est ordonnée conformément à l'ordonnancement effectué par le module 6.
La séquence binaire est ainsi constituée de composantes spectrales se rapportant à des bandes spectrales respectives, d'éléments à coder provenant d'une scène audio comprenant N signaux avec N>1, et qui sont ordonnés en fonction de leur influence sur des rapports masque à bruit déterminés sur les bandes spectrales.
Les composantes spectrales de la séquence binaire sont par exemple ordonnées selon le procédé de l'invention.
Dans un mode de réalisation, seules certaines des composantes spectrales comprises dans la séquence binaire constituée sont ordonnées à l'aide d'un procédé selon l'invention.
Dans le mode de réalisation considéré ci-dessus, une suppression d'une composante spectrale d'un élément à coder A(i,j) a lieu à chaque itération de l'algorithme Proc1.
Dans un autre mode de réalisation, on utilise un quantificateur imbriqué pour les opérations de quantification. Dans un tel cas, la composante spectrale d'un élément à coder A(i₀,j₀) identifié n'est pas supprimé, mais un débit réduit est affecté au codage de cette composante par rapport au codage des autres composantes spectrales d'éléments à coder restant à ordonner.
Le codeur 1 est ainsi un codeur permettant une adaptabilité en débit prenant en compte les interactions entre les différents signaux monophoniques. Il permet de définir des données compressées optimisant la qualité audio globale perçue.
Les opérations d'ordonnancement des éléments de la séquence binaire et de constitution de la séquence binaire à l'aide du processus Proc1 ont été décrites ci-dessus pour un mode de réalisation de l'invention dans lequel les éléments à coder comprennent les composantes ambiophoniques des signaux.
Dans un autre mode de réalisation, un codeur selon l'invention ne code pas ces composantes ambiophoniques, mais les coefficients spectraux X(i,j), j= 0 à M, des signaux Si.
Dans un tel cas, on affecte à la première itération du processus 1 par exemple, un indice de priorité minimum (minimum parmi les éléments restant à ordonner) à l'élément à coder X(i₁, j₁) tel que la suppression de la composante spectrale X(i₁, j₁) donne lieu à une variation minimale de rapport masque à bruit. Puis on réitère le processus Proc1.

Processus Proc2

Les critères de Gerzon sont généralement utilisés pour caractériser la localisation des sources sonores virtuelles synthétisées par la restitution de signaux depuis les haut-parleurs d'un système de rendu sonore donné.
Ces critères reposent sur l'étude des vecteurs de vélocité et d'énergie des pressions acoustiques générées par un système de rendu sonore utilisé.
Lorsqu'un système de rendu sonore comprend L haut-parleurs, les signaux, i=1 à L, générés par ces haut-parleurs, sont définies par une pression acoustique Ti et un angle de propagation acoustique ξ _i .
Le vecteur de vélocité V est alors défini ainsi : $\vec{V} = {\begin{matrix} x_{V} & = \frac{\sum_{1 \leq i \leq L} Ti \cos ξ_{i}}{\sum_{1 \leq i \leq L} Ti} \\ y_{V} & = \frac{\sum_{1 \leq i \leq L} Ti \sin ξ_{i}}{\sum_{1 \leq i \leq L} Ti} \end{matrix}$
Il existe un couple de coordonnées polaires (r_v, ξ _v ) tel que : $\vec{V} = {\begin{matrix} x_{V} & = \frac{\sum_{1 \leq i \leq L} Ti \cos ξ_{i}}{\sum_{1 \leq i \leq L} Ti} = r_{V} \cos ξ_{V} \\ y_{V} & = \frac{\sum_{1 \leq i \leq L} Ti \sin ξ_{i}}{\sum_{1 \leq i \leq L} Ti} = r_{V} \sin ξ_{V} \end{matrix}$
Le vecteur d'énergie E est défini ainsi : $\vec{E} = {\begin{matrix} x_{E} & = \frac{\sum_{1 \leq i \leq L} {Ti}^{2} \cos ξ_{i}}{\sum_{1 \leq i \leq L} {Ti}^{2}} \\ y_{E} & = \frac{\sum_{1 \leq i \leq L} {Ti}^{2} \sin ξ_{i}}{\sum_{1 \leq i \leq L} {Ti}^{2}} \end{matrix}$
Il existe un couple de coordonnées polaires (r_E, ξ _E ) tel que : $\vec{E} = {\begin{matrix} x_{E} & = \frac{\sum_{1 \leq i \leq L} {Ti}^{2} \cos ξ_{i}}{\sum_{1 \leq i \leq L} {Ti}^{2}} = r_{E} \cos ξ_{E} \\ y_{E} & = \frac{\sum_{1 \leq i \leq L} {Ti}^{2} \sin ξ_{i}}{\sum_{1 \leq i \leq L} {Ti}^{2}} = r_{E} \sin ξ_{E} \end{matrix}$
Les conditions nécessaires pour que la localisation des sources sonores virtuelles soit optimale se définissent en cherchant les angles ξ _i , caractérisant la position des haut-parleurs du système de rendu sonore considéré, vérifiant les critères ci-dessous, dits critères de Gerzon, qui sont :

critère 1, relatif à la précision de l'image sonore de la source S en basses fréquences : ξ _v = ξ ; où est ξ l'angle de propagation de la source S réelle qu'on cherche à atteindre.
critère 2, relatif à la stabilité de l'image sonore de la source S en basses fréquences : r_v = 1 ;
critère 3, relatif à la précision de l'image sonore de la source S en hautes fréquences : ξ _E = ξ ;
critère 4, relatif à la stabilité de l'image sonore de la source S en hautes fréquences: r _E = 1.

Les opérations décrites ci-dessous dans un mode de réalisation de l'invention utilisent les vecteurs de Gerzon dans une application autre que celle consistant à rechercher les meilleurs angles ξ _i , caractérisant la position des haut-parleurs du système de rendu sonore considéré.
Les critères de Gerzon reposent sur l'étude des vecteurs de vélocité et d'énergie des pressions acoustiques générées par un système de rendu sonore utilisé.
Chacune des coordonnées x_v, y_v, x_E, y_E indiquées dans les équations 3 et 4 relatives aux vecteurs d'énergie et vélocité associés aux critères de Gerzon est élément de [-1,1]. Donc il existe un unique couple (ξ_V , ξ_E) vérifiant les équations suivantes, correspondant au cas parfait (r_V, r_E) = (1,1) : $\frac{\sum_{1 \leq i \leq L} Ti \cos ξ_{i}}{\sum_{1 \leq i \leq L} Ti} = \cos ξ_{V}, \frac{\sum_{1 \leq i \leq L} Ti \sin ξ_{i}}{\sum_{1 \leq i \leq L} Ti} = \sin ξ_{V},$
$\frac{\sum_{1 \leq i \leq L} {Ti}^{2} \cos ξ_{i}}{\sum_{1 \leq i \leq L} {Ti}^{2}} = \cos ξ_{E} et \frac{\sum_{1 \leq i \leq L} {Ti}^{2} \sin ξ_{i}}{\sum_{1 \leq i \leq L} {Ti}^{2}} = \sin ξ_{E} .$
Les angles ξ _V et ξ _E de ce couple unique sont donc définis par les équations suivantes (équations (5)): $ξ_{V} = sign (\frac{\sum_{1 \leq i \leq L} Ti \sin ξ_{i}}{\sum_{1 \leq i \leq L} Ti}) . \arccos (\frac{\sum_{1 \leq i \leq L} Ti \cos ξ_{i}}{\sum_{1 \leq i \leq L} Ti})$
$ξ_{E} = sign (\frac{\sum_{1 \leq i \leq L} {Ti}^{2} \sin ξ_{i}}{\sum_{1 \leq i \leq L} {Ti}^{2}}) . \arccos (\frac{\sum_{1 \leq i \leq L} {Ti}^{2} \cos ξ_{i}}{\sum_{1 \leq i \leq L} {Ti}^{2}})$
On appellera par la suite vecteur d'angles de Gerzon généralisé le vecteur ξ tel que $\vec{ξ} = (\begin{matrix} ξ_{V} \\ ξ_{E} \end{matrix}) .$
Le deuxième algorithme comprend des instructions adaptées pour mettre en oeuvre, lorsqu'elles sont exécutées sur des moyens de traitement du module 5, les étapes du processus Proc2 décrit ci-dessous en référence à la figure 6.
Le principe du processus Proc2 est le suivant : on calcule l'influence de chaque paramètre spectral, parmi un ensemble de paramètres spectraux à ordonner, sur un vecteur d'angle défini en fonction de vecteurs d'énergie et de vélocité associés à des critères de Gerzon et calculés en fonction d'une transformation ambiophonique inverse sur lesdits composantes ambiophoniques quantifiés. Et on attribue un ordre de priorité à au moins un paramètre spectral en fonction de l'influence calculée pour ledit paramètre spectral comparé aux autres influences calculées.
Dans un mode de réalisation, le processus Proc2 détaillé est le suivant:

Initialisation (n=0)

■ Etape 2a :

On définit un débit D₀=D_max et une allocation de ce débit entre les éléments à coder A(k,j), pour (k,j) ∈ E₀= {(k,j) tel que k=1 à Q et j=0 à M-1}.
On nomme d_k,j le débit attribué à l'élément à coder A(k,j), (k,j) e E_o, lors de cette allocation initiale (la somme de ces débits d_k,j| i =1 à Q, j=0 à M-1 est égale à D₀) et δ₀ = min d_k,j, pour (k,j) e E₀.

■ Etape 2b :

Puis chaque élément à coder A(k,j), (k,j) ∈ E_o est quantifié par le module 10 de quantification en fonction du débit d_k,j qui lui a été alloué à l'étape 2a.
A est la matrice des éléments A (k,j), k=1 à Q et j=0 à M-1. Chaque élément A (k,j) est le résultat de la quantification, avec le débit d_k,j, du paramètre A(k,j), relative à la bande spectrale F_j, de la composante ambiophonique A(k). L'élément A (k,j) définit donc la valeur quantifiée de la représentation spectrale pour la bande de fréquence F_j, de la composante ambiophonique Ak considérée. $\underset{̲}{\overline{A}} = [\begin{matrix} \overline{A} (1, 0) & \overline{A} (1, 1) & . & . & . & \overline{A} (1, M - 1) \\ \overline{A} (2, 0) & \overline{A} (2, M - 1) \\ . & . \\ . & . \\ \overline{A} (Q, 0) & \overline{A} (Q, 1) & . & . & . & \overline{A} (Q, M - 1) \end{matrix}],$

■ Etape 2c :

Ensuite, on effectue sur ces composantes ambiophoniques quantifiées A (k, j), k=1 à Q et j=0 à M-1, un décodage ambiophonique d'ordre p tel que 2p+1=Q et qui correspond à un système régulier de N haut-parleurs, pour déterminer les pressions acoustiques T1i, i = 1 à N, des N signaux sonores obtenus en résultat de ce décodage ambiophonique.
Dans le cas considéré, AmbInv(p) est la matrice de transformation ambiophonique inverse d'ordre p (ou décodage ambiophonique d'ordre p) délivrant N signaux T11, ..., T1N correspondant à N haut-parleurs H'1, ..., H'N respectifs, disposés régulièrement autour d'un point. Par conséquent, la matrice AmbInv(p) se déduit de la transposition de la matrice Amb(p,N) qui est la matrice d'encodage ambiophonique résultante de l'encodage de la scène sonore définie par les N sources correspondant aux N haut-parleurs H'1, ..., H'N et disposés respectivement dans les positions ξ₁, ..., ξ _N . Ainsi on peut écrire que : $AmbInv (p) = \frac{1}{N} Amb {(p, N)}^{t} .$
T1 est la matrice des composants spectraux T1(i,j) des signaux T1i, i=1 à N relatifs aux bandes de fréquences F_j, j= 0 à M-1. Ces composants spectraux sont issus de la transformation ambiophonique inverse d'ordre p appliquée sur les composantes ambiophonique quantifiées A (k, j), k=1 à Q et j=0 à M-1. $\underset{̲}{T 1} = [\begin{matrix} T 1 (1, 0) & T 1 (1, 1) & . & . & . & T 1 (1, M - 1) \\ T 1 (2, 0) & T 1 (2, 1) & . & . & . & T 1 (2, M - 1) \\ . & . \\ . & . \\ . & . \\ T 1 (N, 0) & . & . & . & . & T 1 (N, M - 1) \end{matrix}]$

et on a $\underset{̲}{T 1} = \underset{̲}{Amb} lnv \underset{̲}{(p)} x \underset{̲}{\overline{A}} = \frac{1}{N} Amb {(p, N)}^{t} x \underset{̲}{\overline{A}}$
Ainsi les composants T1(i,j), i=1 à N, dépendent de l'erreur de quantification relative à la quantification considérée des composantes ambiophoniques A(k,j), k=1 à Q et j=0 à M-1 (en effet, chaque élément quantifié A (k,j) est la somme du paramètre spectral A(k,j) de composante ambiophonique à quantifier et du bruit de quantification relatif audit paramètre).
Pour chaque bande de fréquence F_j, j= 0 à M-1, on calcule alors, à l'aide des équations (5), le vecteur d'angles de Gerzon généralisé ξ _j (0) à l'initialisation du processus Proc2 (n=0), en fonction des composantes spectrales T1(i,j), i =1 à N et j=0 à M-1 déterminées suite au décodage ambiophonique : ${\vec{ξ}}_{j} (0) = (\begin{matrix} ξ_{Vj} \\ ξ_{Ej} \end{matrix}),$
avec $ξ_{i} = \frac{2 π (i - 1)}{N},$
i =1 à N : $ξ_{Vj} = sign (\frac{\sum_{1 \leq i \leq N} T 1 (i, j) \sin ξ_{i}}{\sum_{1 \leq i \leq N} T 1 (i, j)}) . \arccos (\frac{\sum_{1 \leq i \leq N} T 1 (i, j) \cos ξ_{i}}{\sum_{1 \leq i \leq N} T 1 (i, j)})$
$ξ_{Ej} = sign (\frac{\sum_{1 \leq i \leq Q} (T {1 (i, j)}^{2} \sin ξ_{i}}{\sum_{1 \leq i \leq Q} T {1 (i, j)}^{2}}) . \arccos (\frac{\sum_{1 \leq i \leq Q} T {1 (i, j)}^{2} \cos ξ_{i}}{\sum_{1 \leq i \leq Q} T {1 (i, j)}^{2}}) .$
Et on définit ξ̃ _j (0) = ξ _j (0).
On notera qu'ici a été considérée une matrice de décodage ambiophonique pour un dispositif de rendu sonore régulier et qui comporte un nombre de haut-parleurs égal au nombre des signaux d'entrées, ce qui simplifie le calcul de la matrice de décodage ambiophonique. Néanmoins, cette étape peut être mise en oeuvre en considérant une matrice de décodage ambiophonique correspondant à des dispositifs de rendu sonore non réguliers et aussi pour un nombre de haut-parleurs différents du nombre des signaux d'entrée.

Itération n°1 (n=1)

■ Etape 2d :

On définit un débit D₁=D₀ -δ₀ et une allocation de ce débit D₁ entre les éléments à coder A(k,j), pour (k,j) e E₀.

■ Etape 2e :

Puis chaque élément à coder A(k,j), (k,j) e E₀ est quantifié par le module 10 de quantification en fonction du débit qui lui a été alloué à l'étape 2d.
A est maintenant la matrice actualisée des éléments quantifiés A(k,j), (k,j) e E₀ résultant chacun de cette dernière quantification selon le débit global D₁, des paramètres A(k,j).

■ Etape 2f :

De façon similaire à celle décrite précédemment dans l'étape 2c, après calcul d'un nouveau décodage ambiophonique d'ordre p effectué en fonction des éléments quantifiés avec le débit global D₁, on calcule, pour l'itération n°1 du processus Proc2, un premier vecteur d'angles de Gerzon généralisé ξ _j (1) dans chaque bande fréquentielle F_j, en fonction des composantes spectrales T1(i,j), i =1 à N, j=0 à M-1 déterminées suite au nouveau décodage ambiophonique, à l'aide de l'équation (6).
On calcule ensuite le vecteur Δξ _j (1) égal à la différence entre le vecteur d'angles de Gerzon ${\tilde{ξ}}_{j} (0)$
calculé à l'étape 2c de l'initialisation et le vecteur d'angles de Gerzon généralisé ξ _j (1) calculé à l'étape 2f de l'itération n°1 : Δξ _j(1)=ξ _j(1) - ξ̃_j (0), j=0 à M-1.

■ Etape 2g :

On calcule la norme ∥Δξ _j (1)∥, dans chaque bande fréquentielle F_j, de la variation Δξ _j (1), j=0 à M-1.
Cette norme représente la variation du vecteur d'angles de Gerzon généralisé suite à la réduction du débit de D₀ à D₁ dans chaque bande fréquentielle F_j.
On détermine j₁ l'indice de la bande fréquentielle $F_{j_{1}}$
telle que la norme $‖ Δ {\vec{ξ}}_{j_{1}} (1) ‖$
de la variation d'angle de Gerzon calculée dans la bande fréquentielle $F_{j_{1}}$
soit inférieure ou égale à chaque norme ∥Δξ _j(1)∥, calculée pour chaque bande fréquentielle F_j, j=0 à M-1. On a donc $j_{1} = \arg \min_{j = 0 \dots M - 1} ‖ Δ {\vec{ξ}}_{j} (1) ‖ .$

■ Etape 2h :

On considère maintenant les paramètres spectraux des composantes ambiophoniques relatifs à la bande spectrale $F_{j_{1}},$
soit les paramètres A(k, j₁), avec k ∈ F₀=[1,Q].
Et on réitère les étapes 2h1 à 2h5 suivantes pour tout i e F₀ considéré alternativement depuis 1 jusqu'à Q :

2h1- on considère que la sous-bande (i,j₁) est supprimée pour les opérations 2h2 à 2h4 : on considère donc que A(i,j₁) est nul et que l'élément quantifié correspondant A (i, j_i ) est aussi nul ;
2h2- De façon similaire à celle décrite précédemment dans l'étape 2c, après calcul d'un décodage ambiophonique d'ordre p effectué en fonction des éléments quantifiés avec le débit global D₁ ( A (i,j_i ) étant nul), on détermine le vecteur d'angles de Gerzon généralisé ξ _j1(A(i,j₁) = 0, 1) dans la bande fréquentielle $F_{j_{1}}$
en fonction des composantes spectrales T1(i,j), i = 1 à N et j = 0 à M-1 déterminées suite audit décodage ambiophonique à l'aide de l'équation (6).
2h3- On calcule ensuite le vecteur Δξ _ij1(1) représentant la différence dans la bande fréquentielle $F_{j_{1}}$
entre le vecteur d'angles de Gerzon généralisé ξ _j1 (A(i,₁) = 0, 1) calculé ci-dessus et le vecteur d'angles de Gerzon généralisé ξ _j1(1) calculé à l'étape 2f de l'itération n°1 ci-dessus : Δξ _ij1(1) = ξ _j1 (A(i,j₁,) =0, 1) - ξ _j1(1). Puis on calcule la norme ||Δ ξ _ij1 (1) || du vecteur Δ ξ _ij1 (1) : ||Δ ξ _ij1 (1) || = || ξ _j1(A(i,j₁) = 0,1) - ξ _j1 (1) ||.

Cette norme représente la variation du vecteur d'angles de Gerzon généralisé dans la bande fréquentielle $F_{j_{1}}$
lorsque pour un débit D1, on supprime la composante ambiophonique fréquentielle A(i,j₁).
2h4- Si i ≠ max F₀, on considère que la sous-bande (i,j₁) n'est plus supprimée et on passe à l'étape 2h5. Si i = max F₀, on considère que la sous-bande (i,j₁) n'est plus supprimée et on passe à l'étape 2i.
2h5- On incrémente i dans l'ensemble F₀ et on réitère les étapes 2h1 à 2h4 pour la valeur de i ainsi mise à jour jusqu'à i = max F₀.
On obtient ainsi Q valeurs de variation d'angle de Gerzon généralisé ||Δξ _ij1(1)||, pour chaque i e F₀=[1, Q].

■ Etape 2i :

On compare entre elles les valeurs ||Δξ _ij1 (1)||, pour chaque i e F₀=[1, Q], on identifie la valeur minimale parmi ces valeurs et on détermine l'indice i₁ e F₀ correspondant à la valeur minimale, soit $i_{1} = \arg \min_{i \in F_{0}} ‖ Δ {\vec{ξ}}_{i j_{1}} (1) ‖ .$
La composante A(i₁, j₁) est ainsi identifiée comme l'élément à coder de plus faible importance sur le plan de la précision spatiale, comparé aux autres éléments à coder A(k,j), (k,j) e Eo.

■ Etape 2j :

On redéfinit, pour chaque bande spectrale F_j, le vecteur d'angles de Gerzon généralisé ${\tilde{ξ}}_{j} (1)$
issu de l'itération 1, calculé pour un débit D₁ : ${\tilde{ξ}}_{j} (1) = {\vec{ξ}}_{j} (1) si j \in [0, M - 1] ∖ \{j_{1}\};$
${\tilde{ξ}}_{j_{1}} (1) = {\vec{ξ}}_{j_{1}} (A (i_{1}, j_{1}) = 0, 1) si j = j_{1} .$
Ce vecteur redéfini d'angles de Gerzon généralisé, établi pour un débit de quantification égal à D₁, prend en compte la suppression de l'élément à coder A(i₁, j₁) et sera utilisé pour l'itération suivante du processus Proc2.

■ Etape 2k :

L'identifiant du couple (i₁,j₁) est délivré au module d'ordonnancement 6 en tant que résultat de la 1^ère itération du processus Proc2.

■ Etape 2m :

On supprime alors l'élément à coder A(i₁,j₁) de l'ensemble des éléments à coder dans la suite du processus Proc2.
On définit l'ensemble E₁= E₀\(i₁,j₁).
On définit δ₁ =min d_k,j, pour (k,j) e E₁.
Dans une itération n°2 du processus Proc2, on réitère des étapes similaires aux étapes 2d à 2n indiquées ci-dessus.
Le processus Proc2 est réitéré autant de fois que souhaité pour ordonner entre eux certains ou la totalité des éléments à coder A(k,j), (k,j) e E₁ restant à ordonner.
Ainsi les étapes 2d à 2n décrites ci-dessus sont réitérées pour une nième itération :

Itération n (n>1) :

$E_{n - 1} = E_{0} ∖ \{(i_{1}, j_{1}) \dots (i_{n - 1}, j_{n - 1})\} .$
Les éléments à coder A(k,j), pour (k,j) e E₀\E_n-1 ont été supprimés au cours des étapes 2m des itérations précédentes.