EP2374124B1

EP2374124B1 - Advanced encoding of multi-channel digital audio signals

Info

Publication number: EP2374124B1
Application number: EP09803839.1A
Authority: EP
Inventors: Florent Jaillet; David Virette
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2008-12-15
Filing date: 2009-12-11
Publication date: 2013-05-29
Anticipated expiration: 2029-12-11
Also published as: ES2435792T3; US20110249822A1; US8817991B2; WO2010076460A1; EP2374124A1

Description

La présente invention se rapporte au domaine du codage/décodage de signaux audionumériques multicanaux.The present invention relates to the field of encoding / decoding multichannel digital audio signals.

Plus particulièrement, la présente invention se rapporte au codage/décodage paramétrique de signaux audio multicanaux.More particularly, the present invention relates to the parametric encoding / decoding of multichannel audio signals.

Ce type de codage/décodage se base sur l'extraction de paramètres de spatialisation pour qu'au décodage, la perception spatiale de l'auditeur puisse être reconstituée.This type of coding / decoding is based on the extraction of spatialization parameters so that at decoding, the spatial perception of the listener can be reconstituted.

Une telle technique de codage est connu sous le nom de "Binaural Cue Coding" en anglais (BCC) qui vise d'une part à extraire puis à coder les indices de spatialisation auditive et d'autre part à coder un signal monophonique ou stéréophonique issu d'un matriçage du signal multicanal original.Such a coding technique is known under the name of "Binaural Cue Coding" in English (BCC) which aims on the one hand to extract and then code the indices of auditory spatialization and on the other hand to code a monophonic or stereophonic signal from a mastering of the original multichannel signal.

Cette approche paramétrique est un codage à bas débit. Le principal intérêt de cette approche de codage est de permettre un taux de compression meilleur que les méthodes classiques de compression de signaux audionumériques multicanaux tout en assurant la rétrocompatibilité du format compressé obtenu avec les formats de codage et les systèmes de diffusions déjà existants.This parametric approach is a low rate coding. The main advantage of this coding approach is to allow a better compression rate than conventional multi-channel digital audio compression methods while ensuring the backward compatibility of the compressed format obtained with the existing coding formats and broadcasting systems.

La norme MPEG Surround décrite dans le document de la norme MPEG ISO/IEC 23003-1:2007 et dans le document de " Breebaart, J. and Hotho, G. and Koppens, J. and Schuijers, E. and Oomen, W. and van de Par, S.," intitulé "Background, concept, and architecture for the recent MPEG surround standard on multichannel audio compression" dans Journal of the Audio Engineering Society 55-5 (2007) 331-351 , décrit une structure de codage paramétrique tel que représentée en figure 1. Un autre exemple de structure de codage paramétrique est décrit dans le document de Bin Cheng, Christian Ritz, Ian Burnett intitulé "Encoding Independent Sources in Spatially Squeezed Surround Audio Coding" dans Advances in Multimedia Information Processing -PCM2a7 Lecture Notes in Computer Science Volume 4810, 2077, page 804-813 .The MPEG Surround standard described in the MPEG document ISO / IEC 23003-1: 2007 and in the document " Breebaart, J. and Hotho, G. and Koppens, J. and Schuijers, E. and Oomen, W. and van de Par, S., "entitled" Background, concept, and architecture for the recent MPEG surround standard on multichannel audio Compression "in Journal of the Audio Engineering Society 55-5 (2007) 331-351 , describes a parametric coding structure as represented in figure 1 . Another example of a parametric coding structure is described in the Bin Cheng, Christian Ritz, Ian Burnett entitled "Encoding Independent Sources in Spatially Squeezed Surround Audio Coding" in Advances in Multimedia Information Processing -PCM2a7 Reading Notes in Computer Science Volume 4810, 2077, page 804-813 .

Ainsi, la figure 1 décrit un tel système de codage/décodage dans lequel le codeur 100 construit un signal somme ("downmix" en anglais) S_s par matriçage en 110 des canaux du signal multicanal original S et fournit via un module d'extraction de paramètres 120, un ensemble réduit de paramètres P qui caractérisent le contenu spatial du signal multicanal original.So, the figure 1 describes such a coding / decoding system in which the coder 100 constructs a sum signal ("downmix" in English) S _s by matrixing in 110 channels of the original multichannel signal S and provides via a parameter extraction module 120, a reduced set of parameters P which characterize the spatial content of the original multichannel signal.

Au décodeur 150, le signal multicanal est reconstruit (S') par un module de synthèse 160 qui prend en compte à la fois le signal somme et les paramètres P transmis.At the decoder 150, the multichannel signal is reconstructed (S ') by a synthesis module 160 which takes into account both the sum signal and the transmitted parameters P.

Le signal somme comporte un nombre réduit de canaux. Ces canaux peuvent être codés par un codeur audio classique avant transmission ou stockage. Typiquement, le signal somme comporte deux canaux et est compatible avec une diffusion stéréo classique. Avant transmission ou stockage, ce signal somme peut ainsi être codé par n'importe quel codeur stéréo classique. Le signal ainsi codé est alors compatible avec les dispositifs comportant le décodeur correspondant qui reconstruisent le signal somme en ignorant les données spatiales.The sum signal has a reduced number of channels. These channels can be encoded by a conventional audio encoder before transmission or storage. Typically, the sum signal has two channels and is compatible with conventional stereo broadcasting. Before transmission or storage, this sum signal can thus be encoded by any conventional stereo encoder. The signal thus coded is then compatible with the devices comprising the corresponding decoder which reconstruct the sum signal while ignoring the spatial data.

Lorsque ce type de codage par matriçage d'un signal multicanal pour obtenir un signal somme, s'effectue après transformation dans l'espace fréquentiel du signal multicanal, des problèmes de reconstruction du signal multicanal peuvent survenir.When this type of coding by matrixing a multichannel signal to obtain a sum signal, is carried out after transformation in the frequency space of the multichannel signal, problems of reconstruction of the multichannel signal can occur.

En effet, dans ce cas de figure, il n'y a pas nécessairement de cohérence spatiale entre le signal somme et le système de restitution sur lequel le signal peut être reproduit. Par exemple, lorsque le signal somme contient deux canaux, une restitution stéréophonique doit permettre de respecter la position relative des sources sonores dans l'espace sonore reconstruit. Le positionnement gauche/droit des sources sonores doit pouvoir être respecté.Indeed, in this case, there is not necessarily spatial coherence between the sum signal and the rendering system on which the signal can be reproduced. For example, when the sum signal contains two channels, a stereophonic reproduction must make it possible to respect the relative position of the sound sources in the reconstructed sound space. The left / right positioning of the sound sources must be able to be respected.

De plus, après matriçage par bande de fréquence, le signal somme résultant est ensuite transmis au décodeur sous la forme d'un signal temporel.In addition, after frequency band mastering, the resulting sum signal is then transmitted to the decoder in the form of a time signal.

Le passage de l'espace temps-fréquence à l'espace temporel implique des interactions entre les bandes fréquentielles et les trames temporelles proches qui introduisent des défauts et artéfacts gênants.The transition from time-frequency space to time space involves interactions between frequency bands and near time frames that introduce troublesome artifacts and artifacts.

Il existe donc un besoin d'une technique de codage/décodage paramétrique par bande de fréquence qui permette de limiter les défauts introduits par les passages des signaux du domaine temps-fréquence au domaine temporel et de contrôler la cohérence spatiale entre le signal audio multicanal et le signal somme issu d'un matriçage de sources sonores.There is therefore a need for a parametric frequency band coding / decoding technique which makes it possible to limit the defects introduced by the passage of the time-frequency domain signals to the time domain and to control the spatial coherence between the multichannel audio signal and the sum signal resulting from a mastering of sound sources.

La présente invention vient améliorer la situation.The present invention improves the situation.

A cet effet, elle propose un procédé de codage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores. Le procédé est tel qu'il comporte une étape de décomposition du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence:

obtention de données représentatives de la direction des sources sonores de la scène sonore;
sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
adaptation des données représentatives de la direction des sources principales sélectionnées, en fonction de caractéristiques de restitution du signal multicanal, par modification de la position des sources pour obtenir un écartement minimum entre deux sources;
détermination d'une matrice de mixage des sources principales en fonction des données adaptées;
matriçage des sources principales par la matrice déterminée pour obtenir un signal somme avec un nombre réduit de canaux;
codage des données représentatives de la direction des sources sonores et formation d'un flux binaire comportant les données codées, le flux binaire étant apte à être transmis parallèlement au signal somme.

For this purpose, it proposes a method of encoding a multichannel audio signal representing a sound scene comprising a plurality of sound sources. The method is such that it comprises a step of decomposing the multichannel signal into frequency bands and the following steps per frequency band:

obtaining data representative of the direction of the sound sources of the sound scene;
selecting a set of sound sources of the sound scene constituting main sources;
adapting the data representative of the direction of the main sources selected, according to the multichannel signal reproduction characteristics, by modifying the position of the sources to obtain a minimum spacing between two sources;
determination of a mixing matrix of the main sources according to the adapted data;
mastering the main sources by the determined matrix to obtain a sum signal with a reduced number of channels;
coding of the data representative of the direction of the sound sources and formation of a bit stream comprising the coded data, the bit stream being able to be transmitted parallel to the sum signal.

Ainsi, pour l'obtention du signal somme, la matrice de mixage prend en compte des données d'informations de direction des sources. Ceci permet d'adapter le signal somme résultant, pour une bonne restitution du son dans l'espace lors de la reconstruction de ce signal au décodeur. Le signal somme est ainsi adapté aux caractéristiques de restitution du signal multicanal et aux éventuels recouvrements des positions des sources sonores. La cohérence spatiale entre le signal somme et le signal multicanal est ainsi respectée.Thus, for obtaining the sum signal, the mixing matrix takes into account source direction information data. This makes it possible to adapt the resulting sum signal, for a good sound reproduction in the space during the reconstruction of this signal to the decoder. The sum signal is thus adapted to the multichannel signal reproduction characteristics and to the possible recoveries of the positions of the sound sources. The spatial coherence between the sum signal and the multichannel signal is thus respected.

L'adaptation des données modifiant la position des sources pour obtenir un écartement minimum entre deux sources permet ainsi, aux deux sources qui seraient après restitution sonore trop proches l'une de l'autre d'être écartées pour que la restitution du signal permette à l'auditeur de différencier la position de ces sources.The adaptation of the data modifying the position of the sources to obtain a minimum spacing between two sources thus makes it possible for the two sources that would be after sound reproduction too close to each other to be discarded so that the restitution of the signal makes it possible to the listener to differentiate the position of these sources.

En codant séparément les données de direction et les sources sonores par bande de fréquence, on exploite le fait que le nombre de sources actives dans une bande de fréquence est généralement faible, ce qui augmente les performances de codage.By separately encoding the directional data and the sound sources per frequency band, it is exploited that the number of active sources in a frequency band is generally low, which increases the coding performance.

Il n'est pas nécessaire de transmettre d'autres données de reconstruction de la matrice de mixage au décodeur puisque celle-ci sera déterminée à partir des données de directions codées.It is not necessary to transmit further reconstruction data from the mixing matrix to the decoder since this will be determined from the encoded direction data.

Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de codage défini ci-dessus.The various particular embodiments mentioned below may be added independently or in combination with each other, to the steps of the coding method defined above.

Dans un mode de réalisation, les données représentatives de la direction sont des informations de directivités représentatives de la répartition des sources sonores dans la scène sonore.In one embodiment, the data representative of the direction are directivity information representative of the distribution of the sound sources in the sound scene.

Les informations de directivité associées à une source donnent non seulement la direction de la source mais également la forme, ou la répartition spatiale, de la source, c'est-à-dire l'interaction que peut avoir cette source avec les autres sources de la scène sonore.The directivity information associated with a source gives not only the direction of the source but also the shape, or spatial distribution, of the source, ie the interaction that this source can have with other sources of the sound stage.

La connaissance de ces informations de directivités associée au signal somme va permettre au décodeur d'obtenir un signal de meilleur qualité qui prend en compte les redondances intercanales de manière globale et les probables oppositions de phase entre canaux.Knowing this directivity information associated with the sum signal will allow the decoder to obtain a signal of better quality which takes into account interchannel redundancies in a global manner and the probable phase oppositions between channels.

Dans un mode particulier de réalisation, le codage des informations de directivités s'effectue par une méthode de représentation paramétrique.In a particular embodiment, the coding of the directivity information is performed by a parametric representation method.

Cette méthode est de faible complexité et s'adapte particulièrement au cas de scènes sonores de synthèse représentant une situation de codage idéal.This method is of low complexity and adapts particularly to the case of synthetic sound scenes representing an ideal coding situation.

Dans un autre mode de réalisation, le codage des informations de directivité s'effectue par une méthode d'analyse en composante principale délivrant des vecteurs de directivité de base associés à des gains permettant la reconstruction des directivités initiales.In another embodiment, the coding of the directivity information is performed by a principal component analysis method delivering basic directivity vectors associated with gains allowing the reconstruction of the initial directivities.

Ceci permet ainsi de coder les directivités de scènes sonores complexes dont le codage ne peut pas être représenté facilement par un modèle.This thus makes it possible to code the directivities of complex sound scenes whose coding can not easily be represented by a model.

Dans encore un autre mode de réalisation le codage des informations de directivité s'effectue par une combinaison d'une méthode d'analyse en composante principale et d'une méthode de représentation paramétrique.In yet another embodiment, the coding of the directivity information is performed by a combination of a principal component analysis method and a parametric representation method.

Ainsi, il est par exemple possible d'effectuer en parallèle le codage par les deux méthodes et de choisir celle qui répond à un critère d'optimisation du débit de codage par exemple.Thus, it is for example possible to perform the coding in parallel by the two methods and to choose the one that satisfies a criterion for optimizing the coding rate, for example.

Il est également possible d'effectuer ces deux méthodes en cascade de façon à coder simplement une partie des directivités par la méthode de codage paramétrique et pour celle qui ne sont pas modélisées, d'effectuer un codage par la méthode d'analyse en composante principale, de façon à représenter au mieux, toutes les directivités. La répartition du débit entre les deux modèles d'encodage des directivités pouvant être choisie selon un critère de minimisation de l'erreur de reconstruction des directivités.It is also possible to perform these two methods in cascade so as to simply code a part of the directivities by the parametric coding method and for that which is not modeled, to carry out an encoding by the principal component analysis method. , so as to represent at best, all the directivities. The distribution of the flow between the two models of encoding directivités can be chosen according to a criterion of minimization of the error of reconstruction of the directivités.

Dans un mode de réalisation de l'invention, le procédé comporte en outre le codage de sources secondaires parmi les sources non sélectionnées de la scène sonore et d'insertion d'informations de codage des sources secondaires dans le flux binaire.In one embodiment of the invention, the method further includes encoding secondary sources among the unselected sources of the sound scene and inserting coding information of the secondary sources into the bit stream.

Le codage des sources secondaires va ainsi permettre d'apporter une précision supplémentaire sur le signal décodé, notamment pour les signaux complexes de type par exemple ambiophoniques.The coding of the secondary sources will thus make it possible to provide additional precision on the decoded signal, in particular for complex signals of the type, for example, ambiophonic ones.

La présente invention se rapporte également à un procédé de décodage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, à partir d'un flux binaire et d'un signal somme. Le procédé est tel qu'il comporte les étapes suivantes:

extraction dans le flux binaire et décodage de données représentatives de la direction des sources sonores dans la scène sonore;
adaptation d'au moins une partie des données de direction en fonction de caractéristiques de restitution du signal multicanal, par modification de la position des sources obtenues par les données de direction, pour obtenir un écartement minimum entre deux sources;
détermination d'une matrice de mixage du signal somme en fonction des données adaptées et calcul d'une matrice de mixage inverse;
dématriçage du signal somme par la matrice de mixage inverse pour obtenir un ensemble de sources principales;
reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les données extraites décodées.

The present invention also relates to a method for decoding a multichannel audio signal representing a sound scene comprising a plurality of sound sources, from a bit stream and a sum signal. The method is such that it comprises the following steps:

extracting in the bit stream and decoding data representative of the direction of the sound sources in the sound scene;
adapting at least a portion of the direction data according to the multichannel signal reproduction characteristics, by changing the position of the sources obtained by the direction data, to obtain a minimum spacing between two sources;
determining a mixing matrix of the sum signal as a function of the adapted data and calculating an inverse mixing matrix;
demapping the sum signal by the reverse mixing matrix to obtain a set of main sources;
reconstruction of the multichannel audio signal by spatializing at least the main sources with the extracted data decoded.

Les données de directions décodées vont ainsi permettre de retrouver la matrice de mixage inverse de celle utilisée au codeur. Cette matrice de mixage permet de retrouver à partir du signal somme, les sources principales qui seront restituées dans l'espace avec une bonne cohérence spatiale.The decoded direction data will thus make it possible to find the inverse mixing matrix of that used at the encoder. This mixing matrix makes it possible to find, from the sum signal, the main sources that will be rendered in space with a good spatial coherence.

L'étape d'adaptation permet ainsi de retrouver les directions des sources à spatialiser de façon à obtenir une restitution du son qui soit cohérente avec le système de restitution.The adaptation step thus makes it possible to find the directions of the sources to be spatialized so as to obtain a restitution of the sound which is coherent with the rendering system.

Le signal reconstruit est alors bien adapté aux caractéristiques de restitution du signal multicanal en évitant les éventuels recouvrements des positions des sources sonores.The reconstructed signal is then well adapted to the characteristics of restitution of the multichannel signal while avoiding possible recoveries of the positions of the sound sources.

Deux sources trop proches sont ainsi écartées pour être restituées de façon à ce qu'un auditeur puisse les différencier.Two sources too close are thus removed to be restored so that an auditor can differentiate them.

Dans un mode de réalisation, le procédé de décodage comporte en outre les étapes suivantes:

extraction du flux binaire, d'informations de codage de sources secondaires codées;
décodage des sources secondaires à partir des informations de codage extraites;
regroupement des sources secondaires aux sources principales pour la spatialisation.

In one embodiment, the decoding method further comprises the following steps:

extracting the bitstream, coding information from coded secondary sources;
decoding the secondary sources from the extracted coding information;
grouping of secondary sources to the main sources for spatialization.

Le décodage de sources secondaires apporte alors plus de précision sur la scène sonore.The decoding of secondary sources then brings more precision to the sound stage.

La présente invention se rapporte également à un codeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores. Le codeur est tel qu'il comporte:

un module de décomposition du signal multicanal en bande de fréquence;
un module d'obtention de données représentatives de la direction des sources sonores de la scène sonore;
un module de sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
un module d'adaptation des données représentatives de la direction des sources principales sélectionnées, en fonction de caractéristiques de restitution du signal multicanal, par des moyens de modification de la position des sources pour obtenir un écartement minimum entre deux sources;
un module de détermination d'une matrice de mixage des sources principales en fonction des données issues du module d'adaptation;
un module de matriçage des sources principales sélectionnées par la matrice déterminée pour obtenir un signal somme avec un nombre réduit de canaux;
un module de codage des données représentatives de la direction des sources sonores; et
un module de formation d'un flux binaire comportant les données codées, le flux binaire étant apte à être transmis parallèlement au signal somme.

The present invention also relates to an encoder of a multichannel audio signal representing a sound scene having a plurality of sound sources. The encoder is such that it comprises:

a multichannel signal decomposition module in a frequency band;
a module for obtaining data representative of the direction of the sound sources of the sound scene;
a module for selecting a set of sound sources of the sound scene constituting main sources;
a module for adapting the data representative of the direction of the main sources selected, as a function of the multichannel signal reproduction characteristics, by means of modifying the position of the sources to obtain a minimum spacing between two sources;
a module for determining a mixing matrix of the main sources according to the data from the adaptation module;
a mastering module of the main sources selected by the determined matrix to obtain a sum signal with a reduced number of channels;
a coding module for data representative of the direction of the sound sources; and
a module for forming a bit stream comprising the coded data, the bit stream being able to be transmitted parallel to the sum signal.

Elle se rapporte aussi à un décodeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, recevant en entrée un flux binaire et un signal somme. Le décodeur est tel qu'il comporte:

un module d'extraction et de décodage de données représentatives de la direction des sources sonores dans la scène sonore;
un module d'adaptation d'au moins une partie des données de direction en fonction de caractéristiques de restitution du signal multicanal, par des moyens de modification de la position des sources obtenues par les données de direction, pour obtenir un écartement minimum entre deux sources;
un module de détermination d'une matrice de mixage du signal somme en fonction des données issues du module d'adaptation et de calcul d'une matrice de mixage inverse;
un module de dématriçage du signal somme par la matrice de mixage inverse pour obtenir un ensemble de sources principales;
un module de reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les données extraites décodées.

It also relates to a decoder of a multichannel audio signal representing a sound scene comprising a plurality of sound sources, receiving as input a bit stream and a sum signal. The decoder is such that it comprises:

a module for extracting and decoding data representative of the direction of the sound sources in the sound scene;
a module for adapting at least a portion of the direction data as a function of the multichannel signal reproduction characteristics, by means for modifying the position of the sources obtained by the direction data, to obtain a minimum spacing between two sources ;
a module for determining a mixing matrix of the sum signal as a function of the data from the adaptation and calculation module of an inverse mixing matrix;
a module for demapping the sum signal by the inverse mixing matrix to obtain a set of main sources;
a module for reconstructing the multichannel audio signal by spatializing at least the main sources with the extracted decoded data.

Elle se rapporte enfin à un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes d'un procédé de codage tel que décrit et/ou d'un procédé de décodage tel que décrit, lorsque ces instructions sont exécutées par un processeur.Finally, it relates to a computer program comprising code instructions for implementing the steps of a coding method as described and / or a decoding method as described, when these instructions are executed by a processor. .

De manière plus générale, un moyen de stockage, lisible par un ordinateur ou un processeur, intégré ou non au codeur, éventuellement amovible, mémorise un programme informatique mettant en oeuvre un procédé de codage et/ou un procédé de décodage selon l'invention.In a more general manner, a means of storage, readable by a computer or a processor, whether or not integrated into the encoder, possibly removable, stores a computer program implementing an encoding method and / or a decoding method according to the invention.

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:

la figure 1 illustre un système de codage/décodage de l'état de l'art de type système normalisé MPEG Surround;
la figure 2 illustre un codeur et un procédé de codage selon un mode de réalisation de l'invention;
la figure 3a illustre un premier mode de réalisation du codage des directivités selon l'invention;
la figure 3b illustre un second mode de réalisation du codage des directivités selon l'invention;
la figure 4 illustre un organigramme représentant les étapes de la détermination d'une matrice de mixage selon un mode de réalisation de l'invention;
la figure 5a illustre un exemple de répartition de sources sonores autour d'un auditeur;
la figure 5b illustre l'adaptation de la répartition de sources sonores autour d'un auditeur pour adapter les données de direction des sources sonores selon un mode de réalisation de l'invention;
la figure 6 illustre un décodeur et un procédé de décodage selon un mode de réalisation de l'invention; et
les figures 7a et 7b représentent respectivement un exemple de dispositif comprenant un codeur et un exemple de dispositif comprenant un décodeur selon l'invention.

Other features and advantages of the invention will appear more clearly on reading the following description, given solely by way of nonlimiting example, and with reference to the appended drawings, in which:

the figure 1 illustrates a state-of-the-art coding / decoding system of the standard MPEG Surround system type;
the figure 2 illustrates an encoder and a coding method according to an embodiment of the invention;
the figure 3a illustrates a first embodiment of the coding of the directivities according to the invention;
the figure 3b illustrates a second embodiment of the coding of the directivities according to the invention;
the figure 4 illustrates a flow chart showing the steps of determining a mixing matrix according to one embodiment of the invention;
the figure 5a illustrates an example of distribution of sound sources around a listener;
the figure 5b illustrates the adaptation of the distribution of sound sources around a listener to adapt the direction data of the sound sources according to one embodiment of the invention;
the figure 6 illustrates a decoder and a decoding method according to an embodiment of the invention; and
the Figures 7a and 7b respectively represent an example of a device comprising an encoder and an example of a device comprising a decoder according to the invention.

La figure 2 illustre sous forme de bloc diagramme, un codeur selon un mode de réalisation de l'invention ainsi que les étapes d'un procédé de codage selon un mode de réalisation de l'invention.The figure 2 illustrates in the form of a block diagram, an encoder according to one embodiment of the invention and the steps of a coding method according to one embodiment of the invention.

L'ensemble des traitements dans ce codeur est effectué par trame temporelle. Par soucis de simplification, la représentation et la description du codeur tel que représenté en figure 2 est faite en considérant le traitement effectué sur une trame temporelle fixée, sans faire apparaître la dépendance temporelle dans les notations.All the processing in this encoder is performed by time frame. For reasons of simplification, the representation and description of the encoder as represented in FIG. figure 2 is done considering the processing carried out on a fixed time frame, without showing the temporal dependence in the notations.

Un même traitement est cependant successivement appliqué à l'ensemble des trames temporelles du signal.The same treatment is however successively applied to all the time frames of the signal.

Le codeur ainsi illustré comporte un module de transformée temps-fréquence 210 qui reçoit en entrée un signal multicanal original représentant une scène sonore comportant une pluralité de sources sonores.The encoder thus illustrated comprises a time-frequency transform module 210 which receives as input an original multichannel signal representing a sound scene comprising a plurality of sound sources.

Ce module effectue donc une étape T de calcul de la transformée temps-fréquence du signal multicanal original S_m. Cette transformée est réalisée par exemple par une transformée de Fourier à court terme.This module therefore performs a step T of calculating the time-frequency transform of the original multichannel signal S _m . This transform is carried out for example by a short-term Fourier transform.

Pour cela, chacun des n_x canaux du signal original est fenêtre sur la trame temporelle courante, puis la transformée de Fourier F du signal fenêtre est calculée à l'aide d'un algorithme de calcul rapide sur n_FFT points. On obtient ainsi une matrice X complexe de taille n_FFT x n_x contenant les coefficients du signal multicanal original dans l'espace fréquentiel.For this, each of the n _x channels of the original signal is window on the current time frame, then the Fourier transform F of the window signal is calculated using a fast calculation algorithm on n _FFT points. Thus, a complex X matrix of size n _FFT xn _x containing the coefficients of the original multichannel signal in the frequency space is obtained.

Les traitements effectués ensuite par le codeur sont effectués par bande de fréquence. Pour cela, on découpe la matrice des coefficients X en un ensemble de sous-matrices X_j contenant chacune les coefficients fréquentiels dans la j^eme bande.The subsequent processing by the encoder is done by frequency band. This is done by cutting the matrix of coefficients X into a set of sub-matrices X _j each containing the frequency coefficients in the j ^th band.

Différents choix pour le découpage fréquentiel des bandes sont possibles. Afin d'assurer que le traitement s'applique sur des signaux réels, on choisit des bandes symétriques par rapport à la fréquence nulle dans la transformée de Fourier à court terme. De plus, afin d'optimiser l'efficacité de codage, on privilégie le choix de bandes de fréquences approchant des échelles fréquentielles perceptives, par exemple en choisissant des largeurs de bande constantes dans les échelles ERB (pour "Equivalent Rectangular Bandwidth" en Anglais) ou Bark.Different choices for the frequency division of the bands are possible. In order to ensure that the processing is applied to real signals, symmetrical bands with respect to the zero frequency in the Fourier transform are chosen in the short term. In addition, in order to optimize the coding efficiency, the choice of frequency bands approaching perceptual frequency scales, for example by choosing constant bandwidths in the ERB scales (for "equivalent Rectangular Bandwidth" in English) or Bark.

Par soucis de simplification, la description des étapes de codage effectuée par le codeur sera faite pour une bande de fréquence donnée. Les étapes sont bien entendu effectuées pour chacune des bandes de fréquence à traiter.For the sake of simplification, the description of the coding steps performed by the coder will be made for a given frequency band. The steps are of course carried out for each of the frequency bands to be processed.

En sortie du module 210, on obtient donc le signal pour une bande de fréquence donné S_fj.At the output of the module 210, the signal is thus obtained for a given frequency band S _fj .

Un module d'obtention de données de directions des sources sonores 220, permet de déterminer par une étape OBT, d'une part, les données de direction associées à chacune des sources de la scène sonore et d'autre part de déterminer les sources de la scène sonore pour la bande de fréquence donnée.A module for obtaining data of directions of the sound sources 220 makes it possible to determine, by a step OBT, on the one hand, the direction data associated with each of the sources of the sound stage and, on the other hand, to determine the sources of the sound stage for the given frequency band.

Les données de directions peuvent être par exemple des données de direction d'arrivée d'une source qui correspondent à la position de la source.The direction data can be for example arrival direction data of a source that corresponds to the position of the source.

Les données de ce type sont par exemple décrites dans le document de M. Goodwin, J-M. Jot, "Analysis and synthesis for universal spatial audio coding", 121^st AES Convention, October 2006.Data of this type are for example described in the document by Mr. Goodwin, JM. Jot, "Analysis and synthesis for universal spatial audio coding", 121 ^st AES Convention, October 2006.

Dans un autre mode de réalisation, les données de directions sont des données de différences d'intensité entre les sources sonores. Ces différences d'intensité permettent de définir des positions moyennes des sources. Ils prennent par exemple l'appellation CLD (pour "Channel Level Différences" en Anglais) pour le codeur normalisé MPEG Surround.In another embodiment, the direction data is intensity difference data between the sound sources. These differences in intensity make it possible to define average positions of the sources. They take for example the CLD (for "Channel Level Differences" in English) for the standard encoder MPEG Surround.

Dans le mode de réalisation décrit ici plus en détails, les données représentatives des directions des sources sont des informations de directivités.In the embodiment described here in more detail, the data representative of the directions of the sources are directional information.

Les informations de directivités sont représentatives de la répartition spatiale des sources sonores dans la scène sonore.The directivity information is representative of the spatial distribution of the sound sources in the sound scene.

Les directivités sont des vecteurs de même dimension que le nombre n_s de canaux du signal multicanal S_m.The directivities are vectors of the same dimension as the number n _s of channels of the multichannel signal S _m .

Chaque source est associée à un vecteur de directivité.Each source is associated with a vector of directivity.

Pour un signal multicanal, le vecteur de directivité associé à une source correspond à la fonction de pondération à appliquer à cette source avant de la jouer sur un haut-parleur, de manière à reproduire au mieux une direction d'arrivée et une largeur de source.For a multichannel signal, the directivity vector associated with a source corresponds to the weighting function to be applied to this source before playing it on a loudspeaker, so as to reproduce at best a direction of arrival and a width of source.

On comprend aisément que pour un nombre très important de haut-parleurs régulièrement espacés, le vecteur de directivité permet de représenter fidèlement le rayonnement d'une source sonore. En présence d'un signal ambiophonique, le vecteur de directivité est obtenu par l'application d'une transformée de Fourier sphérique inverse sur les composantes des ordres ambiophoniques. En effet, les signaux ambiophoniques correspondent à une décomposition en harmoniques sphériques, d'où la correspondance directe avec la directivité des sources.It is easily understood that for a very large number of regularly spaced loudspeakers, the directivity vector makes it possible to faithfully represent the radiation of a sound source. In the presence of an ambiophonic signal, the vector of directivity is obtained by the application of an inverse spherical Fourier transform on the components of the ambiophonic orders. Indeed, the ambiophonic signals correspond to a decomposition into spherical harmonics, hence the direct correspondence with the directivity of the sources.

L'ensemble des vecteurs de directivité constitue donc une importante quantité de données qu'il serait trop coûteux de transmettre directement pour des applications à faible débit de codage. Pour réduire la quantité d'information à transmettre, deux méthodes de représentation des directivités peuvent par exemple être utilisées.The set of directivity vectors therefore constitutes a large amount of data that would be too expensive to transmit directly for low coding rate applications. To reduce the amount of information to be transmitted, two methods of representing the directivities can for example be used.

Le module 230 de codage Cod.Di des informations de directivités peut ainsi mettre en oeuvre une des deux méthodes décrites ci-après ou encore une combinaison des deux méthodes.The Cod.Di coding module 230 of the directional information can thus implement one of the two methods described below or a combination of the two methods.

Une première méthode est une méthode de modélisation paramétrique qui permet d'exploiter les connaissances a priori sur le format de signal utilisé. Elle consiste à ne transmettre qu'un nombre très réduit de paramètres et à reconstruire les directivités en fonction de modèles de codage connus.A first method is a parametric modeling method that makes it possible to exploit knowledge a priori on the signal format used. It consists of transmitting only a very small number of parameters and reconstructing the directivities according to known coding schemes.

Par exemple, il s'agit d'exploiter les connaissances sur le codage des ondes planes pour des signaux de type ambiophonique pour ne transmettre que la valeur de la direction (azimut et élévation) de la source. Avec ces informations, il est alors possible de reconstruire la directivité correspondant à une onde plane provenant de cette direction.For example, it is a question of exploiting the knowledge on the coding of the plane waves for signals of type ambiophonique to transmit only the value of the direction (azimuth and elevation) of the source. With this information, it is then possible to reconstruct the directivity corresponding to a plane wave coming from this direction.

Par exemple, pour un ordre ambiophonique défini, on connaît la directivité associée en fonction de la direction d'arrivée de la source sonore. Il existe plusieurs méthodes d'estimation des paramètres du modèle. Ainsi une recherche de pics dans le diagramme de directivité (par analogie avec l'analyse sinusoïdale, comme expliqué par exemple dans le document " Modélisation informatique dit son musical (analyse, transformation, synthèse)" de Sylvain Marchand, PhD thesis, Université Bordeaux 1 , permet de détecter relativement fidèlement la direction d'arrivée.For example, for a defined surround order, the associated directivity is known as a function of the direction of arrival of the sound source. There are several methods for estimating model parameters. Thus a search for peaks in the directivity diagram (by analogy with the sinusoidal analysis, as explained for example in the document " Computer modeling called musical sound (analysis, transformation, synthesis) "by Sylvain Marchand, PhD thesis, Bordeaux University 1 , allows to detect relatively accurately the direction of arrival.

D'autres méthodes comme le "matching pursuit", comme présenté dans S. Mallat, Z. Zhang, Matching pursuit with time-frequency dictionaries, IEEE Transactions on Signal Processing 41 (1993) 3397-3415 , ou l'analyse spectrale paramétrique peuvent aussi être utilisées dans ce contexte.Other methods such as "matching pursuit", as presented in S. Mallat, Z. Zhang, Matching pursuit with time-frequency dictionaries, IEEE Transactions on Signal Processing 41 (1993) 3397-3415 , or parametric spectral analysis can also be used in this context.

Une représentation paramétrique peut également utiliser un dictionnaire de forme simple pour représenter les directivités. Lors du codage des directivités, on associe à un élément du dictionnaire, une donnée par exemple l'azimut correspondant et un gain permettant de jouer sur l'amplitude de ce vecteur de directivité du dictionnaire. On peut ainsi, à partir d'un dictionnaire de forme de directivité, en déduire la meilleure forme ou la combinaison de formes qui permettra de reconstruire au mieux la directivité initiale.A parametric representation can also use a simple form dictionary to represent the directivities. During the coding of the directivities, one associates with an element of the dictionary, a datum for example the corresponding azimuth and a gain allowing to play on the amplitude of this vector of directivity of the dictionary. It is thus possible, from a dictionary of directivity form, to deduce the best form or the combination of forms that will best reconstruct the initial directivity.

Pour la mise en oeuvre de cette première méthode, le module 230 de codage des directivités comporte un module de modélisation paramétrique qui donne en sortie des paramètres de directivités P. Ces paramètres sont ensuite quantifiés par le module de quantification 240.For the implementation of this first method, the directivity coding module 230 comprises a parametric modeling module which outputs P directionality parameters. These parameters are then quantized by the quantization module 240.

Cette première méthode permet d'obtenir un très bon niveau de compression lorsque la scène correspond bien à un codage idéal. Ceci sera particulièrement le cas sur les scènes sonores de synthèse.This first method makes it possible to obtain a very good level of compression when the scene corresponds to an ideal coding. This will be particularly the case on synthetic soundtracks.

Cependant pour des scènes complexes ou issues de prises de son microphoniques, il est nécessaire d'utiliser des modèles de codage plus génériques, impliquant la transmission d'une plus grande quantité d'informations.However, for complex scenes or microphonic sound, it is necessary to use more generic coding models, involving the transmission of a greater amount of information.

La deuxième méthode décrite ci-dessous permet de s'affranchir de cet inconvénient. Dans cette deuxième méthode, la représentation des informations de directivité s'effectue sous forme de combinaison linéaire d'un nombre limité de directivités de base. Cette méthode s'appuie sur le fait que l'ensemble des directivités à un instant donné a généralement une dimension réduite. En effet, seul un nombre réduit de sources est active à un instant donné et la directivité pour chaque source varie peu avec la fréquence.The second method described below makes it possible to overcome this disadvantage. In this second method, the representation of the directivity information is in the form of a linear combination of a limited number of basic directivities. This method is based on the fact that the set of directivities at a given moment generally has a reduced dimension. Indeed, only a small number of sources is active at a given moment and the directivity for each source varies little with the frequency.

On peut ainsi représenter l'ensemble des directivités dans un groupe de bandes de fréquences à partir d'un nombre très réduit de directivités de base bien choisies. Les paramètres transmis sont alors les vecteurs de directivité de base pour le groupe de bandes considérées, et pour chaque directivité à coder, les coefficients à appliquer aux directivités de base pour reconstruire la directivité considérée.It is thus possible to represent all the directivities in a group of frequency bands from a very small number of well-chosen basic directivities. The parameters transmitted are then the basic directivity vectors for the group of bands considered, and for each directivity to be coded, the coefficients to be applied to the basic directivities to reconstruct the directivity considered.

Cette méthode est basée sur une méthode d'analyse en composante principale (ACP ou PCA en anglais pour "Principal Component Analysis"). Cet outil est largement développé par I.T. Jolliffe dans "Principal Component Analysis", Springer, 2002 . L'application de l'analyse en composante principale au codage des directivités s'effectue de la manière suivante: tout d'abord, on forme une matrice des directivités initiales Di, dont le nombre de lignes correspond au nombre total de sources de la scène sonore, et le nombre de colonne correspond au nombre de canaux du signal multicanal original. Ensuite, on effectue à proprement dit l'analyse en composante principale qui correspond à la diagonalisation de la matrice de covariance, et qui donne la matrice des vecteurs propres. Enfin, on sélectionne les vecteurs propres porteurs de la part d'information la plus importante et qui correspondent aux valeurs propres de plus forte valeur. Le nombre de vecteurs propres à conserver peut être fixe ou variable dans le temps en fonction du débit disponible. Cette nouvelle base donne donc la matrice D_B ^T. Les coefficients de gain associés à cette base sont facilement calculés à partir de G_D = Di.D_B ^T.This method is based on a principal component analysis (PCA or PCA) method. This tool is widely developed by IT Jolliffe in "Principal Component Analysis", Springer, 2002 . The application of the principal component analysis to the coding of the directivities is carried out as follows: firstly, a matrix of the initial directivities Di is formed, whose number of lines corresponds to the total number of sources of the scene sound, and the number of columns corresponds to the number of channels of the original multichannel signal. Then, one carries out properly the principal component analysis which corresponds to the diagonalization of the covariance matrix, and which gives the matrix of the eigenvectors. Finally, we select the eigenvectors carrying the most important information and corresponding to the eigenvalues of higher value. The number of eigenvectors to keep may be fixed or variable in time depending on the available flow. This new base thus gives the matrix D _B ^T. The gain coefficients associated with this base are easily calculated from G _D = Di.D _B ^T.

Dans ce mode de réalisation, la représentation des directivités s'effectue donc à partir de directivités de base. La matrice des directivités Di s'écrit comme la combinaison linaire de ces directivités de base. Ainsi on peut écrire Di = G_DD_B, où D_B est la matrice des directivités de base pour l'ensemble des bandes et G_D la matrice des gains associés. Le nombre de lignes de cette matrice représente le nombre total de sources de la scène sonore et le nombre de colonnes représente le nombre de vecteurs de directivité de base.In this embodiment, the representation of the directivities is therefore done from basic directivities. The matrix of directivities Di is written as the linear combination of these basic directivities. Thus one can write Di = G _D D _B , where D _B is the matrix of the basic directivities for all the bands and G _D the matrix of the associated gains. The number of rows of this matrix represents the total number of sources of the sound stage and the number of columns represents the number of basic directivity vectors.

Dans une variante de ce mode de réalisation, des directivités de base sont envoyées par groupe de bandes considérées, afin de représenter plus fidèlement les directivités. Il est possible par exemple de fournir deux groupes de directivité de base: une pour les basses fréquences et une pour les hautes fréquences. La limite entre ces deux groupes peut par exemple être choisie entre 5 et 7 kHz.In a variant of this embodiment, basic directivities are sent by group of considered bands, in order to more accurately represent the directivities. For example, it is possible to provide two directivity groups of base: one for low frequencies and one for high frequencies. The limit between these two groups can for example be chosen between 5 and 7 kHz.

Pour chaque bande de fréquence, on transmet ainsi, le vecteur de gain associé aux directivités de base.For each frequency band, the vector of gain associated with the basic directivities is thus transmitted.

Pour ce mode de réalisation, le module de codage 230 comprend un module d'analyse en composante principale délivrant des vecteurs de directivités de base D_B et des coefficients ou vecteurs de gain associés G_D.For this embodiment, the coding module 230 comprises a main component analysis module delivering basic directivity vectors D _B and associated coefficients or gain vectors G _D.

Ainsi, après ACP, un nombre limité de vecteurs de directivité sera codé et transmis. Pour cela, on utilise une quantification scalaire effectué par le module de quantification 240, des coefficients et des vecteurs de directivités de base. Le nombre de vecteurs de base à transmettre pourra être fixé, ou bien sélectionné au codeur en utilisant par exemple un seuil sur l'erreur quadratique moyenne entre la directivité originale et la directivité reconstruite. Ainsi, si l'erreur est inférieure au seuil, le ou les vecteur(s) de base jusqu'alors sélectionné(s) sont suffisant, il n'est alors pas nécessaire de coder un vecteur de base supplémentaire.Thus, after PCR, a limited number of directivity vectors will be encoded and transmitted. For this, we use a scalar quantization performed by the quantization module 240, coefficients and vectors of basic directivities. The number of basic vectors to be transmitted may be fixed, or else selected by the coder by using, for example, a threshold on the mean square error between the original directivity and the reconstructed directivity. Thus, if the error is below the threshold, the base vector (s) hitherto selected (s) are sufficient, it is then not necessary to code an additional base vector.

Dans des variantes de réalisation, le codage des directivités est réalisé par une combinaison des deux représentations listées ci-dessus. La figure 3a illustre de façon détaillée, le bloc de codage de directivités 230, dans une première variante de réalisation.In alternative embodiments, the coding of the directivities is achieved by a combination of the two representations listed above. The figure 3a illustrates in detail, the direction coding block 230, in a first embodiment.

Ce mode de codage utilise les deux schémas de représentation des directivités. Ainsi, un module 310 effectue une modélisation paramétrique comme expliqué précédemment pour fournir des paramètres de directivités (P).This coding mode uses the two diagrams of representation of the directivities. Thus, a module 310 performs parametric modeling as previously explained to provide directional parameters (P).

Un module 320 effectue une analyse en composante principale pour fournir à la fois des vecteurs de directivités de base (D_B) et des coefficients associés (G_D).A module 320 performs principal component analysis to provide both basic directivity vectors (D _B ) and associated coefficients (G _D ).

Dans cette variante un module de sélection 330 choisit bande de fréquence par bande de fréquence, le meilleur mode de codage pour la directivité en choisissant le meilleur compromis reconstruction des directivités/débit.In this variant, a selection module 330 selects frequency band per frequency band, the best mode of coding for the directivity by choosing the best compromise reconstruction of the directivities / flow.

Pour chaque directivité, le choix de la représentation retenue (représentation paramétrique ou par combinaison linéaire de directivités de base) se fait de manière à optimiser l'efficacité de la compression.For each directivity, the choice of the representation chosen (parametric representation or by linear combination of basic directivities) is done in order to optimize the efficiency of the compression.

Un critère de sélection est par exemple la minimisation de l'erreur quadratique moyenne. Une pondération perceptuelle peut éventuellement être utilisée pour le choix du mode de codage de la directivité. Cette pondération a pour but par exemple de favoriser la reconstruction des directivités dans la zone frontale, pour laquelle l'oreille est plus sensible. Dans ce cas, la fonction d'erreur à minimiser dans le cas du modèle de codage par ACP peut se mettre sous la forme suivante: $E = {(W (Di - G_{D} D_{B}))}^{2}$

A selection criterion is, for example, the minimization of the mean squared error. A perceptual weighting may possibly be used for the choice of the directivity coding mode. This weighting is intended for example to promote the reconstruction of the directivities in the frontal area, for which the ear is more sensitive. In this case, the error function to be minimized in the case of the ACP encoding model can be in the following form:

E = {(W (di - {BOY WUT}_{D} D_{B}))}^{2}

Avec Di, les directivités originales et W, la fonction de pondération perceptuelle.With Di, the original directivities and W, the perceptual weighting function.

Les paramètres de directivités issus du module de sélection sont ensuite quantifiés par le module de quantification 240 de la figure 2.The directivity parameters from the selection module are then quantized by the quantization module 240 of the figure 2 .

Dans une seconde variante du bloc de codage 230, les deux modes de codage sont cascadés. La figure 3b illustre en détails ce bloc de codage. Ainsi, dans cette variante de réalisation, un module 340 de modélisation paramétrique effectue une modélisation pour un certain nombre de directivités et fournit en sortie à la fois des paramètres de directivités (P) pour les directivités modélisés et des directivités non modélisés ou directivités résiduelles DiR.In a second variant of the coding block 230, the two coding modes are cascaded. The figure 3b illustrates in detail this block of coding. Thus, in this variant embodiment, a parametric modeling module 340 performs a modeling for a certain number of directivities and outputs at the same time directivity parameters (P) for the modeled directivities and unmodelled directivities or residual directivities DiR .

Ces directivités résiduelles (DiR) sont codées par un module d'analyse en composante principale 350 qui fournit en sortie des vecteurs de directivités de base (D_B) et des coefficients associés (G_D).These residual directivities (DiR) are encoded by a main component analysis module 350 which outputs basic directional vectors (D _B ) and associated coefficients (G _D ).

Les paramètres de directivités, les vecteurs de directivités de base ainsi que les coefficients sont fournis en entrée du module de quantification 240 de la figure 2.The directivity parameters, the basic directivity vectors as well as the coefficients are provided at the input of the quantization module 240 of the figure 2 .

La quantification Q est effectuée en réduisant la précision en fonction de données sur la perception, puis en appliquant un codage entropique. Aussi, des possibilités d'exploitation de la redondance entre bandes fréquentielles ou entre trames successives peuvent permettre de réduire le débit. Des prédictions intra-trames ou inter-trames sur les paramètres peuvent donc être utilisées. De manière générale, les méthodes classiques de quantification pourront être utilisées. D'autre part, les vecteurs à quantifier étant orthonormés, cette propriété pourra être exploitée lors de la quantification scalaire des composantes du vecteur. En effet, pour un vecteur de dimension N, seul N-1 composantes devront être quantifiées, la dernière composante pouvant être recalculée.Quantization Q is performed by reducing the accuracy as a function of perception data and then applying entropy coding. Also, the possibility of exploiting the redundancy between frequency bands or between successive frames can reduce the flow. Intra-frame or inter-frame predictions on the parameters can therefore be used. In general, the standard methods of quantification can be used. On the other hand, the vectors to be quantified being orthonormed, this property can be exploited during the scalar quantization of the components of the vector. Indeed, for a N-dimensional vector, only N-1 components will have to be quantified, the last component can be recalculated.

A la sortie du module de codage 230 des données de directions Di de la figure 2, les paramètres ainsi destinés au décodeur sont décodés par le module de décodage interne 235 pour retrouver les mêmes informations que celles que le décodeur aura après réception des données de directions codées pour les sources principales sélectionnées par le module 260 décrit ultérieurement. On obtient ainsi des directions principales.At the output of the coding module 230, the data of directions Di of the figure 2 , the parameters thus intended for the decoder are decoded by the internal decoding module 235 to find the same information that the decoder will have after receiving the coded direction data for the main sources selected by the module 260 described later. We thus obtain principal directions.

Lorsqu'il s'agit de données de directions sous la forme de direction d'arrivée des sources, l'information peut être prise en compte telle quelle.In the case of direction data in the form of direction of arrival of the sources, the information can be taken into account as it is.

Lorsque que les données sont sous la forme de différence d'intensité entre les sources, une étape de calcul de la position moyenne des sources est effectuée pour utiliser cette information dans le module de détermination de la matrice de mixage 275.When the data is in the form of difference in intensity between the sources, a step of calculating the average position of the sources is performed to use this information in the module for determining the mixing matrix 275.

Enfin, lorsque les données sont des informations de directivités, le module 235 détermine une position unique par source en effectuant une moyenne des directivités. Cette moyenne peut par exemple être calculée comme le barycentre du vecteur de directivité. Ces positions uniques ou directions principales sont ensuite utilisées par le module 275.Finally, when the data is directivity information, the module 235 determines a unique position by source by averaging the directivities. This average can for example be calculated as the barycenter of the directivity vector. These unique positions or main directions are then used by module 275.

Celui-ci détermine dans un premier temps, les directions des sources principales et les adapte en fonction de critère de cohérence spatiale, en ayant connaissance du système de restitution du signal multicanal.This first determines the directions of the main sources and adapts them according to spatial coherence criterion, knowing the multichannel signal reproduction system.

Dans le cas d'une restitution stéréophonique par exemple, la restitution s'effectue par deux haut-parleurs situés à l'avant de l'auditeur.In the case of stereophonic reproduction for example, the restitution takes place by two loudspeakers located at the front of the listener.

Dans ce cas de figure, les étapes mises en oeuvre par le module 275 sont décrites en référence à la figure 4 .In this case, the steps implemented by the module 275 are described with reference to the figure 4 .

Ainsi, à partir des informations sur la position des sources ainsi que la connaissance des caractéristiques de restitution, les sources positionnées à l'arrière de l'auditeur sont ramenées vers l'avant à l'étape E30 de la figure 4.Thus, from the information on the position of the sources as well as the knowledge of the rendering characteristics, the sources positioned at the rear of the listener are brought forward to the step E30 of the figure 4 .

En référence aux figures 5a et 5b, les étapes d'adaptation de la position des sources sont illustrées. Ainsi, la figure 5a représente une scène sonore originale avec 4 sources sonores (A, B, C et D) reparties autour de l'auditeur.With reference to Figures 5a and 5b , the stages of adaptation of the position of the sources are illustrated. So, the figure 5a represents an original sound scene with 4 sound sources (A, B, C and D) distributed around the listener.

Les sources C et D sont situés à l'arrière de l'auditeur centré au centre du cercle. Les sources C et D sont ramenées à l'avant de la scène par symétrie.Sources C and D are located behind the listener centered in the center of the circle. Sources C and D are brought to the front of the stage by symmetry.

La figure 5b illustre sous forme de flèches, cette opération.The figure 5b illustrates in the form of arrows, this operation.

L'étape E 31 de la figure 4 effectue un test pour savoir si l'opération précédente engendre un recouvrement des positions des sources dans l'espace. Dans l'exemple de la figure 5b, ceci est par exemple le cas pour les sources B et D qui après l'opération de l'étape E30, sont situées à une distance qui ne permet pas de les différencier.Step E 31 of the figure 4 performs a test to see if the previous operation causes a recovery of the positions of the sources in the space. In the example of the figure 5b this is for example the case for sources B and D which after the operation of step E30, are located at a distance that does not differentiate them.

S'il existe des sources dans une telle situation (test positif de l'étape E31), l'étape E32, modifie la position d'une des deux sources en question pour la positionner à une distance minimale e_min qui permette à l'auditeur de différencier ces interlocuteurs. L'écartement se fait symétriquement par rapport au point équidistant des deux sources pour minimiser le déplacement de chacune. Si les sources sont placées trop près de la limite de l'image sonore (extrême gauche ou droite), on positionne la source la plus proche de cette limite sur cette position limite, et on place l'autre source avec l'écartement minimum par rapport à la première source.If there are sources in such a situation (positive test of step E31), step E32 modifies the position of one of the two sources in question to position it at a minimum distance e _min that allows the listener to differentiate these interlocutors. The spacing is symmetrically with respect to the equidistant point of the two sources to minimize the displacement of each. If the sources are placed too close to the limit of the sound image (extreme left or right), we position the source closest to this limit to this limit position, and place the other source with the minimum spacing by report to the first source.

Dans l'exemple illustré à la figure 5b, c'est la source B qui est décalée de façon à ce que la distance e_min sépare les sources B et D.In the example shown in figure 5b , it is the source B which is shifted so that the distance e _min separates the sources B and D.

Si le test de l'étape E31 est négatif, les positions des sources sont maintenues et l'étape E33 est mise en oeuvre. Cette étape consiste à construire une matrice de mixage à partir des informations de positions des sources ainsi définies aux étapes antérieures.If the test of step E31 is negative, the positions of the sources are maintained and step E33 is implemented. This step consists of constructing a mixing matrix from the source position information thus defined in the previous steps.

Dans le cas d'une restitution du signal par un système de type 5.1, les haut-parleurs sont répartis autour de l'auditeur. Il n'est alors pas nécessaire de mettre en oeuvre l'étape E30 qui ramène les sources situées à l'arrière de l'auditeur vers l'avant.In the case of a signal reproduction by a 5.1 type system, the speakers are distributed around the listener. It is then not necessary to implement step E30 which brings the sources located at the rear of the listener forward.

Par contre, l'étape E32 de modification des distances entre deux sources est possible. En effet, lorsque l'on veut positionner une source sonore entre deux haut-parleurs du système de restitution 5.1, il se peut que deux sources soient situées à une distance qui ne permet pas à l'auditeur de les différencier.On the other hand, step E32 of modifying the distances between two sources is possible. Indeed, when you want to position a sound source between two speakers of the 5.1 playback system, two sources may be located at a distance that does not allow the listener to differentiate them.

Les directions des sources sont donc modifiées pour obtenir une distance minimale entre deux sources, comme expliquée précédemment.The directions of the sources are therefore modified to obtain a minimum distance between two sources, as explained above.

La matrice de mixage est donc déterminée à l'étape E33, en fonction des directions obtenues après ou sans modifications.The mixing matrix is thus determined in step E33, as a function of the directions obtained after or without modifications.

Cette matrice est construite de manière à assurer la cohérence spatiale du signal somme, c'est à dire que s'il est restitué seul, le signal somme permet déjà d'obtenir une scène sonore où la position relative des sources sonores est respectée : une source frontale dans la scène originale sera bien perçue en face de l'auditeur, une source à gauche sera perçue à gauche, une source plus à gauche sera également perçue plus à gauche, de même à droite.This matrix is constructed in such a way as to ensure the spatial coherence of the sum signal, ie if it is rendered alone, the sum signal already makes it possible to obtain a sound scene where the relative position of the sound sources is respected: a frontal source in the original scene will be well perceived in front of the listener, a source on the left will be seen on the left, a source on the left will also be perceived more to the left, likewise on the right.

Avec ces nouvelles valeurs d'angle, on construit une matrice inversible.With these new angle values, an invertible matrix is built.

Les différentes variantes de choix de matrice de mixage sont liées aux différentes lois de répartition spatiale ou "panning" en Anglais (loi sinus, tangente, etc...) présentées dans " Spatial sound generation and perception by amplitude panning techniques", PhD thesis, Helsinki University of Technology, Espoo, Finland, 2001, V. Pulkki .The different variants of mixing matrix choices are related to the different laws of spatial distribution or "panning" in English (sinus law, tangent, etc ...) presented in " Spatial sound generation and perception by amplitude panning techniques ", PhD thesis, Helsinki University of Technology, Espoo, Finland, 2001, V. Pulkki .

On peut par exemple, avantageusement choisir de représenter les voies de droite par une forme en sinus et les voies de gauche par une forme en cosinus, de façon à rendre réversible cette matrice.One can, for example, advantageously choose to represent the right lanes by a sine form and the left lanes by a cosine form, so as to make this matrix reversible.

D'autre part, pour que les positions extrêmes (-45° et 45°) soient bien représentées, on peut par exemple choisir des coefficients de pondération mis à 1 pour la voie de gauche et à 0 pour la voie de droite pour représenter le signal à la position -45° et inversement pour représenter le signal à 45°.On the other hand, for the extreme positions (-45 ° and 45 °) to be well represented, we can for example choose weighting coefficients set to 1 for the left channel and 0 for the right channel to represent the signal at the -45 ° position and vice versa to represent the 45 ° signal.

Pour que la position centrale, à 0° soit bien représentée, les coefficients de matriçage pour la voie de gauche et pour la voie de droite doivent être égaux.For the central position, at 0 °, to be well represented, the matrixing coefficients for the left channel and the right channel must be equal.

Un exemple de détermination de la matrice de mixage est expliqué ci-dessous.An example of determining the mixing matrix is explained below.

En choisissant la loi de "panning" comme étant une loi tangente, les gains associés à une source pour un signal somme stéréophonique (2 canaux) sont calculés de la manière suivante: $g_{Gs 1} = {cosθ}_{s 1}$

g_{Ds 2} = {sinθ}_{s 1}

By choosing the panning law as a tangent law, the gains associated with a source for a stereophonic sum signal (2 channels) are calculated as follows:

{boy Wut}_{gs 1} = \cos_{s 1}

{boy Wut}_{ds 2} = {sinθ}_{s 1}

θ_S1, étant l'angle entre la source 1 et le haut-parleur gauche, en considérant l'ouverture entre les haut-parleurs de 90°.θ _S1 , being the angle between the source 1 and the left speaker, considering the opening between the loudspeakers of 90 °.

Le signal somme S_sfi est donc obtenu par l'opération suivante: $S_{sfi} = S_{princ} M$

Avec M = [\begin{matrix} g_{Gs 1} & g_{Ds 1} \\ g_{Gs 2} & g_{Ds 2} \end{matrix}]

The sum signal S _sfi is thus obtained by the following operation:

S_{ifc} = S_{princ} M

With M = [\begin{matrix} {boy Wut}_{gs 1} & {boy Wut}_{ds 1} \\ {boy Wut}_{gs 2} & {boy Wut}_{ds 2} \end{matrix}]

En revenant à la description de la figure 2, le codeur tel que décrit ici comprend en outre un module de sélection 260 apte à sélectionner à l'étape Select des sources principales (S_princ) parmi les sources de la scène sonore à coder (S_tot).Going back to the description of the figure 2 , the encoder as described herein further comprises a selection module 260 adapted to select in step Select main sources (S _princ ) among the sources of the sound scene to be encoded (S _tot ).

Pour cela, un mode de réalisation particulier utilise une méthode d'analyse en composante principale, ACP, dans chaque bande de fréquence dans le bloc 220 pour extraire toutes les sources de la scène sonore (S_tot). Cette analyse permet de classer les sources en sous-bandes par ordre d'importance selon le niveau d'énergie par exemple.For this, a particular embodiment uses a principal component analysis method, ACP, in each frequency band in block 220 to extract all the sources of the sound scene (S _tot ). This analysis makes it possible to classify the sources in subbands in order of importance according to the level of energy for example.

Les sources de plus grande importance (donc de plus grande énergie) sont alors sélectionnées par le module 260 pour constituer les sources principales (S_princ), qui sont ensuite matricées par le module 270, par la matrice M telle que définie par le module 275, pour construire un signal somme (S_sfi) (ou "downmix" en anglais).The sources of greater importance (therefore of greater energy) are then selected by the module 260 to constitute the main sources (S _princ ), which are then stamped by the module 270, by the matrix M as defined by the module 275 , to build a sum signal (S _sfi ) (or "downmix" in English).

Ce signal somme par bande de fréquence subit une transformée temps-fréquence inverse T^-1 par le module de transformée inverse 290 afin de fournir un signal somme temporel (S_s). Ce signal somme est ensuite encodé par un codeur de parole ou un codeur audio de l'état de l'art (par exemple: G.729.1 ou MPEG-4 AAC).This sum signal per frequency band undergoes an inverse time-frequency transform T ^-1 by the inverse transform module 290 to provide a time sum signal (S _s ). This sum signal is then encoded by a speech coder or an audio coder of the state of the art (for example: G.729.1 or MPEG-4 AAC).

Des sources secondaires (S_sec) peuvent être codées par un module de codage 280 et ajoutées au flux binaire dans le module de construction de flux binaire 250.Secondary sources (S _sec ) may be encoded by a coding module 280 and added to the bitstream in the bitstream building module 250.

Pour ces sources secondaires, c'est-à-dire les sources qui ne sont pas transmises directement dans le signal somme, il existe différentes alternatives de traitements.For these secondary sources, that is to say the sources that are not transmitted directly in the sum signal, there are different alternatives of treatments.

Ces sources étant considérées comme non essentielles à la scène sonore, elles peuvent ne pas être transmises.Since these sources are considered non-essential to the sound stage, they may not be transmitted.

Il est cependant possible de coder une partie ou la totalité de ces sources secondaires par le module de codage 280 qui peut dans un mode de réalisation être un module de codage par transformée de Fourier à court terme. Ces sources peuvent ensuite être codées séparément en utilisant les codeurs audio ou de parole précités.However, it is possible to code some or all of these secondary sources by the coding module 280 which may in one embodiment be a short-term Fourier transform coding module. These sources can then be separately encoded using the aforementioned audio or speech coders.

Dans une variante de ce codage, on peut ne coder directement les coefficients de la transformée de ces sources secondaires que dans les bandes dont on estime qu'elles sont importantes.In a variant of this coding, the coefficients of the transform of these secondary sources can be coded directly only in the bands considered to be important.

Les sources secondaires peuvent être codées par des représentations paramétriques, ces représentations peuvent être sous la forme d'enveloppe spectrale ou d'enveloppe temporelle.The secondary sources can be encoded by parametric representations, these representations can be in the form of spectral envelope or temporal envelope.

Ces représentations sont codées à l'étape Cod.S_sec du module 280 et insérées à l'étape Con.Fb du module 250, dans le flux binaire avec les informations de directivités codées quantifiées. Ces représentations paramétriques constituent alors des informations de codage des sources secondaires.These representations are coded in the step Cod.S _sec of the module 280 and inserted in the step Con.Fb of the module 250, in the bit stream with the quantized coded directivity information. These parametric representations then constitute coding information of the secondary sources.

Dans le cas de certains signaux multicanaux notamment de type ambiophonique, le codeur tel que décrit met en oeuvre une étape supplémentaire de pré-traitement P par un module de pré-traitement 215.In the case of certain multichannel signals, in particular of the ambiophonic type, the encoder as described implements an additional preprocessing step P by a pre-processing module 215.

Ce module effectue une étape de changement de base afin d'exprimer la scène sonore en utilisant la décomposition en onde planes du champ acoustique.This module performs a base change step in order to express the sound scene using the plane wave decomposition of the acoustic field.

Le signal ambiophonique original est vue comme la transformée de Fourier angulaire d'un champ sonore. Ainsi les différentes composantes représentent les valeurs pour les différentes fréquences angulaires. La première opération de décomposition en ondes planes correspond donc à prendre la composante omnidirectionnelle du signal ambiophonique comme représentant la fréquence angulaire nulle (cette composante est donc bien une composante réelle). Ensuite, les composantes ambiophonique suivantes (ordre 1, 2, 3, etc...) sont combinées pour obtenir les coefficients complexes de la transformée de Fourier angulaire.The original surround signal is seen as the angular Fourier transform of a sound field. Thus the different components represent the values for the different angular frequencies. The first plane wave decomposition operation therefore corresponds to taking the omnidirectional component of the ambiophonic signal as representing the zero angular frequency (this component is therefore a real component). Then, The following surround components (order 1, 2, 3, etc.) are combined to obtain the complex coefficients of the angular Fourier transform.

Pour une description plus précise du format ambiophonique, on pourra se référer à la thèse de Jérôme Daniel, intitulé "Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia" 2001, Paris 6 .For a more precise description of the ambiophonic format, we can refer to the thesis of Jérôme Daniel, entitled "Representation of acoustic fields, application to the transmission and reproduction of complex sound scenes in a multimedia context" 2001, Paris 6 .

Ainsi, pour chaque ordre ambiophonique supérieur à 1 (en 2-dimensions), la première composante représente la partie réelle, et la deuxième composante représente la partie imaginaire. Pour une représentation bidimensionnelle, pour un ordre O, on obtient O+1 composantes complexes. Une Transformée de Fourier à Court Terme (sur la dimension temporelle) est ensuite appliquée pour obtenir les transformées de Fourier (dans le domaine fréquentiel) de chaque harmonique angulaire cette étape intègre alors l'étape de transformation T du module 210. Ensuite, on construit la transformée angulaire complète en recréant les harmoniques de fréquences négatives par symétrie hermitienne. Enfin, on effectue une transformée de Fourier inverse sur la dimension des fréquences angulaires pour passer dans le domaine des directivités.Thus, for each surround order greater than 1 (in 2-dimensions), the first component represents the real part, and the second component represents the imaginary part. For a two-dimensional representation, for an order O, we obtain O + 1 complex components. A Short Term Fourier Transform (on the time dimension) is then applied to obtain the Fourier transforms (in the frequency domain) of each angular harmonic. This step then integrates the transformation step T of the module 210. the complete angular transform by recreating the harmonics of negative frequencies by Hermitian symmetry. Finally, an inverse Fourier transform is carried out on the dimension of the angular frequencies to pass in the domain of the directivities.

Cette étape de pré-traitement P permet au codeur de travailler dans un espace de signaux dont l'interprétation physique et perceptive est simplifiée, ce qui permet d'exploiter plus efficacement les connaissances sur la perception auditive spatiale et ainsi améliorer les performances de codage. Le codage des signaux ambiophoniques reste cependant possible sans cette étape de pré-traitement.This preprocessing step P allows the coder to work in a signal space whose physical and perceptual interpretation is simplified, which makes it possible to more effectively exploit the knowledge of spatial auditory perception and thus to improve the coding performances. The encoding of the surround signals, however, remains possible without this pre-processing step.

Pour les signaux non-issus des techniques ambiophoniques, cette étape n'est pas nécessaire. Pour ces signaux, la connaissance du système de captation ou de restitution associé au signal permet d'interpréter directement les signaux comme une décomposition en ondes planes du champ acoustique.For non-surround signals, this step is not necessary. For these signals, the knowledge of the recording system or reproduction associated with the signal makes it possible to directly interpret the signals as a plane wave decomposition of the acoustic field.

La figure 6 décrit à présent un décodeur et un procédé de décodage dans un mode de réalisation de l'invention.The figure 6 describes now a decoder and a decoding method in an embodiment of the invention.

Ce décodeur reçoit en entrée le flux binaire F_b tel que construit par le codeur décrit précédemment ainsi que le signal somme S_s.This decoder receives as input the bit stream F _b as constructed by the encoder described above as well as the sum signal S _s .

De la même façon que pour le codeur, l'ensemble des traitements est effectué par trame temporelle. Pour simplifier les notations, la description du décodeur qui suit décrit uniquement le traitement effectué sur une trame temporelle fixée et ne fait pas apparaître la dépendance temporelle dans les notations. Dans le décodeur, ce même traitement est cependant successivement appliqué à l'ensemble des trames temporelles du signal.In the same way as for the encoder, all the processing is done by time frame. To simplify the notations, the description of the decoder which follows only describes the processing performed on a fixed time frame and does not show the temporal dependence in the notations. In the decoder, however, this same processing is successively applied to all the time frames of the signal.

Le décodeur ainsi décrit comprend un module 650 de décodage Decod.Fb des informations contenues dans le flux binaire Fb reçu.The decoder thus described comprises a decoding module 650 Decod.Fb information contained in the bit stream Fb received.

Les informations de directions et plus particulièrement ici, de directivités sont donc extraites du flux binaire.The direction information and more particularly here, directivités are extracted from the bit stream.

Les sorties possibles de ce module de décodage du flux binaire dépendent des méthodes de codage des directivités utilisées au codage. Elles peuvent être sous forme de vecteurs de directivités de base D_B et de coefficients associés G_D et/ou des paramètres de modélisation P.The possible outputs of this decoding module of the bitstream depend on the coding methods of the directivities used in the coding. They can be in the form of basic directivity vectors D _B and associated coefficients G _D and / or modeling parameters P.

Ces données sont alors transmises à un module de reconstruction des informations de directivités 660 qui effectue le décodage des informations de directivités par des opérations inverses de celles effectuées au codage.This data is then transmitted to a directional information reconstruction module 660 which performs the decoding of the directivity information by reverse operations from those performed in the coding.

Le nombre de directivité à reconstruire est égal au nombre n_tot de sources dans la bande de fréquence considérée, chaque source étant associée à un vecteur de directivité.The number of directivity to be reconstructed is equal to the number n _tot of sources in the frequency band considered, each source being associated with a directivity vector.

Dans le cas de la représentation des directivités à partir de directivité de base, la matrice des directivités Di s'écrit comme la combinaison linaire de ces directivités de base. Ainsi on peut écrire Di = G_DD_B, où D_B est la matrice des directivités de base pour l'ensemble des bandes et G_D la matrice des gains associés. Cette matrice de gain a un nombre de lignes égal au nombre total de sources n_tot, et un nombre de colonnes égal au nombre de vecteurs de directivité de base.In the case of the representation of directivities from basic directivity, the matrix of directivities Di is written as the linear combination of these basic directivities. Thus one can write Di = G _D D _B , where D _B is the matrix of the basic directivities for all the bands and G _D the matrix of the associated gains. This gain matrix has a number of lines equal to the total number of sources n _tot , and a number of columns equal to the number of basic directivity vectors.

Dans une variante de ce mode de réalisation, des directivités de base sont décodées par groupe de bandes de fréquence considérées, afin de représenter plus fidèlement les directivités. Comme expliqué pour le codage, on peut par exemple fournir deux groupes de directivités de base: un pour les basses fréquences et un pour les hautes fréquences. Un vecteur de gains associés aux directivités de base est ensuite décodé pour chaque bande.In a variant of this embodiment, basic directivities are decoded by group of frequency bands considered, in order to more accurately represent the directivities. As explained for coding, one can for example provide two groups of basic directivities: one for low frequencies and one for high frequencies. A vector of gains associated with the basic directivities is then decoded for each band.

Au final on reconstruit autant de directivités que de sources. Ces directivités sont regroupées dans une matrice Di où les lignes correspondent aux valeurs d'angle (autant de valeur d'angle que de canaux dans le signal multicanal à reconstruire), et chaque colonne correspond à la directivité de la source correspondante, c'est à dire que la colonne r de Di donne la directivité de la source qui est dans la colonne r de S.In the end we reconstruct as many directivities as sources. These directivities are grouped in a matrix Di where the lines correspond to the angle values (as much angle value as channels in the multichannel signal to be reconstructed), and each column corresponds to the directivity of the corresponding source, it is to say that the column r of Di gives the directivity of the source which is in the column r of S.

Un module 690 de définition des directions principales des sources et de détermination de la matrice N de mixage reçoit ces informatisons de directions ou de directivités décodées.A module 690 for defining the main directions of the sources and for determining the mixing matrix N receives these computerized directions or decoded directivities.

Ce module calcule tout d'abord les directions principales en effectuant par exemple une moyenne des directivités reçues pour trouver les directions. En fonctions de ces directions, une matrice de mixage, inverse à celle utilisée pour le codage est déterminée.This module first calculates the main directions by, for example, averaging the directivities received to find the directions. In function of these directions, a mixing matrix, inverse to that used for the coding is determined.

Connaissant les lois de "panning" utilisées pour la matrice de mixage au codeur, le décodeur est capable de reconstruire la matrice de mixage inverse avec les informations de directions correspondant aux directions des sources principales.Knowing the panning laws used for the mixing matrix at the encoder, the decoder is able to reconstruct the inverse mixing matrix with the directions information corresponding to the directions of the main sources.

L'information de directivité est transmise séparément pour chaque source. Ainsi, dans le flux binaire, on identifie bien les directivités relatives aux sources principales et les directivités des sources secondaires.The directivity information is transmitted separately for each source. Thus, in the bitstream, the directivities relative to the main sources and the directivities of the secondary sources are well identified.

Il est à noter que ce décodeur n'a pas besoin d'autres informations pour calculer cette matrice puisqu'elle est fonction des informations de directions reçues dans le flux binaire.It should be noted that this decoder does not need any other information to calculate this matrix since it depends on the direction information received in the bit stream.

Le même algorithme que celui décrit en référence à la figure 4 est alors mis en oeuvre dans le module 690 pour retrouver la matrice de mixage adaptée à la restitution prévue pour le signal somme.The same algorithm as that described with reference to the figure 4 is then implemented in the module 690 to find the mixing matrix adapted to the restitution provided for the sum signal.

Le nombre de lignes de la matrice N correspond au nombre de canaux du signal somme, et le nombre de colonnes correspond au nombre de sources principales transmises.The number of rows of the matrix N corresponds to the number of channels of the sum signal, and the number of columns corresponds to the number of main sources transmitted.

La matrice inverse N telle que définie est ensuite utilisé par le module de dématriçage 620.The inverse matrix N as defined is then used by the demosaicing module 620.

Le décodeur reçoit donc en parallèle du flux binaire, le signal somme S_s. Celui-ci subit une première étape de transformée temps-fréquence T par le module de transformée 610 pour obtenir un signal somme par bande de fréquence. S_sfi The decoder thus receives in parallel the bit stream, the sum signal S _s . It undergoes a first time-frequency transform step T by the transform module 610 to obtain a sum signal per frequency band. S _sfi

Cette transformée est réalisée en utilisant par exemple la transformée de Fourier à court terme. Il faut noter que d'autres transformées ou bancs de filtres peuvent être également utilisés, et notamment des bancs de filtres non uniformes suivant une échelle de perception (e.g. Bark). On peut noter que de manière à éviter des discontinuités lors de la reconstruction du signal à partir de cette transformée, on utilise une méthode d'addition recouvrement.This transform is carried out using, for example, the short-term Fourier transform. It should be noted that other transforms or filterbanks may also be used, including non-uniform filterbanks according to a perception scale (e.g. Bark). It may be noted that in order to avoid discontinuities during the reconstruction of the signal from this transform, a recovery addition method is used.

Pour la trame temporelle considérée, l'étape de calcul de la transformée de Fourier à court terme consiste à fenêtrer chacun des n_f canaux du signal somme S_s à l'aide d'une fenêtre w de longueur supérieure à la trame temporelle, puis à calculer la transformée de Fourier du signal fenêtre à l'aide d'un algorithme de calcul rapide sur N_FFT points. On obtient ainsi une matrice F complexe de taille n_FFT x n_f contenant les coefficients du signal somme dans l'espace fréquentiel.For the time frame considered, the step of calculating the Fourier transform in the short term consists of winding each of the n _f channels of the sum signal S _s using a window w of length greater than the time frame, then to compute the Fourier transform of the window signal using a fast computation algorithm on N _FFT points. Size of a complex matrix F is thus obtained n _FFT xn _f containing the coefficients of the sum signal in the frequency space.

Dans la suite, l'ensemble du traitement s'effectue par bandes de fréquence. Pour cela, on découpe la matrice des coefficients F en un ensemble de sous-matrices F_j contenant chacune les coefficients fréquentiels dans la j^eme bande. Différents choix pour le découpage fréquentiel des bandes sont possibles. Afin d'assurer que le traitement s'applique sur des signaux réels, on choisit des bandes symétriques par rapport à la fréquence nulle dans la transformée de Fourier à court terme. De plus, afin d'optimiser l'efficacité de décodage, on privilégie le choix de bandes de fréquences approchant des échelles fréquentielles perceptives, par exemple en choisissant des largeurs de bande constante dans les échelles ERB ou Bark.In the following, the entire processing is done in frequency bands. For this, the matrix coefficients F is cut into a plurality of submatrices F _j each containing the frequency coefficients in the j ^th band. Different choices for the frequency division of the bands are possible. In order to ensure that the processing is applied to real signals, symmetrical bands with respect to the zero frequency in the Fourier transform are chosen in the short term. In addition, in order to optimize the decoding efficiency, preference is given to the choice of frequency bands approaching perceptual frequency scales, for example by choosing constant bandwidths in the ERB or Bark scales.

Par soucis de simplification, la description des étapes de décodage effectuée par le décodeur sera faite pour une bande de fréquence donnée. Les étapes sont bien entendu effectuées pour chacune des bandes de fréquence à traiter.For reasons of simplification, the description of the decoding steps performed by the decoder will be made for a given frequency band. The steps are of course carried out for each of the frequency bands to be processed.

Les coefficients fréquentiels de la transformée du signal somme de la bande de fréquence considérée sont matricés par le module 620 par la matrice N déterminée selon l'étape de détermination décrite précédemment de façon à retrouver les sources principales de la scène sonore.The frequency coefficients of the signal transform sum of the frequency band considered are stamped by the module 620 by the matrix N determined according to the determination step described above so as to find the main sources of the sound scene.

Plus précisément, la matrice S_princ des coefficients fréquentiels pour la bande de fréquence courante des n_princ sources principales est obtenue selon la relation :

S_princ=BN, où N est de dimension n_f x n_princ et B est une matrice de dimension n_binx n_f où n_bin est le nombre de composantes (ou bins) fréquentielles retenues dans la bande de fréquence considérée.

More specifically, the S _princ matrix of frequency coefficients for the current frequency band of the n _princ main sources is obtained according to the relation:

S _princ = BN, where N is of dimension n _f xn _princ and B is a matrix of dimension n _bin xn _f where n _bin is the number of components (or bins) frequency retained in the considered frequency band.

Les lignes de B sont les composantes fréquentielles dans la bande de fréquence courante, les colonnes correspondent aux canaux du signal somme. Les lignes de S_princ sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à une source principale.The lines of B are the frequency components in the current frequency band, the columns correspond to the channels of the sum signal. The lines of S _princ are the frequency components in the current frequency band, and each column corresponds to a main source.

Lorsque la scène est complexe, il peut arriver que le nombre de sources à reconstruire dans la bande de fréquence courante pour obtenir une reconstruction satisfaisante de la scène soit supérieur au nombre de canaux du signal somme.When the scene is complex, it may happen that the number of sources to be reconstructed in the current frequency band to obtain a satisfactory reconstruction of the scene is greater than the number of channels of the sum signal.

Dans ce cas, des sources supplémentaires ou secondaires sont codées puis décodées à partir du flux binaire pour la bande courante par le module 650 de décodage du flux binaire.In this case, additional or secondary sources are coded and then decoded from the bitstream for the current band by the module 650 for decoding the bitstream.

Ce module de décodage décode alors, en plus des informations de directivités, les sources secondaires.This decoding module then decodes, in addition to the directional information, the secondary sources.

Le décodage des sources secondaires s'effectue par les opérations inverses que celles qui ont été effectuées au codage.The decoding of the secondary sources is carried out by the inverse operations that those which were carried out with the coding.

Quelque soit la méthode de codage qui a été retenue pour les sources secondaires, si des données de reconstruction des sources secondaires ont été transmises dans le flux binaire pour la bande courante, les données correspondantes sont décodées pour reconstruire la matrice S_sec des coefficients fréquentiels dans la bande courante des n_sec sources secondaires. La forme de la matrice S_sec est similaire à la matrice S_princ, c'est à dire que les lignes sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à une source secondaire.Whatever the coding method that has been chosen for the secondary sources, if secondary source reconstruction data has been transmitted in the bit stream for the current band, the corresponding data are decoded to reconstruct the _dry matrix S of the frequency coefficients in the current band of the n _sec secondary sources. The shape of the _dry matrix S is similar to the matrix S _princ , that is, the lines are the frequency components in the current frequency band, and each column corresponds to a secondary source.

On peut ainsi construire la matrice complète S en 680, des coefficients fréquentiels de l'ensemble des n_tot=n_princ+n_sec sources nécessaires à la reconstruction du signal multicanal dans la bande considérée, obtenue en regroupant les deux matrices S_princ et S_supp suivant la relation S = (S_princ S_stupp ). S est donc une matrice de dimension n_bin x n_tot. Aussi, la forme est identique aux matrices S_princ et S_supp : les lignes sont les composantes fréquentielles dans la bande de fréquence courante, chaque colonne est une source, avec n_tot sources au totale.It is thus possible to construct the complete matrix S at 680, frequency coefficients of the set of n _tot = n _princ + n _sec sources necessary for the reconstruction of the multichannel signal in the band considered, obtained by combining the two matrices S _princ and S _supp according to the relation S = ( S _princ S _stupp ) . S is therefore a matrix of dimension n _bin xn _tot . Also, the form is identical to the matrices S _princ and S _supp : the lines are the frequency components in the current frequency band, each column is a source, with n _tot sources in total.

A partir de la matrice S des coefficients des sources et de la matrice Di des directivités associées les coefficients fréquentiels du signal multicanal reconstruit dans la bande sont calculés dans le module de spatialisation 630, selon la relation:

Y=SD^T, où Y est le signal reconstruit dans la bande. Les lignes de la matrice Y sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à un canal du signal multicanal à reconstruire.

From the matrix S of the coefficients of the sources and of the matrix Di of the associated directivities, the frequency coefficients of the multichannel signal reconstructed in the band are calculated in the spatialization module 630, according to the relation:

Y = SD ^T , where Y is the reconstructed signal in the band. The rows of the matrix Y are the frequency components in the current frequency band, and each column corresponds to a channel of the multichannel signal to be reconstructed.

En reproduisant le même traitement dans chacune des bandes fréquentielles, on reconstruit les transformées de Fourier complètes des canaux du signal à reconstruire pour la trame temporelle courante. Les signaux temporels correspondants sont alors obtenues par transformée de Fourier inverse T^-1, à l'aide d'un algorithme rapide mis en oeuvre par le module de transformée inverse 640.By reproducing the same processing in each of the frequency bands, the complete Fourier transforms of the signal channels to be reconstructed for the current time frame are reconstructed. The corresponding time signals are then obtained by inverse Fourier transform T ^-1 , using a fast algorithm implemented by the inverse transform module 640.

On obtient ainsi le signal multicanal S_m sur la trame temporelle courante. Les différentes trames temporelles sont ensuite combinées par méthode classique d'addition avec recouvrement (ou "overlap-add" en anglais) pour reconstruire le signal multicanal complet.This gives the multichannel signal S _m on the current time frame. The different time frames are then combined by conventional overlap-add (or overlap-add) method to reconstruct the complete multichannel signal.

De manière générale, des lissages temporels ou fréquentiels des paramètres pourront être utilisés aussi bien à l'analyse qu'à la synthèse pour assurer des transitions douces dans la scène sonore. Une signalisation de changement brutal de la scène sonore pourra être réservée dans le flux binaire pour éviter les lissages du décodeur dans le cas d'une détection d'un changement rapide de la composition de la scène sonore. D'autre part, des méthodes classiques d'adaptation de la résolution de l'analyse temps-fréquence peuvent être utilisées (changement de taille des fenêtres d'analyse et de synthèse au cours du temps).In general, temporal or frequency smoothing of the parameters can be used both for analysis and synthesis to ensure smooth transitions in the sound scene. A sign of sudden change of the sound stage may be reserved in the bit stream to avoid smoothing the decoder in the case of detection of a rapid change in the composition of the sound stage. On the other hand, conventional methods of adapting the resolution of the time-frequency analysis can be used (change in the size of the analysis and synthesis windows over time).

De la même manière qu'au codeur, un module de changement de base peut effectuer un pré-traitement pour obtenir une décomposition en ondes planes des signaux, un module de changement de base 670 effectue l'opération inverse P^-1 à partir des signaux en ondes planes pour retrouver le signal multicanal original.In the same way as the encoder, a base change module can perform a pre-processing to obtain a plane wave decomposition of the signals, a base change module 670 performs the inverse operation P ^-1 from the signals. in plane waves to find the original multichannel signal.

Les codeurs et décodeurs tels que décrit en référence aux figures 2 et 6 peuvent être intégrés à un équipement multimédia de type décodeur de salon, ordinateur ou encore équipement de communication tel qu'un téléphone mobile ou agenda électronique personnel.Encoders and decoders as described with reference to figures 2 and 6 can be integrated in a multimedia equipment type decoder lounge, computer or communication equipment such as a mobile phone or personal electronic diary.

La figure 7a représente un exemple d'un tel équipement multimédia ou dispositif de codage comportant un codeur selon l'invention. Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.The figure 7a represents an example of such a multimedia equipment or coding device comprising an encoder according to the invention. This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.

Le dispositif comporte un module d'entrée apte à recevoir un signal multicanal représentant une scène sonore, soit par un réseau de communication, soit par lecture d'un contenu stocké sur un support de stockage. Cet équipement multimédia peut également comporter des moyens de capture d'un tel signal multicanal.The device comprises an input module adapted to receive a multichannel signal representing a sound scene, either by a communication network, or by reading a content stored on a storage medium. This multimedia equipment may also include means for capturing such a multichannel signal.

Le bloc mémoire BM peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de décomposition du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence:

obtention de données représentatives de la direction des sources sonores de la scène sonore;
sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
adaptation des données représentatives de la direction des sources principales sélectionnées, en fonction de caractéristiques de restitution du signal multicanal;
détermination d'une matrice de mixage des sources principales en fonction des données adaptées;
matriçage des sources principales par la matrice déterminée pour obtenir un signal somme avec un nombre réduit de canaux:
codage des données représentatives de la direction des sources sonores et formation d'un flux binaire comportant les données codées, le flux binaire étant apte à être transmis parallèlement au signal somme.

The memory block BM may advantageously comprise a computer program comprising code instructions for implementing the steps of the coding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps of decomposition of the multichannel signal in frequency bands and the following steps per frequency band:

obtaining data representative of the direction of the sound sources of the sound scene;
selecting a set of sound sources of the sound scene constituting main sources;
adapting the data representative of the direction of the main sources selected, according to the multichannel signal reproduction characteristics;
determination of a mixing matrix of the main sources according to the adapted data;
mastering the main sources by the determined matrix to obtain a sum signal with a reduced number of channels:
coding of the data representative of the direction of the sound sources and formation of a bit stream comprising the coded data, the bit stream being able to be transmitted parallel to the sum signal.

Typiquement, la description de la figure 2 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement.Typically, the description of the figure 2 takes the steps of an algorithm of such a computer program. The computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.

Le dispositif comporte un module de sortie apte à transmettre un flux binaire Fb et un signal somme Ss issus du codage du signal multicanal.The device comprises an output module capable of transmitting a bit stream Fb and a sum signal Ss resulting from the coding of the multichannel signal.

De la même façon, la figure 7b illustre un exemple d'équipement multimédia ou dispositif de décodage comportant un décodeur selon l'invention.In the same way, figure 7b illustrates an example of multimedia equipment or decoding device comprising a decoder according to the invention.

Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.

Le dispositif comporte un module d'entrée apte à recevoir un flux binaire Fb et un signal somme S_s provenant par exemple d'un réseau de communication. Ces signaux d'entrée peuvent provenir d'une lecture sur un support de stockage.The device comprises an input module adapted to receive a bit stream Fb and a sum signal S _s coming for example from a communication network. These input signals can come from a reading on a storage medium.

Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes d'extraction dans le flux binaire et de décodage de données représentatives de la direction des sources sonores dans la scène sonore;

d'adaptation d'au moins une partie des données de direction en fonction de caractéristiques de restitution du signal multicanal;
de détermination d'une matrice de mixage du signal somme en fonction des données adaptées et de calcul d'une matrice de mixage inverse;
de dématriçage du signal somme par la matrice de mixage inverse pour obtenir un ensemble de sources principales;
de reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les données extraites décodées.

The memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the decoding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps of extraction in the bitstream and decoding of data representative of the direction of the sound sources in the sound scene;

adapting at least a portion of the direction data according to characteristics of rendering of the multichannel signal;
determining a mixing matrix of the sum signal according to the adapted data and calculating an inverse mixing matrix;
demapping the sum signal by the reverse mixing matrix to obtain a set of main sources;
for reconstructing the multichannel audio signal by spatializing at least the main sources with the decoded extracted data.

Typiquement, la description de la figure 6 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement.Typically, the description of the figure 6 takes the steps of an algorithm of such a computer program. The computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.

Le dispositif comporte un module de sortie apte à transmettre un signal multicanal décodé par le procédé de décodage mis en oeuvre par l'équipement.The device comprises an output module capable of transmitting a multichannel signal decoded by the decoding method implemented by the equipment.

Cet équipement multimédia peut également comporter des moyens de restitution de type haut-parleur ou des moyens de communication apte à transmettre ce signal multi-canal.This multimedia equipment may also include speaker-type reproduction means or communication means capable of transmitting this multi-channel signal.

Bien évidemment, un tel équipement multimédia peut comporter à la fois le codeur et le décodeur selon l'invention. Le signal d'entrée étant alors le signal multicanal original et le signal de sortie, le signal multicanal décodé.Obviously, such multimedia equipment may include both the encoder and the decoder according to the invention. The input signal then being the original multichannel signal and the output signal, the decoded multichannel signal.

Claims

Method for coding a multi-channel audio signal representing a sound scene comprising a plurality of sound sources, characterized in that it comprises a step (T) of decomposing the multi-channel signal into frequency bands and the following steps per frequency band:
- obtaining (OBT) of data representative of the direction of the sound sources of the sound scene;

- selection (Select) of a set of sound sources of the sound scene constituting principal sources;

- adaptation (DiA_M) of the data representative of the direction of the selected principal sources, as a function of restitution characteristics of the multi-channel signal, by modification of the position of the sources so as to obtain a minimum separation between two sources;

- determination (DiA_M) of a matrix for mixing the principal sources as a function of the adapted data;

- matrixing (M) of the principal sources by the matrix determined so as to obtain a sum signal with a reduced number of channels;

- coding (Cod.Di) of the data representative of the direction of the sound sources and formation of a binary stream comprising the coded data, the binary stream being able to be transmitted in parallel with the sum signal.
Method according to Claim 1, characterized in that the data representative of the direction are information regarding directivities representative of the distribution of the sound sources in the sound scene.
Method according to Claim 2, characterized in that the coding of the information regarding directivities is performed by a parametric representation procedure.
Method according to Claim 2, characterized in that the coding of the directivity information is performed by a principal component analysis procedure delivering base directivity vectors associated with gains allowing the reconstruction of the initial directivities.
Method according to Claim 2, characterized in that the coding of the directivity information is performed by a combination of a principal component analysis procedure and of a parametric representation procedure.
Method according to Claim 1, characterized in that it furthermore comprises the coding of secondary sources from among the unselected sources of the sound scene and insertion of coding information for the secondary sources into the binary stream.
Method for decoding a multi-channel audio signal representing a sound scene comprising a plurality of sound sources, with the help of a binary stream and of a sum signal, characterized in that it comprises the following steps:
- extraction (Decod. Fb) from the binary stream and decoding of data representative of the direction of the sound sources in the sound scene;

- adaptation (DiA_N) of at least some of the direction data as a function of restitution characteristics of the multi-channel signal, by modification of the position of the sources obtained by the direction data, so as to obtain a minimum separation between two sources;

- determination (DiA_N) of a matrix for mixing the sum signal as a function of the adapted data and calculation of an inverse mixing matrix;

- dematrixing (N) of the sum signal by the inverse mixing matrix so as to obtain a set of principal sources;

- reconstruction (SPAT.) of the multi-channel audio signal by spatialization at least of the principal sources with the decoded extracted data.
Decoding method according to Claim 7, characterized in that it furthermore comprises the following steps:
- extraction, from the binary stream, of coding information for coded secondary sources;

- decoding of the secondary sources with the help of the coding information extracted;

- grouping of the secondary sources with the principal sources for the spatialization.
Coder of a multi-channel audio signal representing a sound scene comprising a plurality of sound sources, characterized in that it comprises:
- a module (210) for decomposing the multi-channel signal into frequency bands;

- a module (220) for obtaining data representative of the direction of the sound sources of the sound scene;

- a module (260) for selecting a set of sound sources of the sound scene constituting principal sources;

- a module (275) for adapting the data representative of the direction of the selected principal sources, as a function of restitution characteristics of the multi-channel signal, by means for modifying the position of the sources so as to obtain a minimum separation between two sources;

- a module (275) for determining a matrix for mixing the principal sources as a function of the data arising from the adaptation module;

- a module (270) for matrixing the principal sources selected by the matrix determined so as to obtain a sum signal with a reduced number of channels;

- a module (230) for coding the data representative of the direction of the sound sources; and

- a module (250) for forming a binary stream comprising the coded data, the binary stream being able to be transmitted in parallel with the sum signal.
Decoder of a multi-channel audio signal representing a sound scene comprising a plurality of sound sources, receiving as input a binary stream and a sum signal, characterized in that it comprises:
- a module (650) for extracting and decoding data representative of the direction of the sound sources in the sound scene;

- a module (690) for adapting at least some of the direction data as a function of restitution characteristics of the multi-channel signal, by means for modifying the position of the sources obtained by the direction data, so as to obtain a minimum separation between two sources;

- a module (690) for determining a matrix for mixing the sum signal as a function of the data arising from the module for adapting and for calculating an inverse mixing matrix;

- a module (620) for dematrixing the sum signal by the inverse mixing matrix so as to obtain a set of principal sources;

- a module (630) for reconstructing the multi-channel audio signal by spatialization at least of the principal sources with the decoded extracted data.
Computer program comprising code instructions for the implementation of the steps of a coding method according to one of Claims 1 to 6 and/or of a decoding method according to either of Claims 7 and 8, when these instructions are executed by a processor.