EP2901717B2

EP2901717B2 - Procede et dispositif de generation de signaux audio destines a etre fournis a un systeme de restitution sonore

Info

Publication number: EP2901717B2
Application number: EP13779301.4A
Authority: EP
Inventors: Etienne Corteel; Khoa-Van NGUYEN
Original assignee: Sennheiser Electronic GmbH and Co KG
Current assignee: Sennheiser Electronic GmbH and Co KG
Priority date: 2012-09-27
Filing date: 2013-09-25
Publication date: 2019-12-25
Anticipated expiration: 2033-09-25
Also published as: EP2901717A1; EP2901717B1; FR2996095A1; WO2014049268A1; FR2996095B1

Description

Arrière-plan de l'invention

L'invention se rapporte au domaine général des traitements acoustiques.
Elle concerne plus particulièrement une technique de renforcement sonore.
De façon connue, les techniques de renforcement sonore sont couramment utilisées pour la sonorisation de salles étendues, telles que par exemple une salle de concert ou un auditorium, afin d'obtenir un signal restitué uniforme en niveau sonore sur l'ensemble de la salle.
Ces techniques doivent vérifier une double contrainte, à savoir assurer un niveau sonore suffisamment important pour les auditeurs situés au fond de la salle sans pour autant augmenter outre mesure ce niveau sonore, afin de limiter notamment la gêne des auditeurs situés à proximité de la scène ou des enceintes.
A cet effet, des systèmes connus de renforcement sonore s'appuient sur des systèmes de diffusion sonore Public Address (P.A.) permettant d'émettre vers des auditeurs placés au fond de la salle à distance de la scène, éventuellement combinés à des lignes de haut-parleurs de renfort ou de rappel (« front fill » en anglais) de faible puissance placées au bord de la scène et destinées aux auditeurs situés devant et dans l'axe de la scène.
Ces systèmes souffrent toutefois de divers inconvénients.
Ainsi, notamment, le placement des haut-parleurs sur la scène peut s'avérer problématique, en vue de respecter certaines contraintes pratiques et esthétiques (encombrement limité de la scène, rendu visuel pour l'auditeur, etc.).
Par ailleurs, ces systèmes n'offrent généralement pas la possibilité d'avoir une restitution sonore spatialisée des signaux dans la salle.
Il existe également dans l'état de la technique, des systèmes de renforcement sonore qui s'appuient sur des techniques holophoniques dites de synthèse de front d'ondes ou Wave Field Synthesis (WFS) en anglais, et offrent une restitution sonore spatialisée des signaux dans la salle.
Ces systèmes utilisent des lignes horizontales de haut-parleurs omnidirectionnels, placées sur la scène, qui permettent de restituer les objets sonores des signaux à diverses positions précises dans la salle (i.e. bonne localisation horizontale des objets sonores), de sorte à créer chez les auditeurs une perception d'enveloppement dans la scène sonore, ainsi qu'une cohérence entre les informations visuelles et auditives perçues par ces auditeurs, et une meilleure intelligibilité des objets sonores.
Un tel système est présenté par exemple dans le document EP2206365 ainsi que dans le document "Practical 3 dimensional sound reproduction using Wave Field Synthesis, theory and perceptual validation", ETIENNE CORTEEL, PROCEEDINGS OF THE ACOUSTICS 2012, 23 avril 2012 (2012-04-23), pages 901-906, XP055067658.
Cependant, si l'utilisation de tels systèmes pour le renforcement sonore permet une bonne localisation à la fois horizontale et verticale des objets sonores des signaux, elle se heurte toutefois à certaines limites.
En effet, l'atténuation du niveau sonore des signaux restitués en fonction de la distance à la scène est relativement rapide et nécessite donc une augmentation substantielle du niveau sonore restitué par la ligne de haut-parleurs, ce qui peut occasionner une gêne pour les auditeurs proches de la scène.
A titre d'exemple, la figure 1A illustre en trait plein les variations du niveau sonore exprimé en décibel, d'un signal restitué en utilisant une technique de type WFS par un ensemble de 16 haut-parleurs omnidirectionnels positionnés sur une scène, ces haut-parleurs ayant une sensibilité de 92 dB et étant alimentés par des amplificateurs de 250 W (watts).
En outre, un tel système requiert généralement l'utilisation d'un nombre important de haut-parleurs, ce qui peut s'avérer problématique pour des raisons pratiques et esthétiques, comme mentionné précédemment.
Une solution pour pallier en partie à ces inconvénients consiste à placer les lignes horizontales de haut-parleurs omnidirectionnels au-dessus de la scène.
Comme illustré en traits interrompus à la figure 1A pour une ligne de haut-parleurs constituée de 9 haut-parleurs placés à une hauteur de 6m de la scène (sensibilité de 97 dB et amplificateurs de 250 W), une telle solution permet de restituer un meilleur niveau sonore pour les auditeurs situés au fond de la salle tout en limitant le niveau sonore diffusé à proximité des auditeurs situés près de la scène.
Toutefois cette solution présente l'inconvénient d'une mauvaise perception par l'auditeur de la localisation verticale des objets sonores du signal restitué, notamment lorsque celui-ci se trouve à proximité de la scène.
La figure 1B illustre à titre d'exemple (sur la base d'hypothèses similaires à celles décrites précédemment pour la figure 1A) :

en trait plein, l'élévation (aussi appelée site) perçue en fonction de la distance par un auditeur pour une ligne de haut-parleurs omnidirectionnels placée au niveau de la scène ; et
en traits interrompus, l'élévation perçue en fonction de la distance par un auditeur pour une ligne de haut-parleurs omnidirectionnels placée à une hauteur de 6m par rapport au niveau de la scène.

Le document "The Influence of the Directional Radiation Performance of the Individual Speaker Module, and Overall Array, on the Tonal Balance, Quality and Consistency of Sound Reinforcement Systems", Mochimaru Akira et Al., 131 st AES Convention, 20.10.2011, XP040567544, propose d'augmenter la directivité avec la hauteur de la ligne de haut-parleurs. Toutefois, la méthode décrite ne s'applique pas aux techniques de restitution holophonique.
Il existe donc un besoin d'une technique et d'un dispositif de renforcement sonore ne présentant pas les divers inconvénients précités.

Objet et résumé de l'invention

L'invention répond notamment à ce besoin en proposant un procédé de génération, selon la revendication 1.
Corrélativement, l'invention vise également un dispositif de génération selon la revendication 11.
Autrement dit, l'invention propose, pour optimiser la restitution du signal audio d'entrée dans une salle ou dans une pièce, d'allier deux techniques avantageuses, à savoir :

une technique de renforcement sonore, s'appuyant sur un système de restitution composé de deux ensembles de haut-parleurs distincts, positionnés à des hauteurs différentes et ayant des directivités verticales différentes ; et
une technique de spatialisation sonore utilisée pour générer, à partir du signal audio d'entrée, les signaux audio destinés à alimenter ces deux ensembles de haut-parleurs.

L'invention s'applique ainsi de façon privilégiée mais non limitative à la restitution de signaux audio dans une salle de grandes dimensions, telle une salle de spectacle ou un auditorium doté(e) d'une scène.
Préférentiellement, pour optimiser la restitution du signal audio d'entrée, le premier ensemble de haut-parleurs est placé sur ou devant la scène de la salle, tandis que le deuxième ensemble de haut-parleurs est placé au-dessus de la scène (aligné verticalement ou légèrement décalé par rapport au premier ensemble de haut-parleurs).
Conformément à l'invention, les haut-parleurs de l'ensemble positionné le plus haut (deuxième ensemble) sont plus directifs (en moyenne) que les haut-parleurs de l'ensemble positionné le plus bas (premier ensemble).
Il est donc possible d'orienter verticalement le deuxième ensemble de haut-parleurs différemment du premier ensemble, de sorte que le son restitué par ces deux ensembles de haut-parleurs couvre la salle de façon uniforme en termes de niveau sonore.
Plus précisément, l'invention offre la possibilité à cet effet d'orienter verticalement les haut-parleurs du deuxième ensemble vers le fond de la salle, tandis que les haut-parleurs du premier ensemble peuvent être orientés vers la partie de la salle située à proximité la scène. Ainsi il est possible de diffuser le signal audio d'entrée avec un niveau sonore uniforme, y compris à une grande distance de la scène, sans augmenter de façon trop importante ce niveau sonore.
Autrement dit, la directivité verticale des haut-parleurs du deuxième ensemble et son positionnement en hauteur permet de limiter le niveau sonore restitué à proximité de la scène tout en garantissant un bon niveau sonore pour les auditeurs placés dans le fond de la salle.
Les haut-parleurs du deuxième ensemble joue donc un rôle de haut-parleurs de rappel pour la restitution du signal audio d'entrée.
En outre, la présence de haut-parleurs de rappel directifs au-dessus de la scène permet avantageusement de réduire la puissance des haut-parleurs utilisés pour le premier ensemble. De ce fait, on peut utiliser pour le premier ensemble des haut-parleurs moins encombrants du fait de leur puissance réduite ou en nombre plus limité. L'invention permet de s'affranchir plus aisément des contraintes pratiques et esthétiques liées au positionnement des haut-parleurs dans la salle pour restituer les signaux.
Par ailleurs, la limitation du niveau sonore restitué par le deuxième ensemble de haut-parleurs à proximité de la scène autorisée par l'invention permet de favoriser la localisation verticale des objets sonores du signal au niveau du premier ensemble de haut-parleurs, en bénéficiant d'un effet connu sous le nom « d'effet Haas ».
Cet effet Haas, qui concerne la perception des sons par le cerveau humain, est décrit notamment dans le document de J. Blauert intitulé « Spatial Hearing - Revised Edition : The Psychophysics of Human Sound Localization », MIT Press, Rev. Sub. Edition, 2 octobre 1996.
Selon cet effet, la localisation d'un objet sonore est donnée par la direction d'où provient le son qui arrive en premier à l'oreille (ou premier front d'onde), et ce même si l'intensité des sons arrivant dans un deuxième temps à l'oreille en provenance d'une autre direction, est supérieure à l'intensité du premier front d'onde. On parle « d'effet de précédence ». Cet effet n'est cependant pas absolu et fonctionne d'autant mieux que le niveau sonore des fronts d'onde suivants est faible.
De plus, l'utilisation de deux ensembles de haut-parleurs pour restituer le signal audio d'entrée et la directivité des haut-parleurs du deuxième ensemble combinée à l'utilisation d'une technique de spatialisation sonore sont pris en compte, conformément à l'invention, via l'application de retards et/ou de gains sur le signal audio d'entrée lors de la génération des signaux destinés à alimenter les premier et deuxième ensembles de haut-parleurs.
Ces retards et ces gains sont appliqués de façon indépendante pour chaque ensemble de haut-parleurs, de même qu'un espace de spatialisation sonore est envisagé pour chaque ensemble de haut-parleurs séparément.
Toutefois, les retards et les gains appliqués conformément à l'invention sont avantageusement choisis de sorte que la combinaison des premiers signaux restitués par le premier ensemble de haut-parleurs et des seconds signaux restitués par le deuxième ensemble de haut-parleurs vérifie un effet de restitution sonore déterminé à une position spatiale de référence définie dans la salle pour les premier et second ensembles de haut-parleurs.
Cet effet de restitution sonore déterminé est par exemple la cohérence (de phase) des signaux restitués par les premier et deuxième ensembles de haut-parleurs à la position spatiale de référence. A cette fin, les retards appliqués lors de la génération des premiers et des seconds signaux audio sont choisis de sorte que les premiers signaux restitués par le premier ensemble de haut-parleurs et les deuxièmes signaux restitués par le deuxième ensemble de haut-parleurs arrivent simultanément à la position spatiale de référence.
En variante, on peut choisir d'accentuer l'effet « Haas » naturel précédemment décrit, occasionné par le positionnement en hauteur et la directivité verticale du deuxième ensemble de haut-parleurs, en appliquant lors de la génération des premiers et des seconds signaux audio, des retards choisis de sorte que les deuxièmes signaux restitués par le deuxième ensemble de haut-parleurs arrivent avec un décalage prédéterminé à la position spatiale de référence par rapport aux premiers signaux restitués par le premier ensemble.
Ce décalage temporel entre les signaux est alors choisi suffisamment court pour pouvoir bénéficier de l'effet Haas (c'est-à-dire typiquement inférieur à 30-35 ms, par exemple de l'ordre de 15 à 20 ms), et ne pas générer une sensation d'échos pour les auditeurs de la salle.
Grâce à l'effet Haas ainsi accentué, un auditeur entendra en premier lieu les signaux restitués par les haut-parleurs du premier ensemble placé à la hauteur de référence (par exemple sur scène), ce qui permet d'améliorer davantage la localisation verticale des objets sonores perçue par l'auditeur.
En outre, l'accentuation de l'effet Haas par le biais du choix des retards appliqués aux premiers et aux deuxièmes signaux offre la possibilité de réduire davantage la puissance des haut-parleurs du premier ensemble, et de ce fait d'utiliser des haut-parleurs moins encombrants ou en un nombre encore plus limité.
Les gains, dans l'une ou l'autre des variantes envisagées pour le réglage des retards, sont choisis de sorte à garantir un niveau sonore suffisant en fond de salle tout en optimisant la localisation verticale à la position de référence.
L'invention permet donc d'une part d'améliorer la qualité de la restitution du signal par rapport à l'état de la technique, et de répondre plus efficacement aux contraintes esthétiques et pratiques imposées lors du positionnement des haut-parleurs dans la salle.
Dans un mode particulier de réalisation, au moins l'une des techniques de spatialisation sonore appliquées lors de la génération des premiers et des deuxièmes signaux audio est :

une technique holophonique de spatialisation sonore de type WFS, telle que par exemple la technique de spatialisation sonore décrite dans le document EP 2 206 365 , ou la technique décrite dans le document de E. Corteel intitulé « Equalization in an Extended Area using Multichannel Inversion and Wave Field Synthesis », J. Audio Eng. Soc. Vol. 54, n°12, décembre 2006 : une telle technique permet avantageusement d'envelopper les auditeurs de la salle dans la scène sonore et offrent une bonne qualité de restitution du signal audio ; ou
une technique de mixage matriciel dynamique. Cette technique peut prendre la forme par exemple d'un panoramique stéréophonique d'intensité sur les haut-parleurs, relativement facile à mettre en oeuvre, ou en variante d'un panoramique d'intensité de type VBAP (Vector Based Amplitude Panning) ou DBAP (Distance Based Amplitude Panning) connus en soi.

En variante, on peut bien entendu envisager d'autres techniques de spatialisation sonore.
Dans un mode particulier de réalisation, le signal audio d'entrée est un signal audio multicanal et, au cours d'au moins l'une des étapes de génération, le même retard et/ou le même gain est appliqué sur chaque canal du signal audio d'entrée.
Ce mode de réalisation facilite la mise en oeuvre de l'invention, notamment en limitant la complexité liée au choix des gains et/ou retards à appliquer.
Bien que préférentiellement au cours d'au moins l'une des étapes de génération, ledit au moins un retard et/ou gain est appliqué sur le signal d'entrée avant la technique de spatialisation sonore, il est également possible d'inverser ces deux traitements.
Dans ce cas, et lorsque le signal audio d'entrée est un signal multicanal comprenant un nombre de canaux inférieurs au nombre de haut-parleurs du premier et/ou du deuxième ensemble, on privilégiera l'application d'un même retard et/ou d'un même gain à tous les canaux du signal audio d'entrée (autrement dit, le retard et le gain appliqué au signal audio d'entrée est indépendant du canal et de la position des objets sonores du signal audio d'entrée).
Par ailleurs, lorsque l'application dudit au moins un gain et/ou retard est mise en oeuvre après la technique de spatialisation sonore, l'utilisation d'un gain et/ou d'un retard indépendants des canaux du signaux (et donc identiques pour tous les canaux) permet de préserver la répartition des gains et des retards affectée entre les haut-parleurs par la technique de spatialisation sonore.
Il convient de noter que lorsque les techniques de spatialisation sonores appliquées lors de la génération des premiers et des deuxièmes signaux d'alimentation des haut-parleurs sont linéaires (c'est le cas par exemple de techniques de type WFS ou plus généralement de techniques basées sur l'utilisation d'un filtrage linéaire) et que les gains et/ou retards appliqués au signal d'entrée sont indépendants des canaux de ce signal d'entrée, les premiers et les seconds signaux générés en appliquant d'abord les gains et les retards puis la technique de spatialisation sonore sont équivalents aux premiers et les seconds signaux générés en appliquant d'abord la technique de spatialisation sonore puis les gains et les retards.
Dans un autre mode de réalisation, on peut envisager qu'au cours d'au moins l'une des étapes de génération, un retard et/ou un gain distinct est appliqué sur au moins deux canaux distincts du signal audio d'entrée.
Dans un mode particulier de réalisation, le système de restitution sonore comprend en outre au moins un troisième ensemble de haut-parleurs positionnés à une hauteur supérieure à la hauteur de référence, et le procédé de génération comprend une étape de génération d'une pluralité de troisièmes signaux audio destinés à alimenter le troisième ensemble de haut-parleurs en appliquant au signal audio entrée :

au moins un retard et/ou un gain ; et
une technique de spatialisation sonore tenant compte de la position identifiée dudit au moins un objet sonore du signal audio d'entrée et d'une position des haut-parleurs du troisième ensemble ;

Ce mode de réalisation propose d'ajouter un ensemble de haut-parleurs de rappel supplémentaire pour améliorer le renforcement sonore de la salle.
Un tel mode de réalisation peut s'avérer très pertinent pour des salles de très grandes dimensions ou disposant d'éléments masquant acoustiquement les signaux restitués par les haut-parleurs (ex. présence de balcons dans une salle de concert).
On notera que l'invention ne se limite pas à un système comprenant trois ensembles de haut-parleurs mais on peut également ajouter un quatrième, un cinquième, etc., ensemble de haut-parleurs, le choix des retards et/ou des gains appliqués lors de la génération des signaux destinés à alimenter ces ensembles de haut-parleurs étant préférentiellement effectué en considérant les ensembles de haut-parleurs deux à deux (ex. deuxième et troisième ensembles, troisième et quatrième ensembles, etc.).
Dans un autre mode de réalisation, on peut envisager d'ajouter également au système de restitution un autre ensemble de haut-parleurs de type caissons de grave (ou « subwoofers » en anglais), pour ajouter un effet supplémentaire lors de la restitution sonore du signal audio d'entrée. De façon similaire, dans ce mode de réalisation, le procédé de génération comprend une étape de génération d'une pluralité de signaux audio destinés à alimenter l'ensemble de haut-parleurs de type caissons de grave en appliquant au signal audio entrée :

au moins un retard et/ou un gain ; et
un filtrage de type passe-bas ;

Dans un mode particulier de réalisation, les différentes étapes du procédé de génération selon l'invention sont déterminées par des instructions de programmes d'ordinateurs.
En conséquence, l'invention vise aussi un programme sur un support d'informations, ce programme étant susceptible d'être mis en oeuvre dans un dispositif de génération ou plus généralement dans un ordinateur, ce programme comportant des instructions adaptées à la mise en oeuvre des étapes d'un procédé de génération tel que décrit ci-dessus.
Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
L'invention vise aussi un support d'informations lisible par un ordinateur ou par un microprocesseur, et comportant des instructions d'un programme tel que mentionné ci-dessus.
Le support d'informations peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy disc) ou un disque dur.
D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.
L'invention vise également un ensemble de restitution d'un signal audio d'entrée comprenant :

un système de restitution sonore comprenant un premier ensemble de haut-parleurs positionnés à une hauteur de référence, et un deuxième ensemble de haut-parleurs positionnés à une hauteur supérieure à la hauteur de référence, les haut-parleurs du deuxième ensemble étant plus directifs verticalement que les haut-parleurs du premier ensemble ; et
un dispositif de génération de signaux audio selon l'invention pour alimenter les haut-parleurs du premier ensemble et les haut-parleurs du deuxième ensemble du système de restitution sonore.

L'ensemble de restitution bénéficie des mêmes avantages que ceux cités précédemment pour le dispositif et le procédé de génération.
On peut également envisager, dans d'autres modes de réalisation, que le procédé de génération, le dispositif de génération et l'ensemble de restitution selon l'invention présentent en combinaison tout ou partie des caractéristiques précitées.

Brève description des dessins

D'autres caractéristiques et avantages de la présente invention ressortiront de la description faite ci-dessous, en référence aux dessins annexés qui en illustrent des exemples de réalisation dépourvus de tout caractère limitatif. Sur les figures :

les figures 1A et 1B, déjà décrites, illustrent respectivement des inconvénients des systèmes de renforcement sonore de l'état de la technique ;
la figure 2 représente, de façon schématique, un ensemble de restitution et un dispositif de génération conformes à l'invention, dans un premier mode de réalisation ;
la figure 3 illustre un exemple de positionnement des deux ensembles de haut-parleurs de l'ensemble de restitution de la figure 2 dans une salle ;
la figure 4 illustre, de façon schématique, l'architecture matérielle du dispositif de génération de la figure 2, dans le premier mode de réalisation ;
la figure 5 représente, sous forme d'ordinogramme, les principales étapes d'un procédé de génération selon l'invention telles qu'elles sont mises en oeuvre dans le premier mode de réalisation, par le dispositif de génération de la figure 2 ;
la figure 6 représente les variations du temps de propagation des signaux émis par des haut-parleurs omnidirectionnels situés sur et au-dessus de la scène, en fonction de la distance d'un auditeur par rapport à la scène ;
la figure 7 illustre divers avantages procurés par l'invention, en termes de variations du niveau sonore des signaux en fonction de la distance d'un auditeur par rapport à la scène ;
la figure 8 représente, de façon schématique, un ensemble de restitution et un dispositif de génération conformes à l'invention, dans un second mode de réalisation ;
la figure 9 illustre un exemple de positionnement des trois ensembles de haut-parleurs de l'ensemble de restitution de la figure 8 dans une salle ; et
la figure 10 représente, sous forme d'ordinogramme, les principales étapes d'un procédé de génération selon l'invention telles qu'elles sont mises en oeuvre dans le second mode de réalisation, par le dispositif de génération de la figure 8.

Description détaillée de l'invention

La figure 2 représente, dans son environnement, un ensemble 1 de restitution sonore d'un signal audio d'entrée S, conforme à l'invention, dans un premier mode de réalisation.
Dans l'exemple envisagé ici, on suppose à titre illustratif que le signal audio S est un signal multicanal résultant d'une capture (i.e. d'un enregistrement) sonore d'un signal joué sur une scène SCENE d'une salle de spectacle R, réalisée par des microphones placés sur la scène SCENE ou répartis à divers endroits de cette salle, de façon connue en soi.
Cette hypothèse n'est cependant pas limitative, le signal audio S pouvant être en variante un signal audio préenregistré ou comportant des éléments préenregistrés.
On suppose par ailleurs que le signal audio S est destiné à être restitué dans la salle de spectacle en utilisant l'ensemble 1 de restitution sonore conforme à l'invention.
Aucune limitation n'est attachée à proprement parler au format du signal S : ainsi, il peut s'agir aussi bien d'un signal composé de prises individuelles (ex. pour une salle de spectacle, provenant d'un microphone par musicien, chanteur ou acteur pour une prise de son en direct), d'un signal stéréo, que d'un signal au format 5.1, 7.1, ou 10.2, ou encore d'un signal dans un format HOA (Higher Order Ambisonics), etc., ou enfin d'une combinaison de ces techniques.
Conformément à l'invention, l'ensemble 1 de restitution sonore utilisé pour la restitution du signal audio S comprend :

un système 2 de restitution sonore comprenant une pluralité de haut-parleurs ; et
un dispositif 3 de génération de signaux audio destinés à alimenter les haut-parleurs du système 2 de restitution sonore.

Plus précisément, dans le premier mode de réalisation illustré à la figure 2, le système 2 de restitution sonore comprend :

un premier ensemble E1 de P haut-parleurs, notés HP1-1, HP1-2, ..., HP1-P, P étant un entier positif supérieur à 1 ; et
un deuxième ensemble E2 de N haut-parleurs, notés HP2-1, HP2-2, ..., HP2-N, N étant un entier positif supérieur à 1.

Les nombres entiers P et N peuvent être égaux ou distincts.
Comme illustré à la figure 3 , les haut-parleurs HP1-1, HP1-2, ..., HP1-P du premier ensemble E1 sont positionnés à une hauteur h1 dite de référence.
Plus précisément, dans l'exemple de la figure 2, les haut-parleurs HP1-1, HP1-2, ..., HP1-P du premier ensemble E1 sont arrangés de sorte à former une ligne horizontale de haut-parleurs positionnés sur la scène SCENE de la salle de spectacle R. La hauteur de référence h1 correspondant donc ici à la hauteur de la scène SCENE.
Conformément à l'invention, les haut-parleurs HP2-1, HP2-2, ..., HP2-N du deuxième ensemble E2 sont positionnés à une hauteur h2 supérieure à la position de référence h1. Dans l'exemple de la figure 2, ils sont arrangés de sorte à former une ligne horizontale de haut-parleurs positionnée à la hauteur h2.
Il convient de noter que les haut-parleurs du deuxième ensemble E2 ne sont pas nécessairement alignés verticalement avec (i.e. dans le même plan vertical que) les haut-parleurs du premier ensemble E1, par rapport à la scène SCENE. Ils peuvent être notamment décalés par rapport aux haut-parleurs du premier ensemble E1 en direction de la partie AUDIT de la salle de spectacle R où se trouve l'auditoire.
Par ailleurs, aucune limitation n'est attachée à proprement parler à l'arrangement des haut-parleurs au sein du premier ensemble E1 et du deuxième ensemble E2. L'invention s'applique ainsi également à d'autres configurations de haut-parleurs, telles que par exemple à des matrices de haut-parleurs, ou à des configurations distinctes d'une configuration linéaire, comme par exemple à une configuration adaptée à la forme de la scène (ex. en arc de cercle).
De même, le positionnement des haut-parleurs de chaque ensemble, les uns par rapport aux autres, peut être divers et varié : on pourra ainsi envisager des haut-parleurs répartis uniformément au sein de l'ensemble de haut-parleurs, ou répartis selon plusieurs groupes placés aux extrémités et au centre optique de la scène, etc.
Plusieurs exemples d'arrangement de haut-parleurs seront décrits ultérieurement pour illustrer l'invention.
On notera que l'invention offre avantageusement la possibilité d'avoir un nombre N de haut-parleurs du deuxième ensemble E2 plus petit que le nombre P de haut-parleurs du premier ensemble E1.
En effet, de façon connue en soi, l'utilisation d'ensembles de haut-parleurs de taille finie induit un phénomène de repliement (« aliasing » en anglais) de spectre spatial. Ce phénomène se produit à partir d'une fréquence de repliement ou fréquence « d'aliasing » qui, comme mentionné dans le document EP 2 206 365 , augmente en fonction de la distance de l'auditeur par rapport à la scène.
Le nombre de haut-parleurs nécessaires pour chaque ensemble de haut-parleurs peut donc être déterminé en fixant la fréquence d'aliasing désirée et la position d'un auditeur de référence dans la salle par rapport à la scène. Les haut-parleurs du deuxième ensemble E2 étant plus éloignés de l'auditeur de référence que les haut-parleurs du premier ensemble E1, du fait de leur positionnement en hauteur, il est possible par ce biais de fixer un nombre plus limité de haut-parleurs pour l'ensemble E2 que pour l'ensemble E1.
Conformément à l'invention, les haut-parleurs HP2-1, HP2-2, ..., HP2-N du deuxième ensemble E2 sont plus directifs verticalement que les haut-parleurs HP1-1, HP1-2, ..., HP1-N du premier ensemble E1.
Au sens de l'invention, on entend par « les haut-parleurs HP2-1, HP2-2, ..., HP2-N du deuxième ensemble E2 sont plus directifs verticalement que les haut-parleurs HP1-1, HP1-2, ..., HP1-N du premier ensemble E1 » que la directivité moyenne des haut-parleurs du deuxième ensemble est plus grande que la directivité moyenne des haut-parleurs du premier ensemble.
Ainsi, à titre illustratif, on peut utiliser pour le premier ensemble E1 des haut-parleurs omnidirectionnels, tandis que les haut-parleurs du deuxième ensemble E2 sont choisis avec une ouverture verticale comprise entre 10° et 60°.
Comme mentionné précédemment, les haut-parleurs HP2-1, HP2-2, ..., HP2-N du deuxième ensemble E2 sont essentiellement destinés à assurer la couverture sonore de la partie de la salle de spectacle, ou tout du moins de l'auditoire, la plus éloignée de la scène. A cette fin, ils sont orientés verticalement vers l'extrémité EXT de l'auditoire (qui correspond sur la figure 3 au fond de la salle de spectacle par souci de simplification).
Au contraire, les haut-parleurs HP1-1, HP1-2, ..., HP1-P du premier ensemble E1 sont essentiellement destinés à assurer la couverture sonore de la partie de la salle de spectacle, ou tout du moins de l'auditoire, placée à proximité de la scène. A cette fin, ils sont donc montés sur la scène ou juste devant la scène.
Ils peuvent être indifféremment omnidirectionnels ou directifs verticalement. Lorsque les haut-parleurs du premier ensemble E1 sont directifs verticalement, ils sont orientés vers l'avant de la partie AUDIT de la salle, c'est-à-dire, vers la partie située à proximité de la scène.
Les différents haut-parleurs des ensembles E1 et E2 sont alimentés par des signaux audio multicanaux, notés respectivement S1-1, S1-2,..., S1-P et S2-1, S2-2, ..., S2-N, générés conformément à l'invention par le dispositif 3 de génération à partir du signal audio d'entrée S.
Pour générer ces signaux, dans le premier mode de réalisation décrit ici, le dispositif 3 de génération s'appuie sur différents modules logiciels, à savoir :

un module 3A, apte à identifier les positions des différents objets OBJ (ou sources) sonores compris dans le signal d'entrée S ;
des modules 3B1 et 3B2 aptes à appliquer indépendamment sur le signal d'entrée S, un retard T1 et un gain G1, et un retard T2 et un gain G2 respectivement. Les retards T1 et T2 peuvent être positifs, négatifs ou nuls, et les gains G1 et G2 peuvent être inférieurs, supérieurs ou égaux à 1 ; et
des modules 3C1 et 3C2 aptes à appliquer indépendamment sur les signaux issus respectivement des modules 3B1 et 3B2, des techniques de spatialisation sonore notées respectivement T1 et T2.

Les caractéristiques de ces modules seront décrites plus en détail ultérieurement.
Le dispositif 3 de génération dispose ici de l'architecture matérielle d'un ordinateur, telle qu'illustrée schématiquement à la figure 4 .
Il comporte notamment un processeur (ou micro-processeur) 4, une mémoire vive 5, une mémoire morte 6, une mémoire flash non volatile 7 ainsi que des moyens de communication 8 aptes à émettre et à recevoir des signaux audio.
Les moyens de communication 8 comprennent d'une part, des moyens de réception du signal audio d'entrée S, et d'autre part, une interface (filaire ou sans fil) avec les haut-parleurs HP1-1, HP1-2, ..., HP1-P de l'ensemble E1 et avec les haut-parleurs HP2-1, HP2-2, ..., HP2-N de l'ensemble E2 pour leur fournir les signaux audio S1-1, S1-2,..., S1-P et S2-1, S2-2, ..., S2-N. Ces moyens sont connus de l'homme du métier et ne seront pas décrits davantage ici.
La mémoire morte 6 du dispositif 3 de génération constitue un support d'enregistrement conforme à l'invention, lisible par le (micro-)processeur 4 et sur lequel est enregistré un programme d'ordinateur conforme à l'invention, comportant des instructions pour l'exécution des étapes d'un procédé de génération décrites ultérieurement en référence à la figure 5.
Il convient de noter qu'aucune limitation n'est attachée à la nature à proprement parler du dispositif 3 de génération.
Ainsi, notamment, le dispositif 3 de génération peut se présenter sous la forme d'un ordinateur comme illustré à la figure 4, ou en variante d'une puce électronique ou d'un circuit intégré, dans lequel le programme d'ordinateur comprenant les instructions pour l'exécution du procédé de génération selon l'invention est incorporé.
De façon similaire, les modules 3A, 3B1, 3B2, 3C1 et 3C2 sur lesquels s'appuient le dispositif 3 de génération peuvent être en variante des modules DSP (Digital Signal Processor) ou FPGA (Field Programmable Gate Array).
Nous allons maintenant décrire, en référence à la figure 5 , les principales étapes d'un procédé de génération selon l'invention, telles qu'elles sont mises en oeuvre, dans le premier mode de réalisation, par le dispositif 3 de génération, sur réception du signal audio d'entrée S, pour générer et fournir les signaux S1-1, S1-2,..., S1-P et S2-1, S2-2, ..., S2-N aux ensembles E1 et E2 de haut-parleurs respectivement.
On suppose donc ici que le dispositif 3 de génération reçoit le signal audio d'entrée multicanal S via ses moyens de communication 8 (étape E10). Comme mentionné précédemment, aucune limitation n'est attachée à la façon dont le signal audio S est généré ni à son format à proprement parler.
Dans le premier mode de réalisation décrit ici, on suppose par ailleurs qu'on fournit au dispositif 3 de génération, par l'intermédiaire d'une interface adaptée, les positions POS(OBJ) des objets sonores OBJ compris dans le signal S et que l'on souhaite restituer. Ces positions sont identifiées dans un plan horizontal, à savoir dans le plan horizontal dans lequel se situent les haut-parleurs du premier ensemble (c'est-à-dire le plan de la scène SCENE ici, S étant obtenu par capture des signaux joués sur la scène S), en termes d'angle et de distance par rapport à un point d'origine déterminé et prédéfini.
Cette interface est par exemple une interface graphique développée à cet effet permettant à un utilisateur d'interagir avec le dispositif 3, ou une interface de communication développée avec une table de mixage opérant sur le signal S.
L'obtention de ces positions par le dispositif 3 de génération constitue une étape d'identification (étape E20) de la position d'au moins un objet sonore du signal audio d'entrée S au sens de l'invention.
Dans un autre mode de réalisation, les positions POS(OBJ) des objets sonores OBJ sont identifiées directement par le dispositif 3 de génération et plus spécifiquement par le module 3A.
A cette fin, le module 3A peut utiliser un dispositif de suivi de position (ou « tracking » en anglais) des objets sonores présents sur la scène, connu en soi, et fonctionnant à l'aide de signaux optiques et/ou électromagnétiques, et/ou acoustiques, etc.
Dans un autre mode de réalisation encore, pour déterminer la position des objets sonores du signal S, le module 3A du dispositif 3 de génération met en oeuvre une méthode d'analyse spatiale connue en soi, basée sur une décomposition du signal S en sous-bandes fréquentielles.
Diverses méthodes d'analyse spatiale peuvent être utilisées par le module 3A.
Ainsi par exemple, le module 3A peut utiliser une méthode d'analyse spatiale basée sur l'évaluation de corrélations et de différences de niveaux entre les canaux du signal audio S.
En variante, le module 3A peut utiliser une méthode d'analyse spatiale basée sur la détermination d'un vecteur de Gerzon représentatif du signal audio d'entrée S, telle que décrite dans le document US 2007/0269063 . Le vecteur de Gerzon d'un signal audio multicanal reflète en effet de façon connue la localisation spatiale du signal audio multicanal telle qu'elle est perçue par l'auditeur depuis une position déterminée.
Selon une autre variante, le module 3A peut mettre en oeuvre une décomposition spatiale du signal multicanal en harmoniques sphériques, telle que décrite dans le document WO 2012/025580 . Cette décomposition permet une analyse spatiale très précise du signal audio multicanal et des objets sonores le composant. Ainsi, notamment, plusieurs objets sonores peuvent être identifiés pour une même sous-bande fréquentielle.
Conformément à l'invention, deux types de traitement sont par ailleurs appliqués par le dispositif 3 de génération au signal audio d'entrée S pour générer les signaux destinés à alimenter les deux ensembles E1 et E2 de haut-parleurs.
Ces traitements sont appliqués indépendamment pour chaque ensemble de haut-parleurs, via deux chaînes de traitement du signal distinctes comprenant pour l'une le module 3B1 et le module 3C1, et pour l'autre le module 3B2 et le module 3C2. Ces deux chaînes de traitement opèrent préférentiellement simultanément.
Ainsi, plus précisément, dans le premier mode de réalisation décrit ici, le module 3B1 applique tout d'abord au signal d'entrée S, le retard T1 et le gain G1 mentionnés précédemment (étape E30). Ce retard T1 et ce gain G1 ont été choisis et fournis au module 3B1 au cours d'une étape de configuration ou de calibrage préliminaire (étape E_CALIB) décrite ultérieurement.
Par souci de simplification, on suppose ici que le même gain G1 et le même retard T1 sont appliqués par le module 3B1 à l'ensemble des canaux du signal d'entrée S.
Cette hypothèse n'est toutefois pas limitative et dans un autre mode de réalisation, on peut envisager d'appliquer un gain et un retard distincts aux différents canaux constituant le signal d'entrée S.
Le signal S1 résultant de l'application du retard T1 et du gain G1 sur le signal S est ensuite fourni par le module 3B1 au module 3C1.
Le module 3C1 applique au signal S1 la technique de spatialisation sonore T1, et génère ainsi la pluralité de signaux S1-1, S1-2,..., S1-P (étape E40).
La technique T1 est par exemple une technique holophonique de type synthèse de front d'ondes, aussi connue sous l'appellation de technique WFS (Wave Field Synthesis en anglais), telle que décrite dans le document EP 2 206 365 ou dans le document d'E. Corteel cité précédemment.
Elle prend en compte d'une part, les positions POS(OBJ) des objets sonores identifiées et fournies par le module 3A, et d'autre part, la position des haut-parleurs HP1-1, HP1-2, ..., HP1-P de l'ensemble E1, pour créer des sources virtuelles à partir des haut-parleurs HP1-1, HP1-2, ..., HP1-P de l'ensemble E1 aux positions POS(OBJ).
On suppose dans le premier mode de réalisation décrit ici, que la position des haut-parleurs HP1-1, HP1-2, ..., HP1-P de l'ensemble E1 utilisée par le module 3C1 pour appliquer la technique de spatialisation sonore T1 a été fournie au dispositif 3 de génération lors de l'étape préliminaire E_CALIB, par exemple par un installateur de l'ensemble 1 de restitution, via une interface utilisateur adaptée.
En variante, la position des haut-parleurs HP1-1, HP1-2, ..., HP1-P de l'ensemble E1 peut être déterminée par le dispositif 3 de génération lui-même, de façon automatique ou semi-automatique, à l'aide par exemple d'un dispositif de suivi de position tel que décrit précédemment.
Les signaux S1-1, S1-2,..., S1-P générés par le module 3C1 sont ensuite fournis aux haut-parleurs HP1-1, HP1-2, ..., HP1-P de l'ensemble E1 (étape E50) pour être restitués.
Parallèlement, et de façon similaire, le module 3B2 applique au signal d'entrée S, le retard T2 et le gain G2 mentionnés précédemment (étape E60), déterminés et fournis au module 3B2 au cours de l'étape de configuration E_CALIB également.
Le même gain G2 et le même retard T2 sont appliqués ici à l'ensemble des canaux du signal d'entrée SIG.
Le signal S2 résultant de cette opération est fourni par le module 3B2 au module 3C2.
Ce dernier applique au signal S2 la technique de spatialisation sonore T2, et génère ainsi la pluralité de signaux S2-1, S2-2,..., S2-N (étape E70).
La technique T2 est par exemple également une technique holophonique de type WFS telle que décrite dans le document EP 2 206 365 . Elle prend en compte d'une part, les positions POS(OBJ) des objets sonores identifiées et fournies par le module 3A, et d'autre part, la position des haut-parleurs HP2-1, HP2-2, ..., HP2-N de l'ensemble E2, pour créer des sources virtuelles à partir des haut-parleurs HP2-1, HP2-2, ..., HP2-N de l'ensemble E2 aux positions POS(OBJ).
Par ailleurs, on peut envisager également que les modules 3C1 et 3C2 appliquent des techniques de spatialisation sonore T1 et T2 distinctes aux signaux S1 et S2 pour générer les signaux destinés à alimenter les deux ensembles E1 et E2 de haut-parleurs.
La position des haut-parleurs HP2-1, HP2-2, ..., HP2-N de l'ensemble E2 a, dans le premier mode de réalisation décrit ici, été fournie au dispositif 3 de génération également lors de l'étape de configuration préliminaire E_CALIB, par l'installateur de l'ensemble 1 de restitution via l'interface utilisateur précitée.
Les signaux S2-1, S2-2,..., S2-N générés par le module 3C2 sont fournis aux haut-parleurs HP2-1, HP2-2, ..., HP2-N de l'ensemble E2 (étape E80), pour être restitués.
Conformément à l'invention, les retards et les gains (T1,G1) et (T2,G2), appliqués au signal audio d'entrée S par les modules 3B1 et 3B2 pour générer respectivement les signaux S1-1, S1-2,..., S1-P et S2-1, S2-2,..., S2-N, ont été choisis, lors de l'étape préliminaire de configuration E_CALIB, de sorte à garantir que la combinaison, à une position de référence Pref(E1,E2) définie pour les ensembles de haut-parleurs E1 et E2, des signaux restitués par le premier ensemble E1 des haut-parleurs alimentés par les signaux S1-1, S1-2,..., S1-P, et des signaux restitués par le deuxième ensemble E2 de haut-parleurs alimentés par les signaux S2-1, S2-2,..., S2-N, vérifie un effet de restitution sonore déterminé (autrement dit, souhaité, choisi).
Ceci permet avantageusement de tenir compte de la directivité verticale des haut-parleurs du deuxième ensemble E2, et de s'assurer que la combinaison des signaux à la position spatiale de référence choisie est harmonieuse pour l'auditeur (pas de cacophonie ou d'écho non souhaité).
Par position spatiale de référence, on entend ici aussi bien un point de l'espace caractérisant la position d'un auditeur cible dans la salle, qu'une zone plus étendue de l'espace dans laquelle est (sont) susceptible(s) de se trouver un ou plusieurs auditeurs.
Le choix de la position de référence Pref(E1,E2) dépend bien entendu de plusieurs critères, comme notamment de la profondeur de la salle dans laquelle le signal audio S est restitué. Elle est choisie préférentiellement aux alentours du milieu de la salle, légèrement décalée en direction de la scène.
La figure 3 illustre un exemple du choix de la position de référence Pref(E1,E2) pour la salle R.
D'autres critères peuvent être pris en compte pour le choix de la position spatiale de référence Pref(E1,E2), comme par exemple :

la position Pref(E1,E2) peut être choisie de sorte à garantir que la position verticale du deuxième ensemble E2 de haut-parleurs perçue à cette position Pref(E1,E2), soit approximativement égale à un angle (par exemple 45°), sélectionné afin de limiter l'erreur de perception verticale ;
la position Pref(E1,E2) peut coïncider avec la position spatiale à laquelle le niveau sonore « naturellement » restitué (c'est-à-dire sans appliquer de gains aux signaux) par chaque ensemble de haut-parleurs E1 et E2 est similaire ;
la position Pref(E1,E2) peut également dépendre de la configuration de la salle, et notamment de l'implantation le cas échéant des sièges destinés aux auditeurs dans la salle (ex. existence de couloirs dans la salle, etc.).

Il convient de noter que dans le premier mode de réalisation décrit ici, on se limite à prendre en compte une seule position de référence dans la salle pour choisir les retards et/ou les gains appliqués sur le signal d'entrée S. Toutefois en variante, on pourrait envisager de prendre en compte plusieurs positions de référence réparties sur une zone spécifique de la salle.
Comme mentionné précédemment, les retards et les gains appliqués au signal d'entrée dépendent de l'effet de restitution sonore que l'on souhaite obtenir à la position de référence Pref(E1,E2) pour la combinaison des signaux restitués par le premier ensemble E1 et par le deuxième ensemble E2.
Ainsi, par exemple, l'effet de restitution sonore désiré peut être l'arrivée en cohérence de phase, à la position spatiale de référence Pref(E1,E2), des signaux restitués par le premier ensemble E1 et des signaux restitués par le deuxième ensemble E2. Cette cohérence de phase est assurée lorsque les signaux restitués par le premier ensemble E1 et les signaux restitués par le deuxième ensemble E2 arrivent simultanément à la position de référence Pref(E1,E2) avec un niveau sonore similaire.
Selon un autre exemple, on peut au contraire choisir de décaler dans le temps l'arrivée des signaux restitués par le deuxième ensemble E2 par rapport à l'arrivée des signaux restitués par le premier ensemble E1 de sorte à bénéficier de l'effet Haas décrit précédemment (ou plus précisément à accentuer l'effet Haas naturel dont bénéficie déjà le système 2 de restitution à proximité de la scène).
A titre illustratif, la figure 6 représente les variations du temps de propagation des signaux diffusés par des haut-parleurs omnidirectionnels (le temps de propagation étant indépendant de la directivité verticale des haut-parleurs), en fonction de la distance à la scène, pour un ensemble de haut-parleurs positionné au niveau de la scène (courbe en trait plein) et à 6.0 m au-dessus de la scène (courbe en traits interrompus).
Cette figure illustre l'effet Haas naturel, décrit précédemment, dont bénéficie le système 2 de restitution à proximité de la scène (décalage des temps de propagation à proximité de la scène).
Pour maintenir cet effet sur une distance à la scène plus importante, et permettre une bonne localisation verticale des objets sonores sur le premier ensemble de haut-parleurs, on peut, à la lumière de la figure 6, tenter de « relever » la courbe en traits interrompus de sorte à l'éloigner de la courbe en trait plein, en retardant les deuxièmes signaux par rapport aux premiers signaux à la position de référence.
Les gains G1 et G2 sont quant à eux choisis de sorte à garantir un niveau sonore suffisant au fond de la salle, tout en optimisant la localisation verticale des objets sonores restitués à la position de référence.
Comme décrit précédemment, les retards et les gains (T1,G1) et (T2,G2) permettant d'obtenir un tel effet de restitution sonore souhaité à la position de référence Pref(E1,E2), sont choisis (i.e. réglés) au cours de l'étape de configuration E_CALIB. Ce choix ou réglage peut être réalisé de façon manuelle (par exemple expérimentalement, à l'aide de mesures physiques de niveau sonore) ou automatique via des simulations numériques.
Ainsi, dans le premier mode de réalisation décrit ici, l'étape de configuration E_CALIB comprend une première phase au cours de laquelle on réalise des mesures physiques, à la position de référence Pref(E1,E2), d'une part, du niveau sonore « naturellement » restitué par l'ensemble E1 (i.e. ceci revient à appliquer un gain T1 nul, un retard G1=1, et un gain G2 nul), et d'autre part, du niveau sonore « naturellement » restitué par l'ensemble E2 (i.e. ceci revient à appliquer un gain T2 nul, un retard G2=1, et un gain G1 nul).
A partir de ces mesures physiques, on détermine et on règle de façon empirique, lors d'une deuxième phase, les retards T1 et T2, et les gains G1 et G2, à appliquer sur le signal audio d'entrée S pour obtenir l'effet de restitution sonore désiré. Ces retards T1 et T2, et ces gains G1 et G2 peuvent faire l'objet de plusieurs tests, et être ajustés à chaque test, par tâtonnement.
En variante, cette deuxième phase de réglage peut être réalisée par simulation.
L'étape E_CALIB peut en outre comporter une phase ultime d'ajustement plus précis des retards et des gains déterminés lors de la deuxième phase, en utilisant des signaux connus, via de nouvelles mesures physiques et/ou par simulation numérique.
On notera qu'au cours de l'étape E_CALIB, le réglage des retards et des gains peut s'effectuer soit de façon globale, soit de façon indépendante sur chaque bande de fréquences d'un ensemble de bandes de fréquences prédéfini. Dans ce cas, on détermine un gain et un retard par bande de fréquences étudiée. Ceci permet avantageusement de prendre en compte la dépendance en fréquence de la directivité des haut-parleurs du deuxième ensemble E2.
La figure 7 illustre divers avantages procurés par l'ensemble 1 de restitution, en termes de variations du niveau sonore en fonction de la distance de l'auditeur par rapport à la scène. Dans l'exemple de la figure 7, les haut-parleurs de l'ensemble E2 sont des haut-parleurs directifs verticalement disposant d'une ouverture verticale de 90°.
Plus spécifiquement, la figure 7 montre que grâce à l'utilisation de haut-parleurs directifs pour l'ensemble E2, le niveau sonore du signal restitué par l'ensemble E2 perçu à proximité de la scène est moins important (cf. courbe en traits interrompus).
Par ailleurs, on s'assure un niveau sonore quasi-uniforme jusqu'au fond de la salle.
En outre, la différence de niveaux sonores entre les signaux restitués par l'ensemble E1 (représenté par la courbe en trait continu) et les signaux restitués par l'ensemble E2 est quasiment constante pour des distances à la scène supérieures à 8 m (mise en cohérence des niveaux sonores atteinte par l'invention), de sorte qu'il est possible par un choix approprié des retards T1 et T2 de bénéficier d'un effet Haas jusqu'au fond de la salle.
Dans l'exemple illustré à la figure 2, l'ensemble de restitution 1 comprend deux ensembles de haut-parleurs E1 et E2.
Dans une variante, l'ensemble de restitution 1 comprend en outre un autre ensemble de haut-parleurs de type caissons de basse ou « subwoofers », pour ajouter un effet supplémentaire lors de la restitution sonore du signal audio d'entrée.
De façon similaire, dans cette variante, une pluralité de signaux audio destinés à alimenter cet ensemble de haut-parleurs de type caissons de grave est généré par le dispositif 3 de génération en appliquant au signal audio entrée :

au moins un retard et/ou un gain ; et
un filtrage de type passe-bas.

Le retard et/ou le gain ainsi appliqués sont choisis de sorte que la combinaison des signaux restitués par l'ensemble de haut-parleurs de type caissons de grave et des signaux restitués par l'un des ensembles E1 et E2 vérifie un effet de restitution sonore déterminé à une position spatiale de référence définie pour cet ensemble et pour l'ensemble de haut-parleurs de type caissons de grave.
Nous allons maintenant illustrer la mise en oeuvre de ce premier mode de réalisation par la description de trois exemples.

Exemple 1 :

Dans l'exemple 1 :

l'ensemble E1 est une ligne de P haut-parleurs HP1-1, ..., HP1-P situés sur la scène SCENE, à la hauteur h1 ;
l'ensemble E2 est une ligne de N haut-parleurs HP2-1, ..., HP2-N situés au-dessus de la scène SCENE, à la hauteur h2. Le nombre N de haut-parleurs ainsi que leur espacement dépendent de la largeur de la scène : N varie typiquement entre 4 et 12 haut-parleurs, espacés de 80 cm à 5 m.

Le nombre P de haut-parleurs de l'ensemble E1 est supérieur ou égal au nombre N de haut-parleurs de l'ensemble E2.
Conformément à l'invention, les haut-parleurs HP2-1, ..., HP2-N sont en moyenne plus directifs verticalement que les haut-parleurs HP1-1, ..., HP1-P de l'ensemble E1. Plus précisément, dans cet exemple 1 :

les P haut-parleurs HP1-1, ..., HP1-P de l'ensemble E1 présentent une ouverture verticale variant de 80° à 120°, et sont orientés vers l'avant de la scène (i.e. vers l'avant de l'auditoire) ;
les N haut-parleurs HP2-1, ..., HP2-N de l'ensemble E2 présentent une ouverture verticale variant de 60° à 90°, et sont orientés vers le fond de la salle (partie de l'auditoire la plus éloignée de la scène).

Les modules 3C1 et 3C2 utilisent des techniques T1 et T2 de spatialisation sonore de type WFS permettant la création de sources virtuelles aux positions des objets sonores du signal S identifiées par le module 3A. Ces positions sont fournies dans l'exemple 1 au module 3A par l'intermédiaire d'une interface utilisateur graphique.
Les modules 3B1 et 3B2 sont configurés de sorte à appliquer un retard non nul au signal S et à l'atténuer (gains G1, G2 inférieurs à 1). Les gains et retards (T1,G1) et (T2,G2) appliqués respectivement par les modules 3B1 et 3B2 sont choisis de sorte que les signaux restitués par les ensembles E1 et E2 à la position de référence Pref(E1,E2) arrivent avec un niveau sonore similaire (à plus ou moins 3 décibels près), et simultanément ou quasi-simultanément (avec une tolérance de plus ou moins 5 ms).

Exemple 2 (non couvert par l'invention) :

Dans l'exemple 2 :

l'ensemble E1 est une ligne de P haut-parleurs HP1-1, ..., HP1-P situés sur la scène SCENE, à la hauteur h1 ;
l'ensemble E2 comprend N haut-parleurs HP2-1, ..., HP2-N de type « line array » en anglais (source ligne) situés au-dessus de la scène SCENE, à la hauteur h2, et répartis le long de la scène. Par exemple pour N=3, on dispose un haut-parleur de part et d'autre de la scène et un au centre de la scène. De tels haut-parleurs sont de façon connue particulièrement puissants et présentent une directivité verticale importante et ainsi une faible ouverture.

Le nombre P de haut-parleurs de l'ensemble E1 et l'espacement entre eux dépendent de la largeur de la scène, et de la distance séparant les haut-parleurs du premier ensemble E1 des haut-parleurs du deuxième ensemble E2 : P varie typiquement entre 4 et 30 haut-parleurs, espacés de 50 cm à 3 m.
Conformément à l'invention, les haut-parleurs HP2-1, ..., HP2-N sont en moyenne plus directifs verticalement que les haut-parleurs HP1-1, ..., HP1-P de l'ensemble E1. Plus précisément, dans ce premier exemple :

les P haut-parleurs HP1-1, ..., HP1-P de l'ensemble E1 présentent une ouverture verticale variant de 80° à 120°, et sont orientés vers l'avant de la scène (i.e. vers l'avant de l'auditoire) ;
les N haut-parleurs HP2-1, ..., HP2-N de l'ensemble E2 présentent une ouverture verticale variant de 10° à 60°, et sont orientés vers le fond de la salle (partie de l'auditoire la plus éloignée de la scène).

Le module 3C1 utilise une technique T1 de spatialisation sonore de type WFS permettant la création de sources virtuelles aux positions des sources identifiées dans le signal S par le module 3A. Ces positions sont fournies dans l'exemple 2 au module 3A par l'intermédiaire d'une table de mixage opérant sur le signal S.
Le module 3C2 utilise une technique T2 de spatialisation sonore de type mixage matriciel dynamique prenant la forme d'un panoramique stéréophonique d'intensité en fonction de la position des objets sonores du signal S identifiées par le module 3A.
Les modules 3B1 et 3B2 sont configurés de sorte à appliquer un retard non nul au signal S et à l'atténuer (gains G1, G2 inférieurs à 1). Les gains et retards (T1,G1) et (T2,G2) appliqués respectivement par les modules 3B1 et 3B2 sont choisis de sorte que les signaux restitués par les ensembles E1 et E2 à la position de référence Pref(E1,E2) arrivent avec un niveau sonore similaire (à plus ou moins 3 décibels près), et simultanément ou quasi-simultanément (avec une tolérance de plus ou moins 5 ms).

Exemple 3 :

Dans cet exemple 3 :

l'ensemble E1 comprend P haut-parleurs HP1-1, ..., HP1-P situés sur la scène SCENE, à la hauteur h1 ;
l'ensemble E2 comprend N haut-parleurs HP2-1, ..., HP2-N de type « line array », situés au-dessus de la scène SCENE, à la hauteur h2. Le nombre N de haut-parleurs ainsi que leur espacement dépendent de la largeur de la scène : N varie typiquement entre 4 et 12 haut-parleurs, espacés de 80 cm à 5 m.

L'ensemble de restitution 1 comprend en outre dans cet exemple un ensemble désigné par Elow de L haut-parleurs HPlow-1, ..., HPlow-L basse-fréquence (subwoofers) disposés sur ou en dessous de la scène SCENE.
Le nombre P de haut-parleurs de l'ensemble E1 et l'espacement entre eux dépendent de la largeur de la scène, et de la distance séparant les haut-parleurs du premier ensemble E1 des haut-parleurs du deuxième ensemble E2 : P varie typiquement entre 4 et 30 haut-parleurs, espacés de 50 cm à 3 m.
Conformément à l'invention, les haut-parleurs HP2-1, ..., HP2-N sont en moyenne plus directifs verticalement que les haut-parleurs HP1-1, ..., HP1-P de l'ensemble E1. Plus précisément, dans ce premier exemple :

les P haut-parleurs HP1-1, ..., HP1-P de l'ensemble E1 présentent une dispersion verticale variant de 80° à 120°, et sont orientés vers l'avant de la scène (i.e. vers l'avant de l'auditoire) ;
les N haut-parleurs HP2-1, ..., HP2-N de l'ensemble E2 présentent une dispersion verticale variant de 10° à 60°, et sont orientés vers le fond de la salle (partie de l'auditoire la plus éloignée de la scène).

Le module 3C1 utilise une technique T1 de spatialisation sonore de type WFS permettant la création de sources virtuelles aux positions des objets sonores identifiées dans le signal S par le module 3A.
Le module 3C2 utilise une technique T2 de spatialisation sonore de type WFS permettant également la création de sources virtuelles aux positions des objets sonores identifiées dans le signal S par le module 3A. La technique T2 est par exemple une technique WFS telle que décrite dans le document d'E. Corteel cité précédemment, de sorte à compenser les caractéristiques de directivité horizontale des haut-parleurs « line array » de l'ensemble E2.
Les positions des objets sonores du signal S sont identifiées directement ici par le module 3A par l'intermédiaire d'un dispositif de suivi des positions des objets sonores présents sur la scène SCENE (ex. instruments ou personnages, etc.).
Le dispositif 3 de génération comporte en outre selon cet exemple, un module 3Blow apte à appliquer un gain et un retard au signal audio d'entrée S, et un module 3Clow apte à appliquer un filtrage passe-bas au signal issu du module 3Blow pour générer des signaux destinés à alimenter les haut-parleurs de l'ensemble Elow.
Les modules 3B1, 3B2 et 3Blow sont configurés de sorte à appliquer un retard non nul au signal S et à l'atténuer (gains inférieurs à 1).
Les gains et retards (T1,G1) et (T2,G2) appliqués respectivement par les modules 3B1 et 3B2 sont choisis de sorte que les signaux restitués par l'ensemble E2 arrivent avec un décalage de 10 ou 20 ms par rapport aux signaux restitués par l'ensemble E1 à la position de référence Pref(E1,E2), avec un niveau sonore similaire (à plus ou moins 3 décibels près), de sorte à bénéficier de l'effet Haas décrit dans le document de Blauert et al. cité précédemment.
Le retard et le gain appliqués par le module 3Blow sont choisis de sorte que les signaux restitués par les ensembles Elow et E1 à une position spatiale de référence Pref(E1ow,E1) définie pour les ensembles Elow et E1 (de façon similaire à la position Pref(E1,E2)) arrivent avec un niveau sonore similaire (à plus ou moins 3 décibels près) dans leurs bandes de fréquences respectives, et simultanément ou quasi-simultanément (avec une tolérance de plus ou moins 5 ms).
Nous allons maintenant décrire, en référence aux figures 8 à 10, un second mode de réalisation de l'invention dans lequel on considère, pour la restitution du signal audio d'entrée S, un ensemble de restitution sonore comprenant trois ensembles de haut-parleurs E1, E2 et E3, les ensembles E2 et E3 jouant le rôle d'ensembles de haut-parleurs de rappel.
Ainsi, la figure 8 représente, dans son environnement, un ensemble 1' de restitution sonore, conforme à l'invention, dans ce second mode de réalisation.
Les éléments similaires au premier mode de réalisation décrits en référence aux figures 2 à 5 sont référencés de façon identique sur les figures 8 à 10.
Conformément au second mode de réalisation, l'ensemble 1' de restitution sonore comprend :

un système 2' de restitution sonore comprenant une pluralité de haut-parleurs ; et
un dispositif 3' de génération de signaux audio destinés à alimenter les haut-parleurs du système 2' de restitution sonore.

Le système 2' de restitution sonore se distingue du système 2 de restitution sonore illustré aux figures 2 et 3 en ce qu'il comprend en outre un troisième ensemble E3 de K haut-parleurs, notés HP3-1, HP3-2, ..., HP3-K, K étant un entier positif supérieur à 1.
Comme illustre à la figure 9 , les haut-parleurs HP3-1, HP3-2, ..., HP3-K sont positionnés à une hauteur h3 supérieure à la hauteur de référence h1, dans un plan vertical situé plus proche du fond de la salle que le plan vertical dans lequel sont positionnés les haut-parleurs de l'ensemble E2.
Les haut-parleurs de l'ensemble E3 peuvent être choisis omnidirectionnels, si l'ensemble E3 est destiné à compenser la présence d'éléments masquant tels que des balcons par exemple, ou au contraire ils peuvent être choisis plus directifs en moyenne verticalement que les haut-parleurs de l'ensemble E1, et être orientés, de façon similaire aux haut-parleurs de l'ensemble E2 vers le fond de la salle.
Le nombre K de haut-parleurs dans le troisième ensemble E3 peut être égal ou distinct des nombres P et N de haut-parleurs dans les ensembles E1 et E2.
Les différents haut-parleurs de l'ensemble E3 sont alimentés par des signaux audio multicanaux, notés respectivement S3-1, S3-2,..., S3-K générés par le dispositif 3' de génération à partir du signal audio d'entrée S.
Pour générer ces signaux, le dispositif 3' de génération s'appuie :

sur le module logiciel 3A décrit précédemment, et apte à identifier les positions POS(OBJ) des différents objets sonores OBJ compris dans le signal d'entrée S ;
le module 3B3 apte à appliquer sur le signal S, un retard T3 et un gain G3, identiques ici sur chaque canal du signal S ;
le module 3C3 apte à appliquer sur le signal issu du module 3B3 une technique de spatialisation sonore T3.

Le dispositif 3' de génération dispose ici de l'architecture matérielle d'un ordinateur, similaire à celle du dispositif 3 de génération décrite précédemment en référence à la figure 4. Les moyens de communication du dispositif 3' de génération se distinguent toutefois des moyens de communication du dispositif 3 de génération en ce qu'ils comprennent en outre une interface (filaire ou sans fil) avec les haut-parleurs HP3-1, HP3-2, ..., HP3-K de l'ensemble E3.
La mémoire morte du dispositif 3' de génération constitue un support d'enregistrement conforme à l'invention, lisible par le (micro-)processeur du dispositif 3' et sur lequel est enregistré un programme d'ordinateur conforme à l'invention, comportant des instructions pour l'exécution des étapes d'un procédé de génération décrites maintenant en référence à la figure 10.
La figure 10 illustre les principales étapes d'un procédé de génération selon l'invention, telles qu'elles sont mises en oeuvre, dans le second mode de réalisation, par le dispositif 3' de génération sur réception du signal audio d'entrée S, pour générer et fournir les signaux S1-1, S1-2,..., S1-P, S2-1, S2-2, ..., S2-N et S3-1, S3-2, ..., S3-K aux ensembles E1, E2 et E3 de haut-parleurs respectivement.
Les étapes similaires aux étapes mises en oeuvre par le dispositif 3 de génération et illustrées à la figure 5 sont référencées de manière identique et ne sont pas décrites de nouveau en détail ici.
On suppose donc que le dispositif 3' de génération reçoit le signal audio d'entrée multicanal S via ses moyens de communication (étape E10).
On suppose par ailleurs qu'on fournit au dispositif 3' de génération, par l'intermédiaire d'une interface adaptée, les positions désignées par POS(OBJ) des objets sonores OBJ compris dans le signal S et que l'on souhaite restituer (étape E20).
Conformément à l'invention, différents traitements sont appliqués par le dispositif 3' de génération au signal S pour générer les signaux destinés à alimenter les trois ensembles E1, E2 et E3 de haut-parleurs.
Ces traitements sont appliqués indépendamment pour chaque ensemble de haut-parleurs, via trois chaînes de traitement du signal distinctes comprenant pour la première, le module 3B1 et le module 3C1, pour la deuxième, le module 3B2 et le module 3C2, et pour la troisième, le module 3B3 et le module 3C3. Ces trois chaînes de traitement opèrent préférentiellement simultanément.
Plus spécifiquement, les modules 3B1, 3C1, 3B2 et 3C2 procèdent de manière similaire au premier mode de réalisation pour générer les signaux S1-1, S1-2,..., S1-P destinés à alimenter l'ensemble E1 et les signaux S2-1, S2-2,..., S2-N destinés à alimenter l'ensemble E2 (étapes E30 à E80 illustrées à la figure 5).
Par ailleurs, en parallèle, le module 3B3 applique au signal S le retard T3 et le gain G3 mentionnés précédemment (étape E90), générant ainsi un signal S3. Ce retard T3 et ce gain G3 ont été déterminés et fournis au module 3B3 au cours d'une étape de configuration préliminaire E_CALIB' décrite ultérieurement.
Le module 3C3 applique ensuite au signal S3 fourni en sortie du module, la technique de spatialisation sonore T3 (étape E100), générant ainsi la pluralité de signaux S3-1, S3-2,..., S3-K.
La technique T3 est par exemple une technique holophonique de type WFS telle que décrite dans le document EP 2 206 365 . Elle prend en compte d'une part, les positions POS(OBJ) des objets sonores identifiées et fournies par le module 3A, et d'autre part, la position des haut-parleurs HP3-1, HP3-2, ..., HP3-K de l'ensemble E3, pour créer des sources virtuelles à partir des haut-parleurs HP3-1, HP3-2, ..., HP3-K de l'ensemble E3 aux positions POS(OBJ).
Bien entendu, cette hypothèse n'est pas limitative et d'autres techniques de spatialisation sonore peuvent être envisagées dans le cadre de l'invention, telles que les techniques de mixage matriciel dynamique cités précédemment.
Les signaux S3-1, S3-2,..., S3-K générés par le module 3C3 sont fournis aux haut-parleurs HP3-1, HP3-2, ..., HP3-K de l'ensemble E3 (étape E110), pour être restitués.
Dans ce second mode de réalisation, les retards T1, T2 et T3, et les gains G1, G2 et G3 sont choisis en considérant les ensembles de haut-parleurs E1, E2 et E3 deux à deux. Plus précisément, ils sont choisis de sorte à vérifier :

d'une part, que la combinaison des signaux restitués par l'ensemble E1 et des signaux restitués par l'ensemble E2 vérifie un effet de restitution sonore déterminé à la position spatiale de référence Pref(E1,E2) définie pour les ensembles E1 et E2 ; et
d'autre part, que la combinaison des signaux restitués par l'ensemble E2 et des signaux restitués par l'ensemble E3 vérifie un effet de restitution sonore déterminé à une position spatiale de référence Pref (E2,E3) définie pour les ensembles E2 et E3. Cette position spatiale Pref(E2,E3) peut être définie selon des critères similaires à ceux adoptés pour définir la position spatiale Pref(E1,E2) décrits précédemment.

En variante, on peut considérer la combinaison des signaux restitués par les ensembles E1 et E3 au lieu des ensembles E2 et E3.
Ainsi, l'étape préliminaire de configuration E_CALIB' se déroule en deux temps, au cours duquel on considère respectivement les ensembles E1 et E2 d'une part, et les ensembles E2 et E3 d'autre part. Une procédure similaire à celle décrite précédemment pour l'étape de configuration E_CALIB, se basant sur des mesures physiques de niveau sonore et/ou des simulations numériques, est appliquée à chaque couple d'ensembles de haut-parleurs considéré (i.e. au couple (E1,E2) en prenant en compte la position de référence Pref(E1,E2), puis au couple (E2,E3) en prenant en compte la position de référence Pref(E2,E3)).
La phase ultime d'ajustement peut en revanche prendre en compte les signaux restitués par les trois ensembles afin d'être plus précis dans l'estimation des retards T1, T2 et T3 et des gains G1, G2, et G3.
Comme pour l'étape E_CALIB, le réglage des retards et des gains peut s'effectuer soit de façon globale, soit de façon indépendante sur chaque bande de fréquences d'un ensemble de bandes de fréquences prédéfini. Dans ce cas, on détermine un gain et un retard par bande de fréquences étudiée. Ceci permet avantageusement de prendre en compte la dépendance en fréquence de la directivité des haut-parleurs du deuxième ensemble E2 et le cas échéant, du troisième ensemble E3.
Il convient de noter que dans le second mode de réalisation décrit ici, l'ensemble de restitution 1' comprend trois ensembles E1, E2 et E3, dont deux ensembles jouent le rôle d'ensemble de haut-parleurs de rappel pour la salle R. Toutefois, l'invention ne se limite pas à deux ensembles de haut-parleurs de rappel, et on peut envisager, dans le cadre de l'invention, d'ajouter d'autres ensembles E4, E5,... de haut-parleurs de rappel dans la salle. Les retards et/ou les gains appliqués par le dispositif 3' de génération pour générer les signaux destinés à alimenter ces ensembles seront choisis de manière similaire au retard et au gain appliqué par le module 3B3, c'est-à-dire, en considérant les ensembles de haut-parleurs du système de restitution deux à deux (ex. E1 avec E2, puis E2 avec E3, puis E3 avec E4, etc.).
Nous allons maintenant illustrer la mise en oeuvre de ce second mode de réalisation par la description de l'exemple 4.

Exemple 4 :

Dans cet exemple 4 :

l'ensemble E1 comprend P haut-parleurs HP1-1, ..., HP1-P situés sur la scène SCENE, à la hauteur h1 ;
l'ensemble E2 comprend N haut-parleurs HP2-1, ..., HP2-N situés au-dessus de la scène SCENE, à la hauteur h2. Le nombre N de haut-parleurs ainsi que leur espacement dépendent de la largeur de la scène : N varie typiquement entre 4 et 12 haut-parleurs, espacés de 80 cm à 5 m;
l'ensemble E3 comprend K haut-parleurs HP3-1, ..., HP3-K disposés dans la salle, au-dessus de l'auditoire, au milieu de la partie AUDIT. Le nombre K de haut-parleurs ainsi que leur espacement dépendent de la largeur de la scène : K varie typiquement entre 4 et 12 haut-parleurs, espacés de 80 cm à 5 m.

Dans cet exemple 4, les haut-parleurs HP2-1, ..., HP2-N sont en moyenne plus directifs verticalement que les haut-parleurs HP1-1, ..., HP1-P de l'ensemble E1. Plus précisément, dans cet exemple 4 :

Par ailleurs, dans cet exemple 4, les K haut-parleurs HP3-1, ..., HP3-K de l'ensemble E3 sont également en moyenne plus directifs verticalement que les haut-parleurs HP1-1, ..., HP1-P de l'ensemble E1. Ils présentent une ouverture verticale variant de 60° à 90°, et sont orientés également vers le fond de la salle (partie de l'auditoire la plus éloignée de la scène).
Les modules 3C1, 3C2 et 3C3 utilisent des techniques T1, T2 et T3 de spatialisation sonore de type WFS permettant la création de sources virtuelles aux positions des objets identifiées dans le signal S par le module 3A. Ces positions sont fournies dans l'exemple 4 au module 3A par l'intermédiaire d'une interface utilisateur graphique.
Les modules 3B1, 3B2 et 3B3 sont configurés de sorte à appliquer un retard non nul au signal S et à l'atténuer (gains G1, G2 et G3 inférieurs à 1).
Les gains et retards (T1,G1) et (T2,G2) appliqués respectivement par les modules 3B1 et 3B2 sont choisis de sorte que les signaux restitués par les ensembles E1 et E2 à la position de référence Pref(E1,E2) arrivent avec un niveau sonore similaire (à plus ou moins 3 décibels près), et simultanément ou quasi-simultanément (avec une tolérance de plus ou moins 5 ms).
Le retard et le gain (T3,G3) appliqués par le module 3B3 sont choisis de sorte que les signaux restitués par les ensembles E2 et E3 à la position de référence Pref(E2,E3) arrivent avec un niveau sonore similaire (à plus ou moins 3 décibels près) dans leurs bandes de fréquences respectives, et simultanément ou quasi-simultanément (avec une tolérance de plus ou moins 5 ms). La position Pref(E2,E3) est choisie plus éloignée de la scène SCENE que la position Pref(E1,E2), en direction du fond de la salle.
Dans les deux modes de réalisation décrits ici, l'application des gain/retard et l'application de la technique de spatialisation sonore sur le signal audio d'entrée sont mises en oeuvre lors d'étapes distinctes par des modules distincts.
Dans un autre mode de réalisation, ces deux traitements peuvent être réalisés simultanément par un même module (i.e. par les modules 3C1, 3C2 et le cas échéant 3C3 respectivement), lors de l'application de la technique de spatialisation sonore.

Claims

Procédé de génération, à partir d'un signal audio d'entrée (S), de signaux audio destinés à être fournis à un système de restitution sonore (2,2') dans une salle dotée d'une scène, ce système de restitution sonore comprenant un premier ensemble (E1) de haut-parleurs (HP1_1,...,HP1_P) positionnés à une hauteur (h1) de référence, et un deuxième ensemble (E2) de haut-parleurs (HP2_1,...,HP2_N) positionnés à une hauteur (h2) supérieure à la hauteur de référence (h1), les haut-parleurs du deuxième ensemble étant plus directifs verticalement que les haut-parleurs du premier ensemble, le premier ensemble de haut-parleurs étant placé sur ou devant la scène de la salle,
tandis que le deuxième ensemble de haut-parleurs étant placé au-dessus de la scène,
les haut-parleurs du deuxième ensemble étant orientés vers le fond de la salle et les haut-parleurs du premier ensemble étant orientés vers la partie de la salle située à proximité de la scène, tel qu'il est possible de diffuser le signal audio d'entrée avec un niveau sonore uniforme, y compris à une grande distance de la scène, sans augmenter de façon trop importante ce niveau sonore,
ce procédé comprenant :
- une étape (E20) d'identification d'une position (POS(OBJ)) d'au moins un objet sonore du signal audio d'entrée (S) ;

- une étape de génération (E30,E40) d'une pluralité de premiers signaux audio (S1_1.... S1_P) destines à alimenter le premier ensemble (E1) de haut-parleurs, en appliquant au signal audio d'entrée (S) :
o au moins un retard (T1) et un gain (G1) ; et de plus

o une technique (T1) de spatialisation sonore tenant compte de la position identifiée dudit au moins un objet sonore du signal audio d'entrée et d'une position des haut-parleurs du premier ensemble ;

- une étape de génération (E60, E70) d'une pluralité de deuxièmes signaux audio (S2_1 ,...,S2_N) destinés à alimenter le deuxième ensemble (E2) de haut-parleurs, en appliquant au signal audio d'entrée (S) :
o au moins un retard (T2) et un gain (G2) ; et de plus

o une technique (T2) de spatialisation sonore tenant compte de la position identifiée dudit au moins un objet sonore du signal audio d'entrée et d'une position des haut-parleurs du deuxième ensemble ;

lesdites techniques de spatialisation sonore appliquées lors de la génération des premiers et des seconds signaux audio étant des techniques holophoniques ; et
les retards et les gains appliqués lors de la génération des premiers et des seconds signaux audio étant choisis de sorte que la combinaison des premiers signaux restitués par le premier ensemble de haut-parleurs et des seconds signaux restitués par le deuxième ensemble de haut-parleurs vérifie un effet de restitution sonore déterminé à au moins une position spatiale de référence (Pref(E1,E2)) définie pour les premier et second ensembles de haut-parleurs, tel que le niveau sonore est suffisamment important pour les auditeurs situés au fond de la salle sans pour autant augmenter outre mesure ce niveau sonore, afin de limiter notamment la gêne des auditeurs situés à proximité de la scène.
Procédé selon la revendication 1 dans lequel les retards appliqués lors de la génération des premiers et des seconds signaux audio sont choisis de sorte que les premiers signaux restitués par le premier ensemble de haut-parleurs et les deuxièmes signaux restitués par le deuxième ensemble de haut-parleurs arrivent simultanément à la position spatiale de référence.
Procédé selon la revendication 1 dans lequel les retards appliqués lors de la génération des premiers et des seconds signaux audio sont choisis de sorte que les deuxièmes signaux restitués par le deuxième ensemble de haut-parleurs arrivent avec un décalage prédéterminé à la position spatiale de référence par rapport aux premiers signaux restitués par le premier ensemble.
Procédé selon l'une quelconque des revendications 1 à 3 dans lequel au moins une dite technique de spatialisation sonore appliquée lors de la génération des premiers et des deuxièmes signaux audio est :
- une technique holophonique de spatialisation sonore de type WPS
Procédé selon l'une quelconque des revendications 1 à 4 dans lequel, au cours d'au moins une dite étape de génération, ledit au moins un retard et/ou gain est appliqué sur le signal d'entrée avant la technique de spatialisation sonore.
Procédé selon l'une quelconque des revendications 1 à 5 dans lequel le signal audio d'entrée est un signal audio multicanal et, au cours d'au moins une dite étape de génération, le même retard et/ou le même gain est appliqué sur chaque canal du signal audio d'entrée.
Procédé selon l'une quelconque des revendications 1 à 5 dans lequel le signal audio d'entrée est un signal audio multicanal et, au cours d'au moins une dite étape de génération, un retard et/ou un gain distinct est appliqué sur au moins deux canaux distincts du signal audio d'entrée.
Procédé selon l'une quelconque des revendications 1 à 7 dans lequel le système de restitution sonore comprend en outre au moins un troisième ensemble (E3) de haut-parleurs (HP3-1.HP3-2....HP3-K) positionnés à une hauteur (h3) supérieure à la hauteur de référence (h1), ledit procédé comprenant une étape (E90,E100) de génération d'une pluralité de troisièmes signaux audio (S3-1, S3-2,..., S3-K) destinés à alimenter le troisième ensemble de haut-parleurs en appliquant au signal audio entrée (S) :
- au moins un retard (T3) et/ou un gain (G3) ; et

- une technique de spatialisation sonore (T3) tenant compte de la position identifiée dudit au moins un objet sonore du signal audio d'entrée et d'une position des haut-parleurs du troisième ensemble ;
ledit au moins un retard et/ou un gain étant choisi de sorte qu'une combinaison des troisièmes signaux restitues par le troisième ensemble de haut-parleurs et des signaux restitues par un autre (E2) desdits ensembles de haut-parleurs du système de restitution vérifie un effet de restitution sonore détermine a une position spatiale de référence définie pour cet autre ensemble et pour le troisième ensemble de haut-parleurs.
Programme d'ordinateur comportant des instructions pour l'exécution des étapes du procède de génération selon l'une quelconque des revendications 1 à 8 lorsque ledit programme est exécuté par un ordinateur.
Support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour l'exécution des étapes du procédé de génération selon l'une quelconque des revendications 1 à 8.
Dispositif (3,3') de génération de signaux audio destinés a un système (2,2') de restitution sonore dans une salle dotée d'une scène a partir d'un signal audio d'entrée, ce système de restitution sonore comprenant un premier ensemble (E1) de haut-parleurs positionnés à une hauteur de référence (h1), et un deuxième ensemble (E2) de haut-parleurs positionnés à une hauteur supérieure (h2) à la hauteur de référence, les haut-parleurs du deuxième ensemble étant plus directifs verticalement que les haut-parleurs du premier ensemble, le premier ensemble de haut-parleurs étant placé sur ou devant la scène de la salle, tandis que le deuxième ensemble de haut-parleurs étant placé au-dessus de la scène, les haut-parleurs du deuxième ensemble étant orientés vers le fond de la salle et les haut-parleurs du premier ensemble étant orientés vers la partie de la salle située à proximité de la scène, tel qu'il est possible de diffuser le signal audio d'entrée avec un niveau sonore uniforme, y compris à une grande distance de la scène, sans augmenter de façon trop importante ce niveau sonore, le dispositif de génération (3,3') comprenant :
- des moyens d'identification (3A) d'une position d'au moins un objet sonore du signal audio d'entrée ;

- des moyens de génération (3B1) d'une pluralité de premiers signaux audio destinés à alimenter le premier ensemble de haut-parleurs, aptes à appliquer au signal audio d'entrée :
∘ au moins un retard et un gain ; et de plus

∘ une technique (T1) de spatialisation sonore tenant compte de la position identifiée dudit au moins un objet sonore du signal audio d'entrée et d'une position des haut-parleurs du premier ensemble ;

- des moyens de génération (3B2) d'une pluralité de deuxièmes signaux audio destinés à alimenter le deuxième ensemble de haut-parleurs, aptes à appliquer au signal audio d'entrée :
∘ au moins un retard et un gain ; et de plus

∘ une technique (T2) de spatialisation sonore tenant compte de la position identifiée dudit au moins un objet sonore du signal audio d'entrée et d'une position des haut-parleurs du deuxième ensemble ;

lesdites techniques de spatialisation sonore appliquées par les moyens de génération des premiers et des seconds signaux audio étant des techniques holophoniques ; et
les gains et retards appliqués par les moyens de génération des premiers et des seconds signaux audio étant choisis de sorte que la combinaison des premiers signaux restitués par le premier ensemble de haut-parleurs et des seconds signaux restitués par le deuxième ensemble de haut-parleurs vérifie un effet de restitution sonore déterminé à au moins une position spatiale de référence définie pour les premier et second ensembles de haut-parleurs, tel que le niveau sonore est suffisamment important pour les auditeurs situés au fond de la salle sans pour autant augmenter outre mesure ce niveau sonore, afin de limiter notamment la gêne des auditeurs situés à proximité de la scène.
Ensemble (1,1') de restitution d'un signal audio d'entrée comprenant :
- un système (2,2') de restitution sonore comprenant un premier ensemble (E1) de haut-parleurs positionnés à une hauteur de référence, et un deuxième ensemble (E2) de haut-parleurs positionnés à une hauteur supérieure à la hauteur de référence, les haut-parleurs du deuxième ensemble étant plus directifs verticalement que les haut-parleurs du premier ensemble ; et

- un dispositif (3,3') de génération de signaux audio selon la revendication 11 destinés à alimenter les haut-parleurs du premier ensemble et les haut-parleurs du deuxième ensemble du système de restitution sonore.