FR3093264A1

FR3093264A1 - Procédé de diffusion d’un signal audio

Info

Publication number: FR3093264A1
Application number: FR1909887A
Authority: FR
Inventors: Pierre Sabatier; Gilles Bourgoin; Roger Samy
Original assignee: Sagemcom Broadband SAS
Current assignee: Sagemcom Broadband SAS
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-08-28

Abstract

Procédé de diffusion d’un signal audio, comportant une phase de calibration comprenant l’étape de définir un premier niveau audio de référence pour une première voie audio et un deuxième niveau audio de référence pour une deuxième voie audio, le procédé de diffusion comportant en outre une phase opérationnelle comprenant les étapes, mises en œuvre en temps réel, de : - utiliser une caméra (7) pour détecter un visage d’un auditeur (12) et pour définir une position du visage de l’auditeur (12) ; - modifier le premier niveau audio de référence et le deuxième niveau audio de référence pour produire un premier niveau audio optimisé et un deuxième niveau audio optimisé qui dépendent de la position du visage de l’auditeur ; - émettre le signal audio via la première voie audio et la deuxième voie audio en utilisant le premier niveau audio optimisé et le deuxième niveau audio optimisé. FIGURE DE L’ABREGE : Fig.2

Description

Procédé de diffusion d’un signal audio

L’invention concerne le domaine des procédés de diffusion de signaux audio, mis en œuvre dans tout type de système de diffusion audio comprenant plusieurs voies audio.

ARRIERE PLAN DE L’INVENTION

Les concepteurs de systèmes de diffusion audio cherchent constamment à améliorer la qualité des signaux sonores émis par leurs systèmes de diffusion audio, et donc le ressenti sonore des utilisateurs (qui sont appelés ici des « auditeurs »).

Les concepteurs tentent bien sûr pour cela, au moment de la conception et de la fabrication de ces systèmes de diffusion audio, d’améliorer les qualités acoustiques intrinsèques de leurs systèmes de diffusion audio.

Les concepteurs tentent aussi d’améliorer la prise en compte en fonctionnement, par le système de diffusion audio, de l’environnement dans lequel il se trouve et du ressenti sonore de l’auditeur.

Ainsi, certaines enceintes connectées récentes intègrent des processeurs de traitement audio qui optimisent la diffusion audio en fonction de l’acoustique de leur environnement. Chacune de ces enceintes connectées comprend un réseau de microphones intégré dans l’enceinte connectée. L’enceinte connectée émet des signaux acoustiques de test, utilise le réseau de microphones pour acquérir des signaux résultants issus de réflexions desdits signaux acoustiques de test, et exploite les signaux résultants pour définir l’environnement de l’enceinte connectée. L’enceinte connectée adapte alors certains paramètres de réglage à cet environnement pour optimiser la diffusion audio.

Certains amplificateurs multicanaux, utilisés par exemple dans des installations deHome-Cinéma, permettent à l’auditeur de régler manuellement les niveaux des différentes voies audio en utilisant une télécommande. Le rendu sonore est très bon, mais ce réglage manuel est réalisé à travers des menus qui sont très complexes à manipuler, en particulier pour un auditeur qui n’est pas familier de ce type de technologie.

OBJET DE L’INVENTION

L’invention a pour objet d’optimiser la diffusion audio et le ressenti sonore fournis par un système de diffusion audio, sans que cette optimisation ne nécessite de manipulations complexes pour l’auditeur.

En vue de la réalisation de ce but, on propose un procédé de diffusion d’un signal audio, mis en œuvre dans un système de diffusion audio comportant au moins une première voie audio comprenant un premier haut-parleur et une deuxième voie audio comprenant un deuxième haut-parleur, ainsi qu’une caméra,

le procédé de diffusion comportant une phase de calibration comprenant l’étape de définir un premier niveau audio de référence pour la première voie audio et un deuxième niveau audio de référence pour la deuxième voie audio,

le procédé de diffusion comportant en outre une phase opérationnelle comprenant les étapes, mises en œuvre en temps réel, de :

- utiliser la caméra pour détecter un visage d’un auditeur et pour définir une position du visage de l’auditeur ;

- modifier le premier niveau audio de référence et le deuxième niveau audio de référence pour produire un premier niveau audio optimisé et un deuxième niveau audio optimisé qui dépendent de la position du visage de l’auditeur ;

- émettre le signal audio via la première voie audio et la deuxième voie audio en utilisant le premier niveau audio optimisé et le deuxième niveau audio optimisé.

Le procédé de diffusion selon l’invention détecte donc, en utilisant une caméra, la position du visage de l’auditeur, et applique sur les voies audio des niveaux audio optimisés qui dépendent de la position du visage de l’auditeur. Quel que soit le nombre de voies audio, le procédé de diffusion permet de régler un contrôle de balance entre les voies audio qui optimise en temps réel le ressenti sonore de l’auditeur. Le contrôle de balance est réalisé de manière automatique, de sorte que l’auditeur n’a aucun réglage à effecteur pour obtenir cette diffusion audio optimisée.

On propose aussi un procédé de diffusion tel que celui qui vient d’être décrit, dans lequel la phase de calibration comprend de plus les étapes de :

- positionner un microphone dans une position de calibration ;

- émettre un signal acoustique de calibration émis via la première voie audio et la deuxième voie audio ;

- faire acquérir par le microphone un signal acoustique de calibration reçu résultant de l’émission du signal acoustique de calibration émis ;

- définir le premier niveau audio de référence et le deuxième niveau audio de référence à partir de caractéristiques du signal acoustique de calibration reçu.

- utiliser la caméra pour estimer une première distance de référence entre la position de calibration et le premier haut-parleur, et une deuxième distance de référence entre la position de calibration et le deuxième haut-parleur,

et dans lequel la phase opérationnelle comprend de plus les étapes de :

- utiliser la caméra pour estimer une première distance opérationnelle entre le visage de l’auditeur et le premier haut-parleur, et une deuxième distance opérationnelle entre le visage de l’auditeur et le deuxième haut-parleur ;

- définir le premier niveau audio optimisé en fonction de la première distance de référence et de la première distance opérationnelle, et le deuxième niveau audio optimisé en fonction de la deuxième distance de référence et de la deuxième distance opérationnelle.

On propose de plus un procédé de diffusion tel que celui qui vient d’être décrit, dans lequel on applique pour la première voie audio une première correction de niveau définie par :

Δniveau_R=20.Log10(D_{auditeur_R}/D_{micro_R}), où D_{auditeur_R}est la première distance opérationnelle et où D_{micro_R} est la première distance de référence,

et dans lequel on applique pour la deuxième voie audio une deuxième correction de niveau définie par :

Δniveau_G=20.Log10(D_{auditeur_G}/D_{micro_G}), où D_{auditeur_G}est la deuxième distance opérationnelle et où D_{micro_G} est la deuxième distance de référence.

On propose en outre un procédé de diffusion tel que celui qui vient d’être décrit, dans lequel la caméra est aussi utilisée pour détecter en temps réel une orientation du visage de l’auditeur, et dans lequel le premier niveau audio optimisé et le deuxième niveau audio optimisé dépendent aussi de l’orientation du visage de l’auditeur.

On propose de plus un procédé de diffusion tel que celui qui vient d’être décrit, dans lequel la phase opérationnelle comprend aussi l’étape de reconnaître l’auditeur), et de définir le premier niveau audio optimisé et le deuxième niveau audio optimisé en fonction de l’auditeur.

On propose aussi un procédé de diffusion tel que celui qui vient d’être décrit, dans lequel des réseaux de neurones de type CNN ou R-CNN sont utilisés pour détecter le visage de l’auditeur et pour définir la position du visage de l’auditeur.

On propose aussi un système de diffusion audio comportant au moins une première voie audio comprenant un premier haut-parleur et une deuxième voie audio comprenant un deuxième haut-parleur, ainsi qu’une caméra, le système de diffusion audio comportant en outre un composant de traitement agencé pour mettre en œuvre un procédé de diffusion tel que décrit.

On propose de plus un équipement audio dans lequel est intégré le système de diffusion audio tel que décrit.

On propose de plus un équipement audio comportant au moins une première voie audio comprenant un premier haut-parleur et une deuxième voie audio comprenant un deuxième haut-parleur, l’équipement audio étant agencé pour être relié à une caméra, l’équipement audio comprenant en outre un composant de traitement agencé pour mettre en œuvre un procédé de diffusion tel que décrit.

On propose en outre un équipement audio agencé pour être relié à un premier haut-parleur et à un deuxième haut-parleur, ainsi qu’à une caméra, l’équipement audio comprenant un composant de traitement agencé pour mettre en œuvre un procédé de diffusion tel que précédemment décrit.

On propose de plus un équipement électrique agencé pour être relié à une caméra et à un équipement audio lui-même relié à un premier haut-parleur et à un deuxième haut-parleur, l’équipement électrique comprenant en outre un composant de traitement agencé pour mettre en œuvre un procédé de diffusion tel que décrit.

On propose aussi un programme d’ordinateur comprenant des instructions pour mettre en œuvre, par un composant de traitement d’un équipement audio, le procédé de diffusion tel que précédemment décrit.

On propose de plus des moyens de stockage, caractérisés en ce qu’ils stockent un programme d’ordinateur comprenant des instructions pour mettre en œuvre, par un composant de traitement d’un équipement audio, le procédé de diffusion tel que celui qui vient d’être décrit.

L’invention sera mieux comprise à la lumière de la description qui suit d’un mode de mise en œuvre particulier non limitatif de l’invention.

Il sera fait référence aux dessins annexés, parmi lesquels :

la figure 1 représente un amplificateur audio stéréo d’un premier système de diffusion audio dans lequel est mis en œuvre le procédé de diffusion selon l’invention ;

la figure 2 représente l’amplificateur, une caméra, un microphone de calibration et un canapé sur lequel se trouve un auditeur ;

la figure 3 représente une première enceinte et la caméra ;

la figure 4 représente la première enceinte, la caméra et le microphone ;

la figure 5 représente la première enceinte, la caméra et un auditeur ;

la figure 6 représente des étapes de la phase opérationnelle ;

la figure 7 représente un deuxième système de diffusion audio comprenant un amplificateur multicanaux intégré dans une installation de Home-Cinéma, dans lequel est mis en œuvre le procédé de diffusion selon l’invention ;

la figure 8 représente un dispositif de réglage de gains internes ;

la figure 9 représente une enceinte connectée d’un troisième système de diffusion audio dans lequel est mis en œuvre le procédé de diffusion selon l’invention ;

la figure 10 représente un squelette et des points clés générés par un modèle MPII ;

la figure 11 représente un individu et des points clés générés par un modèle COCO ;

la figure 12 représente l’individu et des points clés générés par un modèle MPII ;

la figure 13 représente une main et des points clés ;

la figure 14 représente la main et un squelette de la main obtenu grâce aux points clés ;

la figure 15 représente des premières étapes d’une détection par fenêtre glissante ;

la figure 16 représente des deuxièmes étapes de la détection par fenêtre glissante ;

la figure 17 représente des troisièmes étapes de la détection par fenêtre glissante ;

la figure 18 représente des quatrièmes étapes de la détection par fenêtre glissante ;

la figure 19 représente la tête d’une auditrice ;

la figure 20 représente le visage d’une auditrice et des motifs disposés sur son front.

En référence aux figures 1 et 2, le procédé de diffusion d’un signal audio selon l’invention est tout d’abord mis en œuvre dans un système de diffusion audio qui comprend un amplificateur audio stéréo 1, une première voie audio comprenant une première enceinte 2 dans laquelle est intégré un premier haut-parleur 3, et une deuxième voie audio comprenant une deuxième enceinte 4 dans laquelle est intégré un deuxième haut-parleur 5. La première enceinte 2 est positionnée à droite de l’amplificateur 1 alors que la deuxième enceinte 4 est positionnée à gauche de l’amplificateur 1. Le système de diffusion audio comporte donc un côté gauche et un côté droit agencés de part et d’autre d’un axe médian virtuel X.

L’amplificateur 1 comporte un composant de traitement 6, qui est en l’occurrence un microcontrôleur mais qui pourrait être un composant différent, par exemple un processeur. Le composant de traitement 6 est adapté à exécuter des instructions d’un programme pour mettre en œuvre des étapes du procédé de diffusion selon l’invention.

Le système de diffusion audio comprend aussi une caméra 7, qui est disposée ici sur l’amplificateur 1. La caméra 7 est reliée à l’amplificateur 1 par une liaison filaire ou sans fil (radioélectrique de typeBluetoothou Wi-Fi, optique, etc.).

Le procédé de diffusion comporte tout d’abord une phase de calibration. Cette phase de calibration est par exemple mise en œuvre lorsqu’un individu qui a acquis le système de diffusion audio l’installe dans son habitation.

Au cours de la phase de calibration, l’individu positionne un microphone 9 dans une position de calibration, et demeure lui-même à proximité immédiate du microphone 9. Le microphone 9 est relié à l’amplificateur 1 par une liaison filaire ou sans fil (radioélectrique de typeBluetoothou Wi-Fi, optique, etc.).

L’amplificateur 1 et la caméra 7 sont positionnés en face d’un canapé 10 dans lequel un auditeur 12 est susceptible de s’asseoir pour écouter un signal sonore généré par le système de diffusion audio à partir d’un signal audio. La position de calibration est alignée avec la caméra 7 et le milieu du canapé 10, et est située au milieu d’un segment reliant la caméra 7 au milieu du canapé 10.

L’amplificateur 1 génère alors un signal acoustique de calibration émis via la première voie audio et la deuxième voie audio. Le signal acoustique de calibration émis est par exemple un bruit rose.

Le microphone 9 acquiert un signal acoustique de calibration reçu issu du signal acoustique de calibration émis. Le signal acoustique de calibration reçu est alors numérisé puis transmis au composant de traitement 6 de l’amplificateur 1. Le composant de traitement 6 mesure différentes caractéristiques du signal acoustique de calibration reçu, qui comprennent des niveaux sonores et un retard.

Le composant de traitement 6 ajuste alors les gains de la première voie audio et de la deuxième voie audio, et définit ainsi un premier niveau audio de référence pour la première voie audio et un deuxième niveau audio de référence pour la deuxième voie audio. Le premier niveau audio de référence et le deuxième niveau audio de référence sont définis pour optimiser le rendu sonore dans la position de calibration.

La caméra 7 détecte alors le visage de l’individu, d’une manière qui sera décrite plus bas.

En référence aux figures 3 à 5, le composant de traitement 6 évalue les coordonnées cartésiennes de la position de l’individu, qui correspondent à celles de la position du microphone 9 et donc à celles de la position de calibration. Ces coordonnées sont appelées X_micro, Y_micro.

Dans ce repère, les coordonnées cartésiennes de la position du premier haut-parleur 3 sont X_{HP_R}et Y_{HP_R}(voir figure 3). Les coordonnées cartésiennes de la position du deuxième haut-parleur 5 sont X_{HP_G}et Y_{HP_G}.

Le composant de traitement 6 en déduit une première distance de référence entre la position de calibration et le premier haut-parleur 3, et une deuxième distance de référence entre la position de calibration et le deuxième haut-parleur 5.

La première distance de référence est :

.

La deuxième distance de référence est :

.

Les distances D_micro _{_R} et D_micro _{_G} sont calculées comme des distances euclidiennes.

Comme on l’a vu, le premier niveau audio de référence et le deuxième niveau audio de référence sont définis pour optimiser le rendu sonore dans la position de calibration, c’est-à-dire à une distance D_micro _{_R} du premier haut-parleur 3 et à une distance D_micro _{_G} du deuxième haut-parleur 5.

Puis, le procédé de diffusion selon l’invention comporte une phase opérationnelle. Cette phase opérationnelle est mise en œuvre en fonctionnement, lorsque le système de diffusion audio est activé et qu’un auditeur 12 (qui est ou non la même personne que l’individu précédemment évoqué) écoute un signal sonore produit par le système de diffusion audio.

En référence à la figure 6, au cours de la phase opérationnelle, la caméra 7 est activée et produit un signal vidéo (étape E1). Le signal vidéo produit par la caméra 7 est utilisé pour détecter en temps réel le visage de l’auditeur 12, et pour localiser le visage de l’utilisateur.

Les coordonnées cartésiennes de la position du visage de l’auditeur 12 sont X_auditeur, Y_auditeur(étape E2).

Le composant de traitement 6 estime alors une première distance opérationnelle entre le visage de l’auditeur 12 et le premier haut-parleur 3, et une deuxième distance opérationnelle entre le visage de l’auditeur 12 et le deuxième haut-parleur 5 (étape E3).

La première distance opérationnelle est :

.

La deuxième distance opérationnelle est :

.

Le composant de traitement 6 acquiert la première distance de référence D_{micro_R}, la deuxième distance de référence D_{micro_G}, la première distance opérationnelle D_{auditeur_R} et la deuxième distance opérationnelle D_{auditeur_G}(étape E4).

Le composant de traitement 6 modifie alors le premier niveau audio de référence et le deuxième niveau audio de référence pour produire un premier niveau audio optimisé et un deuxième niveau audio optimisé qui dépendent de la position du visage de l’auditeur 12. Le composant de traitement 6 effectue donc une correction du premier niveau audio de référence et du deuxième niveau audio de référence en fonction de la localisation du visage de l’auditeur 12 par rapport à l’axe médian virtuel X.

Plus précisément, le composant de traitement 6 modifie un premier gain de la première voie en fonction de la première distance de référence et de la première distance opérationnelle, et un deuxième gain de la deuxième voie en fonction de la deuxième distance de référence et de la deuxième distance opérationnelle.

Le composant de traitement 6 applique pour la première voie audio une première correction de niveau définie par :

Δniveau_R=20.Log10(D_{auditeur_R}/D_micro _{_R}).

Le composant de traitement 6 applique pour la deuxième voie audio une deuxième correction de niveau définie par :

Δniveau_G=20.Log10(D_{auditeur_G}/D_micro _{_G}).

Le signal audio est alors émis via la première voie audio et la deuxième voie audio en utilisant le premier niveau audio optimisé et le deuxième niveau audio optimisé (étape E5).

Le composant de traitement 6 effectue alors un test sonore, pour vérifier que le premier niveau audio optimisé et le deuxième niveau audio optimisé produisent bien une écoute optimale (étape E6). Si le test n’est pas concluant, le procédé de diffusion revient à l’étape E2. Sinon, le premier niveau audio optimisé et le deuxième niveau audio optimisé sont validés et utilisés. La première voie audio et la deuxième voie audio sont réglées pour appliquer le premier niveau audio optimisé et le deuxième niveau audio optimisé (étape E7). L’amplificateur 1 diffuse le signal audio en utilisant le premier niveau audio optimisé et le deuxième niveau audio optimisé (étape E8).

Toutes les étapes de la phase opérationnelle sont mises en œuvre en temps réel. Lorsque l’auditeur 12 se déplace, la nouvelle position de son visage est détectée et le premier niveau audio optimisé et le deuxième niveau audio optimisé sont recalculés à partir de la nouvelle première distance opérationnelle et de la nouvelle deuxième distance opérationnelle.

Ici, la détection, la localisation et le suivi du visage de l’auditeur sont réalisés par des réseaux de neurones du type CNN (pour réseaux de neurones convolutifs ouConvolutional Neural Networksen anglais) ou du type R-CNN (pour régions avec réseaux de neurones convolutifs ouRegion with Convolutional Neural Networksen anglais). Ces algorithmes produisent en sortie un encadrage du visage de l’auditeur 12, ce qui permet de le localiser par rapport à l’axe médian virtuel X situé entre le premier haut-parleur 3 et le deuxième haut-parleur 5, qui sont eux-mêmes situés dans un plan 2D (X,Y) centré sur la caméra 7.

Avantageusement, la caméra 7 est aussi utilisée pour détecter en temps réel une orientation du visage de l’auditeur 12. Le premier niveau audio optimisé et le deuxième niveau audio optimisé dépendent aussi de l’orientation du visage de l’auditeur 12. Les réseaux de neurones sont aussi utilisés pour définir l’orientation du visage.

On note que la phase opérationnelle peut aussi comprendre l’étape de reconnaître l’auditeur 12, et de définir le premier niveau audio optimisé et le deuxième niveau audio optimisé en fonction de l’auditeur 12. L’auditeur 12 peut être reconnu via la vidéo par les algorithmes de réseaux de neurones.

Les réglages favoris de l’auditeur 12, par exemple en matière d’égalisation, peuvent alors être pris en compte. D’autres réglages « personnalisés » peuvent aussi être appliqués sur le signal audio et/ou sur la première voie audio et la deuxième voie audio.

De plus, si l’auditeur 12 a un audiogramme particulier, il est possible d’appliquer un filtre inverse calculé à partir de cet audiogramme qui permet de compenser sa propre bande d’audition.

En référence à la figure 7, le procédé de diffusion d’un signal audio selon l’invention est cette fois mis en œuvre dans un système de diffusion audio d’une installation deHome-Cinéma.

L’installation deHome-Cinémacomprend un système vidéo performant, tel qu'un lecteur de disque numérique optique et un téléviseur grand écran. L’installation deHome-Cinémacomprend également un système de diffusion audio «Surround Sound» (pour « son enveloppant »). Le public à domicile peut ainsi ressentir divers effets sonores d’un film présenté par l’installation deHome-Cinéma, comme si le public à domicile était dans un théâtre.

Le système de diffusion audio comprend un amplificateur multicanaux 20.

L’amplificateur multicanaux 20 intègre un composant de traitement 30 tel que celui précédemment décrit.

Le système de diffusion audio fonctionne dans un mode ditsurround 7.1et comporte huit voies audio qui comprennent une voie avant gauche comprenant une enceinte 21, une voie centrale comprenant une enceinte 22, une voie avant droite comprenant une enceinte 23, une voiesurroundgauche comprenant une enceinte 24, une voiesurrounddroite comprenant une enceinte 25, une voiesurroundarrière gauche comprenant une enceinte 26, une voiesurroundarrière droite comprenant une enceinte 27, ainsi qu’une voie basse fréquence comprenant une enceinte 28.

Chaque enceinte comporte un ou plusieurs haut-parleurs.

Les voies avant gauche etsurroundgauche sont donc agencées dans un cadre gauche 31, et les voies avant droite etsurrounddroite sont donc agencées dans un cadre droit 32. Le cadre gauche 31 et le cadre droit 32 sont situés de part et d’autre d’un axe médian virtuel X.

La phase de calibration est semblable à celle qui vient d’être décrite, si ce n’est que, cette fois, on détermine quatre distances de référence : entre la position de calibration et chacun des haut-parleurs respectivement de la voie avant gauche, de la voie avant droite, de la voiesurroundgauche et de la voiesurrounddroite.

Au cours de la phase opérationnelle, la caméra 33 permet de détecter et de localiser le visage de l’auditeur. La détection, la localisation et le suivi du visage de l’auditeur sont réalisés par des réseaux de neurone du type CNN.

En fonction de l’écart entre l’axe médian virtuel X et la localisation de l’auditeur, les niveaux sonores de la voie avant gauche et de la voie avant droite sont corrigés comme cela a été décrit précédemment.

Le composant de traitement 30 applique pour la voie avant droite une première correction de niveau définie par :

Δniveau_R=20.Log10(D_{auditeur_R}/D_{micro_R}),

où D_{auditeur_R}est une première distance opérationnelle entre l’auditeur et l’enceinte 23 et où D_{micro_R} est une première distance de référence entre le microphone et l’enceinte 23.

Le composant de traitement 30 applique pour la voie avant gauche une deuxième correction de niveau définie par :

Δniveau_G=20.Log10(D_{auditeur_G}/D_{micro_G}),

où D_{auditeur_G}est une deuxième distance opérationnelle entre l’auditeur et l’enceinte 21 et où D_{micro_G} est une deuxième distance de référence entre le microphone et l’enceinte 21.

De même, les niveaux sonores de la voiesurroundgauche et de la voiesurrounddroite sont corrigés comme cela a été décrit précédemment.

Le composant de traitement 30 applique pour la voiesurrounddroite une troisième correction de niveau définie par :

Δniveau_SR=20.Log10(D_{auditeur_SR}/D_{micro_SR}),

où D_{auditeur_SR}est une troisième distance opérationnelle entre l’auditeur et l’enceinte 25 et où D_{micro_R} est une troisième distance de référence entre le microphone et l’enceinte 25.

Le composant de traitement 30 applique pour la voiesurroundgauche une quatrième correction de niveau définie par :

Δniveau_SG=20.Log10(D_{auditeur_SG}/D_{micro_SG}),

où D_{auditeur_SG}est une quatrième distance opérationnelle entre l’auditeur et l’enceinte 24 et où D_{micro_G} est une quatrième distance de référence entre le microphone et l’enceinte 24.

La perception audio avant/arrière et gauche/droite est donc équilibrée en temps réel dans la position présente de l’auditeur. Quand l’auditeur se déplace, le réseau de neurones du type CNN réalise le suivi temporel de l’auditeur en mettant à jour sa nouvelle position. Cette nouvelle position permet de corriger à nouveau les niveaux sonores des voies de gauche et de droite.

Le procédé de diffusion permet à l’auditeur de s’affranchir des menus complexes à manipuler pour réaliser les corrections des différentes voies de façon individuelle quand l’auditeur s’écarte de la position de calibration initiale.

On note que le pilotage de l’amplificateur 20 est réalisé par un dispositif de réglage 34 des gains internes des voies audio. Le dispositif de réglage 34, visible sur la figure 8, comporte des potentiomètres numériques calibrés.

On a décrit que le composant de traitement 30, qui pilote le procédé de diffusion, est intégré dans l’amplificateur 20. Cependant, le composant de traitement 30 pourrait ne pas être intégré dans l’amplificateur 20 mais être situé dans un module externe (qui intègre ou non la caméra).

Dans ce cas, le module externe transmet à l’amplificateur 20 des codes identiques à des corrections manuelles qu’aurait réalisées sur les voies audio l’auditeur, via une télécommande, unsmartphoneou une tablette. Les codes sont transmis à l’amplificateur 20 par exemple par une communication en infrarouge ou enBluetooth(étape E9 sur la figure 6).

Ces codes sont spécifiques au constructeur et peuvent varier suivant les modèles. Les codes peuvent être mémorisés à partir de la télécommande d’origine et transmis à l’amplificateur 20 pour réaliser ces corrections à chaque nouvelle position de l’auditeur. Toutes les télécommandes universelles disponibles dans le commerce peuvent être prises en compte.

En référence à la figure 9, le procédé de diffusion d’un signal audio selon l’invention est cette fois mis en œuvre dans un système de diffusion audio qui comprend une enceinte connectée 35 équipée d’une caméra vidéo 36 à 360°.

Le procédé de diffusion permet de régler la balance entre la zone d’écoute droite, correspondant à l’ellipse 37, et la zone d’écoute gauche, correspondant à l’ellipse 38.

Les deux zones d’écoute s’étendent de part et d’autre d’un axe médian virtuel X.

Les niveaux sonores en dB des zones d’écoute sont optimisés suivant la position de l’auditeur pour que son ressenti sonore soit équilibré entre ces deux zones d’écoute.

L’enceinte connectée 35 comprend une ou plusieurs premières voies audio comprenant chacune un premier haut-parleur 40, et une ou plusieurs deuxièmes voies audio comprenant chacune un deuxième haut-parleur 41.

A nouveau, on réalise une phase de calibration telle que décrite précédemment, en utilisant un microphone.

Au cours de la phase opérationnelle, la caméra 36 permet de détecter et de localiser le visage de l’auditeur. La détection, la localisation et le suivi du visage de l’auditeur sont réalisés par des réseaux de neurone du type CNN.

En fonction de l’écart entre l’axe médian virtuel X et la localisation de l’auditeur, les niveaux audio de la ou des premières voies audio, d’une part, et de la ou des deuxièmes voies audio, d’autre part, sont corrigés comme cela a été décrit précédemment.

Pour la ou les premières voies audio (de droite), le composant de traitement applique une première correction de niveau définie par :

Δniveau=20.Log10(D_{auditeur_R}/D_{micro_R}).

Pour la ou les deuxièmes voies audio (de gauche), le composant de traitement applique une deuxième correction de niveau définie par :

Δniveau=20.Log10(D_{auditeur_G}/D_{micro_G}).

Lorsque l’auditeur se déplace, le réseau de neurones CNN réalise son suivi temporel en mettant à jour sa nouvelle position, qui permet de corriger à nouveau le premier niveau audio optimisé et le deuxième niveau audio optimisé. La perception auditive de l’auditeur est ainsi équilibrée.

On décrit maintenant plus en détail la manière dont sont réalisées la détection et la localisation du visage de l’auditeur en temps réel.

On utilise ici des réseaux de neurones CNN, mais il aurait été possible de mettre en œuvre la méthode deHOG(pour Histogramme de Gradient Orienté).

Cette technique accomplit une détection de visage à l’aide d’une analyse des histogrammes de gradients présents dans l’image.

Plus particulièrement, la région d’intérêt dans laquelle le visage est détecté est subdivisée en blocs de tailles égales, et ces derniers sont également subdivisés à leur tour en cellules. Pour chacune des cellules, une analyse des gradients des pixels est accomplie afin de former un histogramme de gradient à neuf bandes.

Plusieurs techniques de recombinaison des histogrammes en vecteurs peuvent être utilisées. Dans le cas de cette invention, un nouvel histogramme est créé à partir de chaque bloc considéré de manière indépendante, en recombinant les histogrammes de ses cellules correspondantes. Puis, en juxtaposant les accumulateurs de gradients de ces divers histogrammes pour tous les blocs, on obtient le vecteur de caractéristiques du visage.

Dans une implémentation particulière, des blocs de 64x64 et des cellules de 16x16 sont utilisés, de sorte que le vecteur résultant contient au total f=144 caractéristiques pour représenter le visage selon la ROI (pourRegion Of Interest) de 256x256 pixels qui a été établie précédemment.

Cette méthode est satisfaisante. Cependant, il semble préférable d’utiliser des réseaux de neurones du type CNN (ou R-CNN), qui sont capables de détecter les visages avec des positions angulaires différentes. Les réseaux de neurones sont plus robustes aux différentes poses de l’auditeur.

On utilise donc ici des réseaux de neurones du type CNN ou R-CNN.

Plutôt que d’imposer une technique de traitement d’images se basant sur des connaissances a priori du domaine, et qui effectue possiblement des suppositions erronées sur la compréhension des données, la tâche est laissée à un CNN qui va lui-même apprendre comment extraire les caractéristiques importantes pour représenter un visage à l’aide d’un apprentissage profond.

En procédant ainsi, le CNN s’assure de ne faire aucune supposition sur l’importance des caractéristiques. Ainsi, les vecteurs descripteurs obtenus deviennent théoriquement aussi discriminants que possible tout en étant spécifiques au cas de la reconnaissance de visages. Cette méthode d’extraction de caractéristiques est considérée comme la base pour l’utilisation d’un réseau de neurones convolutifs (CNN).

Ce détecteur, basé sur un CNN, est capable de détecter des faces sous presque tous les angles.

Un fichier de pondération est utilisé pour l’initialisation. Les étapes de traitement suivantes sont mises en œuvre.

Un CNN pré-entraîné est récupéré.

Puis, comme ce CNN est entraîné pour classifier les visages d’individus d’une autre base de données, les quelques couches de sortie accomplissant la classification finale des individus sont délaissées afin de ne préserver que les sorties d’une sous-couche qui émet à sa sortie des valeurs correspondant aux vecteurs de caractéristiques désirées.

Ces valeurs peuvent ensuite être redirigées avec le classificateur choisi afin d’accomplir un nouvel entraînement des visages spécifique à notre cas. Le descripteur CNN produit originalement un vecteur comportant f=4096 composantes, ce qui est relativement élevé pour accomplir une classification efficace. Par contre, une couche supplémentaire disponible à la fin du CNN effectue une recombinaison des caractéristiques contenant les informations pertinentes de manière similaire à la technique PCA, ce qui permet de réduire le descripteur à f=259 composantes.

La détection de l’auditeur peut aussi être réalisée par une reconnaissance en temps réel de la posture humaine. On peut utiliser une méthode du typeOpenPose.

L’algorithme permet de détecter et de localiser les principales parties et articulations du corps (épaules, cheville, genou, poignet …). On utilise les jeux de données du modèleCOCO Keypoint Challengeou du modèleMPII Humain Pose Dataset.

Un exemple de squelette est visible sur la figure 10.

Le modèleCOCOgénère 18 points caractéristiques du squelette (voir figure 11), alors que le modèle MPII génère 15 points (incluant l’arrière-plan : voir figure 12).

On met en œuvre les étapes suivantes.

On charge les poids du modèle.

On charge le réseau de modèle qui est entrainé enCaffe Deep Learning Framework.

pour charger le réseau en mémoire, on va charger les deux fichiers, celui qui spécifie l’architecture du réseau neuronal et le fichier des poids du modèle ;
l’image d’entrée lue doit être convertie enblob(pourbinary large object) afin d’être lue par le réseau. Cela est fait à l’aide deblobFromImagequi convertit l’image depuis le formatopencvau formatcaffeblob;
on normalise les valeurs de pixels pour qu’elles soient dans (0,1), puis on spécifie les dimensions de l’image, puis la valeur moyenne à soustraire qui est (0,0,0) ;
une fois l’image transmise au modèle, la méthode de transfert effectue une prédiction ;
la sortie est une matrice 4D :
- la première dimension est l’identifiant de l’image (si plusieurs images sont transmises) ;
- la deuxième dimension indique l’index d’un point clé. Le modèle produit des cartes de confiance et des cartes d’affinités de parties qui sont toutes concaténées. Dans le modèlesCOCO, on a 57 parties et 18 cartes de confiance des points-clés ainsi qu’une carte d’arrière-plan et 19x2 cartes d’affinité ;
- leMPIIproduit 44 points ; seuls les premiers points qui correspondent aux points clés sont utilisés ;
- la 3ème dimension est la hauteur de la carte en sortie ;
- la 4ème dimension est la largeur de la carte en sortie ;
- on vérifie si chaque point clé est présent dans l’image ou non ;
- on obtient l’emplacement du point clé en recherchant les maximums de la carte de confiance de ce point clé. On utilise un seuil pour réduire les fausses détections ;
on affiche enfin le squelette.

La détection de l’auditeur peut aussi être réalisée par une reconnaissance en temps réel de la main de l’auditeur. On peut utiliser une méthode du typeOpenPose.

La détection des points clés de la main est un processus qui consiste à détecter, dans une image ou dans une vidéo, les articulations des doigts ainsi que les bout des doigts.

Cette méthode est proche de la détection des repères faciaux de visages. On traite la main entière comme un objet.

On commence par un petit ensemble d’images de la main étiquetée et on utilise un réseau de neurones (Convolutional Pose Machines) pour obtenir une estimation approximative des points clés de la main. On exploite des images obtenues par des caméras HD positionnées à différents points de vue ou à selon différents angles.

Ces images passent à travers le détecteur pour obtenir de nombreuses prévisions approximatives de points clés. Une fois que les points clés de la même main sont détectés à partir de vues différentes, une triangulation est définie pour obtenir la position 3D des points clés. La localisation 3D des points clés est utilisée pour prédire de manière robuste les points clés par projection de la 3D vers la 2D. Cela est particulièrement important pour les images dont les points clés sont difficiles à prévoir. De cette façon, on obtient un détecteur nettement amélioré en quelques itérations.

L'architecture de détection utilisée est similaire à celle utilisée pour la posture du corps. La principale source d'amélioration réside dans les images à vues multiples pour l'ensemble d'images étiquetées.

Le modèle génère 22 points-clés. La main comprend 21 points tandis que le 22 ème correspond à l'arrière-plan. Les points sont représentés sur la figure 13.

La procédure de détection des points de la main est la suivante.

On télécharge le fichier des poids du modèle (crée enCaffe) déjà entrainé.

Pour obtenir les prédictions, on convertit l’image BGR enblob (RGB to HSV) afin qu’elle puisse être transmise au réseau, et on obtient ensuite les prévisions.

On affiche alors les résultats de la détection. La sortie a 22 matrices, chaque matrice étant la carte de probabilité d'un point clé. On peut produire une carte thermique de probabilités qui peut être superposée à l'image d'origine.

Pour trouver les points clés exacts, on adapte tout d'abord la carte de probabilités à la taille de l'image d'origine. On trouve ensuite l'emplacement des points clés en recherchant les maximums de la carte de probabilité. Ceci est fait en utilisant la fonctionminmaxLocdansOpenCV. On dessine alors les points clés détectés avec la numérotation sur l'image.

La procédure de détection du squelette de la main est la suivante.

On télécharge le modèle déjà entrainé avec la librairieCaffe. On lance la webcamera (lecture deFrames). On détecte les points clés de la main devant la caméra (21 points clés). On utilise les points détectés pour obtenir le squelette formé par les points clés et le dessiner : voir figure 14.

Les réseaux de neurones peuvent aussi être utilisés pour la détection de visage avec lesConvNets.

La détection de visage peut être effectuée à l’aide de la technique appelée : « détection par fenêtre glissante ». On forme unConvNetà la détection de visage dans une image et on utilise des fenêtres de différentes tailles que l’on fait glisser. Pour chaque fenêtre, on effectue une prédiction.

En référence à la figure 15, la première étape de la mise en œuvre de l’implémentation de la fenêtre glissante consiste à transformer les couches entièrement connectées en couches convolutionnelles. Cette technique est une solution qui a pour objectif d’éviter un coût de calcul élevé. L’inconvénient est que l’on a beaucoup de fenêtres.

Pour simplifier la représentation, on dessine le réseau final en 2D : voir figure 16.

On suppose que l’image a pour taille 16×16×3. On exécute une fenêtre glissante (regular). On crée 4 fenêtres différentes de taille 14×14×3 sur l’image de test d’origine et on les exécute avec unConvNet: voir figure 17.

Les coûts de calcul sont importants, et une grande partie de ce calcul fait double emploi. Alors, avec l’implémentation de fenêtres coulissantes, on exécute leConvNet, avec les mêmes paramètres et les mêmes filtres sur l’image de test. Le résultat est visible sur la figure 18.

Chacun des 4 sous-ensembles des unités de sortie est essentiellement le résultat de l’exécution duConvNetavec une région de 14×14×3 dans les 4 positions de l’image 16×16×3.

On peut prendre une autre image d'entrée de 28x28x3. En passant par le réseau, on arrive à la sortie finale de 8x8x4. Dans celui-ci, chacun des 8 sous-ensembles correspond à exécuter 8 fois la région 14x14x3 avec une diapositive de 2 dans l'image d'origine.

La faiblesse de cette méthode est que la position de la boîte englobante, que nous détectons autour de l’objet détecté, n’est pas précise. L’algorithmeYOLOest la solution à ce problème. Le «Fast R-CNN» permet d’accélérer le processus. Cet algorithme conserve la première partie du R-CNN, qui propose les régions, mais ensuite, l’algorithme utilise la mise en œuvre de convolution de fenêtres glissantes (sliding windows) pour classer toutes les régions proposées.

Comme on l’a vu plus tôt, il est possible de prendre en compte, en plus de la localisation du visage de l’auditeur, l’orientation du visage.

Plusieurs méthodes, qui utilisent les réseaux de neurones, peuvent être utilisées. Une première méthode consiste à reconnaître les points clés du visage, quelles que soient l’orientation et la position de la tête. Une deuxième méthode consiste à reconnaître les angles d’orientation de la tête par rapport aux trois angles d’Euler. Une troisième méthode consiste à déduire le visage en position de face à partir d’images du visage orienté différemment.

En référence à la figure 19, on peut déterminer, à partir des angles de la tête détectés par le CNN (yaw,pitch,roll), une distance inter-pupillaire vectorielle (le vecteur qui relie les 2 yeux).

La distance inter-pupillaire visuelle mesurée par un premier CNN normalement à la caméra n’est que la projection suivant l’angle de tête (yaw) de la vraie distance inter-pupillaire.

Il faut donc tenir compte des angles de la tête suivant la formule :

Distance Vraie = Distance Mesurée / cos (α),

oùαest l’angle de rotation de la tête autour de l’axe vertical (yaw).

Les angles depitchet der olln’affectent pas la distance inter-pupillaire.

Le problème de la localisation optique de l’auditrice peut alors être traité de la manière suivante. La méthode consiste à faire reconnaitre un motif particulier qui serait disposé sur le front de l’auditeur dans la phase de calibration, afin de servir d’échelle pour mesurer la distance inter-pupillaire.

En référence à la figure 20, l’auditrice dispose sur son front deux motifs en papier de forme carrée, distants de 60mm. Les deux motifs sont reconnus également par un réseau de neurones entrainé spécifiquement pour le sujet. De la reconnaissance des deux motifs, on peut en déduire la distance qui les sépare vue de la caméra.

Dans ce cas, au cours de la phase de calibration, l’auditeur se positionne à proximité de la caméra afin d’avoir une précision importante, par exemple à 1m de la caméra.

Par ailleurs, des algorithmes de détection des éléments du visage permettent de déduire le centre des pupilles.

Cette distance servira de base par la suite, elle est stockée dans un répertoire propre à l’auditrice.

Lorsqu’une personne est reconnue, les paramètres du visage, comme la distance inter-pupillaire, sont disponibles. On peut alors, en effectuant une règle de trois, en déduire la distance l’auditeur avec la caméra. Cette information permet de localiser l’auditrice spatialement et en temps réel.

Bien entendu, l’invention n’est pas limitée au mode de réalisation décrit mais englobe toute variante entrant dans le champ de l’invention telle que définie par les revendications.

On a mis ici en œuvre l’invention dans des systèmes de diffusion audio comprenant un amplificateur stéréo, un amplificateur multicanaux d’une installation deHome-Cinéma, et une enceinte connectée. L’invention pourrait être mise en œuvre dans un système de diffusion audio comprenant un équipement audio différent, par exemple une barre de son.

Le système de diffusion audio, dans lequel est mis en œuvre le procédé de l’invention, peut comprendre un ou plusieurs équipements, agencés selon de nombreuses configurations qui font toutes partie de l’invention.

Par exemple, le système de diffusion audio (intégrant la caméra et les haut-parleurs) peut être intégré entièrement dans un même équipement audio, tel qu’une enceinte connectée.

Par exemple encore, le composant de traitement peut être intégré dans un équipement audio intégrant les haut-parleurs et relié à une caméra, ou bien dans un équipement audio relié à des enceintes et à la caméra.

Par exemple encore, le composant de traitement pourrait aussi être intégré dans un équipement électrique externe intégrant la caméra, et communiquant avec un équipement audio tel qu’un amplificateur lui-même relié à des enceintes.

Claims

Procédé de diffusion d’un signal audio, mis en œuvre dans un système de diffusion audio comportant au moins une première voie audio comprenant un premier haut-parleur (3) et une deuxième voie audio comprenant un deuxième haut-parleur (5), ainsi qu’une caméra (7),
le procédé de diffusion comportant une phase de calibration comprenant l’étape de définir un premier niveau audio de référence pour la première voie audio et un deuxième niveau audio de référence pour la deuxième voie audio,
le procédé de diffusion comportant en outre une phase opérationnelle comprenant les étapes, mises en œuvre en temps réel, de :
- utiliser la caméra (7) pour détecter un visage d’un auditeur (12) et pour définir une position du visage de l’auditeur (12) ;
- modifier le premier niveau audio de référence et le deuxième niveau audio de référence pour produire un premier niveau audio optimisé et un deuxième niveau audio optimisé qui dépendent de la position du visage de l’auditeur ;
- émettre le signal audio via la première voie audio et la deuxième voie audio en utilisant le premier niveau audio optimisé et le deuxième niveau audio optimisé.
Procédé de diffusion selon la revendication 1, dans lequel la phase de calibration comprend de plus les étapes de :
- positionner un microphone (9) dans une position de calibration ;
- émettre un signal acoustique de calibration émis via la première voie audio et la deuxième voie audio ;
- faire acquérir par le microphone (9) un signal acoustique de calibration reçu résultant de l’émission du signal acoustique de calibration émis ;
- définir le premier niveau audio de référence et le deuxième niveau audio de référence à partir de caractéristiques du signal acoustique de calibration reçu.
Procédé de diffusion selon la revendication 2, dans lequel la phase de calibration comprend de plus les étapes de :
- utiliser la caméra (7) pour estimer une première distance de référence entre la position de calibration et le premier haut-parleur (3), et une deuxième distance de référence entre la position de calibration et le deuxième haut-parleur (5),
et dans lequel la phase opérationnelle comprend de plus les étapes de :
- utiliser la caméra (7) pour estimer une première distance opérationnelle entre le visage de l’auditeur et le premier haut-parleur, et une deuxième distance opérationnelle entre le visage de l’auditeur et le deuxième haut-parleur ;
- définir le premier niveau audio optimisé en fonction de la première distance de référence et de la première distance opérationnelle, et le deuxième niveau audio optimisé en fonction de la deuxième distance de référence et de la deuxième distance opérationnelle.
Procédé de diffusion selon la revendication 3, dans lequel on applique pour la première voie audio une première correction de niveau définie par :
Δniveau_R=20.Log10(D_{auditeur_R}/D_{micro_R}), où D_{auditeur_R}est la première distance opérationnelle et où D_{micro_R} est la première distance de référence,
et dans lequel on applique pour la deuxième voie audio une deuxième correction de niveau définie par :
Δniveau_G=20.Log10(D_{auditeur_G}/D_{micro_G}), où D_{auditeur_G}est la deuxième distance opérationnelle et où D_{micro_G} est la deuxième distance de référence.
Procédé de diffusion selon l’une des revendications précédentes, dans lequel la caméra (7) est aussi utilisée pour détecter en temps réel une orientation du visage de l’auditeur (12), et dans lequel le premier niveau audio optimisé et le deuxième niveau audio optimisé dépendent aussi de l’orientation du visage de l’auditeur.
Procédé de diffusion selon l’une des revendications précédentes, dans lequel la phase opérationnelle comprend aussi l’étape de reconnaître l’auditeur (12), et de définir le premier niveau audio optimisé et le deuxième niveau audio optimisé en fonction de l’auditeur.
Procédé de diffusion selon l’une des revendications précédentes, dans lequel des réseaux de neurones de type CNN ou R-CNN sont utilisés pour détecter le visage de l’auditeur et pour définir la position du visage de l’auditeur.
Système de diffusion audio comportant au moins une première voie audio comprenant un premier haut-parleur (3) et une deuxième voie audio comprenant un deuxième haut-parleur (5), ainsi qu’une caméra (7), le système de diffusion audio comportant en outre un composant de traitement agencé pour mettre en œuvre un procédé de diffusion selon l’une des revendications précédentes.
Equipement audio dans lequel est intégré le système de diffusion audio selon la revendication 8.
Equipement audio comportant au moins une première voie audio comprenant un premier haut-parleur (3) et une deuxième voie audio comprenant un deuxième haut-parleur (5), l’équipement audio étant agencé pour être relié à une caméra, l’équipement audio comprenant en outre un composant de traitement agencé pour mettre en œuvre un procédé de diffusion selon l’une des revendications 1 à 7.
Equipement audio agencé pour être relié à un premier haut-parleur (3) et à un deuxième haut-parleur (5), ainsi qu’à une caméra (7), l’équipement audio comprenant un composant de traitement agencé pour mettre en œuvre un procédé de diffusion selon l’une des revendications 1 à 7.
Equipement électrique agencé pour être relié à une caméra et à un équipement audio lui-même relié à un premier haut-parleur (3) et à un deuxième haut-parleur (5), l’équipement électrique comprenant en outre un composant de traitement agencé pour mettre en œuvre un procédé de diffusion selon l’une des revendications 1 à 7.
Programme d’ordinateur comprenant des instructions pour mettre en œuvre, par un composant de traitement d’un équipement audio, le procédé de diffusion selon l’une des revendications 1 à 7.
Moyens de stockage, caractérisés en ce qu’ils stockent un programme d’ordinateur comprenant des instructions pour mettre en œuvre, par un composant de traitement d’un équipement audio, le procédé de diffusion selon l’une des revendications 1 à 7.