FR3067156A1

FR3067156A1 - Procede de gestion d'un systeme comprenant un dispositif de diffusion audio et un dispositif de reconnaissance vocale

Info

Publication number: FR3067156A1
Application number: FR1760584A
Authority: FR
Inventors: Jerome Berger
Original assignee: Sagemcom Broadband SAS
Current assignee: Sagemcom Broadband SAS
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-12-07

Abstract

Procédé de gestion d'un système comprenant un dispositif de diffusion audio et un dispositif de reconnaissance vocale, le dispositif de diffusion audio comportant au moins trois haut-parleurs (11) agencés pour diffuser un signal audio d'entrée (Sae) selon une répartition de diffusion sonore nominale, le procédé de gestion comprenant les étapes de : - détecter un signal d'activation pour activer une reconnaissance vocale ; - lorsque le signal d'activation a été détecté, modifier la répartition de diffusion sonore nominale pour appliquer une répartition de diffusion sonore optimisée entre les haut-parleurs permettant d'améliorer la reconnaissance vocale ; - détecter une fin des paroles et, lorsque la fin des paroles a été détectée, modifier la répartition de diffusion sonore optimisée pour revenir à la répartition de diffusion sonore nominale.

Description

® PROCEDE DE GESTION D'UN SYSTEME COMPRENANT UN DISPOSITIF DE DIFFUSION AUDIO ET UN DISPOSITIF DE RECONNAISSANCE VOCALE.

FR 3 067 156 - A1 (57) Procédé de gestion d'un système comprenant un dispositif de diffusion audio et un dispositif de reconnaissance vocale, le dispositif de diffusion audio comportant au moins trois haut-parleurs (11) agencés pour diffuser un signal audio d'entrée (Sae) selon une répartition de diffusion sonore nominale, le procédé de gestion comprenant les étapes de:

- détecter un signal d'activation pour activer une reconnaissance vocale;

- lorsque le signal d'activation a été détecté, modifier la répartition de diffusion sonore nominale pour appliquer une répartition de diffusion sonore optimisée entre les hautparleurs permettant d'améliorer la reconnaissance vocale;

- détecter une fin des paroles et, lorsque la fin des paroles a été détectée, modifier la répartition de diffusion sonore optimisée pour revenir à la répartition de diffusion sonore nominale.

i

L' invention concerne le domaine des procédés de gestion d'un système comprenant un dispositif de diffusion audio et un dispositif de reconnaissance vocale.

ARRIERE PLAN DE L·'INVENTION

II a été- envisagé, poux permette à un utilisateur de communiquer avec un dispositif de diffusion audio-, d'utiliser un dispositif de reconnaissance vocale relié au dispositif de diffusion audio.

Par « dispositif de: diffusion audio », on entend ici tout type d'équipement ou de système d'équipements agencé pour diffuser, dans tout type d'endroit, un signal audio. Le signal audio peut bien sûr être associé à- un signai vidéo.

Le dispositif de diffusion audio comporte 15 classiquement un équipement électronique et un ou plusieurs haut-parleurs. L'équipement électronique acquiert d'une source externe quelconque le signal audio, réalise; éventuellement des traitements divers sur le signal audio, et transmet le signal audio aux haut-parleurs qui le 20 diffusent. L'équipement électronique est par exemple un boîtier décodeur 'relié a une télévision, une passerelle résidentielle, un amplificateur d'une installation de cinéma à domicile (ou home cinéma, en anglais)' , une télévision, un ordinateur, une tablette, une chaîne Hi-Fi, 25 etc. La source externe est par exemple un serveur du réseau Internet, une antenne parabolique, un CD ou un DVD, etc.

Le dispositif de reconnaissance vocale, comprend quant à lui un ou plusieurs microphones qui capturent un signal sonore présent dans l'environnement du dispositif de 30 reconnaissance vocale. Le dispositif de reconnaissance vocale analyse le signal sonore- capturé pour en extraire des paroles- d'un utilisateur, interprète ces paroles, et transforme ces paroles en commandes. Le dispositif de reconnaissance vocale est intégré partiellement ou entièrement dans le dispositif de diffusion- audio, ou bien est relié par tout type de liaison (filaire ou non) au dispositif de diffusion audio.

La reconnaissance vocale démarre lorsque le dispositif de reconnaissance vocale détecte un signal d'activation. Le signal d'activation peut consister en une pression sur un bouton, la prononciation d'un mot-clé, la réalisation d'un geste, etc.

La reconnaissance: vocale peut bien sûr être perturbée par la diffusion du signal audio par le dispositif de diffusion audio.

Ceci est particulièrement vrai lorsque le dispositif de diffusion audio est dans un format multicanal et diffuse un signal audio multicanal (ou sürrôühd, ën anglais). En référence a la figure l._r un tel dispositif de diffusion, audio 1 comporte classiquement cinq haut-parleurs 2 (dans le cas du Suxround 5.1) , ou plus encore . Quelle que- soit la position d'un Utilisateur 3 qui soühaitë utiliser le dispositif de reconnaissance vocale 4 pour communiquer avec le dispositif de diffusion audio 1, la reconnaissance des paroles & de l'utilisateur 3 est perturbée par la diffusion, dans de multiples directions, du signal audio mu11 icanal 7.

Pour pallier ce problème, il a été envisagé d'utiliser un mécanisme de boucle, dont le: fonctiorineméht consiste à injecter directement le signal audio dans le dispositif de reconnaissance vocale. Le dispositif de reconnaissance vocale soustrait alors: le signal audio du signal sonore capturé, pour faciliter la reconnaissance vocale. Ce: mécanisme de boucle présente cependant les inconvénients suivants. Il nécessite tout d'abord que le dispositif de reconnaissance vocale soit intégré dans: le dispositif de diffusion audio. De plus, le signal audio compris dans le signal sonore a subi un certain retard et des perturbations lorsqu'il est capturé par le dispositif de reconnaissance vocale. Il est donc presque impossible d'annuler complètement le signal audio, même en mettant en œuvre des opérations d'étalonnage.

OBJET DE L'INVENTION

L'invention a pour objet d'améliorer la reconnaissance vocale réalisée par un dispositif de reconnaissance vocale utilisé poux communiquer avec un dispositif de diffusion audio.

RESUME DE L’INVENTION

En vue de la réalisation de ce but, on propose· un procédé de gestion d'un système comprenant un dispositif de diffusion audio et un dispositif de reconnaissance vocale permettant à un utilisateur de communiquer avec le dispositif de; diffusion audio, le dispositif de diffusion audio· étant agencé dans un format multicanal et comportant au moins trois haut-parleurs agencés pour diffuser un. signal audio d'entrée selon une répartition de diffusion sonore nominale entre les haut-parleurs, la répartition de diffusion sonore nominale définissant des signaux audio nominaux alloués à chaque haut-parleur, le procédé de gestion comprenant les étapes de :

détecter un signal d'activation pour activer une reconnaissance vocale: destinée à reconnaître, dans unsignal sonore capturé par le dispositif de reconnaissance vocale, des paroles succédant au signal d'activation ;

lorsque le signal d'activation a été détecté, modifier la répartition de diffusion sonore nominale poux appliquer une répartition de diffusion sonore optimisée entre les haut-parleurs permettant d'améliorer La reconnaissance vocale, la répartition de diffusion, sonore optimisée définissant des signaux audio optimisés alloués à chaque haut-parleur ;

— détecter une fin des paroles et, lorsque la fin des paroles a été détectée, modifier la répartition de diffusion sonore optimisée pour revenir à la répartition de diffusion Sonore nominale.

de diffusion sonore

En appliquant optimisée entre les d'activation la répartition haut-parleurs est détecté, vocale des paroles

La modification de on lorsque améliore le signal donc la reconnaissance d'activation.

succédant au signal la répartition de diffusion sonore nominale ne nécessite pas que le dispositif de reconnaissance vocale soit intégré dans le dispositif de diffusion audio. La reconnaissance vocale n'est aucunement dégradée par un éventuel retard et/ou d'éventuelles perturbations subis par les signaux audio nominaux ou: les signaux audio optimisés:.

On propose de plus un ensemble d'au moins· un équipement électronique- agencé pour mettre- en œuvre un procédé de gestion tel que celui qui vient d'être décrit, un module de détection, un module de mixage et un module de contrôle étant intégrés dans l'ensemble:, le module de détection étant agencé pour détecter le signal d'activation, le module de mixage étant agencé: pour définir la répartition de diffusion sonore optimisée, et le module de contrôle) étant agencé- pour appliquer la répartition de diffusion sonone optimisée entre les haut-parleurs:.

On propose de plus un programme d'ordinateur , par un le procédé de comprenant des instructions pour mettre en œuvre microcontrôleür d'un boîtier déco-deux,

-gestion qui vient d' être: décrit.

On propose

Ca ra et é r i s es- en en

Ce d'ordinateur comprenant outre des moyens qu'ils stockent des instructions de un pour stockage, programme mettre en œuvre, par un microcontrôleur d'un boîtier décodeur, le procédé de gestion qui vient d'etre décrit.

D'autres caractéristiques et avantages de l'invention r es s ort i r ont à la lect ur e de la de scr ipt ion qui sui t démodés de réalisation particuliers non limitatifs de

1' invention.

BREVE DESCRIBTION DES DESSINS

Il sera fait référence aux dessins annexés, parmi lesquels

- la figure 1 représente des haut-parleurs d'un dispositif de diffusion audio agencé dans un formât

5	multicanal, un dispositif de reconnaissance vocale et	un
	utilisateur· ;
	- la figure	2 représente un	système	comprenant	un
	dispositif de	diffusion audio	et un	disposit if	de
	reconnaissance	vocale, dans lequel	est mis en œuvre	le
10	procédé de gestion selon un premier	mode de	réalisation	de
	l'invention ;
	- la figure	3 représente des	étapes	du procédé	de
	gestion selon le premier mode de réalisation	de l'invention
15	F - la figure	4 représente un	système	comprenant	un
	dispositif de	di ffus ion audio	et un	dispositif	de
	reconna is sauce	vocale, dans lequel	est mis en œuvre	le

procédé de gestion selon un troisième mode de réalisation de 1'invention.

DESCRIPTION DETAILLEE DE L·'INVENTION

Le procédé de gestion selon un premier mode de réalisation de l'invention est destiné à gérer un système comprenant un dispositif de diffusion audio et un dispositif de reconnaissance vocale.

En référence à la figure 2, le dispositif de diffusion audio comporte un premier équipement électronique, eh l'occurrëncë un boîtier décodeur 10, et six haut-parleurs

11.

Le bottier décodeur 10 est connecté à une télévision.

Le boîtier décodeur 10 acquiert d'une source externe, en l'occurrence d'un serveur du réseau Internet, un signal audio d'entrée Sae. Le signal audio d'entrée Sae est associé à un signal vidéo d'entrée, lui aussi acquis par le boîtier décodeur 10. Le boîtier décodeur 10 effectue un certain nombre de traitements sur le signal audio d'entrée

Sae et sur le signal vidéo d'entrée, et transmet les signaux traités aux haut-parleurs 11 et à la télévision.

Les haut-parleurs 11 comprennent un haut-parleur avant-gauche lia, un haut-parleur avant-droit 11b, un hautparleur avant-centre lie, un 'haut-parleur arrière-gauche 5 lld, un 'haut-parleur arrière-droit 'lie et un haut-parleur basses-fréquences (le haut-parleur basses—fréquences n'est pas représenté sur la figure 2).

Le boîtier décodeur 10 et les haut-parleurs 11 coopèrent de sorte que le dispositif de diffusion audio 10 soit agencé, dans un format multicanal du type surround 5.1.

Le dispositif' de reconnaissance vocale comporte au moins un microphone, ici quatre microphones 12. Les quatre microphones. 12 capturent en permanence un signal sonore régnant' dans l'environnement du dispositif de 15 reconnaissance vocale. Le dispositif de reconnaissance vocale analyse le signal sonore capturé· pour en extraire des paroles d'un utilisateur, et interprète ces paroles pour obtenir une phrase permettant à l'utilisateur de communiquer avec· le dispositif de diffusion audio.

Le dispositif de reconnaissance vocale est ici adapté à déterminer une direction d'origine des paroles. En effet, compte tenu dé la vitesse de propagation du son et de l'écart entre lés microphones 12, les paroles sont reçues à des instants légèrement différents par chaque microphone

12. En analysant ces différences et en tenant compte de la vitesse de propagation du son, le· dispositif de reconnaissance vocale· peut isoler la direction d'origine d'où proviennent les paroles et, éventuellement, filtrer dés· bruits· provenant d' autres directions.

Le dispositif de reconnaissance vocale, incluant les quatre microphones 12, est ici intégré· dans le boîtier décodeur 10.

Un module multicanal 14, un module de mixage 15, un module de décision 16, un module· de détection 17, un module 35 de reconnaissance vocale 18 et un module de contrôle 19 sont intégrés dans le boîtier décodeur 10.

Ces modules sont programmés dans un (ou plusieurs) composant de traitement du boîtier décodeur 10, qui est ici un microcontrôleur, mais qui pourrait être un processeur, un EPGA, un ASIE. Le composant de traitement est- adapte à 5 exécuter des instructions d'un programme pour mettre en œuvre le procédé de gestion selon le premier mode de réalisation de 1'invention.

En mode nominal , lorsqu''aucune reconnaissance vocale n' est mise en œuvre·,·· le module multicanal 14 reçoit de la 10 source externe le signal audio- d'entrée Sae et le transforme en un signal audio multicanal à destination des haut-parleurs 11. Le signal audio d'entrée Sae est' ainsi diffusé selon une répartition de diffusion sonore nominale entre les haut-parleurs 11, la répartition de diffusion 15 sonore nominale définissant des signaux audio nominaux San alloués à chaque haut-parleur 11.

Le module dé détectioh 17 reçoit le signal sonore capturé par les quatre microphones 12 et analyse le signal sonore· capturé. Lorsque le module de détection 17 détecte 20 la présence d'un 'mot-clé dans le signal sonore capturé, prononcé par l'utilisateur, il envoie un signal de début de reconnaissance au module de décision 16, au module de reconnaissance vocale 18 et au module de contrôle 19.

Le module de décision 16 est utilisé pour détecter une 25 fin des· paroles, correspondant à la fin d'une phrase à reconnaître. Lorsque le module de décision 16 détecte une fin des paroles, il envoie un signal dé fin de reconnaissance au module· de reconnaissance vocale 18 et au module de contrôle 19.

Ici, le module· de décision 16 détecte la fin des paroles lorsqu'un délai prédéterminé, par exemple égal à 10 s, s'est écoulé à partir du moment où le module de décision 16 a reçu le signal de début de reconnaissance.

Alternativement, le module de décision 16 analyse le 35 signal sonore capturé et génère· le signal de fin de reconnaissance en fonction du résultat de cette analyse.

Par exemple, si le mot-clé provient d'une certaine direction· d'origine, le module de décision 16 génère le signal de fin de reconnaissance lorsque- le module de décision 16 ne détecte plus, dans le signal sonore capturé, 5 de son en provenance de cette direction d'origine.

Le module de reconnaissance vocale 18 analyse le signal sonore capturé, convertit le signal sonore capturé en texte, et interprète le texte sous forme· de commandes à exécuter.

Θη note qu'il peut être avantageux de combiner le module de reconnaissance vocale 18 et le module de décision

16. Le module de reconnaissance vocale 18 analyse en effet le signal sonore capturé et est: parfaitement adapté pour déterminer la fin des paroles· et pour produire- le signal de 15 fin de reconnaissance.

Le module de contrôle 19 peut, sélectivement et de manière individuelle, relier la sortie du module multicanal à chaque haut-parleur 11, ou bien couper ces· liaisons. Le module de contrôle 19 peut aussi, sélectivement et dé manière individuelle, relier la sortie: du module de mixage au haut-parleur avant-gauche lia et au haut-parleur avant-droit 11b ou, au contraire-, couper ces liaisons .

Le module de -contrôle 19 reçoit le: signal de début de reconnaissance et le signal de fin de reconnaissance.

Le module de mixage 15 est quant à lui agencé pour transformer le signal audio multicanal en un signal audio stéréophonique, et pour définir la répartition de diffusion sonore optimisé e.

Le module· de mixage 15 acquiert pour cela les signaux audio nominaux San définis par la répartition de diffusion sonore nominale·, -et produit' la: répartition de diffusion sonore optimisée entre les haut-parleurs 11 permettant d'améliorer la reconnaissance vocale, la répartition de diffusion sonore optimisée définissant des: signaux audio optimisés Sao alloués à chaque haut-parleur 11.

La répartition de diffusion sonore nominale consiste à allouer les signaux audio nominaux San au haut-parleur avaùt-gauche lia, au. haut-parleur avant-droit 11b, au hautparleur avant-centre lie, au haut-parleur arrière-gauche lld, au haut-parleur arrière-droit lie et au hàut-parlëür 5 b as ses-f r é quenc es.

La modification de la répartition de diffusion sonore nominale pour obtenir la répartition de diffusion sonore optimisée consiste) ici à désactiver lé haüt-parleur arrière-gauche lld, le haut-parleur arrière-droit lie et le 10 haut-parleur avant-centre 11c, c'est à dire à annuler les signaux audio nominaux correspondants, et à allouer le signal audio optimisé L au haut-parleur avant-gauche lia et le signal audio optimisé R au haut-parleur avant-droit 11b, tels que :

L=tx. (FL+RL+FG/2)

R—d.(FR+RRfFC/2), ou FL·, FR, RL, RR, FC, LFE sont les signaux nominaux alloués respectivement au haut-parleur avant-gauche lia, au haut-parleur avant-droit 11b, au haut-parleur arrière20 gauche· lld, au haüt-parlëur arrière-droit lie, au hautparleur avant-centre lie et au haut-parleur basses fréquences.

Alternativement, on pourrait avoir :

L=a.( FL+RL+FC/É+LFE/f))

R=a. iFR+RR-FFC/f^+LFE/S))· .

Le paramètre a est- choisi pour limiter la puissance des canaux stéréo afin d'éviter des effets de saturation.

Alternativement, le haut-parleur basses-fréquences pourrait· rester activé en permanence. En effet, le haut30 par leur basses-fréquences émet de s sons gra ves) qui perturbent peu la parole, puisque· celle-ci utilise surtout des sons moyens et aigus.

L'homme de l'art comprendra que le module de mixage 15 peut utiliser toute .autre; méthode de l'état de l'art 35 permettant de transformer un signal multicanal en signal stéréo.

ίο

On décrit maintenant plus en détail, en référence à la figure 3;, le procédé de gestion selon 1'invention.

Le procédé de gestion comporte tout d'abord l'étape de configurer le dispositif de diffusion audio en mode 5 multicanal (étape El). Le module· multicanal 14 diffuse alors le signal audio multicanal selon une répartition de diffusion sonore nominale entre les haut-parleurs 11.

Les microphones 12 du dispositif de reconnaissance vocale capturent le signal sonore régnant; dans l'environnement du dispositif de reconnaissan.se vocale.

Le module de détection 17 tente de détecter la présence d'un mot-clé dans le signal sonore capturé (étape E2 ) .

Lorsqu'un mot-clé est détecté (étape E3) , le module de 15 détection. 17 envoie le signal de début de reconnaissance au module de décision 16, au module- de reconnaissance vocale 18 et au module de contrôle- 19.

Le module de contrôle 19 applique alors la répartition de diffusion sonore optimisée entre les haut-parleurs 11 20 (étape E4).

Pour cela, le module de contrôle 19 coupe la liaison entre la sortie du module multicanal 14 et les hautparleurs 11, et relie les sorties du module de mixage 15 au haut-parleur avant-gauche lia et au haut-parleur avant25 droit 11b.

La répartition de diffusion sonore optimisée entre les haut-parleurs 11 permet d'améliorer la reconnaissance vocale destinée à reconnaître des paroles succédant au motclé. En effet, comme le signal audio stéréophonique n'est 30 diffusé que -sur deux haut-parleurs 11, le dispositif de reconnaissance vocale peut déterminer et isoler la direction d'origine des paroles, et filtrer des bruits provenant d'autres directions pour améliorer la reconnaissance vocale.

Le module de décision 16 attend alors la fin dés paroles et donc de la phrase à reconnaître (étape E5\) .

Lorsque le module de décision 16 détecte la fin des paroles, le- module de décision 16 envoie le signal de fin de reconnaissance au module de reconnaissance vocale 18 et au module de contrôle 19 (étape E.6).

Le module de contrôle 19 modifie alors à nouveau la répartition de diffusion sonore optimisée pour revenir à la répartition de diffusion sonore nominale·. Le procédé· de gestion revient· à l'étape El.

On décrit maintenant un procédé de gestion selon un 10 deuxième mode de réalisation de 1'invention.

Le procédé de gestion selon le deuxième mode de réalisation, de l'invention comporte l'étape d'estimer une direction d'origine des paroles, ce que- permet de réaliser le dispositif de reconnaissance vocal et sa pluralité de 15 microphones 12. Puis, le procédé de gestion comporte l'étape de définir la répartition de diffusion sonore optimisée en fonction de la direction d'origine. On désactivé ainsi •uniquement les haut-parleurs· 11 situés dans la direction d'origine et déterminés par conséquent comme 20 étant gênants pour la reconnaissance vocale.

Revenons· à la situation de la figure 1. On suppose que l'utilisa têur 3 se trouve· a proximité du haut-parleur· arrière-droit lie. Seul le haut-parleur arrière-droit lie va donc être- désactivé.

Le haut-parleur avant-gauche lia, le haut-parleur· avant-droit 11b, le haut-parleur avant-Gèntré 11c, le hautparleur arrière-gauche lld, et le- haut-parleur bassesfréquences demeurent actifs. En effet, ces haut-parleurs 11 se trôüvéht dans· des positions suffisamment éloignées de celle de l'utilisateur 3 et dé la direction d'origine, et ne perturbent donc pas la reconnaissance vocale.

Les signaux audio optimisés alloués au haut-parleur avant-gauche lia, au haut-parleur· avant-centre lie et au haut-parleur arrière-gauche, lld sont égaux· aux· signaux 35 audio nominaux.

Le signal audio optimisé alloué au haut-parleur avant droit 11b est la somme des signaux audio nominaux alloués au haut-parleur avant-droit 11b et au haut-parleur arrièredroit lie, soit :

FR+RR.

Aucun signal audio optimisé n'est alloué au hautparleur; arrière-droit' 1 le.

Alternativement, on pourra allouer au haut-parleur avant-centre lie et au haut-parleur avant-gauche lia leurs signaux audio nominaux, allouer au haut-parleur avant-droit 10 11b le signal audio nominal du haut-parleur· avant-droit 11b ajouté a une moitié' du signal audio nominal du haut-parleur arrière-droit lie*, soit :

FR+RR/2.

Qn alloue alors au haut-parleur arrière-gauche lld le 15 signal audio nominal du haut-parleur arrière-gauche lld ajouté à une moitié du signal audio nominal du haut-parletir arrière-droit lie :

RL+RR/2.

Aucun signal audio optimisé n'est alloué au haut20 parleur ^arrière-droit lie.

Ainsi, dans la répartition de diffusion sonore optimisée, on annule un signal audio nominal San associé à au moins un premier haut-parleur 11 (en l'occurrence, le haut-parleur arrière-droit lie), et on alloue â au moins un 25 deuxième haut-parleur voisin (en 1'occurrence au hautparleur avant-droit 11b et au haut-parleur arrière-gauche lld) le signal audio nominal San qui lui est associé, auquel on ajoute une portion du signal audio nominal annulé.

3)0 Par haut-parleurs « voisins », on entend deux haut- parleurs situés du même côté ( gauche ou droite;) , ou bien on entend que les deux haut-parleurs sont tous deux soit situés· à l'avant, soit situés à l'arrière de l'installation de haut-parleurs, ou bien on entend qu'il s'agit des haut35 parleurs les plus proches du premier haut-parleur dont on a annulé le signal.

On note que les signaux audio optimisés peuvent être à nouveau multipliés par un paramètre a afin d'éviter des effets de saturation.

On décrit maintenant un procédé de gestion selon un troisième mode de réalisation de l'invention.

Le procédé de gestion selon le troisième mode de réalisation de 1'invention est à nouveau destiné à gérer un système comprenant un dispositif de diffusion audio et un dispositif de reconnaissance vocale.

En référence à la figure 4, ce système est proche de celui de la figure 2. Cette fois, cependant, le module dé contrôle 29 peut configurer dynamiquement le module de mixage 25. Le module de mixage 25, quant· à lui, peut ajuster dynamiquement et de manière· individuelle les signaux audio optimisés et donc la répartition de diffusion sonore optimisée.

Le procédé de gestion selon le troisième mode de réalisation de l'invention comporte les étapes d'estimer un indicateur de qualité dé la' réconnaissancë vocale, et de 20 définir la répartition de diffusion sonore optimisée en fonction de l'indicateur de qualité.

En effets, si l'utilisateur parle fort et clairement et se·· trouve à proximité des microphones 22, alors la reconnaissance vocale sera facile à réaliser, efficace et 25 de bonne qualité:, et il n'est pas forcément nécessaire de modifier la répartition de diffusion sonore nominale. Inversement, si l'utilisateur parle doucement et se trouve loin des microphones 22, la reconnaissance vocale sera difficile a réaliser, peu efficace et de mauvaise qualité, 30 et il sera nécessaire de modifier de manière importante la répartition de diffusion sonore nominale.

Lorsque le module de détection 27 détecte la présence d'un mot-clé dans le signal sonore capturé et envoie un signal, de début de reconnaissance, le module de détection 35 27 envoie aussi une indication de direction et un indicateur de qualité.

L'indication de direction permet de définir la direction d'origine dec paroles ou, plus exactement, la direction d'origine du mot-clé.

L'indicateur de qualité évalue la qualité d'un degré de certitude de la détection du mot-clé:. Le degré de certitude correspond à une évaluation de la fiabilité de la détection.

Si le module de détection 27 est certain d'avoir détecté le mot-clé avec un degré de certitude de: 100%, c'est à dire s'il considère que la fiabilité de la détection est égale à 100%, 1'indicateur de qualité est aussi égal à 100%, Si le module de détection 27 estime avoir détecté le mot—clé· avec un degré de certitude de 50%, l'indicateur de qualité est égal a 0% (car cela revient à considérer que la détection est inefficace, puisqu'en ne réalisant aucune analyse·, on parvient à un résultat tout aussi efficace) . Si le modulé de détection 27 estime avoir détecté le mot-clé avec un degré de certitude inférieur à 50%, le module de détection 27 considère que la- détection est erronée et que le mot-clé n'a pas été prononcé. Les valeurs intermédiaires de degrés de certitude: donneront des indicateurs de qualité intermédiaires. Bar exemple, l'indicateur de qualité sera égal à 50%· pour un degré de certitude égal à. 75%.

Le module de contrôle 29 configure le module de mixage en fonction de l'indication de direction et de l'indicateur: dé qualité, pour que le module·· de mixage 25: réduise plus: ou moins le 'volume des haut-parleurs 21 en fonction de la direction d'origine et de la qualité.

Ainsi, pour définir la répartition de diffusion sonore optimisée, on n'annule donc plus de signal audio nominal, mais on atténue un ou plusieurs signaux audio nominaux enfonction de l'indication de position et de l'indicateur de qualité,

Dans la répartition de diffusion Sonore optimisée, on atténue un signal audio nominal associé à au moins· un

15premier haut-parleur 21, et on alloue à au moins un deuxième haut-parleur voisin le signal audio nominal gui lui est aS'SOUié, auquel on ajoute une portion du signal audio nominal atténue.

On nomme 0 1'indiçateur de qualité. Q=1 correspond à

Un indicateur de qualité de 100%, soit â une qualité parfaite du degré de certitude de la détection du mot-clé. 0=0 correspond à un indicateur de qualité de 0%, soit à une qualité très mauvaise.

On suppose que la direction d'origine correspond au haut-parleur arrière-droit 21e.

Les signaux audio optimisés alloués au haut-parleur avant-centre 21c, au haut-parleur avant-gauche 21a et au haut-parleur basses-fréquences· sont égaux aux signaux audio 15 nominaux.

Le signal audio optimisé alloué au haut-parleur arrière-droit 21e est r

QxRR, soit Q fois le signal audio nominal alloué au hautparleur arrière-droit 21e.

On voit donc que le haut-parleur arrière-droit 21e n'est pas désactivé, mais que le signal audio nominal alloué· au haut-parleur arrière-droit 21e est· atténué pour obtenir le signal audio optimisé.

Le signal audio optimisé alloué au haut-parleur 25 airière-droit 21e sera très faiblë; si la qualité de la reconnaissance vocale est mauvaise.

Le signal audio optimisé alloué au haut-parleur avantdroit 21b est t

FR+(1—Q)xRR/2.

Le signal audio optimisé alloué au haut-parleur arrière-gauche 21d est :

RL+(1-Q)xRR/2.

Si la direction d' origine ne passe pas précisément· par un haut-parleur 21 déterminé, mais par un point situé entre 35 deux haut-parleurs 21, il est possible de tenir compte de la distance dudit point à chacun des deux haut-parleurs 21.

On considère par exemple que le point est situé au tiers de la distance entre le haut-parleur avant-droit 21b et le haut-parleur arrière-droit 21e, en étant plus proche du haut-parleur arrière-droit 21e. Dans ce cas, le signal 5 audio optimisé alloué· au haut-parleur avant-gauche 21a est égal au signal audio nominal.

Le signal audio optimisé alloué au haut-parleur-avant droit' 21b est égal à :

( 2/3+Q/3)xFR, le signal audio optimisé alloué au haut-parleur avantcentre 21c est égal à :

FOR(1-Q)/3xFR, le signal audio optimisé alloué au haut-parleur arrièredroit 21e est égal à :

(l/3+2xQ/3) xRR, et le signal aüdio optimisé alloué au haut-parleur arrièregauche 21d est égal à :

RL+2x(l-Q)/3xRR.

On note que les signaux audio optimisés peuvent être à 2 0 nouveau multipliés par un paramètre et afin d'éviter des effets de saturation.

On note aussi qu'il est possible de définir la répartition de diffusion sonore optimisée en fonction de l'indicateur de qualité en réalisant un prétraitement pour 25 produire un signal audio prétraité intégrant l'indicateur de qualité.· ün mixage « normal » est alors appliqué sur le signal audio prétraité. Par un mixage « normal », on entend que les· traitements réalisés par le module de mixage 25 ne tiennent pas· compte de l'indicateur de qualité.

L·'indicateur de qualité est ainsi appliqué via les entrées du module dé mixage 25, et non par dès traitements internes réalisés par le module de mixage 25.

Ceci permet d'obtenir la répartition de diffusion sonore optimisée tout' en utilisant un module de mixage 25 35 préexistant. Il n'est donc pas nécessaire de concevoir un nouveau module de mixage 25 pour appliquer l'indicateur de qualité.

On simplifie par ailleurs le procédé de gestion, car la répartition de diffusion sonore optimisée· est produite sans intervention du module de contrôle· 29 autre que·, par exemple, une activation du module de mixage 25 et/ou une activation du module de prétraitement.

Le module de prétraitement est positionné en amont du module de mixage 25, entre le module de mixage 25 et le module multicanal 24.

On considère que le module de mixage 25 comprend N entrées, pour le nombre de canaux du format· multicanal (ici N=5) , et deux sorties, pour le nombre de canaux du format stéréophon ique.

On utilise à nouveau 1'indication de direction correspondant au haut-parleur arrière-droit 21e et 1/indicateur de qualité.

'Les haut-parleurs avant-centre 21c, arrière-gauche 21d et basses-fréquences reçoivent leur signal audio nominal non modifié, et ne sont donc pas reliés· aux sorties du module de mixage 25 ni aux sorties; du module; de prétraitement. Les entrées correspondantes du module de mixage 25 sont donc· mises à zéro.

Le haut-parleur arrière-droit 21e reçoit du module de prétraitement le signal audio optimisé QxRR.

Le module de mixage 25 reçoit les signaux audio nominaux FR, FL, (1-Q) xRR sur ses- entrées;, correspondant respectivement aux' haut-parleur avant-droit 21b, au hautparleur avant-gauche 21a et au haut-parleur arrière-droit 21e. Les autres entrées du module de mixage 25 sont portées à zéro. Les haut-parleurs avant-gauche· 21a et avant-droit 21b sont reliés aux deux sorties; du module de mixage 25.

On obtient ainsi, grâce au module de prétraitement, une répartition de diffusion sonore optimisée' définie en fonction de l'indicatéür de qualité, sans que le module de mixage 25 ne soit défini en fonction· dudit indicateur de qualité.

On décrit maintenant les différentes architectures matérielles /harâiba.fe_f en anglais) dans lesquelles peut être mis en œuvre le procédé de gestion selon 1'invention, et donc dans lesquelles sont intégrés les différents 5 modules -qui ont été décrits.

Ces architectures comprennent chacune üh ensemble d'au moins un équipement électronique.

Pour améliorer la compréhension du lecteur, on rappelle que; les « dispositifs » évoqués dans le document, 10 c' est à dire le dispositif de diffusion audio et le dispositif de reconnaissance vocale, ne correspondent pas nécessairement à des « équipements », mais peuvent être chacun intégrés dans un ou plusieurs équipements.

Dans ce qui précède, l'ensemble comprend un premier 15 équipement électronique appartenant au dispositif de diffusion audio. De premier équipement électronique est ici le boîtier décodeur· 10, mais pourrait être un équipement électronique différent, par exemple une passerelle multimédia ou un amplificateur d'une installation de cinéma 20 à domicile.

Tous les modules ici décrits sont intégrés dans le premier équipement électronique. Le dispositif de reconnaissance· vocale et les microphones sont eux aussi intégrés dans le premier équipement électronique.

D'autres architectures sont aussi possibles.

Les microphones du dispositif de reconnaissance vocale pourraient être intégrés dans électronique séparé du premier Ainsi, le deuxième équipement un deuxième équipement équipement électronique. électronique capture le signal sonore et le transmet au premier équipement électronique via une liaison filaire ou non filairé (une liaison sans fil de type Bluetooth peut par exemple être utilisée) . Tous les modules ici décrits sent à nouveau intégrés· dans le premier équipement électronique.

On précise· d'ailleurs que, dans tout ce qui précède, la détection du signal d'activation par le module de détection peut consister uniquement à recevoir le signal de début de reconnaissance indiquant que le signal d'activation a été détecté. De même, la détection de fin des paroles peut consister à uniquement recevoir le signal 5 de fin de reconnaissance.

Dans ce cas, le signal d'activation peut être effectivement détecté par un équipement externe, qui transmet au module de détection du premier équipement électronique le signal de début dé reconnaissance. De même, 10 la fin des paroles peut être effectivement détectée pat l'équipement externe, qui transmet au module de détection du premier équipement électronique le signal de fin de reconnaissance.

On peut aussi prévoir que le module multicanal et le module de mixage· sont intégrés dans le premier équipement électronlqüë, alors que le module de contrôle, le module de détection, le module' de décision, le module de reconnaissance vocale et les microphones sont intégrés dans équipement électronique, par exemple dans un pod) .

du le fin haut-parleur sonore· et de début la de et

Le signal signal de reconnaissance, sonore optimisée· entre un deuxième haut-parleur intelligent (ou intelligent réalise^ la capture reconnaissance vocale, produit reconnaissance et le signal de applique la répartition de diffusion les haut-parleurs. Le premier équipement électronique et le deuxième équipement électronique· peuvent par exemple communiquer grâce à une liaison réseau de type Wi-Fi, ou bien par une liaison sans fil de type Bluetooth. Le deuxième· équipement électronique peut aussi être un as s i s t an t voca1.

Le module multicanal et le module de mixage peuvent de plus être intégrés dans un premier équipement électronique appartenant au dispositif· de diffusion audio, par exemple dans un amplificateur d'une installation de cinéma à domicile, les microphones dans un deuxième équipement électronique, par exemple un haut-parleur intelligent, et les autres modules dans un troisième équipement électronique « arbitre », par exemple un boîtier décodeur ou une passerelle résidentielle. Le troisième équipement électronique est externe au dispositif de diffusion audio 5 et au dispositif de reconnaissance vocale. Le deuxième équipement électroniquë envoie le signal sonote capturé au troisième équipement électronique via une liaison filaire ou une liaison sans fil de type Bluetooth. Le troisième équipement électronique envoie alors les; commandes au 10 premier équipement électronique via une liaison réseau filaire (par exemple de type Ethernet·)· ou via une liaison sans fil de type Wi-Ei ou Bluetooth.

Par ailleurs, le module de reconnaissance vocale peut partalternent être déporté dans un serveur sur Internet.

Dans ce cas, sur les figures 2 et 4, les cases correspondant au module de reconnaissance vocale doivent chacünë être remplacées par un module de communication adapté â transmettre le signal sonore capturé au serveur.

Lorsque le module de communication reçoit un signal de 20 début de reconnaissance de la part du module de détection, le module de communication commence a envoyer le signal sonore capturé au serveur. Lorsque le: module de communication reçoit un signal de fin de reconnaissance de la part du module de décision, le module de communication 25 cesse d'envoyer le signal sonore: capturé au serveur.

Bien entendu, l' invention n'est pas limitée: aux modes de réalisation décrits mais englobe toute variante entrant dans:· le: champ de l'invention telle que •définie: par les revendications.

On a décrit ici un dispositif de diffusion audio au format multicanal comprenant cinq haut-parleurs. Un nombre différent de haut-parleurs;, supérieur ou égal à trois, peut bien sûr être utilisé.

Le signal d'activation utilisé pour démarrer la 3:5 reconnaissance vocale est; ici un mot-clé prononcé par l'utilisateur. Le signal d'activation pourrait être différent. Il pourrait par exemple s'agir d'une pression sur un bouton ou de la réalisation d'un geste.

On a indiqué que la source externe, d'où provient le signal audio· d'entrée, est un serveur du réseau Internet.

II peut cependant s ' agir: de tout type de source externe d'où peut provenir un signal audio d'entrée, et notamment d'une antenne parabolique., d'un CD ou d'un DVD, etc.

Claims

REVENDICATIONS

1. Procédé de gestion d'un système comprenant un dispositif de diffusion audio et un dispositif de reconnaissance vocale permettant à un ütilisatéür (3) de communiquer avec le dispositif de diffusion audio, le dispositif de diffusion audio étant agencé dans un format multicanal et comportant au moins trois haut-parleurs (Il ; 21) agencés pour diffuser un signal audio d'entrée (Sae·) selon une répartition de diffusion sonore nominale entre les haut-parleurs, la répartition de diffusion sonore nominale· définissant des< signaux audio· nominaux (San:) alloués à chaque haut-parleur, le procédé de gestion comprenant les étapes de :

détecter un signal d'activation pour activer une reconnaissance vocale destinée: â reconnaître, dans un signal sonore capturé: par le dispositif de reconnaissance vocale, des paroles succédant au signal d'activation ;

lorsque le signal d'activation a été détecté, modifier la répartition de diffusion: sonore nominale pour appliquer une répartition de diffusion sonore optimisée entre les haut-parleurs permettant d'améliorer la reconnaissance vocale, la répartition de diffusion sonore optimisée définissant des signaux audio optimisés (Saoj alloués à chaque haut-parleur ;

- détecter une fin des paroles et, lorsque la fin des paroles a été détectée, modifier la répartition de diffusion sonore optimisée pour revenir à la répartition de diffusion sonore nominale.
2. Procédé de gestion selon la revendication 1, dans lequel la modification dé la répartition de diffusion sonore nominale comporte les étapes d’annuler ou d'atténuer un signal audio nominal (San) alloué à au moins un premier haut-parleur (11 ; 21), et d'allouer à au moins un deuxième haut-parleur (11 ; 21) le signal audio nominal qui lui est alloué auquel on ajoute une portion du signal audio nominal annulé ou atténué.

3. Procédé de gestion s ,θ.Σοπ la revendication 2, dans lequel le premier haut-par 1eur et le deuxième haut- parleur sont : voisins. 5 4. Procédé de gestion selon la revendication

comportant les étapes d'estimer une direction d'origine des paroles, et de définir la répartition de diffusion sonore optimisée en fonction de la direction d'origine·.
5. Procédé de gestion selon la revendication 4,

10 comportant les étapes, lorsque la direction d'origine passe par un point situé entre deux haut-parleurs, de définir la répartition: de diffusion sonore optimisée en fonction de la position de ce point par rapport aux deux haut-parleurs.
6. Procédé de gestion selon la revendication 2·.,

15 dans lequel le dispositif de diffusion audio comporte: un haut-parleur avant-gauche (lia), un haut-parleur avantdroit (11b), un haut-parleur arrière-gauche (lld), un hautparleur arrière-droit (lie), un haut-parleur avant—centre (lie), un haut-parleur basses-fréquences, la modification

20 de la répartition de diffusion sonore nominale consistant à annuler les signaux audio nominaux du haut-parleur arrièregauche, du haut-parleur arrière droit· et du haut-parleur avant-centre, et d'allouer le signal audio optimisé L au haut-parleur avant-gauche et le signal audio optimisé R au

25 haut-parleur· avant-droit, tels que :

L=a.(Fh+RL+FC/l)

R=œ. (FR+RR+FC/2), ou bien l=a.(FL+RLfFC/2+ÉFE/2)

30 R=tt. (:FRdRR+FC/2+EFE/2) , où FL·, FR,· RL, RR, FC, LFE sont les signaux nominaux alloués respectivement au haut-parleur avant-gauche, au haut-parleur avant-droit, au haut-parleur arrière-gauche, au haut-parleur arrière-droit, au haut-parleur avant-centre

35 et au haut-parleur basses-fréquences, le coefficient a étant destiné à éviter des phénomènes de saturation.
7. Procédé de gestion selon la revendication 1, comportant les étapes d'estimer un indicateur de; qualité de là reconnaissance vocale, et de définir la répartition de diffusion sonore - optimisée en fonction de l'indicateur de

5 qualité.
8. Procédé de gestion selon la revendication 7, dans lequel la définition de la répartition de diffusion sonore optimisée en fonction de 1'indicateur de qualité consiste à réaliser un prétraitement pour produire; un

1Θ signal audio prétraité intégrant 1·'indicateur de qualité, et à appliquer un mixage sur le signal audio prétraité.
9;. Ensemble d' au moins; un équipement électronique agencé pour mettre; en œuvre un procédé de gestion, selon l'une des- revendications précédentes;, un module de

15 détection (17 ; 27), un module de mixage (15 ; 25) et un module de contrôle (19 ; 29) étant intégrés dans l'ensemble, le module de détection étant agencé pour détecter le signal d'activation, le module de mixage étant agencé pour définir la répartition de diffusion sonore optimisée, et le module de contrôle étant agencé pour appliquer la. répartition de diffusion; sonore optimisée entre les haut-parleurs (11 ; 21) ,
10. Ensemble selon la revendication 9, le module de contrôle (29) étant agencé pour configurer dynamiquement le module de mixage; (25) .
11. Ensemble selon la revendication 9, l'ensemble comprenant un premier équipement électronique (10 ) appartenant au dispositif de diffusion audio;.
12. Ensemble selon la revendication 11, l'ensemble comprenant équipement un unique équipement électronique, 1'unique électronique étant le premier équipement électronique; (10 ) .
13.

équipement

Ensemble selon; la revendication 12, le premier électronique comprenant en outre au moins; un microphone (12) , le; dispositif de reconnaissance vocale étant intégré dans le premier équipement électronique (10).
14. Ensemble selon la revendication 9, comprenant un premier équipement électroniquè et un deuxième équipement électronique, le module de mixage étant intégré dans le premier équipement électronique, le module de contrôle et le module de détection étant intégrés dans le deuxième équipement électronique.
15. Ensemble selon la revendication 9, comprenant un premier équipement électronique, un deuxième équipement électronique et; un troisième équipement électronique, le module de mixage étant intégré dans le premier équipement électronique, au moins un microphone (12) étant intégré dans le deuxième équipement électronique, le module contrôle et le module de détection étant intégrés dans troisième de le
16.

é qu ipeme nt é1ect ronique.

Ensemble selon la revendication 15, le troisième dispositif reconnaissance vocale.

équipement électronique étant externe de diffusion audio et au dispositif au de
17.

Ensemble selon l'une des revendications

16, boîtier le premier équipement électronique étant un décodeur (10) ou une passerelle multimédia amplificateur d'une installation de cinéma à domicile.
18. Programme d'ordinateur comprenant des ou un instructions pouf mettre en œuvre, par un microcontrôleur d'un boîtier décodeur, le procédé de gestion selon l'une des 'revendications 1 à 8.
19. Moyens de stockage, caractérisés en ce qu'ils stockent un programme d'ordinateur comprenant des instructions pour mettre en œuvre, par un microcontrôleur