FR3087289A1

FR3087289A1 - Dispositif de selection d'une source audio, systeme de reconnaissance vocale et procede associes

Info

Publication number: FR3087289A1
Application number: FR1859557A
Authority: FR
Inventors: Norbert Rossello
Original assignee: Renault SAS; Nissan Motor Co Ltd
Current assignee: Renault SAS; Nissan Motor Co Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2020-04-17
Anticipated expiration: 2038-10-16
Also published as: FR3087289B1

Abstract

Le dispositif de sélection d'une source audio (6) pour un système de reconnaissance vocale d'un véhicule automobile, comprend un module de communication (15) pour échanger des données avec au moins un dispositif de capture vocale sans fil (12, 13) intégré dans l'habitacle (9) du véhicule (2), un module de calcul (16) pour déterminer un score de qualité du signal vocal capturé par un dispositif de capture vocale filaire (8) et un module de traitement (14) pour sélectionner un moins un dispositif de capture vocale et transmettre des données audio reçues du dispositif de capture vocale sélectionné à un module de reconnaissance vocale (3).

Description

Dispositif de sélection d’une source audio, système de reconnaissance vocale et procédé associés

La présente invention concerne un système de reconnaissance vocale destiné à être utilisé dans un véhicule automobile.

La présente invention concerne plus particulièrement un système de reconnaissance vocale comprenant un dispositif de sélection d’une source audio communiquant avec un ensemble de dispositifs de capture vocale situés dans l’habitacle du véhicule et un procédé de mise en œuvre d’un tel dispositif.

Un véhicule automobile comprend généralement plusieurs interfaces homme-machine de types différents tels que des dispositifs d’affichage, des boutons et un système de reconnaissance vocale.

De par leur simplicité d’utilisation, les systèmes de reconnaissance vocale se déploient rapidement dans les véhicules automobiles et sont généralement employés pour commander des dispositifs de navigation, de téléphonie ou de radio.

Un système de reconnaissance vocale nécessite une phase d’apprentissage pour identifier un signal vocal comprenant des ordres vocaux émis par l’utilisateur du système se trouvant dans l’habitacle du véhicule.

Le système comprend un dispositif de capture vocale fixe, généralement un microphone, intégré par exemple dans la planche de bord du véhicule ou dans le plafonnier.

Cette phase d’apprentissage se déroule généralement lorsque le véhicule automobile est à l’arrêt, moteur éteint et que seul l’utilisateur émet des ordres vocaux. Cette phase d’apprentissage est gérée par le module de reconnaissance vocale à l’aide de bases de données audio et ceci au préalable de son déploiement.

Cependant, lorsque le véhicule automobile est utilisé, plusieurs personnes inconnues du système peuvent également émettre des signaux vocaux simultanément aux ordres vocaux émis par l’utilisateur.

De plus, le système audio du véhicule est susceptible d’émettre des sons dans l’habitacle.

Par ailleurs, l’environnement sonore engendré par le moteur du véhicule, le système de climatisation et de ventilation et le roulage du véhicule constitue une perturbation additionnelle.

Les sons et bruits présents dans l’habitacle interfèrent avec les ordres vocaux donnés au système de reconnaissance vocale de sorte que les signaux générés par le microphone sont bruités et diffèrent des signaux générés par le microphone lors de la phase d’apprentissage du système.

Par conséquent, le système n’interprète pas l’ordre vocal comme souhaité par l’utilisateur.

L’utilisateur peut être amené à répéter plusieurs fois l’ordre vocal sans parfois parvenir à ce qu’il soit correctement reconnu et interprété par le système de reconnaissance vocale.

Afin d’optimiser la reconnaissance vocale, selon une première solution technique connue, un traitement de réduction du bruit est appliqué sur le signal vocal avant la reconnaissance vocale.

Cependant, le traitement de réduction de bruit introduit des taux d’harmoniques gênant la reconnaissance vocale.

Selon une deuxième solution technique connue, les sources de bruit commandables dans l’habitacle sont coupées ou fonctionnent de manière à générer le moins de bruit possible lorsque l’utilisateur émet un signal vocal.

Il est par exemple possible de couper ou limiter le fonctionnement du système de climatisation et de ventilation pour annuler ou réduire les bruits de ventilation.

Cependant, réduire ou couper les sources de bruit nuit au confort de l’utilisateur.

Selon une troisième solution connue de l’état de la technique, les bruits ambiants sont enregistrés dans une base de connaissance par le système de reconnaissance vocale lors de la phase d’apprentissage de manière à extraire le signal vocal de l’utilisateur.

Cependant, les bruits doivent avoir été reconnus lors de la phase d’apprentissage, et si un nouveau bruit apparaît lors de l’utilisation du système de reconnaissance vocale, il sera incapable de le filtrer.

Selon une quatrième solution connue, la capture du signal vocal est améliorée en augmentant le nombre de microphones et en optimisant le placement de ces derniers dans l’habitacle de manière à capter le signal vocal.

Cependant, les microphones sont fixes dans l’habitacle et, selon la position de l’utilisateur, la capture du signal vocal n’est pas optimisée. En outre, les coûts de mise au point du système de reconnaissance vocale sont augmentés.

On pourra également se référer au document US2017/0206898 qui divulgue un système d’assistance d’un système de reconnaissance vocale.

Le système d’assistance envoie des signaux générés par une pluralité de dispositifs de capture audio à un réseau qui gère la reconnaissance vocale.

Cependant, les flux de données générés par les dispositifs de capture audio peuvent saturer le réseau.

De plus, en cas de perte de connexion, ce système est totalement inefficace.

Il est donc proposé de pallier les inconvénients liés à la capture d’un signal audio émis par un utilisateur, en utilisant un dispositif de capture vocale fixe présent dans l’habitacle du véhicule automobile sans rajouter de dispositif de capture vocale, en n’interférant pas sur le fonctionnement des sources de bruit commandables présents dans l’habitacle, et en ne créant pas de base de connaissance.

Au vu de ce qui précède l’invention a pour objet un procédé de sélection d’une source audio pour un système de reconnaissance vocale d’un véhicule automobile.

On sélectionne au moins un dispositif de capture vocale parmi un ensemble d’au moins un dispositif de capture vocale sans fil et d’au moins un dispositif de capture vocale filaire présents dans l’habitacle du véhicule selon un score de qualité du signal vocal capturé par chaque dispositif de capture vocale.

On capture plusieurs flux audio pour sélectionner le flux de meilleure qualité qui optimise la reconnaissance vocale associée.

Selon une caractéristique, chaque dispositif de capture vocale sans fil calcule le score de qualité du signal vocal capturé.

De préférence, on classe les dispositifs de capture vocale sans fil selon leur score de qualité, on sélectionne le dispositif de capture vocale sans fil ayant le score de qualité le plus élevé, on calcule le score de qualité du signal vocal capturé par le dispositif de capture vocale filaire, on sélectionne le dispositif de capture vocale ayant le score de qualité le plus élevé parmi le dispositif de capture vocale sans fil sélectionné et le dispositif de capture vocale filaire, et on transmet à un module de reconnaissance vocale des données audio reçues du dispositif de capture vocale sélectionné.

Avantageusement, si les scores de qualité du dispositif de capture audio sans fil sélectionné et du dispositif de capture vocale filaire sont égaux à une tolérance près, on mélange les données audio reçues des deux dispositifs de capture vocale, et on transmet au module de reconnaissance vocale les données audio mélangées.

Le mélange des données audio reçues des deux dispositifs de capture vocale permet d’optimiser la qualité des données audio qui sont transmises.

Selon une autre caractéristique, le dispositif de capture vocale sélectionné transmet des données audio du type brutes ou encodées, ou transmet des données audio comprenant des paramètres caractéristiques des données vocales capturées.

L’invention a également pour objet un dispositif de sélection de source audio pour un système de reconnaissance vocale d’un véhicule automobile.

Le dispositif comprend un module de communication pour échanger des données avec au moins un dispositif de capture vocale sans fil intégré dans l’habitacle du véhicule, un module de calcul pour déterminer un score de qualité du signal vocal capturé par un dispositif de capture vocale filaire et un module de traitement pour sélectionner un moins un dispositif de capture vocale et transmettre des données audio reçues du dispositif de capture vocale sélectionné à un module de reconnaissance vocale.

De préférence, le module de calcul est apte à mettre en œuvre un algorithme de détection de parole et apte à calculer un score de qualité du signal vocal capturé.

Selon encore un autre aspect, il est proposé un système de reconnaissance vocale pour véhicule automobile comprenant un dispositif de sélection de source audio tel que défini précédemment, un dispositif de capture vocale filaire et d’au moins un dispositif de capture vocale sans fil reliés au dispositif de sélection de source audio, et un module de reconnaissance vocale relié audit dispositif de sorte que le dispositif de sélection transfère des données audio reçues d’au moins l’un desdits dispositifs de capture vocale audit module.

Avantageusement, le dispositif de capture vocale sans fil est apte à mettre en œuvre un ou plusieurs algorithmes.

De préférence, le dispositif de capture vocale sans fil comprend un objet connecté du type montre, bracelet, smartphone ou paire de lunette.

D’autres caractéristiques et avantages de l’invention apparaîtront à la lecture de la description qui suit de modes de réalisation de l’invention, donnés uniquement à titre d’exemples non limitatifs et en référence aux dessins sur lesquels :

- la figure 1 illustre un mode de réalisation d’un système de reconnaissance vocale pour un véhicule automobile ; et

- la figure 2 illustre un mode de mise en œuvre du système de reconnaissance vocale.

On se réfère à la figure 1 qui illustre un mode de réalisation d’un système de reconnaissance vocale 1 pour un véhicule automobile 2.

Le système de reconnaissance vocale 1 comprend un module de reconnaissance vocale 3 comprenant une entrée de données audio 4 reliée à une sortie 5 d’un dispositif de sélection 6 de source audio.

Le module de reconnaissance vocale 3 convertit les données audio reçues sur son entrée 4 en instructions exploitables par les différents systèmes du véhicule, par exemple des instructions de commande d’un système de navigation, d’une radio ou d’un système de climatisation et de ventilation.

Une entrée 7 de données audio du dispositif de sélection 6 est reliée par une liaison filaire à un dispositif de capture vocale filaire comprenant généralement un microphone (simple ou double) 8 fixé à un endroit déterminé dans l’habitacle 9 du véhicule 2.

Généralement, le microphone 8 est intégré à la planche de bord ou au plafonnier du véhicule 2.

Le microphone 8 convertit un signal vocal bruité capturé dans l’habitacle 9 en données audio numériques exploitables par le dispositif 6.

Le signal vocal bruité comprend le signal vocal émis par un utilisateur 10 comprenant des ordres de commandes, par exemple des ordres de commande d’un dispositif de navigation intégré dans le véhicule 2, et des bruits interférants générés par exemple par le roulage du véhicule 2 sur la chaussée, l’ouverture d’une ou plusieurs vitres du véhicule, des conversations entre des passagers du véhicule, une radio en fonctionnement et/ou le système de climatisation et de ventilation.

Le microphone 8 associé à un bloc de traitement peut traiter les données audio numériques par exemple en appliquant un traitement de réduction de bruit préalablement à leur transmission au dispositif 6.

Le dispositif de sélection 6 comprend une interface de communication sans fil 11 communiquant avec des dispositifs de capture vocale sans fil 12 et 13 présents dans l’habitacle 9, par exemple selon le protocole « Bluetooth Low Energy ».

Les dispositifs de capture vocale sans fil 12 et 13 capturent et convertissent le signal vocal bruité présent dans l’habitacle 9 en données audio numériques exploitables par le dispositif 6 et calculent chacun un score de qualité du signal vocal capturé.

Bien entendu les dispositifs de capture vocale sans fil 12 et 13 comprennent un microphone pour capturer un signal vocal.

Le score de qualité du signal vocal capturé comprend au moins le rapport signal sur bruit du signal vocal capturé.

Un algorithme de détection de parole est mis en œuvre par chaque dispositif de capture vocale sans fil 12 et 13 pour calculer le rapport signal sur bruit du signal vocal bruité capturé afin de dissocier le signal vocal émis par l’utilisateur 10 des bruits en utilisant des seuils de détection.

Les seuils de détection sont par exemple déterminés de manière expérimentale ou prédéterminés par exemple dans le cas de l’utilisation de la détection de parole du Codec G.729.

En variante, les dispositifs 12 et 13 peuvent en outre traiter les données audio numériques par exemple en appliquant un traitement de réduction de bruit préalablement à leur transmission au dispositif 6.

Chaque dispositif de capture vocale sans fil 12 et 13 est apte à capturer et numériser un signal vocal bruité, mettre en œuvre un algorithme de détection de parole de manière à calculer le score de qualité du signal vocal capturé comprenant un rapport signal sur bruit et à échanger des données avec le dispositif de sélection 6.

Il peut en outre mettre en œuvre un algorithme de traitement du signal du type réduction de bruit.

Les dispositifs de capture sont avantageusement intégrés à un dispositif. Par exemple, le dispositif 12 est un smartphone et le dispositif de capture vocale sans fil 13 comprend une montre connectée portée par l’utilisateur 10.

Le dispositif de capture vocale sans fil peut comprendre tout autre dispositif connecté apte à capturer un signal vocal bruité dans l’habitacle 9, à numériser le signal vocal bruité, mettre en œuvre un algorithme de détection de parole pour calculer un score de qualité du signal vocal capturé et à échanger des données avec le dispositif de sélection 6, par exemple une paire de lunette connectée, un bracelet connecté.

Le dispositif de sélection 6 comprend un module de traitement 14 comprenant une première connexion reliée à la sortie 5 du dispositif de sélection 6, une deuxième connexion reliée à un module de communication 15 et une troisième connexion reliée à un module de calcul 16 pour calculer un score de qualité du signal audio capturé par le microphone 8.

De préférence, le dispositif de sélection 6 est dimensionné pour communiquer avec une pluralité de dispositifs de capture vocale sans fil présents dans l’habitacle 9 et avec le microphone 8.

Le module de communication 15 est en outre relié à l’interface de communication sans fil 11 et le module de calcul 16 est en outre relié à l’entrée de données audio 7 du dispositif de sélection 6.

Le module de traitement 14 sélectionne un dispositif de capture audio parmi les dispositifs de capture vocale filaire 8 ou sans fil 12 et 13 selon la valeur du score de qualité du signal vocal capturé attribué à chacun des dispositifs 8, 12 et 13, et transmet les données audio reçues du dispositif sélectionné au module de reconnaissance vocale 3 par l’intermédiaire du module de communication 15 ou du module de calcul 16.

En variante, le module de traitement 14 peut traiter les données reçues par le dispositif de capture vocale sélectionné afin d’améliorer la qualité des données audio transmises au module 3.

Le module de traitement 14 peut mettre en œuvre, par exemple un algorithme d’annulation de bruit et/ou un algorithme d’annulation d’écho acoustique, ou utiliser les résultats fonctionnels de la mise en œuvre d’un algorithme d’annulation de bruit et/ou un algorithme d’annulation d’écho acoustique mis en œuvre par le dispositif de capture vocale sélectionné.

On se réfère à présent à la figure 2 qui représente un exemple de mise en œuvre du système de reconnaissance vocale 1.

Préalablement à l’utilisation du système 1, l’utilisateur doit charger une application sur chaque dispositif de capture vocale sans fil 12 et 13 permettant de communiquer avec le dispositif de sélection 6 et comprenant un algorithme de calcul du score de qualité du signal vocal capturé.

De plus, une phase d’apprentissage doit avoir été menée.

Lors de l’étape 20, le dispositif de sélection 6 envoie une requête d’identification reçue par les dispositifs de capture vocale sans fil 12 et 13 présents dans l’habitacle 9.

A l’étape 21, les dispositifs de capture vocale sans fil 12 et 13 s’identifient en émettant des données d’indentification reçues par le module de communication 15.

Puis à l’étape 22, le dispositif de sélection 6 envoie une requête de sorte que chaque dispositif de capture vocale sans fil 12 et 13 identifié calcule un score de qualité du signal vocal capturé.

Les dispositifs de capture vocale sans fil 12 et 13 calculent chacun un score de qualité, et transmettent la valeur du score de qualité calculé au dispositif de sélection 6.

On suppose que la valeur du score de qualité du dispositif 13 est supérieure à la valeur du score de qualité du dispositif 12, le dispositif 13 étant à proximité de la bouche du l’utilisateur et le dispositif 12 étant par exemple sous un siège du véhicule 2.

Durant l’étape 23, le dispositif de sélection 6 classe les dispositifs de capture vocale sans fil selon leur score de qualité et sélectionne le dispositif de capture vocale sans fil 13 ayant le score de qualité le plus élevé, et calcule le score de qualité du signal vocal capturé par le dispositif de capture audio filaire 8.

Si la valeur du score de qualité du dispositif 13 est égale à la valeur du score de qualité du dispositif 8 à une tolérance près, durant l’étape 24, le dispositif de sélection 6 demande au dispositif 13 de transmettre les données audio numériques du signal vocal bruité capturé et mélange les données audio reçues par les deux dispositifs 8 et 13 de manière à améliorer la qualité de la retranscription des ordres vocaux en données audio numériques, et le dispositif de sélection 6 transmet au module de reconnaissance vocale 3 les données audio mélangées.

Si la valeur du score de qualité du dispositif 13 n’est pas égale à la valeur du score de qualité du dispositif 8 à une tolérance près, durant l’étape 25, le dispositif de sélection 6 sélectionne le dispositif de capture vocale ayant le score de qualité le plus élevé parmi le dispositif de capture vocale sans fil 13 sélectionné et le dispositif de capture audio filaire 8.

On suppose que le score de qualité du dispositif 13 est supérieur au score de qualité du dispositif 8.

Le dispositif 6 transmet au module de reconnaissance vocale 3 les données audio numériques du signal vocal bruité capturé reçues du dispositif 13.

Réciproquement, si on suppose que le score de qualité du dispositif 8 est supérieur au score de qualité du dispositif 13, le dispositif 6 transmet au module de reconnaissance vocale 3 les données audio numériques du signal vocal bruité capturé reçues du dispositif 8.

La tolérance est par exemple égale à 4 décibels en moyenne de rapport signal sur bruit.

Les scores de qualité des dispositifs 12 et 13 sont régulièrement transmis au dispositif 6 de manière à optimiser la capture du signal vocal.

Si, par exemple, suite au déplacement de l’utilisateur 10 dans l’habitacle 9, la valeur du score de qualité du dispositif 12 devient supérieure à la valeur des scores de qualité des dispositifs 13 et 8, les données audio du dispositif 12 sont transmises au module 3 de reconnaissance vocale.

Le ou les dispositifs de capture sélectionnés transmettent des données audio du type brutes ou encodées, ou transmettent des données audio comprenant des paramètres caractéristiques des signaux vocaux capturés, par exemple des coefficients connus sous le terme anglo-saxon Mel-Frequency Cepstral Coefficients (MFCC) de sorte que le système de reconnaissance vocale 1 peut intégrer la plupart des modules de reconnaissance vocal 3 présents dans les véhicules automobiles.

Par conséquent, le système 1 est facilement déployable sur des véhicules existants. Il suffit en effet de rajouter le dispositif de sélection 6.

Le système de reconnaissance 1 permet d’augmenter les 5 performances de la reconnaissance vocale dans l’habitacle bruyant d’un véhicule automobile roulant sans rajouter de dispositif de capture vocale fixe tout en limitant les flux de données échangées entre les dispositifs de capture vocale et le module de reconnaissance audio.

Claims

REVENDICATIONS

1. Procédé de sélection d’une source audio pour système de reconnaissance vocale d’un véhicule automobile, caractérisé en ce qu’on sélectionne au moins un dispositif de capture vocale parmi un ensemble d’au moins un dispositif de capture vocale sans fil (12,13) et d’au moins un dispositif de capture vocale filaire (8) présents dans l’habitacle du véhicule selon un score de qualité du signal vocal capturé par chaque dispositif de capture vocale.
2. Procédé selon la revendication 1, dans lequel chaque dispositif de capture vocale sans fil (12, 13) calcule le score de qualité du signal vocal capturé.
3. Procédé selon l’une des revendications 1 et 2, dans lequel on classe les dispositifs de capture vocale sans fil (12, 13) selon leur score de qualité, on sélectionne le dispositif de capture vocale sans fil ayant le score de qualité le plus élevé, on calcule le score de qualité du signal vocal capturé par le dispositif de capture vocale filaire (8), on sélectionne le dispositif de capture vocale ayant le score de qualité le plus élevé parmi le dispositif de capture vocale sans fil sélectionné et le dispositif de capture vocale filaire, et on transmet à un module de reconnaissance vocale (3) des données audio reçues du dispositif de capture vocale sélectionné.
4. Procédé selon la revendication 3, dans lequel si les scores de qualité du dispositif de capture audio sans fil (12, 13) sélectionné et du dispositif de capture vocale filaire (8) sont égaux à une tolérance près, on mélange les données audio reçues des deux dispositifs de capture vocale, et on transmet au module de reconnaissance vocale (3) les données audio mélangées.
5. Procédé selon l’une des revendications 3 et 4, dans lequel le dispositif de capture vocale sélectionné (8, 12, 13) transmet des données audio du type brutes ou encodées, ou transmet des données audio comprenant des paramètres caractéristiques des données vocales capturées.
6. Dispositif de sélection d’une source audio (6) pour système de reconnaissance vocale de véhicule automobile, caractérisé en ce qu’il comprend un module de communication (15) pour échanger des données avec au moins un dispositif de capture vocale sans fil (12, 13) intégré dans l’habitacle (9) du véhicule (2), un module de calcul (16) pour déterminer un score de qualité du signal vocal capturé par un dispositif de capture vocale filaire (8) et un module de traitement (14) pour sélectionner un moins un dispositif de capture vocale et transmettre des données audio reçues du dispositif de capture vocale sélectionné à un module de reconnaissance vocale (3).
7. Dispositif selon la revendication 6, dans lequel le module de calcul (16) est apte à mettre en œuvre un algorithme de détection de parole et apte à calculer un score de qualité du signal vocal capturé.
8. Système de reconnaissance vocale (1) pour un véhicule automobile (2) comprenant un dispositif de sélection d’une source audio (6) selon l’une des revendications 6 et 7, un dispositif de capture vocale filaire (8) et au moins un dispositif de capture vocale sans fil (12, 13) relié au dispositif de sélection d’une source audio, et un module de reconnaissance vocale (3) relié audit dispositif de sorte que le dispositif de sélection transfère des données audio reçues d’au l’un moins desdits dispositifs de capture vocale audit module.
9. Système de reconnaissance vocale selon la revendication 8, dans lequel le dispositif de capture vocale sans fil (12, 13) est apte à mettre en œuvre un ou plusieurs algorithmes.
10. Système de reconnaissance vocale selon l’une des revendications 8 et 9, dans lequel le dispositif de capture vocale sans fil (12, 13) comprend un objet connecté du type montre, bracelet, smartphone ou paire de lunettes.