FR3104796A1

FR3104796A1 - Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile

Info

Publication number: FR3104796A1
Application number: FR1914151A
Authority: FR
Inventors: Fatimazahra Barakat
Original assignee: PSA Automobiles SA
Current assignee: PSA Automobiles SA
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2021-06-18
Anticipated expiration: 2039-12-11
Also published as: FR3104796B1

Abstract

L’invention concerne un procédé de détection d’un mot-clé pour un système à commande vocale embarqué à bord d’un véhicule automobile, le procédé comportant : - une étape d’analyse sonore (30), cette étape comportant l’analyse des sons captés par au moins un premier et un deuxième microphones embarqués à bord du véhicule, afin de détecter si le mot-clé d’activation est prononcé par un occupant du véhicule, le premier microphone étant situé plus près de la place du conducteur que le deuxième microphone, le deuxième microphone étant situé plus près de la place d’un passager avant que le premier microphone ; - une étape d’analyse vidéo (34), cette étape comportant l’analyse des images captées par au moins une caméra configurée pour capter des images du visage du conducteur du véhicule, afin de détecter si une séquence de mouvements des lèvres du conducteur correspond à la prononciation du mot-clé d’activation. Figure pour l’abrégé : Fig. 2

Description

Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile

L’invention se rapporte au domaine des systèmes embarqués à bord des véhicules automobiles, et concerne plus particulièrement la mise en œuvre, dans un véhicule automobile, d’un assistant personnel virtuel avec contrôle par la voix d’un utilisateur.

Les assistants personnels virtuels (APV), ou assistants personnels intelligents (API), sont des systèmes embarqués, par exemple dans des dispositifs électroniques portables (tels que tablettes, smartphones, etc.), qui permettent d’exécuter des tâches ou de fournir des services spécifiques à leurs utilisateurs. Ils utilisent pour cela des informations telles que le contexte de leur utilisation, un profil d’utilisateur, et des données d’entrée fournies par l’utilisateur (par exemple des commandes et/ou requêtes spécifiques). Ils permettent ainsi de fournir à chaque utilisateur une assistance pertinente et personnalisée pour l’utilisation d’un appareil, pour la réalisation de certaines tâches, pour obtenir des informations, etc.

Pour rendre leur utilisation plus ergonomique, la plupart des APV connus peuvent aussi être contrôlés vocalement, c’est-à-dire par la voix de l’utilisateur. Par « contrôlé vocalement » on entend à la fois le fait d’être activé à partir d’un état de veille, et le fait d’être commandé par l’intermédiaire de commandes ou de requêtes exprimées oralement par l’utilisateur, et reconnues comme telles par l’APV. Une fonction de reconnaissance vocale est alors mise en œuvre par l’APV. Une telle fonction a pour objectif de reconnaître des mots prononcés par un utilisateur. Une séquence de mots reconnus peut alors être traitée par l’APV, qui les analyse pour en déduire la commande ou la requête exprimée par l’utilisateur, et pour exécuter ensuite la tâche ou fournir le service correspondant.

La possibilité d’une commande vocale d’un APV est particulièrement utile à bord d’un véhicule automobile, où le fait de pouvoir commander un dispositif sans utiliser ses mains concourt à une meilleure sécurité. Le conducteur peut en effet activer une fonctionnalité ou un service sans utiliser ses mains qui demeurent donc libres pour la conduite, et sans devoir détourner le regard de la route en sorte que sa vigilance est peu affectée.

Afin de permettre l’activation de l’APV en réponse à une commande vocale prononcée par un utilisateur, le moteur de reconnaissance vocale peut mettre en œuvre une fonction de détection d’un mot-clé d’activation, aussi appelé mot de réveil (ou Wuw, pour « Wake-up word » en anglais). Cette fonction de détection du mot-clé d’activation est adaptée pour activer l’APV dès qu’elle reconnaît un ou plusieurs mots-clés d’activation prédéfinis. Dès qu’un tel mot-clé d’activation est reconnu, l’APV concerné peut être activé et la séquence de mots à laquelle le mot-clé appartient peut alors être traitée par le moteur de reconnaissance vocale pour en déduire, le cas échéant, une commande ou une requête correspondante de l’utilisateur.

Il est connu de mettre en œuvre, dans un véhicule, un moteur de détection de mot-clé d’activation. D’un point de vue fonctionnel, un tel moteur peut être conçu comme un module séparable du moteur de reconnaissance vocale (ou moteur de ASR), et est spécialement adapté pour permettre, à partir d’un signal audio capté par un ou plusieurs microphones, d’identifier la prononciation d’un mot-clé d’activation par l’un quelconque des utilisateurs qui sont assis à des positions respectives dans le véhicule : le conducteur ou l’un des passagers.

Toutefois, il peut être vivement souhaitable de permettre la mise en œuvre de l’APV d’une manière qui soit propre à chacun des occupants, par exemple pour s’assurer que certaines commandes puissent être réservées exclusivement au conducteur. Afin de localiser le locuteur lorsque le mot-clé d’activation est détecté (la localisation étant l’identification de la place assise dans le véhicule où le locuteur est situé), il est possible de déterminer un indice de confiance de détection du mot-clé pour chaque canal audio (c’est-à-dire pour chaque microphone), et de prendre en compte le rapport signal/bruit de chaque microphone. Toutefois, dans certaines conditions, cette double analyse ne permet pas de discriminer suffisamment les signaux capté par chaque microphone, ce qui engendre un indice de confiance très proche entre les deux canaux, et, par conséquent, de possibles erreurs dans la localisation du locuteur.

L’invention a pour objectif de remédier aux inconvénients de l’état de la technique, et plus particulièrement ceux-ci-dessus exposés, en proposant un procédé et un système de détection de mot-clé d’activation qui présentent une robustesse améliorée quant à la localisation de l’occupant prononçant le mot-clé d’activation.

À cet effet, l’invention concerne un procédé de détection d’un mot-clé d’activation pour un système à commande vocale embarqué à bord d’un véhicule automobile, le procédé comportant:

- une étape d’analyse sonore, cette étape comportant l’analyse des sons captés par au moins un premier et un deuxième microphones embarqués à bord du véhicule, afin de détecter si le mot-clé d’activation est prononcé par un occupant du véhicule, le premier microphone étant situé plus près de la place du conducteur que le deuxième microphone, le deuxième microphone étant situé plus près de la place d’un passager avant que le premier microphone;

- une étape d’analyse vidéo, cette étape comportant l’analyse des images captées par au moins une caméra configurée pour capter des images du visage du conducteur du véhicule, afin de détecter si une séquence de mouvements des lèvres du conducteur correspond à la prononciation du mot-clé d’activation.

Ainsi, en combinant une détection sonore de la prononciation d’un mot-clé d’activation, c’est-à-dire une détection par le biais des sons émis par le locuteur, et une détection vidéo de la prononciation de ce mot-clé, c’est-à-dire une détection par le biais de l’analyse des mouvements de ses lèvres, captés par une caméra, l’invention améliore la robustesse de la localisation du locuteur. En effet, lorsque les signaux respectifs des microphones ne permettent pas de déterminer si c’est le conducteur ou un passager qui est à l’origine de la prononciation du mot-clé d’activation (ou ne permettent pas cette détermination avec un taux de confiance suffisamment élevé), cette discrimination peut être réalisée ou validée grâce à l’analyse du mouvement des lèvres des occupants avant du véhicule, ou au moins de celles du conducteur.

Dans une réalisation, le procédé comporte l’étape de déterminer, pour chacun des premiers et deuxièmes microphones, un indice de confiance de détection sonore.

Dans une réalisation, le procédé comporte l’étape de déterminer, pour la ou les caméra(s), un indice de confiance de détection vidéo.

Dans une réalisation, le procédé comporte l’étape de déterminer, en fonction des indices de confiance de détection sonore et de l’indice de confiance de détection vidéo, si un occupant a prononcé le mot-clé d’activation, et de déterminer alors quel occupant a prononcé le mot-clé d’activation.

Dans une réalisation, pour la détermination de l’occupant ayant prononcé le mot-clé d’activation, l’indice de confiance de détection vidéo est affecté d’un poids supérieur au poids affecté aux indices de confiance de détection sonore.

Dans une réalisation, l’étape d’analyse vidéo comporte l’analyse des images captées par deux caméras:

- une première caméra configurée pour capter des images du visage du conducteur, à l’exclusion d’autres occupants du véhicule; et

- une deuxième caméra configurée pour capter des images du visage d’un ou plusieurs passagers avant, à l’exclusion du conducteur.

L’invention concerne également un système de détection d’un mot-clé d’activation pour la mise en œuvre d’un procédé tel que défini ci-dessus, le système de détection comportant:

- au moins deux microphones;

- au moins une caméra configurée pour capter des images des visages du conducteur du véhicule;

- un calculateur embarqué.

Dans une réalisation, le système de détection comporte:

- une première caméra configurée pour capter des images du visage du conducteur du véhicule, à l’exclusion des autres occupants du véhicule;

- un deuxième caméra configurée pour capter des images du visage d’un ou plusieurs passager(s) avant du véhicule, à l’exclusion du conducteur.

Dans une réalisation, le calculateur embarqué comporte un module de reconnaissance vocale et un module de reconnaissance vidéo.

L’invention concerne également un produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un (ou plusieurs) ordinateur(s), conduisent celui-ci (ceux-ci) à mettre en œuvre les étapes du procédé tel que défini ci-dessus.

L’invention concerne également un véhicule automobile comportant un système de détection conforme à celui défini ci-dessus.

La présente invention sera mieux comprise à la lecture de la description détaillée qui suit, faite en référence aux dessins annexés, dans lesquels:

La figure 1 représente un véhicule automobile équipé d’un système de détection conforme à l’invention.

La figure 2 représente les étapes de mises en œuvre d’un procédé de détection conforme à l’invention.

La figure 1 représente un véhicule 1 automobile équipé d’un système à commande vocale 2, tel qu’un assistant personnel virtuel. Afin d’activer ou réactiver le système à commande vocale 2, par exemple lorsque ce système est en veille, le véhicule est équipé d’un système de détection 12 d’un mot-clé d’activation conforme à l’invention. Le système de détection 12 est configuré pour détecter la prononciation d’un mot-clé d’activation du système à commande vocale 2 au sein de l’habitacle 10 du véhicule 1.

Le système de détection 12 comporte un calculateur embarqué 14 configuré pour analyser les données fournies par au moins deux microphones 16, 18 et par au moins une caméra 20, 22. Dans l’exemple, le véhicule 1 comporte un premier microphone 16 et un deuxième microphone 18, disposés dans l’habitacle 10, par exemple sur une console de l’habitacle, et notamment en partie centrale de la console. Les microphones 16, 18 sont espacés, étant par exemple situés à une distance d’au moins 80 millimètres l’un de l’autre. Dans cette configuration, le premier microphone 16 se trouve plus près de la place occupée par le conducteur que le deuxième microphone 18 (dans le cas d’un véhicule à conduite à gauche). Inversement, le deuxième microphone 18 se trouve plus près de la place occupée par le passager avant que le premier microphone 16. Chacun des premier et deuxième microphones 16, 18 est donc disposé et orienté pour capter de manière privilégiée les sons prononcés respectivement par le conducteur et le ou les passager(s) avant.

Conformément à l’invention, le véhicule 1 comporte au moins une caméra 20 configurée pour capter des images incluant le visage du conducteur du véhicule, à l’exclusion des autres occupants du véhicules, et notamment du ou des passager(s) avant. Elle est par exemple disposée sur une console de l’habitacle 10, et orientée en direction du conducteur du véhicule 1, de façon que son visage, et donc ses lèvres soient dans le champ de la caméra lorsque le conducteur est normalement assis dans le véhicule 1, en position de conduite. Alternativement, la caméra 20 permet de capter des images des visages de l’ensemble des occupants avant du véhicule 1, c’est-à-dire du conducteur et du ou des passager(s) avant. Alternativement encore, comme montré sur la figure 1, le véhicule 1 comporte une première caméra 20, configurée pour capter des images du visage du conducteur (à l’exclusion de tout autre passager), et une deuxième caméra 22, configurée pour capter des images du visage du ou des passager(s) avant (à l’exclusion du conducteur).

Conformément à l’invention, le calculateur embarqué 14 est configuré pour analyser les sons captés par les microphones 16, 18, afin de détecter si l’un des occupants du véhicule 1 prononce un mot-clé d’activation du système à commande vocale 2. En outre, le calculateur embarqué 14 est configuré pour analyser les images captées par les première et deuxième caméras 20, 22, afin de détecter si une séquence de mouvements des lèvres d’un des occupants du véhicule correspond à la prononciation du mot-clé d’activation par cet occupant. À cet effet, le calculateur embarqué 14 intègre un module reconnaissance vocale 140 et un module de reconnaissance vidéo 142. Le module de reconnaissance vocale 140 met en œuvre une première base de données, qui peut être locale, c’est-à-dire stockée dans une mémoire embarquée à bord du véhicule, ou distante, c’est-à-dire stockée dans un serveur distant avec lequel le calculateur embarqué 14 peut échanger des données. La première base de données comporte des enregistrements sonores de la prononciation du mot-clé d’activation par différentes voix. Le module de reconnaissance vidéo 142 met en œuvre une deuxième base de données (qui peut être locale ou distante), cette deuxième base de données comportant des enregistrements vidéo de la prononciation du mot-clé d’activation par différentes personnes (leur visage et donc leurs lèvres étant visibles sur l’enregistrement).

Lorsqu’un occupant du véhicule prononce le mot-clé d’activation, les sons produits sont captés par chacun des deux microphones 16, 18. Le signal sonore capté par chacun des microphones 16, 18 est analysé par le calculateur embarqué 14, au moyen du module de reconnaissance vocale 140 (figure 2, étape 30). Cette analyse permet de reconnaitre et détecter le mot-clé d’activation lorsqu’il est prononcé. Dans ce cas un indice de confiance de détection sonore est déterminé pour chaque microphone par le calculateur embarqué (étape 32).

Par ailleurs, toujours lorsqu’un occupant du véhicule 1 prononce le mot-clé d’activation, les mouvements de ses lèvres sont captés par la première caméra 20 ou par la deuxième caméra 22 (selon qu’il s’agisse du conducteur ou d’un passager), et analysés par le calculateur embarqué 14, au moyen du module de reconnaissance vidéo 142. Cette analyse permet de reconnaitre une séquence de mouvements des lèvres correspondant à la prononciation du mot-clé d’activation, et ainsi de détecter la prononciation du mot-clé d’activation par l’un des occupants avant du véhicules (étape 34). Dans ce cas, un indice de confiance de détection vidéo est déterminé, pour chacune des caméras 20, 22, par le calculateur embarqué 14 (étape 36).

En fonction des indices de confiance sonore et du ou des indices de confiance de détection vidéo déterminés par le calculateur embarqué 14, il est déterminé si un occupant a bien prononcé le mot-clé d’activation, et, dans ce cas, s’il s’agit du conducteur ou d’un passager (étape 38). De préférence, le poids affecté à l’indice ou aux indices de confiance de détection vidéo est supérieur au poids affecté aux indices de confiance de détection sonore.

L’analyse vidéo, c’est-à-dire l’analyse du mouvement des lèvres des occupants sur les images captées par la ou les caméras 20, 22 embarquées à bord du véhicule permet de valider la discrimination entre conducteur et passager(s) (pour la détermination du locuteur ayant prononcé le mot-clé d’activation) opérée au moyen de l’analyse sonore. Lorsque cette discrimination ne peut être réalisée au moyen de l’analyse sonore, ou du moins qu’elle ne peut être réalisée avec un degré de confiance suffisamment élevé, l’analyse vidéo permet d’opérer cette discrimination. Dans le cas où le véhicule 1ne comporte qu’une seule caméra 20 configurée pour capter des images du visage du conducteur uniquement, on déterminera que c’est le conducteur qui a prononcé le mot-clé d’activation si le mouvement de ses lèvres est analysé comme correspondant à cette prononciation. Dans le cas contraire, le mot-clé ayant été détecté au moyen des microphones 16, 18, c’est le ou l’un des passager(s) avant qui sera nécessairement à l’origine de cette prononciation (bien que non visible sur les images en cas de caméra unique). Lorsque deux caméras sont prévues, comme dans l’exemple de la figure 1, une séquence de mouvement de lèvres sera détectée sur les images provenant de l’une ou l’autre de ces deux caméras 20, 22 lorsque le mot-clé d’activation sera prononcé. Enfin, comme mentionné plus haut, on pourra prévoir une caméra unique configurée pour capter des images des visages du conducteur et du ou des passager(s) avant du véhicule.

En procédant à une détection de la prononciation du mot-clé d’activation sur la base d’images captées par une caméra, images sur lesquelles il est possible d’analyser les mouvements des lèvres des occupants du véhicule, le procédé et le système conformes à l’invention permettant d’améliorer la robustesse de la localisation de l’occupant prononçant le mot-clé d’activation.

Claims

Procédé de détection d’un mot-clé pour un système à commande vocale embarqué à bord d’un véhicule automobile, le procédé comportant:
- une étape d’analyse sonore (30), cette étape comportant l’analyse des sons captés par au moins un premier et un deuxième microphones (16, 18) embarqués à bord du véhicule (1), afin de détecter si le mot-clé d’activation est prononcé par un occupant du véhicule, le premier microphone (16) étant situé plus près de la place du conducteur que le deuxième microphone (18), le deuxième microphone (18) étant situé plus près de la place d’un passager avant que le premier microphone (16);
- une étape d’analyse vidéo (34), cette étape comportant l’analyse des images captées par au moins une caméra (20, 22) configurée pour capter des images du visage du conducteur du véhicule, afin de détecter si une séquence de mouvements des lèvres du conducteur correspond à la prononciation du mot-clé d’activation.
Procédé selon la revendication précédente, le procédé comportant l’étape de déterminer (32), pour chacun des premiers et deuxièmes microphones (16, 18), un indice de confiance de détection sonore.
Procédé selon l’une des revendications précédentes, le procédé comportant l’étape de déterminer (36), pour la ou les caméra(s) (20, 22), un indice de confiance de détection vidéo.
Procédé selon les revendications 2 et 3, le procédé comportant l’étape de déterminer (38), en fonction des indices de confiance de détection sonore et de l’indice de confiance de détection vidéo, si un occupant a prononcé le mot-clé d’activation, et de déterminer alors quel occupant a prononcé le mot-clé d’activation.
Procédé selon la revendication précédente, dans lequel, pour la détermination de l’occupant ayant prononcé le mot-clé d’activation, l’indice de confiance de détection vidéo est affecté d’un poids supérieur au poids affecté aux indices de confiance de détection sonore.
Procédé selon l’une des revendications précédentes, dans lequel l’étape d’analyse vidéo (34) comporte l’analyse des images captées par deux caméras:
- une première caméra (20) configurée pour capter des images du visage du conducteur, à l’exclusion d’autres occupants du véhicule; et
- une deuxième caméra (22) configurée pour capter des images du visage d’un ou plusieurs passagers avant, à l’exclusion du conducteur.
Système de détection (12) d’un mot-clé d’activation pour la mise en œuvre d’un procédé conforme à l’une des revendications précédentes, le système de détection comportant:
- au moins deux microphones (16, 18);
- au moins une caméra (20, 22) configurée pour capter des images du visage du conducteur du véhicule (1);
- un calculateur embarqué (14).
Système de détection (12) selon la revendication précédente, comportant:
- une première caméra (20) configurée pour capter des images du visage du conducteur du véhicule, à l’exclusion des autres occupants du véhicule (1);
- un deuxième caméra (22) configurée pour capter des images du visage d’un ou plusieurs passager(s) avant du véhicule (1), à l’exclusion du conducteur.
Produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un (ou plusieurs) ordinateur(s), conduisent celui-ci (ceux-ci) à mettre en œuvre les étapes du procédé selon l’une des revendications 1 à 6.
Véhicule automobile (1) comportant un système de détection (12) conforme à l’une quelconque des revendications 7 et 8.