FR3104796A1 - Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile - Google Patents

Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile Download PDF

Info

Publication number
FR3104796A1
FR3104796A1 FR1914151A FR1914151A FR3104796A1 FR 3104796 A1 FR3104796 A1 FR 3104796A1 FR 1914151 A FR1914151 A FR 1914151A FR 1914151 A FR1914151 A FR 1914151A FR 3104796 A1 FR3104796 A1 FR 3104796A1
Authority
FR
France
Prior art keywords
vehicle
driver
microphone
camera
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1914151A
Other languages
English (en)
Other versions
FR3104796B1 (fr
Inventor
Fatimazahra Barakat
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PSA Automobiles SA
Original Assignee
PSA Automobiles SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PSA Automobiles SA filed Critical PSA Automobiles SA
Priority to FR1914151A priority Critical patent/FR3104796B1/fr
Publication of FR3104796A1 publication Critical patent/FR3104796A1/fr
Application granted granted Critical
Publication of FR3104796B1 publication Critical patent/FR3104796B1/fr
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W2040/0809Driver authorisation; Driver identity check
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/221Physiology, e.g. weight, heartbeat, health or special needs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Transportation (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Lock And Its Accessories (AREA)

Abstract

L’invention concerne un procédé de détection d’un mot-clé pour un système à commande vocale embarqué à bord d’un véhicule automobile, le procédé comportant : - une étape d’analyse sonore (30), cette étape comportant l’analyse des sons captés par au moins un premier et un deuxième microphones embarqués à bord du véhicule, afin de détecter si le mot-clé d’activation est prononcé par un occupant du véhicule, le premier microphone étant situé plus près de la place du conducteur que le deuxième microphone, le deuxième microphone étant situé plus près de la place d’un passager avant que le premier microphone ; - une étape d’analyse vidéo (34), cette étape comportant l’analyse des images captées par au moins une caméra configurée pour capter des images du visage du conducteur du véhicule, afin de détecter si une séquence de mouvements des lèvres du conducteur correspond à la prononciation du mot-clé d’activation. Figure pour l’abrégé : Fig. 2

Description

Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile
L’invention se rapporte au domaine des systèmes embarqués à bord des véhicules automobiles, et concerne plus particulièrement la mise en œuvre, dans un véhicule automobile, d’un assistant personnel virtuel avec contrôle par la voix d’un utilisateur.
Les assistants personnels virtuels (APV), ou assistants personnels intelligents (API), sont des systèmes embarqués, par exemple dans des dispositifs électroniques portables (tels que tablettes, smartphones, etc.), qui permettent d’exécuter des tâches ou de fournir des services spécifiques à leurs utilisateurs. Ils utilisent pour cela des informations telles que le contexte de leur utilisation, un profil d’utilisateur, et des données d’entrée fournies par l’utilisateur (par exemple des commandes et/ou requêtes spécifiques). Ils permettent ainsi de fournir à chaque utilisateur une assistance pertinente et personnalisée pour l’utilisation d’un appareil, pour la réalisation de certaines tâches, pour obtenir des informations, etc.
Pour rendre leur utilisation plus ergonomique, la plupart des APV connus peuvent aussi être contrôlés vocalement, c’est-à-dire par la voix de l’utilisateur. Par « contrôlé vocalement » on entend à la fois le fait d’être activé à partir d’un état de veille, et le fait d’être commandé par l’intermédiaire de commandes ou de requêtes exprimées oralement par l’utilisateur, et reconnues comme telles par l’APV. Une fonction de reconnaissance vocale est alors mise en œuvre par l’APV. Une telle fonction a pour objectif de reconnaître des mots prononcés par un utilisateur. Une séquence de mots reconnus peut alors être traitée par l’APV, qui les analyse pour en déduire la commande ou la requête exprimée par l’utilisateur, et pour exécuter ensuite la tâche ou fournir le service correspondant.
La possibilité d’une commande vocale d’un APV est particulièrement utile à bord d’un véhicule automobile, où le fait de pouvoir commander un dispositif sans utiliser ses mains concourt à une meilleure sécurité. Le conducteur peut en effet activer une fonctionnalité ou un service sans utiliser ses mains qui demeurent donc libres pour la conduite, et sans devoir détourner le regard de la route en sorte que sa vigilance est peu affectée.
Afin de permettre l’activation de l’APV en réponse à une commande vocale prononcée par un utilisateur, le moteur de reconnaissance vocale peut mettre en œuvre une fonction de détection d’un mot-clé d’activation, aussi appelé mot de réveil (ou Wuw, pour « Wake-up word » en anglais). Cette fonction de détection du mot-clé d’activation est adaptée pour activer l’APV dès qu’elle reconnaît un ou plusieurs mots-clés d’activation prédéfinis. Dès qu’un tel mot-clé d’activation est reconnu, l’APV concerné peut être activé et la séquence de mots à laquelle le mot-clé appartient peut alors être traitée par le moteur de reconnaissance vocale pour en déduire, le cas échéant, une commande ou une requête correspondante de l’utilisateur.
Il est connu de mettre en œuvre, dans un véhicule, un moteur de détection de mot-clé d’activation. D’un point de vue fonctionnel, un tel moteur peut être conçu comme un module séparable du moteur de reconnaissance vocale (ou moteur de ASR), et est spécialement adapté pour permettre, à partir d’un signal audio capté par un ou plusieurs microphones, d’identifier la prononciation d’un mot-clé d’activation par l’un quelconque des utilisateurs qui sont assis à des positions respectives dans le véhicule : le conducteur ou l’un des passagers.
Toutefois, il peut être vivement souhaitable de permettre la mise en œuvre de l’APV d’une manière qui soit propre à chacun des occupants, par exemple pour s’assurer que certaines commandes puissent être réservées exclusivement au conducteur. Afin de localiser le locuteur lorsque le mot-clé d’activation est détecté (la localisation étant l’identification de la place assise dans le véhicule où le locuteur est situé), il est possible de déterminer un indice de confiance de détection du mot-clé pour chaque canal audio (c’est-à-dire pour chaque microphone), et de prendre en compte le rapport signal/bruit de chaque microphone. Toutefois, dans certaines conditions, cette double analyse ne permet pas de discriminer suffisamment les signaux capté par chaque microphone, ce qui engendre un indice de confiance très proche entre les deux canaux, et, par conséquent, de possibles erreurs dans la localisation du locuteur.
L’invention a pour objectif de remédier aux inconvénients de l’état de la technique, et plus particulièrement ceux-ci-dessus exposés, en proposant un procédé et un système de détection de mot-clé d’activation qui présentent une robustesse améliorée quant à la localisation de l’occupant prononçant le mot-clé d’activation.
À cet effet, l’invention concerne un procédé de détection d’un mot-clé d’activation pour un système à commande vocale embarqué à bord d’un véhicule automobile, le procédé comportant:
- une étape d’analyse sonore, cette étape comportant l’analyse des sons captés par au moins un premier et un deuxième microphones embarqués à bord du véhicule, afin de détecter si le mot-clé d’activation est prononcé par un occupant du véhicule, le premier microphone étant situé plus près de la place du conducteur que le deuxième microphone, le deuxième microphone étant situé plus près de la place d’un passager avant que le premier microphone;
- une étape d’analyse vidéo, cette étape comportant l’analyse des images captées par au moins une caméra configurée pour capter des images du visage du conducteur du véhicule, afin de détecter si une séquence de mouvements des lèvres du conducteur correspond à la prononciation du mot-clé d’activation.
Ainsi, en combinant une détection sonore de la prononciation d’un mot-clé d’activation, c’est-à-dire une détection par le biais des sons émis par le locuteur, et une détection vidéo de la prononciation de ce mot-clé, c’est-à-dire une détection par le biais de l’analyse des mouvements de ses lèvres, captés par une caméra, l’invention améliore la robustesse de la localisation du locuteur. En effet, lorsque les signaux respectifs des microphones ne permettent pas de déterminer si c’est le conducteur ou un passager qui est à l’origine de la prononciation du mot-clé d’activation (ou ne permettent pas cette détermination avec un taux de confiance suffisamment élevé), cette discrimination peut être réalisée ou validée grâce à l’analyse du mouvement des lèvres des occupants avant du véhicule, ou au moins de celles du conducteur.
Dans une réalisation, le procédé comporte l’étape de déterminer, pour chacun des premiers et deuxièmes microphones, un indice de confiance de détection sonore.
Dans une réalisation, le procédé comporte l’étape de déterminer, pour la ou les caméra(s), un indice de confiance de détection vidéo.
Dans une réalisation, le procédé comporte l’étape de déterminer, en fonction des indices de confiance de détection sonore et de l’indice de confiance de détection vidéo, si un occupant a prononcé le mot-clé d’activation, et de déterminer alors quel occupant a prononcé le mot-clé d’activation.
Dans une réalisation, pour la détermination de l’occupant ayant prononcé le mot-clé d’activation, l’indice de confiance de détection vidéo est affecté d’un poids supérieur au poids affecté aux indices de confiance de détection sonore.
Dans une réalisation, l’étape d’analyse vidéo comporte l’analyse des images captées par deux caméras:
- une première caméra configurée pour capter des images du visage du conducteur, à l’exclusion d’autres occupants du véhicule; et
- une deuxième caméra configurée pour capter des images du visage d’un ou plusieurs passagers avant, à l’exclusion du conducteur.
L’invention concerne également un système de détection d’un mot-clé d’activation pour la mise en œuvre d’un procédé tel que défini ci-dessus, le système de détection comportant:
- au moins deux microphones;
- au moins une caméra configurée pour capter des images des visages du conducteur du véhicule;
- un calculateur embarqué.
Dans une réalisation, le système de détection comporte:
- une première caméra configurée pour capter des images du visage du conducteur du véhicule, à l’exclusion des autres occupants du véhicule;
- un deuxième caméra configurée pour capter des images du visage d’un ou plusieurs passager(s) avant du véhicule, à l’exclusion du conducteur.
Dans une réalisation, le calculateur embarqué comporte un module de reconnaissance vocale et un module de reconnaissance vidéo.
L’invention concerne également un produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un (ou plusieurs) ordinateur(s), conduisent celui-ci (ceux-ci) à mettre en œuvre les étapes du procédé tel que défini ci-dessus.
L’invention concerne également un véhicule automobile comportant un système de détection conforme à celui défini ci-dessus.
La présente invention sera mieux comprise à la lecture de la description détaillée qui suit, faite en référence aux dessins annexés, dans lesquels:
La figure 1 représente un véhicule automobile équipé d’un système de détection conforme à l’invention.
La figure 2 représente les étapes de mises en œuvre d’un procédé de détection conforme à l’invention.
La figure 1 représente un véhicule 1 automobile équipé d’un système à commande vocale 2, tel qu’un assistant personnel virtuel. Afin d’activer ou réactiver le système à commande vocale 2, par exemple lorsque ce système est en veille, le véhicule est équipé d’un système de détection 12 d’un mot-clé d’activation conforme à l’invention. Le système de détection 12 est configuré pour détecter la prononciation d’un mot-clé d’activation du système à commande vocale 2 au sein de l’habitacle 10 du véhicule 1.
Le système de détection 12 comporte un calculateur embarqué 14 configuré pour analyser les données fournies par au moins deux microphones 16, 18 et par au moins une caméra 20, 22. Dans l’exemple, le véhicule 1 comporte un premier microphone 16 et un deuxième microphone 18, disposés dans l’habitacle 10, par exemple sur une console de l’habitacle, et notamment en partie centrale de la console. Les microphones 16, 18 sont espacés, étant par exemple situés à une distance d’au moins 80 millimètres l’un de l’autre. Dans cette configuration, le premier microphone 16 se trouve plus près de la place occupée par le conducteur que le deuxième microphone 18 (dans le cas d’un véhicule à conduite à gauche). Inversement, le deuxième microphone 18 se trouve plus près de la place occupée par le passager avant que le premier microphone 16. Chacun des premier et deuxième microphones 16, 18 est donc disposé et orienté pour capter de manière privilégiée les sons prononcés respectivement par le conducteur et le ou les passager(s) avant.
Conformément à l’invention, le véhicule 1 comporte au moins une caméra 20 configurée pour capter des images incluant le visage du conducteur du véhicule, à l’exclusion des autres occupants du véhicules, et notamment du ou des passager(s) avant. Elle est par exemple disposée sur une console de l’habitacle 10, et orientée en direction du conducteur du véhicule 1, de façon que son visage, et donc ses lèvres soient dans le champ de la caméra lorsque le conducteur est normalement assis dans le véhicule 1, en position de conduite. Alternativement, la caméra 20 permet de capter des images des visages de l’ensemble des occupants avant du véhicule 1, c’est-à-dire du conducteur et du ou des passager(s) avant. Alternativement encore, comme montré sur la figure 1, le véhicule 1 comporte une première caméra 20, configurée pour capter des images du visage du conducteur (à l’exclusion de tout autre passager), et une deuxième caméra 22, configurée pour capter des images du visage du ou des passager(s) avant (à l’exclusion du conducteur).
Conformément à l’invention, le calculateur embarqué 14 est configuré pour analyser les sons captés par les microphones 16, 18, afin de détecter si l’un des occupants du véhicule 1 prononce un mot-clé d’activation du système à commande vocale 2. En outre, le calculateur embarqué 14 est configuré pour analyser les images captées par les première et deuxième caméras 20, 22, afin de détecter si une séquence de mouvements des lèvres d’un des occupants du véhicule correspond à la prononciation du mot-clé d’activation par cet occupant. À cet effet, le calculateur embarqué 14 intègre un module reconnaissance vocale 140 et un module de reconnaissance vidéo 142. Le module de reconnaissance vocale 140 met en œuvre une première base de données, qui peut être locale, c’est-à-dire stockée dans une mémoire embarquée à bord du véhicule, ou distante, c’est-à-dire stockée dans un serveur distant avec lequel le calculateur embarqué 14 peut échanger des données. La première base de données comporte des enregistrements sonores de la prononciation du mot-clé d’activation par différentes voix. Le module de reconnaissance vidéo 142 met en œuvre une deuxième base de données (qui peut être locale ou distante), cette deuxième base de données comportant des enregistrements vidéo de la prononciation du mot-clé d’activation par différentes personnes (leur visage et donc leurs lèvres étant visibles sur l’enregistrement).
Lorsqu’un occupant du véhicule prononce le mot-clé d’activation, les sons produits sont captés par chacun des deux microphones 16, 18. Le signal sonore capté par chacun des microphones 16, 18 est analysé par le calculateur embarqué 14, au moyen du module de reconnaissance vocale 140 (figure 2, étape 30). Cette analyse permet de reconnaitre et détecter le mot-clé d’activation lorsqu’il est prononcé. Dans ce cas un indice de confiance de détection sonore est déterminé pour chaque microphone par le calculateur embarqué (étape 32).
Par ailleurs, toujours lorsqu’un occupant du véhicule 1 prononce le mot-clé d’activation, les mouvements de ses lèvres sont captés par la première caméra 20 ou par la deuxième caméra 22 (selon qu’il s’agisse du conducteur ou d’un passager), et analysés par le calculateur embarqué 14, au moyen du module de reconnaissance vidéo 142. Cette analyse permet de reconnaitre une séquence de mouvements des lèvres correspondant à la prononciation du mot-clé d’activation, et ainsi de détecter la prononciation du mot-clé d’activation par l’un des occupants avant du véhicules (étape 34). Dans ce cas, un indice de confiance de détection vidéo est déterminé, pour chacune des caméras 20, 22, par le calculateur embarqué 14 (étape 36).
En fonction des indices de confiance sonore et du ou des indices de confiance de détection vidéo déterminés par le calculateur embarqué 14, il est déterminé si un occupant a bien prononcé le mot-clé d’activation, et, dans ce cas, s’il s’agit du conducteur ou d’un passager (étape 38). De préférence, le poids affecté à l’indice ou aux indices de confiance de détection vidéo est supérieur au poids affecté aux indices de confiance de détection sonore.
L’analyse vidéo, c’est-à-dire l’analyse du mouvement des lèvres des occupants sur les images captées par la ou les caméras 20, 22 embarquées à bord du véhicule permet de valider la discrimination entre conducteur et passager(s) (pour la détermination du locuteur ayant prononcé le mot-clé d’activation) opérée au moyen de l’analyse sonore. Lorsque cette discrimination ne peut être réalisée au moyen de l’analyse sonore, ou du moins qu’elle ne peut être réalisée avec un degré de confiance suffisamment élevé, l’analyse vidéo permet d’opérer cette discrimination. Dans le cas où le véhicule 1ne comporte qu’une seule caméra 20 configurée pour capter des images du visage du conducteur uniquement, on déterminera que c’est le conducteur qui a prononcé le mot-clé d’activation si le mouvement de ses lèvres est analysé comme correspondant à cette prononciation. Dans le cas contraire, le mot-clé ayant été détecté au moyen des microphones 16, 18, c’est le ou l’un des passager(s) avant qui sera nécessairement à l’origine de cette prononciation (bien que non visible sur les images en cas de caméra unique). Lorsque deux caméras sont prévues, comme dans l’exemple de la figure 1, une séquence de mouvement de lèvres sera détectée sur les images provenant de l’une ou l’autre de ces deux caméras 20, 22 lorsque le mot-clé d’activation sera prononcé. Enfin, comme mentionné plus haut, on pourra prévoir une caméra unique configurée pour capter des images des visages du conducteur et du ou des passager(s) avant du véhicule.
En procédant à une détection de la prononciation du mot-clé d’activation sur la base d’images captées par une caméra, images sur lesquelles il est possible d’analyser les mouvements des lèvres des occupants du véhicule, le procédé et le système conformes à l’invention permettant d’améliorer la robustesse de la localisation de l’occupant prononçant le mot-clé d’activation.

Claims (10)

  1. Procédé de détection d’un mot-clé pour un système à commande vocale embarqué à bord d’un véhicule automobile, le procédé comportant:
    - une étape d’analyse sonore (30), cette étape comportant l’analyse des sons captés par au moins un premier et un deuxième microphones (16, 18) embarqués à bord du véhicule (1), afin de détecter si le mot-clé d’activation est prononcé par un occupant du véhicule, le premier microphone (16) étant situé plus près de la place du conducteur que le deuxième microphone (18), le deuxième microphone (18) étant situé plus près de la place d’un passager avant que le premier microphone (16);
    - une étape d’analyse vidéo (34), cette étape comportant l’analyse des images captées par au moins une caméra (20, 22) configurée pour capter des images du visage du conducteur du véhicule, afin de détecter si une séquence de mouvements des lèvres du conducteur correspond à la prononciation du mot-clé d’activation.
  2. Procédé selon la revendication précédente, le procédé comportant l’étape de déterminer (32), pour chacun des premiers et deuxièmes microphones (16, 18), un indice de confiance de détection sonore.
  3. Procédé selon l’une des revendications précédentes, le procédé comportant l’étape de déterminer (36), pour la ou les caméra(s) (20, 22), un indice de confiance de détection vidéo.
  4. Procédé selon les revendications 2 et 3, le procédé comportant l’étape de déterminer (38), en fonction des indices de confiance de détection sonore et de l’indice de confiance de détection vidéo, si un occupant a prononcé le mot-clé d’activation, et de déterminer alors quel occupant a prononcé le mot-clé d’activation.
  5. Procédé selon la revendication précédente, dans lequel, pour la détermination de l’occupant ayant prononcé le mot-clé d’activation, l’indice de confiance de détection vidéo est affecté d’un poids supérieur au poids affecté aux indices de confiance de détection sonore.
  6. Procédé selon l’une des revendications précédentes, dans lequel l’étape d’analyse vidéo (34) comporte l’analyse des images captées par deux caméras:
    - une première caméra (20) configurée pour capter des images du visage du conducteur, à l’exclusion d’autres occupants du véhicule; et
    - une deuxième caméra (22) configurée pour capter des images du visage d’un ou plusieurs passagers avant, à l’exclusion du conducteur.
  7. Système de détection (12) d’un mot-clé d’activation pour la mise en œuvre d’un procédé conforme à l’une des revendications précédentes, le système de détection comportant:
    - au moins deux microphones (16, 18);
    - au moins une caméra (20, 22) configurée pour capter des images du visage du conducteur du véhicule (1);
    - un calculateur embarqué (14).
  8. Système de détection (12) selon la revendication précédente, comportant:
    - une première caméra (20) configurée pour capter des images du visage du conducteur du véhicule, à l’exclusion des autres occupants du véhicule (1);
    - un deuxième caméra (22) configurée pour capter des images du visage d’un ou plusieurs passager(s) avant du véhicule (1), à l’exclusion du conducteur.
  9. Produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un (ou plusieurs) ordinateur(s), conduisent celui-ci (ceux-ci) à mettre en œuvre les étapes du procédé selon l’une des revendications 1 à 6.
  10. Véhicule automobile (1) comportant un système de détection (12) conforme à l’une quelconque des revendications 7 et 8.
FR1914151A 2019-12-11 2019-12-11 Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile Expired - Fee Related FR3104796B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1914151A FR3104796B1 (fr) 2019-12-11 2019-12-11 Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1914151 2019-12-11
FR1914151A FR3104796B1 (fr) 2019-12-11 2019-12-11 Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile

Publications (2)

Publication Number Publication Date
FR3104796A1 true FR3104796A1 (fr) 2021-06-18
FR3104796B1 FR3104796B1 (fr) 2021-11-26

Family

ID=69630535

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1914151A Expired - Fee Related FR3104796B1 (fr) 2019-12-11 2019-12-11 Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile

Country Status (1)

Country Link
FR (1) FR3104796B1 (fr)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016001054A1 (de) * 2016-01-30 2016-07-21 Daimler Ag Verfahren zur Eingabe eines Befehls in ein Steuergerät eines Fahrzeuges
WO2017138934A1 (fr) * 2016-02-10 2017-08-17 Nuance Communications, Inc. Techniques de reconnaissance de mot de réveil à sélectivité spatiale, et systèmes et procédés associés
US20170243581A1 (en) * 2016-02-18 2017-08-24 Sensory, Incorporated Using combined audio and vision-based cues for voice command-and-control
WO2017217978A1 (fr) * 2016-06-15 2017-12-21 Nuance Communications, Inc. Techniques de reconnaissance de mot de réveil et systèmes et procédés associés
US20180293221A1 (en) * 2017-02-14 2018-10-11 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
EP3466761A1 (fr) * 2017-10-05 2019-04-10 Ningbo Geely Automobile Research & Development Co. Ltd. Système et procédé d'affichage pour véhicule

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016001054A1 (de) * 2016-01-30 2016-07-21 Daimler Ag Verfahren zur Eingabe eines Befehls in ein Steuergerät eines Fahrzeuges
WO2017138934A1 (fr) * 2016-02-10 2017-08-17 Nuance Communications, Inc. Techniques de reconnaissance de mot de réveil à sélectivité spatiale, et systèmes et procédés associés
US20170243581A1 (en) * 2016-02-18 2017-08-24 Sensory, Incorporated Using combined audio and vision-based cues for voice command-and-control
WO2017217978A1 (fr) * 2016-06-15 2017-12-21 Nuance Communications, Inc. Techniques de reconnaissance de mot de réveil et systèmes et procédés associés
US20180293221A1 (en) * 2017-02-14 2018-10-11 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
EP3466761A1 (fr) * 2017-10-05 2019-04-10 Ningbo Geely Automobile Research & Development Co. Ltd. Système et procédé d'affichage pour véhicule

Also Published As

Publication number Publication date
FR3104796B1 (fr) 2021-11-26

Similar Documents

Publication Publication Date Title
US20230178077A1 (en) Techniques for wake-up work recognition and related systems and methods
US11437020B2 (en) Techniques for spatially selective wake-up word recognition and related systems and methods
US6889189B2 (en) Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations
US20210065712A1 (en) Automotive visual speech recognition
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
JP2017090611A (ja) 音声認識制御システム
KR20130046759A (ko) 차량에서 운전자 명령 인지장치 및 방법
FR3104796A1 (fr) Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile
JPH11352987A (ja) 音声認識装置
US20220415318A1 (en) Voice assistant activation system with context determination based on multimodal data
WO2020141150A1 (fr) Procédé, dispositif, et programme de personnalisation et d'activation d'un système d'assistant virtuel personnel de véhicules automobiles
FR3097364A1 (fr) Architecture de traitement de signal pour détecter un mot-clé d’activation dans un signal audio, procédé de gestion d’un assistant numérique personnel l’utilisant, et véhicule automobile l’incorporant
CN113535308A (zh) 语言调整方法、装置、电子设备及介质
Libal et al. An embedded system for in-vehicle visual speech activity detection
KR101710695B1 (ko) 차량용 음성 인식을 위한 마이크로폰 제어 시스템 및 그 제어 방법
FR3102287A1 (fr) Procédé et dispositif de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec utilisation d’un dispositif connecté
JP7407665B2 (ja) 音声出力制御装置および音声出力制御プログラム
EP3373117B1 (fr) Procédé de commande d'au moins une fonction d'un véhicule par l'accomplissement d'au moins un geste de commande associé à cette fonction
FR3063565A1 (fr) Procede et installation de suppression de bruits parasites contenu dans des signaux audio et commande vocale d'appareil
US20230103202A1 (en) Voice assistant error detection system
FR3100206A1 (fr) Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant
WO2022038724A1 (fr) Dispositif d'interaction vocale et procédé de détermination de cible d'interaction mis en œuvre dans un dispositif d'interaction vocale
WO2023122283A1 (fr) Optimisation d'assistant vocal dépendant de l'occupation d'un véhicule

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210618

PLFP Fee payment

Year of fee payment: 3

ST Notification of lapse

Effective date: 20230808