FR3100206A1 - Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant - Google Patents

Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant Download PDF

Info

Publication number
FR3100206A1
FR3100206A1 FR1909446A FR1909446A FR3100206A1 FR 3100206 A1 FR3100206 A1 FR 3100206A1 FR 1909446 A FR1909446 A FR 1909446A FR 1909446 A FR1909446 A FR 1909446A FR 3100206 A1 FR3100206 A1 FR 3100206A1
Authority
FR
France
Prior art keywords
voice
module
user
vehicle
audio signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1909446A
Other languages
English (en)
Inventor
Fatimazahra Barakat
Marie Celine Bezat
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PSA Automobiles SA
Original Assignee
PSA Automobiles SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PSA Automobiles SA filed Critical PSA Automobiles SA
Priority to FR1909446A priority Critical patent/FR3100206A1/fr
Publication of FR3100206A1 publication Critical patent/FR3100206A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/10Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/148Instrument input by voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Il est divulgué un dispositif et un procédé mis en œuvre dans un calculateur de véhicule automobile pour contrôler un assistant personnel virtuel dans un véhicule automobile par la voix d’un utilisateur. Les modes de réalisations permettent de lier la détection de la localisation du locuteur à une place assise déterminée grâce au module de détection de mot-clé d’activation (130), à l’identification (170) du locuteur parmi une pluralité d’utilisateurs potentiels sur la base d’un profil associé à chacun d’eux. Cela permet d’autoriser ou non l’exécution de commandes sécuritaires, selon les profils associés aux utilisateurs potentiels, en fonction du résultat de l’identification du locuteur ayant prononcé la commande sous forme vocale, et en relation avec la place occupée dans le locuteur dans le véhicule. F igure pour l’abrégé : f ig ure 2

Description

Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant
La présente invention se rapporte de manière générale au traitement d’un signal audio capté dans un véhicule automobile, et plus particulièrement à un dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur.
Etat de la technique
Les assistants personnels virtuels (APV) ou assistants personnels intelligents (API) sont des dispositifs essentiellement logiciels qui permettent d’exécuter des tâches ou de fournir des services spécifiques à leurs utilisateurs. Ils utilisent pour cela des informations telles que le contexte de leur utilisation (le lieu, la date, etc.), un profil d’utilisateur (son identité, un historique de son usage antérieur, etc.) et des données d’entrée fournies par l’utilisateur (i.e., des commandes et/ou requêtes spécifiques). Ils permettent ainsi de fournir à chaque utilisateur une assistance pertinente et personnalisée pour l’utilisation d’un appareil, pour la réalisation de certaines tâches, pour obtenir de l’information utile, etc.
Ces APV sont typiquement intégrés à des équipements dits équipements intelligents (« Smart device » en anglais) tels que les appareils nomades et communicants comme les smartphones ou les tablettes, ou d’autres appareils connectés, que ce soit pour un usage domestique (à la maison), dans un véhicule, ou en nomade, par exemple. Dans tous les cas, ils sont exécutés par une unité de traitement (i.e., un calculateur) de l’équipement intelligent dans lequel ils sont intégrés.
Pour les applications dans lesquelles l’APV est utilisé à bord d’un véhicule, cette unité de traitement peut être embarquée, en tout ou en partie, c’est-à-dire qu’il peut s’agir d’un calculateur du véhicule automobile. Tout du moins, une partie des traitements peut être effectuée dans un tel calculateur. En variante, l’unité de traitement peut aussi être débarquée, c’est-à-dire qu’elle peut être comprise dans un appareil distinct du véhicule, comme un appareil nomade et communicant d’un utilisateur, du type de ceux envisagés dans le paragraphe ci-dessus, par exemple.
L’utilisateur peut contrôler un APV physiquement par l’intermédiaire d’un dispositif d’interface homme/machine de l’équipement intelligent auquel l’APV est intégré. Par exemple, l’APV peut être activé par l’appui sur un bouton dédié d’un boîtier, sur une touche ou une combinaison de touches d’un clavier physique ou virtuel, ou sur un bouton virtuel sur un écran tactile, par exemple.
Cependant, pour rendre leur utilisation plus ergonomique, la plupart des APV récents peuvent aussi être contrôlés vocalement, c’est-à-dire par la voix de l’utilisateur. Par « contrôlé vocalement » on entend à la fois le fait d’être activé à partir d’un état de veille (« Standby mode » en anglais) et le fait, en outre, d’être commandé par l’intermédiaire de commandes ou de requêtes exprimées oralement par l’utilisateur. Une fonction de reconnaissance vocale (ou ASR mis pour « Automatic Speech Recognition », en anglais, ou encore VRE mis pour « Voice Recognition Engine », en anglais) est alors couplée à l’APV. Elle s’exécute sur l’unité de traitement de l’équipement intelligent qui intègre l’APV, et permet de reconnaître des mots prononcés par un utilisateur. Une séquence de mots reconnus peut alors être traitée par l’APV, qui les analyse pour en déduire la commande ou la requête exprimée par l’utilisateur, et pour exécuter ensuite la tâche ou le service correspondant.
Un tel contrôle vocal d’un APV est particulièrement utile à bord d’un véhicule automobile, où l’aspect « mains libres » est favorable à la sécurité. Le conducteur peut en effet activer une fonctionnalité ou un service sans utiliser ses mains qui demeurent donc libres pour la conduite, et sans devoir détourner le regard de la route en sorte que sa vigilance est peu affectée.
Ainsi, un véhicule automobile peut embarquer un APV qui peut être exécuté par le processeur principal (ou mCPU, de l’anglais « main Central Processing Unit ») d’un calculateur embarqué du véhicule (ou ECU, de l’anglais « Electronic Central Unit »). Il peut s’agir du calculateur qui gère l’info-divertissement à bord du véhicule (ou IVI, de l’anglais « In- Vehicle Infotainment »). Un tel calculateur offre une plateforme matérielle et logicielle, dont l’architecture est adaptée pour la gestion des aspects média (radio, musique, vidéo, etc.) et des aspects communication (téléphonie, connexion à l’Internet, Bluetooth, etc.) dans le véhicule.
L’APV peut être contrôlé par l’intermédiaire d’un dispositif d’interface homme/machine (IHM) du véhicule, comprenant des boutons du tableau de bord, et/ou un clavier virtuel d’un écran tactile de l’ordinateur de bord, par exemple. En variante ou en complément, l’APV peut aussi être contrôlé vocalement, c’est-à-dire par la voix d’un utilisateur captée par un ou plusieurs microphones disposés dans l’habitacle du véhicule. A cet effet, une fonction de reconnaissance vocale peut être exécutée en permanence par le processeur principal du calculateur, dès lors qu’un microphone est activé pour permettre de capter la voix d’un utilisateur présent à bord du véhicule. Plus particulièrement, un moteur de reconnaissance vocale (ou moteur ASR) est un module de nature logicielle qui peut être exécuté par le processeur principal du calculateur.
Afin de permettre l’activation de l’APV en réponse à une commande vocale prononcée par un utilisateur, le moteur de reconnaissance vocale peut mettre en œuvre une fonction de détection d’un mot-clé d’activation, aussi appelé mot de réveil (ou Wuw, mis pour « Wake-up word » en anglais). Cette fonction de détection du mot-clé d’activation est adaptée pour activer l’APV dès qu’elle reconnaît un ou plusieurs mots-clés d’activation prédéfinis. Dans le domaine des APV domestiques du marché ou dans le domaine des smartphones, on connaît par exemple les mots-clés ou séquences de mots-clés suivants : « Ok Google », « Siri » ou « Alexa » pour les APV proposés par Google Assistant®, Apple® et Amazon®, respectivement. Dès qu’un tel mot-clé d’activation est reconnu, l’APV concerné peut être activé et la séquence de mots à laquelle le mot-clé appartient peut alors être traitée par le moteur de reconnaissance vocale pour en déduire, le cas échéant, une commande ou une requête correspondante de l’utilisateur. Cette commande ou cette requête est alors traitée par l’APV.
Un moteur de détection de mot-clé d’activation (ou moteur de Wuw), qui d’un point de vue fonctionnel peut être conçu comme un module séparable du moteur de reconnaissance vocale (ou moteur de ASR) proprement dit, est spécialement adapté pour permettre, à partir d’un signal audio capté par un ou plusieurs microphones, d’identifier la prononciation d’un mot-clé d’activation par l’un quelconque des utilisateurs qui sont assis à des positions respectives dans le véhicule : le conducteur, un passager assis à l’avant, un passager assis à l’arrière droite, un passager assis à l’arrière gauche, etc. Il peut être développé et fourni sous la forme d’un module de traitement, de nature logicielle, par un fournisseur spécifique comme par exempleNuance Communications, Inc.,Qualcomm, Inc.,Soundhound , Inc.,Sensory , Inc., etc.
Des problématiques spécifiques à la mise en œuvre d’un APV dans un véhicule automobile naissent de ce que, par essence, un véhicule automobile est multiplace et potentiellement multi-occupants. Il est ainsi souhaitable de permettre la mise en œuvre de l’APV d’une manière qui soit propre à chacun des occupants et en relation intime avec chacune des places du véhicule.
Dans la demande de brevet allemande DE 102016212647 A1, il est divulgué une technique pour la localisation, dans un véhicule automobile, du locuteur qui est à l’origine d’une commande vocale reconnue par un dispositif de reconnaissance vocale. Plus particulièrement, la technique divulguée permet la localisation du locuteur grâce au module de détection de mot-clé d’activation. Mais le document ne traite pas l’identification du locuteur.
L’invention permet d’améliorer l’interactivité entre l’homme et un assisant personnel virtuel (APV) embarqué dans un véhicule automobile, ainsi que la fluidité du traitement de la commande vocale prononcée par un occupant quelconque du véhicule.
A cet effet, l’invention propose un dispositif pour contrôler un assistant personnel virtuel dans un véhicule automobile par la voix d’un utilisateur, comprenant :
- un nombrende microphones, oùnest un nombre entier strictement supérieur à l’unité, agencés dans l’habitacle du véhicule automobile en association, chacun, avec une place respective à bord du véhicule pour un utilisateur potentiel respectif, et adaptés pour capternsignaux audios respectifs ;
- un module de détection de mot-clé d’activation adapté pour exécuter en parallèlenmoteurs de détection d’un mot-clé d’activation de l’assistant personnel virtuel, lesdits moteurs de détection étant appliqués à chacun, respectivement, desnsignaux audios captés par lesnmicrophones, respectivement ;
- un module de localisation adapté pour déterminer la place à bord du véhicule qui est associée au microphone ayant capté celui desnsignaux audio qui maximise un critère de qualité de la détection du mot-clé d’activation par le module de détection de mot-clé d’activation ;
- un module de reconnaissance vocale adapté pour exécuter un moteur de reconnaissance vocale appliqué à des données de l’un au moins desnsignaux audios captés par lesnmicrophones afin de reconnaître une commande vocale de l’assistant personnel virtuel dans ledit signal audio à la suite du mot-clé d’activation ;
- un module d’identification vocale adapté pour exécuter au moins un moteur d’identification vocale afin d’identifier un utilisateur à l’origine de la commande vocale, par analyse de tout ou partie desnsignaux audios captés par lesnmicrophones, sur la base d’empreintes vocales stockées en mémoire en relation avec des profils d’utilisateurs associés à des utilisateurs potentiels du dispositif ;
- au moins un moteur d’exécution d’une commande vocale adapté pour, en réponse au mot-clé d’activation détecté par le module de détection de mot-clé d’activation, exécuter la commande vocale reconnue par le module de reconnaissance vocale en relation avec la place à bord du véhicule déterminée par le module de localisation et en fonction du profil d’utilisateur de l’utilisateur identifié par le module d’identification, si ladite commande vocale est une commande sécuritaire.
Ainsi, l’invention permet de lier la détection de la localisation du locuteur grâce au module de Wuw (i.e., l’identification de la place assise dans le véhicule, où le locuteur est situé), à l’identification du locuteur parmi une pluralité d’utilisateurs potentiels sur la base d’un profil associé à chacun d’eux.In fine, cela permet une mise en œuvre de l’APV pour autoriser ou non l’exécution de commandes sécuritaires (c’est-à-dire des commandes présentant un aspect lié à la sécurité des personnes à bord du véhicule), selon les profils associés aux utilisateurs potentiels, en fonction du résultat de l’identification du locuteur ayant prononcé la commande sous forme vocale.
Des modes de réalisation pris isolément ou en combinaison, prévoient en outre que :
- le dispositif peut comprendre en outre au moins un moteur d’exécution de commande non sécuritaire adapté pour, en réponse au mot-clé d’activation détecté par le module de détection de mot-clé d’activation, exécuter la commande vocale reconnue par le module de reconnaissance vocale en relation avec la place à bord du véhicule déterminée par le module de localisation mais sans considération du profil d’utilisateur de l’utilisateur identifié par le module d’identification, si ladite commande vocale est une commande non sécuritaire ;
- le module d’identification vocale peut être adapté pour exécuter en parallèlenmoteurs d’identification vocale appliqués à chacun, respectivement, desnsignaux audio captés par lesnmicrophones, respectivement ;
- le dispositif peut comprendre en outre au moins un module de prétraitement configuré pour exécuter un ou plusieurs prétraitements appliqués auxnsignaux audios captés par lesnmicrophones ; et le module de détection de mot-clé d’activation peut alors être adapté pour appliquer les moteurs de détection de mot-clé d’activation à chacun, respectivement, desnsignaux audios captés par lesnmicrophones et prétraités par le module de prétraitement ;
- le module d’identification vocale peut être adapté pour appliquer le ou les moteurs d’identification vocale à l’un respectif desnsignaux audio captés par lesnmicrophones et prétraités par le module de prétraitement ; et dans ce cas le moteur de reconnaissance vocale peut être appliqué à des données de l’un au moins desnsignaux audios captés par lesnmicrophones et prétraités par le module de prétraitement ;
- le module de prétraitement peut être adapté pour exécuternmoteurs d’annulation d’écho appliqués chacun à l’un desnsignaux audios captés par lesnmicrophones, respectivement ;
- le module de localisation peut être adapté pour déterminer la place à bord du véhicule qui est associée au microphone ayant capté celui des n signaux audios qui maximise un critère de qualité de la détection du mot-clé d’activation, en comparant les rapports signal/bruit de chacun desnsignaux audio captés par lesnmicrophones, respectivement, et/ou en comparant des indices de confiance de la détection du mot-clé d’activation par le module de détection de mot-clé d’activation qui sont générés par les moteurs de détection du mot-clé d’activation dudit module de détection de mot-clé d’activation pour chacun desnsignaux audio captés par lesnmicrophones, respectivement ; et, enfin,
- le module d’identification vocale peut être adapté pour être entraîné avec la voix d’un utilisateur potentiel du véhicule lors d’une phase de création du profil d’utilisateur dudit utilisateur potentiel.
Un deuxième aspect de l’invention se rapporte à un procédé de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, ledit véhicule comprenant un nombrende microphones, oùnest un nombre entier strictement supérieur à l’unité, agencés dans l’habitacle du véhicule automobile en association, chacun, avec une place respective à bord du véhicule pour un utilisateur potentiel respectif, et adaptés pour capternsignaux audios respectifs, le procédé comprenant les étapes suivantes ;
- exécution en parallèle de traitements de détection d’un mot-clé d’activation de l’assistant personnel virtuel, lesdits traitements étant appliqués à chacun, respectivement, desnsignaux audios captés par lesnmicrophones, respectivement ;
- localisation de la place à bord du véhicule qui est associée au microphone ayant capté celui desnsignaux audio qui maximise un critère de qualité de la détection du mot-clé d’activation ;
- exécution d’un traitement de reconnaissance vocale appliqué à des données de l’un au moins desnsignaux audios captés par lesnmicrophones afin de reconnaître une commande vocale de l’assistant personnel virtuel dans ledit signal audio à la suite du mot-clé d’activation ;
- exécution d’un traitement d’identification vocale afin d’identifier un utilisateur à l’origine de la commande vocale, par analyse de tout ou partie desnsignaux audios captés par lesnmicrophones, sur la base d’empreintes vocales stockées en mémoire en relation avec des profils d’utilisateurs associés à des utilisateurs potentiels ;
- si une commande vocale sécuritaire est reconnue, exécution de ladite commande vocale sécuritaire en réponse au mot-clé d’activation qui a été détecté, en relation avec la place à bord du véhicule qui a été localisée, et en fonction du profil d’utilisateur de l’utilisateur qui a été identifié.
Dans un troisième aspect, l’invention concerne également un calculateur de véhicule automobile comprenant un processeur principal et un processeur de signal numérique, configuré pour mettre en œuvre le dispositif selon le premier aspect ci-dessus. Il peut s’agir, comme évoquésupra, du calculateur qui gère l’info-divertissement à bord du véhicule (ou IVI, de l’anglais « In- Vehicle Infotainment »), qui gère les aspects média et les aspects communication dans le véhicule.
Un dernier aspect de l’invention se rapporte à véhicule automobile comprenant un calculateur selon le troisième aspect ci-dessus.
Brève description des figures
D’autres caractéristiques et avantages de l’invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels :
la figure 1 est une représentation schématique d’un contexte d’usage dans lequel la détection d’un mot-clé d’activation peut être mise en œuvre ; et,
la figure 2 est un schéma fonctionnel d’un dispositif selon des modes de réalisation selon l’invention.
Dans la description de modes de réalisation qui va suivre et dans les Figures des dessins annexés, les mêmes éléments ou des éléments similaires portent les mêmes références numériques aux dessins.
Lafigure 1illustre schématiquement le contexte d’un cas d’usage dans lequel on peut mettre en œuvre l’architecture de traitement d’un signal audio selon l’invention, pour la détection d’un mot-clé d’activation dans un signal audio capté par un microphone agencé dans l’habitacle d’un véhicule automobile. L’homme du métier appréciera que le contexte considéré n’est pas exclusif d’autres cas d’usage dans lesquels une telle architecture peut aussi être mise en œuvre.
En référence à la figure 1, le véhicule 101 intègre un assistant personnel virtuel (APV) embarqué 104. L’APV embarqué 104 est par exemple commandé par la voix d’un utilisateur 102 du véhicule, et/ou par d’autres moyens comme des boutons de commande, un clavier physique, un clavier virtuel affiché sur un écran tactile, etc. formant une interface homme/machine (IHM). L’utilisateur 102 représenté ici est le conducteur du véhicule 101. Toutefois, il peut aussi s’agir de l’un des passagers : soit un passager assis à l’avant à côté du conducteur, soit un passager assis à l’arrière en deuxième rang, ou bien en troisième rang pour les véhicules équipés de plus d’un rang de sièges arrière pour les passagers, comme les grands monospaces. De tels véhicules sont souvent prévus pour transporter sept personnes : le conducteur et le passager avant, en premier rang ; trois passagers arrière, en deuxième rang ; et enfin deux autres passagers arrière en troisième rang.
Dans le contexte d’usage considéré, l’utilisateur 102 prononce un mot ou une séquence de mots 103 qui sont reconnus par l’APV 104 et sont convertis en une (ou plusieurs) instruction(s) exécutable(s), et/ou une (ou plusieurs) requête(s) d’information à laquelle(auxquelles) l’APV doit apporter une réponse.
La séquence de mots 103 commence par un mot-clé d’activation, qui est adapté pour réveiller l’APV embarqué 104. En effet, pour des raisons d’économie d’énergie, les moyens matériels et logiciels mettant en œuvre l’APV sont mis en sommeil (en « standby ») pendant les phases de non-utilisation prolongée. Et ils sont réveillés lorsque le mot-clé d’activation est prononcé par un utilisateur dans l’habitacle du véhicule, et est identifié par les moyens de traitement audio du système dans un signal audio capté par un (ou plusieurs) microphone(s) qui est(sont) disposé(s) dans l’habitable. Le reste de la séquence de mots 103 est alors traité par l’APV afin d’identifier les instructions et/ou les requêtes qu’elle comprend.
Cet exemple n’est pas limitatif et l’homme du métier appréciera qu’un tel APV peut aussi être commandé, en variante ou en complément, par des commandes physiques entrée via l’IHM plutôt que par des commandes ou requêtes vocales. On notera que l’invention peut aussi être mise en œuvre dans un système embarqué autre qu’un APV, pour lequel une activation vocale avec détection d’un mot-clé d’activation est utilisée. De manière générale, un tel système comprend une interface homme/machine (IHM) qui permet à tout utilisateur du véhicule de le commander. L’IHM comprenda minimaun microphone qui capte les sons à l’intérieur de l’habitacle, et notamment un signal audio comprenant le mot-clé d’activation. L’architecture de traitement est une architecture destinée à traiter un tel signal afin de détecter un mot-clé d’activation dans le signal. L’IHM peut aussi comprendre un écran tactile accessible au conducteur, qui permet en outre la saisie de commandes et/ou de paramètres, la sélection de commande présélectionnées, la navigation dans des menus, etc. En d’autres termes, le signal audio peut se résumer à un mot-clé d’activation prononcé par l’utilisateur mais comprend généralement, en outre, des commandes ou requêtes vocales qui sont prononcées à la suite du mot-clé d’activation. La commande vocale d’un dispositif embarqué comme l’APV embarqué 104 présente l’avantage d’éviter de trop perturber le conducteur pendant la conduite.
L’APV embarqué 104 comprend aussi des moyens audios de restitution d’une information sous la forme d’un message vocal, c’est-à-dire un message audio imitant,i.e., synthétisant, la voix d’un opérateur. Dans un cas d’usage typique, en réponse à une requête vocale de l’utilisateur 102 du véhicule 101, le dispositif émet un message vocal contenant des informations utiles destinées à l’utilisateur 102. En outre, dans d’autres modes de réalisation du dispositif, le dispositif embarqué 104 peut comprendre des moyens visuels de restitution d’une information qui peuvent compléter l’émission de messages vocaux. Par exemple, le dispositif 104 peut intégrer un écran sur lequel sont affichées les informations utiles destinées à l’utilisateur du véhicule. Avantageusement, une telle restitution permet de transmettre une information intelligible pour l’utilisateur dans un environnement très bruyant.
Lafigure 2montre schématiquement un dispositif pour la mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, selon des modes de réalisation.
Le dispositif comprend un nombrende microphones 11à 1n, qui sont disposés chacun au niveau du siège de l’un du conducteur et desn-1passagers, dans le véhicule 101 de la figure 1, oùnest un nombre entier strictement supérieur à l’unité qui correspond au nombre de places assises dans le véhicule. Dit autrement, chacun des microphones 11à 1nest agencé pour capter plus particulièrement la voix de l’un déterminé des, au plus,noccupants du véhicule lorsqu’ils sont assis chacun à l’une desnplaces assises du véhicule.
Bien entendu, cependant, et en dépit de sa directivité, chacun desnmicrophones 11à 1ncapte nécessairement la voix des autres occupants du véhicule lorsqu’ils parlent, et qui constitue du bruit vis-à-vis du signal audio visé par ledit microphone. Également, chaque microphone capte des bruits ambiants correspondant au fonctionnement du véhicule (bruit du moteur, bruit de roulage, bruit d’écoulement d’air, etc.). Enfin, il capte le son restitué dans l’habitacle du véhicule par un module média 30 du véhicule : le son de la radio, de la musique, la voix d’un interlocuteur distant participant à une communication téléphonique avec l’un des occupants du véhicule et qui est restituée par un haut-parleur 40 du véhicule dans le contexte d’un appel « mains libres », etc.
Le dispositif comprend aussinmodules d’anti-écho (ou AEC, de l’anglais « Acoustic Echo Cancellation ») AEC1à AECn, qui sont associés auxnmicrophones 11à 1n, respectivement. Dans l’exemple représenté à la figure 2, les modules AEC1à AECnsont mis en œuvre sous la forme de modules logiciels exécutés, par exemple, dans un processeur de signal numérique 110 (DSP), par exemple un DSP audio. De manière plus générale, le DSP 110 peut être adapté pour exécuter des modules de prétraitement desnsignaux audio captés par lesnmicrophones 11, 12, …, 1n, respectivement, dont les modules AEC1à AECnfont partie.
Un DSP est similaire à un processeur normal mais, comme son nom l’indique, il est conçu pour fonctionner sur des signaux, par opposition à des données stockées en mémoire. Selon les applications, des signaux typiques sont des signaux audios, des signaux vidéo, des signaux radiofréquence (RF), etc., et de manière générale tous signaux qui arrivent au DSP via un convertisseur analogique-numérique (ADC, de l’anglais « Analog -to-Digital Converter »). Ces signaux sont traités via des méthodes de calcul tels que les transformées de Fourier rapides (ou FFT de l’anglais « Fast Fourier Transform ») ou des méthodes de calcul matriciel, pour les manipuler, les modifier (par exemple pour les filtrer) ou les analyser. En audio, cela peut être utilisé pour nettoyer un flux audio, y ajouter des effets, ou même générer de l’audio.
Dans des modes de réalisation, la fonction des modules d’anti-écho AEC1à AECncomprend, outre l’annulation d’écho comme leur nom l’indique, le fait de nettoyer le signal capté par chacun des microphones 11à 1n, respectivement, du signal média joué dans le véhicule. A cet effet, les modules d’anti-écho AEC1à AECnsont couplés à un module d’annulation de média 120 qui peut également être exécuté dans le DSP. Le module d’annulation de média 120 est lui-même couplé à un module de média 30 du véhicule pour recevoir un signal représentatif du son restitué dans le véhicule par ledit module de média 30 via un haut-parleur 40. Ainsi, l’annulation de ce son dans les signaux audio captés par les microphones 11à 1net qui constitue du bruit vis-à-vis de la voix du locuteur visé, est particulièrement efficace.
D’autres modules de prétraitement, non représentés, peuvent être mis en œuvre dans le DSP comme les modules 110 en étant adaptés pour exécuter un prétraitement de reconnaissance vocale (ou VRP, mis pour « Voice Recognition Preprocessing » en anglais). Dans des modes de réalisation, ce prétraitement de reconnaissance vocale comprend le fait de nettoyer les signaux audios captés par lesnmicrophones 11à 1n, et déjà traités par les modules d’annulation d’écho AEC1à AECn, des bruits provenant du fonctionnement du véhicule ainsi que des bruits concurrents (y-compris, pour chaque signal audio associé à un occupant déterminé du véhicule, la voix des autres occupants du véhicule lorsqu’ils parlent).
Ainsi, grâce aux différents algorithmes de traitement de signal mis en œuvre dans l’environnement du DSP, les fonctions de détection du mot-clé d’activation et de reconnaissance vocale qui sont ensuite exécutées dans le dispositif, et qui vont maintenant être décrites, sont robustes aux divers bruits dans le véhicule ainsi qu’aux bruits concurrents des autres occupants du véhicule.
Le dispositif comprend en effet ou moteur de reconnaissance de la parole 150 (ou moteur ASR, où ASR est mis pour « Automatic Speech Recognition »), qui peut être un module logiciel exécuté dans le processeur principal du véhicule (ou mCU, mis pour « main Control Unit » en anglais). La fonction du moteur de reconnaissance de la parole 150 est d’identifier une commande vocale prononcée par un utilisateur présent à bord du véhicule, par analyse de l’un déterminé desnsignaux audio captés par lesnmicrophones 11à 1n, respectivement.
Cette reconnaissance de la parole est précédée de la détection d’un mot-clé d’activation qui est réalisée par un module de détection de mot-clé d’activation 130 (ou module de Wuw), qui peut également être un module logiciel exécuté dans ledit processeur principal (mCU) du véhicule. Le module 130 de détection du mot-clé d’activation est adapté pour chercher, et le cas échéant détecter, le mot-clé d’activation de l’APV (comme « Ok google », « Alexa », ...) dans lesnsignaux audios captés par lesnmicrophones 11à 1n, respectivement. A cet effet, il reçoit lesdits signaux audios en parallèle, et exécute en parallèlenmoteurs de détection du mot-clé d’activation qui sont appliqués, chacun, à l’un déterminé desdits signaux audios.
D’un point de vue fonctionnel, un moteur de détection de mot-clé d’activation (ou moteur de Wuw) peut être conçu comme un module séparable du moteur de reconnaissance vocale (ou moteur de ASR) proprement dit. Ce moteur de détection de mot-clé d’activation est spécialement adapté pour permettre, à partir d’un signal audio capté par un ou plusieurs microphones, d’identifier la prononciation d’un mot-clé d’activation par l’un quelconque des utilisateurs qui sont assis à des positions respectives dans le véhicule : le conducteur, un passager assis à l’avant, un passager assis à l’arrière-droite, un passager assis à l’arrière-gauche, etc. Du point de vue de l’implémentation pratique, il peut être développé et fourni sous la forme d’un module de traitement, de nature logicielle, par un fournisseur spécifique comme par exempleNuance Communications, Inc.,Qualcomm, Inc.,Soundhound , Inc.,Sensory , Inc., etc.
Dans un mode de réalisation, le dispositif comprend en outre un module de localisation 140 qui a pour fonction de, et est configuré pour localiser le locuteur, et qui peut aussi être mise en œuvre sous la forme d’un module logiciel exécuté par le processeur principal (mCU) du véhicule. Par localisation du locuteur, on entend le fait de déterminer celles des places assises à bord du véhicule à laquelle est assis l’occupant du véhicule qui prononce le mot-clé d’activation. Cette place assise est déterminée comme étant celle qui est associée au microphone ayant capté celui desnsignaux audio qui maximise un critère de qualité de la détection du mot-clé d’activation par le module 130 de détection de mot-clé d’activation.
En d’autres termes, la localisation du locuteur qui est réalisée par le module 140 est la détermination de la place à laquelle ce locuteur est assis parmi lesnplaces à bord du véhicule qui sont associées auxnmicrophones 11à 1n, respectivement. Cette détermination est réalisée en identifiant celui desnsignaux audios produits par lesnmicrophones 11à 1n, respectivement, qui présente les meilleures caractéristiques pour la détection du mot-clé d’activation. Cette opération peut se baser, par exemple, sur un indice de confiance de la détection du mot-clé d’activation, lequel peut être produit nativement par les moteurs de détection du mot clé d’activation mis en œuvre dans le module de détection du mot-clé d’activation 130 (un tel indice est classiquement une valeur comprise entre 0 et 1, délivrée par le moteur de détection du mot-clé d’activation du marché comme ceux qui ont été identifiés plus haut, par exemple). En variante ou en complément, cette opération peut aussi se baser sur un indicateur qui rend compte de la qualité des signaux audio concernés, comme le rapport signal sur bruit (ou rapport S/N, mis pour « Signal -to-Noise ratio » en anglais). En pratique, l’information délivrée par le module de localisation 140 peut être un numéro compris entre 1 etndans l’exemple considéré ici, par exemple le numéro 1 pour la place du conducteur en rang 1, le numéro 2 pour la place du passager avant en rang 1, le numéro 3 pour la place du passager arrière-gauche en rang 2, le numéro 4 pour la place du passager arrière-droit en rang 2, le numéro 5 pour la place du passager arrière-gauche en rang 3, le numéro 6 pour la place du passager arrière-droit en rang 3, etc.
En bref et en résumé, la détection de la place dans le véhicule à laquelle est assis l’utilisateur ayant prononcé le mot-clé d’activation est basée sur l’identification du microphone, parmi une pluralité de microphones respectivement disposés au niveau des différentes places assises dans le véhicule, qui capte le mot-clé d’activation tel que prononcé, avec le meilleur niveau de qualité de réception. Une comparaison est effectuée des résultats obtenus pour chaque microphone, ce qui permet de détecter la position du locuteur dans le véhicule soit sur la base de l’énergie du signal capté par le microphone, soit sur la base de l’indice de confiance produit par chacun des modules de détection de mots-clé d’activation.
On appréciera que la détermination de la place du locuteur dans le véhicule permet de personnaliser l’exécution de la commande qui est prononcée par le locuteur après le mot-clé d’activation, et qui est détectée par le module de reconnaissance de la parole 150, en fonction de cette position. Par exemple, si la commande vocale est « ouvrir ma vitre », le fait de déterminer que la personne qui a prononcé cette commande est le passager assis sur le siège arrière-droit du véhicule permet de commander l’ouverture de la vitre arrière droite du véhicule, et uniquement de celle-ci.
En d’autres termes, non seulement le mot-clé d’activation prononcé est reconnu par le module 130, mais il est également déterminé par le module 140 la position dans le véhicule de l’utilisateur qui l’a prononcé, plus spécifiquement le siège (ou la position assise) de cet utilisateur. Cela permet de personnaliser l’exécution de commandes qui peuvent être formulées oralement par ledit utilisateur à la suite de la prononciation du mot-clé d’activation, comme une commande d’ouverture de la vitre latérale à proximité de cet utilisateur comme indiqué ci-dessus, ou une commande d’augmentation ou de réduction de la température dans la zone correspondante du véhicule, par exemple.
Dans un mode de réalisation, le module de reconnaissance de la parole 150 ne traite, avantageusement, qu’un seul desnsignaux audios captés par lesnmicrophones 11à 1n, respectivement. Plus particulièrement, il ne traite que celui de cesnsignaux audios qui a été capté par le microphone associé à la place assise de la personne ayant prononcé le mot-clé d’activation, comme détecté par le module de détection du mot-clé d’activation 130. Ce signal esta prioricelui parmi lesditsnsignaux audios qui contient la meilleure représentation de la commande vocale prononcée puisque cette commande vocale est prononcée par le même utilisateur que celui qui a prononcé le mot-clé d’activation. En effet, on rappelle que le principe est que l’utilisateur prononce la commande vocale à la suite du mot-clé d’activation.
Comme l’homme du métier l’aura compris, l’avantage de cette disposition est que le traitement par le module de reconnaissance vocale 150 est limité à ce qui est nécessaire pour reconnaître et interpréter la commande ou la requête contenue dans un seul signal audio, à savoir celui qui contenait le mot-clé d’activation seulement. De plus, les échanges de données vers le module de reconnaissance de la parole 150 sont également limités au strict nécessaire, c’est-à-dire aux données du signal audio précité.
On appréciera que la disposition ci-dessus est avantageuse car elle limite la quantité des calculs mis en œuvre dans le module de reconnaissance de la parole 150, mais n’est toutefois pas obligatoire. En effet, tous ou plusieurs desnsignaux audio issus desnmicrophones 11à 1n, peuvent être transmis au module de reconnaissance de la parole 150, quelle qu’en soit la raison.
Le dispositif comprend encore un module d’identification vocale 170 qui a pour fonction de, et est adapté pour identifier l’utilisateur qui est à l’origine de la commande vocale, c’est-à-dire l’utilisateur ayant prononcé le mot-clé d’activation suivi de la commande vocale, sur la base d’empreintes vocales stockées en mémoire en relation avec des profils d’utilisateurs associés à des utilisateurs potentiels du dispositif. Ces utilisateurs potentiels sont typiquement les occupants habituels du véhicule, lesquels sont en général les membres d’une même famille (au sens large) pour un véhicule familial. L’empreinte vocale et le profil d’utilisateur d’un utilisateur potentiel sont chargés dans la mémoire du dispositif lors d’une procédure de paramétrage préalable, classique en soi, sur laquelle il n’apparaît pas utile de s’étendre dans le cadre de la présente description. L’homme du métier appréciera que l’invention n’est pas limitée par le nombre ni par le choix des utilisateurs potentiels du dispositif dont l’empreinte vocale et un profil d’utilisateur sont stockées en mémoire du dispositif.
En bref, l’identification de la personne à l’origine de la commande vocale est faite par le module 170 de reconnaissance vocale sur la base d’empreintes vocales d’utilisateurs potentiels qui ont été enregistrées à l’avance. A cet effet, une procédure d’entraînement du module d’identification peut être mise en œuvre avec la voix de la personne qui crée un profil d’utilisateur dans le véhicule, pour stocker l’empreinte vocale de cet utilisateur potentiel du véhicule. Une fois, l’utilisateur identifié sur la base de son empreinte vocale, le module d’identification 170 peut lui associer son profil d’utilisateur, qui peut spécifier des droits accordés à l’utilisateur concernant l’utilisation des fonctions et accessoires du véhicule.
Dans l’exemple représenté à la figure 2, le module d’identification vocale 170 est adapté pour exécuter en parallèlenmoteurs d’identification vocale UA1à UAnappliqués à chacun, respectivement, desnsignaux audio captés par lesnmicrophones 11à 1n, respectivement. De cette manière, les traitements par le module d’identification vocale 170 d’une part, et par le module 130 de détection du mot-clé d’activation, par le module de localisation 140 et par le module de reconnaissance de la parole 150, d’autre part, peuvent être exécutés en parallèle. Cela améliore la rapidité du traitement de la commande vocale. L’homme du métier appréciera qu’il peut exister d’autres raisons et/ou avantages à l’exécution en parallèle desnmoteurs d’identification vocale UA1à UAncomme décrit ci-dessus. Par exemple il peut être utile pour d’’autres raison que celles liées à la mise en œuvre de l’invention, de savoir qui parle à chaque instant dans le véhicule, par exemple dans le cadre de la gestion d’une communication téléphonique par exemple.
En variante toutefois, le module d’identification vocale 170 peut, de la même manière que le module 150, ne traiter que celui desnsignaux audios qui a été capté par le microphone associé à la place assise de la personne ayant prononcé le mot-clé d’activation, comme détecté par le module de détection du mot-clé d’activation 130. Cette variante permet de réduire parnla quantité de calculs effectués pour l’authentification de l’utilisateur concerné.
On notera que, si aucun profil stocké dans la mémoire du dispositif ne correspond à l’utilisateur ayant prononcé le mot-clé d’activation, on peut considérer dans le souci de la sécurité qu’il s’agit d’un utilisateur n’ayant aucun droit lui permettant de provoquer l’exécution d’une commande sécuritaire. Ainsi, si la commande vocale reconnue par le module de reconnaissance vocale 170 est une commande sécuritaire, son exécution sera empêchée, car l’utilisateur l’ayant prononcé est inconnu du dispositif, ou n’est pas reconnu ce qui revient au même, et il est préférable d’empêcher l’exécution de la commande afin de ne pas mettre en danger cet utilisateur qui peut éventuellement être un jeune enfant, par exemple.
Le dispositif comprend enfin un module 160 de comparaison des résultats du traitement par lesnmoteurs d’identification vocale UA1à UAndu module d’identification vocale 170. Ces informations en provenance du module d’identification 170 sont, ensemble, représentatives de l’utilisateur ayant prononcé le mot-clé d’activation. Le module de comparaison 160 reçoit en outre une indication de la commande vocale reconnue par le module 150 de reconnaissance vocale (par exemple « ouvrir ma fenêtre »), ainsi que l’information représentative de la place dans le véhicule de l’utilisateur ayant prononcé le mot-clé d’activation telle que déterminée par le module 140 de localisation (par exemple la place du passager avant).
Ainsi, si la commande vocale reconnue par le module de reconnaissance vocale est une commande sécuritaire, c’est-à-dire une commande dont l’exécution est restreinte au cas d’un utilisateur autorisé seulement pour des raisons liées à la sécurité des personnes et/ou du véhicule, par exemple une personne adulte par opposition à un enfant, alors un moteur d’exécution de commande 12 est adapté pour, en réponse au mot-clé d’activation détecté par le module de détection de mot-clé d’activation, exécuter cette commande vocale en relation avec la place à bord du véhicule déterminée par le module de localisation et en fonction du profil d’utilisateur de l’utilisateur identifié par le module d’identification. Ce profil peut en effet caractériser les droits attachés à l’utilisateur, comme le droit de commander l’ouverture de la fenêtre du véhicule au niveau de la place assise qu’il occupe dans le véhicule. Dit autrement, dans ce premier mode de réalisation, si la commande vocale prononcée après le mot-clé d’activation est une commande sécuritaire, son exécution est conditionnée à l’existence de droits correspondants dans le profil d’utilisateur de l’utilisateur qui est à l’origine de cette commande vocale.
A titre d’exemple, supposons que le mot clé d’activation est « Ok ma voiture », et on n’a que le passager assis en rang 1 (passager avant) qui est authentifié. Cet utilisateur aura le droit d’ouvrir sa fenêtre sans aucune commande manuelle en disant « Ok ma voiture, ouvre la fenêtre ». Par contre un enfant assis en rang 2 (passager arrière) ne pourra pas commander la même action, par souci sécurité pour lui, car il n’est pas identifié et il n’a pas de profil associé ou car il est identifié mais n’a pas le droits (compte tenu de son profil mémorisé) d’ouvrir par lui-même la fenêtre au niveau de sa place assise dans le véhicule. Néanmoins, cet enfant peut tout de même commander une augmentation ou une réduction de la température de consigne pour l’installation de chauffage/climatisation au niveau de sa place assise : l’enfant est un utilisateur localisé mais non authentifié, ou authentifié mais avec des droits restreints, en sorte qu’on lui accorde la possibilité de lancer des commandes vocales non sécuritaires. En outre, si l’utilisateur adulte change de place et va s’assoir en rang 2, il conserve le droit d’ouvrir la fenêtre au niveau de sa nouvelle place assise en rang 2 en prononçant exactement la même phrase « Ok ma voiture, ouvre la fenêtre ». Les deux commandes vocales sont identiques et prononcées par le même utilisateur, et de la même manière, mais l’action n’est pas la même car la fenêtre qui sera ouverte cette fois ci sera la fenêtre au niveau de la nouvelle place assise de l’utilisateur en rang 2.
On notera que, dans un mode de réalisation également schématiquement représenté à la figure 2, dans le cas où la commande vocale reconnue par le module de reconnaissance vocale 150 n’est pas une commande sécuritaire, un autre moteur d’exécution de commande non sécuritaire 13 est adapté pour exécuter la commande vocale, en réponse au mot-clé d’activation détecté par le module de détection de mot-clé d’activation, en relation avec la place à bord du véhicule déterminée par le module de localisation 140 mais sans considération du profil d’utilisateur de l’utilisateur identifié par le module d’identification 170.
L’homme du métier appréciera que les moteurs d’exécution 12 et 13 sont des entités purement fonctionnelles, distinguées à la figure 2 pour les seuls besoins de la clarté de l’exposé des cas de commande vocale correspondants, à savoir une commande sécuritaire et une commande non sécuritaire, respectivement. En pratique toutefois, l’un et l’autre de ces moteurs sont des éléments logiciels exécutés dans le calculateur qui met en œuvre le dispositif. Symboliquement, la distinction entre les deux cas précités est également illustrée par un module fonctionnel 18, ou module de décision, qui est adapté pour décider si la commande vocale reconnue par le module de reconnaissance vocale 150 est une commande sécuritaire ou non. Si oui, alors la commande est exécutée en relation avec la place à bord du véhicule déterminée par le module de localisation et en fonction du profil d’utilisateur de l’utilisateur identifié par le module d’identification. Si non, alors elle n’est pas exécutée en fonction du profil d’utilisateur de l’utilisateur, même si ce profil existe et correspond à un utilisateur qui a été identifié par le module d’identification 170.
Un autre aspect de l’invention concerne un calculateur de véhicule automobile comprenant un processeur principal et un processeur de signal numérique, configuré pour mettre en œuvre le dispositif selon le premier aspect ci-dessus. Il peut s’agir, comme évoqué en introduction de la présente description, du calculateur qui gère l’info-divertissement à bord du véhicule (ou IVI, de l’anglais « In- Vehicle Infotainment »), qui gère les aspects média et les aspects communication dans le véhicule. Dans un exemple, le calculateur de processeur de signal numérique 20 met en œuvre les modules 110 et 120, et le processeur principal 110 mettre en œuvre les autres modules, à savoir les modules 130, 140, 150, 170 et 160, ainsi que les moteurs d’exécution 12 et 13. Ceci n’est toutefois qu’un exemple, et une autre répartition des fonctions entre le processeur 110 et le processeur 120 (aou d’autres processeurs additionnels) est possible. Inversement, le calculateur peut n’utiliser que le processeur principal 110, sans s’appuyer sur un processeur de signal numérique comme le processeur 120.
De manière générale, la présente invention a été décrite et illustrée dans la présente description détaillée et dans les figures des dessins annexés, dans des formes de réalisation possibles. La présente invention ne se limite pas, toutefois, aux formes de réalisation présentées. D’autres variantes et modes de réalisation peuvent être déduits et mis en œuvre par la personne du métier à la lecture de la présente description et des dessins annexés.
En particulier, le découpage fonctionnel des différents éléments de l’invention qui est représenté à la figure 2 et qui est repris ci-dessus dans la description correspondante desdits éléments, peut ne pas se retrouver à l’identique dans les formes de réalisation correspondant à des mises en œuvre effectives. Par exemple, le module de localisation 140 peut être intégré au module de détection de mot-clé d’activation 130 au niveau de la mise en œuvre de ces modules sous la forme logicielle.
Dans le présent exposé, le terme "comprendre" ou "comporter" n’exclut pas d’autres éléments ou d’autres étapes. Un seul processeur ou plusieurs autres unités peuvent être utilisées pour mettre en œuvre l’invention. Les différentes caractéristiques présentées peuvent être avantageusement combinées. Leur présence dans des parties différentes, n’excluent pas cette possibilité. Les signes de référence ne sauraient être compris comme limitant la portée de l’invention.

Claims (10)

  1. Dispositif pour contrôler un assistant personnel virtuel dans un véhicule automobile par la voix d’un utilisateur, comprenant :
    - un nombrende microphones (11-1n), oùnest un nombre entier strictement supérieur à l’unité, agencés dans l’habitacle du véhicule automobile en association, chacun, avec une place respective à bord du véhicule pour un utilisateur potentiel respectif, et adaptés pour capter n signaux audios respectifs ;
    - un module de détection de mot-clé d’activation (130) adapté pour exécuter en parallèlenmoteurs de détection d’un mot-clé d’activation de l’assistant personnel virtuel (104), lesdits moteurs de détection étant appliqués à chacun, respectivement, desnsignaux audios captés par lesnmicrophones, respectivement ;
    - un module de localisation (140) adapté pour déterminer la place à bord du véhicule qui est associée au microphone ayant capté celui desnsignaux audio qui maximise un critère de qualité de la détection du mot-clé d’activation par le module de détection de mot-clé d’activation ;
    - un module de reconnaissance vocale (150) adapté pour exécuter un moteur de reconnaissance vocale appliqué à des données de l’un au moins desnsignaux audios captés par lesnmicrophones afin de reconnaître une commande vocale de l’assistant personnel virtuel dans ledit signal audio à la suite du mot-clé d’activation ;
    - un module d’identification vocale (170) adapté pour exécuter au moins un moteur d’identification vocale afin d’identifier un utilisateur à l’origine de la commande vocale, par analyse de tout ou partie desnsignaux audios captés par lesnmicrophones, sur la base d’empreintes vocales stockées en mémoire en relation avec des profils d’utilisateurs associés à des utilisateurs potentiels du dispositif ;
    - au moins un moteur d’exécution d’une commande vocale (12) adapté pour, en réponse au mot-clé d’activation détecté par le module de détection de mot-clé d’activation, exécuter la commande vocale reconnue par le module de reconnaissance vocale en relation avec la place à bord du véhicule déterminée par le module de localisation et en fonction du profil d’utilisateur de l’utilisateur identifié par le module d’identification, si ladite commande vocale est une commande sécuritaire.
  2. Dispositif selon la revendication 1 comprenant en outre au moins un moteur d’exécution de commande non sécuritaire (13) adapté pour, en réponse au mot-clé d’activation détecté par le module de détection de mot-clé d’activation, exécuter la commande vocale reconnue par le module de reconnaissance vocale en relation avec la place à bord du véhicule déterminée par le module de localisation mais sans considération du profil d’utilisateur de l’utilisateur identifié par le module d’identification, si ladite commande vocale est une commande non sécuritaire.
  3. Dispositif selon la revendication 1 ou la revendication 2, dans lequel le module d’identification vocale est adapté pour exécuter en parallèle n moteurs d’identification vocale appliqués à chacun, respectivement, desnsignaux audio captés par lesnmicrophones, respectivement.
  4. Dispositif selon la revendication 1 comprenant en outre au moins un module de prétraitement (110,120) configuré pour exécuter un ou plusieurs prétraitements appliqués auxnsignaux audios captés par lesnmicrophones ;
    dans lequel module de détection de mot-clé d’activation (130) est adapté pour appliquer les moteurs de détection de mot-clé d’activation à chacun, respectivement, desnsignaux audios captés par lesnmicrophones et prétraités par le module de prétraitement ;
    dans lequel le module d’identification vocale (170) est adapté pour appliquer le ou les moteurs d’identification vocale à l’un respectif des n signaux audio captés par lesnmicrophones et prétraités par le module de prétraitement ; et,
    dans lequel le moteur de reconnaissance vocale (150) est appliqué à des données de l’un au moins desnsignaux audios captés par lesnmicrophones et prétraités par le module de prétraitement.
  5. Dispositif selon la revendication 4, dans lequel le module de prétraitement est adapté pour exécuter n moteurs d’annulation d’écho appliqués chacun à l’un desnsignaux audios captés par lesnmicrophones, respectivement.
  6. Dispositif selon l’une quelconque des revendications 1 à 5, dans lequel le module de localisation (140) est adapté pour déterminer la place à bord du véhicule qui est associée au microphone ayant capté celui desnsignaux audios qui maximise un critère de qualité de la détection du mot-clé d’activation, en comparant les rapports signal/bruit de chacun desnsignaux audio captés par lesnmicrophones, respectivement, et/ou en comparant des indices de confiance de la détection du mot-clé d’activation par le module de détection de mot-clé d’activation qui sont générés par les moteurs de détection du mot-clé d’activation dudit module de détection de mot-clé d’activation pour chacun desnsignaux audio captés par lesnmicrophones, respectivement.
  7. Dispositif selon l’une quelconque des revendications 1 à 6, dans lequel le module d’identification vocale (170) est adapté pour être entraîné avec la voix d’un utilisateur potentiel du véhicule lors d’une phase de création du profil d’utilisateur dudit utilisateur potentiel.
  8. Procédé de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, ledit véhicule comprenant un nombre n de microphones (11-1n), oùnest un nombre entier strictement supérieur à l’unité, agencés dans l’habitacle du véhicule automobile en association, chacun, avec une place respective à bord du véhicule pour un utilisateur potentiel respectif, et adaptés pour capternsignaux audios respectifs, le procédé comprenant les étapes suivantes ;
    - exécution en parallèle (130) de traitements de détection d’un mot-clé d’activation de l’assistant personnel virtuel (104), lesdits traitements étant appliqués à chacun, respectivement, desnsignaux audios captés par lesnmicrophones, respectivement ;
    - localisation (140) de la place à bord du véhicule qui est associée au microphone ayant capté celui desnsignaux audio qui maximise un critère de qualité de la détection du mot-clé d’activation ;
    exécution d’un traitement de reconnaissance vocale (150) appliqué à des données de l’un au moins desnsignaux audios captés par lesnmicrophones afin de reconnaître une commande vocale de l’assistant personnel virtuel dans ledit signal audio à la suite du mot-clé d’activation ;
    - exécution d’un traitement d’identification vocale (170) afin d’identifier un utilisateur à l’origine de la commande vocale, par analyse de tout ou partie desnsignaux audios captés par lesnmicrophones, sur la base d’empreintes vocales stockées en mémoire en relation avec des profils d’utilisateurs associés à des utilisateurs potentiels ;
    - si une commande vocale sécuritaire est reconnue, exécution de ladite commande vocale sécuritaire (13) en réponse au mot-clé d’activation qui a été détecté, en relation avec la place à bord du véhicule qui a été localisée, et en fonction du profil d’utilisateur de l’utilisateur qui a été identifié.
  9. Calculateur de véhicule automobile comprenant un processeur principal (10) un processeur de signal numérique (20) configurés pour la mise en œuvre du dispositif selon l’un quelconque des revendications 1 à 7.
  10. Véhicule automobile comprenant un calculateur selon la revendication 9.
FR1909446A 2019-08-28 2019-08-28 Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant Withdrawn FR3100206A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1909446A FR3100206A1 (fr) 2019-08-28 2019-08-28 Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1909446 2019-08-28
FR1909446A FR3100206A1 (fr) 2019-08-28 2019-08-28 Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant

Publications (1)

Publication Number Publication Date
FR3100206A1 true FR3100206A1 (fr) 2021-03-05

Family

ID=68343116

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1909446A Withdrawn FR3100206A1 (fr) 2019-08-28 2019-08-28 Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant

Country Status (1)

Country Link
FR (1) FR3100206A1 (fr)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066634A1 (en) * 2007-03-07 2011-03-17 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search in mobile search application
DE102013016806A1 (de) * 2013-10-10 2015-04-16 e.solutions GmbH Sitzplatzbezogene Sprachsteuerung einer Gerätefunktion in einem Kraftfahrzeug
DE102016212647A1 (de) 2015-12-18 2017-06-22 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum und Sprachsteuerungssystem
WO2018125299A1 (fr) * 2016-12-30 2018-07-05 Google Llc Traitement du langage naturel destiné à l'établissement de session avec des fournisseurs de services

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066634A1 (en) * 2007-03-07 2011-03-17 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search in mobile search application
DE102013016806A1 (de) * 2013-10-10 2015-04-16 e.solutions GmbH Sitzplatzbezogene Sprachsteuerung einer Gerätefunktion in einem Kraftfahrzeug
DE102016212647A1 (de) 2015-12-18 2017-06-22 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum und Sprachsteuerungssystem
WO2018125299A1 (fr) * 2016-12-30 2018-07-05 Google Llc Traitement du langage naturel destiné à l'établissement de session avec des fournisseurs de services

Similar Documents

Publication Publication Date Title
EP3678135B1 (fr) Commande vocale dans un environnement multi-interlocuteurs et multimédia
US20230178077A1 (en) Techniques for wake-up work recognition and related systems and methods
EP0974221B1 (fr) Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
KR20160127165A (ko) 디지털 어시스턴트를 위한 음성 트리거
WO2006103358A1 (fr) Dispositif pour la communication par des personnes handicapees de la parole et/ou de l'ouïe
US11568878B2 (en) Voice shortcut detection with speaker verification
US20230274740A1 (en) Arbitrating between multiple potentially-responsive electronic devices
CN113674754A (zh) 基于音频的处理方法和装置
FR3097364A1 (fr) Architecture de traitement de signal pour détecter un mot-clé d’activation dans un signal audio, procédé de gestion d’un assistant numérique personnel l’utilisant, et véhicule automobile l’incorporant
FR3100206A1 (fr) Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant
FR3102287A1 (fr) Procédé et dispositif de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec utilisation d’un dispositif connecté
EP3627510A1 (fr) Filtrage d'un signal sonore acquis par un systeme de reconnaissance vocale
EP4062401B1 (fr) Dispositif pour mettre en oeuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d'un utilisateur, et véhicule automobile l'incorporant
WO2020141150A1 (fr) Procédé, dispositif, et programme de personnalisation et d'activation d'un système d'assistant virtuel personnel de véhicules automobiles
FR3060784B1 (fr) Dispositif multimodal de commande et d’affichage pour vehicule.
FR3106009A1 (fr) Procédé et dispositif de sélection de divertissements par un assistant personnel virtuel embarqué dans un véhicule automobile, et véhicule automobile l’incorporant
FR3089035A1 (fr) Procédé d’activation sélective d’assistants personnels virtuels dans un véhicule automobile
WO2023061934A1 (fr) Procédé d'authentification d'une prise de vue capturée dans un habitacle d'un véhicule automobile
EP4078575A1 (fr) Procede d'identification d'au moins une personne a bord d'un vehicule automobile par analyse vocale
CN117995168A (zh) 一种用于ipa的语音处理方法和系统
CN116705027A (zh) 语音信息处理方法、装置、电子设备及可读存储介质
JP2021047507A (ja) 通知システム、通知制御装置、通知制御方法、及び通知制御プログラム
FR2803927A1 (fr) Procede et dispositif de commande d'equipements embarques sur un vehicule utilisant la reconnaissance vocale
FR3063820A1 (fr) Procede de commande d'au moins une fonction d'un vehicule par l'accomplissement d'au moins un geste de commande associe a cette fonction

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210305

ST Notification of lapse

Effective date: 20220405