FR3102287A1 - Procédé et dispositif de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec utilisation d’un dispositif connecté - Google Patents

Procédé et dispositif de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec utilisation d’un dispositif connecté Download PDF

Info

Publication number
FR3102287A1
FR3102287A1 FR1911642A FR1911642A FR3102287A1 FR 3102287 A1 FR3102287 A1 FR 3102287A1 FR 1911642 A FR1911642 A FR 1911642A FR 1911642 A FR1911642 A FR 1911642A FR 3102287 A1 FR3102287 A1 FR 3102287A1
Authority
FR
France
Prior art keywords
user
vehicle
voice
activation keyword
connected device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1911642A
Other languages
English (en)
Inventor
Sylvain Besson
Fatimazahra Barakat
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PSA Automobiles SA
Original Assignee
PSA Automobiles SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PSA Automobiles SA filed Critical PSA Automobiles SA
Priority to FR1911642A priority Critical patent/FR3102287A1/fr
Publication of FR3102287A1 publication Critical patent/FR3102287A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

L’invention concerne un procédé de mise en œuvre d’un assistant personnel virtuel dans un véhicule avec contrôle vocal d’un utilisateur, comprenant les étapes suivantes : - exécution d’un traitement d’identification vocale (170) afin d’identifier un utilisateur, par analyse de n signaux audios captés par n microphones, sur la base d’empreintes vocales stockées en mémoire en relation avec des profils d’utilisateurs associés à des utilisateurs potentiels ; - détermination d’un dispositif connecté, à l’aide du profil de l’utilisateur identifié, ledit profil comprenant une donnée d’identification du dispositif connecté ; - si une commande vocale mettant en œuvre le dispositif connecté est reconnue, exécution de ladite commande vocale en réponse au mot-clé d’activation qui a été détecté, en relation avec la place à bord du véhicule qui a été localisée, et en fonction du profil d’utilisateur de l’utilisateur qui a été identifié et à l’aide du dispositif connecté déterminé. Figure pour l’abrégé : Figure 2

Description

Procédé et dispositif de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec utilisation d’un dispositif connecté
La présente invention se rapporte de manière générale au traitement d’un signal audio capté dans un véhicule automobile, et plus particulièrement à un dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur.
Arrière-plan technologique
Les assistants personnels virtuels (APV) ou assistants personnels intelligents (API) sont des dispositifs essentiellement logiciels qui permettent d’exécuter des tâches ou de fournir des services spécifiques à leurs utilisateurs. Ils utilisent pour cela des informations telles que le contexte de leur utilisation (le lieu, la date, etc.), un profil d’utilisateur (son identité, un historique de son usage antérieur, etc.) et des données d’entrée fournies par l’utilisateur (i.e., des commandes et/ou requêtes spécifiques). Ils permettent ainsi de fournir à chaque utilisateur une assistance pertinente et personnalisée pour l’utilisation d’un appareil, pour la réalisation de certaines tâches, pour obtenir de l’information utile, etc.
Ces APV sont typiquement intégrés à des équipements dits équipements intelligents (« Smart device » en anglais) tels que les appareils nomades et communicants comme les smartphones ou les tablettes, ou d’autres appareils connectés, que ce soit pour un usage domestique (à la maison), dans un véhicule, ou en nomade, par exemple. Dans tous les cas, ils sont exécutés par une unité de traitement (i.e., un calculateur) de l’équipement intelligent dans lequel ils sont intégrés.
Pour les applications dans lesquelles l’APV est utilisé à bord d’un véhicule, cette unité de traitement peut être embarquée, en tout ou en partie, c’est-à-dire qu’il peut s’agir d’un calculateur du véhicule automobile. Tout du moins, une partie des traitements peut être effectuée dans un tel calculateur. En variante, l’unité de traitement peut aussi être débarquée, c’est-à-dire qu’elle peut être comprise dans un appareil distinct du véhicule, comme un appareil nomade et communicant d’un utilisateur, du type de ceux envisagés dans le paragraphe ci-dessus, par exemple.
L’utilisateur peut contrôler un APV physiquement par l’intermédiaire d’un dispositif d’interface homme/machine de l’équipement intelligent auquel l’APV est intégré. Par exemple, l’APV peut être activé par l’appui sur un bouton dédié d’un boîtier, sur une touche ou une combinaison de touches d’un clavier physique ou virtuel, ou sur un bouton virtuel sur un écran tactile, par exemple.
Cependant, pour rendre leur utilisation plus ergonomique, la plupart des APV récents peuvent aussi être contrôlés vocalement, c’est-à-dire par la voix de l’utilisateur. Par « contrôlé vocalement » on entend à la fois le fait d’être activé à partir d’un état de veille (« Standby mode » en anglais) et le fait, en outre, d’être commandé par l’intermédiaire de commandes ou de requêtes exprimées oralement par l’utilisateur. Une fonction de reconnaissance vocale (ou ASR mis pour « Automatic Speech Recognition », en anglais, ou encore VRE mis pour « Voice Recognition Engine », en anglais) est alors couplée à l’APV. Elle s’exécute sur l’unité de traitement de l’équipement intelligent qui intègre l’APV, et permet de reconnaître des mots prononcés par un utilisateur. Une séquence de mots reconnus peut alors être traitée par l’APV, qui les analyse pour en déduire la commande ou la requête exprimée par l’utilisateur, et pour exécuter ensuite la tâche ou le service correspondant.
Un tel contrôle vocal d’un APV est particulièrement utile à bord d’un véhicule automobile, où l’aspect « mains libres » est favorable à la sécurité. Le conducteur peut en effet activer une fonctionnalité ou un service sans utiliser ses mains qui demeurent donc libres pour la conduite, et sans devoir détourner le regard de la route en sorte que sa vigilance est peu affectée.
Ainsi, un véhicule automobile peut embarquer un APV qui peut être exécuté par le processeur principal (ou mCPU, de l’anglais « main Central Processing Unit ») d’un calculateur embarqué du véhicule (ou ECU, de l’anglais « Electronic Central Unit »). Il peut s’agir du calculateur qui gère l’info-divertissement à bord du véhicule (ou IVI, de l’anglais « In-Vehicle Infotainment »). Un tel calculateur offre une plateforme matérielle et logicielle, dont l’architecture est adaptée pour la gestion des aspects média (radio, musique, vidéo, etc.) et des aspects communication (téléphonie, connexion à l’Internet, Bluetooth, etc.) dans le véhicule.
L’APV peut être contrôlé par l’intermédiaire d’un dispositif d’interface homme/machine (IHM) du véhicule, comprenant des boutons du tableau de bord, et/ou un clavier virtuel d’un écran tactile de l’ordinateur de bord, par exemple. En variante ou en complément, l’APV peut aussi être contrôlé vocalement, c’est-à-dire par la voix d’un utilisateur captée par un ou plusieurs microphones disposés dans l’habitacle du véhicule. A cet effet, une fonction de reconnaissance vocale peut être exécutée en permanence par le processeur principal du calculateur, dès lors qu’un microphone est activé pour permettre de capter la voix d’un utilisateur présent à bord du véhicule. Plus particulièrement, un moteur de reconnaissance vocale (ou moteur ASR) est un module de nature logicielle qui peut être exécuté par le processeur principal du calculateur.
Afin de permettre l’activation de l’APV en réponse à une commande vocale prononcée par un utilisateur, le moteur de reconnaissance vocale peut mettre en œuvre une fonction de détection d’un mot-clé d’activation, aussi appelé mot de réveil (ou Wuw, mis pour « Wake-up word » en anglais). Cette fonction de détection du mot-clé d’activation est adaptée pour activer l’APV dès qu’elle reconnaît un ou plusieurs mots-clés d’activation prédéfinis. Dans le domaine des APV domestiques du marché ou dans le domaine des smartphones, on connaît par exemple les mots-clés ou séquences de mots-clés suivants : « Ok Google », « Siri » ou « Alexa » pour les APV proposés par Google Assistant®, Apple® et Amazon®, respectivement. Dès qu’un tel mot-clé d’activation est reconnu, l’APV concerné peut être activé et la séquence de mots à laquelle le mot-clé appartient peut alors être traitée par le moteur de reconnaissance vocale pour en déduire, le cas échéant, une commande ou une requête correspondante de l’utilisateur. Cette commande ou cette requête est alors traitée par l’APV.
Un moteur de détection de mot-clé d’activation (ou moteur de Wuw), qui d’un point de vue fonctionnel peut être conçu comme un module séparable du moteur de reconnaissance vocale (ou moteur de ASR) proprement dit, est spécialement adapté pour permettre, à partir d’un signal audio capté par un ou plusieurs microphones, d’identifier la prononciation d’un mot-clé d’activation par l’un quelconque des utilisateurs qui sont assis à des positions respectives dans le véhicule : le conducteur, un passager assis à l’avant, un passager assis à l’arrière droite, un passager assis à l’arrière gauche, etc. Il peut être développé et fourni sous la forme d’un module de traitement, de nature logicielle, par un fournisseur spécifique comme par exempleNuance Communications, Inc.,Qualcomm, Inc.,Soundhound, Inc.,Sensory, Inc., etc.
Des problématiques spécifiques à la mise en œuvre d’un APV dans un véhicule automobile naissent de ce que, par essence, un véhicule automobile est multiplace et potentiellement multi-occupants. Il est ainsi souhaitable de permettre la mise en œuvre de l’APV d’une manière qui soit propre à chacun des occupants et en relation intime avec chacune des places du véhicule.
Dans la demande de brevet US9544412, il est décrit un dispositif pouvant communiquer avec plusieurs dispositifs mobiles, et identifier un profil via reconnaissance vocale, afin de traiter et exécuter la commande vocale dans le contexte du dispositif mobile associé au profil vocal.
Mais le document ne traite pas la localisation du locuteur dans l’habitacle.
L’invention permet d’améliorer l’interactivité entre l’homme et un assistant personnel virtuel (APV) embarqué dans un véhicule automobile, ainsi que la fluidité du traitement de la commande vocale prononcée par un occupant quelconque du véhicule.
A cet effet, l’invention a pour objet un procédé de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, ledit véhicule comprenant un nombre n de microphones (11-1n), où n est un nombre entier strictement supérieur à l’unité, agencés dans l’habitacle du véhicule automobile en association, chacun, avec une place respective à bord du véhicule pour un utilisateur potentiel respectif, et adaptés pour capter n signaux audios respectifs, le procédé comprenant les étapes suivantes :- exécution en parallèle (130) de traitements de détection d’un mot-clé d’activation de l’assistant personnel virtuel (104), lesdits traitements étant appliqués à chacun, respectivement, des n signaux audios captés par les n microphones, respectivement ;
- localisation (140) de la place à bord du véhicule;
- exécution d’un traitement de reconnaissance vocale (150) appliqué à des données de l’un au moins des n signaux audios captés par les n microphones afin de reconnaître une commande vocale de l’assistant personnel virtuel dans ledit signal audio à la suite du mot-clé d’activation ;
- exécution d’un traitement d’identification vocale (170) afin d’identifier un utilisateur à l’origine de la commande vocale, par analyse de tout ou partie des n signaux audios captés par les n microphones, sur la base d’empreintes vocales stockées en mémoire en relation avec des profils d’utilisateurs associés à des utilisateurs potentiels ;
- détermination d’un dispositif connecté, parmi les dispositifs connectés, à l’aide du profil de l’utilisateur identifié, ledit profil comprenant une donnée d’identification du dispositif connecté ;
- si une commande vocale mettant en œuvre le dispositif connecté est reconnue, exécution de ladite commande vocale en réponse au mot-clé d’activation qui a été détecté, en relation avec la place à bord du véhicule qui a été localisée, et en fonction du profil d’utilisateur de l’utilisateur qui a été identifié et à l’aide du dispositif connecté déterminé.
L’invention permet d’authentifier un utilisateur, de déterminer un profil associé, de savoir le positionnement de l’utilisateur dans l’habitacle du véhicule et d’identifier son dispositif connecté.
L’invention permet à l’APV d’interagir avec l’utilisateur à l’aide du haut-parleur le plus proche de ce dernier. L’invention permet par exemple de jouer une musique, à partir du dispositif connecté d’un utilisateur, dans une enceinte du véhicule dédiée à cet utilisateur.
Avantageusement, le traitement d’identification vocale est mis en œuvre par un module d’identification vocale adapté pour être entraîné avec la voix d’un utilisateur potentiel du véhicule lors d’une phase de création du profil d’utilisateur dudit utilisateur potentiel, une information d’identification d’un dispositif connecté étant associé au profil d’utilisateur au cours de la phase de création du profil.
Avantageusement, la place à bord du véhicule qui associée au microphone ayant capté celui des n signaux audio qui maximise un critère de qualité de la détection du mot-clé d’activation.
Avantageusement, la localisation de la place à bord du véhicule est mis en œuvre par un module de localisation est adapté pour déterminer la place à bord du véhicule qui est associée au microphone ayant capté celui des n signaux audios qui maximise un critère de qualité de la détection du mot-clé d’activation, en comparant les rapports signal/bruit de chacun des n signaux audio captés par les n microphones, respectivement, et/ou en comparant des indices de confiance de la détection du mot-clé d’activation par le module de détection de mot-clé d’activation qui sont générés par les moteurs de détection du mot-clé d’activation dudit module de détection de mot-clé d’activation pour chacun des n signaux audio captés par les n microphones, respectivement.
Avantageusement, le dispositif connecté communique avec le véhicule par l’intermédiaire d’une liaison sans fil.
L’invention concerne aussi un produit programme d’ordinateur comportant des instructions adaptées pour l’exécution des étapes du procédé selon l’invention, lorsque le programme d’ordinateur est exécuté par au moins un processeur.
L’invention concerne aussi un calculateur de véhicule automobile comprenant un processeur principal un processeur de signal numérique configurés pour la mise en œuvre du procédé selon l’invention.
L’invention concerne aussi un véhicule automobile comprenant un calculateur selon l’invention.
Brève description des figures
D’autres caractéristiques et avantages de l’invention ressortiront de la description des modes de réalisation non limitatifs de l’invention ci-après, en référence aux figures annexées, sur lesquelles :
la figure 1 est une représentation schématique d’un contexte d’usage dans lequel la détection d’un mot-clé d’activation peut être mise en œuvre ; et,
la figure 2 est un schéma fonctionnel d’un dispositif selon des modes de réalisation selon l’invention.
La figure 1 illustre schématiquement le contexte d’un cas d’usage dans lequel on peut mettre en œuvre l’invention, pour la détection d’un mot-clé d’activation dans un signal audio capté par un microphone agencé dans l’habitacle d’un véhicule automobile. L’homme du métier appréciera que le contexte considéré n’est pas exclusif d’autres cas d’usage dans lesquels une telle architecture peut aussi être mise en œuvre.
En référence à la figure 1, le véhicule 101 intègre un assistant personnel virtuel (APV) embarqué 104. L’APV embarqué 104 est par exemple commandé par la voix d’un utilisateur 102 du véhicule, et/ou par d’autres moyens comme des boutons de commande, un clavier physique, un clavier virtuel affiché sur un écran tactile, etc. formant une interface homme/machine (IHM). L’utilisateur 102 représenté ici est le conducteur du véhicule 101. Toutefois, il peut aussi s’agir de l’un des passagers : soit un passager assis à l’avant à côté du conducteur, soit un passager assis à l’arrière en deuxième rang, ou bien en troisième rang pour les véhicules équipés de plus d’un rang de sièges arrière pour les passagers, comme les grands monospaces. De tels véhicules sont souvent prévus pour transporter sept personnes : le conducteur et le passager avant, en premier rang ; trois passagers arrière, en deuxième rang ; et enfin deux autres passagers arrière en troisième rang.
Dans le contexte d’usage considéré, l’utilisateur 102 prononce un mot ou une séquence de mots 103 qui sont reconnus par l’APV 104 et sont convertis en une (ou plusieurs) instruction(s) exécutable(s), et/ou une (ou plusieurs) requête(s) d’information à laquelle(auxquelles) l’APV doit apporter une réponse.
La séquence de mots 103 commence par un mot-clé d’activation, qui est adapté pour réveiller l’APV embarqué 104. En effet, pour des raisons d’économie d’énergie, les moyens matériels et logiciels mettant en œuvre l’APV sont mis en sommeil (en « standby ») pendant les phases de non-utilisation prolongée. Et ils sont réveillés lorsque le mot-clé d’activation est prononcé par un utilisateur dans l’habitacle du véhicule, et est identifié par les moyens de traitement audio du système dans un signal audio capté par un (ou plusieurs) microphone(s) qui est(sont) disposé(s) dans l’habitacle. Le reste de la séquence de mots 103 est alors traité par l’APV afin d’identifier les instructions et/ou les requêtes qu’elle comprend.
Cet exemple n’est pas limitatif et l’homme du métier appréciera qu’un tel APV peut aussi être commandé, en variante ou en complément, par des commandes physiques entrée via l’IHM plutôt que par des commandes ou requêtes vocales. On notera que l’invention peut aussi être mise en œuvre dans un système embarqué autre qu’un APV, pour lequel une activation vocale avec détection d’un mot-clé d’activation est utilisée. De manière générale, un tel système comprend une interface homme/machine (IHM) qui permet à tout utilisateur du véhicule de le commander. L’IHM comprend a minima un microphone qui capte les sons à l’intérieur de l’habitacle, et notamment un signal audio comprenant le mot-clé d’activation. L’architecture de traitement est une architecture destinée à traiter un tel signal afin de détecter un mot-clé d’activation dans le signal. L’IHM peut aussi comprendre un écran tactile accessible au conducteur, qui permet en outre la saisie de commandes et/ou de paramètres, la sélection de commande présélectionnées, la navigation dans des menus, etc. En d’autres termes, le signal audio peut se résumer à un mot-clé d’activation prononcé par l’utilisateur mais comprend généralement, en outre, des commandes ou requêtes vocales qui sont prononcées à la suite du mot-clé d’activation. La commande vocale d’un dispositif embarqué comme l’APV embarqué 104 présente l’avantage d’éviter de trop perturber le conducteur pendant la conduite.
L’APV embarqué 104 comprend aussi des moyens audios de restitution d’une information sous la forme d’un message vocal, c’est-à-dire un message audio imitant, i.e., synthétisant, la voix d’un opérateur. Dans un cas d’usage typique, en réponse à une requête vocale de l’utilisateur 102 du véhicule 101, le dispositif émet un message vocal contenant des informations utiles destinées à l’utilisateur 102. En outre, dans d’autres modes de réalisation du dispositif, le dispositif embarqué 104 peut comprendre des moyens visuels de restitution d’une information qui peuvent compléter l’émission de messages vocaux. Par exemple, le dispositif 104 peut intégrer un écran sur lequel sont affichées les informations utiles destinées à l’utilisateur du véhicule. Avantageusement, une telle restitution permet de transmettre une information intelligible pour l’utilisateur dans un environnement très bruyant.
La figure 2 montre schématiquement un dispositif pour la mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, selon des modes de réalisation.
Le dispositif comprend un nombre n de microphones 11à 1n, qui sont disposés chacun au niveau du siège de l’un du conducteur et des n-1 passagers, dans le véhicule 101 de la figure 1, où n est un nombre entier strictement supérieur à l’unité qui correspond au nombre de places assises dans le véhicule. Dit autrement, chacun des microphones 11à 1nest agencé pour capter plus particulièrement la voix de l’un déterminé des, au plus, n occupants du véhicule lorsqu’ils sont assis chacun à l’une des n places assises du véhicule.
Bien entendu, cependant, et en dépit de sa directivité, chacun des n microphones 11à 1ncapte nécessairement la voix des autres occupants du véhicule lorsqu’ils parlent, et qui constitue du bruit vis-à-vis du signal audio visé par ledit microphone. Également, chaque microphone capte des bruits ambiants correspondant au fonctionnement du véhicule (bruit du moteur, bruit de roulage, bruit d’écoulement d’air, etc.). Enfin, il capte le son restitué dans l’habitacle du véhicule par un module média 30 du véhicule : le son de la radio, de la musique, la voix d’un interlocuteur distant participant à une communication téléphonique avec l’un des occupants du véhicule et qui est restituée par un haut-parleur 40 du véhicule dans le contexte d’un appel « mains libres », etc.
Avantageusement, le dispositif comprend aussinmodules d’anti-écho (ou AEC, de l’anglais « Acoustic Echo Cancellation ») AEC1à AECn, qui sont associés auxnmicrophones 11à 1n, respectivement. Dans l’exemple représenté à la figure 2, les modules AEC1à AECnsont mis en œuvre sous la forme de modules logiciels exécutés, par exemple, dans un processeur de signal numérique 110 (DSP), par exemple un DSP audio. De manière plus générale, le DSP 110 peut être adapté pour exécuter des modules de prétraitement desnsignaux audio captés par lesnmicrophones 11, 12, …, 1n, respectivement, dont les modules AEC1à AECnfont partie.
Le dispositif comprend aussi un moteur de reconnaissance de la parole 150 (ou moteur ASR, où ASR est mis pour « Automatic Speech Recognition »), qui peut être un module logiciel exécuté dans le processeur principal du véhicule (ou mCU, mis pour « main Control Unit » en anglais). La fonction du moteur de reconnaissance de la parole 150 est d’identifier une commande vocale prononcée par un utilisateur présent à bord du véhicule, par analyse de l’un déterminé des n signaux audio captés par les n microphones 11à 1n, respectivement.
Cette reconnaissance de la parole est précédée de la détection d’un mot-clé d’activation qui est réalisée par un module de détection de mot-clé d’activation 130 (ou module de Wuw), qui peut également être un module logiciel exécuté dans ledit processeur principal (mCU) du véhicule. Le module 130 de détection du mot-clé d’activation est adapté pour chercher, et le cas échéant détecter, le mot-clé d’activation de l’APV (comme « Ok google », « Alexa », ...) dans les n signaux audios captés par les n microphones 11à 1n, respectivement. A cet effet, il reçoit lesdits signaux audios en parallèle, et exécute en parallèle n moteurs de détection du mot-clé d’activation qui sont appliqués, chacun, à l’un déterminé desdits signaux audios.
D’un point de vue fonctionnel, un moteur de détection de mot-clé d’activation (ou moteur de Wuw) peut être conçu comme un module séparable du moteur de reconnaissance vocale (ou moteur de ASR) proprement dit. Ce module 130 de détection de mot-clé d’activation est spécialement adapté pour permettre, à partir d’un signal audio capté par un ou plusieurs microphones, d’identifier la prononciation d’un mot-clé d’activation par l’un quelconque des utilisateurs qui sont assis à des positions respectives dans le véhicule : le conducteur, un passager assis à l’avant, un passager assis à l’arrière-droite, un passager assis à l’arrière-gauche, etc. Du point de vue de l’implémentation pratique, il peut être développé et fourni sous la forme d’un module de traitement, de nature logicielle, par un fournisseur spécifique comme par exemple Nuance Communications, Inc., Qualcomm, Inc., Soundhound, Inc., Sensory, Inc., etc.
Dans un mode de réalisation, le dispositif comprend en outre un module de localisation 140 qui a pour fonction de, et est configuré pour localiser le locuteur, et qui peut aussi être mise en œuvre sous la forme d’un module logiciel exécuté par le processeur principal (mCU) du véhicule. Par localisation du locuteur, on entend le fait de déterminer celles des places assises à bord du véhicule à laquelle est assis l’occupant du véhicule qui prononce le mot-clé d’activation. Cette place assise est déterminée comme étant celle qui est associée au microphone ayant capté celui des n signaux audio qui maximise un critère de qualité de la détection du mot-clé d’activation par le module 130 de détection de mot-clé d’activation.
En d’autres termes, la localisation du locuteur qui est réalisée par le module 140 est la détermination de la place à laquelle ce locuteur est assis parmi les n places à bord du véhicule qui sont associées aux n microphones 11à 1n, respectivement. Cette détermination est réalisée en identifiant celui des n signaux audios produits par les n microphones 11à 1n, respectivement, qui présente les meilleures caractéristiques pour la détection du mot-clé d’activation. Cette opération peut se baser, par exemple, sur un indice de confiance de la détection du mot-clé d’activation, lequel peut être produit nativement par les moteurs de détection du mot clé d’activation mis en œuvre dans le module de détection du mot-clé d’activation 130 (un tel indice est classiquement une valeur comprise entre 0 et 1, délivrée par le moteur de détection du mot-clé d’activation du marché comme ceux qui ont été identifiés plus haut, par exemple). En variante ou en complément, cette opération peut aussi se baser sur un indicateur qui rend compte de la qualité des signaux audio concernés, comme le rapport signal sur bruit (ou rapport S/N, mis pour « Signal-to-Noise ratio » en anglais). En pratique, l’information délivrée par le module de localisation 140 peut être un numéro compris entre 1 et n dans l’exemple considéré ici, par exemple le numéro 1 pour la place du conducteur en rang 1, le numéro 2 pour la place du passager avant en rang 1, le numéro 3 pour la place du passager arrière-gauche en rang 2, le numéro 4 pour la place du passager arrière-droit en rang 2, le numéro 5 pour la place du passager arrière-gauche en rang 3, le numéro 6 pour la place du passager arrière-droit en rang 3, etc.
En bref et en résumé, la détection de la place dans le véhicule à laquelle est assis l’utilisateur ayant prononcé le mot-clé d’activation est basée sur l’identification du microphone, parmi une pluralité de microphones respectivement disposés au niveau des différentes places assises dans le véhicule, qui capte le mot-clé d’activation tel que prononcé, avec le meilleur niveau de qualité de réception. Une comparaison est effectuée des résultats obtenus pour chaque microphone, ce qui permet de détecter la position du locuteur dans le véhicule soit sur la base de l’énergie du signal capté par le microphone, soit sur la base de l’indice de confiance produit par chacun des modules de détection de mots-clé d’activation.
On appréciera que la détermination de la place du locuteur dans le véhicule permet de personnaliser l’exécution de la commande qui est prononcée par le locuteur après le mot-clé d’activation, et qui est détectée par le module de reconnaissance de la parole 150, en fonction de cette position. Par exemple, si la commande vocale est « ouvrir ma vitre », le fait de déterminer que la personne qui a prononcé cette commande est le passager assis sur le siège arrière-droit du véhicule permet de commander l’ouverture de la vitre arrière droite du véhicule, et uniquement de celle-ci.
En d’autres termes, non seulement le mot-clé d’activation prononcé est reconnu par le module 130, mais il est également déterminé par le module 140 la position dans le véhicule de l’utilisateur qui l’a prononcé, plus spécifiquement le siège (ou la position assise) de cet utilisateur. Cela permet de personnaliser l’exécution de commandes qui peuvent être formulées oralement par ledit utilisateur à la suite de la prononciation du mot-clé d’activation, comme une commande d’ouverture de la vitre latérale à proximité de cet utilisateur comme indiqué ci-dessus, ou une commande d’augmentation ou de réduction de la température dans la zone correspondante du véhicule, par exemple.
Le dispositif comprend encore un module d’identification vocale 170 qui a pour fonction de, et est adapté pour identifier l’utilisateur qui est à l’origine de la commande vocale, c’est-à-dire l’utilisateur ayant prononcé le mot-clé d’activation suivi de la commande vocale, sur la base d’empreintes vocales stockées en mémoire en relation avec des profils d’utilisateurs associés à des utilisateurs potentiels du dispositif.
L’empreinte vocale et le profil d’utilisateur d’un utilisateur potentiel sont chargés dans la mémoire du dispositif lors d’une procédure de paramétrage préalable.
Au cours de cette procédure de paramétrage, exécuté par exemple lors de la première connexion d’un dispositif connecté avec le véhicule, une empreinte vocale est associé avec un profil utilisateur et une information d’identification d’un dispositif connecté.
L’homme du métier appréciera que l’invention n’est pas limitée par le nombre ni par le choix des utilisateurs potentiels du dispositif dont l’empreinte vocale et un profil d’utilisateur sont stockées en mémoire du dispositif.
En bref, l’identification de la personne à l’origine de la commande vocale est faite par le module 170 de reconnaissance vocale sur la base d’empreintes vocales d’utilisateurs potentiels qui ont été enregistrées à l’avance. A cet effet, une procédure d’entraînement du module d’identification peut être mise en œuvre avec la voix de la personne qui crée un profil d’utilisateur dans le véhicule, pour stocker l’empreinte vocale de cet utilisateur potentiel du véhicule. Une fois, l’utilisateur identifié sur la base de son empreinte vocale, le module d’identification 170 peut lui associer son profil d’utilisateur, qui peut spécifier des droits accordés à l’utilisateur concernant l’utilisation des fonctions et accessoires du véhicule et du dispositif connecté.
Dans l’exemple représenté à la figure 2, le module d’identification vocale 170 est adapté pour exécuter en parallèle n moteurs d’identification vocale UA1à UAnappliqués à chacun, respectivement, des n signaux audio captés par les n microphones 11 à 1n, respectivement. De cette manière, les traitements par le module d’identification vocale 170 d’une part, et par le module 130 de détection du mot-clé d’activation, par le module de localisation 140 et par le module de reconnaissance de la parole 150, d’autre part, peuvent être exécutés en parallèle. Cela améliore la rapidité du traitement de la commande vocale. L’homme du métier appréciera qu’il peut exister d’autres raisons et/ou avantages à l’exécution en parallèle des n moteurs d’identification vocale UA1à UAncomme décrit ci-dessus. Par exemple il peut être utile pour d’’autres raison que celles liées à la mise en œuvre de l’invention, de savoir qui parle à chaque instant dans le véhicule, par exemple dans le cadre de la gestion d’une communication téléphonique par exemple.
Le dispositif comprend enfin un moteur d’exécution de commande 160 est adapté pour, en réponse au mot-clé d’activation détecté par le module de détection de mot-clé d’activation, exécuter cette commande vocale en relation avec la place à bord du véhicule déterminée par le module de localisation et en fonction du profil d’utilisateur de l’utilisateur identifié par le module d’identification 170.
Le moteur d’exécution de commande 160 reçoit en outre une indication de la commande vocale reconnue par le module 150 de reconnaissance vocale 150 (par exemple « ouvrir ma fenêtre »), ainsi que l’information représentative de la place dans le véhicule de l’utilisateur ayant prononcé le mot-clé d’activation telle que déterminée par le module 140 de localisation (par exemple la place du passager avant).
Le profil peut caractériser un dispositif connecté attaché à l’utilisateur, comme un smartphone. Si la commande vocale prononcée après le mot-clé d’activation est une commande mettant en œuvre un dispositif connecté, son exécution est au moins en partie réalisé à l’aide du dispositif connecté identifié dans le profil utilisateur.
A titre d’exemple, supposons que le mot clé d’activation est « Ok ma voiture », et on n’a que le passager assis en rang 1 (passager avant) qui est authentifié. Cet utilisateur peut écouter sa liste musicale préférée en prononçant la phrase « Ok ma voiture, joue ma playlist ». Dans ce cas, la liste musicale stockée dans le smartphone identifié dans le profil de l’utilisateur sera joué avec le haut-parleur situé au niveau du siège passager du rang 1.
Autrement dit, le moteur d’exécution 160 a besoin d’identifier le smartphone de l’utilisateur pour jouer la bonne liste musicale et a besoin de connaitre la place de l’utilisateur dans l’habitacle pour jouer la musique sur le bon haut-parleur.
Un autre aspect de l’invention concerne un calculateur de véhicule automobile comprenant un processeur principal et un processeur de signal numérique, configuré pour mettre en œuvre le dispositif selon le premier aspect ci-dessus. Il peut s’agir, comme évoqué en introduction de la présente description, du calculateur qui gère l’info-divertissement à bord du véhicule (ou IVI, de l’anglais « In-Vehicle Infotainment »), qui gère les aspects média et les aspects communication dans le véhicule. Dans un exemple, le calculateur de processeur de signal numérique 20 met en œuvre les modules 110 et 120, et le processeur principal 110 mettre en œuvre les autres modules, à savoir les modules 130, 140, 150 et 170, ainsi que le moteur d’exécution 160. Ceci n’est toutefois qu’un exemple, et une autre répartition des fonctions entre le processeur 110 et le processeur 120 (ou d’autres processeurs additionnels) est possible. Inversement, le calculateur peut n’utiliser que le processeur principal 110, sans s’appuyer sur un processeur de signal numérique comme le processeur 120.
De manière générale, la présente invention a été décrite et illustrée dans la présente description détaillée et dans les figures des dessins annexés, dans des formes de réalisation possibles. La présente invention ne se limite pas, toutefois, aux formes de réalisation présentées. D’autres variantes et modes de réalisation peuvent être déduits et mis en œuvre par la personne du métier à la lecture de la présente description et des dessins annexés.
En particulier, le découpage fonctionnel des différents éléments de l’invention qui est représenté à la figure 2 et qui est repris ci-dessus dans la description correspondante desdits éléments, peut ne pas se retrouver à l’identique dans les formes de réalisation correspondant à des mises en œuvre effectives. Par exemple, le module de localisation 140 peut être intégré au module de détection de mot-clé d’activation 130 au niveau de la mise en œuvre de ces modules sous la forme logicielle.
Dans le présent exposé, le terme "comprendre" ou "comporter" n’exclut pas d’autres éléments ou d’autres étapes. Un seul processeur ou plusieurs autres unités peuvent être utilisées pour mettre en œuvre l’invention. Les différentes caractéristiques présentées peuvent être avantageusement combinées. Leur présence dans des parties différentes, n’excluent pas cette possibilité. Les signes de référence ne sauraient être compris comme limitant la portée de l’invention.

Claims (8)

  1. Procédé de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, ledit véhicule comprenant un nombre n de microphones (11-1n), où n est un nombre entier strictement supérieur à l’unité, agencés dans l’habitacle du véhicule automobile en association, chacun, avec une place respective à bord du véhicule pour un utilisateur potentiel respectif, et adaptés pour capter n signaux audios respectifs, le procédé comprenant les étapes suivantes :- exécution en parallèle (130) de traitements de détection d’un mot-clé d’activation de l’assistant personnel virtuel (104), lesdits traitements étant appliqués à chacun, respectivement, des n signaux audios captés par les n microphones, respectivement ;
    - localisation (140) de la place à bord du véhicule;
    - exécution d’un traitement de reconnaissance vocale (150) appliqué à des données de l’un au moins des n signaux audios captés par les n microphones afin de reconnaître une commande vocale de l’assistant personnel virtuel dans ledit signal audio à la suite du mot-clé d’activation ;
    - exécution d’un traitement d’identification vocale (170) afin d’identifier un utilisateur à l’origine de la commande vocale, par analyse de tout ou partie des n signaux audios captés par les n microphones, sur la base d’empreintes vocales stockées en mémoire en relation avec des profils d’utilisateurs associés à des utilisateurs potentiels ;
    - détermination d’un dispositif connecté, parmi les dispositifs connectés, à l’aide du profil de l’utilisateur identifié, ledit profil comprenant une donnée d’identification du dispositif connecté ;
    - si une commande vocale mettant en œuvre le dispositif connecté est reconnue, exécution de ladite commande vocale en réponse au mot-clé d’activation qui a été détecté, en relation avec la place à bord du véhicule qui a été localisée, et en fonction du profil d’utilisateur de l’utilisateur qui a été identifié et à l’aide du dispositif connecté déterminé.
  2. Procédé de mise en œuvre d’un assistant personnel selon la revendication 1, dans lequel le traitement d’identification vocale (170) est mis en œuvre par un module d’identification vocale (170) adapté pour être entraîné avec la voix d’un utilisateur potentiel du véhicule lors d’une phase de création du profil d’utilisateur dudit utilisateur potentiel, une information d’identification d’un dispositif connecté étant associé au profil d’utilisateur au cours de la phase de création du profil.
  3. Procédé de mise en œuvre d’un assistant personnel selon l’une des revendications précédentes, dans lequel la localisation de la place à bord du véhicule est celle qui est associée au microphone ayant capté celui des n signaux audio qui maximise un critère de qualité de la détection du mot-clé d’activation.
  4. Procédé de mise en œuvre d’un assistant personnel selon la revendication précédente, dans lequel la localisation (140) de la place à bord du véhicule est mis en œuvre par un module de localisation (140) qui est adapté pour déterminer la place à bord du véhicule qui est associée au microphone ayant capté celui des n signaux audios qui maximise un critère de qualité de la détection du mot-clé d’activation, en comparant les rapports signal/bruit de chacun des n signaux audio captés par les n microphones, respectivement, et/ou en comparant des indices de confiance de la détection du mot-clé d’activation par le module de détection de mot-clé d’activation qui sont générés par les moteurs de détection du mot-clé d’activation dudit module de détection de mot-clé d’activation pour chacun des n signaux audio captés par les n microphones, respectivement.
  5. Procédé de mise en œuvre d’un assistant personnel selon l’une des revendications précédentes, dans lequel le dispositif connecté communique avec le véhicule par l’intermédiaire d’une liaison sans fil.
  6. Produit programme d’ordinateur comportant des instructions adaptées pour l’exécution des étapes du procédé selon l’une des revendications 1 à 5, lorsque le programme d’ordinateur est exécuté par au moins un processeur.
  7. Calculateur de véhicule automobile comprenant un processeur principal (10) et un processeur de signal numérique (20) configurés pour la mise en œuvre du procédé selon l’un quelconque des revendications 1 à 5.
  8. Véhicule automobile comprenant un calculateur selon la revendication précédente.
FR1911642A 2019-10-17 2019-10-17 Procédé et dispositif de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec utilisation d’un dispositif connecté Withdrawn FR3102287A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1911642A FR3102287A1 (fr) 2019-10-17 2019-10-17 Procédé et dispositif de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec utilisation d’un dispositif connecté

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1911642A FR3102287A1 (fr) 2019-10-17 2019-10-17 Procédé et dispositif de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec utilisation d’un dispositif connecté
FR1911642 2019-10-17

Publications (1)

Publication Number Publication Date
FR3102287A1 true FR3102287A1 (fr) 2021-04-23

Family

ID=69468769

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1911642A Withdrawn FR3102287A1 (fr) 2019-10-17 2019-10-17 Procédé et dispositif de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec utilisation d’un dispositif connecté

Country Status (1)

Country Link
FR (1) FR3102287A1 (fr)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
US20150169284A1 (en) * 2013-12-16 2015-06-18 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US20160269524A1 (en) * 2015-03-09 2016-09-15 Ford Global Technologies, Llc Voice profile-based in-vehicle infotainment identity identification
US20180204569A1 (en) * 2017-01-17 2018-07-19 Ford Global Technologies, Llc Voice Assistant Tracking And Activation
US20180332389A1 (en) * 2016-06-03 2018-11-15 Faraday&Future Inc. Method and apparatus to detect and isolate audio in a vehicle using multiple microphones
US10409552B1 (en) * 2016-09-19 2019-09-10 Amazon Technologies, Inc. Speech-based audio indicators

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
US20150169284A1 (en) * 2013-12-16 2015-06-18 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US20160269524A1 (en) * 2015-03-09 2016-09-15 Ford Global Technologies, Llc Voice profile-based in-vehicle infotainment identity identification
US9544412B2 (en) 2015-03-09 2017-01-10 Ford Global Technologies, Llc Voice profile-based in-vehicle infotainment identity identification
US20180332389A1 (en) * 2016-06-03 2018-11-15 Faraday&Future Inc. Method and apparatus to detect and isolate audio in a vehicle using multiple microphones
US10409552B1 (en) * 2016-09-19 2019-09-10 Amazon Technologies, Inc. Speech-based audio indicators
US20180204569A1 (en) * 2017-01-17 2018-07-19 Ford Global Technologies, Llc Voice Assistant Tracking And Activation

Similar Documents

Publication Publication Date Title
US20230178077A1 (en) Techniques for wake-up work recognition and related systems and methods
EP3678135B1 (fr) Commande vocale dans un environnement multi-interlocuteurs et multimédia
EP0974221B1 (fr) Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
US20230274740A1 (en) Arbitrating between multiple potentially-responsive electronic devices
JP2018027731A (ja) 車載装置、車載装置の制御方法およびコンテンツ提供システム
CN113539265B (zh) 一种控制方法、装置、设备及存储介质
FR3097364A1 (fr) Architecture de traitement de signal pour détecter un mot-clé d’activation dans un signal audio, procédé de gestion d’un assistant numérique personnel l’utilisant, et véhicule automobile l’incorporant
FR3102287A1 (fr) Procédé et dispositif de mise en œuvre d’un assistant personnel virtuel dans un véhicule automobile avec utilisation d’un dispositif connecté
FR3100206A1 (fr) Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant
US20070043570A1 (en) Method of controlling a dialoging process
EP4062401B1 (fr) Dispositif pour mettre en oeuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d'un utilisateur, et véhicule automobile l'incorporant
WO2020141150A1 (fr) Procédé, dispositif, et programme de personnalisation et d'activation d'un système d'assistant virtuel personnel de véhicules automobiles
JP6332072B2 (ja) 対話装置
US20220208185A1 (en) Speech Dialog System for Multiple Passengers in a Car
FR3089035A1 (fr) Procédé d’activation sélective d’assistants personnels virtuels dans un véhicule automobile
FR3104796A1 (fr) Procédé et système de détection d’un mot-clé d’activation pour un système à commande vocale embarqué dans un véhicule automobile
EP3373117B1 (fr) Procédé de commande d'au moins une fonction d'un véhicule par l'accomplissement d'au moins un geste de commande associé à cette fonction
JP7280074B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
FR3106009A1 (fr) Procédé et dispositif de sélection de divertissements par un assistant personnel virtuel embarqué dans un véhicule automobile, et véhicule automobile l’incorporant
WO2023122283A1 (fr) Optimisation d'assistant vocal dépendant de l'occupation d'un véhicule
CN116705027A (zh) 语音信息处理方法、装置、电子设备及可读存储介质
FR3091607A1 (fr) Procédé de commande d’une pluralité d’assistants personnels intelligents et dispositifs associés
CN117995168A (zh) 一种用于ipa的语音处理方法和系统
CN114710733A (zh) 语音播放方法、装置、计算机可读存储介质及电子设备

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210423

ST Notification of lapse

Effective date: 20220605